CN114466921A

CN114466921A - 膜转运蛋白及其用途

Info

Publication number: CN114466921A
Application number: CN202080067120.7A
Authority: CN
Inventors: S·凯利; M·尼克劳斯; O·马丁森; B·阿布-贾穆斯
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxford University Innovation Ltd
Priority date: 2019-08-14
Filing date: 2020-08-14
Publication date: 2022-05-10
Also published as: US20220275406A1; WO2021028876A1

Abstract

提供了表达膜转运蛋白的重组细胞，以及它们在各种应用中的使用方法。这些应用包括但不限于工业生物技术，和生化途径或其组分(例如光合途径或其组分)的再现/模拟。重组细胞可以作为转基因生物(例如转基因植物)的组分提供。

Description

膜转运蛋白及其用途

技术领域

本发明涉及生物技术领域，更具体地涉及用于跨生物膜(例如细胞膜、细胞器膜)转运分子的组合物和方法。提供表达膜转运蛋白的重组细胞，以及它们在各种应用中的使用方法。这些应用包括但不限于工业生物技术，和生化途径或其组分(例如光合途径或其组分)的再现/模拟。重组细胞可以作为转基因生物(例如转基因植物)的组分提供。

背景技术

转运蛋白

存在许多使分子能够跨生物膜运动的蛋白质。这些被统称为转运蛋白，并根据其作用机制分为四个不同的类别：单向转运蛋白、同向转运蛋白、反向转运蛋白和通道。单向转运蛋白跨生物膜转运单个分子(带电或不带电)。单向转运蛋白可以使用促进扩散和/或沿扩散梯度的转运，或者可以使用主动转运过程逆着扩散梯度转运。同向转运蛋白和反向转运蛋白都是同时转运多个分子的协同转运蛋白。同向转运蛋白以彼此相同的方向转运这些分子，而反向转运蛋白则以彼此相反的方向转运这些分子。通道是在生物膜中形成选择性孔的蛋白质，所述选择性孔允许某些分子的被动双向传输，而其他分子则不被允许。

单羧酸盐、二羧酸盐和三羧酸盐

在活细胞中，单羧酸盐/单羧酸、二羧酸盐/二羧酸和三羧酸盐/三羧酸是初级代谢的关键中间体，也是脂质和氨基酸的基本组成部分(图1)。尽管这些代谢物在正常细胞生长过程中不断产生，但它们也被初级代谢过程(如呼吸和氨基酸生物合成)不断消耗。因此，这些代谢物通常不会在细胞内积累到高水平，并且细胞通常不会将它们作为废物分泌或丢弃。

单羧酸盐/单羧酸、二羧酸盐/二羧酸和三羧酸盐/三羧酸在工业生物技术中占据中心位置。就像在生命系统中一样，这些被用作大量复杂化学品的组成部分，其非限制性实例包括聚合物、溶剂和药物。因此，对这些简单代谢物的需求很大。这些代谢物的生物生产是通过从较便宜的糖中发酵而来的。用于生物生产这些代谢物的底盘有机体自然地或经过工程改造以在细胞内积累高浓度。因此，这些代谢物的生物生产成本的很大一部分归因于从细胞中提取代谢物并随后将其与其他细胞污染物分离的过程。因此，如果可以在发酵过程中从细胞中特异性地输出这些代谢物，则可以显著降低生产成本。虽然已经表征了将这些代谢物输入细胞的多种转运蛋白，但关于能够跨生物膜输出这些代谢物的转运蛋白的可用信息有限。

例如，有两类已知的单羧酸盐转运蛋白：1)同向转运单羧酸盐/单羧酸与阳离子的那些(非限制性实例包括线粒体丙酮酸盐载体、胆汁酸钠同向转运蛋白和单羧酸盐转运蛋白家族)。2)反向转运单羧酸盐/单羧酸以交换二羧酸盐/二羧酸或三羧酸盐/三羧酸的那些(非限制性实例包括细菌MleN二羧酸盐:单羧酸盐反向转运蛋白和CitP三羧酸盐:单羧酸盐反向转运蛋白)。

有三类已知的二羧酸盐/二羧酸转运蛋白：1)输入二羧酸盐/二羧酸以交换磷酸盐、硫酸盐或硫代硫酸盐离子的那些(非限制性实例包括线粒体二羧酸盐载体和相关蛋白质)。2)同向转运二羧酸盐/二羧酸与阳离子的那些(非限制性实例包括细菌DctA同向转运蛋白和相关蛋白质)。3)反向转运二羧酸盐/二羧酸以交换其他三羧酸盐/三羧酸、二羧酸盐/二羧酸或单羧酸盐/单羧酸的那些(非限制性实例包括细菌Dcu(DcuA、DcuB和DcuC)二羧酸盐反向转运蛋白和CitT三羧酸盐:二羧酸盐反向转运蛋白，和植物DiT二羧酸盐反向转运蛋白)。在所有情况下，要么没有二羧酸盐/二羧酸的净运动(即，二羧酸盐/二羧酸对其他二羧酸盐/二羧酸进行反向转运，因此每当有一个穿过膜，都会有另一个返回)，要么有二羧酸盐/二羧酸的净流入。没有已知的转运蛋白可以促进二羧酸盐/二羧酸在流出方向上的净运动。

有两类已知的三羧酸盐/三羧酸转运蛋白：1)同向转运三羧酸盐/三羧酸与阳离子的那些(非限制性实例包括细菌CitM和CitH反向转运蛋白)。2)反向转运三羧酸盐/三羧酸以交换其他三羧酸盐/三羧酸、二羧酸盐/二羧酸或单羧酸盐/单羧酸的那些(非限制性实例包括细菌CitT、真菌Yhm2和植物TDT三羧酸盐:二羧酸盐反向转运蛋白，以及细菌CitP三羧酸盐:单羧酸盐反向转运蛋白)。

C₄光合作用

大多数植物物种可以分为三种不同的光合作用类型；标准C₃类型和两种衍生类型的光合作用，称为C₄和CAM。C₄植物在捕获CO₂和产生生物质方面通常比C₃或CAM植物更有效。例如，尽管C₄植物仅占植物物种的约3％，但它们负责25％的陆地CO₂固定。此外，许多全球重要的作物和动物饲料植物使用C₄光合作用。因此，从生态和粮食安全的角度来看，了解C₄光合作用的工作原理很重要。然而，尽管对C₄光合作用的生物化学进行了50多年的研究，但尚未描述C₄光合作用的完整生化途径。在大多数C₄物种中，C₄循环中缺失的分子组分是单羧酸盐/单羧酸和二羧酸盐/二羧酸转运蛋白。具体而言，尚不清楚二羧酸苹果酸盐如何进入束鞘叶绿体以及单羧酸盐丙酮酸盐如何离开束鞘叶绿体(图2)。需要促进这些代谢物运动的转运蛋白将C₄光合作用工程改造到C₃植物中。

发明内容

本领域需要鉴定可用于促进单羧酸盐/单羧酸和/或二羧酸盐/二羧酸和/或三羧酸盐/三羧酸从细胞和/或细胞器输出的蛋白质。这类蛋白质的鉴定在许多应用中可能是有利的，这些应用包括但不限于工业生物技术(例如蛋白质、肽、代谢物、分子、化合物等的生产)，和/或细胞中的生化途径的增强(例如C₄光合作用、CAM光合作用等)。

本发明通过鉴定膜转运蛋白并证明它们从细胞中输出单羧酸盐/单羧酸和/或二羧酸盐/二羧酸和/或三羧酸盐/三羧酸的能力来解决本领域中存在的至少一种需求。

本发明还证明了膜转运蛋白在C₄光合途径中的功能，并证明了该蛋白质可以在植物的叶绿体中表达。

本发明至少部分地涉及以下实施方案1-40：

实施方案1.一种与相应的野生型形式的细胞相比，经过工程改造以过表达UPF0114家族蛋白的重组细胞，其中所述UPF0114家族蛋白由稳定地或瞬时地引入所述重组细胞的重组核酸序列编码，并且能够跨所述重组细胞的膜转运羧酸盐和/或羧酸。

实施方案2.实施方案1的重组细胞，其中：

-所述羧酸盐包括以下任何一种：

(i)单羧酸盐；

(ii)二羧酸盐；或

(iii)三羧酸盐；或

(iv)单羧酸盐和二羧酸盐；或

(v)单羧酸盐和三羧酸盐；或

(vi)二羧酸盐和三羧酸盐；或

(vii)单羧酸盐、二羧酸盐和三羧酸盐；

-所述羧酸包括以下任何一种：

(i)单羧酸；

(ii)二羧酸；或

(iii)三羧酸；或

(iv)单羧酸和二羧酸；或

(v)单羧酸和三羧酸；或

(vi)二羧酸和三羧酸；或

(vii)单羧酸、二羧酸和三羧酸。

实施方案3.实施方案1或实施方案2的重组细胞，其中所述相应的野生型形式的细胞不表达所述UPF0114家族蛋白。

实施方案4.实施方案1至3中任一项的重组细胞，其中所述UPF0114家族蛋白对于所述重组细胞是外源的。

实施方案5.实施方案1至4中任一项的重组细胞，其中：

-所述羧酸盐包括以下任何一种或多种：苹果酸盐、丙酮酸盐、琥珀酸盐、富马酸盐、α-酮戊二酸盐、柠檬酸盐、甘油酸-3-磷酸盐、磷酸烯醇丙酮酸盐；

-所述羧酸包括以下任何一种或多种：苹果酸、丙酮酸、琥珀酸、富马酸、α-酮戊二酸、柠檬酸、3-磷酸甘油酸、磷酸烯醇丙酮酸。

实施方案6.实施方案1至5中任一项的重组细胞，其中所述UPF0114家族蛋白能够跨所述膜双向转运所述羧酸盐和/或羧酸。

实施方案7.实施方案1至6中任一项的重组细胞，其中所述膜是细胞质膜。细胞质膜可替代地称为细胞膜、细胞被膜(cell envelope)、细胞被膜膜(cell envelopemembrane)或质膜。细胞质膜可以是由外膜和内膜组成的双膜。

实施方案8.实施方案1至6中任一项的重组细胞，其中所述膜是细胞内膜。细胞内膜可以是叶绿体膜(例如叶绿体被膜内膜和/或外膜、叶绿体内膜如类囊体膜)、过氧化物酶体膜或线粒体膜(例如内和/或外线粒体膜)。

实施方案9.实施方案1至8中任一项的重组细胞，其中所述UPF0114家族蛋白能够逆着存在于所述膜一侧的浓度梯度跨所述重组细胞的膜转运羧酸盐和/或羧酸。

实施方案10.实施方案1至9中任一项的重组细胞，其中所述UPF0114家族蛋白能够沿着存在于所述膜一侧的浓度梯度跨所述重组细胞的膜转运羧酸盐和/或羧酸。

实施方案11.实施方案1至10中任一项的重组细胞，其中所述重组细胞是原核、真核、古细菌、植物、藻类、细菌、酵母、真菌、动物、哺乳动物或合成细胞。

实施方案12.实施方案1至11中任一项的重组细胞，其中所述重组细胞是：重组棒杆菌属种、重组黄单胞菌属种、重组埃希菌属种、重组芽孢杆菌属种、重组梭状杆菌属种、重组乳酸杆菌属种、重组乳球菌属种、重组链球菌属种、重组放线菌属种、重组链霉菌属种或重组放线杆菌属种。

实施方案13.实施方案1至12中任一项的重组细胞，其中所述重组细胞是重组大肠杆菌细胞。

实施方案14.实施方案11或实施方案13的重组细胞，其中：

-所述羧酸盐包括以下任何一种或多种：琥珀酸盐、丙酮酸盐、富马酸盐、苹果酸盐、柠檬酸盐、磷酸烯醇丙酮酸盐、α-酮戊二酸盐、3-磷酸甘油酸盐；

-所述羧酸包括以下任何一种或多种：琥珀酸、丙酮酸、富马酸、苹果酸、柠檬酸、磷酸烯醇丙酮酸、α-酮戊二酸、3-磷酸甘油酸。

实施方案15.实施方案1至11中任一项的重组细胞，其中所述重组细胞是植物细胞或藻类细胞。

实施方案16.实施方案15的重组细胞，其中所述植物细胞是：C₃光合植物、CAM光合植物或C₄光合植物的维管鞘细胞、束鞘细胞、束内输导组织鞘细胞或叶肉细胞。

实施方案17.实施方案15或实施方案16的重组细胞，其中：

-所述羧酸盐包括苹果酸盐和/或丙酮酸盐；

-所述羧酸包括苹果酸和/或丙酮酸。

实施方案18.实施方案17的重组细胞，其中所述UPF0114家族蛋白能够将苹果酸盐和/或苹果酸摄取到所述重组细胞中并从所述重组细胞输出丙酮酸盐和/或丙酮酸。

实施方案19.实施方案18的重组细胞，其中从所述重组细胞的所述输出是逆浓度梯度的。

实施方案20.实施方案15至19中任一项的重组细胞，其中所述重组核酸序列包括编码将所述UPF0114家族蛋白靶向至叶绿体膜、细胞质膜、过氧化物酶体膜或线粒体膜的靶向肽的序列。

实施例21.实施方案1至20中任一项的重组细胞，其中所述UPF0114家族蛋白包括：

(i)如SEQ ID NO:28-37中任一者所定义的PFAM蛋白结构域UPF0114(PF03350)氨基酸序列；或

(ii)与SEQ ID NO:28-37中的任一者具有至少70％、75％、80％、85％、87％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的PFAM蛋白结构域UPF0114(PF03350)氨基酸序列；或

(iii)(i)或(ii)的PFAM蛋白结构域UPF0114(PF03350)氨基酸序列的同源物、类似物、直系同源物或旁系同源物。

实施方案22.实施方案15至21中任一项的重组细胞，其中所述植物细胞来自以下任一者：

(i)稻属(Oryza)植物(例如稻植物)；

(ii)水稻(Oryza sativa)或光稃稻(Oryza glaberrima)植物。

实施方案23.实施方案15至20中任一项的重组细胞，其中所述植物细胞来自：大豆(Glycine max)、棉花(Gossypium hirsutum)、油菜(B.napus subsp.Napus)、马铃薯(Solanum tuberosum)、番茄(Solanum lycopersicum)、木薯(Manihot esculenta)、小麦(Triticum aestivum)、大麦(Hordeum vulgare)、木豆(Cajanus cajan)、豇豆(Vignaunguiculata)、豌豆(Pisum sativum)、大麻(Cannabis sativa)、甜菜(Beta vulgaris)、燕麦(Avena sativa)、黑麦(Secale cereal)、花生(Arachis hypogaea)、向日葵(Helianthusannuus)、亚麻(Linum spp.)、菜豆(Phaseolus vulgaris)、棉豆(Phaseolus lunatus)、绿豆(Phaseolus mung)、赤豆(Phaseolus angularis)、鹰嘴豆(Cicer arietinum)、烟草(Nicotiana tabacum)、荞麦(Fagopyrum esculentum)、油棕(Elaeis guineensis)或橡胶(Hevea brasiliensis)植物。

实施方案24.实施方案1至23中任一项的重组细胞，其中所述UPF0114家族蛋白是以下任一者：C₄光合植物UPF0114蛋白、C₃光合植物UPF0114蛋白、藻类UPF0114蛋白、细菌UPF0114蛋白或古细菌UPF0114蛋白。

实施方案25.实施方案1至24中任一项的重组细胞，其中所述UPF0114家族蛋白是以下任一者：

(i)拟南芥(Arabidopsis thaliana)UPF0114蛋白；

(ii)谷子(Setaria italica)UPF0114蛋白；

(iii)狗尾草(Setaria viridis)UPF0114蛋白；；

(iv)大肠杆菌(Escherichia coli)UPF0114蛋白；

(v)玉米(Zea mays)UPF0114蛋白；

(vi)包含与(i)、(ii)、(iii)、(iv)或(v)的UPF0114蛋白具有至少70％、75％、80％、85％、87％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的氨基酸序列或由其组成的UPF0114蛋白；

(vii)(i)、(ii)、(iii)、(iv)或(v)的UPF0114蛋白的同源物、类似物、直系同源物或旁系同源物。

实施方案26.实施方案1至24中任一项的重组细胞，其中所述UPF0114家族蛋白：

(i)包含如SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6；SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:212、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26或SEQ ID NO:27中所定义的氨基酸序列或由其组成；或

(ii)包含与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:212、SEQ ID NO:23、SEQ IDNO:24、SEQ ID NO:25、SEQ ID NO:26或SEQ ID NO:27具有至少70％、75％、80％、85％、87％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的氨基酸序列或由其组成；或

(iii)是包含(i)或(ii)的氨基酸序列或由其组成的UPF0114家族蛋白的同源物、类似物、直系同源物或旁系同源物；或

(iv)由包含SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:14或SEQ ID NO:16或由其组成的核苷酸序列编码；或

(v)由包含与SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:14或SEQ ID NO:16具有至少70％、75％、80％、85％、87％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的核苷酸序列或由其组成的核苷酸序列编码；或

(vi)是由(iv)或(v)的核苷酸序列编码的UPF0114家族蛋白的同源物、类似物、直系同源物或旁系同源物。

实施方案27.实施方案1至26中任一项的重组细胞，其中所述重组核酸序列：

(i)与调节序列可操作地连接；和/或

(ii)是表达载体的组分；和/或

(iii)针对在重组细胞类型中表达进行密码子优化；和/或

(iv)已移除内含子序列；和/或

(v)包含用于将所述UPF0114家族蛋白引导至所述重组细胞的内膜或细胞质膜的信号肽序列。

实施方案28.实施方案1至27中任一项的重组细胞，其中所述羧酸盐和/或羧酸被磷酸化。

实施方案29.实施方案1至28中任一项的重组细胞，其中重组细胞被进一步工程改造以产生或过表达生化途径的酶和/或调节蛋白，用于产生所述羧酸盐和/或羧酸。

实施方案30.实施方案29的重组细胞，其中所述重组细胞包含表达载体，所述表达载体包含编码所述酶和/或所述调节蛋白的另外的核酸序列。

实施方案31.一种转基因植物或其种子，其包含实施方案15至30中任一项的重组细胞。

实施方案32.实施方案31的转基因植物，其包含选自以下任何一种或多种的基因：碳酸酐酶(CA)、磷酸烯醇丙酮酸羧化酶(PEPC)、苹果酸脱氢酶(MDH)、草酰乙酸/苹果酸转运蛋白(OMT)、NADP苹果酸酶(NADP-ME)、胆汁酸钠同向转运蛋白2(BASS2)、丙酮酸盐、磷酸二激酶(PPDK)、磷酸烯醇丙酮酸磷酸转位因子(PPT)。

实施方案33.一种实施方案1至30中任一项的重组细胞在产生羧酸和/或羧酸盐的方法中的用途。

实施方案34.一种产生羧酸和/或羧酸盐的方法，其包括：

(i)在根据实施方案1至30中任一项的重组细胞中产生所述羧酸盐，和

(ii)使用嵌入在所述重组细胞的所述膜内的UPF0114家族蛋白从所述重组细胞输出所述羧酸盐。

实施方案35.实施方案34的方法，其还包括在从所述UPF0114家族蛋白输出时分离所述羧酸和/或羧酸盐。

实施方案36.实施方案34或实施方案35的方法，其中所述UPF0114家族蛋白逆浓度梯度输出所述羧酸和/或羧酸盐。

实施方案37.根据实施方案34至36中任一项的方法，其中所述羧酸和/或羧酸盐是使用表达载体在所述重组细胞中产生的，所述表达载体包含编码用于产生所述羧酸和/或羧酸盐的生化途径的酶和/或调节蛋白的核酸序列。

实施方案38.根据实施方案34至37中任一项的方法，其中所述羧酸和/或羧酸盐在所述重组细胞中通过将一种或多种羧酸和/或羧酸盐前体摄取到所述重组细胞中，并在所述重组细胞内将所述前体转化为所述羧酸和/或羧酸盐而产生。

实施方案39.根据实施方案38的方法，其中所述一种或多种羧酸和/或羧酸盐前体的所述摄取通过所述UPF0114家族蛋白发生。

实施方案40.根据实施方案34至39中任一项的方法，其中：

定义

如本申请中所用，除非上下文另外明确指示，否则单数形式“一”和“所述”包括复数个引用对象。例如，除非另有说明，否则术语“细胞”还包括多个细胞。

如本文所用，术语“包含”意思是“包括”。措辞“包含(comprising)”的变体，例如“包含(comprise)”和“包含(comprises)，具有相应变化的意思。因此，例如，“包含”核苷酸序列‘A’的多核苷酸可以仅由核苷酸序列‘A’组成，或者可以包括一个或多个额外的核苷酸序列，例如核苷酸序列‘B’和/或核苷酸序列‘C’。

如本文所用，“羧酸盐”是羧酸的盐或酯。“羧酸”包括具有一个、两个或三个羧酸官能团的任何有机化合物。

如本文所用，“单羧酸盐”是单羧酸的盐或酯。“单羧酸”是具有一个羧酸官能团的任何有机化合物。

如本文所用，“二羧酸盐”是二羧酸的盐或酯。“二羧酸”是具有两个羧酸官能团的任何有机化合物。

如本文所用，“三羧酸盐”是三羧酸的盐或酯。“三羧酸”是具有三个羧酸官能团的任何有机化合物。

如本文所用，“重组细胞”将被理解为意指其中已引入重组核酸(例如重组DNA、重组RNA)的细胞。“重组核酸”是包含在自然界中原本不存在的核酸分子组合的核酸序列。如本文所提及的重组核酸可以是合成的重组核酸。

如本文所用，“UPF0114蛋白”将被理解为是指包含至少一个对应于PFAM蛋白结构域UPF0114(PF03350)的序列的跨膜蛋白，所述PFAM蛋白结构域是UPF0114家族的特征结构域，其包含跨膜螺旋(例如三到四个)。PFAM蛋白结构域UPF0114(PF03350)序列的非限制性实例在SEQ ID NO:28-37中提供，进一步的非限制性实例包括SEQ ID NO:28-37中提供的序列的同源物、类似物、直系同源物和/或旁系同源物中的任何一种或多种。当与PFAM结构域PF03350的隐马尔可夫模型*(profile hidden Markov model*)比对时，当蛋白质的氨基酸序列产生统计上显著的命中(即E值<0.001)时，可以将该蛋白质鉴别为“UPF0114蛋白质”(*参见例如Eddy,SR.(1998)Profile hidden Markov models.Bioinformatics 14:755-763；和Finn,RD.(2015)The Pfam protein families database:towards a more sustainablefuture.Nucleic Acids Research 44:D279-85)。“UPF0114蛋白”可以包含额外的结构域，包括例如一个或多个AAA+ATP酶结构域、一个或多个ATP结合结构域、一个或多个核苷酸三磷酸水解酶结构域、一个或多个SHOCT结构域、一个或多个Fe-S水解酶结构域、一个或多个NB-ARC结构域、一个或多个细胞色素C氧化酶结构域、一个或多个逆转录酶结构域、一个或多个染色体结构维持结构域和/或一个或多个主要促进子超家族结构域。“UPF0114蛋白”在本文中也可称为“UPF0114家族蛋白”、“UPF0114蛋白家族”的蛋白或“UPF0114蛋白家族的成员”，并且可以例如存在于病毒、细菌、古细菌、藻类和植物任一中。

如本文所用，“PFAM”蛋白将被理解为Pfam数据库的组成部分(例如Pfam33.1)——参见https://pfam.xfam.org/；El-Gebali等人(2019)“The Pfam protein familiesdatabase in 2019”,Nucleic Acids Research doi:10.1093/nar/gky995。为给定的PFAM蛋白质条目提供的数据是基于UniProt Reference Proteomes，但仍然可以通过输入蛋白质登记号找到有关个别UniProtKB序列的信息。Pfam完全对齐可通过搜索各种数据库获得，以提供不同的登记号(例如所有UniProt和NCBIGI)或不同级别的冗余。

如本文所用，“细胞质膜”将被理解为意指将细胞内部与其外部环境分开的生物膜。本文和/或本领域中使用的将被理解为等同于“细胞质膜”的其他术语包括“细胞膜”、“细胞被膜”、“细胞被膜膜”和“质膜”。在细胞具有双膜的情况下，术语“细胞质膜”在本文中将被理解为包括细胞的外膜和/或内膜。

如本文所用，在重组细胞中表达给定生物实体(例如核酸、蛋白质、肽等)的上下文中的术语“过表达(overexpress)”、“过表达(overexpressed)”和“过表达(overexpression)”是指：(i)实体在重组细胞中的表达水平高于相同实体在相应的野生型细胞中的表达水平；或(ii)当相应的野生型细胞以可检测水平表达相同实体或根本不表达该实体时，该实体在重组细胞中以可检测水平表达。

如本文所用，在修饰的细胞、生物体、核酸序列、蛋白质、肽等的上下文中的术语“相应的野生型”是指该实体的天然形式。例如，在重组细胞被工程改造为含有包含外源核酸序列的载体的情况下，“相应的野生型”细胞会是在被工程改造为包含该载体之前以天然形式存在的细胞。作为进一步的非限制性实例，密码子优化的核酸或氨基酸序列的“相应野生型”会是在密码子优化之前以天然形式存在的序列。

如本文所用，“C₃光合植物”将被理解为包括其中所有或大部分光合作用限于C₃光合作用的任何植物。“C₃光合作用”是指仅使用卡尔文-本森循环来固定空气中的二氧化碳，从而提供三碳化合物的光合途径。本文称为“C₃”的细胞类型将被理解为来自“C₃光合植物”。

如本文所用，“C₄光合植物”将被理解为包括其中所有或大部分光合作用限于C₄光合作用的任何植物。“C₄光合作用”是指利用中间体四碳化合物通过卡尔文-本森循环将CO₂转移到CO₂固定位点的光合途径。C₄光合作用从叶肉细胞中的光依赖性反应和二氧化碳到苹果酸盐的初步固定开始。二氧化碳从苹果酸盐中释放出来，并通过RuBisCO和卡尔文-本森循环再次固定。本文称为“C₄”的细胞类型将被理解为来自“C₄光合植物”。C₄光合作用可以发生在单个细胞中，也可以分布在植物叶片中的多个细胞中。

如本文所用，“CAM光合植物”将被理解为包括其中植物的所有或大部分光合活性组织进行CAM光合作用的任何植物。“CAM光合作用”也称为“景天酸代谢”，是指包含时间分布的碳固定途径的光合途径。在进行CAM光合作用的植物中，气孔在夜间开放，使CO₂扩散到叶片中并通过磷酸烯醇丙酮酸羧化酶固定在C₄酸中。这些C₄酸在夜间积累，然后植物在白天关闭它们的气孔并使C₄酸脱羧以在RuBisCO周围释放CO₂。因此，PEP羧化和RuBisCO羧化在CAM植物中是时间上分离的。如本文所指的“CAM光合植物”包括“诱导型CAM植物”或“兼性CAM植物”，它们将被理解为可以根据环境条件在正常C₃光合作用和CAM光合作用之间切换的植物。“诱导型CAM植物”也可以在CAM和C₄光合作用之间切换。本文所指的“CAM光合植物”也可以进行一种称为“CAM循环”的形式的CAM光合作用，其中气孔在夜间不打开，而是植物回收利用呼吸产生的CO₂并储存一些在白天捕获的CO₂。

如本文所用，术语“羧酸盐/羧酸”将被理解为意指羧酸盐和/或羧酸。

如本文所用，术语“单羧酸盐/单羧酸”将被理解为意指单羧酸盐和/或单羧酸。

如本文所用，术语“二羧酸盐/二羧酸”将被理解为意指二羧酸盐和/或二羧酸。

如本文所用，术语“三羧酸盐/三羧酸”将被理解为意指三羧酸盐和/或三羧酸。

如本文所用，在跨生物膜转运分子的上下文中的短语“逆着浓度梯度”旨在表示该分子从与具有第一浓度(分子数/溶质单位)的膜的一侧相邻的第一位置转运到与膜的相反侧相邻的第二位置，该第二位置具有该分子的第二浓度(分子数/溶质单位)，其中第二浓度高于第一浓度。

如本文所用，“序列同一性”的百分比将被理解为来自两个序列的比较，其中它们被比对以给出序列之间的最大相关性。这可能包括在一个或两个序列中插入“空位”以提高比对程度。然后可以在每个被比较的序列的长度上确定序列同一性的百分比。例如，与另一个核苷酸序列(“查询序列”)具有至少95％“序列同一性”的核苷酸序列(“主题序列”)旨在表示主题序列与查询序列相同，除了主题序列可以包括每100个查询序列核苷酸的最多5个核苷酸改变。换言之，为了获得与查询序列具有至少95％序列同一性的核苷酸序列，主题序列中最多5％(即100分之5)的核苷酸可以被插入或用另一种核苷酸取代或缺失。

如本文所用，与另一序列“可操作地连接”的调节序列是指两个序列之间存在功能关系，使得调节序列具有对与其连接的序列的表达和/或定位和/或活性施加影响的能力。例如，与编码序列可操作地连接的启动子将能够调节编码序列的转录。与多肽可操作地连接的靶向肽将能够将多肽引导至特定位置(例如细胞器膜或细胞质膜)。

附图说明

现在将参考附图，仅通过举例来描述本发明的优选实施方案，其中：

图1描绘了大肠杆菌中的三羧酸循环(柠檬酸循环)。

图2描绘了当前对C₄光合循环的理解。位于叶绿体被膜中的转运蛋白由两个蓝色圆圈表示。基因名称由粗体蓝色文本表示。C₄循环缺失的转运蛋白由红色圆圈和红色字体问号(？？？)表示。CA：碳酸酐酶。PEPC：磷酸烯醇丙酮酸羧化酶。MDH：苹果酸脱氢酶。OMT：草酰乙酸/苹果酸转运蛋白。CBC：卡尔文-本森循环。NADP-ME：NADP苹果酸酶。BASS2：胆汁酸钠同向转运蛋白。PPDK：丙酮酸磷酸双激酶。PPT：磷酸烯醇丙酮酸磷酸转运蛋白。OAA：草酰乙酸盐。MAL：苹果酸盐。PYR：丙酮酸盐。PEP：磷酸烯醇丙酮酸盐。

图3描绘了由本发明的转运蛋白转运的二羧酸盐/二羧酸代谢物的非限制性集合。二羧酸盐/二羧酸在y轴标签上标出。Non-Ind表示没有转运蛋白表达的大肠杆菌细胞系的细胞培养上清液中代谢物的丰度。Si Ind表示当由来自狗尾草的Sevir.4G287300基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。At Ind表示当由来自拟南芥的AT4G19390基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。(μM)意思是微摩尔。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图4描绘了由本发明的转运蛋白转运的单羧酸盐/单羧酸代谢物的非限制性实施例。单羧酸盐/单羧酸在y轴标签上标出。Non-Ind表示没有转运蛋白表达的大肠杆菌细胞系的细胞培养上清液中代谢物的丰度。Si Ind表示当由狗尾草中的Sevir.4G287300基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。At Ind表示当由来自拟南芥的AT4G19390基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。(μM)意思是微摩尔。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图5描绘了由本发明的转运蛋白转运的三羧酸盐/三羧酸代谢物的非限制性实施例。三羧酸盐/三羧酸在y轴标签上标出。Non-Ind表示没有转运蛋白表达的大肠杆菌细胞系的细胞培养上清液中代谢物的丰度。Si Ind表示当由狗尾草中的Sevir.4G287300基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。At Ind表示当由来自拟南芥的AT4G19390基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。(μM)意思是微摩尔。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图6描绘了由本发明的转运蛋白转运的磷酸化羧酸盐代谢物的非限制性实施例。代谢物在y轴标签上标出。Non-Ind表示没有转运蛋白表达的大肠杆菌细胞系的细胞培养上清液中代谢物的丰度。Si Ind表示当由来自狗尾草的Sevir.4G287300基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。At Ind表示当由来自拟南芥的AT4G19390基因编码的蛋白质被表达时，细胞培养上清液中代谢物的丰度。(μM)意思是微摩尔。3-PGA是指3-磷酸甘油酸(3PG)，它是3-磷酸甘油酸酯的共轭酸。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图7描绘了本发明的转运蛋白如何可以将代谢物输出到比代谢物的细胞内浓度更高的浓度的非限制性实施例。在这里在时间0用三种不同的丙酮酸盐起始浓度诱导了狗尾草版本的转运蛋白的表达。大肠杆菌中丙酮酸盐的胞内浓度为390μM；该浓度由水平红色虚线表示。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图8描绘了由本发明的大肠杆菌yqhA基因编码的转运蛋白的丙酮酸盐输出活性。y轴描绘了在非诱导细胞(Non-ind)和表达转运蛋白的细胞(yqhA ind)的细胞培养上清液中测量的丙酮酸盐浓度。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图9描绘了本发明的转运蛋白的双向转运活性的非限制性实施例。在这里，大肠杆菌菌株被工程改造为缺失内源性二羧酸盐/二羧酸输入蛋白DctA(ΔdctA)。因此，该细胞系不能输入任何二羧酸盐/二羧酸，因此不能以二羧酸盐/二羧酸作为唯一碳源生长。在这里，在存在或不存在苹果酸盐作为唯一碳源的情况下，在时间0诱导了由来自狗尾草的Sevir.4G287300基因编码的蛋白质的表达。将丙酮酸盐输出到细胞培养基表明转运蛋白既可以摄取苹果酸盐又可以输出丙酮酸盐。这正是NADP-ME C₄植物的束鞘细胞叶绿体进行C₄光合作用所需的转运反应。

图10描绘了野生型植物和稳定转化的植物中与狗尾草的Sevir.4G287300基因相对应的转录本的相对丰度，这些稳定转化的植物已被工程改造为含有RNAi构建体，该RNAi构建体靶向与相同基因对应的转录本的由RNAi介导的下调。y轴是任意单位。野生型植物的相对转录本丰度在左侧，Sevir.4G287300RNAi植物的相对转录本丰度在右侧。

图11描绘了在狗尾草中RNAi介导的Sevir.4G287300下调对光合作用的影响。这表明与来自相同转化事件的非对偶系(azygous line)相比，突变系(图中的灰点，标记为“转运蛋白RNAi系”)中的光合作用严重降低。非对偶(图中标记为“分离野生型系”的黑点)系是通过分离失去转基因的转基因亲本系的后代。非对偶植物(azygous plant)被认为是理想的对照，因为它们已经经历了产生转基因植物的整个过程，就像它们的转基因“同胞”植物一样。该图显示了作为气孔下CO₂浓度(Ci)的函数作图的光合碳同化率(A)。

图12描绘了一个完整的C₄循环。该C₄循环利用了本发明的转运蛋白(以红色标记为羧酸盐转运蛋白1的CTP1)。该蛋白质可以是UPF0114蛋白家族的任何成员。CA：碳酸酐酶。PEPC：磷酸烯醇丙酮酸羧化酶。MDH：苹果酸脱氢酶。OMT：草酰乙酸/苹果酸转运蛋白。CBC：卡尔文本森循环。NADP-ME：NADP苹果酸酶。BASS2：胆汁酸钠同向转运蛋白。PPDK：丙酮酸磷酸双激酶。PPT：磷酸烯醇丙酮酸磷酸转运蛋白。OAA：草酰乙酸盐。MAL：苹果酸盐。PYR：丙酮酸盐。PEP：磷酸烯醇丙酮酸盐。

图13描绘了拟南芥AT4G19390::GFP C末端翻译融合体在拟南芥叶原生质体中的定位。提供GFP的定位作为对照。

图14描绘了谷子Si007164m::GFP C末端翻译融合体在狗尾草叶原生质体中的定位。提供GFP的定位作为对照。

图15描绘了用于敲低狗尾草Sevir.4G287300基因表达的pANIC 12A RNAi载体。

图16描绘了狗尾草植物成熟叶的束鞘细胞和叶肉细胞中狗尾草Sevir.4G287300基因的mRNA丰度。TPM是每百万个转录本中的转录本数。

图17描绘了ΔdctA大肠杆菌系在补充有不同碳源的M9基本培养基上的生长。ΔdctA大肠杆菌细胞在M9葡萄糖上生长，但由于ΔdctA大肠杆菌细胞不能输入二羧酸苹果酸盐，因此它们不能在苹果酸盐作为唯一碳源的情况下生长。野生型细胞可以输入二羧酸苹果酸盐，因此它们在补充有苹果酸盐作为唯一碳源的M9上生长。T0是诱导开始时的时间点。T1是T0之后的36小时。

图18描绘了用于表达本研究中使用的转基因的大肠杆菌诱导型表达载体。此处显示的实施例包括没有叶绿体靶肽的谷子Si007164m(Seita.4G275500)基因的大肠杆菌密码子优化版本。谷子基因的氨基酸序列与狗尾草基因Sevir.4G287300的氨基酸序列100％相同。

图19描绘了由本发明的玉米GRMZM2G327686、GRMZ2G133400和GRMZM2G179292基因编码的转运蛋白的丙酮酸盐输出活性。y轴描绘了在非诱导细胞(-)和表达转运蛋白的细胞(+)的细胞培养上清液中测量的丙酮酸盐浓度。细胞在以葡萄糖为唯一碳源的M9基本培养基中生长。

图20描绘了谷子Si007164m::GFP C末端翻译融合体在水稻叶原生质体中的定位。提供GFP的定位作为对照。

图21描绘了当细胞培养基中存在不同的四碳二羧酸盐的情况下在大肠杆菌中表达时，由谷子Si007164m基因(SEQ ID NO:8)编码的转运蛋白的丙酮酸盐输出活性。

图22A)描绘了棱轴土人参(Talinum triangulare)基因Tt48731的mRNA丰度，该基因是AT4G19390、Sevir.4G287300和Seita.4G275500的直系同源物。B)描绘了编码叶绿体定位的NADP-ME-2的棱轴土人参基因Tt38957的mRNA丰度。在这两种情况下，在CAM诱导周期中测量mRNA丰度，其中植物被剥夺水分12天以使植物从C₃光合作用转换为CAM光合作用。植物在第9天发生转换。第12天后，重新给植物浇水，植物在2天内恢复回C₃光合作用。

图23描绘了在本氏烟草(Nicotiana benthamiana)的叶细胞中表达的拟南芥AT4G19390::GFP C末端翻译融合体的定位。显示了两个示例性图像来描绘朝向叶绿体被膜的定位。提供GFP的定位作为对照。比例尺＝5μm。

具体实施方式

以下详细描述充分详细地传达了本发明的示例性实施方案，以使本领域的普通技术人员能够实践本发明。所描述的各种实施方案的特征或限制不一定限制本发明的其他实施方案或本发明的整体。因此，以下详细描述不限制本发明的范围，本发明的范围仅由权利要求书限定。

本领域的普通技术人员将理解，在不背离广泛描述的本发明的精神或范围的情况下，可以对具体实施方案中公开的本发明进行多种变化和/或修改。因此，本发明的实施方案在所有方面都被认为是说明性的而不是限制性的。

单羧酸盐、二羧酸盐和三羧酸盐的已知转运蛋白对于工业生物技术中的许多应用来说不是最理想的，因为它们不能将这些分子从产生或过表达它们的细胞中输出。这增加了旨在大规模生产这些代谢物的过程的复杂性、时间和/或成本。此外，尽管C₄光合途径已得到充分表征，但大多数C₄物种中C₄循环的缺失/未知分子组分是单羧酸盐/单羧酸和二羧酸盐/二羧酸转运蛋白。具体而言，在C₄植物中，尚不清楚二羧酸苹果酸盐如何进入束鞘叶绿体以及单羧酸盐丙酮酸盐如何离开束鞘叶绿体。

本发明人已经确定UPF0114家族蛋白提供跨细胞膜(内部和/或外部)转运单羧酸盐/单羧酸和/或二羧酸盐/二羧酸和/或三羧酸盐/三羧酸的手段，特别是将这些分子从细胞输出到外部环境的手段。在这样做的过程中，他们为目前在工业生物技术环境中从细胞中分离这些分子所遇到的困难提供了一种解决方案。

此外，如上所述，促进二羧酸苹果酸盐运动进入束鞘叶绿体和单羧酸盐丙酮酸盐从束鞘叶绿体离开的转运蛋白的身份对于将C₄光合作用工程改造到C₃植物中是必需的。本发明人已经证明来自C₄光合植物的UPF0114家族蛋白促进苹果酸盐的摄取和丙酮酸盐的输出，这是束鞘细胞叶绿体进行C₄光合作用所需要的。他们还表明，在C₄植物狗尾草中编码UPF0114蛋白的转录本数量减少会严重破坏C₄光合作用，因此C₄光合作用需要UPF0114家族蛋白。他们另外还表明，UPF0114家族蛋白可以在包括水稻在内的C₃和C₄植物细胞中过表达。

UPF0114蛋白家族

本发明提供了表达UPF0114家族蛋白的重组细胞，以及使用它们的方法和过程。

在本发明之前，UPF0114蛋白家族(也称为yqhA基因家族)尚未进行功能表征，其生物学作用未知。编码UPF0114蛋白家族成员的基因可以在病毒、细菌、古细菌、藻类、植物和一些其他真核生物的基因组中找到，并由相同名称的PFAM蛋白结构域UPF0114(PF03350)的存在定义。该PFAM结构域通常包含三个或四个跨膜螺旋。除了UPF0114结构域之外，UPF0114蛋白家族的成员还可以包含另外的结构域。非限制性实例包括以下任何一种或多种：AAA+ATP酶结构域、ATP结合结构域、核苷酸三磷酸水解酶结构域、SHOCT结构域、Fe-S水解酶结构域、NB-ARC结构域、细胞色素C氧化酶结构域、逆转录酶结构域、染色体结构维持结构域、主要促进子超家族结构域。UPF0114蛋白家族的成员还可以包括叶绿体和/或线粒体靶向肽(例如藻类和植物UPF0114家族蛋白)。以下提供了来自包括病毒、古细菌、细菌、绿藻和植物在内的各种生物体的非限制性/代表性UPF0114蛋白家族序列(SEQ ID NO:18-27)和它们各自的PFAM结构域PF03350序列(SEQ ID NO:28-37)。

UPF0114家族中的病毒蛋白的一个非限制性实例是柄杆菌(Caulobacter)噬菌体CcrPW中的AXQ68784.1蛋白。UPF0114 PFAM结构域PF03350如下所示。

柄杆菌属噬菌体CcrPW AXQ68784.1蛋白PFAM结构域PF03350序列：

UPF0114家族中的古细菌蛋白的一个非限制性实例是洞穴甲烷八叠球菌(Methanosarcina spelaei)中的WP_095643983.1蛋白。UPF0114结构域如下所示。

洞穴甲烷八叠球菌WP_095643983.1蛋白PFAM结构域PF03350序列：

UPF0114家族中的古细菌蛋白的另一个非限制性实例是海沼甲烷八叠球菌(Methanococcus maripaludis)中的WP_012192968.1蛋白。UPF0114 PFAM结构域PF03350如下所示。

海沼甲烷八叠球菌WP_012192968.1蛋白PFAM结构域PF03350序列：

UPF0114家族中的细菌蛋白的一个非限制性实例是大肠杆菌中的yqhA蛋白。UPF0114 PFAM结构域PF03350如下所示。

大肠杆菌yqhA蛋白PFAM结构域PF03350序列：

UPF0114家族中的细菌蛋白的另一个非限制性实例是简明弯曲杆菌(Campylobacter concisus)中的WP_021087398.1蛋白。UPF0114 PFAM结构域PF03350如下所示。

简明弯曲杆菌WP_021087398.1蛋白PFAM结构域PF03350序列：

UPF0114家族中的细菌蛋白的另一个非限制性实例是细菌红杆菌(Rhodobacteraceae bacterium)TMED111中的OUV44343.1蛋白。UPF0114PFAM结构域PF03350如下所示。

细菌红杆菌TMED111 PFAM结构域PF03350序列：

UPF0114家族中的绿藻蛋白的一个非限制性实例是细小微胞藻(Micromonaspusilla)中的108867蛋白。UPF0114 PFAM结构域PF03350如下所示。

细小微胞藻108867PFAM结构域PF03350序列：

UPF0114家族中的绿藻蛋白的另一个非限制性实例是Klebsormidium nitens中的GAQ84557.1蛋白。UPF0114 PFAM结构域PF03350如下所示。

Klebsormidium nitens GAQ84557.1蛋白PFAM结构域PF03350序列：

UPF0114家族中的植物蛋白的一个非限制性实例是拟南芥中的AT5G13720.1蛋白。UPF0114 PFAM结构域PF03350如下所示。

拟南芥AT5G13720.1蛋白PFAM结构域PF03350序列：

UPF0114家族中的植物蛋白的另一个非限制性实例是水稻中的LOC_Os03g52910.1蛋白。UPF0114 PFAM结构域PF03350如下所示。

水稻LOC_Os03g52910.1蛋白PFAM结构域PF03350序列：

如上所述，用于本发明的UPF0114家族蛋白能够跨生物膜(例如细胞器的生物膜和/或细胞质膜，即细胞质周围的细胞膜)转运羧酸盐/羧酸(例如单羧酸盐/单羧酸，和/或二羧酸盐/二羧酸，和/或三羧酸盐/三羧酸)。因此，蛋白质可能能够将羧酸盐/羧酸从细胞器(例如叶绿体、线粒体)和/或从细胞输出到外部环境中。在一些实施方案中，UPF0114家族蛋白能够双向转运相同或不同分子进入和离开细胞器和/或细胞。另外地或可选地，UPF0114家族蛋白可能能够逆浓度梯度输入和/或输出分子(例如进入和/或离开细胞器；进入和/或离开细胞)，其中靠近膜的第一侧的分子的量或浓度低于分子被转运到的膜的相对侧的量或浓度。

UPF0114蛋白家族的细菌成员的一个非限制性实例是大肠杆菌基因yqhA(UniProtID P67244，SEQ ID NO:1)。

UPF0114蛋白家族的植物成员的一个非限制性实例是(C₃光合植物)拟南芥基因AT4G19390(氨基酸序列：SEQ ID NO:2)。UPF0114蛋白家族的植物成员的第二个非限制性实例是(C₄光合植物)谷子Si007164m(也称为Seita.4G275500)(氨基酸序列：SEQ ID NO:3)。UPF0114蛋白家族的植物成员的第三个非限制性实例是(C₄光合植物)狗尾草Sevir.4G287300基因(氨基酸序列：SEQ ID NO:6)。UPF0114蛋白家族的植物成员的第四个非限制性实例是(C₄光合植物)玉米GRMZM2G179292基因(氨基酸序列：SEQ ID NO:9)。UPF0114蛋白家族的植物成员的第五个非限制性实例是(C₄光合植物)玉米GRMZM2G133400基因(氨基酸序列：SEQ ID NO:10)。UPF0114蛋白家族的植物成员的第六个非限制性实例是(C₄光合植物)玉米GRMZM2G327686基因(氨基酸序列：SEQ ID NO:11)。在一些实施方案中，UPF0114蛋白可以分类为有胚植物(Embryophyta)、链丝藻(Klebsormidiophyceae)、绿藻(Chlorophyta)、病毒(Viridae)、细菌(Bacteria)或古细菌(Archaea)蛋白。

本发明包括本文提供的特定UPF0114蛋白和蛋白序列的同源物、类似物、直系同源物和旁系同源物。鉴于在例如病毒、细菌、古细菌、藻类和植物UPF0114家族蛋白中明显的高水平进化保守性，本领域技术人员无需创造性努力即可使用常规方法鉴定此类同源物、类似物、直系同源物和旁系同源物。技术人员可获得大量可公开访问的在线工具，这些工具可用于查找与目的UPF0114蛋白或核苷酸序列相似的核苷酸和蛋白质序列。

用于评估序列之间的同源性和同一性水平的方法是本领域众所周知的。例如，可以使用数学算法计算两个序列之间的序列同一性百分比。在Karlin及其同事的出版物(1993,PNAS USA,90:5873-5877)中描述了合适的数学算法的非限制性实例。该算法集成在BLAST(基本局部对齐搜索工具)程序系列中(还参见Altschul等人(1990),J.Mol.Biol.215,403-410或Altschul等人(1997),Nucleic Acids Res,25:3389-3402)，可通过国家生物技术信息中心(NCBI)网站主页(https://www.ncbi.nlm.nih.gov)访问。BLAST程序可在https://blast.ncbi.nlm.nih.gov/Blast.cgi上免费访问。其他非限制性实例包括HMMER(http://hmmer.org/)、Clustal(http://www.clustal.org/)和FASTA(Pearson(1990),Methods Enzymol.83,63-98；Pearson and Lipman(1988),Proc.Natl.Acad.Sci.U.S.A 85,2444-2448.)程序。这些和其他程序可用于鉴定至少在某种程度上与给定输入序列相同的序列。另外地或可选地，Wisconsin Sequence AnalysisPackage 9.1版(Devereux等人1984,Nucleic Acids Res.,387-395)中可用的程序，例如程序GAP和BESTFIT，可用于确定两个多肽序列之间的序列同一性百分比。BESTFIT使用Smith和Waterman(1981,J.Mol.Biol.147,195-197)的局部同源算法并鉴定两个序列之间的最佳单一相似区域。在本文提及与参考氨基酸序列具有指定序列同一性百分比的氨基酸序列时，序列之间的差异可能部分或完全由氨基酸取代引起。在这类情况下，用氨基酸取代鉴定的序列可以基本上或完全保留参考序列的相同生物活性。

序列修饰

本发明的UPF0114蛋白家族序列可以被修饰以增强在重组细胞中的表达。存在许多公开可用的在线工具以使技术人员能够优化用于本发明的核苷酸或蛋白质序列(参见例如，http://genomes.urv.es/OPTIMIZER)。

例如，可以通过密码子优化来修饰序列。如本领域技术人员所知，生物体的不同之处在于它们使用特定密码子而不是其他密码子来编码相同氨基酸的倾向。因此，密码子优化可用于增强UPF0114蛋白序列在特定细胞类型中的表达。

另外地或可选地，编码本发明的UPF0114家族蛋白的核苷酸序列可以通过去除一个或多个内含子来修饰。

另外地或可选地，编码本发明的UPF0114家族蛋白的核苷酸序列可以通过将它们可操作地连接到调节序列(例如启动子、增强子等)来修饰，以操纵它们被转录的水平。

另外地或可选地，本发明的UPF0114蛋白家族序列可以被操纵以将蛋白的运动引导至特定的内部细胞位置(例如细胞器如叶绿体或线粒体的被膜膜)或细胞质膜本身(即细胞质周围的细胞膜)。例如，这些序列可以与信号肽或靶向肽序列可操作地连接，或者可选地已被去除现有的信号肽序列。

另外地或可选地，本发明的UPF0114蛋白家族序列可以被操纵以通过掺入标签序列等的方式促进检测和/或分离。

本领域技术人员将认识到，上述序列修饰的实例是非限制性的，其中可获得许多其他已知的序列修饰，其可用作常规标的物。本发明考虑了这种性质的任何和所有修改。

羧酸盐

本发明的UPF0114家族蛋白用于转运羧酸盐，特别是单羧酸盐/单羧酸和/或二羧酸盐/二羧酸和/或三羧酸盐/三羧酸中的任何一种或多种。

在本发明的一些实施方案中，羧酸盐/羧酸可包括单羧酸盐/单羧酸或由其组成。例如，单羧酸盐/单羧酸可包括丙酮酸盐/丙酮酸或由其组成。另外地或可选地，单羧酸盐/单羧酸可包括以下任何一种或多种或由其组成：乳酸盐/乳酸、甘油酸盐/甘油酸、乙酸盐/乙酸、支链含氧酸、乙酰乙酸盐、β-羟基丁酸盐。

在本发明的一些实施方案中，羧酸盐/羧酸可包括二羧酸盐/二羧酸或由其组成。例如，二羧酸盐/二羧酸可包括以下任何一种或多种或由其组成：琥珀酸盐/琥珀酸、苹果酸盐/苹果酸、富马酸盐/富马酸、α-酮戊二酸盐/α-酮戊二酸、天冬氨酸盐/天冬氨酸、谷氨酸盐/谷氨酸。

在本发明的其他实施方案中，羧酸盐/羧酸可包括三羧酸盐/三羧酸或由其组成。例如，三羧酸盐/三羧酸可包括以下任何一种或多种或由其组成：柠檬酸盐/柠檬酸、异柠檬酸盐/异柠檬酸、乌头酸盐/乌头酸、丙烷-1,2,3-三羧酸、均苯三甲酸。

在本发明的其他实施方案中，羧酸盐/羧酸可以被磷酸化。因此，本发明的UPF0114家族蛋白可用于转运以下任何一种或多种：磷酸化单羧酸盐/单羧酸、磷酸化二羧酸盐/二羧酸、磷酸化三羧酸盐/三羧酸。可由UPF0114家族蛋白转运的磷酸化羧酸的非限制性实例包括甘油酸-3-磷酸盐/3-磷酸甘油酸和磷酸烯醇丙酮酸盐/磷酸烯醇丙酮酸。

如上所述，本发明的UPF0114家族蛋白可能能够使羧酸盐/羧酸跨生物膜双向运动。在一些实施方案中，UPF0114家族蛋白可能能够摄取苹果酸盐并输出更多丙酮酸盐。另外地或可选地，UPF0114家族蛋白可能能够从细胞器(例如叶绿体)、细胞(例如细菌、植物或藻类细胞)输出乳酸盐、琥珀酸盐、苹果酸盐、富马酸盐、甘油酸盐、α-酮戊二酸盐、天冬氨酸盐、乌头酸盐、柠檬酸盐、支链含氧酸、乙酰乙酸盐、β-羟基丁酸盐中的任何一种或多种。这种转运可以沿着或逆着浓度梯度发生。

重组细胞

本发明提供了表达UPF0114家族蛋白的重组细胞。UPF0114家族蛋白可由引入基础细胞中的重组核酸序列(例如重组DNA、重组RNA等)编码。

例如，可以将编码UPF0114家族蛋白的重组核酸序列瞬时引入细胞中。这可能会导致UPF0114家族蛋白在有限时期(例如1、2、3、4、5、7、8、9或10天)内瞬时表达。在宿主细胞中实现重组核酸瞬时表达的方法是本领域众所周知的。在一些实施方案中，瞬时表达可以通过当宿主细胞复制时重组核酸序列缺乏复制来表征。在一些实施方案中，瞬时表达可以通过重组核酸序列不整合到宿主细胞的基因组中来表征。

另外地或可选地，可以将编码UPF0114家族蛋白的重组核酸序列稳定地引入细胞中。已稳定引入细胞中的重组核酸序列通常会在宿主细胞复制时被复制。在一些实施方案中，稳定表达可以通过重组核酸序列整合到宿主细胞的基因组中来表征。在一些实施方案中，稳定表达可以通过将重组核酸序列作为载体(例如表达载体)的组分引入细胞来表征。用于此目的的合适载体为本领域技术人员所熟知，包括但不限于质粒、粘粒、酵母载体、酵母人工染色体、细菌人工染色体、P1人工染色体、植物人工染色体、藻类人工染色体、修饰病毒(例如修饰的腺病毒、逆转录病毒或噬菌体)和可移动的遗传元件(例如转座子)。

用于生产重组核酸(例如重组DNA、重组RNA等)(包括以载体形式提供的那些)的技术是本领域技术人员熟知的，将重组核酸引入细胞的技术也是如此(例如电穿孔、显微注射、基因枪递送系统、磷酸钙共沉淀、基于阳离子脂质的转染试剂、二乙氨基乙基葡聚糖)。例如，可以在例如Green和Joseph.(2012),Molecular cloning:a laboratory manual,第四版Cold Spring Harbor,N.Y.:Cold Spring Harbor Laboratory Press；Ausubel等人(1987-2016).Current Protocols in Molecular Biology.New York,NY,John Wiley&Sons；以及‘Cloning a Specific Gene.’,Griffiths等人1999Modern GeneticAnalysis.New York:W.H.Freeman等标准文本中找到有关合适方法的一般指导。

重组细胞可以是任何合适的类型，包括但不限于原核、真核、古细菌、植物、藻类、细菌、酵母、真菌、动物、哺乳动物或合成细胞。

在一些实施方案中，宿主细胞可以是细菌细胞，例如大肠杆菌或根癌农杆菌(Agrobacterium tumefaciens)。细菌细胞可以是自养的(例如蓝细菌)。

在其他实施方案中，宿主细胞可以是植物细胞(例如C₃光合植物细胞，例如C₃植物维管鞘细胞、C₃植物束鞘细胞、C₃植物束内输导组织鞘细胞或C₃植物叶肉细胞；C₄光合植物细胞，例如C₄植物维管鞘细胞、C₄植物束鞘细胞、C4植物束内输导组织鞘细胞或C₄植物叶肉细胞；或CAM光合植物细胞，例如CAM植物维管鞘细胞，CAM植物束鞘细胞、CAM植物束内输导组织鞘细胞或CAM植物叶肉细胞)。

在其他实施方案中，宿主细胞可以是酵母，例如酿酒酵母(Saccharomycescerevisiae)、毕赤酵母(Pichia pastoris)、甲醇毕赤酵母(Pichia methanolica)和多形汉逊酵母(Hansenula polymorpha)。

本发明的表达羧酸盐/羧酸的重组细胞也可以被工程改造以产生羧酸盐/羧酸。例如，重组细胞可以进一步产生单羧酸盐/单羧酸和/或二羧酸盐/二羧酸和/或三羧酸盐/三羧酸中的任何一种或多种。另外地或可选地，重组细胞可以被工程改造以产生或过表达用于产生羧酸盐/羧酸(例如用于产生单羧酸盐/单羧酸和/或二羧酸盐/二羧酸和/或三羧酸盐/三羧酸)的生化途径的酶和/或调节蛋白。

例如，可以使用上文关于UPF0114家族蛋白的过表达所描述的相同材料和技术在重组细胞中产生羧酸盐/羧酸和/或酶和/或调节蛋白。

可由重组细胞产生的单羧酸盐/单羧酸的非限制性实例包括以下任何一种或多种：丙酮酸盐/丙酮酸、乳酸盐/乳酸、甘油酸盐/甘油酸、乙酸盐/乙酸、支链含氧酸、乙酰乙酸盐、β-羟基丁酸盐。

可由重组细胞产生的二羧酸盐/二羧酸的非限制性实例包括以下任何一种或多种：琥珀酸盐/琥珀酸、苹果酸盐/苹果酸、富马酸盐/富马酸、α-酮戊二酸盐/α-酮戊二酸、天冬氨酸盐/天冬氨酸、谷氨酸盐/谷氨酸。

可由重组细胞产生的三羧酸盐/三羧酸的非限制性实例包括以下任何一种或多种：柠檬酸盐/柠檬酸、异柠檬酸盐/异柠檬酸、乌头酸盐/乌头酸、丙烷-1,2,3-三羧酸、均苯三甲酸。

重组细胞中产生的羧酸盐/羧酸可以被磷酸化(例如磷酸化的单羧酸盐/单羧酸，和/或磷酸化的二羧酸盐/二羧酸，和/或磷酸化的三羧酸盐/三羧酸)。非限制性实例包括甘油酸-3-磷酸盐/3-磷酸甘油酸和磷酸烯醇丙酮酸盐/磷酸烯醇丙酮酸。

可在重组细胞中产生的用于产生羧酸盐/羧酸的生化途径的酶和/或调节蛋白包括例如以下任何一种或多种：丙酮酸羧化酶、丙酮酸合酶、丙酮酸脱氢酶、丙酮酸激酶、柠檬酸合酶、乌头酸酶、异柠檬酸脱氢酶、α-酮戊二酸脱氢酶、琥珀酰辅酶A合酶、琥珀酸脱氢酶、延胡索酸酶、苹果酸脱氢酶、苹果酸酶、磷酸烯醇丙酮酸羧激酶、苹果酸醌氧化还原酶、谷氨酸脱氢酶、乳酸脱氢酶、异柠檬酸裂解酶、苹果酸合酶。

转基因植物

本发明的重组植物细胞可用于产生转基因植物。在本发明的一些实施方案中，转基因植物相对于未修饰植物系具有增加的光合作用速率。

作为非限制性实例，C₃光合植物细胞(例如C₃植物维管鞘细胞、C₃植物束内输导组织鞘细胞、C₃植物叶肉细胞或C₃植物束鞘细胞)可以被工程改造以表达或过表达UPF0114家族蛋白，该UPF0114家族蛋白能够跨细胞膜(例如，细胞器如叶绿体和/或线粒体的膜，和/或细胞质膜)输入和/或输出羧酸盐/羧酸(例如单羧酸盐/单羧酸，和/或二羧酸盐/二羧酸，和/或三羧酸盐/三羧酸)。UPF0114家族蛋白可以是例如来自C₃植物、C₄植物、CAM植物、藻类、病毒、细菌或古细菌的UPF0114蛋白。

在一些实施方案中，UPF0114家族蛋白可能能够将苹果酸盐输入C₃植物内的任何细胞类型或亚细胞器中，所述细胞类型或亚细胞器包括但不限于C₃植物叶肉细胞、C₃植物束鞘细胞、C₃植物叶肉细胞叶绿体、C₃植物束鞘细胞叶绿体、C₃植物叶肉细胞线粒体、C₃植物束鞘细胞线粒体。另外地或可选地，UPF0114家族蛋白可能能够从C₃植物内的任何细胞类型或亚细胞器输出丙酮酸盐，所述细胞类型或亚细胞器包括但不限于：C₃植物叶肉细胞、C₃植物束鞘细胞、C₃植物叶肉叶绿体、C₃植物束鞘细胞叶绿体。

作为另一个非限制性实例，C₄光合植物细胞(例如C₄植物维管鞘细胞、C₄植物束鞘细胞、C₄植物束内输导组织鞘细胞或C₄植物叶肉细胞)可以被工程改造以表达或过表达UPF0114家族蛋白，该UPF0114家族蛋白能够跨细胞膜(例如，细胞器如叶绿体和/或线粒体的膜，和/或细胞质膜)输入和/或输出羧酸盐/羧酸(例如单羧酸盐/单羧酸，和/或二羧酸盐/二羧酸，和/或三羧酸盐/三羧酸)。UPF0114家族蛋白可以是例如来自C₃植物、C₄植物、CAM植物、藻类、病毒、细菌或古细菌的UPF0114蛋白。

在一些实施方案中，UPF0114家族蛋白可能能够将苹果酸盐输入C₄植物内的任何细胞类型或亚细胞器中，所述细胞类型或亚细胞器包括但不限于C₄植物叶肉细胞、C₄植物束鞘细胞、C₄植物叶肉细胞叶绿体、C₄植物束鞘细胞叶绿体、C₄植物叶肉细胞线粒体、C₄植物束鞘细胞线粒体。另外地或可选地，UPF0114家族蛋白可能能够从以下任何一种或多种输出丙酮酸盐：C₄植物叶肉细胞、C₄植物束鞘细胞、C₄植物叶肉叶绿体、C₄植物束鞘细胞叶绿体。

作为非限制性实例，进行景天酸代谢(CAM)的植物细胞(例如CAM植物维管鞘细胞、CAM植物束鞘细胞、CAM植物束内输导组织鞘细胞、CAM植物叶肉细胞或CAM植物束鞘细胞)可以被工程改造以表达或过表达UPF0114家族蛋白，该UPF0114家族蛋白能够跨细胞膜(例如，细胞器如叶绿体和/或线粒体的膜，和/或细胞质膜)输入和/或输出羧酸盐/羧酸(例如单羧酸盐/单羧酸，和/或二羧酸盐/二羧酸，和/或三羧酸盐/三羧酸)。UPF0114家族蛋白可以是例如来自C₃植物、C₄植物、CAM植物、藻类、病毒、细菌或古细菌的UPF0114蛋白。

在一些实施方案中，UPF0114家族蛋白可能能够将苹果酸盐输入CAM植物内的任何细胞类型或亚细胞器中，所述细胞类型或亚细胞器包括但不限于CAM植物叶肉细胞、CAM植物束鞘细胞、CAM植物叶肉细胞叶绿体、CAM植物束鞘细胞叶绿体、CAM植物叶肉细胞线粒体、CAM植物束鞘细胞线粒体。另外地或可选地，UPF0114家族蛋白可能能够从以下任何一种或多种输出丙酮酸盐：CAM植物叶肉细胞、CAM植物束鞘细胞、CAM植物叶肉叶绿体、CAM植物束鞘细胞叶绿体。

产生转基因植物的方法为本领域技术人员所熟知(参见例如Gamborg和Phillips,1995,Plant cell,tissue and organ culture:fundamental methods.Springer,Berlin；Low等人2018,‘Transgenic Plants:Gene Constructs,Vector and TransformationMethod’in New Visions in Plant Science,

(编),IntechOpen；Transgenic CropPlants,第1卷.Principles and Development,2010,Kole,Michler,Abbott,Hall,(编))。

在一些实施方案中，转基因植物可以是单子叶植物。在其他实施方案中，转基因植物可以是双子叶植物。在其他实施方案中，转基因植物可以是稻属植物，例如稻植物(例如，水稻植物或光稃稻植物)。

在一些实施方案中，转基因植物可以是大豆(Glycine max)、棉花(Gossypiumhirsutum)、油菜(Cannola/B.napus subsp.Napus)、马铃薯(Solanum tuberosum)、番茄(Solanum lycopersicum)、木薯(Manihot esculenta)、玉米(Zea mays)、高粱(Sorghumbicolor)、甘蔗(Saccharum officinarum)、谷子(/Setaria italica)、黍(Panicummiliaceum)、芒草(Miscanthus giganteus)、小麦(Triticum aestivum)、大麦(Hordeumvulgare)、木豆(Cajanus cajan)、豇豆(Vigna unguiculata)、豌豆(Pisum sativum)、大麻(Cannabis sativa)、甜菜(Beta vulgaris)、燕麦(Avena sativa)、黑麦(Secale cereal)、花生(Arachis hypogaea)、向日葵(Helianthus annuus)、亚麻(Linum spp.)、菜豆(Phaseolus vulgaris)、棉豆(Phaseolus lunatus)、绿豆(Phaseolus mung)、赤豆(Phaseolus angularis)、鹰嘴豆(Cicer arietinum)、烟草(Nicotiana tabacum)、荞麦(Fagopyrum esculentum)、油棕(Elaeis guineensis)或橡胶(Hevea brasiliensis)。

还提供了从本发明的转基因植物获得的种子。

使用方法

本文提供了利用本发明的重组细胞的方法。

非限制性地，重组细胞可以用于代谢物生产，因为它们提供了一种沿着或逆着浓度梯度输出羧酸盐/羧酸的手段。例如，本发明的重组细胞可用于羧酸盐如丙酮酸盐或琥珀酸盐的商业生产，所述羧酸盐又可用作大量复杂化学品的结构单元，所述复杂化学品的非限制性实例包括聚合物、溶剂和药品。在一些实施方案中，这些代谢物的生物生产可以通过从较便宜的糖发酵来进行。目前用于生物生产羧酸盐的微生物要么是天然的，要么是经过工程改造以在细胞内积累高浓度的羧酸盐。这些代谢物的生物生产成本的很大一部分归因于从细胞中提取代谢物并随后将其与其他细胞污染物分离的过程。因此，本发明的重组细胞和方法可以通过在发酵过程中特异性地从细胞中输出这些代谢物来显著降低羧酸盐生产的成本。在其他实施方案中，羧酸盐可以在本发明的重组细胞中过表达，并且类似地通过工程改造到细胞膜中的UPF0114家族蛋白输出以促进更有效和更简化的收集。

本发明的其他方法涉及如上所述的转基因植物的产生。与相应的野生型植物相比，转基因植物理想地具有增加的光合速率。在一些实施方案中，转基因植物由C₃光合植物构建以包括C₄光合性状。在其他实施方案中，转基因植物由C₃光合植物构建以包括景天酸代谢(CAM)光合性状。在其他一些实施方案中，转基因植物由C₄光合植物构建，其中光合作用已通过UPF0114家族蛋白的过表达而得到改善。

实施例

现在将参考具体实施例描述本发明，所述具体实施例不应被解释为以任何方式构成限制。

实施例1：该基因家族编码羧酸盐和磷酸化羧酸盐转运蛋白家族

为了表征该基因家族的这些代表性成员的转运活性，将基因克隆到诱导型表达载体中(图18)。

总的来说，对UPF0114基因家族的8个不同成员所编码的蛋白质的转运活性进行了实验询问。这些蛋白质包括1)在大肠杆菌中由yqhA基因编码的蛋白质，所述yqhA基因的完整氨基酸序列如SEQ ID NO:1所示。2)在拟南芥中由AT4G19390基因编码的蛋白质，所述AT4G19390基因的完整氨基酸序列如SEQ ID NO:2所示。3)在狗尾草中由Sevir.4G287300基因编码的蛋白质，所述Sevir.4G287300基因的完整氨基酸序列如SEQ ID NO:6所示。4)在玉米中由GRMZM2G179292基因编码的蛋白质，所述GRMZM2G179292基因的完整氨基酸序列如SEQ ID NO:9所示。5)在玉米中由GRMZM2G133400基因编码的蛋白质，所述GRMZM2G133400基因的完整氨基酸序列如SEQ ID NO:10所示。6)在玉米中由GRMZM2G327686基因编码的蛋白质，所述GRMZM2G327686基因的完整氨基酸序列如SEQ ID NO:11所示。在大肠杆菌yqhA基因的情况下，使用编码SEQ ID NO:1中所示的完整氨基酸序列的核苷酸序列，并将该基因克隆到诱导型表达质粒中以产生质粒1。

在该基因家族的拟南芥、狗尾草和玉米成员的情况下，对应于上述蛋白质序列的核苷酸序列被设计为针对在大肠杆菌中表达进行了密码子优化。此外，去除了这些基因中存在的内含子，使得核苷酸序列仅包含编码序列。此外，去除了叶绿体转运肽以防止大肠杆菌中蛋白质的错误折叠或错误靶向。这些合成核苷酸序列展示于SEQ ID NO:7、8、12、13和14。这些基因被单独克隆到诱导型表达质粒中以产生质粒2-6。

产生了独立的大肠杆菌细胞系，使得每个细胞系都含有上面列出的诱导型质粒之一。具体来说，细胞系1含有质粒1，细胞系2含有质粒2，细胞系3含有质粒3，细胞系4含有质粒4，细胞系5含有质粒5，细胞系6含有质粒6。

为了表征由转运蛋白输出的代谢物，细胞系1、2和3(分别含有表达yqhA、AT4G19390和Sevir.4G287300的质粒)在补充有22mM葡萄糖作为唯一碳源的M9基本培养基(以下称为M9葡萄糖)中生长。培养基中没有添加其他含碳分子，因此葡萄糖是细胞生长和呼吸所能使用的唯一碳源。

这三种细胞系从细胞培养物中预生长过夜，在50ml体积下在M9葡萄糖中在600nm(OD600)波长下测量的光密度为0.1。第二天，在两个单独的烧瓶中，将每个细胞系在M9葡萄糖中传代培养至OD600为0.1。让这两个烧瓶生长到OD600为0.2，然后在一个烧瓶中通过向细胞培养基中添加50μM 2,4-二乙酰间苯三酚(DAPG)诱导转运基因的表达。由于DAPG储备溶液溶解在乙醇中，因此将等体积的不含DAPG的乙醇添加到未诱导的对照烧瓶中。在时间0和诱导转运基因表达后3小时从诱导和未诱导的对照烧瓶中取出细胞培养物样品。细胞培养物在4℃下以13,000g离心5分钟。离心后，吸出上清液并丢弃细胞沉淀。在每种情况下，将20μl冰冷的上清液与350μl的CHCl₃/CH₃OH(3:7v/v)混合并在-20℃下在混合的同时孵育2小时，从而进行代谢物萃取。两小时后，将350μl冰冷的水添加到该混合物中并使其升温至4℃。将该混合物在4℃下以13,000g离心10分钟。此后，将上层-CH₃OH水相转移到1.5ml管中。用300μl冰冷的水重新萃取剩余的CHCl₃相，并如前所述除去上层-CH₃OH水相。然后将两个上层-CH₃OH水相合并并使用离心真空干燥器干燥。使用可靠标准品通过LC-MS/MS分析样品，以实现准确的代谢物定量。

所有三种转运蛋白(大肠杆菌yqhA、拟南芥AT4G19390和狗尾草Sevir.4G287300)的表达导致单羧酸盐/单羧酸丙酮酸盐向细胞培养基输出(图4和图8)。该大肠杆菌基因的表达没有导致任何可检测水平的输出二羧酸盐/二羧酸、三羧酸盐/三羧酸或磷酸化羧酸盐。

该基因家族的两个代表性植物成员的表达导致一系列二羧酸盐/二羧酸的输出(图3)。这些二羧酸盐/二羧酸包括琥珀酸盐、苹果酸盐、富马酸盐和α-酮戊二酸盐。不同二羧酸盐/二羧酸的输出速率在此处测试的植物基因家族的两个不同代表性成员之间有所不同。虽然该基因家族的狗尾草成员输出所有列出的代谢物，但该基因家族的拟南芥成员不输出琥珀酸盐。

该基因家族的狗尾草成员的表达导致三羧酸盐/三羧酸柠檬酸盐的输出(图5)。

该基因家族的两个代表性植物成员的表达导致一系列磷酸化羧酸盐的输出(图6)。

为了确认基因家族的所有成员都具有这种转运功能，还对细胞系质粒4、5和6进行了分析。在此处，这些细胞系从细胞培养物中预生长过夜，在50ml体积下在M9葡萄糖中在600nm(OD600)波长下测量的光密度为0.1。第二天，在两个单独的烧瓶中，将每个细胞系在M9葡萄糖中传代培养至OD600为0.1。让这两个烧瓶生长到OD600为0.2，然后在一个烧瓶中通过向细胞培养基中添加50μM 2,4-二乙酰间苯三酚(DAPG)而诱导转运基因的表达。由于DAPG储备溶液溶解在乙醇中，因此将等体积的不含DAPG的乙醇添加到未诱导的对照烧瓶中。在时间0和诱导转运基因表达后6小时从诱导和未诱导的对照烧瓶中取出细胞培养物样品。细胞培养物在4℃下以13,000g离心5分钟。离心后，吸出上清液并丢弃细胞沉淀。根据制造商的说明，使用基于丙酮酸氧化酶的酶测定法联合比色检测(abcam ab65342)评估细胞培养上清液中丙酮酸盐的浓度。使用读板器(FLUOstar Omega，BMG Labtech)进行比色检测，并通过与标准曲线比较来计算丙酮酸盐浓度。在所有情况下，编码UPF0114蛋白家族不同成员的基因的表达导致单羧酸盐丙酮酸盐的输出。丙酮酸盐没有从未诱导的细胞中输出(图19)。因此，鉴于该基因家族的采样成员在细菌和植物中的分布，该基因家族的所有成员都进行相同的转运反应。

实施例2：转运蛋白可以沿着和逆着浓度梯度转运代谢物

大肠杆菌中丙酮酸盐的细胞内浓度为390μM。为了证明转运蛋白可以逆着浓度梯度输出代谢物，使用来自狗尾草的Sevir.4G287300基因(氨基酸序列如SEQ ID NO:6中所示)的核苷酸序列重复实施例1中描述的实验。这次，M9葡萄糖生长培养基补充了不同浓度的额外丙酮酸盐，使得细胞外的丙酮酸盐浓度高于细胞内。初始起始浓度选择为0μM、300μM和700μM。在所有情况下，都从细胞中输出了丙酮酸盐。在300μM和700μM起始浓度的情况下，输出了丙酮酸盐，使得丙酮酸盐在三小时时积累到超过细胞内浓度的浓度(图7)。

实施例3：转运蛋白促进代谢物的双向转运

在有氧条件下，二羧酸盐/二羧酸转运蛋白dctA仅负责大肠杆菌中二羧酸盐的摄取。当从大肠杆菌基因组中缺失编码dctA的基因时，二羧酸盐/二羧酸不能再进入细胞，因此大肠杆菌不能以作为唯一碳源的苹果酸盐生长(图17)。然而，葡萄糖的摄取和随后以葡萄糖作为唯一碳源的生长不受影响(图17)。

将含有来自狗尾草的Sevir.4G287300基因的诱导型表达质粒转化到dctA敲除系(knockout line)(ΔdctA)中。含有诱导型表达质粒的ΔdctA系从细胞培养物中预生长过夜，在50ml体积下在M9葡萄糖中的OD600为0.1。第二天，在两个单独的烧瓶中，将细胞系在M9葡萄糖中传代培养至OD600为0.2。通过在一个烧瓶中向细胞培养基中添加50mM 2,4-二乙酰间苯三酚(DAPG)而诱导转运基因的表达。由于DAPG储备溶液溶解在乙醇中，因此将等体积的不含DAPG的乙醇添加到未诱导的对照烧瓶中。将细胞系孵育2小时以允许转运基因表达。随后通过在13,000g下离心5分钟分离细胞，在不含碳源的M9(视情况+/-DAPG)中洗涤两次。然后将细胞重新悬浮在M9苹果酸盐(视情况+/-DAPG)中，并在2小时和3小时后收集无细胞上清液样品。使用比色测定法测量上清液中的丙酮酸盐水平。在苹果酸盐存在的情况下，丙酮酸盐很容易从细胞中输出，但在没有苹果酸盐作为碳源的情况下则不然(图9)。由于苹果酸盐没有其他可能的途径进入细胞，并且转运蛋白能够从细胞中输出苹果酸盐(图3)，因此转运蛋白也必须能够从细胞培养基中摄取苹果酸盐(图9)。

实施例4：在C₃植物中，转运蛋白定位于叶绿体

使用拟南芥叶原生质体中的C末端GFP融合体测试来自拟南芥的AT4G19390基因的亚细胞定位。从组成型表达载体表达对应于全长氨基酸序列的核苷酸序列，包括预测的叶绿体转运肽(SEQ ID NO:2)并使用原始内源密码子，但缺乏任何内含子。表达GFP的相同载体用作对照。

拟南芥AT4G19390基因在叶细胞原生质体中表达为C末端GFP融合体，定位于叶绿体外围的病灶(图13)。GFP自身定位于胞质溶胶(图13)。

为了进一步证实这种在C₃植物中的定位，来自谷子的Seita.4G275500基因(SEQID NO:8)的C末端GFP融合体在从水稻鞘组织分离的原生质体中表达(图20)。针对在水稻中表达将对应于全长氨基酸序列的核苷酸序列(包括预测的叶绿体转运肽)进行密码子优化。在密码子优化之后，添加了来自狗尾草的Sevir.4G287300基因的第一个内含子以防止在大肠杆菌中的表达。将含有GFP的C末端翻译融合体置于玉米泛素启动子的控制下并组装成二元载体pL1V-F1-47732。包含由玉米泛素启动子驱动的GFP编码序列的构建体用作胞质蛋白定位的阳性对照。与GFP融合的谷子基因所编码的蛋白质定位于叶绿体外围(图20)，这与其预测的叶绿体被膜膜定位一致，并且与在拟南芥原生质体中观察到的定位一致。

为了进一步证实这种在C₃植物中的定位，在来自本氏烟草的完整植物叶子中表达来自拟南芥的AT4G19390基因(SEQ ID NO:2)的C末端GFP融合体(图23)。对应于全长氨基酸序列的核苷酸序列(包括预测的叶绿体转运肽，但缺乏任何内含子)被克隆到表达载体中，用于在本氏烟草中表达。将载体转染到农杆菌中并且转染的农杆菌渗入本氏烟草植物的叶子中。AT4G19390::GFP蛋白定位于叶绿体外围，这与在拟南芥、水稻和谷子中观察到的定位一致。因此，蛋白质的C₃或C₄变体可以在C₃或C₄植物中表达并定位到正确的亚细胞位置。

实施例5：在C₄植物中，转运蛋白可以定位于叶绿体和质膜

使用狗尾草叶原生质体中的C末端GFP融合体测试了该基因家族的谷子成员的亚细胞定位。从组成型表达载体表达对应于全长氨基酸序列的核苷酸序列，包括预测的叶绿体转运肽(SEQ ID NO:3)并使用原始内源密码子，但缺乏任何内含子。表达GFP的相同载体用作对照。

谷子基因在叶细胞原生质体中表达为C末端GFP融合体，定位于叶绿体中的焦点处(图14)。质膜中也有一些定位(图14)。GFP自身定位于胞质溶胶(图14)。

实施例6：转运蛋白的RNAi敲低破坏了C₄光合作用

由于该基因家族的谷子代表成员所编码的蛋白质可以摄取苹果酸盐并输出丙酮酸盐，并且由于该蛋白质定位于叶绿体被膜，并且由于该蛋白质在C₄植物狗尾草的束鞘细胞中高度表达(图16)，因此提出转运蛋白在单一蛋白质(图12)中同时提供束鞘叶绿体的苹果酸盐摄取功能(图2)和丙酮酸盐输出功能(图2)。为了证明转运蛋白在C₄光合作用中的作用，产生了RNAi构建体以靶向狗尾草中敲低的转运蛋白的直系同源物(基因IDSevir.4G287300，SEQ ID NO:6)。狗尾草是一种C₄植物，是谷子的近亲。用于RNAi片段的核苷酸序列显示在SEQ ID NO:17中。包含RNAi片段的两个拷贝的pANIC 12A载体展示于SEQID NO:15，这两个拷贝方向相反，由GUS\接头隔开。

将该构建体转化到由狗尾草ME034V生态型产生的愈伤组织中。通过PCR筛选转基因植物在T0代中是否存在插入物。选择标记基因和RNAi片段呈阳性的植物被用于继续进行定量PCR筛选。选择了狗尾草基因Sevir.4G287300表达水平低的T0植物。与野生型植物相比，植物具有～10％的基因表达水平(图10)。

使用LI-COR LI-6800对敲低的植物进行光合作用表型分析，以测量光合速率。进行了对CO₂浓度曲线的光合响应(也称为CO₂响应曲线或A/C_i曲线)。这表明转运蛋白的敲低严重破坏了C₄光合作用(图11)。因此，由转运基因表达降低引起的苹果酸盐和丙酮酸盐转运功能降低导致C₄植物的光合作用显著降低。因此，该转运蛋白提供束鞘叶绿体的苹果酸盐输入和丙酮酸盐输出功能(图12)。

实施例7：外源苹果酸盐的存在可以刺激丙酮酸盐外排活性

向表达UPF0114基因家族成员的细胞中输入苹果酸盐和从其中外排丙酮酸盐与该家族的蛋白质可以作为反转运蛋白发挥作用的假设是一致的。这一假设的一个关键预测是，当以葡萄糖为食时，如果将苹果酸盐(而不是其他二羧酸盐)添加到细胞培养基中，则表达该基因家族任何成员的大肠杆菌细胞将显示丙酮酸盐外排量的迅速且显著的增加。为了检验这一预测，将大肠杆菌ΔdctA细胞在葡萄糖上生长，然后诱导谷子Seita.4G275500基因(SEQ ID NO:8)的表达，将不同的四碳二羧酸盐添加到细胞培养基中，并评估了丙酮酸盐外排率的快速变化。仅在补充有外源苹果酸盐的细胞中检测到受刺激的丙酮酸盐外排(图21)而在补充其他四碳二羧酸盐如天冬氨酸盐或富马酸盐的细胞中没有检测到受刺激的丙酮酸盐外排(图21)。因此，UPF0114基因家族的成员可以起到反转运蛋白的作用。

实施例8：UPF0114基因家族的成员在进行CAM光合作用的植物中高度表达。

除了作为C₄光合途径的关键代谢物外，丙酮酸盐和苹果酸盐也是CAM光合作用的关键代谢物。在CAM光合途径中，苹果酸盐在夜间生物合成和积累，然后在白天脱羧。这个过程在夜间储存CO₂并在白天释放它，以提高RuBisCO周围的CO₂浓度。这个过程提高了植物的水分利用效率，因为它允许植物在白天关闭它们的气孔，从而减少蒸腾作用造成的水分流失。

几种植物物种进行诱导型CAM光合作用，从而它们可以根据条件在C₃和CAM光合作用之间切换。在水分充足的生长条件下，这些植物进行正常的C₃光合作用。然而，在干旱条件下或缺水时，这些植物转而使用CAM光合作用来提高其水分利用效率。因此，有两个特征可以表征参与CAM光合途径的基因。1)当植物从C₃光合作用切换为CAM光合作用并且CAM途径变得活跃时，对应于这些基因的转录本丰度显示出大量增加。2)在进行CAM光合作用时，对应于这些基因的转录本在白天和黑夜之间差异性地积累。对两种不同的诱导型CAM植物物种的转录组分析表明，UPF0114基因家族的成员在CAM光合作用中表现出这两个功能特征。具体而言，对棱轴土人参转录组的分析(Brilhaus等人2016.Plant Physiology 170(1)102-122)揭示，当植物从C₃光合作用切换为CAM光合作用时，对应于棱轴土人参中AT4G19390的直系同源物(Tt48731，SEQ ID NO 15和16)的转录本的丰度显著增加(图22A)。为了支持CAM光合作用中的这种特定作用，当提供水并且植物切换回进行C₃光合作用时，对应于棱轴土人参中Tt48731基因的转录本的丰度显著降低(图22A)。因此，该基因仅在植物进行CAM光合作用而不是C₃光合作用时高度表达。此外，当该基因表达时，它显示出CAM光合作用中的的第二个功能标志，即它在白天和黑夜之间差异性地表达(图22A)。在这里，它在苹果酸盐脱羧成丙酮酸盐的白天表现出显著更高的表达。这种表达模式类似于NADP-ME的表达模式，NADP-ME是叶绿体定位的NADP-苹果酸酶，负责将叶绿体中的苹果酸盐脱羧(图22B)。当植物切换到CAM光合作用时，叶绿体靶向的NADP-ME的表达被诱导，并且NADP-ME在白天比在夜间的表达更高(图22B)。因此，由Tt48731基因编码的棱轴土人参转运蛋白在CAM光合作用中也起到将苹果酸盐和丙酮酸盐转运进出叶绿体的作用。当植物从C₃光合作用切换为CAM光合作用时，在冰叶日中花(Mesembryanthemum crystallinum)(一种不同的诱导型CAM物种)中AT4G19390的直系同源物也显示出29倍的上调，成为前30个可能高度上调的基因之一(Cushman等人Journal of Experimental Botany,第59卷,第7期,2008年5月,第1875–1894页)。因此，这种转运蛋白在多种不同的CAM物种中起作用。

通过交叉引用并入

本申请要求澳大利亚临时专利申请号2019902940的优先权，其全部内容以交叉引用的方式并入本文。

序列表

<110> 牛津大学科技创新有限公司

<120> 膜转运蛋白及其用途

<130> P0010239PCT

<150> AU 2019902940

<151> 2019-08-14

<160> 37

<170> PatentIn第3.5版

<210> 1

<211> 164

<212> PRT

<213> 大肠杆菌(Escherichia coli)

<400> 1

Met Glu Arg Phe Leu Glu Asn Ala Met Tyr Ala Ser Arg Trp Leu Leu

1 5 10 15

Ala Pro Val Tyr Phe Gly Leu Ser Leu Ala Leu Val Ala Leu Ala Leu

20 25 30

Lys Phe Phe Gln Glu Ile Ile His Val Leu Pro Asn Ile Phe Ser Met

35 40 45

Ala Glu Ser Asp Leu Ile Leu Val Leu Leu Ser Leu Val Asp Met Thr

50 55 60

Leu Val Gly Gly Leu Leu Val Met Val Met Phe Ser Gly Tyr Glu Asn

65 70 75 80

Phe Val Ser Gln Leu Asp Ile Ser Glu Asn Lys Glu Lys Leu Asn Trp

85 90 95

Leu Gly Lys Met Asp Ala Thr Ser Leu Lys Asn Lys Val Ala Ala Ser

100 105 110

Ile Val Ala Ile Ser Ser Ile His Leu Leu Arg Val Phe Met Asp Ala

115 120 125

Lys Asn Val Pro Asp Asn Lys Leu Met Trp Tyr Val Ile Ile His Leu

130 135 140

Thr Phe Val Leu Ser Ala Phe Val Met Gly Tyr Leu Asp Arg Leu Thr

145 150 155 160

Arg His Asn His

<210> 2

<211> 273

<212> PRT

<213> 拟南芥(Arabidopsis thaliana)

<400> 2

Met Thr Thr Pro Cys Arg Thr Ile Asn Ala Asn Ala Ile Ala Ala Pro

1 5 10 15

Ser Pro Ser Gly Leu Ile Phe Asn Gly Phe Arg Asp Phe Val Pro Ile

20 25 30

Glu Lys Arg Leu Val Ile Ser Ser Phe Arg Gly Leu Lys Leu Pro Ser

35 40 45

Arg Thr Thr Lys Thr Ile Thr Ser Ser Asp Trp Ser Trp Ser Tyr Arg

50 55 60

Ser Pro Gly Arg Leu Ala Ser Ala Ser Thr Ser Thr Ser Ala Ser Thr

65 70 75 80

Ser Thr Ser Ala Ala Val Thr Ser Asn Ser Thr Asn Arg Phe Glu Ala

85 90 95

Leu Glu Glu Gly Ile Glu Lys Val Ile Tyr Ser Cys Arg Phe Met Thr

100 105 110

Phe Leu Gly Thr Leu Gly Ser Leu Leu Gly Ser Val Leu Cys Phe Ile

115 120 125

Lys Gly Cys Met Tyr Val Val Asp Ser Phe Leu Gln Tyr Ser Val Asn

130 135 140

Arg Gly Lys Val Ile Phe Leu Leu Val Glu Ala Ile Asp Ile Tyr Leu

145 150 155 160

Leu Gly Thr Val Met Leu Val Phe Gly Leu Gly Leu Tyr Glu Leu Phe

165 170 175

Ile Ser Asn Leu Asp Thr Ser Glu Ser Arg Thr His Asp Ile Val Ser

180 185 190

Asn Arg Ser Ser Leu Phe Gly Met Phe Thr Leu Lys Glu Arg Pro Gln

195 200 205

Trp Leu Glu Val Lys Ser Val Ser Glu Leu Lys Thr Lys Leu Gly His

210 215 220

Val Ile Val Met Leu Leu Leu Ile Gly Leu Phe Asp Lys Ser Lys Arg

225 230 235 240

Val Val Ile Thr Ser Val Thr Asp Leu Leu Cys Ile Ser Val Ser Ile

245 250 255

Phe Phe Ser Ser Ala Cys Leu Phe Leu Leu Ser Arg Leu Asn Gly Ser

260 265 270

His

<210> 3

<211> 247

<212> PRT

<213> 谷子(Setaria italica)

<400> 3

Met Lys Leu Arg Pro Leu Thr Cys Val Ala Ala Gly Cys Ala Gly Trp

1 5 10 15

Ala Trp Arg Pro Arg Ser Arg Val Arg Ser Glu Ala Val Ser Pro Lys

20 25 30

Arg Ser His Ala Ala Ala Ala Ala Ala Gly Ala Val His Ser Glu Glu

35 40 45

His Arg Arg Gly Gly Met Arg Glu Val Leu Phe Arg Pro Val Gly Leu

50 55 60

Pro Thr Glu Thr Lys Phe Gly Ala Gly Leu Glu Asp Arg Ile Glu Lys

65 70 75 80

Val Ile Cys Ala Cys Arg Phe Met Thr Phe Leu Gly Ile Gly Gly Leu

85 90 95

Leu Ala Gly Cys Val Pro Cys Phe Leu Lys Gly Cys Val Tyr Val Met

100 105 110

Asp Ala Phe Val Glu Tyr Tyr Leu His Gly Gly Gly Met Leu Ile Leu

115 120 125

Met Leu Leu Glu Ala Ile Asp Met Phe Leu Ile Gly Thr Val Met Phe

130 135 140

Val Phe Gly Thr Gly Leu Tyr Glu Leu Phe Ile Ser Glu Met Asp Met

145 150 155 160

Ser Tyr Gly Ser Asn Leu Phe Gly Leu Phe Ser Leu Pro Glu Arg Pro

165 170 175

Lys Trp Leu Val Ile Gln Ser Val Asn Asp Leu Lys Thr Lys Leu Gly

180 185 190

His Val Ile Val Met Ser Leu Leu Val Gly Ile Phe Glu Lys Ser Trp

195 200 205

Arg Val Thr Ile Thr Ser Cys Thr Asp Leu Leu Cys Phe Ala Ala Ser

210 215 220

Ile Phe Leu Ser Ser Gly Cys Leu Tyr Leu Leu Ser Arg Leu Ser Asn

225 230 235 240

Thr Lys Gly Gly Ser His Thr

245

<210> 4

<211> 185

<212> PRT

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的拟南芥AT4G19390蛋白的密码子优化版本

<400> 4

Met Ser Thr Asn Arg Phe Glu Ala Leu Glu Glu Gly Ile Glu Lys Val

1 5 10 15

Ile Tyr Ser Cys Arg Phe Met Thr Phe Leu Gly Thr Leu Gly Ser Leu

20 25 30

Leu Gly Ser Val Leu Cys Phe Ile Lys Gly Cys Met Tyr Val Val Asp

35 40 45

Ser Phe Leu Gln Tyr Ser Val Asn Arg Gly Lys Val Ile Phe Leu Leu

50 55 60

Val Glu Ala Ile Asp Ile Tyr Leu Leu Gly Thr Val Met Leu Val Phe

65 70 75 80

Gly Leu Gly Leu Tyr Glu Leu Phe Ile Ser Asn Leu Asp Thr Ser Glu

85 90 95

Ser Arg Thr His Asp Ile Val Ser Asn Arg Ser Ser Leu Phe Gly Met

100 105 110

Phe Thr Leu Lys Glu Arg Pro Gln Trp Leu Glu Val Lys Ser Val Ser

115 120 125

Glu Leu Lys Thr Lys Leu Gly His Val Ile Val Met Leu Leu Leu Ile

130 135 140

Gly Leu Phe Asp Lys Ser Lys Arg Val Val Ile Thr Ser Val Thr Asp

145 150 155 160

Leu Leu Cys Ile Ser Val Ser Ile Phe Phe Ser Ser Ala Cys Leu Phe

165 170 175

Leu Leu Ser Arg Leu Asn Gly Ser His

180 185

<210> 5

<211> 247

<212> PRT

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的谷子Si007164m (Seita.4G275500)蛋白的密码子优化版本

<400> 5

Met Lys Leu Arg Pro Leu Thr Cys Val Ala Ala Gly Cys Ala Gly Trp

1 5 10 15

Ala Trp Arg Pro Arg Ser Arg Val Arg Ser Glu Ala Val Ser Pro Lys

20 25 30

Arg Ser His Ala Ala Ala Ala Ala Ala Gly Ala Val His Ser Glu Glu

35 40 45

His Arg Arg Gly Gly Met Arg Glu Val Leu Phe Arg Pro Val Gly Leu

50 55 60

Pro Thr Glu Thr Lys Phe Gly Ala Gly Leu Glu Asp Arg Ile Glu Lys

65 70 75 80

Val Ile Cys Ala Cys Arg Phe Met Thr Phe Leu Gly Ile Gly Gly Leu

85 90 95

Leu Ala Gly Cys Val Pro Cys Phe Leu Lys Gly Cys Val Tyr Val Met

100 105 110

Asp Ala Phe Val Glu Tyr Tyr Leu His Gly Gly Gly Met Leu Ile Leu

115 120 125

Met Leu Leu Glu Ala Ile Asp Met Phe Leu Ile Gly Thr Val Met Phe

130 135 140

Val Phe Gly Thr Gly Leu Tyr Glu Leu Phe Ile Ser Glu Met Asp Met

145 150 155 160

Ser Tyr Gly Ser Asn Leu Phe Gly Leu Phe Ser Leu Pro Glu Arg Pro

165 170 175

Lys Trp Leu Val Ile Gln Ser Val Asn Asp Leu Lys Thr Lys Leu Gly

180 185 190

His Val Ile Val Met Ser Leu Leu Val Gly Ile Phe Glu Lys Ser Trp

195 200 205

Arg Val Thr Ile Thr Ser Cys Thr Asp Leu Leu Cys Phe Ala Ala Ser

210 215 220

Ile Phe Leu Ser Ser Gly Cys Leu Tyr Leu Leu Ser Arg Leu Ser Asn

225 230 235 240

Thr Lys Gly Gly Ser His Thr

245

<210> 6

<211> 247

<212> PRT

<213> 狗尾草(Setaria viridis)

<400> 6

Met Lys Leu Arg Pro Leu Thr Cys Val Ala Ala Gly Cys Ala Gly Trp

1 5 10 15

Ala Trp Arg Pro Arg Ser Arg Val Arg Ser Glu Ala Val Ser Pro Lys

20 25 30

Arg Ser His Ala Ala Ala Ala Ala Ala Gly Ala Val His Ser Glu Glu

35 40 45

His Arg Arg Gly Gly Met Arg Glu Val Leu Phe Arg Pro Val Gly Leu

50 55 60

Pro Thr Glu Thr Lys Phe Gly Ala Gly Leu Glu Asp Arg Ile Glu Lys

65 70 75 80

Val Ile Cys Ala Cys Arg Phe Met Thr Phe Leu Gly Ile Gly Gly Leu

85 90 95

Leu Ala Gly Cys Val Pro Cys Phe Leu Lys Gly Cys Val Tyr Val Met

100 105 110

Asp Ala Phe Val Glu Tyr Tyr Leu His Gly Gly Gly Met Leu Ile Leu

115 120 125

Met Leu Leu Glu Ala Ile Asp Met Phe Leu Ile Gly Thr Val Met Phe

130 135 140

Val Phe Gly Thr Gly Leu Tyr Glu Leu Phe Ile Ser Glu Met Asp Met

145 150 155 160

Ser Tyr Gly Ser Asn Leu Phe Gly Leu Phe Ser Leu Pro Glu Arg Pro

165 170 175

Lys Trp Leu Val Ile Gln Ser Val Asn Asp Leu Lys Thr Lys Leu Gly

180 185 190

His Val Ile Val Met Ser Leu Leu Val Gly Ile Phe Glu Lys Ser Trp

195 200 205

Arg Val Thr Ile Thr Ser Cys Thr Asp Leu Leu Cys Phe Ala Ala Ser

210 215 220

Ile Phe Leu Ser Ser Gly Cys Leu Tyr Leu Leu Ser Arg Leu Ser Asn

225 230 235 240

Thr Lys Gly Gly Ser His Thr

245

<210> 7

<211> 558

<212> DNA

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的拟南芥AT4G19390基因的密码子优化版本

<400> 7

atgagtacca accgttttga agccttagag gaagggattg aaaaagttat ttattcgtgt 60

cgttttatga cgttcttagg tacactgggg tccttgttag gtagcgtgct gtgtttcatc 120

aagggctgta tgtatgttgt agattctttt cttcaatatt ctgtcaatcg cgggaaggtt 180

attttcctgt tggtcgaggc cattgatatt tatttgttgg gaaccgttat gttagtgttt 240

ggactgggcc tgtacgagct gttcatctcg aatctggata cttctgagag ccgcacccac 300

gacatcgttt ctaatcgctc atccttgttt ggtatgttca ccttgaagga gcgcccccaa 360

tggcttgaag taaaatcggt gagcgagctg aaaacgaaac tgggtcacgt aattgttatg 420

ttgttactga tcgggttatt tgataagtct aaacgtgttg ttatcaccag tgttacggac 480

ctgttatgca ttagtgtaag catcttcttc agctcagcat gtctgttctt gttaagccgt 540

cttaacggca gccactga 558

<210> 8

<211> 744

<212> DNA

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的谷子Si007164m (Seita.4G275500)基因的密码子优化版本

<400> 8

atgaagctca ggcctctcac ttgcgtggcg gcggggtgcg ccgggtgggc gtggaggccg 60

aggtcgcgcg tgcggtcaga ggcggtgtca cccaagcgtt cccacgcggc agcggcggcg 120

gcgggcgcgg ttcattcgga ggagcaccgc cgcggcggca tgcgcgaggt gctcttccgc 180

ccggtggggc tgcccaccga gacgaagttc ggggcggggc tggaggatcg gatcgagaag 240

gtcatctgcg cctgccgctt catgaccttc ctcggcatcg gcggcttgct cgccggctgc 300

gtcccctgct tcctcaaggg atgcgtttat gtgatggacg ccttcgtcga gtactacctg 360

cacggcggtg gaatgctcat cctaatgttg cttgaagcca ttgacatgtt tctcattgga 420

acggtcatgt ttgtattcgg gacgggcttg tatgagctgt tcatcagtga aatggacatg 480

tcttatggct ccaacttgtt tggcttgttc agtcttccgg aacgacccaa gtggctggta 540

atccagtcgg tgaatgatct taagacaaag ctgggccatg tcattgtcat gagtctactg 600

gttggcatct ttgagaagag ctggagagtg accattacat cctgtactga cctcctttgc 660

ttcgctgcat caatcttcct ctcctcaggt tgcctctacc tactttccag gctcagtaac 720

accaaaggag ggagccatac ctga 744

<210> 9

<211> 308

<212> PRT

<213> 玉米(Zea mays)

<400> 9

Met Ala Gly Arg Arg Glu Pro Arg Ser Pro Ser Ile Met Leu Arg Pro

1 5 10 15

Gly Gln Arg Arg Arg Asn Tyr Leu Arg Arg His Pro Pro Leu Thr Thr

20 25 30

Gly Pro Gly Ala Asp Glu Met Asn Gly Asn Gly Cys Pro Ser Pro Pro

35 40 45

Pro Thr Trp Thr Arg Cys Leu Pro Arg Lys Ala Pro Arg Pro Leu Gly

50 55 60

Cys Gly Cys Gly Cys Val Pro Ala Ala Val Gly Cys Val Gly Trp Ala

65 70 75 80

Trp Arg Pro Thr Pro Arg Pro Arg Gly Gly Gly Arg Ala Ala Gly Val

85 90 95

Ser Pro Lys Cys Ser His Ser Ala Ala Ala Ala Gly Ala Val Gln Ser

100 105 110

Glu Asp Arg Arg Arg Glu Val Leu Tyr Arg Pro Val Glu Leu Pro Gly

115 120 125

Thr Gly Tyr Gly Ser Glu Leu Glu Ala Arg Ile Glu Lys Val Ile Tyr

130 135 140

Ala Cys Arg Phe Met Thr Phe Phe Gly Ile Cys Gly Leu Leu Leu Gly

145 150 155 160

Ser Val Pro Cys Phe Leu Lys Gly Cys Val Phe Val Met Asp Ala Phe

165 170 175

Val Glu Tyr Tyr Arg His Gly Ala Gly Lys Val Ile Leu Leu Leu Val

180 185 190

Glu Ala Ile Glu Met Phe Leu Ile Ala Thr Val Thr Phe Val Leu Gly

195 200 205

Thr Gly Leu Tyr Glu Leu Phe Ile Ser Asn Met Asp Ser Phe Tyr Gly

210 215 220

Ser Asn Leu Phe Gly Leu Phe Ser Leu Pro Glu Arg Pro Lys Trp Val

225 230 235 240

Glu Ile Lys Ser Val Asn Asp Leu Lys Thr Lys Leu Gly His Val Ile

245 250 255

Val Met Val Leu Leu Val Gly Ile Phe Glu Lys Ser Lys Arg Val Thr

260 265 270

Ile Thr Ser Cys Ala Asp Leu Leu Cys Phe Ala Gly Ser Ile Phe Leu

275 280 285

Ser Ser Val Cys Leu Tyr Leu Leu Ser Lys Leu His Thr Thr Lys Gly

290 295 300

Gly Ser Gln Ala

305

<210> 10

<211> 266

<212> PRT

<213> 玉米(Zea mays)

<400> 10

Met Ala Leu Leu Leu Leu Arg Gly Cys Ala Ala Pro Pro Ala Val His

1 5 10 15

Ala Ala Pro Ala Gly Ser Arg Leu Leu Pro Pro Ala Leu Pro Arg Arg

20 25 30

Arg Leu Val Ala Val Ala Ser Ser Ala Ser Pro Ala Pro Ser Gly Glu

35 40 45

Val Ala Ser Ser Ser Gln Asp Gly Arg Gly Tyr Gly Thr Val Gly Gly

50 55 60

Pro Asn Gly His Ala Ile Ala Pro Ala Thr Val Thr Lys Ser Thr Ala

65 70 75 80

Val Glu Thr Thr Val Glu Arg Val Ile Phe Asp Phe Arg Phe Leu Ala

85 90 95

Leu Leu Ala Val Ala Gly Ser Leu Ala Gly Ser Val Leu Cys Phe Leu

100 105 110

Asn Gly Cys Val Phe Ile Lys Glu Ala Tyr Gln Val Tyr Trp Ser Ser

115 120 125

Cys Val Lys Gly Val His Thr Gly Gln Met Val Leu Lys Val Val Glu

130 135 140

Ala Ile Asp Val Tyr Leu Ala Gly Thr Val Met Leu Ile Phe Gly Met

145 150 155 160

Gly Leu Tyr Gly Leu Phe Ile Ser Asn Ala Pro Ala Ser Val Ala Pro

165 170 175

Glu Ser Asp Arg Ala Leu Ser Gly Ser Ser Leu Phe Gly Met Phe Ala

180 185 190

Leu Lys Glu Arg Pro Lys Trp Met Asn Ile Thr Ser Leu Asp Glu Leu

195 200 205

Lys Thr Lys Val Gly His Val Ile Val Met Ile Leu Leu Val Lys Met

210 215 220

Phe Glu Lys Ser Lys Met Val Thr Ile Ala Thr Gly Leu Asp Leu Leu

225 230 235 240

Ser Tyr Ser Ile Cys Ile Phe Leu Ser Ser Ala Ser Leu Tyr Ile Leu

245 250 255

His Asn Leu His Lys Gly Asp His Glu Glu

260 265

<210> 11

<211> 262

<212> PRT

<213> 玉米(Zea mays)

<400> 11

Met Ala Leu Leu Val Leu Arg Ala Pro Ala Ala Val His Ala Ala Ser

1 5 10 15

Arg Leu Leu Pro Pro Gln Pro Arg Arg Arg Arg Arg Leu Val Ala Val

20 25 30

Ala Ser Ala Ala Ser Ser Ala Pro Ser Gly Glu Val Ser Ser Gln His

35 40 45

Gly Gly Gly Gly Gly Gly Gly Tyr Gly Ile Val Gly Gly Pro Asn Gly

50 55 60

Asn Ala Val Val Pro Ala Thr Lys Ser Thr Val Val Glu Thr Thr Val

65 70 75 80

Glu Arg Val Ile Phe Asp Phe Arg Phe Leu Ala Leu Leu Ala Val Ala

85 90 95

Gly Ser Leu Ala Gly Ser Leu Leu Cys Phe Leu Asn Gly Cys Val Phe

100 105 110

Ile Lys Glu Ala Tyr Gln Val Tyr Trp Ser Ser Cys Val Lys Gly Val

115 120 125

His Thr Gly Gln Met Val Leu Lys Val Val Glu Ala Ile Asp Val Tyr

130 135 140

Leu Ala Gly Thr Val Met Leu Ile Phe Gly Met Gly Leu Tyr Gly Leu

145 150 155 160

Phe Val Ser Asn Ala Ser Ala Gly Val Gly Ser Glu Ser Asp Arg Ala

165 170 175

Leu Ser Gly Ser Ser Leu Phe Gly Met Phe Ala Leu Lys Glu Arg Pro

180 185 190

Lys Trp Met Lys Ile Thr Ser Leu Asp Glu Leu Lys Thr Ile Val Gly

195 200 205

His Val Ile Val Met Ile Leu Leu Val Lys Met Phe Glu Arg Ser Lys

210 215 220

Met Val Thr Ile Ala Thr Gly Leu Asp Leu Leu Ser Tyr Ser Ile Cys

225 230 235 240

Ile Phe Leu Ser Ser Ala Ser Leu Tyr Ile Leu His Asn Leu His Lys

245 250 255

Gly Asp Asp His Glu Glu

260

<210> 12

<211> 525

<212> DNA

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的玉米GRMZM2G179292基因的密码子优化版本

<400> 12

atggaagccc gcattgagaa agtcatatac gcgtgccggt ttatgacctt ttttggtatt 60

tgtggcctgc tgctgggatc ggttccatgc ttcctgaaag gctgtgtgtt cgtaatggat 120

gcatttgtgg agtactatcg tcatggtgca ggtaaagtga ttctgctgct ggtcgaggcc 180

atcgaaatgt tcttgatcgc tactgtcaca tttgtgttgg gtacgggcct gtacgaactt 240

ttcatcagca acatggattc cttttatggg agtaaccttt ttgggctttt ctccctgccg 300

gaacgcccta aatgggtaga aatcaaatcc gttaatgact tgaaaactaa acttggtcac 360

gtgatcgtta tggttctgtt agtgggaatc tttgaaaagt cgaagcgtgt cactatcacg 420

tcctgcgcgg atttactttg ctttgcgggc tctatcttct tgagctcagt atgtctgtat 480

ttgcttagca agttacatac aactaaagga ggcagtcagg cttga 525

<210> 13

<211> 561

<212> PRT

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的玉米GRMZM2G133400蛋白的密码子优化版本

<400> 13

Ala Thr Gly Gly Ala Ala Ala Cys Gly Ala Cys Cys Gly Thr Ala Gly

1 5 10 15

Ala Ala Cys Gly Cys Gly Thr Cys Ala Thr Thr Thr Thr Cys Gly Ala

20 25 30

Thr Thr Thr Thr Cys Gly Gly Thr Thr Cys Cys Thr Gly Gly Cys Cys

35 40 45

Cys Thr Gly Cys Thr Gly Gly Cys Gly Gly Thr Thr Gly Cys Thr Gly

50 55 60

Gly Cys Ala Gly Cys Cys Thr Gly Gly Cys Gly Gly Gly Thr Thr Cys

65 70 75 80

Thr Gly Thr Cys Cys Thr Gly Thr Gly Cys Thr Thr Thr Cys Thr Gly

85 90 95

Ala Ala Thr Gly Gly Thr Thr Gly Thr Gly Thr Gly Thr Thr Cys Ala

100 105 110

Thr Ala Ala Ala Ala Gly Ala Ala Gly Cys Cys Thr Ala Thr Cys Ala

115 120 125

Gly Gly Thr Thr Thr Ala Cys Thr Gly Gly Ala Gly Cys Thr Cys Ala

130 135 140

Thr Gly Cys Gly Thr Gly Ala Ala Ala Gly Gly Cys Gly Thr Cys Cys

145 150 155 160

Ala Thr Ala Cys Gly Gly Gly Thr Cys Ala Ala Ala Thr Gly Gly Thr

165 170 175

Gly Cys Thr Gly Ala Ala Gly Gly Thr Ala Gly Thr Ala Gly Ala Ala

180 185 190

Gly Cys Ala Ala Thr Cys Gly Ala Thr Gly Thr Thr Thr Ala Cys Thr

195 200 205

Thr Ala Gly Cys Gly Gly Gly Gly Ala Cys Thr Gly Thr Gly Ala Thr

210 215 220

Gly Cys Thr Thr Ala Thr Thr Thr Thr Thr Gly Gly Gly Ala Thr Gly

225 230 235 240

Gly Gly Cys Thr Thr Gly Thr Ala Thr Gly Gly Cys Cys Thr Gly Thr

245 250 255

Thr Cys Ala Thr Cys Thr Cys Gly Ala Ala Cys Gly Cys Gly Cys Cys

260 265 270

Ala Gly Cys Cys Thr Cys Gly Gly Thr Cys Gly Cys Gly Cys Cys Ala

275 280 285

Gly Ala Ala Thr Cys Cys Gly Ala Cys Cys Gly Cys Gly Cys Cys Cys

290 295 300

Thr Gly Ala Gly Cys Gly Gly Gly Ala Gly Thr Thr Cys Cys Cys Thr

305 310 315 320

Gly Thr Thr Thr Gly Gly Gly Ala Thr Gly Thr Thr Cys Gly Cys Ala

325 330 335

Thr Thr Ala Ala Ala Gly Gly Ala Gly Cys Gly Thr Cys Cys Ala Ala

340 345 350

Ala Gly Thr Gly Gly Ala Thr Gly Ala Ala Cys Ala Thr Cys Ala Cys

355 360 365

Ala Thr Cys Thr Cys Thr Thr Gly Ala Cys Gly Ala Gly Cys Thr Thr

370 375 380

Ala Ala Ala Ala Cys Cys Ala Ala Gly Gly Thr Gly Gly Gly Cys Cys

385 390 395 400

Ala Cys Gly Thr Thr Ala Thr Thr Gly Thr Thr Ala Thr Gly Ala Thr

405 410 415

Cys Thr Thr Ala Thr Thr Ala Gly Thr Gly Ala Ala Ala Ala Thr Gly

420 425 430

Thr Thr Thr Gly Ala Gly Ala Ala Ala Thr Cys Gly Ala Ala Gly Ala

435 440 445

Thr Gly Gly Thr Gly Ala Cys Thr Ala Thr Cys Gly Cys Thr Ala Cys

450 455 460

Cys Gly Gly Ala Cys Thr Gly Gly Ala Thr Cys Thr Gly Cys Thr Thr

465 470 475 480

Ala Gly Cys Thr Ala Thr Thr Cys Ala Ala Thr Cys Thr Gly Thr Ala

485 490 495

Thr Cys Thr Thr Thr Thr Thr Gly Ala Gly Thr Thr Cys Cys Gly Cys

500 505 510

Ala Thr Cys Gly Cys Thr Thr Thr Ala Cys Ala Thr Cys Cys Thr Thr

515 520 525

Cys Ala Cys Ala Ala Thr Thr Thr Ala Cys Ala Thr Ala Ala Ala Gly

530 535 540

Gly Thr Gly Ala Thr Cys Ala Cys Gly Ala Ala Gly Ala Gly Thr Ala

545 550 555 560

Ala

<210> 14

<211> 582

<212> DNA

<213> 人工序列

<220>

<223> 不具有叶绿体靶肽的玉米GRMZM2G327686基因的密码子优化版本

<400> 14

atgacgaaaa gtacagtcgt cgaaacgacg gttgagcgtg ttatttttga cttccgcttt 60

ttagccctgt tagctgtcgc tggttccctt gcagggtccc tgctttgttt tttgaatggg 120

tgtgtcttta tcaaagaggc gtaccaagtg tattggtcgt catgcgtaaa aggggtacat 180

actggccaga tggtcttgaa ggtagtcgag gcaattgatg tttatcttgc cggaaccgta 240

atgcttatct tcggaatggg tttgtacggg ttgtttgtaa gtaacgctag tgcaggggtc 300

ggtagcgaat cggatcgcgc gcttagcgga agttctcttt tcgggatgtt tgcccttaaa 360

gaacgcccga agtggatgaa aatcacctca ctggacgagt taaagacgat tgttggtcat 420

gtgatcgtta tgattctttt ggtgaagatg tttgaacgta gtaaaatggt aactattgcg 480

accggattgg acttacttag ctattcgatt tgcatctttt taagcagtgc aagcctgtat 540

atcctgcaca acctgcataa gggcgacgat cacgaggaat aa 582

<210> 15

<211> 792

<212> DNA

<213> 棱轴土人参(Talinum triangulare)

<400> 15

atgaagacac tcaaagctca tcagttcttg ctatcttctc ccaaacccac atcgtttatc 60

ctcggaaaac cctcgaggaa tatgaggttg aggaccccat tgacgcgtcg attcagggcg 120

tgtcggacgg atcagatttc ggctccgagt aagattgcgg cgccaaatgg ttcttcctct 180

tcgtccctaa tggctcccgg cggggggtct accgggttcc ggcgtcgtgt ttgggtgtct 240

gaatctatgg aggaagctct tgaaaaggct atttatcggt ctcggttcat gacgcttctt 300

ggagttttag gctctttggt gggatctgtt ctctgcttcg tcaagggttg taatattgtg 360

gcagcttctt tcactgagca cattgtaagg agcgggaagg tgatgactgt gctggttgag 420

gctttagatg tttatctgct tggaacggtg atgctggtat ttggaatggg gctttatgag 480

ctatttgtgt gcaatattga cattgaagag tcactgaaag gtcaaaaatt tccttatcgg 540

tcaaatttgt ttggcttgtt cactttaatg gaacggccga aatggttgga gataaagtca 600

gtcaatgagc tgaagactaa ggttggacat gtaatagtga tgctgttgct gataggattc 660

tttgacaata gtaagaaagc agctattcac tctcctacag atttactctg cttctcagcc 720

tccattctcc tttgctcagg ttgcctttac ttgctggcta agctcaatgg ccctaagcat 780

caatggctct aa 792

<210> 16

<211> 263

<212> PRT

<213> 棱轴土人参(Talinum triangulare)

<400> 16

Met Lys Thr Leu Lys Ala His Gln Phe Leu Leu Ser Ser Pro Lys Pro

1 5 10 15

Thr Ser Phe Ile Leu Gly Lys Pro Ser Arg Asn Met Arg Leu Arg Thr

20 25 30

Pro Leu Thr Arg Arg Phe Arg Ala Cys Arg Thr Asp Gln Ile Ser Ala

35 40 45

Pro Ser Lys Ile Ala Ala Pro Asn Gly Ser Ser Ser Ser Ser Leu Met

50 55 60

Ala Pro Gly Gly Gly Ser Thr Gly Phe Arg Arg Arg Val Trp Val Ser

65 70 75 80

Glu Ser Met Glu Glu Ala Leu Glu Lys Ala Ile Tyr Arg Ser Arg Phe

85 90 95

Met Thr Leu Leu Gly Val Leu Gly Ser Leu Val Gly Ser Val Leu Cys

100 105 110

Phe Val Lys Gly Cys Asn Ile Val Ala Ala Ser Phe Thr Glu His Ile

115 120 125

Val Arg Ser Gly Lys Val Met Thr Val Leu Val Glu Ala Leu Asp Val

130 135 140

Tyr Leu Leu Gly Thr Val Met Leu Val Phe Gly Met Gly Leu Tyr Glu

145 150 155 160

Leu Phe Val Cys Asn Ile Asp Ile Glu Glu Ser Leu Lys Gly Gln Lys

165 170 175

Phe Pro Tyr Arg Ser Asn Leu Phe Gly Leu Phe Thr Leu Met Glu Arg

180 185 190

Pro Lys Trp Leu Glu Ile Lys Ser Val Asn Glu Leu Lys Thr Lys Val

195 200 205

Gly His Val Ile Val Met Leu Leu Leu Ile Gly Phe Phe Asp Asn Ser

210 215 220

Lys Lys Ala Ala Ile His Ser Pro Thr Asp Leu Leu Cys Phe Ser Ala

225 230 235 240

Ser Ile Leu Leu Cys Ser Gly Cys Leu Tyr Leu Leu Ala Lys Leu Asn

245 250 255

Gly Pro Lys His Gln Trp Leu

260

<210> 17

<211> 461

<212> DNA

<213> 人工序列

<220>

<223> 靶向狗尾草Sevir.4G287300基因的RNAi

<400> 17

atgaagctca ggcctctcac ttgcgtggcg gcggggtgcg ccgggtgggc gtggaggccg 60

aggtcgcgcg tgcggtcaga ggcggtgtca cccaagcgtt cccacgcggc agcggcggcg 120

gcgggcgcgg ttcattcgga ggagcaccgc cgcggcggca tgcgcgaggt gctcttccgc 180

ccggtggggc tgcccaccga gacgaagttc ggggcggggc tggaggatcg gatcgagaag 240

gtcatctgcg cctgccgctt catgaccttc ctcggcatcg gcggcttgct cgccggctgc 300

gtcccctgct tcctcaaggg atgcgtttat gtgatggacg ccttcgtcga gtactacctg 360

cacggcggtg gaatgctcat cctaatgttg cttgaagcca ttgacatgtt tctcattgga 420

acggtcatgt ttgtattcgg gacgggcttg tatgagctgt t 461

<210> 18

<211> 177

<212> PRT

<213> 柄杆菌噬菌体(Caulobacter phage)

<400> 18

Met Ile Phe Glu Thr Arg Trp Leu Leu Val Pro Ile Tyr Leu Ala Met

1 5 10 15

Ile Ile Ala Ile Ala Ala Tyr Val Ile Leu Phe Thr Lys Gln Ala Ile

20 25 30

Asp Met Gly Leu Gly Val Trp His Trp Asp Ala Glu His Leu Leu Leu

35 40 45

Ala Ser Leu Ala Leu Val Asp Met Ser Met Val Ala Asn Leu Ile Val

50 55 60

Met Ile Leu Ala Gly Gly Phe Ser Thr Phe Val Ala Glu Phe Asp Gln

65 70 75 80

Ser Leu Phe Pro Asn Arg Pro Arg Trp Met Asn Gly Leu Asp Ser Thr

85 90 95

Thr Leu Lys Ile Gln Met Gly Lys Ser Leu Ile Gly Val Thr Ser Val

100 105 110

His Leu Leu Gln Thr Phe Met Arg Leu His Asp Ile Leu Lys Glu Glu

115 120 125

Asn Gly Leu Val Leu Val Ile Ala Glu Ile Ala Ile His Met Val Phe

130 135 140

Ile Val Thr Thr Val Ser Tyr Cys Tyr Ile Ser Lys Leu Thr His Gly

145 150 155 160

His Lys Val Ala Pro Ala Ala Leu Pro Thr Pro Ala Thr Ala Glu Gly

165 170 175

His

<210> 19

<211> 186

<212> PRT

<213> 洞穴甲烷八叠球菌(Methanosarcina spelaei)

<400> 19

Met Lys Val Val Arg Phe Ile Ala Gly Met Arg Phe Phe Val Leu Ile

1 5 10 15

Pro Val Ile Gly Leu Ala Ile Ala Ala Cys Val Leu Phe Ile Lys Gly

20 25 30

Gly Ile Asp Ile Ile His Phe Met Gly Glu Leu Ile Ile Gly Met Ser

35 40 45

Glu Glu Gly Pro Glu Lys Ser Ile Ile Val Glu Ile Val Glu Thr Val

50 55 60

His Leu Phe Leu Val Gly Thr Val Leu Phe Leu Thr Ser Phe Gly Leu

65 70 75 80

Tyr Gln Leu Phe Ile Gln Pro Leu Pro Leu Pro Glu Trp Val Lys Val

85 90 95

Asn Asn Ile Glu Glu Leu Glu Leu Asn Leu Val Gly Leu Thr Val Val

100 105 110

Val Leu Gly Val Asn Phe Leu Ser Ile Ile Phe Glu Pro Gln Glu Thr

115 120 125

Asp Leu Ala Ile Tyr Gly Ile Gly Tyr Ala Leu Pro Ile Ala Ala Leu

130 135 140

Ala Tyr Phe Met Lys Val Arg Ser His Ile Arg Lys Gly Ser Asn Asp

145 150 155 160

Glu Glu Glu Met Arg Asn Ile Gly Glu Val Thr Ser Val Asn Ser Glu

165 170 175

Ser Asn Trp Leu Ile Asn Lys Lys Gly Asp

180 185

<210> 20

<211> 185

<212> PRT

<213> 海沼甲烷八叠球菌(Methanococcus maripaludis)

<400> 20

Met Gly Lys Ser Asp Lys Leu Lys Lys Lys Tyr Gly Ile Lys Asn Ile

1 5 10 15

Ser Glu Gln Gly Phe Phe Glu His Phe Phe Glu Leu Ile Leu Trp Asn

20 25 30

Ser Arg Phe Ile Val Val Leu Ala Val Ile Phe Gly Thr Leu Gly Ser

35 40 45

Ile Met Leu Phe Leu Ala Gly Ser Ala Glu Ile Phe His Thr Ile Leu

50 55 60

Ser Tyr Ile Ser Asp Pro Met Ser Ser Glu Gln His Asn Gln Ile Leu

65 70 75 80

Ile Gly Val Ile Gly Ala Val Asp Leu Tyr Leu Ile Gly Val Val Leu

85 90 95

Leu Ile Phe Ser Phe Gly Ile Tyr Glu Leu Phe Ile Ser Lys Ile Asp

100 105 110

Ile Ala Arg Val Asp Gly Asp Val Ser Asn Ile Leu Glu Ile Tyr Thr

115 120 125

Leu Asp Glu Leu Lys Ser Lys Ile Ile Lys Val Ile Ile Met Val Leu

130 135 140

Val Val Ser Phe Phe Gln Arg Val Leu Ser Met His Phe Glu Thr Ser

145 150 155 160

Leu Asp Met Ile Tyr Met Ala Ile Ser Ile Phe Ala Ile Ser Leu Gly

165 170 175

Val Tyr Phe Met His Arg Gln Lys Met

180 185

<210> 21

<211> 164

<212> PRT

<213> 大肠杆菌(Escherichia coli)

<400> 21

Met Glu Arg Phe Leu Glu Asn Ala Met Tyr Ala Ser Arg Trp Leu Leu

1 5 10 15

Ala Pro Val Tyr Phe Gly Leu Ser Leu Ala Leu Val Ala Leu Ala Leu

20 25 30

Lys Phe Phe Gln Glu Ile Ile His Val Leu Pro Asn Ile Phe Ser Met

35 40 45

Ala Glu Ser Asp Leu Ile Leu Val Leu Leu Ser Leu Val Asp Met Thr

50 55 60

Leu Val Gly Gly Leu Leu Val Met Val Met Phe Ser Gly Tyr Glu Asn

65 70 75 80

Phe Val Ser Gln Leu Asp Ile Ser Glu Asn Lys Glu Lys Leu Asn Trp

85 90 95

Leu Gly Lys Met Asp Ala Thr Ser Leu Lys Asn Lys Val Ala Ala Ser

100 105 110

Ile Val Ala Ile Ser Ser Ile His Leu Leu Arg Val Phe Met Asp Ala

115 120 125

Lys Asn Val Pro Asp Asn Lys Leu Met Trp Tyr Val Ile Ile His Leu

130 135 140

Thr Phe Val Leu Ser Ala Phe Val Met Gly Tyr Leu Asp Arg Leu Thr

145 150 155 160

Arg His Asn His

<210> 22

<211> 168

<212> PRT

<213> 简明弯曲杆菌(Campylobacter concisus)

<400> 22

Met Arg Lys Ile Phe Glu Arg Ile Leu Leu Ala Ser Asn Ser Phe Thr

1 5 10 15

Leu Phe Pro Val Val Phe Gly Leu Leu Gly Ala Ile Val Leu Phe Ile

20 25 30

Ile Ala Ser Tyr Asp Val Gly Lys Val Leu Leu Glu Val Tyr Lys Tyr

35 40 45

Phe Phe Ala Ala Asp Phe His Val Glu Asn Phe His Ser Glu Val Val

50 55 60

Gly Glu Ile Val Gly Ala Ile Asp Leu Tyr Leu Met Ala Leu Val Leu

65 70 75 80

Tyr Ile Phe Ser Phe Gly Ile Tyr Glu Leu Phe Ile Ser Glu Ile Thr

85 90 95

Gln Leu Lys Gln Ser Lys Gln Ser Lys Val Leu Glu Val His Ser Leu

100 105 110

Asp Glu Leu Lys Asp Lys Leu Gly Lys Val Ile Val Met Val Leu Ile

115 120 125

Val Asn Phe Phe Gln Arg Val Leu His Ala Asn Phe Thr Thr Pro Leu

130 135 140

Glu Met Ala Tyr Leu Ala Ala Ser Ile Leu Ala Leu Cys Leu Gly Leu

145 150 155 160

Tyr Phe Leu His Lys Gly Asp His

165

<210> 23

<211> 170

<212> PRT

<213> 细菌红杆菌(Rhodobacteraceae bacterium)

<400> 23

Met Gly Phe Ile Glu Arg Ile Gly Glu Lys Ile Leu Trp Asn Ser Arg

1 5 10 15

Phe Ile Val Ile Leu Ala Val Ile Phe Ser Ile Ile Ala Ser Ile Ser

20 25 30

Leu Phe Ile Ile Gly Ser Tyr Glu Ile Ile Tyr Ser Leu Val Tyr Glu

35 40 45

Asn Pro Ile Trp Ser Glu Lys Tyr Lys His Asn His Ala Gln Ile Leu

50 55 60

Tyr Lys Ile Ile Ser Ala Val Asp Leu Tyr Leu Ile Gly Val Val Leu

65 70 75 80

Met Ile Phe Gly Phe Gly Ile Tyr Glu Leu Phe Ile Ser Lys Ile Asp

85 90 95

Ile Ala Arg Lys Asn Pro Ser Ile Thr Ile Leu Glu Ile Glu Asn Leu

100 105 110

Asp Glu Leu Lys Asn Lys Ile Val Lys Val Ile Val Met Val Leu Ile

115 120 125

Val Ser Phe Phe Glu Arg Ile Leu Lys Asn Ser Asp Ala Phe Thr Ser

130 135 140

Ser Leu Asn Leu Leu Tyr Phe Ala Ile Ser Ile Phe Ala Ile Ser Phe

145 150 155 160

Ser Ile Tyr Tyr Ile Asn Lys Asn Lys Asn

165 170

<210> 24

<211> 302

<212> PRT

<213> 细小微胞藻(Micromonas pusilla)

<400> 24

Met Ser Ser Ser Gly Val Leu Ser Leu Ser Ala Ser Ala Arg Val Ala

1 5 10 15

Pro Arg Ala Thr Ser Val Arg Arg Ala Arg Ala Pro Val Arg Ala Thr

20 25 30

Gln Leu Ala Arg Ser Arg Ala Asp Thr Ala Ala Trp Gly Lys Lys Phe

35 40 45

Met Ser Val Glu Arg Gly Ser Arg Ala Val Gly Val Arg Ser Leu Val

50 55 60

Glu Ala Ala Asn Thr Glu Pro Gly Ala Ser Tyr Asp Asp Gly Asp Asp

65 70 75 80

His Val Asp Thr Thr Tyr Asp Ala Glu Asp Leu Ala His Pro Asp Val

85 90 95

Ala Met Met Lys Ala Ser Arg Glu Val Arg Lys Pro Phe Arg Glu Phe

100 105 110

Ser Leu Ile Glu Lys Val Glu Tyr Val Phe Val Arg Phe Thr Leu Ile

115 120 125

Ser Ala Cys Ile Phe Val Leu Leu Gly Val Leu Ala Ser Leu Leu Leu

130 135 140

Ser Ala Leu Leu Phe Ser Met Gly Met Lys Glu Val Leu Phe Asp Ala

145 150 155 160

Val Gln Ala Trp Ala Gly Tyr Ser Pro Val Gly Leu Val Ser Ser Ala

165 170 175

Val Gly Ala Leu Asp Arg Phe Leu Leu Gly Met Val Cys Leu Val Phe

180 185 190

Gly Leu Gly Ser Phe Glu Leu Phe Leu Ala Arg Ser Asn Arg Ala Gly

195 200 205

Gln Val Arg Asp Arg Arg Leu Lys Lys Leu Ala Trp Leu Lys Val Ser

210 215 220

Ser Ile Asp Asp Leu Glu Gln Lys Val Gly Glu Ile Ile Val Ala Val

225 230 235 240

Met Val Val Asn Leu Leu Glu Met Ser Leu His Met Thr Tyr Ala Ala

245 250 255

Pro Leu Asp Leu Val Trp Ala Ala Leu Ala Ala Val Met Ser Ala Gly

260 265 270

Ala Leu Ala Leu Leu His Tyr Ala Ala Gly His Gly Asp His Asn His

275 280 285

Lys Asp Lys Gly Gly His Asp Ser Gly Ala Gly Leu Leu His

290 295 300

<210> 25

<211> 232

<212> PRT

<213> Klebsormidium nitens

<400> 25

Met Ser Lys Asp Gly Val Ala Ala Ile Asp Val Met Met Pro Asp Gly

1 5 10 15

Ala Ser Glu Asp Tyr Pro Ile Thr Leu Glu Glu Ala Asp Ala Ser Asp

20 25 30

Gly Glu Trp Thr Arg Arg Lys Arg His Val Lys Arg Leu Lys Lys Val

35 40 45

Glu Ser Thr Ile Glu Arg Val Ile Phe Asp Cys Arg Phe Phe Ala Leu

50 55 60

Met Gly Val Val Gly Ser Leu Ile Gly Ser Phe Leu Cys Phe Val Lys

65 70 75 80

Gly Cys Phe Tyr Val Tyr Lys Ala Ile Ile Ala Ala Ala Phe Asp Val

85 90 95

Thr His Gly Leu Asn Ser Tyr Lys Val Val Leu Lys Leu Ile Glu Ala

100 105 110

Leu Asp Thr Tyr Leu Val Ala Thr Val Met Leu Ile Phe Gly Met Gly

115 120 125

Leu Tyr Glu Leu Phe Val Asn Glu Leu Glu Ala Val Ala Thr Thr Asp

130 135 140

Ser Val Val Gly Cys Lys Ser Asn Leu Phe Gly Leu Phe Arg Leu Arg

145 150 155 160

Glu Arg Pro Lys Trp Leu Gln Ile Asn Gly Leu Asp Ala Leu Lys Glu

165 170 175

Lys Leu Gly His Val Ile Val Met Ile Leu Leu Val Gly Met Phe Glu

180 185 190

Lys Ser Lys Lys Val Pro Ile Arg Asn Gly Val Asp Leu Val Cys Val

195 200 205

Ala Thr Ser Val Leu Leu Cys Ala Gly Ser Leu Tyr Leu Leu Ser Gln

210 215 220

Leu Ser Lys Asn Gly Asn Gly His

225 230

<210> 26

<211> 262

<212> PRT

<213> 拟南芥(Arabidopsis thaliana)

<400> 26

Met Ala Leu Ser Ser Leu Ile Ser Ala Thr Pro Leu Ser Leu Ser Val

1 5 10 15

Pro Arg Tyr Leu Val Leu Pro Thr Arg Arg Arg Phe His Leu Pro Leu

20 25 30

Ala Thr Leu Asp Ser Ser Pro Pro Glu Ser Ser Ala Ser Ser Ser Ile

35 40 45

Pro Thr Ser Ile Pro Val Asn Gly Asn Thr Leu Pro Ser Ser Tyr Gly

50 55 60

Thr Arg Lys Asp Asp Ser Pro Phe Ala Gln Phe Phe Arg Ser Thr Glu

65 70 75 80

Ser Asn Val Glu Arg Ile Ile Phe Asp Phe Arg Phe Leu Ala Leu Leu

85 90 95

Ala Val Gly Gly Ser Leu Ala Gly Ser Leu Leu Cys Phe Leu Asn Gly

100 105 110

Cys Val Tyr Ile Val Glu Ala Tyr Lys Val Tyr Trp Thr Asn Cys Ser

115 120 125

Lys Gly Ile His Thr Gly Gln Met Val Leu Arg Leu Val Glu Ala Ile

130 135 140

Asp Val Tyr Leu Ala Gly Thr Val Met Leu Ile Phe Ser Met Gly Leu

145 150 155 160

Tyr Gly Leu Phe Ile Ser His Ser Pro His Asp Val Pro Pro Glu Ser

165 170 175

Asp Arg Ala Leu Arg Ser Ser Ser Leu Phe Gly Met Phe Ala Met Lys

180 185 190

Glu Arg Pro Lys Trp Met Lys Ile Ser Ser Leu Asp Glu Leu Lys Thr

195 200 205

Lys Val Gly His Val Ile Val Met Ile Leu Leu Val Lys Met Phe Glu

210 215 220

Arg Ser Lys Met Val Thr Ile Ala Thr Gly Leu Asp Leu Leu Ser Tyr

225 230 235 240

Ser Val Cys Ile Phe Leu Ser Ser Ala Ser Leu Tyr Ile Leu His Asn

245 250 255

Leu His Lys Gly Glu Thr

260

<210> 27

<211> 344

<212> PRT

<213> 水稻(Oryza sativa)

<400> 27

Met Ala Ala Ala Ala Ala Gly Gly Gly Gly Gly Gly Gly Gly Ser Gly

1 5 10 15

Arg Leu Leu Arg Gly Ala Thr Ala Lys Ala Phe His Gly Asp Gly Ser

20 25 30

Ser His His Arg Met Met Pro Ser Ser Ser Ser Ser Val Ala Ala Gly

35 40 45

Gly Gly Gly Gly Val Ala Gly Pro Cys Arg Ile Pro Ser Leu Lys Phe

50 55 60

Pro Ser Leu Trp Glu Ser Lys Arg Gln Gly Gly Gly Val Gly Ser Arg

65 70 75 80

Ala Ala Glu Arg Lys Ala Ala Leu Ile Ala Leu Gly Ala Ala Gly Val

85 90 95

Thr Ala Leu Glu Arg Glu Arg Gly Gly Gly Val Val Leu Leu Pro Glu

100 105 110

Glu Ala Arg Arg Gly Ala Asp Leu Leu Leu Pro Leu Ala Tyr Glu Val

115 120 125

Ala Arg Arg Leu Val Leu Arg Gln Leu Gly Gly Ala Thr Arg Pro Thr

130 135 140

Gln Gln Cys Trp Ser Lys Ile Ala Glu Ala Thr Ile His Gln Gly Val

145 150 155 160

Val Arg Cys Gln Ser Phe Thr Leu Ile Gly Val Ala Gly Ser Leu Val

165 170 175

Gly Ser Val Pro Cys Phe Leu Glu Gly Cys Gly Ala Val Val Arg Ser

180 185 190

Phe Phe Val Gln Phe Arg Ala Leu Thr Gln Thr Ile Asp Gln Ala Glu

195 200 205

Ile Ile Lys Leu Leu Ile Glu Ala Ile Asp Met Phe Leu Ile Gly Thr

210 215 220

Ala Leu Leu Thr Phe Gly Met Gly Met Tyr Ile Met Phe Tyr Gly Ser

225 230 235 240

Arg Ser Ile Gln Asn Pro Gly Met Gln Gly Asp Asn Ser His Leu Gly

245 250 255

Ser Phe Asn Leu Lys Lys Leu Lys Glu Gly Ala Arg Ile Gln Ser Ile

260 265 270

Thr Gln Ala Lys Thr Arg Ile Gly His Ala Ile Leu Leu Leu Leu Gln

275 280 285

Ala Gly Val Leu Glu Lys Phe Lys Ser Val Pro Leu Val Thr Gly Ile

290 295 300

Asp Met Ala Cys Phe Ala Gly Ala Val Leu Ala Ser Ser Ala Gly Val

305 310 315 320

Phe Leu Leu Ser Lys Leu Ser Thr Thr Ala Ala Gln Ala Gln Arg Gln

325 330 335

Pro Arg Lys Arg Thr Ala Phe Ala

340

<210> 28

<211> 138

<212> PRT

<213> 柄杆菌噬菌体(Caulobacter phage)

<400> 28

Ile Phe Glu Thr Arg Trp Leu Leu Val Pro Ile Tyr Leu Ala Met Ile

1 5 10 15

Ile Ala Ile Ala Ala Tyr Val Ile Leu Phe Thr Lys Gln Ala Ile Asp

20 25 30

Met Gly Leu Gly Val Trp His Trp Asp Ala Glu His Leu Leu Leu Ala

35 40 45

Ser Leu Ala Leu Val Asp Met Ser Met Val Ala Asn Leu Ile Val Met

50 55 60

Ile Leu Ala Gly Gly Phe Ser Thr Phe Val Ala Glu Phe Asp Gln Ser

65 70 75 80

Leu Phe Pro Asn Arg Pro Arg Trp Met Asn Gly Leu Asp Ser Thr Thr

85 90 95

Leu Lys Ile Gln Met Gly Lys Ser Leu Ile Gly Val Thr Ser Val His

100 105 110

Leu Leu Gln Thr Phe Met Arg Leu His Asp Ile Leu Lys Glu Glu Asn

115 120 125

Gly Leu Val Leu Val Ile Ala Glu Ile Ala

130 135

<210> 29

<211> 145

<212> PRT

<213> 洞穴甲烷八叠球菌(Methanosarcina spelaei)

<400> 29

Val Val Arg Phe Ile Ala Gly Met Arg Phe Phe Val Leu Ile Pro Val

1 5 10 15

Ile Gly Leu Ala Ile Ala Ala Cys Val Leu Phe Ile Lys Gly Gly Ile

20 25 30

Asp Ile Ile His Phe Met Gly Glu Leu Ile Ile Gly Met Ser Glu Glu

35 40 45

Gly Pro Glu Lys Ser Ile Ile Val Glu Ile Val Glu Thr Val His Leu

50 55 60

Phe Leu Val Gly Thr Val Leu Phe Leu Thr Ser Phe Gly Leu Tyr Gln

65 70 75 80

Leu Phe Ile Gln Pro Leu Pro Leu Pro Glu Trp Val Lys Val Asn Asn

85 90 95

Ile Glu Glu Leu Glu Leu Asn Leu Val Gly Leu Thr Val Val Val Leu

100 105 110

Gly Val Asn Phe Leu Ser Ile Ile Phe Glu Pro Gln Glu Thr Asp Leu

115 120 125

Ala Ile Tyr Gly Ile Gly Tyr Ala Leu Pro Ile Ala Ala Leu Ala Tyr

130 135 140

Phe

145

<210> 30

<211> 159

<212> PRT

<213> 海沼甲烷八叠球菌(Methanococcus maripaludis)

<400> 30

Phe Glu His Phe Phe Glu Leu Ile Leu Trp Asn Ser Arg Phe Ile Val

1 5 10 15

Val Leu Ala Val Ile Phe Gly Thr Leu Gly Ser Ile Met Leu Phe Leu

20 25 30

Ala Gly Ser Ala Glu Ile Phe His Thr Ile Leu Ser Tyr Ile Ser Asp

35 40 45

Pro Met Ser Ser Glu Gln His Asn Gln Ile Leu Ile Gly Val Ile Gly

50 55 60

Ala Val Asp Leu Tyr Leu Ile Gly Val Val Leu Leu Ile Phe Ser Phe

65 70 75 80

Gly Ile Tyr Glu Leu Phe Ile Ser Lys Ile Asp Ile Ala Arg Val Asp

85 90 95

Gly Asp Val Ser Asn Ile Leu Glu Ile Tyr Thr Leu Asp Glu Leu Lys

100 105 110

Ser Lys Ile Ile Lys Val Ile Ile Met Val Leu Val Val Ser Phe Phe

115 120 125

Gln Arg Val Leu Ser Met His Phe Glu Thr Ser Leu Asp Met Ile Tyr

130 135 140

Met Ala Ile Ser Ile Phe Ala Ile Ser Leu Gly Val Tyr Phe Met

145 150 155

<210> 31

<211> 150

<212> PRT

<213> 大肠杆菌(Escherichia coli)

<400> 31

Glu Arg Phe Leu Glu Asn Ala Met Tyr Ala Ser Arg Trp Leu Leu Ala

1 5 10 15

Pro Val Tyr Phe Gly Leu Ser Leu Ala Leu Val Ala Leu Ala Leu Lys

20 25 30

Phe Phe Gln Glu Ile Ile His Val Leu Pro Asn Ile Phe Ser Met Ala

35 40 45

Glu Ser Asp Leu Ile Leu Val Leu Leu Ser Leu Val Asp Met Thr Leu

50 55 60

Val Gly Gly Leu Leu Val Met Val Met Phe Ser Gly Tyr Glu Asn Phe

65 70 75 80

Val Ser Gln Leu Asp Ile Ser Glu Asn Lys Glu Lys Leu Asn Trp Leu

85 90 95

Gly Lys Met Asp Ala Thr Ser Leu Lys Asn Lys Val Ala Ala Ser Ile

100 105 110

Val Ala Ile Ser Ser Ile His Leu Leu Arg Val Phe Met Asp Ala Lys

115 120 125

Asn Val Pro Asp Asn Lys Leu Met Trp Tyr Val Ile Ile His Leu Thr

130 135 140

Phe Val Leu Ser Ala Phe

145 150

<210> 32

<211> 165

<212> PRT

<213> 简明弯曲杆菌(Campylobacter concisus)

<400> 32

Lys Ile Phe Glu Arg Ile Leu Leu Ala Ser Asn Ser Phe Thr Leu Phe

1 5 10 15

Pro Val Val Phe Gly Leu Leu Gly Ala Ile Val Leu Phe Ile Ile Ala

20 25 30

Ser Tyr Asp Val Gly Lys Val Leu Leu Glu Val Tyr Lys Tyr Phe Phe

35 40 45

Ala Ala Asp Phe His Val Glu Asn Phe His Ser Glu Val Val Gly Glu

50 55 60

Ile Val Gly Ala Ile Asp Leu Tyr Leu Met Ala Leu Val Leu Tyr Ile

65 70 75 80

Phe Ser Phe Gly Ile Tyr Glu Leu Phe Ile Ser Glu Ile Thr Gln Leu

85 90 95

Lys Gln Ser Lys Gln Ser Lys Val Leu Glu Val His Ser Leu Asp Glu

100 105 110

Leu Lys Asp Lys Leu Gly Lys Val Ile Val Met Val Leu Ile Val Asn

115 120 125

Phe Phe Gln Arg Val Leu His Ala Asn Phe Thr Thr Pro Leu Glu Met

130 135 140

Ala Tyr Leu Ala Ala Ser Ile Leu Ala Leu Cys Leu Gly Leu Tyr Phe

145 150 155 160

Leu His Lys Gly Asp

165

<210> 33

<211> 162

<212> PRT

<213> 细菌红杆菌(Rhodobacteraceae bacterium)

<400> 33

Glu Arg Ile Gly Glu Lys Ile Leu Trp Asn Ser Arg Phe Ile Val Ile

1 5 10 15

Leu Ala Val Ile Phe Ser Ile Ile Ala Ser Ile Ser Leu Phe Ile Ile

20 25 30

Gly Ser Tyr Glu Ile Ile Tyr Ser Leu Val Tyr Glu Asn Pro Ile Trp

35 40 45

Ser Glu Lys Tyr Lys His Asn His Ala Gln Ile Leu Tyr Lys Ile Ile

50 55 60

Ser Ala Val Asp Leu Tyr Leu Ile Gly Val Val Leu Met Ile Phe Gly

65 70 75 80

Phe Gly Ile Tyr Glu Leu Phe Ile Ser Lys Ile Asp Ile Ala Arg Lys

85 90 95

Asn Pro Ser Ile Thr Ile Leu Glu Ile Glu Asn Leu Asp Glu Leu Lys

100 105 110

Asn Lys Ile Val Lys Val Ile Val Met Val Leu Ile Val Ser Phe Phe

115 120 125

Glu Arg Ile Leu Lys Asn Ser Asp Ala Phe Thr Ser Ser Leu Asn Leu

130 135 140

Leu Tyr Phe Ala Ile Ser Ile Phe Ala Ile Ser Phe Ser Ile Tyr Tyr

145 150 155 160

Ile Asn

<210> 34

<211> 152

<212> PRT

<213> 细小微胞藻(Micromonas pusilla)

<400> 34

Thr Leu Ile Ser Ala Cys Ile Phe Val Leu Leu Gly Val Leu Ala Ser

1 5 10 15

Leu Leu Leu Ser Ala Leu Leu Phe Ser Met Gly Met Lys Glu Val Leu

20 25 30

Phe Asp Ala Val Gln Ala Trp Ala Gly Tyr Ser Pro Val Gly Leu Val

35 40 45

Ser Ser Ala Val Gly Ala Leu Asp Arg Phe Leu Leu Gly Met Val Cys

50 55 60

Leu Val Phe Gly Leu Gly Ser Phe Glu Leu Phe Leu Ala Arg Ser Asn

65 70 75 80

Arg Ala Gly Gln Val Arg Asp Arg Arg Leu Lys Lys Leu Ala Trp Leu

85 90 95

Lys Val Ser Ser Ile Asp Asp Leu Glu Gln Lys Val Gly Glu Ile Ile

100 105 110

Val Ala Val Met Val Val Asn Leu Leu Glu Met Ser Leu His Met Thr

115 120 125

Tyr Ala Ala Pro Leu Asp Leu Val Trp Ala Ala Leu Ala Ala Val Met

130 135 140

Ser Ala Gly Ala Leu Ala Leu Leu

145 150

<210> 35

<211> 174

<212> PRT

<213> Klebsormidium nitens

<400> 35

Glu Ser Thr Ile Glu Arg Val Ile Phe Asp Cys Arg Phe Phe Ala Leu

1 5 10 15

Met Gly Val Val Gly Ser Leu Ile Gly Ser Phe Leu Cys Phe Val Lys

20 25 30

Gly Cys Phe Tyr Val Tyr Lys Ala Ile Ile Ala Ala Ala Phe Asp Val

35 40 45

Thr His Gly Leu Asn Ser Tyr Lys Val Val Leu Lys Leu Ile Glu Ala

50 55 60

Leu Asp Thr Tyr Leu Val Ala Thr Val Met Leu Ile Phe Gly Met Gly

65 70 75 80

Leu Tyr Glu Leu Phe Val Asn Glu Leu Glu Ala Val Ala Thr Thr Asp

85 90 95

Ser Val Val Gly Cys Lys Ser Asn Leu Phe Gly Leu Phe Arg Leu Arg

100 105 110

Glu Arg Pro Lys Trp Leu Gln Ile Asn Gly Leu Asp Ala Leu Lys Glu

115 120 125

Lys Leu Gly His Val Ile Val Met Ile Leu Leu Val Gly Met Phe Glu

130 135 140

Lys Ser Lys Lys Val Pro Ile Arg Asn Gly Val Asp Leu Val Cys Val

145 150 155 160

Ala Thr Ser Val Leu Leu Cys Ala Gly Ser Leu Tyr Leu Leu

165 170

<210> 36

<211> 174

<212> PRT

<213> 拟南芥(Arabidopsis thaliana)

<400> 36

Ser Asn Val Glu Arg Ile Ile Phe Asp Phe Arg Phe Leu Ala Leu Leu

1 5 10 15

Ala Val Gly Gly Ser Leu Ala Gly Ser Leu Leu Cys Phe Leu Asn Gly

20 25 30

Cys Val Tyr Ile Val Glu Ala Tyr Lys Val Tyr Trp Thr Asn Cys Ser

35 40 45

Lys Gly Ile His Thr Gly Gln Met Val Leu Arg Leu Val Glu Ala Ile

50 55 60

Asp Val Tyr Leu Ala Gly Thr Val Met Leu Ile Phe Ser Met Gly Leu

65 70 75 80

Tyr Gly Leu Phe Ile Ser His Ser Pro His Asp Val Pro Pro Glu Ser

85 90 95

Asp Arg Ala Leu Arg Ser Ser Ser Leu Phe Gly Met Phe Ala Met Lys

100 105 110

Glu Arg Pro Lys Trp Met Lys Ile Ser Ser Leu Asp Glu Leu Lys Thr

115 120 125

Lys Val Gly His Val Ile Val Met Ile Leu Leu Val Lys Met Phe Glu

130 135 140

Arg Ser Lys Met Val Thr Ile Ala Thr Gly Leu Asp Leu Leu Ser Tyr

145 150 155 160

Ser Val Cys Ile Phe Leu Ser Ser Ala Ser Leu Tyr Ile Leu

165 170

<210> 37

<211> 171

<212> PRT

<213> 水稻(Oryza sativa)

<400> 37

Ala Thr Ile His Gln Gly Val Val Arg Cys Gln Ser Phe Thr Leu Ile

1 5 10 15

Gly Val Ala Gly Ser Leu Val Gly Ser Val Pro Cys Phe Leu Glu Gly

20 25 30

Cys Gly Ala Val Val Arg Ser Phe Phe Val Gln Phe Arg Ala Leu Thr

35 40 45

Gln Thr Ile Asp Gln Ala Glu Ile Ile Lys Leu Leu Ile Glu Ala Ile

50 55 60

Asp Met Phe Leu Ile Gly Thr Ala Leu Leu Thr Phe Gly Met Gly Met

65 70 75 80

Tyr Ile Met Phe Tyr Gly Ser Arg Ser Ile Gln Asn Pro Gly Met Gln

85 90 95

Gly Asp Asn Ser His Leu Gly Ser Phe Asn Leu Lys Lys Leu Lys Glu

100 105 110

Gly Ala Arg Ile Gln Ser Ile Thr Gln Ala Lys Thr Arg Ile Gly His

115 120 125

Ala Ile Leu Leu Leu Leu Gln Ala Gly Val Leu Glu Lys Phe Lys Ser

130 135 140

Val Pro Leu Val Thr Gly Ile Asp Met Ala Cys Phe Ala Gly Ala Val

145 150 155 160

Leu Ala Ser Ser Ala Gly Val Phe Leu Leu Ser

165 170

Claims

1.一种重组细胞，其经过工程改造以与相应的野生型形式的细胞相比过表达UPF0114家族蛋白，其中所述UPF0114家族蛋白由稳定地或瞬时地引入所述重组细胞的重组核酸序列编码，并且能够跨所述重组细胞的膜转运羧酸盐和/或羧酸。

2.根据权利要求1所述的重组细胞，其中：

-所述羧酸盐包括以下任何一种：

(i)单羧酸盐；

(ii)二羧酸盐；或

(iii)三羧酸盐；或

(iv)单羧酸盐和二羧酸盐；或

(v)单羧酸盐和三羧酸盐；或

(vi)二羧酸盐和三羧酸盐；或

(vii)单羧酸盐、二羧酸盐和三羧酸盐；

-所述羧酸包括以下任何一种：

(i)单羧酸；

(ii)二羧酸；或

(iii)三羧酸；或

(iv)单羧酸和二羧酸；或

(v)单羧酸和三羧酸；或

(vi)二羧酸和三羧酸；或

(vii)单羧酸、二羧酸和三羧酸。

3.根据权利要求1或权利要求2所述的重组细胞，其中所述相应的野生型形式的细胞不表达所述UPF0114家族蛋白。

4.根据权利要求1至3中任一项所述的重组细胞，其中所述UPF0114家族蛋白对于所述重组细胞是外源的。

5.根据权利要求1至4中任一项所述的重组细胞，其中：

6.根据权利要求1至5中任一项所述的重组细胞，其中所述UPF0114家族蛋白能够跨所述膜双向转运所述羧酸盐和/或羧酸。

7.根据权利要求1至6中任一项所述的重组细胞，其中所述膜是细胞质膜。

8.根据权利要求1至6中任一项所述的重组细胞，其中所述膜选自细胞内膜、叶绿体膜、叶绿体被膜内膜、叶绿体被膜外膜、叶绿体内膜、类囊体膜、过氧化物酶体膜、线粒体膜、线粒体内膜或线粒体外膜。

9.根据权利要求1至8中任一项所述的重组细胞，其中所述UPF0114家族蛋白能够逆着存在于所述膜一侧的浓度梯度跨所述重组细胞的膜转运羧酸盐和/或羧酸。

10.根据权利要求1至9中任一项所述的重组细胞，其中所述UPF0114家族蛋白能够沿着存在于所述膜一侧的浓度梯度跨所述重组细胞的膜转运羧酸盐和/或羧酸。

11.根据权利要求1至10中任一项所述的重组细胞，其中所述重组细胞是原核细胞、真核细胞、古细菌细胞、植物细胞、藻类细胞、细菌细胞、酵母细胞、真菌细胞、动物细胞、哺乳动物细胞或合成细胞。

12.根据权利要求1至11中任一项所述的重组细胞，其中所述重组细胞是：重组棒杆菌属种、重组黄单胞菌属种、重组埃希菌属种、重组芽孢杆菌属种、重组梭状杆菌属种、重组乳酸杆菌属种、重组乳球菌属种、重组链球菌属种、重组放线菌属种、重组链霉菌属种或重组放线杆菌属种。

13.根据权利要求1至12中任一项所述的重组细胞，其中所述重组细胞是重组大肠杆菌(Escherichia coli)细胞。

14.根据权利要求11或权利要求13所述的重组细胞，其中：

15.根据权利要求1至11中任一项所述的重组细胞，其中所述重组细胞是植物细胞或藻类细胞。

16.根据权利要求15所述的重组细胞，其中所述植物细胞是：C₃光合植物、CAM光合植物或C₄光合植物的维管鞘细胞、维管束鞘细胞、束内输导组织鞘细胞或叶肉细胞。

17.根据权利要求15或权利要求16所述的重组细胞，其中：

-所述羧酸盐包括苹果酸盐和/或丙酮酸盐；

-所述羧酸包括苹果酸和/或丙酮酸。

18.根据权利要求17所述的重组细胞，其中所述UPF0114家族蛋白能够将苹果酸盐和/或苹果酸摄取到所述重组细胞中并从所述重组细胞输出丙酮酸盐和/或丙酮酸。

19.根据权利要求18所述的重组细胞，其中从所述重组细胞的所述输出是逆浓度梯度的。

20.根据权利要求15至19中任一项所述的重组细胞，其中所述重组核酸序列包括编码将所述UPF0114家族蛋白靶向至叶绿体膜、细胞质膜、过氧化物酶体膜或线粒体膜的靶向肽的序列。

21.根据权利要求1至20中任一项所述的重组细胞，其中所述UPF0114家族蛋白包括：

22.根据权利要求15至21中任一项所述的重组细胞，其中所述植物细胞来自以下任一者：

(i)稻属(Oryza)植物(例如稻植物)；

(ii)水稻(Oryza sativa)或光稃稻(Oryza glaberrima)植物。

23.根据权利要求15至20中任一项所述的重组细胞，其中所述植物细胞来自：大豆(Glycine max)、棉花(Gossypium hirsutum)、油菜(B.napus subsp.Napus)、马铃薯(Solanum tuberosum)、番茄(Solanum lycopersicum)、木薯(Manihot esculenta)、小麦(Triticum aestivum)、大麦(Hordeum vulgare)、木豆(Cajanus cajan)、豇豆(Vignaunguiculata)、豌豆(Pisum sativum)、大麻(Cannabis sativa)、甜菜(Beta vulgaris)、燕麦(Avena sativa)、黑麦(Secale cereal)、花生(Arachis hypogaea)、向日葵(Helianthusannuus)、亚麻(Linum spp.)、菜豆(Phaseolus vulgaris)、棉豆(Phaseolus lunatus)、绿豆(Phaseolus mung)、赤豆(Phaseolus angularis)、鹰嘴豆(Cicer arietinum)、烟草(Nicotiana tabacum)、荞麦(Fagopyrum esculentum)、油棕(Elaeis guineensis)或橡胶(Hevea brasiliensis)植物。

24.根据权利要求1至23中任一项所述的重组细胞，其中所述UPF0114家族蛋白是以下任一者：C₄光合植物UPF0114蛋白、C₃光合植物UPF0114蛋白、藻类UPF0114蛋白、细菌UPF0114蛋白或古细菌UPF0114蛋白。

25.根据权利要求1至24中任一项所述的重组细胞，其中所述UPF0114家族蛋白是以下任一者：

(i)拟南芥(Arabidopsis thaliana)UPF0114蛋白；

(ii)谷子(Setaria italica)UPF0114蛋白；

(iii)狗尾草(Setaria viridis)UPF0114蛋白；

(iv)大肠杆菌UPF0114蛋白；

(v)玉米(Zea mays)UPF0114蛋白；

26.根据权利要求1至24中任一项所述的重组细胞，其中所述UPF0114家族蛋白：

(i)包含如SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6；SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:212、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26或SEQ ID NO:27中所定义的氨基酸序列或由其组成；或

(ii)包含与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:15、SEQ ID NO:18、SEQID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:212、SEQ ID NO:23、SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26或SEQ ID NO:27具有至少70％、75％、80％、85％、87％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的氨基酸序列或由其组成；或

(iv)由包含SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14或SEQ ID NO:16或由其组成的核苷酸序列编码；或

(v)由包含与SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14或SEQ ID NO:16具有至少70％、75％、80％、85％、87％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性的核苷酸序列或由其组成的核苷酸序列编码；或

27.根据权利要求1至26中任一项所述的重组细胞，其中所述重组核酸序列：

(i)与调节序列可操作地连接；和/或

(ii)是表达载体的组分；和/或

(iii)针对在重组细胞类型中表达进行密码子优化；和/或

(iv)已移除内含子序列；和/或

28.根据权利要求1至27中任一项所述的重组细胞，其中所述羧酸盐和/或羧酸被磷酸化。

29.根据权利要求1至28中任一项所述的重组细胞，其中重组细胞被进一步工程改造以产生或过表达生化途径的酶和/或调节蛋白，用于产生所述羧酸盐和/或羧酸。

30.根据权利要求29所述的重组细胞，其中所述重组细胞包含表达载体，所述表达载体包含编码所述酶和/或所述调节蛋白的另外的核酸序列。

31.一种转基因植物或其种子，其包含根据权利要求15至30中任一项所述的重组细胞。

32.根据权利要求31所述的转基因植物，其包含选自以下任何一种或多种的基因：碳酸酐酶(CA)、磷酸烯醇丙酮酸羧化酶(PEPC)、苹果酸脱氢酶(MDH)、草酰乙酸/苹果酸转运蛋白(OMT)、NADP苹果酸酶(NADP-ME)、胆汁酸钠同向转运蛋白2(BASS2)、丙酮酸盐、磷酸二激酶(PPDK)、磷酸烯醇丙酮酸磷酸转位因子(PPT)。

33.一种根据权利要求1至30中任一项所述的重组细胞在产生羧酸和/或羧酸盐的方法中的用途。

34.一种产生羧酸和/或羧酸盐的方法，其包括：

(i)在根据权利要求1至30中任一项所述的重组细胞中产生所述羧酸盐，和

35.根据实施方案34所述的方法，其还包括在从所述UPF0114家族蛋白输出时分离所述羧酸和/或羧酸盐。

36.根据实施方案34或实施方案35所述的方法，其中所述UPF0114家族蛋白逆浓度梯度输出所述羧酸和/或羧酸盐。

37.根据实施方案34至36中任一项所述的方法，其中所述羧酸和/或羧酸盐是使用表达载体在所述重组细胞中产生的，所述表达载体包含编码用于产生所述羧酸和/或羧酸盐的生化途径的酶和/或调节蛋白的核酸序列。

38.根据实施方案34至37中任一项所述的方法，其中所述羧酸和/或羧酸盐在所述重组细胞中通过将一种或多种羧酸和/或羧酸盐前体摄取到所述重组细胞中，并在所述重组细胞内将所述前体转化为所述羧酸和/或羧酸盐而产生。

39.根据实施方案38所述的方法，其中所述一种或多种羧酸和/或羧酸盐前体的所述摄取通过所述UPF0114家族蛋白发生。

40.根据实施方案34至39中任一项所述的方法，其中：