CN112574968B

CN112574968B - 用于生产5α-羟基紫杉二烯的融合蛋白及其用途

Info

Publication number: CN112574968B
Application number: CN201910938117.7A
Authority: CN
Inventors: 王勇; 李建华; 王凯博
Original assignee: Center for Excellence in Molecular Plant Sciences of CAS
Current assignee: Center for Excellence in Molecular Plant Sciences of CAS
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-03-17
Anticipated expiration: 2039-09-30
Also published as: CN112574968A

Abstract

本发明涉及紫杉醇关键中间体5α‑羟基紫杉二烯的制备方法。本发明人通过基因工程的方法将紫杉醇部分合成途径中的基因导入植物烟草的细胞叶绿体中进行工程化改造的方法，使得烟草可以生产5α‑羟基紫杉二烯。

Description

用于生产5α-羟基紫杉二烯的融合蛋白及其用途

技术领域

本发明涉及合成生物学及医药技术领域，具体地，本发明涉及生产5α-羟基紫杉二烯的蛋白及其用途。

背景技术

紫杉醇是来源于红豆杉植物中的一个二萜生物碱化合物，是目前已发现的最优秀的天然抗癌药物，在临床上已经广泛用于乳腺癌、卵巢癌和部分头颈癌、肺癌的治疗。与大多数植物源天然产物一样，紫杉醇仅分布在红豆杉属植物中，且含量极低，因此它来源受到了受到极大的限制。通过化学全合成的方法成功实现了紫杉醇的合成，但是反应步骤多、转化率低使得这种方法不可行。通过红豆杉内生真菌、红豆杉植物细胞培养获得紫杉醇尽管可行，但是产量极低。目前，从红豆杉植物中提取重要中间体巴可亭III(baccatin III)和10-去乙酰巴可亭III(10-deacetylbaccatin III)，再通过化学合成修饰获得紫杉醇是其主要来源方式。

合成生物学可以打破物种种属差异，将标准化的生物元件在底盘细胞(包括微生物单/多细胞、植物细胞、哺乳动物细胞)进行集成与装配，使细胞赋予新的代谢物生成能力。合成生物学的诞生，使生物技术在药物、生物燃料、精细化学品的开发与生产过程中发挥出巨大的作用。

在本领域中，已经有多种天然产物的合成元件经过组装后实现了在微生物细胞中的异源合成。利用大肠杆菌来进行紫杉醇合成途径的组装也有报道，但是利用此方法时需要对前体萜类途径进行复杂优化以及萜类途径和紫杉醇合成途径进行适配。而植物细胞由于可进行光合作用产生多样的物质前体(包括萜类前体DMAPP/IPP)，进而合成复杂的代谢物，比微生物更具有优势。本领域未见在植物细胞中成功地异源合成5α-羟基紫杉二烯的报道。

本发明提供在植物细胞中高效生产紫杉醇及其衍生物的融合蛋白及方法。

发明内容

本发明的目的在于提供融合蛋白以及生产5-羟基紫杉二烯的方法。

本发明第一方面提供一种多肽，包含紫杉二烯合成酶的信号片段或与该片段具有50％序列相同性的突变体。

在一个或多个实施方案中，所述多肽是叶绿体信号肽；更优选为紫杉二烯合成酶的信号肽。

在一个或多个实施方案中，所述信号片段的序列长度为1-100个氨基酸残基。

在一个或多个实施方案中，紫杉二烯合成酶的信号片段包含SEQ ID NO:3的第2位氨基酸至第57-64位中任一位氨基酸的序列或由其组成。

在一个或多个实施方案中，所述片段包含SEQ ID NO:1第2-60位所示序列或由其组成。

本发明第二方面提供一种多肽，包含紫杉二烯-5-羟基化酶的功能片段，或与该片段具有50％序列相同性的突变体。

在一个或多个实施方案中，紫杉二烯-5-羟基化酶的功能片段来源于红豆杉属(Taxus)。

在一个或多个实施方案中，紫杉二烯-5-羟基化酶的功能片段的序列长度为50-500个氨基酸残基。在一个或多个实施方案中，该片段包含截去SEQ ID NO:4的N端第1至5位中任一位氨基酸至第35至50位中任一位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去SEQ ID NO:4的N端第2至42位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去SEQ ID NO:4的N端38～42个氨基酸的剩余多肽。

在一个或多个实施方案中，紫杉二烯-5-羟基化酶的功能片段包含SEQ ID NO:4第43至499位所示序列或由其组成。

本发明第三方面提供一种多肽，包含细胞色素P450氧化还原酶的功能片段，或与该片段具有50％序列相同性的突变体。

在一个或多个实施方案中，细胞色素P450氧化还原酶的功能片段来源于红豆杉属(Taxus)。

在一个或多个实施方案中，细胞色素P450氧化还原酶的功能片段的序列长度为50～800个氨基酸残基。在一个或多个实施方案中，该片段包含截去SEQ ID NO:5的N端第1至15位中任一位氨基酸至第65至85位中任一位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去SEQ ID NO:5的N端第2至74位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去SEQ ID NO:4的N端68至74个氨基酸的剩余多肽。

在一个或多个实施方案中，细胞色素P450氧化还原酶的功能片段包含SEQ ID NO:5第75至717位所示序列或由其组成。

本发明第四方面提供一种融合蛋白，包含信号肽、紫杉二烯-5-羟基化酶的功能片段或与该片段具有50％序列相同性的突变体和细胞色素P450氧化还原酶的功能片段或与该片段具有50％序列相同性的突变体。功能片段的序列如前所述。

在一个或多个实施方案中，所述信号肽是叶绿体信号肽。

在一个或多个实施方案中，所述信号肽位于紫杉二烯-5-羟基化酶的功能片段或细胞色素P450氧化还原酶的功能片段的N端。

在一个或多个实施方案中，所述信号肽包含紫杉二烯合成酶的信号片段或与该片段具有50％序列相同性的突变体。优选地，所述信号肽包含SEQ ID NO:3第2至60位所示序列或由其组成。

在一个或多个实施方案中，所述融合蛋白包含SEQ ID NO:1所示序列或由其组成。

本发明第五方面提供一种多核苷酸序列，选自：

(1)本文所述酶、多肽或融合蛋白的编码序列；

(2)(1)所述序列的互补序列；和

(3)(1)或(2)所述序列的长20-50个碱基的片段。

在一个或多个实施方案中，所述多核苷酸序列选自SEQ ID NO:2或其互补序列。

本发明第六方面提供一种核酸构建物，包含本文所述的多核苷酸序列。

在一个或多个实施方案中，所述核酸构建物是重组表达载体。

本发明第七方面提供一种宿主细胞，所述宿主细胞：

(1)表达本文所述的酶、多肽或融合蛋白；

(2)含有本文所述的多核苷酸序列；和/或

(3)含有本文所述的核酸构建物。

在一个或多个实施方案中，所述宿主细胞包括细菌细胞、真菌细胞或植物细胞。在一个或多个实施方案中，所述细胞包括烟草细胞、拟南芥细胞或红豆杉细胞。在一个或多个实施方案中，所述细胞是本氏烟草(N.benthamian)细胞。

在一个或多个实施方案中，所述宿主细胞还具有如下特征：

(a)表达紫杉二烯合成酶或与该酶具有50％序列相同性的突变体，

(b)表达包含紫杉二烯合成酶的功能片段或与该片段具有50％序列相同性的突变体的多肽，

(c)含有(a)所述酶或(b)所述多肽的编码序列或其互补序列，和/或(d)含有包含(c)所述编码序列的核酸构建物。

本发明第八方面提供选自本文所述酶、多肽、融合蛋白、多核苷酸序列和核酸构建物中的一种或多种在生产5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇或5(13)-氧杂-3(11)-环紫杉醇中的应用，包括将本文所述融合蛋白、多核苷酸序列或核酸构建物引入宿主细胞的步骤。

本发明第九方面提供一种生产5α-羟基紫杉二烯的方法，包括将选自本文所述酶、多肽、融合蛋白、多核苷酸序列和核酸构建物中的一种或多种引入细胞，和从细胞或细胞培养物中分离5α-羟基紫杉二烯。

在一个或多个实施方案中，所述细胞包含细菌细胞、真菌细胞或植物细胞。

在一个或多个实施方案中，所述引入细胞包括引入细胞质中。

在一个或多个实施方案中，所述引入细胞包括引入叶绿体中。

本发明第十方面提供一种生产5(12)-氧杂-3(11)-环紫杉醇的方法，包括将选自本文所述酶、多肽、融合蛋白、多核苷酸序列和核酸构建物中的一种或多种引入细胞，和从细胞或细胞培养物中分离5(12)-氧杂-3(11)-环紫杉醇。

本发明第十一方面提供一种生产5(13)-氧杂-3(11)-环紫杉醇的方法，包括在细胞中引入选自本文所述酶、多肽、融合蛋白、多核苷酸序列和核酸构建物中的一种或多种，和从细胞或细胞培养物中分离5(13)-氧杂-3(11)-环紫杉醇。

本发明第十二方面提供一种生产5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇和/或5(13)-氧杂-3(11)-环紫杉醇的方法，包括培养本文所述的宿主细胞，和从细胞或细胞培养物中分离5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇和/或5(13)-氧杂-3(11)-环紫杉醇。

在一个或多个实施方案中，所述细胞在细胞质中含有或表达本文所述的酶、多肽或融合蛋白。

在一个或多个实施方案中，所述细胞在叶绿体中含有或表达本文所述的酶、多肽或融合蛋白。

本发明的其它方面由于本文的公开内容，对本领域的技术人员而言是显而易见的。

附图说明

图1、紫杉二烯、OCT(5(12)-氧杂-3(11)-环紫杉醇)、异-OCT(iso-OCT，5(12)-氧杂-3(11)-环紫杉醇)及5-羟基紫杉二烯的生物合成路径。

图2、重组蛋白TS/GFP和tp(TS)/GFP(a)，T5H/GFP和tp(T5H)/GFP(b)，tp(TS)/trT5H/trCPR/CFP(c)的细胞内定位。

图3、农杆菌GV3101-pEAQ-TS浸染烟草生产紫杉二烯色谱图与质谱图。

图4、农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产5α-羟基紫杉二烯色谱图与质谱图。

图5、农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产OCT色谱图与质谱图。

图6、农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产iso-OCT色谱图与质谱图。

图7、农杆菌GV3101-pEAQ-TS-T5H/trCPR，GV3101-pEAQ-trTS-trT5H/trCPR，GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产紫杉二烯、5-羟基紫杉二烯、OCT、及iso-OCT产量变化。a：构建体及其名称；b：产量变化，其中1是紫杉二烯，2是5-羟基紫杉二烯，3是OCT，4是iso-OCT；c：色谱图；d：OCT、异-OCT及5-羟基紫杉二烯的合成途径。

图8、经纯化后紫杉二烯的色谱图及质谱图。

图9、经纯化后5α-羟基紫杉二烯的色谱图及质谱图。

图10、经纯化后OCT的色谱图及质谱图。

图11、经纯化后iso-OCT的色谱图及质谱图。

图12、紫杉二烯的1H-NMR图谱。

图13、紫杉二烯的13C-NMR图谱。

图14、5α-羟基紫杉二烯的1H-NMR图谱。

图15、OCT的1H-NMR图谱。

图16、iso-OCT的1H-NMR图谱。

具体实施方式

本发明人致力于利用植物细胞合成紫杉醇及其重要中间体。经过深入的研究，通过基因工程的方法将紫杉醇部分合成途径定位在植物的叶绿体中，获得了高产紫杉二烯及5α-羟基紫杉二烯的方法。

发明人发现，利用植物细胞在生产紫杉醇中间体的过程中，应用野生型的紫杉二烯合成酶(Taxadiene synthase,TS)仅能产生少量的紫杉二烯；即使在细胞中引入紫杉二烯-5α-羟基化酶(Taxadiene-5α-hydroxylase,T5H)以及细胞色素P450还原酶合成酶(Cytochrome P450 reductase，CPR)后，也不能够生产5-羟基紫杉二烯。因此，发明人对多个参与反应的蛋白进行了植物细胞内细胞器定位改造，经过大量筛选分析，成功实现了5-羟基紫杉二烯的生产。

如本文所用，“外源的”或“异源的”是指来自不同来源的两条或多条核酸或蛋白质序列之间的关系。

本文所述“紫杉二烯合成酶”或“TS”、“紫杉二烯-5α-羟基化酶”或“T5H”以及“细胞色素P450氧化还原酶”或“CPR”的氨基酸序列或核酸序列来源于任何物种。在一个或多个实施方案中，上述氨基酸序列或核酸序列来源于红豆杉科(Taxaceae)。在一个或多个实施方案中，上述氨基酸序列或核酸序列来源于红豆杉属(Taxus)。在一个或多个实施方案中，上述氨基酸序列或核酸序列来源于短叶红豆杉(Taxus brevifolia)、东北红豆杉(Taxuscuspidata)、欧洲红豆杉(Taxus baccata)、南方红豆杉(Taxus chinensis var.mairei)、加拿大红豆杉(Taxus canadensis)或中国红豆杉(Taxus chinensis)。应理解，本文还包括上述氨基酸序列或核酸序列的同源物，例如来自其它物种的同源氨基酸序列或核酸序列。

本发明提供一种信号肽，包含紫杉二烯合成酶(TS)的信号片段或与该片段具有50％序列相同性的突变体。在一个或多个实施方案中，紫杉二烯合成酶的信号片段包含TS的氨基酸序列第2-57、2-58、2-59、2-60、2-61、2-62或2-64位所示序列或由其组成。在一个或多个实施方案中，所述信号片段是TS的信号肽。在一个或多个实施方案中，紫杉二烯合成酶的信号片段包含SEQ ID NO:1第2-60位所示序列或由其组成。

本文所述“信号肽”或“信号片段”是引导蛋白质向不同膜结构的细胞器内转移的肽链。信号肽长度可为5-200个氨基酸，例如，10-90、20-80、30-70、或40-60个氨基酸，或由上述端点任意组合形成的范围，如20-60个氨基酸。细胞器一般认为是散布在细胞质内具有一定形态和功能的微结构或微器官。细胞器包括但不限于：线粒体、内质网、中心体、叶绿体，高尔基体、核糖体等。本文中，当术语“信号肽”位于某一细胞器后时，表示引导蛋白质向该细胞器内转移的信号肽，例如线粒体信号肽表示引导蛋白质向线粒体转移的信号肽。信号肽一般位于所述蛋白质的N端。在一个或多个实施方案中，信号肽是叶绿体信号肽tp(TS)。

本发明还提供一种融合蛋白，包含紫杉二烯-5-羟基化酶(T5H)的功能片段或与该片段具有50％序列相同性的突变体和/或细胞色素P450氧化还原酶(CPR)的功能片段或与该片段具有至少50％序列相同性的突变体。在一个或多个实施方案中，T5H的功能片段位于CPR的功能片段的N端，或者CPR的功能片段位于T5H的功能片段的N端。

在一个或多个实施方案中，本发明融合蛋白还包含信号肽，所述信号肽可为本领域周知的任何信号肽。在一个或多个实施方案中，所述信号肽是本领域周知的任何叶绿体信号肽(例如Tat B,Tat C,TP_Fd等)。在一个或多个实施方案中，所述信号肽是本文所述的紫杉二烯合成酶的信号片段。在一个或多个实施方案中，信号肽位于融合蛋白的N端。

本文所述“片段”或“功能片段”在涉及多肽时可为保留全长蛋白或多肽的功能的任意长度的多肽。本文中，根据全长蛋白或多肽的长度，片段长度可为50-800个氨基酸，例如，100-550、100-750、200-600或200-500个氨基酸，或由上述端点任意组合形成的范围。

本文所述“紫杉二烯-5-羟基化酶的功能片段”或“T5H的功能片段”是能够催化紫杉二烯反应成为5-羟基紫杉二烯、OCT和/或异-OCT的紫杉二烯-5-羟基化酶的任意片段。在一个或多个实施方案中，该片段包含截去T5H的N端内质网定位肽的蛋白序列。在一个或多个实施方案中，该片段包含截去T5H的N端第(2-5)位～第(35-50)位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去T5H的N端第1-50、2-42、3-40、4-38或5-35位氨基酸或由上述端点任意组合形成的范围的剩余多肽。在一个或多个实施方案中，该片段包含截去T5H的N端第2-42位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去T5H的N端38-42个氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去T5H的N端42个氨基酸的剩余多肽trT5H。本发明中，T5H的功能片段长度可为50-600个氨基酸，例如，100-550或200-500个氨基酸，或由上述端点任意组合形成的范围。在一个或多个实施方案中，紫杉二烯-5-羟基化酶(T5H)的功能片段包含SEQ ID NO:4第43-499位所示氨基酸序列或由其组成。

本文所述“细胞色素P450氧化还原酶的功能片段”或“CPR的功能片段”是能够催化紫衫二烯反应成为5-羟基紫杉二烯、OCT和/或异-OCT的紫杉二烯-5-羟基化酶的任意片段。在一个或多个实施方案中，该片段包含截去细胞色素P450氧化还原酶的N端内质网定位肽的蛋白序列。在一个或多个实施方案中，该片段包含截去细胞色素P450氧化还原酶的第1-15位中任一位氨基酸至第65-85位中任一位氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去细胞色素P450氧化还原酶的第1-85、2-74、3-73、4-72、5-71、10-70、15-65位氨基酸或由上述端点任意组合形成的范围的剩余多肽。在一个或多个实施方案中，该片段包含截去CPR的N端第2-74位氨基酸的剩余多肽trCPR。在一个或多个实施方案中，该片段包含截去CPR的N端68-74个氨基酸的剩余多肽。在一个或多个实施方案中，该片段包含截去CPR的N端74个氨基酸的剩余多肽。CPR的功能片段长度可为50-800个氨基酸，例如，100-750或200-600个氨基酸，或由上述端点任意组合形成的范围。在一个或多个实施方案中，细胞色素P450氧化还原酶的功能片段包含SEQ ID NO:5第75-717位所示氨基酸序列或由其组成。

本发明融合蛋白还包括连接各片段的接头。术语“接头”是连接不同蛋白或多肽之间的多肽片段，其目的是使所连接的蛋白或多肽保持各自的空间构象，以维持蛋白或多肽的功能或活性。接头可为0-20个、0-15个、0-10个、0-5个或0-2个任意氨基酸的短肽序列。示例性的接头包括含有R和/或G和/或S的接头。在一个或多个实施方案中，信号肽与T5H的功能片段之间的接头包含0个氨基酸。在一个或多个实施方案中，T5H的功能片段与CPR的功能片段之间的接头包含GGGGG。

术语“变体”或“突变体”是指与参照序列相比，通过一个或多个氨基酸的插入、缺失或取代使氨基酸序列发生变化但保留至少一种生物活性的肽或多肽。本文任一实施方案所述的突变体包括与参照序列(如本文所述的SEQ ID NO:1、2、3或4或本文所述的各片段)具有至少70％，优选至少80％，优选至少85％，优选至少90％，优选至少95％，优选至少97％的序列相同性并保留参照序列的生物学活性(如作为抗原表位)的氨基酸序列。可采用例如NCBI的BLASTp计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的氨基酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留参照序列生物学活性的氨基酸序列。所述多个突变通常指1－10个以内，例如1－8个、1－5个或1－3个。取代优选是保守性取代。例如，在本领域中，用性能相近或相似的氨基酸进行保守性取代时，通常不会改变蛋白质或多肽的功能。“性能相近或相似的氨基酸”包括例如，具有相似侧链的氨基酸残基的家族，这些家族包括具有碱性侧链的氨基酸(例如赖氨酸、精氨酸、组氨酸)、具有酸性侧链的氨基酸(例如天冬氨酸、谷氨酸)、具有不带电荷的极性侧链的氨基酸(例如甘氨酸、天冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、酪氨酸、半胱氨酸)、具有非极性侧链的氨基酸(例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸)、具有β-分支侧链的氨基酸(例如苏氨酸、缬氨酸、异亮氨酸)和具有芳香侧链的氨基酸(例如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此，在本发明多肽中用来自同一侧链类的另一氨基酸残基替换一个或几个位点，将不会在实质上影响其活性。

在一个或多个实施方案中，本发明提供了一种融合蛋白tp(TS)/trT5H/trCPR。在示例性实施方式中，融合蛋白的氨基酸序列如SEQ ID NO:1第61-1167位所示。在某些实施方案中，融合蛋白的氨基酸序列如SEQ ID NO:1所示。

本发明中列举了来自特定物种的蛋白或基因。应理解，虽然本发明中优选研究了获自特定物种的蛋白或基因，但是获自其它物种的与所述蛋白或基因高度同源(如具有60％以上，如70％，80％，85％、90％、95％、甚至98％序列相同性)的其它蛋白或基因也在本发明考虑的范围之内。

本文包括编码本文所述融合蛋白的多核苷酸序列或其互补序列。本文的多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。编码本发明的突变体成熟蛋白的多核苷酸包括：只编码成熟蛋白的编码序列；成熟蛋白的编码序列和各种附加编码序列；成熟蛋白的编码序列(和任选的附加编码序列)以及非编码序列。本文所述的多核苷酸序列可采用本领域常规方法制备得到，例如可采用常规的合成方法制备得到。本发明还包括针对融合蛋白的序列进行密码子优化后形成的多核苷酸序列，例如，根据宿主细胞的偏好进行密码子优化而获得的多核苷酸序列。在示例性实施方式中，编码本文所述融合蛋白的多核苷酸序列如SEQ ID NO:2第181-3300位所示。在某些实施方案中，编码本文所述融合蛋白的多核苷酸序列如SEQ ID NO:2所示。

本文包括含有编码本文所述融合蛋白的多核苷酸的核酸构建物。该核酸构建物含有本文所述的融合蛋白的编码序列，以及与这些序列操作性连接的一个或多个调控序列。本发明所述的融合蛋白可以多种方式被操作以保证所述跨膜蛋白的表达，例如同源重组。在将核酸构建物插入载体之前可根据表达载体的不同或要求而对核酸构建物进行操作。利用重组DNA方法来改变多核苷酸序列的技术是本领域已知的。

如本文所用，所述的“可操作地连接(相连)”或“操作性连接(相连)”是指两个或多个核酸区域或核酸序列的功能性的空间排列。例如：启动子区被置于相对于目的基因核酸序列的特定位置，使得核酸序列的转录受到该启动子区域的引导，从而，启动子区域被“可操作地连接”到该核酸序列上。

调控序列可以是合适的启动子序列。启动子序列通常与待表达蛋白的编码序列操作性连接。启动子可以是在所选择的宿主细胞中显示转录活性的任何核苷酸序列，包括突变的、截短的和杂合启动子，并且可以从编码与该宿主细胞同源或异源的胞外或胞内多肽的基因获得。

调控序列也可以是合适的转录终止子序列，由宿主细胞识别以终止转录的序列。终止子序列与编码该多肽的核苷酸序列的3’末端操作性连接。在选择的宿主细胞中有功能的任何终止子都可用于本发明。

本发明也包括一种植物细胞表达系统，包含：(1)第一核酸构建物，含有编码本文所述融合的多核苷酸序列，和/或(2)第二核酸构建物，含有编码其他蛋白或多肽的多核苷酸序列。在一个或多个实施方案中，所述第二核酸构建物编码紫杉醇植物表达过程中涉及的任何蛋白、其突变体、其片段或片段突变体。在一个或多个实施方案中，所述第二核酸构建物编码选自以下的一种或多种的蛋白、其突变体、其片段或片段突变体：TS、T5H和CPR。

在一个或多个实施方案中，第二核酸构建物包含编码TS的多核苷酸。在一个或多个实施方案中，第二核酸构建物包含编码如SEQ ID NO:3所示的氨基酸序列的多核苷酸。在一个或多个实施方案中，第二核酸构建物包含编码TS的功能片段的多核苷酸。本文所述“紫杉二烯合成酶的功能片段”或“TS的功能片段”是能够催化形成紫衫二烯的紫杉二烯合成酶的任意片段。在一个或多个实施方案中，该片段是截去TS的N端叶绿体信号肽的蛋白序列。在一个或多个实施方案中，该片段是截去TS的第(1-2)～(58-60)位氨基酸的蛋白序列。在一个或多个实施方案中，该片段是截去TS的N端第1-60、1-59、1-58、2-60、2-59或2-58位氨基酸的剩余多肽。在一个或多个实施方案中，该片段是截去TS的N端第2-60位氨基酸的剩余多肽。在一个或多个实施方案中，该片段是截去TS的N端58-60氨基酸的剩余多肽。片段长度可为50-1000个氨基酸，例如，100-950、200-900或300-870个氨基酸，或由上述端点任意组合形成的范围。在一个或多个实施方案中，TS的功能片段包含SEQ ID NO:3第61-862位所示氨基酸序列或由其组成。在一个或多个实施方案中，第二核酸构建物包含编码如SEQ IDNO:3第61-862位所示氨基酸序列的多核苷酸。

如本文所用，所述的“核酸构建物”是指重组DNA分子，它包含预期的核酸编码序列，其可以包含一个或多个基因表达盒。所述的“核酸构建物”通常被包含在表达载体中。在一个或多个实施方案中，核酸构建物可以是载体。例如，可将本文的多核苷酸序列插入到重组表达载体中。在一些实施方式中，本文所述第一和第二核酸构建物包含在同一载体上。在某些实施方案中，第一和第二核酸构建物包含在分开的载体中。

术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒如腺病毒、逆转录病毒或其它载体。只要能在宿主体内复制和稳定，任何质粒和载体都可以用于本发明。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。表达载体还可包括翻译起始用的核糖体结合位点和转录终止子。本文所述的多核苷酸序列可操作性地连接到表达载体中的适当启动子上，以经由该启动子指导mRNA合成。这些启动子的代表性例子有：大肠杆菌的lac或trp启动子；λ噬菌体PL启动子；真核启动子包括植物启动子例如(花椰菜花叶病毒CaMV35S启动子、胭脂碱合成酶Nos启动子、木薯叶脉花叶病毒CsVMV启动子、章鱼碱合成酶Ocs启动子、拟南芥热休克蛋白Hsp18启动子、拟南芥热休克蛋白Hsp70启动子、CMV立即早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、反转录病毒的LTR和其它一些已知的可控制基因在原核或真核细胞或其病毒中表达的启动子。标记基因可用于提供用于选择转化的宿主细胞的表型性状，包括但不限于真核细胞培养用的二氢叶酸还原酶、新霉素抗性以及绿色荧光蛋白(GFP)，或用于大肠杆菌的四环素或氨苄青霉素抗性。当本文所述的多核苷酸在高等真核细胞中表达时，如果在载体中插入增强子序列，则将会使转录得到增强。增强子是DNA的顺式作用因子，通常大约有10到300个碱基对，作用于启动子以增强基因的转录。

可将本文所述的载体转化适当的宿主细胞，以使其能够表达本文所述的蛋白。在某些实施方案中，本文所述多核苷酸或细胞标记系统包含在宿主细胞的基因组中。宿主细胞可以是原核细胞，如细菌细胞；或是低等真核细胞，如酵母细胞；丝状真菌细胞、或是高等真核细胞，如哺乳动物细胞。宿主细胞还可以是植物细胞。宿主细胞的代表性例子有：大肠杆菌；链霉菌属；鼠伤寒沙门氏菌的细菌细胞；真菌细胞如酵母、丝状真菌；植物细胞，例如烟草细胞、拟南芥细胞、红豆杉细胞；果蝇S2或Sf9的昆虫细胞；CHO、COS、293细胞、或Bowes黑素瘤细胞的动物细胞等。

用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物如大肠杆菌、农杆菌时，能吸收DNA的感受态细胞可在指数生长期后收获，用CaCl₂法处理，所用的步骤在本领域众所周知。另一种方法是使用MgCl₂。如果需要，转化也可用电穿孔的方法进行。当宿主是真核生物，可选用如下的DNA转染方法：磷酸钙共沉淀法，常规机械方法如显微注射、电穿孔、脂质体包装等。当宿主是烟草细胞时，可选用农杆菌介导的转化方法，包括利用注射器将细菌悬液从叶片下表皮注射到烟草叶片内的步骤。当宿主是拟南芥细胞时，可选用农杆菌介导的转化方法，包括使拟南芥的开放花序浸入一定浓度细菌悬液中的步骤。适用于本文的农杆菌包括但不限于GV3101，LBA4404，EHA105。本领域周知其他植物细胞的转化方法。本领域已知和未知的植物转化方法均适用于转化本发明的重组DNA。

转化宿主细胞后，获得的转化子可以用常规方法培养，以允许其表达本文所述的融合蛋白。根据所用的宿主细胞，培养中所用的培养基可选自各种常规培养基。可利用本领域已知的各种分离方法分离和纯化本文的重组融合蛋白。这些方法是本领域技术人员所熟知的，包括但并不限于：常规的复性处理、用蛋白沉淀剂处理(盐析方法)、离心、渗透破菌、超处理、超离心、分子筛层析(凝胶过滤)、吸附层析、离子交换层析、高效液相层析(HPLC)和其它各种液相层析技术及这些方法的结合。

因此，本文也包括含本文所述融合蛋白或多核苷酸序列或核酸构建物的宿主细胞。在一个或多个实施方案中，宿主细胞还包含编码其他蛋白或多肽的多核苷酸序列。所述其他蛋白或多肽可为紫杉醇植物表达过程中涉及的任何蛋白、其突变体、其片段或片段突变体。在一个或多个实施方案中，宿主细胞还包含选自以下的一种或多种的蛋白、其突变体、其片段或片段突变体或其编码序列：TS、T5H和CPR。这种宿主细胞可组成型表达本文所述的蛋白，也可在一定的诱导条件下表达本文所述的蛋白，还可以在不同的宿主细胞类型中特异性表达本文所述的蛋白。如何使宿主细胞组成型表达、诱导表达或特异性表达本发明蛋白的方法是本领域周知的。例如，在某些实施方案中，使用诱导型启动子构建本发明的表达载体，从而实现蛋白的诱导表达。在某些实施方案中，使用组织特异性表达启动子或将蛋白的编码序列与组织特异性基因关联，实现蛋白的组织特异性表达。

本发明还包括生产5α-羟基紫杉二烯的方法，包括在细胞中表达本文所述多核苷酸或核酸构建物。在一个或多个实施方案中，所述细胞是植物细胞。在一个或多个实施方案中，所述方法包括在细胞质中表达本文所述多核苷酸或核酸构建物。在一个或多个实施方案中，所述方法包括在植物细胞叶绿体中表达本文所述多核苷酸或核酸构建物。

本发明还包括生产5(12)-氧杂-3(11)-环紫杉醇(OCT)的方法，包括在细胞中表达本文所述多核苷酸或核酸构建物。在一个或多个实施方案中，所述细胞是植物细胞。在一个或多个实施方案中，所述方法包括在细胞质中表达本文所述多核苷酸或核酸构建物。在一个或多个实施方案中，所述方法包括在植物细胞叶绿体中表达本文所述多核苷酸或核酸构建物。

本发明还包括生产5(13)-氧杂-3(11)-环紫杉醇(iso-OCT)的方法，包括在细胞中表达本文所述多核苷酸或核酸构建物。在一个或多个实施方案中，所述细胞是植物细胞。在一个或多个实施方案中，所述方法包括在细胞质中表达本文所述多核苷酸或核酸构建物。在一个或多个实施方案中，所述方法包括在植物细胞叶绿体中表达本文所述多核苷酸或核酸构建物。

本发明还提供生产5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇和/或5(13)-氧杂-3(11)-环紫杉醇的方法，包括培养本文所述的宿主细胞，和从细胞培养物中分离5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇和/或5(13)-氧杂-3(11)-环紫杉醇。在一个或多个实施方案中，所述细胞包含细菌细胞、真菌细胞或植物细胞。在一个或多个实施方案中，所述细胞在细胞质中含有或表达本文所述的酶、多肽或融合蛋白。在一个或多个实施方案中，所述细胞在叶绿体中含有或表达本文所述的酶、多肽或融合蛋白。从细胞或细胞培养物中分离5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇和/或5(13)-氧杂-3(11)-环紫杉醇的方法本领域周知。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如J.萨姆布鲁克等编著，分子克隆实验指南，第三版，科学出版社，2002中所述的条件，或按照制造厂商所建议的条件。

实验材料

野生型的蛋白或基因均为本领域已经鉴定的，因此，可以从公众途径获得和制备。作为本发明的示例方式，TS来源于短叶红豆杉(Taxus brevifolia)，其具有GenBank登录号U48796.1所示的序列；T5H来源于短叶红豆杉(Taxus brevifolia)，其具有GenBank登录号AY289209.2所示的序列；CPR来源于短叶红豆杉(Taxus brevifolia)，其具有GenBank登录号AY571340.1所示的序列。

AxyPrep总RNA小量制备试剂盒，多聚酶链式反应(PCR)胶回收试剂盒，质粒抽提试剂盒均为美国Axygen产品；PrimeScript RT reagent Kit with gDNA Eraser(PerfectReal Time)聚合酶试剂盒，聚合酶链式反应(PCR)高保真酶PrimeSTAR Max DNAPolymerase为日本宝生物公司(TAKARA)产品；限制性内切酶均为NEB产品。

大肠杆菌DH10B用于基因克隆；农杆菌GV3101菌株用于蛋白表达；本氏烟草用于5-羟基紫杉二烯的生产。pEAQ-HT载体用于代谢途径基因装配。

化学试剂正己烷为国产分析纯或色谱纯试剂，购自国药集团化学试剂有限公司。氘代氯仿购自国药集团化学试剂有限公司。

PCR使用Arktik Thermal Cycler(Thermo Fisher Scientific)；恒温培养使用ZXGP-A2050恒温培养箱和ZWY-211G恒温培养振荡器；离心使用5418R高速冷冻式离心机和5418小型离心机(Eppendorf)。真空浓缩使用Concentrator plus浓缩仪(Eppendorf)；OD₆₀₀使用UV-1200紫外可见分光光度计检测(上海美谱达仪器有限公司)。旋转蒸发系统由IKARV 10digital旋转蒸发仪(IKA)和MZ 2C NT化学隔膜泵、CVC3000真空控制器(vacuubrand)组成。荧光共聚焦显微镜为FV10i(OLYMPUS)。气相色谱使用Thermo Ultrace-ISQ联用检测(Thermo Fisher Scientific)。

气相检测条件：载气高纯氦气：1ml/min；

升温程序：初始温度80℃保持2min，每分钟增加10℃至200℃；在此温度保持10min；离子源温度：200℃；传输线温度：250℃；

气相色谱柱规格：HP5ms(30m×250μm×0.25μm)。

实施例1：融合蛋白tp(TS)/trT5H/trCPR序列设计

来源于短叶红豆杉(Taxus brevifolia)的紫杉二烯合酶(TS)序列长度为862aa(Genbank access no.U48796.1)，具体序列如下(SEQ ID NO:3)，其中下划线是信号片段：

MAQLSFNAALKMNALGNKAIHDPTNCRAKSEGQMMWVCSKSGRTRVKMSRGSGGPGPVVMMSSSTGTSKVVSETSSTIVDDIPRLSANYHGDLWHHNVIQTLETPFRESSTYQERADELVVKIKDMFNALGDGDISPSAYDTAWVARVATISSDGSEKPRFPQALNWVLNNQLQDGSWGIESHFSLCDRLLNTINSVIALSVWKTGHSQVEQGTEFIAENLRLLNEEDELSPDFEIIFPALLQKAKSLGINLPYDLPFIKYLSTTREARLTDVSAAADNIPANMLNALEGLEEVIDWKKIMRFQSKDGSFLSSPASTACVLMNTGDEKCFTFLNNLLDKFGGCVPCMYSIDLLERLSLVDNIEHLGIGRHFKQEIKVALDYVYRHWSERGIGWGRDSLVPDLNTTALGLRTLRTHGYDVSSDVLNNFKDENGRFFSSAGQTHVELRSVVNLFRASDLAFPDEGAMDDARKFAEPYLRDALATKISTNTKLFKEIEYVVEYPWHMSIPRLEARSYIDSYDDDYVWQRKTLYRMPSLSNSKCLELAKLDFNIVQSLHQEELKLLTRWWKESGMADINFTRHRVAEVYFSSATFEPEYSATRIAFTKIGCLQVLFDDMADIFATLDELKSFTEGVKRWDTSLLHEIPECMQTCFKVWFKLMEEVNNDVVKVQGRDMLAHIRKPWELYFNCYVQEREWLDAGYIPTFEEYLKTYAISVGLGPCTLQPILLMGELVKDDVVEKVHYPSNMFELVSLSWRLTNDTKTYQAEKARGQQASGIACYMKDNPGATEEDAIKHICRVVDRALKEASFEYFKPSNDIPMGCKSFIFNLRLCVQIFYKFIDGYGIANEEIKDYIRKVYIDPIQV*

来源于短叶红豆杉(Taxus brevifolia)的紫杉二烯-5-羟基化酶(T5H)序列长度为499aa(Genebank access no.AY289209.2)，具体如下(SEQ ID NO:4)，其中下划线是信号片段：

MDALYKSTVAKFNEVTQLDCSTESFSIALSAIAGILLLLLLFRSKRHSSLKLPPGKLGIPFIGESFIFLRALRSNSLEQFFDERVKKFGLVFKTSLIGHPTVVLCGPAGNRLILSNEEKLVQMSWPAQFMKLMGENSVATRRGEDHIVMRSALAGFFGPGALQSYIGKMNTEIQSHINEKWKGKDEVNVLPLVRELVFNISAILFFNIYDKQEQDRLHKLLETILVGSFALPIDLPGFGFHRALQGRAKLNKIMLSLIKKRKEDLQSGSATATQDLLSVLLTFRDDKGTPLTNDEILDNFSSLLHASYDTTTSPMALIFKLLSSNPECYQKVVQEQLEILSNKEEGEEITWKDLKAMKYTWQVAQETLRMFPPVFGTFRKAITDIQYDGYTIPKGWKLLWTTYSTHPKDLYFNEPEKFMPSRFDQEGKHVAPYTFLPFGGGQRSCVGWEFSKMEILLFVHHFVKTFSSYTPVDPDEKISGDPLPPLPSKGFSIKLFPRP*

来源于短叶红豆杉(Taxus brevifolia)的细胞色素氧化还原酶(CPR)序列长度为所示的序列长度为717aa(Genebank access no.AY571340.1)，具体如下(SEQ ID NO:5)，其中下划线是信号片段：

MQANSNTVEGASQGKSLLDISRLDHIFALLLNGKGGDLGAMTGSALILTENSQNLMILTTALAVLVAC VFFFVWRRGGSDTQKPAVRPTPLVKEEDEEEEDDSAKKKVTIFFGTQTGTAEGFAKALAEEAKARYEKAVFKVVDLDNYAADDEQYEEKLKKEKLAFFMLATYGDGEPTDNAARFYKWFLEGKEREPWLSDLTYGVFGLGNRQYEHFNKVAKAVDEVLIEQGAKRLVPVGLGDDDQCIEDDFTAWREQVWPELDQLLRDEDDEPTSATPYTAAIPEYRVEIYDSVVSVYEETHALKQNGQAVYDIHHPCRSNVAVRRELHTPLSDRSCIHLEFDISDTGLIYETGDHVGVHTENSIETVEEAAKLLGYQLDTIFSVHGDKEDGTPLGGSSLPPPFPGPCTLRTALARYADLLNPPRKAAFLALAAHASDPAEAERLKFLSSPAGKDEYSQWVTASQRSLLEIMAEFPSAKPPLGVFFAAIAPRLQPRYYSISSSPRFAPSRIHVTCALVYGPSPTGRIHKGVCSNWMKNSLPSEETHDCSWAPVFVRQSNFKLPADSTTPIVMVGPGTGFAPFRGFLQERAKLQEAGEKLGPAVLFFGCRNRQMDYIYEDELKGYVEKGILTNLIVAFSREGATKEYVQHKMLEKASDTWSLIAQGGYLYVCGDAKGMARDVHRTLHTIVQEQESVDSSKAEFLVKKLQMDGRYLRDIW*

改造1：发明人发现TS叶绿体定位肽为TS序列N端的1-60氨基酸多肽tp(TS)，具体序列如下(SEQ ID NO:1第1-60位)：

MAQLSFNAALKMNALGNKAIHDPTNCRAKSEGQMMWVCSKSGRTRVKMSRGSGGPGPVVM

改造2：发明人针对T5H序列进行序列改造，去除其中N端第2-42位氨基酸，获得trT5H，具体序列如下(SEQ ID NO:1第61-518位)：

MRSKRHSSLKLPPGKLGIPFIGESFIFLRALRSNSLEQFFDERVKKFGLVFKTSLIGHPTVVLCGPAGNRLILSNEEKLVQMSWPAQFMKLMGENSVATRRGEDHIVMRSALAGFFGPGALQSYIGKMNTEIQSHINEKWKGKDEVNVLPLVRELVFNISAILFFNIYDKQEQDRLHKLLETILVGSFALPIDLPGFGFHRALQGRAKLNKIMLSLIKKRKEDLQSGSATATQDLLSVLLTFRDDKGTPLTNDEILDNFSSLLHASYDTTTSPMALIFKLLSSNPECYQKVVQEQLEILSNKEEGEEITWKDLKAMKYTWQVAQETLRMFPPVFGTFRKAITDIQYDGYTIPKGWKLLWTTYSTHPKDLYFNEPEKFMPSRFDQEGKHVAPYTFLPFGGGQRSCVGWEFSKMEILLFVHHFVKTFSSYTPVDPDEKISGDPLPPLPSKGFSIKLFPRP*

改造3：发明人针对CPR序列进行序列改造，去除其中N端第2-74位氨基酸，获得trCPR，具体序列如下(SEQ ID NO:1第524-1167位)：

MRRGGSDTQKPAVRPTPLVKEEDEEEEDDSAKKKVTIFFGTQTGTAEGFAKALAEEAKARYEKAVFKVVDLDNYAADDEQYEEKLKKEKLAFFMLATYGDGEPTDNAARFYKWFLEGKEREPWLSDLTYGVFGLGNRQYEHFNKVAKAVDEVLIEQGAKRLVPVGLGDDDQCIEDDFTAWREQVWPELDQLLRDEDDEPTSATPYTAAIPEYRVEIYDSVVSVYEETHALKQNGQAVYDIHHPCRSNVAVRRELHTPLSDRSCIHLEFDISDTGLIYETGDHVGVHTENSIETVEEAAKLLGYQLDTIFSVHGDKEDGTPLGGSSLPPPFPGPCTLRTALARYADLLNPPRKAAFLALAAHASDPAEAERLKFLSSPAGKDEYSQWVTASQRSLLEIMAEFPSAKPPLGVFFAAIAPRLQPRYYSISSSPRFAPSRIHVTCALVYGPSPTGRIHKGVCSNWMKNSLPSEETHDCSWAPVFVRQSNFKLPADSTTPIVMVGPGTGFAPFRGFLQERAKLQEAGEKLGPAVLFFGCRNRQMDYIYEDELKGYVEKGILTNLIVAFSREGATKEYVQHKMLEKASDTWSLIAQGGYLYVCGDAKGMARDVHRTLHTIVQEQESVDSSKAEFLVKKLQMDGRYLRDIW*

改造4：发明人通过PCR的方法将上述tp(TS)、trT5H、trCPR三个序列进行融合，获得的融合蛋白tp(TS)/trT5H/trCPR，具体序列如下(SEQ ID NO:1)，其中下划线是tp(TS)，下划虚线是trT5H，双下划线是trCPR：

实施例2：TS、T5H、CPR、tp(TS)/trT5H/trCPR的重组质粒的构建

提取短叶红豆杉针叶总RNA，利用Takara反转录试剂盒获得红豆杉cDNA。以cDNA为模板，分别以pEAQ-TS-F/R，pEAQ-T5H-F/R，pEAQ-CPR-F/R为引物对，通过PCR克隆获得TS，T5H及CPR序列并将其通过平末端克隆方法克隆到pEASY-Blunt载体中，分别构建成pEASY-TS，pEASY-T5H，pEASY-CPR。PCR扩增体系为50μL(PrimeSTAR Max Premix，25μL；双引物终浓度0.2～0.3μM；从DNA 1.0μL；剩余体积用灭菌蒸馏水补足)；PCR反应条件：98℃预变性2min，然后98℃变性10s，55℃退火15s，72℃延伸20s，35个循环，琼脂糖电泳检测，扩增后分别得到约2.5kb，1.5kb，2.1kb的片段。

将pEASY-TS，pEASY-T5H及pEASY-CPR转化入大肠杆菌DH10B中并涂含有卡那霉素抗性平板，在37℃培养过夜。培养12h后通过菌落PCR获得阳性克隆，提取质粒并将质粒送至上海生工生物工程有限公司测序。

将大肠杆菌DH10B-pEAQ-HT，DH10B-pEASY-TS，DH10B-pEASY-T5H，DH10B-pEASY-CPR在LB培养基中过夜培养后提取质粒并用SmaI，XhoI双酶切。酶切体系为：pEAQ-HT或pEAQ-TS或pEAQ-T5H或pEAQ-CPR 25μL，10x Cutsmart buffer 5μL，Sam I 1μL，XhoI 1μL，ddH2O 18μL；酶切条件：30℃1小时后37℃1小时。胶回收获得目的大小条带后进行T4过夜连接。转化大肠杆菌DH10B后菌落PCR获得阳性克隆分别命名为pEAQ-TS，pEAQ-T5H，pEAQ-CPR。

以pEAQ-TS为模板，以pEAQ-TS-F为正向引物，tp(TS)-trT5H-R为反向引物进行扩增，获得TS的N端叶绿体定位肽段碱基序列tp(TS)，大小约180bp。以pEAQ-T5H为模板，以tp(TS)-trT5H-F为正向引物，trT5H-trCPR-R为反向引物进行PCR扩增后，获得截去N端24个氨基酸残基的T5H序列trT5H，大小约1400bp。进一步以trT5H-trCPR-F为正向引物，pEAQ-CPR-R为反向引物进行PCR扩增获得截去N端42个氨基酸残基的CPR序列trCPR。最后，以上述获得的3个核苷酸片段tp(TS)，trT5H及trCPR为模板，pEAQ-TS-F为正向引物，pEAQ-CPR-R为反向引物进行PCR扩增获得了大小约为5.6kb的DNA片段。将此片段通过一步克隆试剂盒与经SmaI/XhoI双酶切的pEAQ-HT载体片段连接获得最终的融合蛋白载体pEAQ-tp(TS)/trT5H/trCPR。

以上构建过程所用的引物如表1所示。

表1

实施例3：TS、T5H及tp(TS)/trT5H/trCPR的植物细胞内定位

将tp(TS)，TS与GFP构建融合蛋白载体pEAQ-TS/GFP和pEAQ-tp(TS)/GFP；tp(T5H)，T5H与GFP构建融合蛋白载体pEAQ-T5H/GFP和pEAQ-tp(T5H)/GFP；tp(TS)/trT5H/trCPR与CFP构建融合蛋白载体pEAQ-tp(TS)/trT5H/trCPR/CFP。具体构建过程如下：

以pEAQ-TS为模板，pEAQ-TS为正向引物，tp(TS)-GFP-R为反向引物及进行PCR扩增，获得TS的N端叶绿体定位肽段碱基序列tp(TS)，大小约180bp。以pEASY-GFP为模板，tp(TS)-GFP-F为正向引物，pEAQ-GFP为反向引物进行PCR扩增，获得表达绿色荧光(greenfluorescent protein)的DNA片段GFP，大小约750bp。进一步以上述2个扩增获得的DNA片段tp(TS)和GFP为模板，pEAQ-TS为正向引物，pEAQ-GFP为反向引物进行融合PCR获得的产物为tp(TS)/GFP，将该产物与经SmaI/XhoI双酶切的pEAQ-HT线性载体进行一步克隆获得最终载体pEAQ-tp(TS)/GFP。

以pEAQ-TS为模板，pEAQ-TS为正向引物，TS-GFP-R为反向引物及进行PCR扩增，获得DNA片段为TS，大小约2.6kb。以pEASY-GFP为模板，TS-GFP-F为正向引物，pEAQ-GFP为反向引物进行PCR扩增，获得表达绿色荧光的碱基序列GFP，大小约750bp。进一步以上述2个扩增获得的DNA片段TS和GFP为模板，pEAQ-TS为正向引物，pEAQ-GFP为反向引物进行融合PCR获得的产物为TS/GFP，将该产物与经SmaI/XhoI双酶切的pEAQ-HT线性载体进行一步克隆获得最终载体pEAQ-TS/GFP。

以pEAQ-T5H为模板，pEAQ-T5H为正向引物，tp(T5H)-GFP-R为反向引物及进行PCR扩增，获得T5H的N端内质网信号肽段碱基序列tp(T5H)，大小约70bp。以pEASY-GFP为模板，tp(T5H)-GFP-F为正向引物，pEAQ-GFP为反向引物进行PCR扩增，获得表达绿色荧光的碱基序列GFP，大小约750bp。进一步以上述2个扩增获得的DNA片段tp(T5H)和GFP为模板，pEAQ-T5H为正向引物，pEAQ-GFP为反向引物进行融合PCR获得的产物为tp(T5H)-GFP，将该产物与经SmaI/XhoI双酶切的pEAQ-HT线性载体进行一步克隆获得最终载体pEAQ-tp(T5H)/GFP。

以pEAQ-T5H为模板，pEAQ-T5H为正向引物，T5H-GFP-R为反向引物及进行PCR扩增，获得的DNA片段T5H，大小约1500bp。以pEASY-GFP为模板，T5H-GFP-F为正向引物，pEAQ-GFP为反向引物进行PCR扩增，获得表达绿色荧光的碱基序列GFP，大小约750bp。进一步以上述2个扩增获得的DNA片段T5H和GFP为模板，pEAQ-T5H为正向引物，pEAQ-GFP为反向引物进行融合PCR获得的产物为T5H-GFP，将该产物与经SmaI/XhoI双酶切的pEAQ-HT线性载体进行一步克隆获得最终载体pEAQ-T5H/GFP。

以pEAQ-tp(TS)/trT5H/trCPR为模板，pEAQ-TS-F为正向引物，CPR-CFP-R为反向引物，PCR扩增获得大小约5.6kb的DNA片段tp(TS)/trT5H/trCPR。以pEASY-CFP为模板，CPR-CFP-F为正向引物，pEAQ-CFP-R为反向引物，进行PCR扩增，获得表达青色荧光蛋白cyanfluorescent protein)的DNA片段CFP，大小为750bp。进一步以上述2个扩增获得的DNA片段tp(TS)/trT5H/trCPR和GFP为模板，pEAQ-TS为正向引物，pEAQ-CFP为反向引物进行融合PCR获得的产物为tp(TS)/trT5H/trCPR/CFP，将该产物与经SmaI/XhoI双酶切的pEAQ-HT线性载体进行一步克隆获得最终载体pEAQ-tp(TS)/trT5H/trCPR/CFP。

以上构建过程所用的引物如表2。

表2

将上述获得的载体pEAQ-TS/GFP，pEAQ-tp(TS)/GFP，pEAQ-tp(T5H)/GFP，pEAQ-T5H/GFP，pEAQ-tp(TS)/trT5H/trCPR/CFP分别转化农杆菌GV3101感受态细胞并涂布于YEP平板上(卡那霉素50mg/L，利福平霉素50mg/L，庆大霉素25mg/L)，30℃培养2-4天后挑取单克隆菌株进行菌落PCR验证。获得的阳性菌株分别命名为GV3101-pEAQ-TS/GFP，GV3101-pEAQ-tp(TS)/GFP，GV3101-pEAQ-tp(T5H)/GFP，GV3101-pEAQ-T5H/GFP，GV3101-pEAQ-tp(TS)/trT5H/trCPR/CFP。

将上述农杆菌按1％接种量接种于液体的YEP培养基(卡那霉素50mg/L，利福平霉素50mg/L，庆大霉素25mg/L)，过夜培养后5000g离心收集菌株。用MMA缓冲液(10mM MES，10mM MgCl2，100μM乙酰丁香酮，pH 5.6)重悬至OD600为0.5。将此菌液在室温静置3-4小时后进行烟草的瞬时转化。将烟草至于温室中光照循环培养，16小时光照/8小时黑暗，温度为25℃。3天后用剪刀取少许农杆菌浸润过的烟草叶片植物荧光显微镜下观察蛋白的细胞内定位。激发光波长分别为405、488、556nm。

重组蛋白TS/GFP，tp(TS)/GFP，T5H/GFP，tp(T5H)/GFP，tp(TS)/trT5H/trCPR/CFP的荧光图片如图2，a至图2，c所示。如图2，a所示，重组tp(TS)/GFP和TS/GFP与植物细胞叶绿体自发的红色荧光完全重叠，表明TS定位于烟草的叶绿体中，而且tp(TS)为叶绿体定位信号肽；如图2，b所示，重组tp(T5H)/GFP和T5H/GFP的绿色荧光层网状分布，不能够与叶绿体的自发红色荧光重叠，表明T5H不是定位在叶绿体中；如图2，c所示，重组蛋白tp(TS)/trT5H/trCPR/CFP的蓝色荧光与与叶绿体的自发红色荧光重叠表明该蛋白已经定位在叶绿体中。

实施例4、烟草生产紫杉二烯

按照实施例1-3的类似方法构建农杆菌GV3101-pEAQ-TS，用其浸染烟草生产紫杉二烯。将上述农杆菌按1％接种量接种于液体的YEP培养基(卡那霉素50mg/L，利福平霉素50mg/L，庆大霉素25mg/L)，过夜培养后5000g离心收集菌株。用MMA缓冲液(10mM MES，10mMMgCl2，100μM乙酰丁香酮，pH 5.6)重悬至OD600为0.5。

取1ml注射器(去针头)并用压力将农杆菌沿着烟草的下表皮推入叶片组织后将烟草置于温室中培养5天。5天后用剪刀剪下经农杆菌浸润的烟草叶片。在液氮条件下用研钵将叶片粉粹，按每克鲜叶片量加入10ml正己烷，超声提取植物叶片提取物3次，合并有机溶剂并减压浓缩除去正己烷至膏状。用200uL正己烷重新溶解膏状提取物，过滤后取1uL进GC-MS分析。结果如图3所示。

实施例5、烟草生产5-羟基紫杉二烯、OCT、及iso-OCT

本实施例中将TS编码基因序列和融合蛋白T5H/CPR编码基因序列通过Goldengate方法整合到同一个质粒上形成载体pEAQ-TS-T5H/CPR，用于表征蛋白质天然执行催化功能形式；将截短信号肽的trTS编码基因序列(如SEQ ID NO:3第位氨基酸所示)和融合蛋白trT5H/trCPR编码基因序列通过Goldengate方法整合到同一个质粒上形成载体pEAQ-trTS-trT5H/trCPR，用于表征蛋白质细胞质定位工程化策略；将TS编码基因序列和融合蛋白tp(TS)/trT5H/trCPR编码基因序列通过Goldengate方法整合到同一个质粒上形成载体pEAQ-TS-tp(TS)/trT5H/trCPR，用于表征蛋白质叶绿体定位工程化策略。构建体示意图参见图7，a。

将上述农杆菌按1％接种量接种于液体的YEP培养基(卡那霉素50mg/L，利福平霉素50mg/L，庆大霉素25mg/L)，过夜培养后5000g离心收集菌株。用MMA缓冲液(10mM MES，10mM MgCl2，100μM乙酰丁香酮，pH 5.6)重悬至OD600为0.5。

取1mL注射器(去针头)并用压力将农杆菌沿着烟草的下表皮退入叶片组织后将烟草置于温室中培养5天。5天后用剪刀剪下经农杆菌浸润的烟草叶片。在液氮条件下用研钵将叶片粉粹，按每克鲜叶片量加入10ml正己烷，超声提取植物叶片提取物3次，合并有机溶剂并减压浓缩除去正己烷至膏状。用200uL正己烷重新溶解膏状提取物，过滤后取1uL进GC-MS分析。

农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产5α-羟基紫杉二烯色谱图与质谱图见图4。农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产OCT色谱图与质谱图如图5所示。农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产iso-OCT色谱图与质谱图如图6所示。农杆菌GV3101-pEAQ-TS-T5H/CPR，GV3101-pEAQ-trTS-trT5H/trCPR，GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草生产紫杉二烯、5-羟基紫杉二烯、OCT、及iso-OCT产量变化如图7，b和7，c所示。

实施例6：分离纯化紫杉二烯、OCT、iso-OCT及5-羟基紫杉二烯

取1ml注射器(去针头)并用压力将农杆菌沿着烟草的下表皮退入叶片组织后将烟草置于温室中培养5天。5天后用剪刀剪下经农杆菌浸润的烟草叶片。

共计97盆生长周期30-40天的烟草被上述农杆菌浸染，收集398克鲜植物叶片。破碎后用500mL溶剂(正己烷：乙酸乙酯＝4：1(V/V))超声提取3次，合并有机相并浓缩至墨绿色膏状。

将此膏状物用少量正己烷溶解后进行正向硅胶柱(200-300目)层析。洗脱流动相依次为200mL正己烷，200ml正己烷/乙酸乙酯(100/1)，200mL正己烷/乙酸乙酯(100/2)，200mL正己烷/乙酸乙酯(100/3)，200mL正己烷/乙酸乙酯(100/10)，200mL正己烷/乙酸乙酯(4/1)。每10mL流出液当作一个流份。合并有相同物质的流份后共计获得4组分(Fa-Fd)。Fa组分主要含有紫杉二烯，Fb组分主要含有iso-OCT，Fc组分主要为OCT，Fd组分为5α-羟基紫杉二烯。

分别将组分Fb，Fc再一次进行硅胶柱层(300-400目)析，洗脱流动相为50mL正己烷/乙酸乙酯(100/0.3)，50mL正己烷/乙酸乙酯(100/0.5)，50mL正己烷/乙酸乙酯(100/0.7)，50mL正己烷/乙酸乙酯(100/1)，50mL正己烷/乙酸乙酯(100/1.2)。将组分Fd再一次进行硅胶柱层(300-400目)析，洗脱流动相为50mL正己烷/乙酸乙酯(100/1.0)，50mL正己烷/乙酸乙酯(100/1.2)，50mL正己烷/乙酸乙酯(100/1.5)，50mL正己烷/乙酸乙酯(100/1.8)，50mL正己烷/乙酸乙酯(100/2.0)。每5mL流出液作为一个亚流份，合并含有相同目的化合物的亚流份，进一步进行preTLC制备获得纯的OCT，iso-OCT及5α-羟基紫杉二烯。

经色谱、质谱及核磁验证，农杆菌GV3101-pEAQ-TS-tp(TS)/trT5H/trCPR浸染烟草产生的紫杉烷类代谢物分别为紫杉二烯，5-羟基紫杉二烯，OCT，iso-OCT。经纯化后紫杉二烯的色谱图及质谱图如图8所示。经纯化后5α-羟基紫杉二烯的色谱图及质谱图如图9所示。经纯化后OCT的色谱图及质谱图如图10所示。经纯化后iso-OCT的色谱图及质谱图如图11所示。紫杉二烯的¹H-NMR图谱如图12所示。紫杉二烯的¹³C-NMR图谱如图13所示。5α-羟基紫杉二烯的¹H-NMR图谱如图14所示。OCT的¹H-NMR图谱如图15所示。iso-OCT的¹H-NMR图谱如图16所示。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 中国科学院上海生命科学研究院

<120> 用于生产5α-羟基紫杉二烯的融合蛋白及其用途

<130> 196625

<141> 2019-09-29

<160> 17

<170> SIPOSequenceListing 1.0

<210> 3

<211> 1167

<212> PRT

<213> Artificial Sequence

<400> 3

Met Ala Gln Leu Ser Phe Asn Ala Ala Leu Lys Met Asn Ala Leu Gly

1 5 10 15

Asn Lys Ala Ile His Asp Pro Thr Asn Cys Arg Ala Lys Ser Glu Gly

20 25 30

Gln Met Met Trp Val Cys Ser Lys Ser Gly Arg Thr Arg Val Lys Met

35 40 45

Ser Arg Gly Ser Gly Gly Pro Gly Pro Val Val Met Met Arg Ser Lys

50 55 60

Arg His Ser Ser Leu Lys Leu Pro Pro Gly Lys Leu Gly Ile Pro Phe

65 70 75 80

Ile Gly Glu Ser Phe Ile Phe Leu Arg Ala Leu Arg Ser Asn Ser Leu

85 90 95

Glu Gln Phe Phe Asp Glu Arg Val Lys Lys Phe Gly Leu Val Phe Lys

100 105 110

Thr Ser Leu Ile Gly His Pro Thr Val Val Leu Cys Gly Pro Ala Gly

115 120 125

Asn Arg Leu Ile Leu Ser Asn Glu Glu Lys Leu Val Gln Met Ser Trp

130 135 140

Pro Ala Gln Phe Met Lys Leu Met Gly Glu Asn Ser Val Ala Thr Arg

145 150 155 160

Arg Gly Glu Asp His Ile Val Met Arg Ser Ala Leu Ala Gly Phe Phe

165 170 175

Gly Pro Gly Ala Leu Gln Ser Tyr Ile Gly Lys Met Asn Thr Glu Ile

180 185 190

Gln Ser His Ile Asn Glu Lys Trp Lys Gly Lys Asp Glu Val Asn Val

195 200 205

Leu Pro Leu Val Arg Glu Leu Val Phe Asn Ile Ser Ala Ile Leu Phe

210 215 220

Phe Asn Ile Tyr Asp Lys Gln Glu Gln Asp Arg Leu His Lys Leu Leu

225 230 235 240

Glu Thr Ile Leu Val Gly Ser Phe Ala Leu Pro Ile Asp Leu Pro Gly

245 250 255

Phe Gly Phe His Arg Ala Leu Gln Gly Arg Ala Lys Leu Asn Lys Ile

260 265 270

Met Leu Ser Leu Ile Lys Lys Arg Lys Glu Asp Leu Gln Ser Gly Ser

275 280 285

Ala Thr Ala Thr Gln Asp Leu Leu Ser Val Leu Leu Thr Phe Arg Asp

290 295 300

Asp Lys Gly Thr Pro Leu Thr Asn Asp Glu Ile Leu Asp Asn Phe Ser

305 310 315 320

Ser Leu Leu His Ala Ser Tyr Asp Thr Thr Thr Ser Pro Met Ala Leu

325 330 335

Ile Phe Lys Leu Leu Ser Ser Asn Pro Glu Cys Tyr Gln Lys Val Val

340 345 350

Gln Glu Gln Leu Glu Ile Leu Ser Asn Lys Glu Glu Gly Glu Glu Ile

355 360 365

Thr Trp Lys Asp Leu Lys Ala Met Lys Tyr Thr Trp Gln Val Ala Gln

370 375 380

Glu Thr Leu Arg Met Phe Pro Pro Val Phe Gly Thr Phe Arg Lys Ala

385 390 395 400

Ile Thr Asp Ile Gln Tyr Asp Gly Tyr Thr Ile Pro Lys Gly Trp Lys

405 410 415

Leu Leu Trp Thr Thr Tyr Ser Thr His Pro Lys Asp Leu Tyr Phe Asn

420 425 430

Glu Pro Glu Lys Phe Met Pro Ser Arg Phe Asp Gln Glu Gly Lys His

435 440 445

Val Ala Pro Tyr Thr Phe Leu Pro Phe Gly Gly Gly Gln Arg Ser Cys

450 455 460

Val Gly Trp Glu Phe Ser Lys Met Glu Ile Leu Leu Phe Val His His

465 470 475 480

Phe Val Lys Thr Phe Ser Ser Tyr Thr Pro Val Asp Pro Asp Glu Lys

485 490 495

Ile Ser Gly Asp Pro Leu Pro Pro Leu Pro Ser Lys Gly Phe Ser Ile

500 505 510

Lys Leu Phe Pro Arg Pro Gly Gly Gly Gly Gly Met Arg Arg Gly Gly

515 520 525

Ser Asp Thr Gln Lys Pro Ala Val Arg Pro Thr Pro Leu Val Lys Glu

530 535 540

Glu Asp Glu Glu Glu Glu Asp Asp Ser Ala Lys Lys Lys Val Thr Ile

545 550 555 560

Phe Phe Gly Thr Gln Thr Gly Thr Ala Glu Gly Phe Ala Lys Ala Leu

565 570 575

Ala Glu Glu Ala Lys Ala Arg Tyr Glu Lys Ala Val Phe Lys Val Val

580 585 590

Asp Leu Asp Asn Tyr Ala Ala Asp Asp Glu Gln Tyr Glu Glu Lys Leu

595 600 605

Lys Lys Glu Lys Leu Ala Phe Phe Met Leu Ala Thr Tyr Gly Asp Gly

610 615 620

Glu Pro Thr Asp Asn Ala Ala Arg Phe Tyr Lys Trp Phe Leu Glu Gly

625 630 635 640

Lys Glu Arg Glu Pro Trp Leu Ser Asp Leu Thr Tyr Gly Val Phe Gly

645 650 655

Leu Gly Asn Arg Gln Tyr Glu His Phe Asn Lys Val Ala Lys Ala Val

660 665 670

Asp Glu Val Leu Ile Glu Gln Gly Ala Lys Arg Leu Val Pro Val Gly

675 680 685

Leu Gly Asp Asp Asp Gln Cys Ile Glu Asp Asp Phe Thr Ala Trp Arg

690 695 700

Glu Gln Val Trp Pro Glu Leu Asp Gln Leu Leu Arg Asp Glu Asp Asp

705 710 715 720

Glu Pro Thr Ser Ala Thr Pro Tyr Thr Ala Ala Ile Pro Glu Tyr Arg

725 730 735

Val Glu Ile Tyr Asp Ser Val Val Ser Val Tyr Glu Glu Thr His Ala

740 745 750

Leu Lys Gln Asn Gly Gln Ala Val Tyr Asp Ile His His Pro Cys Arg

755 760 765

Ser Asn Val Ala Val Arg Arg Glu Leu His Thr Pro Leu Ser Asp Arg

770 775 780

Ser Cys Ile His Leu Glu Phe Asp Ile Ser Asp Thr Gly Leu Ile Tyr

785 790 795 800

Glu Thr Gly Asp His Val Gly Val His Thr Glu Asn Ser Ile Glu Thr

805 810 815

Val Glu Glu Ala Ala Lys Leu Leu Gly Tyr Gln Leu Asp Thr Ile Phe

820 825 830

Ser Val His Gly Asp Lys Glu Asp Gly Thr Pro Leu Gly Gly Ser Ser

835 840 845

Leu Pro Pro Pro Phe Pro Gly Pro Cys Thr Leu Arg Thr Ala Leu Ala

850 855 860

Arg Tyr Ala Asp Leu Leu Asn Pro Pro Arg Lys Ala Ala Phe Leu Ala

865 870 875 880

Leu Ala Ala His Ala Ser Asp Pro Ala Glu Ala Glu Arg Leu Lys Phe

885 890 895

Leu Ser Ser Pro Ala Gly Lys Asp Glu Tyr Ser Gln Trp Val Thr Ala

900 905 910

Ser Gln Arg Ser Leu Leu Glu Ile Met Ala Glu Phe Pro Ser Ala Lys

915 920 925

Pro Pro Leu Gly Val Phe Phe Ala Ala Ile Ala Pro Arg Leu Gln Pro

930 935 940

Arg Tyr Tyr Ser Ile Ser Ser Ser Pro Arg Phe Ala Pro Ser Arg Ile

945 950 955 960

His Val Thr Cys Ala Leu Val Tyr Gly Pro Ser Pro Thr Gly Arg Ile

965 970 975

His Lys Gly Val Cys Ser Asn Trp Met Lys Asn Ser Leu Pro Ser Glu

980 985 990

Glu Thr His Asp Cys Ser Trp Ala Pro Val Phe Val Arg Gln Ser Asn

995 1000 1005

Phe Lys Leu Pro Ala Asp Ser Thr Thr Pro Ile Val Met Val Gly Pro

1010 1015 1020

Gly Thr Gly Phe Ala Pro Phe Arg Gly Phe Leu Gln Glu Arg Ala Lys

1025 1030 1035 1040

Leu Gln Glu Ala Gly Glu Lys Leu Gly Pro Ala Val Leu Phe Phe Gly

1045 1050 1055

Cys Arg Asn Arg Gln Met Asp Tyr Ile Tyr Glu Asp Glu Leu Lys Gly

1060 1065 1070

Tyr Val Glu Lys Gly Ile Leu Thr Asn Leu Ile Val Ala Phe Ser Arg

1075 1080 1085

Glu Gly Ala Thr Lys Glu Tyr Val Gln His Lys Met Leu Glu Lys Ala

1090 1095 1100

Ser Asp Thr Trp Ser Leu Ile Ala Gln Gly Gly Tyr Leu Tyr Val Cys

1105 1110 1115 1120

Gly Asp Ala Lys Gly Met Ala Arg Asp Val His Arg Thr Leu His Thr

1125 1130 1135

Ile Val Gln Glu Gln Glu Ser Val Asp Ser Ser Lys Ala Glu Phe Leu

1140 1145 1150

Val Lys Lys Leu Gln Met Asp Gly Arg Tyr Leu Arg Asp Ile Trp

1155 1160 1165

<210> 2

<211> 3480

<212> DNA

<213> Artificial Sequence

<400> 2

atggctcagc tctcatttaa tgcagcgctg aagatgaatg cattggggaa caaggcaatc 60

cacgatccaa cgaattgcag agccaaatct gagggccaaa tgatgtgggt ttgctccaaa 120

tcagggcgaa ccagagtaaa aatgtcgaga ggaagtggtg gtcctggtcc tgtcgtaatg 180

atgcgttcta aacgccactc ctcccttaaa cttcctcctg ggaaattagg catccctttc 240

attggcgagt cgtttatctt cctgagggct cttcgatcga actcgctgga gcaatttttt 300

gacgagagag tgaagaaatt cggcctcgtg ttcaagacct ccttgattgg gcatcccaca 360

gtagtactct gcggccctgc gggaaaccgg cttattctgt ccaacgagga gaagctggtg 420

cagatgtcgt ggcccgctca gtttatgaag ctcatggggg agaattccgt tgccaccagg 480

aggggtgaag accatatagt tatgcgctct gctcttgcag gttttttcgg ccctggtgcg 540

ctgcagagtt acattggtaa aatgaataca gagatccaga atcatatcaa cgaaaaatgg 600

aagggaaaag atgaggtgaa tgtacttcct ttggtaagag agctcgtctt caacatttcg 660

gccatcttgt ttttcaacat atatgataag caggaacagg atcgtctgca taagcttttg 720

gaaactattc tggtcggaag ttttgctctt ccaattgact tgcccggatt tggtttccat 780

agagcactcc agggacgggc cacgctcaac aaaattatgc tgtctttaat taaaaagaga 840

aaagaagatc tgcagtctgg atcggcaaca gccactcagg atctgctctc tgttttgctc 900

actttcagag atgacaaagg gactccactc accaatgacg agatactcga caacttttct 960

tctctgctcc atgcctccta tgacaccacc acttcgccaa tggctttgat tttcaagctc 1020

ttgtcttcca atccagaatg ctatcaaaaa gtagttcaag agcaattgga gatactttcc 1080

aacaaagagg agggcgaaga aatcacatgg aaggatctga aagccatgaa atacacatgg 1140

caagtagctc aggaaacgct gcggatgttt cctccagttt tcggaacatt tcgcaaggcc 1200

atcactgaca ttcagtatga tggttacaca attccaaaag ggtggaagct gttgtggaca 1260

acttacagta cacatcccaa ggacttgtat ttcagtgaac cagagaaatt catgccttca 1320

agattcgatc aggaaggaaa gcatgtagct ccttacacat ttttaccctt cggtggaggc 1380

cagcggtcat gtgtgggatg ggagttttca aagatggaga ttttactgtt cgttcatcat 1440

tttgtcaaaa cttttagcag ctacacccca gttgatcccg acgaaaaaat atcaggggat 1500

ccactccctc ctcttccttc caaaggattt tccattaaac tgtttccgag accaggatct 1560

actggatcta tgaggagggg aggatcggat acgcagaagc cggcggtgaa accgacgcct 1620

ctggtgaagg aggaagatga ggaggaagaa gacgattctg caaagaagaa agtcacgatt 1680

ttctttggga cacagactgg gacggccgag ggatttgcca aggctctagc agaagaggca 1740

aaggcaagat atgagaaagc tgtgtttaaa gtagtagatt tggacaacta tgcagcagac 1800

gatgagcagt atgaagaaaa attgaaaaag gaaaaattag cattttttat gctagcaacg 1860

tatggagatg gggagcccac tgacaatgca gcaagatttt ataagtggtt tcttgagggc 1920

aaggagaggg agccatggct ttctgatctc acttatgggg tgtttggatt aggcaacaga 1980

caatatgaac attttaataa ggtggctaaa gcagtagatg aagtcttaat tgaacaaggt 2040

gcaaagcgac ttgttccagt gggccttggt gatgatgacc aatgcattga agatgacttt 2100

actgcttggc gagagcaggt ttggcctgaa ctggatcagt tactccggga tgaagatgat 2160

gagcccacaa gtgctacacc ttatacagct gccatacctg agtatagggt tgaaatttat 2220

gattccgtgg tttcagtgta cgaggaaact catgctctca agcaaaatgg ccaagctgtt 2280

tatgatatcc atcacccctg cagagctaat gtggcagtga gaagagagct tcatacacct 2340

ttgtctgacc gctcttgcat ccatttggaa tttgatatat cagacactgg ccttatatat 2400

gagacgggag atcatgttgg tgtccataca gaaaacagca ttgaaactgt ggaggaagca 2460

gcaaagctac taggctacca attggacact atattctcag tccacggtga caaagaagat 2520

ggcacaccac ttggagggtc ttctttgcca ccacctttcc ctggtccatg caccctacga 2580

actgctcttg ctcgttatgc tgatttgctg aatcctcctc ggaaggccgc ctttcttgca 2640

ttggcagctc atgcatctga tccagcagag gcagagcggt tgaagttcct ctcatcacca 2700

gctggaaagg atgaatattc tcaatgggtc actgcaagtc agagaagtct tttagaaata 2760

atggcagaat ttccatcagc aaaaccaccc cttggtgttt tctttgcagc aatagcccct 2820

cgtctgcaac cccgatatta ttctatttct tcctctccca ggtttgcacc ctcaagaata 2880

catgtgacat gtgctcttgt ttacgggccc agtccaaccg gtagaattca caaaggtgtt 2940

tgttctaact ggatgaagaa ttcgctaccc tcagaagaaa cccacgactg tagctgggct 3000

ccagtctttg tcaggcaatc aaattttaaa ttgccagcag attctactac tcctattgtc 3060

atggtgggtc ctggaactgg ttttgcacct tttagaggtt ttttgcagga aagagcaaaa 3120

cttcaagaag ctggcgagaa gctcggtccg gctgttttat tttttgggtg caggaatcgc 3180

caaatggact acatttatga agatgagctg aagggctatg tggagaaagg agtactgacc 3240

gatctcattg ttgctttctc tcgtgaagga gcaaccaaag agtatgtcca gcacaagatg 3300

ctggaaaagg catccgatac ctggagtctc attgctcagg gtgggtatct ttatgtatgt 3360

ggtgatgcca agggtatggc tagggatgta cacaggacac tgcacactat tgtccaagag 3420

caggaatctg tggatagcag caaagcagag tttctagtga agaaattaca gatggattga 3480

<210> 3

<211> 862

<212> PRT

<213> Artificial Sequence

<400> 3

Met Ala Gln Leu Ser Phe Asn Ala Ala Leu Lys Met Asn Ala Leu Gly

1 5 10 15

Asn Lys Ala Ile His Asp Pro Thr Asn Cys Arg Ala Lys Ser Glu Gly

20 25 30

Gln Met Met Trp Val Cys Ser Lys Ser Gly Arg Thr Arg Val Lys Met

35 40 45

Ser Arg Gly Ser Gly Gly Pro Gly Pro Val Val Met Met Ser Ser Ser

50 55 60

Thr Gly Thr Ser Lys Val Val Ser Glu Thr Ser Ser Thr Ile Val Asp

65 70 75 80

Asp Ile Pro Arg Leu Ser Ala Asn Tyr His Gly Asp Leu Trp His His

85 90 95

Asn Val Ile Gln Thr Leu Glu Thr Pro Phe Arg Glu Ser Ser Thr Tyr

100 105 110

Gln Glu Arg Ala Asp Glu Leu Val Val Lys Ile Lys Asp Met Phe Asn

115 120 125

Ala Leu Gly Asp Gly Asp Ile Ser Pro Ser Ala Tyr Asp Thr Ala Trp

130 135 140

Val Ala Arg Val Ala Thr Ile Ser Ser Asp Gly Ser Glu Lys Pro Arg

145 150 155 160

Phe Pro Gln Ala Leu Asn Trp Val Leu Asn Asn Gln Leu Gln Asp Gly

165 170 175

Ser Trp Gly Ile Glu Ser His Phe Ser Leu Cys Asp Arg Leu Leu Asn

180 185 190

Thr Ile Asn Ser Val Ile Ala Leu Ser Val Trp Lys Thr Gly His Ser

195 200 205

Gln Val Glu Gln Gly Thr Glu Phe Ile Ala Glu Asn Leu Arg Leu Leu

210 215 220

Asn Glu Glu Asp Glu Leu Ser Pro Asp Phe Glu Ile Ile Phe Pro Ala

225 230 235 240

Leu Leu Gln Lys Ala Lys Ser Leu Gly Ile Asn Leu Pro Tyr Asp Leu

245 250 255

Pro Phe Ile Lys Tyr Leu Ser Thr Thr Arg Glu Ala Arg Leu Thr Asp

260 265 270

Val Ser Ala Ala Ala Asp Asn Ile Pro Ala Asn Met Leu Asn Ala Leu

275 280 285

Glu Gly Leu Glu Glu Val Ile Asp Trp Lys Lys Ile Met Arg Phe Gln

290 295 300

Ser Lys Asp Gly Ser Phe Leu Ser Ser Pro Ala Ser Thr Ala Cys Val

305 310 315 320

Leu Met Asn Thr Gly Asp Glu Lys Cys Phe Thr Phe Leu Asn Asn Leu

325 330 335

Leu Asp Lys Phe Gly Gly Cys Val Pro Cys Met Tyr Ser Ile Asp Leu

340 345 350

Leu Glu Arg Leu Ser Leu Val Asp Asn Ile Glu His Leu Gly Ile Gly

355 360 365

Arg His Phe Lys Gln Glu Ile Lys Val Ala Leu Asp Tyr Val Tyr Arg

370 375 380

His Trp Ser Glu Arg Gly Ile Gly Trp Gly Arg Asp Ser Leu Val Pro

385 390 395 400

Asp Leu Asn Thr Thr Ala Leu Gly Leu Arg Thr Leu Arg Thr His Gly

405 410 415

Tyr Asp Val Ser Ser Asp Val Leu Asn Asn Phe Lys Asp Glu Asn Gly

420 425 430

Arg Phe Phe Ser Ser Ala Gly Gln Thr His Val Glu Leu Arg Ser Val

435 440 445

Val Asn Leu Phe Arg Ala Ser Asp Leu Ala Phe Pro Asp Glu Gly Ala

450 455 460

Met Asp Asp Ala Arg Lys Phe Ala Glu Pro Tyr Leu Arg Asp Ala Leu

465 470 475 480

Ala Thr Lys Ile Ser Thr Asn Thr Lys Leu Phe Lys Glu Ile Glu Tyr

485 490 495

Val Val Glu Tyr Pro Trp His Met Ser Ile Pro Arg Leu Glu Ala Arg

500 505 510

Ser Tyr Ile Asp Ser Tyr Asp Asp Asp Tyr Val Trp Gln Arg Lys Thr

515 520 525

Leu Tyr Arg Met Pro Ser Leu Ser Asn Ser Lys Cys Leu Glu Leu Ala

530 535 540

Lys Leu Asp Phe Asn Ile Val Gln Ser Leu His Gln Glu Glu Leu Lys

545 550 555 560

Leu Leu Thr Arg Trp Trp Lys Glu Ser Gly Met Ala Asp Ile Asn Phe

565 570 575

Thr Arg His Arg Val Ala Glu Val Tyr Phe Ser Ser Ala Thr Phe Glu

580 585 590

Pro Glu Tyr Ser Ala Thr Arg Ile Ala Phe Thr Lys Ile Gly Cys Leu

595 600 605

Gln Val Leu Phe Asp Asp Met Ala Asp Ile Phe Ala Thr Leu Asp Glu

610 615 620

Leu Lys Ser Phe Thr Glu Gly Val Lys Arg Trp Asp Thr Ser Leu Leu

625 630 635 640

His Glu Ile Pro Glu Cys Met Gln Thr Cys Phe Lys Val Trp Phe Lys

645 650 655

Leu Met Glu Glu Val Asn Asn Asp Val Val Lys Val Gln Gly Arg Asp

660 665 670

Met Leu Ala His Ile Arg Lys Pro Trp Glu Leu Tyr Phe Asn Cys Tyr

675 680 685

Val Gln Glu Arg Glu Trp Leu Asp Ala Gly Tyr Ile Pro Thr Phe Glu

690 695 700

Glu Tyr Leu Lys Thr Tyr Ala Ile Ser Val Gly Leu Gly Pro Cys Thr

705 710 715 720

Leu Gln Pro Ile Leu Leu Met Gly Glu Leu Val Lys Asp Asp Val Val

725 730 735

Glu Lys Val His Tyr Pro Ser Asn Met Phe Glu Leu Val Ser Leu Ser

740 745 750

Trp Arg Leu Thr Asn Asp Thr Lys Thr Tyr Gln Ala Glu Lys Ala Arg

755 760 765

Gly Gln Gln Ala Ser Gly Ile Ala Cys Tyr Met Lys Asp Asn Pro Gly

770 775 780

Ala Thr Glu Glu Asp Ala Ile Lys His Ile Cys Arg Val Val Asp Arg

785 790 795 800

Ala Leu Lys Glu Ala Ser Phe Glu Tyr Phe Lys Pro Ser Asn Asp Ile

805 810 815

Pro Met Gly Cys Lys Ser Phe Ile Phe Asn Leu Arg Leu Cys Val Gln

820 825 830

Ile Phe Tyr Lys Phe Ile Asp Gly Tyr Gly Ile Ala Asn Glu Glu Ile

835 840 845

Lys Asp Tyr Ile Arg Lys Val Tyr Ile Asp Pro Ile Gln Val

850 855 860

<210> 4

<211> 499

<212> PRT

<213> Artificial Sequence

<400> 4

Met Asp Ala Leu Tyr Lys Ser Thr Val Ala Lys Phe Asn Glu Val Thr

1 5 10 15

Gln Leu Asp Cys Ser Thr Glu Ser Phe Ser Ile Ala Leu Ser Ala Ile

20 25 30

Ala Gly Ile Leu Leu Leu Leu Leu Leu Phe Arg Ser Lys Arg His Ser

35 40 45

Ser Leu Lys Leu Pro Pro Gly Lys Leu Gly Ile Pro Phe Ile Gly Glu

50 55 60

Ser Phe Ile Phe Leu Arg Ala Leu Arg Ser Asn Ser Leu Glu Gln Phe

65 70 75 80

Phe Asp Glu Arg Val Lys Lys Phe Gly Leu Val Phe Lys Thr Ser Leu

85 90 95

Ile Gly His Pro Thr Val Val Leu Cys Gly Pro Ala Gly Asn Arg Leu

100 105 110

Ile Leu Ser Asn Glu Glu Lys Leu Val Gln Met Ser Trp Pro Ala Gln

115 120 125

Phe Met Lys Leu Met Gly Glu Asn Ser Val Ala Thr Arg Arg Gly Glu

130 135 140

Asp His Ile Val Met Arg Ser Ala Leu Ala Gly Phe Phe Gly Pro Gly

145 150 155 160

Ala Leu Gln Ser Tyr Ile Gly Lys Met Asn Thr Glu Ile Gln Ser His

165 170 175

Ile Asn Glu Lys Trp Lys Gly Lys Asp Glu Val Asn Val Leu Pro Leu

180 185 190

Val Arg Glu Leu Val Phe Asn Ile Ser Ala Ile Leu Phe Phe Asn Ile

195 200 205

Tyr Asp Lys Gln Glu Gln Asp Arg Leu His Lys Leu Leu Glu Thr Ile

210 215 220

Leu Val Gly Ser Phe Ala Leu Pro Ile Asp Leu Pro Gly Phe Gly Phe

225 230 235 240

His Arg Ala Leu Gln Gly Arg Ala Lys Leu Asn Lys Ile Met Leu Ser

245 250 255

Leu Ile Lys Lys Arg Lys Glu Asp Leu Gln Ser Gly Ser Ala Thr Ala

260 265 270

Thr Gln Asp Leu Leu Ser Val Leu Leu Thr Phe Arg Asp Asp Lys Gly

275 280 285

Thr Pro Leu Thr Asn Asp Glu Ile Leu Asp Asn Phe Ser Ser Leu Leu

290 295 300

His Ala Ser Tyr Asp Thr Thr Thr Ser Pro Met Ala Leu Ile Phe Lys

305 310 315 320

Leu Leu Ser Ser Asn Pro Glu Cys Tyr Gln Lys Val Val Gln Glu Gln

325 330 335

Leu Glu Ile Leu Ser Asn Lys Glu Glu Gly Glu Glu Ile Thr Trp Lys

340 345 350

Asp Leu Lys Ala Met Lys Tyr Thr Trp Gln Val Ala Gln Glu Thr Leu

355 360 365

Arg Met Phe Pro Pro Val Phe Gly Thr Phe Arg Lys Ala Ile Thr Asp

370 375 380

Ile Gln Tyr Asp Gly Tyr Thr Ile Pro Lys Gly Trp Lys Leu Leu Trp

385 390 395 400

Thr Thr Tyr Ser Thr His Pro Lys Asp Leu Tyr Phe Asn Glu Pro Glu

405 410 415

Lys Phe Met Pro Ser Arg Phe Asp Gln Glu Gly Lys His Val Ala Pro

420 425 430

Tyr Thr Phe Leu Pro Phe Gly Gly Gly Gln Arg Ser Cys Val Gly Trp

435 440 445

Glu Phe Ser Lys Met Glu Ile Leu Leu Phe Val His His Phe Val Lys

450 455 460

Thr Phe Ser Ser Tyr Thr Pro Val Asp Pro Asp Glu Lys Ile Ser Gly

465 470 475 480

Asp Pro Leu Pro Pro Leu Pro Ser Lys Gly Phe Ser Ile Lys Leu Phe

485 490 495

Pro Arg Pro

<210> 5

<211> 717

<212> PRT

<213> Artificial Sequence

<400> 5

Met Gln Ala Asn Ser Asn Thr Val Glu Gly Ala Ser Gln Gly Lys Ser

1 5 10 15

Leu Leu Asp Ile Ser Arg Leu Asp His Ile Phe Ala Leu Leu Leu Asn

20 25 30

Gly Lys Gly Gly Asp Leu Gly Ala Met Thr Gly Ser Ala Leu Ile Leu

35 40 45

Thr Glu Asn Ser Gln Asn Leu Met Ile Leu Thr Thr Ala Leu Ala Val

50 55 60

Leu Val Ala Cys Val Phe Phe Phe Val Trp Arg Arg Gly Gly Ser Asp

65 70 75 80

Thr Gln Lys Pro Ala Val Arg Pro Thr Pro Leu Val Lys Glu Glu Asp

85 90 95

Glu Glu Glu Glu Asp Asp Ser Ala Lys Lys Lys Val Thr Ile Phe Phe

100 105 110

Gly Thr Gln Thr Gly Thr Ala Glu Gly Phe Ala Lys Ala Leu Ala Glu

115 120 125

Glu Ala Lys Ala Arg Tyr Glu Lys Ala Val Phe Lys Val Val Asp Leu

130 135 140

Asp Asn Tyr Ala Ala Asp Asp Glu Gln Tyr Glu Glu Lys Leu Lys Lys

145 150 155 160

Glu Lys Leu Ala Phe Phe Met Leu Ala Thr Tyr Gly Asp Gly Glu Pro

165 170 175

Thr Asp Asn Ala Ala Arg Phe Tyr Lys Trp Phe Leu Glu Gly Lys Glu

180 185 190

Arg Glu Pro Trp Leu Ser Asp Leu Thr Tyr Gly Val Phe Gly Leu Gly

195 200 205

Asn Arg Gln Tyr Glu His Phe Asn Lys Val Ala Lys Ala Val Asp Glu

210 215 220

Val Leu Ile Glu Gln Gly Ala Lys Arg Leu Val Pro Val Gly Leu Gly

225 230 235 240

Asp Asp Asp Gln Cys Ile Glu Asp Asp Phe Thr Ala Trp Arg Glu Gln

245 250 255

Val Trp Pro Glu Leu Asp Gln Leu Leu Arg Asp Glu Asp Asp Glu Pro

260 265 270

Thr Ser Ala Thr Pro Tyr Thr Ala Ala Ile Pro Glu Tyr Arg Val Glu

275 280 285

Ile Tyr Asp Ser Val Val Ser Val Tyr Glu Glu Thr His Ala Leu Lys

290 295 300

Gln Asn Gly Gln Ala Val Tyr Asp Ile His His Pro Cys Arg Ser Asn

305 310 315 320

Val Ala Val Arg Arg Glu Leu His Thr Pro Leu Ser Asp Arg Ser Cys

325 330 335

Ile His Leu Glu Phe Asp Ile Ser Asp Thr Gly Leu Ile Tyr Glu Thr

340 345 350

Gly Asp His Val Gly Val His Thr Glu Asn Ser Ile Glu Thr Val Glu

355 360 365

Glu Ala Ala Lys Leu Leu Gly Tyr Gln Leu Asp Thr Ile Phe Ser Val

370 375 380

His Gly Asp Lys Glu Asp Gly Thr Pro Leu Gly Gly Ser Ser Leu Pro

385 390 395 400

Pro Pro Phe Pro Gly Pro Cys Thr Leu Arg Thr Ala Leu Ala Arg Tyr

405 410 415

Ala Asp Leu Leu Asn Pro Pro Arg Lys Ala Ala Phe Leu Ala Leu Ala

420 425 430

Ala His Ala Ser Asp Pro Ala Glu Ala Glu Arg Leu Lys Phe Leu Ser

435 440 445

Ser Pro Ala Gly Lys Asp Glu Tyr Ser Gln Trp Val Thr Ala Ser Gln

450 455 460

Arg Ser Leu Leu Glu Ile Met Ala Glu Phe Pro Ser Ala Lys Pro Pro

465 470 475 480

Leu Gly Val Phe Phe Ala Ala Ile Ala Pro Arg Leu Gln Pro Arg Tyr

485 490 495

Tyr Ser Ile Ser Ser Ser Pro Arg Phe Ala Pro Ser Arg Ile His Val

500 505 510

Thr Cys Ala Leu Val Tyr Gly Pro Ser Pro Thr Gly Arg Ile His Lys

515 520 525

Gly Val Cys Ser Asn Trp Met Lys Asn Ser Leu Pro Ser Glu Glu Thr

530 535 540

His Asp Cys Ser Trp Ala Pro Val Phe Val Arg Gln Ser Asn Phe Lys

545 550 555 560

Leu Pro Ala Asp Ser Thr Thr Pro Ile Val Met Val Gly Pro Gly Thr

565 570 575

Gly Phe Ala Pro Phe Arg Gly Phe Leu Gln Glu Arg Ala Lys Leu Gln

580 585 590

Glu Ala Gly Glu Lys Leu Gly Pro Ala Val Leu Phe Phe Gly Cys Arg

595 600 605

Asn Arg Gln Met Asp Tyr Ile Tyr Glu Asp Glu Leu Lys Gly Tyr Val

610 615 620

Glu Lys Gly Ile Leu Thr Asn Leu Ile Val Ala Phe Ser Arg Glu Gly

625 630 635 640

Ala Thr Lys Glu Tyr Val Gln His Lys Met Leu Glu Lys Ala Ser Asp

645 650 655

Thr Trp Ser Leu Ile Ala Gln Gly Gly Tyr Leu Tyr Val Cys Gly Asp

660 665 670

Ala Lys Gly Met Ala Arg Asp Val His Arg Thr Leu His Thr Ile Val

675 680 685

Gln Glu Gln Glu Ser Val Asp Ser Ser Lys Ala Glu Phe Leu Val Lys

690 695 700

Lys Leu Gln Met Asp Gly Arg Tyr Leu Arg Asp Ile Trp

705 710 715

<210> 6

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 6

ggtcctgtcg taatgatggt agatctgact 30

<210> 7

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 7

agtcagatct accatcatta cgacaggacc 30

<210> 8

<211> 48

<212> DNA

<213> Artificial Sequence

<400> 8

gatccaattc aagtaggagg aggaggagga ggaatggtag atctgact 48

<210> 9

<211> 48

<212> DNA

<213> Artificial Sequence

<400> 9

agtcagatct accattcctc ctcctcctcc tcctacttga attggatc 48

<210> 10

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 10

cttctcctgc tcttcatggt agatctgact 30

<210> 11

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 11

agtcagatct accatgaaga gcaggagaag 30

<210> 12

<211> 48

<212> DNA

<213> Artificial Sequence

<400> 12

ctgtttccga gaccaggagg aggaggagga ggaatggtag atctgact 48

<210> 13

<211> 48

<212> DNA

<213> Artificial Sequence

<400> 13

agtcagatct accattcctc ctcctcctcc tcctggtctc ggaaacag 48

<210> 14

<211> 37

<212> DNA

<213> Artificial Sequence

<400> 14

ccagagttaa aggcctcgag ttagctagct ttgtata 37

<210> 15

<211> 51

<212> DNA

<213> Artificial Sequence

<400> 15

agaaattaca gatggatgga ggaggaggag gaatggtgag caagggcgag g 51

<210> 16

<211> 51

<212> DNA

<213> Artificial Sequence

<400> 16

cctcgccctt gctcaccatt cctcctcctc ctccatccat ctgtaatttc t 51

<210> 17

<211> 48

<212> DNA

<213> Artificial Sequence

<400> 17

aatgaaacca gagttaaagg cctcgagtta cttgtacagc tcgtccat 48

Claims

1.一种多肽，包含紫杉二烯合成酶的信号片段，其中，所述多肽还包含：（1）紫杉二烯-5-羟基化酶的功能片段，或者，（2）细胞色素P450氧化还原酶的功能片段，

所述信号片段是SEQ ID NO:3的第1位氨基酸至第60位氨基酸的序列，

所述紫杉二烯-5-羟基化酶的功能片段是截去SEQ ID NO:4的N端第2至第42位氨基酸的剩余多肽，

所述细胞色素P450氧化还原酶的功能片段是截去SEQ ID NO:5的N端第2至第74位氨基酸的剩余多肽。

2.如权利要求1所述的多肽，所述紫杉二烯-5-羟基化酶的功能片段来源于红豆杉属（Taxus）。

3.如权利要求1所述的多肽，其特征在于，所述细胞色素P450氧化还原酶的功能片段来源于红豆杉属（Taxus）。

4.一种融合蛋白，包含叶绿体信号肽、紫杉二烯-5-羟基化酶的功能片段和细胞色素P450氧化还原酶的功能片段，

5.如权利要求4所述的融合蛋白，其特征在于，紫杉二烯-5-羟基化酶的功能片段位于细胞色素P450氧化还原酶的功能片段的N端。

6.如权利要求4或5所述的融合蛋白，其特征在于，所述融合蛋白如SEQ ID NO:1所示。

7.一种多核苷酸，包括选自以下的序列：

(1)权利要求1-3中任一项所述的多肽或权利要求4-6中任一项所述的融合蛋白的编码序列；和

(2) (1)所述序列的互补序列。

8.一种核酸构建物，包含权利要求7所述的多核苷酸。

9.如权利要求8所述的核酸构建物，其特征在于，所述核酸构建物是重组表达载体。

10.一种宿主细胞，所述宿主细胞：

（1）表达权利要求1-3中任一项所述的多肽或权利要求4-6中任一项所述的融合蛋白；

（2）含有权利要求7所述的多核苷酸；和/或

（3）含有权利要求8或9所述的核酸构建物。

11.如权利要求10所述的宿主细胞，其特征在于，所述宿主细胞是细菌细胞、真菌细胞和/或植物细胞。

12.如权利要求10所述的宿主细胞，其特征在于，所述宿主细胞还具有选自以下的一个或多个特征：

（a）表达紫杉二烯合成酶，

（b）表达包含紫杉二烯合成酶的功能片段的多肽，

（c）含有（a）所述酶或（b）所述多肽的编码序列或其互补序列的多核苷酸序列，和

（d）含有包含（c）所述多核苷酸序列的核酸构建物。

13.选自权利要求1-3中任一项所述的多肽、权利要求4-6中任一项所述的融合蛋白、权利要求7所述的多核苷酸和权利要求8或9所述的核酸构建物中的一种或多种在生产5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇或5(13)-氧杂-3(11)-环紫杉醇中的应用，包括将所述多肽、融合蛋白、多核苷酸序列和/或核酸构建物引入细胞的步骤。

14.如权利要求13所述的应用，其特征在于，所述应用还包括以下特征中的一种或多种：

所述应用包括将紫杉二烯合成酶引入所述细胞的步骤；

所述应用包括将包含紫杉二烯合成酶的功能片段的多肽引入所述细胞的步骤；

所述细胞包含细菌细胞、真菌细胞或植物细胞。

15.一种生产5α-羟基紫杉二烯、5(12)-氧杂-3(11)-环紫杉醇和/或5(13)-氧杂-3(11)-环紫杉醇的方法，包括将选自权利要求1-3中任一项所述的多肽、权利要求4-6中任一项所述的融合蛋白、权利要求7所述的多核苷酸和权利要求8或9所述的核酸构建物中的一种或多种引入细胞。

16.如权利要求15所述的方法，其特征在于，所述细胞包含细菌细胞、真菌细胞或植物细胞。

17.如权利要求16所述的方法，其特征在于，所述方法还包括将以下引入所述细胞：

（1）紫杉二烯合成酶，和/或

（2）包含紫杉二烯合成酶的功能片段的多肽。