CN113302298A

CN113302298A - 罗汉果甙的生物合成

Info

Publication number: CN113302298A
Application number: CN201980088311.9A
Authority: CN
Inventors: K·C·安德森; J·I·布切尔; N·弗洛雷斯; J·延森; S·马尔; M·麦克曼; D·萨兰; J·王; J·朱
Original assignee: Ginkgo Bioworks Inc
Current assignee: Ginkgo Bioworks Inc
Priority date: 2018-11-09
Filing date: 2019-11-09
Publication date: 2021-08-24
Also published as: JP7498708B2; EP3877519A1; US20210403921A1; JP2024123021A; EP3877519A4; JP2022507029A; WO2020097588A1; CA3118924A1

Abstract

本申请中描述了酶(例如葫芦烷二烯醇合成酶(CDS)、UDP‑糖基转移酶(UGT)、C11羟化酶、环氧化物酶(EPH)、角鲨烯环氧酶、和/或细胞色素P450还原酶)、表达酶的宿主细胞、以及使用这样的宿主细胞产生罗汉果醇前体、罗汉果醇、和/或罗汉果甙的方法。

Description

罗汉果甙的生物合成

相关申请的交叉引用

本申请要求于2018年11月09日提交的标题为“罗汉果甙的生物合成”的美国临时申请序列号62/758,474(其公开内容通过引用被整体并入本文)在35U.S.C§119(e)下的优先权权益。

对于经由EFS-WEB以TEXT文件提交的序列表的引用

本申请含有已经由EFS-WEB以ASCII格式提交并且特此通过引用整体并入的序列表。所述ASCII副本创建于2019年11月09日，命名为G091970023WO00-SEQ-OMJ.TXT，且大小为928千字节。

发明领域

本公开涉及在重组细胞中产生罗汉果醇前体、罗汉果醇和罗汉果甙。

背景

罗汉果甙是葫芦烷衍生物的配糖体。罗汉果甙作为甜味剂和糖替代品备受追捧，是在植物(包含罗汉果(Siraitia grosvenorii(S.grosvenorii))的果实中天然地合成的。尽管罗汉果甙已经被认为具有抗癌、抗氧化和抗炎特性，但对确切参与罗汉果甙生物合成的酶的表征是有限的。此外，从果实中提取罗汉果甙是一项劳动密集型的工作，并且罗汉果甙的结构复杂性往往阻碍了从头化学合成。

概述

发明的方面涉及包括编码UDP-糖基转移酶(UGT)的异源多核苷酸的宿主细胞，其中所述UGT包括下列区：

对应于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的区，其中所述区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的氨基酸置换；和/或对应于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的区，其中所述区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的氨基酸置换；其中相对于包括编码野生型UGT94-289-1(SEQ ID NO:109)的异源多核苷酸的对照宿主细胞，宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，相对于野生型UGT94-289-1(SEQ ID NO:109)，UGT展现出活性(例如，比活性)至少1.3倍的增加。在一些实施方案中，UGT包括位于结构基序中的氨基酸残基处的氨基酸置换，结构基序对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的结构基序：环(loop)6、α螺旋3、环11、α螺旋6、环12和α螺旋7。在一些实施方案中，UGT能够催化下列转变：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE至赛门苷I的转变。在一些实施方案中，UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化(branching glycosylation)罗汉果甙；或者支化糖基化罗汉果甙C24。在一些实施方案中，UGT包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的氨基酸残基：H83；T84；T85；N86；P89；L92；Y179；S180；A181；G184；A185；V186；T187；K189；H191；K192；G194；E195；和A198。在一些实施方案中,宿主细胞还包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸。

发明的另外的方面涉及包括编码UGT的异源多核苷酸的宿主细胞，其中UGT包括下列区：对应于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的区，其中该区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的氨基酸置换；和/或对应于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的区，其中该区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的氨基酸置换；其中UGT包括与SEQ ID NO:109小于90％的一致性。

在一些实施方案中，相对于野生型UGT94-289-1(SEQ ID NO:109)，UGT展现出活性(例如，比活性)至少1.3倍的增加。在一些实施方案中，UGT包括位于结构基序中的氨基酸残基处的氨基酸置换，结构基序对应于野生型UGT94-289-1(SEQ ID NO:109)中选自下列的结构基序：环6、α螺旋3、环11、α螺旋6、环12、和α螺旋7。在一些实施方案中，UGT能够催化：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE至赛门苷I的转变。在一些实施方案中，UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化罗汉果甙；或者支化糖基化罗汉果甙C24。在一些实施方案中，宿主细胞还包括编码CDS酶的异源多核苷酸。

发明的另外的方面涉及包括编码UGT的异源多核苷酸的宿主细胞，其中UGT包括对应于野生型UGT94-289-1(SEQ ID NO:109)的N143或L374的残基处的氨基酸置换，其中相对于包括编码野生型UGT94-289-1(SEQ ID NO:109)的异源多核苷酸的宿主细胞，所述宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，相对于野生型UGT94-289-1(SEQ ID NO:109)，UGT展现出活性(例如，比活性)至少1.3倍的增加。在一些实施方案中，UGT包括位于UGT的结构基序中的氨基酸残基处的氨基酸置换，结构基序对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的结构基序：环6、α螺旋3、环11、α螺旋6、环12、和α螺旋7。在一些实施方案中，UGT能够催化下列转变：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE至赛门苷I的转变。在一些实施方案中，UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化罗汉果甙；或者支化糖基化罗汉果甙C24。在一些实施方案中，宿主细胞还包括编码CDS酶的异源多核苷酸。

发明的另外的方面涉及包括编码UGT的异源多核苷酸的宿主细胞，其中UGT包括位于结构基序中的氨基酸残基处的氨基酸置换，结构基序对应于野生型UGT94-289-1(SEQ IDNO:109)的选自下列的结构基序：环8；β折叠(beta sheet)5；环10；α螺旋5；环11；环2；α螺旋6；环12；α螺旋1；α螺旋7；环18；α螺旋14；环26；α螺旋2；环6；和α螺旋3；其中相对于包括编码不包括氨基酸置换的UGT的异源多核苷酸的宿主细胞，宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，相对于野生型UGT94-289-1(SEQ ID NO:109)，UGT展现出活性(例如，比活性)至少1.3倍的增加。在一些实施方案中，UGT能够催化下列转变：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE赛门苷I的转变。在一些实施方案中，UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化罗汉果甙；或者支化糖基化罗汉果甙C24。在一些实施方案中，宿主细胞还包括编码CDS酶的异源多核苷酸。

发明的另外的方面涉及包括编码UGT的异源多核苷酸的宿主细胞，其中UGT包括对应于野生型UGT94-289-1(SEQ ID NO:109)的H21/D122的催化二联体的7埃内的氨基酸残基处的氨基酸置换，其中相对于不包括氨基酸置换的相同的UGT，UGT展现出活性(例如，比活性)至少1.3倍的增加。

发明的另外的方面涉及包括编码循环重排的UDP-糖基转移酶(UGT)的异源多核苷酸的宿主细胞，其中循环重排的UGT包括：(a)催化二联体；以及(b)辅因子结合位点；

其中催化二联体位于辅因子-结合位点的C-末端，并且

其中相对于包括编码野生型UGT94-289-1(SEQ ID NO:109)的异源多核苷酸的对照宿主细胞，宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，循环重排的UGT包括与表6中的序列至少90％一致的序列。

在一些实施方案中，本申请中描述的UGT包括与表3或者表7中的序列至少90％一致的序列。

在一些实施方案中，UGT包括位于结构基序中的氨基酸残基处的氨基酸置换，结构基序对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的结构基序：环6、α螺旋3、环11、α螺旋6、环12、和α螺旋7。

在一些实施方案中，相对于野生型UGT94-289-1(SEQ ID NO:109)，UGT展现出活性(例如，比活性)至少1.3倍的增加。在一些实施方案中，相对于包括编码不包括氨基酸置换的UGT的异源多核苷酸的宿主细胞，宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，UGT能够催化下列转变：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE至赛门苷I的转变。在一些实施方案中，UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化罗汉果甙；或者支化糖基化罗汉果甙C24。在一些实施方案中，宿主细胞还包括编码CDS酶的异源多核苷酸。

在一些实施方案中，UGT的比活性为每小时每克的酶产生至少1mmol经糖基化的罗汉果甙目标。

发明的另外的方面涉及包括编码UGT的异源多核苷酸的宿主细胞，其中UGT包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的氨基酸残基：H83；T84；T85；N86；P89；L92；Y179；S180；A181；G184；A185；V186；T187；K189；H191；K192；G194；E195；和A198。

发明的另外的方面涉及包括编码UGT的异源多核苷酸的宿主细胞，其中UGT包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的氨基酸残基：G18；Y19；S123；N47；F124；N143；T144；T145；V149；F276；N355；H373和L374。

在一些实施方案中，UGT能够催化下列转变：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE至赛门苷I的转变。在一些实施方案中，UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化罗汉果甙；或者支化糖基化罗汉果甙C24。在一些实施方案中，相对于野生型UGT94-289-1(SEQ ID NO:109)，UGT展现出活性(例如，比活性)至少1.3倍的增加。在一些实施方案中，相对于包括编码野生型UGT94-289-1(SEQ ID NO:109)的异源多核苷酸的宿主细胞，宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，Y179被突变为谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、缬氨酸、或者色氨酸；S180被突变为丙氨酸或缬氨酸；A181被突变为赖氨酸或苏氨酸；G184被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、或酪氨酸；A185被突变为半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、苏氨酸、色氨酸或酪氨酸；V186被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、苏氨酸、色氨酸、或酪氨酸；T187被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、天门冬酰胺、脯氨酸、精氨酸、丝氨酸、缬氨酸、色氨酸、或酪氨酸；K189被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、甲硫氨酸、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸；H191被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、赖氨酸、甲硫氨酸、脯氨酸、谷氨酰胺、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸；K192被突变为半胱氨酸或苯基丙氨酸；G194被突变为天门冬氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、丝氨酸、或色氨酸；E195被突变为丙氨酸、异亮氨酸、赖氨酸、亮氨酸、天门冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、或酪氨酸；A198被突变为半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、或酪氨酸；H83被突变为谷氨酰胺或色氨酸；T84被突变为酪氨酸；T85被突变为甘氨酸、赖氨酸、脯氨酸、丝氨酸、或酪氨酸；N86被突变为丙氨酸、半胱氨酸、谷氨酸、异亮氨酸、赖氨酸、亮氨酸、丝氨酸、色氨酸、或酪氨酸；P89被突变为甲硫氨酸或丝氨酸；和/或L92被突变为组氨酸或赖氨酸。

在一些实施方案中，N143被突变为丙氨酸、半胱氨酸、谷氨酸、异亮氨酸、亮氨酸、甲硫氨酸、谷氨酰胺、丝氨酸、苏氨酸或缬氨酸；L374被突变为丙氨酸、半胱氨酸、苯基丙氨酸、组氨酸、甲硫氨酸、天门冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸；S123被突变为丙氨酸、半胱氨酸、甘氨酸或缬氨酸；F124被突变为酪氨酸；T144被突变为丙氨酸、半胱氨酸、天门冬酰胺或脯氨酸；T145被突变为丙氨酸、半胱氨酸、甘氨酸、甲硫氨酸、天门冬酰胺、谷氨酰胺、或丝氨酸；V149被突变为半胱氨酸、亮氨酸或甲硫氨酸；G18被突变为丝氨酸；Y19被突变为苯基丙氨酸、组氨酸、亮氨酸、或缬氨酸；F276被突变为半胱氨酸或谷氨酰胺；N355被突变为谷氨酰胺或丝氨酸；H373被突变为赖氨酸、亮氨酸、甲硫氨酸、精氨酸、缬氨酸、或酪氨酸；和/或N47被突变为甘氨酸。

在一些实施方案中，宿主细胞还包括编码CDS酶、C11羟化酶、细胞色素P450还原酶、环氧化物酶(EPH)、和/或角鲨烯环氧酶的异源多核苷酸。在一些实施方案中，编码CDS的异源多核苷酸与SEQ ID NO:3、SEQ ID NO:9、或者SEQ ID NO:12至少90％一致。在一些实施方案中，CDS与SEQ ID NO:43、SEQ ID NO:49、或者SEQ ID NO:52至少90％一致。

在一些实施方案中，UGT的活性(例如，比活性)为每小时每克的酶产生至少1mmol经糖基化的罗汉果甙目标。在一些实施方案中，细胞是酵母细胞、植物细胞、或者细菌细胞。在一些实施方案中，细胞是酿酒酵母(S.cerevisiae)细胞。在一些实施方案中，细胞是大肠杆菌(Escherichia coli(E.coli))细胞。

发明的另外的方面涉及产生罗汉果甙的方法，所述方法包括将本申请所描述的任意宿主细胞与至少一种罗汉果甙前体培养。在一些实施方案中，罗汉果甙前体选自罗汉果醇、MIA1、MIIA1、MIIIA1、MIIE、MIII、和MIIIE。在一些实施方案中，产生的罗汉果甙选自MIA1、MIIA1、MIIIA1、MIIE、MIII、赛门苷、和MIIIE。

发明的另外的方面涉及包括编码CDS酶的异源多核苷酸的宿主细胞，其中CDS酶包括与选自表2中序列的序列至少90％一致的氨基酸序列，并且其中宿主细胞比不表达异源基因的相同宿主细胞多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的葫芦烷二烯醇化合物。

在一些实施方案中，葫芦烷二烯醇化合物是24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。在一些实施方案中，CDS酶包括氨基酸残基处的亮氨酸，氨基酸残基对应于SEQ IDNO:73的位点123处的氨基酸残基。在一些实施方案中，CDS能够将氧化角鲨烯转变至葫芦烷二烯醇化合物。在一些实施方案中，氧化角鲨烯是2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯。在一些实施方案中，CDS酶包括底物通道(substrate channel)和活性位点空穴(active-site cavity)。

在一些实施方案中，宿主细胞还表达编码C11羟化酶、细胞色素P450还原酶、环氧化物酶(EPH)、和/或角鲨烯环氧酶的异源基因。

发明的另外的方面涉及产生葫芦烷二烯醇化合物的方法，方法包括使本申请中所描述的宿主细胞与氧化角鲨烯接触，从而产生葫芦烷二烯醇化合物。在一些实施方案中，葫芦烷二烯醇化合物是24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。在一些实施方案中，氧化角鲨烯是2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯。在一些实施方案中，方法还包括分离葫芦烷二烯醇化合物。

发明的另外的方面涉及产生罗汉果醇或者罗汉果甙的方法，方法包括使本申请中所描述的宿主细胞与氧化角鲨烯接触，从而产生罗汉果醇或者罗汉果甙。发明的另外的方面涉及产生罗汉果甙的方法，方法包括将本申请中所描述的宿主细胞与至少一种罗汉果甙前体培养。

发明的另外的方面涉及包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中CDS包括：a)基序GX₁WASDLGGP(SEQ ID NO:331)，其中X₁是N或者H；b)基序DX₁GWL(SEQ ID NO:332)，其中X₁是H或者Q；和/或c)基序CWGVCFTYAGW(SEQ ID NO:333)，其中CDS不包括罗汉果CDS(SEQ ID NO:73)的序列；并且其中相对于对照，宿主细胞多产生至少10％、20％、或者30％的葫芦烷二烯醇化合物，其中对照是表达由对应于SEQ ID NO:33的多核苷酸编码的罗汉果CDS的宿主细胞。

在一些实施方案中，基序GX₁WASDLGGP(SEQ ID NO:331)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基117-126；基序DX₁GWL(SEQ ID NO:332)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基479-483，和/或基序CWGVCFTYAGW(SEQ ID NO:333)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基612-622。

发明的另外的方面涉及包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中CDS包括：a)基序GHWASDLGGP((SEQ ID NO:334)；和/或b)基序DQGWL(SEQ IDNO:335)。

在一些实施方案中，基序GHWASDLGGP(SEQ ID NO:334)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基117-126；和/或基序DQGWL(SEQ ID NO:335)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基479-483。

发明的另外的方面涉及包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中CDS包括：a)基序GHWANDLGGP(SEQ ID NO:336)；b)基序DQGWL(SEQ ID NO:335)；和/或c)基序CWGVCYTYAGW(SEQ ID NO:337)。

在一些实施方案中，基序GHWANDLGGP(SEQ ID NO:336)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基117-126；基序DQGWL(SEQ ID NO:335)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基479-483；和/或基序CWGVCYTYAGW(SEQ ID NO:337)位于CDS中的残基处，残基对应于SEQ ID NO:73中的残基612-622。

在一些实施方案中，异源多核苷酸与SEQ ID NO:3、SEQ ID NO:9、或者SEQ ID NO:12至少90％一致。在一些实施方案中，CDS与SEQ ID NO:43、SEQ ID NO:49、或者SEQ ID NO:52至少90％一致。在一些实施方案中，异源多核苷酸与SEQ ID NO:3至少90％一致。在一些实施方案中，CDS与SEQ ID NO:43至少90％一致。

发明的另外的方面涉及包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中异源多核苷酸序列与SEQ ID NO:3至少90％一致和/或由异源多核苷酸编码的CDS的氨基酸序列与SEQ ID NO:43至少90％一致，其中宿主细胞产生葫芦烷二烯醇化合物。

在一些实施方案中，葫芦烷二烯醇化合物是24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。在一些实施方案中，CDS包括氨基酸残基处的亮氨酸，氨基酸残基对应于SEQ IDNO:73的位点123处的氨基酸残基。在一些实施方案中，CDS能够将氧化角鲨烯转变至葫芦烷二烯醇化合物。在一些实施方案中，氧化角鲨烯是2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯。在一些实施方案中，CDS酶包括底物通道和活性位点空穴。

在一些实施方案中，宿主细胞还包括编码UDP-糖基转移酶(UGT)、C11羟化酶、细胞色素P450还原酶、环氧化物酶(EPH)、和/或角鲨烯环氧酶的一种或更多种异源多核苷酸。

发明的另外的方面涉及产生葫芦烷二烯醇化合物的方法，方法包括使本申请中所描述的任意宿主细胞与氧化角鲨烯接触，从而产生葫芦烷二烯醇化合物。在一些实施方案中，葫芦烷二烯醇化合物是24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。在一些实施方案中，氧化角鲨烯是2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯。在一些实施方案中，方法还包括分离葫芦烷二烯醇化合物。在一些实施方案中，宿主细胞是酵母细胞、植物细胞、或者细菌细胞。在一些实施方案中，宿主细胞是酿酒酵母细胞。在一些实施方案中，宿主细胞是大肠杆菌细胞。

本发明的限制中的每个可以涵盖本发明的各种实施方案。因此，预期涉及任何一个要素或要素的组合的本发明的限制中的每个都可以被包含在本发明的每个方面中。本发明的应用不限于在以下描述中所示或者在附图中所图示说明的构造细节和组分的布置。本发明能够具有其他实施方案并且能够以各种方式被实践或进行。

附图的简要说明

附图并非旨在按比例绘制。附图仅是说明性的，并不是实现本公开所必需的。为了清楚起见，并非在每个附图中都标记了每个组分。在附图中：

图1A-1D包含推定的罗汉果醇生物合成途径的示意性概述。SQS表示角鲨烯合成酶，EPD表示环氧酶，P450表示C11羟化酶，EPH表示环氧化物酶，并且CDS表示葫芦烷二烯醇合成酶。图1A和图1B示出推定的罗汉果醇生物合成途径。图1C示出一级UGT活性的非限制性实例。图1D示出二级UGT活性的非限制性实例。

图2是示出罗汉果醇、罗汉果甙I-A1、罗汉果甙I-E1、罗汉果甙II-A1、罗汉果甙II-A2、罗汉果甙II-E、罗汉果甙III-A1、罗汉果甙III-E、罗汉果甙IV和赛门苷I的液相色谱-质谱(LC-MS)谱图的图表。8分钟的LC-MS方法被用于区分所有这些罗汉果甙标准品。

图3A-3B包含示出由针对罗汉果甙底物筛选的UGT文库产生罗汉果甙I-A1(图3A)和赛门苷I(图3B)的一系列图表。筛选每个菌株的两个生物学复制。

图4A-4B包含示出在单个底物上命中(hit)菌株的二级筛选中由罗汉果醇产生罗汉果甙I-A1(图4A)以及由罗汉果甙III-A1产生赛门苷I(图4B)的一系列图表。对于每个命中菌株筛选每个具有两个技术复制的两个生物学复制。

图5是UGT94-289-1同源模型的示意图。催化二联体侧链显示在方框内并且具有活性增强突变的位置以黑色突出显示。

图6是示出UGT94-289-1同源模型的N末端和C末端的接近度的图。

图7是示出蛋白质循环重排的示意图。天然蛋白质的原始N末端和C末端直接或通过接头序列连接在一起。在蛋白质序列内的另一个位点引入新的N末端和C末端以产生序列/结构变体。

图8描绘了示出t85024_N143V的残基50-59的位点具体评分矩阵(PSSM)(上部图片)和使用Rosetta能量函数评估这些潜在突变的影响(下部图片)的图。在下部图片中，突变的残基显示为棒状，且周围的原子显示为线条。

图9是描绘UGT U73C6(SEQ ID NO：103)和UGT94-289-1(SEQ ID NO：109)之间比对的非限制性实例的示意图。方框突出显示了U73C6(SEQ ID NO：103)中对应于UGT94-289-1(SEQ ID NO：109)中位点123、位点143和位点273的残基。

图10是示出与MIII、MIV和MV相比，通过循环重排生成的UGT的M、MI和MII的相对产量的图表。

图11是示出与MIII、MIV和MV相比，推定的UGT的M、MI和MII的相对产量的图表。

详细说明

罗汉果甙被广泛用作天然甜味剂(例如在饮料中)。然而，从头合成和由天然原料提取罗汉果甙常常涉及高的生产成本和低的产率。本申请描述了工程化以有效地产生罗汉果醇(或者11,24,25-三羟基葫芦烷二烯醇)、罗汉果甙、及其前体的宿主细胞。方法包含葫芦烷二烯醇合成酶(CDS)、UDP-糖基转移酶(UGT)、C11羟化酶、细胞色素P450还原酶、环氧化物酶(EPH)、角鲨烯环氧酶(SQE)、或其组合的异源表达。本申请描述了用于产生罗汉果醇和罗汉果甙的改进的UGT和CDS酶的鉴别。本申请中所描述的酶和宿主细胞可以用于制备罗汉果醇、罗汉果甙、及其前体。

罗汉果醇和罗汉果甙的合成

图1A-1B示出推定的罗汉果醇合成途径。途径中的早期步骤涉及角鲨烯至2,3-氧化角鲨烯的转变。如图1A中所示，2,3-氧化角鲨烯可以首先被催化为葫芦烷二烯醇，然后环氧化以形成24,25-环氧葫芦烷二烯醇，或者2,3-氧化角鲨烯可以被环氧化为2,3,22,23-二氧化角鲨烯(2,3,22,23-dioxidosqualene)并且然后环化为24,25-环氧葫芦烷二烯醇。接着，24,25-环氧葫芦烷二烯醇可以被转变为罗汉果醇(罗汉果甙的糖苷配基)，随后环氧化物水解然后氧化，或者氧化然后环氧化物水解。如图1B中所示，2,3-氧化角鲨烯可以首先被环化为葫芦烷二烯醇，其然后被细胞色素P450 C11羟化酶转变为11-羟基葫芦烷二烯醇。然后，细胞色素P450 C11羟化酶可以将11-羟基葫芦烷二烯醇转变为11-羟基-24,25-环氧葫芦烷二烯醇。11-羟基-24,25-环氧葫芦烷二烯醇可以被环氧化物酶转变为罗汉果醇。C11羟化酶与细胞色素P450还原酶(未在图1A-1B中示出)协同作用。

通过C3、C11、C24和C25处的氧化可以将罗汉果醇与其他葫芦烷三萜区别开。罗汉果醇的糖基化(例如，C3和/或C24处)导致罗汉果甙的形成。

罗汉果醇前体包含(但不限于)角鲨烯、2-3-氧化角鲨烯、2,3,22,23-二氧化角鲨烯、葫芦烷二烯醇、24,25-环氧葫芦烷二烯醇、11-羟基葫芦烷二烯醇、11-羟基-24,25-环氧葫芦烷二烯醇、11-羟基-葫芦烷二烯醇、11-氧基-葫芦烷二烯醇、和24,25-二羟基葫芦烷二烯醇。术语“二氧化角鲨烯”可以被用于指代2,3,22,23-二环氧角鲨烯或者2,3,22,23-二氧化角鲨烯。术语“2,3-环氧角鲨烯”可以与术语“2-3-氧化角鲨烯”可互换地使用。如本申请中所使用的，罗汉果甙前体包含罗汉果醇前体、罗汉果醇和罗汉果甙。

罗汉果甙的实例包含(但不限于)罗汉果甙I-A1(MIA1)、罗汉果甙IE(MIE)、罗汉果甙II-A1(MIIA1)、罗汉果甙II-A2(MIIA2)、罗汉果甙III-A1(MIIIA1)、罗汉果甙II-E(MIIE)、罗汉果甙III(MIII)、赛门苷I、罗汉果甙IV、罗汉果甙IVa、异罗汉果甙IV、罗汉果甙III-E(MIIIE)、罗汉果甙V、和罗汉果甙VI。在一些实施方案中，产生的罗汉果甙是赛门苷I，其可以被称作Siam。在一些实施方案中，产生的罗汉果甙是MIIIE。

在其他实施方案中，罗汉果甙是式I的化合物：

在一些实施方案中，本申请中所描述的方法可以被用于产生US2019/0071705中所描述的并且通过引用从US2019/0071705并入的任何化合物，包含US2019/0071705中公开的化合物1-20。在一些实施方案中，本申请中所描述的方法可以被用于产生US2019/0071705中所描述的并且通过引用从US2019/0071705并入的任何化合物的变体，包含US2019/0071705中公开的化合物1-20的变体。例如，US2019/0071705中所描述的化合物的变体可以包括用一个或更多个β-葡糖基联接(linkage)取代US2019/0071705中所描述的化合物中的一个或更多个α-葡糖基联接。在一些实施方案中，US2019/0071705中所描述的化合物的变体包括用一个或更多个α-葡糖基联接取代US2019/0071705中所描述的化合物中的一个或更多个β-葡糖基联接。在一些实施方案中，US2019/0071705中所描述的化合物的变体是上文示出的式I的化合物。

葫芦烷二烯醇合成酶(CDS)

本公开的方面提供了葫芦烷二烯醇合成酶(CDS)，其在例如葫芦烷二烯醇化合物(如24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇)的产生中可以是有用的。CDS能够催化由氧化角鲨烯(例如，2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯)形成葫芦烷二烯醇化合物(如24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇)。

在一些实施方案中，CDS酶具有对应于SEQ ID NO:74中的位点123的亮氨酸残基，亮氨酸残基使得CDS酶区别于其他氧化角鲨烯环化酶(如Takase etal.Org.Biomol.Chem.,2015,13,7331-7336中所讨论的，其特此通过引用被整体并入)。

本公开的CDS可以包括与表2中的核酸序列或者氨基酸序列或者与选自SEQ IDNO:1-80的序列至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或者100％(包含其间的所有数值)一致的序列。

在一些实施方案中，CDS酶对应于SEQ ID NO:43、SEQ ID NO:52、或者SEQ ID NO:49。

在一些实施方案中，编码CDS酶的多核苷酸序列可以被重新编码用于在特定的宿主细胞(包含酿酒酵母)中表达。在一些实施方案中，编码CDS酶的经重新编码的多核苷酸序列对应于SEQ ID NO:34。

在一些实施方案中，编码CDS的多核苷酸序列与SEQ ID NO:3、SEQ ID NO:9、或者SEQ ID NO:12至少90％一致。在一些实施方案中，CDS与SEQ ID NO:43、SEQ ID NO:49、或者SEQ ID NO:52至少90％一致。

在一些实施方案中，本公开的CDS能够使用氧化角鲨烯(例如，2,3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯)作为底物。在一些实施方案中，本公开的CDS能够产生葫芦烷二烯醇化合物(例如，24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇)。在一些实施方案中，本公开的CDS催化由氧化角鲨烯(例如，2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯形成葫芦烷二烯醇化合物(例如，24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。

应当理解的是，CDS的活性可以通过本领域普通技术人员已知的任何手段测量。在一些实施方案中，CDS的活性可以被测量为产生的葫芦烷二烯醇的标准化峰面积。在一些实施方案中，以任意单位测量该活性。在一些实施方案中，本公开的CDS的活性(如比活性)比对照CDS的活性大至少1.1倍(例如，至少1.3倍、至少1.5倍、至少1.7倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、或者至少100倍(包含其间的所有数值)。

应当理解的是，本领域普通技术人员将能够基于与蛋白质相关的结构和/或功能信息表征作为CDS酶的蛋白质。例如，在一些实施方案中，基于蛋白质的功能(如使用氧化角鲨烯(例如，2,3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯)作为底物产生葫芦烷二烯醇化合物(例如，24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇)的能力)，蛋白质可以被表征为CDS酶。在一些实施方案中，基于对应于SEQ ID NO:73的位点123的位点处存在亮氨酸残基，蛋白质可以被表征(至少部分地)为CDS酶。

在一些实施方案中，CDS包括基序GX₁WASDLGGP(SEQ ID NO:331)，其中X₁是N或者H。在一些实施方案中，基序GX₁WASDLGGP(SEQ ID NO:331)位于CDS中的对应于SEQ ID NO:73中的位点117-126的残基处。

在一些实施方案中，CDS包括基序DX₁GWL(SEQ ID NO:332)，其中X₁是H或者Q。在一些实施方案中，基序DX₁GWL(SEQ ID NO:332)位于CDS中的对应于SEQ ID NO:73中的位点479-483的残基处。

在一些实施方案中，CDS包括基序CWGVCFTYAGW(SEQ ID NO:333)。在一些实施方案中，基序CWGVCFTYAGW(SEQ ID NO:333)位于CDS中的对应于SEQ ID NO:73中的位点612-622的残基处。

在一些实施方案中，CDS包括基序GHWASDLGGP(SEQ ID NO:334)。在一些实施方案中，基序GHWASDLGGP(SEQ ID NO:334)位于CDS中的对应于SEQ ID NO:73中的位点117-126的残基处。在一些实施方案中，CDS包括基序DQGWL(SEQ ID NO:335)。在一些实施方案中，基序DQGWL(SEQ ID NO:335)位于CDS中的对应于SEQ ID NO:73中的位点479-483的残基处。

在一些实施方案中，CDS包括基序GHWASDLGGP(SEQ ID NO:334)，基序DQGWL(SEQID NO:335)和/或基序CWGVCFTYAGW(SEQ ID NO:333)。

在一些实施方案中，CDS包括对应于SEQ ID NO:73中的位点123的残基处的亮氨酸。在一些实施方案中，CDS包括对应于SEQ ID NO:73中的位点483的残基处的亮氨酸。在一些实施方案中，CDS包括对应于SEQ ID NO:73中的位点612的残基处的半胱氨酸、对应于SEQID NO:73中的位点614的残基处的甘氨酸、对应于SEQ ID NO:73中的位点620的残基处的丙氨酸、和/或对应于SEQ ID NO:73中的位点621的残基处的甘氨酸。在一些实施方案中，CDS包括对应于SEQ ID NO:73中的位点123的残基处的亮氨酸、对应于SEQ ID NO:73中的位点483的残基处的亮氨酸、对应于SEQ ID NO:73中的位点612的残基处的半胱氨酸、对应于SEQID NO:73中的位点614的残基处的甘氨酸、对应于SEQ ID NO:73中的位点620的残基处的丙氨酸、和/或对应于SEQ ID NO:73中的位点621的残基处的甘氨酸。

在一些实施方案中，CDS包括基序GHWANDLGGP(SEQ ID NO:336)。在一些实施方案中，基序GHWANDLGGP(SEQ ID NO:336)位于CDS中的对应于SEQ ID NO:73中的位点117-126的残基处。

在一些实施方案中，CDS包括基序DX₁GWL(SEQ ID NO:332)。在一些实施方案中，基序DX₁GWL(SEQ ID NO:332)位于CDS中的对应于SEQ ID NO:73中的位点479-483的残基处。

在一些实施方案中，CDS包括基序CWGVCYTYAGW(SEQ ID NO:337)。在一些实施方案中，基序CWGVCYTYAGW(SEQ ID NO:337)位于CDS中的对应于SEQ ID NO:73中的位点612-622的残基处。

在一些实施方案中，CDS包括：位于对应于SEQ ID NO:73中的位点117-126的残基处的基序GHWANDLGGP(SEQ ID NO:336)；位于对应于SEQ ID NO:73中的位点479-483的残基处的基序DQGWL(SEQ ID NO:335)；和/或位于对应于SEQ ID NO:73中的位点612-622的残基处的基序CWGVCYTYAGW(SEQ ID NO:337)。

在一些实施方案中，包括编码CDS酶的异源多核苷酸的宿主细胞比不表达异源基因的相同宿主细胞多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的葫芦烷二烯醇化合物。

在一些实施方案中，相对于对照宿主细胞(其中对照宿主细胞表达由对应于SEQID NO:33的多核苷酸编码的罗汉果CDS)，包括编码CDS酶的异源多核苷酸的宿主细胞多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％,或者100％的葫芦烷二烯醇化合物。

贯穿本公开，表达本申请中所描述的任意异源多核苷酸的宿主细胞可以被比作对照宿主细胞。应当理解的是，对照宿主细胞可以具有与表达特定异源多核苷酸序列的宿主细胞相同的遗传背景，除非对照宿主细胞将表达相同的特定异源多核苷酸序列。

在其他实施方案中，基于蛋白质与已知的CDS酶之间的百分比一致性，蛋白质可以被表征为CDS酶。例如，蛋白质可以与本申请中所描述的CDS序列中的任意序列或者与任何其他CDS酶的序列至少10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或者100％(包含其间的所有数值)一致。在其他实施方案中，基于蛋白质中存在与CDS酶相关的一个或更多个域，蛋白质可以被表征为CDS酶。例如，在某些实施方案中，基于本领域中已知的CDS酶特有的底物通道和/或活性位点空穴的存在，蛋白质被表征为CDS酶。在一些实施方案中，活性位点空穴包括作为该通道的入口，帮助从空穴中排除水的残基。在一些实施方案中，活性位点包括作为质子供体以开启底物的环氧化和催化环化过程的残基。

在其他实施方案中，基于蛋白质的三维结构与已知的CDS酶的三维结构的对比，蛋白质可以被表征为CDS酶。应当理解的是，CDS酶可以是合成的蛋白质。

UDP-糖基转移酶(UGT)

本公开的方面提供UDP-糖基转移酶(UGT))，其在例如罗汉果甙(例如，罗汉果甙I-A1(MIA1)、罗汉果甙I-E(MIE)、罗汉果甙II-A1(MIIA1)、罗汉果甙II-A2(MIIA2)、罗汉果甙III-A1(MIIIA1)、罗汉果甙II-E(MIIE)、罗汉果甙III(MIII)、赛门苷I、罗汉果甙III-E(MIIIE)、罗汉果甙IV、罗汉果甙IVa、异罗汉果甙IV、罗汉果甙V、或者罗汉果甙VI)的产生中可以是有用的。

如本申请中所使用的，“UGT”指能够催化从UTP-糖添加糖基至化合物(例如，罗汉果甙或者罗汉果醇)的酶。UGT可以是一级UGT和/或二级UGT。“一级”UGT指能够催化在不包括糖基的化合物上的位点添加糖基的UGT。例如，一级UGT可以能够将糖基添加至类异戊二烯底物(例如，罗汉果醇)的C3和/或C24位点。参见，例如图1C。“二级”UGT指能够催化向已经包括糖基的化合物上的位点添加糖基的UGT。参见，例如图1D。作为非限制性实例，二级UGT可以将糖基添加至罗汉果甙I-A1(MIA1)、罗汉果甙I-E(MIE)、罗汉果甙II-A1(MIIA1)、罗汉果甙II-A2(MIIA2)、罗汉果甙III-A1(MIIIA1)、罗汉果甙II-E(MIIE)、罗汉果甙III(MIII)、赛门苷I、罗汉果甙III-E(MIIIE)、罗汉果甙IV、罗汉果甙IVa、异罗汉果甙IV、罗汉果甙V、和/或罗汉果甙VI。

在结构上，UGT通常包括UDPGT(蛋白质功能位点数据库(Prosite):PS00375)域以及催化二联体。作为非限制性实例，本领域普通技术人员可以通过将UGT序列与UGT94-289-1(来自罗汉果(monk fruit Siraitia grosvenorii)的野生型UGT序列)进行比对并且鉴别UGT中的对应于UGT94-289-1的组氨酸21(H21)和天门冬氨酸122(D122)的两个残基来鉴别UGT中的催化二联体。

UGT94-289-1的氨基酸序列为：

MDAQRGHTTTILMFPWLGYGHLSAFLELAKSLSRRNFHIYFCSTSVNLDAIKPKLPSSSSSDSIQLVELCLPSSPDQLPPHLHTTNALPPHLMPTLHQAFSMAAQHFAAILHTLAPHLLIYDSFQPWAPQLASSLNIPAINFNTTGASVLTRMLHATHYPSSKFPISEFVLHDYWKAMYSAAGGAVTKKDHKIGETLANCLHASCSVILINSFRELEEKYMDYLSVLLNKKVVPVGPLVYEPNQDGEDEGYSSIKNWLDKKEPSSTVFVSFGSEYFPSKEEMEEIAHGLEASEVHFIWVVRFPQGDNTSAIEDALPKGFLERVGERGMVVKGWAPQAKILKHWSTGGFVSHCGWNSVMESMMFGVPIIGVPMHLDQPFNAGLAEEAGVGVEAKRDPDGKIQRDEVAKLIKEVVVEKTREDVRKKAREMSEILRSKGEEKMDEMVAAISLFLKI(SEQ ID NO:109)。

编码UGT94-289-1的核酸序列的非限制性实例为：

atggacgcgcaacgcggacatacgactaccatcctgatgtttccgtggttggggtacggccaccttagtgcattcctcgaattagccaagagcttgtcgcgtaggaactttcatatttatttctgttccacatctgtcaatttagatgctataaaacccaaactaccatcatcttcaagttccgattctattcagcttgtagagttatgcttgccttcctcgccagaccaactacccccacacctgcatacaactaatgctctacctccacatctaatgcctaccctgcaccaggccttttcaatggcagctcaacattttgcagctatattacatactttagcaccgcacttgttaatctatgattcgttccagccttgggcgccacaattggccagctctcttaacattcctgctattaattttaataccacgggtgccagtgtgctaacaagaatgttacacgcgactcattacccatcttcaaagttcccaatctccgaatttgttttacatgattattggaaagcaatgtattcagcagctggtggtgctgttacaaaaaaggaccataaaataggagaaaccttggcaaactgtttacacgcttcttgctcggtaattctgatcaattcattcagagagttggaagaaaaatacatggattacttgtctgtcttactaaacaagaaagttgtgcccgtgggtccgcttgtttatgagccaaaccaagatggcgaagacgaaggttatagttcgataaagaattggctcgataaaaaggagccctcctcaactgtctttgtttccttcgggtccgaatattttccgtccaaagaagaaatggaagaaattgcccatggcttggaggctagcgaggtacactttatttgggtcgttagattcccacaaggagacaatacttctgcaattgaagatgcccttcctaagggttttcttgagcgagtgggcgaacgtggaatggtggttaagggttgggctcctcaggccaaaattttgaaacattggagcacaggcggtttcgtaagtcattgtggatggaatagtgttatggagagcatgatgtttggtgtacccataataggtgttccgatgcatttagatcaaccatttaatgcagggctcgcggaagaagcaggagtaggggtagaggctaaaagggaccctgatggtaagatacagagagatgaagtcgctaaactgatcaaagaagtggttgtcgaaaaaacgcgcgaagatgtcagaaagaaggctagggaaatgtctgaaattttacgttcgaaaggtgaggaaaagatggacgagatggttgcagccattagtctcttcttgaagatataa(SEQ ID NO:93)。

本领域普通技术人员将能够认识到，如何通过例如比对序列和/或通过比较二级或三级结构来确定任意UGT酶中的哪个氨基酸残基对应于UGT94-289-1(SEQ ID NO:109)中的特定氨基酸残基。

在某些实施方案中，本公开的UGT包括对应于野生型UGT94-289-1中的结构基序(例如，对应于表5中示出的结构基序)的一个或更多个结构基序。在一些实施方案中，UGT包括对应于表5中的全部结构基序的结构基序。在一些实施方案中，UGT包括对应于表5中的一些(而非全部的)结构基序的结构基序。在一些实施方案中，一些结构基序通过具有不同的长度或不同的螺旋性而不同。例如，本公开的UGT可以包括UGT94-289-1中的环11、环16、环20、或其组合的延长形式。本公开的UGT可以包括具有比其在UGT94-289-1中的对应物(例如，UGT94-289-1中的环11、环16、环20、或其组合)的螺旋性更大的螺旋性的环。

在一些实施方案中，UGT是参考UGT的循环重排的形式。在一些实施方案中，UGT包括以不同于参考UGT的顺序包含来自表5的至少两个基序的序列。例如，如果UGT94-289-1被用作参考UGT，并且包括位于第二基序的C-末端的第一基序，则第一基序可以位于循环重排的UGT中的第二基序的N-末端。

UGT可以包括一个或更多个基序，所述一个或更多个基序对应于选自来自表5的环1、β折叠1、环2、α螺旋1、环3、β折叠2、环4、α螺旋2、环5、β折叠3、环6、α螺旋3、环7、β折叠4、环8、α螺旋4、环9、β折叠5、环10、α螺旋5、环11、α螺旋6、环12、α螺旋7、环13、β折叠6、环14、α螺旋8、和环15的一个或更多个基序，位于对应于选自表5中的β折叠7、环16、α螺旋9、环17、β折叠8、环18、α螺旋10、环19、β折叠9、α螺旋11、环20、α螺旋12、环21、β折叠10、环22、α螺旋13、环23、β折叠11、环24、α螺旋14、环25、β折叠12、环26、α螺旋15、环27、β折叠13、环28、α螺旋16、环29、α螺旋17、环30、α螺旋18、和环31的一个或更多个基序的一个或更多个基序的C-末端。

在一些实施方案中，UGT的N-末端部分包括催化位点，包含催化二联体、和/或底物-结合位点。在一些实施方案中，UGT的C-末端部分包括辅因子-结合位点。例如，UGT94-289-1的N-末端部分包括对应于野生型UGT94-289-1的残基21和残基122(例如，组氨酸21和天门冬氨酸122)的催化二联体。UGT94-289-1的C-末端部分包括辅因子-结合位点。

公开的方面包含已经循环重排的UGT。在一些实施方案中，在UGT的循环重排的形式中，N-末端部分和C-末端部分可以整体地或部分地颠倒。例如，循环重排的UGT的C-末端部分可以包括催化位点，包含催化二联体、和/或底物-结合位点，而N-末端部分可以包括辅因子-结合位点。

在一些实施方案中，UGT的循环重排的形式包括编码UGT的异源多核苷酸，其中UGT包括：催化二联体和辅因子结合位点，其中催化二联体位于辅因子-结合位点的C-末端。

本公开涵盖的循环重排的UGT可以展现出与尚未经历循环重排的相同UGT不同的特性。在一些实施方案中，相对于包括编码未循环重排的参考UGT(如，野生型UGT94-289-1(SEQ ID NO:109))的异源多核苷酸的宿主细胞，表达UGT的这样的循环重排形式的宿主细胞在存在至少一种罗汉果甙前体的情况下，多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。在一些实施方案中，相对于包括编码未循环重排的参考UGT(如，野生型UGT94-289-1(SEQ ID NO:109))的异源多核苷酸的宿主细胞，表达UGT的这样的循环重排形式的宿主细胞在存在至少一种罗汉果甙前体的情况下，少产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

在一些实施方案中，在UGT的循环重排的形式中，UGT的N-末端部分包括通常存在于UGT(如UGT94-289-1)的C-末端部分中的残基。在一些实施方案中，在UGT的循环重排的形式中，UGT的C-末端部分包括通常存在于UGT(如UGT94-289-1)的N-末端部分中的残基。

在一些实施方案中,UGT(如UGT94-289-1)的N-末端部分大致对应于UGT(如UGT94-289-1(SEQ ID NO:109))的残基2-122、残基2-123、残基2-124、残基2-125、残基2-126、残基2-127、残基2-128、残基2-129、残基2-130、残基2-131、残基2-132、残基2-133、残基2-134、残基2-135、残基2-136、残基2-137、残基2-138、残基2-139、残基2-140、残基2-141、残基2-142、残基2-143、残基2-144、残基2-145、残基2-146、残基2-147、残基2-148、残基2-149、残基2-150、残基2-151、残基2-152、残基2-153、残基2-154、残基2-155、残基2-156、残基2-157、残基2-158、残基2-159、残基2-160、残基2-161、残基2-162、残基2-163、残基2-164、残基2-165、残基2-166、残基2-167、残基2-168、残基2-169、残基2-170、残基2-171、残基2-172、残基2-173、残基2-174、残基2-175、残基2-176、残基2-177、残基2-178、残基2-179、残基2-180、残基2-181、残基2-182、残基2-183、残基2-184、残基2-185、残基2-186、残基2-187、残基2-188、残基2-189、残基2-190、残基2-191、残基2-192、残基2-193、残基2-194、残基2-195、残基2-196、残基2-197、残基2-198、残基2-199、残基2-200、残基2-201、残基2-202、残基2-203、残基2-204、残基2-205、残基2-206、残基2-207、残基2-208、残基2-209、残基2-210、残基2-211、残基2-212、残基2-213、残基2-214、残基2-215、残基2-216、残基2-217、残基2-218、残基2-219、残基2-220、残基2-221、残基2-222、残基2-223、残基2-224、残基2-225、残基2-226、残基2-227、残基2-228、残基2-229、残基2-230、残基2-231、残基2-232、残基2-233、残基2-234、残基2-235、残基2-236、残基2-237、残基2-238、残基2-239、残基2-240、残基2-241、残基2-242、残基2-243、残基2-244、残基2-245、残基2-246、残基2-247、残基2-248、残基2-249、残基2-250、残基2-251、或残基2-252、或者另外的UGT中的对应的残基。

在一些实施方案中，UGT(如UGT94-289-1)的C-末端域大致对应于UGT(如UGT94-289-1(SEQ ID NO:109))的残基123-456、残基124-456、残基125-456、残基126-456、残基127-456、残基128-456、残基129-456、残基130-456、残基131-456、残基132-456、残基133-456、残基134-456、残基135-456、残基136-456、残基137-456、残基138-456、残基139-456、残基140-456、残基141-456、残基142-456、残基143-456、残基144-456、残基145-456、残基146-456、残基147-456、残基148-456、残基149-456、残基150-456、残基151-456、残基152-456、残基153-456、残基154-456、残基155-456、残基156-456、残基157-456、残基158-456、残基159-456、残基160-456、残基161-456、残基162-456、残基163-456、残基164-456、残基165-456、残基166-456、残基167-456、残基168-456、残基169-456、残基170-456、残基171-456、残基172-456、残基173-456、残基174-456、残基175-456、残基176-456、残基177-456、残基178-456、残基179-456、残基180-456、残基181-456、残基182-456、残基183-456、残基184-456、残基185-456、残基186-456、残基187-456、残基188-456、残基189-456、残基190-456、残基191-456、残基192-456、残基193-456、残基194-456、残基195-456、残基196-456、残基197-456、残基198-456、残基199-456、残基200-456、残基201-456、残基202-456、残基203-456、残基204-456、残基205-456、残基206-456、残基207-456、残基208-456、残基209-456、残基210-456、残基211-456、残基212-456、残基213-456、残基214-456、残基215-456、残基216-456、残基217-456、残基218-456、残基219-456、残基220-456、残基221-456、残基222-456、残基223-456、残基224-456、残基225-456、残基226-456、残基227-456、残基228-456、残基229-456、残基230-456、残基231-456、残基232-456、残基233-456、残基234-456、残基235-456、残基236-456、残基237-456、残基238-456、残基239-456、残基240-456、残基241-456、残基242-456、残基243-456、残基244-456、残基245-456、残基246-456、残基247-456、残基248-456、残基249-456、残基250-456、或残基251-456或者另外的UGT中的对应的残基。

在一些实施方案中，本公开的UGT包括与表3、表6或表7中的序列、或者与选自SEQID NO:207-242、SEQ ID NO:243-316、SEQ ID NO:225-242、SEQ ID NO:280-316、SEQ IDNO:317-322、SEQ ID NO:323-328、或SEQ ID NO:330的序列、或者与本申请中公开的任意UGT至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或者100％(包含其间的全部数值)一致的序列(例如，核酸序列或者氨基酸序列)。

在一些实施方案中，本公开的UGT可以包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的氨基酸残基。例如，含有置换的氨基酸残基可以是对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自例如S123；F124；N143；T144；T145；V149；Y179；G18；S180；A181；G184；A185；V186；T187；K189；Y19；H191；K192；G194；E195；A198；F276；N355；H373；L374；N47；H83；T84；T85；N86；P89；和/或L92中的氨基酸残基的氨基酸。这样的氨基酸置换的非限制性实例包含下列置换：S123可以被突变为丙氨酸、半胱氨酸、甘氨酸或缬氨酸、或者被突变为丙氨酸、半胱氨酸、甘氨酸或缬氨酸的任何保守置换；F124可以被突变为酪氨酸或者突变为酪氨酸的任何保守置换；N143可以被突变为丙氨酸、半胱氨酸、谷氨酸、异亮氨酸、亮氨酸、甲硫氨酸、谷氨酰胺、丝氨酸、苏氨酸或缬氨酸、或者被突变为丙氨酸、半胱氨酸、谷氨酸、异亮氨酸、亮氨酸、甲硫氨酸、谷氨酰胺、丝氨酸、苏氨酸或缬氨酸的任何保守置换；T144可以被突变为丙氨酸、半胱氨酸、天门冬酰胺或脯氨酸、或者被突变为丙氨酸、半胱氨酸、天门冬酰胺或脯氨酸的任何保守置换；T145可以被突变为丙氨酸、半胱氨酸、甘氨酸、甲硫氨酸、天门冬酰胺、谷氨酰胺、或丝氨酸、或者被突变为丙氨酸、半胱氨酸、甘氨酸、甲硫氨酸、天门冬酰胺、谷氨酰胺、或丝氨酸的任何保守置换；V149可以被突变为半胱氨酸、亮氨酸或甲硫氨酸、或者被突变为半胱氨酸、亮氨酸或甲硫氨酸的任何保守置换；Y179可以被突变为谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、缬氨酸、或色氨酸、或者被突变为谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、缬氨酸、或色氨酸的任何保守置换；G18可以被突变为丝氨酸或者被突变为丝氨酸的任何保守置换；S180可以被突变为丙氨酸或缬氨酸、或者被突变为丙氨酸或缬氨酸的任何保守置换；A181可以被突变为赖氨酸或苏氨酸、或者被突变为赖氨酸或苏氨酸的任何保守置换；G184可以被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、或酪氨酸的任何保守置换；A185可以被突变为半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、苏氨酸、色氨酸或酪氨酸、或者被突变为半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、苏氨酸、色氨酸或酪氨酸的任何保守置换；V186可以被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、苏氨酸、色氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、苏氨酸、色氨酸、或酪氨酸的任何保守置换；T187可以被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、天门冬酰胺、脯氨酸、精氨酸、丝氨酸、缬氨酸、色氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、天门冬酰胺、脯氨酸、精氨酸、丝氨酸、缬氨酸、色氨酸、或酪氨酸的任何保守置换；K189可以被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、甲硫氨酸、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、甲硫氨酸、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸的任何保守置换；Y19可以被突变为苯基丙氨酸、组氨酸、亮氨酸、或缬氨酸、或者被突变为苯基丙氨酸、组氨酸、亮氨酸、或缬氨酸的任何保守置换；H191可以被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、赖氨酸、甲硫氨酸、脯氨酸、谷氨酰胺、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、天门冬氨酸、谷氨酸、甘氨酸、赖氨酸、甲硫氨酸、脯氨酸、谷氨酰胺、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸的任何保守置换；K192可以被突变为半胱氨酸或苯基丙氨酸、或者被突变为半胱氨酸或苯基丙氨酸的任何保守置换；G194可以被突变为天门冬氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、丝氨酸、或色氨酸、或者被突变为天门冬氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、丝氨酸、或色氨酸的任何保守置换；E195可以被突变为丙氨酸、异亮氨酸、赖氨酸、亮氨酸、天门冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、或酪氨酸、或者被突变为丙氨酸、异亮氨酸、赖氨酸、亮氨酸、天门冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、或酪氨酸的任何保守置换；A198可以被突变为半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、或酪氨酸、或者被突变为半胱氨酸、天门冬氨酸、谷氨酸、苯基丙氨酸、组氨酸、异亮氨酸、赖氨酸、亮氨酸、甲硫氨酸、天门冬酰胺、脯氨酸、谷氨酰胺、精氨酸、丝氨酸、苏氨酸、缬氨酸、或酪氨酸的任何保守置换；F276可以被突变为半胱氨酸或谷氨酰胺、或者被突变为半胱氨酸或谷氨酰胺的任何保守置换；N355可以被突变为谷氨酰胺或丝氨酸、或其任何保守置换；H373可以被突变为赖氨酸、亮氨酸、甲硫氨酸、精氨酸、缬氨酸、或酪氨酸、或者被突变为赖氨酸、亮氨酸、甲硫氨酸、精氨酸、缬氨酸、或酪氨酸的任何保守置换；L374可以被突变为丙氨酸、半胱氨酸、苯基丙氨酸、组氨酸、甲硫氨酸、天门冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、苯基丙氨酸、组氨酸、甲硫氨酸、天门冬酰胺、谷氨酰胺、丝氨酸、苏氨酸、缬氨酸、色氨酸、或酪氨酸的任何保守置换；N47可以被突变为甘氨酸或者被突变为甘氨酸的任何保守置换；H83可以被突变为谷氨酰胺或色氨酸、或者被突变为谷氨酰胺或色氨酸的任何保守置换；T84可以被突变为酪氨酸或者被突变为酪氨酸的任何保守置换；T85可以被突变为甘氨酸、赖氨酸、脯氨酸、丝氨酸、或酪氨酸、或者被突变为甘氨酸、赖氨酸、脯氨酸、丝氨酸、或酪氨酸的任何保守置换；N86可以被突变为丙氨酸、半胱氨酸、谷氨酸、异亮氨酸、赖氨酸、亮氨酸、丝氨酸、色氨酸、或酪氨酸、或者被突变为丙氨酸、半胱氨酸、谷氨酸、异亮氨酸、赖氨酸、亮氨酸、丝氨酸、色氨酸、或酪氨酸的任何保守置换；P89可以被突变为甲硫氨酸或丝氨酸、或者被突变为甲硫氨酸或丝氨酸的任何保守置换；和/或L92可以被突变为组氨酸或赖氨酸、或者被突变为组氨酸或赖氨酸的任何保守置换。

本领域普通技术人员将能够认识到如何通过例如比对序列和/或通过比较二级结构确定任意UGT酶的哪个氨基酸残基对应于UGT94-289-1(SEQ ID NO:109)中的特定氨基酸残基。作为非限制性实例，图9中提供了UGT94-289-1(SEQ ID NO:109)和U73C6(SEQ ID NO:103)之间的序列比对(例如，使用Clustal Omega进行序列比对，参见例如Larkin et al.,Bioinformatics.2007Nov 1；23(21):2947-8))。例如，在图9中，U73C6(SEQ ID NO:103)中的对应于UGT94-289-1(SEQ ID NO:109)中的位点123的残基是甲硫氨酸(M)。作为另外的非限制性实例，U73C6(SEQ ID NO:103)中的对应于UGT94-289-1(SEQ ID NO:109)中的位点143的残基是组氨酸(H)(图9)。作为另外的非限制性实例，U73C6(SEQ ID NO:103)中的对应于UGT94-289-1(SEQ ID NO:109)中的位点273的残基是苯基丙氨酸(F)(图9)。

在一些实施方案中，UGT包括氨基酸置换，该氨基酸置换对应于表4中列出的UGT94-289-1中的氨基酸置换。

本公开的UGT可以包括保守氨基酸置换和/或非保守氨基酸置换。在一些实施方案中，本公开的UGT包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或者10个以上的保守氨基酸置换。在一些实施方案中，本公开的UGT包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或者10个以上的非保守氨基酸置换。在一些实施方案中，保守或者非保守氨基酸置换不位于UGT蛋白的保守区中。在一些实施方案中，保守或者非保守氨基酸置换不位于对应于野生型UGT94-289-1的残基83至92；残基179至198；残基N143；残基L374；残基H21；或残基D122的区。本领域普通技术人员将能够测试包括保守和/或非保守置换的UGT，以确定保守和/或非保守置换是否影响UGT的活性或者功能。

在一些实施方案中，UGT酶含有位于催化二联体的10埃、9埃、8埃、7埃、6埃、5埃、4埃、3埃、2埃内、或者1埃内(包含其间的所有数值)的氨基酸置换。催化二联体可以对应于野生型UGT94-289-1的残基21和残基122(例如，组氨酸21和天门冬氨酸122)。应当理解的是，本领域普通技术人员将能够认识到，如何通过例如与UGT94-289-1(SEQ ID NO:109)比对序列和/或通过与UGT94-289-1(SEQ ID NO:109)比较二级结构来确定任意UGT酶中催化二联体的对应位置。

在一些实施方案中，UGT酶含有位于UGT的一个或更多个结构基序中的氨基酸残基处的氨基酸置换。UGT(如UGT94-289-1(SEQ ID NO:109))中的二级结构的非限制性实例包含：β折叠4与α螺旋5之间的环；β折叠5；β折叠5和α螺旋6之间的环；α螺旋6；α螺旋6和α螺旋7之间的环；β折叠1和α螺旋1之间的环；α螺旋7；α螺旋7和α螺旋8之间的环；α螺旋1；α螺旋8；β折叠8和α螺旋13之间的环；α螺旋17；β折叠12和α螺旋18之间的环；α螺旋2；β折叠3和α螺旋3之间的环；α螺旋3；以及α螺旋3和α螺旋4之间的环；环8；β折叠5；环10；α螺旋5；环11；环2；α螺旋6；环12；α螺旋1；α螺旋7；环18；α螺旋14；环26；α螺旋2；环6；和α螺旋3。

在一些实施方案中，位于环8中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的S123或F124的残基；位于β折叠5中的氨基酸残基是对应于UGT94-289-1(SEQ IDNO:109)中的N143的残基；位于环10中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的T144或T145的残基；位于α螺旋5中氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的V149的残基；位于环11中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的Y179残基；位于环2中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的G18的残基；位于α螺旋6中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的S180或A181的残基；位于环12中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的G184、A185、V186、T187、或K189的残基；位于α螺旋1中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的Y19的残基；位于α螺旋7中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的H191、K192、G194、E195、或A198的残基；位于环18中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的F276的残基；位于α螺旋14中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的N355的残基；位于环26中的氨基酸残基是对应于UGT94-289-1(SEQID NO:109)中的H373或L374的残基；位于α螺旋2中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的N47的残基；位于环6中的氨基酸残基是对应于UGT94-289-1(SEQ IDNO:109)中的H83、T84、T85或N86的残基；和/或位于α螺旋3中的氨基酸残基是对应于UGT94-289-1(SEQ ID NO:109)中的P89或L92的残基。

在一些实施方案中，UGT包括对应于UGT94-289-1(SEQ ID NO:109)的残基83至92、残基179至189、残基1至82、残基93至142、残基144至178、残基199至373、或残基375至453的区中的氨基酸置换(例如，至少1、2、3、4、5、6、7、或8个置换)。在一些实施方案中，UGT包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自N143和L374的氨基酸残基。在一些实施方案中，对应于N143的残基被突变为带负电的R基团、极性不带电的R基团、或者非极性脂肪族R基团。在一些实施方案中，对应于L374的残基被突变为非极性脂肪族R基团、带正电的R基团、极性不带电的R基团、或者非极性芳香族R基团。在一些实施方案中，UGT包括与UGT94-289-1的残基83至92至少90％一致或者与UGT94-289-1的残基179至198至少95％一致的区。UGT可以包括与UGT94-289-1的残基83至92至少70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或至少99％一致、或者100％一致的区。UGT可以包括与UGT94-289-1(SEQ ID NO:109)的残基179至198至少70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或至少99％一致、或者100％一致的区。

在一些实施方案中，宿主细胞包括编码UGT的异源多核苷酸，其中UGT包括下列区：对应于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的区，其中该区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的氨基酸置换；和/或对应于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的区，其中该区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的氨基酸置换。应当理解的是，语言“氨基酸置换”不限于一个氨基酸置换，还涵盖包含一个以上的氨基酸置换的实施方案。在一些实施方案中，宿主细胞包括编码UGT的异源多核苷酸，其中UGT包括对应于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的区，其中该区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的不多于一个的氨基酸置换；和/或对应于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的区，其中该区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的不多于一个的氨基酸置换。

在一些实施方案中，UGT包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自下列的氨基酸残基：H83、T84、T85、N86、P89、L92、Y179、S180、A181、G184、A185、V186、T187、K189、H191、K192、G194、E195、或者A198。

在一些实施方案中，对应于H83的残基被突变为包括极性不带电的R基团或非极性芳香族R基团的氨基酸；对应于T84的残基被突变为包括非极性芳香族R基团的氨基酸；对应于T85的残基被突变为包括非极性脂肪族R基团、带正电的R基团、极性不带电的R基团、或非极性芳香族R基团的氨基酸；对应于N86的残基被突变为包括非极性脂肪族R基团、极性不带电的R基团、带负电的R基团、带正电的R基团、或非极性芳香族R基团的氨基酸；对应于P89的残基被突变为包括非极性脂肪族R基团、或极性不带电的R基团的氨基酸；对应于L92的残基被突变为包括带正电的R基团的氨基酸；对应于Y179的残基被突变为包括带负电的R基团、非极性芳香族R基团、带正电的R基团、或非极性脂肪族R基团的氨基酸；对应于S180的残基被突变为包括非极性脂肪族R基团的氨基酸；对应于A181的残基被突变为包括带正电的R基团或极性不带电的R基团的氨基酸；对应于G184的残基被突变为包括非极性脂肪族R基团、极性不带电的R基团、带负电的R基团、非极性芳香族R基团、或带正电的R基团的氨基酸；对应于A185的残基被突变为包括极性不带电的R基团、带负电的R基团、非极性脂肪族R基团、带正电的R基团、或非极性芳香族R基团的氨基酸；对应于V186的残基被突变为包括非极性脂肪族R基团、极性不带电的R基团、带负电的R基团、带正电的R基团、或非极性芳香族R基团的氨基酸；对应于T187的残基被突变为包括非极性脂肪族R基团、极性不带电的R基团、带负电的R基团、带正电的R基团、或非极性芳香族R基团的氨基酸；对应于K189的残基被突变为包括非极性脂肪族R基团,、极性不带电的R基团、带负电的R基团、非极性芳香族R基团、或带正电的R基团的氨基酸；对应于H191的残基被突变为包括非极性脂肪族R基团、极性不带电的R基团、带负电的R基团、带正电的R基团、或非极性芳香族R基团的氨基酸；对应于K192的残基被突变为包括极性不带电的R基团或非极性芳香族R基团的氨基酸；对应于G194的残基被突变为包括带负电的R基团、非极性脂肪族R基团、极性不带电的R、或非极性芳香族R基团的氨基酸；对应于E195的残基被突变为包括非极性脂肪族R基团、带正电的R基团、极性不带电的R基团、或非极性芳香族R基团的氨基酸；和/或对应于A198的残基被突变为包括极性不带电的R基团、带负电的R基团、非极性芳香族R基团、带正电的R、或非极性脂肪族R基团的氨基酸。

在一些实施方案中，UGT包括氨基酸残基处的氨基酸置换，氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自N143和L374的氨基酸残基。在一些实施方案中，对应于N143的残基被突变为带负电的R基团、极性不带电的R基团、或者非极性脂肪族R基团。在一些实施方案中，对应于L374的残基被突变为非极性脂肪族R基团、带正电的R基团、极性不带电的R基团、或非极性芳香族R基团。

本公开的UGT可以能够在任何含氧位点(例如，C3、C11、C24、和C25处)糖基化罗汉果醇或罗汉果甙。在一些实施方案中，UGT能够支化糖基化(例如，C3或C24处罗汉果甙的支化糖基化)。

适用于本公开的UGT的底物的非限制性实例包含罗汉果醇和罗汉果甙(例如，罗汉果甙IA1(MIA1)、罗汉果甙IE(MIE)、罗汉果甙II-A1(MIIA1)、罗汉果甙III-A1(MIIIA1)、罗汉果甙II-E(MIIE)、罗汉果甙III(MIII)、或者罗汉果甙III-E(MIIIE)、赛门苷I)。

在一些实施方案中，本公开的UGT能够产生罗汉果甙IA1(MIA1)、罗汉果甙IE(MIE)、罗汉果甙II-A1(MIIA1)、罗汉果甙II-A2(MIIA2)、罗汉果甙III-A1(MIIIA1)、罗汉果甙II-E(MIIE)、罗汉果甙III(MIII)、赛门苷I、罗汉果甙III-E(MIIIE)、罗汉果甙IV、罗汉果甙IVa、异罗汉果甙IV、和/或罗汉果甙V。

在一些实施方案中，UGT能够催化下列转变：罗汉果醇至MIA1的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIE的转变；和/或MIIIE至赛门苷I的转变。

应当理解的是，UGT的活性(如比活性)可以通过本领域普通技术人员已知的任何手段测量。在一些实施方案中，UGT(例如，变体UGT)的活性(如比活性)可以通过测量每单位时间每单位的酶产生的经糖基化的罗汉果甙的量被确定。例如，活性(如比活性)可以以每小时每克的酶产生的经糖基化的罗汉果甙目标被测量。测量活性(例如，比活性)的方法的非限制性实例在下文实施例中被提供。在一些实施方案中，本公开的UGT(例如，变体UGT)可以具有每小时每克的酶产生至少0.1mmol(例如，至少1mmol、至少1.5mmol、至少2mmol、至少2.5mmol、至少3、至少3.5mmol、至少4mmol、至少4.5mmol、至少5mmol、至少10mmol、包含其间的所有数值)经糖基化的罗汉果甙目标的活性(如比活性)。

在一些实施方案中，本公开的UGT的活性(如比活性)比对照UGT的活性大至少1.1倍(例如，至少1.3倍、至少1.5倍、至少1.7倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、或者至少100倍(包含其间的所有数值)。在一些实施方案中，对照UGT是UGT94-289-1(SEQ ID NO:109)。在一些实施方案中，对于具有氨基酸置换的UGT，对照UGT是不具有氨基酸置换的相同的UGT。

应当理解的是，本领域普通技术人员将能够基于与蛋白质相关的结构和/或功能信息将蛋白质表征为UGT酶。例如，基于蛋白质的功能(如在存在罗汉果甙前体(如罗汉果醇)的情况下产生一种或更多种罗汉果甙的能力)，蛋白质可以被表征为UGT酶。

在其他实施方案中，基于蛋白质与已知的UGT酶之间的百分比一致性，蛋白质可以被表征为UGT酶。例如，蛋白质可以与本申请中所描述的UGT序列中的任意序列或者与任何其他UGT酶的序列至少10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、或者100％(包含其间的所有数值)一致。在其他实施方案中，基于蛋白质中存在与UGT酶相关的一个或更多个域，蛋白质可以被表征为UGT酶。例如，在某些实施方案中，基于本领域中已知的UGT酶特有的糖结合域和/或催化域的存在，蛋白质被表征为UGT酶。在某些实施方案中，催化域结合待被糖基化的底物。

在其他实施方案中，基于蛋白质的三维结构与已知的UGT酶的三维结构的对比，蛋白质可以被表征为UGT酶。例如，基于α螺旋域、β折叠域等的数量或位置，蛋白质可以被表征为UGT。应当理解的是，UGT酶可以是合成的蛋白质。

在一些实施方案中，UGT不包括SEQ ID NO:109的序列。在一些实施方案中，UGT包括与SEQ ID NO:109小于95％、小于94％、小于93％、小于92％、小于91％、小于90％、小于89％、小于88％、小于87％、小于86％、小于85％、小于84％、小于83％、小于82％、小于81％、小于80％、小于79％、小于78％、小于77％、小于76％、小于75％、小于74％、小于73％、小于72％、小于71％、或小于70％的一致性。

C11羟化酶

本公开的方面提供C11羟化酶，其在例如罗汉果醇的产生中可以是有用的。

本公开的C11羟化酶可以包括与表8中的C11羟化酶序列(例如，核酸序列或氨基酸序列)、与如SEQ ID NO:113、SEQ ID NO:114、SEQ ID NO:129、或SEQ ID NO:130所列出的序列、或者与本申请中公开或者本领域已知的任意C11羟化酶序列至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少100％(包含其间的所有数值)一致的序列。

在一些实施方案中，本公开的C11羟化酶能够氧化罗汉果醇前体(例如，葫芦烷二烯醇、11-羟基葫芦烷二烯醇、24,25-二羟基-葫芦烷二烯醇、和/或24,25-环氧-葫芦烷二烯醇)。在一些实施方案中，本公开的C11羟化酶催化罗汉果醇的形成。

应当理解的是，C11羟化酶的活性(如比活性)可以通过本领域普通技术人员已知的任何手段确定。在一些实施方案中，C11羟化酶的活性(例如，比活性)可以被测量为每单位时间每单位的酶产生的罗汉果醇前体或者产生的罗汉果醇的浓度。在一些实施方案中，本公开的C11羟化酶具有至少0.0001-0.001μmol/min/mg、至少0.001-0.01μmol/min/mg、至少0.01-0.1μmol/min/mg、或至少0.1-1μmol/min/mg(包含其间的所有数值)的活性(例如，比活性)。

在一些实施方案中，C11羟化酶的活性(如比活性)比对照C11羟化酶的活性大至少1.1倍(例如，至少1.3倍、至少1.5倍、至少1.7倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、至少100倍、至少1000倍或至少10000倍(包含其间的所有数值))。

细胞色素P450还原酶

本公开的方面提供细胞色素P450还原酶，其在例如罗汉果醇的产生中可以是有用的。细胞色素P450还原酶也可以指NADPH:高铁血红蛋白氧化还原酶、NADPH:血红素蛋白氧化还原酶、NADPH:P450氧化还原酶、P450还原酶、POR、CPR、和CYPOR。这些还原酶可以通过催化从NADPH到C11羟化酶的电子转移促进C11羟化酶活性。

本公开的细胞色素P450还原酶可以包括与表8中的细胞色素P450还原酶序列(例如，核酸序列或氨基酸序列)、与如SEQ ID NO:115、SEQ ID NO:116、SEQ ID NO:131、或SEQID NO:132所列出的序列、或者与本申请中公开或者本领域已知的任意细胞色素p450还原酶至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少100％(包含其间的所有数值)一致的序列。

在一些实施方案中，本公开的细胞色素P450还原酶能够促进罗汉果醇前体(例如葫芦烷二烯醇、11-羟基葫芦烷二烯醇、24,25-二羟基-葫芦烷二烯醇、和/或24,25-环氧-葫芦烷二烯醇)的氧化。在一些实施方案中，本公开的P450还原酶催化罗汉果醇前体或罗汉果醇的形成。

应当理解的是，细胞色素P450还原酶的活性(例如，比活性)可以通过本领域普通技术人员已知的任何手段测量。在一些实施方案中重组细胞色素P450还原酶的活性(例如，比活性)可以被测量为在存在C11羟化酶的情况下，每单位时间每单位的酶产生的罗汉果醇前体或产生的罗汉果醇的浓度。在一些实施方案中，本公开的细胞色素P450还原酶具有至少0.0001-0.001μmol/min/mg、至少0.001-0.01μmol/min/mg、至少0.01-0.1μmol/min/mg、或至少0.1-1μmol/min/mg(包含其间的所有数值)的活性(例如，比活性)。

在一些实施方案中，细胞色素P450还原酶的活性(例如，比活性)比对照细胞色素P450还原酶的活性大至少1.1倍(例如，至少1.3倍、至少1.5倍、至少1.7倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、至少100倍、至少1000倍或至少10000倍(包含其间的所有数值))。

环氧化物酶(EPH)

本公开的方面提供环氧化物酶(EPH)，其在例如24-25环氧-葫芦烷二烯醇至24-25二羟基-葫芦烷二烯醇的转变中或者11-羟基-24,25-环氧葫芦烷二烯醇至罗汉果醇的转变中可以是有用的。EPH能够将环氧化物转变为两个羟基。

本公开的EPH可以包括与表8中的EPH序列(例如，核酸序列或氨基酸序列)、与如SEQ ID NO:117-125或SEQ ID NO:133-141所列出的序列、或者与本申请公开或本领域已知的任意EPH序列至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少100％(包含其间的所有数值)一致的序列。

在一些实施方案中，本公开的重组EPH能够促进葫芦烷二烯醇化合物中的环氧化物的水解(例如，24-25环氧-葫芦烷二烯醇中的环氧化物的水解)。在一些实施方案中，本公开的EPH催化罗汉果醇前体(例如，24-25二羟基-葫芦烷二烯醇)的形成。

应当理解的是，EPH的活性(例如，比活性)可以通过本领域普通技术人员已知的任何手段测量。在一些实施方案中，EPH的活性(例如，比活性)可以被测量为产生的罗汉果醇前体(例如，24-25二羟基-葫芦烷二烯醇)或罗汉果醇的浓度。在一些实施方案中，本公开的重组EPH将允许至少1-100μg/L、至少100-1000μg/L、至少1-100mg/L、至少100-1000mg/L、至少1-10g/L或至少10-100g/L(包含其间的所有数值)的产生。

在一些实施方案中，EPH的活性(例如，比活性)比对照EPH的活性大至少1.1倍(例如，至少1.3倍、至少1.5倍、至少1.7倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、或至少100倍(包含其间的所有数值))。

角鲨烯环氧酶(SQE)

本公开的方面提供角鲨烯环氧酶(SQE)，其能够氧化角鲨烯(例如，角鲨烯或2-3-氧化角鲨烯)以产生角鲨烯环氧化物(例如，2-3-氧化角鲨烯或2-3,22-23-二环氧角鲨烯)。SQE也可以指角鲨烯单加氧酶。

本公开的SQE可以包括与表8中的SQE序列(例如，核酸序列或氨基酸序列)、与如SEQ ID NO:126-128或SEQ ID NO:142-144所列出的序列、或者与本申请公开或本领域已知的任意SQE序列至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或至少100％(包含其间的所有数值)一致的序列。

在一些实施方案中，本公开的SQE能够促进角鲨烯化合物中的环氧化物形成(例如，角鲨烯或2,3-氧化角鲨烯中的环氧化)。在一些实施方案中，本公开的SQE催化罗汉果醇前体(例如，2-3-氧化角鲨烯或2-3,22-23-二环氧角鲨烯)的形成。

重组SQE的活性(如比活性)可以被测量为每单位时间每单位的酶产生的罗汉果醇前体(例如，2-3-氧化角鲨烯或2-3,22-23-二环氧角鲨烯)的浓度。在一些实施方案中，本公开的SQE具有至少0.0000001μmol/min/mg(例如，至少0.000001μmol/min/mg、至少0.00001μmol/min/mg、至少0.0001μmol/min/mg、至少0.001μmol/min/mg、至少0.01μmol/min/mg、至少0.1μmol/min/mg、至少1μmol/min/mg、至少10μmol/min/mg、或至少100μmol/min/mg((包含其间的所有数值)))的活性(如比活性)。

在一些实施方案中，SQE的活性(如比活性)比对照SQE的活性大至少1.1倍(例如，至少1.3倍、至少1.5倍、至少1.7倍、至少1.9倍、至少2倍、至少2.5倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、或至少100倍(包含其间的所有数值))。

变体

公开的方面涉及编码描述的任意重组多肽(如CDS、UGT、C11羟化酶、细胞色素P450还原酶、和EPH以及SQE酶)的多核苷酸。本申请中所描述的多核苷酸或氨基酸序列的变体也被本公开所涵盖。变体可以与参考序列共享至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或100％(包含其间的所有数值)的序列一致性。

除非另有说明，否则术语“序列一致性(sequence identity)”，如本领域已知的，指通过序列比较(比对)确定的两个多肽或多核苷酸的序列之间的关系。在一些实施方案中，在序列的整个长度上确定序列一致性，而在其他实施方案中，在序列的区上确定序列一致性。

一致性也可以指通过两个或更多个残基(例如，核酸残基或氨基酸残基)串之间匹配数确定的两个序列之间的序列相关度(degree of sequence relatedness)。一致性测量两个或更多个序列中较小的序列之间的一致匹配百分比，其中通过特定数学模型、算法或计算机程序解决间隙比对(如果存在)。

相关多肽或核酸序列的一致性可以通过本领域普通技术人员已知的任何方法容易地计算。可以，例如，使用Karlin和Altschul的算法(Proc.Natl.Acad.Sci.USA 87:2264-68,1990，如Karlin和Altschul Proc.Natl.Acad.Sci.USA 90:5873-77,1993中所修改的)确定两个序列(例如，核酸序列或氨基酸序列)的“百分比一致性”。这样的算法被并入Altschul等的

和

程序(版本2.0)(J.Mol.Biol.215:403-10,1990)。可以进行

蛋白质检索(例如用XBLAST程序，评分＝50，字长＝3以获得与本发明的蛋白质分子同源的氨基酸序列)。当两个序列之间存在间隙时，可以采用Gapped

(例如，如Altschul et al.,Nucleic Acids Res.25(17):3389-3402,1997中所述)。当采用

和Gapped

程序时，可以使用各个程序(例如，XBL

和

)的默认参数，或者可以如本领域普通技术人员所理解的，适当调整参数。

可以使用的另外的局部比对技术是，例如，基于Smith-Waterman算法(Smith,T.F.&Waterman,M.S.(1981)“Identification of common molecular subsequences.”J.Mol.Biol.147:195-197)的。可以使用的通用全局比对技术是，例如，Needleman–Wunsch算法(Needleman,S.B.&Wunsch,C.D.(1970)“A general method applicable to thesearch for similarities in the amino acid sequences of two proteins.”J.Mol.Biol.48:443-453)，其基于动态程序。

近期，开发了一种快速最优全局序列比对算法(FOGSAA)，据称该算法比其他最优全局比对方法(包含Needleman-Wunsch算法)更快地生成核酸和氨基酸序列的全局比对。在一些实施方案中，通过比对两个氨基酸序列，计算一致的氨基酸的数量并除以氨基酸序列中的一者的长度来确定两个多肽的一致性。在一些实施方案中，通过比对两个核苷序列以及计算一致的核苷数量并除以核酸中的一者的长度来确定两个核酸的一致性。

对于多序列比对，可以使用包含Clustal Omega(Sievers et al.,Mol SystBiol.2011Oct11；7:539)的计算机程序。

应当理解的是，使用本领域普通技术人员已知的任何方法，序列(包含核酸序列或氨基酸序列)可以被发现与参考序列(如，本申请中公开的和/或权利要求书中限定的序列)具有特定的百分比一致性。对于给定的序列集，不同的算法可以产生不同的百分比一致性数值。本申请权利要求书应当被理解为涵盖对于给定的算法，使用默认参数和/或本领域技术人员通常使用的参数计算其与参考序列的百分比一致性的序列。

如本申请中所使用的，当使用本领域已知的氨基酸序列比对工具比对序列X和不同的序列Y时，当序列“X”中的残基(如核酸残基或氨基酸残基)位于序列“Y”中的“z”的对应位点处时，序列“X”中的残基(如核酸残基或氨基酸残基)被称作对应于不同的序列“Y”中的位点或者残基(如核酸残基或氨基酸残基)“z”。

变体序列可以是同源序列。如本申请中所使用的，同源序列是共享特定的百分比一致性(例如，至少5％、至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少71％、至少72％、至少73％、至少74％、至少75％、至少76％、至少77％、至少78％、至少79％、至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、或100％(包含其间的所有数值)的百分比一致性)的序列(例如，核酸序列或氨基酸序列)。同源序列包含(但不限于)平行同源的序列、直系同源的序列、或者趋同进化产生的序列。平行同源的序列源于物种的基因组内的基因的复制，而直系同源的序列在物种形成事件(speciation event)之后产生差异。两个不同的物种可能独立地进化，但是作为趋同进化的结果，每个物种可能包括与来自另外的物种的序列共享特定的百分比一致性的序列。

在一些实施方案中，多肽变体(例如，CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或SQE变体)包括与参考多肽(例如，参考CDS、参考UGT、参考C11羟化酶、参考细胞色素P450还原酶、参考EPH、或参考SQE)共享二级结构(例如，α螺旋、β折叠)的域。在一些实施方案中，多肽变体(例如，CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或SQE变体)与参考多肽(例如，参考CDS、参考UGT、参考C11羟化酶、参考细胞色素P450还原酶、参考EPH、或参考SQE)共享三级结构。作为非限制性实例，与参考多肽相比，变体多肽可以具有低的一级序列一致性(例如，小于80％、小于75％、小于70％、小于65％、小于60％、小于55％、小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％、或小于5％序列一致性)，但是共享一个或更多个二级结构(例如，包含(但不限于)环、α螺旋、或β折叠)，或者具有与参考多肽相同的三级结构。例如，环可以位于β折叠和α螺旋之间、两个α螺旋之间、或者两个β折叠之间。同源模拟可以被用于比较两个或更多个三级结构。

可以通过本领域普通技术人员已知的多种方法在核苷序列中进行突变。例如，可以通过PCR定向突变、根据Kunkel的方法(Kunkel,Proc.Nat.Acad.Sci.U.S.A.82:488-492,1985)定点诱变、通过编码多肽的基因的化学合成、通过基因编辑工具、或者通过插入(如，插入标签(例如，HIS标签或GFP标签))进行突变。突变可以包含例如通过本领域已知的方法生成的置换、缺失和转位。用于产生突变的方法可以在参考文献(如，Molecular Cloning:ALaboratory Manual,J.Sambrook,et al.,eds.,Fourth Edition,Cold Spring HarborLaboratory Press,Cold Spring Harbor,New York,2012或者Current Protocols inMolecular Biology,F.M.Ausubel,et al.,eds.,John Wiley&Sons,Inc.,New York,2010)中找到。

在一些实施方案中，用于产生变体的方法包含循环重排(Yu and Lutz,TrendsBiotechnol.2011Jan；29(1):18-25)。循环重排的非限制性实例在实施例5和附图7中被提供。在循环重排中，多肽的线性一级序列可以被环化(例如，通过将序列的N-末端和C-末端连接)并且多肽可以在不同的位置被切断(“断裂”)。因此，如通过线性序列比对方法(例如，Clustal Omega或BLAST)所确定的，新的多肽的线性一级序列可以具有低的序列一致性(例如，小于80％、小于75％、小于70％、小于65％、小于60％、小于55％、小于50％、小于45％、小于40％、小于35％、小于30％、小于25％、小于20％、小于15％、小于10％或者小于5％(包含其间的所有数值))。然而，两个蛋白质的拓扑分析可以揭示两个多肽的三级结构是相似的或是不相似的。不受特定理论的束缚，通过参考多肽的循环重排创建的并且与参考多肽具有类似的三级结构的变体多肽可以共享类似的功能特性(例如，酶促活性、酶动力学、底物特异性或产物特异性)。在一些情况下。循环重排可以改变二级结构、三级结构或四级结构，并且产生具有不同的功能特性(例如，增加的或降低的酶促活性、不同的底物特异性或不同的产物特异性)的酶。参见，例如Yu和Lutz，Trends Biotechnol.2011Jan；29(1):18-25。

应当理解的是，在已经经历循环重排的蛋白质中，蛋白质的线性氨基酸序列将不同于未经历循环重排的参考蛋白质。然而，本领域普通技术人员将能够通过例如比对序列和检测保守基序、和/或通过比较蛋白质的结构或预测的结构(例如，通过同源模拟)确定已经经历循环重排的蛋白质中的哪个残基对应于未经历循环重排的参考蛋白质中的残基。

在一些实施方案中，确定感兴趣的序列和本申请中所描述的参考序列之间的百分比一致性的算法说明了序列之间存在循环重排。可以使用本领域已知的方法(包含例如，RASPODOM(Weiner et al.,Bioinformatics.2005Apr 1；21(7):932-7)检测循环重排的存在。在一些实施方案中，在计算感兴趣的序列和本申请中所描述的序列之间的百分比一致性之前，对循环排列的存在进行校正(例如，至少一个序列中的域被重新排列)。本申请的权利要求书应当被理解为涵盖在考虑潜在的序列的循环重排之后计算其与参考序列的百分比一致性的序列。

本公开也涵盖了本申请中公开的重组CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、和角鲨烯环氧酶的功能性变体。例如，功能性变体可以结合一个或更多个相同的底物(例如，罗汉果醇、罗汉果甙、或其前体)或者产生一个或更多个相同的产物(例如，罗汉果醇、罗汉果甙、或其前体)。可以使用本领域已知的任何方法鉴别功能性变体。例如，上文所述的Karlin和Altschul的算法(Proc.Natl.Acad.Sci.USA 87:2264-68,1990)可以被用于鉴别功能已知的同源蛋白质。

推定的功能性变体也可以通过检索具有功能注释域的多肽而被鉴别。数据库(包含Pfam(Sonnhammer et al.,Proteins.1997Jul；28(3):405-20))可以被用于鉴别具有特定域的多肽。例如，在一些情况下，通过检索具有对应于SEQ ID NO:74的位点123的亮氨酸残基的多肽，氧化角鲨烯环化酶中的附加的CDS酶可以被鉴别。该亮氨酸残基与确定CDS酶的产物特异性有关；该残基的突变可以例如导致环阿屯醇或帕克醇作为产物。(Takase etal.,Org Biomol Chem.2015Jul 13(26):7331-6)。

附加的UGT酶可以例如通过检索具有UDPGT域(PROSITE登录号PS00375)的多肽而被鉴别。

同源模拟也可以被用于鉴别容易发生突变而不影响功能的氨基酸残基。这样的方法的非限制性实例可以包含位点具体评分矩阵(PSSM)和能量最小化方案的使用(参见，例如，下文实施例5)。参见，例如，Stormo et al.,Nucleic Acids Res.1982May 11；10(9):2997-3011。

PSSM可以与罗塞塔能量函数(Rosetta energy function)的计算搭配，罗塞塔能量函数确定野生型和单点突变体之间的差异。不受特定理论的束缚，潜在的稳定突变对于蛋白质工程(例如，功能性同源物的产生)是期望的。在一些实施方案中，潜在的稳定突变具有小于-0.1(例如，小于-0.2、小于-0.3、小于-0.35、小于-0.4、小于-0.45、小于-0.5、小于-0.55、小于-0.6、小于-0.65、小于-0.7、小于-0.75、小于-0.8、小于-0.85、小于-0.9、小于-0.95、或小于-1.0)罗塞塔能量单位(Rosetta energy units(R.e.u.))的ΔΔG_calc值。参见，例如Goldenzweig et al.,Mol Cell.2016Jul 21；63(2):337-346.doi:10.1016/j.molcel.2016.06.012。

在一些实施方案中，CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或SQE编码序列包括对应于参考编码序列的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或多余100个位点处的突变。在一些实施方案中，CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或SQE编码序列包括相对于参考编码序列的编码序列的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多个密码子中的突变。如本领域普通技术人员将理解的，由于遗传密码的简并性，密码子内的突变可能改变或可能不改变由密码子编码的氨基酸。在一些实施方案中，相对于参考多肽的氨基酸序列，编码序列中的一个或更多个突变不改变编码序列的氨基酸序列。

在一些实施方案中，相对于参考多肽的氨基酸序列，重组CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或SQE序列中的一个或更多个突变改变多肽的氨基酸序列。在一些实施方案中，相对于参考多肽的氨基酸序列，一个或更多个突变改变重组多肽的氨基酸序列，并且相对于参考多肽，改变(增强或降低)多肽的活性。

可以使用常规方法测量本申请中所描述的重组多肽中的任意重组多肽的活性(包含比活性)。作为非限制性实例，可以通过测量重组多肽的底物特异性、产生的一种或多种产物、产生的一种或多种产物的浓度、或其组合确定重组多肽的活性。如本申请中所使用的，重组多肽的比活性指每单位时间给定量(例如，浓度)的重组多肽产生的特定产物的量(例如，浓度)。

本领域技术人员还将认识到，重组多肽编码序列中的突变可能导致保守氨基酸置换，以提供前述多肽的功能性等同变体(functionally equivalent variant)(例如，保留多肽的活性的变体)。如本申请中所使用的，“保守氨基酸置换”指不改变进行氨基酸置换的蛋白质的相对电荷或尺寸特征、或功能性活性的氨基酸置换。

在一些情况下，通过氨基酸的R基团(参见，例如，表1)表征氨基酸。例如，氨基酸可以包括非极性脂肪族R基团、带正电的R基团、带负电的R基团、非极性芳香族R基团,、或极性不带电的R基团。包括非极性脂肪族R基团的氨基酸的非限制性实例包含丙氨酸、甘氨酸、缬氨酸、亮氨酸、甲硫氨酸、和异亮氨酸。包括带正电的R基团的氨基酸的非限制性实例包含赖氨酸、精氨酸、和组氨酸。包括带负电的R基团的氨基酸的非限制性实例包含天门冬氨酸和谷氨酸。包括非极性芳香族R基团的氨基酸的非限制性实例包含苯基丙氨酸、酪氨酸、和色氨酸。包括极性不带电的R基团的氨基酸的非限制性实例包含丝氨酸、苏氨酸、半胱氨酸、脯氨酸、天门冬酰胺、和谷氨酰胺。

多肽的功能性等同变体的非限制性实例可以包含本申请中公开的蛋白质的氨基酸序列中的保守氨基酸置换。氨基酸的保守置换包含下列基团内进行的氨基酸中的置换：(a)M、I、L、V；(b)F、Y、W；(c)K、R、H；(d)A、G；(e)S、T；(f)Q、N；和(g)E、D。表1中提供了保守氨基酸置换的附加的非限制性实例。

在一些实施方案中，在制备变体多肽时，可以改变1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或20个以上的残基。在一些实施方案中，氨基酸通过保守氨基酸置换被替代。

表1.保守氨基酸置换的非限制性实例

原始残基	R基团类型	保守氨基酸置换
			Ala	非极性脂肪族R基团	Cys、Gly、Ser
Arg	带正电的R基团	His、Lys
			Asn	极性不带电的R基团	Asp、Gln、Glu
Asp	带负电的R基团	Asn、Gln、Glu
			Cys	极性不带电的R基团	Ala、Ser
Gln	极性不带电的R基团	Asn、Asp、Glu
			Glu	带负电的R基团	Asn、Asp、Gln
Gly	非极性脂肪族R基团	Ala、Ser
			His	带正电的R基团	Arg、Tyr、Trp
Ile	非极性脂肪族R基团	Leu、Met、Val
			Leu	非极性脂肪族R基团	Ile、Met、Val
Lys	带正电的R基团	Arg、His
			Met	非极性脂肪族R基团	Ile、Leu、Phe、Val
Pro	极性不带电的R基团
			Phe	非极性芳香族R基团	Met、Trp、Tyr
Ser	极性不带电的R基团	Ala、Gly、Thr
			Thr	极性不带电的R基团	Ala、Asn、Ser
Trp	非极性芳香族R基团	His、Phe、Tyr、Met
			Tyr	非极性芳香族R基团	His、Phe、Trp
Val	非极性脂肪族R基团	Ile、Leu、Met、Thr

可以通过改变多肽的编码序列，进行多肽的氨基酸序列中的氨基酸置换，以产生具有期望的特性和/或活性的重组多肽变体。类似地，通常通过改变重组多肽(例如，UGT、CDS、P450、细胞色素P450还原酶、EPH、或角鲨烯环氧酶)的编码序列，进行多肽的氨基酸序列中的保守氨基酸置换，以产生多肽的功能性等同变体。

宿主细胞中核酸的表达

本公开的方面涉及编码酶、其功能性修饰和变体的基因的重组表达，以及其相关的应用。例如，本申请中所描述的方法可以用于产生罗汉果醇前体、罗汉果醇和/或罗汉果甙。

对于多核苷酸(如包括基因的多核苷酸)，术语“异源的”与术语“外源的(exogenous)”和术语“重组的(recombinant)”可互换地使用，并且指：已经被人工提供到生物系统的多核苷酸；已经在生物系统内被修饰的多核苷酸；或者其表达或调控已经在生物系统内被操纵的多核苷酸。引入宿主细胞内或在宿主细胞内表达的异源多核苷酸可以是来自与宿主细胞不同的生物或物种的多核苷酸、或者可以是合成的多核苷酸、或者可以是也在与宿主细胞相同的生物或物种中内源性表达的多核苷酸。例如，当在宿主细胞中内源性表达的多核苷酸：并非天然地位于宿主细胞中；在宿主细胞中重组表达(稳定地或短暂地)、在宿主细胞内被修改；在宿主细胞内被选择性地编辑；以与宿主细胞内天然存在的拷贝数不同的拷贝数表达；或者在宿主细胞内以非天然的方式(如，通过操纵控制多核苷酸的表达的调控区)表达时，其可以被认为是异源的。在一些实施方案中，异源多核苷酸是在宿主细胞中内源性表达，但是其表达由非天然调控多核苷酸的表达的启动子驱动的多核苷酸。在其他实施方案中，异源多核苷酸是在宿主细胞中内源性表达且其表达由天然调控多核苷酸的表达的启动子驱动，但是启动子或另外的调控区被修饰的多核苷酸。在一些实施方案中，启动子被重组激活或抑制。例如，基于基因编辑的技术可以被用于调控多核苷酸(包含来自启动子(包含内源启动子)的内源多核苷酸)的表达。参见，例如，Chavez et al.,NatMethods.2016Jul；13(7):563–567。异源多核苷酸可以包括野生型序列或者相比于参考多核苷酸序列的突变序列。

本申请中所描述的编码任意重组多肽(如CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或SQE)的核酸可以通过本领域已知的任何方法被并入任何适合的运载体。例如，运载体可以是表达运载体，包含(但不限于)病毒运载体(例如，慢病毒运载体、逆转录病毒运载体、腺病毒运载体、或腺相关病毒运载体)、适用于瞬时表达的任何运载体、适用于组成型表达的任何运载体、或者适用于诱导型表达的任何运载体(例如，半乳糖诱导型运载体或多西环素诱导型运载体)。用于表达重组多肽(例如，CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、或角鲨烯环氧酶)的运载体的非限制性实例在下文实施例1中被描述。

在一些实施方案中，运载体在细胞中自主复制。运载体可以含有一个或更多个核酸内切酶限制性位点，该核酸内切酶限制性位点被限制性核酸内切酶切割以插入和连接含有本申请所描述的基因的核酸，以产生能够在细胞中复制的重组运载体。运载体通常由DNA组成，尽管RNA运载体也是可用的。克隆运载体包含(但不限于)：质粒、F黏粒(fosmid)、噬菌粒、病毒基因组和人工染色体。如本申请中所使用的，术语“表达运载体”或“表达构建体”指重组生成的或合成生成的、具有一系列容许特定核酸在宿主细胞(如酵母细胞)中转录的指定核酸元件的核酸构建体。在一些实施方案中，将本申请中所描述的基因的核酸序列插入克隆运载体，使得其可操作地连接至调控序列，并且在一些实施方案中表达为RNA转录物。在一些实施方案中，运载体含有一种或更多种标志物(如本申请中所描述的选择性标志物)，以鉴别用重组运载体转化或转染的细胞。在一些实施方案中，本申请中所描述的基因的核酸序列被重新编码。重新编码可以使基因产物的产量相对于未重新编码的参考序列增加至少10％、至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、或100％(包含其间的所有数值)。

当编码序列和调控序列共价地连接并且编码序列的表达或转录受到调控序列的影响或控制时，编码序列和调控序列被称为“可操作地连接(joined)”或“可操作地联接(linked)”。如果编码序列被翻译成功能蛋白，则如果5’调控序列中启动子的诱导允许转录编码序列，并且如果编码序列与调控序列之间的联接的性质不会(1)造成移码突变的引入；(2)干扰启动子区指导编码序列的转录的能力、或(3)干扰相应RNA转录物被翻译成蛋白质的能力，则编码序列和调控序列被称为是可操作地连接或联接。

在一些实施方案中，编码本申请中所描述的任意蛋白质的核酸受调控序列(例如，增强子序列)的控制。在一些实施方案中，核酸在启动子的控制下表达。启动子可以是天然启动子(例如，基因在其内源环境中的启动子，该启动子提供基因表达的正常调控)。可替换地，启动子可以是与基因的天然启动子不同的启动子，例如，启动子与基因在其内源环境中的启动子不同。如本申请中所使用的，“异源启动子”或“重组启动子”是和与其可操作地连接的DNA序列的转录并非天然地或正常地相关的启动子，或者并非天然地或正常地控制与其可操作地连接的DNA序列的转录的启动子。在一些实施方案中，核苷序列受异源启动子的控制。

在一些实施方案中，启动子是真核启动子。真核启动子的非限制性实例包含如本领域普通技术人员已知的TDH3、PGK1、PKC1、PDC1、TEF1、TEF2、RPL18B、SSA1、TDH2、PYK1、TPI1、GAL1、GAL10、GAL7、GAL3、GAL2、MET3、MET25、HXT3、HXT7、ACT1、ADH1、ADH2、CUP1-1、ENO2、和SOD1(参见，例如，Addgene网站：blog.addgene.org/plasmids-101-the-promoter-region)。在一些实施方案中，启动子是原核启动子(例如，噬菌体启动子或细菌启动子)。噬菌体启动子的非限制性实例包含Pls1con、T3、T7、SP6、和PL。细菌启动子的非限制性实例包含Pbad、PmgrB、Ptrc2、Plac/ara、Ptac、和Pm。

在一些实施方案中，启动子是诱导型启动子。如本申请中所使用的，“诱导型启动子”是受到分子的存在或不存在控制的启动子。诱导型启动子的非限制性实例包含化学调控的启动子和物理调控的启动子。对于化学调控的启动子，转录活性可以由一种或更多种化合物(如醇、四环素、半乳糖、类固醇、金属、或其他化合物)调控。对于物理调控的启动子，转录活性可以受现象(如光或温度)的调控。四环素调控的启动子的非限制性实例包含脱水四环素(aTc)响应性启动子和其他四环素响应性启动子系统(例如，四环素阻遏蛋白(tetR)、四环素操纵子序列(tetO)和四环素反式激活子融合蛋白(tTA))。类固醇调控的启动子的非限制性实例包含基于大鼠糖皮质激素受体、人雌激素受体、蛾蜕皮激素受体的启动子，以及来自类固醇/类维生素A/甲状腺受体超家族的启动子。金属调控的启动子的非限制性实例包含来源于金属硫蛋白(结合并且螯合金属离子的蛋白质)基因的启动子。发病机制调控的启动子的非限制性实例包含由水杨酸、乙烯或苯并噻二唑(BTH)诱导的启动子。温度/热诱导型启动子的非限制性实例包含热激启动子。光调控的启动子的非限制性实例包含来自植物细胞的光响应性启动子。在某些实施方案中，诱导型启动子是半乳糖诱导型启动子。在一些实施方案中，通过一种或更多种生理条件(例如，pH、温度、辐射、渗透压、盐水梯度、细胞表面结合、或者一种或更多种外在诱导剂或内在诱导剂的浓度)来诱导诱导型启动子。外在诱导物或诱导剂的非限制性实例包含氨基酸和氨基酸类似物、糖类和多糖、核酸、蛋白质转录激活子(activator)和阻遏子(repressor)、细胞因子、毒素、石油基化合物、含金属的化合物、盐、离子、酶底物类似物、激素或其任意组合。

在一些实施方案中，启动子是组成型启动子。如本申请中所使用的,“组成型启动子”指允许基因的连续转录的未经调控的启动子。组成型启动子的非限制性实例包含TDH3、PGK1、PKC1、PDC1、TEF1、TEF2、RPL18B、SSA1、TDH2、PYK1、TPI1、HXT3、HXT7、ACT1、ADH1、ADH2、ENO2、和SOD1。

本文也预期了本领域普通技术人员已知的其他诱导型启动子或组成型启动子。

基因表达所需的调控序列的确切性质可能在物种或细胞类型之间变化，但通常视需要包含分别涉及转录和翻译的起始的5’非转录序列和5’非翻译序列(如TATA框、加帽序列、CAAT序列等)。特别地，这样的5’非转录调控序列将包含启动子区，该启动子区包含用于可操作地连接的基因的转录控制的启动子序列。调控序列可以还包含增强子序列或上游激活子序列。本申请中公开的运载体可以包含5’前导(leader)序列或5’信号序列。调控序列可以还包含终止子序列。在一些实施方案中，终止子序列在转录期间标记DNA中基因的末端。适合于诱导宿主细胞中的本申请中所描述的一个或更多个基因的表达的一种或更多种适当的运载体的选择和设计在本领域普通技术人员的能力和判断范围之内。

含有表达必需元件的表达运载体是可商业获得的，并且是本领域普通技术人员已知的(参见，例如，Sambrook et al.,Molecular Cloning:A Laboratory Manual,FourthEdition,Cold Spring Harbor Laboratory Press,2012)。

在一些实施方案中，向宿主细胞引入多核苷酸,(如编码重组多肽的多核苷酸)导致多核苷酸的基因组整合。在一些实施方案中，宿主细胞在其基因组中包括多核苷酸序列(如，编码本申请中所描述的任意重组多肽的多核苷酸序列)的至少1个拷贝、至少2个拷贝、至少3个拷贝、至少4个拷贝、至少5个拷贝、至少6个拷贝、至少7个拷贝、至少8个拷贝、至少9个拷贝、至少10个拷贝、至少11个拷贝、至少12个拷贝、至少13个拷贝、至少14个拷贝、至少15个拷贝、至少16个拷贝、至少17个拷贝、至少18个拷贝、至少19个拷贝、至少20个拷贝、至少21个拷贝、至少22个拷贝、至少23个拷贝、至少24个拷贝、至少25个拷贝、至少26个拷贝、至少27个拷贝、至少28个拷贝、至少29个拷贝、至少30个拷贝、至少31个拷贝、至少32个拷贝、至少33个拷贝、至少34个拷贝、至少35个拷贝、至少36个拷贝、至少37个拷贝、至少38个拷贝、至少39个拷贝、至少40个拷贝、至少41个拷贝、至少42个拷贝、至少43个拷贝、至少44个拷贝、至少45个拷贝、至少46个拷贝、至少47个拷贝、至少48个拷贝、至少49个拷贝、至少50个拷贝、至少60个拷贝、至少70个拷贝、至少80个拷贝、至少90个拷贝、至少100个拷贝、或更多(包含其间的所有数值)。

宿主细胞

本公开的蛋白质或酶中的任一者可以在宿主细胞中被表达。如本申请中所使用的，术语“宿主细胞”指可以被用于表达多核苷酸(如编码用于罗汉果醇、罗汉果甙、及其前体的产生中的酶的多核苷酸)的细胞。

任何适合的宿主细胞(包含真核细胞或原核细胞)可以被用于产生本申请中公开的任意重组多肽(包含CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、和SQE)。适合的宿主细胞包含(但不限于)真菌细胞(例如，酵母细胞)、细菌细胞(例如，大肠杆菌细胞)、藻类细胞、植物细胞、昆虫细胞、和动物细胞(包含哺乳动物细胞)。

适合的酵母宿主细胞包含(但不限于)念珠菌属(Candida)、埃希氏杆菌属(Escherichia)、汉逊酵母属(Hansenula)、酵母属(Saccharomyces)(例如，酿酒酵母)、裂殖酵母属(Schizosaccharomyces)、毕赤酵母属(Pichia)、克鲁维酵母属(Kluyveromyces)(例如，乳酸克鲁维酵母(K.lactis))、和耶氏酵母属(Yarrowia)。在一些实施方案中，酵母细胞是多形汉逊酵母(Hansenula polymorpha)、酿酒酵母、卡尔酵母(Saccaromycescarlsbergensis)、糖化酵母(Saccharomyces diastaticus)、诺地酵母(Saccharomycesnorbensis)、克鲁弗酵母(Saccharomyces kluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、芬兰毕赤酵母(Pichia finlandica)、喜海藻糖毕赤酵母(Pichia trehalophila)、Pichia kodamae、膜醭毕赤酵母(Pichia membranaefaciens)、Pichia opuntiae、耐热毕赤酵母(Pichia thermotolerans)、柳毕赤酵母(Pichiasalictaria)、栎柱毕赤酵母(Pichia quercuum)、皮杰普毕赤酵母(Pichia pijperi)、树干毕赤酵母(Pichia stipites)、甲醇毕赤酵母(Pichia methanolica)、安格斯毕赤酵母(Pichia angusta)、乳酸克鲁维酵母(Kluyveromyces lactis)、白色念珠菌(Candidaalbicans)、或者解脂耶氏酵母(Yarrowia lipolytica)。

在一些实施方案中，酵母菌株是工业多倍体酵母菌株。真菌细胞的其他非限制性实例包含获自曲霉属(Aspergillus spp.)、青霉属(Penicillium spp.)、镰刀菌属(Fusarium spp.)、根霉菌属(Rhizopus spp.)、支顶孢属(Acremonium spp.)、脉孢菌属(Neurospora spp.)、粪壳菌属(Sordaria spp.)、稻瘟菌属(Magnaporthe spp.)、异水霉属(Allomyces spp.)、黑粉菌属(Ustilago spp.)、葡萄孢属(Botrytis spp.)、和木霉菌属(Trichoderma spp.)的细胞。

在某些实施方案中，宿主细胞是藻类细胞(如，衣藻属(Chlamydomonas)(例如，莱茵衣藻(C.Reinhardtii)和席藻(Phormidium)(席藻属(P.sp.)ATCC29409))。

在其他实施方案中，宿主细胞是原核细胞。合适的原核细胞包含革兰氏阳性细菌细胞、革兰氏阴性细菌细胞和革兰氏不定细菌细胞。宿主细胞可以是(但不限于)下列物种：土壤杆菌属(Agrobacterium)、脂环酸芽孢杆菌(Alicyclobacillus)、鱼腥藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属(Acinetobacter)、热酸菌属(Acidothermus)、节杆菌属(Arthrobacter)、固氮菌属(Azobacter)、芽孢杆菌属(Bacillus)、双歧杆菌属(Bifidobacterium)、乳酪短杆菌属(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌(Buchnera)、野油菜(Campestris)、弯曲杆菌属(Camplyobacter)、梭状芽孢杆菌属(Clostridium)、棒杆菌属(Corynebacterium)、色素菌属(Chromatium)、粪球菌属(Coprococcus)、埃希氏菌属(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属(Enterobacter)、欧文氏菌属(Erwinia)、梭杆菌属(Fusobacterium)、粪杆菌属(Faecalibacterium)、弗朗西丝菌属(Francisella)、黄杆菌属(Flavobacterium)、土芽孢杆菌属(Geobacillus)、嗜血杆菌属(Haemophilus)、螺杆菌属(Helicobacter)、克雷伯氏菌属(Klebsiella)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属(Ilyobacter)、微球菌属(Micrococcus)、微杆菌属(Microbacterium)、中慢生根瘤菌属(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、原绿球藻(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗斯氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅藻属(Scenedesmus)、链霉菌属(Streptomyces)、链球菌属(Streptococcus)、聚球藻属(Synecoccus)、糖单孢菌属(Saccharomonospora)、糖多孢菌属(Saccharopolyspora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺氏菌属(Shigella)、嗜热厌氧杆菌属(Thermoanaerobacterium)、Tropheryma、土拉伦菌属(Tularensis)、Temecula、嗜热聚球藻属(Thermosynechococcus)、嗜热球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞杆菌属(Xanthomonas)、木质部小菌属(Xylella)、耶尔森菌属(Yersinia)、和发酵单胞菌属(Zymomonas)。

在一些实施方案中，细菌宿主细胞是土壤杆菌菌种(Agrobacterium species)(例如，放射形土壤杆菌(A.radiobacter)、致根土壤杆菌(A.rhizogenes)、悬钩子土壤杆菌(A.rubi))、节杆菌菌种(Arthrobacter species)(例如，金黄节杆菌(A.aurescens)、柠檬节杆菌(A.citreus)、A.globformis、裂径谷氨酉爱节杆菌(A.hydrocarboglutamicus)、迈索尔节杆菌(A.mysorens)、烟草节杆菌(A.nicotianae)、石蜡节杆菌(A.paraffineus)、A.protophonniae、玫瑰色石蜡节杆菌(A.roseoparaffinus)、硫磺节杆菌(A.sulfureus)、产脲节杆菌(A.ureafaciens))、或芽孢杆菌菌种(Bacillus species)(例如，苏云金芽孢杆菌(B.thuringiensis)、人畜病原菌炭疽芽孢杆菌(B.anthracis)、巨大芽孢杆菌(B.megaterium)、枯草芽孢杆菌(B.subtilis)、缓慢芽孢杆菌(B.lentus)、环状芽孢杆菌(B.circulans)、短小芽孢杆菌(B.pumilus)、灿烂芽孢杆菌(B.lautus)、凝结芽孢杆菌(B.coagulans)、短芽孢杆菌(B.brevis)、坚强芽孢杆菌(B.firmus)、嗜碱芽孢杆菌(B.alkaophius)、地衣芽孢杆菌(B.licheniformis)、克劳氏芽孢杆菌(B.clausii)、热脂肪芽孢杆菌(B.stearothermophilus)、耐盐芽孢杆菌(B.halodurans)和解淀粉芽孢杆菌(B.amyloliquefaciens))。在特定的实施方案中，宿主细胞是工业芽孢杆菌菌株，包含(但不限于)枯草芽孢杆菌、短小芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、克劳氏芽孢杆菌、热脂肪芽孢杆菌和解淀粉芽孢杆菌。在一些实施方案中，宿主细胞是工业梭状芽孢杆菌菌种(Clostridium species)(例如，丙酮丁醇梭状芽孢杆菌(C.acetobutylicum)、破伤风梭状芽孢杆菌E88(C.tetani E88)、C.lituseburense、糖丁酸梭状芽孢杆菌(C.saccharobutylicum)、产气荚膜梭状芽孢杆菌(C.perfringens)、拜氏梭状芽孢杆菌(C.beijerinckii))。在一些实施方案中，宿主细胞是工业棒杆菌菌种(Corynebacteriumspecies)(例如，谷氨酸棒杆菌(C.glutamicum)、嗜乙酰乙酸棒杆菌(C.acetoacidophilum))。在一些实施方案中，宿主细胞是工业埃希氏菌菌种(例如，大肠杆菌)。在一些实施方案中，宿主细胞工业欧文氏菌菌种(例如，噬夏孢欧文氏菌(E.uredovora)、软腐欧文氏菌(E.carotovora)、凤梨欧文氏菌(E.ananas)、草生欧文氏菌(E.herbicola)、点状欧文氏菌(E.punctata)、土欧文氏菌(E.terreus))。在一些实施方案中，宿主细胞是工业泛菌菌种(例如，柠檬泛菌(P.citrea)、成团泛菌(P.agglomerans))。在一些实施方案中，宿主细胞是工业假单胞菌菌种(例如，恶臭假单胞菌(P.putida)、铜绿假单胞菌(P.aeruginosa)、P.mevalonii)。在一些实施方案中，宿主细胞是工业链球菌菌种(例如，类马链球菌(S.equisimiles)、化脓性链球菌(S.pyogenes)、乳房链球菌(S.uberis))。在一些实施方案中，宿主细胞是工业链霉菌菌种(例如，生二素链霉菌(S.ambofaciens)、不产色链霉菌(S.achromogenes)、阿维链霉菌(S.avermitilis)、天蓝色链霉菌(S.coelicolor)、金霉素链霉菌(S.aureofaciens)、金色链霉菌(S.aureus)、杀真菌素链霉菌(S.fungicidicus)、灰色链霉菌(S.griseus)、淡青紫链霉菌(S.lividans))。在一些实施方案中，宿主细胞是工业发酵单胞菌菌种(例如，运动发酵单胞菌(Z.mobilis)、解脂发酵单胞菌(Z.lipolytica))。

本公开还适用于多种动物细胞类型(包含哺乳动物细胞，例如人(包含293、HeLa、WI38、PER.C6和人黑色素瘤传代细胞(Bowes melanoma cells))、小鼠(包含3T3、NS0、NS1、Sp2/0)、仓鼠(CHO、BHK)、猴(COS、FRhL、Vero)、和杂交瘤细胞系。

本公开还适合用于多种植物细胞类型。

如本申请中所使用的，术语“细胞”可以指单个细胞或者细胞群体，如属于相同的细胞系或细胞株的细胞群体。不应将单数术语“细胞”的使用解释为明确指代单个细胞而不是细胞群体。

宿主细胞可以包括相对于野生型对应物的基因修饰。作为非限制性实例，宿主细胞(例如，酿酒酵母)可以被修饰以降低下列基因中的一个或更多个或减少下列基因中的一个或更多个的活性：羟甲基戊二酰基-CoA(HMG-CoA)还原酶(HMG1)、乙酰基-CoA C-乙酰基转移酶(乙酰乙酰基-CoA硫解酶))(ERG10)、3-羟基-3-甲基戊二酰基-CoA(HMG-CoA)合成酶(ERG13)、法尼基二磷酸法尼基转移酶(farnesyl-diphosphate farnesyl transferase)(角鲨烯合成酶)(ERG9)，可以被修饰以过表达角鲨烯环氧酶(ERG1)，或者可以被修饰以下调羊毛甾醇合成酶(ERG7)。参见，例如下文实施例1和实施例2。

可以通过任何合适的方法(包含(但不限于)基因的缺失、向基因中引入点突变、基因的截短、向基因中引入插入序列、向基因中引入标签或融合入基因、或者基因的选择性编辑)实现基因表达的降低和/或基因失活。例如，可以使用基于聚合酶链式反应(PCR)(参见，例如，Gardner et al.,Methods Mol Biol.2014；1205:45-78)或者可以使用公知的基因编辑技术。作为非限制性实例，可以通过基因替换(例如，使用标志物，包含选择标志物)来进行缺失基因。也可以通过使用转座子系统截短基因(参见，例如Poussu et al.,NucleicAcids Res.2005；33(12):e104)。

可以使用本领域已知的任何方法将编码本申请中所描述的的任意重组多肽的运载体引入合适的宿主细胞。Gietz et al.,Yeast transformation can be conducted bythe LiAc/SS Carrier DNA/PEG method.Methods Mol Biol.2006；313:107-20(其特此通过引用整体并入本文)中描述了酵母转化方案的非限制性实例。宿主细胞可以在如本领域普通技术人员所理解的任何合适的条件下被培养。例如，可以使用本领域已知的任何培养基、温度和孵育条件。对于携带诱导型运载体的宿主细胞，可以将细胞与适当的诱导型试剂培养以促进表达。

本申请中公开的任意细胞可以在接触核酸和/或核酸的整合之前、期间和/或之后在任何类型(完全培养基或基本培养基)和任何组成的培养基中培养。培养的条件或培养过程可以通过如本领域普通技术人员所理解的常规实验进行优化。在一些实施方案中，所选培养基补充有各种成分。在一些实施方案中，补充成分的浓度和用量被优化。在一些实施方案中，通过常规实验对培养基的其他方面和生长条件(例如，pH、温度等)进行了优化。在一些实施方案中，对培养基补充一种或更多种补充成分的频率以及细胞培养的时间进行了优化。

本申请中所描述的细胞的培养可以在本领域已知和使用的培养容器中进行。在一些实施方案中，充气反应容器(例如，搅拌釜反应器)被用于培养细胞。在一些实施方案中，使用生物反应器或发酵罐来培养细胞。因此，在一些实施方案中，细胞被用于发酵。如本申请中所使用的，术语“生物反应器”和“发酵罐”被可互换地使用，并且指密闭罩或部分密闭罩，其中发生生物、生物化学和/或化学反应，涉及生物体、生物体的一部分或纯化的酶。“大规模的生物反应器”或“工业规模生物反应器”是用于以商业或准商业规模生成产物的生物反应器。大规模的生物反应器通常具有在升、数百升、数千升或更大范围内的体积。

生物反应器的非限制性实例包含：搅拌罐发酵罐、通过旋转混合装置搅拌的生物反应器、恒化器、通过振动装置搅拌的生物反应器、气升发酵罐、填充床反应器、固定床反应器、流化床生物反应器、采用波诱导搅拌的生物反应器、离心生物反应器、滚瓶、和空心纤维生物反应器、滚筒装置(例如台式、推车式和/或自动化类型)、垂直堆叠板、旋转烧瓶、搅拌瓶或摇瓶、摇动多孔板、MD瓶、T型烧瓶、Roux瓶、多表面组织培养繁殖器、改良的发酵罐、和包被的珠子(例如，用血清蛋白、硝化纤维素、或羧甲基纤维素包被以防止细胞附着的珠子)。

在一些实施方案中，生物反应器包含细胞培养系统，其中细胞(例如，酵母细胞)与流动的液体和/或气泡接触。在一些实施方案中，细胞或细胞培养物悬浮生长。在其他实施方案中，细胞或细胞培养物附着在固相载体上。载体系统的非限制性实例包含微载体(例如，可以是多孔或无孔的聚合物球、微珠、和微盘)、带有特定化学基团(例如，叔胺基团)的交联珠(例如，葡聚糖)、2D微载体(包含困在无孔聚合物纤维中的细胞)、3D载体(例如，载体纤维、中空纤维、多芯反应器和可包括多孔纤维的半透膜)、具有降低的离子交换能力的微载体、封装细胞、毛细管、和聚集体。在一些实施方案中，载体由葡聚糖、明胶、玻璃或纤维素等材料制成。

在一些实施方案中，工业规模的过程以连续、半连续或非连续模式运行。操作模式的非限制性实例为分批、补料分批、扩展分批、重复分批、抽吸/填充、旋转壁、旋转瓶、和/或灌注操作模式。在一些实施方案中，生物反应器允许连续或半连续补充底物原料(例如碳水化合物源)和/或产品从生物反应器连续或半连续离开。

在一些实施方案中，生物反应器或发酵罐包含传感器和/或控制系统以测量和/或调整反应参数。反应参数的非限制性实例包含生物参数(例如，生长速率、细胞大小、细胞数量、细胞密度、细胞类型、或细胞状态等)、化学参数(例如，pH、氧化还原电位、反应底物和/或产物的浓度、溶解气体的浓度(如氧气浓度和CO₂浓度)、营养物质浓度、代谢物浓度、寡肽浓度、氨基酸浓度、维生素浓度、激素浓度、添加剂浓度、血清浓度、离子强度、离子浓度、相对湿度、摩尔浓度、渗透压、其他化学物质(例如缓冲剂、佐剂或反应副产物)的浓度)、物理/机械参数(例如，密度、电导率、搅拌程度、压力和流速，剪切应力、剪切速率、粘度、颜色、浊度、光吸收、混合速率、转化率以及热力学参数(如温度、光强度/质量等))。本申请中所描述的测量参数的传感器对于相关机械和电子领域的普通技术人员来说是公知的。控制系统基于来自本申请中所描述的传感器的输入来调整生物反应器中参数是生物反应器工程领域的普通技术人员公知的。

在一些实施方案中，方法涉及分批发酵(例如，摇瓶发酵)。分批发酵(例如，摇瓶发酵)通常考虑的因素包含氧气和葡萄糖的水平。例如，分批发酵(例如，摇瓶发酵)可能会受到氧气和葡萄糖的限制，因此在一些实施方案中，菌株在设计良好的分批补料发酵中发挥作用的能力被低估了。此外，最终产物(例如，罗汉果醇前体、罗汉果醇、罗汉果甙前体、或罗汉果甙)在溶解性、毒性、细胞积累和分泌方面可能表现出与底物(例如，罗汉果醇前体、罗汉果醇、罗汉果甙前体、或罗汉果甙)的一些差异，并且在一些实施方案中可以具有不同的发酵动力学。

本申请中所描述的的方法涵盖使用重组细胞、细胞裂解物或分离的重组多肽(例如，CDS、UGT、C11羟化酶、细胞色素P450还原酶、EPH、和角鲨烯环氧酶)产生罗汉果醇前体(例如，角鲨烯、2,3-氧化角鲨烯、或24-25环氧-葫芦烷二烯醇)、罗汉果醇、或罗汉果甙(例如，MIA1、MIE1、MIIA1、MIIA2、MIIIA1、MIIE、MIII、赛门苷I、罗汉果甙IV、异罗汉果甙IV、MIIIE、和罗汉果甙V)。

可以使用本领域已知的任何方法鉴别和提取通过本申请中公开的任意重组细胞产生的罗汉果醇前体(例如，角鲨烯、2,3-氧化角鲨烯、或24-25环氧-葫芦烷二烯醇)、罗汉果醇、罗汉果甙(例如，MIA1、MIE、MIIA1、MIIA2、MIIIA1、MIIE、MIII、赛门苷I、罗汉果甙IV、异罗汉果甙IV、MIIIE、和罗汉果甙V)。质谱(例如，LC-MS、GC-MS)是鉴别方法的非限制性实例，并且可以用于帮助提取感兴趣的化合物。

本申请中使用的措辞和术语是为了描述的目的，且不应被视为限制。在本申请中使用的诸如“包含”、“包括”、“具有”、“含有”、“涉及”等术语和/或其变体旨在涵盖其后列出的项目及其等效项以及附加的项目。

通过以下实施例进一步说明本发明，但不应将其解释为进一步限制。贯穿本申请引用的所有参考文献(包含参考文献、已授权的专利、公开的专利申请和共同未决专利申请)的全部内容特此通过引用被明确并入本文。

实施例

实施例1：CDS酶的鉴别和功能性表征

设计了推定的CDS酶文库。文库包含一些被修饰以更加类似CDS的氧化角鲨烯环化酶序列。

由表达罗汉果CDS的对照菌株制备的产物通过NMR被鉴别为葫芦烷二烯醇，并且确认该产物的羟基化导致罗汉果醇的产生。推定的CDS酶被评估以鉴别催化2,3-氧化角鲨烯环化为葫芦烷二烯醇的一种或多种活性酶。通过将文库转化为工程化的酿酒酵母筛选菌株来测试来自推定的CDS文库的总计506个构建体。酿酒酵母筛选菌株包括：截短的HMG1基因；ERG10、ERG13、ERG9和ERG1基因的过表达；以及ERG7基因的下调。编码推定的CDS的基因在pESC-URA质粒上表达，并通过在含有4％半乳糖的SC-URA中培养来诱导表达。使用GC-MS测量葫芦烷二烯醇。

四十个CDS被证明在筛选中展现出活性(表2)。这些CDS包含以前未被鉴别的CDS、以及工程化的CDS。与来自表达先前表征的来自罗汉果的CDS(SEQ ID NO：73)的对照菌株的葫芦烷二烯醇产量相比，一些新发现的酶显示出高达2倍或更高的葫芦烷二烯醇产量。SEQID NO:33是编码SEQ ID NO:73的多核苷酸序列的非限制性实例。

因此，已经鉴别和表征了可以将2,3-氧化角鲨烯环化成葫芦烷二烯醇的各种酶。

表2.通过推定的CDS酶产生葫芦烷二烯醇。

结论是鉴别的酶产生葫芦烷二烯醇。由新发现的酶制备的产物的GC-MS谱图与在酿酒酵母中用罗汉果CDS产生的葫芦烷二烯醇非常相似。这一结论被GC-MS、LC-MS和NMR证实。由这些酶制备的葫芦烷二烯醇具有与由罗汉果CDS制备的葫芦烷二烯醇相同的保留时间、电离模式以及质量和片段化模式。

实施例2.推定的UGT酶的鉴别和功能表征

本实施例描述了UGT文库的设计和筛选，以鉴别能够将罗汉果醇和罗汉果甙前体转变为经糖基化的罗汉果甙的UGT。具体而言，文库旨在鉴别在罗汉果醇的C3和C24羟基基团上进行糖基化以产生具有不同葡萄糖单元的罗汉果甙的UGT。总共获得了1059个推定的UGT。

为了测试UGT文库，开发了一种体外测定。携带UGT的质粒被转化为酿酒酵母CEN.PKΔGAL80。在该测定中使用总共8种底物筛选UGT文库：罗汉果醇、罗汉果甙I-A1、罗汉果甙I-E1、罗汉果甙II-A1、罗汉果甙II-E、罗汉果甙III、罗汉果甙III-A1和罗汉果甙III-E。细胞裂解物在淬灭前与50μM的底物在30℃下孵育24小时。在淬灭反应后通过LC-MS测试产物形成。罗汉果醇和罗汉果甙标准品的LC-MS曲线在图2中示出。

基于该筛选，鉴别出可以产生已知的罗汉果甙产物(包含罗汉果甙I-A1和赛门苷I)的UGT(图3A-3B)。然后在附加的筛选中测试从该筛选鉴别的菌株(图4A-4B，表3)。

表3.通过推定的UGT的产物形成

实施例3.UGT的进一步表征

从实施例2中描述的筛选中鉴别的16个UGT中的13个在大肠杆菌中重组表达并使用6xHis标签纯化。这些经纯化的UGT的蛋白质浓度通过布拉德福德测定确定。13个UGT的比活性是通过将50μM的每种底物与UGT在30℃下孵育5分钟来确定的。反应被淬灭并且产物浓度通过LC-MS定量(图4)。通过将产物浓度除以酶浓度和反应时间来计算比活性。测得的比活范围为0.01至5.53mmol产物/(g UGT*hr)，平均值为1.14。

实施例4.UGT94-289-1的蛋白工程化

观察到酿酒酵母菌株t85024(表达经重新编码的编码UGT94-289-1的多核苷酸)催化6-1和2-1糖基化反应。然而，该酶不能以高的速率催化这些反应。

设计了UGT序列的文库，其中每个UGT序列含有相对于UGT94-289-1序列的单个氨基酸置换。测试UGT序列的文库的6-1和2-1糖基化的增强的活性。文库含有893个成员。突变位点的选择基于它们与催化二联体(His²¹/Asp¹²²)的接近度(4.5埃以内)或基于它们与底物分子的预测相互作用。UGT94-289-1的同源模型在图5中示出。

通过体外筛选鉴别了相较于野生型酶(UGT94-289-1)活性改进的218个突变体(表4)。携带突变的UGT94-289-1基因的质粒被转化到酿酒酵母CEN.PKΔGAL80中。为了测试UGT突变文库，进行了来自实施例2的体外测定。使用该测定用UGT突变文库测试了总共3种底物—罗汉果甙II-A1、罗汉果甙III和罗汉果甙II-E。

鉴别了许多这些糖基化步骤活性增强的突变体(表4)。在表4中，MIIA1表示罗汉果甙II-A1，MIIE表示罗汉果甙II-E，MIIIA1表示罗汉果甙III-A1，MIII表示罗汉果甙III，MIIIE表示罗汉果甙III-E，并且Siam表示赛门苷I。含有鉴别的突变的UGT的子集(N143V、N143I、L374N、L374Y和L374W)在大肠杆菌中表达和纯化。发现N143V、N143I和L374N将罗汉果甙II-A1至罗汉果甙III-A1的反应以及罗汉果甙III至赛门苷I的反应的比活性分别提高了4-8倍和12-16倍，高于野生型蛋白质。发现L374Y和L374W分别将罗汉果甙II-E至罗汉果甙III-E的反应比活性提高13倍和28倍，高于野生型。这些观察结果通常与在酿酒酵母筛选中观察到的数据相匹配(表4)。此外，观察到N143V突变从赛门苷I产生罗汉果甙V，这是在野生型UGT或其他突变体中未观察到的活性。

UGT94-289-1中结构基序的非限制性实例和结构基序的序列在表5中示出。

表4.UGT94-289-1置换突变

表5.UGT94-289-1(SEQ ID NO:109)中的结构基序的非限制性实例

实施例5.附加的UGT的鉴别和表征

本实施例描述了UGT酶的进一步工程化和附加的UGT酶的鉴别。

UGT的工程化涉及蛋白质序列的循环重排。代表性的UGT、UGT94-289-1(图5)的预测结构显示N末端和C末端是灵活的并且非常接近(7-10A，图6)。为了循环重排，原始的N末端和C末端被融合在一起，并在蛋白质结构内的另一个位点引入新的末端(图7)。

筛选了两个文库。其中一个文库含有UGT序列的循环重排版本。另一个文库含有附加的推定的UGT序列。用于筛选的酿酒酵母菌株包括：CDS、两个EPH、突变的C11-羟化酶融合蛋白、两个细胞色素P450还原酶、上调的SQE、两个一级UGT和两个转运蛋白敲除。使用相同的菌株的两个不同生物学复制进行筛选。生物学复制被称作背景1和背景2。将编码UGT的质粒转化到筛选菌株中。将转化体接种到预培养基中，随后将等分的经接种的培养基转移到培养板中。

培养板孵育后，使用Thermo QQQ TSQ-Quantiva ESI和LX4多路柱设置评估罗汉果甙产生。具有罗汉果醇主链(M、MI、MII、MIII、MIV、MV)的糖基化类别的选择离子检测(SIM)质量分别如下：535.4g/mol(M)、697.47g/mol(MI)、799.51g/mol(MII)、961.56g/mol(MIII)、1123.61g/mol(MIV)和1285.68g/mol(MV)。MI表示具有1个葡萄糖部分的产物，MII表示具有2个葡萄糖部分的产物，MIII表示具有3个葡萄糖部分的产物，MIV表示具有4个葡萄糖部分的产物，并且MV表示具有5个葡萄糖部分的产物。MI和MII被认为是二级UGT的底物，而MIII、MIV和MV被认为是二级UGT的产物。然后将这些选择性离子检测(SIM)强度标准化为内部标准，并针对以下替代物进行校准：MIA1、MIIA1、MIIIA1、赛门苷和MV。UGT94-289-1N143I用作阳性对照。阴性对照菌株不表达二级UGT。

将携带每种UGT的菌株产生的MI、MII、MIII、MIV和MV的百分比与阳性对照菌株进行比较。MI、MII、MIII、MIV和MV的分数对应于每种类型在产生的产物的总量中的数量。

基于以下标准将酶指定为具有UGT活性(命中)。对于循环重排的UGT文库，如果酶产生的MIV的分数(fraction)(MIV分数)大于MIV的平均分数(每个阳性对照菌株的MIV分数的两个标准差)，则酶被认为命中。该临界值用于鉴别具有改进的折叠和稳定性(其可能会与活性进行权衡)的结构变体。只有在两个生物学复制中均为阳性的构建体才被视为命中。表6提供了MIV和MV分数的数据。

对于推定的UGT的文库，如果酶比阴性对照菌株的最大观察值高两个标准差且大于阳性对照菌株的平均值，则酶被认为命中每个产品(MIII、MIV和MV)。表7提供了MIII、MIV和MV分数的数据。

表6.通过循环重排生成的UGT

表7.附加的推定的UGT

实施例6:UGT的进一步蛋白工程化

本实施例描述了UGT酶的进一步工程化。基于位点具体评分矩阵(PSSM)和能量最小化方案(Goldenzweig et al.,Mol Cell.2016Jul 21；63(2):337-346)构建了UGT突变文库。在该方法中，通过BLAST检索鉴别了UGT的密切同源物。这些同源物被比对并且由多序列比对计算位点具体评分矩阵(PSSM)(图8)。以更大序列可变性为特征的位点(如图8中的位点53和57)被选为突变位点。潜在的氨基酸变化库选自PSSM中观察到的那些。例如，位点52被突变为L、I、M或V，因为这些是在该位点的PSSM中观察到的氨基酸(图8)。为了进一步减少突变体库，使用Rosetta评估了所有潜在置换对蛋白质稳定性的影响。用于构建文库的突变库包括在PSSM中观察到的显着增强高度可变位点稳定性的那些置换(Goldenzweig etal.,Mol Cell.2016Jul 21；63(2):337-346.)。文库将被筛选以鉴别具有UGT活性的酶。

实施例7:表达异源酶的组合以产生罗汉果醇前体、罗汉果醇、或罗汉果甙

使用本公开的重组蛋白质的组合以产生罗汉果醇前体(例如，2-3-氧化角鲨烯、2,3,22,23-二氧化角鲨烯、葫芦烷二烯醇、24,25-环氧葫芦烷二烯醇、24,25-二羟基葫芦烷二烯醇)、罗汉果醇、或罗汉果甙(例如，罗汉果甙I-A1(MIA1)、罗汉果甙I-E(MIE)、罗汉果甙II-A1(MIIA1)、罗汉果甙III-A1(MIIIA1)、罗汉果甙II-E(MIIE)、罗汉果甙III(MIII)、赛门苷I、罗汉果甙IV、罗汉果甙III-E(MIIIE)、罗汉果甙V、和罗汉果甙VI)。

例如，为了产生罗汉果醇，在宿主细胞中表达编码酶(如角鲨烯环氧酶、CDS、环氧化物酶和细胞色素P450)的基因。在一些情况下，也在酵母细胞中表达细胞色素P450还原酶。下文表8中提供了合适的角鲨烯环氧酶、环氧化物酶、C11羟化酶和细胞色素P450还原酶的非限制性实例。表2中提供了CDS的非限制性实例。使用LC-MS对罗汉果醇进行定量。在宿主细胞中进一步表达UGT以产生罗汉果甙。

可替换地，从宿主细胞中纯化重组蛋白质，并且在宿主细胞外产生罗汉果醇。将重组蛋白质依次或同时添加到包括角鲨烯的反应缓冲液中。

表8.C11羟化酶(P450)、细胞色素P450还原酶、环氧化物酶(EPH)和角鲨烯环氧酶的非限制性实例。

酶	核苷序列	氨基酸序列
			C11羟化酶	SEQ ID NO:113	SEQ ID NO:129
C11羟化酶(葫芦烷二烯醇氧化酶)	SEQ ID NO:114	SEQ ID NO:130
			细胞色素P450还原酶	SEQ ID NO:115	SEQ ID NO:131
细胞色素P450还原酶	SEQ ID NO:116	SEQ ID NO:132
			环氧化物酶	SEQ ID NO:117	SEQ ID NO:133
环氧化物酶	SEQ ID NO:118	SEQ ID NO:134
			环氧化物酶(环氧化物水合酶)	SEQ ID NO:119	SEQ ID NO:135
环氧化物酶(环氧化物水合酶)	SEQ ID NO:120	SEQ ID NO:136
			环氧化物酶(环氧化物水合酶)	SEQ ID NO:121	SEQ ID NO:137
环氧化物酶(环氧化物水合酶)	SEQ ID NO:122	SEQ ID NO:138
			环氧化物酶(环氧化物水合酶)	SEQ ID NO:123	SEQ ID NO:139
环氧化物酶(环氧化物水合酶)	SEQ ID NO:124	SEQ ID NO:140
			环氧化物酶(环氧化物水合酶)	SEQ ID NO:125	SEQ ID NO:141
角鲨烯环氧酶	SEQ ID NO:126	SEQ ID NO:142
			角鲨烯环氧酶	SEQ ID NO:127	SEQ ID NO:143
角鲨烯环氧酶(P450)	SEQ ID NO:128	SEQ ID NO:144

等同物

本领域技术人员将认识到或仅使用常规实验就能够确知本申请中所描述的本发明的具体实施方案的许多等同物。这样的等同物旨在由以下权利要求书涵盖。

本申请中公开的全部参考文献(包含专利文件)通过引用被整体(特别是本申请所引用的公开内容)并入本文。

Claims

1.一种包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中所述CDS包括：

a)基序GX₁WASDLGGP(SEQ ID NO:331)，其中X₁是N或者H；

b)基序DX₁GWL(SEQ ID NO:332)，其中X₁是H或者Q；和/或

c)基序CWGVCFTYAGW(SEQ ID NO:333)，

其中所述CDS不包括罗汉果CDS的序列(SEQ ID NO:73)；并且

其中相对于对照，所述宿主细胞多产生至少10％、20％、或30％的葫芦烷二烯醇化合物，其中所述对照是表达由对应于SEQ ID NO:33的多核苷酸编码的罗汉果CDS的宿主细胞。

2.如权利要求1所述的宿主细胞，其中

a)基序GX₁WASDLGGP(SEQ ID NO:331)位于所述CDS中的对应于SEQ ID NO:73中的残基117-126的残基处；

b)基序DX₁GWL(SEQ ID NO:332)位于所述CDS中的对应于SEQ ID NO:73中的残基479-483的残基处；和/或

c)基序CWGVCFTYAGW(SEQ ID NO:333)位于所述CDS中的对应于SEQ ID NO:73中的残基612-622的残基处。

3.一种包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中所述CDS包括：

a)基序GHWASDLGGP(SEQ ID NO:334)；和/或

b)基序DQGWL(SEQ ID NO:335)。

4.如权利要求3所述的宿主细胞，其中：

a)基序GHWASDLGGP(SEQ ID NO:334)位于所述CDS中的对应于SEQ ID NO:73中的残基117-126的残基处；和/或

b)基序DQGWL(SEQ ID NO:335)位于所述CDS中的对应于SEQ ID NO:73中的残基479-483的残基处。

5.一种包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中所述CDS包括：

a)基序GHWANDLGGP(SEQ ID NO:336)；

b)基序DQGWL(SEQ ID NO:335)；和/或

c)基序CWGVCYTYAGW(SEQ ID NO:337)。

6.如权利要求5所述的宿主细胞，其中：

a)基序GHWANDLGGP(SEQ ID NO:336)位于所述CDS中的对应于SEQ ID NO:73中的残基117-126的残基处；

b)基序DQGWL(SEQ ID NO:335)位于所述CDS中的对应于SEQ ID NO:73中的残基479-483的残基处；和/或

c)基序CWGVCYTYAGW(SEQ ID NO:337)位于所述CDS中的对应于SEQ ID NO:73中的残基612-622的残基处。

7.如权利要求1-6中任一项所述的宿主细胞，其中所述异源多核苷酸与SEQ ID NO:3、SEQ ID NO:9、或者SEQ ID NO:12至少90％一致。

8.如权利要求7所述的宿主细胞，其中所述CDS与SEQ ID NO:43、SEQ ID NO:49、或者SEQ ID NO:52至少90％一致。

9.如权利要求7所述的宿主细胞，其中所述异源多核苷酸与SEQ ID NO:3至少90％一致。

10.如权利要求8所述的宿主细胞，其中所述CDS与SEQ ID NO:43至少90％一致。

11.一种包括编码葫芦烷二烯醇合成酶(CDS)的异源多核苷酸的宿主细胞，其中所述异源多核苷酸序列与SEQ ID NO:3至少90％一致和/或由所述异源多核苷酸编码的所述CDS的氨基酸序列与SEQ ID NO:43至少90％一致，并且其中所述宿主细胞产生葫芦烷二烯醇化合物。

12.如权利要求1-11中任一项所述的宿主细胞，其中所述葫芦烷二烯醇化合物是24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。

13.如权利要求1-12中任一项所述的宿主细胞，其中所述CDS包括氨基酸残基处的亮氨酸，所述氨基酸残基对应于SEQ ID NO:743的位点123处的氨基酸残基。

14.如权利要求1-13中任一项所述的宿主细胞，其中所述CDS酶包括底物通道和活性位点空穴。

15.如权利要求1-14中任一项所述的宿主细胞，其中所述宿主细胞还包括一种或更多种编码UDP-糖基转移酶(UGT)、C11羟化酶、细胞色素P450还原酶、环氧化物酶(EPH)、和/或角鲨烯环氧酶的异源多核苷酸。

16.一种产生葫芦烷二烯醇化合物的方法，所述方法包括：

使权利要求1-15中任一项所述的宿主细胞与氧化角鲨烯接触，从而产生所述葫芦烷二烯醇化合物。

17.如权利要求16所述的方法，其中所述葫芦烷二烯醇化合物是24-25环氧-葫芦烷二烯醇或者葫芦烷二烯醇。

18.如权利要求16或17所述的方法，其中所述氧化角鲨烯是2-3-氧化角鲨烯或者2,3；22,23-二环氧角鲨烯。

19.如权利要求16-18中任一项所述的方法，其中所述方法还包括分离所述葫芦烷二烯醇化合物。

20.如权利要求1-15中任一项所述的宿主细胞，其中所述宿主细胞是酵母细胞、植物细胞、或者细菌细胞。

21.如权利要求20所述的宿主细胞，其中所述宿主细胞是酿酒酵母细胞。

22.如权利要求20所述的宿主细胞，其中所述宿主细胞是大肠杆菌细胞。

23.一种包括编码UDP-糖基转移酶(UGT)的异源多核苷酸的宿主细胞，其中所述UGT包括：

(a)对应于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的区，其中所述区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基83至92的氨基酸置换；和/或

(b)对应于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的区，其中所述区包括相对于野生型UGT94-289-1(SEQ ID NO:109)的残基179至198的氨基酸置换；

并且其中相对于包括编码野生型UGT94-289-1(SEQ ID NO:109)的异源多核苷酸的对照宿主细胞，所述宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

24.一种包括编码UDP-糖基转移酶(UGT)的异源多核苷酸的宿主细胞，其中所述UGT包括：

并且其中所述UGT包括与SEQ ID NO:109小于90％的一致性。

25.一种包括编码UDP-糖基转移酶(UGT)的异源多核苷酸的宿主细胞，其中所述UGT包括对应于野生型UGT94-289-1(SEQ ID NO:109)的H21/D122的催化二联体的7埃内的氨基酸残基处的氨基酸置换，其中相对于不包括所述氨基酸置换的相同UGT，所述UGT展现出比活性至少1.3倍的增加。

26.一种包括编码循环重排的UDP-糖基转移酶(UGT)的异源多核苷酸的宿主细胞，其中所述循环重排的UGT包括：

(a)催化二联体；以及

(b)辅因子结合位点；

其中所述催化二联体位于所述辅因子结合位点的C-末端,并且

其中相对于包括编码野生型UGT94-289-1(SEQ ID NO:109)的异源多核苷酸的对照宿主细胞，所述宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少10％、20％、30％、40％、50％、60％、70％、80％、90％、或者100％的一种或更多种罗汉果甙。

27.如权利要求26所述的宿主细胞，其中所述循环重排的UGT包括与表6中的序列至少90％一致的序列。

28.如权利要求23-25中任一项所述的宿主细胞，其中所述UGT包括与表3或者表7中的序列至少90％一致的序列。

29.如权利要求23、24和26-28中任一项所述的宿主细胞，其中相对于野生型UGT94-289-1(SEQ ID NO:109)，所述UGT展现出比活性至少1.3倍的增加。

30.如权利要求23-29中任一项所述的宿主细胞，其中所述UGT包括位于结构基序中氨基酸残基处的氨基酸置换，所述结构基序对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自环6、α螺旋3、环11、α螺旋6、环12和α螺旋7的结构基序。

31.如权利要求23-30中任一项所述的宿主细胞，其中所述UGT能够催化罗汉果醇至MIAI的转变；罗汉果醇至MIE1的转变；MIA1至MIIA1的转变；MIE1至MIIE的转变；MIIA1至MIIIA1的转变；MIA1至MIIE的转变；MIIA1至MIII的转变；MIIIA1至赛门苷I的转变；MIIE至MIII的转变；MIII至赛门苷I的转变；MIIE至MIIIE的转变；和/或MIIIE至赛门苷I的转变。

32.如权利要求23-31中任一项所述的宿主细胞，其中所述UGT能够：在C24处糖基化罗汉果醇；在C3处糖基化罗汉果甙；在C3处支化糖基化罗汉果甙；或者支化糖基化罗汉果甙C24。

33.如权利要求23-32中任一项所述的宿主细胞，其中所述UGT的比活性为每小时每克酶产生至少1mmol经糖基化的罗汉果甙目标。

34.如权利要求23-33中任一项所述的宿主细胞，其中所述UGT包括氨基酸残基处的氨基酸置换，所述氨基酸残基对应于野生型UGT94-289-1(SEQ ID NO:109)中的选自H83；T84；T85；N86；P89；L92；Y179；S180；A181；G184；A185；V186；T187；K189；H191；K192；G194；E195；和A198的氨基酸残基。

35.如权利要求34所述的宿主细胞，其中相对于表达编码不包括所述氨基酸置换的UGT的异源基因的宿主细胞，所述宿主细胞在存在至少一种罗汉果甙前体的情况下多产生至少40％、50％、60％、70％、80％、90％、或100％的一种或更多种罗汉果甙。

36.如权利要求23-35中任一项所述的宿主细胞，其中所述宿主细胞还包括编码葫芦烷二烯醇合成酶(CDS)、C11羟化酶、细胞色素P450还原酶、环氧化物酶(EPH)、和/或角鲨烯环氧酶的异源多核苷酸。

37.如权利要求36所述的宿主细胞，其中编码所述CDS的所述异源多核苷酸与SEQIDNO:3、SEQ ID NO:9、或者SEQ ID NO:12至少90％一致。

38.如权利要求37所述的宿主细胞，其中所述CDS与SEQ ID NO:43、SEQ ID NO:49、或者SEQ ID NO:52至少90％一致。

39.如权利要求23-38中任一项所述的宿主细胞，其中所述细胞是酵母细胞、植物细胞、或者细菌细胞。

40.如权利要求39所述的宿主细胞，其中所述宿主细胞是酿酒酵母细胞。

41.如权利要求39所述的宿主细胞，其中所述宿主细胞是大肠杆菌细胞。

42.一种产生罗汉果甙的方法，所述方法包括将权利要求23-40中任一项所述的宿主细胞与至少一种罗汉果甙前体培养。

43.如权利要求42所述的方法，其中所述罗汉果甙前体选自罗汉果醇、MIA1、MIIA1、MIIIA1、MIIE、MIII、和MIIIE。

44.如权利要求42或43所述的方法，其中产生的所述罗汉果甙选自MIA1、MIIA1、MIIIA1、MIIE、MIII、赛门苷、和MIIIE。