CN117616129A

CN117616129A - 用于产生莱苞迪苷d的组合物和方法

Info

Publication number: CN117616129A
Application number: CN202280024174.4A
Authority: CN
Inventors: K·E·罗伯茨; A·赞格利宁; D·格拉布斯; N·D·克里斯蒂安森; J·J·哈夫拉奈克; Y-E·A·巴恩; A·德夫科塔; M·南斯
Original assignee: ARZEDA CORP
Current assignee: ARZEDA CORP
Priority date: 2021-02-17
Filing date: 2022-02-17
Publication date: 2024-02-27
Also published as: PE20240694A1; BR112023016512A2; EP4294934A1; US20240368661A1; WO2022178145A1; CA3208720A1; CO2023010756A2; KR20240010448A; MX2023009628A; JP2024507361A

Abstract

本公开提供了酶以及使用那些酶将糖部分转移至底物甜菊醇糖苷的方法。具体来说，设计的β‑1，2‑糖基转移酶和蔗糖合酶用于一锅反应中，以将甜菊苷和Reb A转化为Reb E和Reb D。

Description

用于产生莱苞迪苷D的组合物和方法

相关申请的交叉引用

本申请要求2021年2月17日提交的美国临时专利申请号63/150,515的权益，所述专利申请的内容以全文引用的方式并入本文中。

序列表的并入

随本文以电子方式提交的文本文件的内容以全文引用的方式并入本文中：序列表的计算机可读格式副本(文件名：ARZE_034_01WO_SeqList_ST25.txt，记录日期：2022年2月17日，文件大小约6.84兆字节)。

技术领域

本公开涉及用于产生甜菊醇糖苷的酶和生物催化过程。本公开具体涉及可以将葡萄糖部分从ADP-葡萄糖供体转移至甜菊醇糖苷的糖基转移酶的用途。

背景技术

过量的糖消耗与世界范围内的健康流行病有关，包括糖尿病和心脏病。医疗保健系统因治疗这些疾病而产生高昂的费用。用低热量、高强度甜味剂代替食品中的添加糖将对健康和经济产生重大影响。

甜菊(Stevia rebaudiana)物种因其甜叶而广泛种植，在传统上已经用作甜味剂。甜菊提取物的甜度是糖的200-300倍并且在商业上用作高强度甜味剂。甜菊叶的主要糖苷组分是甜菊苷和莱苞迪苷(rebaudioside)。叶中存在大量的十多种不同的甜菊醇糖苷。主要甜味化合物是甜菊苷和莱苞迪苷A。认为莱苞迪苷A(Reb A)与甜菊苷相比具有更高的价值，这是因为它的甜味增加并且苦味减少。

与Reb A相比，莱苞迪苷D(Reb D)的甜味和苦味特征有所改善，但甜菊叶中存在的Reb D的量极低。可以通过向Reb A添加单个葡萄糖分子来制备Reb D。制备Reb D之天然糖基转移酶使用UDP-葡萄糖作为转移至Reb A的葡萄糖来源。

发明内容

本公开提供了酶，特别是非天然酶，以及使用那些酶将糖部分转移至底物甜菊醇糖苷(本文中也称作“SG”)的方法。具体地，在一锅反应中使用β-1，2-糖基转移酶(本文中也称作“B12GT”)和蔗糖合酶(本文中也称作“SuSy”)以将甜菊苷和Reb A分别转化为莱苞迪苷E(Reb E)和Reb D。

与天然糖基转移酶相反，本公开提供了糖基转移酶多肽，所述多肽可以利用ADP-葡萄糖作为糖供体以将Reb A转化为Reb D。本公开提供了糖基转移酶多肽，所述多肽包含与选自由SEQ ID NO：6-882和1333-1466组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。糖基转移酶多肽可以包含选自由SEQ ID NO：6-882和1333-1466组成的组的氨基酸序列或由其组成。多肽可以包含一种或多种用于溶解、表达和/或纯化的肽标签；例如，介于4个与10个之间的组氨酸残基并且优选6个组氨酸残基的聚组氨酸标签。其它适合的标签包括但不限于谷胱甘肽S-转移酶(GST)、FLAG、麦芽糖结合蛋白(MBP)、钙调蛋白结合肽(CBP)和Myc标签。适合的接头包括但不限于由甘氨酸和丝氨酸组成的多肽，诸如GSGS、聚甘氨酸接头、EAAAK重复序列，以及含有诸如因子Xa、肠激酶和凝血酶等酶的切割位点的序列。

核苷酸糖供体，包括UDP-葡萄糖和ADP-葡萄糖两者，是昂贵的共底物并且显著增加利用这些化合物的任何过程的成本。蔗糖合酶(SuSy；EC 2.4.1.13)催化核苷酸二磷酸(NDP)和蔗糖的化学反应，以形成NDP-葡萄糖和果糖。因此，蔗糖合酶可以用于将NDP转化为B12GT(示例性糖基转移酶)所需的NDP-葡萄糖。本公开提供了SuSy多肽，所述多肽包含与选自由SEQ ID NO：890-1227和1231-1332组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。具体地，所公开的蔗糖合酶可以将ADP转化为所公开的B12GT所需的ADP-葡萄糖辅因子。

另外，本公开提供了一种在一锅反应中利用与B12GT多肽组合的SuSy ADP-葡萄糖再循环系统以将Reb A和/或甜菊苷分别转化为Reb D和Reb E的方法。在一些实施方案中，所述方法包括使经纯化以含有大于50％Reb A(RA50)、ADP和蔗糖的甜菊叶提取物与B1，2糖基转移酶和蔗糖合酶接触以制备Reb D和/或Reb E。

附图说明

包括附图以提供对本公开的进一步理解。附图说明了本公开的实施方案并且与说明书一起用于解释本公开的实施方案的原理。

图1示出了莱苞迪苷A(Reb A)至莱苞迪苷D(Reb D)的转化(糖基化)。

图2示出了当使用ADP-葡萄糖或GDP-葡萄糖作为糖供体时所测量的三种天然UDP-葡萄糖B12GT的Reb A至Reb D活性。

图3示出了所测量的天然蔗糖合酶将ADP转化为ADP-葡萄糖(上)、将GDP转化为GDP-葡萄糖(中)以及将UDP转化为UDP-葡萄糖(下)的能力。

图4(上)示出了在B12GT pA10143和七种天然蔗糖合酶之一的一锅反应中所测量的Reb A至Reb D至Reb M2的转化。图4(下)示出了在B12GT pA12549和七种天然蔗糖合酶之一的一锅反应中所测量的Reb A至Reb D的转化。

图5示出了来自活性位点位点饱和诱变文库的pA10143的最佳设计。亲本酶pA10143以灰色示出。

图6示出了来自pA10143活性位点SSM文库的所有酶通过突变残基所测量的Reb A至Reb D的转化。

图7示出了由pA21841和pA29798的按比例放大的一锅反应产生的反应产物的LCMS色谱图。

图8示出了由pA21841和pA29646的按比例放大的一锅反应产生的反应产物的LCMS色谱图。

图9示出了从巴斯德毕赤酵母(Pichia pastoris)表达纯化的设计的B12GT的SDS-PAGE凝胶。

图10A示出了从1L巴斯德毕赤酵母发酵纯化的两种设计的B12GT的SDS-PAGE凝胶(从左至右的顺序：pA29798(B12GT-1)、梯形、pA32946(B12GT-2))。图10B示出了从1L巴斯德毕赤酵母发酵纯化的两种设计的SuSy的SDS-PAGE凝胶(从左至右的顺序：梯形、pA34103(SuSy-1)、梯形、pA32691(SuSy-2))。

具体实施方式

本公开提供了用于制备包含目标甜菊醇糖苷的组合物的酶和生物催化过程，所述过程是通过使包含底物甜菊醇糖苷、蔗糖和NDP的起始组合物与NDP-葡糖基转移酶多肽和蔗糖合酶接触，从而产生包含目标甜菊醇糖苷的组合物，所述目标甜菊醇糖苷包含一个或多个除底物甜菊醇糖苷以外的额外葡萄糖单元。

如本文所用，“生物催化”或“生物催化的”是指使用天然催化剂，诸如蛋白酶，以对有机化合物进行化学转化。生物催化或称为生物转化或生物合成。分离的细胞和全细胞生物催化方法在本领域中是已知的。生物催化剂蛋白酶可以是天然存在的或重组的蛋白质。

如本文所用，术语“甜菊醇糖苷”是指甜菊醇的糖苷，包括但不限于天然存在的甜菊醇糖苷，例如，甜菊醇-13-O-葡萄糖苷、甜菊醇-19-O-葡萄糖苷、甜茶苷、甜菊醇-1，2-二糖苷、甜菊醇-1，3-二糖苷、甜茶苷、杜尔可苷B(dulcoside B)、杜尔可苷A(dulcoside A)、莱苞迪苷B、莱苞迪苷G、甜菊苷、莱苞迪苷C、莱苞迪苷F、莱苞迪苷A、莱苞迪苷I、莱苞迪苷E、莱苞迪苷H、莱苞迪苷L、莱苞迪苷K、莱苞迪苷J、莱苞迪苷M、莱苞迪苷D、莱苞迪苷N、莱苞迪苷O、莱苞迪苷Q、合成甜菊醇糖苷(例如，酶促葡糖基化的甜菊醇糖苷)，以及它们的组合。

如本文所用，“起始组合物”是指含有一种或多种甜菊醇糖苷的任何组合物(一般是水溶液)，其中一种或多种甜菊醇糖苷用作生物转化的底物。

除非上下文有指示，否则如本文所用，术语“多核苷酸”和“核酸”可互换使用，并且用于指代任何长度的核苷酸的聚合形式，即核糖核苷酸或脱氧核糖核苷酸，通常是DNA。

如本文所用，“表达”是指两步过程中的任一个或两个步骤(视情形而定)，通过这个过程将多核苷酸转录成mRNA并且随后将转录的mRNA翻译成多肽。

“在转录控制下”意指多核苷酸(通常是DNA序列)的转录取决于其可操作地连接至促进转录的元件。

“可操作地连接”意指多核苷酸元件以允许它们在细胞中发挥功能(通常在细胞中产生多肽)的方式排列；例如，本公开提供了可操作地连接至编码多肽的下游序列的启动子。

术语“编码”是指多核苷酸产生mRNA或多肽的能力，条件是多核苷酸可以转录产生mRNA，然后翻译产生多肽或其片段。在每种情况下，将多核苷酸称作编码mRNA和编码多肽。反义链是这种核酸的互补链，并且可以从中推导出编码序列。类似地，“编码序列”是指编码mRNA或多肽的核酸区域。

如本文所用，术语“启动子”是指控制序列，所述序列是控制编码序列的转录起始和转录速率的多核苷酸序列的一部分。“增强子”是增加靶序列表达的调控元件。“启动子/增强子”是具有提供启动子和增强子功能的序列的多核苷酸。

调控元件，例如增强子和启动子，可以是“同源的”或“异源的”。“同源”调控元件是与基因组中的给定多核苷酸天然连接的调控元件；例如，它可以是生物体中天然存在于所编码的多肽上游的启动子。“异源”调控元件是借助于重组分子生物学技术与多核苷酸并置但不是自然界中发现的组合的调控元件。通常，启动子、增强子和其它调控元件是异源的，以促进多肽在除天然存在多肽的宿主细胞以外的宿主细胞中表达。因此，如本文所用，“异源表达”是指在宿主细胞，诸如微生物中产生mRNA和/或多肽，其中多核苷酸不是天然发现的，或者一个或多个调控元件并不天然发现可操作地连接至宿主细胞中的多核苷酸。

术语“多肽”在本文中用于指代由肽键连接的两个或更多个氨基酸亚基的分子。通常，但并非总是如此，多肽含有数百个氨基酸；例如，约400个至约800个氨基酸。

“质粒”是通常与染色体DNA分离并且能够独立于染色体DNA复制的DNA分子。在许多情况下，它是环状和双链的。本领域中已知，虽然质粒载体通常作为染色体外环状DNA分子存在，但质粒载体也可以被设计成随机地或以靶向方式稳定整合至宿主染色体中。许多质粒可商购用于多种用途。将待复制的基因插入含有使细胞对特定抗生素产生抗性的基因以及多克隆位点(MCS，或多接头)的质粒拷贝中，所述多克隆位点是含有数个常用限制性位点的短区域，从而允许在这个位置处容易地插入DNA片段。通常，本文所公开的多肽从质粒表达。

术语“约”或“近似”当紧邻数值之前时，意指一定范围(例如，那个值加或减10％)。举例而言，除非本公开的上下文另有指示，否则“约50”可以表示45至55，“约25,000”可以表示22,500至27,500等，或者与这种解释不一致。举例而言，在诸如“约49、约50、约55......”的数值列表中，“约50”表示延伸至小于前一个值与后一个值之间的间隔的一半的范围，例如，大于49.5至小于52.5。此外，短语“小于约”某个值或“大于约”某个值应根据本文所提供的术语“约”的定义来理解。类似地，术语“约”当在一系列数值或值范围之前(例如，“约10、20、30”或“约10-30”)时，分别是指这个系列中的所有值或这个范围的端点。

如本文所用，术语“微生物(microorganism/microbe)”应广义地理解。这些术语可互换使用，并且包括但不限于两个原核域，即细菌和古生菌，以及某些真核真菌和原生生物。在一些实施方案中，本公开涉及本公开中存在的列表和图式中的“微生物”。这种表征不仅可以指代已鉴定的分类属，还可以指代已鉴定的分类种，以及所述表格或图式中的任何生物体的各种新颖的和新鉴定或设计的菌株。相同的表征适用于说明书的其它部分，诸如实施例中对这些术语的叙述。

当提及核酸序列或蛋白质序列时，术语“同一性”用于表示两个序列之间的相似性。序列相似性或同一性可以使用本领域中已知的标准技术来确定，包括但不限于Smith和Waterman，Adv.Appl.Math.2，482(1981)的局部序列同一性算法，通过Needleman和Wunsch，J Mol.Biol.48，443(1970)的序列同一性比对算法，通过Pearson和Li pman，Proc.Natl.Acad.Sci.USA 85，2444(1988)的相似性搜索方法，通过这些算法的计算机化实现(Wisconsin Genetics Software Package，Genetics Computer Group，575ScienceDrive，Madison，WI的GAP、BESTFIT、FASTA和TFASTA)，Devereux等人，Nucl.Acid Res.12，387-395(1984)所描述的最佳拟合序列程序，或通过检查。另一种适合的算法是BLAST算法，在Altschul等人，J Mol.Biol.215，403-410，(1990)和Karlin等人，Proc.Natl.Acad.Sci.USA 90，5873-5787(1993)中描述。示例性BLAST程序是WU-BLAST-2程序，获自Altschul等人，Methods in Enzymology，266，460-480(1996)；blast.wustl/edu/blast/README.html。WU-BLAST-2使用数个搜索参数，任选地将这些参数设置为默认值。参数是动态值并且由程序本身根据序列的组成和正在搜索所关注的序列的特定数据库的组成来建立；然而，可以调整这些值以提高灵敏度。另一种算法是空位BLAST，如Altschul等人，(1997)Nucleic Acids Res.25，3389-3402所报道。本文可以描述其它算法。

本公开提供了非天然的、工程化的β-1，2-ADP糖基转移酶(B12GT)，它可以使用ADP-葡萄糖供体将甜菊苷转化为Reb E并将Reb A转化为Reb D。在一个特定实施方案中，葡糖基转移酶多肽是SEQ ID NO：6-882和1333-1466之一。在另一个实施方案中，葡糖基转移酶多肽是与SEQ ID NO：6-882和1333-1466之一至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％相同的多肽序列。

在生物信息学中，已经开发了若干方法来查找和确定相关的多肽序列。举例而言，序列同一性百分比、位置特异性评分矩阵(PSSM)和隐马尔可夫模型(hidden Markovmodel，HMM)都常用于查找与给定查询序列相似的序列。序列同一性百分比计算两个序列之间共享的氨基酸的数目。序列同一性百分比是在两个序列之间给定比对的情形中计算的。可以使用比对程序Clustal Omega(在/www.ebi.ac.uk/Tools/msa/clustalo/可获得)用默认设置来计算同一性百分比。默认转移矩阵是Gonnet，空位开放罚分为6位，并且空位扩展是1位。Clustal Omega使用HHalign算法及其默认设置作为其核心比对引擎。这种算法在J.(2005)′Protein homology detection by HMM-HMM comparison′.Bioinformatics 21，951-960中描述。

位置特异性评分矩阵(PSSM)是表示许多相关序列的简洁方式。PSSM通常是使用多重序列比对生成的。序列搜索工具PSI-BLAST生成PSSM并且使用它们来搜索相关多肽序列。用于对多肽序列进行评分的PSSM是由21列×N行组成的矩阵(即表格)，其中N是相关序列的长度。每行对应于多肽序列内的一个位置，并且每列代表残基位置可以呈现的不同氨基酸(或空位)。PSSM中的每个条目代表多肽序列内特定位置处的特定氨基酸的分数。可以使用PSSM，通过首先将序列与参考序列进行比对，然后计算以下总和来对序列进行评分：其中i是序列位置并且aa_i是位置i处的氨基酸。相关多肽序列将全部具有高PSSM分数，而无关序列将得到低分数。

本公开还提供了非天然的、工程化的蔗糖合酶(SuSy)，它可以使用蔗糖供体将ADP转化为ADP-葡萄糖。在一个特定实施方案中，SuSy多肽是SEQ ID NO：890-1227和1231-1332之一。在另一个实施方案中，SuSy多肽是与SEQ ID NO：890-1227和1231-1332之一至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％相同的多肽序列。

在一些实施方案中，葡糖基转移酶和/或蔗糖合酶多肽通过在宿主微生物中表达来制备。适合的宿主微生物包括但不限于大肠杆菌(E.coli)、酵母属(Saccharomycessp.)、曲霉属(Aspergillus sp.)、毕赤酵母属(Pichia sp.)、芽孢杆菌属(Bacillus sp.)。在一个特定实施方案中，葡糖基转移酶和蔗糖合酶在大肠杆菌中表达。在一个特定实施方案中，葡糖基转移酶和蔗糖合酶在巴斯德毕赤酵母中表达。

B12GT和/或SuSy多肽可以呈任何适合的形式提供，包括游离的、固定的或作为全细胞系统。葡糖基转移酶多肽的纯度可以变化，例如，它可以作为粗制、半纯化或纯化的酶制剂提供。在一个实施方案中，糖基转移酶多肽是游离的。在另一个实施方案中，糖基转移酶多肽固定至固体支持物，例如，无机或有机支持物上。在一些实施方案中，固体支持物是衍生的纤维素、玻璃、陶瓷、甲基丙烯酸酯、苯乙烯、丙烯酸、金属氧化物或膜。在一些实施方案中，葡糖基转移酶多肽通过共价连接、吸附、交联、包埋或封装固定至固体支持物。

在又一个实施方案中，B12GT和/或SuSy多肽以全细胞系统的形式提供，例如，作为活的发酵微生物细胞，或作为死的且稳定的微生物细胞，或呈细胞溶解产物的形式。

本公开提供了一种用于从包含底物甜菊醇糖苷的起始组合物制备包含目标甜菊醇糖苷的组合物的生物催化过程，其中所述目标甜菊醇糖苷包含一个或多个除底物甜菊醇糖苷以外的额外葡萄糖单元。生物催化过程包括使B12GT和SuSy与包含一种或多种甜菊醇糖苷、非UDP核苷酸二磷酸和蔗糖的起始组合物接触。在另一个实施方案中，生物催化过程包括使工程化的B12GT和SuSy与包含一种或多种甜菊醇糖苷、非UDP核苷酸二磷酸和蔗糖的起始组合物接触。在另一个实施方案中，生物催化过程包括使工程化的B12GT和工程化的SuSy与包含一种或多种甜菊醇糖苷、非UDP核苷酸二磷酸和蔗糖的起始组合物接触。在一些实施方案中，所述方法包括使RA50、ADP和蔗糖与工程化的B1，2糖基转移酶和蔗糖合酶接触以制备Reb D和Reb E。

在一个实施方案中，B12GT多肽是SEQ ID NO：1-882和1333-1466之一。在另一个实施方案中，葡糖基转移酶多肽是与SEQ ID NO：1-882至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％相同的多肽序列。在另一个实施方案中，葡糖基转移酶多肽是与SEQ ID NO：6-882和1333-1466之一至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％相同的多肽序列。优选地，B12GT多肽中的催化结构域含有对应于根据SEQ ID NO：5编号在位置15处的H、位置114处的D、位置357处的D和位置358处的Q的残基。

在一个实施方案中，蔗糖合酶是具有蔗糖合酶活性的任何多肽。在另一个实施方案中，蔗糖合酶来源于细菌域的生物体。在另一个实施方案中，蔗糖合酶来源于植物界的生物体。在另一个实施方案中，蔗糖合酶来源于植物界的生物体。在另一个实施方案中，蔗糖合酶来源于变形菌门(proteobacteria)、脱铁杆菌门(deferribacteres)或蓝细菌门(cyanobacteria phylum)的生物体。在另一个实施方案中，蔗糖合酶来源于以下物种：喜温嗜酸硫杆菌(Aciditbiobacillus caldus)、欧洲亚硝化单胞菌(Nitrosomonas europaea)、嗜醋脱硝弧菌(Denitrovibrio acetiphilus)、细长嗜热聚球藻(Thermosynechococcuselongatus)、亚洲栽培稻(Oryza sativa)、拟南芥(Arabidopsis thaliana)或小粒咖啡(Coffea arabica)。在一个实施方案中，蔗糖合酶是SEQ ID NO：883-1227和1231-1332之一。在另一个实施方案中，蔗糖合酶是具有与SEQ ID NO：883-1227之一至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高序列同一性的多肽序列的工程化蔗糖合酶。在另一个实施方案中，蔗糖合酶是具有与SEQ ID NO：890-1227和1231-1332之一至少60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高序列同一性的多肽序列的工程化蔗糖合酶。优选地，SuSy多肽中的催化结构域含有对应于根据SEQ ID NO：885编号在位置425处的H、位置567处的R、位置572处的K和位置663处的E的残基，或对应于根据SEQ ID NO：888编号在位置436处的H、位置578处的R、位置583处的K和位置674处的E的残基。

在一些实施方案中，葡糖基转移酶和/或蔗糖合酶多肽通过在宿主微生物中表达来制备。适合的宿主微生物包括但不限于大肠杆菌、酵母属、曲霉属、毕赤酵母属、芽孢杆菌属。在一个特定实施方案中，葡糖基转移酶和蔗糖合酶在大肠杆菌中表达。在另一个实施方案中，葡糖基转移酶和蔗糖合酶在巴斯德毕赤酵母中表达。在另一个实施方案中，葡糖基转移酶和/或蔗糖合酶多肽通过无细胞表达来制备。

B12GT和蔗糖合酶多肽可以呈任何适合的形式提供，包括游离的、固定的或作为全细胞系统。多肽的纯度可以变化，例如，它们可以作为粗制、半纯化或纯化的酶制剂提供。在一个实施方案中，B12GT和/或SuSy多肽是游离的。在另一个实施方案中，B12GT和/或SuSy多肽固定至固体支持物，例如，无机或有机支持物上。在一些实施方案中，固体支持物是衍生的纤维素、玻璃、陶瓷、甲基丙烯酸酯、苯乙烯、丙烯酸、金属氧化物或膜。在一些实施方案中，B12GT和/或SuSy多肽通过共价连接、吸附、交联、包埋或封装固定至固体支持物。

在又一个实施方案中，B12GT和/或SuSy多肽以全细胞系统的形式提供，例如，作为活的发酵微生物细胞，或作为死的且稳定的微生物细胞，或呈细胞裂解物的形式。

如本文所描述，起始组合物的甜菊醇糖苷组分充当用于产生目标甜菊醇糖苷的底物。目标甜菊醇糖苷靶标因添加一个或多个葡萄糖单元而在化学上不同于其相应的底物甜菊醇糖苷。

起始甜菊醇糖苷组合物可以含有至少一种底物甜菊醇糖苷。在一个实施方案中，底物甜菊醇糖苷选自由以下组成的组：甜菊醇、甜菊醇-13-O-葡萄糖苷、甜菊醇-19-O-葡萄糖苷、甜茶苷、甜菊醇-1，2-二糖苷、甜菊醇-1，3-二糖苷、甜茶苷、杜尔可苷B、杜尔可苷A、莱苞迪苷B、莱苞迪苷G、甜菊苷、莱苞迪苷C、莱苞迪苷F、莱苞迪苷A、莱苞迪苷I、莱苞迪苷E、莱苞迪苷H、莱苞迪苷L、莱苞迪苷K、莱苞迪苷J、莱苞迪苷M、莱苞迪苷D、莱苞迪苷N、莱苞迪苷O、莱苞迪苷Q、其异构体、合成甜菊醇糖苷，或它们的组合。在另一个实施方案中，起始甜菊醇糖苷组合物由甜菊苷和Reb A组成。在另一个实施方案中，起始甜菊醇糖苷组合物由甜菊苷组成。在又一个实施方案中，起始甜菊醇糖苷组合物由Reb A组成。

起始甜菊醇糖苷组合物可以是合成的或纯化的(部分或完全)、可商购的或制备的。可用于本公开的方法的起始组合物的一个实例是从甜菊植物材料(例如，叶)的纯化获得的提取物。起始组合物的另一个实例是用溶剂制成溶液的可商购的甜菊提取物。起始组合物的又一个实例是用溶剂制成溶液的可商购的甜菊醇糖苷混合物。其它适合的起始组合物包括分离和纯化甜菊醇糖苷的过程的副产物。

在一个实施方案中，起始组合物包含纯化的底物甜菊醇糖苷。举例来说，在无水基础上以重量计，起始组合物可以包含大于约50％、大于约60％、大于约70％、大于约80％、大于约85％、大于约90％、大于约91％、大于约92％、大于约93％、大于约94％、大于约95％、大于约96％、大于约97％、大于约98％、大于约99％或大于约99.6％的一种或多种底物甜菊醇糖苷。

在另一个实施方案中，起始组合物包含部分纯化的底物甜菊醇糖苷组合物。举例来说，在无水基础上以重量计，起始组合物含有大于约0.5％、大于约1％、大于约2％、大于约3％、大于约4％、大于约5％、大于约10％、大于约20％、大于约30％、大于约40％或大于约50％的一种或多种底物甜菊醇糖苷。

在另一个实施方案中，底物甜菊醇糖苷是纯化的莱苞迪苷A或其异构体。在一个特定实施方案中，在无水基础上以重量计，底物甜菊醇糖苷含有大于99％的莱苞迪苷A或其异构体。在另一个实施方案中，底物甜菊醇糖苷包含部分纯化的莱苞迪苷A。在一个特定实施方案中，在无水基础上以重量计，底物甜菊醇糖苷含有大于约1％、5％、10％、20％、30％、40％、50％、60％、70％、80％或90％的莱苞迪苷A。

在又一个实施方案中，底物甜菊醇糖苷包含纯化的甜菊苷或其异构体。在一个特定实施方案中，在无水基础上以重量计，底物甜菊醇糖苷含有大于99％的甜菊苷或其异构体。在另一个实施方案中，底物甜菊醇糖苷包含部分纯化的甜菊苷。在一个特定实施方案中，在无水基础上以重量计，底物甜菊醇糖苷含有大于约10％、20％、30％、40％、50％、60％、70％、80％或90％的甜菊苷。

在又一个实施方案中，底物甜菊醇糖苷是甜菊苷和莱苞迪苷A的组合。在一个特定实施方案中，在无水基础上以重量计，底物甜菊醇糖苷含有大于约5％的甜菊苷和大于约5％的Reb A、大于约10％的甜菊苷和大于约10％的Reb A、大于约20％的甜菊苷和大于约20％的Reb A、大于约30％的甜菊苷和大于约30％的Reb A、大于约40％的甜菊苷和大于约40％的Reb A、大于约45％的甜菊苷和大于约45％的Reb A、大于约40％的甜菊苷和大于约50％的Reb A、大于约30％的甜菊苷和大于约60％的Reb A、大于约20％的甜菊苷和大于约70％的Reb A、大于约10％的甜菊苷和大于约80％的Reb A、大于约5％的甜菊苷和大于约90％的Reb A、大于约50％的甜菊苷和大于约40％的Reb A、大于约60％的甜菊苷和大于约30％的Reb A、大于约70％的甜菊苷和大于约20％的Reb A、大于约80％的甜菊苷和大于约10％的Reb A、或大于约90％的甜菊苷和大于约5％的Reb A。

在另一个实施方案中，底物甜菊醇糖苷来源于甜菊叶提取物。在一个实施方案中，RA50，经纯化以含有大于50％Reb A的甜菊叶提取物，用作甜菊醇糖苷底物。在一个实施方案中，RA50以介于约1与800mg/mL之间的浓度使用。在另一个实施方案中，RA50以约100mg/mL的浓度使用。

一锅反应可以用核苷酸辅因子进行，所述核苷酸辅因子可以由蔗糖合酶转化为NDP-葡萄糖。在一些实施方案中，核苷酸可以是非UDP核苷酸(即ADP-葡萄糖、GDP-葡萄糖、CDP-葡萄糖或TDP-葡萄糖)。在另一个实施方案中，核苷酸是ADP。在一个特定实施方案中，可以用浓度介于约0.01与10mM之间，诸如介于0.01mM与0.05mM之间、介于0.05mM与0.1mM之间、介于0.1mM与0.5mM之间、介于0.5mM与1mM之间、介于1mM与5mM之间、或介于5mM与10mM之间的ADP进行一锅反应。在一个特定实施方案中，ADP以0.5mM的浓度使用。

可以用浓度介于约10mM与2M之间，诸如大于10mM、大于50mM、大于100mM、大于250mM、大于500mM、大于1M、大于1.5M和大于2M的蔗糖进行一锅反应。在一个特定实施方案中，蔗糖以250mM的浓度使用。

在一个实施方案中，在任何温度下进行反应。在另一个实施方案中，在介于约10℃与80℃之间的温度下进行一锅反应。例如，介于10℃至20℃之间、介于20℃至30℃之间、介于30℃至40℃之间、介于40℃至50℃之间、介于50℃至60℃之间、介于60℃至70℃之间、介于70℃至80℃之间、或80℃。在一个特定实施方案中，在60℃下进行一锅反应。

用于转化的反应介质一般是水性的，例如，纯化水、缓冲液或它们的组合。在一个特定实施方案中，反应介质是缓冲液。适合的缓冲液包括但不限于乙酸盐缓冲液、柠檬酸盐缓冲液、HEPES和磷酸盐缓冲液。在一个特定实施方案中，反应介质是磷酸盐缓冲液。反应介质的pH可以介于约4与10之间。在一个特定实施方案中，反应介质的pH为6。或者，反应介质也可以是有机溶剂。

使起始组合物与糖基转移酶和蔗糖合酶多肽接触的步骤可以在介于约1小时与1周之间的持续时间内进行，诸如介于30分钟与1小时之间、介于1小时与4小时之间、介于4小时与6小时之间、介于6小时与12小时之间、介于12小时与24小时之间、介于1天与2天之间、介于2天与3天之间、介于3天与4天之间、介于4天与5天之间、介于6天与7天之间。在一个特定实施方案中，反应进行24小时。

可以通过适合的方法监测反应，包括但不限于HPLC、LCMS、TLC、IR或NMR。

目标甜菊醇糖苷可以是任何甜菊醇糖苷。在一个实施方案中，目标甜菊醇糖苷是甜菊醇-13-O-葡萄糖苷、甜菊醇-19-O-葡萄糖苷、甜茶苷、甜菊醇-1，2-二糖苷、甜菊醇-1，3-二糖苷、甜茶苷、杜尔可苷B、杜尔可苷A、莱苞迪苷B、莱苞迪苷G、甜菊苷、莱苞迪苷C、莱苞迪苷F、莱苞迪苷A、莱苞迪苷I、莱苞迪苷E、莱苞迪苷H、莱苞迪苷L、莱苞迪苷K、莱苞迪苷J、莱苞迪苷M、莱苞迪苷D、莱苞迪苷N、莱苞迪苷O、莱苞迪苷Q、具有7个共价连接的葡萄糖单元的莱苞迪苷(例如，莱苞迪苷M加上1个葡萄糖单元)、合成甜菊醇糖苷、其异构体和/或甜菊醇糖苷组合物。在另一个实施方案中，目标甜菊醇糖苷是莱苞迪苷E或其异构体。在另一个实施方案中，目标甜菊醇糖苷是莱苞迪苷D或其异构体。在另一个实施方案中，目标甜菊醇糖苷是Reb D和Reb E。

在一个实施方案中，如通过上文所提及的方法中的任一者所确定，Reb A至Reb D和/或Reb D异构体的转化完成至少约2％。在一个特定实施方案中，Reb A至Reb D和/或RebD异构体的转化完成至少约10％、完成至少约20％、完成至少约30％、完成至少约40％、完成至少约50％、完成至少约60％、完成至少约70％、完成至少约80％或完成至少约90％。在一个特定实施方案中，reb A至reb D和/或rebD异构体的转化完成至少约95％。在一些实施方案中，起始组合物中至少约5％、10％、20％、30％、40％、50％、60％、70％、80％或90％的RebA转化为Reb D和/或Reb D异构体。

在一个实施方案中，如通过上文所提及的方法中的任一者所确定，甜菊苷至Reb E和/或Reb E异构体的转化完成至少约2％。在一个特定实施方案中，甜菊苷至Reb E和/或Reb E异构体的转化完成至少约10％、完成至少约20％、完成至少约30％、完成至少约40％、完成至少约50％、完成至少约60％、完成至少约70％、完成至少约80％或完成至少约90％。在一个特定实施方案中，甜菊苷至Reb E和/或Reb E异构体的转化完成至少约95％。在一些实施方案中，起始组合物中至少约5％、10％、20％、30％、40％、50％、60％、70％、80％或90％的甜菊苷转化为Reb E和/或Reb E异构体。

目标甜菊醇糖苷可以是任何多晶型或无定型，包括水合物、溶剂化物、无水物或它们的组合。

任选地，本公开的方法还包括从目标组合物中分离目标甜菊醇糖苷。目标甜菊醇糖苷可以通过任何适合的方法分离，诸如结晶、膜分离、离心、萃取、色谱分离或这类方法的组合。

在一个实施方案中，在无水基础上以重量计，目标甜菊醇糖苷的分离产生包含大于约80％的目标甜菊醇糖苷的组合物，即高度纯化的甜菊醇糖苷组合物。在另一个实施方案中，分离产生包含以重量计大于约0.5％、大于约1％、大于约2％、大于约3％、大于约4％、大于约5％、大于约10％、大于约20％、大于约30％、大于约40％、大于约50％、大于约60％、大于约70％、大于约80％、大于约85％、大于约90％、大于约91％、大于约92％、大于约93％、大于约94％、大于约95％、大于约96％、大于约97％、大于约98％、大于约99％或大于约99.6％的目标甜菊醇糖苷的组合物。在特定实施方案中，组合物包含以重量计大于约95％的目标甜菊醇糖苷。

纯化的目标甜菊醇糖苷可以作为甜味剂用于消费品中。适合的消费品包括但不限于食品、饮料、药物组合物、烟草产品、营养品组合物、口腔卫生组合物和化妆品组合物。

含有编码具有SEQ ID NO：1-1227和1231-1466的酶的核酸的质粒在下表1中描述。

表1

实施例

实施例1：天然β-1，2-糖基转移酶(B12GT)的体内产生

合成(Twist Bioscience)编码来自五种不同生物体(表1.1)的已知β-1，2-UDP-糖基转移酶的氨基酸序列的多核苷酸并插入pARZ4表达载体中。多核苷酸要么作为全长基因排序，要么作为基因片段排序，然后使用吉布森组装(Gibson assembly)进行组装。在热冲击法中使用重组载体来转化大肠杆菌HMS174(DE3)(Novagen)，从而制备重组微生物。

将每种转化的重组微生物接种至1ml LB-卡那霉素培养基中，通过在37℃下振荡培养过夜。将培养物接种至5ml TB-卡那霉素培养基中并在37℃下生长2小时，随后在25℃下生长1小时。用50uL 50mM IPTG诱导培养物并生长过夜。最后，将培养物高速离心5分钟并储存于-80℃下。

表1.1.天然β-1，2-UDP-糖基转移酶

质粒ID	生物体
		pA10132	粳稻(Oryza sativa subsp.japonica，Rice)
pA10143	番茄(Solanum lycopersicum，Tomato)
		pA12549	枸杞(Lycium barbarum，Barbary matrimony-vine)
pA12550	番茄
		pA28422	马铃薯(Solanum tuberosum，Potato)

实施例2：β-1，2-糖基转移酶(B12GT)的纯化

将实施例1中产生的微生物溶解于裂解缓冲液(溶菌酶、DNAseI、Bugbuster、300mL20mM HEPES pH 7.5、500mM NaCl和20mM咪唑)中。将两个至三个玻璃珠添加至每个孔中并通过在25℃和220rpm下振荡30分钟来破碎。将破碎的液体以2200xg离心6-10分钟。将获得的上清液加载至Ni-NTA板上并在室温下振荡10分钟。将板以100xg离心4分钟，随后用500uL结合缓冲液(300mL 20mM HEPES pH 7.5、500mM NaCl、20mM咪唑)洗涤两次并离心两分钟(500xg)。用150uL洗脱缓冲液(15mL 20mM HEPES pH 7.5、500mM NaCl、500mM咪唑)洗脱蛋白质并以0.25倍最大振荡速度振荡1分钟，随后以500xg离心2分钟。将回收的蛋白质脱盐至缓冲溶液中以用于酶活性评估(50mM HEPES pH 7.5、50mM NaCl)。

实施例3：用ADP-葡萄糖和GDP-葡萄糖测量β-1，2-糖基转移酶(B12GT)活性

用ADP-葡萄糖和GDP-葡萄糖测定野生型β-1，2-UDP-糖基转移酶pA10132、pA10143和pA12549的活性。在30℃下使纯化的蛋白质与0.5mM RA99(99％Pure Reb A)、2mM NDP-葡萄糖(ADP-葡萄糖或GDP-葡萄糖)于50mM MOPS pH 7.8缓冲液中反应72小时。如图1中图示，通过使用Agilent 6470 QQQ质谱仪(柱：Waters ACQUITY UPLC HSS T3柱，100mm x 2.1mm)进行液相色谱-质谱法(LCMS)来监测Reb A至Reb D的转化。通过多反应监测(MS/MS)运行QQQ，以准确定量所关注的甜菊醇糖苷。当使用ADP-葡萄糖或GDP-葡萄糖作为反应糖供体时，所有三种野生型B12GT都具有最小的Reb A至Reb D活性(图2)。

实施例4：天然蔗糖合酶的体内产生

合成(Twist Bioscience)编码来自七种不同生物体(表2)的蔗糖合酶(SuSy)的氨基酸序列的多核苷酸并插入pARZ4表达载体中。多核苷酸要么作为全长基因排序，要么作为基因片段排序，然后使用吉布森组装进行组装。在热冲击法中使用重组载体来转化大肠杆菌NEBT7EL(New England Biolabs)，从而制备重组微生物。

表2.野生型蔗糖合酶序列

质粒ID	生物体
		pA10142	拟南芥
pA12546	小粒咖啡
		pA21838	喜温嗜酸硫杆菌
pA21839	欧洲亚硝化单胞菌
		pA21840	嗜醋脱硝弧菌
pA21841	细长嗜热聚球藻
		pA21842	粳稻

实施例5：天然蔗糖合酶的纯化

将实施例4中产生的微生物溶解于裂解缓冲液(溶菌酶、DNAseI、Bugbuster、300mL20mM HEPES pH 7.5、500mM NaCl和20mM咪唑)中。将两个至三个玻璃珠添加至每个孔中并通过在25℃和220rpm下振荡30分钟来破碎。将破碎的液体以2200xg离心6-10分钟。将获得的上清液加载至Ni-NTA板上并在室温下振荡10分钟。将板以100xg离心4分钟，随后用500uL结合缓冲液(300mL 20mM HEPES pH 7.5、500mM NaCl、20mM咪唑)洗涤两次并离心两分钟(500xg)。用150uL洗脱缓冲液(15mL 20mM HEPES pH 7.5、500mM NaCl、500mM咪唑)洗脱蛋白质并以0.25倍最大振荡速度振荡1分钟，随后以500xg离心2分钟。将回收的蛋白质脱盐至缓冲溶液中以用于酶活性评估(50mM MOPS pH 6.5、50mM NaCl)。

实施例6：用UDP、GDP和ADP测量蔗糖合酶活性

在60℃下使来自实施例5的纯化酶与50mM蔗糖和5mM核苷酸(ADP、GDP或UDP)于50mM MOPS缓冲液(pH 6.5)和50mM NaCl中反应24小时。通过使用Agilent 6545QTOF质谱仪(柱：Agilient HILIC-OH 150x2.1mm)进行液相色谱-质谱法(LCMS)来监测NDP至NDP-葡萄糖的转化。野生型蔗糖合酶对所有三种核苷酸都有活性(图3)。

实施例7：一锅反应中Reb A至Reb D的转化

进行了含有B12GT和SuSy的一锅反应，以证明使用SuSy生成的ADP-葡萄糖将Reb A转化为Reb D的能力。在30℃下使纯化的B12GT(pA10143(图4(上))或pA12549(图4(下)))和纯化的SuSy(pA10142、pA12546、pA21838、pA21839、pA21840、pA21841或pA21842)与0.5mg/mL RA99、50mM蔗糖和5mM ADP于50mM pH 6.5MOPS缓冲液、3.0mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。所有一锅反应都能够从Reb A生成Reb D(图4)。含有pA10143的一锅反应进一步将生成的Reb D转化为Reb M2。

实施例8：通过位点饱和诱变改善pA10143的活性

生成了pA10143编码的B12GT的同源模型并用于鉴定蛋白质的活性位点残基。选择了以下二十个活性位点残基位置用于位点饱和诱变：81、82、88、139、178、185、260、284、317、320、324、332、336、339、341、358、359、360、362、363。使用桥接寡核苷酸的吉布森组装用于产生pA10143的217个单点突变变体(SEQ ID NO：6-222)。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与4mg/mL RA50、40mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液、3.0mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种变体显示出与亲本pA10143相比改善的活性(图5)。活性位点位置358、341和317具有最大的活性改善(图6)。

实施例9：通过计算设计改善pA10143的活性

pA10143编码的B12GT的同源模型用作计算设计的输入以改善pA10143。进行计算设计以改善B12GT的稳定性和表达。选择九十三种计算设计用于实验验证(SEQ ID NO：223-315)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与4mg/mL RA50、40mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液、3.0mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种变体显示出与亲本pA10143相比改善的表达和/或Reb D转化(18％转化，39uM纯化蛋白；表3)。

表3.pA10143的最佳计算设计

还使用协同进化信息进行pA10143的计算设计以改善B12GT的稳定性和表达。选择六十种计算设计用于实验验证(SEQ ID NO：316-375)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与4mg/mL RA50、40mM蔗糖和1mM ADP于50mM pH7磷酸盐缓冲液、3.0mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。计算设计变体显示出与亲本pA10143相比改善的表达和/或Reb D转化(4.7％转化，35uM纯化蛋白；表4)。

表4.pA10143的最佳计算设计

还进行pA10143的计算设计以将活性位点突变组合。选择九种计算设计用于实验验证(SEQ ID NO：376-384)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与4mg/mL RA50、40mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液、3.0mMMgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。最佳设计pA32576显示出与亲本pA10143相当的活性(21％转化；表5)。

表5.pA10143的最佳计算设计

ID	转化％	纯化浓度(uM)
			pA32576	20.1	63.1
pA32568	0.9	20
			pA32572	0.7	21.8
pA32569	0.7	25.2
			pA32571	0.6	18.7
pA32570	0.6	24.5
			pA32573	0.5	24.3
pA32567	0.5	21.7
			pA32574	0.3	14.7

还进行pA10143的计算设计以将额外突变组合。选择七十五种计算设计用于实验验证(SEQ ID NO：385-459)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与4mg/mL RA50、40mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液、3.0mMMgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。计算设计变体显示出Reb A至Reb D的转化(表6)。

表6.pA10143的最佳计算设计

ID	转化％	纯化浓度(uM)
			pA33106	3.9	9.4
pA33091	2.7	11.8
			pA33123	2.2	10.2
pA33137	1.1	57.5
			pA33154	0.7	15.8
pA33149	0.6	14.7
			pA33088	0.6	13.4
pA33086	0.5	17.3
			pA33110	0.5	19.7
pA33083	0.2	21.9
			pA33085	0.1	15.3
pA33165	0.1	17.2

实施例10：通过计算设计改善pA12549的活性

pA12549编码的B12GT的同源模型用作计算设计的输入以改善pA12549。进行pA12549的计算设计以将已知对同源B12GT有益的活性位点突变组合。选择八种计算设计用于实验验证(SEQ ID NO：460-467)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与0.5mg/mL RA99、10mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液、3.0 mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种变体显示出与亲本pA12549相比改善的表达和/或Reb D转化(表7)。

表7.最佳pA12549计算设计

ID	转化％	纯化浓度(uM)
			pA32563	12.7	9.2
pA32562	8	6.8
			pA32565	6.5	38.9
pA32560	4.6	10.1
			pA32566	4.5	11.2
pA32558	3.6	11.6
			pA32559	1.7	12.1

还进行pA12549的计算设计以将已知对同源B12GT有益的突变组合。选择六十七种计算设计用于实验验证(SEQ ID NO：468-534)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用SuSy，即pA10142测定每个B12GT变体。在30℃下使纯化的B12GT和SuSy与0.5mg/mL RA99、10mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。一种计算设计变体显示出Reb A至Reb D的转化改善(表8)。

表8.最佳pA12549计算设计

实施例11：通过计算设计改善来自拟南芥的SUS1的活性和表达

来自拟南芥的SUS1晶体结构用作计算设计的输入以改善pA10142。进行计算设计以改善SuSy的稳定性和表达。选择三十五种计算设计用于实验验证(SEQ ID NO：890-924)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个SuSy变体。在一锅反应中用B12GT，即pA10143测定每个SuSy变体。在30℃下使纯化的B12GT和SuSy与4mg/mLRA50、40mM蔗糖和1mM ADP于50mM pH 7磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种变体显示出与亲本pA10142相比改善的表达和/或Reb D转化。最佳设计显示出高达2倍的产率改善和3倍的表达改善(43％转化，8uM纯化蛋白；表9)。

表9.pA10142的最佳计算设计

实施例12：ADP-葡萄糖依赖性B12GT的计算设计

生成了pA28422的B12GT变体的结构模型并且用作计算设计的起点。进行计算设计以改善B12GT的稳定性和表达。选择五十二种计算设计用于实验验证(SEQ ID NO：535-586)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液、3mM MgCl₂和50mMNaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表10)。

表10.最佳B12GT计算设计

还使用协同进化信息进行计算设计以改善B12GT的稳定性和表达。选择八十五种计算设计用于实验验证(SEQ ID NO：587-671)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH6磷酸盐缓冲液、3mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表11)。

表11.最佳B12GT计算设计

还通过重新设计和重新包装埋藏的蛋白质核心进行计算设计以改善B12GT的稳定性和表达。选择三十五种计算设计用于实验验证(SEQ ID NO：672-706)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液、3mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表12)。

表12.最佳B12GT计算设计

ID	转化％	纯化浓度(uM)
			pA30048	86.4	96.8
pA30047	50.9	106.7
			pA30027	48.7	168
pA30050	35.9	185.3
			pA30037	26.7	95.9
pA30019	24.4	93.4
			pA30034	23.5	69.8
pA30028	14.1	229.9
			pA30031	13.8	9.6
pA30036	13.3	107.1
			pA30017	12.9	68.2
pA30040	8.5	48.2
			pA30049	8.3	209.7
pA30032	8.3	7.6
			pA30039	7.3	92.1
pA30042	4.8	60.4
			pA30029	4.5	141
pA30035	3.6	21.6
			pA30026	3	158.6
pA30030	2.8	280.3
			pA30041	2.2	69.1
pA30025	1.9	74.8
			pA30045	1.9	70
pA30046	1.4	103.1
			pA30018	1.2	38.5
pA30038	1.1	94.4
			pA30015	0.8	13.3
pA30020	0.7	69.8
			pA30023	0.7	128.2
pA30016	0.3	16.3
			pA30033	0.2	16.8

还进行计算设计以通过将已知对同源B12GT有益的突变组合来改善B12GT。选择五十九种计算设计用于实验验证(SEQ ID NO：707-765)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表13)。为了区分最佳设计，在较低蛋白质浓度下对它们进行重新测定(表14)。

表13.最佳B12GT计算设计

表14.最佳B12GT计算设计

实施例13：ADP-葡萄糖依赖性B12GT的计算设计

生成了pA28422的第二个B12GT变体的结构模型并且用作计算设计的起点。进行计算设计以通过将已知对同源B12GT有益的突变组合来改善B12GT。选择六十四种计算设计用于实验验证(SEQ ID NO：766-829)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表15)。为了区分最佳设计，在较低蛋白质浓度下对它们进行重新测定(表16)。

表15.最佳B12GT计算设计

表16.最佳B12GT计算设计

实施例14：用PSSM表示成功的B12GT设计

来自实施例12和实施例13的成功的B12GT设计用于生成PSSM(表17)。PSSM是表示成功的设计和相关序列的简洁方式。认为PSSM分数大于266.7的序列与实施例12和实施例13中所描述的主动计算设计相关。为了用PSSM对序列进行评分，必须首先将其与代表性序列Seq ID No：5进行比对。举例来说，以下成功的设计pA29646、pA32946、pA29642、pA29798具有以下PSSM分数：287.2、288.0、279.2、276.8，而野生型B12GT pA28422仅仅具有257.4的PSSM分数。

表17.成功的B12GT设计的位置特异性评分矩阵(PSSM)

实施例15：ADP-葡萄糖依赖性B12GT的计算设计

通过使用来自实施例12和实施例13的设计的B12GT作为进一步设计回合的起始支架来设计改善的B12GT。使用计算设计方法改善来自实施例12和实施例13的七个B12GT的稳定性和表达。选择一百三十四种计算设计用于实验验证(SEQ ID NO：1333-1466)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与100mg/mLRA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表18)。

表18.改善的B12GT的计算设计

实施例16：ADP-葡萄糖依赖性B12GT的计算设计

生成了pA28422的第三个B12GT变体的结构模型并且用作计算设计的起点。进行计算设计以改善B12GT的稳定性和表达。选择五十三种计算设计用于实验验证(SEQ ID NO：830-882)。如实施例1构建用于计算设计的表达质粒。如实施例2表达和纯化每个B12GT变体。在一锅反应中用pA21838的SuSy变体测定每个B12GT变体。在60℃下使纯化的B12GT和SuSy与10mg/mL RA50、100mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液、3mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表19)。

表19.最佳B12GT计算设计

实施例17：ADP依赖性蔗糖合酶的计算设计

生成了pA21838的两个SuSy变体的结构模型并且用作计算设计的起点。用于设计ADPG依赖性B12GT的设计策略用来设计改善的ADP依赖性蔗糖合酶。选择两百五十六种计算设计用于实验验证(SEQ ID NO：925-1180)。如实施例4构建用于计算设计的表达质粒。如实施例5表达和纯化每个SuSy变体。在一锅反应中用pA28422的B12GT变体测定每个SuSy变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液、3mM MgCl₂和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。设计的酶SEQ ID：925-1048的相对表达和Reb A至Reb D的转化示于表20中。设计的酶SEQ ID：1049-1104的相对表达和Reb A至Reb D的转化示于表21中。用更相关的蛋白质浓度重新评估来自前两个实验的最佳命中(表22)。最后，设计的酶SEQ ID：1105-1180的相对表达和Reb A至Reb D的转化示于表23中。

表20.最佳SuSy计算设计

表21.最佳SuSy计算设计

表22.最佳SuSy计算设计

表23.最佳SuSy计算设计

实施例18：用PSSM表示成功的SuSy设计

来自实施例17的成功的SuSy设计用于产生PSSM(表24)。PSSM是表示成功的设计和相关序列的简洁方式。认为PSSM分数大于556的序列与实施例17中所描述的主动计算设计相关。为了用生成的PSSM对序列进行评分，必须首先将其与代表性序列pA21838(Seq IDNo：885)进行比对。举例来说，以下成功的设计pA32853、pA32891、pA32892、pA32929具有以下PSSM分数：557.2、558.1、558.1、557.8，而野生型SuSy pA21838仅仅具有536.3的PSSM分数。

表24.成功的SuSy设计的位置特异性评分矩阵(PSSM)

实施例19：通过计算设计改善来自细长嗜热聚球藻的SUSA的活性和表达

构建了来自细长嗜热聚球藻的蔗糖合酶SUSA的同源模型并且用作计算设计的输入以改善pA21841。进行计算设计以改善SuSy的稳定性和表达。选择四十七种计算设计用于实验验证(SEQ ID NO：1181-1227)。如实施例4构建用于计算设计的表达质粒。如实施例5表达和纯化每个SuSy变体。在一锅反应中用B12GT，即pA29798测定每个SuSy变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种变体显示出与亲本pA21841相比改善的表达和/或Reb D转化。最佳设计显示出高达2.2倍的产率改善或5.4倍的表达改善(34.6％转化，6.8uM纯化蛋白；表25)。

表25.pA21841的计算设计

还通过重新设计和重新包装埋藏的蛋白质核心进行计算设计以改善SUSA的稳定性和表达。选择三十八种计算设计用于实验验证(SEQ ID NO：1231-1267)。如实施例4构建用于计算设计的表达质粒。如实施例5表达和纯化每个SuSy变体。在一锅反应中用B12GT，即pA29798测定每个SuSy变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表26)。

表26.pA21841的计算设计

还使用协同进化信息进行计算设计以改善SuSy的稳定性和表达。选择六十五种计算设计用于实验验证(SEQ ID NO：1268-1332)。如实施例4构建用于计算设计的表达质粒。如实施例5表达和纯化每个SuSy变体。在一锅反应中用B12GT，即pA29798测定每个SuSy变体。在60℃下使纯化的B12GT和SuSy与100mg/mL RA50、250mM蔗糖和0.5mM ADP于50mM pH 6磷酸盐缓冲液和50mM NaCl中反应24小时。类似于实施例3，通过LCMS监测产物莱苞迪苷。数种设计的酶表达良好并且对于Reb A至Reb D的转化有活性(表27)。

表27.pA21841的计算设计

实施例20：用PSSM表示成功的SuSy设计

来自实施例19的成功的SuSy设计用于产生PSSM(表28)。PSSM是表示成功的设计和相关序列的简洁方式。认为PSSM分数大于569.5的序列与实施例19中所描述的主动计算设计相关。为了用生成的PSSM对序列进行评分，必须首先将其与代表性序列pA21841(Seq IDNo：888)进行比对。举例来说，以下成功的设计pA34103、pA34119、pA34099具有以下PSSM分数：576.7、572.5、577.0，而野生型SuSy pA21841仅仅具有565.6的PSSM分数。

表28.成功的SuSy设计的位置特异性评分矩阵(PSSM)

实施例21：pA21841和pA29798的按比例放大的一锅反应

在1L和10L发酵罐中表达含有SuSy，即pA21841或B12GT，即pA29798的大肠杆菌微生物。收集细胞并通过法压器(French press)裂解。将表达的蛋白质通过固定化金属亲和色谱法(IMAC)纯化并透析至脱盐缓冲液(20mM KPO4 pH6、50mM NaCl)中。进行一锅反应以将Reb A和甜菊苷分别转化为Reb D和Reb E。使pA21841和pA29798与100mg/ml RA50、250mM蔗糖和0.5mM ADP于50mM KPO4 pH6和50mM NaCl中反应。总共进行了十次20mL 1锅反应。将反应物冻干，并且通过使用Agilent 6545 QTOF质谱仪(柱：150x2.1mm Phenomenex C18-PS)进行液相色谱-质谱法(LCMS)来分析合并的反应产物的莱苞迪苷含量。观察到Reb A完全转化为Reb D以及甜菊苷完全转化为Reb E(图7；表29)。

表29.pA21841和pA29798一锅反应产物的莱苞迪苷含量

莱苞迪苷	保留时间(分钟)	面积	％(仅SG)
				未知(质量：1127)	4.6	28703	0.3
Reb E	5.2	3768926	37.5
				Reb D	5.4	6011185	59.8
Reb A	8.1	164560	1.6
				甜菊苷	8.2	86265	0.9

实施例22：pA21841和pA29646的按比例放大的一锅反应

在10L发酵罐中表达含有SuSy，即pA21841或B12GT，即pA29646的大肠杆菌微生物。收集细胞并通过法压器裂解。将表达的蛋白质通过固定化金属亲和色谱法(IMAC)纯化并透析至脱盐缓冲液(20mM KPO4 pH6、50mM NaCl)中。进行一锅反应以将Reb A和甜菊苷分别转化为Reb D和Reb E。使pA21841和pA29646与100mg/ml RA50、250mM蔗糖和0.5mM ADP于50mMKPO4 pH6和50mM NaCl中反应。总共进行了十次20mL 1锅反应。将反应物冻干，并且通过使用Agilent 6545 QTOF质谱仪(柱：150x2.1mm phenomenex C18-PS)进行液相色谱-质谱法(LCMS)来分析合并的反应产物的莱苞迪苷含量。观察到Reb A完全转化为Reb D以及甜菊苷完全转化为Reb E(图8；表30)。

表30.pA21841和pA29646一锅反应产物的莱苞迪苷含量

	保留时间(分钟)	面积	％(仅SG)
				未知(质量：1127)	5	2075	0
Reb E	5.4	954516	32
				Reb D	5.6	1658236	65
Reb A	8.7	49223	2
				甜菊苷	8.8	22057	1

实施例23：设计的B12GT和SuSy的巴斯德毕赤酵母表达

合成(Twist Bioscience)针对最佳设计的B12GT(来自实施例12、13和15)和SuSy(来自实施例17和19)的巴斯德毕赤酵母表达优化的多核苷酸并插入毕赤酵母穿梭载体中。将载体转化至可商购的巴斯德毕赤酵母菌株(ATCC)中。使转化的微生物在BMGY(缓冲甘油复合物)培养基中生长并通过甲醇加料来诱导蛋白质表达。用Y-PER(酵母蛋白提取试剂；Thermo Scientific)使毕赤酵母细胞裂解，并且通过固定化金属亲和色谱法(IMAC)纯化表达的蛋白质并脱盐至脱盐缓冲液(20mM KPO4 pH6、50mM NaCl)中。设计的B12GT和SuSy可溶性表达并具有催化活性。图9示出了从巴斯德毕赤酵母表达纯化的设计的B12GT的SDS-PAGE凝胶。

在1L发酵中还表达两种设计的B12GT和两种设计的SuSy。以甘油作为主要碳源使毕赤酵母微生物生长约24小时，然后甲醇加料约72小时以表达所需的B12GT或SUSY。收集细胞并通过法压器裂解。将表达的蛋白质通过固定化金属亲和色谱法(IMAC)纯化并透析至脱盐缓冲液(20mM KPO4 pH6、50mM NaCl)中。图10A示出了从1L巴斯德毕赤酵母发酵纯化的两种设计的B12GT，即pA29798(左，B12GT-1)和pA32946(右，B12GT-2)的SDS-PAGE凝胶。图10B示出了从1L巴斯德毕赤酵母发酵纯化的两种设计的SuSy，即pA34103(左，SuSy-1)和pA32691(右，SuSy-2)的SDS-PAGE凝胶。所有四种酶都在发酵中成功表达并具有所需的活性。

Claims

1.一种工程化β-1，2-糖基转移酶多肽，所述多肽包含与选自由SEQ ID NO：6-882和1333-1466组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

2.如权利要求1所述的工程化β-1，2-糖基转移酶多肽，所述多肽包含与选自由SEQ IDNO：6-459组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

3.如权利要求1所述的工程化β-1，2-糖基转移酶多肽，所述多肽包含与选自由SEQ IDNO：460-534组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

4.如权利要求1所述的工程化β-1，2-糖基转移酶多肽，所述多肽包含与选自由SEQ IDNO：535-765组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

5.如权利要求1所述的工程化β-1，2-糖基转移酶，所述酶包含与选自由SEQ ID NO：766-829组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

6.如权利要求1所述的工程化β-1，2-糖基转移酶，所述酶包含与选自由SEQ ID NO：1333-1466组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

7.一种工程化β-1，2-糖基转移酶多肽，当通过表17中所示的PSSM进行评分时，所述多肽具有大于266.7的分数。

8.一种多肽，所述多肽具有以下序列：XXXXVXMXPWLXLGHXNPXLRXAXXXAXRXXXXXXXXTXXXLXXXXXRIXXXYXXXIXLXXXXLPXLPELPXXXXTTNXLPPHLNXXLXXXXXXXXPXXSKXXXXXXXXLXXXDXLXXWXXKXAXXXXXPXXXXXTXGXALXXYXXXXXXXXGXXFXFXXIXLXXXXXXXXXEXXXXXXXXXXFXXXXXXXXXLXXXSRXXEAKYXDYXXXXXXXXXVPVGXXXXXXXXXDXXDXELXXWLXXKXXXXXVXVSFGSEXFLSXEXXEEXAXGLXLSXXNXIXVXRFPKGXXXXXXXXLPXGXXXRXXXRXXXXXHLVPQAXILXHXXXGGFXSHCGWNSXXEXXXFGVPIIAMPMQWDQPINARLXXEXGXAVEXXRXXXGXXXRXXIAXXXXXVXXXXXGXXLRXXVXXXXXXXXXXRXXEMXXXXXXXXXLXXXXXAXX

其中残基1是R或D或Q或P或S或T

其中残基2是N或L或S或T

其中残基3是Q或L或F

其中残基4是R或Q或T

其中残基6是A或L或T或V

其中残基8是L或F或V

其中残基12是A或G

其中残基16是I或V

其中残基19是F或Y

其中残基22是I或L或V

其中残基24是R或K

其中残基25是Q或K

其中残基26是L或M

其中残基28是D或K

其中残基30是N或G

其中残基31是M或F

其中残基32是H或I或L或S或Y或V

其中残基33是I或V

其中残基34是H或Y

其中残基35是L或M或V

其中残基36是A或C或L或V

其中残基37是N或S

其中残基39是A或K或M或P

其中残基40是I或V

其中残基41是N或Q或V

其中残基43是N或E或K或S

其中残基44是L或M或S

其中残基45是A或I或L或T

其中残基46是R或K

其中残基47是G或H或K

其中残基50是P或T

其中残基51是N或E或K或Y

其中残基52是A或K

其中残基54是A或Q或L或S或V

其中残基55是N或D或Q或E或L或S

其中残基56是L或S

其中残基58是Q或E或H或I

其中残基60是I或V

其中残基61是E或T

其中残基62是L或S或Y或V

其中残基63是A或R或Q或H或S

其中残基66是Q或E或L

其中残基72是P或S

其中残基73是H或Y

其中残基74是L或Y

其中残基75是H或W

其中残基79是A或G

其中残基86是G或K

其中残基87是R或I或L或T或V

其中残基89是R或Q或H或I或K

其中残基90是R或Q或K

其中残基91是A或L

其中残基92是L或V

其中残基93是R或Q或K

其中残基94是L或M

其中残基95是A或S

其中残基96是A或R或Q

其中残基98是N或E或T

其中残基99是I或L或F或V

其中残基102是Q或I或L或T或V

其中残基103是I或L或V

其中残基104是R或Q或E或K或S

其中残基105是A或N或D或T

其中残基106是I或L或W

其中残基107是N或K

其中残基108是A或P或S或V

其中残基109是A或D或S或T

其中残基111是I或L或V

其中残基112是I或L或V

其中残基113是L或F或Y或V

其中残基115是I或L或M或F

其中残基117是A或Q或I或L或V

其中残基118是Q或P

其中残基120是A或L

其中残基121是E或S

其中残基123是I或L或S或V

其中残基125是N或L或K

其中残基126是D或E或S

其中残基127是R或Q或L

其中残基128是N或G

其中残基129是I或V

其中残基131是A或G或S或V

其中残基132是I或V

其中残基133是R或K或P

其中残基134是L或F

其中残基135是A或I或L或W

其中残基137是F或S

其中残基139是A或L或V

其中残基142是L或F或W

其中残基143是A或S

其中残基145是I或L或F

其中残基146是L或M或F或W或V

其中残基147是N或Q或E或H

其中残基148是H或F

其中残基149是L或V

其中残基150是R或D或K或T

其中残基151是R或N或K

其中残基152是L或P

其中残基154是N或E或H或V

其中残基155是E或P

其中残基157是L或P

其中残基159是E或P

其中残基160是A或E

其中残基162是R或D或E或H或K或M或S或Y

其中残基164是R或S

其中残基165是E或K

其中残基166是R或I或L或W或Y

其中残基167是A或E

其中残基168是Q或L或K

其中残基169是A或D或Q或V

其中残基170是K或W

其中残基171是H或L或M

其中残基172是R或Y

其中残基174是A或L或M

其中残基175是M或F

其中残基176是E或G

其中残基177是R或K或T

其中残基178是A或Q或E或G或V

其中残基179是G或P

其中残基180是D或K或P或T

其中残基181是D或E

其中残基182是R或D或E或L或K

其中残基183是D或F

其中残基185是L或F

其中残基186是A或V

其中残基187是D或E或K或P或V

其中残基188是A或G或F

其中残基189是R或N或Q或P或S

其中残基190是A或N或C或K或M或S或T

其中残基191是A或Q或G或K

其中残基192是A或I或Y

其中残基193是I或L或M或T或V

其中残基195是I或M或V

其中残基196是C或M

其中残基197是S或T

其中残基200是A或E或I或V

其中残基201是I或L

其中残基206是I或L或M

其中残基209是C或L

其中残基210是A或Q或M或S或T

其中残基211是E或K或T

其中残基212是L或W

其中残基213是M或S或T

其中残基214是N或G

其中残基215是R或I或L或K或W或V

其中残基216是Q或K

其中残基217是I或V

其中残基222是A或P

其中残基223是P或S或T

其中残基224是F或Y或V

其中残基225是Q或L

其中残基226是D或T或V

其中残基227是A或L或P

其中残基228是N或L或T或V

其中残基229是F或P或T或Y

其中残基230是N或D或E或L或S

其中残基232是A或N或D或E或I或L其中残基233是R或D或G或S或Y

其中残基235是I或K或M或P或S或V

其中残基238是I或M

其中残基239是R或D或K

其中残基242是D或G

其中残基243是K或T

其中残基245是D或P

其中残基246是E或L或P或T

其中残基247是N或H

其中残基248是A或S

其中残基249是T或V

其中残基251是F或Y

其中残基258是A或Y

其中残基262是R或K

其中残基264是D或Q

其中残基265是L或M

其中残基268是I或L或V

其中残基270是H或F或W

其中残基273是E或V

其中残基276是N或G

其中残基277是A或I或S或V

其中残基279是A或F

其中残基281是I或W

其中残基283是A或V

其中残基289是A或R或E或V

其中残基290是R或E或K

其中残基291是A或R或Q或I或L或V

其中残基292是R或N或H或L或T

其中残基293是A或L

其中残基294是E或I

其中残基295是D或E

其中残基296是A或V

其中残基299是R或K或P或S

其中残基301是F或T

其中残基302是L或S

其中残基303是D或E

其中残基305是G或I或V

其中残基306是R或G

其中残基307是D或E

其中残基309是A或G

其中残基310是R或M或Y

其中残基311是W或V

其中残基312是R或L

其中残基313是D或P或T

其中残基320是C或H

其中残基323是N或K或S

其中残基325是K或P或S

其中残基326是A或S

其中残基327是I或T或V

其中残基331是I或M或V

其中残基339是I或W或V

其中残基340是L或M

其中残基342是A或S

其中残基343是I或L

其中残基344是D或H或Y

其中残基365是I或L或M或V

其中残基366是R或N或V

其中残基368是L或M或W

其中残基370是I或V

其中残基374是I或V

其中残基375是R或P或S或V

其中残基377是R或D或Q

其中残基378是D或E

其中残基379是N或D或E或L

其中残基381是R或K或S

其中残基382是I或V

其中残基383是H或P

其中残基385是A或N或D或E或G

其中残基386是A或E

其中残基389是R或Q或E或K

其中残基390是C或T或V

其中残基391是I或L或V

其中残基392是R或K

其中残基393是D或E或S

其中残基395是I或M或V

其中残基396是N或C或G或F或S或T或V

其中残基397是E或G

其中残基398是A或K或P

其中残基399是I或L或T

其中残基401是Q或E

其中残基402是N或E或I或K

其中残基405是A或R或H或K

其中残基406是N或K

其中残基408是A或R或K

其中残基409是D或E

其中残基410是I或L

其中残基411是A或G或S

其中残基412是A或R或E或L或K或T

其中残基413是R或N或K

其中残基414是L或W

其中残基415是R或K

其中残基416是A或R或E或L或S

其中残基417是A或R或I或K或T

其中残基419是N或D或E或G或K

其中残基420是E或P或V

其中残基423是N或D或Q或G或T

其中残基424是A或I或K

其中残基425是A或L

其中残基426是A或M或V

其中残基427是E或L

其中残基428是A或E

其中残基429是L或F或Y

其中残基430是I或L或K或M

其中残基431是A或R或Q或L或K或S

其中残基433是C或G或H

其中残基434是R或Q或H或K或F或P或T或Y或V

其中残基435是N或H或K

其中残基436是R或L

其中残基437是A或R或N或L或S

其中残基439是A或L或K或F或S或T或Y

其中残基440是N或K或V(SEQ ID NO：1228)。

9.如权利要求1所述的工程化β-1，2-糖基转移酶多肽，所述多肽包含与选自由SEQ IDNO：830-882组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

10.一种工程化蔗糖合酶多肽，所述多肽包含与SEQ ID NO：886至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

11.一种工程化蔗糖合酶多肽，所述多肽包含与SEQ ID NO：888至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

12.一种工程化蔗糖合酶多肽，所述多肽包含与选自由SEQ ID NO：890-1227和1231-1332组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

13.如权利要求12所述的工程化蔗糖合酶多肽，所述多肽包含与选自由SEQ ID NO：890-924组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

14.如权利要求12所述的工程化蔗糖合酶多肽，所述多肽包含与选自由SEQ ID NO：925-1180组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

15.如权利要求12所述的工程化蔗糖合酶多肽，所述多肽包含与选自由SEQ ID NO：1231-1267组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

16.如权利要求12所述的工程化蔗糖合酶多肽，所述多肽包含与选自由SEQ ID NO：1268-1332组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

17.一种工程化蔗糖合酶多肽，当通过表24中所示的PSSM进行评分时，所述多肽具有大于556的分数。

18.一种多肽，所述多肽具有以下序列：MIEXLXXXLXXXXXXXXXXLRXXXXXXRXXXXXXDLXXXXXXFXXXXXXXXXXXXXXXXXXXXXXQEAXXXXPWXXXAXRXRXXXWXYXRXHXEXLXVEEXXXXEXLXXKEXLVXXXXEGXAVXXXDXXDXXXXXQXXKDESTIGXGXXHLNRHLXGRXWXDXXXGXXXXXXXLXXHXXXXXXLXLXXXXXXFDXLRXXXQYLGXXPXXXPXXXXXXXXXXXGFEPGXGXTXXRXRXTXRLLXDXLDSPSPXXLEXFLXRXPXIXXXXIXSXHGXFXQXXVLGXPDTGGQVVXILDQXRALEXEXRXRLXXQGXDXEPXIXXXTRLIPXXXGTTCDQRLEPXXGXXXXXILRXPFRXEXGXXXPXWISRFXXWPYLERXXXDXEXEXXAELGXRPDXIIGNYSDGXLXAXXXXXKXGXTQXNXAHALEKXKYXXSDLXWXXXEXXXHFXCQFTADXIAMNAADXIXTSTYQEIAGXDXXVGQYESXXXXTXPGLYRXXXGXDVFDXXFNIXSPGADXXXYFXYXXXEXRXXXLXPEIEXXXXXXXXXXXXRGVLXDXXKPXXXXXXRXDRIKNXXGXXEXXGXXXRLRXLANLXXXXGHXDXXXSXDXEEXXXXXRXHXXXDXXXLDGQXRXXGXXLXKXXVGEXYRXXADXRGXXXQPALXEAFGLTVIEXMXSGLPXXATXXGGPXEIIEXGVSGFHIDPNXXXXXXEXXADXXEXXXXXPXYWEXISXXALXRVXXRYTWXXXAERXXTXXRXXGFWXXVXXREXQVXXRYLQMXRHLQXRPLAHAVPXE

其中残基4是A或R或E或S或V

其中残基6是R或D或E

其中残基7是Q或E

其中残基8是Q或F

其中残基10是A或R或Q或H或L或K或S

其中残基11是D或Q或E或S

其中残基12是N或H或S

其中残基13是R或P

其中残基14是R或N或D或E

其中残基15是A或D或Q或E或S或T

其中残基16是L或W或V

其中残基17是R或H或Y

其中残基18是A或R或L

其中残基19是L或F

其中残基22是R或H

其中残基23是L或Y

其中残基24是L或V

其中残基25是A或G

其中残基26是Q或L或S

其中残基27是Q或G

其中残基29是D或G或P或T

其中残基30是I或L或M或F或S

其中残基31是L或W

其中残基32是Q或L

其中残基33是R或H

其中残基34是H或S或T

其中残基37是Q或W

其中残基38是R或D或H

其中残基39是A或E

其中残基40是C或L或F

其中残基41是A或D或E或L或K

其中残基42是A或R或N或D或E或T

其中残基44是R或C或Y

其中残基45是A或E

其中残基46是Q或E或P

其中残基47是D或Q或E或P

其中残基48是D或G或P

其中残基49是N或E

其中残基50是E或G

其中残基51是E或S或Y

其中残基52是A或E或G或L或P

其中残基53是E或L

其中残基54是A或D或C或G或L或K或M或T

其中残基55是D或G或I或S或T

其中残基56是G或S

其中残基57是A或P或W或V

其中残基58是L或F

其中残基59是A或E或G

其中残基60是R或D或Q或E

其中残基61是A或L或F或V

其中残基62是I或V

其中残基63是A或R或Q或E或K

其中残基64是A或R或H或K

其中残基65是A或C或T

其中残基69是A或I或V

其中残基70是I或L或F或V

其中残基71是R或D或E或H或L

其中残基72是A或D

其中残基75是A或I或L或M或F或V

其中残基76是C或Y或V

其中残基77是L或F

其中残基79是I或L或W或V

其中残基81是E或L或P

其中残基83是P或V

其中残基84是A或G

其中残基85是R或V

其中残基87是R或E或Y

其中残基89是L或Y或V

其中残基91是I或F

其中残基93是I或L或V

其中残基95是D或Q或T

其中残基97是A或D或E或T或V

其中残基101是I或L或V

其中残基102是D或S或T

其中残基103是T或V

其中残基104是D或E或S

其中残基106是F或Y

其中残基108是A或Q

其中残基109是A或F

其中残基112是R或Q或E

其中残基115是N或D或G或K或T

其中残基116是G或L

其中残基117是A或N或D或E或G

其中残基118是A或Q或G或H或P或S

其中残基121是N或D或E或P

其中残基124是L或T或W

其中残基125是E或K或T

其中残基126是I或W或V

其中残基128是L或F或W

其中残基129是E或G

其中残基131是L或F

其中残基132是R或N

其中残基133是R或P

其中残基134是N或E或G或H或S或T或V

其中残基135是F或S或V

其中残基137是R或K

其中残基138是L或M

其中残基146是R或N或D

其中残基148是L或V

其中残基149是Q或E或L

其中残基156是A或S

其中残基159是I或L或M

其中残基161是Q或G或T

其中残基163是L或T

其中残基164是A或G或K

其中残基165是A或R或D或Q或E或G或K

其中残基167是R或D或L或M

其中残基168是D或Q或E或S或Y

其中残基169是A或R或Q或K

其中残基170是I或L

其中残基171是I或L

其中残基172是D或E

其中残基173是F或W

其中残基175是R或G或S

其中残基176是L或V

其中残基178是R或Q

其中残基179是H或I或L或Y

其中残基180是R或D

其中残基181是N或G

其中残基182是R或Q

其中残基183是N或Q或H

其中残基185是G或M

其中残基187是N或S

其中残基188是N或D或E

其中残基189是R或G

其中残基190是N或I或M或F

其中残基191是R或Q或K或T

其中残基192是D或S

其中残基195是A或E或G或S

其中残基198是R或Q

其中残基199是A或T或V

其中残基200是E或I或L或M或V

其中残基205是R或G或K或T

其中残基206是Q或L

其中残基208是A或R或D或E或P

其中残基209是D或E

其中残基210是A或T

其中残基212是L或W

其中残基213是A或E或S

其中残基214是D或E

其中残基215是L或F或V

其中残基216是A或R或Q或E或G

其中残基217是E或H或P

其中残基218是A或R或D或E或K或T

其中残基219是L或M

其中残基220是R或Q

其中残基221是R或E

其中残基222是R或L或M或W

其中残基228是L或W

其中残基230是R或N或D

其中残基232是A或V

其中残基233是A或Q或E或G

其中残基235是I或M或V

其中残基237是D或E

其中残基239是L或M

其中残基243是M或V

其中残基245是I或L

其中残基252是A或R或E或G或S

其中残基253是A或N或T

其中残基256是R或E或K或S或T

其中残基259是A或D或G

其中残基261是I或V

其中残基263是L或M

其中残基265是F或S

其中残基266是N或S

其中残基267是I或L或V

其中残基268是A或I或L或T或V

其中残基270是I或L或V

其中残基272是I或P或V

其中残基275是W或Y

其中残基277是A或G

其中残基279是A或D或S

其中残基280是N或K

其中残基284是R或L或Y

其中残基293是F或W或Y

其中残基298是A或V

其中残基303是R或K

其中残基305是I或L或M

其中残基307是R或N或D或Q或E或K

其中残基310是A或R或H或Y

其中残基311是Q或E

其中残基314是L或V

其中残基316是I或V

其中残基319是R或Q

其中残基321是I或L

其中残基322是I或V

其中残基323是A或I或L或V

其中残基329是D或E

其中残基330是A或S

其中残基331是R或D或E或G或K

其中残基342是I或V

其中残基343是H或S或V

其中残基345是A或T

其中残基346是R或E

其中残基347是N或H或Y

其中残基348是A或V

其中残基349是R或Q或H或W

其中残基353是I或V

其中残基357是N或Y

其中残基359是D或S

其中残基361是R或N或E或T

其中残基362是I或V

其中残基363是H或I或L或V

其中残基365是Q或H

其中残基371是R或E或K

其中残基372是I或V

其中残基379是F或W或Y

其中残基380是A或V

其中残基381是R或Q或E或L或S

其中残基383是A或L或V

其中残基385是R或K

其中残基387是I或L或V

其中残基388是L或K

其中残基393是G或S

其中残基397是A或L或V

其中残基406是N或G

其中残基408是I或V

其中残基410是S或T

其中残基411是I或L

其中残基412是I或L或M

其中残基413是A或S

其中残基414是Q或E

其中残基416是L或W

其中残基418是I或V

其中残基421是C或I或M或T或V

其中残基423是I或F

其中残基430是S或T

其中残基433是L或P

其中残基434是D或G或Y

其中残基438是H或Y

其中残基440是R或K或P

其中残基441是R或D或L或K

其中残基442是N或H或F或Y

其中残基444是A或D或Q或E或P

其中残基445是D或Q或K

其中残基446是H或Y

其中残基449是A或S

其中残基456是L或W

其中残基464是A或I或F或V

其中残基466是I或V

其中残基476是N或T

其中残基478是R或N或D或H

其中残基479是E或S

其中残基486是H或Y

其中残基487是A或Q或G或S或T

其中残基488是A或D或H或S

其中残基489是F或Y

其中残基491是L或M

其中残基497是I或V

其中残基498是E或I或V

其中残基499是N或H

其中残基501是I或V

其中残基506是P或S

其中残基507是R或K

其中残基511是I或V

其中残基517是A或P

其中残基518是R或D或E或S

其中残基519是I或T或V

其中残基522是P或S

其中残基524是A或S或T

其中残基525是R或D或E

其中残基526是H或K或T

其中残基528是R或E或K

其中残基530是L或F

其中残基531是S或T

其中残基532是G或S

其中残基534是H或W

其中残基539是R或E或K或S

其中残基540是I或L或M

其中残基541是I或L或W或V

其中残基542是F或Y

其中残基543是G或S

其中残基544是R或D或G或P

其中残基545是D或E或P

其中残基546是D或Q或E或P或T

其中残基547是R或G

其中残基548是A或G或P

其中残基549是D或E或P

其中残基550是A或H或I

其中残基555是A或E或K或S

其中残基557是R或P

其中残基558是D或Q或S

其中残基561是I或L或V

其中残基562是I或L

其中残基563是L或F

其中残基564是S或T

其中残基565是I或M或V

其中残基566是A或M或S

其中残基568是L或M

其中残基574是Q或I或L或M

其中残基575是S或T

其中残基577是L或W

其中残基578是A或L或M或V

其中残基580是I或L或W

其中残基581是F或Y或V

其中残基583是A或R

其中残基584是N或S

其中残基585是A或N或E或P或S

其中残基589是E或S

其中残基594是I或L或V

其中残基595是I或L或V

其中残基596是I或V

其中残基597是A或G

其中残基600是I或V

其中残基602是A或P或V

其中残基603是A或N或Q或E或G或S

其中残基604是A或R或N或Q或E或K

其中残基606是A或R或N或D或G或M或S或T

其中残基608是A或R或E或G或H或S

其中残基611是R或Q

其中残基612是A或E

其中残基613是Q或E

其中残基614是I或M或V

其中残基615是A或R或Q或E或G或K

其中残基617是I或L或M

其中残基619是Q或E

其中残基620是I或L

其中残基621是I或L或M

其中残基623是R或E或H或K

其中残基624是H或Y

其中残基625是N或Q或G

其中残基630是A或M或F或V

其中残基632是L或W

其中残基633是I或L或V

其中残基635是A或L或S或V

其中残基636是Q或H

其中残基638是N或D或E

其中残基640是R或N或T或V

其中残基641是R或L或W或V

其中残基645是I或L

其中残基648是W或Y或V

其中残基649是I或L或V

其中残基652是R或Q或G或H或K或T

其中残基655是A或I或V

其中残基656是F或W或V

其中残基657是I或V

其中残基662是F或Y

其中残基672是A或V

其中残基674是A或S或T

其中残基679是T或V

其中残基680是F或W

其中残基683是R或C

其中残基684是H或Y

其中残基688是A或L

其中残基693是D或H

其中残基704是D或Q或H

其中残基705是G或P

其中残基706是D或E

其中残基707是A或Q或E

其中残基708是A或T或V

其中残基709是A或L

其中残基711是R或I或L或K

其中残基712是I或L或M

其中残基715是F或W

其中残基716是L或F

其中残基718是A或R或H或K

其中残基719是A或C

其中残基720是A或R或K

其中残基721是A或N或E

其中残基722是R或N或D或E

其中残基724是D或G或K或S或T

其中残基728是R或E或K

其中残基731是R或D或Q

其中残基732是A或G

其中残基735是A或Q或E或K

其中残基738是R或E或S或Y

其中残基739是A或E或S

其中残基744是E或K

其中残基745是R或L

其中残基746是W或Y

其中残基750是L或M或W

其中残基751是A或L或M

其中残基753是I或L

其中残基754是A或I或L或M或S或V

其中残基756是A或C或I或V

其中残基757是A或I或M或F或W或Y

其中残基761是R或K

其中残基762是F或Y

其中残基764是L或S或T

其中残基765是N或K或S

其中残基768是R或H或S

其中残基771是M或T

其中残基772是R或E

其中残基778是I或F

其中残基783是F或W或Y

其中残基792是L或M(SEQ ID NO：1229)。

19.如权利要求12所述的工程化蔗糖合酶多肽，所述多肽包含与选自由SEQ ID NO：1181-1227组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列。

20.一种工程化蔗糖合酶多肽，当通过表28中所示的PSSM进行评分时，所述多肽具有大于569.5的分数。

21.一种多肽，所述多肽具有以下序列：MTXXLLXXXXXSXXXXXLXQFXRXLXXXXKXYXLRNXILXAFXXYCXXXXXPXXXXXXSXLXKLXXYTQEIIXDXEXLXWIXRPXIAXQEVXRLXVXDXTXXPXTIXELLDXRDRLVNXYHPNXGDXXEXDXXPXYDYXPXIRDXKNIGXGVEFLNRXXSSKXFQDPRQXQXXXXXXXXXHXYNGXQLXXNXRIRXPXXLXEQXKQXLXXLSDXXXXXXXXEXRFELQXLGXEPGXGXTXARVRXTLEXXXQXXDSPDHQVXEAXXSRIPMXFRXXXXSXHGWFGQEXVLGRPDTGGQVVXILDQXXXLEXQXXEDXXXAGLXXLEXXPKIXXXTRLIPNXEGTXCNXRLEKXYGTXXAWILRXPFREFNPKVTQNWIXRFEIWPYLETXXXDXEXEXXAEXXXXPDXIIGNYSDGNLXAFLLXRRXKXTQXNXAHALEKXKYLFSXLYWQDLEDKYHFSXQFTADLIXMNAAXXIXSSTYQEIVGTPDSIGQYESYQSFTMPXLYXXVNGXELFXPKFNVXPPGXNEXVYFPYXXXXXRXEXXXXRLEELLFTLEDPXXIXGXXXXXXKRXXFSMXRXDRIKNXTGLXEXXGXXXXLQEXCNLXXVAGXXXXXXSXDXEEXXEIEKXXQXXXXYXLXGKXRXLGIRLPKXDSGEXYRXXADXXGXFXQPALFEAFGLTILEXMIXGLPTFXTXFGGPLEIIQXXXNGFXINPTXLEEXAXXXXXFXXXCXXDPXXWXXXSXXXIXRVXXXYTWKIXXXXXXXLXXIXGXWNXXSQENREDXXRYXEAXXHLLXKPRAQXLLAEHLQR

其中残基3是A或C或S

其中残基4是D或E或V

其中残基7是E或K

其中残基8是A或S

其中残基9是M或V

其中残基10是I或L或W或V

其中残基11是N或D或E

其中残基13是D或E

其中残基14是E或H

其中残基15是R或K

其中残基16是A或N或E或T

其中残基17是A或D或E

其中残基19是R或H

其中残基22是I或L或F或S

其中残基24是Q或I或L或Y

其中残基26是R或D或Q

其中残基27是A或R或D或L或T

其中残基28是N或Q或G或K或S

其中残基29是E或G

其中残基31是R或G

其中残基33是L或F

其中残基37是D或E

其中残基40是N或D或Q或G

其中残基43是A或D或E或H

其中残基44是D或E

其中残基47是R或H

其中残基48是A或N或D

其中残基49是Q或L或K

其中残基50是D或Q或E或G

其中残基51是R或K

其中残基53是A或E或V

其中残基54是P或Y

其中残基55是F或P或T

其中残基56是P或Y

其中残基57是D或H或L或S

其中残基58是N或E或S

其中残基60是R或G或S

其中残基62是A或S或W

其中残基65是I或V

其中残基66是R或H或F或Y

其中残基73是I或F或V

其中残基75是N或D或E

其中残基77是S或W

其中残基79是C或W

其中残基82是I或V

其中残基85是R或Q或K

其中残基88是R或Q

其中残基92是C或W或Y或V

其中残基95是H或L

其中残基97是D或E

其中残基99是L或M

其中残基101是I或F或V

其中残基102是E或V

其中残基104是I或M

其中残基107是Q或P

其中残基112是A或L或F

其中残基119是R或H

其中残基124是D或E

其中残基127是L或V

其中残基128是L或F或W

其中残基130是I或L

其中残基132是M或W或V

其中残基133是R或Q或E

其中残基135是L或F

其中残基139是F或S

其中残基141是H或I或K或V

其中残基145是A或P

其中残基150是R或K

其中残基158是F或Y

其中残基159是I或L或M

其中残基163是A或L

其中残基170是G或W

其中残基172是Q或E

其中残基173是A或R或N或L或K或T

其中残基174是L或F

其中残基175是I或L或F

其中残基176是N或D或Q

其中残基177是F或W

其中残基178是L或M

其中残基179是R或Q

其中残基180是I或V

其中残基182是R或Q

其中残基186是Q或I或Y

其中残基189是G或L

其中残基190是I或W或V

其中残基192是D或E

其中残基196是N或S

其中残基198是Q或P

其中残基199是Q或H

其中残基201是A或L或M或S

其中残基204是I或V

其中残基207是A或L

其中残基209是K或V

其中残基210是A或I或F或T或W或Y或V

其中残基214是R或Q

其中残基215是A或P

其中残基216是P或S

其中残基217是A或D或T

其中残基218是A或E

其中残基219是A或P

其中残基220是F或W或Y

其中残基221是Q或E或S

其中残基223是I或F

其中残基229是N或E

其中残基232是F或W

其中残基236是L或W

其中残基238是R或N或K

其中残基240是A或V

其中残基245是D或E

其中残基249是I或L

其中残基250是I或L或M或W

其中残基251是A或D或L

其中残基253是A或L或V

其中残基254是A或I或L或M

其中残基262是L或W

其中残基265是L或F或W

其中残基266是L或F或V

其中残基272是I或L

其中残基275是I或V

其中残基276是A或I或L或V

其中残基277是I或L

其中残基278是I或V

其中残基280是A或I或M或P或V

其中残基288是N或G

其中残基301是I或L或W或Y

其中残基306是A或V

其中残基307是R或Q或K

其中残基308是A或N或S

其中残基311是R或K

其中残基313是I或L或M

其中残基314是R或Q

其中残基317是I或L

其中残基318是Q或E或K

其中残基319是E或L

其中残基323是D或E或G

其中残基324是W或V

其中残基327是A或I

其中残基328是R或Q

其中残基332是I或L或V

其中残基333是I或V

其中残基334是A或I或L

其中残基341是A或C或S

其中残基345是R或L或T

其中残基348是Q或E

其中残基353是I或V

其中残基357是N或D或E

其中残基358是N或D或H

其中残基364是I或V

其中残基379是S或T

其中残基390是A或F或W

其中残基391是A或T或V

其中残基392是I或L

其中残基394是A或I或L或V

其中残基396是R或K或T

其中残基398是A或I或L或V

其中残基399是R或L

其中残基402是L或M或F

其中残基403是Q或G

其中残基404是G或H

其中残基405是R或H或V

其中残基408是L或V

其中残基419是I或V

其中残基424是A或S

其中残基427是L或M或W

其中残基429是I或V

其中残基432是C或I或L或V

其中残基434是I或M

其中残基441是S或T

其中残基447是N或D

其中残基461是L或M

其中残基469是A或T

其中残基474是N或D

其中残基475是A或F

其中残基477是I或V

其中残基504是D或E

其中残基507是R或H

其中残基508是I或V

其中残基512是I或L

其中残基516是H或S

其中残基522是I或V

其中残基526是A或V

其中残基529是N或Q或E

其中残基535是T或Y

其中残基536是R或E或H

其中残基537是R或N或Q或K或T或Y

其中残基538是Q或E或T

其中残基539是R或N或D或E或K

其中残基541是L或V

其中残基543是N或G或S

其中残基544是D或E

其中残基545是A或R

其中残基546是Q或E

其中残基559是Q或E或S

其中残基560是Q或E

其中残基562是F或Y或V

其中残基564是N或H或K或Y

其中残基565是I或L

其中残基566是D或E或S

其中残基567是A或N或D或H

其中残基568是Q或L或P

其中残基569是N或Q或E或H或K或S

其中残基572是M或P

其中残基573是I或L

其中残基577是A或S

其中残基579是A或L

其中残基585是Q或I或L

其中残基589是A或L或M

其中残基591是A或C或L

其中残基592是F或Y或V

其中残基594是R或K

其中残基595是N或S

其中残基596是Q或K或P

其中残基597是A或E或K

其中残基601是R或Q或H或K

其中残基605是I或V

其中残基606是I或L或V

其中残基610是K或Y

其中残基611是A或L或V

其中残基612是R或D

其中残基613是P或T或V

其中残基614是A或E

其中残基615是D或G

其中残基617是S或T

其中残基619是R或S或Y

其中残基622是R或I或K

其中残基623是A或D

其中残基628是I或L或M

其中残基629是H或Y

其中残基631是I或L

其中残基632是I或M或V

其中残基633是D或E或H或K

其中残基634是Q或E

其中残基636是N或Q

其中残基638是N或Q或H或K或S

其中残基641是A或I或V

其中残基643是L或F或W

其中残基651是A或N或G或I

其中残基656是I或V

其中残基659是I或V

其中残基660是I或V

其中残基663是R或H

其中残基664是Q或G

其中残基666是A或I或V

其中残基668是A或V

其中残基683是A或S

其中残基686是S或T

其中残基692是A或G

其中残基694是R或Q

其中残基704是N或D或H

其中残基705是Q或G

其中残基706是K或V

其中残基710是H或Y

其中残基715是D或H

其中残基719是M或T

其中残基721是E或K

其中残基722是A或K或T

其中残基723是I或L

其中残基724是L或M或F或V

其中残基725是R或K

其中残基727是I或L或F

其中残基728是A或E

其中残基729是A或R或Q或H或K

其中残基731是N或D

其中残基732是R或Q或H或K

其中残基735是N或Q或E

其中残基736是Q或E或H或Y

其中残基738是Q或E或Y

其中残基739是R或E

其中残基740是I或L

其中残基742是Q或E或K

其中残基743是A或R或K

其中残基744是A或G或S

其中残基746是D或Q或E

其中残基749是R或Y

其中残基750是E或S

其中残基751是N或K或T

其中残基757是H或F或W或Y

其中残基758是A或C或T

其中残基759是E或K或S或T

其中残基760是R或K

其中残基761是I或L或M或W

其中残基762是L或M

其中残基763是S或T

其中残基765是A或I或S或V

其中残基766是R或K

其中残基768是M或Y

其中残基770是L或F

其中残基773是F或Y

其中残基774是I或M或S或T或V

其中残基782是L或M

其中残基783是L或M或W

其中残基786是I或L或M

其中残基789是I或L或M

其中残基790是F或Y

其中残基794是F或Y

其中残基800是A或R或Q或K(SEQ ID NO：1230)。

22.一种用于将糖部分转移至底物甜菊醇糖苷的方法，所述方法包括使B12GT和蔗糖合酶与一种或多种甜菊醇糖苷、非UDP核苷酸二磷酸和蔗糖接触。

23.如权利要求22所述的方法，其中所述B12GT多肽是包含与选自由SEQ ID NO：1-882和1333-1466组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列的工程化B12GT。

24.如权利要求22所述的方法，其中所述SuSy多肽是包含与选自由SEQ ID NO：883-1227和1231-1332组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列的工程化蔗糖合酶。

25.如权利要求22所述的方法，其中

(a)所述B12GT多肽是包含与选自由SEQ ID NO：1-882和1333-1466组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列的工程化B12GT，并且

(b)所述SuSy多肽是包含与选自由SEQ ID NO：883-1227和1231-1332组成的组的氨基酸序列至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％相同的氨基酸序列的工程化蔗糖合酶。

26.如权利要求22所述的方法，其中所述B12GT多肽是当通过表17中所示的PSSM进行评分时具有大于266.7的分数的工程化B12GT。

27.如权利要求22所述的方法，其中所述SuSy多肽是当通过表24中所示的PSSM进行评分时具有大于556的分数的工程化蔗糖合酶。

28.如权利要求22所述的方法，其中所述SuSy多肽是当通过表28中所示的PSSM进行评分时具有大于194.5的分数的工程化蔗糖合酶。

29.如权利要求22所述的方法，其中

(a)所述B12GT多肽是当通过表17中所示的PSSM进行评分时具有大于266.7的分数的工程化B12GT，并且

(b)所述SuSy多肽是当通过表28中所示的PSSM进行评分时具有大于194.5的分数的工程化蔗糖合酶。

30.如权利要求22所述的方法，其中

(b)所述SuSy多肽是当通过表28中所示的PSSM进行评分时具有大于556的分数的工程化蔗糖合酶。

31.如权利要求22至30中任一项所述的方法，其中所述底物甜菊醇糖苷是甜菊醇、甜菊醇-13-O-葡萄糖苷、甜菊醇-19-O-葡萄糖苷、甜茶苷、甜菊醇-1，2-二糖苷、甜菊醇-1，3-二糖苷、甜茶苷、杜尔可苷B、杜尔可苷A、莱苞迪苷B、莱苞迪苷G、甜菊苷、莱苞迪苷C、莱苞迪苷F、莱苞迪苷A、莱苞迪苷I、莱苞迪苷E、莱苞迪苷H、莱苞迪苷L、莱苞迪苷K、莱苞迪苷J、莱苞迪苷M、莱苞迪苷D、莱苞迪苷N、莱苞迪苷O、莱苞迪苷Q、其异构体、合成甜菊醇糖苷，或它们的组合。

32.如权利要求22至30中任一项所述的方法，其中所述底物甜菊醇糖苷是甜菊苷和莱苞迪苷A的混合物。

33.如权利要求22至32中任一项所述的方法，其中所述目标甜菊醇糖苷是甜菊醇、甜菊醇-13-O-葡萄糖苷、甜菊醇-19-O-葡萄糖苷、甜茶苷、甜菊醇-1，2-二糖苷、甜菊醇-1，3-二糖苷、甜茶苷、杜尔可苷B、杜尔可苷A、莱苞迪苷B、莱苞迪苷G、甜菊苷、莱苞迪苷C、莱苞迪苷F、莱苞迪苷A、莱苞迪苷I、莱苞迪苷E、莱苞迪苷H、莱苞迪苷L、莱苞迪苷K、莱苞迪苷J、莱苞迪苷M、莱苞迪苷D、莱苞迪苷N、莱苞迪苷O、莱苞迪苷Q、其异构体、合成甜菊醇糖苷，或它们的组合。

34.如权利要求22至32中任一项所述的方法，其中所述目标甜菊醇糖苷是莱苞迪苷E和莱苞迪苷D的混合物。

35.如权利要求22至32中任一项所述的方法，其中所述目标甜菊醇糖苷是莱苞迪苷D。

36.如权利要求22至32中任一项所述的方法，其中所述目标甜菊醇糖苷是莱苞迪苷E。

37.如权利要求22至36中任一项所述的方法，其中所述非UDP核苷酸二磷酸是ADP、GDP、CDP或TDP。

38.如权利要求22至37中任一项所述的方法，其中所述非UDP核苷酸二磷酸是ADP。

39.一种多核苷酸，所述多核苷酸编码如权利要求1-18中任一项所述的多肽。

40.一种宿主微生物，所述宿主微生物异源表达如权利要求36所述的多核苷酸。