CN113444703B

CN113444703B - 催化糖链延伸的糖基转移酶突变体及其应用

Info

Publication number: CN113444703B
Application number: CN202010221972.9A
Authority: CN
Inventors: 周志华; 李超静; 严兴; 王平平; 杨成帅
Original assignee: Shenghe Everything Suzhou Biotechnology Co ltd
Current assignee: Shenghe Everything Shanghai Biotechnology Co ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-09-01
Anticipated expiration: 2040-03-26
Also published as: CN113444703A

Abstract

本发明涉及负责糖链延伸的糖基转移酶突变体的应用。本发明提供了糖基转移酶突变体，其可以高效催化在四环三萜类化合物的C‑6位连接糖基的反应，以实现糖基的延伸。本发明糖基转移酶突变体还可应用于构建人工合成人参皂苷及多种新人参皂苷及其衍生物。

Description

催化糖链延伸的糖基转移酶突变体及其应用

技术领域

本发明涉及生物技术和植物生物学领域，具体地，本发明涉及一组糖基转移酶及其应用。

背景技术

人参皂苷是从人参属植物(如人参、三七和西洋参等)和绞股蓝中分离到的皂苷的总称，是一类三萜化合物。人参皂苷亦可以根据其分离的来源称为人参皂苷，三七皂苷和绞股蓝皂苷。人参皂苷是这些药用植物中的主要生物活性成份。目前，已经分离出了约150种皂苷。从结构上来看，人参皂苷主要是皂苷元经过糖基化后形成的生物活性小分子。人参皂苷的皂苷元只有有限的几种，主要是达玛烷型四环三萜的原人参二醇和原人参三醇，以及齐墩果烷酸。皂苷元通过糖基化后，可以提高水溶性，改变其亚细胞定位，并产生出不同的生物活性。绝大部分原人参二醇型皂苷是在C3和/或C20位羟基进行糖基化修饰，而原人参三醇型皂苷是在C6和/或C20的羟基上进行糖基化修饰。不同类型的糖基以及不同程度的糖基化修饰产生了分子结构繁多的人参皂苷。

鼠李糖基化修饰的人参皂苷具有丰富的生物活性。例如Rg2是在Rh1的C6-O-Glc延伸一分子鼠李糖，Rg2在治疗抑郁、改善心功能、提高学习记忆能力、抗老年痴呆等方面具有很好功效；人参皂苷Re是在Rg1的C6-O-Glc延伸一分子鼠李糖，可能通过促进肠道组织中胰高血糖素样肽-1的分泌来发挥降血糖、治疗糖尿病的作用。

人参皂苷以人参或者三七的总皂苷或者丰富皂苷为原料，依赖化学、酶和微生物发酵的水解方法进行制备。由于野生的人参资源已基本耗竭，人参皂苷资源目前来源于人参或三七的人工栽培，而其人工栽培的生长周期长(一般需要5-7年以上)，并且受到地域的限制，还经常受到病虫害而需要施用大量的农药，所以，人参或三七的人工栽培有严重的连作障碍(人参或三七种植地需要休耕5-15年以上才能克服连作障碍)，所以人参皂苷的产量、品质及安全性都面临挑战。

合成生物学的发展为植物来源的天然产物的异源合成提供了新的机遇。以酵母为底盘，通过代谢途径的组装和优化，已经实现了用廉价的单糖来发酵合成青蒿酸或者双氢青蒿酸，继而再通过一步化学转化的方法生产青蒿素，这表明合成生物学在天然产物的药物合成方面具有的巨大潜力。利用酵母底盘细胞通过合成生物学方法异源合成人参皂苷单体，原料为廉价的单糖，制备过程为安全性可调控的发酵过程，避免了任何外来污染(例如，原料植物人工种植时使用的农药)。因此，通过合成生物学技术制备人参皂苷单体，不仅具有成本优势，而且，可以保证成品的品质与安全性。利用合成生物学技术制备足够量的各种高纯度的天然与非天然的人参皂苷单体，用于活性测定及临床实验，促进稀有人参皂苷的创新药物研发。

近年来通过对人参、三七和西洋参的转录组和功能基因组研究，人参皂苷皂苷元合成途径的解析已经有了非常大的进展。2006年，日本和韩国科学家分别鉴定了将环氧角鲨烯转化为达玛烯二醇的萜环化酶元件(达玛烯二醇合成酶，PgDDS)。2011年到2012年，韩国科学家又鉴定了把达玛烯二醇氧化为原人参二醇以及把原人参二醇进一步氧化为原人参三醇的细胞色素P450元件CYP716A4和CYP716A53v2。

利用合成生物学方法来人工合成这些具有药用活性的人参皂苷，不仅需要构建合成皂苷元的代谢途径，还需要鉴定催化人参皂苷的糖基化的UDP-糖基转移酶。UDP-糖基转移酶的功能是将糖基供体(核苷二磷酸糖，例如UDP-葡萄糖、UDP-鼠李糖、UDP-木糖和UDP-阿拉伯糖)上的糖基转移到不同的糖基受体上。从目前已测序的植物基因组分析，植物基因组往往编码了上百种以上不同的糖基转移酶。2015年中国学者鉴定了能在原人参三醇C6位转入一个葡萄糖基的UDP-糖基转移酶元件(UGTPg100)。中国学者在专利(PCT/CN2015/081111)公开了可以在原人参三醇型皂苷的C6位进行糖链延伸的糖基转移酶(gGT29-7等)，如gGT29-7可以利用UDP-Xyl催化Rh1的C6位延伸一分子木糖基生成三七皂苷R2，可以利用UDP-Glc催化Rh1的C6位延伸一分子葡萄糖糖基生成人参皂苷Rf，但基本无法利用UDP-Rha催化Rh1的C6位延伸一分子鼠李糖基生成人参皂苷Rg2；虽然后续专利(PCT/CN2015/081111)公开的gGT29-7的突变体gGT29-7(N343G，A359P)能够利用UDP-Rha催化Rh1的C6位延伸一分子鼠李糖基生成Rg2，但活性非常低，仅大约9％转化率，不能完全满足应用的需求。

因此，本领域还需要开发进一步优化的糖基转移酶。

发明内容

本发明提供了高效的糖基转移酶及其应用，用于催化四环三萜类化合物糖基化反应。

在本发明的第一方面，提供糖基转移酶的突变体，所述突变体包括：(a)氨基酸序列对应于SEQ ID NO:12(野生型gGT29-7)，发生第362位、第15位和/或第54位的突变；或，氨基酸序列对应于SEQ ID NO:12，发生第362位、第15位和/或第54位的突变，且发生第343位和第359位的突变；(b)将(a)蛋白的氨基酸序列经过一个或多个(如1-20个；较佳地1-15个；更佳地1-10个，如5个，3个)氨基酸残基的取代、缺失或添加而形成的，且具有(a)蛋白功能的由(a)衍生的蛋白，但对应于SEQ ID NO:12的第362、15、54、343和/或359位的氨基酸与(a)蛋白相应位置突变后的氨基酸相同；(c)与(a)蛋白的氨基酸序列有80％以上(较佳地85％以上；更佳地90％以上；更佳95％以上，如98％，99％)同源性且具有(a)蛋白功能的由(a)衍生的蛋白，但对应于SEQ ID NO:12的第362、15、54、343和/或359位的氨基酸与(a)蛋白相应位置突变后的氨基酸相同；(d)(a)～(c)任一所述蛋白的活性片段，其包含糖基转移酶gGT29-7空间结构中与糖基供体、糖基受体相互作用的结构，且在对应于SEQ ID NO:12的第362、15、54、343和/或359位的氨基酸与(a)蛋白相应位置突变后的氨基酸相同；或，(e)(a)～(d)任一所述蛋白的两端添加标签序列、信号序列或分泌信号序列后形成的蛋白。

在一个或多个实施方案中，所述的糖基转移酶突变体中，第362位突变为Tyr(Y)、第15位突变为Trp(W)和/或第54位突变为Met(M)；或，所述的第343位突变为Gly(G)，第359位突变为Pro(P)。

在一个或多个实施方案中，(a)中，所述突变体具有SEQ ID NO:10、4、6、8或所示的氨基酸序列。

在本发明的另一方面，提供分离的多核苷酸，所述的核酸是编码所述的糖基转移酶突变体。

在一个或多个实施方案中，所述的多核苷酸选自以下的一种或多种：(A)编码如SEQ ID NO:10、4、6、8所示多肽或其衍生多肽的核苷酸序列；(B)如SEQ ID NO:9、3、5、7所示的核苷酸序列；(C)与SEQ ID NO:9、3、5、7所示序列有至少98％相同性的核苷酸序列；(D)在SEQ ID NO:9、3、5、7所示序列的5’端和/或3’端截短或添加1-60个(较佳地1-30，更佳地1-10个)核苷酸所形成的核苷酸序列；(E)(A)-(D)任一所述的核苷酸序列的互补序列；或(F)(A)-(D)所述序列的长20-50个碱基的片段。

在本发明的另一方面，提供一种核酸构建物或载体，它含有所述的多核苷酸，或表达所述的糖基转移酶的突变体。

在本发明的另一方面，提供一种遗传工程化的宿主细胞，它含有所述的核酸构建物或载体，或基因组中整合有所述的多核苷酸，或表达所述的糖基转移酶的突变体。

在一个或多个实施方案中，所述细胞中包括原核细胞或真核细胞；较佳地，所述的原核细胞包括大肠杆菌细胞、枯草杆菌细胞；较佳地，所述真核细胞包括酵母细胞(如酿酒酵母细胞)、植物细胞、真菌细胞、昆虫细胞或哺乳动物细胞；较佳地，所述植物细胞包括人参细胞或三七细胞。

在一个或多个实施方案中，所述宿主细胞不是天然产生式(II)、(IV)化合物的细胞。

在一个或多个实施方案中，所述的宿主细胞不是天然产生以下物质中的一种或多种的细胞：人参皂苷Rh1、人参皂苷Rg1、人参皂苷Re4、三七皂苷R3、三七皂苷Fp1、西洋参皂苷L17、人参皂苷Rg2、人参皂苷Re、Floralgensenoside M、Yesanchinoside E、Floralgensenoside N、Floralquinquenoside E。

在一个或多个实施方案中，所述宿主细胞还表达达玛烯二醇和/或原人参二醇型皂苷和/或原人参三醇型皂苷合成代谢途径中关键酶；或，所述宿主细胞还包括达玛烯二醇和/或原人参二醇型皂苷和/或原人参三醇型皂苷合成代谢途径中的关键酶的编码基因或含有所述编码基因的核酸构建物。

在一个或多个实施方案中，所述的原人参三醇型皂苷包含人参皂苷Rh1、人参皂苷Rg1、人参皂苷Re4、三七皂苷R3、三七皂苷Fp1、西洋参皂苷L17、人参皂苷Rg2、人参皂苷Re、Floralgensenoside M、Yesanchinoside E、Floralgensenoside N、FloralquinquenosideE。

在一个或多个实施方案中，所述的人参皂苷Rh1合成代谢途径中的关键基因包括(但不限于)：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450CYP716A47的还原酶基因和四环三萜C6的糖基转移酶UGTPg100(Genbankaccession number AKQ76388.1)，或其组合。

在一个或多个实施方案中，所述的人参皂苷Rg1合成代谢途径中的关键基因包括(但不限于)：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450CYP716A47的还原酶基因和四环三萜C20位和C6的糖基转移酶UGTPg1和UGTPg100(Genbank accessionnumber AKQ76388.1)，或其组合。

在一个或多个实施方案中，所述的人参皂苷Rg2合成代谢途径中的关键基因包括(但不限于)：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450CYP716A47的还原酶基因和四环三萜C6的糖基转移酶UGTPg100(Genbank accession number AKQ76388.1)以及本文中催化C6位糖基延伸的糖基转移酶，或其组合。

在一个或多个实施方案中，所述的人参皂苷Re合成代谢途径中的关键基因包括(但不限于)：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450CYP716A47的还原酶基因和四环三萜C20位和C6的糖基转移酶UGTPg1和UGTPg100(Genbank accessionnumber AKQ76388.1)以及本文中催化C6位糖基延伸的糖基转移酶，或其组合。

在本发明的另一方面，提供所述的糖基转移酶的突变体的用途，用于在四环三萜(类)化合物C-6位的糖基上连接糖基；或用于制备在四环三萜(类)化合物C-6位的糖基上连接糖基的催化制剂。

在本发明的另一方面，提供所述的多核苷酸、所述的核酸构建物或载体在制备催化制剂中的应用，所述的催化制剂在四环三萜(类)化合物C-6位的糖基上连接糖基。

在本发明的另一方面，提供一种在四环三萜(类)化合物C-6位的糖基上连接糖基的方法，包括：以所述的糖基转移酶的突变体催化，将糖基从糖基供体转移到所述的四环三萜(类)化合物C-6位的糖基上。

在一个或多个实施方案中，所述的在四环三萜(类)化合物C-6位的糖基上连接糖基的方法包括体内或细胞内方法，或体外或细胞外方法。

在一个或多个实施方案中，所述的四环三萜(类)化合物为式(I)化合物，在C-6位的糖基上连接糖基的化合物为式(II)化合物；

其中，R1和R2为H或者糖基，R3和R4为单糖糖基；较佳地，所述的单糖糖基选自：葡萄糖基、木糖基、阿拉伯糖基或鼠李糖基。

在一个或多个实施方案中，其R1-R4及经取代后的化合物如下表所示：

底物	R1	R2	R3	R4	产物
						Rg1	H	Glc	Glc	Rha	人参皂苷Re
Rh1	H	H	Glc	Rha	人参皂苷Rg2

即，当R1为H时，R2和R3为葡萄糖基时，所述的式(I)化合物为人参皂苷Rg1；当R1为H时，R2和R3为葡萄糖基，R4为鼠李糖基时，所述的式(II)化合物为三七皂苷Re；

当R1和R2为H，R3为葡萄糖基时，所述的式(I)化合物为人参皂苷Rh1；当R1和R2为H，R3为葡萄糖基，R4为鼠李糖基时，所述的式(II)化合物为三七皂苷Rg2。

在一个或多个实施方案中，所述的四环三萜(类)化合物为式(III)化合物，在C-6位的糖基上连接糖基的化合物为式(IV)化合物；

其中，R1为H或者糖基，R2、R3、R4和R5为单糖糖基；较佳地，所述的单糖糖基选自：葡萄糖基、木糖基、阿拉伯糖基或鼠李糖基。

在一个或多个实施方案中，其R1-R5及经取代后的化合物如下表所示：

底物

R1

R2

R3

R4

R5

产物

人参皂苷Re4

H

Glc

Ara(f)

Glc

Rha

Floralgensenoside M

三七皂苷R3

H

Glc

Rha

Yesanchinoside E

三七皂苷Fp1

H

Glc

Ara(p)

Glc

Rha

Floralgensenoside N

西洋参皂苷L17

H

Glc

Xyl

Glc

Rha

Floralquinquenoside E

即，当R1为H，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(f)时，所述的式(III)化合物为人参皂苷Re4；当R1为H，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(f)，R5为鼠李糖基时，所述的式(IV)化合物为Floralgensenoside M；

当R1为H时，R2、R3和R4为葡萄糖基时，所述的式(III)化合物为三七皂苷R3；当R1为H，R2、R3和R4为葡萄糖基，R5为鼠李糖基时，所述的式(IV)化合物为Yesanchinoside E；

当R1为H时，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(p)时，所述的式(III)化合物为三七皂苷Fp1；当R1为H时，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(p)，R5为鼠李糖基时，所述的式(IV)化合物为Floralgensenoside N；

当R1为H时，R2和R4为葡萄糖基、R3为木糖基时，所述的式(III)化合物为西洋参皂苷L17；当R1为H时，R2和R4为葡萄糖基、R3为木糖基，R5为鼠李糖基时，所述的式(IV)化合物为Floralquinquenoside E。

在一个或多个实施方案中，所述式(I)、(III)化合物包括(但不限于)：S构型或R构型的达玛烷型四环三萜类化合物、羊毛脂烷型四环三萜类化合物、去水甘遂烷(apotirucallane)型四环三萜、甘遂烷型四环三萜类化合物、环阿屯烷(环阿尔廷烷)型四环三萜类化合物、葫芦烷四环三萜类化合物、或楝烷型四环三萜类化合物。

在一个或多个实施方案中，所述式(I)、(III)化合物包括(但不限于)：人参皂苷Rh1、人参皂苷Rg1、人参皂苷Re4、三七皂苷R3、三七皂苷Fp1、西洋参皂苷L17；所述式(II)或(IV)化合物包括(但不限于)：人参皂苷Rg2、人参皂苷Re、Floralgensenoside M、Yesanchinoside E、Floralgensenoside N、Floralquinquenoside E。

在一个或多个实施方案中，以带有糖基的化合物为供体；较佳地所述供体包括选自下组的尿苷二磷酸(UDP)糖：UDP-葡萄糖，UDP-乙酰基葡萄糖，UDP-鼠李糖，UDP-木糖，或其组合。

在本发明的另一方面，提供一种生物合成C-6位的糖基上连接糖基的四环三萜(类)化合物的方法，包括：培养所述的宿主细胞。

在一个或多个实施方案中，所述糖基催化反应的底物为式(I)、(III)化合物，且所述的产物分别为(II)、(IV)合物。

在一个或多个实施方案中，所述的式(I)化合物为人参皂苷Rh1，并且式(II)化合物为三七皂苷Rg2。

在一个或多个实施方案中，式(I)化合物为人参皂苷Rg1，并且式(II)化合物为三七皂苷Re。

在一个或多个实施方案中，式(III)化合物为人参皂苷Re4，并且式(IV)化合物为Floralgensenoside M。

在一个或多个实施方案中，式(III)化合物为三七皂苷R3，并且式(IV)化合物为Yesanchinoside E。

在一个或多个实施方案中，式(III)化合物为三七皂苷Fp1，并且式(IV)化合物为Floralgensenoside N。

在一个或多个实施方案中，式(III)化合物为西洋参皂苷L17，并且式(IV)化合物为Floralquinquenoside E。

在一个或多个实施方案中，对于所述宿主细胞提供外源的糖基供体，或者该宿主细胞自身合成糖基供体。

在本发明的另一方面，提供一种用于在四环三萜(类)化合物C-6位的糖基上连接糖基的组合物，其包括所述的糖基转移酶的突变体，以及工业学上、药学上或微生物学上可接受的载体。

在本发明的另一方面，提供一种用于在四环三萜(类)化合物C-6位的糖基上连接糖基的试剂盒，其包括：所述的糖基转移酶的突变体；所述的组合物；或所述的宿主细胞。

在本发明另一方面，还提供本文所述宿主细胞在制备糖基转移酶、催化试剂、或式(II)、(IV)化合物中的用途。

在本发明另一方面，还提供生产糖基转移酶或式(II)或(IV)化合物的方法，包括孵育本文所述的宿主细胞。

在本发明另一方面，还提供本文所述宿主细胞的用途，用于制备酶催化试剂，或产生糖基转移酶、或作为催化细胞、或产生式(II)、(IV)化合物。

在本发明另一方面，提供一种产生转基因植物的方法，包括步骤：将本文所述宿主细胞再生为植物，其中所述宿主细胞为植物细胞。在一个或多个实施方案中，所述宿主细胞为人参细胞。在一个或多个实施方案中，所述宿主细胞为三七细胞。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1、实施例1所示的来源于已发表专利PCT/CN2015/081111的gGT29-7为模板，扩增所得产物的DNA琼脂糖凝胶电泳检测结果。

图2、通过Western Blot显示糖基转移酶gGT29-7及其突变体gGT29-7m1，gGT29-7m2，gGT29-7m3，gGT29-7m4和gGT29-7m5在大肠杆菌中的表达情况。“1”，代表空载体pET28a大肠杆菌重组子的裂解液上清；Marker，代表蛋白质分子量标准；gGT29-7，代表糖基转移酶BL21-gGT29-7大肠杆菌重组子的裂解液上清；gGT29-7m1，代表BL21-gGT29-7m1大肠杆菌重组子的裂解液上清；gGT29-7m2，代表BL21-gGT29-7m2大肠杆菌重组子的裂解液上清；gGT29-7m3，代表BL21-gGT29-7m3大肠杆菌重组子的裂解液上清；gGT29-7m4，代表BL21-gGT29-7m4大肠杆菌重组子的裂解液上清；gGT29-7m5，代表BL21-gGT29-7m5大肠杆菌重组子的裂解液上清。

图3A、糖基转移酶gGT29-7及其突变体gGT29-7m1，gGT29-7m2，gGT29-7m3，gGT29-7m4和gGT29-7m5催化以原人参三醇型人参皂苷Rh1为糖基受体，UDP-Rha为糖基供体的转糖基反应的TLC图谱。对照，代表以pet28a空载体重组子的裂解液上清作为酶液；gGT29-7m1，gGT29-7m2，gGT29-7m3，gGT29-7m4和gGT29-7m5分别代表BL21-gGT29-7m1，BL21-gGT29-7m2，BL21-gGT29-7m3，BL21-gGT29-7m4和BL21-gGT29-7m5的裂解液上清作为酶液。箭头所指为皂苷标准品的迁移位置。

图3B、糖基转移酶gGT29-7m5催化以原人参三醇型人参皂苷Rh1为糖基受体，UDP-Rha为糖基供体的转糖基反应的HPLC图谱。黑色线代表标准化合物Rh1、Rg2、Rf，粉红色线代表以pet28a空载体重组子的裂解液上清作为酶液；蓝色线代表以BL21-gGT29-7m5重组子的裂解液上清作为酶液。箭头所指为皂苷标准品的出峰位置。

图4A、糖基转移酶gGT29-7及其突变体gGT29-7m1，gGT29-7m2，gGT29-7m3，gGT29-7m4和gGT29-7m5催化以原人参三醇型人参皂苷Rg1为糖基受体，UDP-Rha为糖基供体的转糖基反应的TLC图谱。对照，代表以pet28a空载体重组子的裂解液上清作为酶液；gGT29-7m1，gGT29-7m2，gGT29-7m3，gGT29-7m4和gGT29-7m5分别代表BL21-gGT29-7m1，BL21-gGT29-7m2，BL21-gGT29-7m3，BL21-gGT29-7m4和BL21-gGT29-7m5的裂解液上清作为酶液。箭头所指为皂苷标准品的迁移位置。

图4B、糖基转移酶gGT29-7m5催化以原人参三醇型人参皂苷Rg1为糖基受体，UDP-Rha为糖基供体的转糖基反应的HPLC图谱。黑色线代表标准化合物Rg1、Re，粉红色线代表以pet28a空载体重组子的裂解液上清作为酶液；蓝色线代表以BL21-gGT29-7m5重组子的裂解液上清作为酶液。箭头所指为皂苷标准品的出峰位置。

具体实施方式

本发明人经过广泛而深入的研究，首次提供了糖基转移酶新的突变体，其具有非常优异的催化活性，可以高效催化在在四环三萜(类)化合物C-6位的糖基上连接一个糖基，以延伸糖链。

如本文所用，术语“本发明的突变体”、“糖基转移酶的突变体”、“本发明的酶”、“酶突变体”可互换使用，可以是gGT29-7m5(SEQ ID NO:10)，gGT29-7m2(SEQ ID NO:4)，gGT29-7m3(SEQ ID NO:6)，gGT29-7m4(SEQ ID NO:8)所示的多肽或其衍生多肽。

本发明的活性多肽(突变体)可以是重组多肽、天然多肽、合成多肽。本发明的多肽可以是天然纯化的产物，或是化学合成的产物，或使用重组技术从原核或真核宿主(例如，细菌、酵母、植物)中产生。根据重组生产方案所用的宿主，本发明的多肽可以是糖基化的，或可以是非糖基化的。本发明的多肽还可包括或不包括起始的甲硫氨酸残基。

本发明还包括所述多肽的片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持所述多肽相同的生物学功能或活性的多肽。

本发明还包括所述糖基转移酶突变体的片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持本发明的糖基转移酶的突变体相同的生物学功能或活性的蛋白。本发明的蛋白片段、衍生物或类似物可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的蛋白，而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的，或(ii)在一个或多个氨基酸残基中具有取代基团的蛋白，或(iii)附加的氨基酸序列融合到此蛋白序列而形成的蛋白(如前导序列或分泌序列或用来纯化此蛋白的序列或蛋白原序列，或融合蛋白)。根据本文的定义这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。然而，本发明所述的糖基转移酶突变体及其片段、衍生物和类似物的氨基酸序列中，存在中保守的氨基酸位置，即对应于SEQ ID NO:12(野生型gGT29-7)，发生第362位、第15位和/或第54位的突变；或，氨基酸序列对应于SEQ IDNO:12，发生第362位、第15位和/或第54位的突变，且发生第343位和第359位的突变。

在本发明中，“糖基转移酶的突变体”还包括(但并不限于)：若干个(通常为1-20个，更佳地1-10个，还更佳如1-8个、1-5个、1-3个、或1-2个)氨基酸的缺失、插入和/或取代，以及在C末端和/或N末端添加或缺失一个或数个(通常为20个以内，较佳地为10个以内，更佳地为5个以内)氨基酸。例如，在本领域中，用性能相近或相似的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末端和/或N末端添加一个或数个氨基酸通常也不会改变蛋白质的功能。该术语还包括糖基转移酶突变体的活性片段和活性衍生物。但是在这些变异形式中，存在中保守的氨基酸位置，即对应于SEQ ID NO:12(野生型gGT29-7)，发生第362位、第15位和/或第54位的突变；或，氨基酸序列对应于SEQ ID NO:12(野生型gGT29-7)，发生第362位、第15位和/或第54位的突变，且发生第343位和第359位的突变。

本文所述的多肽序列优选为如SEQ ID NO:10、4、6、8所示的多肽。

本发明的糖基转移酶的突变体的氨基端或羧基端还可含有一个或多个多肽片段，作为蛋白标签。任何合适的标签都可以用于本发明。例如，所述的标签可以是FLAG、HA、HA1、c-Myc、Poly–His、Poly-Arg、Strep-TagII、AU1、EE、T7、4A6、ε、B、gE、以及Ty1。这些标签可用于对蛋白进行纯化。表1列出了其中的一些标签及其序列。

表1

标签	残基数	序列
			Poly-Arg	5-6个(通常5个)	RRRRR
Poly-His	2-10个(通常6个)	HHHHHH
			FLAG	8个	DYKDDDDK
Strep-TagII	8个	WSHPQFEK
			C-myc	10个	WQKLISEEDL
GST	220个	后面6个LVPRGS

为了使翻译的蛋白分泌表达(如分泌到细胞外)，还可在所述糖基转移酶的突变体的氨基酸氨基末端添加上信号肽序列，如pelB信号肽等。信号肽在多肽从细胞内分泌出来的过程中可被切去。

本发明还提供了编码本发明糖基转移酶突变体或其保守性变异蛋白的多核苷酸序列。所述多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。编码所述突变体的成熟蛋白的多核苷酸包括：只编码成熟蛋白的编码序列；成熟蛋白的编码序列和各种附加编码序列；成熟蛋白的编码序列(和任选的附加编码序列)以及非编码序列。编码成熟多肽的编码区序列可以与SEQ ID NO:9、3、5、7所示的编码区序列相同或者是简并的变异体。如本文所用，“简并的变异体”在本发明中是指编码本发明的酶突变体，但与SEQ ID NO:9、3、5、7分别所示的编码区序列有差别的核酸序列。

术语“编码蛋白的多核苷酸”可以是包括编码此蛋白的多核苷酸，也可以是还包括附加编码和/或非编码序列的多核苷酸。

本发明还涉及上述多核苷酸的变异体，其编码与本发明有相同的氨基酸序列的蛋白或蛋白的片段、类似物和衍生物。此多核苷酸的变异体可以是天然发生的等位变异体或非天然发生的变异体。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的，等位变异体是一个多核苷酸的替换形式，它可能是一个或多个核苷酸的取代、缺失或插入，但不会从实质上改变其编码的蛋白的功能。

本发明的糖基转移酶突变体核苷酸全长序列或其片段通常可以用PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。通常，通过先合成多个小片段，然后再进行连接可获得序列很长的片段。目前，已经可以完全通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。此外，还可通过化学合成将突变引入本发明蛋白序列中。

本发明也涉及包含本发明的多核苷酸的载体，以及用本发明的载体或糖基转移酶突变体编码序列经基因工程产生的宿主细胞，以及经重组技术产生本发明所述蛋白的方法。

通过常规的重组DNA技术(Science，1984；224：1431)，可利用本发明的多聚核苷酸序列来表达或生产重组的糖基转移酶突变体。一般来说有以下步骤：(1).用本发明的编码糖基转移酶突变体的多核苷酸(或变异体)，或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞；(2).在合适的培养基中培养的宿主细胞；(3).从培养基或细胞中分离、纯化蛋白质。

本发明也涉及核酸构建物，该核酸构建物含有本文所述的多核苷酸，以及与这些序列操作性连接的一个或多个调控序列或基因组同源重组所需的序列。本发明所述的多核苷酸可以多种方式被操作以保证所述多肽或蛋白的表达。在将核酸构建物插入载体之前可根据表达载体的不同或要求而对核酸构建物进行操作。利用重组DNA方法来改变多核苷酸序列的技术是本领域已知的。

在某些实施方案中，所述核酸构建物是载体。所述的糖基转移酶突变体多核苷酸序列可插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒或其他载体。总之，只要能在宿主体内复制和稳定，任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。

本领域的技术人员熟知的方法能用于构建含糖基转移酶突变体编码DNA序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上，以指导mRNA合成。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。此外，表达载体优选地包含一个或多个选择性标记基因，以提供用于选择转化的宿主细胞的表型性状。

包含上述的适当DNA序列以及适当启动子或者控制序列的载体，可以用于转化适当的宿主细胞，以使其能够表达蛋白质。宿主细胞可以是原核细胞，如细菌细胞；或是低等真核细胞，如酵母细胞；或是高等真核细胞，如植物细胞、真菌细胞、昆虫细胞或哺乳动物细胞。代表性例子有：原核细胞如大肠杆菌、枯草杆菌、链霉菌属、农杆菌；真菌细胞如酵母细胞(如毕赤酵母、酿酒酵母)等；植物细胞如人参细胞或三七细胞等。用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。可以对获得的转化子进行培养，表达本发明的突变体蛋白。或者，可以利用本发明的糖基转移酶突变体，结合其它的参与本发明的产物的合成的酶，构建可以进行目标产物生产的宿主细胞。

在本发明的优选方式中，除了表达本发明所述的糖基转移酶突变体，所述的宿主细胞中还表达达玛烯二醇和/或原人参二醇型皂苷和/或原人参三醇型皂苷合成代谢途径中关键酶；或，所述宿主细胞还包括达玛烯二醇和/或原人参二醇型皂苷和/或原人参三醇型皂苷合成代谢途径中的关键酶的编码基因或含有所述编码基因的核酸构建物。从而，所述的宿主细胞可以用于生产在C-6位的糖基上进一步连接一个糖基的四环三萜类化合物。对于此类四环三萜类化合物的生物合成途径，已经是本领域已知的途径，然而本领域却不了解可以藉由本发明的糖基转移酶突变体来实现更为有效的糖基转移。因此，在本发明目前披露的内容的基础上，本领域技术人员可以利用本发明的糖基转移酶突变体，配合该代谢途径的其它关键酶，获得可以生产目标产物(在C-6位的糖基上进一步连接一个糖基的四环三萜类化合物)的宿主细胞。本发明中，所述的参与代谢途径的关键酶，可以是野生型的或是它们的具有功能的变体。

所述的原人参三醇型皂苷包含人参皂苷Rh1、人参皂苷Rg1、人参皂苷Re4、三七皂苷R3、三七皂苷Fp1、西洋参皂苷L17、人参皂苷Rg2、人参皂苷Re、Floralgensenoside M、Yesanchinoside E、Floralgensenoside N、Floralquinquenoside E。

作为一些优选的实施方式，所述的人参皂苷Rh1合成代谢途径中的关键基因包括但不限于：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450CYP716A47的还原酶基因和四环三萜C6的糖基转移酶UGTPg100(Genbank accession number AKQ76388.1)，或其组合；或，所述的人参皂苷Rg1合成代谢途径中的关键基因包括但不限于：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450 CYP716A47的还原酶基因和四环三萜C20位和C6的糖基转移酶UGTPg1和UGTPg100(Genbank accession number AKQ76388.1)，或其组合；或，所述的人参皂苷Rg2合成代谢途径中的关键基因包括但不限于：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450 CYP716A47的还原酶基因和四环三萜C6的糖基转移酶UGTPg100(Genbank accession number AKQ76388.1)以及本文中催化C6位糖基延伸的糖基转移酶，或其组合；或，所述的人参皂苷Re合成代谢途径中的关键基因包括但不限于：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450 CYP716A47的还原酶基因和四环三萜C20位和C6的糖基转移酶UGTPg1和UGTPg100(Genbank accession numberAKQ76388.1)以及本文中催化C6位糖基延伸的糖基转移酶，或其组合。

本发明涉及的活性多肽或糖基转移酶可用于人工合成已知人参皂苷及新人参皂苷及其衍生物。因此，本发明还提供了所述的糖基转移酶的突变体的用途，用于在四环三萜(类)化合物C-6位的糖基上连接一个糖基；或用于制备在四环三萜(类)化合物C-6位的糖基上连接一个糖基的催化制剂。与突变前的gGT29-7或gGT29-7m1相比，本发明的糖基转移酶的突变体具有显著更为优异的C-6位糖基转移的性能。

在一些优选的实施方式中，所述的四环三萜(类)化合物为式(I)化合物，在C-6位的糖基上连接一个糖基的化合物为式(II)化合物。其中，R1和R2为H或者糖基，R3和R4为单糖糖基；较佳地，所述的单糖糖基选自：葡萄糖基、木糖基、阿拉伯糖基或鼠李糖基。在一些优选的实施方式中，所述的四环三萜(类)化合物为式(III)化合物，在C-6位的糖基上连接一个糖基的化合物为式(IV)化合物。在一些优选的实施方式中，所述的四环三萜(类)化合物包括但不限于：S构型或R构型的达玛烷型四环三萜类化合物、羊毛脂烷型四环三萜类化合物、去水甘遂烷(apotirucallane)型四环三萜、甘遂烷型四环三萜类化合物、环阿屯烷(环阿尔廷烷)型四环三萜类化合物、葫芦烷四环三萜类化合物、或楝烷型四环三萜类化合物。

在一些优选的实施方式中，所述式(I)、(III)化合物包括：人参皂苷Rh1、人参皂苷Rg1、人参皂苷Re4、三七皂苷R3、三七皂苷Fp1、西洋参皂苷L17；与之相应地，所述式(II)或(IV)化合物包括(但不限于)：人参皂苷Rg2、人参皂苷Re、Floralgensenoside M、Yesanchinoside E、Floralgensenoside N、Floralquinquenoside E。也即，本发明的糖基转移酶突变体可以在人参皂苷Rh1或人参皂苷Rg1或人参皂苷Re4或三七皂苷R3或三七皂苷Fp1或西洋参皂苷L17的C-6位第一个糖基上延伸1分子鼠李糖从而获得人参皂苷Rg2或者人参皂苷Re或者Floralgensenoside M或者Yesanchinoside E或者Floralgensenoside N或者Floralquinquenoside E。如，其中一突变体gGT29-7m5体外活性检测其催化Rh1生成Rg2的效率达到90％以上。该糖基转移酶为人参皂苷Rg2或者人参皂苷Re或者Floralgensenoside M或者Yesanchinoside E或者Floralgensenoside N或者Floralquinquenoside E的高效制备提供的优越条件。

在本发明的特别优选的实施例中，本发明的糖基转移酶可以将Rh1转化为具有活性的人参皂苷Rg2。Rg2具有防治神经退行性疾病的活性，具有良好的药学应用前景。

本发明的主要优点在于：

(1)本发明的糖基转移酶可以特异性和高效地将四环三萜化合物底物的C-6的第一个糖基上转入糖基以延伸糖链。

(2)本发明的糖基转移酶具有很高的催化效率。与专利PCT/CN2015/081111披露的糖基转移酶相比，本发明的糖基转移酶催化Rh1的C6位延伸糖链的活性至少提高了9倍(表5)。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如J.萨姆布鲁克等编著，分子克隆实验指南，第三版，科学出版社，2002中所述的条件，或按照制造厂商所建议的条件。

实施例1、人参来源的糖基转移酶gGT29-7定向进化

根据本发明人的在先专利PCT/CN2015/081111，gGT29-7可以实现人参皂苷Rh1在C6位已有1分子葡萄糖基础上延伸1分子葡萄糖，其活性相对较强。以含有gGT29-7的核酸序列的质粒gGT29-7-pET28a为模板，使用含有质粒Pet28a同源臂的引物对1(SEQ ID NO:13和SEQ ID NO:14)扩增产物，DNA聚合酶来自Agilent Technologies公司的GeneMorph IIRandom Mutagenesis Kit(图1)。构建基因表达质粒所用的引物如表2。

表2、构建基因表达质粒所用的引物

在紫外下照射，切下目标DNA条带。然后采用AxyPrep DNA Gel ExtractionKit(AXYGEN公司)从琼脂糖凝胶中回收DNA即为扩增出的DNA片段。表达载体pET28a(购自Merck公司)用NcoI/SalI酶切后，将上述的PCR产物连接到pET28a质粒上，连接产物转化大肠杆菌BL21感受态细胞，将转化后的大肠杆菌菌液涂布在添加卡那霉素100ug/mL的LB平板上，并进一步通过PCR验证重组克隆。分别选取其中若干个克隆提取重组质粒后进行测序和研究，经过筛选获得4个不同的含氨基酸突变的核酸序列，分别命名为gGT29-7m1(SEQ ID NO:1)、gGT29-7m2(SEQ IDNO:3)、gGT29-7m3(SEQ ID NO:5)、gGT29-7m4(SEQ ID NO:7)。通过序列比对，ORF编码了糖基转移酶第94家族保守功能域PSPG盒，表明是糖基转移酶基因。所得蛋白质氨基酸序列gGT29-7m1(SEQ ID NO:2)、gGT29-7m2(SEQ ID NO:4)、gGT29-7m3(SEQ IDNO:6)、gGT29-7m4(SEQ ID NO:8)。具体信息见表3和表4。其中gGT29-7m1(SEQ ID NO:2)含有2个突变氨基酸为N343G，A359P(该突变体与专利PCT/CN2015/081111披露的gGT29-7(N343G，A359P)一致)，gGT29-7m2(SEQ IDNO:4)含有1个突变氨基酸为F362Y，gGT29-7m3(SEQ ID NO:6)含有1个突变氨基酸为F15W，gGT29-7m4(SEQ ID NO:8)含有1个突变氨基酸为V54M。

表3

表4、突变体的核苷酸和氨基酸序列

实施例2、糖基转移酶gGT29-7突变体在大肠杆菌中表达

分别以实施例1构建的含有gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4的大肠杆菌BL21-gGT29-7m1、BL21-gGT29-7m2、BL21-gGT29-7m3、BL21-gGT29-7m4，接种一个重组子到LB培养基中，37℃200rpm培养至OD600约0.6-0.8，使菌液降温至4℃，加入终浓度为200μM的IPTG，18℃120rpm诱导表达16h。4℃离心收集菌体，超声破碎细胞，4℃12000g离心10min收集细胞裂解液上清，从而获取蛋白粗酶液。pET28a上的6×His tag序列使突变蛋白gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4的C末端分别带有6×His tag标签。由此对4个突变体蛋白粗酶液进行western blot检测蛋白表达情况。

抗6×His tag Western Blot(图2)表明，在45-55kD之间有明显条带，糖基转移酶gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4在大肠杆菌中均有可溶表达。

实施例3、糖基转移酶gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4以原人参三醇型皂苷Rh1为底物进行体外转糖基活性和产物鉴定

以实施例2中重组大肠杆菌BL21-gGT29-7m1、BL21-gGT29-7m2、BL21-gGT29-7m3和BL21-gGT29-7m4的细胞裂解液上清为粗酶液来进行转糖基反应，转空载体pET28a重组大肠杆菌的细胞裂解液作为对照。选取专利PCT/CN2015/081111来源的人参糖基转移酶gGT29-7，gGT29-7(N343G，A359P)作阳性对照。按照表5所呈现的反应体系进行体外转糖基化测试，35℃，反应过夜。

反应结果分别用薄层层析(TLC)，高效液相色谱(HPLC)进行检测。

表5、酶活测定反应体系

如图3A所示，以原人参三醇型人参皂苷Rh1为糖基受体，UDP-Rha为糖基供体，gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4催化其生成Rg2，且它们的催化效率均明显优于之前公开的糖基转移酶gGT29-7(PCT/CN2015/081111)的催化效果。

因此，gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3和gGT29-7m4和gGT29-7(N343G，A359P)一样，能够催化Rh1的C6-O-Glc延伸一分子鼠李糖(Rha)生成人参皂苷Rg2。

实施例4、构建糖基转移酶gGT29-7突变体gGT29-7m5及其表达与活性鉴定(以原人参三醇型皂苷Rh1为底物)

以gGT29-7m1(SEQ ID NO:1)的核酸序列为模板，分别设计3对引物分别含有突变位点F362Y、F15W、V54M，引物对2(SEQ ID NO:15和SEQ ID NO:16)含有突变位点F15W，引物对3(SEQ ID NO:17和SEQ ID NO:18)含有突变位点V54M，引物对4(SEQ ID NO:19和SEQ IDNO:20)含有突变位点F362Y，用宝生物工程有限公司的PrimeSTAR DNA聚合酶进行分段PCR扩增，从而获得4段PCR产物，具体信息见表2-3。将4段PCR产物一起连接到pET28a质粒上(多片段重组试剂盒，购自上海翊圣)，连接产物转化实验室制备的大肠杆菌BL21感受态细胞，将转化后的大肠杆菌菌液涂布在添加卡那霉素100ug/mL的LB平板上，并进一步通过PCR验证重组克隆。选取其中若干个克隆提取重组质粒后进行测序，获得1个含5个氨基酸突变(N343G，A359P，F362Y，F15W，V54M)的核酸序列，即命名为gGT29-7m5(SEQ ID NO:9)。通过序列比对，ORF编码了糖基转移酶第94家族保守功能域PSPG盒，表明是糖基转移酶基因。所得蛋白质氨基酸序列gGT29-7m5(SEQID NO:10)。

以实施例3中的方法诱导表达重组大肠杆菌BL21-gGT29-7m5，并获得细胞裂解液。同时转空载体pET28a重组大肠杆菌的细胞裂解液作为对照。选取专利PCT/CN2015/081111来源的人参糖基转移酶gGT29-7和gGT29-7(N343G，A359P)，以及本发明的人参糖基转移酶gGT29-7突变体gGT29-7m1、gGT29-7m2、gGT29-7m3和gGT29-7m4作阳性对照。进行westernblot检测蛋白表达情况。抗6×Histag Western Blot(图2)表明，在45-55kD之间有明显条带，糖基转移酶gGT29-7突变体gGT29-7m5和之前4个突变体gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4一样，在大肠杆菌中均有可溶表达。

以实施例3中的方法进行体外转糖基化测试，35℃，反应过夜。

以原人参三醇型人参皂苷Rh1为糖基受体，UDP-Rha为糖基供体，gGT29-7的突变体gGT29-7m5催化其生成Rg2，且其催化效率均明显优于之前公开的糖基转移酶gGT29-7(PCT/CN2015/081111)和本发明的gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3和gGT29-7m4催化效果，并且HPLC的结果与TLC结果一致。因此，gGT29-7的突变体gGT29-7m5与gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3和gGT29-7m4一样，能够催化Rh1的C6-O-Glc延伸一分子鼠李糖生成人参皂苷Rg2。gGT29-7的突变体gGT29-7m5催化原人参三醇型人参皂苷Rh1生成Rg2的TLC结果如图3A所示，HPLC结果如图3B所示。

实施例5、糖基转移酶gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4和gGT29-7m5以原人参三醇型皂苷Rg1为底物进行体外转糖基活性和产物鉴定

以实施例2和实施例4中重组大肠杆菌BL21-gGT29-7m1、BL21-gGT29-7m2、BL21-gGT29-7m3、BL21-gGT29-7m4和BL21-gGT29-7m5的细胞裂解液上清为粗酶液来进行转糖基反应，转空载体pET28a重组大肠杆菌的细胞裂解液作为对照。选取专利PCT/CN2015/081111来源的人参糖基转移酶gGT29-7，gGT29-7(N343G，A359P)作阳性对照。按照表3所呈现的反应体系进行体外转糖基化测试，35℃，反应过夜。

以原人参三醇型人参皂苷Rg1为糖基受体，UDP-Rha为糖基供体，gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3、gGT29-7m4和gGT29-7m5催化其生成Re，且gGT29-7m5的催化效率均明显优于之前公开的糖基转移酶gGT29-7(PCT/CN2015/081111)和本发明的gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3和gGT29-7m4催化效果，并且HPLC的结果与TLC结果一致。因此，gGT29-7的突变体gGT29-7m5与gGT29-7的突变体gGT29-7m1、gGT29-7m2、gGT29-7m3和gGT29-7m4一样，能够催化Rg1的C6-O-Glc延伸一分子鼠李糖生成人参皂苷Re。gGT29-7的突变体gGT29-7m5催化原人参三醇型人参皂苷Rg1生成Re的TLC结果如图4A所示，HPLC结果如图4B所示。

实施例6、催化C6延伸一分子鼠李糖的gGT29-7突变体的效率比较

来源专利PCT/CN2015/081111的糖基转移酶gGT29-7可在C6延伸一份子葡萄糖，gGT29-7(N343G，A359P)可在C6延伸一份子葡萄糖也可以在C6延伸一份子鼠李糖。将糖基转移酶gGT29-7，gGT29-7(N343G，A359P)以及本发明糖基转移酶gGT29-7m2、gGT29-7m3、gGT29-7m4和gGT29-7m5按照实施例2对这些糖基转移酶进行表达并制备粗酶液。按实施例3进行酶催化反应，以UDP-Rha为糖基供体，以Rh1和/或Rg1为糖基受体，35℃反应为1小时，并用HPLC对产物进行定量测定。按以下公式进行催化效率的计算：

转化效率(％)＝产物量/(底物量+产物量)

催化C6位延伸Rha的糖基转移酶的催化效率比较的结果如表6。

表6、催化C6位延伸Rha的糖基转移酶的催化效率比较

如表5所示，与专利PCT/CN2015/081111披露的糖基转移酶gGT29-7，gGT29-7(N343G，A359P)相比，gGT29-7m2、gGT29-7m3、gGT29-7m4和gGT29-7m5以UDP-鼠李糖为糖基供体催化Rh1和/或Rg1的C6位延伸糖链的活性均得到非常显著的提高。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

序列表

<110> 中国科学院分子植物科学卓越创新中心

<120> 催化糖链延伸的糖基转移酶突变体及其应用

<130> 200260

<160> 20

<170> SIPOSequenceListing 1.0

<210> 1

<211> 1341

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1341)

<223> 基因突变体

<400> 1

atggataacc aaaaaggtag aatcagtata gcgttgctac catttttagc ccatggtcac 60

atatctccct tctttgagct agccaaacaa ctcgcaaaaa gaaattgcaa tgttttcctc 120

tgttctaccc caatcaatct tagctccatc aagaacagag tatctgataa ggattcctct 180

gcttctataa aactagtaga gcttcatctt ccatcttccc ctgatcttcc tcctcactac 240

cacaccacaa atggcctccc ttcccatctc atgatcccac tcagaaacgc ctttgataca 300

gcaggcccca ccttctctga aatccttaaa accttaaacc ctgatttgct tatttatgat 360

ttcaatccct catgggcacc ggagatcgct tcgtctcaca atattccggc agtttgtttc 420

ataattggtg gagcagcctc ctcttccatg agcctacata gtttcaaaaa cccaggtgaa 480

aaatacccat ttctagattt tgatgataac agtaatatta cccctgaacc accttcagca 540

gataacatga agctattaat taattttatg acttgtttcg aacgatcttg cgacattatt 600

ttgattaaga gttttagaga actagaaggg aaatattttg attttttttc cactttatct 660

gataaaactt tggttcctgt tggtccactc gttcaagatc ctatgggcca taatgaagat 720

ccaaaaacag agcagtttat aaactggctt gacaaaaggg ctgaatctac agtggtgttt 780

gtctgctttg gaagtgagtg ttttctctcc aatgaggaat tggaagaagt agcgattggg 840

ctagagatta gcatggttaa tttcatatgg gctgtgagat taattgaagg agagaaaaaa 900

ggggttttac cagaggggtt tgttcaaagg gtaggagaca gaggattggt tgtggaggag 960

tgggctccac aggcaagaat tttaggacat tcaagcaccg gtgggtttgt gagccattgt 1020

gggtggggtt ctattacgga gagtatgaag tttggggttc cagtaattgc catgccgagg 1080

cattttgatc agcctttgaa tggtaagctg gcggcggagg ttggtgtggg catggaggtt 1140

gtgagagatg aaaatgggaa gtataagaga gaagggattg cagaggtaat aagaaaagtc 1200

gttgtggaga aaagtgggga ggttatcagg aggaaagcaa gggaattgag tgagaaaatg 1260

aaagagaaag gagagcaaga gattgatagg gtagtggagg agctagtaca aatttgtaag 1320

aagaagaaag atgaacaata g 1341

<210> 2

<211> 446

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<221> VARIANT

<222> (1)..(446)

<400> 2

Met Asp Asn Gln Lys Gly Arg Ile Ser Ile Ala Leu Leu Pro Phe Leu

1 5 10 15

Ala His Gly His Ile Ser Pro Phe Phe Glu Leu Ala Lys Gln Leu Ala

20 25 30

Lys Arg Asn Cys Asn Val Phe Leu Cys Ser Thr Pro Ile Asn Leu Ser

35 40 45

Ser Ile Lys Asn Arg Val Ser Asp Lys Asp Ser Ser Ala Ser Ile Lys

50 55 60

Leu Val Glu Leu His Leu Pro Ser Ser Pro Asp Leu Pro Pro His Tyr

65 70 75 80

His Thr Thr Asn Gly Leu Pro Ser His Leu Met Ile Pro Leu Arg Asn

85 90 95

Ala Phe Asp Thr Ala Gly Pro Thr Phe Ser Glu Ile Leu Lys Thr Leu

100 105 110

Asn Pro Asp Leu Leu Ile Tyr Asp Phe Asn Pro Ser Trp Ala Pro Glu

115 120 125

Ile Ala Ser Ser His Asn Ile Pro Ala Val Cys Phe Ile Ile Gly Gly

130 135 140

Ala Ala Ser Ser Ser Met Ser Leu His Ser Phe Lys Asn Pro Gly Glu

145 150 155 160

Lys Tyr Pro Phe Leu Asp Phe Asp Asp Asn Ser Asn Ile Thr Pro Glu

165 170 175

Pro Pro Ser Ala Asp Asn Met Lys Leu Leu Ile Asn Phe Met Thr Cys

180 185 190

Phe Glu Arg Ser Cys Asp Ile Ile Leu Ile Lys Ser Phe Arg Glu Leu

195 200 205

Glu Gly Lys Tyr Phe Asp Phe Phe Ser Thr Leu Ser Asp Lys Thr Leu

210 215 220

Val Pro Val Gly Pro Leu Val Gln Asp Pro Met Gly His Asn Glu Asp

225 230 235 240

Pro Lys Thr Glu Gln Phe Ile Asn Trp Leu Asp Lys Arg Ala Glu Ser

245 250 255

Thr Val Val Phe Val Cys Phe Gly Ser Glu Cys Phe Leu Ser Asn Glu

260 265 270

Glu Leu Glu Glu Val Ala Ile Gly Leu Glu Ile Ser Met Val Asn Phe

275 280 285

Ile Trp Ala Val Arg Leu Ile Glu Gly Glu Lys Lys Gly Val Leu Pro

290 295 300

Glu Gly Phe Val Gln Arg Val Gly Asp Arg Gly Leu Val Val Glu Glu

305 310 315 320

Trp Ala Pro Gln Ala Arg Ile Leu Gly His Ser Ser Thr Gly Gly Phe

325 330 335

Val Ser His Cys Gly Trp Gly Ser Ile Thr Glu Ser Met Lys Phe Gly

340 345 350

Val Pro Val Ile Ala Met Pro Arg His Phe Asp Gln Pro Leu Asn Gly

355 360 365

Lys Leu Ala Ala Glu Val Gly Val Gly Met Glu Val Val Arg Asp Glu

370 375 380

Asn Gly Lys Tyr Lys Arg Glu Gly Ile Ala Glu Val Ile Arg Lys Val

385 390 395 400

Val Val Glu Lys Ser Gly Glu Val Ile Arg Arg Lys Ala Arg Glu Leu

405 410 415

Ser Glu Lys Met Lys Glu Lys Gly Glu Gln Glu Ile Asp Arg Val Val

420 425 430

Glu Glu Leu Val Gln Ile Cys Lys Lys Lys Lys Asp Glu Gln

435 440 445

<210> 3

<211> 1341

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1341)

<223> 基因突变体

<400> 3

atggataacc aaaaaggtag aatcagtata gcgttgctac catttttagc ccatggtcac 60

atatctccct tctttgagct agccaaacaa ctcgcaaaaa gaaattgcaa tgttttcctc 120

tgttctaccc caatcaatct tagctccatc aagaacagag tatctgataa ggattcctct 180

gcttctataa aactagtaga gcttcatctt ccatcttccc ctgatcttcc tcctcactac 240

cacaccacaa atggcctccc ttcccatctc atgatcccac tcagaaacgc ctttgataca 300

gcaggcccca ccttctctga aatccttaaa accttaaacc ctgatttgct tatttatgat 360

ttcaatccct catgggcacc ggagatcgct tcgtctcaca atattccggc agtttgtttc 420

ataattggtg gagcagcctc ctcttccatg agcctacata gtttcaaaaa cccaggtgaa 480

aaatacccat ttctagattt tgatgataac agtaatatta cccctgaacc accttcagca 540

gataacatga agctattaat taattttatg acttgtttcg aacgatcttg cgacattatt 600

ttgattaaga gttttagaga actagaaggg aaatattttg attttttttc cactttatct 660

gataaaactt tggttcctgt tggtccactc gttcaagatc ctatgggcca taatgaagat 720

ccaaaaacag agcagtttat aaactggctt gacaaaaggg ctgaatctac agtggtgttt 780

gtctgctttg gaagtgagtg ttttctctcc aatgaggaat tggaagaagt agcgattggg 840

ctagagatta gcatggttaa tttcatatgg gctgtgagat taattgaagg agagaaaaaa 900

ggggttttac cagaggggtt tgttcaaagg gtaggagaca gaggattggt tgtggaggag 960

tgggctccac aggcaagaat tttaggacat tcaagcaccg gtgggtttgt gagccattgt 1020

gggtggaatt ctattacgga gagtatgaag tttggggttc cagtaattgc catggccagg 1080

cattatgatc agcctttgaa tggtaagctg gcggcggagg ttggtgtggg catggaggtt 1140

gtgagagatg aaaatgggaa gtataagaga gaagggattg cagaggtaat aagaaaagtc 1200

gttgtggaga aaagtgggga ggttatcagg aggaaagcaa gggaattgag tgagaaaatg 1260

aaagagaaag gagagcaaga gattgatagg gtagtggagg agctagtaca aatttgtaag 1320

aagaagaaag atgaacaata g 1341

<210> 4

<211> 446

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<221> VARIANT

<222> (1)..(446)

<400> 4

Met Asp Asn Gln Lys Gly Arg Ile Ser Ile Ala Leu Leu Pro Phe Leu

1 5 10 15

Ala His Gly His Ile Ser Pro Phe Phe Glu Leu Ala Lys Gln Leu Ala

20 25 30

Lys Arg Asn Cys Asn Val Phe Leu Cys Ser Thr Pro Ile Asn Leu Ser

35 40 45

Ser Ile Lys Asn Arg Val Ser Asp Lys Asp Ser Ser Ala Ser Ile Lys

50 55 60

Leu Val Glu Leu His Leu Pro Ser Ser Pro Asp Leu Pro Pro His Tyr

65 70 75 80

His Thr Thr Asn Gly Leu Pro Ser His Leu Met Ile Pro Leu Arg Asn

85 90 95

Ala Phe Asp Thr Ala Gly Pro Thr Phe Ser Glu Ile Leu Lys Thr Leu

100 105 110

Asn Pro Asp Leu Leu Ile Tyr Asp Phe Asn Pro Ser Trp Ala Pro Glu

115 120 125

Ile Ala Ser Ser His Asn Ile Pro Ala Val Cys Phe Ile Ile Gly Gly

130 135 140

Ala Ala Ser Ser Ser Met Ser Leu His Ser Phe Lys Asn Pro Gly Glu

145 150 155 160

Lys Tyr Pro Phe Leu Asp Phe Asp Asp Asn Ser Asn Ile Thr Pro Glu

165 170 175

Pro Pro Ser Ala Asp Asn Met Lys Leu Leu Ile Asn Phe Met Thr Cys

180 185 190

Phe Glu Arg Ser Cys Asp Ile Ile Leu Ile Lys Ser Phe Arg Glu Leu

195 200 205

Glu Gly Lys Tyr Phe Asp Phe Phe Ser Thr Leu Ser Asp Lys Thr Leu

210 215 220

Val Pro Val Gly Pro Leu Val Gln Asp Pro Met Gly His Asn Glu Asp

225 230 235 240

Pro Lys Thr Glu Gln Phe Ile Asn Trp Leu Asp Lys Arg Ala Glu Ser

245 250 255

Thr Val Val Phe Val Cys Phe Gly Ser Glu Cys Phe Leu Ser Asn Glu

260 265 270

Glu Leu Glu Glu Val Ala Ile Gly Leu Glu Ile Ser Met Val Asn Phe

275 280 285

Ile Trp Ala Val Arg Leu Ile Glu Gly Glu Lys Lys Gly Val Leu Pro

290 295 300

Glu Gly Phe Val Gln Arg Val Gly Asp Arg Gly Leu Val Val Glu Glu

305 310 315 320

Trp Ala Pro Gln Ala Arg Ile Leu Gly His Ser Ser Thr Gly Gly Phe

325 330 335

Val Ser His Cys Gly Trp Asn Ser Ile Thr Glu Ser Met Lys Phe Gly

340 345 350

Val Pro Val Ile Ala Met Ala Arg His Tyr Asp Gln Pro Leu Asn Gly

355 360 365

Lys Leu Ala Ala Glu Val Gly Val Gly Met Glu Val Val Arg Asp Glu

370 375 380

Asn Gly Lys Tyr Lys Arg Glu Gly Ile Ala Glu Val Ile Arg Lys Val

385 390 395 400

Val Val Glu Lys Ser Gly Glu Val Ile Arg Arg Lys Ala Arg Glu Leu

405 410 415

Ser Glu Lys Met Lys Glu Lys Gly Glu Gln Glu Ile Asp Arg Val Val

420 425 430

Glu Glu Leu Val Gln Ile Cys Lys Lys Lys Lys Asp Glu Gln

435 440 445

<210> 5

<211> 1341

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1341)

<223> 基因突变体

<400> 5

atggataacc aaaaaggtag aatcagtata gcgttgctac catggttagc ccatggtcac 60

atatctccct tctttgagct agccaaacaa ctcgcaaaaa gaaattgcaa tgttttcctc 120

tgttctaccc caatcaatct tagctccatc aagaacagag tatctgataa ggattcctct 180

gcttctataa aactagtaga gcttcatctt ccatcttccc ctgatcttcc tcctcactac 240

cacaccacaa atggcctccc ttcccatctc atgatcccac tcagaaacgc ctttgataca 300

gcaggcccca ccttctctga aatccttaaa accttaaacc ctgatttgct tatttatgat 360

ttcaatccct catgggcacc ggagatcgct tcgtctcaca atattccggc agtttgtttc 420

ataattggtg gagcagcctc ctcttccatg agcctacata gtttcaaaaa cccaggtgaa 480

aaatacccat ttctagattt tgatgataac agtaatatta cccctgaacc accttcagca 540

gataacatga agctattaat taattttatg acttgtttcg aacgatcttg cgacattatt 600

ttgattaaga gttttagaga actagaaggg aaatattttg attttttttc cactttatct 660

gataaaactt tggttcctgt tggtccactc gttcaagatc ctatgggcca taatgaagat 720

ccaaaaacag agcagtttat aaactggctt gacaaaaggg ctgaatctac agtggtgttt 780

gtctgctttg gaagtgagtg ttttctctcc aatgaggaat tggaagaagt agcgattggg 840

ctagagatta gcatggttaa tttcatatgg gctgtgagat taattgaagg agagaaaaaa 900

ggggttttac cagaggggtt tgttcaaagg gtaggagaca gaggattggt tgtggaggag 960

tgggctccac aggcaagaat tttaggacat tcaagcaccg gtgggtttgt gagccattgt 1020

gggtggaatt ctattacgga gagtatgaag tttggggttc cagtaattgc catggccagg 1080

cattttgatc agcctttgaa tggtaagctg gcggcggagg ttggtgtggg catggaggtt 1140

gtgagagatg aaaatgggaa gtataagaga gaagggattg cagaggtaat aagaaaagtc 1200

gttgtggaga aaagtgggga ggttatcagg aggaaagcaa gggaattgag tgagaaaatg 1260

aaagagaaag gagagcaaga gattgatagg gtagtggagg agctagtaca aatttgtaag 1320

aagaagaaag atgaacaata g 1341

<210> 6

<211> 446

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<221> VARIANT

<222> (1)..(446)

<400> 6

Met Asp Asn Gln Lys Gly Arg Ile Ser Ile Ala Leu Leu Pro Trp Leu

1 5 10 15

Ala His Gly His Ile Ser Pro Phe Phe Glu Leu Ala Lys Gln Leu Ala

20 25 30

Lys Arg Asn Cys Asn Val Phe Leu Cys Ser Thr Pro Ile Asn Leu Ser

35 40 45

Ser Ile Lys Asn Arg Val Ser Asp Lys Asp Ser Ser Ala Ser Ile Lys

50 55 60

Leu Val Glu Leu His Leu Pro Ser Ser Pro Asp Leu Pro Pro His Tyr

65 70 75 80

His Thr Thr Asn Gly Leu Pro Ser His Leu Met Ile Pro Leu Arg Asn

85 90 95

Ala Phe Asp Thr Ala Gly Pro Thr Phe Ser Glu Ile Leu Lys Thr Leu

100 105 110

Asn Pro Asp Leu Leu Ile Tyr Asp Phe Asn Pro Ser Trp Ala Pro Glu

115 120 125

Ile Ala Ser Ser His Asn Ile Pro Ala Val Cys Phe Ile Ile Gly Gly

130 135 140

Ala Ala Ser Ser Ser Met Ser Leu His Ser Phe Lys Asn Pro Gly Glu

145 150 155 160

Lys Tyr Pro Phe Leu Asp Phe Asp Asp Asn Ser Asn Ile Thr Pro Glu

165 170 175

Pro Pro Ser Ala Asp Asn Met Lys Leu Leu Ile Asn Phe Met Thr Cys

180 185 190

Phe Glu Arg Ser Cys Asp Ile Ile Leu Ile Lys Ser Phe Arg Glu Leu

195 200 205

Glu Gly Lys Tyr Phe Asp Phe Phe Ser Thr Leu Ser Asp Lys Thr Leu

210 215 220

Val Pro Val Gly Pro Leu Val Gln Asp Pro Met Gly His Asn Glu Asp

225 230 235 240

Pro Lys Thr Glu Gln Phe Ile Asn Trp Leu Asp Lys Arg Ala Glu Ser

245 250 255

Thr Val Val Phe Val Cys Phe Gly Ser Glu Cys Phe Leu Ser Asn Glu

260 265 270

Glu Leu Glu Glu Val Ala Ile Gly Leu Glu Ile Ser Met Val Asn Phe

275 280 285

Ile Trp Ala Val Arg Leu Ile Glu Gly Glu Lys Lys Gly Val Leu Pro

290 295 300

Glu Gly Phe Val Gln Arg Val Gly Asp Arg Gly Leu Val Val Glu Glu

305 310 315 320

Trp Ala Pro Gln Ala Arg Ile Leu Gly His Ser Ser Thr Gly Gly Phe

325 330 335

Val Ser His Cys Gly Trp Asn Ser Ile Thr Glu Ser Met Lys Phe Gly

340 345 350

Val Pro Val Ile Ala Met Ala Arg His Phe Asp Gln Pro Leu Asn Gly

355 360 365

Lys Leu Ala Ala Glu Val Gly Val Gly Met Glu Val Val Arg Asp Glu

370 375 380

Asn Gly Lys Tyr Lys Arg Glu Gly Ile Ala Glu Val Ile Arg Lys Val

385 390 395 400

Val Val Glu Lys Ser Gly Glu Val Ile Arg Arg Lys Ala Arg Glu Leu

405 410 415

Ser Glu Lys Met Lys Glu Lys Gly Glu Gln Glu Ile Asp Arg Val Val

420 425 430

Glu Glu Leu Val Gln Ile Cys Lys Lys Lys Lys Asp Glu Gln

435 440 445

<210> 7

<211> 1341

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1341)

<223> 基因突变体

<400> 7

atggataacc aaaaaggtag aatcagtata gcgttgctac catttttagc ccatggtcac 60

atatctccct tctttgagct agccaaacaa ctcgcaaaaa gaaattgcaa tgttttcctc 120

tgttctaccc caatcaatct tagctccatc aagaacagaa tgtctgataa ggattcctct 180

gcttctataa aactagtaga gcttcatctt ccatcttccc ctgatcttcc tcctcactac 240

cacaccacaa atggcctccc ttcccatctc atgatcccac tcagaaacgc ctttgataca 300

gcaggcccca ccttctctga aatccttaaa accttaaacc ctgatttgct tatttatgat 360

ttcaatccct catgggcacc ggagatcgct tcgtctcaca atattccggc agtttgtttc 420

ataattggtg gagcagcctc ctcttccatg agcctacata gtttcaaaaa cccaggtgaa 480

aaatacccat ttctagattt tgatgataac agtaatatta cccctgaacc accttcagca 540

gataacatga agctattaat taattttatg acttgtttcg aacgatcttg cgacattatt 600

ttgattaaga gttttagaga actagaaggg aaatattttg attttttttc cactttatct 660

gataaaactt tggttcctgt tggtccactc gttcaagatc ctatgggcca taatgaagat 720

ccaaaaacag agcagtttat aaactggctt gacaaaaggg ctgaatctac agtggtgttt 780

gtctgctttg gaagtgagtg ttttctctcc aatgaggaat tggaagaagt agcgattggg 840

ctagagatta gcatggttaa tttcatatgg gctgtgagat taattgaagg agagaaaaaa 900

ggggttttac cagaggggtt tgttcaaagg gtaggagaca gaggattggt tgtggaggag 960

tgggctccac aggcaagaat tttaggacat tcaagcaccg gtgggtttgt gagccattgt 1020

gggtggaatt ctattacgga gagtatgaag tttggggttc cagtaattgc catggccagg 1080

cattttgatc agcctttgaa tggtaagctg gcggcggagg ttggtgtggg catggaggtt 1140

gtgagagatg aaaatgggaa gtataagaga gaagggattg cagaggtaat aagaaaagtc 1200

gttgtggaga aaagtgggga ggttatcagg aggaaagcaa gggaattgag tgagaaaatg 1260

aaagagaaag gagagcaaga gattgatagg gtagtggagg agctagtaca aatttgtaag 1320

aagaagaaag atgaacaata g 1341

<210> 8

<211> 446

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<221> VARIANT

<222> (1)..(446)

<400> 8

Met Asp Asn Gln Lys Gly Arg Ile Ser Ile Ala Leu Leu Pro Phe Leu

1 5 10 15

Ala His Gly His Ile Ser Pro Phe Phe Glu Leu Ala Lys Gln Leu Ala

20 25 30

Lys Arg Asn Cys Asn Val Phe Leu Cys Ser Thr Pro Ile Asn Leu Ser

35 40 45

Ser Ile Lys Asn Arg Met Ser Asp Lys Asp Ser Ser Ala Ser Ile Lys

50 55 60

Leu Val Glu Leu His Leu Pro Ser Ser Pro Asp Leu Pro Pro His Tyr

65 70 75 80

His Thr Thr Asn Gly Leu Pro Ser His Leu Met Ile Pro Leu Arg Asn

85 90 95

Ala Phe Asp Thr Ala Gly Pro Thr Phe Ser Glu Ile Leu Lys Thr Leu

100 105 110

Asn Pro Asp Leu Leu Ile Tyr Asp Phe Asn Pro Ser Trp Ala Pro Glu

115 120 125

Ile Ala Ser Ser His Asn Ile Pro Ala Val Cys Phe Ile Ile Gly Gly

130 135 140

Ala Ala Ser Ser Ser Met Ser Leu His Ser Phe Lys Asn Pro Gly Glu

145 150 155 160

Lys Tyr Pro Phe Leu Asp Phe Asp Asp Asn Ser Asn Ile Thr Pro Glu

165 170 175

Pro Pro Ser Ala Asp Asn Met Lys Leu Leu Ile Asn Phe Met Thr Cys

180 185 190

Phe Glu Arg Ser Cys Asp Ile Ile Leu Ile Lys Ser Phe Arg Glu Leu

195 200 205

Glu Gly Lys Tyr Phe Asp Phe Phe Ser Thr Leu Ser Asp Lys Thr Leu

210 215 220

Val Pro Val Gly Pro Leu Val Gln Asp Pro Met Gly His Asn Glu Asp

225 230 235 240

Pro Lys Thr Glu Gln Phe Ile Asn Trp Leu Asp Lys Arg Ala Glu Ser

245 250 255

Thr Val Val Phe Val Cys Phe Gly Ser Glu Cys Phe Leu Ser Asn Glu

260 265 270

Glu Leu Glu Glu Val Ala Ile Gly Leu Glu Ile Ser Met Val Asn Phe

275 280 285

Ile Trp Ala Val Arg Leu Ile Glu Gly Glu Lys Lys Gly Val Leu Pro

290 295 300

Glu Gly Phe Val Gln Arg Val Gly Asp Arg Gly Leu Val Val Glu Glu

305 310 315 320

Trp Ala Pro Gln Ala Arg Ile Leu Gly His Ser Ser Thr Gly Gly Phe

325 330 335

Val Ser His Cys Gly Trp Asn Ser Ile Thr Glu Ser Met Lys Phe Gly

340 345 350

Val Pro Val Ile Ala Met Ala Arg His Phe Asp Gln Pro Leu Asn Gly

355 360 365

Lys Leu Ala Ala Glu Val Gly Val Gly Met Glu Val Val Arg Asp Glu

370 375 380

Asn Gly Lys Tyr Lys Arg Glu Gly Ile Ala Glu Val Ile Arg Lys Val

385 390 395 400

Val Val Glu Lys Ser Gly Glu Val Ile Arg Arg Lys Ala Arg Glu Leu

405 410 415

Ser Glu Lys Met Lys Glu Lys Gly Glu Gln Glu Ile Asp Arg Val Val

420 425 430

Glu Glu Leu Val Gln Ile Cys Lys Lys Lys Lys Asp Glu Gln

435 440 445

<210> 9

<211> 1341

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(1341)

<223> 基因突变体

<400> 9

atggataacc aaaaaggtag aatcagtata gcgttgctac catggttagc ccatggtcac 60

atatctccct tctttgagct agccaaacaa ctcgcaaaaa gaaattgcaa tgttttcctc 120

tgttctaccc caatcaatct tagctccatc aagaacagaa tgtctgataa ggattcctct 180

gcttctataa aactagtaga gcttcatctt ccatcttccc ctgatcttcc tcctcactac 240

cacaccacaa atggcctccc ttcccatctc atgatcccac tcagaaacgc ctttgataca 300

gcaggcccca ccttctctga aatccttaaa accttaaacc ctgatttgct tatttatgat 360

ttcaatccct catgggcacc ggagatcgct tcgtctcaca atattccggc agtttgtttc 420

ataattggtg gagcagcctc ctcttccatg agcctacata gtttcaaaaa cccaggtgaa 480

aaatacccat ttctagattt tgatgataac agtaatatta cccctgaacc accttcagca 540

gataacatga agctattaat taattttatg acttgtttcg aacgatcttg cgacattatt 600

ttgattaaga gttttagaga actagaaggg aaatattttg attttttttc cactttatct 660

gataaaactt tggttcctgt tggtccactc gttcaagatc ctatgggcca taatgaagat 720

ccaaaaacag agcagtttat aaactggctt gacaaaaggg ctgaatctac agtggtgttt 780

gtctgctttg gaagtgagtg ttttctctcc aatgaggaat tggaagaagt agcgattggg 840

ctagagatta gcatggttaa tttcatatgg gctgtgagat taattgaagg agagaaaaaa 900

ggggttttac cagaggggtt tgttcaaagg gtaggagaca gaggattggt tgtggaggag 960

tgggctccac aggcaagaat tttaggacat tcaagcaccg gtgggtttgt gagccattgt 1020

gggtggggtt ctattacgga gagtatgaag tttggggttc cagtaattgc catgccgagg 1080

cattatgatc agcctttgaa tggtaagctg gcggcggagg ttggtgtggg catggaggtt 1140

gtgagagatg aaaatgggaa gtataagaga gaagggattg cagaggtaat aagaaaagtc 1200

gttgtggaga aaagtgggga ggttatcagg aggaaagcaa gggaattgag tgagaaaatg 1260

aaagagaaag gagagcaaga gattgatagg gtagtggagg agctagtaca aatttgtaag 1320

aagaagaaag atgaacaata g 1341

<210> 10

<211> 446

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<221> VARIANT

<222> (1)..(446)

<400> 10

Met Asp Asn Gln Lys Gly Arg Ile Ser Ile Ala Leu Leu Pro Trp Leu

1 5 10 15

Ala His Gly His Ile Ser Pro Phe Phe Glu Leu Ala Lys Gln Leu Ala

20 25 30

Lys Arg Asn Cys Asn Val Phe Leu Cys Ser Thr Pro Ile Asn Leu Ser

35 40 45

Ser Ile Lys Asn Arg Met Ser Asp Lys Asp Ser Ser Ala Ser Ile Lys

50 55 60

Leu Val Glu Leu His Leu Pro Ser Ser Pro Asp Leu Pro Pro His Tyr

65 70 75 80

His Thr Thr Asn Gly Leu Pro Ser His Leu Met Ile Pro Leu Arg Asn

85 90 95

Ala Phe Asp Thr Ala Gly Pro Thr Phe Ser Glu Ile Leu Lys Thr Leu

100 105 110

Asn Pro Asp Leu Leu Ile Tyr Asp Phe Asn Pro Ser Trp Ala Pro Glu

115 120 125

Ile Ala Ser Ser His Asn Ile Pro Ala Val Cys Phe Ile Ile Gly Gly

130 135 140

Ala Ala Ser Ser Ser Met Ser Leu His Ser Phe Lys Asn Pro Gly Glu

145 150 155 160

Lys Tyr Pro Phe Leu Asp Phe Asp Asp Asn Ser Asn Ile Thr Pro Glu

165 170 175

Pro Pro Ser Ala Asp Asn Met Lys Leu Leu Ile Asn Phe Met Thr Cys

180 185 190

Phe Glu Arg Ser Cys Asp Ile Ile Leu Ile Lys Ser Phe Arg Glu Leu

195 200 205

Glu Gly Lys Tyr Phe Asp Phe Phe Ser Thr Leu Ser Asp Lys Thr Leu

210 215 220

Val Pro Val Gly Pro Leu Val Gln Asp Pro Met Gly His Asn Glu Asp

225 230 235 240

Pro Lys Thr Glu Gln Phe Ile Asn Trp Leu Asp Lys Arg Ala Glu Ser

245 250 255

Thr Val Val Phe Val Cys Phe Gly Ser Glu Cys Phe Leu Ser Asn Glu

260 265 270

Glu Leu Glu Glu Val Ala Ile Gly Leu Glu Ile Ser Met Val Asn Phe

275 280 285

Ile Trp Ala Val Arg Leu Ile Glu Gly Glu Lys Lys Gly Val Leu Pro

290 295 300

Glu Gly Phe Val Gln Arg Val Gly Asp Arg Gly Leu Val Val Glu Glu

305 310 315 320

Trp Ala Pro Gln Ala Arg Ile Leu Gly His Ser Ser Thr Gly Gly Phe

325 330 335

Val Ser His Cys Gly Trp Gly Ser Ile Thr Glu Ser Met Lys Phe Gly

340 345 350

Val Pro Val Ile Ala Met Pro Arg His Tyr Asp Gln Pro Leu Asn Gly

355 360 365

Lys Leu Ala Ala Glu Val Gly Val Gly Met Glu Val Val Arg Asp Glu

370 375 380

Asn Gly Lys Tyr Lys Arg Glu Gly Ile Ala Glu Val Ile Arg Lys Val

385 390 395 400

Val Val Glu Lys Ser Gly Glu Val Ile Arg Arg Lys Ala Arg Glu Leu

405 410 415

Ser Glu Lys Met Lys Glu Lys Gly Glu Gln Glu Ile Asp Arg Val Val

420 425 430

Glu Glu Leu Val Gln Ile Cys Lys Lys Lys Lys Asp Glu Gln

435 440 445

<210> 11

<211> 1341

<212> DNA

<213> 人参(Panax ginseng C. A. Mey)

<220>

<221> misc_feature

<222> (1)..(1341)

<223> 基因突变体

<400> 11

atggataacc aaaaaggtag aatcagtata gcgttgctac catttttagc ccatggtcac 60

atatctccct tctttgagct agccaaacaa ctcgcaaaaa gaaattgcaa tgttttcctc 120

tgttctaccc caatcaatct tagctccatc aagaacagag tatctgataa ggattcctct 180

gcttctataa aactagtaga gcttcatctt ccatcttccc ctgatcttcc tcctcactac 240

cacaccacaa atggcctccc ttcccatctc atgatcccac tcagaaacgc ctttgataca 300

gcaggcccca ccttctctga aatccttaaa accttaaacc ctgatttgct tatttatgat 360

ttcaatccct catgggcacc ggagatcgct tcgtctcaca atattccggc agtttgtttc 420

ataattggtg gagcagcctc ctcttccatg agcctacata gtttcaaaaa cccaggtgaa 480

aaatacccat ttctagattt tgatgataac agtaatatta cccctgaacc accttcagca 540

gataacatga agctattaat taattttatg acttgtttcg aacgatcttg cgacattatt 600

ttgattaaga gttttagaga actagaaggg aaatattttg attttttttc cactttatct 660

gataaaactt tggttcctgt tggtccactc gttcaagatc ctatgggcca taatgaagat 720

ccaaaaacag agcagtttat aaactggctt gacaaaaggg ctgaatctac agtggtgttt 780

gtctgctttg gaagtgagtg ttttctctcc aatgaggaat tggaagaagt agcgattggg 840

ctagagatta gcatggttaa tttcatatgg gctgtgagat taattgaagg agagaaaaaa 900

ggggttttac cagaggggtt tgttcaaagg gtaggagaca gaggattggt tgtggaggag 960

tgggctccac aggcaagaat tttaggacat tcaagcaccg gtgggtttgt gagccattgt 1020

gggtggaatt ctattacgga gagtatgaag tttggggttc cagtaattgc catggccagg 1080

cattttgatc agcctttgaa tggtaagctg gcggcggagg ttggtgtggg catggaggtt 1140

gtgagagatg aaaatgggaa gtataagaga gaagggattg cagaggtaat aagaaaagtc 1200

gttgtggaga aaagtgggga ggttatcagg aggaaagcaa gggaattgag tgagaaaatg 1260

aaagagaaag gagagcaaga gattgatagg gtagtggagg agctagtaca aatttgtaag 1320

aagaagaaag atgaacaata g 1341

<210> 12

<211> 446

<212> PRT

<213> 人参(Panax ginseng C. A. Mey)

<220>

<221> VARIANT

<222> (1)..(446)

<400> 12

Met Asp Asn Gln Lys Gly Arg Ile Ser Ile Ala Leu Leu Pro Phe Leu

1 5 10 15

Ala His Gly His Ile Ser Pro Phe Phe Glu Leu Ala Lys Gln Leu Ala

20 25 30

Lys Arg Asn Cys Asn Val Phe Leu Cys Ser Thr Pro Ile Asn Leu Ser

35 40 45

Ser Ile Lys Asn Arg Val Ser Asp Lys Asp Ser Ser Ala Ser Ile Lys

50 55 60

Leu Val Glu Leu His Leu Pro Ser Ser Pro Asp Leu Pro Pro His Tyr

65 70 75 80

His Thr Thr Asn Gly Leu Pro Ser His Leu Met Ile Pro Leu Arg Asn

85 90 95

Ala Phe Asp Thr Ala Gly Pro Thr Phe Ser Glu Ile Leu Lys Thr Leu

100 105 110

Asn Pro Asp Leu Leu Ile Tyr Asp Phe Asn Pro Ser Trp Ala Pro Glu

115 120 125

Ile Ala Ser Ser His Asn Ile Pro Ala Val Cys Phe Ile Ile Gly Gly

130 135 140

Ala Ala Ser Ser Ser Met Ser Leu His Ser Phe Lys Asn Pro Gly Glu

145 150 155 160

Lys Tyr Pro Phe Leu Asp Phe Asp Asp Asn Ser Asn Ile Thr Pro Glu

165 170 175

Pro Pro Ser Ala Asp Asn Met Lys Leu Leu Ile Asn Phe Met Thr Cys

180 185 190

Phe Glu Arg Ser Cys Asp Ile Ile Leu Ile Lys Ser Phe Arg Glu Leu

195 200 205

Glu Gly Lys Tyr Phe Asp Phe Phe Ser Thr Leu Ser Asp Lys Thr Leu

210 215 220

Val Pro Val Gly Pro Leu Val Gln Asp Pro Met Gly His Asn Glu Asp

225 230 235 240

Pro Lys Thr Glu Gln Phe Ile Asn Trp Leu Asp Lys Arg Ala Glu Ser

245 250 255

Thr Val Val Phe Val Cys Phe Gly Ser Glu Cys Phe Leu Ser Asn Glu

260 265 270

Glu Leu Glu Glu Val Ala Ile Gly Leu Glu Ile Ser Met Val Asn Phe

275 280 285

Ile Trp Ala Val Arg Leu Ile Glu Gly Glu Lys Lys Gly Val Leu Pro

290 295 300

Glu Gly Phe Val Gln Arg Val Gly Asp Arg Gly Leu Val Val Glu Glu

305 310 315 320

Trp Ala Pro Gln Ala Arg Ile Leu Gly His Ser Ser Thr Gly Gly Phe

325 330 335

Val Ser His Cys Gly Trp Asn Ser Ile Thr Glu Ser Met Lys Phe Gly

340 345 350

Val Pro Val Ile Ala Met Ala Arg His Phe Asp Gln Pro Leu Asn Gly

355 360 365

Lys Leu Ala Ala Glu Val Gly Val Gly Met Glu Val Val Arg Asp Glu

370 375 380

Asn Gly Lys Tyr Lys Arg Glu Gly Ile Ala Glu Val Ile Arg Lys Val

385 390 395 400

Val Val Glu Lys Ser Gly Glu Val Ile Arg Arg Lys Ala Arg Glu Leu

405 410 415

Ser Glu Lys Met Lys Glu Lys Gly Glu Gln Glu Ile Asp Arg Val Val

420 425 430

Glu Glu Leu Val Gln Ile Cys Lys Lys Lys Lys Asp Glu Gln

435 440 445

<210> 13

<211> 40

<212> DNA

<213> 引物(Primer)

<400> 13

ctttaagaag gagatatacc atggataacc aaaaaggtag 40

<210> 14

<211> 42

<212> DNA

<213> 引物(Primer)

<400> 14

cgagtgcggc cgcaagcttt tgttcatctt tcttcttctt ac 42

<210> 15

<211> 21

<212> DNA

<213> 引物(Primer)

<400> 15

tggtagcaac gctatactga t 21

<210> 16

<211> 40

<212> DNA

<213> 引物(Primer)

<400> 16

tcagtatagc gttgctacca tggttagccc atggtcacat 40

<210> 17

<211> 41

<212> DNA

<213> 引物(Primer)

<400> 17

gcagaggaat ccttatcaga cattctgttc ttgatggagc t 41

<210> 18

<211> 20

<212> DNA

<213> 引物(Primer)

<400> 18

tctgataagg attcctctgc 20

<210> 19

<211> 43

<212> DNA

<213> 引物(Primer)

<400> 19

ttaccattca aaggctgatc ataatgcctc ggcatggcaa tta 43

<210> 20

<211> 21

<212> DNA

<213> 引物(Primer)

<400> 20

gatcagcctt tgaatggtaa g 21

Claims

1.一种糖基转移酶突变体，所述突变体为：

(a) 氨基酸序列如SEQ ID NO: 10、SEQ ID NO: 4、SEQ ID NO: 6或SEQ ID NO: 8所示的蛋白；

(b) (a)所述氨基酸序列两端添加标签序列、信号序列后形成的蛋白。

2.一种分离的多核苷酸，所述多核苷酸编码权利要求1所述的糖基转移酶突变体。

3.一种载体，其含有权利要求2所述的多核苷酸，或表达权利要求1所述的糖基转移酶突变体。

4.一种遗传工程化的宿主细胞的用途，用于制备C-6位的糖基上进一步连接一个糖基的四环三萜类化合物；所述遗传工程化的宿主细胞含有权利要求3所述的载体，或基因组中整合有权利要求2所述的多核苷酸，或表达权利要求1所述的糖基转移酶突变体。

5.如权利要求4所述的用途，其特征在于，所述细胞中包括原核细胞或真核细胞；所述的原核细胞包括大肠杆菌细胞、枯草杆菌细胞；所述真核细胞包括植物细胞、真菌细胞、昆虫细胞或哺乳动物细胞。

6.如权利要求5所述的用途，其特征在于，所述植物细胞包括人参细胞或三七细胞。

7.如权利要求5所述的用途，其特征在于，所述宿主细胞还表达原人参三醇型皂苷合成代谢途径中关键酶；

其中，所述的原人参三醇型皂苷包含人参皂苷Rh1；所述的人参皂苷Rh1合成代谢途径中的关键基因包括：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450CYP716A47的还原酶基因和四环三萜C6的糖基转移酶UGTPg100，或其组合。

8. 如权利要求5所述的用途，其特征在于，所述宿主细胞还表达原人参三醇型皂苷合成代谢途径中关键酶；其中，所述的原人参三醇型皂苷包含人参皂苷Rg1；所述的人参皂苷Rg1合成代谢途径中的关键基因包括：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450 CYP716A47的还原酶基因和四环三萜C20位和C6的糖基转移酶UGTPg1和UGTPg100，或其组合。

9. 如权利要求5所述的用途，其特征在于，所述宿主细胞还表达原人参三醇型皂苷合成代谢途径中关键酶；其中，所述的原人参三醇型皂苷包含人参皂苷Rg2；所述的人参皂苷Rg2合成代谢途径中的关键基因包括：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450 CYP716A47的还原酶基因和四环三萜C6的糖基转移酶UGTPg100，或其组合。

10. 如权利要求8所述的用途，其特征在于，所述宿主细胞还表达原人参三醇型皂苷合成代谢途径中关键酶；其中，所述的原人参三醇型皂苷包含人参皂苷Re；所述的人参皂苷Re合成代谢途径中的关键基因包括：达玛烯二醇合成酶基因、细胞色素P450 CYP716A47基因和P450 CYP716A47的还原酶基因和四环三萜C20位和C6的糖基转移酶UGTPg1和UGTPg100，或其组合。

11.权利要求1所述的糖基转移酶突变体的用途，用于在四环三萜化合物C-6位的糖基上连接糖基。

12.权利要求2所述的多核苷酸、权利要求3所述的载体在制备催化制剂中的应用，所述的催化制剂用于在四环三萜化合物C-6位的糖基上连接糖基。

13.一种在四环三萜化合物C-6位的糖基上连接糖基的方法，包括：以权利要求1所述的糖基转移酶突变体催化，将糖基从糖基供体转移到所述的四环三萜化合物C-6位的糖基上；

所述的四环三萜化合物为式(I)化合物，在C-6位的糖基上连接糖基的化合物为式(II)化合物；

(I) (II)；

其中，R1和R2为H或者糖基，R3和R4为单糖糖基；或

所述的四环三萜化合物为式(III)化合物，在C-6位的糖基上连接糖基的化合物为式(IV)化合物；

(III) (IV)；

其中，R1为H或者糖基， R2、R3、R4和R5为单糖糖基。

14.如权利要求13所述的方法，所述的单糖糖基选自：葡萄糖基、木糖基、阿拉伯糖基或鼠李糖基。

15.如权利要求13所述的方法，其特征在于，当R1为H时，R2和R3为葡萄糖基时，所述的式(I)化合物为人参皂苷Rg1。

16.如权利要求13所述的方法，其特征在于，当R1为H时，R2和R3为葡萄糖基，R4为鼠李糖基时，所述的式(II)化合物为三七皂苷Re。

17.如权利要求13所述的方法，其特征在于，当R1和R2为H，R3为葡萄糖基时，所述的式(I)化合物为人参皂苷Rh1。

18.如权利要求13所述的方法，其特征在于，当R1和R2为H，R3为葡萄糖基，R4为鼠李糖基时，所述的式(II)化合物为三七皂苷Rg2。

19. 如权利要求13所述的方法，其特征在于，当R1为H，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(f)时，所述的式(III)化合物为人参皂苷Re4；当R1为H，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(f)，R5为鼠李糖基时，所述的式(IV)化合物为Floralgensenoside M。

20. 如权利要求13所述的方法，其特征在于，当R1为H时，R2、R3和R4为葡萄糖基时，所述的式(III)化合物为三七皂苷R3；当R1为H，R2、R3和R4为葡萄糖基，R5为鼠李糖基时，所述的式(IV)化合物为Yesanchinoside E。

21. 如权利要求13所述的方法，其特征在于，当R1为H时，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(p)时，所述的式(III)化合物为三七皂苷Fp1；当R1为H时，R2和R4为葡萄糖基、R3为阿拉伯糖基Ara(p)，R5为鼠李糖基时，所述的式(IV)化合物为Floralgensenoside N。

22. 如权利要求13所述的方法，其特征在于，当R1为H时，R2和R4为葡萄糖基、R3为木糖基时，所述的式(III)化合物为西洋参皂苷L17；当R1为H时，R2和R4为葡萄糖基、R3为木糖基，R5为鼠李糖基时，所述的式(IV)化合物为Floralquinquenoside E。

23.如权利要求13～22任一所述的方法，其特征在于，所述式(I)、(III)化合物包括：S构型或R构型的达玛烷型四环三萜类化合物、羊毛脂烷型四环三萜类化合物、去水甘遂烷型四环三萜、甘遂烷型四环三萜类化合物、环阿屯烷型四环三萜类化合物、葫芦烷四环三萜类化合物、或楝烷型四环三萜类化合物。

24. 如权利要求21所述的方法，其特征在于，所述式(I)、(III)化合物包括：人参皂苷Rh1、人参皂苷Rg1、人参皂苷Re4、三七皂苷R3、三七皂苷Fp1、西洋参皂苷L17；所述式(II)或(IV)化合物包括：人参皂苷Rg2、人参皂苷Re、Floralgensenoside M、Yesanchinoside E、Floralgensenoside N、Floralquinquenoside E。

25.如权利要求13所述的方法，其特征在于，以带有糖基的化合物为供体。

26. 如权利要求25所述的方法，其特征在于，所述供体包括选自下组的尿苷二磷酸糖：UDP-葡萄糖，UDP-乙酰基葡萄糖， UDP-鼠李糖，UDP-木糖，或其组合。

27.一种生物合成C-6位的糖基上连接糖基的四环三萜化合物的方法，包括：培养遗传工程化的宿主细胞；所述遗传工程化的宿主细胞含有权利要求3所述的载体，或基因组中整合有权利要求4所述的多核苷酸，或表达权利要求1所述的糖基转移酶突变体。

28.一种用于在四环三萜化合物C-6位的糖基上连接糖基的组合物，其包括权利要求1所述的糖基转移酶突变体，以及工业学上、药学上或微生物学上可接受的载体。

29.一种用于在四环三萜化合物C-6位的糖基上连接糖基的试剂盒，其包括：权利要求1所述的糖基转移酶突变体或权利要求28所述的组合物。