CN112094856B

CN112094856B - 一种转氨酶突变体及其在西格列汀合成中的应用

Info

Publication number: CN112094856B
Application number: CN202011008067.1A
Authority: CN
Inventors: 李春刚; 王金刚; 韦炎龙; 李树有; 彭艾琳; 秦一
Original assignee: Sinopharm Weiqida Pharmaceutical Co Ltd
Current assignee: Sinopharm Weiqida Pharmaceutical Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-06-27
Anticipated expiration: 2040-09-23
Also published as: CN112094856A

Abstract

本发明公开了一种转氨酶SEQ ID NO:1的突变体，其具有显著提高的酶活力和高立体选择性，能高效地催化(2Z)‑4‑氧代‑4‑[3‑(三氟甲基)‑5,6‑二氢‑[1,2,4]三唑并[4,3‑a]吡嗪‑7‑(8H)‑基]‑1‑(2,4,5‑三氟苯基)丁‑2‑酮合成西格列汀，产物e.e.值大于99.95％，具有工业化应用前景。

Description

一种转氨酶突变体及其在西格列汀合成中的应用

技术领域

本发明属于基因工程和酶催化技术领域，具体地说，涉及一种转氨酶突变体及其在西格列汀合成中的应用。

背景技术

西格列汀(Sitagliptin)又名西他列汀，全称7-[(3R)-3-氨基-1-氧代-4-(2,4,5-三氟苯基)丁基]-5,6,7,8-四氢-3-三氟甲基-1,2,4-三唑并[4,3-a]吡嗪，是由美国默沙东公司(Merck)开发的首个二肽基肽酶-4(DPP-4)抑制剂，其磷酸化水合物是当前占有巨大市场份额的II型糖尿病治疗药物。

在西格列汀的合成路线中，手性(R)-氨基的引入是关键步骤之一，目前开发了包括手性源引入、选择性还原、手性诱导和动力学拆分等方法。其中，原研药厂开发的以2,4,5-三氟苯乙酸为起始原料，先后合成(2Z)-4-氧代-4-[3-(三氟甲基)-5,6-二氢-[1,2,4]三唑并[4,3-a]吡嗪-7-(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮(简称西格列汀前体酮)、(2Z)-4-氧代-4-[3-(三氟甲基)-5,6-二氢-[1,2,4]三唑并[4,3-a]吡嗪-7-(8H)-基]-1-(2,4,5-三氟苯基)丁-2-烯-2-胺、西格列汀。专利WO2004087650A2利用手性磷钌催化剂对西格列汀前体酮进行不对称催化氢化，构建手性二级醇，进而转化为手性二级胺，但该路线所用的试剂较为昂贵。专利WO2004085378A1报导了默沙东公司新的西格列汀合成方法，该方法获得美国总统绿色化学奖，其关键步骤是采用了手性铑催化剂对烯胺的不对称氢化来构建手性中心，具有路线简洁、步骤较短、转化率和光学纯度高等优点，但所用的手性催化剂及手性辅剂较昂贵。随后，默沙东公司与Codexis公司合作，以Arthrobacter sp.(R)-ω-TA117研究对象，结合蛋白质结构计算机辅助分析、定点饱和突变以及全基因随机突变等策略，经过11轮改造，最终获得了能高效催化西格列汀前体酮合成西格列汀的新型转氨酶(参见文献Christopher K.Savile,Jacob M.Janey,Emily C.Mundorff,et al.BiocatalyticAsymmetric Synthesis of Chiral Amines from Ketones Applied to SitagliptinManufacture[J].Science,2010,329(5989):305-309)。相比于化学合成法，利用生物转化策略时产物得率提高10～13％，生产效率提高53％，总废弃物排放减少19％，并且反应过程无需添加重金属。专利EP2401366对高性能转氨酶以及相似序列进行了保护。

当前，酶法不对称催化合成西格列汀技术仍被默沙东公司和Codexis公司垄断，所用Arthrobacter sp.来源的天然(R)-ω-转氨酶酶源单一，野生型相似序列少，且累积进行3、4、6、11、12、13、14、15、16、20、21、23、24、25、26、27、28、29或30个氨基酸位点突变的突变体及其相似序列均受到专利保护。在此背景下，有必要筛选更多来源的(R)-ω-转氨酶并加以改造，突破现有的酶法制备西格列汀技术壁垒并取得新的改进效果。

发明内容

本发明人对于现有技术的具有(R)-ω-转氨酶功能的转氨酶进行了广泛筛选，通过对野生型转氨酶经点突变、定点饱和突变以及全基因随机突变，经多轮筛选后获得一系列突变体，包括具有多个位点累积突变的全新突变体，该突变体用于催化合成西格列汀时，具有较高的酶活力，并保持较高的立体选择性。具体而言，本发明包括如下技术方案。

一种转氨酶突变体，其为费氏新萨托菌(Neosartorya fischeri)来源的转氨酶SEQ ID NO:1氨基酸序列(NCBI登录号KAF4246444.1)中的下述位点发生突变后所形成的突变体：V7、A13、L18、K27、Y31、K35、F36、V37、S40、F51、H53、L56、T57、V63、R67、F68、D72、Q76、R77、E80、S81、K84、K88、L91、T95、I99、E115、I117、T123、G124、G127、E131、N135、N137、L141、L143、W147、L156、P171、K179、L181、D185、T187、F191、D205、S214、K222、V233、I237、T238、D244、A248、I251、D252、I253、L255、V257、Y264、T273、A275、P288、K299、H309、D311、Y314、D319、G321、或者它们中两种以上的组合，该转氨酶突变体具有转氨酶SEQ ID NO:1的功能即(R)-ω-转氨酶功能。

上述的术语“突变”包括但不限于氨基酸的取代、缺失或添加。

优选地，上述突变选自下组：V7L、A13G、L18M、K27T、Y31D或Y31N、K35N或K35T、F36Y、V37G、S40R、F51V、H53F或H53L、L56A或L56Y、T57A或T57F或T57G、V63E、R67S、F68Y或F68E、D72H、Q76R、E80Q、S81G、K84H、K88E、L91Q、T95S、I99F、E115R、I117A、T123S、G124A、G127F或G127Y、E131V、N135K、N137S、L141Q、L143M、W147F、L156V、P171Q、L181A、D185A、T187S、F191A或F191G、D205A或D205S、S214P、K222R、V233L、I237A或I237G、T238S、D244N、A248G或A248E或A248V、I251V或I251T、D252E、I253N、L255V、V257E、Y264S、T273S、A275G、P288A、K299Q、H309L、D311N、Y314S、D319V、G321E、或者它们中两种以上的组合。

上述转氨酶突变体优选为与SEQ ID NO:1氨基酸序列有80％以上同源性、优选地85％以上同源性、优选地90％以上同源性、更优地95％以上同源性、且具有转氨酶SEQ IDNO:1功能的多肽。

在一种优选的实施方式中，上述转氨酶突变体选自下组：

SEQ ID NO:3，其为SEQ ID NO:1氨基酸序列的L56A、E115R、W147F、I237G突变体；

SEQ ID NO:5，其为SEQ ID NO:1氨基酸序列的L56A、E115R、W147F、I237G、H53L、K84H、I117A、F191A、T273S突变体，即SEQ ID NO:3的H53L、K84H、I117A、F191A、T273S突变体；

SEQ ID NO:7，其为SEQ ID NO:1氨基酸序列的H53L、L56A、K84H、E115R、I117A、G127F、W147F、F191A、S214P、I237G、T273S、A275G突变体，即SEQ ID NO:5的G127F、S214P、A275G突变体；

SEQ ID NO:9，其为SEQ ID NO:1氨基酸序列的K35N、S40R、H53L、L56A、K84H、E115R、I117A、G127F、W147F、F191A、S214P、I237G、T273S、A275G突变体，即SEQ ID NO:7的K35N、S40R突变体；

SEQ ID NO:11，其为SEQ ID NO:1氨基酸序列的K35N、S40R、H53L、L56A、D72H、K84H、E115R、I117A、G127F、W147F、F191A、S214P、K222R、I237G、T273S、A275G、H309L突变体，即SEQ ID NO:9的D72H、K222R、H309L突变体；

SEQ ID NO:13，其为SEQ ID NO:1氨基酸序列的K35N、S40R、H53L、L56A、D72H、Q76R、K84H、E115R、I117A、G127F、W147F、F191A、S214P、K222R、I237G、A248V、T273S、A275G、H309L突变体，即SEQ ID NO:11的Q76R、A248V突变体；

SEQ ID NO:15，其为SEQ ID NO:1氨基酸序列的K35N、S40R、H53L、L56A、D72H、Q76R、K84H、E115R、I117A、T123S、G127F、W147F、F191A、S214P、K222R、I237G、A248V、T273S、A275G、P288A、H309L突变体，即SEQ ID NO:13的T123S、P288A突变体。

本发明的第二个方面提供了一种编码上述转氨酶突变体的基因。

优选地，编码SEQ ID NO:3的基因的核苷酸序列可以为SEQ ID NO:4；编码SEQ IDNO:5的基因的核苷酸序列可以为SEQ ID NO:6；编码SEQ ID NO:7的基因的核苷酸序列可以为SEQ ID NO:8；编码SEQ ID NO:9的基因的核苷酸序列可以为SEQ ID NO:10；编码SEQ IDNO:11的基因的核苷酸序列可以为SEQ ID NO:12；编码SEQ ID NO:13的基因的核苷酸序列可以为SEQ ID NO:14；编码SEQ ID NO:15的基因的核苷酸序列可以为SEQ ID NO:16。

本发明还提供了一种包含上述基因的质粒。上述质粒可以选自pET22b、pSC101、colE1(ATCC 27138)、pBR322、pACYC184、pUC9(ATCC 37252)，优选pET22b质粒。

本发明的另一个方面提供了一种转化了上述质粒的微生物，该微生物是表达上述转氨酶突变体的基因工程菌。

优选上述微生物是大肠杆菌、枯草芽孢杆菌、毕赤酵母、酿酒酵母，优选大肠杆菌，更优选大肠杆菌BL21(DE3)。

当微生物是大肠杆菌E.coli BL21(DE3)基因工程菌时，可以使用IPTG作为诱导剂，转氨酶突变体基因的表达体系还可以使用乳糖操纵子、阿拉伯糖操纵子、或者色氨酸操纵子。

上述微生物可作为固定化转氨酶形式而直接用于氨基转移反应。

本发明的再一个方面提供了上述转氨酶突变体或者上述微生物在生产西格列汀中的用途。

例如，在西格列汀的生产中，以(2Z)-4-氧代-4-[3-(三氟甲基)-5,6-二氢-[1,2,4]三唑并[4,3-a]吡嗪-7-(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮(简称“西格列汀前体酮”)作为底物，使用所述转氨酶突变体或者所述微生物作为生物催化剂催化氨基转移反应，得到西格列汀。

在一种优选的实施方式中，酶催化反应体系中还添加有磷酸吡哆醛(PLP)和氨基供体。磷酸吡哆醛作为辅酶可以促进转氨酶催化的氨基转移反应。所用的氨基供体可以是异丙胺等。

上述反应体系的pH可以为8.0-9.0，优选pH 8.2-8.8，更优选pH 8.5左右。

反应温度可以为40-50℃，优选42-48℃，更优选45℃左右。

上述反应体系中，底物浓度可以为20～50g/L。

本发明从众多转氨酶筛选出转氨酶SEQ ID NO:1，通过多轮突变，筛选出酶活力显著提高、保持高立体选择性的突变体，用于以(2Z)-4-氧代-4-[3-(三氟甲基)-5,6-二氢-[1,2,4]三唑并[4,3-a]吡嗪-7-(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮为底物合成西格列汀时，西格列汀生成率达到96.7％，产物光学纯度(e.e.值)大于99.95％，具有工业化应用前景。

附图说明

图1为野生型转氨酶氨基酸序列差异性分析图。

具体实施方式

本发明筛选的野生型转氨酶SEQ ID NO:1来源于Neosartorya fischeri，在Genbank中的NCBI登录号是KAF4246444.1。

野生型转氨酶的氨基酸序列中有些位点的突变并非是单一的突变，比如第57位突变可以是T57A，也可以是T57F或T57G，这种情况下可以表述为T57AFG。其中T57A突变是指SEQ ID NO:1氨基酸序列第57位的残基苏氨酸(T或Thr)被丙氨酸(A或Ala)替换的突变，以此类推。

为简要起见，本文中的氨基酸缩写既可以使用英文三字母、也可以采用英文单字母，这是本领域技术人员熟知的，这些缩写列于下表中：

表1、氨基酸中英文对照及缩写

在实施例中，术语“野生(型)”、“野生酶”、“野生型酶”表示相同的意义，都是指转氨酶的野生序列SEQ ID NO:1。为了与突变体(突变酶)相区别和表述方便起见，在本发明中可以将野生型转氨酶称为“野生(型)转氨酶”或者“野生(型)酶”。

本发明对野生转氨酶SEQ ID NO:1进行了多轮突变，筛选出大量酶活力逐步提高的突变体。例如，由氨基酸序列SEQ ID NO:1出发，第51位的苯丙氨酸突变为缬氨酸(F51V)、或第57位的苏氨酸突变为丙氨酸苯丙氨酸或甘氨酸(T57AFG)、或第117位异亮氨酸突变为丙氨酸(I117A)、或第187位苏氨酸突变为丝氨酸(T187S)、或第205位天冬氨酸突变为丙氨酸或丝氨酸(D205AS)，共计96种组合。

由SEQ ID NO:1出发，第56位的亮氨酸突变为丙氨酸或酪氨酸(L56AY)、或第115位谷氨酸突变为精氨酸(E115R)、或第147位色氨酸突变为苯丙氨酸(W147F)、或第185位天冬氨酸突变为丙氨酸(D185A)、或第237位异亮氨酸突变为丙氨酸或甘氨酸(I237AG)，共计72种组合。

由SEQ ID NO:1出发，第53位的组氨酸突变为苯丙氨酸或亮氨酸(H53FL)、或第84位赖氨酸突变为组氨酸(K84H)、或第181位亮氨酸突变为丙氨酸(L181A)、或第191位苯丙氨酸突变为丙氨酸或甘氨酸(F191AG)、或第238位苏氨酸突变为丝氨酸(T238S)、或第273位苏氨酸突变为丝氨酸(T273S)，共计144种组合。

SEQ ID NO:3是在SEQ ID NO:1基础上，第56位的亮氨酸突变为丙氨酸(L56A)，第115位谷氨酸突变为精氨酸(E115R)，第147位色氨酸突变为苯丙氨酸(W147F)，第237位异亮氨酸突变为甘氨酸(I237G)。SEQ ID NO:3对应的核酸序列为SEQ ID NO:4。

由SEQ ID NO:3出发，第53位的组氨酸突变为亮氨酸(H53L)、或第57位的苏氨酸突变为甘氨酸(T57G)、或第84位赖氨酸突变为组氨酸(K84H)、或第117位异亮氨酸突变为丙氨酸(I117A)、或第191位苯丙氨酸突变为丙氨酸(F191A)、或第205位天冬氨酸突变为丝氨酸(D205S)、或第273位苏氨酸突变为丝氨酸(T273S)，共计128种组合。

SEQ ID NO:5是在SEQ ID NO:3基础上，第53位的组氨酸突变为亮氨酸(H53L)，第84位赖氨酸突变为组氨酸(K84H)，第117位异亮氨酸突变为丙氨酸(I117A)，第191位苯丙氨酸突变为丙氨酸(F191A)，第273位苏氨酸突变为丝氨酸(T273S)。SEQ ID NO:5对应的核酸序列为SEQ ID NO:6。

SEQ ID NO:7是在SEQ ID NO:5基础上，第127位的甘氨酸突变为苯丙氨酸(G127F)，第214位的丝氨酸突变为脯氨酸(S214P)，第275位的丙氨酸突变为甘氨酸(A275G)。SEQ ID NO:7对应的核酸序列为SEQ ID NO:8。

在SEQ ID NO:7的基础上，第91位的亮氨酸突变为谷氨酰胺(L91Q)且第251位的异亮氨酸突变为缬氨酸(I251V)；或第63位的缬氨酸突变为组氨酸(V63E)；或第27位的赖氨酸突变为苏氨酸(K27T)；或第248位的丙氨酸突变为甘氨酸(A248G)且第311位的天冬氨酸突变为天冬酰胺(D311N)；或第135位的天冬酰胺突变为赖氨酸(N135K)；或第264位的酪氨酸突变为丝氨酸(Y264S)；或第35位的赖氨酸突变为天冬酰胺(K35N)且第40位的丝氨酸突变为精氨酸(S40R)。其中，优选的K35N、S40R突变体的氨基酸序列为SEQ ID NO:9。SEQ ID NO:9对应的核酸序列为SEQ ID NO:10。

在SEQ ID NO:9的基础上，第7位的缬氨酸突变为亮氨酸(V7L)，第251位的异亮氨酸突变为苏氨酸(I251T)且第321位的甘氨酸突变为谷氨酸(G321E)；或第67位的精氨酸突变为丝氨酸(R67S)且第99位的异亮氨酸突变为苯丙氨酸(I99F)；或第35位的赖氨酸突变为苏氨酸(K35T)，第141位的亮氨酸突变为谷氨酰胺(L141Q)且第248位的丙氨酸突变为谷氨酸(A248E)；或第31位的酪氨酸突变为天冬氨酸(Y31D)且第81位的丝氨酸突变为甘氨酸(S81G)；或第72位的天冬氨酸突变为组氨酸(D72H)，第222位的赖氨酸突变为精氨酸(K222R)且第309位的组氨酸突变为亮氨酸(H309L)。其中，优选的D72H、K222R、H309L突变体的氨基酸序列为SEQ ID NO:11。SEQ ID NO:11对应的核酸序列为SEQ ID NO:12。

在SEQ ID NO:11的基础上，第36位的苯丙氨酸突变为酪氨酸(F36Y)，第124位的甘氨酸突变为丙氨酸(G124A)且第233位的缬氨酸突变为亮氨酸(V233L)；或第95位的苏氨酸突变为丝氨酸(T95S)且第253位的异亮氨酸突变为天冬酰胺(I253N)；或第80位点的谷氨酸突变为谷氨酰胺(E80Q)且第248位丙氨酸突变为甘氨酸(A248G)；或第31位点的酪氨酸突变为天冬酰胺(Y31N)，第131位谷氨酸突变为缬氨酸(E131V)且第255位点的亮氨酸突变为缬氨酸(L255V)；或第171位的脯氨酸突变为谷氨酰胺(P171Q)且第257位点的缬氨酸突变为谷氨酸(V257E)；或第81位的丝氨酸突变为甘氨酸(S81G)且第156位的亮氨酸突变为缬氨酸(L156V)；或第13位点的丙氨酸突变为甘氨酸(A13G)且第137位点的天冬酰胺突变为丝氨酸(N137S)；或第68位的苯丙氨酸突变为酪氨酸(F68Y)，第88位点的赖氨酸突变为谷氨酸(K88E)且第319位的天冬氨酸突变为缬氨酸(D319V)；或第76位的谷氨酰胺突变为精氨酸(Q76R)且第248位的丙氨酸突变为缬氨酸(A248V)。其中，优选的Q76R、A248V突变体的氨基酸序列为SEQ ID NO:13，对应的核酸序列为SEQ ID NO:14。

在SEQ ID NO:13的基础上，第18位的亮氨酸突变为甲硫氨酸(L18M)；或第252位点的天冬氨酸突变为谷氨酸(D252E)；第37位点的缬氨酸突变为甘氨酸(V37G)且第314位点的酪氨酸突变为丝氨酸(Y314S)；或第244位的天冬氨酸突变为天冬酰胺(D244N)；或第143位点的亮氨酸突变为甲硫氨酸(L143M)且第299位的赖氨酸突变为谷氨酰胺(K299Q)；或第123位的苏氨酸突变为丝氨酸(T123S)且第288位脯氨酸突变为丙氨酸(P288A)。其中，优选的T123S-P288A突变体的氨基酸序列为SEQ ID NO:15，对应的核酸序列为SEQ ID NO:16。

由于转氨酶突变体SEQ ID NOs:3、5、7、9、11、13和15的功能没有改变，为了描述方便起见，有时也将“转氨酶突变体”简称为“转氨酶”，这是本领域技术人员容易理解的。

本发明的转氨酶突变体的氨基酸数量只有323个，且结构明确，因此本领域技术人员很容易获得其编码基因、包含这些基因的表达盒和质粒、以及包含该质粒的转化体。

为了在基因工程中最常用的大肠杆菌中表达转氨酶SEQ ID NO:1，本发明对其表达基因进行了密码子优化，以此作为构建转氨酶突变体的基础模板，野生型转氨酶SEQ IDNO:1的编码基因可以是核苷酸序列SEQ ID NO:2。

同样，为了在不同微生物中进行转氨酶突变体(包括SEQ ID NOs:3、5、7、9、11、13和15)的最佳表达，可以针对特定的微生物比如大肠杆菌进行密码子优化。密码子优化是可用于通过增加感兴趣基因的翻译效率使生物体中蛋白质表达最大化的一种技术。不同的生物体由于突变倾向和天然选择而通常示出对于编码相同氨基酸的一些密码子之一的特殊偏好性。例如，在生长快速的微生物如大肠杆菌中，优化密码子反映出其各自的基因组tRNA库的组成。因此，在生长快速的微生物中，氨基酸的低频率密码子可以用用于相同氨基酸的但高频率的密码子置换。因此，优化的DNA序列的表达在快速生长的微生物中得以改良。

这些基因、表达盒、质粒、转化体可以通过本领域技术人员所熟知的基因工程构建方式获得。

上述转化体宿主可以使任何适合表达转氨酶的微生物，包括细菌和真菌。优选微生物是大肠杆菌、枯草芽孢杆菌、毕赤酵母、或者酿酒酵母，优选大肠杆菌，更优选大肠杆菌BL21(DE3)。

在该反应体系中，转氨酶突变体可以呈现酶的形式或者菌体的形式。所述酶的形式包括游离酶、固定化酶，包括纯化酶、粗酶、发酵液、载体固定的酶等；所述菌体的形式包括存活菌体和死亡菌体。

以下结合具体实施例对本发明做进一步详细说明。应理解，以下实施例仅用于说明本发明而非用于限定本发明的范围。

本文中涉及到多种物质的添加量、含量及浓度，其中所述的百分含量，除特别说明外，皆指质量百分含量。

实施例

材料和方法

LB培养基：10g/L胰蛋白胨，5g/L酵母提取物，10g/L氯化钠，pH7.2。(LB固体培养基另加20g/L琼脂粉。)

TB培养基：24g/L酵母提取物、12g/L胰蛋白胨、16.43g/L K₂HPO₄.3H₂O、2.31g/LKH₂PO₄、5g/L甘油，pH7.0-7.5。(TB固体培养基另加20g/L琼脂粉。)

实施例中的全基因合成由苏州金唯智生物科技有限公司完成，并装载到载体上；引物合成及测序皆由苏州金唯智生物科技有限公司完成。

实施例中的分子生物学实验包括质粒构建、酶切、连接、感受态细胞制备、转化、培养基配制等等，主要参照《分子克隆实验指南》(Molecular Cloning:A LaboratoryManual)(第三版)，J.萨姆布鲁克，D.W.拉塞尔(美)编著，黄培堂等译，科学出版社，北京，2002)进行。必要时可以通过简单试验确定具体实验条件。

PCR扩增实验根据质粒或DNA模板供应商提供的反应条件或试剂盒说明书进行。必要时可以通过简单试验予以调整。

实施例1野生型转氨酶的筛选

1、酶的挖掘与全基因合成

利用生物信息学分析技术，从NCBI数据库中挖掘六株具有以芳香环及其衍生物为底物潜在催化能力的(R)-ω-转氨酶：OQE25192.1(Penicillium steckii)、XP_015409010.1(Aspergillus nomiae)、KAF4246444.1(Aspergillus fumigatiaffinis)、XP_013276042.1(Rhinocladiella mackenziei)、XP_023089462.1(Aspergillus oryzae)、XP_020123495.1(Talaromyces atroroseus)，序列差异性如图1所示。

根据Escherichia coli进行密码子偏好性优化核酸序列，合成基因后克隆到质粒pET22b的NcoI、XhoI位点，氨基酸序列C末端添加His标签。获得质粒pET-PSATA(OQE25192.1)、pET-ANATA(XP_015409010.1)、pET-AFATA(KAF4246444.1)、pET-PMATA(XP_013276042.1)、pET-AOATA(XP_023089462.1)和pET-TAATA(XP_020123495.1)。

2、重组蛋白的表达条件

用蒸馏水溶解10g/L蛋白胨、5g/L酵母粉、10g/L NaCl配制液体LB培养基；额外添加18～20g/L的琼脂粉配制固体LB培养基。用蒸馏水溶解12g/L蛋白胨、24g/L酵母粉、0.4％甘油、0.231g/L KH₂PO₄、1.254g/L K₂HPO₄配制液体TB培养基。氨苄青霉素(Amp)工作浓度为50～100μg/mL，IPTG的工作浓度为0.2mM。

将六种质粒分别转化到E.coli BL21(DE3)后，获得菌株E.coli BL21(DE3)/pET-PSATA、E.coli BL21(DE3)/pET-ANATA、E.coli BL21(DE3)/pET-AFATA、E.coli BL21(DE3)/pET-PMATA、E.coli BL21(DE3)/pET-AOATA、E.coli BL21(DE3)/pET-TAATA。挑取单菌落至5mL含有Amp的液体LB培养基中，在37℃、220rpm过夜培养。次日，按照体积浓度为1％的接种量转接至含有50mL液体TB培养基的摇瓶中，37℃、220rpm条件下培养至OD_600nm为0.6～0.8时，加入诱导剂IPTG，随后在25℃、220rpm条件下诱导培养15～20h。

3、粗酶溶液的制备

4℃条件下离心收集菌体细胞，生理盐水洗涤细胞，用pH值为8.7～9.1的三乙醇胺-盐酸溶液重悬细胞，利用超声法破碎制备粗酶溶液。超声破碎条件：置于冰水浴中超生5s，暂停5s，连续60个循环。

4、转氨酶在摇瓶水平上的反应条件

摇瓶水平50mL反应体系：100mM三乙醇胺、1M异丙胺、0.5g/L磷酸吡哆醛、20g/L西格列汀前体酮(酶反应前溶于DMSO中)、50％二甲基亚砜(DMSO)、超声破碎后的细胞(超声前的细胞量为2～2.5g)、pH值为8.5(浓盐酸调pH值)，45℃、300rpm条件下孵育24h。

5、西格列汀以及西格列汀前体酮的提取方法

酶反应结束后，4℃、12000rpm条件下离心10min，取上清。用浓盐酸调pH至2～3，45℃搅拌循环加热维持1h，然后冷却至室温。加入25ml异丙醇(IPA)，搅拌均匀，再加入25ml乙酸异丙酯(IPAc)，搅拌均匀，用10M的NaOH调节pH至11，然后搅拌5min。溶液加入50ml体积比为80：20的IPAc/IPA混合液，室温搅拌5min，10000rpm条件下离心10min，取上层液体。向上层液体中加入30mL饱和食盐水，室温搅拌5min，12000rpm条件下离心10min，稀释合适的浓度，用HPLC检测。

6、西格列汀以及西格列汀前体酮的分析方法

利用HPLC法检测西格列汀以及西格列汀前体酮。色谱条件：色谱柱C18(4.6×250mm，5μm)，流动相：精确称量0.05M磷酸二氢钾，加1000mL超纯水溶解，用稀磷酸(取1mL左右磷酸加纯化水稀释至10mL)调pH至3.00，利用0.45μm率膜过滤。取上述缓冲盐加入乙腈，按照体积比1：1混合后超声30min。流速：1.0mL/min；检测波长：254nm；进样量：10μL。六种转氨酶对底物西格列汀前体酮的摩尔转化率如表2所示。

表2、野生型转氨酶催化能力

转氨酶	西格列汀生成率
		PSATA	-
ANATA	-
		AFATA	0.27％
PMATA	-
		AOATA	0.10％
TAATA	0.09％

其中AFATA的酶活力最高，西格列汀生成率为0.27％。根据该结果，后续重点研究AFATA，进行突变体库的构建和筛选评估。

实施例2转氨酶AFATA关键位点突变及筛选

1、突变体的构建

利用生物信息学技术对AFATA进行分析，认定氨基酸序列中T57、R77、K179、E212、I237、T238和T273位于底物-辅因子结合区域，G50、F51、H53、G54、L56、T57、K84、E115、I117、W147、L181、D185、T187、F191、D205是二聚体多肽结合界面，这些位点在酶的结构和功能方面起到关键作用。

由于西格列汀前体酮同时含有1,2,4-三唑并[4,3-a]吡嗪和2,4,5-三氟苯基结构，因此，减少转氨酶与底物结合位阻。R77、K179、E212位与酶催化以及辅因子结合相关，G50、G54空间位阻较小，不做更改。将剩余16个位点分成三组进行组合突变，第一组突变：F51V、T57AFG、I117A、T187S、D205AS，共计96种组合；第二组突变：L56AY、E115R、W147F、D185A、I237AG，共计72种组合；第三组突变：H53FL、K84H、L181A、F191AG、T238S、T273S，共计144种组合。

利用宝日医生物技术(北京)有限公司(takara中国)的

GXL DNA聚合酶试剂盒进行PCR扩增。反应体系：5×Buffer缓冲液10μL、dNTP Mixture 10mM、正向引物和反向引物各1μL、模板0.5μL、DNA聚合酶2μL，加ddH₂O补至50μL。

PCR扩增条件：95℃变性5min；(95℃变性30s，60℃退火30s，72℃延伸1.2min)共10循环；(95℃变性30s，55℃退火30s，72℃延伸1.2min)共20循环；72℃延伸7min。

以突变第51位的苯丙氨酸为缬氨酸(F51V)为例，以质粒pET-AFATA为模板，F51V-5(5'-GCTGCTGGATGAAGGCGTTATGCATGGCGATCT-3')、F51V-3(5'-AGATCGCCATGCATAACGCCTTCATCCAGCAGC-3')为引物，PCR扩增获得质粒pET-AFATA-F51V，对应的AFATA突变体命名为AFATA-F51V。

向PCR反应体系中直接加入1μL限制性内切酶DpnI消化甲基化模板。

化学转化方法：取5μL反应体系直接转化到50～100μLBL21(DE3)化学感受态细胞中，冰上静止15～20min，将转化产物在42℃水浴或金属浴中热激90s，冰上冷却2min，随后加不含抗生素的液体LB培养基在37℃下孵育45～60min。最后涂布平板，在37℃培养箱中倒置培养16～24h。

参照上述方法，分别以质粒pET-AFATA、pET-AFATA-F51V为模板，T57A-5(5'-TTATGCATGGCGATCTGGCCTATGATGTGACCACC-3')、T57A-3(

5'-GGTGGTCACATCATAGGCCAGATCGCCATGCATAA-3')为引物，PCR扩增获得质粒pET-AFATA-T57A、pET-AFATA-F51V-T57A。

分别以质粒pET-AFATA、pET-AFATA-F51V为模板，T57F-5(5'-TATGCATGGCGATCTGTTCTATGATGTGACCACC-3')、T57F-3(5'-GGTGGTCACATCATAGAACAGATCGCCATGCATA-3')为引物，PCR扩增获得质粒pET-AFATA-T57F、pET-AFATA-F51V-T57F。

分别以质粒pET-AFATA、pET-AFATA-F51V为模板，T57G-5(5'-ATGCATGGCGATCTGGGCTATGATGTGACCAC-3')、T57G-3(5'-GTGGTCACATCATAGCCCAGATCGCCATGCAT-3')为引物，PCR扩增获得质粒pET-AFATA-T57G、pET-AFATA-F51V-T57G。

分别以质粒pET-AFATA、pET-AFATA-F51V、pET-AFATA-T57A、pET-AFATA-F51V-T57A、pET-AFATA-T57F、pET-AFATA-F51V-T57F、pET-AFATA-T57G、pET-AFATA-F51V-T57G为模板，I117A-5(5'-GCGTTTGTGGAAGTGGCTGTGACCCGCGGCCT-3')、I117A-3(5'-AGGCCGCGGGTCACAGCCACTTCCACAAACGC-3')为引物，PCR扩增获得质粒pET-AFATA-I117A、pET-AFATA-F51V-I117A、pET-AFATA-T57A-I117A、pET-AFATA-F51V-T57A-I117A、pET-AFATA-T57F-I117A、pET-AFATA-F51V-T57F-I117A、pET-AFATA-T57G-I117A、pET-AFATA-F51V-T57G-I117A。

分别以质粒pET-AFATA、pET-AFATA-F51V、pET-AFATA-T57A、pET-AFATA-F51V-T57A、pET-AFATA-T57F、pET-AFATA-F51V-T57F、pET-AFATA-T57G、pET-AFATA-F51V-T57G、pET-AFATA-I117A、pET-AFATA-F51V-I117A、pET-AFATA-T57A-I117A、pET-AFATA-F51V-T57A-I117A、pET-AFATA-T57F-I117A、pET-AFATA-F51V-T57F-I117A、pET-AFATA-T57G-I117A、pET-AFATA-F51V-T57G-I117A为模板，T187S-5(5'-CAGTGGGGTGATCTGAGCAAAGGCCTGTTTGAA-3')、T187S-3(

5'-TTCAAACAGGCCTTTGCTCAGATCACCCCACTG-3')为引物，PCR扩增获得质粒pET-AFATA-T187S、pET-AFATA-F51V-T187S、pET-AFATA-T57A-T187S、pET-AFATA-F51V-T57A-T187S、pET-AFATA-T57F-T187S、pET-AFATA-F51V-T57F-T187S、pET-AFATA-T57G-T187S、pET-AFATA-F51V-T57G-T187S、pET-AFATA-I117A-T187S、pET-AFATA-F51V-I117A-T187S、pET-AFATA-T57A-I117A-T187S、pET-AFATA-F51V-T57A-I117A-T187S、pET-AFATA-T57F-I117A-T187S、pET-AFATA-F51V-T57F-I117A-T187S、pET-AFATA-T57G-I117A-T187S、pET-AFATA-F51V-T57G-I117A-T187S。

分别以质粒pET-AFATA、pET-AFATA-F51V、pET-AFATA-T57A、pET-AFATA-F51V-T57A、pET-AFATA-T57F、pET-AFATA-F51V-T57F、pET-AFATA-T57G、pET-AFATA-F51V-T57G、pET-AFATA-I117A、pET-AFATA-F51V-I117A、pET-AFATA-T57A-I117A、pET-AFATA-F51V-T57A-I117A、pET-AFATA-T57F-I117A、pET-AFATA-F51V-T57F-I117A、pET-AFATA-T57G-I117A、pET-AFATA-F51V-T57G-I117A、pET-AFATA-T187S、pET-AFATA-F51V-T187S、pET-AFATA-T57A-T187S、pET-AFATA-F51V-T57A-T187S、pET-AFATA-T57F-T187S、pET-AFATA-F51V-T57F-T187S、pET-AFATA-T57G-T187S、pET-AFATA-F51V-T57G-T187S、pET-AFATA-I117A-T187S、pET-AFATA-F51V-I117A-T187S、pET-AFATA-T57A-I117A-T187S、pET-AFATA-F51V-T57A-I117A-T187S、pET-AFATA-T57F-I117A-T187S、pET-AFATA-F51V-T57F-I117A-T187S、pET-AFATA-T57G-I117A-T187S、pET-AFATA-F51V-T57G-I117A-T187S为模板，D205A-5(5'-TATCCGTTTCTGACCGCTGGCGATACCAACCTG-3')、D205A-3(5'-CAGGTTGGTATCGCCAGCGGTCAGAAACGGATA-3')为引物，PCR扩增获得质粒pET-AFATA-D205A、pET-AFATA-F51V-D205A、pET-AFATA-T57A-D205A、pET-AFATA-F51V-T57A-D205A、pET-AFATA-T57F-D205A、pET-AFATA-F51V-T57F-D205A、pET-AFATA-T57G-D205A、pET-AFATA-F51V-T57G-D205A、pET-AFATA-I117A-D205A、pET-AFATA-F51V-I117A-D205A、pET-AFATA-T57A-I117A-D205A、pET-AFATA-F51V-T57A-I117A-D205A、pET-AFATA-T57F-I117A-D205A、pET-AFATA-F51V-T57F-I117A-D205A、pET-AFATA-T57G-I117A-D205A、pET-AFATA-F51V-T57G-I117A-D205A、pET-AFATA-T187S-D205A、pET-AFATA-F51V-T187S-D205A、pET-AFATA-T57A-T187S-D205A、pET-AFATA-F51V-T57A-T187S-D205A、pET-AFATA-T57F-T187S-D205A、pET-AFATA-F51V-T57F-T187S-D205A、pET-AFATA-T57G-T187S-D205A、pET-AFATA-F51V-T57G-T187S-D205A、pET-AFATA-I117A-T187S-D205A、pET-AFATA-F51V-I117A-T187S-D205A、pET-AFATA-T57A-I117A-T187S-D205A、pET-AFATA-F51V-T57A-I117A-T187S-D205A、pET-AFATA-T57F-I117A-T187S-D205A、pET-AFATA-F51V-T57F-I117A-T187S-D205A、pET-AFATA-T57G-I117A-T187S-D205A、pET-AFATA-F51V-T57G-I117A-T187S-D205A。

分别以质粒pET-AFATA、pET-AFATA-F51V、pET-AFATA-T57A、pET-AFATA-F51V-T57A、pET-AFATA-T57F、pET-AFATA-F51V-T57F、pET-AFATA-T57G、pET-AFATA-F51V-T57G、pET-AFATA-I117A、pET-AFATA-F51V-I117A、pET-AFATA-T57A-I117A、pET-AFATA-F51V-T57A-I117A、pET-AFATA-T57F-I117A、pET-AFATA-F51V-T57F-I117A、pET-AFATA-T57G-I117A、pET-AFATA-F51V-T57G-I117A、pET-AFATA-T187S、pET-AFATA-F51V-T187S、pET-AFATA-T57A-T187S、pET-AFATA-F51V-T57A-T187S、pET-AFATA-T57F-T187S、pET-AFATA-F51V-T57F-T187S、pET-AFATA-T57G-T187S、pET-AFATA-F51V-T57G-T187S、pET-AFATA-I117A-T187S、pET-AFATA-F51V-I117A-T187S、pET-AFATA-T57A-I117A-T187S、pET-AFATA-F51V-T57A-I117A-T187S、pET-AFATA-T57F-I117A-T187S、pET-AFATA-F51V-T57F-I117A-T187S、pET-AFATA-T57G-I117A-T187S、pET-AFATA-F51V-T57G-I117A-T187S为模板，D205S-5(5'-ACCTATCCGTTTCTGACCAGTGGCGATACCAACCTGAC-3')、D205S-3(5'-GTCAGGTTGGTATCGCCACTGGTCAGAAACGGATAGGT-3')为引物，PCR扩增获得质粒pET-AFATA-D205S、pET-AFATA-F51V-D205S、pET-AFATA-T57A-D205S、pET-AFATA-F51V-T57A-D205S、pET-AFATA-T57F-D205S、pET-AFATA-F51V-T57F-D205S、pET-AFATA-T57G-D205S、pET-AFATA-F51V-T57G-D205S、pET-AFATA-I117A-D205S、pET-AFATA-F51V-I117A-D205S、pET-AFATA-T57A-I117A-D205S、pET-AFATA-F51V-T57A-I117A-D205S、pET-AFATA-T57F-I117A-D205S、pET-AFATA-F51V-T57F-I117A-D205S、pET-AFATA-T57G-I117A-D205S、pET-AFATA-F51V-T57G-I117A-D205S、pET-AFATA-T187S-D205S、pET-AFATA-F51V-T187S-D205S、pET-AFATA-T57A-T187S-D205S、pET-AFATA-F51V-T57A-T187S-D205S、pET-AFATA-T57F-T187S-D205S、pET-AFATA-F51V-T57F-T187S-D205S、pET-AFATA-T57G-T187S-D205S、pET-AFATA-F51V-T57G-T187S-D205S、pET-AFATA-I117A-T187S-D205S、pET-AFATA-F51V-I117A-T187S-D205S、pET-AFATA-T57A-I117A-T187S-D205S、pET-AFATA-F51V-T57A-I117A-T187S-D205S、pET-AFATA-T57F-I117A-T187S-D205S、pET-AFATA-F51V-T57F-I117A-T187S-D205S、pET-AFATA-T57G-I117A-T187S-D205S、pET-AFATA-F51V-T57G-I117A-T187S-D205S。

综上所述，共计获得96个AFATA突变体(含AFATA)。

参照上述方法，对L56AY、E115R、W147F、D185A、I237AG进行组合突变。

对L56A突变，设计正向、反向引物：

正向引物L56A-5：5'-AGGCTTTATGCATGGCGATGCGACCTATGATGTGACCA-3'，

反向引物L56A-3：5'-TGGTCACATCATAGGTCGCATCGCCATGCATAAAGCCT-3'；

对L56Y突变，设计正向、反向引物：

正向引物L56Y-5：5'-AAGGCTTTATGCATGGCGATTATACCTATGATGTGACC-3'

反向引物L56Y-3：5'-GGTCACATCATAGGTATAATCGCCATGCATAAAGCCTT-3'

对E115R突变，设计正向、反向引物：

正向引物E115R-5：5'-TTCGCGATGCGTTTGTGAGAGTGATTGTGACCCGCG-3'

反向引物E115R-5：5'-CGCGGGTCACAATCACTCTCACAAACGCATCGCGAA-3'

对W147F突变，设计正向、反向引物：

正向引物W147F-5：5'-GCTGGTGCTGCCGTATATTTTCGTGATGGCGCC-3'

反向引物W147F-3：5'-GGCGCCATCACGAAAATATACGGCAGCACCAGC-3'

对D185A突变，设计正向、反向引物：

正向引物D185A-5：5'-CCTGCAGTGGGGTGCTCTGACCAAAGGCC-3'

反向引物D185A-3：5'-GGCCTTTGGTCAGAGCACCCCACTGCAGG-3'

对I237A突变，设计正向、反向引物：

正向引物I237A-5：5'-GCGTGCTGCGCGGCGCTACCCGCAAAAGCG-3'

反向引物I237A-3：5'-CGCTTTTGCGGGTAGCGCCGCGCAGCACGC-3'

对I237G突变，设计正向、反向引物：

正向引物I237G-5：5'-GCGTGCTGCGCGGCGGTACCCGCAAAAGCG-3'

反向引物I237G-3：5'-CGCTTTTGCGGGTACCGCCGCGCAGCACGC-3'。

以上，共计获得72个AFATA突变体(含AFATA)。

参照上述方法，对H53FL、K84H、L181A、F191AG、T238S、T273S进行组合突变。

对H53F突变，设计正向、反向引物：

正向引物H53F-5：5'-GCTGGATGAAGGCTTTATGTTTGGCGATCTGACCTATG-3'

反向引物H53F-3：5'-CATAGGTCAGATCGCCAAACATAAAGCCTTCATCCAGC-3'

对H53L突变，设计正向、反向引物：

正向引物H53L-5：5'-GGATGAAGGCTTTATGCTTGGCGATCTGACCTATG-3'

反向引物H53L-3：5'-CATAGGTCAGATCGCCAAGCATAAAGCCTTCATCC-3'

对K84H突变，设计正向、反向引物：

正向引物K84H-5：5'-AGCGCATTCTGGAAAGCTGCGATCATATGCGCCTGAAA-3'

反向引物K84H-3：5'-TTTCAGGCGCATATGATCGCAGCTTTCCAGAATGCGCT-3'

对L181A突变，设计正向、反向引物：

正向引物L181A-5：5'-TTTGATCCGACCATTAAAAACGCGCAGTGGGGTGATCT-3'

反向引物L181A-3：5'-AGATCACCCCACTGCGCGTTTTTAATGGTCGGATCAAA-3'

对F191A突变，设计正向、反向引物：

正向引物F191A-5：5'-ATCTGACCAAAGGCCTGGCTGAAGCGATGGATCGCG-3'

反向引物F191A-3：5'-CGCGATCCATCGCTTCAGCCAGGCCTTTGGTCAGAT-3'

对F191G突变，设计正向、反向引物：

正向引物F191G-5：5'-ATCTGACCAAAGGCCTGGGTGAAGCGATGGATCGCG-3'

反向引物F191G-3：5'-CGCGATCCATCGCTTCACCCAGGCCTTTGGTCAGAT-3'

对T238S突变，设计正向、反向引物：

正向引物T238S-5：5'-CGTGCTGCGCGGCATTAGCCGCAAAAGC-3'

反向引物T238S-3：5'-GCTTTTGCGGCTAATGCCGCGCAGCACG-3'

对T273S突变，利用正向、反向引物：

正向引物T273S-5：5'-GAAATTTTTATGTGCAGCACCGCGGGCGGCATT-3'

反向引物T273S-3：5'-AATGCCGCCCGCGGTGCTGCACATAAAAATTTC-3'

以上，共计获得144个AFATA突变体(含AFATA)。

2、重组蛋白的表达条件

挑取BL21(DE3)、BL21(DE3)/AFATA及309种AFATA突变体单菌落至每孔含有120μL液体LB-Amp培养基中，在37℃、300rpm下培养3～5h。随后，每孔取60μL菌液转接至含有240μL液体TB-Amp-IPTG培养基中，在25℃、300rpm条件下诱导培养15～20h。

3、转氨酶在96孔板中的反应条件

在4℃、4000rpm条件下离心10min，去上清培养液收集菌体。随后，用预冷的生理盐水洗涤菌体，在4℃、4000rpm条件下离心10min，去上清液收集菌体。每孔加200μL酶反应体系重悬菌体，在45℃、450rpm条件下孵育24h，利用全细胞催化西格列汀前体酮合成西格列汀。酶反应体系同实施例1：100mM三乙醇胺、1M异丙胺、0.5g/L磷酸吡哆醛、20g/L西格列汀前体酮、50％二甲基亚砜(DMSO)、pH值为8.5(浓盐酸调pH值)。

4、西格列汀以及西格列汀前体酮的分析方法

酶反应结束后，在4000rpm下离心，取上清液。利用异丙醇/乙酸异丙酯(体积比65/35)混合液直接稀释上清液，滤膜过滤后制备HPLC待检测样品。HPLC色谱条件参照实施例1。三组突变体库(第一组：F51V、T57AFG、I117A、T187S、D205AS；第二组：L56AY、E115R、W147F、D185A、I237AG；第三组：H53FL、K84H、L181A、F191AG)中每组最优的突变体西格列汀生成率如表3所示。其中，优选的转氨酶突变体AFATA-L56A-E115R-W147F-I237G的西格列汀生成率最高，为2.4％，其氨基酸序列如SEQ ID NO.3所示。与实施例1的结果相比，野生型转氨酶的西格列汀生成率从0.27％降低到0.19％，这是因为更换反应体系导致的。

表3、AFATA突变体全细胞在微型反应体系中的西格列汀生成率

转氨酶突变体	西格列汀生成率	提升倍数
			AFATA	0.19％	—
AFATA-T57G-I117A-D205S	0.94％	4.94
			AFATA-L56A-E115R-W147F-I237G	2.4％	12.6
AFATA-H53L-K84H-F191A-T273S	0.74％	3.89

由表3可以看出转氨酶(SEQ ID NO:1)的L56A、E115R、W147F、I237G突变体(SEQ IDNO:3)的酶活力比野生酶SEQ ID NO:1提高了11倍多。根据该结果，继续对突变体SEQ IDNO:3进行突变体库的构建和筛选评估。

实施例3 AFATA关键位点第二轮突变及筛选

1、突变体的第二轮构建

参照实施例2的方法，以SEQ ID NO.3所示氨基酸序列为基础，第53位的组氨酸突变为亮氨酸(H53L)；或第57位的苏氨酸突变为甘氨酸(T57G)；或第84位赖氨酸突变为组氨酸(K84H)；或第117位异亮氨酸突变为丙氨酸(I117A)；或第191位苯丙氨酸突变为丙氨酸(F191A)；或第205位天冬氨酸突变为丝氨酸(D205S)；或第273位苏氨酸突变为丝氨酸(T273S)。

对H53L突变，设计正向、反向引物：

正向引物H53L-51：5'-TGGATGAAGGCTTTATGCTTGGCGATGCGACC-3'

反向引物H53L-31：5'-GGTCGCATCGCCAAGCATAAAGCCTTCATCCA-3'

对T57G突变，设计正向、反向引物：

正向引物T57G-51：5'-ATGCATGGCGATGCGGGCTATGATGTGACCAC-3'

反向引物T57G-31：5'-GTGGTCACATCATAGCCCGCATCGCCATGCAT-3'

对K84H突变，利用正向、反向引物：

正向引物K84H-5：5'-AGCGCATTCTGGAAAGCTGCGATCATATGCGCCTGAAA-3'

反向引物K84H-3：5'-TTTCAGGCGCATATGATCGCAGCTTTCCAGAATGCGCT-3'

对I117A突变，设计正向、反向引物：

正向引物I117A-51：5'-GCGTTTGTGAGAGTGGCTGTGACCCGCGGCCT-3'

反向引物I117A-31：5'-AGGCCGCGGGTCACAGCCACTCTCACAAACGC-3'

对F191A突变，利用正向、反向引物：

正向引物F191A-5：5'-ATCTGACCAAAGGCCTGGCTGAAGCGATGGATCGCG-3'

反向引物F191A-3：5'-CGCGATCCATCGCTTCAGCCAGGCCTTTGGTCAGAT-3'

对D205S突变，利用正向、反向引物：

正向引物D205S-5：5'-ACCTATCCGTTTCTGACCAGTGGCGATACCAACCTGAC-3'

反向引物D205S-3：5'-GTCAGGTTGGTATCGCCACTGGTCAGAAACGGATAGGT-3'

对T273S突变，利用正向、反向引物：

正向引物T273S-5：5'-GAAATTTTTATGTGCAGCACCGCGGGCGGCATT-3'

反向引物T273S-3：5'-AATGCCGCCCGCGGTGCTGCACATAAAAATTTC-3'

2、转氨酶突变体的筛选

在90孔板中进行转氨酶突变体的筛选，蛋白表达、转氨酶反应、西格列汀以及西格列汀的分析方法参照实施例2中的方法进行。

如表4所示，共计获得以下128种AFATA突变体(含AFATA-L56A-E115R-W147F-I237G)，其中，最优突变体为AFATA-H53L-L56A-K84H-E115R-I117A-W147F-F191A-I237G-T273S(SEQ ID NO:5)，西格列汀生成率为17.8％，是突变体AFATA-L56A-E115R-W147F-I237G(SEQ ID NO:3)的7.4倍。突变体SEQ IDNO:5对应的核酸序列如SEQ ID NO:6所示。

表4、AFATA第二轮突变体全细胞在微型反应体系中的西格列汀生成率

/>

/>

/>

/>

转化率提高倍数0～0.4：☆

转化率提高倍数0.4～0.7：☆☆

转化率提高倍数0.7～1：☆☆☆

转化率提高倍数1～2：☆☆☆☆

转化率提高倍数2～4：☆☆☆☆☆

转化率提高倍数4～7：☆☆☆☆☆☆

转化率提高倍数7～10：☆☆☆☆☆☆☆。

根据该结果，继续对突变体SEQ ID NO:5进行突变体库的构建和筛选评估。

实施例4关键位点的定点饱和突变

1、定点饱和突变构建转氨酶突变体

利用生物信息学技术分析突变体SEQ ID NO:5的立体结构，发现位点G127、S214和A275在底物结合位点附近，结构过大可能会增加酶与底物结合的位阻效应。其中，位点A275在底物的三氟苯基基团附近，G127和S214临近底物的四氢三唑并[4,3-α]吡嗪基团。

以质粒pET-AFATA094为模板，G127X-5(CTGACCGGCGTGCGCNNNAGCAAACCGGAGGATCTGTA)、G127X-3(GCGCACGCCGGTCAGG)为引物，PCR扩增约6.3kb的DNA片段。PCR反应体系和反应条件参照实施例2的方法。向PCR产物中加入1μL的限制性内切酶DpnI消化质粒模板，电泳、胶回收PCR扩增出的DNA。利用南京诺唯赞生物科技有限公司的一步克隆试剂盒，使线性化DNA两段同源的序列重组后成环，构建第127位位点文库。随后，利用爱思进生物技术(杭州)有限公司的PCR清洁试剂盒除去一步克隆反应体系中的缓冲液和酶，纯化DNA后，将回收液电转到BL21(DE3)电化学感受态细胞中，加液体LB培养基孵育1h后涂布含有Amp的固体LB平板。

文库S214X(X表示任意氨基酸)和A275X的构建方法与G127X相同，以质粒pET-AFATA094为模板，S214X-5(AACCTGACCGAAGGCNNNGGCTTTAACATTGTGCTGGT)、S214X-3(GCCTTCGGTCAGGTTGGTA)为引物构建文库S214X；A275X-5(TTTTATGTGCAGCACCNNNGGCGGCATTATGCCGATTA)、A275X-3(GGTGCTGCACATAAAAATTTC)为引物构建文库A275X。

2、转氨酶突变体的筛选

突变体的筛选在96孔板中进行，转氨酶表达、反应条件、西格列汀以及西格列汀前体酮的分析方法参照实施例2中提供的方法进行。文库G127X、S214X和A275X各挑取200个，利用引物T7(5'-TAATACGACTCACTATAGGG-3')、T7t(5'-TGCTAGTTATTGCTCAGCGG-3')对西格列汀生成率较高突变体测序，优选的突变体如表5所示。

表5、定点饱和突变体的西格列汀生成率

3、位点G127F、S214P和A275G组合突变体的构建

以质粒pET-AFATA094-G127F为模板，S214P-5(5'-CCAACCTGACCGAAGGCCCCGGCTTTAACATTGTGC-3')、S214P-3(5'-GCACAATGTTAAAGCCGGGGCCTTCGGTCAGGTTGG-3')为引物，PCR扩增获得质粒pET-AFATA094-G127F-S214P；以质粒pET-AFATA094-G127F为模板，A275G-5(5'-ATGTGCAGCACCGGGGGCGGCATTATG-3)、A275G-3(5'-CATAATGCCGCCCCCGGTGCTGCACAT-3')，PCR扩增获得质粒pET-AFATA094-G127F-A275G；以质粒pET-AFATA094-S214P为模板，A275G-5(5'-ATGTGCAGCACCGGGGGCGGCATTATG-3)、A275G-3(5'-CATAATGCCGCCCCCGGTGCTGCACAT-3')为引物，PCR扩增获得质粒PET-AFATA094-S214P-A275G；以质粒PET-AFATA094-G127F-S214P为模板，A275G-5(5'-ATGTGCAGCACCGGGGGCGGCATTATG-3)、A275G-3(5'-CATAATGCCGCCCCCGGTGCTGCACAT-3')为引物，PCR扩增获得质粒pET-AFATA094-G127F-S214P-A275G。PCR反应体系、扩增条件、转化操作等实验操作参照实施例2提供的方法进行。

4、突变体的转氨酶反应

选取AFATA094、AFATA094-G127F、AFATA094-S214P、AFATA094-A275G、AFATA094-G127F-S214P、AFATA094-G127F-A275G、AFATA094-S214P-A275G、AFATA094-G127F-S214P-A275G八种突变体在摇瓶水平上进行酶反应，酶反应条件、西格列汀以及西格列汀前体酮的提取方法、检测方法参照实施例1提供的方法进行。如表6所示，突变体AFATA094的西格列汀生成率从实施例3的17.8％提高到22.3％，这是因为相比于实施例2深孔板中200μL的全细胞反应体系，50mL粗酶反应体系酶与物料混合更加均匀。在以上八个转氨酶突变体中，AFATA094-G127F-S214P-A275G(AFATA-H53L-L56A-K84H-E115R-I117A-G127F-W147F-F191A-S214P-I237G-T273S-A275G)是最优的突变体，其氨基酸序列如SEQ ID NO:7所示，对应的核酸序列如SEQ ID NO:8所示。

表6、突变体在摇瓶水平上的西格列汀生成率

实施例5全基因随机突变构建AFATA突变体

1、全基因随机突变构建突变体

以质粒pET-AFATA094-G127F-S214P-A275G(装载突变体SEQ ID NO:7)为模板，T7(5'-TAATACGACTCACTATAGGG-3')、T7t(5'-TGCTAGTTATTGCTCAGCGG-3')为引物，利用安捷伦科技有限公司(Agilent Technologies)的随机突变试剂盒PCR扩增，获得AFATA突变体片段。反应体系：10×Buffer缓冲液5μL、dNTP Mixture 10mM、正向引物、反向引物和酶各1μL、模板100～600ng、加ddH₂O补至50μL。PCR扩增条件：95℃变性5min；(95℃变性30s，60℃退火30s，72℃延伸1.2min)共10循环；(95℃变性30s，55℃退火30s，72℃延伸1.2min)共12～15循环；72℃延伸7min。

将限制性内切酶DpnI加入到PCR反应后的溶液中消除甲基化模板，随后电泳、胶回收纯化PCR反应扩增出的DNA片段。利用限制性内切酶NdeI、BamHI消化DNA片段，利用T4DNA连接酶将DNA片段插入到载体pET22b骨架上。接着利用爱思进生物技术(杭州)有限公司的PCR清洁试剂盒除去连接反应体系中的缓冲液和酶，纯化DNA后，将回收液电转到BL21(DE3)电化学感受态细胞中，加液体LB培养基孵育1h，涂布含有Amp的固体LB平板，获得突变文库。

2、突变体文库的筛选

突变体的筛选在96孔板中进行，转氨酶表达、反应条件、西格列汀以及西格列汀前体酮的分析方法参照实施例2中提供的方法进行。在对突变文库中4,000个克隆进行筛选，优选的突变体以及底物的摩尔转化率如表7所示。

表7、文库AFATA突变体全细胞反应体系的西格列汀生成率

3、第二轮全基因随机突变构建AFATA突变体

在优选的突变体AFATA-K35N-S40R-H53L-L56A-K84H-E115R-I117A-G127F-W147F-F191A-S214P-I237G-T273S-A275G(SEQ ID NO:9)基础上，进行第二轮全基因随机突变。在对突变文库中6,000个克隆进行筛选，优选的突变体以及底物的摩尔转化率如表8所示。

表8、第二轮文库AFATA突变体全细胞反应体系的西格列汀生成率

4、第三轮全基因随机突变构建AFATA突变体

在优选的突变体AFATA-K35N-S40R-H53L-L56A-D72H-K84H-E115R-I117A-G127F-W147F-F191A-S214P-K222R-I237G-T273S-A275G-H309L(SEQ ID NO:11)基础上，进行第三轮全基因随机突变。在对突变文库中6,000个克隆进行筛选，优选的突变体以及底物的摩尔转化率如表9所示。

表9、第三轮文库AFATA突变体全细胞反应体系的西格列汀生成率

5、第四轮全基因随机突变构建AFATA突变体

在优选的突变体AFATA-K35N-S40R-H53L-L56A-D72H-Q76R-K84H-E115R-I117A-G127F-W147F-F191A-S214P-K222R-I237G-A248V-T273S-A275G-H309L(SEQ ID NO:13)基础上，进行第四轮全基因随机突变。在对突变文库中4,000个克隆进行筛选，优选的突变体以及底物的摩尔转化率如表10所示。

表10、第四轮文库AFATA突变体全细胞反应体系的西格列汀生成率

由表7-10中可以看出，转氨酶突变体SEQ ID NO:9(野生酶SEQ ID NO:1的K35N、S40R、H53L、L56A、K84H、E115R、I117A、G127F、W147F、F191A、S214P、I237G、T273S、A275G突变体)、SEQ ID NO:11(野生酶SEQ ID NO:1的K35N、S40R、H53L、L56A、D72H、K84H、E115R、I117A、G127F、W147F、F191A、S214P、K222R、I237G、T273S、A275G、H309L突变体)、SEQ ID NO:13(野生酶SEQ ID NO:1的K35N、S40R、H53L、L56A、D72H、Q76R、K84H、E115R、I117A、G127F、W147F、F191A、S214P、K222R、I237G、A248V、T273S、A275G、H309L突变体)、SEQ ID NO:15(野生酶SEQ ID NO:1的K35N、S40R、H53L、L56A、D72H、Q76R、K84H、E115R、I117A、T123S、G127F、W147F、F191A、S214P、K222R、I237G、A248V、T273S、A275G、P288A、H309L突变体)的酶活力相比SEQ ID NO:7又有了进一步的提高。

其中，突变体AFATA-K35N-S40R-H53L-L56A-D72H-Q76R-K84H-E115R-I117A-T123S-G127F-W147F-F191A-S214P-K222R-I237G-A248V-T273S-A275G-P288A-H309L酶活力最高，命名为AFATA21X，其氨基酸序列如SEQ ID NO:15所示，对应的核酸序列如SEQ ID NO:16所示。

实施例6突变体AFATA21X不对称合成西格列汀

1、重组蛋白的表达及酶反应体系的配制

参照实施例1提供的方法构建表达重组转氨酶蛋白的大肠杆菌工程菌。挑取基因工程菌E.coli BL21(DE3)/pET-AFATA21X单菌落至5mL含有Amp的液体LB培养基中，在37℃、220rpm过夜培养。次日，按照体积浓度为1％的接种量转接至含有50mL液体TB培养基的摇瓶中，37℃、220rpm条件下培养至OD_600nm为0.6～0.8时，加入诱导剂IPTG，随后在25℃、220rpm条件下诱导培养15～20h。4℃条件下离心收集菌体细胞，生理盐水洗涤细胞，用pH值为8.7～9.1的三乙醇胺-盐酸溶液重悬细胞，利用超声法破碎细胞制备粗酶溶液。摇瓶水平50mL粗酶溶液反应体系：100mM三乙醇胺、1M异丙胺、0.5g/L磷酸吡哆醛、50g/L西格列汀前体酮(酶促反应前溶于DMSO中，分批加入到反应体系中)、50％二甲基亚砜(DMSO)、超声破碎后的细胞(超声前的细胞量为2～2.5g)、pH值为8.5(浓盐酸调pH值)，45℃、300rpm条件下孵育24h。上述条件删减超声破碎细胞步骤为摇瓶水平50mL全细胞反应体系。

2、酶法不对称合成西格列汀

参照实施例1提供的方法提取西格列汀和西格列汀前体酮。酶反应结束后，4℃、12000rpm条件下离心10min，取上清。用浓盐酸调pH至2～3，45℃搅拌循环加热维持1h，然后冷却至室温。加入25ml异丙醇(IPA)，搅拌均匀，再加入25ml乙酸异丙酯(IPAc)，搅拌均匀用10M的NaOH调节pH至11，然后搅拌5min。溶液加入50ml体积比为80：20的IPAc/IPA混合液，室温搅拌5min，10000rpm条件下离心10min，取上层液体。向上层液体中加入30mL饱和食盐水，室温搅拌5min，12000rpm条件下离心10min，稀释合适的浓度用HPLC检测。

利用HPLC法检测西格列汀以及西格列汀前体酮。色谱条件：色谱柱C18(4.6×250mm，5μm)；流动相为磷酸二氢钾-乙腈溶液，精确称量0.05M磷酸二氢钾，加1000mL超纯水溶解，用稀磷酸(取1mL左右磷酸加纯化水稀释至10mL)调pH至3.00，利用0.45μm率膜过滤，取上述缓冲盐加入乙腈，按照体积比1：1混合后超声30min；流速为1.0mL/min；检测波长为254nm；进样量为10μL。

利用HPLC法分析西格列汀及其S手性异构体(杂质A)。色谱条件：色谱柱CHIRALPAKAD-H(4.6×250mm，5μm)；流动相为正己烷：乙醇：三乙胺(40：60：0.1)；柱温为35℃；流速为0.7mL/min，检测波长为268nm；进样量为10μL；稀释液为甲醇。全细胞反应体系和粗酶溶液反应体系的产物生成率以及光学纯度(e.e.值)如表11所示。

表11、突变体AFATA21X的催化性能

反应体系	西格列汀生成率	e.e.值
			全细胞反应体系	94.5％	>99.95％
粗酶溶液反应体系	96.7％	>99.95％

结果表明，游离酶和全细胞都能高效催化西格列汀前体酮发生氨基转移反应，得到高光学纯度的西格列汀。因此本发明的转氨酶突变体已经具有工业化利用价值。

序列表

<110> 国药集团威奇达药业有限公司

<120> 一种转氨酶突变体及其在西格列汀合成中的应用

<130> SHPI2010483

<160> 83

<170> SIPOSequenceListing 1.0

<210> 1

<211> 323

<212> PRT

<213> Aspergillus fumigatiaffinis

<400> 1

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Lys Phe Val Leu Pro Ser Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met His Gly Asp Leu Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu Asp Asp His Met Gln Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp Lys Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Glu Val Ile Val Thr Arg Gly Leu Thr Gly Val Arg Gly Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Trp Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Phe Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Ser Gly Phe Asn Ile Val Leu Val Lys Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Ile Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Ala Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Thr Thr Ala Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met His Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 2

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 2

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaaatttgt gctgccgagc 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcatg gcgatctgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctggatgatc acatgcagcg cattctggaa 240

agctgcgata aaatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tggaagtgat tgtgacccgc 360

ggcctgaccg gcgtgcgcgg cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttg ggtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg tttgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggca gcggctttaa cattgtgctg 660

gtgaaaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcat tacccgcaaa 720

agcgtgattg atgtggcgcg cgcgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcacca ccgcgggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgcattat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 3

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 3

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Lys Phe Val Leu Pro Ser Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met His Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu Asp Asp His Met Gln Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp Lys Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ile Val Thr Arg Gly Leu Thr Gly Val Arg Gly Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Phe Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Ser Gly Phe Asn Ile Val Leu Val Lys Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Ala Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Thr Thr Ala Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met His Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 4

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 4

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaaatttgt gctgccgagc 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcatg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctggatgatc acatgcagcg cattctggaa 240

agctgcgata aaatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtgat tgtgacccgc 360

ggcctgaccg gcgtgcgcgg cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg tttgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggca gcggctttaa cattgtgctg 660

gtgaaaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgcgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcacca ccgcgggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgcattat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 5

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 5

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Lys Phe Val Leu Pro Ser Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met Leu Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu Asp Asp His Met Gln Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp His Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ala Val Thr Arg Gly Leu Thr Gly Val Arg Gly Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Ala Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Ser Gly Phe Asn Ile Val Leu Val Lys Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Ala Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Ser Thr Ala Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met His Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 6

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 6

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaaatttgt gctgccgagc 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcttg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctggatgatc acatgcagcg cattctggaa 240

agctgcgatc atatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtggc tgtgacccgc 360

ggcctgaccg gcgtgcgcgg cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg gctgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggca gcggctttaa cattgtgctg 660

gtgaaaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgcgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcagca ccgcgggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgcattat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 7

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 7

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Lys Phe Val Leu Pro Ser Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met Leu Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu Asp Asp His Met Gln Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp His Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ala Val Thr Arg Gly Leu Thr Gly Val Arg Phe Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Ala Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Pro Gly Phe Asn Ile Val Leu Val Lys Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Ala Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Ser Thr Gly Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met His Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 8

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 8

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaaatttgt gctgccgagc 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcttg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctggatgatc acatgcagcg cattctggaa 240

agctgcgatc atatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtggc tgtgacccgc 360

ggcctgaccg gcgtgcgctt cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg gctgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggcc caggctttaa cattgtgctg 660

gtgaaaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgcgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcagca ccggcggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgcattat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 9

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 9

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Asn Phe Val Leu Pro Arg Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met Leu Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu Asp Asp His Met Gln Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp His Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ala Val Thr Arg Gly Leu Thr Gly Val Arg Phe Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Ala Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Pro Gly Phe Asn Ile Val Leu Val Lys Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Ala Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Ser Thr Gly Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met His Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 10

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 10

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaattttgt gctgccgagg 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcttg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctggatgatc acatgcagcg cattctggaa 240

agctgcgatc atatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtggc tgtgacccgc 360

ggcctgaccg gcgtgcgctt cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg gctgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggcc caggctttaa cattgtgctg 660

gtgaaaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgcgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcagca ccggcggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgcattat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 11

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 11

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Asn Phe Val Leu Pro Arg Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met Leu Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu His Asp His Met Gln Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp His Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ala Val Thr Arg Gly Leu Thr Gly Val Arg Phe Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Ala Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Pro Gly Phe Asn Ile Val Leu Val Arg Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Ala Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Ser Thr Gly Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met Leu Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 12

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 12

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaattttgt gctgccgagg 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcttg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctgcatgatc acatgcagcg cattctggaa 240

agctgcgatc atatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtggc tgtgacccgc 360

ggcctgaccg gcgtgcgctt cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg gctgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggcc caggctttaa cattgtgctg 660

gtgagaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgcgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcagca ccggcggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgctttat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 13

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 13

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Asn Phe Val Leu Pro Arg Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met Leu Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu His Asp His Met Arg Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp His Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ala Val Thr Arg Gly Leu Thr Gly Val Arg Phe Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Ala Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Pro Gly Phe Asn Ile Val Leu Val Arg Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Val Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Ser Thr Gly Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Pro

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met Leu Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 14

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 14

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaattttgt gctgccgagg 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcttg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctgcatgatc acatgcggcg cattctggaa 240

agctgcgatc atatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtggc tgtgacccgc 360

ggcctgaccg gcgtgcgctt cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg gctgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggcc caggctttaa cattgtgctg 660

gtgagaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgtgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcagca ccggcggcgg cattatgccg 840

attaccctgc tggatggtca gccggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgctttat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 15

<211> 323

<212> PRT

<213> Artificial Sequence

<400> 15

Met Ala Ser Met Asp Lys Val Phe Ser Gly Tyr His Ala Arg Gln Lys

1 5 10 15

Leu Leu Glu Arg Ser Asp Asn Pro Phe Ser Lys Gly Ile Ala Tyr Val

20 25 30

Glu Gly Asn Phe Val Leu Pro Arg Asp Ala Arg Ile Pro Leu Leu Asp

35 40 45

Glu Gly Phe Met Leu Gly Asp Ala Thr Tyr Asp Val Thr Thr Val Trp

50 55 60

Asp Gly Arg Phe Phe Arg Leu His Asp His Met Arg Arg Ile Leu Glu

65 70 75 80

Ser Cys Asp His Met Arg Leu Lys Phe Pro Leu Ala Pro Ser Thr Val

85 90 95

Lys Asn Ile Leu Ala Glu Met Val Ala Lys Ser Gly Ile Arg Asp Ala

100 105 110

Phe Val Arg Val Ala Val Thr Arg Gly Leu Ser Gly Val Arg Phe Ser

115 120 125

Lys Pro Glu Asp Leu Tyr Asn Asn Asn Ile Tyr Leu Leu Val Leu Pro

130 135 140

Tyr Ile Phe Val Met Ala Pro Glu Ile Gln Leu Leu Gly Gly Ser Ala

145 150 155 160

Ile Ile Thr Arg Thr Val Arg Arg Thr Pro Pro Gly Ala Phe Asp Pro

165 170 175

Thr Ile Lys Asn Leu Gln Trp Gly Asp Leu Thr Lys Gly Leu Ala Glu

180 185 190

Ala Met Asp Arg Gly Ser Thr Tyr Pro Phe Leu Thr Asp Gly Asp Thr

195 200 205

Asn Leu Thr Glu Gly Pro Gly Phe Asn Ile Val Leu Val Arg Asn Gly

210 215 220

Ile Leu Tyr Thr Pro Asp Arg Gly Val Leu Arg Gly Gly Thr Arg Lys

225 230 235 240

Ser Val Ile Asp Val Ala Arg Val Asn Asn Ile Asp Ile Arg Leu Glu

245 250 255

Val Val Pro Val Glu Gln Val Tyr Gln Ser Asp Glu Ile Phe Met Cys

260 265 270

Ser Thr Gly Gly Gly Ile Met Pro Ile Thr Leu Leu Asp Gly Gln Ala

275 280 285

Val Asn Asp Gly Gln Val Gly Pro Ile Thr Lys Lys Ile Trp Asp Gly

290 295 300

Tyr Trp Glu Met Leu Tyr Asp Pro Ala Tyr Ser Phe Pro Val Asp Tyr

305 310 315 320

Gly Ser Gly

<210> 16

<211> 969

<212> DNA

<213> Artificial Sequence

<400> 16

atggcgagca tggataaagt gtttagcggc tatcatgcgc gtcagaaact gctggaacgc 60

agcgataacc cgtttagcaa aggcattgcg tatgtggaag gcaattttgt gctgccgagg 120

gatgcgcgca ttccgctgct ggatgaaggc tttatgcttg gcgatgcgac ctatgatgtg 180

accaccgtgt gggatggccg cttttttcgc ctgcatgatc acatgcggcg cattctggaa 240

agctgcgatc atatgcgcct gaaatttccg ctggcgccga gcaccgtgaa aaacattctg 300

gcggaaatgg tggcgaaaag cggcattcgc gatgcgtttg tgagagtggc tgtgacccgc 360

ggcctgtccg gcgtgcgctt cagcaaaccg gaggatctgt ataacaacaa catttatctg 420

ctggtgctgc cgtatatttt cgtgatggcg ccggaaattc agctgctggg cggcagcgcg 480

attattaccc gcaccgtgcg ccgcaccccg ccgggcgcgt ttgatccgac cattaaaaac 540

ctgcagtggg gtgatctgac caaaggcctg gctgaagcga tggatcgcgg cagcacctat 600

ccgtttctga ccgatggcga taccaacctg accgaaggcc caggctttaa cattgtgctg 660

gtgagaaacg gcattctgta taccccggat cgcggcgtgc tgcgcggcgg tacccgcaaa 720

agcgtgattg atgtggcgcg cgtgaacaac attgatattc gcctggaagt ggtgccggtg 780

gaacaagtgt atcagagcga tgaaattttt atgtgcagca ccggcggcgg cattatgccg 840

attaccctgc tggatggtca ggcggtgaac gatggccaag ttggcccgat taccaaaaaa 900

atttgggatg gctattggga aatgctttat gatccggcgt atagctttcc ggtggattat 960

ggcagcggc 969

<210> 17

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 17

gctgctggat gaaggcgtta tgcatggcga tct 33

<210> 18

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 18

agatcgccat gcataacgcc ttcatccagc agc 33

<210> 19

<211> 35

<212> DNA

<213> Artificial Sequence

<400> 19

ttatgcatgg cgatctggcc tatgatgtga ccacc 35

<210> 20

<211> 35

<212> DNA

<213> Artificial Sequence

<400> 20

ggtggtcaca tcataggcca gatcgccatg cataa 35

<210> 21

<211> 34

<212> DNA

<213> Artificial Sequence

<400> 21

tatgcatggc gatctgttct atgatgtgac cacc 34

<210> 22

<211> 34

<212> DNA

<213> Artificial Sequence

<400> 22

ggtggtcaca tcatagaaca gatcgccatg cata 34

<210> 23

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 23

atgcatggcg atctgggcta tgatgtgacc ac 32

<210> 24

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 24

gtggtcacat catagcccag atcgccatgc at 32

<210> 25

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 25

gcgtttgtgg aagtggctgt gacccgcggc ct 32

<210> 26

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 26

aggccgcggg tcacagccac ttccacaaac gc 32

<210> 27

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 27

cagtggggtg atctgagcaa aggcctgttt gaa 33

<210> 28

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 28

ttcaaacagg cctttgctca gatcacccca ctg 33

<210> 29

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 29

tatccgtttc tgaccgctgg cgataccaac ctg 33

<210> 30

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 30

caggttggta tcgccagcgg tcagaaacgg ata 33

<210> 31

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 31

acctatccgt ttctgaccag tggcgatacc aacctgac 38

<210> 32

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 32

gtcaggttgg tatcgccact ggtcagaaac ggataggt 38

<210> 33

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 33

aggctttatg catggcgatg cgacctatga tgtgacca 38

<210> 34

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 34

tggtcacatc ataggtcgca tcgccatgca taaagcct 38

<210> 35

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 35

aaggctttat gcatggcgat tatacctatg atgtgacc 38

<210> 36

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 36

ggtcacatca taggtataat cgccatgcat aaagcctt 38

<210> 37

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 37

ttcgcgatgc gtttgtgaga gtgattgtga cccgcg 36

<210> 38

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 38

cgcgggtcac aatcactctc acaaacgcat cgcgaa 36

<210> 39

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 39

gctggtgctg ccgtatattt tcgtgatggc gcc 33

<210> 40

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 40

ggcgccatca cgaaaatata cggcagcacc agc 33

<210> 41

<211> 29

<212> DNA

<213> Artificial Sequence

<400> 41

cctgcagtgg ggtgctctga ccaaaggcc 29

<210> 42

<211> 29

<212> DNA

<213> Artificial Sequence

<400> 42

ggcctttggt cagagcaccc cactgcagg 29

<210> 43

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 43

gcgtgctgcg cggcgctacc cgcaaaagcg 30

<210> 44

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 44

cgcttttgcg ggtagcgccg cgcagcacgc 30

<210> 45

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 45

gcgtgctgcg cggcggtacc cgcaaaagcg 30

<210> 46

<211> 30

<212> DNA

<213> Artificial Sequence

<400> 46

cgcttttgcg ggtaccgccg cgcagcacgc 30

<210> 47

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 47

gctggatgaa ggctttatgt ttggcgatct gacctatg 38

<210> 48

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 48

cataggtcag atcgccaaac ataaagcctt catccagc 38

<210> 49

<211> 35

<212> DNA

<213> Artificial Sequence

<400> 49

ggatgaaggc tttatgcttg gcgatctgac ctatg 35

<210> 50

<211> 35

<212> DNA

<213> Artificial Sequence

<400> 50

cataggtcag atcgccaagc ataaagcctt catcc 35

<210> 51

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 51

agcgcattct ggaaagctgc gatcatatgc gcctgaaa 38

<210> 52

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 52

tttcaggcgc atatgatcgc agctttccag aatgcgct 38

<210> 53

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 53

tttgatccga ccattaaaaa cgcgcagtgg ggtgatct 38

<210> 54

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 54

agatcacccc actgcgcgtt tttaatggtc ggatcaaa 38

<210> 55

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 55

atctgaccaa aggcctggct gaagcgatgg atcgcg 36

<210> 56

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 56

cgcgatccat cgcttcagcc aggcctttgg tcagat 36

<210> 57

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 57

atctgaccaa aggcctgggt gaagcgatgg atcgcg 36

<210> 58

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 58

cgcgatccat cgcttcaccc aggcctttgg tcagat 36

<210> 59

<211> 28

<212> DNA

<213> Artificial Sequence

<400> 59

cgtgctgcgc ggcattagcc gcaaaagc 28

<210> 60

<211> 28

<212> DNA

<213> Artificial Sequence

<400> 60

gcttttgcgg ctaatgccgc gcagcacg 28

<210> 61

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 61

gaaattttta tgtgcagcac cgcgggcggc att 33

<210> 62

<211> 33

<212> DNA

<213> Artificial Sequence

<400> 62

aatgccgccc gcggtgctgc acataaaaat ttc 33

<210> 63

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 63

tggatgaagg ctttatgctt ggcgatgcga cc 32

<210> 64

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 64

ggtcgcatcg ccaagcataa agccttcatc ca 32

<210> 65

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 65

atgcatggcg atgcgggcta tgatgtgacc ac 32

<210> 66

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 66

gtggtcacat catagcccgc atcgccatgc at 32

<210> 67

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 67

gcgtttgtga gagtggctgt gacccgcggc ct 32

<210> 68

<211> 32

<212> DNA

<213> Artificial Sequence

<400> 68

aggccgcggg tcacagccac tctcacaaac gc 32

<210> 69

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 69

<211> misc_feature

<212> (16) ..(18)

<213> n is a, c, g, or t

ctgaccggcg tgcgcnnnag caaaccggag gatctgta 38

<210> 70

<211> 16

<212> DNA

<213> Artificial Sequence

<400> 70

gcgcacgccg gtcagg 16

<210> 71

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 71

<211> misc_feature

<212> (16) ..(18)

<213> n is a, c, g, or t

aacctgaccg aaggcnnngg ctttaacatt gtgctggt 38

<210> 72

<211> 19

<212> DNA

<213> Artificial Sequence

<400> 72

gccttcggtc aggttggta 19

<210> 73

<211> 38

<212> DNA

<213> Artificial Sequence

<400> 73

<211> misc_feature

<212> (17) ..(19)

<213> n is a, c, g, or t

ttttatgtgc agcaccnnng gcggcattat gccgatta 38

<210> 74

<211> 21

<212> DNA

<213> Artificial Sequence

<400> 74

ggtgctgcac ataaaaattt c 21

<210> 75

<211> 20

<212> DNA

<213> Artificial Sequence

<400> 75

taatacgact cactataggg 20

<210> 76

<211> 20

<212> DNA

<213> Artificial Sequence

<400> 76

tgctagttat tgctcagcgg 20

<210> 77

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 77

ccaacctgac cgaaggcccc ggctttaaca ttgtgc 36

<210> 78

<211> 36

<212> DNA

<213> Artificial Sequence

<400> 78

gcacaatgtt aaagccgggg ccttcggtca ggttgg 36

<210> 79

<211> 27

<212> DNA

<213> Artificial Sequence

<400> 79

atgtgcagca ccgggggcgg cattatg 27

<210> 80

<211> 27

<212> DNA

<213> Artificial Sequence

<400> 80

cataatgccg cccccggtgc tgcacat 27

Claims

1.一种转氨酶突变体，其特征在于，氨基酸序列选自下组：

SEQ ID NO: 3，其为SEQ ID NO: 1所示氨基酸序列的L56A、E115R、W147F、I237G突变体；

SEQ ID NO: 5，其为SEQ ID NO: 3的H53L、K84H、I117A、F191A、T273S突变体；

SEQ ID NO: 7，其为SEQ ID NO: 5的G127F、S214P、A275G突变体；

SEQ ID NO: 9，其为SEQ ID NO: 7的K35N、S40R突变体；

SEQ ID NO: 11，其为SEQ ID NO: 9的D72H、K222R、H309L突变体；

SEQ ID NO: 13，其为SEQ ID NO: 11的Q76R、A248V突变体；

SEQ ID NO: 15，其为SEQ ID NO: 13的T123S、P288A突变体。

2.一种编码如权利要求1所述转氨酶突变体的基因。

3. 如权利要求2所述的基因，其特征在于，编码SEQ ID NO: 3的基因的核苷酸序列为SEQ ID NO: 4；编码SEQ ID NO: 5的基因的核苷酸序列为SEQ ID NO: 6；编码SEQ ID NO:7的基因的核苷酸序列为SEQ ID NO: 8；编码SEQ ID NO: 9的基因的核苷酸序列为SEQ IDNO: 10；编码SEQ ID NO: 11的基因的核苷酸序列为SEQ ID NO: 12；编码SEQ ID NO: 13的基因的核苷酸序列为SEQ ID NO: 14；编码SEQ ID NO: 15的基因的核苷酸序列为SEQ IDNO: 16。

4.一种用于表达如权利要求1所述转氨酶突变体的微生物。

5.如权利要求4所述的微生物，其特征在于，选自大肠杆菌、枯草芽孢杆菌、毕赤酵母、酿酒酵母。

6.如权利要求5所述的微生物，其特征在于，其为大肠杆菌BL21(DE3)。

7.如权利要求1所述转氨酶突变体或者如权利要求4所述微生物在生产西格列汀中的用途。

8.如权利要求7所述的用途，其特征在于，以(2Z)-4-氧代-4-[3-(三氟甲基)-5,6-二氢-[1,2,4]三唑并[4,3-a]吡嗪-7-(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮作为底物，使用所述转氨酶突变体或者所述微生物催化氨基转移反应，得到西格列汀。