CN102405281B

CN102405281B - 转氨酶生物催化剂

Info

Publication number: CN102405281B
Application number: CN201080017312.3A
Authority: CN
Inventors: 克里斯多佛·萨维尔; 艾米丽·穆德弗; 杰弗里·C·穆尔; 保罗·N·迪瓦恩; 雅各布·M·杰恩
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2009-02-26
Filing date: 2010-02-26
Publication date: 2015-05-13
Anticipated expiration: 2030-02-26
Also published as: US20120329108A1; US10160985B2; US20150329838A1; US8889380B2; JP2012519004A; US9944963B2; JP6034346B2; WO2010099501A2; US20150037869A1; JP2016178949A; US20210332399A1; EP2401366B1; ES2448816T3; US20100285541A1; WO2010099501A3; US20200199636A1; SG173815A1; JP6250747B2; US20190071702A1; JP2014230550A

Abstract

本公开内容涉及具有转氨酶活性的多肽、编码所述多肽的多核苷酸、和使用所述多肽的方法。

Description

转氨酶生物催化剂

1.相关申请的交叉参考

按照35U.S.C.§119(e)，本申请要求2009年2月26日提交的申请序列号61/155,902的权益，其内容通过引用并入本文。

2.技术领域

本公开内容涉及转氨酶生物催化剂和使用所述生物催化剂的方法。

3.对序列表、表格或计算机程序的引用

经由EFS-Web与说明书同时提交作为ASCII格式文本文件、文件名为376247-035.txt、创建日期为2010年2月26日、文件大小为367Kb的序列表的正式文本。经由EFS-Web提交的序列表是说明书的一部分，通过引用并入本文。

4.背景

消化肉类后，释放一组称为肠促胰岛素的激素，包括胰高血糖素样肽-1(GLP-1)和葡萄糖依赖性促胰岛素肽(GIP)。肠促胰岛素以葡萄糖依赖性方式刺激胰岛素释放和阻遏胰高血糖素释放，延迟胃排空，并增加饱足感。肠促胰岛素被二肽基肽酶-IV(DPP-4)快速降解。

西他列汀(Sitagliptin)是一类抑制DPP-4的抗高血糖药物之一。抑制DPP-4活性，从而延迟肠促胰岛素失活，表现为通过增加α细胞和β细胞对葡萄糖的响应而改进胰岛功能，导致改进的葡萄糖依赖性胰岛素分泌和减少的不适当的胰高血糖素分泌。由于其抗高血糖作用，西他列汀已在许多国家被批准用于治疗2型糖尿病。

产生西他列汀的现有制造方法的特征是将未保护的烯胺酰胺不对称地氢化(2008年12月23日出版的美国专利号7,468,459，其内容通过引用全文并入本文；Shultz等，2007，Acc.Chem.Res.40：1320-1326)。在50℃和250psi，利用甲醇中的Josiphos型铑配体催化剂提供作为游离碱的西他列汀，约97％e.e。对游离碱的结晶浓缩产生＞99.5％e.e和84％产率的西他列汀，随后与磷酸反应获得磷酸西他列汀一水合物，这是JANUVIA中的活性药物成分(“API”)，从烯胺酰胺底物的总产率是约79％。

期望对西他列汀制造方法的进一步改进。

5.概述

本公开内容提供多肽，编码所述多肽的多核苷酸，和在氨基供体存在下，利用所述多肽生物催化地转化4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮(“酮酰胺底物”)为(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺(“产物)的方法。具有西他列汀的USAN的产物是JANUVIA中的活性成分，JANUVIA已经在许多国家获得用于治疗2型糖尿病的销售许可。

尽管发明人测量到，天然产生的转氨酶并不显著地作用于酮酰胺底物，本公开内容的工程化转氨酶能够进行不费力地转化酮酰胺底物为产物。因此，一方面，本公开内容涉及改进的转氨酶，所述转氨酶在氨基供体存在时能够转化4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮(“酮酰胺底物”)为(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺(“产物”)到分析技术诸如HPLC-UV吸光度可测量的水平。

在一些实施方案中，本公开内容的改进的转氨酶能够以至少等于或大于SEQ ID NO：4多肽活性的活性进行转化酮酰胺底物为产物。在本文的实施方案中，改进的转氨酶能够形成至少90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％或更大对映体过量的产物。

在一些实施方案中，在指定的反应条件下，改进的转氨酶能够以SEQID NO：4多肽活性的至少1.5倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、30倍、40倍、50倍、75倍、100倍、150倍、200倍、300倍、400倍、500倍、1000倍、1500倍、2000倍或大于2000倍的活性进行转化酮酰胺底物为产物。在一些实施方案中，反应条件包括温度为45℃、pH为约8.5。

在一些实施方案中，在氨基供体存在时，改进的转氨酶多肽能够以比SEQ ID NO：2的转氨酶活性改进的活性转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，并包括与SEQ ID NO：4、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100或102的参考序列至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的氨基酸序列。

在一些实施方案中，改进的转氨酶多肽可包括在对应以下的残基位置包括与SEQ ID NO：2序列相比的一个或多个残基差异的氨基酸序列：X4；X5；X8；X18；X25；X26；X27；X28；X30；X41；X42；X48；X49；X50；X54；X55；X60；X61；X62；X65；X69；X81；X94；X96；X102；X117；X120；X122；X124；X126；X136；X137；X138；X146；X148；X150；X152；X155；X156；X160；X163；X164；X169；X174；X178；X195；X199；X204；X208；X209；X211；X215；X217；X223；X225；X230；X252；X269；X273；X282；X284；X292；X297；X302；X306；X321和X329。对可在指定的残基位置存在的各种氨基酸残基的选择的指导在以下的详细描述中提供。

在一些实施方案中，改进的转氨酶多肽包括包含以下特征至少之一的氨基酸序列：对应X69的残基是半胱氨酸(C)或非极性、极性或脂肪族残基；对应X122的残基是受限制的、非极性或脂肪族残基；对应X223的残基是受限制的残基；且对应X284的残基是非极性残基。

在一些实施方案中，改进的转氨酶多肽包括包含至少以下特征的氨基酸序列：对应X69的残基是C或非极性、极性或脂肪族残基，和/或对应X284的残基是非极性残基；对应X122的残基是受限制的、非极性或脂肪族残基；且对应X223的残基是受限制的残基。

在一些实施方案中，改进的转氨酶多肽包括包含至少以下特征的氨基酸序列：对应X69的残基是C或非极性、极性或脂肪族残基；对应X122的残基是受限制的、非极性或脂肪族残基；且对应X223的残基是受限制的残基。

在一些实施方案中，改进的转氨酶多肽包括包含至少以下特征的氨基酸序列：对应X122的残基是受限制的、非极性或脂肪族残基；对应X223的残基是受限制的残基；且X284是非极性残基。

在一些实施方案中，改进的转氨酶多肽包括包含至少以下特征的氨基酸序列：对应X69的残基是C或非极性、极性或脂肪族残基；对应X122的残基是受限制的、非极性或脂肪族残基；对应X223的残基是受限制的残基；且对应X284的残基是非极性残基。

在一些实施方案中，改进的转氨酶多肽包括的氨基酸序列除了包括本文对残基位置X69、X122、X223和X284的一个或多个描述的特征以外，还包括至少以下特征：X26是芳香族或受限制的残基，和/或X62是芳香族或极性残基；X65是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；且X209是脂肪族残基。

在一些实施方案中，改进的转氨酶多肽包括的氨基酸序列除了包括本文对残基位置X69、X122、X223和X284的一个或多个描述的特征以外，还包括至少以下特征：X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X94是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；且X282是极性残基。

在一些实施方案中，改进的转氨酶多肽包括的氨基酸序列除了包括本文对残基位置X69、X122、X223和X284的一个或多个描述的特征以外，还包括至少以下特征：X8是受限制的残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性或小的残基；X94是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X282是极性残基；X297是极性残基；且X321是受限制的残基。

在一些实施方案中，改进的转氨酶多肽包括的氨基酸序列除了包括本文对残基位置X69、X122、X223和X284的一个或多个描述的特征以外，还包括至少以下特征：X8是受限制的残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X124是极性或受限制的残基；X136是芳香族残基；X169是脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X273是芳香族残基；X282是极性残基；X297是极性残基；且X321是受限制的残基。

在一些实施方案中，改进的工程化转氨酶多肽包括对应SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列的氨基酸序列。

在另一方面，本公开内容提供编码改进的工程化转氨酶多肽的多核苷酸。在一些实施方案中，多核苷酸可以是具有用于表达转氨酶多肽的一种或多种控制序列的表达载体的部分。在一些实施方案中，多核苷酸可包括对应SEQ ID NO：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167的序列的序列。

在另一方面，本公开内容提供包含编码工程化转氨酶的多核苷酸或能够表达工程化转氨酶的表达载体的宿主细胞。在一些实施方案中，宿主细胞可以是细菌宿主细胞，诸如大肠杆菌(E.coli)。宿主细胞可用于表达和分离本文所述的工程化转氨酶，或可选地可直接用于转化酮酰胺底物为产物。

在一些实施方案中，以完整细胞、粗提取物、分离的多肽或纯化的多肽形式的工程化转氨酶可单独使用，或作为不同工程化转氨酶的组合使用。

在另一方面，本文所述的改进的工程化转氨酶多肽可用在氨基供体存在下，将某些氨基受体(如，酮受体)转氨基的方法中。在一些实施方案中，转氨酶可用在制备结构式(I)化合物的方法中：

所述结构式(I)化合物在标为*的立体中心(stereogenic center)具有所示的立体化学构型；所述结构式(I)化合物与相对的对映异构体相比为至少70％对映体过量，其中

Z是OR²或NR²R³；

R¹是C_1-8烃基(alkyl)、芳基、杂芳基、芳基-C_1-2烃基或杂芳基-C_1-2烃基；

R²和R³各自独立地是氢、C_1-8烃基、芳基或芳基-C_1-2烃基；或

R²和R³与它们连接的氮原子一起形成4-至7-元杂环系统，所述杂环系统任选地包含选自O、S、NH和NC_1-4烃基的另外的杂原子，所述杂环是未取代的，或被独立选自氧、羟基、卤素、C_1-4烃氧基和C_1-4烃基的一至三个取代基取代，其中所述烃基和烃氧基是未取代的，或被一至五个氟取代；且所述杂环系统任选地与5-至6-元饱和或芳香族碳环系统或包含选自O、S或NC_0-4烃基的一至二个杂原子的5-至6-元饱和或芳香族杂环系统稠合，所稠合的环系统是未取代的，或被选自羟基、氨基、氟、C_1-4烃基、C_1-4烃氧基和三氟甲基的一至二个取代基取代，其中所述方法包括在适于转化式(II)化合物为式(I)化合物的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(II)的前手性酮：

与以上公开的改进的工程化转氨酶多肽接触的步骤。

在一些实施方案中，本文所述的改进的工程化转氨酶多肽可用在制备结构式(1)化合物的方法中：

所述结构式(1)化合物在标为***的立体中心具有(R)-构型；所述结构式(1)化合物与具有相对的(S)-构型的对映异构体相比为至少70％对映体过量，其中

Ar是未取代的苯基，或被独立地选自由氟、三氟甲基和三氟甲氧基组成的组的一至五个取代基取代的苯基；且

R⁴是氢、或未取代的C_1-4烃基、或被一至五个氟取代的C_1-4烃基；

其中所述方法包括在适于转化式(2)化合物为式(1)化合物的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(2)的前手性酮：

与本文公开的改进的工程化转氨酶多肽接触的步骤。在该方法的一些实施方案中，式(2)的Ar是2，5-二氟苯基或2，4，5-三氟苯基，且R⁴是三氟甲基。在该方法的一些实施方案中，式(2)的Ar是2，4，5-三氟苯基。

在一些实施方案中，改进的工程化转氨酶多肽可用在制备对映体过量的式(1a)化合物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的方法中：

在这些实施方案中，所述方法包括在适于转化式(2a)化合物为式(1a)化合物的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(2a)的前手性酮4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮)：

与本文公开的改进的工程化转氨酶多肽接触的步骤。

在以上方法的一些实施方案中，式(I)化合物、式(1)化合物或式(1a)化合物以至少70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大对映体过量产生。在该方法的一些实施方案中，式(I)化合物、式(1)化合物或式(1a)化合物以至少99％对映体过量产生。

在其中氨基供体的选择产生具有高于水的蒸气压的羰基副产物(如，低沸点副产品(coproduct)，诸如挥发性有机羰基化合物)的以上方法的一些实施方案中，可以其中羰基副产物通过向反应溶液喷射非反应性气体(如，氮气)来去除或通过施加真空以降低反应压力并去除气相中存在的羰基副产物来去除来进行所述方法。

可用在以上方法中的改进的工程化转氨酶多肽可包括选自SEQ IDNO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在另一方面，本公开内容提供利用本文公开的工程化转氨酶制备(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的方法。在一些实施方案中，该方法包括在适于转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的反应条件下，在氨基供体存在下，将该酮酰胺底物与本文所述的工程化转氨酶多肽接触。

在一些实施方案中，该方法能够形成至少90％对映体过量的产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺。

在一些实施方案中，该方法能够形成至少99％对映体过量的产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺。

在一些实施方案中，用于转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的方法包括在pH 8.5和45℃的反应条件下，在1M异丙胺存在下，将约50g/L的酮酰胺底物与约5g/L本文所述的转氨酶接触，其中24小时中至少90％的酮酰胺底物转化为产物。在一些实施方案中，能够进行前述反应的转氨酶多肽包括对应SEQ ID NO：80、86、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

6.详述

本公开内容提供能够介导涉及某些氨基受体的转氨基的转化，如西他列汀的合成的高度立体选择性和高效的生物催化剂。该生物催化剂是工程化转氨酶多肽，在式(3)的氨基供体存在下可如下转化式(2a)底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮(“酮酰胺底物”)为式(1a)产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺(“产物)：

在某些实施方案中，工程化转氨酶源自于节杆菌属(Arthrobacter sp)KNK168的天然产生的转氨酶，该酶是R-选择性吡哆醛5’-磷酸依赖性酶，可催化氨基供体与氨基受体(通常是前手性酮)之间氨基的可逆传递(参见如，Iwasaki等，2006，Appl.Microbiol.Biotechnol.69：499-505；和美国专利7,169,592，其每一个通过引用并入本文)。来自节杆菌属KNK168的天然产生的转氨酶的R-立体选择性转氨基活性已对3，4-二甲氧基苯基丙酮证实，但天然产生的酶与SEQ ID NO：2的转氨酶对酮酰胺底物(2a)即4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮不展示可测量的活性。SEQ ID NO：2的转氨酶与来自节杆菌属KNK168的天然产生的酶的区别在于，具有残基位置X306的异亮氨酸(I)被缬氨酸(V)取代。为了克服这些缺点，已将SEQ ID NO：2的转氨酶工程化以在氨基供体诸如异丙胺存在时介导式(2a)酮酰胺底物高效转化为式(1a)产物。转化可在温和条件下进行，具有高的转化％和立体选择性，使得该方法可适用于大体积地产生西他列汀。

6.1缩写和定义

为了本文描述的目的，用于遗传编码的氨基酸的缩写是常规的，如下：

使用三字母缩写时，除非前面具体地加有“L”或“D”，或从使用缩写的上下文明显，否则氨基酸可为关于α-碳(Cα)的L-或D-构型。例如，尽管“Ala”表示丙氨酸而没有指明关于α-碳的构型，“D-Ala”或“L-Ala”分别表示D-丙氨酸或L-丙氨酸。使用单字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸，“a”表示D-丙氨酸。当肽序列展示为一串单字母或三字母缩写(或其混合物)时，按照常规，序列以N→C方向展示。

除非另外具体指明，否则本文的说明书中使用的技术术语和科学术语具有本领域普通技术人员通常理解的含义。因此，以下术语意为具有以下含义。

“氨基转移酶”和“转氨酶”在本文可互换使用，是指具有将氨基(NH₂)和氢原子从伯胺(3)转移到受体羰基化合物(2)，转化胺供体为其相应羰基化合物(4)并转化受体为其相应伯胺(1)的酶促能力的多肽：

在本文的实施方案中，在式(3)的氨基供体存在时，转氨酶多肽能够对映体选择性地转化式(2a)化合物为式(1a)化合物。

“蛋白”、“多肽”和“肽”在本文可互换使用，表示被酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(如，糖基化、磷酸化、脂质化、豆蔻酰化(myristilation)、泛素化等等)。这一定义中包括D-氨基酸和L-氨基酸，以及D-氨基酸与L-氨基酸的混合物。

本文所用的“底物”是指在转氨酶介导的反应中接受来自氨基供体的氨基的氨基受体，诸如酮。在本公开内容的上下文中，转氨酶的底物，除了其他以外，包括如本文进一步描述的式(II)化合物、式(2)化合物或式(2a)化合物。“酮酰胺底物”具体是指式(2a)化合物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮。

“氨基供体”是指能够向受体羰基化合物(即氨基受体)供应氨基，从而变成羰基副产物的氨基化合物。氨基供体是通式(3)的分子，

其中R¹、R²的每一个独立地使用时是烃基、烃芳基或芳基，其是未取代的，或被一个或多个非酶促抑制性基团取代。R¹的结构或手性可与R²相同或不同。基团R¹和R²可一起形成环，该环是未取代的、取代的，或与其他环稠合。可用于本发明的典型氨基供体包括手性和非手性氨基酸、以及手性和非手性胺。

“手性胺”是指通式R¹-CH(NH₂)-R²的胺，其中R¹和R²不相同，在本文采用其最宽泛的含义，包括不同和混合功能类型的宽范围的脂肪族或脂环族化合物，特征是存在结合仲碳原子的伯氨基，仲碳原子除了带有氢原子以外，还带有(i)形成手性环结构的二价基团、或(ii)结构或手性方面彼此不同的两个取代基(氢以外)。形成手性环结构的二价基团包括，例如，2-甲基丁烷-1，4-二基、戊烷-1，4-二基、己烷-1，4-二基、己烷-1，5-二基、2-甲基戊烷-1，5-二基。仲碳原子(以上R¹和R²)上的两个不同取代基还可非常广泛地变化，并包括烃基、芳烃基、芳基、卤素、羟基、低级烃基、低级烃氧基、低级烃基硫、环烃基、羧基、烃氧羰基、氨基甲酰基、单-和二-(低级烃基)取代的氨基甲酰基、三氟甲基、苯基、硝基、氨基、单-和二-(低级烃基)取代的氨基、烃基磺酰基、芳基磺酰基、烃基甲酰胺基、芳基甲酰胺基等等，以及被以上取代的烃基、芳烃基或芳基。

“羰基副产物”是指转氨基反应中，氨基供体上的氨基转移到氨基受体时从氨基供体形成的羰基化合物。羰基副产物具有式(4)的通用结构：

其中R¹和R²如以上对氨基供体定义的。

“吡哆醛磷酸”、“PLP”、“吡哆醛5’-磷酸”、“PYP”和“P5P”在本文可互换使用，是指在转氨酶反应中用作辅酶的化合物。在一些实施方案中，吡哆醛磷酸由结构1-(4′-甲酰基-3′-羟基-2′-甲基-5′-吡啶基)甲氧基膦酸定义，CAS编号是[54-47-7]。吡哆醛5’-磷酸在体内由吡哆醇(也称为吡多辛或维生素B6)的磷酸化和氧化产生。在利用转氨酶的转氨基反应中，氨基供体的氨基转移到辅酶以产生酮副产物，而吡哆醛5’-磷酸转化为磷酸吡哆胺。吡哆醛5’-磷酸通过与不同酮化合物(氨基受体)反应而再生。氨基从磷酸吡哆胺向氨基受体的转移产生手性胺，并再生辅酶。本发明的吡哆醛5’-磷酸可被维生素B₆家族的其他成员代替，所述家族除了其他以外，包括吡哆醛(PL)、吡哆胺(PM)、和其磷酸化对应物；磷酸吡多辛(PNP)和磷酸吡哆胺(PMP)。

“编码序列”是指编码蛋白质的氨基酸序列的核酸部分(例如基因)。

“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中的序列，能够从自然界来源中分离并且没有被人为操作有意修饰。

“重组”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会另外存在的方式被改变，或与其相同但是从合成材料和/或通过使用重组技术操作而产生或衍生。非限制性实例包括但不限于表达在细胞的固有(非重组)形式中未发现的基因或表达另外以不同水平表达的固有基因的重组细胞。

“序列同一性百分比”、“同一性百分比”和“相同百分比”在本文是指多核苷酸序列或多肽序列之间的比较，并且通过跨比较窗口比较两条最佳比对的序列来确定，其中在所述比较窗口中的多核苷酸或多肽序列的部分可以包括相比于参考序列的添加或缺失(即空位)，以用于这两条序列的最优比对。该百分比可通过以下方式计算：确定相同的核酸碱基或氨基酸残基在两条序列中都存在的位置的数目或者核酸碱基或氨基酸残基与空位对齐的位置的数目以得出匹配的位置的数目，用匹配的位置的数目除以比较窗口中的位置的总数目，并且将结果乘以100得出序列同一性百分比。最佳比对和序列同一性百分比的确定利用BLAST和BLAST 2.0算法(参见如，Altschul等人，1990，J.Mol.Biol.215：403-410和Altschul等人，1977，Nucleic Acids Res.3389-3402)进行。用于执行BLAST分析的软件是通过美国国家生物技术信息中心网站公开可用的。

简要地说，BLAST分析包括首先通过识别问询序列中具有长度W的短字来识别高得分序列对(HSP)，所述短字当与数据库序列中的相同长度的字对齐时匹配或满足某个正值阈值得分T。T被称为相邻字得分阈值(neighborhood word score threshold)(Altschul等人，上述)。这些最初的相邻字匹配(word hit)充当用于启动搜索的种子以寻找包含它们的更长的HSP。然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。对于核苷酸序列，使用参数M(对一对匹配残基的奖励得分；总是＞0)和N(对错配残基的处罚得分；总是＜0)计算累计得分。对于氨基酸序列，使用得分矩阵来计算累计得分。当发生以下情况时字匹配在每个方向上的延伸停止：累计比对得分从其所达到的最大值下降了量X；由于一个或更多个负得分残基比对的累积，累计得分趋于零或零以下；或者到达每条序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列而言)使用字长(W)11、期望(E)10、M＝5、N＝-4以及两条链的比较作为缺省值。对于氨基酸序列，BLASTP程序使用字长(W)3、期望(E)10以及BLOSUM62得分矩阵作为缺省值(参见Henikoff和Henikoff，1989，Proc Natl Acad Sci USA 89：10915)。

可获得与BLAST相似地作用的许多其他算法来提供两条序列的同一性百分比。用于比较的序列的最佳比对可如下进行：例如，通过Smith和Waterman，1981，Adv.Appl.Math.2：482的局部同源性算法，通过Needleman和Wunsch，1970，J.Mol.Biol.48：443的同源性比对算法，通过Pearson和Lipman，1988，Proc.Natl.Acad.Sci.USA 85：2444的相似性搜索方法，通过这些算法的计算机实现(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA或TFASTA)或通过直观检查(一般参见，CurrentProtocols in Molecular Biology(分子生物学最新实验方案)，F.M.Ausubel等编著，Current Protocols，Greene Publishing Associates Inc.和John Wiley &Sons，Inc.之间的合资企业，(1995年增刊)(Ausubel))。另外，序列比对和序列同一性百分比的确定可以利用GCG Wisconsin软件包(Accelrys，Madison WI)中的BESTFIT或GAP程序，使用提供的缺省参数。

“参考序列”是指与其比较另一(如改变的)序列的确定序列。参考序列可以是较大序列的子部分(subset)，例如，全长基因或多肽序列的区段。一般而言，参考序列长度为至少20个核苷酸或氨基酸残基，长度至少25个残基，长度至少50个残基，或者核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包含在这两条序列之间相似的序列(即完整序列的一部分)，以及(2)还可以包含在这两条序列之间相异的序列，所以在两种(或更多种)多核苷酸或多肽之间的序列比较通常是通过跨比较窗口比较这两种多核苷酸的序列而进行的，以识别和比较局部区域的序列相似性。

术语“参考序列”不意为限于野生型序列，且可包括工程化或改变的序列。例如，在一些实施方案中，“参考序列”可以是之前工程化或改变的氨基酸序列。例如，“基于SEQ ID NO：2、在位置X284具有甘氨酸残基的参考序列”是指对应SEQ ID NO：2、在X284具有甘氨酸残基的参考序列(SEQID NO：2的未改变形式在X284具有丙氨酸)。

“比较窗口”是指至少约20个连续核苷酸位置或氨基酸残基的概念性区段，其中可以将序列与至少20个连续核苷酸或氨基酸的参考序列进行比较，并且其中在比较窗口中的序列的部分可以包括与参考序列(它不包括添加或缺失)相比20％或更少的添加或缺失(即空位)，以用于这两条序列的最优比对。比较窗口可以比20个连续残基长，并且任选地包括30、40、50、100或更长的窗口。

“基本同一性(substantial identity)”是指具有与参考序列跨至少20个残基位置的比较窗口、通常至少30-50个残基的窗口相比至少80％序列同一性、至少85％序列同一性、至少89％序列同一性、至少95％序列同一性、甚至至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性百分比是通过跨比较窗口比较参考序列与包括参考序列的总计20％或更少的缺失或添加的序列而计算的。在应用于多肽的特定实施方案中，术语“基本同一性”表示两条多肽序列当通过诸如程序GAP或BESTFIT使用缺省空位权重进行最优比对时共有至少80％的序列同一性，优选至少89％序列同一性，至少95％序列同一性或更大(例如，99％序列同一性)。优选地，不相同的残基位置差别在于保守的氨基酸取代。

“对应于”、“关于”或“相对于”当用在给定氨基酸或多核苷酸序列的编号上下文中时，是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基编号。换言之，给定聚合物的残基号码或残基位置是根据参考序列指定的，而不是给定氨基酸或多核苷酸序列内的残基的实际数字位置指定的。例如，可以将给定的氨基酸序列诸如工程化转氨酶的氨基酸序列与参考序列进行比对，这是通过引入空位以优化这两条序列之间的残基匹配而实现的。在这些情况下，尽管存在空位，对给定氨基酸或多核苷酸序列中的残基进行编号是根据与其进行比对的参考序列做出的。

“立体选择性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种，或者立体选择性可以是完全的，其中只形成一种立体异构体。当立体异构体是对映体时，立体选择性被称为对映体选择性，即一种对映体在两种对映体之和中的分数(通常被报告为百分比)。它在本领域中通常可选地被报告为(通常为百分比)根据式[主要对映体-次要对映体]/[主要对映体+次要对映体]从其计算出的对映体过量(e.e)。当立体异构体是非对映体时，立体选择性被称为非对映体选择性，即一种非对映体在两种非对映体的混合物之中的分数(通常被报告为百分比)，通常被可选地报告为非对映体过量(d.e)。对映体过量和非对映体过量是立体异构体过量的类型。

“高立体选择性”是指能够将底物(如式(2a))转化为其对应的具有至少约85％立体异构体过量的产物(如式(1a))的化学或酶促反应。

“改进的酶特性”是指与参考酶表现的特性相比，为了特定目的使得更好或更期望的任何酶特性。对于本文所述的工程化转氨酶多肽而言，这种比较一般是对野生型转氨酶作出的，但是在一些实施方案中，参考转氨酶可以是另一种改进的工程化转氨酶。可进行改进的酶特性包括但不限于酶活性(它可以按照在一段时间内底物转化百分比来表示)、热稳定性、溶剂稳定性、pH活性概况、辅酶需求、对抑制剂(例如，产物抑制)的不应性、立体特异性和立体选择性(包括对映体选择性)。

“提高的酶活性”或“提高的活性”是指与参考酶相比，可以由比活性(例如，产生的产物/时间/重量蛋白)的提高或者由底物转化为产物的百分比(例如，使用指定量的转氨酶在指定时间段内将起始量的底物转化为产物的百分比)的提高表示的工程化酶的改进特性。确定酶活性的示例性方法被提供在实施例中。可以影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的改变能够导致提高的酶活性。酶活性的改进可以是从对应的野生型或工程化酶的约1.5倍酶活性，到相比于天然存在的酶(如转氨酶)或从中获取展现提高的活性的酶的另一种工程化酶的多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更大的酶活性。在具体的实施方案中，本公开内容的工程化转氨酶展现出在比母体转氨酶(即，其源自于的野生型或工程化转氨酶)的酶活性大1.5倍到50倍、1.5倍到100倍或更大的范围内的改进的酶活性。本领域技术人员理解，任何酶的活性都受扩散限制以致催化转换率不能超过包括任何所需的辅酶在内的底物的扩散速率。扩散限制的理论最大值一般是约10⁸到10⁹(M^-1s^-1)。因此，转氨酶的酶活性上的任何改进将具有与转氨酶所作用的底物的扩散速率相关的上限。转氨酶活性可以通过用于测量转氨酶的标准测定中的任何一种来测量，例如底物或产物浓度的变化，或者氨基供体浓度的变化。使用本文进一步详述的限定的酶制品、在设置条件下的确定的测定以及一种或多种确定的底物，进行酶活性的比较。一般而言，在比较细胞溶胞产物中的酶时，确定所测定的细胞数目和蛋白的量，并使用相同的表达系统和相同的宿主细胞以使得由该宿主细胞所产生并存在于溶胞产物中的酶量的改变最小化。

“转化”是指底物被酶促转化为对应的产物。“转化百分比”是指在指定条件下在一段时间内被转化为产物的底物的百分比。因此，例如，转氨酶多肽的“酶活性”或“活性”可以表示为底物到产物的“转化百分比”。

“热稳定的”或“热稳定”可互换使用，是指与未处理的酶相比，在暴露于一组温度条件(例如40-80℃)一段时间(例如0.5-24小时)时耐受失活，从而在暴露于高温后保持某一水平残留活性(例如多于60％到80％)的多肽。

“溶剂稳定的”是指与未处理的酶相比，在暴露于不同浓度(例如，5-99％)的溶剂(如，异丙醇、二甲基亚砜、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚、乙腈等等)一段时间(例如0.5-24小时)后保持相似活性(多于例如60％到80％)的多肽。

“pH稳定的”是指与未处理的酶相比，在暴露于低pH或高pH(例如4.5-6或8-12)一段时间(例如0.5-24小时)后保持相似活性(例如多于60％到80％)的多肽。

“热稳定且溶剂稳定的”是指既热稳定又溶剂稳定的多肽。

在工程化酶的上下文中，本文所用的“源自于”标明了该工程化以之为基础的起源的酶和/或编码这种酶的基因。例如，通过突变SEQ ID NO：2的转氨酶，获得了SEQ ID NO：4的工程化转氨酶。因此，这种SEQ ID NO：4的工程化转氨酶“源自于”SEQ ID NO：2的多肽。

在本文公开的多肽上下文中使用的“氨基酸”或“残基”是指在序列位置的具体单体(如，P8表示SEQ ID NO：2位置8的“氨基酸”或“残基”是脯氨酸)。

“亲水性氨基酸或残基”是指根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的标准化统一疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。遗传编码的亲水性氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

“酸性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出小于约6的pK值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理pH下通常具有带负电的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

“碱性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出大于约6的pKa值的侧链的亲水性氨基酸或残基。碱性氨基酸由于与水合氢离子缔合在生理pH下通常具有带正电的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

“极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷但具有如下至少一个键的亲水性氨基酸或残基：在所述至少一个键中由两个原子共有的电子对被这两个原子之一更紧密地持有。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

“疏水性氨基酸或残基”是指根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的标准化统一疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。遗传编码的疏水性氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

“芳香族氨基酸或残基”是指具有包括至少一个芳环或杂芳环的侧链的亲水性或疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管L-His(H)由于其杂芳香族氮原子的pKa有时被分类为碱性残基，或者因为其侧链包括杂芳环而被分类为芳香族残基，但本文的组氨酸被分类为亲水性残基或“受限制的残基(受限制的残基)”(见下面)。

“受限制的氨基酸或残基”是指具有受限制的几何形状的氨基酸或残基。本文中，受限制的残基包括L-Pro(P)和L-His(H)。组氨酸具有受限制的几何形状，因为它具有相对小的咪唑环。脯氨酸具有受限制的几何形状，因为它也具有五元环。

“非极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷并且具有如下键的疏水性氨基酸或残基：在所述键中由两个原子共有的电子对一般被这两个原子中每一个同等持有(即侧链是没有极性的)。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

“脂肪族氨基酸或残基”是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的脂肪族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。

“半胱氨酸”或L-Cys(C)是独特的，因为它能够与其他L-Cys(C)氨基酸或其他包含硫烃基或硫氢基的氨基酸形成二硫键桥。“半胱氨酸样残基”包括半胱氨酸和其他包含可用于形成二硫键桥的硫氢基部分的氨基酸。L-Cys(C)(和其他具有包含-SH的侧链的氨基酸)以游离-SH还原形式或氧化的二硫键桥形式存在于肽中的能力影响L-Cys(C)赋予肽净疏水性还是净亲水性。尽管根据Eisenberg的标准化统一量表(Eisenberg等人，1984，上述)L-Cys(C)展现出0.29的疏水性，但应理解出于本公开内容的目的将L-Cys(C)归为它自己一组。

“小氨基酸或残基”是指具有由总计三个或更少的碳和/或杂原子(不包括α-碳和氢)组成的侧链的氨基酸或残基。根据以上定义可以将小氨基酸或残基进一步归类为脂肪族、非极性、极性或酸性的小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

“包含羟基的氨基酸或残基”是指包含羟基(-OH)部分的氨基酸。遗传编码的包含羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

“氨基酸差异”或“残基差异”是指与参考序列相比，在多肽序列指定位置的残基改变。例如，参考序列在位置X8具有丝氨酸时，位置X8的残基差异是指在位置X8的残基改变为丝氨酸以外的任何残基。如本文公开的，酶可包括相对参考序列的一个或多个残基差异，其中多个残基差异通常由相对参考序列进行改变的指定位置的列表表示(如，“与SEQ ID NO：2相比在以下残基位置的一个或多个残基差异：X4；X8；X26；X48；X60；X61；X62；X65；X81；X94；X96；X102；X124；X136；X137；X150；X152；X160；X163；X169；X174；X178；X195；X199；X208；X209；X211；X215；X217；X225；X230；X252；X269；X273；X282；X292；X297；X306；X321和X329”)。

“保守的”氨基酸取代或突变是指具有相似侧链的残基的可互换性，并因此通常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。然而，如本文所用，在一些实施方案中，如果保守的突变可以是从脂肪族残基到脂肪族残基、非极性残基到非极性残基、极性残基到极性残基、酸性残基到酸性残基、碱性残基到碱性残基、芳香族残基到芳香族残基、或受限制的残基到受限制的残基的取代，保守的突变不包括从亲水性残基到亲水性残基、疏水性残基到疏水性残基、包含羟基的残基到包含羟基的残基、或小残基到小残基的取代，。此外，如本文所用，A、V、L或I可以被保守突变为另一种脂肪族残基或另一种非极性残基。下表显示了示例性保守取代。

表1

“非保守取代”是指用具有显著差别的侧链特性的氨基酸取代或突变多肽中的氨基酸。非保守取代可以利用以上列出的限定组之间而不是它们之内的氨基酸。在一个实施方案中，非保守突变影响：(a)取代区域(例如，脯氨酸取代甘氨酸)中的肽骨架的结构，(b)电荷或疏水性，或(c)侧链体积。

“缺失”是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或者20个或更多个氨基酸、高达氨基酸总数的10％、高达氨基酸总数的20％、或高达组成多肽的氨基酸总数的30％，同时保留酶活性和/或保留工程化转氨酶的改进特性。缺失可以针对多肽的内部和/或端部。在多个实施方案中，缺失可以包括连续的区段或者可以是不连续的。

“插入”是指通过向参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一些实施方案中，改进的工程化转氨酶包括一个或更多个氨基酸插入天然存在的转氨酶多肽，以及一个或更多个氨基酸插入其他改进的转氨酶多肽。插入可以在多肽的内部或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基酸的连续区段，或者在天然存在的多肽中被一个或更多个氨基酸分隔。

如本文所用的“片段”是指如下多肽：所述多肽具有氨基端和/或羧基端缺失，但其中剩余的氨基酸序列与该序列中的对应位置相同。片段可以为至少14个氨基酸长、至少20个氨基酸长，至少50个氨基酸长或更长，以及高达全长转氨酶多肽、例如SEQ ID NO：4多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上自其天然伴随的其他污染物例如蛋白、脂质和多核苷酸中分离。该术语包括已自其天然存在环境或表达系统(例如，宿主细胞或体外合成)中移出或纯化的多肽。改进的转氨酶可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如溶胞产物或分离的制备物。像这样，在一些实施方案中，改进的转氨酶可以是分离的多肽。

“基本上纯的多肽”是指如下组合物：在所述组合物中多肽物类是存在的优势物类(即，在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富)，并且当目标物类构成存在的大分子物类的按摩尔或重量％计至少约50％时一般是基本上纯化的组合物。一般而言，基本上纯的转氨酶组合物将构成该组合物中存在的所有大分子物类的按摩尔或重量％计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物类纯化至基本的均一性(即，通过常规检测方法不能在组合物中检测出污染物类)，其中组合物基本上由单一大分子物类组成。溶剂物类、小分子(＜500道尔顿)、以及元素离子物类不被认为是大分子物类。在一些实施方案中，分离的改进转氨酶多肽是基本上纯的多肽组合物。

如本文所用的“严格杂交”是指如下条件：在所述条件下核酸杂交体是稳定的。如本领域技术人员已知的，杂交体的稳定性反映在杂交体的解链温度(T_m)上。一般而言，杂交体的稳定性随离子强度、温度、G/C含量和离液剂的存在而变化。多核苷酸的T_m值可以使用预测解链温度的已知方法计算(参见例如，Baldino等人，Methods Enzymology 168：761-777；Bolton等人，1962，Proc.Natl.Acad.Sci.USA 48：1390；Bresslauer等人，1986，Proc.Natl.Acad.Sci USA 83：8893-8897；Freier等人，1986，Proc.Natl.Acad.SciUSA 83：9373-9377；Kierzek等人，Biochemistry 25：7840-7846；Rychlik等人，1990，Nucleic Acids Res 18：6409-6412(勘误，1991，Nucleic Acids Res19：698)；Sambrook等人，上述)；Suggs等人，1981，在DevelopmentalBiology Using Purified Genes(使用纯化基因的发育生物学)(Brown等人，编)，第683-693页，Academic Press中；以及Wetmur，1991，Crit RevBiochem Mol Biol 26：227-259。所有的出版物均通过引用并入本文)。在一些实施方案中，多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格条件下与编码本公开内容的工程化转氨酶的序列的互补序列杂交。

“杂交严格度”涉及核酸杂交中的杂交条件，如洗涤条件。一般而言，在较低严格度条件下进行杂交反应，接着是具有不同但更高的严格度的洗涤。术语“中度严格杂交”是指允许靶DNA结合互补核酸的条件，所述互补核酸与该靶DNA具有约60％同一性、优选约75％同一性、约85％同一性；与靶多核苷酸具有大于约90％同一性。示例性中度严格条件是等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中杂交，接着在42℃于0.2×SSPE、0.2％SDS中洗涤的条件。“高严格度杂交”一般是指如下条件：与在用于限定的多核苷酸序列的溶液条件之下确定的热解链温度T_m相差约10℃或更小。在一些实施方案中，高严格度条件是指允许仅那些在65℃于0.018M NaCl中形成稳定杂交体的核酸序列杂交的条件(即，如果杂交体在65℃于0.018M NaCl中不稳定，它在本文考虑的高严格度条件下将是不稳定的)。可以例如通过在等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS的条件中杂交，接着在65℃于0.1×SSPE和0.1％SDS中洗涤，而提供高严格度条件。另一种高严格度条件是在与以下等价的条件中杂交：在65℃于含0.1％(w∶v)SDS的5×SSC中杂交，在65℃于含0.1％SDS的0.1×SSC中洗涤。其他高严格度杂交条件以及中度严格条件描述于以上引用的参考文献中。

“异源”多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中移出、经历实验室操作、然后再引入宿主细胞中的多核苷酸。

“密码子优化的”是指编码蛋白质的多核苷酸的密码子变为特定生物体中优先使用的那些密码子，以致所编码的蛋白被有效表达在感兴趣的生物体中。尽管遗传密码由于大多数氨基酸被称作“同义密码子”或“同义”密码子的几个密码子代表而为简并的，但众所周知具体生物体的密码子使用是非随机的且偏向特定的密码子三联体。就给定基因、具有共同功能或祖先起源的基因、高表达蛋白相对于低拷贝数蛋白以及生物体基因组的聚集蛋白编码区而言，这种密码子使用偏向可能更高。在一些实施方案中，可以对编码转氨酶的多核苷酸进行密码子优化，以用于从为表达所选的宿主生物体中优化生产。

“优选的密码子、优化的密码子、高密码子使用偏向的密码子”可互换地指在蛋白编码区中以高于编码同一氨基酸的其他密码子的频率被使用的密码子。优选的密码子可以根据在单基因、一组具有共同功能或起源的基因、高表达基因中的密码子使用，在整个生物体的聚集蛋白编码区中的密码子频率，在相关生物体中的聚集蛋白编码区中的密码子频率或它们的组合来确定。频率随基因表达水平而提高的密码子通常是用于表达的优化密码子。多种方法已知用于确定具体生物体中的密码子频率(例如，密码子使用，相对同义的密码子使用)和密码子偏好，包括多变量分析，例如使用聚类分析或对应分析，以及用于确定基因中使用的密码子的有效数目(参见GCG CodonPreference，遗传学计算机工作组Wisconsin软件包(Genetics Computer Group Wisconsin Package)；CodonW，John Peden，诺丁汉大学；McInerney，J.O，1998，Bioinformatics 14：372-73；Stenico等人，1994，Nucleic Acids Res.222437-46；Wright，F.，1990，Gene 87：23-29)。密码子使用表格可用于不断增加的生物名单(参见例如，Wada等人，1992，Nucleic Acids Res.20：2111-2118；Nakamura等人，2000，Nucl.Acids Res.28：292；Duret等人，上述；Henaut和Danchin，“Escherichia coli andSalmonella(大肠杆菌和沙门氏菌)，”1996，Neidhardt等人编，ASM Press，Washington D.C.，第2047-2066页)。用于获得密码子使用的数据资源可依赖于能够编码蛋白的任何可用的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序列(例如，完整的蛋白编码序列-CDS)、表达序列标签(EST)、或基因组序列的预测编码区(参见，例如Mount，D.，Bioinformatics：Sequence and Genome Analysis(生物信息学：序列和基因组分析)，第8章，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.，2001；Uberbacher，E.C.，1996，Methods Enzymol.266：259-281；Tiwari等人，1997，Comput.Appl.Biosci.13：263-270)。

本文定义“控制序列”包括对本公开内容的多核苷酸和/或多肽的表达必要或有利的所有组分。每个控制序列可能对目标多核苷酸是天然的或外来的。这些控制序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。

“可操作地连接”在本文定义为如下一种构型：在所述构型中控制序列相对于目标多核苷酸的位置被适当安放(即，以功能关系)，以使得控制序列指导或调整目标多核苷酸和/或多肽的表达。

“启动子序列”是由宿主细胞识别用于表达目标多核苷酸如编码序列的核酸序列。控制序列可以包括适当的启动子序列。启动子序列包含介导目标多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变的、截短的和杂合的启动子，并且可以从编码细胞外多肽或细胞内多肽的、与该宿主细胞同源或异源的基因中获得。

6.2实施方案的详述

在本文的实施方案中，与SEQ ID NO：2的转氨酶相比，工程化转氨酶立体选择性地转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的能力得到改进。转氨酶，包括本文所述的转氨酶，通常包含参与转氨基反应的辅酶吡哆醛磷酸(PLP)。PLP可由在其中合成多肽的宿主细胞提供，或通过向多肽溶液加入PLP来提供。尽管转氨酶是关于氨基酸序列描述的，本领域技术人员将理解，活性多肽包含PLP或适当的类似物作为辅酶。

在一些实施方案中，酶活性的改进是相对于另一种工程化转氨酶，诸如SEQ ID NO：4多肽。对酮酰胺底物改进的活性可由在指定条件下，工程化酶相对于参考酶(如，野生型)转化底物为产物(如，转化百分比)的量增加表示。改进的活性可包括在指定条件下，在指定时间中，产物形成率增加，导致酮酰胺底物向产物的转化增加。活性的增加(如，转化百分比和/或转化率增加)还可以更低量的酶转化底物为相同量产物来表征。产物的量可由多种技术来评估，例如，分离反应混合物(如，通过色谱)并通过UV吸光度或串联质谱(MS/MS)检测分离的产物(参见如，实施例4)。UV检测产物的示例方法使用入射波长为210nm，光程长为1.0cm，这对西他列汀的检测限值是约5μg/mL。UV检测产物通常在通过色谱分离反应混合物之后，所述色谱尤其是反相色谱分析介质中的HPLC，例如Agilent Eclipse XDB-C8柱(4.6×150mm，5μm)，利用的洗脱液是45∶5510mM NH₄Ac/MeCN，流速是1.5ml/min，柱温度40℃。在一些实施方案中，UV检测利用268nm的入射波长，其具有与在210nm的检测限值相似的检测限值。

在一些实施方案中，在诸如实施例6或7中提供的指定反应条件下，酶活性的改进等于或大于SEQ ID NO：4多肽的活性。用于比较SEQ IDNO：2或SEQ ID NO：4活性的示例指定反应条件是：约2g/L酮酰胺底物、约0.5M异丙胺、约22℃、约pH 7.5、约5％DMSO、约100μM PLP和约20mg/mL转氨酶多肽，如以下在对表2所列的转氨酶的反应条件的描述中提供的。用于比较某些工程化转氨酶的指定的反应条件还提供在对表2所列的转氨酶的描述，和实施例7至11的相应描述中。在一些实施方案中，在指定的反应条件下，工程化转氨酶具有SEQ ID NO：4多肽活性的至少1.5倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、30倍、40倍、50倍、75倍、100倍、150倍、200倍、300倍、400倍、500倍、1000倍、1500倍、2000倍或大于2000倍。考虑到SEQ ID NO：2的转氨酶不显著作用于酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮，在转化酮酰胺底物为相应产物方面活性等于或大于SEQ ID NO：4的工程化转氨酶比SEQ ID NO：2代表的酶改进了。

在一些实施方案中，改进的酶促活性还伴随着酶特性的其他改进。在一些实施方案中，酶特性的改进是关于热稳定性，诸如在45℃或更高温度的热稳定性。

在一些实施方案中，改进的酶促活性还伴随着溶剂稳定性的改进，诸如在约25％至约40％或约25％至约50％二甲基亚砜(DMSO)中。在一些实施方案中，改进的转氨酶耐受反应组分诸如氨基供体的灭活。在一些实施方案中，工程化转氨酶对1M或高达2M异丙胺稳定。

在一些实施方案中，改进的转氨酶多肽还能够转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为至少70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更大对映体过量(e.e)的产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺。

在一些实施方案中，在氨基供体尤其是异丙胺存在时，本公开内容的工程化转氨酶多肽能够以等于或大于SEQ ID NO：4多肽活性的活性转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，且包括与SEQID NO：4的参考序列至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同的氨基酸序列。

在一些实施方案中，在氨基供体尤其是异丙胺存在时，本公开内容的工程化转氨酶多肽能够以等于或大于SEQ ID NO：4多肽活性的活性转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，且包括与表2中所列的参考序列，例如，SEQ ID NO：68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100或102至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同的氨基酸序列，如以下进一步描述的。

在一些实施方案中，工程化转氨酶多肽包括与转氨酶参考序列相比具有一个或多个残基差异的氨基酸序列。残基差异可以是非保守取代、保守取代、或非保守取代与保守取代的组合。关于残基差异和残基位置的描述，本文提供的转氨酶可参照以下氨基酸序列来描述：节杆菌属KNK168的天然产生的转氨酶、或SEQ ID NO：2的转氨酶、或工程化转氨酶，诸如SEQID NO：4多肽。对于本文的描述，参考序列中的氨基酸残基位置在转氨酶中从起始甲硫氨酸(M)残基开始确定(即，M代表残基位置1)，尽管本领域技术人员将理解，这一起始的甲硫氨酸残基可能被诸如宿主细胞或体外翻译系统中的生物加工机制去除以产生缺少起始甲硫氨酸残基的成熟蛋白。

存在特定氨基酸或氨基酸改变(“残基差异”)的多肽序列位置有时在本文描述为“Xn”或“位置n”，其中n是指参照参考序列的残基位置。

特定取代突变是参考序列中的特定残基被不同的特定残基代替，可用常规符号“X(数字)Y”表示，其中X是参考序列中残基的单字母标识符，“数字”是参考序列中的残基位置，Y是工程化序列中残基取代的单字母标识符。

在一些实施方案中，残基差异可发生在以下残基位置的一个或多个：X4；X5；X8；X18；X25；X26；X27；X28；X30；X41；X42；X48；X49；X50；X54；X55；X60；X61；X62；X65；X69；X81；X94；X96；X102；X117；X120；X122；X124；X126；X136；X137；X138；X146；X148；X150；X152；X155；X156；X160；X163；X164；X169；X174；X178；X195；X199；X204；X208；X209；X211；X215；X217；X223；X225；X230；X252；X269；X273；X282；X284；X292；X297；X302；X306；X321和X329。在一些实施方案中，残基差异或其组合伴随着改进的酶特性。在一些实施方案中，转氨酶多肽可在以上列的“Xn”表示的特定位置以外的残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异数目可以是在其他氨基酸残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，在其他残基位置的残基差异包括以保守氨基酸残基取代。

在本文的实施方案中，与SEQ ID NO：2相比，在转氨酶上影响底物结合的残基位置的残基差异允许适应以下进一步描述的结构式(I)的酮酰胺底物，尤其是酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮。不受理论限制，至少两个区域，即第一底物结合区和第二底物结合区与酮酰胺底物的不同结构元件相互作用。第一结合区包括残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282，而第二结合区包括残基位置X69、X122和X284。因此，本文的转氨酶多肽在包括X62、X69、X122、X136、X137、X195、X199、X208、X209、X223、X225、X282和X284的残基位置具有一个或多个残基差异。在一些实施方案中，本文的转氨酶多肽在与底物结合相关的特定残基位置具有至少两个或更多、三个或更多、四个或更多、五个或更多、或六个或更多个残基差异。

在一些实施方案中，与SEQ ID NO：2相比的残基差异是在形成包括残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282的第一底物结合区的一个或多个残基位置。因此，在一些实施方案中，工程化转氨酶包括的氨基酸序列包括与SEQ ID NO：2相比，在残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282的至少一个残基差异。

在一些实施方案中，与SEQ ID NO：2相比的残基差异是在形成包括残基位置X69、X122和X284的第二底物结合区的一个或多个残基位置。因此，在一些实施方案中，工程化转氨酶包括的氨基酸序列包括与SEQ IDNO：2相比，在残基位置X69、X122和X284的至少一个残基差异。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括在第一结合区的残基差异连同在第二结合区的残基差异。因此，在一些实施方案中，工程化转氨酶包括的氨基酸序列包括与SEQ ID NO：2相比，在残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282的一个或多个残基差异，连同与SEQ ID NO：2相比，在残基位置X69、X122和X284的一个或多个残基差异。

在本公开内容的工程化转氨酶的一些实施方案中，在一个残基位置的氨基酸残基可以可在该位置表现出的氨基酸“特征”(如，氨基酸类型或特性)来定义。因此，在一些实施方案中，在以上指定的位置的氨基酸残基可选自以下特征：X4是芳香族残基；X5是碱性残基；X8是受限制的残基；X18是半胱氨酸(C)或脂肪族残基；X25是极性残基；X26是芳香族或受限制的残基；X27是极性残基；X28是受限制的残基；X30是极性或非极性残基；X41是受限制的或极性残基；X42是非极性残基；X48是极性、酸性、脂肪族或非极性残基；X49是极性残基；X50是脂肪族残基；X54是受限制的残基；X55是脂肪族残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X69是半胱氨酸(C)或非极性、极性或脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X102是脂肪族或碱性残基；X117是非极性残基；X120是芳香族残基；X122是受限制的、非极性或脂肪族残基；X124是极性或受限制的残基；X126是极性残基；X136是芳香族残基；X137是极性或脂肪族残基；X138是碱性或受限制的残基；X146是碱性残基；X148是脂肪族或芳香族残基；X150是芳香族、受限制的或极性残基；X152是半胱氨酸(C)、非极性、脂肪族或极性残基；X155是非极性或极性残基；X156是极性残基；X160是脂肪族残基；X163是脂肪族或受限制的残基；X164是脂肪族或受限制的残基；X169是脂肪族残基；X174是脂肪族残基；X178是极性残基；X195是芳香族或极性残基；X199是脂肪族或芳香族残基；X204是脂肪族残基；X208是半胱氨酸(C)或受限制的、非极性、芳香族、极性或碱性残基；X209是脂肪族残基；X211是脂肪族残基；X215是半胱氨酸(C)；X217是极性残基；X223是受限制的残基；X225是芳香族残基；X230是脂肪族残基；X252是芳香族或脂肪族残基；X269是受限制的残基；X273是芳香族残基；X282是极性残基；X284是非极性残基；X292是极性残基；X297是极性残基；X302是脂肪族残基；X306是脂肪族残基；X321是受限制的残基；和X329是受限制的或芳香族残基。在一些实施方案中，当在参考序列(如，SEQ ID NO：2)的对应残基位置的氨基酸残基被本文对指定位置描述的氨基酸类别涵盖时，按照本文提供的指导，可使用在该氨基酸类别中的不同氨基酸。

在一些实施方案中，在以上指定的残基位置的氨基酸残基可选自以下特征：X4是Y、F或W，尤其是Y；X5是K或R，尤其是K；X8是H或P，尤其是P；X18是C、A、V或I，尤其是C或I；X25是N、Q、S或T，尤其是Q；X26是F、W、H或P，尤其是H；X27是N、Q、S或T，尤其是T；X28是P或H，尤其是P；X30是N、Q、S、T、G、M、A、V、L或I，尤其是Q或M；X41是P、H、N、Q、S或T，尤其是H或S；X42是G、M、A、V、L或I，尤其是G；X48是N、Q、S、T、D、E、G、M、A、V、L或I，尤其是Q、D、V、G或A；X49是N、Q或T，尤其是T；X50是A、V、L或I，尤其是L；X54是P或H；X55是A、V或L，尤其是V；X60是F或W，尤其是F；X61是Y、F或W，尤其是Y；X62是S、T、N、Q、Y、F或W，尤其是T、Y或F；X65是A、L或I，尤其是A；X69是C、G、M、A、L、I、S、T、N或Q，尤其是G、C、T、A或S；X81是G、M、A、V、L、I，尤其是G；X94是A、V、L或I，尤其是I或L；X96是A、V或L，尤其是L；X102是A、V、L、I、K或R，尤其是L或K；X117是G、M、A、V、L或I，尤其是G；X120是Y、W或F，尤其是Y；X122是G、M、A、V、I、L、P或H，尤其是M、I、L、V或H；X124是T、N、Q、P或H，尤其是T、H或N；X126是N、Q或T，尤其是T；X136是Y、F或W，尤其是Y或F；X137是S、T、N、Q、A、V、L或I，尤其是T或I；X138是K、P或H，尤其是K或P；X146是K或R，尤其是R；X148是A、V、L、I、W或F，尤其是A或F；X150是F、W、H、P、S、T、N或Q，尤其是F、H或S；X152是C、G、M、A、L、I、S、T、N或Q，尤其是G、I、L、S或C；X155是N、S、T、G、M、A、V、L或I，尤其是M、V或T；X156是N、Q、S或T，尤其是Q；X160是A、V、L或I，尤其是L；X163是P、H、A、V或L，尤其是H或V；X164是A、V、L、I、P或H，尤其是V或P；X169是V、L或I，尤其是L；X174是A、V、L或I，尤其是A；X178是S、N或Q，尤其是S；X195是F、Y、W、S、T、N或Q，尤其是F或Q；X199是A、L、I、Y、F、W，尤其是W或I；X204是A、V、L或I，尤其是A；X208是H、C、G、K、N、Y、D或S；X209是V、L或I，尤其是L；X211是A、V或I，尤其是I；X215是C；X217是S、T、N或Q，尤其是N；X223是H或P，尤其是P；X225是W或Y，尤其是Y；X230是A、V或L，尤其是V；X252是A、V、I、Y、F或W，尤其是F；X269是H或P，尤其是P；X273是Y、F或W，尤其是Y；X282是S、N或Q，尤其是S；X284是G、M、V、L或I，尤其是G；X292是T、N或Q，尤其是T；X297是S、T、N或Q，尤其是S；X302是A、L或I，尤其是A；X306是A、L或I，尤其是L；X321是H或P，尤其是P；和X329是H、P、Y、F或W，尤其是H。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括以下特征的一个或多个：对应X69的残基是半胱氨酸(C)或非极性、极性或脂肪族残基；对应X122的残基是受限制的、非极性或脂肪族残基；对应X223的残基是受限制的残基；和对应X284的残基是非极性残基。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：(1)对应X69的残基是C或非极性、脂肪族或极性残基，和/或对应X284的残基是非极性残基；(2)对应X122的残基是受限制的、非极性或脂肪族残基；和(3)对应X223的残基是受限制的残基。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X69是Ca非极性、脂肪族或极性残基；X122是受限制的、非极性或脂肪族残基；和X223是受限制的残基。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X69是C、G、M、A、L、I、S、T、N或Q，尤其是G、C、T、A或S；X122是G、M、A、V、L、I、P或H，尤其是M、I、V、L或H；X223是H或P，尤其是P。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X122是受限制的、非极性或脂肪族残基；X223是受限制的残基；和X284是非极性残基。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X122是G、M、A、V、L、I、P或H，尤其是M、I、V、L或H；X223是H或P，尤其是P；和X284是G、M、V、L或I，尤其是G。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X69是C或非极性、极性或脂肪族残基；X122是受限制的、非极性或脂肪族残基；X223是受限制的残基；和X284是非极性残基。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X69是C、G、M、A、L、I、S、T、N或Q，尤其是G、C、T、A或S；X122是G、M、A、V、L、I、P或H、，尤其是M、I、V、L或H；X223是H或P，尤其是P；和X284是G、M、A、V、L或I，尤其是G。

在一些实施方案中，工程化转氨酶多肽包括的氨基酸序列包括至少以下特征：X69是C或T；X122是M或I；X223是P；和X284是G。

在一些实施方案中，在残基位置X69、X122、X223和X284具有一个或多个指定特征或特征组合的工程化转氨酶多肽，与SEQ ID NO：2相比在以下残基位置可另外具有一个或多个残基差异：X4；X5；X8；X18；X25；X26；X27；X28；X30；X41；X42；X48；X49；X50；X54；X55；X60；X61；X62；X65；X81；X94；X96；X102；X117；X120；X124；X126；X136；X137；X138；X146；X148；X150；X152；X155；X156；X160；X163；X164；X169；X174；X178；X195；X199；X204；X208；X209；X211；X215；X217；X225；X230；X252；X269；X273；X282、X292；X297；X302；X306；X321和X329。除了残基位置X69、X122、X223和X284以外，这些其他残基位置与对转氨酶多肽不同特性的作用相关，因此可具有与SEQ ID NO：2相比的残基差异以实现酶特性的期望改变。

如上所述，残基位置X62、X136、X137、X195、X199、X208、X209、X225和X282以及残基位置X69、X122、X223和X284与底物对酶的结合相关，因此转氨酶多肽可在这些列举的位置具有与SEQ ID NO：2相比的残基差异以实现酶特性的期望改变。

残基位置X4、X5、X8、X26、X48、X60、X65、X81、X96、X102、X124、X160、X163、X169、X174、X178、X211、X217、X225、X230、X252、X269、X273、X292、X297、X306、X321、X329也与酶活性的其他增加相关，因此转氨酶多肽可在这些所列的位置具有与SEQ ID NO：2相比的残基差异以实现酶活性的其他期望改变，例如在高底物负荷条件时转化效率的增加。

残基位置X18、X25、X27、X28、X30、X41、X42、X49、X50、X54、X55、X117、X120、X126、X138、X146、X148、X150、X152、X155、X156、X164、X204、X302也与热稳定性和/或溶剂诸如DMSO稳定性的增加相关，因此转氨酶多肽可在这些所列的位置具有与SEQ ID NO：2相比的残基差异以实现热稳定性和/或溶剂稳定性的期望改变。

残基位置X61、X94、X215也与在高浓度氨基供体异丙胺时进行反应的能力相关，因此转氨酶多肽可在这些所列的位置具有与SEQ ID NO：2相比的残基差异以实现在高(如，1-2M)浓度异丙胺时转化效率的增加。

应理解的是，在与酶的不同特性相关的残基位置与SEQ ID NO：2的残基差异可以不同组合使用以形成具有期望酶促特征的转氨酶多肽，所述酶促特征例如酶活性、溶剂稳定性和温度稳定性、以及氨基供体的利用增加的组合。示例性的组合在本文描述。

在一些实施方案中，用于指定残基位置的氨基酸残基可根据以上描述选择。例如，氨基酸残基可基于以下特征选择：X4是芳香族残基；X5是碱性残基；X8是受限制的残基；X18是半胱氨酸(C)或脂肪族残基；X25是极性残基；X26是芳香族或受限制的残基；X27是极性残基；X28是受限制的残基；X30是极性或非极性残基；X41是受限制的或极性残基；X42是非极性残基；X48是极性、酸性、脂肪族或非极性残基；X49是极性残基；X50是脂肪族残基；X54是受限制的残基；X55是脂肪族残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X102是脂肪族或碱性残基；X117是非极性残基；X120是芳香族残基；X124是极性或受限制的残基；X126是极性残基；X136是芳香族残基；X137是极性或脂肪族残基；X138是碱性或受限制的残基；X146是碱性残基；X148是脂肪族或芳香族残基；X150是芳香族、受限制的或极性残基；X152是半胱氨酸(C)、非极性、脂肪族或极性残基；X155是非极性或极性残基；X156是极性残基；X160是脂肪族残基；X163是脂肪族或受限制的残基；X164是脂肪族或受限制的残基；X169是脂肪族残基；X174是脂肪族残基；X178是极性残基；X195是芳香族或极性残基；X199是脂肪族或芳香族残基；X204是脂肪族残基；X208是半胱氨酸(C)或受限制的、非极性、芳香族、极性或碱性残基；X209是脂肪族残基；X211是脂肪族残基；X215是C；X217是极性残基；X225是芳香族残基；X230是脂肪族残基；X252是芳香族或脂肪族残基；X269是受限制的残基；X273是芳香族残基；X282是极性残基；X292是极性残基；X297是极性残基；X302是脂肪族残基；X306是脂肪族残基；X321是受限制的残基；和X329是受限制的或芳香族残基。在这些残基位置可使用的具体氨基酸残基在以上描述。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶可另外具有以下特征的一个或多个：X26是芳香族或受限制的残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X94是脂肪族残基；X136是芳香族残基；X137是极性或脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；和X282是极性残基。

在一些实施方案中，除了上述特征以外，转氨酶的氨基酸序列可另外包括以下特征的一个或多个：X8是受限制的残基；X60是芳香族残基；X81是非极性或小的残基；X96是脂肪族残基；X124是极性或受限制的残基；X169是脂肪族残基；X217是极性残基；X269是受限制的残基；X273是芳香族残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，除了上述特征以外，转氨酶的氨基酸序列可另外包括以下特征的一个或多个：X4是芳香族残基；X48是极性、酸性、脂肪族或非极性残基；X102是脂肪族或碱性残基；X150是芳香族、受限制的或极性残基；X152是C或非极性、脂肪族或极性残基；X160是脂肪族残基；X163是脂肪族或受限制的残基；X174是脂肪族残基；X178是极性残基；X195是芳香族或极性残基；X208是C或受限制的、非极性、芳香族、极性或碱性残基；X211是脂肪族残基；X225是芳香族残基；X230是脂肪族残基；X252是芳香族或脂肪族残基；X292是极性残基；X306是脂肪族残基；和X329是受限制的或芳香族残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征或特征组合的工程化转氨酶包括至少以下另外的特征：X26是芳香族或受限制的残基，和/或X62是芳香族或极性残基；X65是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；和X209是脂肪族残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X94是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；和X282是极性残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是受限制的残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性或小的残基；X94是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X282是极性残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是受限制的残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X124是极性或受限制的残基；X136是芳香族残基；X169是脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X273是芳香族残基。X282是极性残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是受限制的残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X124是极性或受限制的残基；X126是极性残基；X136是芳香族残基；X150是芳香族、受限制的或极性残基；X152是半胱氨酸(C)、非极性、脂肪族或极性残基；X169是脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X273是芳香族残基。X282是极性残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X26是P、H、F或W，尤其是H，和/或X62是S、T、N、Q、Y、F或W，尤其是T或F；X65是A、L或I，尤其是A；X136是Y、F或W，尤其是Y或F；X199是A、L、I、Y、F或W，尤其是W或I；和X209是V、L或I，尤其是L。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X61是Y、F或W，尤其是Y；X62是S、T、N、Q、Y、F或W，尤其是T或F；X65是A、L或I，尤其是A；X94是A、V、L或I，尤其是I或L；X136是Y、F或W，尤其是Y或F；X199是A、L、I、Y、F或W，尤其是W或I；X209是V、L或I，尤其是L；X215是C；和X282是S、N或Q，尤其是S。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是H或P，尤其是P；X61是Y、F或W，尤其是Y；X62是S、T、N、Q、Y、F或W，尤其是T或F；X65是A、L或I，尤其是A；X81是G、M、A、V、L或I，尤其是G；X94是A、V、L或I，尤其是I或L；X136是Y、F或W，尤其是Y或F；X199是A、L、I、Y、F或W，尤其是W或I；X209是V、L或I，尤其是L；X215是C；X217是S、T、N或Q，尤其是N；X269是H或P，尤其是P；X282是S、N或Q，尤其是S。X297是S、T、N或Q，尤其是S；和X321是H或P，尤其是P。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是H或P，尤其是P；X60是F或W，尤其是F；X61是Y、F或W，尤其是Y；X62是Y、F、W、S、T、N或Q，尤其是T或F；X65是A、L或I，尤其是A；X81是G、M、A、V、L或I，尤其是G；X94是A、V、L或I，尤其是I或L；X96是A、V或L，尤其是L；X124是P、H、T、N或Q，尤其是T、H或N；X136是Y、F或W，尤其是Y或F；X169是V、L或I，尤其是L；X199是Y、F、W、A、L或I，尤其是W或I；X209是V、L或I，尤其是L；X215是C；X217是S、T、N或Q，尤其是N；X269是H或P，尤其是P；X273是Y、F或W，尤其是Y；X282是S、N或Q，尤其是S；X297是S、T、N或Q，尤其是S；和X321是H或P，尤其是P。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是H或P，尤其是P；X60是F或W，尤其是F；X61是Y、F或W，尤其是Y；X62是Y、F、W、S、T、N或Q，尤其是T或F；X65是A、L或I，尤其是A；X81是G、M、A、V、L或I，尤其是G；X94是A、V、L或I，尤其是I或L；X96是A、V或L，尤其是L；X124是P、H、T、N或Q，尤其是T、H或N；X126是N、Q或T，尤其是T；X136是Y、F或W，尤其是Y或F；X150是F、W、H、P、S、T、N或Q，尤其是F、H或S；X152是C、G、M、A、L、I、S、T、N或Q，尤其是G、I、L、S或C；X169是V、L或I，尤其是L；X199是Y、F、W、A、L或I，尤其是W或I；X209是V、L或I，尤其是L；X215是C；X217是S、T、N或Q，尤其是N；X269是H或P，尤其是P；X273是Y、F或W，尤其是Y；X282是S、N或Q，尤其是S；X297是S、T、N或Q，尤其是S；和X321是H或P，尤其是P。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X223是受限制的残基，尤其是P；X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置(即，X122；X223和X284)描述的特征的参考氨基酸序列(如，SEQ ID NO：8或10)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X223是受限制的残基，尤其是P；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置(即，X69；X122；X223和X284)描述的特征的参考序列(如，SEQ ID NO：4)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括具有至少对指定残基描述的特征的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；和X223是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：6)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：6至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X174是脂肪族残基，尤其是A；X223是受限制的残基，尤其是P；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：12)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：12至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X223是受限制的残基，尤其是P；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：14)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：14至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I，尤其是X223是受限制的残基，尤其是P；X225是芳香族残基，尤其是Y，X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可另外在其他残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ IDNO：16)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQID NO：16至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X225是芳香族残基，尤其是Y；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可另外在其他残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：18)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：18至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：20、22、28、30、32、34、38或40)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQID NO：20、22、28、30、32、34、38或40至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X225是芳香族残基，尤其是Y；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ IDNO：24)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ IDNO：24至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X174是脂肪族残基，尤其是A；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X230是脂肪族残基，尤其是V；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：26)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：26至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X26是芳香族或受限制的残基，尤其是H；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：36)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：36至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：在一些实施方案中，工程化转氨酶包括的氨基酸序列包括至少以下特征：X4是芳香族残基，尤其是Y；X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：42)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：42至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：44、46或48)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：44、46或48至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是半胱氨酸(C)；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：50)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：50至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X152是C、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ IDNO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：52)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：52至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：54或56)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：54或56至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：58或60)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：58或60至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X160是脂肪族残基，尤其是L；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可另外在其他残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：62)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：62至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；和X306是脂肪族残基，尤其是L。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ IDNO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：64)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：64至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X102是脂肪族或碱性残基，尤其是L或K；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X152是C、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：66)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：66至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X48是极性、酸性、脂肪族或非极性残基，尤其是D、V、G、Q或A；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X102是脂肪族或碱性残基，尤其是L或K；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X163是脂肪族或受限制的残基，尤其是H或V；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X211是脂肪族残基，尤其是I；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X252是芳香族或脂肪族残基，尤其是F；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：68)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：68至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X48是极性、酸性、脂肪族或非极性残基，尤其是A；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：70)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：70至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：72)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：72至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：74)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：74至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X152是C或非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X252是芳香族或脂肪族残基，尤其是F；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：76)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：76至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X292是极性残基，尤其是T；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：78)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ IDNO：78至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：80)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：80至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：82)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：82至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：84、86、88、96、98或100)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：84、86、88、96、98或100至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：90)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：90至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X152是C或非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：92)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：92至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X152是C或非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：94)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：94至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；X321是受限制的残基，尤其是P；和X329是受限制的或芳香族残基，尤其是H。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：102)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：102至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是S；X152是半胱氨酸(C)、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：110)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：110至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括的氨基酸序列包括以下特征：X8是受限制的残基，尤其是P；X49是极性残基，尤其是T；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X117是非极性残基，尤其是G；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X126是极性残基，尤其是T；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是S；X152是半胱氨酸(C)、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；X302是脂肪族残基，尤其是A；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO：2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO：166)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的氨基酸序列包括至少对指定残基位置描述的特征。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO：166至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

以下表2提供示例性的工程化转氨酶多肽，每一行列出两个SEQ IDNO，奇数是指编码由偶数提供的氨基酸序列的核苷酸序列。残基差异是基于与参考序列SEQ ID NO：2比较，该参考序列是源自于节杆菌属KNK168的转氨酶，与天然产生的酶不同的是在残基位置X306以缬氨酸(V)取代异亮氨酸(I)。在活性列中，活性增加的水平(即，“+”、“++”、“+++”等等)定义如下：“+”表示至少等于但不大于SEQ ID NO：4活性的2倍(测定条件：2g/L酮酰胺底物、0.5M异丙胺、22℃、pH 7.5、5％DMSO、100μM PLP)；“++”表示大于SEQ ID NO：4活性的约50至100倍(测定条件：2g/L酮酰胺底物、0.5M异丙胺、22℃、pH 7.5、5％MeOH、100μM PLP)；“+++”表示大于SEQ ID NO：22活性的约1.1至约5倍(测定条件：5-10g/L酮酰胺底物、0.5-1M异丙胺、22-30℃、pH 7.5、5％MeOH、100μM PLP)；“++++”表示大于SEQ ID NO：48活性约1.1至5倍(测定条件：10-40g/L酮酰胺底物、1M异丙胺、30-45℃、pH 8.5、10％MeOH、100μM PLP)；“+++++”表示SEQ ID NO：58活性的约1.1至5倍或更大(测定条件：40-100g/L酮酰胺底物、1M异丙胺、45℃、pH 8.5、10％MeOH-25％DMSO、250μM PLP)；“++++++”表示SEQ ID NO：104活性的约1.1至5倍或更大(测定条件：40-100g/L酮酰胺底物、1M异丙胺、45℃、pH 8.5、50％DMSO、1000μM PLP)。利用甲醇和DMSO测量活性的示例性测定条件描述在实施例6-11。

表2

如上所述，在一些实施方案中，改进的转氨酶多肽包括的氨基酸序列与参考序列SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同。在一些实施方案中，与SEQID NO：2代表的转氨酶相比，改进的转氨酶多肽可具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，与SEQ ID NO：2相比，残基差异的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个差异。

在一些实施方案中，改进的转氨酶多肽包括的氨基酸序列与基于SEQID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的参考序列至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，条件是，与SEQ ID NO：2相比，改进的转氨酶氨基酸序列包括表2中列出的多肽序列任一种中包含的任一组残基差异。在一些实施方案中，与参考序列相比，改进的转氨酶多肽可在其他氨基酸残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，在其他残基位置的残基差异包括用保守氨基酸残基取代。

在一些实施方案中，在氨基供体存在时，能够转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺到HPLC-UV在210nm可检测的产物水平的改进的转氨酶多肽，包括对应SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列的氨基酸序列。

在一些实施方案中，工程化转氨酶多肽能够以SEQ ID NO：4多肽活性的50至100倍或更大的活性转化酮酰胺底物为产物。在一些实施方案中，能够以SEQ ID NO：4多肽活性的50至100倍或更大的活性转化酮酰胺底物为产物的工程化转氨酶多肽包括对应SEQ ID NO：16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在一些实施方案中，工程化转氨酶多肽能够以SEQ ID NO：22多肽活性约1.1至5倍或更大的活性转化酮酰胺底物为产物。在一些实施方案中，能够以SEQ ID NO：22多肽活性约1.1至5倍或更大的活性转化酮酰胺底物为产物的工程化转氨酶多肽包括对应SEQ ID NO：28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列的氨基酸序列。

在一些实施方案中，工程化转氨酶多肽能够以SEQ ID NO：48多肽活性约1.1至5倍或更大的活性转化酮酰胺底物为产物。在一些实施方案中，能够以SEQ ID NO：48多肽活性约1.1至5倍或更大的活性转化酮酰胺底物为产物的工程化转氨酶多肽包括对应SEQ ID NO：50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列的序列。

在一些实施方案中，工程化转氨酶多肽能够以SEQ ID NO：58多肽活性约1.1至5倍或更大的活性转化酮酰胺底物为产物。在一些实施方案中，能够以SEQ ID NO：58多肽活性约1.1至5倍或更大的活性转化酮酰胺底物为产物的工程化转氨酶多肽包括对应SEQ ID NO：68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列的氨基酸序列。

如以上指出的，在一些实施方案中，改进的转氨酶多肽还能够转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为至少70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％对映体过量的产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺。具有指定水平的对映体选择性的示例性转氨酶多肽可包括对应SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在一些实施方案中，改进的工程化转氨酶多肽可包括本文所述的工程化转氨酶多肽的缺失。因此，对于本公开内容的转氨酶多肽的每一个实施方案，只要保持该转氨酶活性的功能活性，缺失可以包括一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、高达氨基酸总数的10％、高达氨基酸总数的20％、或高达转氨酶多肽的氨基酸的总数的30％。在一些实施方案中，缺失可以包括1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个、1-40个、1-45个、1-50个、1-55个或1-60个氨基酸残基。在一些实施方案中，缺失的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个、40个、45个、50个、55个或60个氨基酸。在一些实施方案中，缺失可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、22个、24个、26个、28个或30个氨基酸残基的缺失。

如本文所述，本公开内容的转氨酶多肽可以是融合多肽的形式，其中转氨酶多肽与其他多肽融合，所述其他多肽诸如但不限于抗体标签(如，myc表位)、纯化序列(如，用于结合金属的His标签)和细胞定位信号(如，分泌信号)。因此，转氨酶多肽可与其他多肽融合或不融合地使用。

本文所述的多肽不受限于遗传编码的氨基酸。除了遗传编码的氨基酸以外，本文所述的多肽可以总体上或部分上由天然存在的和/或合成的非编码氨基酸组成。可组成本文所述的多肽的某些常见非编码氨基酸可以包括但不限于：遗传编码的氨基酸的D-立体异构体；2，3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘苯丙氨酸(Pif)；4-氨甲基苯丙氨酸(Pamf)；2，4-二氯苯丙氨酸(Opef)；3，4-二氯苯丙氨酸(Mpcf)；2，4-二氟苯丙氨酸(Opff)；3，4-二氟苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯基丙氨酸(sAla)；蒽基丙氨酸(aAla)；3，3-二苯丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1，2，3，4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4羧酸；2-哌啶酸(PA)；氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)；高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰赖氨酸(AcLys)；2，4-二氨基丁酸(Dbu)；2，3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。本文所述多肽可包含的另外的非编码氨基酸将对本领域技术人员是明显的(参见，例如，在Fasman，1989，CRC Practical Handbook of Biochemistry and Molecular Biology(CRC生物化学和分子生物学实用手册)，CRC Press，Boca Raton，FL，在第3-70页及其中引用的参考文献中提供的多种氨基酸，该文献以及其中所引用的参考文献全部通过引用并入本文)。这些氨基酸可以处于L-构型或D-构型。

本领域技术人员将认识到，带有侧链保护基的氨基酸或残基也可以构成本文所述的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括(在圆括号中列出保护基)但不限于：Arg(tos)、Cys(甲苄基)、Cys(硝基吡啶亚氧硫基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

可构成本文所述多肽的构型上受限制的非编码氨基酸包括但不限于N-甲基氨基酸(L-构型)；1-氨基酸环戊-(2或3)-烯-4-羧酸；2-哌啶酸；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)；以及1-氨基环戊烷-3-羧酸。

如上所述，被引入天然存在的多肽以产生工程化转氨酶的各种修饰可以被定向至该酶的具体特性。

另一方面，本公开内容提供了编码改进的转氨酶多肽的多核苷酸。可以将所述多核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列以产生能够表达转氨酶多肽的重组多核苷酸。可以将包含编码工程化转氨酶的异源多核苷酸的表达构建体引入适当的宿主细胞中来表达对应的转氨酶多肽。

由于对各种氨基酸所对应的密码子的了解，蛋白序列的可用性提供了对能够编码该主题的所有多核苷酸的描述。相同氨基酸由替代的或同义的密码子编码的遗传密码的简并性允许极大数目的核酸被制出，所有这些核酸编码本文所公开的改进的转氨酶多肽。因此，如果已识别了具体的氨基酸序列，本领域技术人员能够以不改变蛋白的氨基酸序列的方式通过仅仅变更一个或更多个密码子的顺序来制出任意数目的不同核酸。在这点上，本公开内容明确涵盖可通过选择基于可能的密码子选择的组合制出的多核苷酸的每一种可能的改变，并且所有这些改变将被认为对本文公开的任何多肽明确地公开，所述本文公开的任何多肽包括在表2中提供的氨基酸序列。

在一些实施方案中，可选择多核苷酸和/或使之工程化以包括被偏爱性地选择以适合在其中产生蛋白的宿主细胞的密码子。例如，在细菌中使用的偏爱密码子用于在细菌中表达基因；在酵母中使用的偏爱密码子用于酵母中的表达；并且在哺乳动物中使用的偏爱密码子用于哺乳动物细胞中的表达。因为不必替换所有密码子来优化转氨酶的密码子使用(如，由于天然序列可具有偏爱密码子并且因为偏爱密码子的使用可能并不是所有氨基酸残基所需的)，编码转氨酶多肽的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包含偏爱密码子。

在一些实施方案中，多核苷酸编码包含与参考序列SEQ ID NO：4至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同的氨基酸序列的转氨酶多肽，其中在氨基供体存在时，该多肽能够以与源自于节杆菌属KNK168的SEQ IDNO：2的转氨酶的活性相比改进的活性转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺。

在一些实施方案中，多核苷酸编码的转氨酶多肽包括与包括对应SEQID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100或102的氨基酸序列的多肽具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更大序列同一性的氨基酸序列，其中在氨基供体存在时，该多肽在转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺方面具有一种或多种改进的特性。在一些实施方案中，编码的转氨酶多肽具有的活性等于或大于SEQ ID NO：4多肽的活性。

在一些实施方案中，多核苷酸编码的转氨酶多肽包括与参考序列SEQID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列。

在一些实施方案中，多核苷酸编码的转氨酶多肽包括与基于SEQ IDNO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的参考序列至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是，与SEQ ID NO：2相比，改进的转氨酶氨基酸序列包括表2中列出的多肽序列任一种中包含的任一组残基差异。

在一些实施方案中，编码改进的转氨酶多肽的多核苷酸选自SEQ IDNO：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167。

在一些实施方案中，多核苷酸能够在高度严格条件下与包括SEQ IDNO：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167或其互补物的多核苷酸杂交，其中高度严格杂交的多核苷酸编码的转氨酶多肽在氨基供体存在下，能够以等于或大于SEQ ID NO：4多肽的活性转化4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺。

在一些实施方案中，多核苷酸编码本文所述的多肽，但在核苷酸水平，与编码本文所述的工程化转氨酶的参考多核苷酸具有约80％或更大序列同一性、约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更大序列同一性。在一些实施方案中，参考多核苷酸选自SEQ ID NO：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167。

可以用多种方式操作编码改进的转氨酶多肽的分离的多核苷酸以提供该多肽的表达。在一些实施方案中，编码工程化转氨酶多肽的多核苷酸可作为表达载体提供，其中存在一个或多个控制序列以调节多核苷酸的表达。取决于表达载体，所分离的多核苷酸在其插入载体中之前的操作可能是令人期望的或必要的。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域公知的。在Sambrook等人，2001，Molecular Cloning：ALaboratory Manual(分子克隆实验室指南)，第3版，Cold Spring HarborLaboratory Press；以及Current Protocols in Molecular Biology(现代分子生物学实验技术)，Ausubel.F.编，Greene Pub.Associates，1998，更新至2006中提供了指导。

在一些实施方案中，除了其他以外，控制序列包括启动子、前导序列、多腺苷酸化序列、前肽序列、信号肽序列和转录终止子。对于细菌宿主细胞，用于指导本公开内容的核酸构建体转录的适宜启动子包括从大肠杆菌lac操纵子、大肠杆菌trp操纵子、噬菌体λ、天蓝色链霉菌(Streptomycescoelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)生麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA基因和xylB基因、以及原核β-内酰胺酶基因(Villa-Kamaroff等人，1978，Proc.Natl Acad.Sci.USA 75：3727-3731)获得的启动子以及tac启动子(DeBoer等人，1983，Proc.Natl Acad.Sci.USA 80：21-25)。

对于丝状真菌宿主细胞而言，用于指导本公开内容的核酸构建体转录的适宜启动子包括从米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定的α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillusawamori)葡萄糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见如，WO 96/00787，通过引用并入本文)的基因获得的启动子以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和它们突变的、截短的及杂合的启动子。

在酵母宿主中，有用的启动子可以来自酿酒酵母(Saccharomycescerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)以及酿酒酵母3-磷酸甘油酸酯激酶的基因。Romanos等人，1992，Yeast 8：423-488描述了酵母宿主细胞其他有用的启动子。

控制序列也可以是适宜的转录终止子序列，即由宿主细胞识别的终止转录的序列。终止子序列被可操作地连接于编码多肽的核酸序列的3′端。在本发明中可以使用在选择的宿主细胞中有功能的任何终止子。

例如，丝状真菌宿主细胞的示例性转录终止子可以从米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶的基因中获得。

酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因中获得。上述Romanos等人，1992对酵母宿主细胞其他有用的终止子进行了描述。

控制序列也可以是适宜的前导序列，即对宿主细胞翻译而言重要的mRNA的非翻译区。前导序列被可操作地连接于编码多肽的核酸序列的5′端。可以使用在选择的宿主细胞中有功能的任何前导序列。丝状真菌宿主细胞的示例性前导序列是从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因中获得。酵母宿主细胞适宜的前导序列是从酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子以及酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因中获得。

控制序列也可以是聚腺苷酸化序列，即可操作地连接于核酸序列的3′端并且当转录时被宿主细胞识别为向转录的mRNA添加聚腺苷残基的信号的序列。在本发明中可以使用在选择的宿主细胞中有功能的任何聚腺苷酸化序列。丝状真菌宿主细胞的示例性聚腺苷酸化序列可以从米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶的基因中获得。Guo和Sherman，1995，Mol Cell Bio 15：5983-5990描述了酵母宿主细胞的有用的聚腺苷酸化序列。

控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导该编码多肽进入细胞分泌途径的信号肽编码区。核酸序列的编码序列的5′端可以固有地包含翻译阅读框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。可选地，编码序列的5′端可以包含对编码序列而言为外来的信号肽编码区。在编码序列天然不包含信号肽编码区时可能需要外来的信号肽编码区。

细菌宿主细胞有效的信号肽编码区是从芽孢杆菌NClB 11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因中获得的信号肽编码区。Simonen和Palva，1993，Microbiol Rev 57：109-137描述了其他的信号肽。

丝状真菌宿主细胞有效的信号肽编码区可以是从米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡萄糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶以及柔毛腐质酶(Humicolalanuginosa)脂肪酶的基因中获得的信号肽编码区。

酵母宿主细胞有用的信号肽可以来自酿酒酵母α-因子和酿酒酵母转化酶的基因。上述Romanos等人，1992对其他有用的信号肽编码区进行了描述。

控制序列也可以是编码位于多肽氨基端的氨基酸序列的前肽编码区。生成的多肽被称为酶原(proenzyme)或多肽原(或在某些情况下称为酶原(zymogen))。多肽原一般是无活性的，并且可以通过对前肽的催化裂解或自身催化裂解从多肽原转化为成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthorathermophila)乳糖酶的基因获得(参见如WO 95/33836，通过引用并入本文)。

在信号肽和前肽区在多肽的氨基端都存在时，前肽区被定位于紧挨着多肽的氨基端并且信号肽区被定位于紧挨着前肽区的氨基端。

添加调节序列可能也是令人期望的，所述调节序列允许调节与宿主细胞的生长有关的多肽的表达。调节系统的实例是响应于化学刺激或物理刺激(包括调节化合物的存在)而促使基因的表达被打开或关闭的那些调节系统。在原核宿主细胞中，适宜的调节序列包括lac、tac以及trp操纵子系统。在酵母宿主细胞中，适宜的调节系统包括，例如ADH2系统或GAL1系统。在丝状真菌中，适宜的调节序列包括TAKAα-淀粉酶启动子、黑曲霉葡萄糖淀粉酶启动子以及米曲霉葡萄糖淀粉酶启动子。

调节序列的其他实例是那些允许基因扩增的调节序列。在真核系统中，这些调节序列包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的转氨酶多肽的核酸序列将与调节序列可操作地连接。

因此，在另一个实施方案中，本公开内容也涉及重组表达载体，所述重组表达载体包含编码工程化转氨酶多肽或其变体的多核苷酸以及一个或更多个表达调节区，诸如启动子和终止子、复制起点等等，这取决于表达调节区被引入的宿主的类型。可以将上述多种核酸和控制序列连接在一起产生如下重组表达载体：所述重组表达载体可以包括一个或更多个便利的限制性位点以允许在这些位点插入或取代编码多肽的核酸序列。可选地，本公开内容的核酸序列可以通过将该核酸序列或包含该序列的核酸构建体插入用于表达的适当载体中来表达。在表达载体的创建中，编码序列位于载体中以使得该编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体可以是能够便利地进行重组DNA步骤并且能够导致多核苷酸序列表达的任何载体(例如质粒或病毒)。载体的选择将通常取决于载体与该载体要引入的宿主细胞的相容性。载体可以是线性质粒或闭合环状质粒。

表达载体可以是自主复制的载体，即作为染色体外的实体而存在、其复制独立于染色体复制的载体，例如质粒、染色体外的元件、微型染色体或人工染色体。载体可以包含用于确保自我复制的任何手段。可选地，载体可以是在引入宿主细胞中时被整合到基因组并与它所整合的染色体一起复制的载体。此外，可以使用单种载体或质粒，或者一起包含要引入到宿主细胞基因组中的总DNA的两种或更多种载体或质粒，或转座子。

本发明的表达载体优选地包含一种或多种选择性标记，所述选择性标记使得容易选择转化的细胞。选择性标记是一种基因，其产物提供了杀生物剂抗性或病毒抗性、对重金属的耐受性、针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或是赋予抗生素抗性诸如氨苄西林、卡那霉素、氯霉素或四环素抗性的标记。酵母宿主细胞的适宜标记是ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。

在丝状真菌宿主细胞中使用的选择性标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨基甲酰基转移酶)、bar(草丁膦乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸盐还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、以及trpC(邻氨基苯甲酸合酶)以及它们的等同物。在曲霉属细胞中使用的实施方案包括构巢曲霉或米曲霉的amdS基因和pyrG基因，以及吸水链霉菌(Streptomyces hygroscopicus)的bar基因。

用于表达转氨酶的表达载体可包含允许载体整合到宿主细胞基因组中或允许该载体在细胞中独立于基因组而自主复制的元件。对于整合到宿主细胞基因组中，载体可以依赖于编码多肽的核酸序列或通过同源重组或非同源重组将载体整合到基因组中的载体的任何其他元件。

可选地，表达载体可以包含用于指导通过同源重组整合到宿主细胞基因组中的另外的核酸序列。所述另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞基因组中。为了提高在精确位置整合的可能性，整合元件应该优选地包含与对应的靶序列高度同源的数目足够的核酸，诸如100到10,000个碱基对，优选400到10,000个碱基对，以及最优选800到10,000个碱基对，以增强同源重组的机率。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码核酸序列或编码核酸序列。另一方面，可以通过非同源重组将载体整合到宿主细胞的基因组中。

对于自主复制，载体还可以包括使该载体能在要考虑的宿主细胞中自主复制的复制起点。细菌复制起点的实例是P15A ori或允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYCl77(这些质粒具有P15A ori)或质粒pACYC184的复制起点，以及允许在芽孢杆菌中复制的pUB110、pE194、pTA1060或pAMβ1的复制起点。在酵母宿主细胞中使用的复制起点的实例是2m(2微米)复制起点ARS1、ARS4，ARS1和CEN3的组合，以及ARS4和CEN6的组合。复制起点可以是具有突变的复制起点，所述突变使其在宿主细胞中以温度敏感的方式起作用(参见，例如Ehrlich，1978，ProcNatl Acad Sci.USA 75：1433)。

可以将多于一个拷贝的本发明的核酸序列插入宿主细胞中以提高基因产物的生产量。核酸序列拷贝数的增加可以通过如下方式获得：通过将该序列的至少一个另外拷贝整合到宿主细胞基因组中，或者通过使该核酸序列包括可扩增的选择性标记基因，其中可以通过在适当选择剂的存在下培养细胞来选择包含该选择性标记基因的扩增拷贝和由此包含该核酸序列的另外拷贝的细胞。

在本发明中使用的许多表达载体可商购获得。适宜的商业表达载体包括来自Sigma-Aldrich Chemicals，St.Louis MO.的p3xFLAGTM^TM表达载体，它包括用于在哺乳动物宿主细胞中表达的CMV启动子和hGH多腺苷酸化位点以及用于在大肠杆菌中扩增的pBR322复制起点和氨苄西林抗性标记。其他适宜的表达载体是可以从Stratagene，LaJolla CA商购获得的pBluescriptII SK(-)和pBK-CMV，以及源自于pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly(Lathe等人，1987，Gene 57：193-201)的质粒。

另一方面，本公开内容提供了包含编码本公开内容的改进转氨酶多肽的多核苷酸的宿主细胞，该多核苷酸与用于在该宿主细胞中表达转氨酶的一个或更多个控制序列可操作地连接。在由本发明的表达载体所编码的转氨酶多肽的表达中使用的宿主细胞是本领域公知的并且包括但不限于：细菌细胞，诸如大肠杆菌、乳杆菌属、链霉菌属和鼠伤寒沙门氏菌(Salmonellatyphimurium)的细胞；真菌细胞，诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤酵母(Pichia pastoris)(ATCC获取号201178))；昆虫细胞诸如果蝇S2细胞和夜蛾(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞；以及植物细胞。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。

可以通过本领域已知的多种方法将用于表达转氨酶的多核苷酸引入细胞中。技术包括但不限于电穿孔、生物射弹粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合。用于将多核苷酸引入细胞中的多种方法将对技术人员是明显的。

示例性宿主细胞是大肠杆菌W3110。通过将编码改进的转氨酶的多核苷酸可操作地连入质粒pCK110900而产生表达载体，该多核苷酸在lacI阻抑物的控制下与lac启动子可操作地连接。该表达载体也包含P15a复制起点和氯霉素抗性基因。通过对在大肠杆菌W3110中包含主题多核苷酸的细胞进行氯霉素选择来分离这些细胞。

改进的转氨酶或编码这种多肽的多核苷酸可利用本领域技术人员常用的方法制备。如以上指出的，亲本序列SEQ ID NO：2源自于的节杆菌属KNK168野生型转氨酶的天然存在的氨基酸序列和编码节杆菌属KNK168野生型转氨酶的相应多核苷酸在美国专利号7,169,592可获得，其通过引用并入本文。在一些实施方案中，对亲本多核苷酸序列进行密码子优化以增强转氨酶在指定的宿主细胞中的表达。命名为SEQ ID NO：1的多核苷酸序列是用作大多数实验和工程化转氨酶的文库构建的起点的亲本序列。

通过使编码天然存在的转氨酶的多核苷酸经历诱变和/或定向进化方法，可以获得工程化转氨酶。示例性定向进化技术是如在Stemmer，1994，Proc Natl Acad Sci USA 91：10747-10751；WO 95/22625；WO 97/0078；WO97/35966；WO 98/27230；WO 00/42651；WO 01/75767和美国专利6,537,746(其每一个通过引用并入本文)中所述的诱变和/或DNA改组。

其他可以使用的定向进化方案包括但不限于：交错延伸过程(StEP)、体外重组(Zhao等人，1998，Nat.Biotechnol.16：258-261)、诱变PCR(Caldwell等人，1994，PCR Methods Appl.3：S136-S140)和盒式诱变(Black等人，1996，Proc Natl Acad Sci USA 93：3525-3529)。为了本文的目的可使用的诱变和定向进化技术还在以下参考文献中描述：Ling等，1997，“Approaches to DNA mutagenesis：an overview(DNA诱变方法：概述)，”Anal.Biochem.254(2)：157-78；Dale等，1996，“Oligonucleotide-directed randommutagenesis using the phosphorothioate method(利用磷硫酰方法的寡核苷酸定向随机诱变)，”Methods Mol.Biol.57：369-74；Smith，1985，“In vitromutagenesis(体外诱变)，”Ann.Rev.Genet.19：423-462；Botstein等，1985，“Strategies and applications of in vitro mutagenesis(体外诱变的策略和应用)，”Science 229：1193-1201；Carter，1986，“Site-directed mutagenesis(定位诱变)，”Biochem.J.237：1-7；Kramer等，1984，“Point Mismatch Repair(点错配修复)，”Cell 38：879-887；Wells等，1985，“Cassette mutagenesis：anefficient method for generation of multiple mutations at defined sites(盒式诱变：用于在指定位点产生多个突变的高效方法)，”Gene 34：315-323；Minshull等，1999，“Protein evolution by molecular breeding(通过分子育种的蛋白演化)，”Curr Opin Chem Biol 3：284-290；Christians等，1999，“Directed evolution of thymidine kinase for AZT phosphorylation using DNAfamily shuffling(利用DNA家族改组对腺苷激酶AZT磷酸化的定向进化)，”Nature Biotech 17：259-264；Crameri等，1998，“DNA shuffling of a family ofgenes from diverse species accelerates directed evolution(从多种物种的基因家族DNA改组加速定向进化)，”Nature 391：288-291；Crameri等，1997，“Molecular evolution of an arsenate detoxification pathway by DNA shuffling(通过DNA改组分子进化砷酸解毒途径)，”Nature Biotech 15：436-438；Zhang等，1997，“Directed evolution of an effective fructosidase from agalactosidase by DNA shuffling and screening(通过DNA改组和筛选从半乳糖苷酶定向进化有效的果糖苷酶)，”Proc Natl Acad Sci USA 94：45-4-4509；Crameri等，1996，“Improved green fluorescent protein by molecular evolutionusing DNA shuffling(利用DNA改组通过分子进化改进的绿色荧光蛋白)，’Nature Biotech 14：315-319；和Stemmer，1994，“Rapid evolution ofa protein invitro by DNA shuffling(通过DNA改组蛋白的体外快速进化)，”Nature370：389-391。所有出版物通过引用并入本文。

在一些实施方案中，对诱变处理后获得的克隆筛选具有期望的改进酶特性的转氨酶。测量来自表达文库的转氨酶酶活性可以使用标准技术进行，诸如分离产物(如，通过HPLC)和通过测量分离的底物和产物的UV吸光度来检测产物和/或通过利用串联质谱(如，MS/MS)检测。示例性的测定在以下实施例4描述。每单位时间期望产物的增加比率指示在固定量的溶胞产物(或由其制成的冻干粉末)中转氨酶多肽的相对(酶)活性。在期望的改进酶特性是热稳定性的情况下，可以在使酶制品经历限定的温度并测量热处理后剩余的酶活性的量之后测量酶活性。然后对包含编码期望的转氨酶的多核苷酸的克隆进行分离，测序，以识别核苷酸序列的改变(如果有的话)，并将这些克隆用于在宿主细胞中表达酶。

在工程化多肽的序列为已知的情况下，可以根据已知的合成方法通过标准固相方法制备编码酶的多核苷酸。在一些实施方案中，高达大约100个碱基的片段能够单独合成，然后连接(例如，通过酶连接或化学连接方法或聚合酶介导的方法)形成任何期望的连续序列。例如，可以使用例如由Beaucage等人，1981，Tet Lett 22：1859-69所描述的经典亚磷酰胺方法或由Matthes等人，1984，EMBO J.3：801-05所描述的方法(例如，当它通常在自动化合成方法中实施时)通过化学合成来制备本发明的多核苷酸和寡核苷酸。根据亚磷酰胺方法，例如在自动化DNA合成器中合成寡核苷酸，纯化，退火，连接并克隆在适当载体中。此外，基本上任何核酸都可以从各种商业来源中的任何一种获得，The Great American Gene Company，Ramona，CA、ExpressGen Inc.Chicago，IL、Operon Technologies Inc.，Alameda，CA以及许多其他来源。

在宿主细胞中表达的工程化转氨酶可以使用任何一种或多种公知的蛋白质纯化技术从这些细胞中和或培养基中回收，所述公知的蛋白质纯化技术包括但不限于溶菌酶处理、超声处理、过滤、盐析、超离心和色谱。用于裂解和从细菌诸如大肠杆菌中高效提取蛋白的适宜溶液是从St.LouisMO的Sigma-Aldrich以商标名CelLytic B^TM可商业途径获得的。

用于分离转氨酶多肽的色谱技术包括但不限于反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件将部分取决于如下因素：诸如净电荷、疏水性、亲水性、分子量、分子形状等等，并且将对本领域技术人员是明显的。在一些实施方案中，工程化转氨酶可表达为与纯化标签或用于结合抗体的抗体标签如myc表位标签的融合蛋白，纯化标签诸如具有对金属的亲和力的His-标签。

在一些实施方案中，亲和技术可以用于分离改进的转氨酶。对于亲和色谱纯化，可以使用特异性结合转氨酶多肽的任何抗体。对于抗体的产生，可以通过用工程化多肽注射来免疫多种宿主动物，包括但不限于兔、小鼠、大鼠等等。可以将该多肽与适宜载体(诸如BSA)通过侧链官能基团或与侧链官能基团相连的连接物相连。多种佐剂可根据宿主物种用于提高免疫应答，包括但不限于弗氏(完全或不完全)佐剂，矿物凝胶诸如氢氧化铝，表面活性物质诸如溶血卵磷脂，多聚醇，聚阴离子，肽，油乳剂，匙孔血蓝蛋白，二硝基苯酚，以及可能有用的人佐剂诸如BCG(卡介苗)和短小棒状杆菌(Corynebacterium parvum)。

在另一方面，本文所述的改进的转氨酶多肽可用于在氨基供体存在时，将某些氨基受体(如，酮受体)转氨基的方法。为了描述本文的化合物，应用以下含义。

“烃基”意为包括直链或支链构型的指明长度的烃基。这种烃基的例子是甲基、乙基、丙基、异丙基、丁基、仲丁基、叔丁基、戊基、异戊基、己基、异己基等等。烃基是未取代的，或被独立选自由卤素、羟基、羧基、氨基羰基、氨基、C_1-4烃氧基和C_1-4烃基硫组成的组的一至三个基团取代。

“环烃基”意为是指5至12个总碳原子或在此范围内任何数目的烷烃的环(即，环戊基、环己基、环庚基、等等)。

“卤素”意为包括卤素原子氟、氯、溴和碘。

“芳基”意为是指芳香族基团，包括苯基和萘基。“芳基”是未取代的，或被独立选自氟、羟基、三氟甲基、氨基、C_1-4烃基和C_1-4烃氧基的一至五个取代基取代。

“杂芳基”是指包含至少一个选自O、S或N的环杂原子的5-或6-元芳香族杂环。杂芳基还包括杂芳基与非芳香族的其他类型环诸如芳基、环烃基和杂环稠合。杂芳基的例子包括但不限于吡咯基、异噁唑基、异噻唑基、吡唑基、吡啶基、噁唑基、1，2，4-噁二唑基、1，3，4-噁二唑基、噻二唑基、噻唑基、咪唑基、三唑基、四唑基、呋喃基、三嗪基、噻吩基、嘧啶基、吡嗪基、苯并异噁唑基、苯丙噁唑基、苯并噻唑基、苯并噻二唑基、二氢苯并呋喃基、二氢吲哚基、哒嗪基、吲唑基、异吲哚基、二氢苯并噻吩基、吲嗪基、噌啉基、酞嗪基、喹唑啉基、萘啶基、咔唑基、苯并二氧代基、喹喔啉基、嘌呤基、呋吖基、异苄基呋喃基、苯并咪唑基、苯并呋喃基、苯并噻吩基、喹啉基、吲哚基、异喹啉基和二苯并呋喃基。“杂芳基”是未取代的，或被独立选自氟、羟基、三氟甲基、氨基、C_1-4烃基和C_1-4烃氧基的一至五个取代基取代。

在一些实施方案中，转氨酶可用在制备结构式(I)化合物的方法中：

所述结构式(I)化合物在标为*的立体中心具有所示的立体化学构型；所述结构式(I)化合物与相对的对映异构体相比为至少70％对映体过量，其中

Z是OR²或NR²R³；

R¹是C_1-8烃基、芳基、杂芳基、芳基-C_1-2烃基或杂芳基-C_1-2烃基；

R²和R³与它们连接的氮原子一起形成4-至7-元杂环系统，所述杂环系统任选地包含选自O、S、NH和NC_0-4烃基的另外的杂原子，所述杂环是未取代的，或被独立选自氧、羟基、卤素、C_1-4烃氧基和C_1-4烃基的一至三个取代基取代，其中所述烃基和烃氧基是未取代的，或被一至五个氟取代；且所述杂环系统任选地与5-至6-元饱和或芳香族碳环系统或包含选自O、S或NC_0-4烃基的一至二个杂原子的5-至6-元饱和或芳香族杂环系统稠合，所稠合的环系统是未取代的，或被选自羟基、氨基、氟、C_1-4烃基、C_1-4烃氧基和三氟甲基的一至二个取代基取代。在这些实施方案中，所述方法包括在适于转化式(II)化合物为式(I)化合物的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(II)的前手性酮：

与本文公开的改进的转氨酶多肽接触的步骤。

在该方法的一些实施方案中，式(II)的R¹是苄基，其中苄基的苯基是未取代的，或被选自由氟、三氟甲基和三氟甲氧基组成的组的一至三个取代基取代。

在该方法的一些实施方案中，式(II)的Z是NR²R³。

在该方法的一些实施方案中，式(II)的NR²R³是结构式(III)的杂环：

其中R⁴是氢、或未取代的C_1-4烃基、或被一至五个氟取代的C_1-4烃基。

在一些实施方案中，转氨酶可用在制备结构式(1)化合物的方法中：

Ar是未取代的苯基、或被独立地选自由氟、三氟甲基和三氟甲氧基组成的组的一至五个取代基取代的苯基；且

R⁴是氢、或未取代的C_1-4烃基、或被一至五个氟取代的C_1-4烃基。在这样的实施方案中，所述方法包括在适于转化式(2)化合物为式(1)化合物的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(2)的前手性酮：

与本文公开的改进的转氨酶多肽接触的步骤。

在该方法的一些实施方案中，式(2)的Ar是2，5-二氟苯基或2，4，5-三氟苯基且R⁴是三氟甲基。

在该方法的一些实施方案中，式(2)的Ar是2，4，5-三氟苯基。

在一些实施方案中，转氨酶可用在制备对映体过量的式(1a)化合物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的方法中：

与本文公开的改进的转氨酶多肽接触的步骤。

在以上方法的一些实施方案中，式(I)化合物、式(1)化合物或式(1a)化合物以至少70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大对映体过量产生。

在所述方法的一些实施方案中，式(I)化合物、式(1)化合物或式(1a)化合物以至少99％对映体过量产生。

在该方法的一些实施方案中，改进的转氨酶选自SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168。

式(II)化合物、式(2)化合物和式(2a)化合物以及它们的合成，除了其他以外，描述在美国专利号7,326,708和7,468,459，其公开内容通过引用全文并入本文。

如以上指出的，本文的转氨酶多肽使用吡哆醛磷酸(PLP)作为辅酶，辅酶在制备时可结合于酶，如由在其中表达多肽的宿主细胞提供。在一些实施方案中，可在转氨酶肽表达期间将PLP、PLP类似物或PLP前体加到宿主细胞培养基。在该方法的一些实施方案中，可向反应加入PLP或PLP类似物以提供酶活性所需的辅酶。对于酶活性足够的PLP的量可由本领域技术人员确定。

在一些实施方案中，该方法包括在适当的反应条件下，在氨基供体存在下，将酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮与改进的转氨酶接触或孵育，以转化酮酰胺底物为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，转化率和/或活性为SEQ ID NO：4的50至100倍或更大。示例性多肽包括对应SEQ ID NO：16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在一些实施方案中，该方法包括在适当的反应条件下，在氨基供体存在下，将酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮与改进的转氨酶接触或孵育，以转化酮酰胺底物为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，转化率和/或活性为SEQ ID NO：22的1.1至5倍或更大。示例性多肽包括对应SEQ ID NO：28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在一些实施方案中，该方法包括在适当的反应条件下，在氨基供体存在下，将酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮与改进的转氨酶接触或孵育，以转化酮酰胺底物为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，转化率和/或活性为SEQ ID NO：48的1.1至5倍或更大。示例性多肽包括对应SEQ ID NO：50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在一些实施方案中，该方法包括在适当的反应条件下，在氨基供体存在下，将酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮与改进的转氨酶接触或孵育，以转化酮酰胺底物为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺，转化率和/或活性为SEQ ID NO：58的1.1至5倍或更大。示例性多肽包括对应SEQ ID NO：68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在以上方法的一些实施方案中，用于进行方法的反应条件可包括pH为约7.0至约9.0。在一些实施方案中，用于方法的反应条件是pH为约8.5。

在一些实施方案中，用于进行方法的反应条件可包括温度为约25℃至约50℃。在一些实施方案中，反应条件是温度为约45℃。

在一些实施方案中，反应条件是pH为约8.5且温度为约45℃。

在该方法的一些实施方案中，有机溶剂包括极性溶剂，诸如甲醇或DMSO。

在一些实施方案中，有机溶剂是DMSO，其可以约10％至约40％的体积/体积(v/v)；约25％至约40％(v/v)；10％至约50％(v/v)或约25％至约50％(v/v)DMSO存在。在一些实施方案中，DMSO以约30％v/v、35％v/v、40％v/v、45％v/v或约50％v/v存在。

如以上讨论的，该方法中所用的氨基供体可以是手性胺或非手性胺。非手性氨基供体具有的益处是不限制其反应于特定的立体异构体，从而需要的氨基供体较少。可使用多种适合的氨基供体，通过示例的方式包括但不限于，异丙胺(也称为2-氨基丙烷)、L、D或DL丙氨酸、苯丙氨酸、谷氨酸、谷氨酰胺、亮氨酸(或任何其他适合的α-氨基酸)、3-氨基丁酸(或任何其他适合的β-氨基酸)和甲基苄胺。在一些实施方案中，氨基供体是异丙胺。在一些实施方案中，可使用其他氨基供体，除了其他以外，包括α-苯乙胺(也称为1-苯基乙胺)和其对映异构体(S)-1-苯基乙胺和(R)-1-苯基乙胺、2-氨基-4-苯基丁烷、甘氨酸、L-谷氨酰胺、L-谷氨酸、谷氨酸单钠、L-天冬氨酸、L-赖氨酸、L-鸟氨酸、β-丙氨酸、牛磺酸、正辛胺、环己胺、1，4-丁二胺、1，6-己二胺、6-氨基己酸、4-氨基丁酸、酪胺和苄胺、2-氨基丁烷、2-氨基-1-丁醇、1-氨基-1-苯基乙烷、1-氨基-1-(2-甲氧基-5-氟苯基)乙烷、1-氨基-1-苯基丙烷、1-氨基-1-(4-羟基苯基)丙烷、1-氨基-1-(4-溴苯基)丙烷、1-氨基-1-(4-硝基苯基)丙烷、1-苯基-2-氨基丙烷、1-(3-三氟甲基苯基)-2-氨基丙烷、2-氨基丙醇、1-氨基-1-苯基丁烷、1-苯基-2-氨基丁烷、1-(2，5-二甲氧基-4-甲基苯基)-2-氨基丁烷、1-苯基-3-氨基丁烷、1-(4-羟基苯基)-3-氨基丁烷、1-氨基-2-甲基环戊烷、1-氨基-3-甲基环戊烷、1-氨基-2-甲基环己烷、1-氨基-1-(2-萘基)乙烷、3-甲基环戊胺、2-甲基环戊胺、2-乙基环戊胺、2-甲基环己胺、3-甲基环己胺、1-氨基萘满、2-氨基萘满、2-氨基-5-甲氧基萘满和1-氨基茚满，可能时包括(R)和(S)单独异构体，并包括这些胺的所有可能的盐。

在以上方法的一些实施方案中，该方法中的步骤还可包括去除当氨基被转移到氨基受体时从氨基供体形成的羰基副产物。这种原位去除可减少副反应率，从而正向反应占主导，因此更多底物被转化为产物。

羰基副产物的去除可以许多方式进行。当氨基供体是氨基酸诸如丙氨酸时，羰基副产物是酮酸，可通过与过氧化物反应来去除(参见如，US2008/0213845，通过引用并入本文)。可使用的过氧化物，除了其他以外，包括过氧化氢；过氧酸类(过酸)诸如过乙酸(CH₃CO₃H)、三氟过乙酸和间氯过氧苯甲酸；有机过氧化物诸如叔丁基过氧化物((CH₃)₃COOH)或其他选择性氧化剂诸如四丙基高钌酸铵、MnO₂、KMnO₄、四氧化钌和相关化合物。可选地，丙酮酸的去除可通过利用乳酸脱氢酶将其还原为乳酸来实现，以将平衡转移到产物胺(参见如，Koszelewski等，2008，Adv.Syn.Catal.350：2761-2766)。丙酮酸的去除还可通过利用丙酮酸脱羧酶将其脱羧为二氧化碳和乙醛来实现(参见如，等，2008，Chem BioChem 9：363-365)。

在一些实施方案中，当选择的氨基供体产生的羰基副产物比水的蒸气压高时(如，低沸点副产品诸如挥发性有机羰基化合物)，羰基副产物可通过向反应溶液充入非反应性气体，或通过施加真空来降低反应压力，并去除气相中存在的羰基副产物来去除。非反应性气体是不与反应组分相互作用的任何气体。各种非反应性气体包括氮气和稀有气体(如，惰性气体)。在一些实施方案中，非反应性气体是氮气。

在一些实施方案中，该方法中使用的氨基供体是异丙胺，其在向氨基受体传递氨基时形成羰基副产物丙酮。丙酮可通过向反应溶液充入氮气或施加真空，并通过丙酮捕集器，诸如冷凝器或其他冷捕集器从气相去除丙酮来去除。可选地，丙酮可通过利用酮还原酶还原为异丙醇来去除。

在其中去除羰基副产物的以上方法的一些实施方案中，在转氨基反应期间可加入相应氨基供体以补充氨基供体和/或维持反应的pH。补充氨基供体还将平衡向产物形成转移，从而增加底物向产物的转化。因此，在一些实施方案中，其中氨基供体是异丙胺，丙酮产物被原位去除，可向溶液加入异丙胺以补充丙酮去除期间失去的氨基供体并维持反应的pH(如，在约8.5)。可选地，在氨基酸用作氨基供体的实施方案中，酮酸羰基副产物可通过利用适当的氨基酸脱氢酶与氨和NADH反应来再循环为氨基酸，从而补充氨基供体。

在一些实施方案中，用于转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮为产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的方法包括，在约1M至约2M的异丙胺存在下，在pH 7.5至9.0、30至50℃的温度的反应条件下，将约10至50g/L的酮酰胺底物与约1至20g/L的本文所述转氨酶接触，其中在24小时中至少80％、85％、90％、92％、94％、96％或98％或更多的酮酰胺底物被转化为产物。在一些实施方案中，能够进行上述反应的转氨酶多肽包括对应SEQ ID NO：80、86、96、98、100、102、110或166的氨基酸序列。

在一些实施方案中，以上方法还可包括从反应溶剂分离结构式(I)化合物、结构式(1)化合物或结构式(1a)化合物的步骤。

在一些实施方案中，以上方法还可包括转化结构式(1)化合物或结构式(1a)化合物为药学上可接受的盐的步骤，通过在适当的反应溶剂中将所述化合物与药学上可接受的酸接触。在一些实施方案中，药学上可接受的酸是磷酸，药学上可接受的盐是二氢磷酸盐。在一些实施方案中，(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺的盐是具有以下化学式的磷酸盐一水合物：

在一些实施方案中，在用于制备(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺磷酸盐(1∶1)一水合物的方法中，该方法的改进包括在适当的反应条件下，在适当有机溶剂中，在氨基供体存在下，以本公开内容的转氨酶多肽转化式(1a)化合物为式(2a)化合物的步骤，其中式(1a)化合物是

且式(2a)化合物是：

在制备磷酸盐一水合物的一些实施方案中，氨基供体是异丙胺。

用于制备各种盐的方法描述于美国专利号7,326,708和7,468,459，其每一个通过引用并入本文。用于制备西他列汀的磷酸盐一水合物的示例方法在实施例13提供。

在一些实施方案中，该方法还可包括从反应溶剂结晶药学上可接受的盐的步骤。

本文还提供了转氨酶与底物/产物的组合物。在一些实施方案中，组合物可包括式(I)化合物、式(1)化合物或式(1a)化合物、和本公开内容的改进的转氨酶。任何一种或多种改进的工程化转氨酶可以是组合物的部分。

在一些实施方案中，组合物可包括式(II)化合物、式(2)化合物或式(2a)化合物、和本文所述的改进的转氨酶。

在一些实施方案中，组合物还可包括氨基供体，如式(3)的氨基供体。在组合物的一些实施方案中，氨基供体可包括异丙胺、丙氨酸、3-氨基丁酸或甲基苄胺。在组合物的一些实施方案中，氨基供体是异丙胺。

7.实施例

本公开内容的多个特征和实施方案在以下代表性实施例中被举例说明，这些代表性实施例旨在举例说明而不是限制性的。

实施例1：野生型转氨酶基因的获取和表达载体的构建

基于报道的转氨酶的氨基酸序列和美国专利申请公开20080248539(其通过引用并入本文)实施例1所述的密码子优化算法，为在大肠杆菌中表达而设计转氨酶(TA)编码基因。基因利用通常包括42个核苷酸的寡核苷酸合成，将基因克隆到表达载体pCK110700(描绘为美国专利申请公开20050153417的图1，其通过引用并入本文)或pCK110900(描绘为美国专利申请公开20060195947的图3，其通过引用并入本文)中处于lac启动子控制下。这一表达载体还包含P15a复制起点和氯霉素抗性基因。利用标准方法将所得质粒转化到大肠杆菌W3110中。密码子优化的基因和编码的多肽列在表2中，其序列以SEQ ID NO：1和SEQ ID NO：2提供。

同样地，将编码本公开内容的工程化转氨酶、列在表2的基因(SEQ IDNO：3-168)克隆到载体pCK110700或pCK110900以在大肠杆菌W3110中表达。

实施例2：转氨酶粉末的产生-摇瓶方案

将包含编码目标转氨酶的质粒的大肠杆菌的单个微生物菌落接种到含30μg/mL氯霉素和1％葡萄糖的50mL Luria Bertani肉汤中。细胞在培养箱(incubator)中在30℃生长过夜(至少16小时)，伴随以250rpm摇动。将培养物稀释到1升烧瓶中含30μg/mL氯霉素和100μM吡多辛的250mL M9YE(1.0g/L氯化铵、0.5g/L氯化钠、6.0g/L磷酸氢二钠、3.0g/L磷酸二氢钾、2.0g/L Tastone-154酵母提取物、1L/L去离子水)中，至600nm的光密度(OD600)为0.2，并允许在30℃生长。当培养物的OD600是0.6至0.8时，通过加入异丙基βD-硫代半乳糖苷(IPTG)至终浓度1mM来诱导转氨酶基因的表达，然后培养持续过夜(至少16小时)。通过离心(5000rpm、15min、4℃)收集细胞，丢弃上清液。将细胞沉淀重悬在等体积的冷的(4℃)含100或500μM吡哆醛5’-磷酸(PLP)的100mM三乙醇胺(氯化物)缓冲液、pH 7.5中，如上述通过离心收集。将洗涤的细胞重悬在两体积的冷的含PLP的三乙醇胺(氯化物)缓冲液中，以12,000psi通过French Press两次并保持在4℃。通过离心(9000rpm、45min.、4℃)去除细胞碎片。收集澄清的裂解物上清液，储存在-20℃。对冷冻的澄清裂解物的冷冻干燥提供了粗制转氨酶干粉。可选地，细胞沉淀(洗涤前或洗涤后)可储存在4℃或80℃。

实施例3：转氨酶的产生-发酵方案

将包含带有目标转氨酶基因的质粒的大肠杆菌的单个微生物菌落接种到含30μg/mL氯霉素和1％葡萄糖的2mL M9YE肉汤(1.0g/L氯化铵、0.5g/L氯化钠、6.0g/L磷酸氢二钠、3.0g/L磷酸二氢钾、2.0g/L Tastone-154酵母提取物、1L/L去离子水)中。细胞在培养箱中在37℃生长过夜(至少12小时)，伴随以250rpm摇动。过夜生长后，将0.5mL的此培养物稀释到1升烧瓶中含30μg/ml氯霉素和1％葡萄糖的250ml M9YE肉汤中，允许在37℃生长，伴随以250rpm摇动。当培养物的OD600是0.5至1.0时，从培养箱取出细胞，立即使用或储存在4℃。

小型发酵利用6.0L生长培养基(0.88g/L硫酸铵、0.98g/L柠檬酸钠；12.5g/L磷酸氢二钾三水合物、6.25g/L磷酸二氢钾、3.3g/L Tastone-154酵母提取物、0.083g/L柠檬酸铁铵、和8.3ml/L含2g/L氯化钙二水合物、2.2g/L硫酸锌七水合物、0.5g/L硫酸锰一水合物、1g/L硫酸亚铜七水合物、0.1g/L钼酸铵四水合物和0.02g/L四硼酸钠的微量元素溶液)在通气、搅动的15L发酵罐中在30℃进行。在121℃和15PSI将容器灭菌30分钟，灭菌后加入100μM吡多辛。向发酵罐接种包含编码目标转氨酶基因的质粒的大肠杆菌W3110的指数晚期培养物(生长在如上述的摇瓶中至初始OD₆₀₀为0.5至1.0)。以250-1250rpm搅动发酵罐，以0.6-25L/min向发酵容器供应空气以保持溶解氧水平为50％饱和或更大。通过加入20％v/v氢氧化铵保持培养物的pH在7.0。培养物的生长通过加入含500g/L工业葡萄糖右旋糖、12g/L氯化铵和5.1g/L硫酸镁七水合物的进料溶液来维持。培养物达到OD₆₀₀为70+-10后，通过加入异丙基-β-D-硫代半乳糖苷(IPTG)至终浓度1mM来诱导转氨酶的表达，发酵继续另外的18小时。然后将培养物冷却到4℃，保持在这一温度直到收获。通过在Sorval RC12BP离心机中在4℃以5000G离心40分钟来收集细胞。收获的细胞直接用于以下下游回收工艺，或可在4℃储存或在-80℃冷冻直到这样使用。

在4℃将细胞沉淀以每体积的湿细胞糊重悬在2体积的含100或500μM吡哆醛5’-磷酸(PLP)的100mM三乙醇胺(氯化物)缓冲液、pH 7.5中。利用12000psig的压力将悬液通过配备有两阶段匀浆阀组件的匀浆器来从细胞释放细胞内转氨酶。破裂后立即将细胞匀浆冷却到-20℃。向溶解物加入11％w/v聚乙烯亚胺pH 7.2溶液至终浓度为0.5％w/v。向溶解物加入1M Na₂SO₄溶液至终浓度为100mM。然后搅拌溶解物30分钟。通过在Sorval RC12BP离心机中在4℃以5000G离心30分钟来澄清所得的悬液。澄清上清液被倾析，并利用分子量截留为30kD的纤维素超滤膜浓缩10倍。将最终浓缩物分配到浅容器中，在-20℃冷冻并冻干为粉末。将转氨酶粉末在-80℃冷冻。

实施例4：用于鉴定能够立体选择性地转化酮酰胺底物为西他列汀的节杆菌属KNK168转氨酶变体的高通量筛选

确定酮酰胺底物向西他列汀转化的非手性HPLC方法：酮酰胺底物(如美国专利号7,326,708中所述地制备)向西他列汀的酶促转化利用配备有Agilent Eclipse XDB-C8柱(4.6×150mm、5μm)的Agilent 1200HPLC确定，利用45∶55的10mM NH₄Ac/MeCN作为洗脱液，流速为1.5ml/min，柱温度为40℃。保留时间：酮酰胺底物：1.7min；西他列汀：1.4min。洗脱物中的酮酰胺底物和产物确定为在210nm或286nm处的峰面积，光程长为1cm。利用这些条件，西他列汀的检测限是5μg/mL。通常，210nm的入射波长用于活性类似或等于SEQ ID NO：4的转氨酶的活性测量。

确定西他列汀的立体纯度的手性HPLC方法：西他列汀的立体异构体纯度利用配备有Daicel Chiralpak AD-H柱(4.6×150mm、5μm)的Agilent1200HPLC确定，利用60∶40∶0.1∶0.1的EtOH/庚烷/二乙胺/水作为洗脱液，流速为0.8ml/min，柱温度为35℃。保留时间：酮酰胺底物：6.3min；(S)-对映异构体：8.4min；西他列汀：10.8min。酮酰胺底物和产物确定为在210nm或286nm处的峰面积，光程长为1cm。

检测酮酰胺底物向西他列汀的低水平转化的液相色谱-质谱(LC/MS) 方法：酮酰胺底物向西他列汀的低水平酶促转化利用LC/MS/MS方法确定。将5毫升样品上样到Eclipse XDB-C8HPLC柱(4.6×150mm)，用0.2％甲酸铵和甲醇的40∶60流动相以1.0mL/min等度(isocratically)洗脱。在35℃，西他列汀的保留时间是1.5分钟。质谱法用来在Waters Quattrotriple quadruple上检测。Q1设置为通过408.1AMU的M+H离子，Q3设置为通过235.1AMU的子离子。碰撞室(Q2)具有的碰撞能量是17.0，氩气流是0.3mL/min。离子化是通过APCI，电晕放电为5μA，源温度是130℃，探测温度是600℃。去溶剂化的气流是100L/分钟，锥孔气流设置为50L/分钟。利用这些条件，西他列汀的检测限是71pg/mL。

实施例5：用于鉴定能够立体选择性地转化酮酰胺底物为西他列汀的节杆菌属KNK168转氨酶变体的高通量筛选

利用上述方法诱变如实施例1所述地构建的编码转氨酶的基因，改变的DNA分子群体用于转化适当的大肠杆菌宿主菌株。选择和加工抗生素抗性转化体以鉴定表达具有在适当的氨基供体(即，异丙胺)存在下，将酮酰胺底物立体选择性地转氨基为西他列汀的改进的能力的转氨酶的转化体。细胞选择、生长、诱导转氨酶变体酶表达和收集细胞沉淀如以下所述。

利用Q-Bot自动菌落挑取器(Genetix USA，Inc.，Boston，MA)将携带编码转氨酶的基因的重组大肠杆菌菌落挑取到96孔的浅孔微量滴定板，每孔中包含180μL LB肉汤、1％葡萄糖和30μg/mL氯霉素(CAM)。细胞在30℃生长过夜，伴随以200rpm摇动。然后将此培养物的10μL等份转移到包含390μL M9YE肉汤、100μM吡多辛和30μg/mL CAM的96-深孔板中。在30℃伴随以250rpm摇动培养深孔板2-3小时后，通过加入IPTG至终浓度1mM来诱导培养细胞中的重组基因表达。然后在30℃伴随以250rpm摇动培养板18小时。

细胞通过离心(4000RPM，10min，4℃)沉淀，重悬在200μL裂解缓冲液中，通过在室温摇动2小时而裂解。裂解缓冲液包含100mM三乙醇胺(氯化物)缓冲液、pH 7.5或8.5、1mg/mL溶菌酶、500μg/mL硫酸多粘菌素B(PMBS)和100至4000μM PLP。用铝/聚苯乙烯薄片热封带(Velocity 11，Menlo Park，CA，目录号06643-001)密封板后，在室温剧烈摇动板2小时。细胞碎片通过离心(4000RPM，10min.，4℃)沉淀，直接检验澄清上清液，或在4℃储存直到使用。

对于在pH 7.5的甲醇或DMSO中筛选早期工程化转氨酶(即，早期“进化子”)，将酮酰胺底物(40mg/mL)在甲醇或DMSO中的溶液的10μL等份加入Costar深孔板的每个孔，随后利用Biomek NXp自动仪器(Beckman Coulter，Fullerton，CA)加入90μL 1.1M异丙胺盐酸盐。然后，随后也利用Biomek NXp进行100μL回收的溶解物上清液的加入，以提供包括2mg/ml酮酰胺底物、500mM异丙胺盐酸盐、50mM三乙醇胺pH 7.5和5％甲醇或DMSO(v/v)的反应。在175℃用铝/聚苯乙烯薄片热封带(Velocity 11，Menlo Park，CA，目录号06643-001)热密封板2.5秒，然后在30℃摇动过夜(至少16小时)。通过利用Phoenix液体操纵系统(ArtRobbins Instruments，Sunnyvale，CA)加入1ml乙腈来猝灭反应。重新密封板，摇动5min，然后以4000rpm离心10min。将澄清的反应混合物的200μL等份转移到新的浅孔聚丙烯板(Costar#3365)，如实施例4所述地密封和分析。

对于在pH 8.5的25％DMSO中筛选晚期工程化转氨酶(即，晚期“进化子”)，将酮酰胺底物(400mg/mL)在二甲基亚砜(DMSO)中的溶液的50μL等份加入Costar深孔板的每个孔，随后利用Biomek NXp自动仪器(Beckman Coulter，Fullerton，CA)加入50μL 4M异丙胺盐酸盐。然后，随后也利用Biomek NX进行100μL回收的溶解物上清液的加入，以提供包括100mg/ml酮酰胺底物、1M异丙胺盐酸盐、50mM三乙醇胺pH 8.5和25％DMSO(v/v)的反应。在175℃用铝/聚苯乙烯薄片热封带(Velocity11，Menlo Park，CA，目录号06643-001)热密封板2.5秒，然后在45℃摇动过夜(至少16小时)。通过利用Phoenix液体操纵系统(Art RobbinsInstruments，Sunnyvale，CA)加入1ml乙腈来猝灭反应。重新密封板，摇动5min，然后以4000rpm离心10min。将澄清的反应混合物的10μL等份转移到含190μL乙腈的新的浅孔聚丙烯板(Costar#3365)，如实施例4所述地密封和分析。

对于在pH 8.5的50％DMSO中筛选晚期工程化转氨酶(即，晚期“进化子”)，将酮酰胺底物(100mg/mL)在二甲基亚砜(DMSO)中的溶液的100μL等份加入Costar深孔板的每个孔，随后利用Biomek NXp自动仪器(Beckman Coulter，Fullerton，CA)加入50μL 4M异丙胺盐酸盐。然后，随后也利用Biomek NX进行50μL回收的溶解物上清液的加入，以提供包括50mg/ml酮酰胺底物、1M异丙胺盐酸盐、50mM三乙醇胺pH 8.5和50％DMSO(v/v)的反应。在175℃用铝/聚苯乙烯薄片热封带(Velocity11，Menlo Park，CA，目录号06643-001)热密封板2.5秒，然后在45℃摇动过夜(至少16小时)。通过利用Phoenix液体操纵系统(Art RobbinsInstruments，Sunnyvale，CA)加入1ml乙腈来猝灭反应。重新密封板，摇动5min，然后以4000rpm离心10min。将澄清的反应混合物的10μL等份转移到含190μL乙腈的新的浅孔聚丙烯板(Costar#3365)，如实施例4所述地密封和分析。

利用实施例4的检测方法，如实施例1和2中表达的SEQ ID NO：2的转氨酶表现出对酮酰胺底物没有可检测的活性。利用以上公开的方法和方案鉴定能够转化酮酰胺底物为西他列汀的节杆菌属KNK168转氨酶的变体。这些方法的多次迭代，其中来自一轮的一个或多个改进的分离株用作下一轮诱变和筛选的起始材料，用来开发或“进化”具有立体选择性地还原酮酰胺底物为西他列汀的改进的能力的节杆菌属KNK168转氨酶变体。

实施例6：在甲醇中酮酰胺底物被源自于节杆菌属KNK168转氨酶、在表2中标为“+”的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168转氨酶、在表2中标为“+”的改进的转氨酶以制备规模在DMSO中如下评价。向配备有磁性搅拌棒的5mL反应瓶加入500μL转氨酶变体(20mg/mL)在100mM三乙醇胺-氯化物缓冲液pH7.5中的溶液和250μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入450μL1.1M异丙胺盐酸盐，随后加入50μL酮酰胺底物(40mg/mL)在DMSO中的溶液。在22℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“+”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO：4的酶相比针对酮酰胺底物的活性。

对于许多工程化转氨酶，酮酰胺底物向西他列汀的转化还可利用以适当浓度的氨基供体诸如D-丙氨酸、3-氨基丁酸或α-甲基苄胺来实现。

实施例7：在甲醇中酮酰胺底物被源自于节杆菌属KNK168、在表2中标为“++”的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168变体、在表2中标为“++”的改进的转氨酶以制备规模在甲醇中如下评价。向配备有搅拌棒的5mL反应瓶加入500μL转氨酶变体(20mg/mL)在100mM三乙醇胺-氯化物缓冲液pH 7.5中的溶液和250μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入450μL 1.1M异丙胺盐酸盐，随后加入50μL酮酰胺底物(40mg/mL)在甲醇中的溶液。在22℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“++”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO：4的酶相比针对酮酰胺底物的活性。

实施例8：在甲醇中酮酰胺底物被源自于节杆菌属KNK168、在表2中标为“+++”的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168变体、在表2中标为“+++”的改进的转氨酶以制备规模在甲醇中如下评价。向配备有搅拌棒的5mL反应瓶加入500μL转氨酶变体(20mg/mL)在100mM三乙醇胺-氯化物缓冲液pH 7.5中的溶液和250μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入450μL 2.2M异丙胺盐酸盐，随后加入50μL酮酰胺底物(100或200mg/mL)在甲醇中的溶液。在30℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“+++”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO：22的酶相比针对酮酰胺底物的活性。

实施例9：在甲醇中酮酰胺底物被源自于节杆菌属KNK168、在表2中标为“++++”的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168变体、在表2中标为“++++”的改进的转氨酶以制备规模在甲醇中如下评价。向配备有搅拌棒的5mL反应瓶加入500μL转氨酶变体(20mg/mL)在100mM三乙醇胺-氯化物缓冲液pH 8.5中的溶液和250μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入400μL 2.5M异丙胺盐酸盐，随后加入100μL酮酰胺底物(200mg/mL)在甲醇中的溶液。在45℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“++++”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO：48的酶相比针对酮酰胺底物的活性。

实施例10：在DMSO中酮酰胺底物被源自于节杆菌属KNK168、在表2中标为“+++++”的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168变体、在表2中标为“+++++”的改进的转氨酶以制备规模在DMSO中如下评价。向配备有搅拌棒的5mL反应瓶加入250μL转氨酶变体(20mg/mL)在100mM三乙醇胺-氯化物缓冲液pH 8.5中的溶液和250μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入500μL 2M异丙胺盐酸盐，随后加入250μL酮酰胺底物(200mg/mL)在DMSO中的溶液。在45℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“+++++”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO：58的酶相比针对酮酰胺底物的活性。

实施例11：在DMSO中酮酰胺底物被源自于节杆菌属KNK168、在表2中标为“++++++”的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168变体、在表2中标为“++++++”的改进的转氨酶以制备规模在DMSO中如下评价。向配备有搅拌棒的5mL反应瓶加入250μL转氨酶变体(8mg/mL)在100mM三乙醇胺-氯化物缓冲液pH 8.5中的溶液和4000μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入250μL 4M异丙胺盐酸盐，随后加入500μL酮酰胺底物(100mg/mL)在DMSO中的溶液。在45℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“++++++”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO：104的酶相比针对酮酰胺底物的活性。

实施例12：用于转化酮酰胺底物为西他列汀的方法I

以下实施例说明了用于增加底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮向产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺转化的大规模方法。这一方法利用充氮气来去除丙酮副产品和增加底物向产物的转化。加入水中的异丙胺帮助保持体积恒定和维持反应的pH。

该大规模方法包含以下反应成分：

底物酮酰胺：	20g(98％)(48.2nmol)
		异丙胺-HCl：	18.44g(193nmol)
吡哆醛磷酸PLP：	200mg(98％)(0.79nmol)
		转氨酶(SEQ ID NO：86)：	2.2g
0.1M三乙醇胺pH 8.5：	140mL
		DMSO：	20mL+40mL
4M异丙胺(游离碱)：	38.5mL

方法.向带有4-挡板，配有搅拌器、pH探头、温度探头、充氮气的针头和真空针头的500mL三颈圆底(RB)烧瓶加入18.25g异丙胺盐酸盐(4当量)，随后加入200mg吡哆醛5’-磷酸水合物(维生素B6)。将此溶解在140mL pH 8.5、0.1M三乙醇胺缓冲的水中。加入DMSO(20ml)，随后加入2g转氨酶(SEQ ID NO：86)粉末。将溶液带到45℃，再次用4M异丙胺水溶液调整pH到8.5。在稳定后(～5min.)，经3h加入20g底物溶解在40mL DMSO中的溶液。在加入和整个反应期间，pH不断下降。当pH下降多于0.1个单位时通过持续加入4M异丙胺水溶液来控制pH。另外，在2h后直到12h，向反应充入氮气。21h后，转化是93％。在方法期间向反应加入共38.5mL 4M异丙胺(3.056当量)。pH控制单元具有热电偶、pH探头和水中4M异丙胺来控制pH。

产物混合物中存在的底物-产物烯胺加合物杂质(在以下所述的分离条件下保留时间为4.1min)通过用10.5mL 6N HCl酸化混合物至pH 2.0，随后在45℃搅拌1h来破坏。然后，加入6g硅藻土，搅拌另一小时，然后过滤通过硅藻土垫(85mm ID frit，润湿硅藻土的10mm厚垫)，用水/DMSO(90/10，加1滴6N HCl)搅动洗涤(4×30mL)。检验显示的产率为91％西他列汀和7％底物酮酰胺。

通过伴随搅拌加入200mL乙酸异丙酯(IPac)，随后加入32mL 5NNaOH直到pH为～11来进一步处理产物。分离各层(沉降有机层中的乳液35min)，用另外的200mL乙酸异丙酯萃取水层。用另外100mL乙酸异丙酯进行最终的萃取。合并所有三个乙酸异丙酯层，允许静置30min，排出残余的水。然后用150mL盐水洗涤有机层中的产物(静置＜1h)，分离，用Na₂SO₄干燥，然后过滤。将溶剂转变为异丙醇(66.29g异丙醇(IPA)溶液)。对终产物的检验显示以下：

26.8wt.％西他列汀(17.73g).

1.89wt.％酮酰胺底物(1.25g).

～60.3mL IPA

用于分离产物混合物的HPLC条件如下：

柱：Zorbax Eclipse Plus C18，4.6×50mm，1.8um

流速：1.5mL/min

柱温度：25℃

进样体积：5μL

检测器：UV210nm

用于HPLC分析的样品制备为1/1H₂O(0.1％H₃PO₄)/CH₃CN中0.2mg/mL。在以上色谱分析条件下的保留时间如下：

西他列汀：2.2min

酮酰胺底物：3.2min

酮酰胺底物(烯醇)：3.9min

底物-产物烯胺：4.1min

充入氮气去除了转氨基反应的产物丙酮，从而将转氨酶催化反应的平衡转移向产物形成，因而更高百分比的底物转化为产物。另外，持续加入异丙胺不仅维持反应条件的pH，而且补充转氨基反应中失去的氨基供体。尽管具有SEQ ID NO：86的转氨酶多肽用在该方法中，应理解的是，这一示例方法可采用本文公开的任何一种随后的工程化转氨酶。

实施例13：用于增加酮酰胺底物向西他列汀转化的方法II

以下实施例说明用于增加底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮向产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺转化的第二种大规模方法。这一方法利用真空来去除丙酮产物和增加底物向产物的转化。如同前一个实施例，加入水中的异丙胺帮助保持体积恒定和维持反应的pH。

材料.

反应成分	量	摩尔当量
			酮酰胺底物：	1000g(96％)(2.36摩尔)	1.0
异丙胺-HCL：	903g(9.45摩尔)	4.0
			吡哆醛磷酸PLP：	10g(98％)(0.04摩尔)	0.017
转氨酶(SEQ ID NO：102)：	50.0g
			三乙醇胺：	104g
DMSO：	1.5L+2L
			4M异丙胺水溶液(游离碱)：	157mL

用于该方法的设备具有以下特征：具有热电偶、pH探头和水中4M异丙胺储器的pH控制单元以控制pH。反应容器连接于真空管和相应控制器(设置为375托)以及ReactIR探头(Metter Toledo，Maryland，USA)来测量丙酮和产物形成。

方法.将22L机械搅拌的圆底(RB)烧瓶装备ReactIR探头、连接于4M异丙胺水溶液储器的碱供料管、连接于酮酰胺底物储器的酮酰胺供料管、pH探头、和连接于控制盒和捕集器(trap)的真空管。向烧瓶装入(charge)900g异丙胺盐酸盐，随后加入6.4L去离子水，加入93mL三乙醇胺(2m/s梢速)和10g吡哆醛5’-磷酸(pH 8.4)。随后向烧瓶加入50g溶解的具有SEQ ID NO：102的转氨酶多肽。在RT搅拌10min后，经30min加入1.5L DMSO，将反应器升温到40℃。在温度稳定后，用pH探头替换温度探头，用pH控制器和4M异丙胺溶液维持pH在pH 8.5。将酮酰胺底物(1Kg)溶解在2L DMSO中，放置在5L加料漏斗中。向反应容器施加真空(最初～500托，然后加入后375托过夜)，经4小时向反应器加入酮酰胺溶液(667mL/h)。25h后共加入1.45当量的异丙胺。有约94％的底物转化为产物。

允许反应进行1天后，向反应溶液加入580mL 5N HCl直到pH 2，在45℃搅拌溶液2小时。利用两层棉毛巾将溶液过滤通过宽直径的Buchner漏斗，获得12.3kg滤液。在0.01N HCl中5％DMSO中搅动过滤残余物，然后用另外3×2L 0.01N HCl中5％DMSO(共6.6kg)漂洗。将剩余物放置在酸性水溶液中，洗涤(共～18L)到萃取器中，然后放置到9L乙酸异丙酯中。用5N NaOH(1.4L)调整pH为10，在50L ChemGlass容器#1中以165RPM搅动溶液，允许各层静置约10min，分离出乙酸异丙酯。再次用9L乙酸异丙酯萃取溶液，合并萃取的乙酸异丙酯层，允许静置20h。用6L盐水(5.9kg)洗涤乙酸异丙酯层。检验IPAc溶液，含有861g西他列汀。在旋转真空蒸发器上经在30℃供应1h、浓缩到50％体积将溶剂从IPAc(19L IPAc中861g，90％检验产率)转变为IPA。此时，西他列汀游离碱从溶液沉淀出。加入2L IPA中1％水以溶解沉淀。在35-40℃浴温度经1h加入8L IPA中1％水。因为另外的沉淀形成，加入另外400mL水以溶解沉淀。允许溶液在旋转真空蒸发器上静置过夜，然后与另外2LIPA中1％水一起转移到另一圆底烧瓶。浓缩获得2.5746kg西他列汀的IPA/水溶液。

实施例14：制备磷酸西他列汀一水合物

磷酸西他列汀一水合物的制备说明如下：

用于制备磷酸西他列汀一水合物的材料如下：

反应成分	量	摩尔当量
			粗制物3	757g(1.86摩尔)	1.0
45％w/w H₃PO₄	411g(1.89摩尔)	1.02
			水	347+491+100mL	0.017
异丙醇	1.63+1.36+0.17+0.5+0.5+1.65L
			晶种	5g	0.005
88/12异丙醇/水	1.4L

方法.向在1630mL异丙醇和347mL水中含757g粗制物3的溶液加入1.36L异丙醇，随后加入491mL去离子水。将溶液转移到20L搅拌的容器中，然后装入411g 45％w/w H₃PO₄(Fisher 85％)和172mL IPA。将溶液加热到72-80℃以溶解最初的磷酸盐，装入另外100mL水和500mL异丙醇以完全溶解磷酸盐。将溶液冷却到62-66℃，以5g纯的磷酸西他列汀引晶(seeded)。允许反应在60-65℃静置3h，然后经5h冷却到20-25℃，然后另外过夜。经2h向反应装入2.65L异丙醇(溶液是～6∶1的异丙醇/水)，允许在RT静置1h，在2℃静置2h。将材料通过用88/12异丙醇/水湿润来制备的滤器。用共1.4L 88/12的异丙醇/水洗涤所得的饼状物，在大气下干燥约3h，然后转移到托盘，在～40℃在真空烘箱中伴随氮气吹扫(200托)干燥3天，获得966g磷酸西他列汀水合物。该物质满足(或超出)对制造的磷酸西他列汀水合物的所有纯度规格，并显示没有残余的溶剂、酶(＜18ppm)、PLP辅因子(＜0.1ppm)或内毒素(＜0.05ng)。

实施例15：用于增加酮酰胺底物向西他列汀转化的方法III

以下实施例说明用于增加底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮向产物(2R)-4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-胺转化的第三种大规模方法。通常，该方法使用与实施例12中所述相同的设备和条件，但利用更高浓度的DMSO和底物。

方法：反应在装备有机械搅拌器、温度探头、pH探头和碱添加管线的容器中进行。碱添加管线用于利用水中4M异丙胺游离碱的供料控制pH在8.6和8.4之间。向容器加入1.92L水，随后加入109mL(0.82mol，0.33当量)三乙醇胺和1.64L(6.56mol，2.67当量)4M异丙胺溶液。然后利用12N HCl(424mL)调整pH到8.5。然后向反应器装入6.7g(0.027mol，0.011当量)PLP，随后装入40g具有SEQ ID NO：110的转氨酶多肽，伴随轻柔搅动小心溶解混合物。将容器放置在带有温度探头、碱添加管线、pH探头和设置为400RPM的搅拌器的反应器模块(block)上(注意：此时pH控制回路是关闭的)。然后，向搅拌的溶液加入2.22L DMSO，将反应器加热到45℃。当温度稳定时，打开pH控制回路，调整pH至8.5(pH用水中4M异丙胺控制)。此时，搅拌升高到600RPM，但梢速(tip speed)保持低于2m/s以避免涡旋。然后，将1.0kg(折算重量是1kg，因为收到的酮酰胺通常是作为半水合物的96-98wt％；2.46mol，1.00当量)酮酰胺溶解在1.11L DMSO中。然后将此DMSO/酮酰胺溶液经2-3h加入反应器。然后在45℃搅拌反应器，pH维持在8.6-8.4另外的～13h，以300托真空和2fps氮气吹扫来实现丙酮去除。在～15h的总反应时间后(获取1.3-2.0当量异丙胺)，由反相HPLC分析判断，反应为90-95％转化。

如以下所述，过滤或直接萃取流程方案可用于制备产物用于下游加工。

过滤流程：关闭pH控制回路，向容器加入13g solka-floc，随后加入12M HCl直到pH 2-3。然后反应在45℃和1000RPM陈化(aged)1-2h。然后将浆状物通过滤器(如，以1kg规模，带有滤纸的烧结塑料Buchner或以试验厂规模，不带有循环回路的sparkle滤器)。用1L 0.01N HCl漂洗容器和滤器。然后向此酸性含水滤液加入3L IPAc，然后用19N NaOH调整水相的pH到pH 11。伴随搅拌搅动各层，然后允许静置和分离(轻度加热或真空加速相分离)。再用3L IPAc重复两次，然后用3L盐水(以pH 11)洗涤合并的有机物。然后检验所得的西他列汀游离碱的IPAc溶液的产率(通常88-92％的检验产率；882-922g)，将溶剂转变为IPA用于下游加工为磷酸西他列汀一水合物。

直接萃取流程：关闭pH控制回路，加入12M HCl直到pH 2-3。然后反应在45℃和1000RPM陈化1-2h。将批料(batch)冷却到RT然后加入3L IPA，随后加入3L IPAc。然后用19N NaOH调整水层的pH到11。在20-45℃搅动混合物(加热可用于破坏乳液)，然后允许静置和分离。撇开IPAc/IPA层，用3L 80/20(体积/体积)IPAc/IPA萃取水层。然后用3L盐水洗涤合并的IPAc/IPA萃取物。然后检验所得的西他列汀游离碱的IPAc/IPA溶液的产率(通常87-90％的检验产率，872-902g)，将溶剂转变为IPA用于下游加工为磷酸西他列汀一水合物。

实施例16：用于增加酮酰胺底物向西他列汀转化的方法IV

以下实施例说明用于增加酮酰胺底物向西他列汀游离碱产物转化和随后制备磷酸西他列汀的第四种大规模方法。通常，该方法使用与实施例12、14和15中所述相同的设备条件，但具有如以下详述的改变。

在0-35℃合并0.59L 4M异丙胺溶液、0.67L水和39mL三乙醇胺来制备缓冲溶液。在20-25℃利用12N盐酸调整缓冲液的pH到8.4-9.2。在15-25℃向此混合物装入1.22g PLP和16.25g SEQ ID NO：110的转氨酶多肽。伴随搅动溶解PLP和酶。然后，在15-46℃经至少30分钟将0.72LDMSO装入此批料。然后加热酶混合物到44-46℃，然后用4M异丙胺溶液调整到pH 8.4-8.7。监测pH，必要时装入4M异丙胺溶液以维持pH在8.4-8.7的范围中，直到反应后猝灭酶混合物。

将酮酰胺底物4-氧-4-[3-(三氟甲基)-5，6-二氢[1，2，4]三唑[4，3-a]吡嗪-7(8H)-基]-1-(2，4，5-三氟苯基)丁-2-酮(406.28g，1.00摩尔)溶解在0.48LDMSO中，将此DMSO/酮酰胺溶液经2-8小时加入酶混合物中。然后允许此酶混合物在44-46℃和pH 8.4-8.7反应另外7-22小时。在DMSO/酮酰胺溶液加入和随后的反应期间，必要时改变反应器的压力以蒸发丙酮，从而推动反应以形成产物西他列汀游离碱。另外，在反应过程期间，必要时装入4M异丙胺溶液(通常至少0.25L或1.0摩尔当量)以维持pH在8.4-8.7。

通过在44-46℃装入65g solka floc而猝灭反应混合物。装入solka floc后，向批料装入12N盐酸直到达到pH 2-3。在44-46℃和pH 2-3搅拌混合物至少3小时。然后在44-46℃过滤混合物，用0.01N盐酸(1.02L-4.47L)洗涤废弃的饼状物。将合并的滤液和0.01N盐酸洗液冷却到15-25℃，然后加入2.44L乙酸异丙酯(IPAc)。然后用19N氢氧化钠调整表观pH到10.5-11.5。然后在15-40℃搅动混合物，静置和分离。撇开上方的有机层，然后在15-25℃用1.22L IPAc萃取下方水层。然后合并两种有机萃取物，在15-40℃用水(0.20L-1.23L)洗涤。最终的有机层以100g/L(407.31g，1.00摩尔)产生4.07L西他列汀游离碱粗制物流，其用于制备磷酸西他列汀一水合物。

在20-35℃真空下浓缩4.07L西他列汀游离碱粗制物流到1.68L，然后利用至少2.52L异丙醇转变溶剂为异丙醇。向此溶液装入至少0.27L水以溶解所有固体。水的加入增强了结晶开始时一水合物的形成。向此溶液加入磷酸水溶液(1.02摩尔)，然后加热以溶解。

然后冷却溶液到62-68℃，以2.62g磨碎的磷酸西他列汀一水合物(如，由Microtrac分析确定，平均体积为10-20微米，95％(95^th percentile)在25-45微米)引晶并允许在62-68℃陈化3-6小时。经至少2小时冷却浆状物到20-25℃。经至少2小时向浆状物装入0.48L异丙醇，同时维持温度在20-25℃。然后经至少2小时冷却浆状物到-15℃至20℃。然后在-15℃至20℃过滤浆状物，用异丙醇水溶液(最小水含量为8wt％)洗涤湿的饼状物。在真空以最大温度45℃干燥湿的饼状物，以产生磷酸西他列汀一水合物。

实施例17：用于增加酮酰胺底物向西他列汀转化的方法V

以下实施例说明用于增加酮酰胺底物向西他列汀游离碱产物转化和随后制备磷酸西他列汀的第五种大规模方法。通常，该大规模方法使用与实施例16中所述相同的设备和条件，但具有如以下详述的一些改变。

在20-25℃合并50.68L 4M异丙胺溶液、58.1L水和3.36L三乙醇胺来制备缓冲溶液。然后在20-25℃利用12N盐酸调整缓冲液的pH到8.8-9.2。在20-25℃向此批料混合物装入0.11kg PLP，然后装入1.40kg SEQID NO：110的转氨酶。伴随搅动溶解PLP和酶(30min后证实)。然后，在20-46℃向批料装入61.76L DMSO。然后加热该批料到44-46℃，在此温度立即加入4M异丙胺溶液以调整pH至8.4-8.7。

将酮酰胺底物(35.00kg)溶解在41.18L DMSO中，经2-3小时将此DMSO/酮酰胺溶液加入到批料中。然后允许该批料在44-46℃和pH 8.4-8.7反应另外12-22小时。在DMSO/酮酰胺溶液加入和随后的陈化期间，改变反应器的压力以去除丙酮(用于去除丙酮的典型压力条件：～325-350mmHg真空和～3-6scfm顶空氮气吹扫)。另外，在反应过程期间，必要时装入4M异丙胺溶液以维持pH在8.4-8.7。反应转化结果的典型终点是15-17小时的总反应时间后88-93％，总反应时间包括DMSO/酮酰胺转移时间。

通过装入42L水中5.60kg solka floc浆状物来猝灭反应。装入solkafloc后，向批料装入12N盐酸直到达到pH 2-3。在44-46℃和pH 2-3搅拌反应3小时。然后在44-46℃过滤批料，用154L 0.01N盐酸溶液洗涤废弃的饼状物。

将合并的滤液和洗液冷却到15-25℃，然后加入210L乙酸异丙酯(IPAc)。然后用19N氢氧化钠调整批料的表观pH到10.5-11.5。然后在15-25℃搅动混合物，静置和分离(萃取#1)。撇开上方有机层，然后在15-25℃用105L IPAc萃取下方水层(萃取#2)。然后合并两种有机萃取物，在32-38℃用17.50L水洗涤(萃取#3)。最终有机层产生29.44检验kg(assay kg)的西他列汀游离碱粗制物流(～85.9％检验产率)。

在20-35℃在真空(30-60mmHg)下浓缩294.40L、100g/L的游离碱粗制物流(29.44kg，72.28摩尔)到121.59L。利用182.39L异丙醇将批料的溶剂转变为异丙醇。向该批料装入19.72L水以溶解所有固体。然后，向批料加入15.87kg 45wt％的磷酸水溶液，将其加热到72-80℃以溶解。将批料溶液冷却到62-66℃，以0.19kg销棒粉碎(pin milled)的磷酸西他列汀一水合物引晶。将批料在62-66℃陈化3小时，然后经2小时冷却到20-25℃。经2小时向该批料装入34.40L异丙醇，同时维持批料温度在20-25℃。然后经2小时将批料冷却到-15℃至0℃。然后在-15℃至0℃过滤浆状物，用70.05L异丙醇水溶液(至少8wt％的水)洗涤湿的饼状物。在40℃真空干燥湿的饼状物以产生磷酸西他列汀一水合物(37.34物理kg(physical kg)，～98％产率)。

在本申请中引用的所有出版物、专利、专利申请和其他文件出于所有目的均通过引用以其整体并入本文，其程度如同分别指出将每个单独的出版物、专利、专利申请或其他文件出于所有目的通过引用并入一样。

尽管已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的精神和范围。

Claims

1.一种转氨酶多肽，所述转氨酶多肽在指定的反应条件下、在氨基供体异丙胺存在时，能够转化4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮为(2R)-4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-胺到HPLC-UV在210nm可检测的产物水平，其中所述反应条件包括2g/L酮酰胺底物、0.5M异丙胺、22℃、pH7.5、5％DMSO、100μM吡哆醛磷酸和20mg/mL转氨酶多肽，所述转氨酶多肽由SEQ ID NO:4的氨基酸序列组成，并且包含至少下列特征：(1)对应X223的残基是P；(2)对应X284的残基是G；以及(3)对应X122的残基是M、I、V或H；或者(1)对应X223的残基是P；(2)对应X284的残基是G；(3)对应X122的残基是M、I、V或H；以及(4)对应X69的残基是G、C、T、A或S。

2.如权利要求1所述的转氨酶多肽，其中所述转氨酶多肽能够在所述指定的反应条件下以等于或大于SEQ ID NO:4多肽活性的活性转化所述酮酰胺底物为所述产物。

3.如权利要求1所述的转氨酶多肽，其中所述转氨酶能够转化所述酮酰胺底物为至少90％对映体过量的产物。

4.如权利要求1所述的转氨酶多肽，其中所述转氨酶能够转化所述酮酰胺底物为至少99％对映体过量的产物。

5.如权利要求1所述的转氨酶多肽，其中所述氨基酸序列包括以下特征：X69是G、C、T、A或S；X122是M、I、V或H；且X223是P。

6.如权利要求1所述的转氨酶多肽，其中所述氨基酸序列包括以下特征：X122是M、I、V或H；X223是P；且X284是G。

7.如权利要求1所述的转氨酶多肽，其中所述氨基酸序列包括以下特征：

X69是C或T；X122是M或I；X223是P；且X284是G。

8.如权利要求1-7中任一项所述的转氨酶多肽，其中所述氨基酸序列另外包含在选自下列的残基位置处的氨基酸残基差异：

X4是Y；

X5是K；

X8是P；

X18是C或I；

X25是Q；

X26是H；

X27是T；

X28是P；

X30是Q或M；

X41是H或S；

X42是G；

X48是Q、D、V、G或A；

X49是T；

X50是L；

X54是P或H；

X55是V；

X60是F；

X61是Y；

X62是T、Y或F；

X65是A；

X81是G；

X94是I或L；

X96是L；

X102是L或K；

X117是G；

X120是Y；

X124是T、H或N；

X126是T；

X136是Y或F；

X137是T或I；

X138是K或P；

X146是R；

X148是A或F；

X150是F、H或S；

X152是G、I、L、S或C；

X155是M、V或T；

X156是Q；

X160是L；

X163是H或V；

X164是V或P；

X169是L；

X174是A；

X178是S；

X199是W或I；

X204是A；

X209是L；

X211是I；

X215是C；

X217是N；

X225是Y；

X230是V；

X252是F；

X269是P；

X273是Y；

X282是S；

X292是T；

X297是S；

X302是A；

X306是L；

X321是P；且

X329是H。

9.如权利要求8所述的转氨酶多肽，其中所述氨基酸序列另外包括至少以下特征：

X26是H，和/或X62是T或F；

X65是A；

X136是Y或F；

X199是W或I；且

X209是L。

10.如权利要求8所述的转氨酶多肽，其中所述氨基酸序列另外包括至少以下特征：

X61是Y；

X62是T或F；

X65是A；

X94是I或L；

X136是Y或F；

X199是W或I；

X209是L；

X215是C；且

X282是S。

11.如权利要求8所述的转氨酶多肽，其中所述氨基酸序列另外包括至少以下特征：

X8是P；

X61是Y；

X62是T或F；

X65是A；

X81是G；

X94是I或L；

X136是Y或F；

X199是W或I；

X209是L；

X215是C；

X217是N；

X269是P；

X282是S；

X297是S；且

X321是P。

12.如权利要求8所述的转氨酶多肽，其中所述氨基酸序列另外包括至少以下特征：

X8是P；

X60是F；

X61是Y；

X62是T或F；

X65是A；

X81是G；

X94是I或L；

X96是L；

X124是T、H或N；

X136是Y或F；

X169是L；

X199是W或I；

X209是L；

X215是C；

X217是N；

X269是P；

X273是Y；

X282是S；

X297是S；且

X321是P。

13.如权利要求8所述的转氨酶多肽，其中所述氨基酸序列另外包括至少以下特征：

X8是P；

X60是F；

X61是Y；

X62是T或F；

X65是A；

X81是G；

X94是I或L；

X96是L；

X124是T、H或N；

X126是T；

X136是Y或F；

X150是F、H或S；

X152是G、I、L、S或C；

X169是L；

X199是W或I；

X209是L；

X215是C；

X217是N；

X269是P；

X273是Y；

X282是S；

X297是S；且

X321是P。

14.如权利要求1所述的转氨酶多肽，其中所述氨基酸序列对应SEQID NO:4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列。

15.如权利要求1所述的转氨酶多肽，其中所述转氨酶能够以SEQ IDNO:4多肽活性的50至100倍或更大活性转化所述酮酰胺底物为产物。

16.如权利要求15所述的转氨酶多肽，其中所述氨基酸序列对应SEQID NO:16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列。

17.如权利要求1所述的转氨酶多肽，其中所述转氨酶能够以SEQ IDNO:22多肽活性的1.1至5倍或更大活性转化所述酮酰胺底物为产物。

18.如权利要求17所述的转氨酶多肽，其中所述氨基酸序列对应SEQID NO:28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列。

19.如权利要求1所述的转氨酶多肽，其中所述转氨酶能够以SEQ IDNO:48多肽活性的1.1至5倍或更大活性转化所述酮酰胺底物为产物。

20.如权利要求19所述的转氨酶多肽，其中所述氨基酸序列对应SEQID NO:50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列。

21.如权利要求1所述的转氨酶多肽，其中所述转氨酶能够以SEQ IDNO:58多肽活性的1.1至5倍或更大活性转化所述酮酰胺底物为产物。

22.如权利要求21所述的转氨酶多肽，其中所述氨基酸序列对应SEQID NO:68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102,104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的序列。

23.一种多核苷酸，所述多核苷酸编码权利要求1-22任一项的多肽。

24.如权利要求23所述的多核苷酸，其中所述多核苷酸对应SEQ IDNO:1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167的序列。

25.一种表达载体，所述表达载体包括权利要求23或24的多核苷酸。

26.如权利要求25所述的表达载体，所述表达载体还包括控制序列。

27.如权利要求26所述的表达载体，其中所述控制序列包括启动子。

28.如权利要求26所述的表达载体，其中所述控制序列包括分泌信号。

29.一种宿主细胞，所述宿主细胞包括权利要求25至28任一项的表达载体。

30.如权利要求29所述的宿主细胞，所述宿主细胞是大肠杆菌(E.coli)。

31.一种制备结构式(I)化合物的方法：

Z是OR²或NR²R³；

R²和R³与它们连接的氮原子一起形成4-至7-元杂环系统，所述杂环系统任选地包含选自O、S、NH和NC_1-4烃基的另外的杂原子，所述杂环是未取代的或被独立选自氧、羟基、卤素、C_1-4烃氧基和C_1-4烃基的一至三个取代基取代，其中所述烃基和烃氧基是未取代的或被一至五个氟取代；且所述杂环系统任选地与5-至6-元饱和或芳香族碳环系统或包含选自O、S或NC_0-4烃基的一至二个杂原子的5-至6-元饱和或芳香族杂环系统稠合，所稠合的环系统是未取代的或被选自羟基、氨基、氟、C_1-4烃基、C_1-4烃氧基和三氟甲基的一至二个取代基取代；所述方法包括在适当的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(II)的前手性酮：

与权利要求1-32任一项的转氨酶多肽接触的步骤。

32.如权利要求31所述的方法，其中R¹是苄基，其中所述苄基的苯基是未取代的，或被选自由氟、三氟甲基和三氟甲氧基组成的组的一至三个取代基取代。

33.如权利要求31所述的方法，其中Z是NR²R³。

34.如权利要求33所述的方法，其中NR²R³是结构式(III)的杂环：

35.一种制备结构式(1)化合物的方法：

R⁴是氢、或未取代的C_1-4烃基、或被一至五个氟取代的C_1-4烃基；所述方法包括以下步骤：

在适当的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将结构式(2)的前手性酮：

与权利要求1-32任一项的转氨酶多肽接触。

36.如权利要求35所述的方法，其中Ar是2,5-二氟苯基或2,4,5-三氟苯基且R⁴是三氟甲基。

37.如权利要求36所述的方法，其中Ar是2,4,5-三氟苯基。

38.一种制备式(1a)化合物的方法：

所述方法包括在适当的反应条件下，在适当的有机溶剂中，在氨基供体存在下，将式(2a)的底物：

与权利要求1-22任一项的转氨酶多肽接触的步骤。

39.如权利要求31、35或38所述的方法，其中式(I)化合物、式(1)化合物或式(1a)化合物以至少90％对映体过量产生。

40.如权利要求31、35或38所述的方法，其中式(I)化合物、式(1)化合物或式(1a)化合物以至少99％对映体过量产生。

41.如权利要求31、35或38所述的方法，其中所述氨基供体选自异丙胺、丙氨酸、3-氨基丁酸或甲基苄胺。

42.如权利要求41所述的方法，其中所述氨基供体是异丙胺。

43.如权利要求31、35或38所述的方法，所述方法还包括去除反应的羰基副产物的步骤。

44.如权利要求43所述的方法，其中所述氨基供体是氨基酸且所述羰基副产物是酮酸。

45.如权利要求44所述的方法，其中所述羰基副产物具有高于水的蒸气压，并且所述羰基副产物的去除是通过喷射非反应性气体或通过施加真空。

46.如权利要求45所述的方法，其中所述非反应性气体是氮气。

47.如权利要求45所述的方法，其中所述氨基供体是异丙胺且所述羰基副产物是丙酮。

48.如权利要求31、35或38所述的方法，其中所述反应条件是pH为7.0与pH为9.0之间。

49.如权利要求48所述的方法，其中所述反应条件是pH为8.5。

50.如权利要求48所述的方法，其中pH是通过加入异丙胺来维持的。

51.如权利要求31、35或38所述的方法，其中所述反应条件是温度为25℃至50℃。

52.如权利要求51所述的方法，其中所述反应条件是温度为45℃。

53.如权利要求31、35或38所述的方法，其中所述溶剂包括二甲基亚砜。

54.如权利要求53所述的方法，其中所述DMSO为10％至50％v/v。

55.如权利要求54所述的方法，其中所述DMSO为30％v/v。

56.如权利要求31、35或38所述的方法，所述方法还包括从所述反应分离结构式(I)化合物、结构式(1)化合物或结构式(1a)化合物的步骤。

57.如权利要求35或38所述的方法，所述方法还包括转化结构式(1)化合物或结构式(1a)化合物为药学上可接受的盐的步骤，所述步骤通过在适当的反应溶剂中，将所述化合物与药学上可接受的酸接触。

58.如权利要求57所述的方法，其中所述药学上可接受的酸是磷酸且所述药学上可接受的盐是磷酸二氢盐。

59.如权利要求57所述的方法，还包括从所述反应溶剂结晶所述药学上可接受的盐的步骤。

60.一种制备(2R)-4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-胺磷酸盐一水合物的方法，改进包括在适当的反应条件下，在适当的有机溶剂中，在氨基供体存在下，以权利要求1-22任一项的转氨酶多肽转化式(1a)化合物为式(2a)产物的步骤，其中式(1a)化合物是

且式(2a)化合物是：

61.如权利要求60所述的方法，其中所述氨基供体是异丙胺。