CN102597226B

CN102597226B - 转氨酶反应

Info

Publication number: CN102597226B
Application number: CN201080027740.4A
Authority: CN
Inventors: 格雷戈里·休斯; 保罗·N·迪瓦恩; 弗雷德·J·福来茨; 布莱顿·T·格劳; 约翰·利曼托; 克里斯多佛·萨维尔; 艾米丽·穆德弗
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2009-06-22
Filing date: 2010-06-21
Publication date: 2015-08-19
Anticipated expiration: 2030-06-21
Also published as: US20160333381A1; US20190040431A1; US20200362377A1; IL216099A0; CN102597226A; US8921079B2; US10767202B2; EP2446026B1; US10138503B2; SG177329A1; US9434968B2; US20120190085A1; WO2011005477A1; ES2644992T3; EP2446026A1; US20150079640A1; EP2446026A4; IL216099A; US20220290197A1; US11371067B2

Abstract

本公开内容涉及利用转氨酶多肽从前手性酮合成手性胺的方法。

Description

转氨酶反应

1.技术领域

本公开内容涉及转氨酶生物催化剂和使用所述生物催化剂的方法。

2.对序列表、表格或计算机程序的引用

与本说明书同时提交2010年6月21日创建的作为359kb的ASCII格式文件“CX2-019WO1_ST25.txt”的序列表的正式文本。经由EFS-Web提交的序列表是说明书的一部分，通过引用全文并入本文。除了微小的格式变化以外，该序列表文件与2010年2月26日创建的367kb的ASCII格式序列表文件“376247-042USP1.txt”相同，其通过引用并入在先的美国临时申请61/308,873中。

3.背景

氨基转移酶，还称为转氨酶(E.C.2.6.1)，催化来自氨基供体底物的伯胺的氨基、一对电子和质子向氨基受体分子的羰基转移。

通常的转氨酶反应显示在下面的反应I中。在这一反应中，氨基受体(酮(keto)或酮(ketone))，即期望的氨基酸产物的前体，与氨基供体反应。转氨酶交换氨基供体的氨基与氨基受体的酮基团。因此反应产生期望的手性胺产物和作为副产物的新的氨基受体(酮)化合物。

转氨酶的示例立体选择性转氨基作用由源自于节杆菌属(Arthrobactersp)KNK168的转氨酶对3,4-二甲氧基苯基丙酮的活性证明(参见如，Iwasaki等，2006,Appl.Microbiol.Biotechnol.69:499-505；和美国专利7,169,592，其每一个通过引用并入本文)。因此，转氨酶具有潜在的工业用途，用于立体选择性合成旋光纯的手性胺和手性胺与氨基酸的对映异构体富集(Shin等，2001，Biosci.Biotechnol.Biochem.65:1782-1788；Iwasaki等，2003，Biotech.Lett.25:1843-1846；Iwasaki等，2004，Appl.Microb.Biotech.69:499-505，Yun等，2004，Appl.Environ.Microbiol.70:2529-2534；和Hwang等，2004，Enzyme Microbiol.Technol.34:429-426)。手性胺在制药、农业化学和化学工业中起重要作用。手性胺常被用作中间体或合成子，用于制备多种药物，如头孢菌素或吡咯烷衍生物。使用氨基转移酶产生有用的化合物的实例包括：制备普加巴林的中间体和前体(例如WO2008/127646)；β-氨基酸的立体定向合成和对映异构体富集(例如WO2005/005633)；胺的对映异构体富集(例如美国专利第4,950,606号；美国专利第5,300,437号；和美国专利第5,169,780号)；氨基酸和衍生物的产生(例如美国专利第5,316,943号；美国专利第4,518,692号；美国专利第4,826,766号；美国专利第6,197,558号；和美国专利第4,600,692号)。因此，转氨酶可用于手性胺的对映异构体富集和立体选择性合成。

4.概述

本公开内容提供在氨基供体存在下生物催化地转化前手性酮底物为手性胺的方法，和用在该方法中的转氨酶生物催化剂和相应的多核苷酸。一方面，本发明包括一种制备结构式(I)的胺产物的方法：

所述结构式(I)的胺产物在标为*的立体中心具有所示的立体化学构型；所述结构式(I)的胺产物与相对的对映异构体相比为对映体过量，其中

R¹是任选地取代的芳基或杂芳基；且

R²是任选地取代的C₁-C₆烃基、-R³C(O)R⁴或-R³OC(O)R⁵；

其中R³是任选地取代的C₁-C₄烃基；且R⁴是H、任选地取代的C₁-C₄烃基、NR⁶R⁷或OR⁸，其中R⁵、R⁶、R⁷和R⁸独立地是H或C₁-C₄烃基，所述方法包括将结构式(II)的酮底物：

与转氨酶多肽在适于转化所述酮底物为所述胺产物的反应条件下、在氨基供体存在下接触。在一些实施方案中，所述转氨酶多肽与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的氨基酸序列同一性并能够以与SEQ ID NO:2的转氨酶相比提高的比率转化酮底物为胺产物。

在一些实施方案中，所述转氨酶多肽与SEQ ID NO:58、72、74、80、86、96、98、100或102具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的氨基酸序列同一性并能够以与SEQ ID NO:2的转氨酶相比提高的比率转化酮底物为胺产物。用于该方法的工程化的转氨酶的具体实施方案在详述中进一步提供。

在一些实施方案中，工程化的转氨酶具有SEQ ID NO:74的至少5％、10％、20％、30％、40％、50％或更大活性。

在本文公开的方法的任何实施方案中，可如下进行该方法，其中所述转氨酶多肽能够以与SEQ ID NO:2的转氨酶相比提高的比率转化西他列汀酮酰胺底物为西他列汀，并与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的氨基酸序列同一性。

在一些实施方案中，胺产物以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在上述方法的一些实施方案中，胺产物以至少99％对映体过量产生。

在该方法的一些实施方案中，R¹是任选地取代的苯基。在一些实施方案中，R¹是任选地取代的吡啶基。在一些实施方案中，对芳基或杂芳基的取代选自C₁-C₄烃基、-OR’、-SR’、-NR’R’、-NO₂、-NO、-CN、-CF₃、卤素(如，-F、-Cl、-Br和-I)、-C(O)R’、-C(O)OR’、-C(O)NR’、-S(O)₂R’、-S(O)₂NR’R”，其中每个R’和R”独立地选自氢和(C₁-C₄)烃基组成的组。在一些实施方案中，R²是甲基或卤素取代的甲基。在一些实施方案中，R²是CF₂H或CF₃。

在一些实施方案中，对基团R²的C₁-C₆烃基和R³的取代选自卤素、NR⁵R⁶或-OR⁸，其中R⁵和R⁶如以上定义的，R⁸是H或C₁-C₄烃基。在一些实施方案中，在上述方法中产生的式(I)化合物是基本上手性纯的化合物。在某些实施方案中，在上述方法中产生的式(I)化合物是手性纯的。

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹是H、Cl、Br、F、CH₃、CF₃、NH₂、NO₂、CN、SCN或OCH₃，R²是任选地取代的C₁-C₆烃基，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹是H、Cl、Br、F、CH₃、CF₃、NH₂、NO₂、CN、SCN或OCH₃，且式(II)的酮底物是：

在一些实施方案中，R⁹是Br、CH₃或CF₃。在一些实施方案中，R⁹是在苯基环的对位。

在该方法的一些实施方案中，胺产物(S)-1-(4-溴苯基)-2,2,2-三氟乙胺对映体过量地从1-(4-溴苯基)-2,2,2-三氟乙酮制备：

在该方法的一些实施方案中，胺产物(S)-2,2,2-三氟-1-对甲苯基乙胺对映体过量地从2,2,2-三氟-1-对甲苯基乙酮制备：

在该方法的一些实施方案中，胺产物(S)-2,2,2-三氟-1-(4-(三氟甲基)苯基)乙胺对映体过量地从2,2,2-三氟-1-(4-(三氟甲基)苯基)乙酮制备：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

其中R⁷是任选地取代的C₁-C₄烃基，且R¹⁰是以上定义的R⁹。在一些实施方案中，R¹⁰是H或F。在一些实施方案中，R⁷是C₁-C₄烃基。

在该方法的一些实施方案中，胺产物(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯对映体过量地从3-氧-3-(吡啶-2-基)丙酸乙酯制备：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R¹¹是卤素、OH、-C(O)R⁴、-OC(O)R⁵或NR⁶R⁷，其中R⁴、R⁵、R⁶、R⁷和R¹⁰如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，胺产物(S)-4-氯-1-(2-氟苯基)丁-1-胺对映体过量地从4-氯-1-(2-氟苯基)丁-1-酮制备：

在一些实施方案中，本公开内容提供一种制备式(III)化合物的方法：

所述式(III)化合物在标为*的立体中心具有所示的立体化学构型，且所述式(III)化合物与相对的对映异构体相比为对映体过量，其中R¹⁰如以上定义的，所述方法包括：

(a)在适于转化下式酮底物：

为下式胺产物：

的反应条件下，在氨基供体存在下，将所述酮底物与本文所述的转氨酶多肽接触，其中R¹¹和R¹⁰如以上定义的；并

(b)在适当条件下环化所述胺产物以形成式(III)化合物。

在一些实施方案中，本公开内容提供制备(R)-2-(2-氟苯基)吡咯烷的方法：

该方法包括转化酮底物4-氯-1-(2-氟苯基)丁-1-酮为对映体过量的胺产物(S)-4-氯-1-(2-氟苯基)丁-1-胺：

并环化(S)-4-氯-1-(2-氟苯基)丁-1-胺以形成对映体过量的(R)-2-(2-氟苯基)吡咯烷：

可用于进行所述方法的各种工程化的转氨酶在详述中描述。在一些实施方案中，该方法可使用由SEQ ID NO:58、72、74、80、86、96、98、100或102代表的工程化的转氨酶。

任何适合的氨基供体可用于转氨基反应。在一些实施方案中，氨基供体选自异丙胺、丙氨酸、3-氨基丁酸或甲基苄胺。优选的氨基供体是异丙胺。

如本文所述，本文所述的方法在适于转化酮底物为对映体过量的相应的手性胺产物的反应条件中进行。在一些实施方案中，反应条件包括20℃至65℃的温度。在一些实施方案中，反应条件包括40℃至65℃的温度。在一些实施方案中，反应条件包括50℃至65℃的温度。

在一些实施方案中，进行该方法的反应条件包括pH约7.0至约11.0。在一些实施方案中，反应条件包括pH约7.0至约9.0。在一些实施方案中，该方法的反应条件是pH约8.5。

各种有机溶剂可用在该方法中以促进酶反应并使得底物和/或产物在溶液中。在该方法的一些实施方案中，有机溶剂包括极性溶剂，诸如甲醇或二甲基亚砜(DMSO)。在一些实施方案中，有机溶剂是DMSO，其可以约10％至约40％体积/体积(v/v)存在。在一些实施方案中，DMSO以约40％v/v存在。

5.详述

本公开内容提供利用立体选择性工程化的转氨酶多肽生物催化剂转化某些前手性酮底物为手性胺产物的方法。各种方法和转氨酶的实施方案在本文描述。

除非上下文另外清楚地指明，否则说明书和所附权利要求书中使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数的指代对象。因此，例如，提及“一种蛋白”包括多于一种蛋白，提及“一种化合物”是指多于一种化合物。

而且，除非另外指明，否则使用“或”表示“和/或”。类似地，“包括(comprise)”、“包括(comprises)”、“包括(comprising)”、“包括(include)”、“包括(includes)”和“包括(including)”是可互换的且不意为限制性的。

还应理解的是，当各种实施方案的描述使用术语“包括(comprising)”时，本领域技术人员将理解，在一些特定情形中，一种实施方案可替代地利用措辞“基本上由…组成(consisting essentially of)”或“由…组成(consisting of)”来描述。

5.1缩写和定义

为了本文描述的目的，用于遗传编码的氨基酸的缩写是常规的，如下：

使用三字母缩写时，除非前面明确加有“L”或“D”，或从使用缩写的上下文明显，否则氨基酸可为关于α-碳(Cα)的L-构型或D-构型。例如，“Ala”表示丙氨酸而没有规定关于α碳的构型，而“D-Ala”和“L-Ala”分别表示D-丙氨酸和L-丙氨酸。使用单字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸，“a”表示D-丙氨酸。当肽序列展示为一串单字母或三字母缩写(或其混合物)时，按照常规，序列以N→C方向展示。

5.2定义

除非另外具体指明，否则本文的说明书中使用的技术术语和科学术语具有本领域普通技术人员通常理解的含义。因此，以下术语意为具有以下含义。

“氨基转移酶”和“转氨酶”在本文可互换使用，是指具有将氨基(NH₂)和氢原子从伯胺(2)转移到受体羰基(酮)化合物(1)，转化胺供体为其相应羰基(酮)化合物(4)并转化受体为其相应伯胺(3)的酶促能力的多肽。

“蛋白”、“多肽”和“肽”在本文可互换使用，表示通过酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(如，糖基化、磷酸化、脂质化、豆蔻酰化(myristilation)、泛素化等等)。这一定义包括D-氨基酸和L-氨基酸，以及D-氨基酸与L-氨基酸的混合物。

“氨基供体”是指能够向受体羰基化合物(即氨基受体)供应氨基，从而变成羰基副产物的氨基化合物。氨基供体是以下通式的分子：

其中R^C、R^D的每一个独立地使用时是烃基、烃芳基或芳基，其是未取代的，或被一个或多个酶促可接受的基团取代。R^C的结构或手性可与R^D相同或不同。基团R^C和R^D可一起形成环，该环是未取代的、取代的，或与其他环稠合。可用于本发明的典型氨基供体包括手性和非手性氨基酸、以及手性和非手性胺。

“手性胺”是指通式R^X-CH(NH₂)-R^Y的胺，其中R^X和R^Y不相同，在本文采用其最宽泛的含义，包括不同和混合功能类型的宽范围的脂肪族或脂环族化合物，特征是存在结合至仲碳原子的伯氨基，仲碳原子除了带有氢原子以外，还带有(i)形成手性环结构的二价基团、或(ii)结构或手性方面彼此不同的两个取代基(氢以外)。

本文所用的“底物”是指在转氨酶介导的反应中接受来自氨基供体的氨基的氨基受体，诸如酮。在本公开内容的上下文中，转氨酶的底物包括但不限于本文进一步描述的式(II)化合物。

“氨基受体”和“胺受体”、“酮底物”、“酮(keto)”和“酮(ketone)”在本文可互换使用，是指从供体胺接收氨基基团的羰基(酮(keto)或酮(ketone))化合物。氨基受体是以下通式的分子：

其中在一些实施方案中，每个R^A和R^B单独地可以是未取代的或被一个或多个酶促上可接受的基团取代的烃基、烃基芳基基团或芳基基团。R^A在结构或手性上可与R^B相同或不同。R^A和R^B一起可形成未取代的、取代的或与其他环稠合的环。具体的氨基受体化合物进一步描述在详述中。

“羰基副产物”和“酮副产物”是指转氨基反应中，氨基供体上的氨基转移到氨基受体时从氨基供体形成的羰基化合物。羰基副产物具有下式的通用结构：

其中R^C和R^D如以上对氨基供体定义的。

“吡哆醛磷酸”、“PLP”、“吡哆醛5’-磷酸”、“PYP”和“P5P”在本文可互换使用，是指在转氨酶反应中用作辅酶的化合物。在一些实施方案中，吡哆醛磷酸由结构1-(4'-甲酰基-3'-羟基-2'-甲基-5'-吡啶基)甲氧基膦酸定义，CAS编号是[54-47-7]。吡哆醛5’-磷酸在体内由吡哆醛(也称为吡多辛或维生素B6)的磷酸化和氧化产生。在利用转氨酶的转氨基反应中，氨基供体的氨基转移到辅酶以产生酮副产物，而吡哆醛5’-磷酸转化为磷酸吡哆胺。吡哆醛5’-磷酸通过与不同酮化合物(氨基受体)反应而再生。氨基从磷酸吡哆胺向氨基受体的转移产生手性胺，并再生辅酶。本发明的吡哆醛5’-磷酸可被维生素B₆家族的其他成员代替，所述家族包括但不限于吡哆醛(PL)、吡哆胺(PM)、和其磷酸化对应物；磷酸吡多辛(PNP)和磷酸吡哆胺(PMP)。

“编码序列”是指编码蛋白质的氨基酸序列的核酸部分(例如基因)。

“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中的序列，能够从自然界来源中分离并且没有被人为操作有意修饰。

“重组”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会另外存在的方式被改变，或与自然中存在的材料相同但是从合成材料和/或通过使用重组技术操作而产生或衍生。非限制性实例包括但不限于表达在细胞的固有(非重组)形式中未发现的基因或表达另外以不同水平表达的固有基因的重组细胞。

“序列同一性百分比”、“同一性百分比”和“相同百分比”在本文是指多核苷酸序列或多肽序列之间的比较，并且通过跨比较窗口比较两条最佳比对的序列来确定，其中在所述比较窗口中的多核苷酸或多肽序列的部分可以包括相比于参考序列的添加或缺失(即空位)，以用于这两条序列的最优比对。该百分比可通过以下方式计算：确定相同的核酸碱基或氨基酸残基在两条序列中都存在的位置的数目或者核酸碱基或氨基酸残基与空位对齐的位置的数目以得出匹配的位置的数目，用匹配的位置的数目除以比较窗口中的位置的总数目，并且将结果乘以100得出序列同一性百分比。最佳比对和序列同一性百分比的确定利用BLAST和BLAST2.0算法(参见如，Altschul等人,1990,J.Mol.Biol.215:403-410和Altschul等人,1977,Nucleic Acids Res.3389-3402)进行。用于执行BLAST分析的软件是通过美国国家生物技术信息中心网站公开可用的。

简要地说，BLAST分析包括首先通过识别问询序列中具有长度W的短字来识别高得分序列对(HSP)，所述短字当与数据库序列中的相同长度的字对齐时匹配或满足某个正值阈值得分T。T被称为相邻字得分阈值(neighborhood word score threshold)(Altschul等人，上述)。这些最初的相邻字匹配(word hit)充当用于启动搜索的种子以寻找包含它们的更长的HSP。然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。对于核苷酸序列，使用参数M(对一对匹配残基的奖励得分；总是>0)和N(对错配残基的处罚得分；总是<0)计算累计得分。对于氨基酸序列，使用得分矩阵来计算累计得分。当发生以下情况时字匹配在每个方向上的延伸停止：累计比对得分从其所达到的最大值下降了量X；由于一个或更多个负得分残基比对的累积，累计得分趋于零或零以下；或者到达每条序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列而言)使用字长(W)11、期望(E)10、M＝5、N＝-4以及两条链的比较作为缺省值。对于氨基酸序列，BLASTP程序使用字长(W)3、期望(E)10以及BLOSUM62得分矩阵作为缺省值(参见Henikoff和Henikoff,1989,Proc Natl Acad Sci USA89:10915)。

可获得与BLAST相似地作用的许多其他算法来提供两条序列的同一性百分比。用于比较的序列的最佳比对可如下进行：例如，通过Smith和Waterman,1981,Adv.Appl.Math.2:482的局部同源性算法，通过Needleman和Wunsch,1970,J.Mol.Biol.48:443的同源性比对算法，通过Pearson和Lipman,1988,Proc.Natl.Acad.Sci.USA85:2444的相似性搜索方法，通过这些算法的计算机实现(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA或TFASTA)或通过直观检查(一般参见，CurrentProtocols in Molecular Biology(分子生物学最新实验方案),F.M.Ausubel等编著，Current Protocols,Greene Publishing Associates Inc.和John Wiley& Sons,Inc.之间的合资企业,(1995年增刊)(Ausubel))。另外，序列比对和序列同一性百分比的确定可以利用GCG Wisconsin软件包(Accelrys，Madison WI)中的BESTFIT或GAP程序，使用提供的缺省参数。

“参考序列”是指与之比较改变的序列的确定序列。参考序列可以是较大序列的子部分(subset)，例如，全长基因或多肽序列的区段。一般而言，参考序列长度为至少20个核苷酸或氨基酸残基，长度至少25个残基，长度至少50个残基，或者核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包含在这两条序列之间相似的序列(即完整序列的一部分)，以及(2)还可以包含在这两条序列之间相异的序列，所以在两种(或更多种)多核苷酸或多肽之间的序列比较通常是通过跨比较窗口比较这两种多核苷酸的序列而进行的，以识别和比较局部区域的序列相似性。

术语“参考序列”不意为限于野生型序列，且可包括工程化或改变的序列。例如，在一些实施方案中，“参考序列”可以是之前工程化或改变的氨基酸序列。例如，“基于SEQ ID NO:2、在位置X284具有甘氨酸残基的参考序列”是指对应SEQ ID NO:2、在X284具有甘氨酸残基的参考序列(SEQID NO:2的未改变形式在X284具有丙氨酸)。

“比较窗口”是指至少约20个连续核苷酸位置或氨基酸残基的概念性区段，其中可以将序列与至少20个连续核苷酸或氨基酸的参考序列进行比较，并且其中在比较窗口中的序列的部分可以包括与参考序列(它不包括添加或缺失)相比20％或更少的添加或缺失(即空位)，以用于这两条序列的最优比对。比较窗口可以比20个连续残基长，并且任选地包括30、40、50、100或更长的窗口。

“基本同一性(substantial identity)”是指具有与参考序列跨至少20个残基位置的比较窗口、通常至少30-50个残基的窗口相比至少80％序列同一性、至少85％序列同一性、至少89％序列同一性、至少95％序列同一性、甚至至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性百分比是通过跨比较窗口比较参考序列与包括参考序列的总计20％或更少的缺失或添加的序列而计算的。在应用于多肽的特定实施方案中，术语“基本同一性”表示两条多肽序列当通过诸如程序GAP或BESTFIT使用缺省空位权重进行最优比对时共有至少80％的序列同一性，优选至少89％序列同一性，至少95％序列同一性或更大(例如，99％序列同一性)。优选地，不相同的残基位置差别在于保守的氨基酸取代。

“对应于”、“关于”或“相对于”当用在给定氨基酸或多核苷酸序列的编号上下文中时，是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基编号。换言之，给定聚合物的残基号码或残基位置是根据参考序列指定的，而不是给定氨基酸或多核苷酸序列内的残基的实际数字位置指定的。例如，可以将给定的氨基酸序列诸如工程化转氨酶的氨基酸序列与参考序列进行比对，这是通过引入空位以优化这两条序列之间的残基匹配而实现的。在这些情况下，尽管存在空位，对给定氨基酸或多核苷酸序列中的残基进行编号是根据与其进行比对的参考序列做出的。

“立体选择性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种，或者立体选择性可以是完全的，其中只形成一种立体异构体。当立体异构体是对映体时，立体选择性被称为对映体选择性，即一种对映体在两种对映体之和中的分数(通常被报告为百分比)。它在本领域中通常可选地被报告为(通常为百分比)根据式[主要对映体-次要对映体]/[主要对映体+次要对映体]从其计算出的对映体过量(e.e.)。当立体异构体是非对映体时，立体选择性被称为非对映体选择性，即一种非对映体在两种非对映体的混合物之中的分数(通常被报告为百分比)，通常被可选地报告为非对映体过量(d.e.)。对映体过量和非对映体过量是立体异构体过量的类型。

“高立体选择性”是指能够将底物(如式(II))转化为其对应的具有至少约85％立体异构体过量的产物(如式(I))的化学或酶促反应。

“改进的酶特性”是指与参考酶表现的特性相比，为了特定目的使得更好或更期望的任何酶特性。对于本文所述的工程化转氨酶多肽而言，这种比较一般是对野生型转氨酶作出的，但是在一些实施方案中，参考转氨酶可以是另一种改进的工程化转氨酶。可进行改进的酶特性包括但不限于酶活性(它可以按照在一段时间内底物转化百分比来表示)、热稳定性、溶剂稳定性、pH活性概况、辅酶需求、对抑制剂(例如，产物抑制)的不应性、立体特异性和立体选择性(包括对映体选择性)。

“提高的酶活性”或“提高的活性”是指与参考酶相比，可以由比活性(例如，产生的产物/时间/重量蛋白)的提高或者由底物转化为产物的百分比(例如，使用指定量的转氨酶在指定时间段内将起始量的底物转化为产物的百分比)的提高表示的工程化酶的改进特性。确定酶活性的示例性方法被提供在实施例中。可以影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的改变能够导致提高的酶活性。酶活性的改进可以是从对应的野生型或工程化酶的约1.5倍酶活性，到相比于天然存在的酶(如转氨酶)或从中获取展现提高的活性的酶的另一种工程化酶的多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更大的酶活性。在具体的实施方案中，本公开内容的工程化转氨酶展现出在比母体转氨酶(即，其源自于的野生型或工程化转氨酶)的酶活性大1.5倍到50倍、1.5倍到100倍或更大的范围内的改进的酶活性。本领域技术人员理解，任何酶的活性都受扩散限制以致催化转换速率不能超过包括任何所需的辅酶在内的底物的扩散速率。扩散限制的理论最大值一般是约10⁸到10⁹(M^-1s^-1)。因此，转氨酶的酶活性上的任何改进将具有与转氨酶所作用的底物的扩散速率相关的上限。转氨酶活性可以通过用于测量转氨酶的标准测定中的任何一种来测量，例如底物或产物浓度的变化，或者氨基供体浓度的变化。使用本文进一步详述的限定的酶制品、在设置条件下的确定的测定以及一种或多种确定的底物，进行酶活性的比较。一般而言，在比较细胞裂解物中的酶时，确定所测定的细胞数目和蛋白的量，并使用相同的表达系统和相同的宿主细胞以使得由该宿主细胞所产生并存在于裂解物中的酶量的改变最小化。

“转化”是指底物被酶促转化为对应的产物。“转化百分比”是指在指定条件下在一段时间内被转化为产物的底物的百分比。因此，例如，转氨酶多肽的“酶活性”或“活性”可以表示为底物到产物的“转化百分比”。

“热稳定的”或“热稳定”可互换使用，是指与未处理的酶相比，在暴露于一组温度条件(例如40-80℃)一段时间(例如0.5-24小时)时耐受失活，从而在暴露于高温后保持某一水平残留活性(例如多于60％到80％)的多肽。

“溶剂稳定的”是指与未处理的酶相比，在暴露于不同浓度(例如，5-99％)的溶剂(如，异丙醇、二甲基亚砜、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚、乙腈等等)一段时间(例如0.5-24小时)后保持相似活性(多于例如60％到80％)的多肽。

“pH稳定的”是指与未处理的酶相比，在暴露于低pH或高pH(例如4.5-6或8至12)一段时间(例如0.5-24小时)后保持相似活性(例如多于60％到80％)的多肽。

“热稳定且溶剂稳定的”是指既热稳定又溶剂稳定的多肽。

在工程化酶的上下文中，本文所用的“源自于”标明了该工程化以之为基础的起源的酶和/或编码这种酶的基因。例如，通过突变SEQ ID NO:2的转氨酶，获得了SEQ ID NO:4的工程化转氨酶。因此，这种SEQ ID NO:4的工程化转氨酶“源自于”SEQ ID NO:2的多肽类型。

在本文公开的多肽上下文中使用的“氨基酸”或“残基”是指在序列位置的具体单体(如，P8表示SEQ ID NO:2位置8的“氨基酸”或“残基”是脯氨酸)。

“亲水性氨基酸或残基”是指根据Eisenberg等人,1984,J.Mol.Biol.179:125-142的标准化统一疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。遗传编码的亲水性氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

“酸性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出小于约6的pK值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理pH下通常具有带负电的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

“碱性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出大于约6的pKa值的侧链的亲水性氨基酸或残基。碱性氨基酸由于与水合氢离子缔合在生理pH下通常具有带正电的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

“极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷但具有如下至少一个键的亲水性氨基酸或残基：在所述至少一个键中由两个原子共有的电子对被这两个原子之一更紧密地持有。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

“疏水性氨基酸或残基”是指根据Eisenberg等人,1984,J.Mol.Biol.179:125-142的标准化统一疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。遗传编码的疏水性氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

“芳香族氨基酸或残基”是指具有包括至少一个芳环或杂芳环的侧链的亲水性或疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管L-His(H)由于其杂芳香族氮原子的pKa有时被分类为碱性残基，或者因为其侧链包括杂芳环而被分类为芳香族残基，但本文的组氨酸被分类为亲水性残基或“受限制的残基(constrainedresidue)”(见下面)。

“受限制的氨基酸或残基”是指具有受限制的几何形状的氨基酸或残基。本文中，受限制的残基包括L-Pro(P)和L-His(H)。组氨酸具有受限制的几何形状，因为它具有相对小的咪唑环。脯氨酸具有受限制的几何形状，因为它也具有五元环。

“非极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷并且具有如下键的疏水性氨基酸或残基：在所述键中由两个原子共有的电子对一般被这两个原子中每一个同等持有(即侧链是没有极性的)。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

“脂肪族氨基酸或残基”是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的脂肪族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。

“半胱氨酸”或L-Cys(C)是独特的，因为它能够与其他L-Cys(C)氨基酸或其他包含硫烃基或硫氢基的氨基酸形成二硫键桥。“半胱氨酸样残基”包括半胱氨酸和其他包含可用于形成二硫键桥的硫氢基部分的氨基酸。L-Cys(C)(和其他具有包含-SH的侧链的氨基酸)以游离-SH还原形式或氧化的二硫键桥形式存在于肽中的能力影响L-Cys(C)赋予肽净疏水性还是净亲水性。尽管根据Eisenberg的标准化统一量表(Eisenberg等人，1984，上述)L-Cys(C)展现出0.29的疏水性，但应理解出于本公开内容的目的将L-Cys(C)归为它自己一组。

“小氨基酸或残基”是指具有由总计三个或更少的碳和/或杂原子(不包括α-碳和氢)组成的侧链的氨基酸或残基。根据以上定义可以将小氨基酸或残基进一步归类为脂肪族、非极性、极性或酸性的小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

“包含羟基的氨基酸或残基”是指包含羟基(-OH)部分的氨基酸。遗传编码的包含羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

“氨基酸差异”或“残基差异”是指与参考序列相比，在多肽序列指定位置的残基改变。例如，参考序列在位置X8具有丝氨酸时，位置X8的残基差异是指在位置X8的残基改变为丝氨酸以外的任何残基。如本文公开的，酶可包括相对参考序列的一个或多个残基差异，其中多个残基差异通常由相对参考序列进行改变的指定位置的列表表示(如，“与SEQ ID NO:2相比在以下残基位置的一个或多个残基差异：X4；X5；X8；X18；X25；X26；X27；X28；X30；X41；X42；X48；X49；X50；X54；X55；X60；X61；X62；X65；X81；X94；X96；X102；X117；X120；X124；X126；X136；X137；X138；X146；X148；X150；X152；X155；X156；X160；X163；X164；X169；X174；X178；X195；X199；X204；X208；X209；X211；X215；X217；X225；X230；X252；X269；X273；X282；X292；X297；X302；X306；X321和X329”)。

“保守的”氨基酸取代或突变是指具有相似侧链的残基的可互换性，并因此通常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。然而，如本文所用，在一些实施方案中，如果保守的突变可以是从脂肪族残基到脂肪族残基、非极性残基到非极性残基、极性残基到极性残基、酸性残基到酸性残基、碱性残基到碱性残基、芳香族残基到芳香族残基、或受限制的残基到受限制的残基的取代，保守的突变不包括从亲水性残基到亲水性残基、疏水性残基到疏水性残基、包含羟基的残基到包含羟基的残基、或小残基到小残基的取代。此外，如本文所用，A、V、L或I可以被保守突变为另一种脂肪族残基或另一种非极性残基。下表显示了示例性保守取代。

表1

“非保守取代”是指用具有显著差别的侧链特性的氨基酸取代或突变多肽中的氨基酸。非保守取代可以利用以上列出的限定组之间而不是它们之内的氨基酸。在一个实施方案中，非保守突变影响：(a)取代区域中的肽骨架的结构(例如，脯氨酸取代甘氨酸)，(b)电荷或疏水性，或(c)侧链体积。

“缺失”是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或者20个或更多个氨基酸、高达组成多肽的氨基酸总数的10％、高达氨基酸总数的20％、或高达氨基酸总数的30％，同时保留酶活性和/或保留工程化转氨酶的改进特性。缺失可以针对多肽的内部和/或端部。在多个实施方案中，缺失可以包括连续的区段或者可以是不连续的。

“插入”是指通过向参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一些实施方案中，改进的工程化转氨酶包括一个或更多个氨基酸插入天然存在的转氨酶多肽，以及一个或更多个氨基酸插入其他改进的转氨酶多肽。插入可以在多肽的内部或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基酸的连续区段，或者被天然存在的多肽中的一个或更多个氨基酸分隔。

如本文所用的“片段”是指如下多肽：所述多肽具有氨基端和/或羧基端缺失，但其中剩余的氨基酸序列与该序列中的对应位置相同。片段可以为至少14个氨基酸长、至少20个氨基酸长，至少50个氨基酸长或更长，以及高达全长转氨酶多肽、例如SEQ ID NO:4多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上与其天然伴随的其他污染物例如蛋白、脂质和多核苷酸分离。该术语包括已自其天然存在环境或表达系统(例如，宿主细胞或体外合成)中移出或纯化的多肽。改进的转氨酶可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如裂解物或分离的制备物。像这样，在一些实施方案中，改进的转氨酶可以是分离的多肽。

“基本上纯的多肽”是指如下组合物：在所述组合物中多肽物类是存在的优势物类(即，在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富)，并且当目标物类构成存在的大分子物类的按摩尔或重量％计至少约50％时一般是基本上纯化的组合物。一般而言，基本上纯的转氨酶组合物将构成该组合物中存在的所有大分子物类的按摩尔或重量％计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物类纯化至基本的均一性(即，通过常规检测方法不能在组合物中检测出污染物类)，其中组合物基本上由单一大分子物类组成。溶剂物类、小分子(<500道尔顿)、以及元素离子物类不被认为是大分子物类。在一些实施方案中，分离的改进转氨酶多肽是基本上纯的多肽组合物。

如本文所用的“严格杂交”是指如下条件：在所述条件下核酸杂交体是稳定的。如本领域技术人员已知的，杂交体的稳定性反映在杂交体的解链温度(T_m)上。一般而言，杂交体的稳定性随离子强度、温度、G/C含量和离液剂的存在而变化。多核苷酸的T_m值可以使用预测解链温度的已知方法计算(参见例如，Baldino等人,Methods Enzymology168:761-777；Bolton等人,1962,Proc.Natl.Acad.Sci.USA48:1390；Bresslauer等人,1986,Proc.Natl.Acad.Sci USA83:8893-8897；Freier等人,1986,Proc.Natl.Acad.SciUSA83:9373-9377；Kierzek等人,Biochemistry25:7840-7846；Rychlik等人,1990,Nucleic Acids Res18:6409-6412(勘误,1991,Nucleic Acids Res19:698)；Sambrook等人,上述)；Suggs等人,1981,在DevelopmentalBiology Using Purified Genes(使用纯化基因的发育生物学)(Brown等人,编),第683-693页,Academic Press中；以及Wetmur,1991,Crit RevBiochem Mol Biol26:227-259。所有的出版物均通过引用并入本文)。在一些实施方案中，多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格条件下与编码本公开内容的工程化转氨酶的序列的互补序列杂交。

“杂交严格度”涉及核酸杂交中的杂交条件，如洗涤条件。一般而言，在较低严格度条件下进行杂交反应，接着是具有不同但更高的严格度的洗涤。术语“中度严格杂交”是指允许靶DNA结合互补核酸的条件，所述互补核酸与该靶DNA具有约60％同一性、优选约75％同一性、约85％同一性；与靶多核苷酸具有大于约90％同一性。示例性中度严格条件是等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中杂交，接着在42℃于0.2×SSPE、0.2％SDS中洗涤的条件。“高严格度杂交”一般是指如下条件：与对限定的多核苷酸序列在溶液条件下确定的热解链温度T_m相差约10℃或更小。在一些实施方案中，高严格度条件是指允许仅那些在65℃于0.018M NaCl中形成稳定杂交体的核酸序列杂交的条件(即，如果杂交体在65℃于0.018M NaCl中不稳定，它在本文考虑的高严格度条件下将是不稳定的)。可以例如通过在等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS的条件中杂交，接着在65℃于0.1×SSPE和0.1％SDS中洗涤，而提供高严格度条件。另一种高严格度条件是在与以下等价的条件中杂交：在65℃于含0.1％(w：v)SDS的5×SSC中杂交，在65℃于含0.1％SDS的0.1×SSC中洗涤。其他高严格度杂交条件以及中度严格条件描述于以上引用的参考文献中。

“异源”多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中移出、经历实验室操作、然后再引入宿主细胞中的多核苷酸。

“密码子优化的”是指编码蛋白质的多核苷酸的密码子变为特定生物体中优先使用的那些密码子，以致所编码的蛋白被有效表达在感兴趣的生物体中。尽管遗传密码由于大多数氨基酸被称作“同义密码子”或“同义”密码子的几个密码子代表而为简并的，但众所周知具体生物体的密码子使用是非随机的且偏向特定的密码子三联体。就给定基因、具有共同功能或祖先起源的基因、高表达蛋白相对于低拷贝数蛋白以及生物体基因组的聚集蛋白编码区而言，这种密码子使用偏向可能更高。在一些实施方案中，可以对编码转氨酶的多核苷酸进行密码子优化，以用于从为表达所选的宿主生物体中优化生产。

“偏爱密码子、优化的密码子、高密码子使用偏向的密码子”可互换地指在蛋白编码区中以高于编码同一氨基酸的其他密码子的频率被使用的密码子。偏爱密码子可以根据在单基因、一组具有共同功能或起源的基因、高表达基因中的密码子使用，在整个生物体的聚集蛋白编码区中的密码子频率，在相关生物体中的聚集蛋白编码区中的密码子频率或它们的组合来确定。频率随基因表达水平而提高的密码子通常是用于表达的优化密码子。多种方法已知用于确定具体生物体中的密码子频率(例如，密码子使用，相对同义的密码子使用)和密码子偏好，包括多变量分析，例如使用聚类分析或对应分析，以及用于确定基因中使用的密码子的有效数目(参见GCG CodonPreference,遗传学计算机工作组Wisconsin软件包(GeneticsComputer Group Wisconsin Package)；Codon W,John Peden,诺丁汉大学；McInerney,J.O,1998,Bioinformatics14:372-73；Stenico等人,1994,NucleicAcids Res.222437-46；Wright,F.,1990,Gene87:23-29)。不断增加的生物名单的密码子使用表是可用的(参见例如，Wada等人,1992,Nucleic AcidsRes.20:2111-2118；Nakamura等人,2000,Nucl.Acids Res.28:292；Duret等人,上述；Henaut和Danchin,“Escherichia coli and Salmonella(大肠杆菌和沙门氏菌),”1996,Neidhardt等人编,ASM Press,Washington D.C.,第2047-2066页)。用于获得密码子使用的数据资源可依赖于能够编码蛋白的任何可用的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序列(例如，完整的蛋白编码序列-CDS)、表达序列标签(EST)、或基因组序列的预测编码区(参见，例如Mount,D.,Bioinformatics:Sequence and Genome Analysis(生物信息学：序列和基因组分析),第8章,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,2001；Uberbacher,E.C.,1996,Methods Enzymol.266:259-281；Tiwari等人,1997,Comput.Appl.Biosci.13:263-270)。

“控制序列”在本文定义为包括对本公开内容的多核苷酸和/或多肽的表达必要或有利的所有组分。每个控制序列可能对目标多核苷酸是天然的或外来的。这些控制序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。

“可操作地连接”在本文定义为如下一种配置：在所述配置中控制序列相对于目标多核苷酸的位置被适当安放(即，以功能关系)，以使得控制序列指导或调整目标多核苷酸和/或多肽的表达。

“启动子序列”是由宿主细胞识别用于表达目标多核苷酸如编码序列的核酸序列。控制序列可以包括适当的启动子序列。启动子序列包含介导目标多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变的、截短的和杂合的启动子，并且可以从编码细胞外多肽或细胞内多肽的、与该宿主细胞同源或异源的基因中获得。

“烃基”是指直链或支链的烃基团。当符号“C”后出现下标的数字时，该下标更确切地规定了特定基团可包含的碳原子数。例如，“C_l-C₆烃基”是指具有1至6个碳原子的直链和支链烃基基团，诸如甲基、乙基、正丙基、异丙基、正丁基、叔丁基、正戊基，等等。烃基基团可任选地被一个或多个取代基基团取代。本文所用的烃基包括如以下进一步描述的烷基和亚烃基。

“烷基”本身或作为另一取代基的部分指饱和的支链、直链或环状烃基，其通过从母体烷的单个碳原子除去一个氢原子得到。烷基包括但不限于：甲烷基；乙烷基；丙烷基，如丙烷-1-基、丙烷-2-基(异丙基)、环丙烷-1-基等；丁烷基，如丁烷-1-基、丁烷-2-基(仲丁基)、2-甲基-丙烷-1-基(异丁基)、2-甲基丙烷-2-基(叔丁基)、环丁烷-1-基等；以及类似基团。在一些实施方式中，烷基是(C₁-C₆)烷基。

“亚烃基”本身或作为另一取代基的部分是指饱和或不饱和的支链、直链或环状二价烃基，其通过从母体烷、烯或炔的单个碳原子或两个不同碳原子除去两个氢原子得到。例如，-CH₂CH₃是乙基，而-CH₂CH₂-是亚乙基。术语“亚烃基”包括“环亚烃基”。术语“亚烃基”特别地意为包括具有任何饱和程度或水平的基团，即，仅具有碳-碳单键的基团、具有一个或多个碳-碳双键的基团、具有一个或多个碳-碳三键的基团、和具有碳-碳单键、双键和三键的混合物的基团。

“烯基”和“烯”是指具有至少一个双键的直链或支链烃基。当符号“C”后出现下标的数字时，该下标更确切地规定了特定基团可包含的碳原子数。例如，“C_l-C₆烯基”是指包括至少一个双键的1至6个碳原子的直链和支链烃基基团。典型的烯基基团包括本领域公知的，包括但不限于：乙烯基、1-甲基-乙烯基、1-或2-丙烯基、1-甲基-l-丙烯基、1-甲基-2-丙烯基、1,1-二甲基-2-丙烯基、2-甲基-2-丙烯基、1-、2-或3-丁烯基、1-甲基-1-丁烯基、2-甲基-1-丁烯基、3-甲基-1-丁烯基、3,3-二甲基-l-丁烯基、2,3-二甲基-l-丁烯基、1-甲基-2-丁烯基、1,1-二甲基-2-丁烯基、2-甲基-2-丁烯基、3-甲基-2-丁烯基、1,3-丁二烯基、1,3-二甲基-1,3-丁二烯基、1-、2-、3-或4-戊烯基，等等。烯基基团可任选地被一个或多个取代基基团取代。

“炔基”和“炔”是指具有至少一个三键的直链或支链烃基。当符号“C”后出现下标的数字时，该下标更确切地规定了特定基团可包含的碳原子数。例如，“C_l-C₆炔基”是指包括至少一个三键的1至6个碳原子的直链和支链烃基基团。典型的炔基基团包括本领域公知的，包括但不限于：乙炔基、1-或2-丙炔基、1-甲基-2-丙炔基、1,1-二甲基-2-丙炔基、1-、2-或3-丁炔基、3-甲基-1-丁炔基、3,3-二甲基-1-丁炔基、1-甲基-2丁炔基、1,1-二甲基-2-丁炔基、1-、2-、3-或4-戊炔基，等等。炔基基团可任选地被一个或多个取代基基团取代。

“芳基”是指6至约20个碳原子的单价芳族烃基，其通过从母体芳环系统的单个碳原子除去一个氢原子得到。芳基基团包括但不限于从以下基团得到的基团：醋蒽烯(aceanthrylene)、苊、醋菲烯(acephenanthrylene)、蒽、薁、苯、屈、晕苯、荧蒽、芴、并六苯、己芬、己搭烯(hexalene)、不对称引达省、对称引达省、茚满、茚、萘、并八苯(octacene)、辛芬(octaphene)、辛搭烯(octalene)、卵苯、戊-2,4-二烯、并五苯、戊搭烯、戊芬、苝、非那烯、菲、苉、七曜烯、芘、吡蒽、玉红省、三亚苯、三亚萘(trinaphthalene)，和类似基团，以及其各种氢异构体。在一些实施方案中，芳基是(C₅-C₁₅)芳基，且(C₅-C₁₀)是优选的。在一些实施方案中，芳基是环戊二烯基、苯基和萘基。芳基基团可任选地被一个或多个取代基基团取代。

“杂芳基”和“杂芳族”是指其中母体芳环系统的一个或多个碳原子被杂原子(O、N或S)代替的芳基基团。典型的杂芳基基团包括但不限于从以下基团得到的基团：吖啶、苯并咪唑、苯并异噁唑、苯并二噁烷、苯并二氧杂环戊二烯(benzodiaxole)、苯并呋喃、苯并吡喃酮、苯并噻二唑、苯并噻唑、苯并三唑、苯并噁嗪、苯并噁唑、苯并噁唑啉(benzoxazoline)、咔唑、β-咔啉、色满、色烯、噌啉、呋喃、咪唑、吲唑、吲哚、吲哚啉、吲嗪、异苯并呋喃、异色烯、异吲哚、异吲哚啉、异喹啉、异噻唑、异噁唑、萘啶、噁二唑、噁唑、萘嵌间二氮杂苯、菲啶、菲咯啉、吩嗪、酞嗪、蝶啶、嘌呤、吡喃、吡嗪、吡唑、哒嗪、吡啶、嘧啶、吡咯、吡呤环(pyrrolizine)、喹唑啉、喹啉、喹嗪、喹喔啉、四唑、噻二唑、噻唑、噻吩、三唑、氧杂蒽，和类似基团，以及其各种氢异构体。在一些实施方案中，杂芳基是5-14元杂芳基。在一些实施方案中，杂芳基是5-10元杂芳基。

“酰基”本身或作为另一取代基的部分是指-C(O)R^a，其中R^a是氢或取代或未取代的如本文定义的烃基、环烃基、环杂烃基、芳基、芳基烃基、杂烃基、杂芳基或杂芳基烃基。典型的酰基基团包括但不限于，甲酰基、乙酰基、环己基羰基、环己基甲基羰基、苯甲酰基、苄基羰基，和类似基团。

“酰氧基”本身或作为另一取代基的部分是指-OC(O)R^b，其中R^b表示氢或取代或未取代的如本文定义的烃基、杂烃基、环烃基、杂环烃基、芳基、芳基烃基和杂芳基基团。烃基酰氧基是指其中R^b是(C₁-C₁₂)烃基、(C₁-C₈)烃基或(C₁-C₄)烃基的酰氧基。芳基酰氧基是指其中R^b是任选地被所选的取代基取代的芳基的酰氧基，所述取代基包括但不限于羟基、烃基、卤素、(C₁-C₄)烃基、(C₁-C₄)烃氧基和羧基。

“烃氧基”本身或作为另一取代基的部分指-OR^c，其中R^c表示如本文定义的烃基或环烃基。典型的烃氧基包括但不限于甲氧基、乙氧基、丙氧基、丁氧基、环己基氧基和类似基团。

“烃基羰基”本身或作为另一取代基的部分指-C(O)-R^d’，其中R^d’是如上面所定义的烃基。典型的烃氧基羰基包括但不限于：乙酰基、乙基羰基、正丙基羰基和类似基团。

“烃硫基”本身或作为另一取代基的部分是指–S-R^e，其中R^e是烃基。典型的烃硫基包括但不限于，甲硫基、乙硫基、正丙硫基，和类似基团。

“烃氧基羰基”本身或作为另一取代基的部分指C(O)OR^f，其中R^f表示如本文定义的烃基或环烃基。典型的烃氧基羰基包括但不限于甲氧基羰基、乙氧基羰基、丙氧基羰基、丁氧基羰基、环己基氧基羰基和类似基团。

“烃氧基羰基烃基”本身或作为另一取代基的部分是指-R^g-C(O)OR^h，其中每个R^g和R^h独立地是烃基。典型的烃氧基羰基烃基包括但不限于，甲氧基羰基甲基、(1,1-二甲基乙氧基)羰基甲基、2-(甲氧基羰基)乙基和类似基团。

“氨基”本身或作为另一取代基的部分指基团-NH₂。取代的氨基指基团–NHRⁱ’、NRⁱR^j’和NRⁱR^jR^k，其中每个Rⁱ、R^j和R^k独立地选自取代的或未取代的烃基、环烃基、环杂烃基、烃氧基、芳基、杂芳基、杂芳基烃基、酰基、烃氧基羰基、硫烷基、亚硫酰基、磺酰基和类似基团。典型的氨基包括但不限于：二甲基氨基、二乙基氨基、三甲基氨基、三乙基氨基、甲基磺酰基氨基、呋喃基-氧基-磺氨基和类似基团。

“羰基”是指-C(＝O)。

除非另外指明，否则“卤素(halogen)”或“卤素(halo)”本身或作为另一取代基的部分是指氟、氯、溴和碘。

“卤代烃基”本身或作为另一取代基的部分是指其中一个或多个氢原子被卤素代替的烃基基团。因此，术语“卤代烃基”意为包括单卤代烃基、二卤代烃基、三卤代烃基等等，直到全卤代烃基。例如，表述“(C₁-C₂)卤代烃基”包括1-氟甲基、二氟甲基、三氟甲基、1-氟乙基、1,1-二氟乙基、1,2-二氟乙基、1,1,1-三氟乙基、全氟乙基等等。

“取代的”当用于修饰指定基团或自由基时，是指指定基团或自由基的一个或多个氢原子各自彼此独立地被相同或不同的取代基代替。典型的取代基(在本文还称为“取代基”、“取代基基团”、“官能团”或“基团”)是本领域公知的，包括但不限于杂原子或卤素基团(如，-F、-Cl、-Br、-I)、直链、支链或环状烃基、直链、支链或环状烯基、杂原子取代的烃基或烯基(如，-O-烃基、-S-烃基)、芳基或杂芳基、和带有或不带有杂原子的其他官能团(如，-OH、-NH₂、-CF₃、-CN、-OCN、-SCN、-NO和-NO₂)。当第一取代基基团被“一个或多个”第二基团取代时，第一基团的一个或多个氢原子被相应数目的第二基团代替。当第二基团的数目是2或更大时，每个第二基团可以是相同或不同的。

“取代的烃基、芳基或杂芳基”指其中一个或多个氢原子用另一取代基代替的烃基、芳基或杂芳基基团。示例性取代基包括但不限于：-OR^l、-SR^l、-NR^lR^m、-NO₂、-NO、-CN、-CF₃、卤素(例如-F、-Cl、-Br和-I)、-C(O)R^l、-C(O)OR^l、-C(O)NR^l、-S(O)₂R^l、-S(O)₂NR^lR^m，其中每个R^l和R^m独立地选自由氢和(C₁-C₄)烃基组成的组。

“任选”或“任选地”是指所描述的事件或情况可能发生或不发生，这一描述包括其中该事件或情况发生的情形和其中该事件或情况不发生的情形。例如，“任选地取代的芳基”是指可能被取代或可能未被取代的芳基基团，这一描述包括取代的芳基基团和未取代的芳基基团二者。

“立体异构体”、“立体异构形式”和类似表述在本文可互换使用，是指单独分子差异仅在于其原子在空间中的方位不同的所有异构体。其包括对映异构体和具有多于一个手性中心、不是彼此镜像的化合物的异构体(“非对映异构体”)。

“手性中心”是指四个不同基团与其连接的碳原子。

“对映异构体”或“对映异构体的”是指不可与其镜像叠加的分子，因此是旋光的，其中对映异构体以一个方向旋转偏振光平面，其镜像以相反方向旋转偏振光平面。

关于组合物诸如特定手性化合物、对映异构体或非对映异构体中组分的“富集”是指其中该组分占该特定手性化合物、对映异构体或非对映异构体的多于50％、通常占至少约60％、70％、80％、90％或甚至更多的组合物。富集的量可利用本领域普通技术人员例行使用的常规分析方法确定，所述方法包括但不限于，在手性位移试剂存在下的NMR光谱、利用手性柱的气相色谱分析和利用手性柱的高压液相色谱。在一些实施方案中，单个手性化合物、对映异构体或非对映异构体将基本上不含其他相应的手性化合物、对映异构体或非对映异构体。包含至少约95％的指定手性化合物、对映异构体或非对映异构体的手性富集、对映异构体富集或非对映异构体富集的组合物在本文分别称为“基本上手性纯的”、“基本上对映异构体纯的”和“基本上非对映异构体纯”。包含至少约99％的指定手性化合物、对映异构体或非对映异构体的组合物在本文分别称为“手性纯”、“对映异构体纯”和“非对映异构体纯”。

本文所用的“化合物”是指被伴随本文公开的化合物标明的结构式和/或化学名涵盖的任何化合物。化合物可以其化学结构和/或化学名标明。当化学结构与化学名冲突时，化学结构决定化合物的身份。被本文公开的结构式和/或化学名标明的每种化合物可包含一个或多个手性中心和/或双键，因此可能以多于一种立体异构体存在，诸如双键异构体(即，几何异构体)、对映异构体或非对映异构体。因此，除非另外具体地描述或指出，否则本文描述的化学结构涵盖所描述化合物的所有可能的对映异构体和立体异构体，包括立体异构体纯的形式(如，几何异构体纯、对映异构体纯或非对映异构体纯)、和对映异构体与立体异构体混合物。利用本领域技术人员已知的分离技术或手性合成技术，可将对映异构体与立体异构体混合物拆分为其组成的对映异构体或立体异构体。化合物还可以多种互变异构体形式存在，包括烯醇形式、酮形式、和其混合物。因此，本文描述的化学结构涵盖所描述化合物的所有可能互变异构体形式。类似地，描述的化合物还包括化合物的所有同位素标记形式，其中一个或多个原子具有不同于自然界中常见的原子质量的原子质量。可掺入本公开内容的化合物的同位素的实例包括但不限于，²H、³H、¹³C、¹⁴C、¹⁵N、¹⁸O、¹⁷O等等。化合物可以未溶剂化形式以及溶剂化形式存在，包括水合形式和作为N-氧化物。通常，化合物可以是水合的、溶剂化的或N-氧化物。一些化合物可以多种结晶形式或无定形形式存在。通常，所有物理形式对于本文预期的用途是等同的，并且预期包括在本公开内容范围中。进一步地，应理解，当示出化合物的部分结构时，括号标出部分结构与分子其余部分连接的点。

5.3生物催化的转氨基方法

本文描述的生物催化的转氨基方法是基于工程化的转氨酶多肽，所述工程化的转氨酶多肽为了其在氨基供体存在下进行将酮酰胺底物4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑并[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮转氨基为手性胺产物(2R)-4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑并[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-胺的能力而被制备。这一手性胺产物称为西他列汀，是用于治疗2型糖尿病的中的活性成分。相应的天然存在的转氨酶或SEQ ID NO:2的转氨酶对西他列汀酮酰胺底物不展示可测量的活性。本公开内容显示，这些工程化的转氨酶也能够进行其他酮底物的转氨基以产生对映体过量的手性胺。手性胺产物具有以下一般结构：

其中R¹是任选地取代的芳基或杂芳基，R²是任选地取代的烃基、或通过取代或未取代的亚烃基与手性碳连接的酰基、酰氧基或烃氧基基团。在适当的反应条件下将相应的前手性酮底物与转氨酶接触以产生对映体过量的胺产物。所得的胺化合物可用于合成各种药物产物和其异构体，如以下进一步描述的。

在一些实施方案中，本公开内容提供一种制备结构式(I)的胺产物的方法：

R¹是任选地取代的芳基或杂芳基；且

R²是任选地取代的C₁-C₆烃基、-R³C(O)R⁴或-R³OC(O)R⁵；

其中R³是任选地取代的C₁-C₄烃基；且R⁴是H、任选地取代的C₁-C₄烃基、NR⁶R⁷或OR⁸，其中R⁵、R⁶、R⁷和R⁸独立地是H或C₁-C₄烃基，所述方法包括在适于转化酮底物为胺产物的反应条件下，在氨基供体存在下，将结构式(II)的酮底物：

与转氨酶多肽接触，其中所述转氨酶多肽是本文所述的工程化的转氨酶。在一些实施方案中，所述转氨酶多肽与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的氨基酸序列同一性并能够以与SEQ ID NO:2的转氨酶相比提高的比率转化式(II)的酮底物为式(I)的胺产物。

如上所述，可用于本公开内容的方法中的转氨酶多肽可按照其转化西他列汀酮酰胺底物为西他列汀的能力来表征。因此，在本文公开的方法的任何实施方案中，可进行该方法，其中转氨酶多肽能够以与SEQ ID NO:2的转氨酶相比提高的比率转化西他列汀酮酰胺底物为西他列汀，并与SEQID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大的氨基酸序列同一性。

在上述方法的一些实施方案中，R¹是任选地取代的苯基。在一些实施方案中，R¹是任选地取代的吡啶基。在一些实施方案中，R¹是取代的芳基或杂芳基。在一些实施方案中，对芳基或杂芳基的取代选自C₁-C₄烃基、-OR’、-SR’、-NR’R’、-NO₂、-NO、-CN、-CF₃、卤素(如，-F、-Cl、-Br和-I)、-C(O)R’、-C(O)OR’、-C(O)NR’、-S(O)₂R’、-S(O)₂NR’R”，其中每个R’和R”独立地选自氢和(C₁-C₄)烃基组成的组。在一些实施方案中，(C₁-C₄)烃基是卤素取代的烃基。

在一些实施方案中，R²是C₁-C₄烃基或卤素取代的C₁-C₄烃基，尤其是甲基、卤素取代的甲基、丙基或卤素取代的丙基。在一些实施方案中，R²是CF₂H或CF₃。

在R²的一些实施方案中，对C₁-C₆烃基和R³基团的取代选自卤素、OH、NR⁵R⁶或OR⁸，其中R⁵、R⁶和R⁸如以上定义的。在一些实施方案中，在上述方法中产生的式(I)化合物是基本上手性纯的化合物。在某些实施方案中，在上述方法中产生的式(I)化合物是手性纯的。

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹是H、Cl、Br、F、CH₃、CF₃、NH₂、NO₂、CN、SCN、OCF₃或OCH₃，R²是任选地取代的C₁-C₆烃基，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在一些实施方案中，上述方法中的胺产物以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，在上述方法中产生的化合物是基本上手性纯的化合物。在一些实施方案中，在上述方法中产生的化合物是手性纯的化合物。

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹是H、Cl、Br、F、CH₃、CF₃、NH₂、NO₂、CN、SCN、OCF₃或OCH₃，且式(II)的酮底物是：

在一些实施方案中，R⁹是H、Br、CH₃或CF₃。在一些实施方案中，R⁹是在苯基环的对位。在一些实施方案中，上述方法中的胺产物以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，在上述方法中产生的化合物是基本上手性纯的化合物。在一些实施方案中，在上述方法中产生的化合物是手性纯的化合物。

在该方法的一些实施方案中，式(I)的胺产物是(S)-1-(4-溴苯基)-2,2,2-三氟乙胺：

且式(II)的酮底物是1-(4-溴苯基)-2,2,2-三氟乙酮：

在该方法的一些实施方案中，(S)-1-(4-溴苯基)-2,2,2-三氟乙胺以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，产生的(S)-1-(4-溴苯基)-2,2,2-三氟乙胺是基本上手性纯的化合物。在某些实施方案中，该方法中产生的(S)-1-(4-溴苯基)-2,2,2-三氟乙胺是手性纯的。

在该方法的一些实施方案中，式(I)的胺产物是(S)-2,2,2-三氟-1-对甲苯基乙胺：

且式(II)的酮底物是2,2,2-三氟-1-对甲苯基乙酮：

在一些实施方案中，(S)-2,2,2-三氟-1-对甲苯基乙胺以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，产生的(S)-2,2,2-三氟-1-对甲苯基乙胺是基本上手性纯的。在某些实施方案中，该方法中产生的(S)-2,2,2-三氟-1-对甲苯基乙胺是手性纯的。

在该方法的一些实施方案中，式(I)的产物胺是(S)-2,2,2-三氟-1-(4-(三氟甲基)苯基)乙胺：

且式(II)的酮底物是2,2,2-三氟-1-(4-(三氟甲基)苯基)乙酮：

在一些实施方案中，(S)-2,2,2-三氟-1-(4-(三氟甲基)苯基)乙胺以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，产生的(S)-2,2,2-三氟-1-(4-(三氟甲基)苯基)乙胺是基本上手性纯的。在某些实施方案中，该方法中产生的(S)-2,2,2-三氟-1-(4-(三氟甲基)苯基)乙胺是手性纯的。

在该方法的一些实施方案中，式(I)的产物胺是：

且式(II)的酮底物是：

其中R⁷是任选地取代的C₁-C₄烃基且R¹⁰是氢、卤素、氨基或取代的氨基、C₁-C₄烃基、卤素取代的C₁-C₄烃基、硝基、氰基、氰硫基或烃氧基。在一些实施方案中，R¹⁰是上述的R⁹。在一些实施方案中，R¹⁰是H或F。在一些实施方案中，R⁷是C₁-C₄烃基。

在该方法的一些实施方案中，式(I)的胺产物是(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯：

且式(II)的酮底物是3-氧-3-(吡啶-2-基)丙酸乙酯：

在一些实施方案中，(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，产生的(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯是基本上手性纯的。在某些实施方案中，该方法中产生的(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯是手性纯的。

在该方法的一些实施方案中，式(I)的胺产物是：

在一些实施方案中，式(I)的胺产物是(S)-4-氯-1-(2-氟苯基)丁-1-胺：

且式(II)的酮底物是4-氯-1-(2-氟苯基)丁-1-酮：

在一些实施方案中，(S)-4-氯-1-(2-氟苯基)丁-1-胺以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，产生的(S)-4-氯-1-(2-氟苯基)丁-1-胺是基本上手性纯的。在某些实施方案中，该方法中产生的(S)-4-氯-1-(2-氟苯基)丁-1-胺是手性纯。

在一些实施方案中，利用转氨酶生物催化剂的方法可用于制备式(III)化合物：

所述式(III)化合物在标为*的立体中心具有所示的立体化学构型，且所述式(III)化合物与相对的对映异构体相比为对映体过量，其中R¹⁰如以上定义的。制备式(III)的胺产物的方法可包括：

(a)在适于转化下式酮底物：

为下式胺产物：

的反应条件下，在氨基供体存在下，将所述酮底物与本文所述的转氨酶多肽接触，其中R¹⁰和R¹¹如以上定义的；

并

(b)在适当条件下环化所述胺产物以形成式(III)化合物。

在一些实施方案中，上述方法中式(III)的环化胺产物以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，在上述方法中产生的化合物是基本上手性纯的化合物。在一些实施方案中，在上述方法中产生的化合物是手性纯的化合物。

在一些实施方案中，酮底物是4-氯-1-(2-氟苯基)丁-1-酮：

且胺产物是(S)-4-氯-1-(2-氟苯基)丁-1-胺：

从而形成对映体过量的(R)-2-(2-氟苯基)吡咯烷：

在一些实施方案中，(R)-2-(2-氟苯基)吡咯烷以至少70％、80％、85％、90％、95％、96％、97％、96％或99％或更大的对映体过量产生。在一些实施方案中，产生的(R)-2-(2-氟苯基)吡咯烷是基本上手性纯的。在某些实施方案中，该方法中产生的(R)-2-(2-氟苯基)吡咯烷是手性纯的。

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

在该方法的一些实施方案中，式(I)的胺产物是：

其中R⁹如以上定义的，且式(II)的酮底物是：

如本文所述，上述方法在适于转化酮底物为对映体过量的相应的手性胺产物的反应条件中进行。在一些实施方案中，反应条件包括约20℃至约65℃的温度。在一些实施方案中，反应条件包括约40℃至约65℃的温度。在一些实施方案中，反应条件包括约50℃至约65℃的温度。例如，对于利用以下酮底物的方法：

反应条件包括40℃至65℃的温度。示例的温度是60℃。

在一些实施方案中，进行上述方法的反应条件包括pH约7.0至约11.0。在一些实施方案中，反应条件包括pH约7.0至约9.0。在一些实施方案中，该方法的反应条件是pH约8.5。尽管pH可在该方法过程中利用任何碱和/或酸来调整，在一些实施方案中，pH可通过添加异丙胺来维持，异丙胺还提供氨基供体来源以推动反应平衡朝向胺产物形成。

各种有机溶剂可用在该方法中以促进酶反应并使得底物和/或产物在溶液中。在该方法的一些实施方案中，有机溶剂包括极性溶剂，诸如甲醇或二甲基亚砜(DMSO)。在一些实施方案中，有机溶剂是DMSO，其可以约10％至约40％体积/体积(v/v)存在。在一些实施方案中，有机溶剂是DMSO，其可以约10％至约50％体积/体积(v/v)存在。在一些实施方案中，DMSO以约40％v/v存在。

如以上讨论的，该方法中所用的氨基供体可以是手性胺或非手性胺。非手性氨基供体具有的益处是不限制其反应于特定的立体异构体，从而需要的氨基供体较少。可使用多种适合的氨基供体，包括例如但不限于，异丙胺(也称为2-氨基丙烷)、L、D或DL丙氨酸、苯丙氨酸、谷氨酸、谷氨酰胺、亮氨酸(或任何其他适合的α-氨基酸)、3-氨基丁酸(或任何其他适合的β-氨基酸)和甲基苄胺。在一些实施方案中，氨基供体是异丙胺。在一些实施方案中，可使用其他氨基供体，包括但不限于α-苯乙胺(也称为1-苯基乙胺)和其对映异构体(S)-1-苯基乙胺和(R)-1-苯基乙胺、2-氨基-4-苯基丁烷、甘氨酸、L-谷氨酰胺、L-谷氨酸、谷氨酸单钠、L-天冬氨酸、L-赖氨酸、L-鸟氨酸、β-丙氨酸、牛磺酸、正辛胺、环己胺、1,4-丁二胺、1,6-己二胺、6-氨基己酸、4-氨基丁酸、酪胺和苄胺、2-氨基丁烷、2-氨基-1-丁醇、1-氨基-1-苯基乙烷、l-氨基-1-(2-甲氧基-5-氟苯基)乙烷、1-氨基-1-苯基丙烷、1-氨基-1-(4-羟基苯基)丙烷、1-氨基-1-(4-溴苯基)丙烷、1-氨基-1-(4-硝基苯基)丙烷、l-苯基-2-氨基丙烷、1-(3-三氟甲基苯基)-2-氨基丙烷、2-氨基丙醇、l-氨基-l-苯基丁烷、l-苯基-2-氨基丁烷、1-(2,5-二甲氧基-4-甲基苯基)-2-氨基丁烷、l-苯基-3-氨基丁烷、1-(4-羟基苯基)-3-氨基丁烷、1-氨基-2-甲基环戊烷、l-氨基-3-甲基环戊烷、l-氨基-2-甲基环己烷、l-氨基-1-(2-萘基)乙烷、3-甲基环戊胺、2-甲基环戊胺、2-乙基环戊胺、2-甲基环己胺、3-甲基环己胺、1-氨基萘满、2-氨基萘满、2-氨基-5-甲氧基萘满和1-氨基茚满，可能时包括(R)和(S)单独异构体，并包括这些胺的所有可能的盐。

在以上方法的一些实施方案中，该方法中的步骤还可包括去除当氨基被转移到氨基受体时从氨基供体形成的羰基副产物。这种原位去除可减少副反应率，从而正向反应占主导，因此更多底物被转化为产物。

羰基副产物的去除可以许多方式进行。当氨基供体是氨基酸诸如丙氨酸时，羰基副产物是酮酸，可通过与过氧化物反应来去除(参见如，US2008/0213845，通过引用并入本文)。可使用的过氧化物包括但不限于过氧化氢；过氧酸类(过酸)诸如过乙酸(CH₃CO₃H)、三氟过乙酸和间氯过氧苯甲酸；有机过氧化物诸如叔丁基过氧化物((CH₃)₃COOH)或其他选择性氧化剂诸如四丙基高钌酸铵、MnO₂、KMnO₄、四氧化钌和相关化合物。可选地，丙酮酸的去除可通过利用乳酸脱氢酶将其还原为乳酸来实现，以将平衡转向产物胺(参见如，Koszelewski等，2008,Adv.Syn.Catal.350:2761-2766)。丙酮酸的去除还可通过利用丙酮酸脱羧酶将其脱羧为二氧化碳和乙醛来实现(参见如，等，2008,ChemBioChem9:363-365)。

在一些实施方案中，当选择的氨基供体产生的羰基副产物比水的蒸气压高时(如，低沸点副产品诸如挥发性有机羰基化合物)，羰基副产物可通过向反应溶液充入非反应性气体，或通过施加真空来降低反应压力，并去除气相中存在的羰基副产物来去除。非反应性气体是不与反应组分起反应的任何气体。各种非反应性气体包括氮气和稀有气体(如，惰性气体)。在一些实施方案中，非反应性气体是氮气。

在一些实施方案中，该方法中使用的氨基酸供体是异丙胺，其在向氨基受体转移氨基时形成羰基副产物丙酮。丙酮可通过向反应溶液充入氮气或施加真空，并通过丙酮捕集器，诸如冷凝器或其他冷捕集器从气相去除丙酮来去除。可选地，丙酮可通过利用酮还原酶还原为异丙醇来去除。

在其中去除羰基副产物的以上方法的一些实施方案中，在转氨基反应期间可加入相应氨基供体以补充氨基供体和/或维持反应的pH。补充氨基供体还将平衡向产物形成转移，从而增加底物向产物的转化。因此，在其中氨基供体是异丙胺并且丙酮产物被原位去除的一些实施方案中，可向溶液加入异丙胺以补充丙酮去除期间失去的氨基供体并维持反应的pH(如，在约8.5)。可选地，在氨基酸用作氨基供体的实施方案中，酮酸羰基副产物可通过利用适当的氨基酸脱氢酶与氨和NADH反应来再循环为氨基酸，从而补充氨基供体。

酮底物可以适当的量存在，取决于例如但不限于以下因素：溶剂性质、转氨酶对反应温度的稳定性、酶的量和活性。在一些实施方案中，底物以5至50g/L存在。在一些实施方案中，底物以5-25g/L存在。

在一些实施方案中，上述方法包括，在约1M至约2M的异丙胺存在下，在pH7.5至9.0和40至60℃的温度的反应条件下，将约10至50g/L的酮底物与约1至20g/L的本文所述转氨酶接触，其中在24小时内至少80％、85％、90％、92％、94％、96％或98％或更多的底物被转化为产物。在一些实施方案中，能够进行上述反应的转氨酶多肽包括对应SEQ ID NO:58、72、74、80、86、96、98、100、102、110或166的氨基酸序列。

在一些实施方案中，以上方法还可包括从反应混合物分离胺产物，诸如结构式(I)、(III)或(V)的胺产物的步骤。

本文还提供了转氨酶与底物/产物的组合物。在一些实施方案中，组合物可包括结构式(I)、(III)或(V)的胺产物、和本公开内容的转氨酶。任何一种或多种工程化的转氨酶可以是组合物的部分。

在一些实施方案中，组合物还可包括氨基供体。在组合物的一些实施方案中，氨基供体可包括异丙胺、丙氨酸、3-氨基丁酸或甲基苄胺。在组合物的一些实施方案中，氨基供体是异丙胺。

本公开内容的方法可用于产生用于合成药物分子的异构体和衍生物的各种中间产物。例如，本公开内容的产生式(I)化合物的方法可用于合成分子诸如Odanacatib或相关衍生物，Odanacatib是一种研究的选择性组织蛋白酶K抑制剂，用于阻止癌症患者的骨转换。Odanacatib具有以下结构：

产生式(I)化合物的方法可用于制造用于合成某些噻二唑类(thiadaizoles)，诸如以下分子的中间产物。噻二唑类是CXC-和CC-趋化因子受体配体，据说具有抗炎和抗肿瘤性质(WO2005/066147)。

本公开内容产生式(V)化合物的方法可用于合成化合物，诸如：

WO2008/128647公开了作为P2Y12拮抗剂的相似的喹啉-羧酰胺衍生物，其可能可用于治疗心血管疾患。

5.4转氨酶多肽和多核苷酸

如上所述，上述方法中使用的转氨酶多肽最初是基于其转化酮酰胺底物4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑并[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮(“西他列汀酮酰胺底物”)为产物(2R)-4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三唑并[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-胺以合成西他列汀的能力来鉴定的。SEQ ID NO；2的转氨酶多肽不能有效地进行转氨基反应。这些转氨酶多肽可关于其对西他列汀酮酰胺底物或对本文所述的底物的活性来描述。

转氨酶，包括本文所述的转氨酶，通常包含参与转氨基反应的辅酶吡哆醛磷酸(PLP)。PLP可由在其中合成多肽的宿主细胞提供，或通过向多肽溶液加入PLP来提供。尽管转氨酶是关于氨基酸序列描述的，本领域技术人员将理解，活性多肽包含PLP或适当的类似物作为辅酶。

如上所述，在一些实施方案中，转氨酶多肽与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大的氨基酸序列同一性，并能够以与SEQ IDNO:2的转氨酶相比提高的比率转化酮底物为胺产物。

在一些实施方案中，转氨酶多肽与SEQ ID NO:58、72、74、80、86、96、98、100或102具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大的氨基酸序列同一性，并能够以与SEQ ID NO:2的转氨酶相比提高的比率转化酮底物为胺产物。

在一些实施方案中，工程化转氨酶多肽包括与转氨酶参考序列相比具有一个或多个残基差异的氨基酸序列。残基差异可以是非保守取代、保守取代、或非保守取代与保守取代的组合。关于残基差异和残基位置的描述，本文提供的转氨酶可参照以下氨基酸序列来描述：节杆菌属KNK168的天然产生的转氨酶、或SEQ ID NO:2的转氨酶、或另一种工程化转氨酶，诸如SEQ ID NO:4多肽。对于本文的描述，参考序列中的氨基酸残基位置在转氨酶中从起始甲硫氨酸(M)残基开始确定(即，M代表残基位置1)，尽管本领域技术人员将理解，这一起始的甲硫氨酸残基可能被诸如宿主细胞或体外翻译系统中的生物加工机制去除以产生缺少起始甲硫氨酸残基的成熟蛋白。

存在特定氨基酸或氨基酸改变(“残基差异”)的多肽序列位置有时在本文描述为“Xn”或“位置n”，其中n是指参照参考序列的残基位置。

特定取代突变是参考序列中的特定残基被不同的特定残基代替，可用常规符号“X(数字)Y”表示，其中X是参考序列中残基的单字母标识符，“数字”是参考序列中的残基位置，Y是工程化序列中残基取代的单字母标识符。

在一些实施方案中，残基差异可发生在以下残基位置的一个或多个：X4；X5；X8；X18；X25；X26；X27；X28；X30；X41；X42；X48；X49；X50；X54；X55；X60；X61；X62；X65；X69；X81；X94；X96；X102；X117；X120；X122；X124；X126；X136；X137；X138；X146；X148；X150；X152；X155；X156；X160；X163；X164；X169；X174；X178；X195；X199；X204；X208；X209；X211；X215；X217；X223；X225；X230；X252；X269；X273；X282；X284；X292；X297；X302；X306；X321和X329。在一些实施方案中，残基差异或其组合伴随着改进的酶特性。在一些实施方案中，转氨酶多肽可在以上列的“Xn”表示的那些特定位置以外的残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异数目可以是在其他氨基酸残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，在其他残基位置的残基差异包括以保守氨基酸残基取代。

在本文的实施方案中，与SEQ ID NO:2相比，在转氨酶上影响底物结合的残基位置的残基差异允许适应各种酮酰胺底物。不受理论限制，至少两个区域，即第一底物结合区和第二底物结合区与酮酰胺底物的不同结构元件相互作用。第一结合区包括残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282，而第二结合区包括残基位置X69、X122和X284。因此，本文的转氨酶多肽在包括X62、X69、X122、X136、X137、X195、X199、X208、X209、X223、X225、X282和X284的残基位置具有一个或多个残基差异。在一些实施方案中，本文的转氨酶多肽在与底物结合相关的特定残基位置具有至少两个或更多、三个或更多、四个或更多、五个或更多、或六个或更多个残基差异。

在一些实施方案中，与SEQ ID NO:2相比的残基差异是在形成包括残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282的第一底物结合区的残基位置的一个或多个。因此，在一些实施方案中，工程化转氨酶包括包含与SEQ ID NO:2相比，在残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282的至少一个残基差异的氨基酸序列。

在一些实施方案中，与SEQ ID NO:2相比的残基差异是在形成包括残基位置X69、X122和X284的第二底物结合区的残基位置的一个或多个。因此，在一些实施方案中，工程化转氨酶包括包含与SEQ ID NO:2相比在残基位置X69、X122和X284的至少一个残基差异的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含在第一结合区的残基差异连同在第二结合区的残基差异的氨基酸序列。因此，在一些实施方案中，工程化转氨酶包括包含与SEQ ID NO:2相比，在残基位置X62、X136、X137、X195、X199、X208、X209、X223、X225和X282的一个或多个残基差异，连同与SEQ ID NO:2相比，在残基位置X69、X122和X284的一个或多个残基差异的氨基酸序列。

在本公开内容的工程化转氨酶的一些实施方案中，在一个残基位置的氨基酸残基可以根据可在该位置表现出的氨基酸“特征”(如，氨基酸类型或特性)来定义。因此，在一些实施方案中，在以上指定的位置的氨基酸残基可选自以下特征：X4是芳香族残基；X5是碱性残基；X8是受限制的残基；X18是半胱氨酸(C)或脂肪族残基；X25是极性残基；X26是芳香族或受限制的残基；X27是极性残基；X28是受限制的残基；X30是极性或非极性残基；X41是受限制的或极性残基；X42是非极性残基；X48是极性、酸性、脂肪族或非极性残基；X49是极性残基；X50是脂肪族残基；X54是受限制的残基；X55是脂肪族残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X69是半胱氨酸(C)或非极性、极性或脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X102是脂肪族或碱性残基；X117是非极性残基；X120是芳香族残基；X122是受限制的、非极性或脂肪族残基；X124是极性或受限制的残基；X126是极性残基；X136是芳香族残基；X137是极性或脂肪族残基；X138是碱性或受限制的残基；X146是碱性残基；X148是脂肪族或芳香族残基；X150是芳香族、受限制的或极性残基；X152是半胱氨酸(C)、非极性、脂肪族或极性残基；X155是非极性或极性残基；X156是极性残基；X160是脂肪族残基；X163是脂肪族或受限制的残基；X164是脂肪族或受限制的残基；X169是脂肪族残基；X174是脂肪族残基；X178是极性残基；X195是芳香族或极性残基；X199是脂肪族或芳香族残基；X204是脂肪族残基；X208是半胱氨酸(C)或受限制的、非极性、芳香族、极性或碱性残基；X209是脂肪族残基；X211是脂肪族残基；X215是半胱氨酸(C)；X217是极性残基；X223是受限制的残基；X225是芳香族残基；X230是脂肪族残基；X252是芳香族或脂肪族残基；X269是受限制的残基；X273是芳香族残基；X282是极性残基；X284是非极性残基；X292是极性残基；X297是极性残基；X302是脂肪族残基；X306是脂肪族残基；X321是受限制的残基；和X329是受限制的或芳香族残基。在一些实施方案中，当在参考序列的对应残基位置的氨基酸残基被本文对指定位置描述的氨基酸类别涵盖时，可按照本文提供的指导使用在该氨基酸类别中的不同氨基酸。

在一些实施方案中，在以上指定的残基位置的氨基酸残基可选自以下特征：X4是Y、F或W，尤其是Y；X5是K或R，尤其是K；X8是H或P，尤其是P；X18是C、A、V或I，尤其是C或I；X25是N、Q、S或T，尤其是Q；X26是F、W、H或P，尤其是H；X27是N、Q、S或T，尤其是T；X28是P或H，尤其是P；X30是N、Q、S、T、G、M、A、V、L或I，尤其是Q或M；X41是P、H、N、Q、S或T，尤其是H或S；X42是G、M、A、V、L或I，尤其是G；X48是N、Q、S、T、D、E、G、M、A、V、L或I，尤其是Q、D、V、G或A；X49是N、Q或T，尤其是T；X50是A、V、L或I，尤其是L；X54是P或H；X55是A、V或L，尤其是V；X60是F或W，尤其是F；X61是Y、F或W，尤其是Y；X62是S、T、N、Q、Y、F或W，尤其是T、Y或F；X65是A、L或I，尤其是A；X69是C、G、M、A、L、I、S、T、N或Q，尤其是G、C、T、A或S；X81是G、M、A、V、L、I，尤其是G；X94是A、V、L或I，尤其是I或L；X96是A、V或L，尤其是L；X102是A、V、L、I、K或R，尤其是L或K；X117是G、M、A、V、L或I，尤其是G；X120是Y、W或F，尤其是Y；X122是G、M、A、V、I、L、P或H，尤其是M、I、L、V或H；X124是T、N、Q、P或H，尤其是T、H或N；X126是N、Q或T，尤其是T；X136是Y、F或W，尤其是Y或F；X137是S、T、N、Q、A、V、L或I，尤其是T或I；X138是K、P或H，尤其是K或P；X146是K或R，尤其是R；X148是A、V、L、I、W或F，尤其是A或F；X150是F、W、H、P、S、T、N或Q，尤其是F、H或S；X152是C、G、M、A、L、I、S、T、N或Q，尤其是I、L、S或C；X155是N、S、T、G、M、A、V、L或I，尤其是M、V或T；X156是N、Q、S或T，尤其是Q；X160是A、V、L或I，尤其是L；X163是P、H、A、V或L，尤其是H或V；X164是A、V、L、I、P或H，尤其是V或P；X169是V、L或I，尤其是L；X174是A、V、L或I，尤其是A；X178是S、N或Q，尤其是S；X195是F、Y、W、S、T、N或Q，尤其是F或Q；X199是A、L、I、Y、F、W，尤其是W或I；X204是A、V、L或I，尤其是A；X208是H、C、G、K、N、Y、D或S；X209是V、L或I，尤其是L；X211是A、V或I，尤其是I；X215是C；X217是S、T、N或Q，尤其是N；X223是H或P，尤其是P；X225是W或Y，尤其是Y；X230是A、V或L，尤其是V；X252是A、V、I、Y、F或W，尤其是F；X269是H或P，尤其是P；X273是Y、F或W，尤其是Y；X282是S、N或Q，尤其是S；X284是G、M、V、L或I，尤其是G；X292是T、N或Q，尤其是T；X297是S、T、N或Q，尤其是S；X302是A、L或I，尤其是A；X306是A、L或I，尤其是L；X321是H或P，尤其是P；和X329是H、P、Y、F或W，尤其是H。

在一些实施方案中，在以上指定的残基位置的氨基酸残基可选自以下特征：X4是Y；X5是K；X8是P；X18是C或I；X25是Q；X26是H；X27是T；X28是P；X30是Q或M；X41是H或S；X42是G；X48是Q、D、V、G或A；X49是T；X50是L；X54是P或H；X55是V；X60是F；X61是Y；X62是T、Y或F；X65是A；X69是G、C、T、A或S；X81是G；X94是I或L；X96是L；X102是L或K；X117是G；X120是Y；X122是M、I、L、V或H；X124是T、H或N；X126是T；X136是Y或F；X137是T或I；X138是K或P；X146是R；X148是A或F；X150是F、H或S；X152是I、L、S或C；X155是M、V或T；X156是Q；X160是L；X163是H或V；X164是V或P；X169是L；X174是A；X178是S；X195是F或Q；X199是W或I；X204是A、V、L或I，尤其是A；X208是H、C、G、K、N、Y、D或S；X209是L；X211是I；X215是C；X217是N；X223是P；X225是Y；X230是V；X252是F；X269是P；X273是Y；X282是S；X284是G；X292是T；X297是S；X302是A；X306是L；X321是P；且X329是H。

在一些实施方案中，在以上指定的残基位置的氨基酸残基可选自以下特征：X8是P；X60是F；X61是Y；X62是T、Y或F；X65是A；X69是G、C、T、A或S；X81是G；X94是I或L；X96是L；X122是M、I、L、V或H；X124是T、H或N；X136是Y或F；X169是L；X178是S；X199是W或I；X209是L；X215是C；X217是N；X223是P；X269是P；X273是Y；X282是S；X284是G；X297是S；X321是P且X329是H。

在一些实施方案中，工程化转氨酶多肽包括包含以下特征的一个或多个的氨基酸序列：对应X69的残基是半胱氨酸(C)或非极性、极性或脂肪族残基；对应X122的残基是受限制的、非极性或脂肪族残基；对应X223的残基是受限制的残基；和对应X284的残基是非极性残基。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：(1)对应X69的残基是C或非极性、脂肪族或极性残基，和/或对应X284的残基是非极性残基；(2)对应X122的残基是受限制的、非极性或脂肪族残基；和(3)对应X223的残基是受限制的残基。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X69是C或非极性、脂肪族或极性残基；X122是受限制的、非极性或脂肪族残基；和X223是受限制的残基。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X69是C、G、M、A、L、I、S、T、N或Q，尤其是G、C、T、A或S；X122是G、M、A、V、L、I、P或H，尤其是M、I、V、L或H；和X223是H或P，尤其是P。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X122是受限制的、非极性或脂肪族残基；X223是受限制的残基；和X284是非极性残基。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X122是G、M、A、V、L、I、P或H，尤其是M、I、V、L或H；X223是H或P，尤其是P；和X284是G、M、V、L或I，尤其是G。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X69是C或非极性、极性或脂肪族残基；X122是受限制的、非极性或脂肪族残基；X223是受限制的残基；和X284是非极性残基。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X69是C、G、M、A、L、I、S、T、N或Q，尤其是G、C、T、A或S；X122是G、M、A、V、L、I、P或H，尤其是M、I、V、L或H；X223是H或P，尤其是P；和X284是G、M、A、V、L或I，尤其是G。

在一些实施方案中，工程化转氨酶多肽包括包含至少以下特征的氨基酸序列：X69是C或T；X122是M或I；X223是P；和X284是G。

在一些实施方案中，在残基位置X69、X122、X223和X284具有一个或多个指定特征或特征组合的工程化转氨酶多肽，与SEQ ID NO:2相比在以下残基位置可另外具有一个或多个残基差异：X4；X5；X8；X18；X25；X26；X27；X28；X30；X41；X42；X48；X49；X50；X54；X55；X60；X61；X62；X65；X81；X94；X96；X102；X117；X120；X124；X126；X136；X137；X138；X146；X148；X150；X152；X155；X156；X160；X163；X164；X169；X174；X178；X195；X199；X204；X208；X209；X211；X215；X217；X225；X230；X252；X269；X273；X282、X292；X297；X306；X321和X329。除了残基位置X69、X122、X223和X284以外，这些其他残基位置与对转氨酶多肽不同特性的作用相关，因此可具有与SEQ ID NO:2相比的残基差异以实现酶特性的期望改变。

如上所述，残基位置X62、X136、X137、X195、X199、X208、X209、X225和X282以及残基位置X69、X122、X223和X284与底物对酶的结合相关，因此转氨酶多肽可在这些列举的位置具有与SEQ ID NO:2相比的残基差异以实现酶特性的期望改变。

残基位置X4、X5、X8、X26、X48、X60、X65、X81、X96、X102、X124、X160、X163、X169、X174、X178、X211、X217、X225、X230、X252、X269、X273、X292、X297、X306、X321、X329也与酶活性的其他增加相关，因此转氨酶多肽可在这些所列的位置具有与SEQ ID NO:2相比的残基差异以实现酶活性的其他期望改变，例如在高底物负荷条件下转化效率的增加。

残基位置X18、X25、X27、X28、X30、X41、X42、X49、X50、X54、X55、X117、X120、X126、X138、X146、X148、X150、X152、X155、X156、X164、X204、X302也与热稳定性和/或溶剂诸如DMSO稳定性的增加相关，因此转氨酶多肽可在这些所列的位置具有与SEQ ID NO:2相比的残基差异以实现热稳定性和/或溶剂稳定性的期望改变。

残基位置X61、X94、X215也与在高浓度氨基供体异丙胺时进行反应的能力相关，因此转氨酶多肽可在这些所列的位置具有与SEQ ID NO:2相比的残基差异以实现在高(如，1-2M)浓度异丙胺时转化效率的增加。

应理解的是，在与酶的不同特性相关的残基位置与SEQ ID NO:2的残基差异可以不同组合使用以形成具有期望酶促特征的转氨酶多肽，所述酶促特征例如酶活性、溶剂稳定性和温度(temperate)稳定性、以及氨基供体的利用增加的组合。示例性的组合在本文描述。

在一些实施方案中，用于指定残基位置的氨基酸残基可根据以上描述选择。例如，氨基酸残基可基于以下特征选择：X4是芳香族残基；X5是碱性残基；X8是受限制的残基；X18是半胱氨酸(C)或脂肪族残基；X25是极性残基；X26是芳香族或受限制的残基；X27是极性残基；X28是受限制的残基；X30是极性或非极性残基；X41是受限制的或极性残基；X42是非极性残基；X48是极性、酸性、脂肪族或非极性残基；X49是极性残基；X50是脂肪族残基；X54是受限制的残基；X55是脂肪族残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X102是脂肪族或碱性残基；X117是非极性残基；X120是芳香族残基；X124是极性或受限制的残基；X126是极性残基；X136是芳香族残基；X137是极性或脂肪族残基；X138是碱性或受限制的残基；X146是碱性残基；X148是脂肪族或芳香族残基；X150是芳香族、受限制的或极性残基；X152是C、非极性、脂肪族或极性残基；X155是非极性或极性残基；X156是极性残基；X160是脂肪族残基；X163是脂肪族或受限制的残基；X164是脂肪族或受限制的残基；X169是脂肪族残基；X174是脂肪族残基；X178是极性残基；X195是芳香族或极性残基；X199是脂肪族或芳香族残基；X204是脂肪族残基；X208是半胱氨酸(C)或受限制的、非极性、芳香族、极性或碱性残基；X209是脂肪族残基；X211是脂肪族残基；X215是C；X217是极性残基；X225是芳香族残基；X230是脂肪族残基；X252是芳香族或脂肪族残基；X269是受限制的残基；X273是芳香族残基；X282是极性残基；X292是极性残基；X297是极性残基；X302是脂肪族残基；X306是脂肪族残基；X321是受限制的残基；和X329是受限制的或芳香族残基。在这些残基位置可使用的具体氨基酸残基在以上描述。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶可另外具有以下特征的一个或多个：X26是芳香族或受限制的残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X94是脂肪族残基；X136是芳香族残基；X137是极性或脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；和X282是极性残基。

在一些实施方案中，除了上述特征以外，转氨酶的氨基酸序列可另外包括以下特征的一个或多个：X8是受限制的残基；X60是芳香族残基；X81是非极性或小的残基；X96是脂肪族残基；X124是极性或受限制的残基；X169是脂肪族残基；X217是极性残基；X269是受限制的残基；X273是芳香族残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，除了上述特征以外，转氨酶的氨基酸序列可另外包括以下特征的一个或多个：X4是芳香族残基；X48是极性、酸性、脂肪族或非极性残基；X102是脂肪族或碱性残基；X150是芳香族、受限制的或极性残基；X152是C或非极性、脂肪族或极性残基；X160是脂肪族残基；X163是脂肪族或受限制的残基；X174是脂肪族残基；X178是极性残基；X195是芳香族或极性残基；X208是C或受限制的、非极性、芳香族、极性或碱性残基；X211是脂肪族残基；X225是芳香族残基；X230是脂肪族残基；X252是芳香族或脂肪族残基；X292是极性残基；X306是脂肪族残基；和X329是受限制的或芳香族残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征或特征组合的工程化转氨酶包括至少以下另外的特征：X26是芳香族或受限制的残基，和/或X62是芳香族或极性残基；X65是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；和X209是脂肪族残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X94是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；和X282是极性残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是受限制的残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性或小的残基；X94是脂肪族残基；X136是芳香族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X282是极性残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是受限制的残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X124是极性或受限制的残基；X136是芳香族残基；X169是脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X273是芳香族残基。X282是极性残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是受限制的残基；X60是芳香族残基；X61是芳香族残基；X62是芳香族或极性残基；X65是脂肪族残基；X81是非极性残基；X94是脂肪族残基；X96是脂肪族残基；X124是极性或受限制的残基；X126是极性残基；X136是芳香族残基；X150是芳香族、受限制的或极性残基；X152是半胱氨酸(C)、非极性、脂肪族或极性残基；X169是脂肪族残基；X199是脂肪族或芳香族残基；X209是脂肪族残基；X215是C；X217是极性残基；X269是受限制的残基；X273是芳香族残基。X282是极性残基；X297是极性残基；和X321是受限制的残基。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X26是P、H、F或W，尤其是H，和/或X62是S、T、N、Q、Y、F或W，尤其是T或F；X65是A、L或I，尤其是A；X136是Y、F或W，尤其是Y或F；X199是A、L、I、Y、F或W，尤其是W或I；和X209是V、L或I，尤其是L。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X61是Y、F或W，尤其是Y；X62是S、T、N、Q、Y、F或W，尤其是T或F；X65是A、L或I，尤其是A；X94是A、V、L或I，尤其是I或L；X136是Y、F或W，尤其是Y或F；X199是A、L、I、Y、F或W，尤其是W或I；X209是V、L或I，尤其是L；X215是C；和X282是S、N或Q，尤其是S。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是H或P，尤其是P；X61是Y、F或W，尤其是Y；X62是S、T、N、Q、Y、F或W，尤其是T或F；X65是A、L或I，尤其是A；X81是G、M、A、V、L或I，尤其是G；X94是A、V、L或I，尤其是I或L；X136是Y、F或W，尤其是Y或F；X199是A、L、I、Y、F或W，尤其是W或I；X209是V、L或I，尤其是L；X215是C；X217是S、T、N或Q，尤其是N；X269是H或P，尤其是P；X282是S、N或Q，尤其是S。X297是S、T、N或Q，尤其是S；和X321是H或P，尤其是P。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是H或P，尤其是P；X60是F或W，尤其是F；X61是Y、F或W，尤其是Y；X62是Y、F、W、S、T、N或Q，尤其是T或F；X65是A、L或I，尤其是A；X81是G、M、A、V、L或I，尤其是G；X94是A、V、L或I，尤其是I或L；X96是A、V或L，尤其是L；X124是P、H、T、N或Q，尤其是T、H或N；X136是Y、F或W，尤其是Y或F；X169是V、L或I，尤其是L；X199是Y、F、W、A、L或I，尤其是W或I；X209是V、L或I，尤其是L；X215是C；X217是S、T、N或Q，尤其是N；X269是H或P，尤其是P；X273是Y、F或W，尤其是Y；X282是S、N或Q，尤其是S；X297是S、T、N或Q，尤其是S；和X321是H或P，尤其是P。

在一些实施方案中，在一个或多个残基位置X69、X122、X223和X284具有以上所述的特征的工程化转氨酶包括至少以下另外的特征：X8是H或P，尤其是P；X60是F或W，尤其是F；X61是Y、F或W，尤其是Y；X62是Y、F、W、S、T、N或Q，尤其是T或F；X65是A、L或I，尤其是A；X81是G、M、A、V、L或I，尤其是G；X94是A、V、L或I，尤其是I或L；X96是A、V或L，尤其是L；X124是P、H、T、N或Q，尤其是T、H或N；X126是N、Q或T，尤其是T；X136是Y、F或W，尤其是Y或F；X150是F、W、H、P、S、T、N或Q，尤其是F、H或S；X152是C、G、M、A、L、I、S、T、N或Q，尤其是G、I、L、S或C；X169是V、L或I，尤其是L；X199是Y、F、W、A、L或I，尤其是W或I；X209是V、L或I，尤其是L；X215是C；X217是S、T、N或Q，尤其是N；X269是H或P，尤其是P；X273是Y、F或W，尤其是Y；X282是S、N或Q，尤其是S；X297是S、T、N或Q，尤其是S；和X321是H或P，尤其是P。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X223是受限制的残基，尤其是P；X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置(即，X122；X223和X284)描述的特征的参考氨基酸序列(如，SEQ ID NO:8或10)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X223是受限制的残基，尤其是P；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置(即，X69；X122；X223和X284)描述的特征的参考序列(如，SEQ ID NO:4)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括具有至少对指定残基描述的特征的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；和X223是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:6)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:6至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X174是脂肪族残基，尤其是A；X223是受限制的残基，尤其是P；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:12)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:12至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X223是受限制的残基，尤其是P；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:14)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:14至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I，尤其是X223是受限制的残基，尤其是P；X225是芳香族残基，尤其是Y，X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可另外在其他残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ IDNO:16)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQID NO:16至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X225是芳香族残基，尤其是Y；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可另外在其他残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:18)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:18至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:20、22、28、30、32、34、38或40)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:20、22、28、30、32、34、38或40至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X225是芳香族残基，尤其是Y；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:24)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:24至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X174是脂肪族残基，尤其是A；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X230是脂肪族残基，尤其是V；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:26)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:26至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X26是芳香族或受限制的残基，尤其是H；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ IDNO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ IDNO:36)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQID NO:36至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含至少以下特征的氨基酸序列：X4是芳香族残基，尤其是Y；X26是芳香族或受限制的残基，尤其是H；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:42)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:42至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:44、46或48)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:44、46或48至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是半胱氨酸(C)；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:50)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:50至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X152是C、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ IDNO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:52)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:52至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:54或56)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:54或56至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:58或60)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:58或60至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X160是脂肪族残基，尤其是L；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可另外在其他残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:62)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:62至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X137是极性或脂肪族残基，尤其是T或I；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；和X306是脂肪族残基，尤其是L。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ IDNO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:64)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:64至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X102是脂肪族或碱性残基，尤其是L或K；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X152是C、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:66)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:66至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X48是极性、酸性、脂肪族或非极性残基，尤其是D、V、G、Q或A；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X102是脂肪族或碱性残基，尤其是L或K；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X163是脂肪族或受限制的残基，尤其是H或V；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X211是脂肪族残基，尤其是I；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X252是芳香族或脂肪族残基，尤其是F；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:68)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括的多肽包括包含至少对指定残基描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:68至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X48是极性、酸性、脂肪族或非极性残基，尤其是A；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:70)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:70至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X282是极性残基，尤其是S；和X284是非极性残基，尤其是G。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:72)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:72至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:74)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:74至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X152是C或非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X252是芳香族或脂肪族残基，尤其是F；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:76)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:76至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X292是极性残基，尤其是T；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:78)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ IDNO:78至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:80)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:80至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X178是极性残基，尤其是S；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:82)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:82至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:84、86、88、96、98或100)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:84、86、88、96、98或100至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:90)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:90至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X152是C或非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:92)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:92至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是F、H或S；X152是C或非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:94)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:94至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；X321是受限制的残基，尤其是P；和X329是受限制的或芳香族残基，尤其是H。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:102)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:102至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是S；X152是半胱氨酸(C)、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:110)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:110至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

在一些实施方案中，工程化转氨酶包括包含以下特征的氨基酸序列：X8是受限制的残基，尤其是P；X49是极性残基，尤其是T；X60是芳香族残基，尤其是F；X61是芳香族残基，尤其是Y；X62是芳香族或极性残基，尤其是T、Y或F；X65是脂肪族残基，尤其是A；X69是C或非极性、脂肪族或极性残基，尤其是G、C、T、A或S；X81是非极性残基，尤其是G；X94是脂肪族残基，尤其是I或L；X96是脂肪族残基，尤其是L；X117是非极性残基，尤其是G；X122是受限制的、非极性或脂肪族残基，尤其是M、I、L、V或H；X124是极性或受限制的残基，尤其是T、H或N；X126是极性残基，尤其是T；X136是芳香族残基，尤其是Y或F；X150是芳香族、受限制的或极性残基，尤其是S；X152是半胱氨酸(C)、非极性、脂肪族或极性残基，尤其是G、I、L、S或C；X169是脂肪族残基，尤其是L；X199是脂肪族或芳香族残基，尤其是W或I；X209是脂肪族残基，尤其是L；X215是C；X217是极性残基，尤其是N；X223是受限制的残基，尤其是P；X269是受限制的残基，尤其是P；X273是芳香族残基，尤其是Y；X282是极性残基，尤其是S；X284是非极性残基，尤其是G；X297是极性残基，尤其是S；X302是脂肪族残基，尤其是A；和X321是受限制的残基，尤其是P。在一些实施方案中，转氨酶多肽可在其他残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，工程化转氨酶多肽可包括与基于SEQ ID NO:2、具有对以上指定残基位置描述的特征的参考序列(如，SEQ ID NO:166)至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列，条件是，工程化转氨酶多肽包括包含至少对指定残基位置描述的特征的氨基酸序列。在一些实施方案中，工程化转氨酶多肽可包括与参考序列SEQ ID NO:166至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％相同的氨基酸序列。

以下表2提供示例性的工程化转氨酶多肽，每一行列出两个SEQ IDNO，奇数是指编码由偶数提供的氨基酸序列的核苷酸序列。残基差异是基于与参考序列SEQ ID NO:2比较，该参考序列是源自于节杆菌属KNK168的转氨酶，与天然产生的酶不同的是在残基位置X306以缬氨酸(V)取代异亮氨酸(I)。在活性列中，增加的活性水平(即，“+”、“++”、“+++”等等)定义如下：“+”表示至少等于但不大于SEQ ID NO:2活性的2倍(测定条件：2g/L酮酰胺底物、0.5M异丙胺、22℃、pH7.5、5％DMSO、100μM PLP)；“++”表示大于SEQ ID NO:4活性的约50至100倍(测定条件：2g/L酮酰胺底物、0.5M异丙胺、22℃、pH7.5、5％MeOH、100μM PLP)；“+++”表示大于SEQ ID NO:22活性的约1.1至约5倍(测定条件：5-10g/L酮酰胺底物、0.5-1M异丙胺、22-30℃、pH7.5、5％MeOH、100μM PLP)；“++++”表示大于SEQ ID NO:48活性约1.1至5倍(测定条件：10-40g/L酮酰胺底物、1M异丙胺、30-45℃、pH8.5、10％MeOH、100μM PLP)；“+++++”表示SEQ ID NO:58活性的约1.1至5倍或更大(测定条件：40-100g/L酮酰胺底物、1M异丙胺、45℃、pH8.5、10％MeOH-25％DMSO、250μM PLP)；“++++++”表示SEQ ID NO:104活性的约1.1至5倍或更大(测定条件：40-100g/L酮酰胺底物、1M异丙胺、45℃、pH8.5、50％DMSO、1000μM PLP)。利用甲醇和DMSO测量活性的示例性测定条件描述在实施例6-11。

表2

如上所述，在一些实施方案中，转氨酶多肽可包括的氨基酸序列与参考序列SEQ ID NO:6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同。在一些实施方案中，与SEQ ID NO:2代表的天然存在的转氨酶相比，转氨酶多肽可具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，与SEQ ID NO:2相比，残基差异的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个差异。

在一些实施方案中，转氨酶多肽包括的氨基酸序列与参考序列SEQ IDNO:58、72、74、80、86、96、98、100或102至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同。在一些实施方案中，与SEQ ID NO:2代表的天然存在的转氨酶相比，转氨酶多肽可具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，与SEQ ID NO:2相比，残基差异的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个差异。

在一些实施方案中，转氨酶多肽包括的氨基酸序列与基于SEQ ID NO:4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的参考序列至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，条件是，与SEQ ID NO:2相比，转氨酶氨基酸序列包括表2中列出的多肽序列任一种中包含的任一组残基差异。在一些实施方案中，与参考序列相比，转氨酶多肽可在其他氨基酸残基位置另外具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，差异的数目可以是在其他残基位置的1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35、40、45、50、55或60个残基差异。在一些实施方案中，在其他残基位置的残基差异包括用保守氨基酸残基取代。

如以上指出的，在一些实施方案中，转氨酶多肽还能够转化酮底物为至少70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％对映体过量的胺产物。具有指定水平的对映体选择性的示例性转氨酶多肽可包括对应SEQ ID NO:58、72、74、80、86、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列。

在一些实施方案中，工程化转氨酶多肽可包括本文所述的工程化转氨酶多肽的缺失。因此，对于本公开内容的转氨酶多肽的每一个实施方案，只要保持该转氨酶活性的功能活性，缺失可以包括一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、高达转氨酶多肽的氨基酸总数的10％、高达氨基酸总数的10％、高达氨基酸总数的20％、或高达氨基酸的总数的30％。在一些实施方案中，缺失可以包括1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个、1-40个、1-45个、1-50个、1-55个或1-60个氨基酸残基。在一些实施方案中，缺失的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个、40个、45个、50个、55个或60个氨基酸。在一些实施方案中，缺失可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、22个、24个、26个、28个或30个氨基酸残基的缺失。

如本文所述，本公开内容的转氨酶多肽可以是融合多肽的形式，其中转氨酶多肽与其他多肽融合，所述其他多肽诸如但不限于抗体标签(如，myc表位)、纯化序列(如，用于结合金属的His标签)和细胞定位信号(如，分泌信号)。因此，转氨酶多肽可与其他多肽融合或不融合地使用。

本文所述的多肽不受限于遗传编码的氨基酸。除了遗传编码的氨基酸以外，本文所述的多肽可以总体上或部分上由天然存在的和/或合成的非编码氨基酸组成。本文所述的多肽可包含的某些常见非编码氨基酸可以包括但不限于：遗传编码的氨基酸的D-立体异构体；2,3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘苯丙氨酸(Pif)；4-氨甲基苯丙氨酸(Pamf)；2,4-二氯苯丙氨酸(Opef)；3,4-二氯苯丙氨酸(Mpcf)；2,4-二氟苯丙氨酸(Opff)；3,4-二氟苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯基丙氨酸(sAla)；蒽基丙氨酸(aAla)；3,3-二苯丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1,2,3,4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4羧酸；哌可酸(PA)；氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)；高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰赖氨酸(AcLys)；2,4-二氨基丁酸(Dbu)；2,3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。本文所述多肽可包含的另外的非编码氨基酸将对本领域技术人员是明显的(参见，例如，在Fasman,1989,CRC Practical Handbook of Biochemistry and Molecular Biology(CRC生物化学和分子生物学实用手册),CRCPress,Boca Raton,FL,在第3-70页及其中引用的参考文献中提供的多种氨基酸，该文献以及其中所引用的参考文献全部通过引用并入本文)。这些氨基酸可以处于L-构型或D-构型。

本领域技术人员将认识到，带有侧链保护基的氨基酸或残基也可以构成本文所述的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括(在圆括号中列出保护基)但不限于：Arg(tos)、Cys(甲苄基)、Cys(硝基吡啶亚氧硫基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

本文所述多肽可包含的构型上受限制的非编码氨基酸包括但不限于N-甲基氨基酸(L-构型)；1-氨基酸环戊-(2或3)-烯-4-羧酸；哌可酸；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)；以及1-氨基环戊烷-3-羧酸。

如上所述，被引入天然存在的多肽以产生工程化转氨酶的各种修饰可以被定向至该酶的具体特性。

另一方面，本公开内容提供了编码改进的转氨酶多肽的多核苷酸。可以将所述多核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列以产生能够表达转氨酶多肽的重组多核苷酸。可以将包含编码工程化转氨酶的异源多核苷酸的表达构建体引入适当的宿主细胞中来表达对应的转氨酶多肽。

由于对各种氨基酸所对应的密码子的了解，蛋白序列的可用性提供了对能够编码该主题的所有多核苷酸的描述。其中相同氨基酸由替代的或同义的密码子编码的遗传密码的简并性允许极大数目的核酸被制出，所有这些核酸编码本文所公开的改进的转氨酶多肽。因此，如果已识别了具体的氨基酸序列，本领域技术人员能够以不改变蛋白的氨基酸序列的方式通过仅仅变更序列的一个或更多个密码子来制出任意数目的不同核酸。在这点上，本公开内容明确涵盖可通过选择基于可能的密码子选择的组合制出的多核苷酸的每一种可能的改变，并且所有这些改变将被认为对本文公开的任何多肽明确地公开，所述本文公开的任何多肽包括在表2中提供的氨基酸序列。

在一些实施方案中，可选择多核苷酸和/或使之工程化以包括被偏爱性地选择以适合在其中产生蛋白的宿主细胞的密码子。例如，在细菌中使用的偏爱密码子用于在细菌中表达基因；在酵母中使用的偏爱密码子用于酵母中的表达；并且在哺乳动物中使用的偏爱密码子用于哺乳动物细胞中的表达。因为不必替换所有密码子来优化转氨酶的密码子使用(如，由于天然序列可具有偏爱密码子并且因为偏爱密码子的使用可能并不是所有氨基酸残基所需的)，编码转氨酶多肽的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包含偏爱密码子。

在一些实施方案中，多核苷酸编码包含与参考序列SEQ ID NO:58、72、74、80、86、96、98、100或102至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更大地相同的氨基酸序列的转氨酶多肽，其中该多肽能够以与节杆菌属KNK168的天然存在的转氨酶或SEQ ID NO:2的转氨酶的活性相比改进的活性转化酮底物为胺产物。

在一些实施方案中，多核苷酸编码的转氨酶多肽包括与包括对应SEQID NO:4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的氨基酸序列的多肽具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更大序列同一性的氨基酸序列，其中在氨基供体存在时，该多肽在转化酮底物为胺产物方面具有一种或多种改进的特性。在一些实施方案中，编码的转氨酶多肽具有的活性等于或大于SEQ ID NO:2多肽的活性。

在一些实施方案中，多核苷酸编码的转氨酶多肽包括与参考序列SEQID NO:4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列。

在一些实施方案中，多核苷酸编码的转氨酶多肽包括与基于SEQ IDNO:4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166或168的参考序列至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是，与SEQ ID NO:2相比，改进的转氨酶氨基酸序列包括表2中列出的多肽序列任一种中包含的任一组残基差异。

在一些实施方案中，编码改进的转氨酶多肽的多核苷酸选自SEQ IDNO:3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167。

在一些实施方案中，多核苷酸能够在高度严格条件下与包括SEQ IDNO:3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167的多核苷酸或其互补物杂交，其中高度严格杂交的多核苷酸编码的转氨酶多肽在氨基供体存在下，能够以与SEQ ID NO:2多肽相比改进的活性转化式(II)化合物为式(I)的胺产物。

在一些实施方案中，多核苷酸编码本文所述的多肽，但在核苷酸水平，与编码本文所述的工程化转氨酶的参考多核苷酸具有约80％或更大序列同一性、约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更大序列同一性。在一些实施方案中，参考多核苷酸选自SEQ ID NO:3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165或167。

可以用多种方式操作编码改进的转氨酶多肽的分离的多核苷酸以提供该多肽的表达。在一些实施方案中，编码工程化转氨酶多肽的多核苷酸可作为表达载体提供，其中存在一个或多个控制序列以调节多核苷酸的表达。取决于表达载体，所分离的多核苷酸在其插入载体中之前的操作可能是令人期望的或必要的。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域公知的。在Sambrook等人,2001,Molecular Cloning:ALaboratory Manual(分子克隆实验室指南),第3版,Cold Spring HarborLaboratory Press；以及Current Protocols in Molecular Biology(分子生物学最新实验方案),Ausubel.F.编,Greene Pub.Associates,1998,更新至2006中提供了指导。

在一些实施方案中，除了其他以外，控制序列包括启动子、前导序列、多腺苷酸化序列、前肽序列、信号肽序列和转录终止子。对于细菌宿主细胞，用于指导本公开内容的核酸构建体转录的适宜启动子包括从大肠杆菌lac操纵子、大肠杆菌trp操纵子、噬菌体λ、天蓝色链霉菌(Streptomycescoelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)生麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA基因和xylB基因、以及原核β-内酰胺酶基因(Villa-Kamaroff等人,1978,Proc.NatlAcad.Sci.USA75:3727-3731)获得的启动子以及tac启动子(DeBoer等人,1983,Proc.Natl Acad.Sci.USA80:21-25)。

对于丝状真菌宿主细胞而言，用于指导本公开内容的核酸构建体转录的适宜启动子包括从米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定的α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡萄糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见如，WO96/00787，通过引用并入本文)的基因获得的启动子以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和它们突变的、截短的及杂合的启动子。

在酵母宿主中，有用的启动子可以来自酿酒酵母(Saccharomycescerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)以及酿酒酵母3-磷酸甘油酸酯激酶的基因。Romanos等人,1992,Yeast8:423-488描述了酵母宿主细胞其他有用的启动子。

控制序列也可以是适宜的转录终止子序列，即由宿主细胞识别的终止转录的序列。终止子序列被可操作地连接于编码多肽的核酸序列的3'端。在本发明中可以使用在选择的宿主细胞中有功能的任何终止子。

例如，丝状真菌宿主细胞的示例性转录终止子可以从米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶的基因中获得。

酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因中获得。上述Romanos等人,1992对酵母宿主细胞其他有用的终止子进行了描述。

控制序列也可以是适宜的前导序列，一种对宿主细胞翻译而言重要的mRNA的非翻译区。前导序列被可操作地连接于编码多肽的核酸序列的5'端。可以使用在选择的宿主细胞中有功能的任何前导序列。丝状真菌宿主细胞的示例性前导序列是从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因中获得。酵母宿主细胞适宜的前导序列是从酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子以及酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因中获得。

控制序列也可以是聚腺苷酸化序列，即可操作地连接于核酸序列的3'端并且当转录时被宿主细胞识别为向转录的mRNA添加聚腺苷残基的信号的序列。在本发明中可以使用在选择的宿主细胞中有功能的任何聚腺苷酸化序列。丝状真菌宿主细胞的示例性聚腺苷酸化序列可以从米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶的基因中获得。Guo和Sherman,1995,Mol Cell Bio15:5983-5990描述了酵母宿主细胞的有用的聚腺苷酸化序列。

控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导该编码多肽进入细胞分泌途径的信号肽编码区。核酸序列的编码序列的5'端可以固有地包含翻译阅读框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。可选地，编码序列的5'端可以包含对编码序列而言为外来的信号肽编码区。在编码序列天然不包含信号肽编码区时可能需要外来的信号肽编码区。

细菌宿主细胞有效的信号肽编码区是从芽孢杆菌NClB11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因中获得的信号肽编码区。Simonen和Palva,1993,Microbiol Rev57:109-137描述了其他的信号肽。

丝状真菌宿主细胞有效的信号肽编码区可以是从米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡萄糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶以及柔毛腐质酶(Humicolalanuginosa)脂肪酶的基因中获得的信号肽编码区。

酵母宿主细胞有用的信号肽可以来自酿酒酵母α-因子和酿酒酵母转化酶的基因。上述Romanos等人,1992对其他有用的信号肽编码区进行了描述。

控制序列也可以是编码位于多肽氨基端的氨基酸序列的前肽编码区。生成的多肽被称为酶原(proenzyme)或多肽原(或在某些情况下称为酶原(zymogen))。多肽原一般是无活性的，并且可以通过前肽从多肽原的催化裂解或自身催化裂解转化为成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthorathermophila)乳糖酶的基因获得(参见如WO95/33836，通过引用并入本文)。

在信号肽和前肽区都存在于多肽的氨基端时，前肽区被定位于紧挨着多肽的氨基端并且信号肽区被定位于紧挨着前肽区的氨基端。

添加调节序列可能也是令人期望的，所述调节序列允许相对于宿主细胞的生长调节多肽的表达。调节系统的实例是响应于化学刺激或物理刺激(包括调节化合物的存在)而促使基因的表达被打开或关闭的那些调节系统。在原核宿主细胞中，适宜的调节序列包括lac、tac以及trp操纵子系统。在酵母宿主细胞中，适宜的调节系统包括，例如ADH2系统或GAL1系统。在丝状真菌中，适宜的调节序列包括TAKAα-淀粉酶启动子、黑曲霉葡萄糖淀粉酶启动子以及米曲霉葡萄糖淀粉酶启动子。

调节序列的其他实例是那些允许基因扩增的调节序列。在真核系统中，这些调节序列包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的转氨酶多肽的核酸序列将与调节序列可操作地连接。

因此，在另一个实施方案中，本公开内容也涉及重组表达载体，所述重组表达载体包含编码工程化转氨酶多肽或其变体的多核苷酸以及一个或更多个表达调节区，诸如启动子和终止子、复制起点等等，这取决于表达调节区被引入的宿主的类型。可以将上述多种核酸和控制序列连接在一起产生如下重组表达载体：所述重组表达载体可以包括一个或更多个便利的限制性位点以允许在这些位点插入或取代编码多肽的核酸序列。可选地，本公开内容的核酸序列可以通过将该核酸序列或包含该序列的核酸构建体插入用于表达的适当载体中来表达。在表达载体的创建中，编码序列位于载体中以使得该编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体可以是能够便利地进行重组DNA步骤并且能够导致多核苷酸序列表达的任何载体(例如质粒或病毒)。载体的选择将通常取决于载体与该载体要引入的宿主细胞的相容性。载体可以是线性质粒或闭合环状质粒。

表达载体可以是自主复制的载体，即作为染色体外的实体而存在、其复制独立于染色体复制的载体，例如质粒、染色体外的元件、微型染色体或人工染色体。载体可以包含用于确保自我复制的任何手段。可选地，载体可以是在引入宿主细胞中时被整合到基因组并与它所整合的染色体一起复制的载体。此外，可以使用单种载体或质粒，或者一起包含要引入到宿主细胞基因组中的总DNA的两种或更多种载体或质粒，或转座子。

本发明的表达载体优选地包含一种或多种选择性标记，所述选择性标记使得容易选择转化的细胞。选择性标记是一种基因，其产物提供了杀生物剂抗性或病毒抗性、对重金属的耐受性、针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或是赋予抗生素抗性诸如氨苄西林、卡那霉素、氯霉素或四环素抗性的标记。酵母宿主细胞的适宜标记是ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。

在丝状真菌宿主细胞中使用的选择性标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨基甲酰基转移酶)、bar(草丁膦乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸盐还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、以及trpC(邻氨基苯甲酸合酶)以及它们的等同物。在曲霉属细胞中使用的实施方案包括构巢曲霉或米曲霉的amdS基因和pyrG基因，以及吸水链霉菌(Streptomyces hygroscopicus)的bar基因。

用于表达转氨酶的表达载体可包含允许载体整合到宿主细胞基因组中或允许该载体在细胞中独立于基因组而自主复制的元件。对于整合到宿主细胞基因组中，载体可以依赖于编码多肽的核酸序列或载体的任何其他元件通过同源重组或非同源重组将载体整合到基因组中。

可选地，表达载体可以包含用于指导通过同源重组整合到宿主细胞基因组中的另外的核酸序列。所述另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞基因组中。为了提高在精确位置整合的可能性，整合元件应该优选地包含与对应的靶序列高度同源的数目足够的核酸，诸如100到10,000个碱基对，优选400到10,000个碱基对，以及最优选800到10,000个碱基对，以增强同源重组的机率。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码核酸序列或编码核酸序列。另一方面，可以通过非同源重组将载体整合到宿主细胞的基因组中。

对于自主复制，载体还可以包括使该载体能在要考虑的宿主细胞中自主复制的复制起点。细菌复制起点的实例是允许在大肠杆菌中复制的P15Aori、或质粒pBR322、pUC19、pACYCl77(该质粒具有P15A ori)或质粒pACYC184的复制起点，以及允许在芽孢杆菌中复制的pUB110、pE194、pTA1060或pAMβ1的复制起点。在酵母宿主细胞中使用的复制起点的实例是2微米复制起点ARS1、ARS4，ARS1和CEN3的组合，以及ARS4和CEN6的组合。复制起点可以是具有突变的复制起点，所述突变使其在宿主细胞中以温度敏感的方式起作用(参见，例如Ehrlich,1978,Proc NatlAcad Sci.USA75:1433)。

可以将多于一个拷贝的本发明的核酸序列插入宿主细胞中以提高基因产物的生产量。核酸序列拷贝数的增加可以通过如下方式获得：通过将该序列的至少一个另外拷贝整合到宿主细胞基因组中，或者通过使该核酸序列包括可扩增的选择性标记基因，其中可以通过在适当选择剂的存在下培养细胞来选择包含该选择性标记基因的扩增拷贝和由此包含该核酸序列的另外拷贝的细胞。

在本发明中使用的许多表达载体可商购获得。适宜的商业表达载体包括来自Sigma-Aldrich Chemicals,St.Louis MO.的p3xFLAGTM^TM表达载体，它包括用于在哺乳动物宿主细胞中表达的CMV启动子和hGH多腺苷酸化位点以及用于在大肠杆菌中扩增的pBR322复制起点和氨苄西林抗性标记。其他适宜的表达载体是可以从Stratagene,LaJollaCA商购获得的pBluescriptII SK(-)和pBK-CMV，以及源自于pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly(Lathe等人,1987,Gene57:193-201)的质粒。

另一方面，本公开内容提供了包含编码本公开内容的改进转氨酶多肽的多核苷酸的宿主细胞，该多核苷酸与用于在该宿主细胞中表达转氨酶的一个或更多个控制序列可操作地连接。在由本发明的表达载体所编码的转氨酶多肽的表达中使用的宿主细胞是本领域公知的并且包括但不限于：细菌细胞，诸如大肠杆菌、乳杆菌属、链霉菌属和鼠伤寒沙门氏菌(Salmonellatyphimurium)的细胞；真菌细胞，诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤酵母(Pichia pastoris)(ATCC登记号201178))；昆虫细胞诸如果蝇S2细胞和夜蛾(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞；以及植物细胞。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。

可以通过本领域已知的多种方法将用于表达转氨酶的多核苷酸引入细胞中。技术包括但不限于电穿孔、生物射弹粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合。用于将多核苷酸引入细胞中的多种方法将对技术人员是明显的。

示例性宿主细胞是大肠杆菌W3110。通过将编码改进的转氨酶的多核苷酸可操作地连入质粒pCK110900而产生表达载体，该多核苷酸与在lacI阻抑物的控制下的lac启动子可操作地连接。该表达载体也包含P15a复制起点和氯霉素抗性基因。通过对在大肠杆菌W3110中包含主题多核苷酸的细胞进行氯霉素选择来分离这些细胞。

改进的转氨酶或编码这种多肽的多核苷酸可利用本领域技术人员常用的方法制备。如以上指出的，亲本序列SEQ ID NO:2源自于的节杆菌属KNK168转氨酶的天然存在的氨基酸序列(在本文以SEQ ID NO:2代表)和编码节杆菌属KNK168转氨酶的相应多核苷酸在美国专利号7,169,592可获得，其通过引用并入本文。在一些实施方案中，对亲本多核苷酸序列进行密码子优化以增强转氨酶在指定的宿主细胞中的表达。命名为SEQ IDNO:1的多核苷酸序列是用作大多数实验和工程化转氨酶的文库构建的起点的亲本序列。

通过使编码天然存在的转氨酶的多核苷酸经历诱变和/或定向进化方法，可以获得工程化转氨酶。示例性定向进化技术是如在Stemmer,1994,Proc Natl Acad Sci USA91:10747-10751；WO95/22625；WO97/0078；WO97/35966；WO98/27230；WO00/42651；WO01/75767和美国专利6,537,746(其每一个通过引用并入本文)中所述的诱变和/或DNA改组。

其他可以使用的定向进化方案包括但不限于：交错延伸过程(StEP)、体外重组(Zhao等人,1998,Nat.Biotechnol.16:258-261)、诱变PCR(Caldwell等人,1994,PCR Methods Appl.3:S136-S140)和盒式诱变(Black等人,1996,Proc Natl Acad Sci USA93:3525-3529)。为了本文的目的可使用的诱变和定向进化技术还在以下参考文献中描述：Ling等，1997,“Approaches to DNA mutagenesis:an overview(DNA诱变方法：概述),”Anal.Biochem.254(2):157-78；Dale等，1996,“Oligonucleotide-directed randommutagenesis using the phosphorothioate method(利用磷硫酰方法的寡核苷酸定向随机诱变),”Methods Mol.Biol.57:369-74；Smith,1985,“In vitromutagenesis(体外诱变),”Ann.Rev.Genet.19:423-462；Botstein等，1985,“Strategies and applications of in vitro mutagenesis(体外诱变的策略和应用),”Science229:1193-1201；Carter,1986,“Site-directed mutagenesis(定位诱变),”Biochem.J.237:1-7；Kramer等，1984,“Point Mismatch Repair(点错配修复),”Cell38:879-887；Wells等，1985,“Cassette mutagenesis:an efficient method for generation of multiple mutations at defined sites(盒式诱变：用于在指定位点产生多个突变的高效方法),”Gene34:315-323；Minshull等，1999,“Protein evolution by molecular breeding(通过分子育种的蛋白演化),”Curr Opin Chem Biol3:284-290；Christians等，1999,“Directed evolution of thymidine kinase for AZT phosphorylation using DNAfamily shuffling(利用DNA家族改组对腺苷激酶AZT磷酸化的定向进化),”Nature Biotech17:259-264；Crameri等，1998,“DNA shuffling of a familyof genes from diverse species accelerates directed evolution(从多种物种的基因家族DNA改组加速定向进化),”Nature391:288-291；Crameri等，1997,“Molecular evolution of an arsenate detoxification pathway by DNA shuffling(通过DNA改组分子进化砷酸解毒途径),”Nature Biotech15:436-438；Zhang等，1997,“Directed evolution of an effective fructosidase from agalactosidase by DNA shuffling and screening(通过DNA改组和筛选从半乳糖苷酶定向进化有效的果糖苷酶),”Proc Natl Acad Sci USA94:45-4-4509；Crameri等，1996,“Improved green fluorescent protein bymolecular evolution using DNA shuffling(利用DNA改组通过分子进化改进的绿色荧光蛋白),’Nature Biotech14:315-319；和Stemmer,1994,“Rapidevolution of a protein in vitro by DNA shuffling(通过DNA改组蛋白的体外快速进化),”Nature370:389-391。所有出版物通过引用并入本文。

在一些实施方案中，对诱变处理后获得的克隆筛选具有期望的改进酶特性的转氨酶。测量来自表达文库的转氨酶酶活性可以使用标准技术进行，诸如分离产物(如，通过HPLC)和通过测量分离的底物和产物的UV吸光度来检测产物和/或通过利用串联质谱(如，MS/MS)检测。示例性的测定在以下实施例4描述。每单位时间期望产物的增加比率指示在固定量的裂解物(或由其制成的冻干粉末)中转氨酶多肽的相对(酶)活性。在期望的改进酶特性是热稳定性的情况下，可以在使酶制品经历限定的温度并测量热处理后剩余的酶活性的量之后测量酶活性。然后对包含编码期望的转氨酶的多核苷酸的克隆进行分离，测序，以识别核苷酸序列的改变(如果有的话)，并将这些克隆用于在宿主细胞中表达酶。

在工程化多肽的序列为已知的情况下，可以根据已知的合成方法通过标准固相方法制备编码酶的多核苷酸。在一些实施方案中，高达大约100个碱基的片段能够单独合成，然后连接(例如，通过酶连接或化学连接方法或聚合酶介导的方法)形成任何期望的连续序列。例如，可以使用例如由Beaucage等人,1981,Tet Lett22:1859-69所描述的经典亚磷酰胺方法或由Matthes等人,1984,EMBO J.3:801-05所描述的方法(例如，像它通常在自动化合成方法中实施的那样)通过化学合成来制备本发明的多核苷酸和寡核苷酸。根据亚磷酰胺方法，例如在自动化DNA合成器中合成寡核苷酸，纯化，退火，连接并克隆在适当载体中。此外，基本上任何核酸都可以从各种商业来源中的任何一种获得，The Great American GeneCompany,Ramona,CA、ExpressGen Inc.Chicago,IL、Operon TechnologiesInc.,Alameda,CA以及许多其他来源。

在宿主细胞中表达的工程化转氨酶可以使用任何一种或多种公知的蛋白质纯化技术从这些细胞中和或培养基中回收，所述公知的蛋白质纯化技术包括但不限于溶菌酶处理、超声处理、过滤、盐析、超离心和色谱。用于裂解和从细菌诸如大肠杆菌中高效提取蛋白的适宜溶液是从St.LouisMO的Sigma-Aldrich以商品名CelLyticB^TM可商业途径获得的。

用于分离转氨酶多肽的色谱技术包括但不限于反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件将部分取决于如下因素：诸如净电荷、疏水性、亲水性、分子量、分子形状等等，并且将对本领域技术人员是明显的。在一些实施方案中，工程化转氨酶可表达为与纯化标签或用于结合抗体的抗体标签如myc表位标签的融合蛋白，纯化标签诸如具有对金属的亲和力的His-标签。

在一些实施方案中，亲和技术可以用于分离改进的转氨酶。对于亲和色谱纯化，可以使用特异性结合转氨酶多肽的任何抗体。对于抗体的产生，可以通过用工程化多肽注射来免疫多种宿主动物，包括但不限于兔、小鼠、大鼠等等。可以将该多肽与适宜载体(诸如BSA)通过侧链官能基团或与侧链官能基团相连的连接物相连。多种佐剂可根据宿主物种用于提高免疫应答，包括但不限于弗氏(完全或不完全)佐剂，矿物凝胶诸如氢氧化铝，表面活性物质诸如溶血卵磷脂，多聚醇，聚阴离子，肽，油乳剂，匙孔血蓝蛋白，二硝基苯酚，以及可能有用的人佐剂诸如BCG(卡介苗)和短小棒状杆菌(Corynebacterium parvum)。

6.实施例

本公开内容的多个特征和实施方案在以下代表性实施例中被举例说明，这些代表性实施例旨在举例说明而不是限制性的。

实施例1：野生型转氨酶基因的获取和表达载体的构建

基于报道的转氨酶的氨基酸序列和美国专利申请公开20080248539(其通过引用并入本文)实施例1所述的密码子优化算法，为在大肠杆菌中表达而设计转氨酶(TA)编码基因。基因利用通常包括42个核苷酸的寡核苷酸合成，将基因克隆到表达载体pCK110700(描绘为美国专利申请公开20050153417的图1，其通过引用并入本文)或pCK110900(描绘为美国专利申请公开20060195947的图3，其通过引用并入本文)中处于lac启动子控制下。这一表达载体还包含P15a复制起点和氯霉素抗性基因。利用标准方法将所得质粒转化到大肠杆菌W3110中。密码子优化的基因和编码的多肽列在表2中，其序列以SEQ ID NO:1和SEQ ID NO:2提供。

同样地，将编码本公开内容的工程化转氨酶、列在表2的基因(SEQ IDNO:3-168)克隆到载体pCK110700或pCK110900以在大肠杆菌W3110中表达。

实施例2：转氨酶粉末的产生-摇瓶方案

将包含编码目标转氨酶的质粒的大肠杆菌的单个微生物菌落接种到含30μg/mL氯霉素和1％葡萄糖的50mL Luria Bertani肉汤中。细胞在培养箱(incubator)中在30℃生长过夜(至少16小时)，伴随以250rpm摇动。将培养物稀释到1升烧瓶中含30μg/mL氯霉素和100μM吡多辛的250mLM9YE(1.0g/L氯化铵、0.5g/L氯化钠、6.0g/L磷酸氢二钠、3.0g/L磷酸二氢钾、2.0g/L Tastone-154酵母提取物、1L/L去离子水)中，至600nm的光密度(OD600)为0.2，并允许在30℃生长。当培养物的OD600是0.6至0.8时，通过加入异丙基βD-硫代半乳糖苷(IPTG)至终浓度1mM来诱导转氨酶基因的表达，然后培养持续过夜(至少16小时)。通过离心(5000rpm、15min、4℃)收集细胞，丢弃上清液。将细胞沉淀重悬在等体积的冷的(4℃)含100μM吡哆醛5’-磷酸(PLP)的100mM三乙醇胺(氯化物)缓冲液、pH7.5中，如上述通过离心收集。将洗涤的细胞重悬在两体积的冷的含PLP的三乙醇胺(氯化物)缓冲液中，以12,000psi通过French Press两次并保持在4℃。通过离心(9000rpm、45min.、4℃)去除细胞碎片。收集澄清的裂解物上清液，储存在-20℃。对冷冻的澄清裂解物的冷冻干燥提供了粗制转氨酶干粉。可选地，细胞沉淀(洗涤前或洗涤后)可储存在4℃或80℃。

实施例3：转氨酶的产生-发酵方案

将包含带有目标转氨酶基因的质粒的大肠杆菌的单个微生物菌落接种到含30μg/mL氯霉素和1％葡萄糖的2mL M9YE肉汤(1.0g/L氯化铵、0.5g/L氯化钠、6.0g/L磷酸氢二钠、3.0g/L磷酸二氢钾、2.0g/L Tastone-154酵母提取物、1L/L去离子水)中。细胞在培养箱中在37℃生长过夜(至少12小时)，伴随以250rpm摇动。过夜生长后，将0.5mL的此培养物稀释到1升烧瓶中含30μg/ml氯霉素和1％葡萄糖的250ml M9YE肉汤中，允许在37℃生长，伴随以250rpm摇动。当培养物的OD600是0.5至1.0时，从培养箱取出细胞，立即使用或储存在4℃。

小型发酵利用6.0L生长培养基(0.88g/L硫酸铵、0.98g/L柠檬酸钠；12.5g/L磷酸氢二钾三水合物、6.25g/L磷酸二氢钾、3.3g/L Tastone-154酵母提取物、0.083g/L柠檬酸铁铵、和8.3ml/L含2g/L氯化钙二水合物、2.2g/L硫酸锌七水合物、0.5g/L硫酸锰一水合物、1g/L硫酸亚铜七水合物、0.1g/L钼酸铵四水合物和0.02g/L四硼酸钠的微量元素溶液)在通气、搅动的15L发酵罐中在30℃进行。在121℃和15PSI将容器灭菌30分钟，灭菌后加入100μM吡多辛。向发酵罐接种包含编码目标转氨酶基因的质粒的大肠杆菌W3110的指数晚期培养物(生长在如上述的摇瓶中至初始OD₆₀₀为0.5至1.0)。以250-1250rpm搅动发酵罐，以0.6-25L/min向发酵容器供应空气以保持溶解氧水平为50％饱和或更大。通过加入20％v/v氢氧化铵保持培养物的pH在7.0。培养物的生长通过加入含500g/L工业葡萄糖右旋糖、12g/L氯化铵和5.1g/L硫酸镁七水合物的进料溶液来维持。培养物达到OD₆₀₀为70+-10后，通过加入异丙基-β-D-硫代半乳糖苷(IPTG)至终浓度1mM来诱导转氨酶的表达，发酵继续另外的18小时。然后将培养物冷却到4℃，保持在这一温度直到收获。通过在Sorval RC12BP离心机中在4℃以5000G离心40分钟来收集细胞。收获的细胞直接用于以下下游回收工艺，或可在4℃储存或在-80℃冷冻直到这样使用。

在4℃将细胞沉淀以每体积的湿细胞糊重悬在2体积的含100μM吡哆醛5’-磷酸(PLP)的100mM三乙醇胺(氯化物)缓冲液、pH7.5中。利用12000psig的压力将悬液通过配备有两阶段匀浆阀组件的匀浆器来从细胞释放细胞内转氨酶。破裂后立即将细胞匀浆冷却到-20℃。向裂解物加入11％w/v聚乙烯亚胺pH7.2溶液至终浓度为0.5％w/v。向裂解物加入1MNa₂SO₄溶液至终浓度为100mM。然后搅拌裂解物30分钟。通过在SorvalRC12BP离心机中在4℃以5000G离心30分钟来澄清所得的悬液。澄清上清液被倾析，并利用分子量截留为30kD的纤维素超滤膜浓缩10倍。将最终浓缩物分配到浅容器中，在-20℃冷冻并冻干为粉末。将转氨酶粉末在-80℃冷冻。

实施例4：用于鉴定能够立体选择性地转化西他列汀酮酰胺底物为西他列汀的节杆菌属KNK168转氨酶变体的高通量筛选

确定西他列汀酮酰胺底物向西他列汀转化的非手性HPLC方法：西他列汀酮酰胺底物(如美国专利号7,326,708中所述地制备)向西他列汀的酶促转化利用配备有Agilent Eclipse XDB-C8柱(4.6×150mm、5μm)的Agilent1200HPLC确定，利用45：55的10mM NH₄Ac/MeCN作为洗脱液，流速为1.5ml/min，柱温度为40℃。保留时间：西他列汀酮酰胺底物：1.4min；西他列汀：1.7min。洗脱物中的西他列汀酮酰胺底物和产物确定为在210nm或286nm处的峰面积，光程长为1cm。利用这些条件，西他列汀的检测限是5μg/mL。通常，210nm的入射波长用于活性类似或等于SEQ ID NO:4的转氨酶的活性测量。

确定西他列汀的立体纯度的手性HPLC方法：西他列汀的立体异构纯度利用配备有Daicel Chiralpak AD-H柱(4.6×150mm、5μm)的Agilent1200HPLC确定，利用60：40：0.1：0.1的EtOH/庚烷/二乙胺/水作为洗脱液，流速为0.8ml/min，柱温度为35℃。保留时间：西他列汀酮酰胺底物：6.3min；(S)-对映异构体：8.4min；西他列汀：10.8min。西他列汀酮酰胺底物和产物确定为在210nm或286nm处的峰面积，光程长为1cm。

检测西他列汀酮酰胺底物向西他列汀的低水平转化的液相色谱-质谱 (LC/MS)方法：西他列汀酮酰胺底物向西他列汀的低水平酶促转化利用LC/MS/MS方法确定。将5毫升样品上样到Eclipse XDB-C8HPLC柱(4.6×150mm)，用0.2％甲酸铵和甲醇的40：60流动相以1.0mL/min等度(isocratically)洗脱。在35℃，西他列汀的保留时间是1.5分钟。质谱法用来在Waters Quattro triple quadruple上检测。Q1设置为通过408.1AMU的M+H离子，Q3设置为通过235.1AMU的子离子。碰撞室(Q2)具有的碰撞能量是17.0，氩气流是0.3mL/min。离子化是通过APCI，电晕放电为5μA，源温度是130℃，探测温度是600℃。去溶剂化的气流是100L/分钟，锥孔气流设置为50L/分钟。利用这些条件，西他列汀的检测限是71pg/mL。

实施例5：用于鉴定能够立体选择性地转化西他列汀酮酰胺底物为西他列汀的节杆菌属KNK168转氨酶变体的高通量筛选

利用上述方法诱变如实施例1所述地构建的编码转氨酶的基因，改变的DNA分子群体用于转化适当的大肠杆菌宿主菌株。选择和加工抗生素抗性转化体以鉴定表达具有在适当的氨基供体(即，异丙胺)存在下，将西他列汀酮酰胺底物立体选择性地转氨基为西他列汀的改进的能力的转氨酶的转化体。细胞选择、生长、诱导转氨酶变体酶表达和收集细胞沉淀如以下所述。

利用自动菌落挑取器(Genetix USA,Inc.,Boston,MA)将携带编码转氨酶的基因的重组大肠杆菌菌落挑取到96孔的浅孔微量滴定板，每孔中包含180μL LB肉汤、1％葡萄糖和30μg/mL氯霉素(CAM)。细胞在30℃生长过夜，伴随以200rpm摇动。然后将此培养物的10μL等份转移到包含390μL M9YE肉汤、100μM吡多辛和30μg/mL CAM的96-深孔板中。在30℃伴随以250rpm摇动培养深孔板2-3小时后，通过加入IPTG至终浓度1mM来诱导培养细胞中的重组基因表达。然后在30℃伴随以250rpm摇动培养板18小时。

细胞通过离心(4000RPM,10min,4℃)沉淀，重悬在200μL裂解缓冲液中，通过在室温摇动2小时而裂解。裂解缓冲液包含100mM三乙醇胺(氯化物)缓冲液、pH7.5或8.5、1mg/mL溶菌酶、500μg/mL硫酸多粘菌素B(PMBS)和250μM PLP。用铝/聚苯乙烯薄片热封带(Velocity11,Menlo Park,CA,目录号06643-001)密封板后，在室温剧烈摇动板2小时。细胞碎片通过离心(4000RPM,10min.,4℃)沉淀，直接检验澄清上清液，或在4℃储存直到使用。

对于在pH7.5的甲醇或DMSO中筛选早期工程化转氨酶(即，早期“进化子”)，将西他列汀酮酰胺底物(40mg/mL)在甲醇或DMSO中的溶液的10μL等份加入深孔板的每个孔，随后利用Biomek NXp自动仪器(Beckman Coulter,Fullerton,CA)加入90μL1.1M异丙胺盐酸盐。然后，随后也利用Biomek NXp进行100μL回收的裂解物上清液的加入，以提供包括2mg/ml西他列汀酮酰胺底物、500mM异丙胺盐酸盐、50mM三乙醇胺pH7.5和5％甲醇或DMSO(v/v)的反应。在175℃用铝/聚苯乙烯薄片热封带(Velocity11,Menlo Park,CA,目录号06643-001)热密封板2.5秒，然后在30℃摇动过夜(至少16小时)。通过利用Phoenix液体操纵系统(Art Robbins Instruments,Sunnyvale,CA)加入1ml乙腈来猝灭反应。重新密封板，摇动5min，然后以4000rpm离心10min。将澄清的反应混合物的200μL等份转移到新的浅孔聚丙烯板(Costar#3365)，如实施例4所述地密封和分析。

对于在pH8.5的DMSO中筛选晚期工程化转氨酶(即，晚期“进化子”)，将西他列汀酮酰胺底物(400mg/mL)在二甲基亚砜(DMSO)中的溶液的50μL等份加入深孔板的每个孔，随后利用Biomek NXp自动仪器(Beckman Coulter,Fullerton,CA)加入50μL4M异丙胺盐酸盐。然后，随后也利用Biomek NX进行100μL回收的裂解物上清液的加入，以提供包括100mg/ml西他列汀酮酰胺底物、1M异丙胺盐酸盐、50mM三乙醇胺pH8.5和25％DMSO(v/v)的反应。在175℃用铝/聚苯乙烯薄片热封带(Velocity11,Menlo Park,CA,目录号06643-001)热密封板2.5秒，然后在45℃摇动过夜(至少16小时)。通过利用Phoenix液体操纵系统(Art Robbins Instruments,Sunnyvale,CA)加入1ml乙腈来猝灭反应。重新密封板，摇动5min，然后以4000rpm离心10min。将澄清的反应混合物的10μL等份转移到含190μL乙腈的新的浅孔聚丙烯板(Costar#3365)，如实施例4所述地密封和分析。

利用实施例4的检测方法，如实施例1和2中表达的SEQ ID NO:2的转氨酶表现出对西他列汀酮酰胺底物没有可检测的活性。利用以上公开的方法和方案鉴定能够转化西他列汀酮酰胺底物为西他列汀的节杆菌属KNK168转氨酶的变体。这些方法的多次迭代，其中来自一轮的一个或多个改进的分离株用作下一轮诱变和筛选的起始材料，用来开发或“进化”具有立体选择性地还原西他列汀酮酰胺底物为西他列汀的改进的能力的节杆菌属KNK168转氨酶变体。

实施例6：在甲醇中西他列汀酮酰胺底物被源自于节杆菌属KNK168转氨酶的表2中的工程化转氨酶立体选择性地转氨基

源自于节杆菌属KNK168转氨酶、在表2中标为“+”的改进的转氨酶以制备规模在DMSO中如下评价。向配备有磁性搅拌棒的5mL反应瓶加入500μL转氨酶变体(20mg/mL)在100mM三乙醇胺-氯化物缓冲液pH7.5中的溶液和250μM吡哆醛5’-磷酸。随后，向转氨酶溶液加入450μL1.1M异丙胺盐酸盐，随后加入50μL西他列汀酮酰胺底物(40mg/mL)在DMSO中的溶液。在22℃搅拌反应，通过对从反应混合物定期获取的样品进行HPLC分析来监测反应(分析条件参见实施例4)。表2提供对应标为“+”的转氨酶变体的SEQ ID NO.、与野生型转氨酶相比的氨基酸残基差异数目、和各自与具有氨基酸序列SEQ ID NO:4的酶相比针对西他列汀酮酰胺底物的活性。

在表2中标为“++”、“+++”、“++++”和“+++++”的改进的转氨酶以如下调整的条件检验：“++”：2g/L西他列汀酮酰胺底物、0.5M异丙胺、22℃、pH7.5、5％MeOH；“+++”：5-10g/L西他列汀酮酰胺底物、0.5-1M异丙胺、22-30℃、pH7.5、5％MeOH；“++++”：10-40g/L西他列汀酮酰胺底物、1M异丙胺、30-45℃、pH8.5、10％MeOH；“+++++”：40-100g/L西他列汀酮酰胺底物、1M异丙胺、45℃、pH8.5、10％MeOH-25％DMSO；和“++++++”：40-100g/L酮酰胺底物、1M异丙胺、45℃、pH8.5、50％DMSO、1000μM PLP。标为“+++”、“++++”、“+++++”、“++++++”的改进的转氨酶的相对活性分别相对于SEQ ID NO:22、SEQ ID NO:48、SEQ ID NO:58和SEQ ID NO:104的活性确定。

对于许多工程化转氨酶，西他列汀酮酰胺底物向西他列汀的转化还可利用以适当浓度的氨基供体诸如D-丙氨酸、3-氨基丁酸或α-甲基苄胺来实现。

实施例7：从2,2,2-三氟-1-苯基乙酮制备(S)-2,2,2-三氟-1-苯基乙胺(S)-2,2,2-三氟-1-苯基乙胺的制备如下阐明：

方法.将1.4g异丙胺盐酸盐加到14mL pH8.5的0.1M三乙醇胺缓冲液中。溶解异丙胺盐酸盐后，加入20mg PLP和100mgSEQ ID NO:74的转氨酶，以400rpm轻柔搅动来溶解。将反应器加热到60℃，用5N NaOH调整溶液的pH到pH8.5。将约400mg2,2,2-三氟-1-苯基乙酮酮底物溶解在6mL DMSO中，经2小时逐滴加入溶液。然后以500RPM、60℃搅拌反应器，pH设置在8.5持续24h。24h后，反应已经达到99％转化为(S)-2,2,2-三氟-1-苯基乙胺产物。在后处理(workup)期间，反应的温度降低到45℃，逐滴加入2N HCl以降低反应的pH到pH2。允许反应搅拌1小时，将沉淀经装有棉毛巾的玻璃烧结漏斗过滤。用10mL0.1N HCl洗涤沉淀3次。合并含水滤液，用5N NaOH提高pH到pH11，随后用2×100mL IPAC萃取。用25mL盐水洗涤IPAC层，以MgSO₄干燥，过滤，浓缩为(S)-2,2,2-三氟-1-苯基乙胺产物的油。

实施例8：从4-氯-1-(2-氟苯基)丁-1-酮制备(R)-2-(2-氟苯基)吡咯烷(R)-2-(2-氟苯基)吡咯烷的制备如下阐明：

方法.向HPLC小瓶加入充入10μL酮和200μL DMSO。向50mLFalcon管加入3.75g异丙胺-HCl和30mL0.1M TEA缓冲液。加入约37.5mg PLP，涡旋反应混合物以混合。向15mL Falcon管加入25mg SEQ IDNO:80的转氨酶。将5mLPLP/缓冲液的溶液加入含酶的管，涡旋以溶解酶。将1.0mL酶溶液加入含4-氯-1-(2-氟苯基)丁-1-酮酮底物和DMSO的LC小瓶，将小瓶置于45℃，在恒温混匀器(thermomixer)上以1000rpm混合。数天后，LCMS分析显示53LCAP转化为产物，M+1质量为166。共注入期望的(R)-2-(2-氟苯基)吡咯烷产物的可信标准品证实了该峰的身份。用1.0mL EtOAC萃取反应混合物。浓缩样品，然后用甲醇稀释。利用ChiralPak AD-H柱作为固定相的SFC检验显示(R)-2-(2-氟苯基)吡咯烷为95％对映体过量。

实施例9：从3-氧-3-(吡啶-2-基)丙酸乙酯制备(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯

(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯的制备如下阐明：

方法/材料：反应在带有pH监测器、上方的搅拌、加热罩和热电偶的3L圆底烧瓶中进行。将约100g3-氧-3-(吡啶-2-基)丙酸乙酯酮酯底物溶解在800mL DMSO中，这产生绿色的溶液。在含有100g/L异丙胺-HCl的1.2L0.5M三乙醇胺缓冲液pH8.4中准备约4g维生素-B6(“PLP”)。加入后，pH为8.3。通过加入3mL20wt％KOH调整pH到pH8.8。在缓冲液中准备SEQ ID NO:86的转氨酶多肽(2g)，混合直到完全溶解。溶液的pH是8.77，将溶液保持在21.7℃。将在DMSO母液中准备的酮酯底物一次直接加入批次中。

反应：反应是放热的，从而加热批次温度到38.1℃，而溶液的pH是8.45，表现为浅绿色浆液。将溶液加热到50℃。在47℃的温度，溶液的pH是8.31，然后通过加入2mL20wt％KOH调整pH到8.6。加入底物2小时后，pH为8.07，通过加入4mL4M异丙胺溶液调整pH到9.02。加入底物6小时后，pH是8.05，通过加入4mL4M异丙胺溶液调整pH到8.9。允许反应孵育过夜。加入底物15小时后，pH是7.4，加入47.6mL水，增加搅拌(体积减少～25％)。加入约8mL4M异丙胺以调整pH到8.85。17.25小时后，pH是8.5，允许反应进行而不进一步调整pH。在18.33小时，pH是8.27，在RP-HPLC上检验而确定反应完成。

反应后处理：在室温向溶液加入2gSolka。冷却后溶液的pH增加到9.2，因为缓冲液存在温度依赖性pH变化。随着加入4.5mL浓H₂SO₄调整溶液的pH到1.8，熟化1小时。然后将溶液真空过滤通过带有5μm滤布的过滤瓶和烧结滤器(60mL-40M)。过滤进行1.5小时。通过与洗液物理混合，用50.6g稀H₂SO₄(pH1.6)洗涤滤饼。过滤进行约20min。用50g稀酸性溶液再次洗涤滤饼，随后经<5min快速过滤。合并第一次的洗液和第一次的酸性水溶液，一次地加入67mL庚烷和3.3mL甲苯。彻底混合溶液，在分液漏斗中分层。第一次的酸性水溶液产生合并的(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯氨基酸/氨基酯产物的理论产率的约63％的回收率。第一次的酸性洗液产生约27％的回收率，而第二次的酸性洗液产生约10％的回收率。

向溶液加入约99.4g20wt％KOH以调整pH到13，在50℃孵育溶液。20min后，加入另外11.8g20wt％KOH以调整pH从12.1到13。另外20min后，pH稳定在12.8，HPLC确定水解完成。观察到固体从溶液沉淀出。在烧结漏斗上过滤碱性溶液(固体溶解在水中，表现为无机的，因为仅观察到少量产物，固体不溶于MeCN)。在旋转蒸发器上浓缩碱性溶液，产生(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯的粗制钾盐溶液，75％产率。

在本申请中引用的所有出版物、专利、专利申请和其他文件出于所有目的均通过引用以其整体并入本文，其程度如同分别指出将每个单独的出版物、专利、专利申请或其他文件出于所有目的通过引用并入一样。

尽管已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的精神和范围。

Claims

1.一种制备结构式(I)的胺产物的方法：

R¹是任选地取代的芳基或杂芳基；

R²是任选地取代的C₁-C₆烃基、-R³C(O)R⁴或-R³OC(O)R⁵；

R³是任选地取代的C₁-C₄烃基，R⁴是H、任选地取代的C₁-C₄烃基、NR⁶R⁷或OR⁸，其中R⁵、R⁶、R⁷和R⁸独立地是H或C₁-C₄烃基；

所述方法包括将结构式(II)的酮底物：

与转氨酶多肽在适于转化所述酮底物为所述胺产物的反应条件下、在氨基供体存在下接触，其中所述转氨酶多肽能够以与SEQ ID NO:2相比提高的比率转化所述酮底物为所述胺产物，并且所述转氨酶多肽的氨基酸序列是SEQ ID NO:4、8、10、12、14、16、18、20、22、24、26、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、94或98。

2.如权利要求1所述的方法，其中R¹是任选地取代的苯基。

3.如权利要求1所述的方法，其中R¹是任选地取代的吡啶基。

4.如权利要求1所述的方法，其中R¹是取代的芳基或杂芳基。

5.如权利要求1所述的方法，其中对C₁-C₆烃基和R³的取代选自卤素、NR⁵R⁶或OR⁸，其中R⁵和R⁶如以上定义的，并且R⁸是H或C₁-C₄烃基。

6.如权利要求1所述的方法，其中R²是甲基或卤素取代的甲基。

7.如权利要求6所述的方法，其中所述卤素取代的甲基是CF₂H或CF₃。

8.如权利要求1所述的方法，其中式(I)的胺产物是：

其中R⁹是H、Cl、Br、F、CH₃、CF₃、CN、SO₂、-OCH₃、-C(O)CH₃或NO₂，且式(II)的酮底物是：

9.如权利要求8所述的方法，其中R⁹是在苯基环的对位。

10.如权利要求1所述的方法，其中式(I)的胺产物是(S)-1-(4-溴苯基)-2,2,2-三氟乙胺：

且式(II)的酮底物是1-(4-溴苯基)-2,2,2-三氟乙酮：

11.如权利要求1所述的方法，其中式(I)的胺产物是(S)-2,2,2-三氟-1-对甲苯基乙胺：

且式(II)的酮底物是2,2,2-三氟-1-对甲苯基乙酮：

12.如权利要求1所述的方法，其中式(I)的产物胺是(S)-2,2,2-三氟-1-(4-(三氟甲基)苯基)乙胺：

且式(II)的酮底物是2,2,2-三氟-1-(4-(三氟甲基)苯基)乙酮：

13.如权利要求1所述的方法，其中式(I)的胺产物是：

且式(II)的酮底物是：

其中R⁷是任选地取代的C₁-C₄烃基，且R¹⁰是以上定义的R⁹。

14.如权利要求1所述的方法，其中式(I)的胺产物是(R)-3-氨基-3-(吡啶-2-基)丙酸乙酯：

且式(II)的酮底物是3-氧-3-(吡啶-2-基)丙酸乙酯：

15.如权利要求1所述的方法，其中式(I)的胺产物是：

且式(II)的酮底物是：

其中R¹¹是卤素、OH、-C(O)R⁴、-OC(O)R⁵或NR⁶R⁷，其中R⁴、R⁵、R⁶、R⁷、R⁷和R¹⁰如以上定义的。

16.如权利要求1所述的方法，其中式(I)的胺产物是(S)-4-氯-1-(2-氟苯基)丁-1-胺：

且式(II)的酮底物是4-氯-1-(2-氟苯基)丁-1-酮：

17.一种制备式(III)化合物的方法：

所述式(III)化合物在标为*的立体中心具有所示的立体化学构型，且所述式(III)化合物与相对的对映异构体相比为对映体过量，

其中R¹⁰是Cl、Br、F、CH₃、CF₃、CN、SO₂、-OCH₃或NO₂，

所述方法包括：

(a)在适于转化下式酮底物：

为下式胺产物：

的反应条件下，在氨基供体存在下，将所述酮底物与转氨酶多肽接触，

其中R¹¹是卤素、OH、-C(O)R⁴、-OC(O)R⁵或NR⁶R⁷，其中R⁴、R⁵、R⁶和R⁷是H或C₁-C₄烃基，且R¹⁰如以上定义的，

其中所述转氨酶多肽能够以与SEQ ID NO:2相比提高的比率转化所述酮底物为所述胺产物，并且所述转氨酶多肽的氨基酸序列是SEQ IDNO:4、8、10、12、14、16、18、20、22、24、26、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、94或98；并

(b)在适当条件下环化所述胺产物以形成式(III)化合物。

18.如权利要求17所述的方法，其中所述酮底物是4-氯-1-(2-氟苯基)丁-1-酮：

且所述胺产物是(S)-4-氯-1-(2-氟苯基)丁-1-胺：

从而形成对映体过量的(R)-2-(2-氟苯基)吡咯烷：

19.如权利要求1至18任一项所述的方法，其中所述反应条件包括20℃至65℃的温度。

20.如权利要求19所述的方法，其中所述反应条件包括40℃至65℃的温度。

21.如权利要求6至12任一项所述的方法，其中所述反应条件包括50℃至65℃的温度。

22.如权利要求1至18任一项所述的方法，其中所述胺产物以至少90％对映体过量产生。

23.如权利要求1至18任一项所述的方法，其中所述胺产物以至少99％对映体过量产生。

24.如权利要求1至18任一项所述的方法，其中所述氨基供体选自异丙胺、丙氨酸、3-氨基丁酸或甲基苄胺。

25.如权利要求24所述的方法，其中所述氨基供体是异丙胺。

26.如权利要求1至18任一项所述的方法，所述方法还包括去除反应的羰基副产物的步骤。

27.如权利要求26所述的方法，其中所述氨基供体是氨基酸且所述羰基副产物是酮酸。

28.如权利要求27所述的方法，其中所述羰基副产物具有高于水的蒸气压，并且所述羰基副产物的去除是通过喷射非反应性气体或通过施加真空。

29.如权利要求28所述的方法，其中所述非反应性气体是氮气。

30.如权利要求28所述的方法，其中所述羰基副产物是丙酮。

31.如权利要求1至18任一项所述的方法，其中所述反应条件是从pH7.0至pH11.0。

32.如权利要求31所述的方法，其中所述pH是通过加入异丙胺来维持的。

33.如权利要求1至18任一项所述的方法，其中所述反应条件包括溶剂二甲基亚砜(DMSO)。

34.如权利要求33所述的方法，其中所述DMSO为10％至40％(v/v)。

35.如权利要求1至18任一项所述的方法，其中所述底物以5至25g/L存在。

36.如权利要求1至18中任一项所述的方法，其中所述转氨酶多肽由对应于SEQ ID NO:58、72、74、80、86或98的序列的氨基酸序列组成。