CN115927231A

CN115927231A - 用于工业生物催化的工程化转氨酶多肽

Info

Publication number: CN115927231A
Application number: CN202210813494.XA
Authority: CN
Inventors: 玛蒂娜·金塔纳尔-欧德罗; 埃伦·埃伯哈德; 约瓦娜·纳佐尔; 德里克·史密斯; 王翠霞
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2013-02-28
Filing date: 2014-02-24
Publication date: 2023-04-07
Also published as: CN105164263A; ES2694327T3; SI2961844T1; WO2014133960A1; CN105164263B; US10604744B2; US20180223265A1; US9963685B2; US20210348138A1; IL240565B; HUE042206T2; US9617573B2; JP6436541B2; US20170175090A1; JP2018019723A; IL240565A0; US20200172882A1; JP2016509841A; EP2961844A4; SG11201506748WA

Abstract

本申请涉及用于工业生物催化的工程化转氨酶多肽。本公开内容提供了可用于在工业相关条件下合成手性胺化合物的工程化转氨酶多肽。本公开内容还提供了编码工程化转氨酶多肽的多核苷酸、能够表达工程化转氨酶的宿主细胞和使用工程化转氨酶产生手性胺化合物的方法。

Description

用于工业生物催化的工程化转氨酶多肽

本申请是申请日为2014年02月24日，申请号为201480024103.X，发明名称为“用于工业生物催化的工程化转氨酶多肽”的申请的分案申请。

本申请要求于2013年2月28日提交的共同待审的美国临时申请系列号61/770,814的优先权，为了所有目的以其全部并入。

技术领域

本公开内容涉及可用于在工业过程条件下生成药物和精细化工胺化合物的工程化转氨酶多肽。

对序列表、表格或计算机程序的引用

序列表的正式副本作为ASCII格式化文本文件与说明书经EFS-Web同时被提交，文件名为“CX2-129WO2_ST25.txt”，创建日期2014年1月29日，且大小为647,890字节。经EFS-Web提交的序列表是说明书的一部分且通过引用全部并入本文。

背景技术

转氨酶(E.C.2.6.1)催化氨基、一对电子和质子从氨基供体化合物转移至氨基受体化合物的酮基。转氨酶反应可导致手性胺产物化合物的形成。如在方案1中显示的，氨基受体化合物(B)(其为期望的手性胺产物(D)的酮底物前体)在转氨酶的存在下与氨基供体化合物(A)反应。转氨酶催化氨基供体化合物(A)的伯胺基团转移至氨基受体化合物(B)的酮基。转氨酶反应产生手性胺产物化合物(D)(假定R¹与R²不同)以及具有酮基的新氨基受体副产物(或“羰基副产物”)化合物(C)。

方案1

手性胺化合物作为中间体或合成子常被用在制药、农业化学和化学工业中，用于制备广泛范围的商业上期望的化合物，诸如头孢菌素或吡咯烷衍生物。通常手性胺化合物的这些工业应用涉及仅利用分子的一种特定的立体异构形式，例如只有(R)或(S)对映异构体是生理学活性的。转氨酶是高度立体异构的并且具有很多潜在的工业用途，用于合成光学纯的手性胺化合物。

使用转氨酶制备手性胺化合物的实例包括：氨基酸的对映异构体富集(参见例如Shin等人，2001，Biosci.Biotechnol.Biochem.65:1782-1788；Iwasaki等人,2003,Biotech.Lett.25:1843-1846；Iwasaki等人,2004,Appl.Microb.Biotech.69:499-505，Yun等人,2004,Appl.Environ.Microbiol.70:2529-2534；以及Hwang等人,2004,EnzymeMicrobiol.Technol.34:429-426)；制备普瑞巴林的中间体和前体(例如，WO 2008/127646)；环巴胺类似物的酶促转氨作用(例如，WO 2011/017551)；β-氨基酸的立体定向合成和对映异构体富集(例如，WO 2005/005633)；胺的对映异构体富集(例如美国专利号US4,950,606；美国专利号5,300,437；和美国专利号5,169,780)；氨基酸和衍生物的生成(例如美国专利号5,316,943；美国专利号4,518,692；美国专利号4,826,766；美国专利号6,197,558；和美国专利号4,600,692)；以及在药物化合物西他列汀、卡巴拉汀和维那卡兰的生成中(参见例如美国专利号8,293,507B2,2012年10月23日授权；Savile,等人,2010,“Biocatalytic asymmetric synthesis of chiral amines from ketones applied tositagliptin manufacture,”Science 329(5989):305-9；WO2011/159910,2011年12月22日公布；和WO2012/024104,2012年2月23日公布)。

具有催化方案1的反应的能力的野生型转氨酶已从多种微生物分离，所述多种微生物包括但不限于反消化产碱菌(Alcaligenes denitrificans)、支气管败血性博德特菌(Bordetella bronchiseptica)、副百日咳博德特菌(Bordetella parapertussis)、羊布鲁式杆菌(Brucella melitensis)、鼻疽伯克氏菌(Burkholderia mallei)、类鼻疽伯克氏菌(Burkholderia pseudomallei)、青紫色素杆菌(Chromobacterium violaceum)、Oceanicola granulosus HTCC2516、海洋杆菌(Oceanobacter)属种RED65、海洋螺菌属(Oceanospirillum)属种MED92、恶臭假单胞菌(Pseudomonas putida)、青枯雷尔氏菌(Ralstonia solanacearum)、苜蓿根瘤菌(Rhizobium meliloti)、根瘤菌(Rhizobium)属种(菌株NGR234)、苏云金芽孢杆菌(Bacillus thuringensis)、肺炎克雷伯杆菌(Klebsiellapneumonia)、河流弧菌(Vibrio fluvialis)(参见例如，Shin等人,2001,Biosci.Biotechnol,Biochem.65:1782-1788)、和节杆菌(Arthrobacter)属种KNK168(参见例如,Iwasaki等人,Appl.Microbiol.Biotechnol.,2006,69:499-505,美国专利号7,169,592)。这些野生型转氨酶基因以及编码的多肽中的若干种已被测序，包括例如青枯雷尔氏菌(Ralstonia solanacearum)(Genbank登录号YP_002257813.1,GI:207739420)、类鼻疽杆菌(Burkholderia pseudomallei)1710b(Genbank登录号ABA47738.1,GI:76578263),百日咳博德特氏菌(Bordetella petrii)(Genbank登录号AM902716.1,GI:163258032),河流弧菌(Vibrio fluvialis)JS17(Genbank登录号AEA39183.1,GI:327207066)和节杆菌(Arthrobacter)属种KNK168(GenBank登录号BAK39753.1,GI:336088341)。EC 2.6.1.18和EC 2.6.1-19类的至少两种野生型转氨酶已被结晶并结构地表征(参见例如Yonaha等人，1983，Agric.Biol.Chem.47(10):2257-2265)。

已知转氨酶具有(R)-选择性的或(S)-选择性的立体选择性。例如，来自节杆菌属种KNK168的野生型转氨酶被认识是(R)-选择性的并从某些底物主要生成(R)-胺化合物(参见例如，Iwasaki等人,Appl.Microbiol.Biotechnol.,2006,69:499-505,美国专利号7,169,592)，而来自河流弧菌JS17的野生型转氨酶被认为是(S)-选择性的并从某些底物主要生成(S)-胺化合物(参见例如Shin等人,“Purification,characterization,andmolecular cloning of a novel amine:pyruvate transaminase from Vibriofluvialis JS17,”Appl.Microbiol.Biotechnol.61(5-6),463-471(2003))。

非天然存在的具有(R)-选择性、增加的溶剂和热稳定性、以及对于转化广泛范围的氨基受体底物的其他改进的特性的转氨酶已通过野生型和其他工程化转氨酶骨架序列的诱变和/或定向进化生成(参见例如2012年10月23日授权的美国专利号8,293,507B2；2011年1月13日公布的WO2011/005477A1；2012年2月23日公布的WO2012/024104；和Savile等人,2010,“Biocatalytic asymmetric synthesis of chiral amines from ketonesapplied to sitagliptin manufacture,”Science 329(5989):13:263-9)。

但是，转氨酶通常具有对于在制备手性胺化合物中的商业应用不期望的特性，诸如对工业上有用的过程条件(例如，溶剂、温度)的不稳定性、对商业上有用的氨基受体和/或氨基供体底物的差的识别和立体选择性、和由于不利的反应平衡造成的低的产物产率。因此，对能在用于制备光学活性形式的手性胺化合物的工业过程中使用的工程化转氨酶存在需求。

概述

本公开内容提供了具有转氨酶活性的工程化多肽、编码该多肽的多核苷酸、制备该多肽的方法、和使用该多肽用于将氨基受体底物化合物(即，包含酮基的化合物)生物催化转化成手性胺产物化合物的方法。本公开内容的转氨酶多肽已被工程化为具有与(SEQID NO:2的氨基酸序列的)之前工程化的转氨酶多肽相比的一个或更多个残基差异以及相对于之前工程化的转氨酶多肽的相关增强的溶剂和热稳定性(参见例如，2012年10月23日授权的US 8,293,507 B2；2011年1月13日公布的PCT公布WO2011005477A1和2012年2月23日公布的PCT公布WO2012024104)。氨基酸残基差异位于导致多种酶特性的改进的残基位置，所述酶特性除了其他以外包括活性、立体选择性、稳定性、表达和产物耐受性。

特别地，本公开内容的工程化转氨酶多肽已为了如在方案2中显示的底物4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三氮唑[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-酮(本文被称作“化合物(2)”)至其相应的手性胺产物化合物(2R)-4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三氮唑[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-胺(本文被称作“化合物(1)”)的有效转化被工程化。

方案2

化合物(1)，也被称为“西他列汀”，是在美国和其他国家已收到上市许可用于治疗2型糖尿病的药物产品

中的活性成分。

但是，本公开内容的工程化转氨酶多肽的经进化的结构特征还允许如方案3中显示的将一系列式(II)的酮底物化合物(包括除了化合物(2)之外的化合物)生物催化转化成其相应的式(I)的手性胺产物化合物(包括除了化合物(1)之外的化合物)，

方案3

其中

Z是OR2或NR2R3；

R1是C1-8烷基、芳基、杂芳基、芳基-C1-2烷基、杂芳基-C1-2烷基或任选地包含选自O、S和N的另外的杂原子的5-至6-元杂环系统，所述杂环未经取代或被独立地选自氧、羟基、卤素、C1-4烷氧基、和C1-4烷基的1至3个取代基取代，其中烷基和烷氧基未经取代或被1至5个氟取代；

R2和R3各自独立地为氢、C1-8烷基、芳基、或芳基-C1-2烷基；或

R2和R3连同与它们附接的氮原子一起形成4-至7-元杂环系统，所述4-至7-元杂环系统任选地包含选自O、S、和N的另外的杂原子，所述杂环未经取代或被独立地选自氧、羟基、卤素、C1-4烷氧基、和C1-4烷基的1至3个取代基取代，其中烷基和烷氧基未经取代或被1至5个氟取代；并且杂环系统任选地与5-至6-元饱和或芳香族碳环系统或包含选自O、S和N的1至2个杂原子的5-至6-元饱和或芳香族杂环系统稠合，稠合的环系统未经取代或被选自羟基、氨基、氟、C1-4烷基、C1-4烷氧基和三氟甲基的1至2个取代基取代。

在一些实施方案中，工程化转氨酶多肽能以超过相对的对映体至少70％的对映体过量将式(II)的化合物生物催化转化成在用*标记的立体中心具有所指示的立体化学构型的式(I)的化合物。

在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的同一性以及具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异，和/或(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

在本公开内容的具有转氨酶活性的工程化多肽的一些实施方案中，氨基酸序列还可包含与SEQ ID NO:2相比选自以下的一个或更多个残基差异：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M和X328I。

在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的序列同一性以及具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自G36C、I41C、I41F、I41K、I41M、I41N、I41R、E42G、P48D、P48E、P48G、P48K、P48T、A51K、S54P、M122F、M122Q、Y148Q、C152T、Q155A、Q155I、Q155K、Q155T、Q155V、C215H、C215L、Y273H、L325M和A241R的氨基酸残基差异；或(b)选自以下的残基差异的组合：A5K、E42G、S49T、S54P、C152S、Q155T和W156Q；P33L、I41C、E42G、S54P、S150F、C152S、Q155K、F160P和C215G；P33L、I41K、E42G、S54P、S150F、C152S、Q155I、F160P和C215L；P33L、E42G、P48G、S54P、S150F、C152S、Q155T和C215H；P33L、E42G、S54P、A109S、S150F、C152S、Q155K、W156Q和C215H；P33L、E42G、S54P、E117G、S150F、C152S、Q155I、W156Q和C215G；P33L、E42G、S54P、S150F、C152S、Q155I、W156Q和C215G；P33L、E42G、S54P、S150F、C152S、Q155K、W156Q和C215H；P33L、E42G、S54P、S150F、C152S、Q155L、W156Q和C215H；P33L、E42G、S54P、S150F、C152S、Q155L、W156Q、C215H和A241R；G36C、E42G、P48G、S54P、S150F、C152S、Q155I和C215H；G36C、E42G、P48K、S54P、S150F、C152S、Q155T和C215H；G36C、E42G、S54P、S150F、C152S、Q155I、C215H和A241R；G36C、E42G、S54P、S150F、C152S、Q155K、C215H和A241R；G36C、E42G、S54P、S150F、C152S、Q155T和A241R；G36C、E42G、S54P、S150F、C152S、Q155V和C215H；I41C、E42G、S49T、S54P、S150F、C152S、Q155I、F160P、C215G和I267V；I41C、E42G、S49T、S54P、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、I108V、S150F、C152S和Q155K；I41C、E42G、S54P、I108V、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、I108V、S150F、C152S、Q155T、W156Q和C215G；I41C、E42G、S54P、E117G、S150F、C152S、Q155K和F160P；I41C、E42G、S54P、E117G、S150F、C152S、Q155K和C215L；I41C、E42G、S54P、E117G、S150F、C152S、Q155L和C215L；I41C、E42G、S54P、S150F、C152S、Q155I和C215G；I41C、E42G、S54P、S150F、C152S、Q155I和C215L；I41C、E42G、S54P、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、S150F、C152S、Q155K和C215L；I41C、E42G、S54P、S150F、C152S,Q155K和C215G；I41C、E42G、S54P、S150F、C152S、Q155L、F160P、C215G和I267V；I41C、E42G、S54P、S150F、C152S、Q155T、W156Q、F160P和C215L；I41C、E42G、S54P、S150F、C152S、Q155T、W156Q和C215L；I41F、E42G、S54P、M122Q、S150F、C152T、Q155V、W156Q和C215G；I41F、E42G、S54P、S150F、C152S、Q155L、W156Q、V171I和C215G；I41F、E42G、S54P、S150F、C152S、Q155L、W156Q、V171I、C215G和A241R；I41F、E42G、S54P、S150F、C152S、Q155I、W156Q和C215G；I41K、E42G、P48E、S54P、S150F、C152S、Q155K和W156Q；I41K、E42G、P48E、S54P、S150F、C152S、Q155L和C215L；I41K、E42G、S54P、I108V、E117G、S150F、C152S、Q155K和C215L；I41K、E42G、S54P、I108V、S150F、C152S、Q155T和C215G；I41K、E42G、S54P、E117G、S150F、C152S、Q155L和C215G；I41K、E42G、S54P、E117G、S150F、C152S、Q155K、C215L和I267V；I41K、E42G、S54P、S150F、C152S、Q155K、W156Q和C215G；I41K、E42G、S54P、S150F、C152S、Q155K、F160P、C215G和I267V；I41K、E42G、S54P、S150F、C152S、Q155K和C215L；I41K、E42G、S54P、S150F、C152S和Q155T；I41K、E42G、S54P、S150F、C152S、Q155T和F160P；I41K、E42G、S54P、S150F、C152S、Q155T和C215G；I41K、E42G、S54P、S150F、C152S、Q155T、C215G和I267V；I41K、E42G、S54P、S150F、C152S、Q155K、W156Q和C215G；I41N、E42G、S54P、S150F、C152S、Q155I和F160P；I41N、E42G、S54P、E117G、S150F、C152S、Q155T和W156Q；I41N、S49T、E42G、S54P、S150F、C152S、Q155L、F160P、D165N和C215L；E42A、A44Q、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、A44Q、S54P、I108V、S150F、C152S和Q155T；E42G、A44Q、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、A44Q、S54P、S150A、C152S和Q155T；E42G、A44Q、S54P、S150F、C152S和Q155T；E42G、P48G、S54P、S150F、C152S、Q155L、W156Q和C215H；E42G、P48G、S54P、S150F、C152S和Q155T；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155L、F160P和C215L；E42G、S49T、S54P、I108V,E117G、S150F、C152S、Q155K、W156Q和C215G；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155T、W156Q、C215G和I267V；E42G、S49T、S54P、C152S、Q155T和W156Q；E42G、S54P、I55L、T126A、C152S、Q155T、L218M和A270T；E42G、S54P、F60V、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、T68A、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、T69S、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、N76S、T126A、C152S、Q155T、S182T、L218M、A270T和V328I；E42G、S54P、I108V、S150F、C152S、Q155K和C215H；E42G、S54P、I108V、S150F、C152S和Q155T；E42G、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、S54P、I108V、S150F、C152S、Q155V、W156Q和F160P；E42G、S54P、E117G、C152S和Q155T；E42G、S54P、E117G、C152S、Q155T和W156Q；E42G、S54P、M122Q、S150F、C152S、Q155I、W156Q、C215G和A241R；E42G、S54P、M122Q、S150F、C152S、Q155L、W156Q、V171I、C215G和A241R；E42G、S54P、M122Q、S150F、C152T、Q155V、W156Q、V171I、C215G和A241R；E42G、S54P、T126M、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、P135I、F136Y、S150F、C152S、Q155L、W156Q、W192F和C215G；E42G、S54P、F136I、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、F136I、S150F、C152S、Q155L、W156Q、C215G和G224I；E42G、S54P、F136I、S150F、C152S、Q155L、W156Y、C215G、S282V和G284I；E42G、S54P、F136I、S150F、C152S、Q155L、W156Y、C215G和G284P；E42G、S54P、F136Y、S150F、C152S、Q155L、W156Q、C215G、S282V和G284P；E42G、S54P、S150A、C152S、Q155T和I267V；E42G、S54P、S150F、C152S、Q155I、W156Q、F160P、C215L和I267V；E42G、S54P、S150F、C152S、Q155I、W156Q、V171I、C215G和A241R；E42G、S54P、S150F、C152S、Q155I、W156Q和C215L；E42G、S54P、S150F、C152S、Q155I、F160P和C215G；E42G、S54P、S150F、C152S、Q155I和C215H；E42G、S54P、S150F、C152S、Q155K和W156Q；E42G、S54P、S150F、C152S、Q155K、W156Q和I267V；E42G、S54P、S150F、C152S、Q155L、W156Q、G193M和C215G；E42G、S54P、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G、S282V和G284I；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G和T283S；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G和G284I；E42G、S54P、S150F、C152S、Q155L、W156Y和C215G；E42G、S54P、S150F、C152S、Q155L和C215H；E42G、S54P、S150F、C152S和Q155T；E42G、S54P、S150F、C152S、Q155T、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和I267V；E42G、S54P、S150F、C152S、Q155T、W156Q、F160P、C215L和I267V；E42G、S54P、S150F、C152S、Q155T、W156Q、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和W156R；E42G、S54P、S150F、C152S、Q155T、F160P和C215G；E42G、S54P、S150F、C152S、Q155T、F160P和C215L；E42G、S54P、S150F、C152S、Q155T、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和I267V；E42G、S54P、C152S、Q155I和W156S；E42G、S54P、C152S、Q155K和W156S；E42G、S54P、C152S、Q155L和W156S；E42G、S54P、C152S和Q155T；E42G、S54P、C152S、Q155T和F160P；E42G、S54P、C152S、Q155T和R164P；E42G、S54P、C152S、Q155T和W156Q；E42G、S54P、C152S、Q155T和W156S；E42G、S54P、C152S、Q155T和R164P；E42G、S54P、C152S、Q155T、S182T、L218M和A270T；E42G、S54P、C152S、Q155T和C215G；E42G、S54P、C152S、Q155T和C215L；以及E42G、S54P、C152S、Q155V和W156S。

在本公开内容的具有转氨酶活性的工程化多肽的一些实施方案中，工程化多肽能在合适的反应条件下将化合物(2)的底物转化成化合物(1)的产物。在一些实施方案中，工程化多肽能在合适的反应条件下以至少1.2倍、2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更大倍于SEQ ID NO:2的活性将化合物(2)转化成化合物(1)。在一些实施方案中，工程化多肽能以相对于SEQ ID NO:2增加的活性将化合物(2)转化成化合物(1)，其中合适的反应条件包括至少50g/L的载量的化合物(1)、1mM PLP、50％DMSO(v/v)、1.5M异丙胺、pH 11和55℃。

在本公开内容的一些实施方案中，工程化多肽的氨基酸序列包含选自以下示例性序列的序列：SEQ ID NO:4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286、288、290、292、294、296、298、300、302、304和306。这些示例性多肽序列的每个包含如本文公开的相对于SEQ ID NO:2的氨基酸差异的不同的组合(参见例如表2A、2B和2C)。在一些实施方案中，工程化多肽包含与这些示例性序列的任何一个具有至少80％、85％、86％、87％、88％、89％、90％、91％,92％、93％、94％、95％、96％、97％、98％、99％或更大的同一性，并且还包含如在这些示例性氨基酸序列的任何一个中发现的相对于SEQ IDNO:2的氨基酸差异的组合的序列。在一些实施方案中，包含如在这些示例性氨基酸序列的任何一个中发现的相对于SEQ ID NO:2的氨基酸差异的组合的工程化多肽还可包含与SEQID NO:2相比的选自以下的另外的氨基酸差异：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M和X328I；或在工程化转氨酶多肽的领域中公开的其他氨基酸差异(参见例如，在2012年10月23日授权的美国专利号8,293,507B2、2011年1月13日公布的WO2011/005477A1、2012年2月23日公布的WO2012/024104中公开的氨基酸差异。)。

在本公开内容的一些实施方案中，具有转氨酶活性的工程化多肽被固定在固体支持物上，任选地其中固体支持物选自珠或树脂，所述珠和树脂包含带有环氧官能团的聚甲基丙烯酸酯、带有氨基环氧官能团的聚甲基丙烯酸酯、带有十八基官能团的苯乙烯/DVB共聚物或聚甲基丙烯酸酯。

在其他方面，本公开内容提供了编码本文公开的具有转氨酶活性的工程化多肽的多核苷酸。在一些实施方案中，多核苷酸可包含选自以下的核苷酸序列：SEQ ID NO:3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263、265、267、269、271、273、375、277、279、281、283、285、287、291、293、295、297、299、301、303和305。

另外，本公开内容提供了包含编码本文公开的具有转氨酶活性的工程化多肽的多核苷酸的表达载体和宿主细胞。因此，在一些实施方案中，本公开内容提供了包含编码如本文公开的工程化多肽的多核苷酸，并且任选地还包含控制序列的表达载体。在其他实施方案中，本公开内容提供了包含编码如本文公开的工程化多肽的多核苷酸的宿主细胞。在其他实施方案中，本公开内容提供了包含表达载体的宿主细胞，其中所述表达载体包含编码如本文公开的工程化多肽的多核苷酸。在其他实施方案中，本公开内容提供了制备如本文公开的工程化多肽的方法，其中所述方法包括在适于表达多肽的条件下培养宿主细胞。在一些实施方案中，制备工程化多肽的方法还包括分离多肽。

本公开内容还提供了使用本文公开的工程化转氨酶多肽制备广泛范围的手性胺化合物的方法。在一些实施方案中，本公开内容提供了用于以超过相对的对映体至少70％的对映体过量制备在用*标记的立体中心处具有所指示的立体化学构型的结构式(I)的化合物的方法：

其中Z为OR2或NR2R3；

R1为C1-8烷基、芳基、杂芳基、芳基-C1-2烷基、杂芳基-C1-2烷基、或任选地包含选自O、S和N的另外的杂原子的5-至6-元杂环系统，所述杂环未经取代或被独立地选自氧、羟基、卤素、C1-4烷氧基和C1-4烷基的1至3个取代基取代，其中烷基和烷氧基未经取代或被1至5个氟取代；

R2和R3各自独立地为氢、C1-8烷基、芳基或芳基-C1-2烷基；或

R2和R3连同与它们附接的氮原子一起形成4-至7-元杂环系统，所述4-至7-元杂环系统任选地包含选自O、S和N的另外的杂原子，所述杂环未经取代或被独立地选自氧、羟基、卤素、C1-4烷氧基和C1-4烷基的1至3个取代基取代，其中烷基和烷氧基未经取代或被1至5个氟取代；并且杂环系统任选地与5-至6-元饱和或芳香族碳环系统或包含选自O、S和N的1至2个杂原子的5-至6-元饱和或芳香族杂环系统稠合，稠合的环系统未经取代或用被自羟基、氨基、氟、C1-4烷基、C1-4烷氧基和三氟甲基的1至2个取代基取代；所述方法包括在合适的反应条件下在合适的有机溶剂中在氨基供体的存在下使结构式(II)的前手性酮：

与本文公开的工程化多肽接触。

在用于制备结构式(I)的化合物的方法的一些实施方案中，R1为苄基并且苄基的苯基未经取代或被选自由氟、三氟甲基和三氟甲氧基组成的组的1至3个取代基取代。在所述方法的一些实施方案中，Z为NR²R³，其中NR²R³为结构式(III)的杂环：

其中R⁴是氢或C1-4烷基，所述C1-4烷基未经取代或被1至5个氟取代。

在用于制备结构式(I)的化合物的方法的一些实施方案中，式(II)的化合物特别地不包含化合物(2)并且通过该方法制备的式(I)的化合物特别地不包含化合物(1)。

在一些实施方案中，本公开内容提供了用于以超过具有相对的(S)-构型的对映体至少70％的对映体过量制备在用***标记的立体中心处具有(R)-构型的结构式(Ia)的化合物的方法：

其中Ar为苯基，所述苯基未经取代或被独立地选自由氟、三氟甲基和三氟甲氧基组成的组的1至5个取代基取代；并且

R4为氢、或未经取代的或被1至5个氟取代的C1-4烷基；所述方法包括以下步骤：

在合适的反应条件下在氨基供体的存在下使结构式(IIa)的前手性酮：

与本文公开的工程化多肽接触。在用于制备式(Ia)的化合物的方法的一些实施方案中，Ar选自2,5-二氟苯基或2,4,5-三氟苯基，且R4是三氟甲基。

在用于制备结构式(Ia)的化合物的方法的一些实施方案中，式(IIa)的化合物特别地不包含化合物(2)并且通过该方法制备的式(Ia)的化合物特别地不包含化合物(1)。

在一些实施方案中，本公开内容提供了制备化合物(1)的方法：

，所述方法包括在合适的反应条件下在氨基供体的存在下使化合物(2)的底物：

与本文公开的工程化多肽接触。

在一些实施方案中，本公开内容还提供了制备化合物(3)吉格列汀的方法：

，所述方法包括在合适的反应条件下在氨基供体的存在下使化合物(4)的底物或用保护基团修饰的化合物(4)的底物：

与本文公开的工程化多肽接触。

在一些实施方案中，使用本文公开的工程化多肽的方法可被执行，其中式(I)的手性胺化合物、式(Ia)的化合物、化合物(1)、或化合物(3)以至少90％、97％、98％、99％或更大的对映体过量产生。

如本文公开的使用工程化多肽用于制备式(I)的化合物、式(Ia)的化合物、化合物(1)、或化合物(3)的方法中的任一种可在一系列合适的反应条件下被执行，所述一系列合适的反应条件包括但不限于氨基供体、pH、温度、缓冲液、溶剂系统、底物载量、多肽载量、辅因子载量、压力和反应时间的范围。例如，在一些实施方案中，制备式(I)的化合物、式(Ia)的化合物、化合物(1)、或化合物(3)可被执行，其中合适的反应条件包括：(a)约10g/L至200g/L底物化合物(例如，化合物(2))的底物载量；(b)约0.5g/L至5g/L工程化多肽；(c)约0.1M至3M的IPM浓度；(d)约0.1mM至1mM的PLP辅因子浓度；(e)约30％(v/v)至约60％(v/v)的DMSO浓度；(f)约9.5至11.5的pH；和(g)约45℃至60℃的温度。在一些实施方案中，合适的反应条件包括：(a)约50g/L的底物化合物(例如，化合物(2))；(b)约2g/L工程化多肽；(c)约50％(v/v)的二甲基亚砜(DMSO)；(d)约1M的异丙胺(IPM)；(e)约1mM的磷酸吡哆醛(PLP)；(f)约pH 10；和(g)约50℃。

在一些实施方案中，使用本文公开的工程化多肽的方法可被执行，其中氨基供体选自异丙胺、丙氨酸、3-氨基丁酸或甲基苄基胺。在一些实施方案中，氨基供体是异丙胺。

在一些实施方案中，使用本文公开的工程化多肽的方法可被执行，其中所述方法还包括从反应分离式(I)、式(Ia)的产物化合物、化合物(1)、或化合物(3)的步骤。

在一些实施方案中，使用本文公开的工程化多肽的方法可被执行，其中所述方法还包括将式(I)的化合物、式(Ia)的化合物、化合物(1)或化合物(3)转化成药学上可接受的盐的步骤。在一些实施方案中，形成药学上可接受的盐的方法包括在合适的反应溶剂中使所述化合物与药学上可接受的酸接触的另外的步骤。在所述方法的一些实施方案中，药学上可接受的酸是磷酸且所述药学上可接受的盐是磷酸二氢盐。在一些实施方案中，所述方法还可包括从反应溶剂结晶药学上可接受的盐的步骤。

如以上提到的，化合物(1)是

中的活性药物成分西他列汀。相应地，本文公开的使用工程化多肽制备化合物(1)和/或其药学上可接受的盐或酸的方法可在用于产生

或相关药物化合物的较大的方法中使用。在一些实施方案中，本公开内容还提供了用于制备(2R)-4-氧-4-[3-(三氟甲基)-5,6-二氢[1,2,4]三氮唑[4,3-a]吡嗪-7(8H)-基]-1-(2,4,5-三氟苯基)丁-2-胺磷酸(1:1)一水合物的方法，其中所述方法包括通过在合适的反应条件下在氨基供体的存在下使化合物(2)的底物与本文公开的工程化多肽接触来将底物化合物(2)转化成产物化合物(1)的步骤。

相似地，本公开内容提供了用于制备化合物(3)或化合物(3)的药学上可接受的盐或酸的方法，其中所述方法包括通过在合适的反应条件下在氨基供体的存在下使化合物(4)的底物或用保护基团修饰的化合物(4)的底物与如本文公开的工程化多肽接触，来将底物化合物(4)或用保护基团修饰的化合物(4)的底物转化成产物化合物(3)的步骤。

在一些实施方案中，氨基供体为异丙胺，任选地浓度为约0.1M至约3.0M、0.2M至约2.5M、约0.5M至约2M或约1M至约2M。在一些实施方案中，合适的反应条件包括从约pH 9.5至约pH 11.5的pH。在一些实施方案中，合适的反应条件包括约45℃至约60℃的温度。在一些实施方案中，合适的反应条件包括约30％(v/v)至约60％(v/v)的二甲基亚砜(DMSO)。在一些实施方案中，合适的反应条件包括约5g/L至约200g/L、约10g/L至约150g/L、或约50g/L至约100g/L的载量的底物化合物。在一些实施方案中，合适的反应条件包括约0.5g/L至约5g/L、约0.5g/L至约3g/L、约0.5g/L至约2g/L、或约0.5g/L至约1g/L的浓度的所述工程化多肽。

在以下的更详细的描述和实施例中进一步描述了关于工程化多肽的选择、其制备、底物的选择、和用于执行所述方法的参数的进一步指导。

具体实施方式

除非上下文另外清楚地指明，否则如在该说明书和所附权利要求书中使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数的指代对象。因此，例如，提及“多肽”包括多于一种多肽。

类似地，“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“包括(include)”、“包括(includes)”、“包括(including)”、“具有(have)”和“具有(having)”可互换使用并且不意图是限制性的。

要理解，当各种实施方案的描述使用术语“包含(comprising)”时，本领域技术人员将理解，在一些具体情况下，可选地，可以使用语言“基本由...组成”或“由...组成”来描述实施方案。

还要理解，前述一般描述，包括附图和随后详述，都仅是示例性和解释性的，并且不是限制本公开内容。

本文使用的章节标题仅出于组织目的，而不被解释为限制所描述的主题。

缩写

用于遗传编码的氨基酸的缩写是常规的并如以下：

在使用三字母缩写时，除非前面明确加有“L”或“D”，或从使用缩写的上下文明显，否则氨基酸可为关于α-碳(C_α)的L-构型或D-构型。例如，“Ala”表示丙氨酸而没有规定关于α-碳的构型，而“D-Ala”和“L-Ala”分别表示D-丙氨酸和L-丙氨酸。使用单字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸，“a”表示D-丙氨酸。当多肽序列作为单字母或三字母缩写(或其混合物)的串呈现时，根据常规序列以氨基(N)向羧基(C)的方向呈现。

用于遗传编码核苷的缩写是常规的且如下：腺苷(A)；鸟苷(G)；胞苷(C)；胸苷(T)；和尿苷(U)。除非特定地描述，缩写的核苷可以是核糖核苷或2’-脱氧核糖核苷。核苷可以在个体基础上或在聚集体基础上被指定为核糖核苷或2’-脱氧核糖核苷。当核酸序列作为单字母缩写串呈现时，根据常规序列以5’向3’的方向呈现，且不显示磷酸。

定义

关于本公开内容，除非另外明确定义，否则本文说明书中使用的技术术语和科学术语具有本领域普通技术人员通常理解的含义。相应地，以下术语意图具有以下含义。

“蛋白”、“多肽”和“肽”在本文可互换使用，表示由酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(如，糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等等)。该定义包括D-氨基酸和L-氨基酸、以及D-氨基酸和L-氨基酸的混合物。

“转氨酶”或“氨基转移酶”在本文可互换地使用来指具有将氨基(-NH₂)、一对电子和质子从氨基供体化合物的伯胺转移至氨基受体化合物的羰基(C＝O)，从而将氨基供体化合物转化成其相应的羰基化合物并将羰基受体化合物转化成其相应的伯胺化合物的酶促能力的多肽(参见例如，方案1)。如本文所用的转氨酶包括天然存在的(野生型)转氨酶以及由人处理产生的非天然存在的工程化多肽。

“氨基供体(amino group donor)”或“氨基供体(amino donor)”在本文可互换地使用来指能够向受体羰基化合物(即氨基受体)供应氨基，从而变成羰基副产物的包含氨基的化合物。氨基供体具有一般性结构式，

其中R¹、R²的每一个独立地使用时是烷基、烷芳基或芳基，其是未经取代或被一个或多个非酶促抑制性基团取代的。R¹的结构或手性可与R²相同或不同。基团R¹和R²可一起形成环，该环未经取代、被取代、或与其他环稠合。典型的氨基供体包括手性和非手性氨基酸、以及手性和非手性胺。

“手性胺”指通式R^α-CH(NH₂)-R^β的胺且以其最广泛的意义在本文使用，包括多种不同和混合的官能类型的脂肪族和脂环化合物，特征在于与仲碳原子结合的伯氨基的存在，该仲碳原子除了氢原子之外，还携带(i)形成手性环状结构的二价基团，或(ii)在结构或手性上互相不同的两种取代基(除了氢之外)。形成手性环状结构的二价基团包括，例如，2-甲基丁烷-1,4-二基、戊烷-1,4-二基、己烷-1,4-二基、己烷-1,5-二基、2-甲基戊烷-1,5-二基。仲碳原子上的两个不同取代基(以上R^α和R^β)还可广泛地变化，并包括烷基、芳烷基、芳基、卤素、羟基、低级烷基、低级烷氧基、低级烷基硫、环烷基、羧基、烷氧羰基、氨基甲酰基、单-和二-(低级烷基)取代的氨基甲酰基、三氟甲基、苯基、硝基、氨基、单-和二-(低级烷基)取代的氨基、烷基磺酰基、芳基磺酰基、烷基甲酰胺基、芳基甲酰胺基等等，以及被以上取代的烷基、芳烷基或芳基。

“羰基副产物”是指转氨基反应中，氨基供体上的氨基转移到氨基受体时从氨基供体形成的羰基化合物。羰基副产物具有一般结构式，

其中R¹和R²为以上对氨基供体定义的。

“氨基受体”和“胺受体”、“酮底物”在本文可互换地使用来指在由转氨酶介导的反应中从氨基供体接受氨基的包含羰基的化合物(参见例如方案1)。在本公开内容的上下文中，转氨酶的氨基受体化合物除了其他以外可包括如本文进一步描述的式(II)化合物、式(IIa)的化合物、化合物(2)和化合物(4)。

如本文使用的“辅因子”指在催化反应中与酶联合起作用的非蛋白化合物。如本文使用的，“辅因子”意图包括维生素B₆家族化合物PLP、PN、PL、PM、PNP和PMP，其有时也被称作辅酶。

“磷酸吡哆醛”、“PLP”、“吡哆醛5’-磷酸”、“PYP”和“P5P”在本文可互换地使用，来指在转氨酶反应中用作辅因子的化合物。在一些实施方案中，吡哆醛磷酸由结构1-(4'-甲酰基-3'-羟基-2'-甲基-5'-吡啶基)甲氧基膦酸定义，CAS编号是[54-47-7]。吡哆醛5’-磷酸可在体内由吡哆醇(也称为维生素B6)的磷酸化和氧化生成。在使用转氨酶的转氨基反应中，氨基供体的胺基团被转移到辅因子以产生酮副产物，同时吡哆醛-5’-磷酸被转化成磷酸吡哆胺。吡哆醛-5’-磷酸通过与不同的酮化合物(氨基受体)反应而再生。胺基团从磷酸吡哆胺转移到氨基受体产生胺并再生辅因子。在一些实施方案中，吡哆醛-5’-磷酸可以由维生素B₆家族的其它成员代替，包括吡哆辛(PN)、吡哆醛(PL)、吡哆胺(PM)，和它们的磷酸化的对应物；磷酸吡哆醇(PNP)，和磷酸吡哆胺(PMP)。

“编码序列”指编码蛋白的氨基酸序列的核酸部分(例如，基因)。

“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中、可分离自自然界中的来源且未通过人工操作有意地修饰的序列。

“重组的”或“工程化的”或“非天然存在的”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会另外存在的方式被改变，或与其相同但是从合成材料和/或通过使用重组技术操作而产生或获取。非限制性实例包括，除了其他以外，表达在细胞的天然形式(非重组的)中未发现的基因或以不同的水平另外表达天然基因的重组细胞。

“序列同一性百分比”和“同源性百分比”在本文可互换地用于指多核苷酸之间和多肽之间的对比，且通过在比较窗上比较两个最佳对齐的序列来确定，其中多核苷酸或多肽序列在比较窗中的部分与参照序列相比可包括添加或缺失(即，空位)，用于两个序列的最佳对齐。百分比可以通过如下计算：确定两个序列中出现相同的核酸碱基或氨基酸残基的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置总数并将结果乘以100以得到序列同一性百分比。可选地，该百分比可通过以下计算：确定相同核酸碱基或氨基酸残基在两个序列中都存在的位置数或核酸碱基或氨基酸残基与空位对齐的位置数以得到匹配位置数，将该匹配位置数除以比较窗中的位置总数，并将结果乘以100以得到序列同一性的百分比。本领域技术人员将认识到，存在许多可用于比对两个序列的建立的算法。用于比较的序列最佳比对可例如通过Smith和Waterman，1981，Adv.Appl.Math.2:482的局部同源性算法、通过Needleman和Wunsch，1970，J.Mol.Biol.48:443的同源性比对算法，通过Pearson和Lipman,1988,Proc.Natl.Acad.Sci.USA 85:2444的相似性搜索方法，通过这些算法的计算机实现(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA或TFASTA)或通过直观检查(一般参见，Current Protocols in Molecular Biology,F.M.Ausubel等编著，Current Protocols,Greene Publishing Associates Inc.和John Wiley&Sons,Inc.之间的合资企业,(1995年增刊)(Ausubel))。适宜于确定序列同一性和序列相似性百分比的算法的实例是BLAST和BLAST 2.0算法，它们分别描述于Altschul等人，1990，J.Mol.Biol.215:403-410和Altschul等,1977,Nucleic Acids Res.3389-3402中。用于执行BLAST分析的软件是通过美国国家生物技术信息中心(National Center forBiotechnology Information)网站公开可用的。该算法包括首先通过鉴定查询序列中长度W的短字来鉴定高评分序列对(HSP)，所述短字与数据库序列中相同长度的字比对时匹配或满足一些正值的阀值得分T。T被称作邻近字评分阈值(Altschul等，如上述)。这些初始相邻字命中担当用于启始搜索的种子来寻找包含它们的更长的HSP。字命中继而沿着每个序列向两个方向延伸到累积比对得分不能够增加的程度。对于核苷酸序列，累积得分使用参数M(对于匹配残基对的奖励得分；永远＞0)和N(对于错配残基的惩罚得分；永远＜0)计算。对于氨基酸序列，得分矩阵被用于计算累计得分。当以下情况时，每个方向中的字匹配字串的延伸被终止：累积比对得分从其最大达到值下降了量X；由于累积一个或多个负得分残基比对，累积得分达到0或以下；或到达任一序列末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(用于核苷酸序列)使用字长(W)11、期望值(E)10、M＝5、N＝-4以及两链的比较作为默认值。对于氨基酸序列，BLASTP程序使用以下作为缺省值：字长(W)为3，期望值(E)为10和BLOSUM62得分矩阵(见Henikoff和Henikoff,1989,Proc Natl Acad Sci USA89：10915)。序列比对和序列同一性％的示例性确定可使用GCG Wisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序，使用所提供的缺省参数。

“参考序列”是指用作序列比较的基础的限定序列。参考序列可以是较大序列的子集，例如，全长基因或多肽序列的片段。一般而言，参考序列为至少20个核苷酸或氨基酸残基长，至少25个残基长，至少50个残基长，或者核酸或多肽的全长。因为两种多核苷酸或多肽可以各自(1)包括在两种序列之间相似的序列(即，完整序列的一部分)，且(2)可以进一步包括在两种序列之间不同的序列，两种(或更多)多核苷酸或多肽之间的序列比较通常通过在“比较窗”内比较两种多核苷酸或多肽的序列来进行以鉴定和比较序列相似性的局部区域。在一些实施方案中，“参照序列”可以基于基本氨基酸序列，其中参照序列是可以在基本序列中具有一个或多个变化的序列。例如，“在对应于X9的残基处具有组氨酸的基于SEQID NO:2的参考序列”指其中在SEQ ID NO:2中的X9处相应的残基(是酪氨酸)已经改变成组氨酸的参考序列。

“比较窗”指至少约20个相邻核苷酸位置或者氨基酸残基的概念性片段，其中序列可以与至少20个相邻核苷酸或氨基酸的参考序列相比较，并且其中比较窗中的序列的部分可以包括与参考序列(其不包括添加或缺失)相比20％或更少的添加或缺失(即，空位)，用于两序列的最佳比对。比较窗可以长于20个相邻残基，并且包括任选地30、40、50、100或更长的窗。

在用于指定的氨基酸或多核苷酸序列的编号的情况下，"相应于"、"参考于"或"相对于"指当指定的氨基酸或多核苷酸序列与参考序列相比较时指定的参考序列残基的编号。换言之，给定聚合物的残基编号或残基位置是根据参考序列指定的，而不是给定氨基酸或多核苷酸序列内的残基的实际数字位置指定的。例如，可以将给定的氨基酸序列诸如工程化转氨酶的氨基酸序列与参考序列进行比对，这是通过引入空位以优化这两条序列之间的残基匹配而实现的。在这些情况下，虽然存在空位，但是给定氨基酸或多核苷酸序列中的残基编号相对于已与其比对的参考序列制定。

“氨基酸差异”或“残基差异”指在多肽序列的一个位置处氨基酸残基相对于参考序列中相应位置处的氨基酸残基的差异。本文中氨基酸差异的位置一般被称为“Xn”，其中n指残基差异基于其的参考序列中的相应位置。例如，“与SEQ ID NO:2相比在位置X12处的残基差异”指在相应于SEQ ID NO:2的位置12的多肽位置处的氨基酸残基的差异。因此，如果SEQ ID NO:2的参考多肽在位置12处具有酪氨酸，那么“与SEQ ID NO:2相比在位置X12处的残基差异”是指在相应于SEQ ID NO:2的位置12的多肽位置处除了酪氨酸之外的任何残基的氨基酸取代。在本文的大多数实例中，在一个位置处的特定氨基酸残基差异表示为“XnY”，其中“Xn”指如以上描述的对应位置，并且“Y”为在工程化多肽中发现的氨基酸的一字母标识符(即，与参考多肽中的不同的残基)。在一些实例中(例如，在表2A、2B和2C中)，本公开内容还提供由常规符号“AnB”表示的特定氨基酸差异，其中A为参考序列中的残基的一字母标识符，“n”为在参考序列中的残基位置的编号，并且B为工程化多肽的序列中残基取代的单字母标识符。在一些实例中，本公开内容的多肽可包含相对于参考序列的一个或更多个氨基酸残基差异，其通过相对于参考序列存在残基差异处的特定位置的列表表示。在一些实施方案中，当多于一个氨基酸可被用于多肽的特定残基位置时，可使用的多个氨基酸残基通过“/”分隔开(例如，X192A/X192G)。本公开内容包括工程化多肽序列，所述工程化多肽序列包含一个或更多个氨基酸差异，所述一个或更多个氨基酸差异包含保守和非保守氨基酸取代之一或两者。

“保守氨基酸取代”是指用具有相似侧链的不同残基来取代一个残基，并因此通常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。例如但不限于，具有脂肪族侧链的氨基酸可以用另一种脂肪族氨基酸例如丙氨酸、缬氨酸、亮氨酸和异亮氨酸取代；具有羟基侧链的氨基酸用另一种具有羟基侧链的氨基酸例如丝氨酸和苏氨酸取代；具有芳香族侧链的氨基酸用另一种具有芳香族侧链的氨基酸例如苯丙氨酸、酪氨酸、色氨酸和组氨酸取代；具有碱性侧链的氨基酸用另一种具有碱性侧链的氨基酸例如赖氨酸和精氨酸取代；具有酸性侧链的氨基酸用另一种具有酸性侧链的氨基酸例如天冬氨酸或谷氨酸取代；并且疏水性氨基酸或亲水性氨基酸分别用另一种疏水性氨基酸或亲水性氨基酸取代。示例性的保守取代在以下表1提供：

表1

“非保守取代”是指用具有显著不同的侧链特性的氨基酸取代多肽中的氨基酸。非保守取代可以利用限定组之间而不是它们之内的氨基酸，并且影响：(a)取代区域(例如，脯氨酸取代甘氨酸)中的肽骨架的结构，(b)电荷或疏水性，或(c)侧链体积。例如但不限于，示例性非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸；用小氨基酸取代芳香族氨基酸；和用疏水性氨基酸取代亲水性氨基酸。

“缺失”指通过从参考多肽去除一个或更多个氨基酸而对多肽的修饰。缺失可以包括除去1个或多个、2个或多个氨基酸，5个或多个氨基酸，10个或多个氨基酸，15个或多个氨基酸，或20个或多个氨基酸，多达组成参照酶的氨基酸总数的10％，或多达组成参照酶的氨基酸总数的20％，同时保留工程化转氨酶的酶活性和/或保留工程化转氨酶的改进的性质。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中，缺失可以包括连续的区段或者可以是不连续的。

"插入"指通过从参考多肽添加一个或多个氨基酸的多肽的修饰。在一些实施方案中，改进的工程化转氨酶包括一个或更多个氨基酸插入天然存在的转氨酶多肽，以及一个或更多个氨基酸插入其他改进的转氨酶多肽。可在多肽的内部部分插入，或插入到羧基或氨基末端。如本文所用的，插入包括本领域中已知的融合蛋白。插入可以是氨基酸的连续区段，或者被在天然存在的多肽中一个或更多个氨基酸分隔。

如本文所用的"片段"指具有氨基末端和/或羧基末端缺失、但是其中保留的氨基酸序列与序列中相应的位置相同的多肽。片段可以为至少14个氨基酸长、至少20个氨基酸长，至少50个氨基酸长或更长，以及高达全长转氨酶多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上与其天然伴随的其他污染物例如蛋白、脂质和多核苷酸分离。该术语包括已从其天然存在的环境或表达系统(例如，宿主细胞或体外合成中)移去或纯化的多肽。改进的转氨酶可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如裂解物或分离的制备物。像这样，在一些实施方案中，改进的转氨酶可以是分离的多肽。

“基本上纯的多肽”指以下的组合物，其中多肽物类是存在的占优势的物类(即，在摩尔或重量基础上其比组合物中的任何其它个体大分子物类更丰富)，并且当按摩尔或％重量计目标物类占存在的大分子物类的至少约50％时通常是基本上纯的组合物。一般而言，基本上纯的转氨酶组合物将构成该组合物中存在的所有大分子物类的按摩尔或重量％计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，目标物类被纯化至基本上同质(即，污染物物类通过常规检测方法不能在组合物中被检测到)，其中组合物基本上由单一的大分子物类组成。溶剂物类、小分子(<500道尔顿)和元素离子物类不认为是大分子物类。在一些实施方案中，分离的改进的转氨酶多肽是基本上纯的多肽组合物。

"立体选择性"指在化学或酶促反应中一种立体异构体相对于另一种的优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种异构体，或可以是完全的，其中仅形成一种立体异构体。当立体异构体是对映异构体时，立体选择性被称为对映异构体选择性，即一种对映异构体在两种对映异构体之和中的分数(通常被报告为百分比)。在本领域内该分数(典型地为百分比)通常可选择地报道为根据下式从中计算的对映异构体过量(e.e.)：[主要对映异构体–次要对映异构体]/[主要对映异构体+次要对映异构体]。当立体异构体是非对映异构体时，立体选择性被称为非对映异构体选择性，即一种非对映异构体在两种非对映异构体的混合物之中的分数(通常被报告为百分比)，通常被可选地报告为非对映异构体过量(d.e.)。在混合物包含多于两种非对映异构体的情况下，通常报告非对映异构体的比率或“非对映异构体比率”而不是非对映异构体过量。对映异构体过量和非对映异构体过量是立体异构体过量的类型。“高立体选择性”指能够以至少约85％的立体异构体过量将底物转化成相应的手性胺产物的转氨酶多肽。

“改进的酶性质”指与参考转氨酶相比显示任何酶性质的改进的转氨酶多肽，所述参考转氨酶诸如野生型转氨酶或另一种改进的工程化转氨酶。期望改进的酶性质包括，但不限于，酶活性(其可以底物的转化百分比的方式被表示)、热稳定性、溶剂稳定性、pH活性特征、辅因子需求、对抑制物的耐受性(例如，底物或产物抑制)、立体特异性和立体选择性(包括对映体选择性)。

“增强的酶活性”指工程转氨酶多肽的改进的性质，其可以被表示为与参照转氨酶相比，比活性(例如产生的产物/时间/重量蛋白)的增强或底物向产物的转化百分比(例如在指定的时间段使用指定量的转氨酶，起始量的底物向产物的转化百分比)的增加。在实施例中提供确定酶活性的示例性方法。任何有关酶活性的性质可被影响，包括经典酶性质K_m、V_max或k_cat，其改变可导致提高的酶活性。酶活性的改进可以是相应的野生型转氨酶的酶活性的从约1.2倍，至多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更多倍于天然地存在的转氨酶或从其衍生所述转氨酶多肽的另外的工程化的转氨酶的酶活性。在特定的实施方案中，工程化转氨酶表现出1.5至50倍、1.5至100倍或更大于母体转氨酶活性的范围内的改进的酶活性。转氨酶活性可以通过标准测定的任何一个测定，如通过监测反应物或产物的光谱光度测量性质中的变化。在一些实施方案中，产生的产物的量可以通过以下测量：高效液相色谱法(HPLC)分离结合UV吸光度或o-酞二醛(OPA)衍生化后的荧光检测。使用限定的酶制品、在设置条件下的确定的测定以及一种或多种确定的底物，进行酶活性的比较，如本文进一步详述的。通常，当比较裂解产物时，确定细胞数和测定的蛋白的量，并使用相同的表达系统和相同的宿主细胞以将宿主细胞产生的和裂解产物中存在的酶的量的差异最小化。

“转化”指底物向相应的产物的酶转化。“转化百分比”是指在指定条件下在一段时间内被转化为产物的底物的百分比。因此，转氨酶多肽的“酶活性”或“活性”可以被表示为底物向产物的“转化百分比”。

“热稳定的”指与野生型酶相比转氨酶多肽在暴露于升高的温度(例如40-80℃)持续一段时间(例如0.5-24小时)之后维持相似活性(例如多于60％至80％)。

“溶剂稳定的”指与野生型酶相比转氨酶多肽在暴露于不同浓度(例如5-99％)的溶剂(乙醇、异丙醇、二甲基亚砜(DMSO)、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)持续一段时间(例如0.5-24小时)之后维持相似的活性(多于例如60％至80％)。

"杂交严格性"指在核酸杂交中的杂交条件，诸如清洗条件。通常，杂交反应在低严格性的条件下进行，随后是不同的但更高严格性的洗涤。术语“中度地严格杂交”指允许靶-DNA结合以下互补的核酸的条件，所述互补的核酸与靶DNA具有约60％的同一性，优选地约75％的同一性，约85％的同一性，与靶-多核苷酸大于约90％的同一性。示例性中度严格条件是等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中杂交，接着在42℃于0.2×SSPE、0.2％SDS中洗涤的条件。“高严格度杂交”一般是指如下条件：与对限定的多核苷酸序列在溶液条件下确定的热解链温度T_m相差约10℃或更小。在一些实施方案中，高度严格的条件指以下的条件，其仅允许那些在0.018M NaCl中在65℃形成稳定的杂交体的核酸序列的杂交(即，如果杂交体在0.018M NaCl中在65℃是不稳定的，其将在高度严格的条件下是不稳定的，如本文所考虑)。可提供高严格度条件，例如通过在等同于在42℃下50％甲酰胺、5x Denhart's溶液、5x SSPE、0.2％SDS的条件下杂交，之后在65℃下0.1xSSPE和0.1％SDS中洗涤。另一高严格度条件是在等同于以下的条件中杂交：在65℃下于包含0.1％(w:v)SDS的5X SSC中杂交并在65℃下于包含0.1％SDS的0.1x SSC中洗涤。其它高严格度杂交条件，以及中度严格条件描述在以上引用的参考文献中中。

“密码子优化的”是指将编码蛋白质的多核苷酸的密码子改变为特定生物体中优先使用的那些密码子，以致所编码的蛋白被更有效表达在感兴趣的生物体中。尽管基因遗传密码具简并性，即大多数氨基酸由称为"同义"("synonyms")或"同义"("synonymous")密码子的几个密码子代表，但是众所周知，特定生物体的密码子使用是非随机的和对于特定的密码子三联体有偏好的。对于给定的基因、共同功能或祖先来源的基因、高表达的蛋白对比低拷贝数蛋白和生物体基因组的聚集蛋白质编码区，该密码子使用偏好性可能更高。在一些实施方案中，可以对编码转氨酶的多核苷酸进行密码子优化，以用于从为表达所选的宿主生物体中优化生产。

本文中“控制序列”指包括对本公开内容的多核苷酸和/或多肽的表达必要或有利的所有组分。对于编码多肽的核酸序列，每个控制序列可以是天然的或外来的。此类控制序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。控制序列至少包括启动子、以及转录终止信号和翻译终止信号。控制序列可与连接子一起被提供，以用于导入促进控制序列与编码多肽的核酸序列的编码区的连接的特定限制性位点的目的。

“可操作地连接”在本文定义为如下一种配置：在所述配置中控制序列适当安放(即，以功能关系)在相对于感兴趣的多核苷酸的位置，使得控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达。

“启动子序列”指被宿主细胞识别用于目标多核苷酸如编码序列的表达的核酸序列。启动子序列包含介导目标多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变的、截短的和杂合的启动子，并且可以从编码细胞外多肽或细胞内多肽的、与该宿主细胞同源或异源的基因中获得。

“烷基”指直链的或支链的从1至18个碳原子、特别地从1至8个碳原子、和更特别地1至6个碳原子的基团。具有指定数目的碳原子的烷基在括号中表示，例如，(C1-C4)烷基指1至4个碳原子的烷基。

“烯基”指直链的或支链的包含至少一个双键但任选地包含多于一个双键的从2至12个碳原子的基团。

“炔基”指直链的或支链的包含至少一个三键但任选地包含多于一个三键，并且任选地包含一个或更多个双键部分的从2至12个碳原子的基团。

“芳基”指具有单个环(例如，苯基)或多元的稠合环(例如，萘基或蒽基)的从5至14个碳原子的不饱和芳香族碳环基团。对于多元的稠合环，环中的至少一个是芳香族的。代表性芳基包括苯基、吡啶基、萘基等。

“芳烷基”指用芳基部分取代的烷基。代表性芳烷基包括苄基、苯乙基等。

“芳烯基”指用芳基取代的如本文限定的烯基。

“芳炔基”指用芳基取代的如本文限定的炔基。

“杂芳基”指在环内包含选自氧、氮和硫的1至4个环杂原子的5至14个环原子的芳香族杂环基团。杂芳基可具有单个环(例如吡啶基或呋喃基)或多元的稠合环(例如吲哚嗪基或苯并噻吩基)。对于多元的稠合环，环中的至少一个是芳香族的。

“杂芳基烷基”指用如本文定义的杂芳基部分取代的烷基。

“杂芳基烯基”指用如本文定义的杂芳基取代的烯基。

“杂芳基炔基”指用如本文定义的杂芳基部分取代的炔基。

“环烷基”指具有单个环或多元的稠合环的从3至12个碳原子的环状烷基。代表性环烷基包括例如单个环结构诸如环丙基、环丁基、环戊基、环辛基、1-甲基环丙基、2-甲基环戊基、2-甲基环辛基等，或包括桥环系统的多元环结构，诸如金刚烷基等。

“杂环”和可互换的“杂环烷基”指具有从3至14个环原子的单个环或多元的稠合环的饱和或不饱和的基团，所述单个环或多元的稠合环在环内具有选自氮、硫或氧的1至4个杂原子。杂环基团可具有单个环(例如哌啶基或四氢呋喃基)或多元的稠环(例如二氢吲哚基、二氢苯并呋喃或奎宁环基)。代表性杂环和杂芳基包括但不限于呋喃、噻吩、噻唑、噁唑、吡咯、咪唑、吡唑、吡啶、吡嗪、嘧啶、哒嗪、吲哚嗪、异吲哚、吲哚、吲唑、嘌呤、喹嗪、异喹啉、喹啉、酞嗪、萘基吡啶、喹喔啉、喹唑啉、噌啉、喋啶、咔唑、咔啉、菲啶、吖啶、菲咯啉、异噻唑、吩嗪、异噁唑、吩噁嗪、吩噻嗪、咪唑啉啶、咪唑啉、哌啶、哌嗪、吡咯烷、吲哚啉等。

“环烷基烷基”指用如本文定义的环烷基部分取代的烷基。

“环烷基烯基”指用如本文定义的环烷基部分取代的烯基。

“环烷基炔基”指用如本文定义的环烷基部分取代的炔基。

“杂环烷基烷基”指用如本文定义的杂环烷基部分取代的烷基。

“杂环烷基烯基”指用如本文定义的杂环烷基部分取代的烯基。

“杂环烷基炔基”指用如本文定义的杂环烷基部分取代的炔基。

“烷氧基”或“烷基氧基”指基团烷基-O-，其中烷基为如以上定义的，包括同样如以上定义的任选地取代的烷基。

“氨基”指基团-NH₂。取代的氨基指基团–NHR’、NR’R’和NR’R’R’，其中每个R’独立于其他地选自取代的或未取代的烷基、环烷基、杂环烷基、环烷基烷基、杂环烷基烷基、烷氧基、芳基、杂芳基、芳基烷基、杂芳基烷基、酰基、烷氧基羰基、硫烷基、亚硫酰基、磺酰基等。典型的氨基包括但不限于二甲基氨基、二乙基氨基、三甲基铵、三乙基铵、甲基磺酰基氨基、呋喃基-氧基-磺氨基和类似物。

“羧基”指-COOH。

“羰基”指-C(O)-，其可具有多个取代基以形成不同的羰基，包括酸、酰基卤、醛、酰胺、酯和酮。

“羟基”指-OH。

“氰基”指-CN。

“卤素(halogen)”或“卤素(halo)”指氟代、氯代、溴代和碘代。

“磺酰基”指–SO₂-。取代的磺酰基指–SO₂R’，其中R’为如以下描述的合适的取代基。

诸如在稠合的芳基或稠合的杂芳基中的“稠合的”或“稠合环”指连接的两个或更多个环以使得它们通常具有至少2个环原子。稠合的芳基指其中至少一个环为芳基的稠合环。稠合的杂芳基指其中至少一个环为杂芳基的稠合环。

除非另外规定，“取代的”指在前述基团中被氢占据的位置用以下取代基取代，例如但不限于：羟基、氧代、硝基、甲氧基、乙氧基、烷氧基、取代的烷氧基、三氟甲氧基、卤代烷氧基、氟代、氯代、溴代、碘代、卤代、甲基、乙基、丙基、丁基、烷基、烯基、炔基、取代的烷基、三氟甲基、卤代烷基、羟烷基、烷氧基烷基、硫基、烷硫基、酰基、羧基、烷氧基羰基、羧基酰氨基(carboxamido)、取代的羧基酰氨基、烷基磺酰基、烷基亚磺酰基、烷基磺酰基氨基、磺酰基酰氨基、取代的磺酰基酰氨基、氰基、氨基、取代的氨基、烷基氨基、二烷基氨基、氨基烷基、酰氨基、脒基、酰氨基脒基、羟基酰胺基(hydroxamoyl)、苯基、芳基、取代的芳基、芳基氧基、芳基烷基、芳烯基、芳炔基、吡啶基、咪唑基、杂芳基、取代的杂芳基、杂芳基氧基、杂芳基烷基、杂芳基烯基、杂芳基炔基、环丙基、环丁基、环戊基、环己基、环烷基、环烯基、环烷基烷基、取代的环烷基、环烷基氧基、吡咯烷基、哌啶基、吗啉代、杂环基、(杂环基)氧基和(杂环基)烷基；并且优选的杂原子为氧、氮和硫。要理解，当开放(open)的价存在于这些取代基上时，其可用烷基、环烷基、芳基、杂芳基和/或杂环基进一步取代，当这些开放的价存在于碳上时，其可被卤素以及被结合氧、氮、或硫的取代基进一步取代，并且当多个此类开放的价存在时，这些基团可通过直接形成键或通过与新杂原子形成键而被连接形成环，所述新杂原子优选地为氧、氮或硫。还要理解，可进行以上取代的条件是，用取代基替代氢不向本发明的分子引入不可接受的不稳定性，并且在其他方面是化学上合理的。

“任选的”或“任选地”意思是，随后地描述的事件或情况可发生或可不发生，并且该描述包括其中所述事件或情况发生的实例和其中该事件或情况不发生的实例。本领域普通技术人员会理解，对于被描述为包含一个或更多个任选的取代基的任何分子，只有空间上实用的和/或合成上可行的化合物意图被包括。“任选地取代的”指在化学基团的术语或系列中所有随后的修饰语。例如，在术语“任选地取代的芳基烷基”中，分子的“烷基”部分和“芳基”部分可被或可不被取代，并且对于系列“任选地取代的烷基、环烷基、芳基和杂芳基”，该烷基、环烷基、芳基和杂芳基彼此独立地可被或可不被取代。

“保护基团”指当连接至分子中的反应官能团时掩蔽、降低或阻止官能团的反应性的一组原子。通常，保护基团可以在合成过程期间如期望的被选择性地移除。在Wuts和Greene,“Greene’s Protective Groups in Organic Synthesis,”第4版,WileyInterscience(2006),以及Harrison等人,Compendium of Synthetic Organic Methods,1-8卷,1971-1996,John Wiley&Sons,NY中可找到保护基团的实例。可具有保护基团的官能团包括但不限于羟基、氨基和羧基。代表性的氨基保护基团包括但不限于甲酰基、乙酰基、三氟乙酰基、苄基、苄基氧基羰基(“CBZ”)、叔丁氧基羰基(“Boc”)、三甲基甲硅烷基(“TMS”)、2-三甲基甲硅烷基-乙烷磺酰基(“SES”)、三苯甲基和取代的三苯甲基、烯丙基氧基羰基、9-芴基甲氧基羰基(“FMOC”)、硝基-藜芦基氧基羰基(“NVOC”)等。代表性羟基保护基团包括但不限于其中羟基被酰化的那些(例如，甲基和乙基酯、乙酸酯或丙酸酯基团或二醇酯)或其中羟基被烷基化的那些，诸如苄基和三苯甲基醚，以及烷基醚、四氢吡喃基醚、三烷基甲硅烷基醚(例如，TMS或TIPPS基团)和烯丙基醚。其他保护基团可在本文描述的参考文献中找到。

“离去基团”通常指在化学反应中能被另一个原子或部分替代的任何原子或部分。更具体地，离去基团指被亲核体(例如，胺、硫醇、醇或氰化物)容易地替代和取代的原子或部分。此类离去基团是被熟知的并且包括羧酸盐、N-羟基丁二酰亚胺(“NHS”)、N-羟基苯并三唑、卤素(氟、氯、溴或碘)和烷氧基。离去基团的非限制性特征和实例例如在OrganicChemistry,第二版,Francis Carey(1992),328-331页；Introduction to OrganicChemistry,第二版,Andrew Streitwieser and Clayton Heathcock(1981),169-171页；和Organic Chemistry,第五版,John McMurry,Brooks/Cole Publishing(2000),398和408页中可发现；通过引用将其所有并入本文。

“合适的反应条件”指生物催化反应溶液中的那些条件(例如，酶载量、底物载量、辅因子载量、温度、pH、缓冲液、共溶剂等的范围)，在该条件下本公开内容的转氨酶多肽能将底物转化成期望的氨基产物化合物，例如将化合物(2)转化成化合物(1)。示例性“合适的反应条件”被提供于本公开内容并通过实施例例证。

诸如“化合物载量”或“酶载量”中的“载量”指在反应混合物中在反应起始时一成分的浓度或量。

在生物催化剂介导的方法的上下文中的“底物”指被生物催化剂作用的化合物或分子。例如，本文公开的方法中用于转氨酶生物催化剂的示例性底物为化合物(2)，其制备被描述于2008年2月5日授权的美国专利号7,326,708B2中。

在生物催化剂介导的方法的上下文中的“产物”指从生物催化剂的作用得到的化合物或分子。例如，在本文公开的方法中转氨酶生物催化剂的示例性产物为化合物(1)。

具有转氨酶活性的工程化多肽

本公开内容提供了具有转氨酶活性的工程化多肽(本文中也被称作“工程化转氨酶多肽”)，可用于结构式(II)的氨基受体底物化合物的选择性转氨作用(参见方案3)以产生结构式(I)的手性胺化合物，在一些实施方案中，结构式(I)的手性胺化合物可包括化合物(1)，活性药物成分西他列汀。相应地，在一方面，本公开内容涉及具有转氨酶活性，能如在方案2中显示的将底物化合物(2)转化成产物化合物(1)的工程化多肽。另外，本公开内容提供了编码工程化多肽的多核苷酸、包含所述多核苷酸的相关载体和宿主细胞、用于制备工程化多肽的方法、以及用于使用所述工程化多肽的方法，用于使用所述工程化多肽的所述方法包括合适的反应条件。

本公开内容的工程化多肽为非天然存在的转氨酶，所述转氨酶被工程化为与节杆菌属种KNK168的野生型转氨酶多肽(基因登录号BAK39753.1，GI:336088341)相比，并且还与SEQ ID NO:2的参考工程化转氨酶多肽相比具有改进的酶特性(诸如增加的立体选择性)，SEQ ID NO:2的参考工程化转氨酶多肽被用作起始骨架序列用于本公开内容的工程化多肽的定向进化。SEQ ID NO:2的参考工程化转氨酶多肽相对于节杆菌属种KNK168的野生型转氨酶具有以下28个氨基酸差异：S8P、Y60F、L61Y、H62T、V65A、V69T、D81G、M94I、I96L、F122M、S124T、S126T、G136F、Y150S、V152C、A169L、V199I、A209L、G215C、G217N、S223P、L269P、L273Y、T282S、A284G、P297S、I306V和S321P。

本公开内容的工程化转氨酶多肽通过SEQ ID NO:2的定向进化生成，用于在某些工业上的相关条件下有效将化合物(2)转化成化合物(1)，并且与SEQ ID NO:2的参考工程化转氨酶多肽相比具有一个或更多个残基差异。这些残基差异与多种酶特性上的改进，特别是增加的活性、增加的立体选择性、增加的稳定性、和对增加的底物和/或产物浓度的耐受有关(例如，减少的产物抑制)。相应地，在一些实施方案中，具有转氨酶活性的工程化多肽能在合适的反应条件下以相对于SEQ ID NO:2的参考多肽的活性增加至少约1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、100倍、200倍、500倍、1000倍或更多倍的活性将底物化合物(2)转化成化合物(1)。在一些实施方案中，具有转氨酶活性的工程化多肽能在合适的反应条件下在约48h、约36h、约24h、或甚至更短的时间长度的反应时间内以至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、或至少约90％、至少约95％、至少约98％、至少约99％的转化百分比将化合物(2)的底物转化成化合物(1)。在一些实施方案中，具有转氨酶活性的工程化多肽能在合适的反应条件下以至少90％、95％、97％、98％、99％或更大的对映异构体过量将化合物(2)转化成化合物(1)。

本公开内容提供了很多示例性工程化转氨酶多肽，所述示例性工程化转氨酶多肽包含偶数序列标识符SEQ ID NO:4-306的氨基酸序列。这些示例性工程化转氨酶多肽包含这样的氨基酸序列：包含与SEQ ID NO:2相比与其改进的将化合物(2)转化成化合物(1)的特性相关的以下残基差异中的一个或更多个：(a)X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R；和/或(b)与SEQ ID NO:2相比选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

在一些情况中，示例性工程化多肽具有还包含与SEQ ID NO:2相比选自以下的一个或更多个残基差异的氨基酸序列：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M、X328I和C215G。在一些情况中，示例性工程化多肽具有还包含与SEQ ID NO:2相比选自以下的一个或更多个残基差异的氨基酸序列：G36C、I41C、I41F、I41K、I41M、I41N、I41R、E42G、P48D、P48E、P48G、P48K、P48T、A51K、S54P、M122F、M122Q、Y148Q、C152T、Q155A、Q155I、Q155K、Q155T、Q155V、C215H、C215L、Y273H、L325M和A241R；或(b)选自以下的残基差异的组合：A5K、E42G、S49T、S54P、C152S、Q155T和W156Q；P33L、I41C、E42G、S54P、S150F、C152S、Q155K、F160P和C215G；P33L、I41K、E42G、S54P、S150F、C152S、Q155I、F160P和C215L；P33L、E42G、P48G、S54P、S150F、C152S、Q155T和C215H；P33L、E42G、S54P、A109S、S150F、C152S、Q155K、W156Q和C215H；P33L、E42G、S54P、E117G、S150F、C152S、Q155I、W156Q和C215G；P33L、E42G、S54P、S150F、C152S、Q155I、W156Q和C215G；P33L、E42G、S54P、S150F、C152S、Q155K、W156Q和C215H；P33L、E42G、S54P、S150F、C152S、Q155L、W156Q和C215H；P33L、E42G、S54P、S150F、C152S、Q155L、W156Q、C215H和A241R；G36C、E42G、P48G、S54P、S150F、C152S、Q155I和C215H；G36C、E42G、P48K、S54P、S150F、C152S、Q155T和C215H；G36C、E42G、S54P、S150F、C152S、Q155I、C215H和A241R；G36C、E42G、S54P、S150F、C152S、Q155K、C215H和A241R；G36C、E42G、S54P、S150F、C152S、Q155T和A241R；G36C、E42G、S54P、S150F、C152S、Q155V和C215H；I41C、E42G、S49T、S54P、S150F、C152S、Q155I、F160P、C215G和I267V；I41C、E42G、S49T、S54P、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、I108V、S150F、C152S和Q155K；I41C、E42G、S54P、I108V、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、I108V、S150F、C152S、Q155T、W156Q和C215G；I41C、E42G、S54P、E117G、S150F、C152S、Q155K和F160P；I41C、E42G、S54P、E117G、S150F、C152S、Q155K和C215L；I41C、E42G、S54P、E117G、S150F、C152S、Q155L和C215L；I41C、E42G、S54P、S150F、C152S、Q155I和C215G；I41C、E42G、S54P、S150F、C152S、Q155I和C215L；I41C、E42G、S54P、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、S150F、C152S、Q155K和C215L；I41C、E42G、S54P、S150F、C152S、Q155K和C215G；I41C、E42G、S54P、S150F、C152S、Q155L、F160P、C215G和I267V；I41C、E42G、S54P、S150F、C152S、Q155T、W156Q、F160P和C215L；I41C、E42G、S54P、S150F、C152S、Q155T、W156Q和C215L；I41F、E42G、S54P、M122Q、S150F、C152T、Q155V、W156Q和C215G；I41F、E42G、S54P、S150F、C152S、Q155L、W156Q、V171I和C215G；I41F、E42G、S54P、S150F、C152S、Q155L、W156Q、V171I、C215G和A241R；I41F、E42G、S54P、S150F、C152S、Q155I、W156Q和C215G；I41K、E42G、P48E、S54P、S150F、C152S、Q155K和W156Q；I41K、E42G、P48E、S54P、S150F、C152S、Q155L和C215L；I41K、E42G、S54P、I108V、E117G、S150F、C152S、Q155K和C215L；I41K、E42G、S54P、I108V、S150F、C152S、Q155T和C215G；I41K、E42G、S54P、E117G、S150F、C152S、Q155L和C215G；I41K、E42G、S54P、E117G、S150F、C152S、Q155K、C215L和I267V；I41K、E42G、S54P、S150F、C152S、Q155K、W156Q和C215G；I41K、E42G、S54P、S150F、C152S、Q155K、F160P、C215G和I267V；I41K、E42G、S54P、S150F、C152S、Q155K和C215L；I41K、E42G、S54P、S150F、C152S和Q155T；I41K、E42G、S54P、S150F、C152S、Q155T和F160P；I41K、E42G、S54P、S150F、C152S、Q155T和C215G；I41K、E42G、S54P、S150F、C152S、Q155T、C215G和I267V；I41K、E42G、S54P、S150F、C152S、Q155K、W156Q和C215G；I41N、E42G、S54P、S150F、C152S、Q155I和F160P；I41N、E42G、S54P、E117G、S150F、C152S、Q155T和W156Q；I41N、S49T、E42G、S54P、S150F、C152S、Q155L、F160P、D165N和C215L；E42A、A44Q、S54P、I108V、S150F、C152S,Q155T和I267V；E42G、A44Q、S54P、I108V、S150F、C152S和Q155T；E42G、A44Q、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、A44Q、S54P、S150A、C152S和Q155T；E42G、A44Q、S54P、S150F、C152S和Q155T；E42G、P48G、S54P、S150F、C152S、Q155L、W156Q和C215H；E42G、P48G、S54P、S150F、C152S和Q155T；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155L、F160P和C215L；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155K、W156Q和C215G；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155T、W156Q、C215G和I267V；E42G、S49T、S54P、C152S、Q155T和W156Q；E42G、S54P、I55L、T126A、C152S、Q155T、L218M和A270T；E42G、S54P、F60V、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、T68A、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、T69S、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、N76S、T126A、C152S、Q155T、S182T、L218M、A270T和V328I；E42G、S54P、I108V、S150F、C152S、Q155K和C215H；E42G、S54P、I108V、S150F、C152S和Q155T；E42G、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、S54P、I108V、S150F、C152S、Q155V、W156Q和F160P；E42G、S54P、E117G、C152S和Q155T；E42G、S54P、E117G、C152S、Q155T和W156Q；E42G、S54P、M122Q、S150F、C152S、Q155I、W156Q、C215G和A241R；E42G、S54P、M122Q、S150F、C152S、Q155L、W156Q、V171I、C215G和A241R；E42G、S54P、M122Q、S150F、C152T、Q155V、W156Q、V171I、C215G和A241R；E42G、S54P、T126M、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、P135I、F136Y、S150F、C152S、Q155L、W156Q、W192F和C215G；E42G、S54P、F136I、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、F136I、S150F、C152S、Q155L、W156Q、C215G和G224I；E42G、S54P、F136I、S150F、C152S、Q155L、W156Y、C215G、S282V和G284I；E42G、S54P、F136I、S150F、C152S、Q155L、W156Y、C215G和G284P；E42G、S54P、F136Y、S150F、C152S、Q155L、W156Q、C215G、S282V和G284P；E42G、S54P、S150A、C152S、Q155T和I267V；E42G、S54P、S150F、C152S、Q155I、W156Q、F160P、C215L和I267V；E42G、S54P、S150F、C152S、Q155I、W156Q、V171I、C215G和A241R；E42G、S54P、S150F、C152S、Q155I、W156Q和C215L；E42G、S54P、S150F、C152S、Q155I、F160P和C215G；E42G、S54P、S150F、C152S、Q155I和C215H；E42G、S54P、S150F、C152S、Q155K和W156Q；E42G、S54P、S150F、C152S、Q155K、W156Q和I267V；E42G、S54P、S150F、C152S、Q155L、W156Q、G193M和C215G；E42G、S54P、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G、S282V和G284I；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G和T283S；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G和G284I；E42G、S54P、S150F、C152S、Q155L、W156Y和C215G；E42G、S54P、S150F、C152S、Q155L和C215H；E42G、S54P、S150F、C152S和Q155T；E42G、S54P、S150F、C152S、Q155T、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和I267V；E42G、S54P、S150F、C152S、Q155T、W156Q、F160P、C215L和I267V；E42G、S54P、S150F、C152S、Q155T、W156Q、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和W156R；E42G、S54P、S150F、C152S、Q155T、F160P和C215G；E42G、S54P、S150F、C152S、Q155T、F160P和C215L；E42G、S54P、S150F、C152S、Q155T、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和I267V；E42G、S54P、C152S、Q155I和W156S；E42G、S54P、C152S、Q155K和W156S；E42G、S54P、C152S、Q155L和W156S；E42G、S54P、C152S和Q155T；E42G、S54P、C152S、Q155T和F160P；E42G、S54P、C152S、Q155T和R164P；E42G、S54P、C152S、Q155T和W156Q；E42G、S54P、C152S、Q155T和W156S；E42G、S54P、C152S、Q155T和R164P；E42G、S54P、C152S、Q155T、S182T、L218M和A270T；E42G、S54P、C152S、Q155T和C215G；E42G、S54P、C152S、Q155T和C215L；以及E42G、S54P、C152S、Q155V和W156S。

在一些实施方案中，具有转氨酶活性的工程化多肽能够在合适的反应条件下以相对于SEQ ID NO:2的参考多肽的底物耐受性增加的对底物的存在的耐受性将化合物(2)转化成化合物(1)。相应地，在一些实施方案中，工程化多肽能在合适的反应条件下，在约72h、约48h、约36h、约24h或甚至更短的时间长度的反应时间内，在至少约1g/L、5g/L、10g/L、20g/L、约30g/L、约40g/L、约50g/L、约70g/L、约100g/L的底物载量浓度的存在下，以至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约98％、或至少约99％的转化百分比将化合物(2)的底物转化成化合物(1)。

工程化多肽的以上描述的改进的特性在其下的合适的反应条件可关于多肽的浓度或量、底物、胺供体、辅因子、缓冲液、共溶剂、pH和/或包括温度和反应时间的条件来确定。在一些实施方案中，合适的反应条件包括以下和在实施例中描述的HTP、SFP、或DSP测定条件。

在以下表2A、2B和2C中显示了本公开内容的示例性非天然存在、工程化的转氨酶多肽的结构和功能信息。奇数序列标识符(即SEQ ID NO)指编码由偶数SEQ ID NO提供的氨基酸(aa)序列的核苷酸(nt)序列，并且序列被提供于附于该公开内容的电子序列表文件中，通过引用将序列表文件特此并入本文。氨基酸残基差异是基于与SEQ ID NO：2的参考多肽序列的比较，其基因序列被用作在某些工业上有用的反应条件下在将化合物(2)转化成化合物(1)方面具有增加的活性的工程化多肽的定向进化的起点。每种工程化多肽的活性利用高通量(HTP)测定(作为初级筛选)，并且，在一些情况中，第二摇瓶粉末(SFP)和/或下游处理(DSP)粉末测定来确定。按照如在表2A中记录的测定反应条件，使用以96孔板格式的大肠杆菌(E.coli.)透明细胞裂解物来确定表中提供的HTP测定值。SFP和DSP酶制品提供了工程化多肽的更纯的粉末制品。使用表2B中记录的反应条件利用以5mL小瓶格式的工程化多肽的SFP确定表中的SFP测定值。使用表2C中记录的反应条件利用以5mL小瓶格式的工程化多肽的DSP粉末确定表中的DSP测定值。HTP、SFP和DSP制品和测定的进一步的细节被描述于实施例中。

表2A：HTP活性

表2B.SFP活性和稳定性

表2C：DSP活性和稳定性

如表2A-2C中显示的，SEQ ID NO:4–306的偶数序列标识符的具有转氨酶活性的示例性工程化多肽与SEQ ID NO:2相比包含以下残基差异中的一个或更多个：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M和X328I。基于表2A-2C(和实施例1)中公开的SEQ ID NO:4–306的示例性工程化多肽的特性，改进的酶特性诸如增加的将化合物(2)转化成化合物(1)的活性、增加的热、溶剂和/或pH稳定性与和SEQID NO:2相比的至少以下残基差异相关：在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的同一性以及具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异，和/或(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

如对技术人员将是明显的，前述残基位置和每个残基位置的特定氨基酸残基可单独或以多种组合的形式被使用，以合成具有期望的改进的特性的转氨酶多肽，所述期望的改进的特性除了其他以外包括酶活性、底物/产物偏好、立体选择性、底物/产物耐受和在多种条件下的稳定性，所述多种条件诸如增加的温度、溶剂和/或pH。

鉴于本文提供的指导，还预期具有SEQ ID NO:4–306的偶数序列标识符的示例性工程化多肽中的任一个可被用作合成其他工程化转氨酶多肽的起始氨基酸序列，例如通过随后的进化轮，所述进化通过添加来自表2A、2B和2C中的其他多肽的各种氨基酸差异和本文描述的其他残基位置的新的组合。另外的改进可通过在贯穿较早的进化轮保持未改变的位置处包含氨基酸差异来产生。

相应地，在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与参考序列SEQ ID NO:2具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性的氨基酸序列，并且在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的序列同一性和具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异，和/或(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

在一些实施方案中，具有转氨酶活性的工程化多肽包含如下氨基酸序列：与选自SEQ ID NO:4-306的偶数序列标识符的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的同一性和(a)选自的一个或更多个氨基酸残基差异。在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的序列同一性和具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异，和/或(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

在一些实施方案中，参考序列选自SEQ ID NO:4、40、62、64、70、78、122、130、160、178和192。在一些实施方案中，参考序列为SEQ ID NO:4。在一些实施方案中，参考序列为SEQ ID NO:40。在一些实施方案中，参考序列为SEQ ID NO:62。在一些实施方案中，参考序列为SEQ ID NO:64。在一些实施方案中，参考序列为SEQ ID NO:70。在一些实施方案中，参考序列为SEQ ID NO:78。在一些实施方案中，参考序列为SEQ ID NO:122。在一些实施方案中，参考序列为SEQ ID NO:130。在一些实施方案中，参考序列为SEQ ID NO:160。在一些实施方案中，参考序列为SEQ ID NO:178。在一些实施方案中，参考序列为SEQ ID NO:192。

在一些实施方案中，具有转氨酶活性的工程化多肽包含如下氨基酸序列：具有与SEQ ID NO:4-306的偶数序列标识符的序列之一具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性，和与SEQ IDNO:2相比存在于具有SEQ ID NO:4-306的偶数序列标识符的序列中的任何一个的氨基酸残基差异的组合。在一些实施方案中，具有转氨酶活性的工程化多肽包含选自SEQ ID NO:4–306的偶数序列标识符的氨基酸序列。

除了以上指定的残基位置之外，本文公开的工程化转氨酶多肽中的任一个还可包含相对于SEQ ID NO:2的参考多肽序列在其他残基位置处的残基差异，所述其他残基位置即除了X5、X33、X36、X41、X42、X44、X48、X49、X51、X54、X55、X76、X108、X117、X122、X126、X148、X150、X152、X155、X156、X160、X164、X165、X182、X215、X218、X241、X267、X270、X273、X325和X328之外的残基位置。在这些其他残基位置处的残基差异可在氨基酸序列中提供另外的变化而不改变多肽的转氨酶活性。相应地，在一些实施方案中，除了选自具有SEQ IDNO:4-306的偶数序列标识符的多肽的工程化转氨酶多肽中的任何一个的氨基酸残基差异之外，与SEQ ID NO:2相比所述序列还可在其他氨基酸残基位置处包含1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45、1-50、1-55或1-60个残基差异。在一些实施方案中，与参考序列相比氨基酸残基差异的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、30、35、40、45、50、55或60个残基位置。在一些实施方案中，与SEQ ID NO:2的野生型多肽或SEQ ID NO:2的工程化多肽的参考序列相比，在其他氨基酸残基位置处的残基差异可包含保守取代和/或非保守取代。

相对于SEQ ID NO:2的野生型序列在其他位置处的氨基酸残基差异和这些差异对酶功能的影响针对在以下中公开的其他工程化转氨酶多肽被描述：2012年10月23日授权的美国专利号8,293,507B2、2011年1月13日公布的PCT公布WO2011005477A1以及2012年2月23日公布的PCT公布WO2012024104；通过引用将其每个并入本文。相应地，在一些实施方案中，与SEQ ID NO:2的野生型序列相比的氨基酸差异中的一个或更多个还可在选自以下的残基位置处被引入至本公开内容的工程化转氨酶多肽：X2、X4、X5、X7、X8、X9、X10、X11、X14、X18、X22、X25、X26、X27、X28、X30、X37、X38、X41、X44、X48、X49、X50、X55、X58、X60、X65、X81、X82、X94、X96L、X102、X108、X120、X135、X137、X138、X141、X142、X146、X148、X163、X163、X164、X169、X171、X178、X181、X182、X204、X209、X210、X211、X213、X215、X217、X218、X223、X225、X230、X242、X245、X252、X265、X292、X297、X302、X306、X321、X328和X329。特别地，在前述位置处的氨基酸残基的选择可选自以下：X2K/Q/S、X4I/Y、X5K/H/I/L/N/S/T/V、X7A、X8P/T、X9N/Q/S、X10V、X11K、X14R、X18C、X22I、X25Q、X26H、X27T、X28P、X30M/Q、X37R、X38G、X41H/S/F、X44Q/V、X48A/D/G/Q/V、X49T、X50L、X55V/L、X58L、X60F、X65A/T/C/G/S、X81G、X82S、X94I/L、X96L、X102L/K、X108V、X120Y、X135Q、X137T/I、X138K/P、X141L、X142R/T、X146R、X148A/F、X163H/V、X164P/V/A、X169L、X171A、X178S、X181G、X182T、X204A、X209L/C/D/E、X210S、X211I、X213P、X215F/Y/C、X217N/S、X218M、X223I/L/M/N/P、X225Y、X230V、X242T、X245S、X252F、X265T、X292T、X297S、X302A、X306L、X321P、X328I和X329H。在引用的参考文献中可以找到关于在残基位置处的氨基酸残基的选择的进一步指导。

如以上讨论的，被用作生成示例性工程化转氨酶多肽的起始骨架的SEQ ID NO:2的工程化多肽序列也是相对于节杆菌属种KNK168的天然存在的转氨酶(GenBank登录号BAK39753.1,GI:336088341)具有以下28个氨基酸差异的工程化转氨酶多肽：S8P、Y60F、L61Y、H62T、V65A、V69T、D81G、M94I、I96L、F122M、S124T、S126T、G136F、Y150S、V152C、A169L、V199I、A209L、G215C、G217N、S223P、L269P、L273Y、T282S、A284G、P297S、I306V和S321P。因此，在一些实施方案中，包含与选自具有SEQ ID NO:4-306的偶数序列标识符的序列中的任一个的参考氨基酸序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列的具有转氨酶活性的工程化多肽，具有与SEQ ID NO:2相比在选自以下位置的一个或更多个处不包含残基差异的氨基酸序列：X8、X60、X61、X62、X65、X81、X94、X96、X122、X124、X136、X169、X199、X209、X215、X217、X223、X269、X273、X282、X284、X297、X306和X321。

在一些实施方案中，本公开内容还提供了包含本文描述的任何工程化转氨酶多肽的片段的工程化转氨酶多肽，所述工程化转氨酶多肽的片段保持工程化转氨酶多肽的功能转氨酶活性和/或改进的特性。相应地，在一些实施方案中，本公开内容提供了具有转氨酶活性(例如，能在合适的反应条件下将化合物(2)转化成化合物(1))的多肽片段，其中所述片段包含本公开内容的工程化多肽的全长氨基酸序列的至少约80％、90％、95％、98％或99％，本公开内容的工程化多肽诸如具有SEQ ID NO:4-306的偶数序列标识符的示例性工程化多肽。

在一些实施方案中，本公开内容的工程化转氨酶多肽可具有与本文描述的工程化转氨酶多肽序列中的任一个相比包含缺失的氨基酸序列，本文描述的工程化转氨酶多肽序列诸如具有SEQ ID NO:4-306的偶数序列标识符的示例性工程化多肽序列。因此，对于本公开内容的工程化的转氨酶多肽的各个和每个实施方案，氨基酸序列可包含一个或更多个氨基酸、2个或更多个氨基酸，3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多达转氨酶多肽的氨基酸总数的10％、多达转氨酶多肽的氨基酸总数的10％、多达转氨酶多肽的氨基酸总数的20％、或多达转氨酶多肽的氨基酸总数的30％的缺失，其中本文描述的工程化的转氨酶的相关功能活性和/或改进的特性被保持。在一些实施方案中，缺失可包含1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-15、1-20、1-21、1-22、1-23、1-24、1-25、1-30、1-35、1-40、1-45、1-50、1-55或1-60个氨基酸残基。在一些实施方案中，缺失的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、30、35、40、45、50、55或60个氨基酸残基。在一些实施方案中，缺失可包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24、25或30个氨基酸残基的缺失。

在一些实施方案中，本公开内容提供了工程化转氨酶多肽，所述工程化转氨酶多肽具有与本文描述的工程化转氨酶多肽序列中的任一个相比包含插入的氨基酸序列，本文描述的工程化转氨酶多肽序列诸如具有SEQ ID NO:4-306的偶数序列标识符的示例性工程化多肽序列。因此，对于本公开内容的转氨酶多肽的各个和每个实施方案，插入可包含一个或更多个氨基酸、2个或更多个氨基酸，3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸，其中本文描述的工程化的转氨酶的相关功能活性和/或改进的特性被保持。插入片段可以插入至转氨酶多肽的氨基末端或羧基末端、或中间部分。

在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，其包含与具有SEQ ID NO:4-306的偶数序列标识符的序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列，条件是氨基酸序列不同于(即，其排斥)在以下中公开的示例性工程化转氨酶多肽氨基酸序列中的任一个：2012年10月23日授权的美国专利号8,293,507B2、2011年1月13日公布的PCT公布WO2011005477A1、2012年2月23日公布的PCT公布WO2012024104、和2012年9月7日提交的PCT申请号PCT/US12/54300，将其每个通过引用特此并入本文。

在一些实施方案中，本公开内容的具有转氨酶活性的工程化多肽还能将式(II)、式(IIa)、化合物(2)和/或化合物(4)的底物化合物分别转化成式(I)、式(Ia)、化合物(1)和/或化合物(3)的相应胺产物化合物。在一些实施方案中，工程化多肽在合适的反应条件下在将式(II)、式(IIa)和/或化合物(2)的底物化合物转化成式(I)、式(Ia)和/或化合物(1)的相应胺产物化合物方面，相对于SEQ ID NO:2的工程化多肽的活性和/或稳定性具有改进的活性和/或稳定性。特别地，反应条件可用于此类化合物的工业规模生产。

在以上实施方案中，工程化多肽的合适的反应条件为在表2A、2B和2C中描述的那些。相应地，在一些实施方案中，合适的反应条件包括：(a)约10g/L至200g/L的式(II)、式(IIa)、化合物(2)、或化合物(4)的底物化合物的底物载量；(b)约0.5g/L至5g/L的工程化多肽浓度；(c)约0.1M至3M的IPM浓度；(d)约0.1mM至1mM的PLP辅因子浓度；(e)约30％(v/v)至约60％(v/v)的DMSO浓度；(f)约9.5至11.5的pH；和(g)约45℃至60℃的温度。在一些实施方案中，合适的反应条件包括：(a)约50g/L的式(II)、式(IIa)、化合物(2)、或化合物(4)的底物化合物；(b)约2g/L工程化多肽；(c)约50％(v/v)二甲基亚砜(DMSO)；(d)约1M异丙胺(IPM)；(e)约1mM磷酸吡哆醛(PLP)；(f)约pH 10；和(g)约50℃。使用这些反应条件和转氨酶多肽的指导被提供于除了其他以外，表2A、2B和2C以及实施例中。

在一些实施方案中，本公开内容的多肽可以是融合多肽的形式，其中工程化多肽诸如通过例如但不限于抗体标签(例如，myc表位)、纯化序列(例如，用于结合金属的His标签)和细胞定位信号(例如，分泌信号)的方式被融合至其他多肽。因此，本文描述的工程化多肽可以与其它多肽融合或不融合地使用。

本文描述的工程化转氨酶多肽不限于遗传编码的氨基酸。因此，除了遗传编码的氨基酸，本文所述的多肽可以整体或部分包括自然存在的和/或合成的非编码氨基酸。本文所述的多肽可包含的某些常见的非编码氨基酸包括但不局限于：遗传编码氨基酸的D-立体异构体；2,3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘苯丙氨酸(Pif)；4-氨甲基苯丙氨酸(Pamf)；2,4-二氯苯丙氨酸(Opef)；3,4-二氯苯丙氨酸(Mpcf)；2,4-二氟苯丙氨酸(Opff)；3,4-二氯苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(InAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯丙氨酸(styrylkalanine)(sAla)；蒽基丙氨酸(authrylalanine，aAla)；3,3-二苯丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；l,2,3,4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；l-氨基环戊-(2或3)-烯-4羧酸；2-哌啶酸(PA),吖丁啶-3-羧酸(ACA)；l-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu),高缬氨酸(hVal)；高异亮氨酸(homoisolencine，hIle)；高精氨酸(hArg)；N-乙酰基赖氨酸(AcLys)；2,4-二氨基丁酸(Dbu)；2,3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。可以被本文描述的多肽包括的另外的非编码氨基酸对本领域技术人员将是明显的(见，如在Fasman,1989,CRC Practical Handbook ofBiochemistry and Molecular Biology,CRC Press,Boca Raton,FL,pp.3-70和其中引用的参考文献中提供的不同的氨基酸，所有这些文献均通过引用并入)。这些氨基酸可为L-或D-构型的。

本领域技术人员将认识到，含有侧链保护基团的氨基酸或残基也可构成本文所述的多肽。此类被保护的氨基酸(在该案中属于芳香族类别)的非限制性实例包括(在括号中列出了保护基团)但不限于：Arg(tos)、Cys(甲基苄基)、Cys(硝基吡啶次磺酰基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

可包含于本文所述的多肽中的构象受限的非编码氨基酸包括但不局限于N-甲基氨基酸(L-构型)；1-氨基环戊-(2或3)-烯-4-羧酸；哌可酸；吖丁啶-3-羧酸；高脯氨酸(hPro)；和1-氨基环戊烷-3-羧酸。

在一些实施方案中，可在固体支持物上提供工程化多肽，所述固体支持物诸如膜、树脂、固体载体或其他固相材料。固体支持物可以包括有机聚合物，例如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚乙烯氧和聚丙烯酰胺及其共聚物和接枝物。固体支持物还可以是无机的，例如玻璃、二氧化硅、可控孔度玻璃(CPG)、反相二氧化硅或金属，例如金或铂。固体支持物的构型可以是珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平的、大体上平的或不平的。固体支持物可以是多孔的或无孔的，并且可以具有溶胀或非溶胀特征。固体支持物可以被配置为孔、凹陷或其他器皿、容器、特征或位置的形式。

在一些实施方案中，具有转氨酶活性的工程化多肽被结合或固定在固体支持物上，以使得所述工程化多肽保持其相对于SEQ ID NO:2的参考多肽的改进的活性、对映选择性、立体选择性和/或其他改进的特性。在此类实施方案中，固定的多肽可利于式(II)、式(IIa)、化合物(2)和/或化合物(4)的底物化合物生物催化转化成式(I)、式(Ia)、化合物(1)和/或化合物(3)的相应胺产物化合物，并且在反应完成之后被容易地保留(例如通过保留多肽被固定于其上的珠)并且然后在随后的反应中被再利用或再循环。此类固定的酶方法允许进一步的高效和降低成本。相应地，还涵盖使用本公开内容的工程化的转氨酶多肽的任何方法可使用结合或固定于固体支持物上的相同的转氨酶多肽来进行。

工程化的转氨酶多肽可被非共价地或共价地结合。用于将酶偶联或固定至固体支持物(例如，树脂、膜、珠、玻璃等)的多种方法是本领域所熟知的。特别地，PCT公布WO2012/177527A1公开了能将化合物(2)转化成化合物(1)的固定的工程化转氨酶多肽(包括SEQ IDNO:2的参考多肽)，和制备固定的多肽的方法，其中所述多肽通过疏水相互作用或共价键被物理地附接至树脂，并且在包含至少多达100％有机溶剂的溶剂系统中是稳定的。用于将酶偶联和固定至固体支持物(例如，树脂、膜、珠、玻璃等)的其他方法是本领域所熟知的并被描述于例如：Yi等人,“Covalent immobilization ofω-transaminase from Vibriofluvialis JS17 on chitosan beads,”Process Biochemistry 42(5):895-898(May2007)；Martin等人,“Characterization of free and immobilized(S)-aminotransferase for acetophenone production,”Applied Microbiology andBiotechnology76(4):843-851(2007年9月)；Koszelewski等人,“Immobilization ofω-transaminases by encapsulation in a sol-gel/celite matrix,”Journal ofMolecular Catalysis B:Enzymatic,63:39-44(2010年5月)；Truppo等人,“Developmentof an Improved Immobilized CAL-B for the Enzymatic Resolution of a KeyIntermediate to Odanacatib,”Organic Process Research&Development,在线发表:dx.doi.org/10.1021/op200157c；Hermanson,G.T.,Bioconjugate Techniques,SecondEdition,Academic Press(2008)；Mateo等人,“Epoxy sepabeads:a novel epoxy supportfor stabilization of industrial enzymes via very intense multipoint covalentattachment,”Biotechnology Progress 18(3):629-34(2002)；和BioconjugationProtocols:Strategies and Methods,In Methods in Molecular Biology,C.M.Niemeyer编,Humana Press(2004)；通过引用将其每个的公开内容并入本文。

可用于固定本公开内容的工程化转氨酶多肽的固体支持物包括但不限于珠或树脂，所述珠或树脂包含具有环氧官能团的聚甲基丙烯酸酯、具有氨基环氧官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或具有十八烷基官能团的聚甲基丙烯酸酯。可用于固定本公开内容的工程化的转氨酶的示例性固体支持物包括但不限于壳聚糖珠、Eupergit C和SEPABEAD(Mitsubishi),所述SEPABEAD包括以下不同类型的SEPABEAD：EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，工程化转氨酶多肽可以阵列的形式提供，在所述阵列中多肽以在位置上不同的定位的形式排列。在一些实施方案中，在定位上有区别的位置为固体支持物中的孔，所述固体支持物诸如96孔板。多个支持物可以被配置在对于机器人递送试剂或检测方法和/或仪器可寻址的各个位置的阵列上。此类阵列可被用来测试用于被多肽转化的各种底物化合物。

在一些实施方案中，本文描述的工程化多肽可以以试剂盒的形式提供。试剂盒中的多肽可单独地存在或作为多个多肽存在。试剂盒还可包括用于进行酶促反应的试剂、用于评价多肽的活性的底物、以及用于检测产物的试剂。试剂盒还可包括试剂分配器和试剂盒使用说明。在一些实施方案中，本公开内容的试剂盒包括在不同的可寻址的位置处含有多个不同的工程化转氨酶多肽的阵列，其中不同的多肽为参考序列的不同变体，其每个具有至少一种不同的改进的酶特性。包含多个工程化多肽的此类阵列及其使用方法是已知的(参见例如，WO2009/008908A2)。

可用于制备工程化转氨酶多肽的多核苷酸、控制序列、表达载体、和宿主细胞

在另一方面，本公开内容提供了编码本文描述的具有转氨酶活性的工程化多肽的多核苷酸。多核苷酸可与控制基因表达的一种或多种异源调控序列可操作地连接以产生能够表达多肽的重组多核苷酸。包含编码工程化的转氨酶的异源多核苷酸的表达构建体可被引入合适的宿主细胞以表达相应的工程化转氨酶多肽。

如对本领域技术人员将是明显的，蛋白序列的可得性和相应于多种氨基酸的密码子的知识提供能够编码目标蛋白序列的所有多核苷酸的说明。其中相同氨基酸由可选择的或同义密码子编码的遗传密码的简并性允许产生极大数目的核酸，所有这些核酸编码本文公开的改进的转氨酶。因此，确定特定的氨基酸序列后，本领域的技术人员可以以不改变蛋白质的氨基酸序列的方式通过仅仅修饰一个或多个密码子的序列来产生任何数目的不同的核酸。在这点上，本公开内容特别地构思了可通过基于可能的密码子选取而选择组合来制备的多核苷酸的各个和每个可能的改变，并且对于本文公开的任何多肽，包括在表2A、2B和2C中提供的示例性工程化多肽的氨基酸序列，以及在通过引用并入本文的序列表中作为SEQ ID NO:4-306的偶数序列标识符的序列公开的任何多肽，所有这些改变被认为特别地公开。如本文描述的，在一些实施方案中，被排除于多核苷酸的实施方案之外的为编码选自SEQ ID NO:4、40、62、64、70、78、122、130、160、178和192的氨基酸序列中的一个或更多个的序列。

在多种实施方案中，密码子被优选地选择以适应在其中产生蛋白的宿主细胞。例如，用于细菌的优选密码子用于表达细菌中的基因；用于酵母中的优选密码子用于在酵母中表达；且用于哺乳动物的优选密码子用于在哺乳动物细胞中表达。在一些实施方案中，不是所有的密码子需要被取代来优化转氨酶的密码子使用，因为天然序列将包括优选的密码子并且由于优选的密码子的使用可能不是所有氨基酸残基所需要的。因此，编码转氨酶的密码子优化的多核苷酸可在全长编码区的约40％、50％、60％、70％、80％或高于90％的密码子位置包含优选的密码子。

在一些实施方案中，所述多核苷酸编码包含与选自SEQ ID NO:4–306的偶数序列标识符的参考序列至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性的氨基酸序列的转氨酶多肽，其中所述多肽具有转氨酶活性以及本文描述的改进的特性中的一种或更多种，例如以与SEQ ID NO:2的多肽相比增加的活性将化合物(2)转化成产物化合物(1)的能力。在一些实施方案中，参考序列选自SEQ ID NO:4、40、62、64、70、78、122、130、160、178和192。在一些实施方案中，参考序列为SEQ ID NO:4。在一些实施方案中，参考序列为SEQ ID NO:40。在一些实施方案中，参考序列为SEQ ID NO:62。在一些实施方案中，参考序列为SEQ ID NO:64。在一些实施方式中，参考序列为SEQ ID NO:70。在一些实施方案中，参考序列为SEQ ID NO:78。在一些实施方案中，参考序列为SEQ ID NO:122。在一些实施方案中，参考序列为SEQ ID NO:130。在一些实施方案中，参考序列为SEQ ID NO:160。在一些实施方案中，参考序列为SEQ ID NO:178。在一些实施方案中，参考序列为SEQ ID NO:192。

在一些实施方案中，所述多核苷酸编码工程化转氨酶多肽，所述工程化转氨酶多肽包含与SEQ ID NO:2相比具有以上描述的同一性百分比并且(a)具有选自的一个或更多个氨基酸残基差异的氨基酸序列。在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的序列同一性以及具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异，和/或(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

在一些实施方案中，所述多核苷酸编码工程化转氨酶多肽，所述工程化转氨酶多肽包含与SEQ ID NO:2相比具有以上描述的同一性百分比和选自以下的一个或更多个氨基酸残基差异的氨基酸序列：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M和X328I。

在一些实施方案中，编码工程化转氨酶多肽的多核苷酸包含选自SEQ ID NO:3-305的奇数序列标识符的序列。在一些实施方案中，多核苷酸序列选自SEQ ID NO:3、39、61、63、69、77、121、129、159、177和191。

在一些实施方案中，本公开内容提供了在限定条件诸如中度严格或高度严格条件下与编码本公开内容的工程化转氨酶的多核苷酸序列(或其互补物)杂交的多核苷酸。在一些实施方案中，所述多核苷酸能在高度严格条件下与选自具有SEQ ID NO:3-305的奇数序列标识符的序列的多核苷酸或其互补物杂交，并且编码具有转氨酶活性和本文描述的改进的特性的一种或更多种的多肽。在一些实施方案中，能在高度严格条件下杂交的多核苷酸编码工程化转氨酶多肽，所述工程化转氨酶多肽包含具有(a)与参考序列SEQ ID NO:2相比具有选自的一个或更多个氨基酸残基差异。在一些实施方案中，本公开内容提供了具有转氨酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少80％的序列同一性以及具有以下的氨基酸序列：(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42G、X48D/E/G/K/T、X51K、X54P、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异，和/或(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；以及X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；以及X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

在一些实施方案中，能在高度严格条件下杂交的多核苷酸编码转氨酶多肽，所述转氨酶多肽具有与SEQ ID NO:2相比以上描述的同一性百分比和选自以下的一个或更多个残基差异：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M和X328I。

在一些实施方案中，所述多核苷酸编码本文所述的多肽，但是在核苷酸水平上与编码工程化转氨酶的参考多核苷酸具有约50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性。在一些实施方案中，参考多核苷酸序列选自具有SEQ ID NO:3-305的奇数序列标识符的序列。

编码工程化转氨酶多肽的分离的多核苷酸可以多种方法被操作以提供多肽的表达，所述方法包括通过密码子优化来进一步改变序列以改进表达、在合适的有或无另外的控制序列的表达元件中插入、和转化入适于表达并产生多肽的宿主细胞。

取决于表达载体，在分离的多核苷酸插入载体之前对分离的多核苷酸的操作可以是期望的或必需的。利用重组DNA方法修饰多核苷酸和核酸序列的技术在本领域中是公知的。在以下中提供了指导：Sambrook等人,2001,Molecular Cloning:A LaboratoryManual,第三版,Cold Spring Harbor Laboratory Press；和Current Protocols inMolecular Biology,Ausubel.F.编著,Greene Pub.Associates,1998,2010年更新。

取决于所使用的特定细胞生产系统，本文公开的多核苷酸还可包含启动子序列。对于细菌宿主细胞，用于指导本公开的核酸构建体的转录的合适启动子包括除了其他以外，从以下获得的启动子：大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)生麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillusamyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因及原核β-内酰胺酶基因(Villa-Kamaroff等人，1978，Proc.NatlAcad.Sci.USA 75:3727-3731)、以及tac启动子(DeBoer等人,1983,Proc.NatlAcad.Sci.USA 80:13:263-25)。对于丝状真菌宿主细胞，用于指导本公开内容的核酸构建体的转录的适宜的启动子包括获自以下基因的启动子：米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰孢菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(WO 96/00787)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和其突变启动子、截短启动子和杂合启动子。在酵母宿主中，有用的启动子可以是来自酿酒酵母(Saccharomyces cerevisiae)烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)、和酿酒酵母3-磷酸甘油酸激酶的基因。用于酵母宿主细胞的其它有用的启动子由Romanos等人,1992,Yeast 8:423-488描述。

控制序列也可以是合适的转录终止子序列，转录终止子序列是被宿主细胞识别以终止转录的序列。终止子序列被可操作地连接到编码多肽的核酸序列的3'末端。在所选宿主细胞中起作用的任何终止子可用于本公开内容中。例如，丝状真菌宿主细胞的示例性转录终止子可以从米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶、和尖孢镰刀菌胰蛋白酶样蛋白酶的基因获得。酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)、和酿酒酵母甘油醛-3-磷酸脱氢酶的基因获得。用于酵母宿主细胞的其它有用的启动子由Romanos等人,1992前述描述。

控制序列也可以是适合的前导序列，前导序列是对宿主细胞的翻译重要的mRNA的非翻译区。前导序列可操作地连接到编码多肽的核酸序列的5'末端。可以使用在所选择的宿主细胞中有功能性的任何前导序列。示例性细菌前导序列可使用pelB前导序列(Lei等人,1987,J Bacteriol.169(9):4379-4383)和荧光假单胞菌(Pseudomonas fluorescens)的dsbA、dsbC、Bce、CupA2、CupB2的前导序列(美国专利号7,618,799)。丝状真菌宿主细胞的示例性前导序列从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因获得。酵母宿主细胞的适合的前导序列从酿酒酵母烯醇酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶，酿酒酵母α-因子、和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因获得。

控制序列也可以是多腺苷酸化序列，多腺苷酸化序列是可操作地连接到核酸序列的3'末端的序列，并且其在转录时，作为向转录的mRNA添加多腺苷残基的信号由宿主细胞识别。在所选宿主细胞中起作用的任何多腺苷酸化序列可用于本公开内容中。用于丝状真菌宿主细胞的示例性多腺苷酸化序列可以来自米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡萄糖苷酶的基因。用于酵母宿主细胞的有用的聚腺苷酸化序列在Guo和Sherman,1995,Mol Cell Bio 15:5983-5990中阐述。示例性哺乳动物多聚腺苷酸化序列可于Zhang等人,2005,NucleicAcids Res.33:D116–D120中找到。

控制序列也可以是信号肽编码区，其编码连接到多肽氨基末端的氨基酸序列并导引编码的多肽到细胞的分泌途径中。核酸序列的编码序列的5'末端可以固有地包含信号肽编码区，其在翻译阅读框中与编码分泌的多肽的编码区片段天然地连接。可选地，编码序列的5'末端可以包含对编码序列而言外来的信号肽编码区。在编码序列不天然包含信号肽编码区的情况下可能需要外来的信号肽编码区。

可选择地，外源的信号肽编码区可简单地置换自然的信号肽编码区以提高多肽的分泌。然而，将表达的多肽引导至选择的宿主细胞的分泌途径的任何信号肽编码区可被使用。细菌宿主细胞有效的信号肽编码区是从芽孢杆菌NClB 11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)、和枯草芽孢杆菌prsA的基因获得的信号肽编码区。另外的信号肽在Simonen和Palva,1993,MicrobiolRev 57：109-137中描述。丝状真菌宿主细胞的有效的信号肽编码区可以是从米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和绵毛状腐质菌(Humicola lanuginosa)脂肪酶的基因获得的信号肽编码区。有用的酵母宿主细胞信号肽可以来自酿酒酵母α-因子和酿酒酵母转化酶的基因。其它有用的信号肽编码区由前述Romanos等人,1992描述。

控制序列也可以是编码位于多肽氨基末端的氨基酸序列的前肽编码区。产生的多肽被称为原酶或者前多肽(或在某些情况下称为酶原)。前多肽可以通过催化裂解或自动催化裂解前肽而从前多肽被转化为成熟的活性多肽。前肽编码区可从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶的基因中获得(WO95/33836)。在多肽的氨基末端存在信号肽和前肽区的情况下，前肽区被定位在多肽的氨基末端旁边且信号肽区被定位在前肽区的氨基末端旁边。

可能还需要增加调控序列，其允许相对于宿主细胞的生长来调控多肽的表达。调节系统的实例是促使基因的表达被开启或关闭以响应于化学或物理刺激的那些，所述化学或物理刺激包括调节性化合物的存在。在原核宿主细胞中，适合的调节序列包括lac、tac和trp操纵子系统。在酵母宿主细胞中，适合的调节系统包括作为实例的ADH2系统或GAL1系统。在丝状真菌中，适合的调节序列包括TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子、和米曲霉葡糖淀粉酶启动子。调控序列的其他的例子为允许基因扩增的那些序列。在真核系统中，这些实例包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和随重金属扩增的金属硫蛋白基因。在这些情况下，编码本公开内容的多肽的核酸序列将可操作地与调节序列连接。

在另一个方面，本公开还涉及重组表达载体，根据它们将被导入的宿主的类型，其包括编码工程化转氨酶多肽或其变体的多核苷酸，和一个或多个表达调节区，诸如启动子和终止子、复制起点等等。以上所述的不同的核苷酸和控制序列可被连接在一起以产生重组表达载体，该表达载体可包括一个或多个方便的限制性位点以允许编码多肽的核酸序列在此位点的插入或取代。可选地，本公开内容的核酸序列可以通过使核酸序列或包括该序列的核酸构建体插入到适当的表达载体中来表达。在产生表达载体时，编码序列位于载体中以使编码序列被可操作地连接于用于表达的合适的控制序列上。

重组表达载体可为任何载体(例如，质粒或病毒)，其可方便地应用于重组DNA步骤中并且可带来多核苷酸序列的表达。载体的选择通常将取决于载体与待引入载体的宿主细胞的相容性。载体可以是线性或闭合环状的质粒。表达载体可以是自主复制的载体，即作为染色体外的实体而存在的载体，它的复制独立于染色体的复制，如质粒、染色体外的元件、微小染色体、或人工染色体。载体可以包含用于保证自我复制的任何工具(means)。可选地，载体可以是在被引入到宿主细胞中时整合到基因组中并且与其所整合到的染色体一起复制的载体。而且，可以使用单一载体或质粒或者一起包含待引入到宿主细胞基因组中的总DNA的两种或多种载体或质粒，或者转座子。

本公开内容的表达载体可包含一个或多个选择性标记，该标记允许容易地选择转化细胞。选择性标记是如下基因，其产物提供杀生物剂抗性或病毒抗性、对重金属的抗性、原养型的营养缺陷型，及类似的特点。细菌选择性标记的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素抗性诸如氨比西林、卡那霉素、氯霉素或四环素抗性的标记。酵母宿主细胞的适合的标记是ADE2、HIS3、LEU2、LYS2、MET3、TRP1、和URA3。在丝状真菌宿主细胞中使用的选择性标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰转移酶)、bar(膦丝菌素乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶(sulfate adenyltransferase))和trpC(邻氨基苯甲酸合成酶)，以及其等同物。在曲霉属细胞中使用的实施方案包括构巢曲霉或米曲霉的amdS和pyrG基因以及吸水链霉菌(Streptomyces hygroscopicus)的bar基因。

本公开内容的表达载体还可包含允许将载体整合至宿主细胞基因组中或载体在细胞中不依赖于基因组而自主复制的元件。为整合到宿主细胞基因组中，载体可以依赖编码多肽的核酸序列或通过同源重组或者非同源重组使载体整合到基因组中的载体的任何其它元件。

可选地，表达载体可以包含用于指导通过同源重组整合到宿主细胞的基因组中的另外的核酸序列。另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞基因组中。为了增加在精确位置整合的可能性，整合元件应优选地包含充足数量的核酸，诸如100至10,000个碱基对，优选的是400至10,000个碱基对，且最优选的是800至10,000个碱基对，其可以与相应的靶标序列高度同源以提高同源重组的概率。整合元件可以是与宿主细胞基因组中的靶序列同源的任何序列。而且，整合元件可以是非编码或编码的核酸序列。另一方面，载体可以通过非同源重组整合到宿主细胞基因组中。

为了自主复制，载体还可以包括使载体能够在讨论中的宿主细胞中自主复制的复制起点。细菌的复制起点的实例是允许在大肠杆菌中复制的P15A ori或者质粒pBR322、pUC19、pACYCl77(该质粒具有P15A ori)、或者pACYC184的复制起点，以及允许在芽孢杆菌中复制的pUB110、pE194、pTA1060或pAMβ1的复制起点。在酵母宿主细胞中使用的复制起点的实例是2微米复制起点、ARS1、ARS4，ARS1和CEN3的组合，以及ARS4和CEN6的组合。复制起点可以是具有使得在宿主细胞中以温度敏感的方式发挥功能的突变的复制起点(见，如Ehrlich,1978,Proc Natl Acad Sci.USA 75:1433)。

本公开内容的核酸序列的多于一个拷贝可插入宿主细胞中以提高基因产物的产量。核酸序列的拷贝数的增加可以如下获得：通过使该序列的至少一个额外拷贝整合到宿主细胞基因组中或者通过使该核酸序列包括可扩增的选择性标记基因，其中包括选择性标记基因的扩增的拷贝以及由此包括该核酸序列的额外拷贝的细胞能够通过在适当可选试剂的存在下培养细胞来选定。

对本公开内容的实施方案有用的很多表达载体是商业上可得的。适合的商业表达载体包括来自Sigma-Aldrich Chemicals的p3xFLAGTM^TM表达载体，其包括CMV启动子和用于在哺乳动物宿主细胞中表达的hGH多腺苷酸化位点和pBR322复制起点，以及用于在大肠杆菌中扩增的氨比西林抗性标记。其它适合的表达载体有可以从Stratagene,LaJolla CA商业化购买的pBluescriptII SK(-)和pBK-CMV，以及衍生自pBR322(Gibco BRL)、pUC(GibcoBRL)、pREP4、pCEP4(Invitrogen)或pPoly的质粒(Lathe等人,1987,Gene 57:193-201)。

示例性表达载体可通过将编码改进的转氨酶的多核苷酸可操作地连接到质粒pCK110900I中来制备，所述质粒pCK110900I包含在lacI阻抑物的控制下的lac启动子。所述表达载体还包含P15a复制起点和氯霉素抗性基因。

在另一方面，本公开内容提供包含编码本公开内容的改进的转氨酶多肽的多核苷酸的宿主细胞，所述多核苷酸被可操作地连接至在宿主细胞中用于转氨酶的表达的一个或更多个控制序列。用于表达由本公开内容的表达载体编码的多肽的宿主细胞在本领域是公知的，并且包括但不局限于诸如大肠杆菌、节杆菌属种KNK168、链霉菌属和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞的细菌细胞；诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤氏酵母(Pichia pastoris)(ATCC登录号201178))的真菌细胞；诸如果蝇S2以及灰翅夜蛾(Spodoptera)Sf9细胞的昆虫细胞；诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞的动物细胞；以及植物细胞。示例性的宿主细胞为大肠杆菌W3110(Escherichia coli W3110)(ΔfhuA)。上述宿主细胞的合适的培养基以及生长条件在本领域内是公知的。

用于表达转氨酶的多核苷酸可通过本领域已知的多种方法被引入至细胞。技术包括，除了其他以外，电穿孔、生物颗粒轰击法、脂质体介导的转染、氯化钙转染和原生质体融合。将多核苷酸引入细胞的不同方法对于本领域技术人员是明显的。

产生工程化转氨酶多肽的方法

在一些实施方案中，为了制备本公开内容的改进的工程化多核苷酸和工程化多肽，天然存在的催化转氨反应的转氨酶从节杆菌属种KNK168获得(或衍生)。在一些实施方案中，亲本多核苷酸序列被密码子优化以提高转氨酶在特定的宿主细胞中表达。编码节杆菌属种KNK168的野生型多肽的亲本多核苷酸序列已被描述(参见例如，Iwasaki等人,Appl.Microbiol.Biotechnol.,2006,69:13:263-505)。基于该亲本序列制备工程化转氨酶也被描述于美国专利公布号2010/0285541A1和公布的国际申请WO2010/099501中。

如前所述，通过使编码天然存在的转氨酶的多核苷酸经受诱变和/或定向进化方法可获得工程化转氨酶。示例性的定向进化技术为诱变和/或DNA改组，如在Stemmer,1994,Proc Natl Acad Sci USA 91:10747-10751；WO 95/22625；WO 97/0078；WO 97/35966；WO98/27230；WO 00/42651；WO 01/75767和美国专利号6,537,746中所描述。可以使用的其他定向进化程序包括，除了其他以外，交错延伸过程(StEP)、体外重组(Zhao等人,1998,Nat.Biotechnol.16:258–261)、诱变PCR(Caldwell等人,1994,PCR Methods Appl.3:S136-S140)、和盒式诱变(Black等人,1996,Proc Natl Acad Sci USA 93:3525-3529)。对本文的目的有用的诱变和定向进化技术还被描述于以下参考文献：例如Ling等人，1997，Anal.Biochem.254(2):157-78；Dale等人,1996,“Oligonucleotide-directed randommutagenesis using the phosphorothioate method,”in Methods Mol.Biol.57:369-74；Smith,1985,Ann.Rev.Genet.19:423-462；Botstein等人,1985,Science 229:1193-1201；Carter,1986,Biochem.J.237:1-7；Kramer等人,1984,Cell,38:879-887；Wells等人,1985,Gene 34:315-323；Minshull等人,1999,Curr Opin Chem Biol3:284-290；Christians等人,1999,Nature Biotech 17:259-264；Crameri等人,1998,Nature 391:288-291；Crameri等人.,1997,Nature Biotech 15:436-438；Zhang等人,1997,Proc Natl Acad Sci USA94:45-4-4509；Crameri等人,1996,Nature Biotech 14:315-319；Stemmer,1994,Nature370:389-391；Stemmer,1994,Proc Natl Acad Sci USA 91:10747-10751；PCT公布号WO95/22625、WO 97/0078、WO 97/35966、WO 98/27230、WO 00/42651和WO 01/75767；以及美国专利号6,537,746。所有出版物和专利通过引用特此并入本文。

从诱变处理后获得的克隆中可筛选具有期望的改进的酶特性的工程化的转氨酶。可利用标准生化技术进行从表达文库测量酶活性，所述标准生化技术诸如产物胺的OPA衍生化后的HPLC分析。

在需要的改善的酶特性为热稳定性时，酶活性可在将酶制品经受确定的温度和测量在热处理后余下的酶活性的量之后测量到。然后包含编码转氨酶的多核苷酸的克隆被分离，被测序以确定核苷酸序列的改变(如果有)，并且用于在宿主细胞中表达酶。

当工程化多肽的序列为已知时，编码酶的多核苷酸可根据已知的合成方法通过标准的固相方法制备。在一些实施方案中，多达约100个碱基的片段可单独地合成，然后连接(例如，通过酶促或化学的连接方法或聚合酶介导的方法)以形成任何需要的连续序列。例如，本公开内容的多核苷酸和寡核苷酸可通过化学合成制备，使用，例如，描述于Beaucage等人,1981,Tet Lett 22：1859-69的经典的亚磷酰胺方法，或描述于Matthes等人,1984,EMBO J.3:801-05的方法，例如，如在自动化合成方法中典型地实践的。根据亚磷酰胺方法，寡核苷酸在例如，在自动化DNA合成仪中合成、纯化、退火、连接以及克隆至合适的载体中。另外，基本上任何核酸可从多种商业来源的任一个获得。

在一些实施方案中，本公开内容还提供了用于制备或制作能在合适的反应条件下将化合物(2)转化成化合物(1)的工程化转氨酶多肽的方法，其中该方法包括在适于表达多肽的培养条件下培养能够表达编码工程化多肽的多核苷酸的宿主细胞。在一些实施方案中，制备多肽的方法还包括分离多肽。工程化多肽可在合适的细胞(如以上描述的)中表达，并利用所熟知的用于蛋白纯化的技术中的任何一种或更多种从宿主细胞和/或培养基分离(或回收)，所述用于蛋白纯化的技术包括，除了其他以外，溶菌酶处理、超声、过滤、盐析、超速离心和色谱。分离多肽的色谱技术，包括但不限于反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。纯化特定的工程化多肽的条件会部分依赖于诸如净电荷、疏水性、亲水性、分子量、分子形状等因素，而且对本领域的技术人员将是明显的。

利用工程化转氨酶的方法以及用其制备的化合物

在另一方面，本文公开的工程化转氨酶多肽可在用于将底物化合物(2)或其结构类似物转化成化合物(1)的产物或相应的结构类似物的方法中使用。通常化合物(1)的结构类似物被包括于结构式(I)和结构式(Ia)。

在一些实施方案中，本文公开的工程化多肽可在用于制备手性胺化合物的方法中使用。在一些实施方案中，本公开内容提供了用于以超过相对的对应异构体至少70％的对应异构体过量制备结构式(I)的化合物的方法：

所述结构式(I)的化合物在用*标记的立体中心处具有所指示的立体化学构型；其中

Z为OR2或NR2R3；

R2和R3各自独立地为氢、C1-8烷基、芳基或芳基-C1-2烷基；或

R2和R3连同它们附接至其的氮原子一起形成4-至7-元杂环系统，所述4-至7-元杂环系统任选地包含选自O、S和N的另外的杂原子，所述杂环未经取代或被独立地选自氧、羟基、卤素、C1-4烷氧基和C1-4烷基的1至3个取代基取代，其中烷基和烷氧基未经取代或被1至5个氟取代；并且所述杂环系统任选地与5-至6-元饱和或芳香族碳环系统或包含选自O、S和N的一个或两个杂原子的5-至6-元饱和或芳香族杂环系统稠合，稠合的环系统未经取代或被选自羟基、氨基、氟、C1-4烷基、C1-4烷氧基和三氟甲基的1至2个取代基取代；所述方法包括在合适的反应条件下在合适的有机溶剂中在氨基供体的存在下使结构式(II)的手性酮底物化合物：

与本文公开的工程化多肽接触。在所述方法的一些实施方案中，R1为苄基并且苄基的苯基未经取代或被选自由氟、三氟甲基和三氟甲氧基组成的组的1至3个取代基取代。

在用于制备式(I)的化合物的方法的一些实施方案中，Z为NR²R³，其中NR²R³为结构式(III)的杂环：

在用于制备结构式(I)的化合物的方法的一些实施方案中，式(II)的化合物特别地不包含化合物(2)且通过该方法制备的式(I)的化合物特别地不包含化合物(1)。

在一些实施方案中，本公开内容的具有转氨酶活性的工程化多肽可在以超过具有相对的(S)-构型的对映异构体至少70％的对映异构体过量制备结构式(Ia)的化合物的方法中使用：

所述结构式(Ia)的化合物在用***标记的立体中心处具有(R)-构型；其中Ar为苯基，所述苯基未经取代或被独立地选自由氟、三氟甲基和三氟甲氧基组成的组的1至5个取代基取代；并且

R4为氢、或未经取代的C1-4烷基或用1至5个氟取代的C1-4烷基；所述方法包括以下步骤：

在合适的反应条件下在氨基供体的存在下使结构式(IIa)的前手性酮底物化合物：

在用于制备结构式(Ia)的化合物的方法的一些实施方案中，式(IIa)的化合物特别地不包含化合物(2)且通过该方法制备的式(Ia)的化合物特别地不包含化合物(1)。

在一些实施方案中，本公开内容提供了用于制备化合物(1)西他列汀的方法：

与本文公开的工程化多肽接触的步骤。

本公开内容还构思了，工程化转氨酶多肽可被用于制备为西他列汀的结构类似物的其他手性胺化合物。吉格列汀为口服抗高血糖剂，与西他列汀同为二肽基肽酶-4(DPP-4)抑制剂类。吉格列汀为具有化合物(3)的结构的手性胺化合物

吉格列汀具有与西他列汀(化合物(1))相似的结构，并且在式(I)的结构的相同类内。相应地，在一个实施方案中，本公开内容提供了制备化合物(3)的方法，所述方法包括在合适的反应条件下在氨基供体的存在下使化合物(4)的酮底物或用保护基团修饰的化合物(4)：

与本文公开的工程化多肽接触的步骤。

如本文描述并在实施例中例证的，本公开内容构思了可在本文的方法中使用的合适的反应条件的范围，包括但不限于pH、温度、缓冲液、溶剂系统、底物载量、底物化合物对映异构体的混合物、多肽载量、辅因子载量、压力和反应时间的范围。用于执行使用本文描述的工程化的转氨酶多肽将底物化合物生物催化地转化成产物化合物的方法的另外的合适的反应条件可容易地通过常规实验优化，所述常规实验包括但不限于在浓度、pH、温度、溶剂条件的实验反应条件下使工程化转氨酶多肽与底物化合物接触，并检测产物化合物，例如，利用在本文提供的实施例中描述的方法。

如以上描述的，用于本公开内容的方法的具有转氨酶活性的工程化多肽通常包含与选自SEQ ID NO:2-306的偶数序列的任一个的参考氨基酸序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列，并且工程化转氨酶多肽包含具有以下的氨基酸序列：(a)与SEQ ID NO:2相比具有选自X33L、X36C、X41C/M/R、X48K、X51K、X76S、X122F/Q、X148Q、X155K、X156R、X160P、X215G、X241R、X270T、X273H和X325M的一个或更多个氨基酸残基差异；和/或(b)与SEQ IDNO:2相比选自以下的残基差异的组合：(i)X42G、X54P、X152S和X155T；(ii)X42G、X54P、X152S、X155T和R164P；(iii)X42G、X54P、X150F、X152S和X155T；(iv)X42G、X54P、X150F、X152S、X155T和X267V；(v)X42G、X54P、X150F、X152S、X155L、W156Q和C215G；(vi)X42G、X54P、X150F、X152S、X155T、X215G和X267V；(vii)X33L、X42G、X54P、X117G、X150F、X152S、X155I、X156Q和C215G；以及(viii)X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G。在一些实施方案中，能在高度严格条件下杂交的多核苷酸编码转氨酶多肽，所述转氨酶多肽具有与SEQ ID NO:2相比以上描述的同一性百分比和选自以下的一个或更多个残基差异：X5K、X33L、X36C、X41C/F/K/M/N/R、X42A/G、X44Q、X48D/E/G/K/T、X49T、X51K、X54P、X55L、X76S、X108V、X117G、X122F/Q、X126A、X148Q、X150A/F、X152S/T、X155A/I/K/L/T/V、X156Q/R/S、X160P、X164P、X165N、X182T、X215G/H/L、X218M、X241R、X267V、X270T、X273H、X325M和X328I。

本文公开的工程化转氨酶多肽在将式(II)的化合物转化成式(I)的化合物、将式(IIa)的化合物转化成式(Ia)的化合物、将化合物(2)转化成化合物(1)和/或将化合物(4)转化成化合物(3)、包括其多种类似物方面的改进的活性、稳定性和/或立体选择性提供了其中较高的转化百分比可以以较低的工程化多肽浓度来完成的方法，并且还降低了残留蛋白的量，所述残留蛋白可需要在随后的产物化合物(例如，化合物(1))的纯化以及产物化合物下游的化合物纯化步骤中移除。在所述方法的一些实施方案中，合适的反应条件包括约0.1至约40g/L、约0.5至约20g/L、约1.0至约10g/L、约2至约5g/L、约40g/L或更少、约20g/L或更少、约15g/L或更少、约10g/L或更少、约5g/L或更少、约3g/L或更少、约2g/L或更少、约1.5g/L或更少、约1.0g/L或更少、约0.75g/L或更少的工程化多肽浓度。

考虑到例如期望的产物化合物的量、底物浓度对酶活性的影响、反应条件下酶的稳定性、和底物到产物的转化百分比，反应混合物中的底物化合物可以变化。在所述方法的一些实施方案中，合适的反应条件包括至少约0.5至约200g/L、1至约200g/L、5至约150g/L、约10至约100g/L、或约50至约100g/L的底物化合物载量。在一些实施方案中，合适的反应条件包括至少约0.5g/L、至少约1g/L、至少约5g/L、至少约10g/L、至少约15g/L、至少约20g/L、至少约30g/L、至少约50g/L、至少约75g/L、至少约100g/L、至少约150g/L或至少约200g/L或甚至更大的底物化合物载量。虽然本文提供的底物载量的值是基于化合物(2)的分子量，但是还预期，也可在方法中使用相等的摩尔量的化合物(2)的多种水合物和盐。另外，由式(II)和(IIa)以及化合物(4)包括的底物化合物还也可根据化合物(2)使用的量以适当的量使用。

在本文描述的方法中，工程化转氨酶多肽使用氨基供体以形成产物化合物。在一些实施方案中，反应条件中的氨基供体包括选自异丙胺(本文也被称为“IPM”)、腐胺、L-赖氨酸、α-苯丙胺、D-丙氨酸、L-丙氨酸或D,L-丙氨酸或D,L-鸟氨酸的化合物。在一些实施方案中，氨基供体选自由IPM、腐胺、L-赖氨酸、D-或L-丙氨酸组成的组。在一些实施方案中，氨基供体是IPM。在一些实施方案中，合适的反应条件包括以至少约0.1M至约3.0M、0.2至约2.5M、约0.5至约2M或约1至约2M的浓度存在的氨基供体，特别是IPM。在一些实施方案中，氨基供体以约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、1、1.5、2、2.5或3M的浓度存在。

所述方法的合适的反应条件通常还包括在反应混合物中存在辅因子。因为工程化转氨酶通常利用维生素B₆家族的成员，所以反应条件可包括选自吡哆醛-5’-磷酸(也被称为磷酸吡哆醛、PLP、P5P)、吡哆辛(PN)、吡哆醛(PL)、吡多胺(PM)、和它们的磷酸化对应物磷酸吡哆醇(PNP)、和磷酸吡多胺(PMP)的辅因子。在一些实施方案中，合适的反应条件可包括选自PLP、PN、PL、PM、PNP和PMP的辅因子以约0.1g/L至约10g/L、约0.2g/L至约5g/L、约0.5g/L至约2.5g/L的浓度存在。在一些实施方案中，辅因子是PLP。相应地，在一些实施方案中，合适的反应条件可包括辅因子PLP以约0.1g/L至约10g/L、约0.2g/L至约5g/L、约0.5g/L至约2.5g/L的浓度存在。在一些实施方案中，反应条件包括约10g/L或更少、约5g/L或更少、约2.5g/L或更少、约1.0g/L或更少、约0.5g/L或更少、或约0.2g/L或更少的PLP浓度。

在方法(例如，其中使用完整细胞或裂解物)的一些实施方案中，辅因子天然地存在于细胞提取物且不需要补充。在方法(例如，利用部分地纯化的、或纯化的转氨酶)的一些实施方案中，所述方法还可包括将辅因子添加至酶反应混合物的步骤。在一些实施方案中，辅因子在反应开始时添加和/或另外的辅因子在反应期间被添加。

在转氨反应的过程期间，反应混合物的pH可改变。反应混合物的pH可保持在期望的pH或在期望的pH范围内。这可通过在反应过程之前和/或期间通过添加酸或碱来完成。可选地，pH可通过使用缓冲剂来控制。相应地，在一些实施方案中，反应条件包括缓冲剂。保持期望的pH范围的合适的缓冲剂在本领域内是被熟知的，包括例如但不限于硼酸盐、碳酸盐、磷酸盐、三乙醇胺(TEA)缓冲剂等。在一些实施方案中，缓冲剂是TEA。在方法的一些实施方案中，合适的反应条件包括TEA的缓冲溶液，其中TEA浓度为从约0.01M至约0.4M、0.05M至约0.4M、0.1M至约0.3M、或约0.1M至约0.2M。在一些实施方案中，反应条件包括约0.01M、0.02M、0.03M、0.04M、0.05M、0.07M、0.1M、0.12M、0.14M、0.16M、0.18M、0.2M、0.3M或0.4M的TEA浓度。在一些实施方案中，反应条件包括水作为合适的溶剂而无缓冲剂存在。

在方法的实施方案中，反应条件可包括合适的pH。如以上所述，期望的pH或期望的pH范围可通过使用酸或碱、合适的缓冲剂、或缓冲和添加酸或碱的组合来保持。反应混合物的pH可在反应过程之前和/或期间控制。在一些实施方案中，合适的反应条件包括约8至约12.5的溶液pH、约8至约12的pH、约9.0至约11.5的pH、或约9.5至约11.0的pH。在一些实施方案中，反应条件包括约8、8.5、9、9.5、10、10.5、11、11.5、12或12.5的溶液pH。

在本文的方法的实施方案中，例如考虑到在较高的温度下在反应速率上的增加、对于足够久的反应持续时间的酶的活性、以及在以下进一步描述的底物非对映异构体的差向异构化的速率增加(为了动态动力学拆分的目的)，合适的温度可被用于反应条件。例如，本公开内容的工程化多肽相对于天然存在的转氨酶多肽和SEQ ID NO:2的工程化多肽具有增加的稳定性，其允许本公开内容的工程化多肽在较高温度下使用用于增加转化速率并提高反应的底物溶解性特征。相应地，在一些实施方案中，合适的反应条件包括约10℃至约70℃、约10℃至约65℃、约15℃至约60℃、约20℃至约60℃、约20℃至约55℃、约30℃至约55℃、或约40℃至约50℃的温度。在一些实施方案中，合适的反应温度包括约10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃或70℃的温度。在一些实施方案中，酶促反应期间的温度可以贯穿反应过程保持在一定温度。在一些实施方案中，酶促反应期间的温度可以在反应过程期间调整为温度曲线。

在方法的一些实施方案中，合适的反应条件还可包括还原型辅因子、烟酰胺腺嘌呤二核苷酸(NADH)的存在，其可起作用以限制转氨酶的失活(参见例如，van Ophem等人,1998,Biochemistry 37(9):2879-88)。在其中存在NADH的此类实施方案中，辅因子再生系统诸如葡萄糖脱氢酶(GDH)和葡萄糖或甲酸脱氢酶和甲酸可被用来再生反应介质中的NADH。

使用工程化转氨酶的方法通常在溶剂中进行。合适的溶剂包括水、水性缓冲溶液、有机溶剂和/或共溶剂系统，共溶剂系统通常包括水性溶剂和有机溶剂。水性溶液(水或水性共溶剂系统)可为pH-缓冲的或非缓冲的。在一些实施方案中，使用工程化转氨酶多肽的方法通常地于包含以下的水性共溶剂系统中进行：有机溶剂(例如，乙醇、异丙醇(IPA))、二甲基亚砜(DMSO)、乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔-丁基醚(MTBE)、甲苯等)、离子液体(例如，四氟硼酸1-乙基4-甲基咪唑、四氟硼酸1-丁基-3-甲基咪唑、六氟磷酸1-丁基-3-甲基咪唑等)。水性共溶剂系统中的有机溶剂组分可与水性组分混溶，提供单一的液相，或可与水性组分部分混溶或不混溶，提供双液相。示例性的水性共溶剂系统包含水和一种或多种有机溶剂。通常，选择水性共溶剂系统的有机溶剂组分以便其不会完全使转氨酶失活。通过用候选溶剂系统中的感兴趣的确定的底物并利用诸如本文描述的酶活性测定而测量特定的工程化的转氨酶的酶活性，合适的共溶剂系统可被容易地鉴定。在方法的一些实施方案中，合适的反应条件包括水性共溶剂，所述水性共溶剂包含约1％至约80％(v/v)、约1％至约70％(v/v)、约2％至约60％(v/v)、约5％至约40％(v/v)、10％至约40％(v/v)、10％至约30％(v/v)或约10％至约20％(v/v)的浓度的DMSO。在方法的一些实施方案中，合适的反应条件包括含有至少约1％、5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％或80％(v/v)的浓度的DMSO的水性共溶剂。

合适的反应条件可包括提供将底物化合物生物催化转化成其相应的产物化合物的反应参数的组合。相应地，在方法的一些实施方案中，反应参数的组合包括：(a)约10g/L至200g/L底物化合物(例如，化合物(2))的底物载量；(b)约0.5g/L至5g/L的工程化多肽浓度；(c)约0.1M至3M的IPM浓度；(d)约0.1mM至1mM的PLP辅因子浓度；(e)约30％(v/v)至约60％(v/v)的DMSO浓度；(f)约9.5至11.5的pH；和(g)约45℃至60℃的温度。

在一些实施方案中，反应参数的组合包括：(a)约50g/L的底物化合物(例如，化合物(2))；(b)约2g/L的工程化多肽；(c)约50％(v/v)的二甲基亚砜(DMSO)；(d)约1M的异丙胺(IPM)；(e)约1mM的磷酸吡哆醛(PLP)；(f)约pH 10；和(g)约50℃。

在一些实施方案中，反应参数的组合包括：(a)约50g/L的底物化合物(例如，化合物(2))；(b)约1g/L的工程化多肽；(c)约50％(v/v)的二甲基亚砜(DMSO)；(d)约1M的异丙胺(IPM)；(e)约1mM的磷酸吡哆醛(PLP)；(f)约pH 11；和(g)约55℃。

在一些实施方案中，反应参数的组合包括：(a)约50g/L的底物化合物(例如，化合物(2))；(b)约0.5g/L的工程化多肽；(c)约50％(v/v)的二甲基亚砜(DMSO)；(d)约2M的异丙胺(IPM)；(e)约1mM的磷酸吡哆醛(PLP)；(f)约pH 11.5；和(g)约55℃。

另外的示例性反应条件包括在表2A、2B和2C以及实施例1中提供的测定条件。

在进行本文描述的转氨反应时，工程化的转氨酶多肽可以部分地纯化的或纯化的酶、用编码酶的基因转化的完整细胞、和/或此类细胞的细胞提取物和/或裂解物的形式加入至反应混合物中。用编码工程化的转氨酶的基因转化的完整细胞，或其细胞提取物、其裂解物，以及分离的酶可以多种不同的形式使用，包括固体(例如，冻干的、喷雾干燥的等)或半固体(例如，粗糊状物)。细胞提取物或细胞裂解物可通过沉淀(例如，硫酸铵、聚乙烯亚胺、热处理或类似处理)部分纯化，之后在冻干前进行除盐程序(例如，超滤、透析及类似程序)。任何酶制品可通过使用已知的交联剂诸如，例如戊二醛交联或固定到固相材料(例如，树脂、珠诸如壳聚糖、Eupergit C、SEPABEAD等)而被稳定化。

在本文描述的转氨反应的一些实施方案中，反应在本文描述的合适的反应条件下进行，其中工程化转氨酶多肽被固定至固体支持物上。可用于固定进行转氨反应的工程化转氨酶的固体支持物包括但不限于珠或树脂，所述珠或树脂包含具有环氧官能团的聚甲基丙烯酸酯、具有氨基环氧官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或具有十八烷基官能团的聚甲基丙烯酸酯。示例性固体支持物包括但不限于壳聚糖珠、Eupergit C和SEPABEAD(Mitsubishi)，包括以下不同类型的SEPABEAD：EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，其中工程化多肽可以分泌多肽的形式被表达，含有该分泌多肽的培养基可被用于本文的方法中。

在一些实施方案中，固体反应物(例如，酶、盐等)可以各种不同的形式提供给反应，包括粉末(例如，冻干的、喷雾干燥的等)、溶液、乳液、悬浮液等。反应物可使用为本领域普通技术人员共知的方法和仪器容易地冻干或喷雾干燥。例如，蛋白质溶液可以小量冷冻于-80℃，然后加入至预冷却的冻干室内，之后应用真空。

在一些实施方案中，加入反应物的顺序并不关键。反应物可同时一起加入至溶剂中(例如，单相溶剂、双相水性共溶剂体系等)，或者可选择地，一些反应物可分别地加入，以及一些在不同的时间点一起加入。例如，辅因子、转氨酶和转氨酶底物可首先加入溶剂中。为了当使用水性共溶剂系统时的改进的混合效率，转氨酶和辅因子可首先加入和混合入水相中。然后可加入和混合有机相，然后添加转氨酶底物。可选择地，转氨酶底物可在添加至水相之前在有机相中预混合。

在一些实施方案中，该方法还可包括去除当氨基被转移到式(II)、(IIa)、化合物(2)或化合物(4)的底物化合物时从氨基供体形成的羰基副产物的步骤。这种原位去除可减少逆反应率，从而正向反应占主导，且然后更多底物被转化为产物。羰基副产物的去除可以许多方式进行。当氨基供体是氨基酸诸如丙氨酸时，羰基副产物酮酸可通过与过氧化物反应来去除(参见例如，美国专利公布2008/0213845A1，通过引用并入本文)。可使用的过氧化物包括，除了其他以外，过氧化氢；过氧酸类(过酸)诸如过乙酸(CH₃CO₃H)、三氟过乙酸和间氯过氧苯甲酸；有机过氧化物诸如叔丁基过氧化物((CH₃)₃COOH)或其他选择性氧化剂诸如四丙基过钌酸铵、MnO₂、KMnO₄、四氧化钌和相关化合物。可选地，丙酮酸的去除可通过采用乳酸脱氢酶将其还原为乳酸来实现，以将平衡转向产物胺(参见如，Koszelewski等，2008,Adv.Syn.Catal.350:2761-2766)。丙酮酸的去除还可通过利用丙酮酸脱羧酶将其脱羧为二氧化碳和乙醛来实现(参见如，

等，2008,ChemBioChem.9:363-365)。

在一些实施方案中，当选择的氨基供体产生的羰基副产物比水的蒸气压高时(例如，低沸点副产品诸如挥发性有机羰基化合物)，羰基副产物可通过向反应溶液充入非反应性气体，或通过施加真空来降低反应压力，并去除气相中存在的羰基副产物来去除。非反应性气体是不与反应组分起反应的任何气体。各种非反应性气体包括氮气和稀有气体(例如，惰性气体)。在一些实施方案中，非反应性气体是氮气。在一些实施方案中，该方法中使用的氨基供体是异丙胺(IPM)，其在向氨基受体转移氨基后形成羰基副产物丙酮。丙酮可通过向反应溶液充入氮气或施加真空，并通过丙酮捕集器，诸如冷凝器或其他冷捕集器从气相去除丙酮来去除。可选地，丙酮可通过利用酮还原酶还原为异丙醇来去除。

在其中去除羰基副产物的方法的一些实施方案中，在转氨基反应期间可加入相应氨基供体以补充氨基供体和/或维持反应的pH。补充氨基供体还将平衡向产物形成转移，从而增加底物向产物的转化。因此，在其中氨基供体是IPM并且丙酮产物被原位去除的一些实施方案中，方法还可包括向反应溶液加入IPM以补充丙酮去除期间失去的氨基供体并维持反应的pH(例如，在约8.5至约pH 11.5)的步骤。

在一些实施方案中，还构思了，包括使用本公开内容的转氨酶多肽将胺受体底物化合物生物催化转化成手性胺产物化合物的方法还可包括形成药学上可接受的盐或酸、药学上可接受的制剂、检查产物，提取，分离，纯化和/或结晶的步骤，其每个可在条件的范围下进行。

在一些实施方案中，使用本文公开的工程化多肽的方法可被执行，其中所述方法还包括从反应分离式(I)的化合物、式(Ia)的化合物、化合物(1)或化合物(3)的步骤。

在一些实施方案中，使用本文公开的工程化多肽的方法可被执行，其中所述方法还包括通过使式(I)的化合物、式(Ia)的化合物、化合物(1)或化合物(3)在合适的反应溶剂中与药学上可接受的酸接触来将所述化合物转化成药学上可接受的盐的步骤。在所述方法的一些实施方案中，药学上可接受的酸是磷酸且所述药学上可接受的盐是磷酸二氢盐。在一些实施方案中，所述方法还包括从反应溶剂结晶药学上可接受的盐的步骤。

如以上提到的，化合物(1)是

中的活性药物成分西他列汀。相应地，本文公开的使用工程化多肽制备化合物(1)和/或其药学上可接受的酸或盐的方法可在用于产生

在一些实施方案中，本公开内容还提供了用于制备化合物(3)或化合物(3)的药学上可接受的盐或酸的方法，其中所述方法包括通过在合适的反应条件下在氨基供体的存在下使底物化合物(4)或用保护基团修饰的化合物(4)的底物与如本文公开的工程化多肽接触，来将底物化合物(4)或用保护基团修饰的化合物(4)的底物转化成产物化合物(3)的步骤。

用于从通过以上公开的方法产生的生物催化反应混合物提取、分离、形成其盐、纯化和/或结晶胺化产物化合物或环化化合物的方法、技术和方案对于本领域技术人员是已知的和/或通过常规实验可达到。另外，在以下实施例中提供了例证性方法。

本公开内容的不同的特征和实施方案示例于以下代表性的实施例中，其意图是例证性的而不是限制性的。

实施例

实施例1：工程化多肽的合成、优化和筛选

A.基因获取和优化

编码SEQ ID NO:2的参考工程化多肽的密码子优化和工程化转氨酶基因(SEQ IDNO:1)被用作定向进化的起始骨架，以生成编码SEQ ID NO:4-306的偶数序列号的具有转氨酶活性的工程化多肽的基因，SEQ ID NO:4-306的具有转氨酶活性的工程化多肽每个能以相对于它和/或SEQ ID NO:2的参考多肽改进的酶特性将底物化合物(2)转化成产物化合物(1)。本公开内容的SEQ ID NO:1的基因和SEQ ID NO:2的多肽对应于2012年10月23日授权的US 8,293,507 B2的SEQ ID NO:109和110。SEQ ID NO:2的工程化转氨酶多肽相对于野生型节杆菌属种KNK168多肽序列(GenBank登录号:BAK39753.1；GI:336088341)具有以下28个氨基酸差异：S8P、Y60F、L61Y、H62T、V65A、V69T、D81G、M94I、I96L、F122M、S124T、S126T、G136F、Y150S、V152C、A169L、V199I、A209L、G215C、G217N、S223P、L269P、L273Y、T282S、A284G、P297S、I306V和S321P。将SEQ ID NO:1在pCK110900载体系统(参见例如，美国专利申请公布2006/0195947A1)中克隆以及随后的在大肠杆菌W3110fhuA中的表达被描述于2012年10月23日授权的US 8,293,507 B2中。简而言之，大肠杆菌W3110在lac启动子的控制下将转氨酶多肽表达为细胞内蛋白。多肽主要作为可溶的胞质活性酶累积。定向进化的标准方法经由通过基因合成的迭代变体文库生成，然后通过击中的筛选和测序以生成本文公开的基因序列SEQ ID NO:1的工程化变体。用于初级筛选的HTP测定利用来自这些大肠杆菌W3110细胞的清澈的细胞裂解物进行(参见表2A和以下)。

B.HTP测定

表达工程化多肽的大肠杆菌细胞通过添加pH 8.5的包含0.1M TEA缓冲液、1g/L溶菌酶和0.5g/L硫酸多粘菌素B以及0.25mM PLP的200μL裂解缓冲液来裂解，然后在室温下摇动(以250rpm)持续2h。通常的HTP活性测定条件为：50g/L底物化合物(2)、1mM或1.2mM PLP、50％(v/v)DMSO、20μL或40μL清澈的细胞裂解物(包含表达的工程化多肽)、1.5M或2M IPM、pH 11或pH 11.5，并在200rpm和55℃下摇动持续4h或18h。通过添加1mL乙腈并摇动持续5分钟来猝灭测定反应，然后在4000x g、18℃下对板离心10min。在表2A中记录了特定的裂解和测定反应条件。

C.SFP制品和测定

除了用于初级筛选的HTP测定之外，在一些情况中第二筛选使用工程化转氨酶多肽的摇瓶粉末(SFP)制品以5mL规模进行。摇瓶粉末(SFP)包括大约30％的总蛋白并且相应地提供与在HTP测定中使用的细胞裂解物相比更纯的工程化的酶的制品。

为了制备SFP，将包含编码所感兴趣的工程化转氨酶的质粒的大肠杆菌的单个微生物菌落接种于含有30μg/ml氯霉素(CAM)和1％葡萄糖的50mL Luria Bertani肉汤中。在250rpm摇动下，使细胞在30℃培养箱中生长过夜(至少16小时)。在1000mL烧瓶中，将培养基稀释入包含30μg/ml CAM和100mM吡哆辛的250mL 2xYT培养基(Difco)中，至在600nm(OD₆₀₀)下0.1的光学密度，并且允许在30℃下生长。当培养物的OD₆₀₀为0.6至0.8时，工程化转氨酶基因的表达通过添加异丙基-β-D-硫代半乳糖苷(“IPTG”)至1mM的终浓度来诱导。然后继续孵育过夜(至少16小时)。通过离心(5000rpm，30min，5℃)收集细胞并弃去上清液。用包含100μM吡哆醛5'磷酸的pH 8.5的12mL冷的(4℃)50mM磷酸钾缓冲液重悬细胞团，并在保持4℃的同时通过16kpsi的单杆破碎仪(one shot disrupter)(Constant System Ltd)一次。通过离心(10000rpm、40分钟、5℃)去除细胞碎片。收集清澈的裂解物上清液并贮存于-80℃。冷冻的清澈裂解物的冻干提供粗转氨酶多肽的干燥摇瓶粉末。可选地，细胞团(洗涤之前或之后)可贮存在4℃或-80℃。

一般性SFP测定在5mL的总体积中包含以下起始反应混合物：50g/L的化合物(2)的底物、0.5g/L、1g/L或2g/L的工程化多肽SFP、1mM或1.2mM PLP、1M或2M IPM、50％(v/v)DMSO、以及0.05M TEA缓冲液。SFP反应条件为：pH 10和50℃；pH 11.5和55℃；或pH 11.5和60℃。SFP测定反应时间为2h或24h，同时在250rpm下用磁搅拌器搅拌。

SFP测定的一般性方案如下。如下每日制备储备溶液(预混液)用于每组实验：在无菌水中的0.5mL 10mM或12mM PLP、0.82mL IPM、2.5mL DMSO以及50g/L浓度的底物化合物(2)。用37％HCl调节预混溶液的pH。通过将12.5mg、25mg或50mg的多肽的SFP溶解于0.5mLTEA缓冲液(0.1M,pH 8.5)中来制备25g/L、50g/L或100g/L的工程化多肽储备溶液。

对于每个实验，将4.9mL预混储备溶液添加至玻璃螺帽小瓶。紧闭小瓶并用磁力搅拌器在250rpm下加热至50℃、55℃或60℃。将在0.2M硼酸盐pH 10.5中的酶粉末的100μL溶液添加至反应混合物。紧闭小瓶并且反应允许继续搅拌持续2h或24h。在2h或24h后通过添加20mL乙腈来猝灭反应。

D.DSP制品和测定

工程化转氨酶多肽的DSP粉末按照如下制备：根据标准生物处理方法进行短的批次发酵，然后进料批次过程，其中将5mM吡哆辛HCl添加至进料和发酵培养基。简而言之，转氨酶多肽表达通过添加IPTG至1mM的终浓度来诱导。发酵之后，收集细胞并在pH 7.5的100mM TEA缓冲液中重悬，然后通过转氨酶多肽均化作用机械地破裂。细胞碎片和核酸用聚乙烯亚胺(PEI)絮凝并且将悬浮液通过离心澄清。利用切向错流超滤膜浓缩得到的清澈的上清液以移除盐和水。然后在冻干器中干燥浓缩的且部分地纯化的酶浓缩液，以提供DSP粉末，其被包装于容器中(例如，聚乙烯)。

利用以上针对SFP活性测定描述的相同的方法以5mL规模进行DSP活性测定，仅有的差别是工程化多肽DSP的终测定浓度仅为0.5g/L或1.0g/L。

E.测定的HPLC分析

如以上描述的运行HTP、SFP或DSP测定之后，利用如在例如US8,293,507B2的实施例4中(还参见：Savile等人,2010,“Biocatalytic asymmetric synthesis of chiralamines from ketones applied to sitagliptin manufacture,”Science 329(5989):305-9以及在线支持材料)描述的标准非手性和手性HPLC分析方法分析来自乙腈猝灭的测定反应溶液的样品，以确定化合物(2)的底物至化合物(1)的产物的转化百分比以及产物的立体异构体纯度(即，％e.e.)。

简而言之，化合物(2)的底物至化合物(1)的转化百分比利用安装有AgilentEclipse XDB-C8柱(4.6x150mm、5μm)的Agilent 1200HPLC，使用1.5ml/min流速的45:5510mM NH₄Ac/MeCN作为洗脱剂以及柱温40℃来确定。保留时间：底物化合物(2)＝1.7min；化合物(1)＝1.4min。洗脱液中的底物和产物按照1cm的路径长度下在210nm或286nm的峰面积来确定。

利用安装有Daicel Chiralpak AD-H柱(4.6x150mm,5μm)的Agilent1200HPLC使用0.8ml/min流速的60:40:0.1:0.1EtOH/庚烷/二乙胺/水作为洗脱剂以及35℃的柱温来确定化合物(1)的立体异构纯度。保留时间：底物化合物(2)＝6.3min；(S)-对映体产物化合物＝8.4min；化合物(1)＝10.8min。底物和产物被按照1cm的路径长度下在210nm或268nm的峰面积。

F.结果

在表2A、2B和2C中提供了针对本公开内容的具有转氨酶活性的特定工程化多肽的HTP、SFP和DSP制品的比活性、稳定性和立体纯度测定的结果。

本申请中提到的所有出版物、专利、专利申请和其他文件为了所有目的特此通过引用其全部并入，如同每个单独的出版物、专利、专利申请或其他文件为了所有目的单独指明通过引用并入。

虽然已说明和描述了多种具体实施方案，将应理解，可作出各种改变而不偏离本发明的精神和范围。

Claims

1.一种工程化多肽，所述工程化多肽具有转氨酶活性，所述工程化多肽包含与参考序列SEQ ID NO:2具有至少80％的序列同一性且具有以下的氨基酸序列

(a)与SEQ ID NO:2相比选自X33L、X36C、X41C/F/K/M/N/R、X42、X48D/E/G/K/T、X51K、X54、X76S、X122F/Q、X148Q、X152T、X155A/I/K/T/V、X156R、X160P、X215G/H/L、X241R、X270T、X273H、X325M和X241R的氨基酸残基差异；或

(b)选自以下的残基差异的组合：X42G、X54P、X152S和X155T；X42G、X54P、X152S、X155T和R164P；X42G、X54P、X150F、X152S和X155T；X42G、X54P、X150F、X152S、X155T和X267V；X42G、X54P、X150F、X152S、X155L、W156Q和C215G；X42G、X54P、X150F、X152S、X155T、X215G和X267V；X33L、X42G、X54P、X117G；X150F、X152S、X155I、X156Q和C215G；X41K、X42G、X54P、X150F、X152S、X155K、X156Q和C215G；X33L、X42G、X54P、X109S、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X33L、X42G、X54P、X150F、X152S、X155K、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q和X215H；X33L、X42G、X54P、X150F、X152S、X155L、X156Q、X215H和X241R；X41F、X42G、X54P、X122Q、X150F、X152T、X155V、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X41F、X42G、X54P、X150F、X152S、X155I、X156Q、V171I和X215G；X41F、X42G、X54P、X150F、X152S、X155I、X156Q和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q、X171I和X215G；X41F、X42G、X54P、X150F、X152S、X155L、X156Q和X215G；X42G、X48G、X54P、X150F、X152S、X155L、X156Q和X215H；X42G、X54P、X60V、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X68A、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X69S、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X122Q、X150F、X152S、X155I、X156Q、X215G和X241R；X42G、X54P、X122Q、X150F、X152S、X155L、X156Q、X171I、X215G和X241R；X42G、X54P、X122Q、X150F、X152T、X155V、X156Q、X171I、X215G和X241R；X42G、X54P、X126M、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X135I、X136Y、X150F、X152S、X155L、X156Q、X192F和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q和X215G；X42G、X54P、X136I、X150F、X152S、X155L、X156Q、X215G和X224I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G、X282V和X284I；X42G、X54P、X136I、X150F、X152S、X155L、X156Y、X215G和X284P；X42G、X54P、X136Y、X150F、X152S、X155L、X156Q、X215G、X282V和X284P；X42G、X54P、X150F、X152S、X155I、X156Q、X171I、X215G和X241R；X42G、X54P、X150F、X152S、X155L、X156Q、X193M和X215G；X42G、X54P、X150F、X152S、X155L、X156Q、X215G、X282V和X284I；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X283S；X42G、X54P、X150F、X152S、X155L、X156Q、X215G和X284I；X42G、X54P、X150F、X152S、X155L、X156Y和X215G。

2.一种工程化多肽，所述工程化多肽具有转氨酶活性，所述工程化多肽包含与参考序列SEQ ID NO:2具有至少80％的序列同一性且具有以下的氨基酸序列

(a)与SEQ ID NO:2相比选自G36C、I41C、I41F、I41K、I41M、I41N、I41R、E42G、P48D、P48E、P48G、P48K、P48T、A51K、S54P、M122F、M122Q、Y148Q、C152T、Q155A、Q155I、Q155K、Q155T、Q155V、C215H、C215L、Y273H、L325M和A241R的氨基酸残基差异；或

(b)选自以下的残基差异的组合：A5K、E42G、S49T、S54P、C152S、Q155T和W156Q；P33L、I41C、E42G、S54P、S150F、C152S、Q155K、F160P和C215G；P33L、I41K、E42G、S54P、S150F、C152S、Q155I、F160P和C215L；P33L、E42G、P48G、S54P、S150F、C152S、Q155T和C215H；P33L、E42G、S54P、A109S、S150F、C152S、Q155K、W156Q和C215H；P33L、E42G、S54P、E117G、S150F、C152S、Q155I、W156Q和C215G；P33L、E42G、S54P、S150F、C152S、Q155I、W156Q和C215G；P33L、E42G、S54P、S150F、C152S、Q155K、W156Q和C215H；P33L、E42G、S54P、S150F、C152S、Q155L、W156Q和C215H；P33L、E42G、S54P、S150F、C152S、Q155L、W156Q、C215H和A241R；G36C、E42G、P48G、S54P、S150F、C152S、Q155I和C215H；G36C、E42G、P48K、S54P、S150F、C152S、Q155T和C215H；G36C、E42G、S54P、S150F、C152S、Q155I、C215H和A241R；G36C、E42G、S54P、S150F、C152S、Q155K、C215H和A241R；G36C、E42G、S54P、S150F、C152S、Q155T和A241R；G36C、E42G、S54P、S150F、C152S、Q155V和C215H；I41C、E42G、S49T、S54P、S150F、C152S、Q155I、F160P、C215G和I267V；I41C、E42G、S49T、S54P、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、I108V、S150F、C152S和Q155K；I41C、E42G、S54P、I108V、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、I108V、S150F、C152S、Q155T、W156Q和C215G；I41C、E42G、S54P、E117G、S150F、C152S、Q155K和F160P；I41C、E42G、S54P、E117G、S150F、C152S、Q155K和C215L；I41C、E42G、S54P、E117G、S150F、C152S、Q155L和C215L；I41C、E42G、S54P、S150F、C152S、Q155I和C215G；I41C、E42G、S54P、S150F、C152S、Q155I和C215L；I41C、E42G、S54P、S150F、C152S、Q155K、W156Q、C215G和I267V；I41C、E42G、S54P、S150F、C152S、Q155K和C215L；I41C、E42G、S54P、S150F、C152S、Q155K和C215G；I41C、E42G、S54P、S150F、C152S、Q155L、F160P、C215G和I267V；I41C、E42G、S54P、S150F、C152S、Q155T、W156Q、F160P和C215L；I41C、E42G、S54P、S150F、C152S、Q155T、W156Q和C215L；I41F、E42G、S54P、M122Q、S150F、C152T、Q155V、W156Q和C215G；I41F、E42G、S54P、S150F、C152S、Q155L、W156Q、V171I和C215G；I41F、E42G、S54P、S150F、C152S、Q155L、W156Q、V171I、C215G和A241R；I41F、E42G、S54P、S150F、C152S、Q155I、W156Q和C215G；I41K、E42G、P48E、S54P、S150F、C152S、Q155K和W156Q；I41K、E42G、P48E、S54P、S150F、C152S、Q155L和C215L；I41K、E42G、S54P、I108V、E117G、S150F、C152S、Q155K和C215L；I41K、E42G、S54P、I108V、S150F、C152S、Q155T和C215G；I41K、E42G、S54P、E117G、S150F、C152S、Q155L和C215G；I41K、E42G、S54P、E117G、S150F、C152S、Q155K、C215L和I267V；I41K、E42G、S54P、S150F、C152S、Q155K、W156Q和C215G；I41K、E42G、S54P、S150F、C152S、Q155K、F160P、C215G和I267V；I41K、E42G、S54P、S150F、C152S、Q155K和C215L；I41K、E42G、S54P、S150F、C152S和Q155T；I41K、E42G、S54P、S150F、C152S、Q155T和F160P；I41K、E42G、S54P、S150F、C152S、Q155T和C215G；I41K、E42G、S54P、S150F、C152S、Q155T、C215G和I267V；I41K、E42G、S54P、S150F、C152S、Q155K、W156Q和C215G；I41N、E42G、S54P、S150F、C152S、Q155I和F160P；I41N、E42G、S54P、E117G、S150F、C152S、Q155T和W156Q；I41N、S49T、E42G、S54P、S150F、C152S、Q155L、F160P、D165N和C215L；E42A、A44Q、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、A44Q、S54P、I108V、S150F、C152S和Q155T；E42G、A44Q、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、A44Q、S54P、S150A、C152S和Q155T；E42G、A44Q、S54P、S150F、C152S和Q155T；E42G、P48G、S54P、S150F、C152S、Q155L、W156Q和C215H；E42G、P48G、S54P、S150F、C152S和Q155T；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155L、F160P和C215L；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155K、W156Q和C215G；E42G、S49T、S54P、I108V、E117G、S150F、C152S、Q155T、W156Q、C215G和I267V；E42G、S49T、S54P、C152S、Q155T和W156Q；E42G、S54P、I55L、T126A、C152S、Q155T、L218M和A270T；E42G、S54P、F60V、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、T68A、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、T69S、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、N76S、T126A、C152S、Q155T、S182T、L218M、A270T和V328I；E42G、S54P、I108V、S150F、C152S、Q155K和C215H；E42G、S54P、I108V、S150F、C152S和Q155T；E42G、S54P、I108V、S150F、C152S、Q155T和I267V；E42G、S54P、I108V、S150F、C152S、Q155V、W156Q和F160P；E42G、S54P、E117G、C152S和Q155T；E42G、S54P、E117G、C152S、Q155T和W156Q；E42G、S54P、M122Q、S150F、C152S、Q155I、W156Q、C215G和A241R；E42G、S54P、M122Q、S150F、C152S、Q155L、W156Q、V171I、C215G和A241R；E42G、S54P、M122Q、S150F、C152T、Q155V、W156Q、V171I、C215G和A241R；E42G、S54P、T126M、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、P135I、F136Y、S150F、C152S、Q155L、W156Q、W192F和C215G；E42G、S54P、F136I、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、F136I、S150F、C152S、Q155L、W156Q、C215G和G224I；E42G、S54P、F136I、S150F、C152S、Q155L、W156Y、C215G、S282V和G284I；E42G、S54P、F136I、S150F、C152S、Q155L、W156Y、C215G和G284P；E42G、S54P、F136Y、S150F、C152S、Q155L、W156Q、C215G、S282V和G284P；E42G、S54P、S150A、C152S、Q155T和I267V；E42G、S54P、S150F、C152S、Q155I、W156Q、F160P、C215L和I267V；E42G、S54P、S150F、C152S、Q155I、W156Q、V171I、C215G和A241R；E42G、S54P、S150F、C152S、Q155I、W156Q和C215L；E42G、S54P、S150F、C152S、Q155I、F160P和C215G；E42G、S54P、S150F、C152S、Q155I和C215H；E42G、S54P、S150F、C152S、Q155K和W156Q；E42G、S54P、S150F、C152S、Q155K、W156Q和I267V；E42G、S54P、S150F、C152S、Q155L、W156Q、G193M和C215G；E42G、S54P、S150F、C152S、Q155L、W156Q和C215G；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G、S282V和G284I；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G和T283S；E42G、S54P、S150F、C152S、Q155L、W156Q、C215G和G284I；E42G、S54P、S150F、C152S、Q155L、W156Y和C215G；E42G、S54P、S150F、C152S、Q155L和C215H；E42G、S54P、S150F、C152S和Q155T；E42G、S54P、S150F、C152S、Q155T、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和I267V；E42G、S54P、S150F、C152S、Q155T、W156Q、F160P、C215L和I267V；E42G、S54P、S150F、C152S、Q155T、W156Q、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和W156R；E42G、S54P、S150F、C152S、Q155T、F160P和C215G；E42G、S54P、S150F、C152S、Q155T、F160P和C215L；E42G、S54P、S150F、C152S、Q155T、C215G和I267V；E42G、S54P、S150F、C152S、Q155T和I267V；E42G、S54P、C152S、Q155I和W156S；E42G、S54P、C152S、Q155K和W156S；E42G、S54P、C152S、Q155L和W156S；E42G、S54P、C152S和Q155T；E42G、S54P、C152S、Q155T和F160P；E42G、S54P、C152S、Q155T和R164P；E42G、S54P、C152S、Q155T和W156Q；E42G、S54P、C152S、Q155T和W156S；E42G、S54P、C152S、Q155T和R164P；E42G、S54P、C152S、Q155T、S182T、L218M和A270T；E42G、S54P、C152S、Q155T和C215G；E42G、S54P、C152S、Q155T和C215L；以及E42G、S54P、C152S、Q155V和W156S。

3.一种工程化多肽，所述工程化多肽具有转氨酶活性，所述工程化多肽包含与参考序列SEQ ID NO:2具有至少80％的序列同一性且具有与SEQ ID NO:2相比为X42A/G和X155A/I/K/T/V/L的氨基酸残基差异的氨基酸序列。

4.一种工程化多肽，所述工程化多肽具有转氨酶活性，所述工程化多肽包含与参考序列SEQ ID NO:2具有至少80％的序列同一性且具有以下的氨基酸序列

(a)与SEQ ID NO:2相比为X42A/G和X155A/I/K/T/V/L的残基差异和与SEQ ID NO:2相比选自以下的氨基酸残基差异：G36C、I41C、I41F、I41K、I41M、I41N、I41R、P48D、P48E、P48G、P48K、P48T、A51K、S54P、M122F、M122Q、Y148Q、C152T、C215H、C215L、Y273H、L325M和A241R；或

5.一种工程化多肽，所述工程化多肽具有转氨酶活性，其中所述工程化多肽包含氨基酸序列，其中所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为Q155T/I/V/K/A/L和E42A/G，或者所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为Q155T/I/V/K/A/L、E42A/G和选自以下的2-10个氨基酸残基差异：A5K、P33L、G36C、I41C/F/K/N、A44Q、P48E/G/K、S49T、S54P、I55L、F60V、T68A、T69S、N76S、I108V、A109S、E117G、M122Q、T126A/M、P135I、F136I/Y、S150A/F、C152S/T、W156Q/S/Y/R、F160P、R164P、D165N、V171I、S182T、W192F、G193M、C215G/H/L、L218M、G224I、A241R、I267V、A270T、S282V、T283S、G284I/P和V328I。

6.根据权利要求5所述的工程化多肽，其中所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为Q155I/K/L/V和E42G与选自以下的3-10个氨基酸残基差异：P33L、G36C、I41C/F/K/N、P48E/G/K、S49T、S54P、F60V、T68A、T69S、I108V、A109S、E117G、M122Q、T126M、P135I、F136I/Y、S150F、C152S/T、W156Q/S/Y、F160P、D165N、V171I、W192F、G193M、C215G/H/L、G224I、A241R、I267V、S282V、T283S和G284I/P。

7.根据权利要求6所述的工程化多肽，其中所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为E42G、S54P、C152S/T、Q155I/K/L/V和选自以下的1-6个氨基酸残基差异：P33L、G36C、I41C/F/K/N、P48E/G/K、S49T、F60V、T68A、T69S、I108V、A109S、E117G、M122Q、T126M、P135I、F136I/Y、S150F、W156Q/S/Y、F160P、D165N、V171I、W192F、G193M、C215G/H/L、G224I、A241R、I267V、S282V、T283S和G284I/P。

8.根据权利要求5所述的工程化多肽，其中所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为Q155T和E42A/G与选自以下的2-10个氨基酸残基差异：A5K、P33L、G36C、I41K/N、A44Q、P48G/K、S49T、S54P、I55L、N76S、I108V、E117G、T126A、S150A/F、C152S、W156Q/R/S、F160P、R164P、S182T、C215H、L218M、A241R、I267V、A270T和V328I。

9.根据权利要求8所述的工程化多肽，其中所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为E42A/G、S54P、C152S、Q155T与选自以下的1-6个氨基酸残基差异：A5K、P33L、G36C、I41K/N、A44Q、P48G/K、S49T、I55L、N76S、I108V、E117G、T126A、S150A/F、W156Q/R/S、F160P、R164P、S182T、C215H、L218M、A241R、I267V、A270T和V328I。

10.一种工程化多肽，所述工程化多肽具有转氨酶活性，其中所述工程化多肽包含氨基酸序列，其中所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为E42G、S54P、S150F、C152S、Q155L、W156Q/Y和C215G；或所述氨基酸序列与参考序列SEQ ID NO:2之间的氨基酸残基差异为E42G、S54P、S150F、C152S、Q155L、W156Q/Y、C215G与选自以下的1-3个氨基酸残基差异：I41F、F60V、T68A、T69S、M122Q、T126M、P135I、F136I/Y、V171I、W192F、G193M、G224I、A241R、S282V、T283S和G284I/P。