CN106232619B

CN106232619B - 工程化的亚胺还原酶和用于酮和胺化合物的还原胺化的方法

Info

Publication number: CN106232619B
Application number: CN201480073005.5A
Authority: CN
Inventors: 尼古拉斯·J·阿加德; 奥斯卡·阿尔维左; 美利莎·安·梅奥; 斯特法妮·额迈纳; 詹姆斯·尼古拉斯·里金斯; 杰弗里·C·穆尔
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2013-11-13
Filing date: 2014-11-12
Publication date: 2022-09-09
Anticipated expiration: 2034-11-12
Also published as: CA2929664A1; CA2929664C; WO2015073555A1; IL245453B; EP3068793A1; CN106232619A; US9822346B2; US20150132807A1; DK3068793T3; US20210301266A1; US20190345458A1; JP6643987B2; JP2016536990A; EP3068793B1; EP3068793A4; IL245453A0; US10407668B2; US20180030419A1; US11060072B2; HUE053379T2

Abstract

本申请提供了具有亚胺还原酶活性的工程化的多肽、编码所述工程化的亚胺还原酶的多核苷酸、能够表达所述工程化的亚胺还原酶的宿主细胞以及使用这些工程化的多肽与一系列酮和胺底物化合物制备仲胺和叔胺产物化合物的方法。

Description

工程化的亚胺还原酶和用于酮和胺化合物的还原胺化的方法

本申请要求2013年11月13日提交的美国临时专利申请系列号61/903,772、2014年7月9日提交的美国临时专利申请系列号62/022,315和2014年7月9日提交的美国临时专利申请系列号62/022,323的优先权，为了所有目的所述专利的每个通过引用全文并入。

技术领域

本发明涉及工程化的多肽，所述工程化的多肽具有用于将多种酮和胺底物转化为仲胺产物和叔胺产物的亚胺还原酶活性。

序列表、表格或计算机程序的引用

序列表的正式副本作为ASCII格式化文本文件与说明书经EFS-Web同时被提交，具有文件名“CX2-136USP2A_ST25.txt”，创建日期2014年7月8日，且大小为2,171千字节。经EFS-Web提交的序列表是说明书的一部分且通过引用全部并入本文。

背景

手性仲胺和叔胺是制药业中重要的基础材料。不存在有效的已知产生这类手性胺化合物的生物催化途径。现存的化学方法使用手性硼试剂或者多步合成。

在仲胺的生物催化合成的文献中存在一些报道。报道了厌氧细菌伍氏醋酸杆菌(Acetobacterium woodii)全细胞还原次苄基亚胺和次丁基亚胺的亚胺还原酶活性(Chadha等,Tetrahedron:Asym.,19:93-96[2008])。另一个报道使用伍氏醋酸杆菌的全细胞使用水性介质中的苯甲醛或丁醛和丁胺或苯胺(Stephens等,Tetrahedron 60:753-758[2004]))。报道了链霉菌属(Streptomyces sp.)GF3587和GF3546立体选择性地还原2-甲基-1-吡咯啉(Mitsukara等,Org.Biomol.Chem.8:4533-4535[2010])。

在开发用于这种类型的反应的生物催化途径中的一个挑战是鉴定能够被工程化以提供在工业应用条件下有效进行这类反应的酶类型。冠瘿碱脱氢酶是一类使用NADH或NADPH作为辅因子作用于CH-NH键的氧化还原酶。冠瘿碱脱氢酶的天然反应是α-酮酸与氨基酸的还原胺化。已经鉴定了至少五个天然存在的具有一些同源性的基因，所述基因编码具有冠瘿碱脱氢酶类的特征性活性的酶。这五个酶包括：来自节杆菌属(Arthrobactor sp.)菌株1C的冠瘿碱脱氢酶(CENDH)；来自欧洲大扇贝(Pecten maximus)(大扇贝)的章鱼碱脱氢酶(OpDH)；来自乳酸乳球菌K1(Lactococcus lactis K1)的鸟氨酸合成酶(CEOS)；来自斗笠螺(Cellana grata)的β-丙氨酸冠瘿碱脱氢酶(BADH)；来自居蟹皮海绵(Suberitesdomuncula)的tauropine脱氢酶(TauDH)。已经确定了冠瘿碱脱氢酶CENDH的晶体结构(参见Britton等,“Crystal structure and active site location of N-(1-D-carboxyethyl)-L-norvaline dehydrogenase,”Nat.Struct.Biol.5(7):593-601(1998))。另一个酶，来自恶臭假单胞菌(Pseudomonas putida)的N-甲基L-氨基酸脱氢酶(NMDH)已知具有类似于冠瘿碱脱氢酶的活性，与α-酮酸和烷基胺反应，但是似乎与冠瘿碱脱氢酶和氨基酸脱氢酶具有很小或者不具有序列同源性。NMDH已经被表征为属于一个新的NAD(P)依赖性的氧化还原酶超家族(参见，例如US 7,452,704 B2；和Esaki等,FEBS J.,272,1117-1123[2005])。

本领域中存在对生物催化剂和在工业可适用的条件下使用它们用于合成手性仲胺和叔胺的方法的需求。

概述

本发明提供了新的生物催化剂和相关的方法，所述方法使用所述新的催化剂用于使用未活化的酮和未活化的胺作为底物通过直接还原胺化合成手性仲胺和叔胺。本发明的生物催化剂是通过SEQ ID NO:6的工程化的酶的定向进化衍生的工程化的多肽变体，所述SEQ ID NO:6的工程化的酶继而通过来自节杆菌属菌株IC的初始野生型基因的定向进化产生，所述初始野生型菌株编码具有SEQ ID NO:2的氨基酸序列的冠瘿碱脱氢酶。这些工程化的多肽能够催化酮(包括未活化的酮底物诸如环己酮和2-戊酮)或者醛底物与伯胺或仲胺底物(包括未活化的胺底物诸如丁胺、苯胺、甲胺和二甲胺)形成仲胺或叔胺产物化合物的转化。这些衍生自冠瘿碱脱氢酶的工程化的多肽的酶活性被称为“亚胺还原酶活性”，并且本文公开的工程化的酶也被称为“亚胺还原酶”或者“IRED”。IRED的一般亚胺还原酶活性在以下的方案1中阐明。

方案1

本发明的具有亚胺还原酶活性的工程化的多肽能够接受大范围的底物。因此，在方案1的生物催化反应中，式(I)的底物的R¹和R²基团独立地选自氢原子或任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基；并且式(II)的底物的R³和R⁴基团独立地选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基，条件是R³和R⁴二者不能都是氢。任选地，式(I)的底物的R¹和R²基团和式(II)的底物的R³和R⁴基团的任一或二者可连接以形成3元至10元环。此外，方案1的生物催化反应可以是分子内反应，其中式(I)的化合物的R¹和R²基团中的至少一个连接至式(II)的化合物的R³和R⁴基团中的至少一个。并且，在式(III)的产物化合物中的由“*”指示的碳原子和/或氮中的其一或二者可以是手性的。如在本文中进一步描述的，具有亚胺还原酶活性的工程化的多肽展示出立体选择性，因此，方案1的亚胺还原酶反应可被用于在单个生物催化反应中建立式(III)的产物化合物的一个、两个或更多个手性中心。

在一些实施方案中，本发明提供了工程化的多肽，所述工程化的多肽包含与SEQID NO:2、4或6的氨基酸参考序列具有至少80％序列同一性的氨基酸序列，并且还包含与所述参考氨基酸序列相比的一个或更多个氨基酸残基差异，其中所述工程化的多肽具有亚胺还原酶活性。在所述工程化的多肽的一些实施方案中，亚胺还原酶活性是方案1的活性，任选地，如表2中公开的反应。

此外，如上文所述，已经确定了冠瘿碱脱氢酶CENDH的晶体结构(参见，例如，Britton等,“Crystal structure and active site location of N-(1-D-carboxyethyl)-L-norvaline dehydrogenase,”Nat.Struct.Biol.5:593-601[1998])。因此，本文公开的多个氨基酸差异与功能活性的关联与已知的野生型酶CENDH的三维结构一起能够为普通技术人员提供足以合理地对本文提供的多肽(以及对包括OpDH、BADH、CEOS和TauDH在内的同源的冠瘿碱脱氢酶)构建另外的氨基酸残基改变并保持或改进亚胺还原酶活性或稳定性特性的信息。在一些实施方案中，考虑这类改进可以包括将本发明的工程化的多肽构建为具有使用一系列底物的亚胺还原酶活性并且提供一系列如方案1中所描述的产物。

在一些实施方案中，本公开内容提供了一种工程化的多肽，所述工程化的多肽包含与SEQ ID NO:6的参考序列具有至少80％的序列同一性以及以下特征中的至少一个的氨基酸序列：

(i)与SEQ ID NO:6的参考序列相比在选自以下的位置处的残基差异：X12、X18、X26、X27、X57、X65、X87、X93、X96、X126、X138、X140、X142、X159、X170、X175、X177、X195、X200、X221、X234、X241、X242、X253、X254、X257、X262、X263、X267、X272、X276、X277、X278、X281、X282、X291和X352，任选地其中在所述位置处的残基差异选自X12M、X18G、X26M/V、X27S、X57D/L/V、X65I/V、X87A、X93G/Y、X96C、X126S、X138L、X140M、X142A、X159C/L/Q/V、X170F/K/R/S、X175R、X177R、X195S、X200S、X221F、234C/L、X241K、X242C/L、X253K/N、X254R、X257Q、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X267E/G/H/I/N/S、X272D、X276L、X277H/L、X278E/H/K/N/R/S/W、X281A、X282A/R、X291E和X352Q；

(ii)选自以下的与SEQ ID NO:6的参考序列相比的残基差异：X20V、X29K、X37P、X74W、X82C/T、X94N、X108S、X111A/H、X141M/N、X143F/L/Y、X153F、X154C/D/G/K/L/N/S/T/V、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X163V、X197V、X201I、X220C/K/Q、X223S、X256A/E/I/L/S/T、X259C/R、X260A/D/N/Q/V/Y、X261E/F/H/L/P/Q/Y、X264V、X270L、X273C、X274L/S、X279T、X284C/F/H/P/Q/S、X292E/P和X295F；和/或

(iii)选自以下的与SEQ ID NO:6的参考序列相比的两个或更多个残基差异：X82P、X141W、X153Y、X154F、X259I/L/M、X274L/M、X283V和X296N/V；

其中所述多肽具有亚胺还原酶活性。

在一些实施方案中，具有亚胺还原酶活性的所述工程化的多肽包含这样的氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X12M、X37P、X82T、X111A、X154S、X156N/M、X223S、X256E、X260D、X261H、X262P、X263C/E/Q、X267G、X277L、X281A、X284P/S和X292E。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含这样的氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X93G/Y、X94N、X96C、X111A/H、X142A、X159L、X163V、X256E、X259R、X273C和X284P/S。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含这样的氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少两个残基差异：X82P、X141W、X143W、X153Y、X154F/Q/Y、X256V、X259I/L/M/T、X260G、X261R、X265L、X273W、X274M、X277A/I、X279L、X283V、X284L、X296N、X326V。在一些实施方案中，所述至少两个残基差异选自X82P、X141W、X153Y、X154F、X259I/L/M、X274L/M、X283V和X296N/V。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含这样的氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异组合：

(a)X153Y和X283V；

(b)X141W、X153Y和X283V；

(c)X141W、X153Y、X274L/M和X283V；

(d)X141W、X153Y、X154F、X274L/M和X283V；

(e)X141W、X153Y、X154F和X283V；

(f)X141W、X153Y、X283V和X296N/V；

(g)X141W、X153Y、X274L/M、X283V和X296N/V；

(h)X111A、X153Y、X256E、X274M和X283V；

(i)X111A、X141W、X153Y、X273C、X274M、X283V和X284S；

(j)X111A、X141W、X153Y、X273C和X283V；

(k)X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N；

(l)X111A、X141W、X153Y、X256E、X273W、X274L、X283V、X284S和X296N；

(m)X111H、X141W、X153Y、X273W、X274M、X284S和X296N；

(n)X111H、X141W、X153Y、X154F、X273W、X274L、X283V、X284S和X296N；

(o)X82P、X141W、X153Y、X256E、X274M和X283V；

(p)X82P、X111A、X141W、X153Y、X256E、X274M、X283V、M284S和E296V；

(q)X94N、X143W、X159L、X163V、X259M和X279L；

(r)X141W、X153Y、X154F和X256E；和

(s)X153Y、X256E和X274M。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含这样的氨基酸序列，所述氨基酸序列包含以上氨基酸残基差异组合(a)至(s)中的至少一个，并且还包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N、X142A、X143F/L/Y、X153E/F、X154C/D/G/K/L/N/S/T/V、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T、X257Q、X259C/R、X260A/D/N/Q/V/Y、X261E/F/H/L/P/Q/Y、X262P、X262F/G/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X267E/G/H/I/N/S、X270L、X272D、X273C、X274L/S、X276L、X277H/L、X278E/H/K/N/R/S/W、X279T、X281A、X282A/R、X284C/F/H/P/Q/S、X291E、X292E/P、X295F和X352Q。

在一些实施方案中，具有亚胺还原酶活性的所述工程化的多肽包含这样的氨基酸序列，所述氨基酸序列包含残基差异X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N的组合和选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异或残基差异组合：

(a)X156N；

(b)X37P、X82T和X156N；

(c)X37P、X82T、X156N和X259I；

(d)X259L/M；

(e)X82T、X156N、X223S、X259L、X267G和X281A；

(f)X263C；

(g)X12M、X261H、X263C、X277L和X292E；

(h)X154S；和

(i)X154S、X156M、X260D、X261H、X262P、X263E和X284P。

在一些实施方案中，具有亚胺还原酶活性的所述工程化的多肽包含与偶数序列标示符SEQ ID NO:8-924的序列具有70％、80％、85％、90％、95％、97％、98％、99％或者更高的同一性的氨基酸序列。在一些实施方案中，参考序列选自SEQ ID NO:6、12、84、92、146、162、198、228、250、324、354、440、604、928、944、1040和1088。

在一些实施方案中，具有亚胺还原酶活性的所述工程化的多肽包含与偶数序列标示符SEQ ID NO:6-924的序列具有70％、80％、85％、90％、95％、97％、98％、99％或者更高的同一性的氨基酸序列，其中所述氨基酸序列包含上文(和本文其它位置)公开的氨基酸残基差异，但是不包含与SEQ ID NO:6的参考序列相比在选自以下的一个或更多个残基位置处的残基差异：X29、X137、X157、X184、X197、X198、X201、X220、X232、X261、X266、X279、X280、X287、X288、X293、X295、X311、X324、X328、X332和X353。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含与偶数序列标示符SEQ ID NOS:6-924的序列具有70％、80％、85％、90％、95％、97％、98％、99％或者更高的同一性的氨基酸序列，其中所述氨基酸序列包含上文(和本文其它位置)公开的氨基酸残基差异，其中所述氨基酸序列还包含选自以下的与SEQ ID NO:6的参考序列相比的残基差异：X4H/L/R、X5T、X14P、X20T、X29R/T、X37H、X67A/D、X71C/V、X74R、X82P、X94K/R/T、X97P、X100W、X111M/Q/R/S、X124L/N、X136G、X137N、X141W、X143W、X149L、X153E/V/Y、X154F/M/Q/Y、X156G/I/Q/S/T/V、X157D/H/L/M/N/R、X158K、X160N、X163T、X177C/H、X178E、X183C、X184K/Q/R、X185V、X186K/R、X197I/P、X198A/E/H/P/S、X201L、X220D/H、X223T、X226L、X232G/A/R、X243G、X246W、X256V、X258D、X259E/H/I/L/M/S/T/V/W、X260G、X261A/G/I/K/R/S/T、X265G/L/Y、X266T、X270G、X273W、X274M、X277A/I、X279F/L/V/Y、X280L、X283M/V、X284K/L/M/Y、X287S/T、X288G/S、X292C/G/I/P/S/T/V/Y、X293H/I/K/L/N/Q/T/V、X294A/I/V、X295R/S、X296L/N/V/W、X297A、X308F、X311C/T/V、X323C/I/M/T/V、X324L/T、X326V、X328A/G/E、X332V、X353E和X356R。

在另一方面，本发明提供了编码本文公开的具有亚胺还原酶活性的工程化的多肽中的任一个的多核苷酸。示例性的多核苷酸序列在通过引用并入本文的序列表中提供，并且包括奇数序列标识符SEQ ID NO:7-923的序列。

在另一方面，本发明的编码具有亚胺还原酶活性的工程化的多肽的多核苷酸可以被并入表达载体和宿主细胞中用于表达所述多核苷酸和相应的编码的多肽。因此，在一些实施方案中，本发明提供了制备所述具有亚胺还原酶活性的工程化的多肽的方法，所述方法通过在适于表达本发明的工程化的多肽的条件下培养包含能够表达所述多肽的多核苷酸或表达载体的宿主细胞。在一些实施方案中，制备亚胺还原酶多肽的方法可包括额外的分离所表达的多肽的步骤。

在一些实施方案中，本发明还提供了用于制造具有亚胺还原酶活性的进一步工程化的多肽的方法，其中所述方法可包括：(a)合成编码选自SEQ ID NO:8–924中的偶数序列标识符的参考氨基酸序列的多核苷酸，并且进一步改变该参考序列以包括与所述选择的参考序列相比在上文和本文其它位置公开的残基位置的一个或更多个氨基酸残基差异。例如，具体的位置和氨基酸残基差异可以选自X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N、X142A、X143F/L/Y、X153E/F、X154C/D/G/K/L/N/S/T/V、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T、X257Q、X259C/R、X260A/D/N/Q/V/Y、X261E/F/H/L/P/Q/Y、X262P、X262F/G/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X267E/G/H/I/N/S、X270L、X272D、X273C、X274L/S、X276L、X277H/L、X278E/H/K/N/R/S/W、X279T、X281A、X282A/R、X284C/F/H/P/Q/S、X291E、X292E/P、X295F和X352Q。如在详述中进一步提供的，在合成多核苷酸期间可并入另外的变化形式，以制备在所表达的氨基酸序列中具有相应差异的工程化的亚胺还原酶多肽。

在一些实施方案中，本发明的具有亚胺还原酶活性的工程化的多肽可以在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法中使用，

其中R¹和R²基团独立地选自任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基；并且任选地R¹和R²连接以形成3元至10元环；R³和R⁴基团独立地选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基，条件是R³和R⁴二者不能都是氢；并且任选地R³和R⁴连接以形成3元至10元环；并且任选地，由*指示的碳原子和/或氮原子是手性的。所述方法包括在适当的反应条件下在辅因子的存在下使式(I)的化合物，

其中R¹和R²如以上所限定；和式(II)的化合物，

其中R³和R⁴如以上所限定；与具有亚胺还原酶活性的工程化的多肽接触。

在以上生物催化方法的一些实施方案中，具有亚胺还原酶活性的所述工程化的多肽经由SEQ ID NO:6的工程化的参考多肽的定向进化衍生而来(所述SEQ ID NO:6的工程化的参考多肽衍生自SEQ ID NO:2的来自节杆菌属菌株1C的冠瘿碱脱氢酶)。本文描述的(和通过偶数序列标识符SEQ ID NOS:8-924的工程化的亚胺还原酶多肽所例示的)工程化的亚胺还原酶中的任一种可以在用于制备式(III)的仲胺或叔胺化合物的生物催化方法中使用。

在使用本发明的工程化的亚胺还原酶制备式(III)的产物化合物的方法的一些实施方案中，所述方法还包括能够将NADP⁺转化为NADPH或者将NAD⁺转化为NADH的辅因子再生系统。在一些实施方案中，所述辅因子循环系统包括甲酸和甲酸脱氢酶(FDH)、葡萄糖和葡萄糖脱氢酶(GDH)、葡萄糖-6-磷酸盐/酯和葡萄糖-6-磷酸盐/酯脱氢酶、仲醇和醇脱氢酶或者亚磷酸盐/酯和亚磷酸盐/酯脱氢酶。在一些实施方案中，所述方法可以被执行，其中所述工程化的亚胺还原酶被固定在固体支持物上。

发明详述

除非上下文另外清楚地指明，否则如在该说明书和所附权利要求书中使用的单数形式“一(a)”、“一(an)”和“所述(the)”包括复数的指代对象。因此，例如，提及“多肽(apolypeptide)”包括多于一种多肽。类似地，“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“包括(include)”、“包括(includes)”和“包括(including)”可互换使用，并且不意图是限制性的。要理解，当各种实施方案的描述使用术语“包含(comprising)”时，本领域技术人员将理解，在一些具体情况下，可选地，可以使用语言“基本由...组成”或“由...组成”来描述实施方案。还要理解，当多个实施方案的描述使用术语“可选的”或“可选地”意思是，随后描述的事件或情况可发生或可不发生，并且该描述包括其中该事件或情况发生的实例和其中该事件或情况不发生的实例。要理解，前述一般描述和以下的详细描述都仅是示例性和解释性的，并且不限制本发明。本文使用的章节标题仅出于组织目的，而不被解释为限制所描述的主题。

缩写：

用于遗传地编码的氨基酸的缩写是常规的并如以下：

氨基酸	三字母	单字母缩写
			丙氨酸	Ala	A
精氨酸	Arg	R
			天冬酰胺	Asn	N
天冬氨酸	Asp	D
			半胱氨酸	Cys	C
谷氨酸	Glu	E
			谷氨酰胺	Gln	Q
甘氨酸	Gly	G
			组氨酸	His	H
异亮氨酸	Ile	I
			亮氨酸	Leu	L
赖氨酸	Lys	K
			甲硫氨酸	Met	M
苯丙氨酸	Phe	F
			脯氨酸	Pro	P
丝氨酸	Ser	S
			苏氨酸	Thr	T
色氨酸	Trp	W
			酪氨酸	Tyr	Y
缬氨酸	Val	V

使用三字母缩写时，除非前面明确加有“L”或“D”，或从使用缩写的上下文明显，否则氨基酸可为关于α-碳(C_α)的L-构型或D-构型。例如，“Ala”表示丙氨酸而没有规定关于α-碳的构型，而“D-Ala”和“L-Ala”分别表示D-丙氨酸和L-丙氨酸。使用一字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸，“a”表示D-丙氨酸。当多肽序列作为单字母或三字母缩写(或其混合)的串呈现时，根据常规序列以氨基(N)向羧基(C)的方向呈现。

用于遗传编码核苷的缩写是常规的且如下：腺苷(A)；鸟苷(G)；胞苷(C)；胸苷(T)；和尿苷(U)。除非特定地描述，缩写的核苷可以是核糖核苷或2’-脱氧核糖核苷。核苷可以在个体基础上或在聚集体基础上被指定为核糖核苷或2’-脱氧核糖核苷。当核酸序列作为单字母缩写串呈现时，根据常规序列以5’向3’的方向呈现，且不显示磷酸。

定义：

关于本发明，除非另外明确定义，否则本文说明书中使用的技术术语和科学术语具有本领域普通技术人员通常理解的含义。相应地，以下术语意图具有以下含义。

“蛋白”、“多肽”和“肽”在本文可互换使用，表示由酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(如，糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等等)如何。该定义包括D-氨基酸和L-氨基酸、以及D-氨基酸和L-氨基酸的混合物。

“多核苷酸”或“核酸”指共价地连接在一起的两个或更多个核苷。多核苷酸可完全地包括核糖核苷(即，RNA)、完全地包括2'-脱氧核糖核苷(即，DNA)或为核糖核苷和2'-脱氧核糖核苷的混合物。虽然核苷通常会经标准磷酸二酯键连接在一起，但是多核苷酸可包括一种或更多种非标准的键。多核苷酸可以是单链的或双链的，或可包括单链区域和双链区域两者。而且，虽然多核苷酸通常会包括天然存在的编码核碱基(nucleobase)(即，腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶)，但其可包括一种或更多种修饰的和/或合成的核碱基，诸如例如肌苷、黄嘌呤、次黄嘌呤等。优选地，此类修饰的或合成的核碱基将是编码核碱基。

如本文所用的，“冠瘿碱脱氢酶活性”是指其中将2-酮酸(例如，丙酮酸)的羰基基团和中性L-氨基酸(例如，L-正缬氨酸)的氨基基团转化为仲胺二羧酸化合物(例如，诸如N-[1-(R)-(羧基)乙基]-(S)-正缬氨酸)的酶学活性。

如本文所用的，“冠瘿碱脱氢酶”是指具有冠瘿碱脱氢酶活性的酶。冠瘿碱脱氢酶包括但不限于以下天然存在的酶：来自节杆菌属菌株1C的冠瘿碱脱氢酶(CENDH)(SEQ IDNO:2)；来自欧洲大扇贝的章鱼碱脱氢酶(OpDH)(SEQ ID NO:102)；来自乳酸乳球菌K1的鸟氨酸合成酶(CEOS)(SEQ ID NO:104)；来自恶臭假单胞菌的N-甲基L-氨基酸脱氢酶(NMDH)(SEQ ID NO:106)；来自斗笠螺的β-丙氨酸冠瘿碱脱氢酶(BADH)(SEQ ID NO:108)；来自居蟹皮海绵的tauropine脱氢酶(TauDH)(SEQ ID NO:110)；来自解脂耶氏酵母(Yarrowialipolytica)的酵母氨酸脱氢酶(SacDH)(UniProtKB条目：P38997，条目名：LYS1_YARLI)；和来自根癌农杆菌(Agrobacterium tumefaciens)(菌株T37)(UniProtKB条目：P00386，条目名：(DHNO_AGRT7)。

如本文所用的，“亚胺还原酶活性”是指其中如在方案1中所阐明的，在辅因子NAD(P)H的存在下将酮或醛的羰基基团和伯胺或仲胺的氨基基团(其中羰基和氨基基团可以在不同的化合物上或者在同一化合物上)转化为仲胺或叔胺产物化合物的酶学活性。

如本文所用的，“亚胺还原酶”或者“IRED”是指具有亚胺还原酶活性的酶。应理解，亚胺还原酶不限于衍生自节杆菌属菌株1C的野生型冠瘿碱脱氢酶的工程化的多肽，而是可以包括具有亚胺还原酶活性的其它酶，所述其他酶包括衍生自其它冠瘿碱脱氢酶的工程化的多肽，该其它冠瘿碱脱氢酶诸如，来自欧洲大扇贝的章鱼碱脱氢酶(OpDH)、来自乳酸乳球菌k1的鸟氨酸合成酶(CEOS)；来自斗笠螺的β-丙氨酸冠瘿碱脱氢酶(BADH)；来自居蟹皮海绵的tauropine脱氢酶(TauDH)；和来自恶臭假单胞菌的N-甲基L-氨基酸脱氢酶(NMDH)；或者衍生自具有亚胺还原酶活性的野生型酶的工程化的酶。如本文使用的亚胺还原酶包括天然存在的(野生型)亚胺还原酶以及由人处理生成的非天然存在的工程化的多肽。

“编码序列”指编码蛋白的氨基酸序列的那部分核酸(例如，基因)。

“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中、可分离自自然界中的来源且未通过人处理有意地修饰的序列。

“重组的”或“工程化的”或“非天然存在的”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会另外存在的方式被改变，或与其相同但是从合成材料和/或通过使用重组技术操作而产生或获取。非限制性实例包括，除了其他以外，表达在细胞的天然形式(非重组的)中未发现的基因或以不同的水平另外表达天然基因的重组细胞。

“序列同一性百分比”和“同源性百分比”在本文可互换地用于指多核苷酸之间和多肽之间的比较，且通过在比较窗上比较两个最佳对齐的序列来确定，其中对于最佳对齐的两个序列，多核苷酸或多肽序列在比较窗中的部分与参考序列相比可包括添加或缺失(即，空位)。百分比可以通过如下计算：确定两个序列中出现相同的核酸碱基或氨基酸残基的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置总数并将结果乘以100以得到序列同一性百分比。可选地，该百分比可通过以下计算：确定相同核酸碱基或氨基酸残基在两个序列中都存在的位置数或核酸碱基或氨基酸残基与空位对齐的位置数以得到匹配位置数，将该匹配位置数除以比较窗中的位置总数，并将结果乘以100以得到序列同一性的百分比。本领域技术人员将认识到，存在许多可用于比对两个序列的已建立的算法。例如用于比较的序列最佳比对可通过Smith和Waterman，1981，Adv.Appl.Math.2:482的局部同源性算法、通过Needleman和Wunsch，1970，J.Mol.Biol.48:443的同源性比对算法，通过Pearson和Lipman、1988,Proc.Natl.Acad.Sci.USA 85:2444的相似性搜索方法，通过这些算法的计算机实现(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA或TFASTA)或通过直观检查(一般参见，Current Protocols in Molecular Biology(分子生物学最新实验方案),F.M.Ausubel等编著，Current Protocols,Greene Publishing Associates Inc.和John Wiley&Sons,Inc.之间的合资,(1995年增刊)(Ausubel))。适于确定序列同一性和序列相似性百分比的算法的实例是BLAST和BLAST 2.0算法，其分别地被描述于Altschul等人，1990，J.Mol.Biol.215:Biol.215:403-410和Altschul等,1977,Nucleic AcidsRes.3389-3402中。用于执行BLAST分析的软件是通过美国国家生物技术信息中心(National Center for Biotechnology Information)网站公开可用的。该算法包括首先通过鉴定查询序列中长度W的短字来鉴定高评分序列对(HSP)，所述短字与数据库序列中相同长度的字比对时匹配或满足一些正值的阀值得分T。T被称作邻近字评分阈值(Altschul等，如上述)。这些初始相邻字命中担当用于启始搜索的种子来寻找包含它们的更长的HSP。字命中继而沿着每个序列向两个方向延伸到累积比对得分不能够增加的程度。对于核苷酸序列，累积得分使用参数M(对于匹配残基对的奖励得分；永远＞0)和N(对于错配残基的惩罚得分；永远＜0)计算。对于氨基酸序列，得分矩阵被用于计算累计得分。当以下情况时，每个方向中的字命中的延伸被终止：累积比对得分从其最大达到值下降了量X；由于累积一个或更多个负得分残基比对，累积得分达到0或以下；或到达任一序列末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(用于核苷酸序列)使用字长(W)11、期望值(E)10、M＝5、N＝-4以及两链的比较作为默认值。对于氨基酸序列，BLASTP程序使用以下作为默认值：字长(W)为3，期望值(E)为10和BLOSUM62得分矩阵(见Henikoff和Henikoff,1989,Proc Natl Acad Sci USA 89：10915)。序列比对和序列同一性％的示例性确定可使用GCGWisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序，使用所提供的默认参数。

“参考序列”是指用作序列比较的基础的限定的序列。参考序列可以是较大序列的子集，例如，全长基因或多肽序列的片段。一般而言，参考序列为至少20个核苷酸或氨基酸残基长，至少25个残基长，至少50个残基长，或者核酸或多肽的全长。因为两种多核苷酸或多肽可以各自(1)包括在两种序列之间相似的序列(即，完整序列的一部分)，且(2)可以进一步包括在两个序列之间不同的序列，两个(或更多个)多核苷酸或多肽之间的序列比较通常通过在“比较窗”内比较两种多核苷酸或多肽的序列来进行以鉴定和比较局部区域的序列相似性。在一些实施方案中，“参考序列”可以基于基本氨基酸序列，其中参考序列是可以在基本序列中具有一个或更多个变化的序列。例如，“在对应于X14的残基处具有缬氨酸的基于SEQ ID NO:4的参考序列”指其中在SEQ ID NO:4中的X14处相应的残基(是酪氨酸)已经改变成缬氨酸的参考序列。

“比较窗”指至少约20个连续核苷酸位置或者氨基酸残基的概念性片段，其中序列可以与至少20个连续核苷酸或氨基酸的参考序列相比较，并且其中对于最佳对齐的两个序列，比较窗中的序列的部分可以包括与参考序列(其不包括添加或缺失)相比20％或更少的添加或缺失(即，空位)。比较窗可以长于20个连续残基，并且包括任选地30、40、50、100或更长的窗。

“基本同一性”指跨至少20个残基位置的比较窗口，经常地跨至少30-50个残基的比较窗口，与参考序列相比具有至少80％序列同一性、至少85％同一性和89％至95％序列同一性，更通常地至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性百分比通过在比较窗口内将参考序列与包括参考序列的总计20％或更少的缺失或添加的序列进行比较来计算。在应用于多肽的特定实施方案中，术语“基本同一性”指两条多肽序列当通过诸如程序GAP或BESTFIT使用默认空位权重进行最佳对齐时共有至少80％的序列同一性，优选至少89％序列同一性，至少95％序列同一性或更大(例如，99％序列同一性)。优选地，不相同的残基位置通过保守的氨基酸取代而不同。

在用于给定的氨基酸或多核苷酸序列的编号的情况下，“相应于”、“参考于”或“相对于”指当给定的氨基酸或多核苷酸序列与参考序列相比较时指定的参考序列残基的编号。换言之，给定聚合物的残基编号或残基位置是根据参考序列指定的，而不是由给定氨基酸或多核苷酸序列内的残基的实际数字位置指定的。例如，给定的氨基酸序列诸如工程化的亚胺还原酶的氨基酸序列与参考序列可以通过引入空位以优化这两条序列之间的残基匹配而对齐。在这些情况下，虽然存在空位，但是给定氨基酸或多核苷酸序列中的残基编号相对于已与其对齐的参考序列进行。

“氨基酸差异”或“残基差异”指在多肽序列的一个位置处氨基酸残基相对于参考序列中相应位置处的氨基酸残基的改变。本文中氨基酸差异的位置一般被称为“Xn”，其中n指残基差异基于其的参考序列中的相应位置。例如，“与SEQ ID NO:2相比在位置X25处的残基差异”指在相应于SEQ ID NO:2的位置25的多肽位置处的氨基酸残基的改变。因此，如果SEQ ID NO:2的参考多肽在位置25处具有缬氨酸，那么“与SEQ ID NO:2相比在位置X25处的残基差异”是指在相应于SEQ ID NO:2的位置25的多肽位置处除了缬氨酸之外的任何残基的氨基酸取代。在本文的大多数情况中，在一个位置处的特定氨基酸残基差异表示为“XnY”，其中“Xn”指如以上描述的对应位置，并且“Y”为在工程化的多肽中发现的氨基酸的单字母标识符(即，与参考多肽中的不同的残基)。在一些实施方案中，有多于一个氨基酸可出现在指定的残基位置时，可选的氨基酸可被列为XnY/Z形式，其中Y和Z表示可选的氨基酸残基。在一些情况中(例如，在表3A、3B、3C、3D和3E中)，本发明还提供由常规符号“AnB”表示的特定氨基酸差异，其中A为参考序列中的残基的单字母标识符，“n”为在参考序列中的残基位置的编号，并且B为工程化的多肽的序列中残基取代的单字母标识符。另外，在一些情况中，本发明的多肽可包含相对于参考序列的一个或更多个氨基酸残基差异，其通过相对于参考序列进行改变的特定位置的列表表示。本发明包括工程化的多肽序列，所述工程化的多肽序列包含一个或更多个氨基酸差异，所述一个或更多个氨基酸差异包含保守和非保守氨基酸取代之一或两者。

“保守氨基酸取代”是指用具有相似侧链的不同残基来取代一个残基，并因此通常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。例如但不限于，具有脂肪族侧链的氨基酸可以用另一种脂肪族氨基酸例如丙氨酸、缬氨酸、亮氨酸和异亮氨酸取代；具有羟基侧链的氨基酸用另一种具有羟基侧链的氨基酸例如丝氨酸和苏氨酸取代；具有芳香族侧链的氨基酸用另一种具有芳香族侧链的氨基酸例如苯丙氨酸、酪氨酸、色氨酸和组氨酸取代；具有碱性侧链的氨基酸用另一种具有碱性侧链的氨基酸例如赖氨酸和精氨酸取代；具有酸性侧链的氨基酸用另一种具有酸性侧链的氨基酸例如天冬氨酸或谷氨酸取代；并且疏水性氨基酸或亲水性氨基酸分别用另一种疏水性氨基酸或亲水性氨基酸取代。在以下表1中提供了示例性的保守取代：

表1

“非保守取代”是指用具有显著不同的侧链特性的氨基酸取代多肽中的氨基酸。非保守取代可以利用限定的组之间而不是它们之内的氨基酸，并且影响：(a)取代区域(例如，脯氨酸取代甘氨酸)中的肽骨架的结构，(b)电荷或疏水性，或(c)侧链堆积。例如但不限于，示例性非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸；用小氨基酸取代芳香族氨基酸；和用疏水性氨基酸取代亲水性氨基酸。

“缺失”指通过从参考多肽去除一个或更多个氨基酸而对多肽的修饰。缺失可以包括除去1个或更多个、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、或多达组成参考酶的氨基酸总数的10％、或多达组成参考酶的氨基酸总数的20％，同时保留酶活性和/或保留工程化亚胺还原酶的改进的性质。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中，缺失可以包括连续的区段或者可以是不连续的。

"插入"指通过从参考多肽添加一个或更多个氨基酸的多肽的修饰。在一些实施方案中，改进的工程化的亚胺还原酶包括一个或更多个氨基酸插入至天然存在的具有亚胺还原酶活性的多肽，以及一个或更多个氨基酸插入至其他改进的亚胺还原酶多肽。插入可在多肽的内部部分，或插入到羧基或氨基末端。如本文所用的，插入包括本领域中已知的融合蛋白。插入可以是氨基酸的连续区段，或者被在天然存在的多肽中一个或更多个氨基酸分隔。

如本文所用的"片段"指具有氨基末端和/或羧基末端缺失、但是其中保留的氨基酸序列与序列中相应的位置相同的多肽。片段可以是至少14个氨基酸长，至少20个氨基酸长，至少50个氨基酸长或更长，且多达全长亚胺还原酶例如SEQ ID NO:2的多肽或SEQ IDNO:96的工程转氨酶多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上与其天然伴随的其他污染物例如蛋白、脂质和多核苷酸分离。该术语包括已从其天然存在的环境或表达系统(例如，宿主细胞或体外合成中)移出或纯化的多肽。工程化的亚胺还原酶可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如裂解物或分离的制备物。像这样，在一些实施方案中，工程化的亚胺还原酶可以是分离的多肽。

“基本上纯的多肽”指以下的组合物，其中多肽物类是存在的占优势的物类(即，在摩尔或重量基础上其比组合物中的任何其它个体大分子物类更丰富)，并且当按摩尔或％重量计目标物类占存在的大分子物类的至少约50％时通常是基本上纯的组合物。一般地，按摩尔或％重量计，基本上纯的亚胺还原酶组成会占组合物中存在的所有大分子物类的约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多、和约98％或更多。在一些实施方案中，目标物类被纯化为基本上的均一性的(即，污染物物类不能通过常规检测方法在所述组合物中被检测到)其中所述组合物基本上由单一大分子物类组成。溶剂物类、小分子(<500道尔顿)和元素离子物类不被认为是大分子物类。在一些实施方案中，分离的工程化的亚胺还原酶多肽是基本上纯的多肽组合物。

"立体选择性"是指在化学或酶促反应中相对于另一种立体异构体优先形成一种立体异构体。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种异构体，或可以是完全的，其中仅形成一种立体异构体。当立体异构体是对映异构体时，立体选择性被称为对映异构体选择性，一种对映异构体在两种对映异构体之和中的分数(通常被报告为百分比)。在本领域内该分数(典型地为百分比)通常可选地报道为对映异构体过量(e.e.)，其根据下式从中计算：[主要对映异构体–次要对映异构体]/[主要对映异构体+次要对映异构体]。当立体异构体是非对映异构体时，立体选择性被称为非对映异构体选择性，即一种非对映异构体在两种非对映异构体的混合物之中的分数(通常被报告为百分比)，通常被可选地报告为非对映异构体过量(d.e.)。对映异构体过量和非对映异构体过量是立体异构体过量的类型。

“高立体选择性”指能够以至少约85％立体异构体过量将一种底物或多种底物例如底物化合物(1e)和(2b)转化成对应的胺产物例如化合物(3i)的化学或酶促反应。

“改进的酶特性”指与参考亚胺还原酶相比显示任何酶特性的改进的亚胺还原酶多肽。对于本文所述的工程化的亚胺还原酶多肽而言，比较一般是对衍生出所述亚胺还原酶的野生型酶作出的，但是在一些实施方案中，参考酶可以是另一种改进的工程化的亚胺还原酶。期望改进的酶性质包括，但不限于，酶活性(其可以底物的转化百分比的方式被表示)、热稳定性、溶剂稳定性、pH活性特征、辅因子需求、对抑制物的耐受性(例如，底物或产物抑制)、立体特异性和立体选择性(包括对映体选择性)。

“增强的酶活性”指工程化的亚胺还原酶多肽的改进的性质，其可以被表示为与参考亚胺还原酶相比，比活性(例如产生的产物/时间/重量蛋白)的增加或底物向产物的转化百分比(例如在指定的时间段使用指定量的亚胺还原酶，起始量的底物向产物的转化百分比)的增加。确定酶活性的示例性方法在实施例中提供。任何有关酶活性的性质可被影响，包括经典酶性质K_m、V_max或k_cat，其改变可导致增加的酶活性。酶活性的改进可以是相应的野生型酶活性的约1.2倍，至比天然存在的亚胺还原酶或从衍生所述亚胺还原酶多肽的另一工程化亚胺还原酶的酶活性高多达2倍、5倍、10倍、20倍、25倍、50倍或更多倍。亚胺还原酶活性可以通过标准测定的任何一个测量，如通过监测底物、辅因子或产物的性质的变化。在一些实施方案中，生成的产物的量可以通过液相色谱-质谱(LC-MS)测定。使用限定的酶制品、在设置条件下的限定的测定以及一种或更多种限定的底物，进行酶活性的比较，如本文进一步详述的。通常，当比较裂解物时，确定细胞数和测定的蛋白的量，并使用相同的表达系统和相同的宿主细胞以将宿主细胞产生的和裂解物中存在的酶的量的差异最小化。

“转化”指底物向相应的产物的酶转化。“百分比转化”是指在指定的条件下在一段时间内被转化为产物的底物的百分比。因此，亚胺还原酶多肽的“酶学活性”或“活性”可以被表达为底物到产物的“百分比转化”。

“热稳定的”指与野生型酶相比亚胺还原酶多肽在暴露于升高的温度(例如40-80℃)持续一段时间(例如0.5-24小时)之后保持相似活性(例如多于60％至80％)。

“溶剂稳定的”指与野生型酶相比亚胺还原酶多肽在暴露于不同浓度(例如5-99％)的溶剂(乙醇、异丙醇、二甲基亚砜(DMSO)、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)持续一段时间(例如0.5-24小时)之后维持相似的活性(多于例如60％至80％)。

“热稳定且溶剂稳定的”是指既热稳定又溶剂稳定的亚胺还原酶多肽。

如本文使用的“严格杂交”是指这样的条件：在该条件下核酸杂交体稳定。如本领域那些技术人员所知，杂交体的稳定性体现在杂交体的解链温度(T_m)。大体上，杂交体的稳定性是离子强度、温度、G/C含量和离液剂存在的函数。使用预测解链温度的已知的方法可以计算多核苷酸的T_m值(参见例如Baldino等，Methods Enzymology 168:761-777；Bolton等，1962，Proc.Natl.Acad.Sci.USA 48:1390；Bresslauer等,1986,Proc.Natl.Acad.SciUSA 83:8893-8897；Freier等,1986,Proc.Natl.Acad.Sci USA 83:9373-9377；Kierzek等,Biochemistry 25:7840-7846；Rychlik等,1990,Nucleic Acids Res 18:6409-6412(勘误,1991,Nucleic Acids Res 19:698)；Sambrook等，同上)；Suggs等,1981,In DevelopmentalBiology Using Purified Genes(Brown等，编),683-693页,Academic Press；和Wetmur,1991,Crit Rev Biochem Mol Biol 26:227-259。所有的出版物均通过引用并入本文)。在一些实施方案中，多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格的条件下与编码本发明的工程化的亚胺还原酶的序列的互补序列杂交。

"杂交严格性"指在核酸杂交中的杂交条件，诸如洗涤条件。通常，杂交反应在低严格性的条件下进行，随后是不同的但更高严格性的洗涤。术语“中度严格杂交”指允许靶-DNA结合以下互补的核酸的条件，所述互补的核酸与靶DNA具有约60％的同一性，优选地约75％的同一性，约85％的同一性，与靶-多核苷酸大于约90％的同一性。示例性中度严格条件是等同于在42℃于50％甲酰胺、5×Denhart's溶液、5×SSPE、0.2％SDS中杂交，接着在42℃于0.2×SSPE、0.2％SDS中洗涤的条件。“高严格度杂交”一般是指如下条件：与对限定的多核苷酸序列在溶液条件下确定的热解链温度T_m相差约10℃或更小。在一些实施方案中，高度严格的条件指以下的条件，其仅允许那些在0.018M NaCl中在65℃形成稳定的杂交体的核酸序列的杂交(即，如果杂交体在0.018M NaCl中在65℃是不稳定的，其将在高度严格的条件下是不稳定的，如本文所考虑)。可以提供高度严格性条件，例如通过在等同于在42℃下50％甲酰胺、5x Denhart's溶液、5xSSPE、0.2％SDS中杂交，之后在65℃下0.1x SSPE和0.1％SDS中洗涤的条件。另一个高度严格性条件为在等同于在65℃下含0.1％(w:v)SDS的5X SSC中杂交并且在65℃下含0.1％SDS的0.1x SSC中洗涤。其它高严格条件以及中度严格条件在上文引用的参考文献中描述。

“异源”多核苷酸指通过实验技术引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中移出、经历实验室操作、然后重新引入宿主细胞中的多核苷酸。

“密码子优化的”是指将编码蛋白质的多核苷酸的密码子改变为特定生物体中优先使用的那些密码子，以致所编码的蛋白在感兴趣的生物体中被有效表达。尽管基因遗传密码具简并性，即大多数氨基酸由称为"同义"("synonyms")或"同义"("synonymous")密码子的几个密码子代表，但是众所周知，特定生物体的密码子使用是非随机的且对于特定的密码子三联体有偏好的。对于给定的基因、共同功能或祖先来源的基因、高表达的蛋白对比低拷贝数蛋白，和生物体基因组的聚集蛋白质编码区，该密码子使用偏好性可能更高。在一些实施方案中，可以对编码亚胺还原酶酶的多核苷酸进行密码子优化，以用于从被选择用于表达的宿主生物体中优化生产。

“优选的、最佳的、高密码子使用偏好密码子”可互换地指在蛋白质编码区中比编码相同氨基酸的其他密码子使用频率更高的密码子。优选的密码子的确定可与以下有关：单个基因、具有共同功能或起源的一组基因、高度表达的基因中的密码子使用，整个生物体的聚集蛋白质编码区中的密码子频率；相关生物体的聚集蛋白质编码区中的密码子频率或其组合。频率随着基因表达水平增加的密码子通常是用于表达的最佳密码子。多种方法已知用于确定具体生物体中的密码子频率(例如，密码子使用，相对同义的密码子使用)和密码子偏好，包括多变量分析，例如使用聚类分析或对应分析，以及用于确定基因中使用的密码子的有效数目(参见GCG CodonPreference,Genetics Computer Group WisconsinPackage；CodonW,John Peden,University of Nottingham；McInerney,J.O,1998,Bioinformatics 14:372-73；Stenico等人,1994,Nucleic Acids Res.222437-46；Wright,F.,1990,Gene 87:23-29)。密码子使用表对于越来越多的生物体是可得的(参见例如，Wada等,1992,Nucleic Acids Res.20:2111-2118；Nakamura等,2000,Nucl.Acids Res.28:292；Duret等,同上；Henaut和Danchin,“Escherichia coli and Salmonella,”1996,Neidhardt,等编，ASM出版社，华盛顿,第2047-2066页。用于获得密码子使用的数据来源可以依赖于能够编码蛋白的任何可获得的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白(例如，完整蛋白编码序列-CDS)、表达的序列标签(EST)或基因组序列的预测编码区域的核酸序列(参见例如，Mount,D.,Bioinformatics:Sequence and Genome Analysis,第8章,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,2001；Uberbacher,E.C.,1996,Methods Enzymol.266:259-281；Tiwari等,1997,Comput.Appl.Biosci.13:263-270)。

本文定义的“控制序列”包括对本发明的多核苷酸和/或多肽的表达必要或有利的所有组分。每个控制序列可以是对于编码多肽的核酸序列天然的或外来的。此类控制序列包括但不限于前导序列、多聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。控制序列至少包括启动子、以及转录终止信号和翻译终止信号。控制序列可与连接子一起被提供，以用于导入促进控制序列与编码多肽的核酸序列的编码区的连接的特定限制性位点的目的。

“可操作地连接”在本文定义为如下一种配置：在所述配置中控制序列适当安放(即，以功能关系)在相对于感兴趣的多核苷酸的位置，使得控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达。

“启动子序列”指被宿主细胞识别用于感兴趣的多核苷酸如编码序列的表达的核酸序列。启动子序列包含介导感兴趣的多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变的、截短的和杂合的启动子，并且可以从编码细胞外多肽或细胞内多肽的与该宿主细胞同源或异源的基因中获得。

“合适的反应条件”指生物催化反应溶液中的那些条件(例如，以下的范围：酶载量、底物载量、辅因子载量、温度、pH、缓冲液、共溶剂等)：在该条件下本发明的亚胺还原酶多肽能将底物化合物转化成产物化合物(例如，将化合物(2)转化成化合物(1))。示例性“合适的反应条件”在本发明中被提供并通过实施例例证。

“辅因子再生系统”或者“辅因子再循环系统”是指参与还原该辅因子的氧化形式的反应(例如，NADP⁺到NADPH)的一组反应物。通过亚胺还原酶催化的酮底物的还原胺化所氧化的辅因子被辅因子再生系统以还原形式再生。辅因子再生系统包括化学计量的还原剂，所述还原剂是还原氢等同物的来源并且能够还原辅因子的氧化形式。辅因子再生系统还可以包括催化剂，例如，催化辅因子的氧化形式被还原剂还原的酶催化剂。分别从NAD⁺或NADP⁺再生NADH或NADPH的辅因子再生系统是本领域已知的并且可以用于本文所述的方法中。

"甲酸脱氢酶"和"FDH"在本文中可互换使用，指分别催化甲酸和NAD⁺或NADP⁺至二氧化碳和NADH或NADPH的转化的NAD⁺或NADP⁺-依赖酶。

诸如在“化合物载量”或“酶载量”或“辅因子载量”中的“载量”指在反应起始时反应混合物中的组分的浓度或量。

在生物催化剂介导的方法的上下文中的“底物”指被生物催化剂作用的化合物或分子。例如，对于本文公开的还原胺化方法中使用的亚胺还原酶催化剂，存在式(I)的酮(或醛)底物，诸如环己酮和式(II)的胺底物诸如丁胺。

在生物催化剂介导的方法的上下文中的“产物”指从生物催化剂的作用得到的化合物或分子。例如，在本文公开的方法中使用的亚胺还原酶生物催化剂的示例性产物是仲胺或叔胺化合物，诸如式(III)的化合物。

“烷基”指包含直链的或支链的从1至18个(包括1个和18个)碳原子、更优选包含从1至8个(包括1个和8个)碳原子、和最优选包含1至6个(包括1个和6个)碳原子的基团。具有指定数目的碳原子的烷基在括号中表示，例如，(C₁-C₆)烷基指1至6个碳原子的烷基。

“亚烷基”是指具有从1至18个(包括1个和18个)碳原子，更优选从1至8个(包括1个和8个)碳原子，和最优选包含性地具有1至6个(包括1个和6个)碳原子的直链或支链的二价烃基团。

“烯基”指包含至少一个双键但任选地包含多于一个双键的直链的或支链的2至12个(包括2个和12个)碳原子的基团。

“亚烯基”是指具有2至12个(包括2个和12个)碳原子，更优选具有从2至8个(包括2个和8个)碳原子，和最优选具有2至6个(包括2个和6个)碳原子，以及一个或更多个碳-碳双键的直链或支链的二价烃基团。

“炔基”指包含至少一个三键但任选地包含多于一个三键和额外地任选地包含一个或更多个双键部分的直链的或支链的2至12个(包括2个和12个)碳原子的基团。

“环烷基”指具有单个环或多元的稠合环的从3至12个(包括3个和12个)碳原子的环状的烷基，所述单个环或多元的稠合环可用从1至3个烷基任选地取代。示例性环烷基包括但不限于单个环结构诸如环丙基、环丁基、环戊基、环辛基、1-甲基环丙基、2-甲基环戊基、2-甲基环辛基等，或包括桥环系统的多元环结构，诸如金刚烷基等。

“环烷基烷基”指用环烷基取代的烷基，即，环烷基-烷基-基团，优选地在烷基部分具有从1至6个(包括1个和6个)碳原子以及且环烷基具有从3至12个(包括3个和12个)碳原子。此类环烷基烷基通过环丙基甲基、环己基乙基等来例示。

“芳基”指具有单个环(例如苯基)或多元的稠合环(例如，萘基或蒽基)的从6至12个(包括6个和12个)碳原子的不饱和芳香碳环基团。示例性芳基包括苯基、吡啶基、萘基等。

“芳基烷基”指用芳基取代的烷基，即，芳基-烷基-基团，优选地在烷基部分具有从1至6个(包括1个和6个)碳原子且在芳基部分包含性地具有从6至12个(包括6个和12个)碳原子。此类芳基烷基通过苯基、萘基等来例示。

“杂烷基”、“杂烯基”和“杂炔基”指其中碳原子中的一个或更多个各自独立地被相同或不同的杂原子或杂原子的基团替代的如本文定义的烷基、烯基和炔基。可替代碳原子的杂原子和/或杂原子的基团包括但不限于-O-、-S-、-S-O-、-NR^γ-、-PH-、-S(O)-、-S(O)₂-、-S(O)NR^γ-、-S(O)₂NR^γ-等，包括其组合，其中每个R^γ独立选自氢、烷基、杂烷基、环烷基、杂环烷基、芳基和杂芳基。

“杂芳基”指在环内的1至10个(包括1个和10个)碳原子以及选自氧、氮和硫的1至4个(包括1个和4个)杂原子的芳香族杂环基团。此类杂芳基可具有单个环(例如吡啶基或呋喃基)或多元的稠合环(例如吲哚嗪基或苯并噻吩基)。

“杂芳基烷基”指用杂芳基取代的烷基，即，杂芳基-烷基-基团，优选地在烷基部分具有从1至6个碳原子(包括1个和6个)并且在杂芳基部分具有从5至12个(包括5个和12个)环原子。此类杂芳基烷基通过吡啶基甲基等来例证。

“杂环”、“杂环的”和可互换的“杂环烷基”指具有单个环或多元的稠合环的饱和或不饱和的基团，环内具有2至10个(包括2个和10个)碳环原子以及选自氮、硫或氧的1至4个(包括1个和4个)杂环原子。此类杂环基团可具有单个环(例如哌啶基或四氢呋喃基)或多元的稠合环(例如二氢吲哚基、二氢苯并呋喃或奎宁环基)。杂环的实例包括但不限于呋喃、噻吩、噻唑、噁唑、吡咯、咪唑、吡唑、吡啶、吡嗪、嘧啶、哒嗪、吲哚嗪、异吲哚、吲哚、吲唑、嘌呤、喹嗪、异喹啉、喹啉、酞嗪、萘基吡啶、喹喔啉、喹唑啉、噌啉、喋啶、咔唑、咔啉、菲啶、吖啶、菲咯啉、异噻唑、吩嗪、异噁唑、吩噁嗪、吩噻嗪、咪唑啉啶、咪唑啉、哌啶、哌嗪、吡咯烷、吲哚啉等。

“杂环烷基烷基”指用杂环烷基取代的烷基，即，杂环烷基-烷基-基团，优选地在烷基部分具有1至6个(包括1个和6个)碳原子并且在杂环烷基部分具有3至12个(包括3个和12个)环原子。

“氧基”指二价基团-O-，其可具有形成不同的氧基的各种取代基，包括醚和酯。

“烷氧基(alkoxy)”或“烷基氧基(alkyloxy)”在本文可互换地被使用来指基团–OR^ζ，其中R^ζ为烷基，包括任选地取代的烷基。

如本文使用的“芳氧基(alkoxy)”指基团–OR，其中R为如上文定义的芳基，所述芳基包括如本文也定义的任选地取代的芳基。

“羧基”指-COOH。

“羧烷基”指用羧基取代的烷基。

“羰基”是指基团-C(O)-。取代的羰基指基团R^η-C(O)-R^η，其中每个R^η独立地选自任选地取代的烷基、环烷基、环杂烷基、烷氧基、羧基、芳基、芳氧基、杂芳基、杂芳基烷基、酰基、烷氧基羰基、硫烷基、亚硫酰基、磺酰基等。典型的取代的羰基包括酸、酮、醛、酰胺、酯、酰卤、硫酯等。

“氨基”指基团-NH₂。取代的氨基指基团–NHR^η、NR^ηR^η和NR^ηR^ηR^η，其中每个R^η独立地选自任选地取代的烷基、环烷基、环杂烷基、烷氧基、羧基、芳基、芳氧基、杂芳基、杂芳基烷基、酰基、烷氧基羰基、硫烷基、亚硫酰基、磺酰基等。典型的氨基包括但不限于二甲基氨基、二乙基氨基、三甲基铵、三乙基铵、甲基磺酰基氨基、呋喃基-氧基-磺氨基和类似物。

“氨基烷基”指其中用氨基替代氢原子中的一个或更多个的烷基，所述氨基包括取代的氨基。

“氨基羰基”是指用氨基取代的羰基，所述氨基包括如本文定义的取代的氨基，并且包括酰胺。

“氨基羰基烷基”指用如本文定义的氨基羰基取代的烷基。

“卤素(halogen)”或“卤(halo)”指氟、氯、溴和碘。

“卤烷基”指其中氢原子的一个或更多个被卤素替代的烷基。因此，术语“卤烷基”意图包括单卤烷基、二卤烷基、三卤烷基等，直至全卤烷基。例如，措辞“(C₁C₂)卤烃基”包括1-氟甲基、二氟甲基、三氟甲基、1-氟乙基、1,1-二氟乙基、1,2-二氟乙基、1,1,1-三氟乙基、全氟乙基等等。

“羟基”指-OH。

“羟基烷基”指用一个或更多个羟基取代的烷基。

“硫基”或“硫烷基”指-SH。取代的硫基或硫烷基指–S-R^η，其中R^η为烷基、芳基或其它合适的取代基。

“烷基硫基”指–SR^ζ，其中R^ζ为烷基，所述烷基可被任选地取代。典型的烷基硫基包括但不限于，甲基硫基、乙基硫基、正丙基硫基等。

“烷基硫基烷基”指用烷基硫基–SR^ζ取代的烷基，其中R^ζ为烷基，所述烷基可被任选地取代。

“磺酰基”指–SO₂-。取代的磺酰基指–SO₂-R^η，其中R^η为烷基、芳基或其它合适的取代基。

“烷基磺酰基”指–SO₂-R^ζ，其中R^ζ为烷基，所述烷基可被任选地取代。典型的烷基磺酰基包括但不限于，甲基磺酰基、乙基磺酰基、正丙基磺酰基等。

“烷基磺酰基烷基”指用烷基磺酰基–SO₂-R取代的烷基，其中R为烷基，所述烷基可被任选地取代。

“元环”意欲包含任何环结构。在术语“元”之前的数字表示组成环的骨架原子的数目。因此，例如，环己基、吡啶、吡喃和噻喃是6-元环并且环戊基、吡咯、呋喃和噻吩是5-元环。

“稠合二环的环”是指在每个环中具有5个或8个原子的未取代的和取代的碳环和/或杂环的环部分，所述环具有2个常见原子。

如本文使用的关于前述化学基团的“任选地取代的”意指被氢占据的化学基团的位置可以用另一个原子或者化学基团取代，所述另一个原子诸如碳、氧、氮或硫，所述化学基团通过以下例示但不限于以下：羟基、氧、硝基、甲氧基、乙氧基、烷氧基、取代的烷氧基、三氟甲氧基、卤烷氧基、氟、氯、溴、碘、卤素、甲基、乙基、丙基、丁基、烷基、烯基、炔基、取代的烷基、三氟甲基、卤烷基、羟烷基、烷氧基烷基、硫基、烷硫基、酰基、羧基、烷氧基羰基、羧基酰氨基(carboxamido)、取代的羧基酰氨基、烷基磺酰基、烷基亚磺酰基、烷基磺酰基氨基、磺酰基酰氨基、取代的磺酰基酰氨基、氰基、氨基、取代的氨基、烷基氨基、二烷基氨基、氨基烷基、酰氨基、脒基、氨基肟基(amidoximo)、羟基戊氧基、苯基、芳基、取代的芳基、芳基氧基、芳基烷基、芳基烯基、芳基炔基、吡啶基、咪唑基、杂芳基、取代的杂芳基、杂芳基氧基、杂芳基烷基、杂芳基烯基、杂芳基炔基、环丙基、环丁基、环戊基、环己基、环烷基、环烯基、环烷基烷基、取代的环烷基、环烷基氧基、吡咯烷基、哌啶基、吗啉代、杂环基、(杂环基)氧基和(杂环基)烷基；其中优选的杂原子为氧、氮和硫。此外，当开放(open)的价存在于这些取代的化学基团上时，其可用烷基、环烷基、芳基、杂芳基和/或杂环基进一步取代，当这些开放的价存在于碳上时，其可被卤素以及被氧、氮、或硫键合的取代基进一步取代，并且当多个此类开放的价存在时，这些基团可通过直接形成键或通过与新杂原子形成键而被连接形成环，所述新杂原子优选地为氧、氮或硫。还设想，可进行以上取代的条件是，用取代基替代氢不向本发明的分子引入不可接受的不稳定性，并且在其他方面是化学上合理的。本领域普通技术人员会理解，对于任何被描述为任选地取代的化学基团，只有空间上实际的和/或合成上可行的化合物意图被包括。最后，如本文使用的“任选地取代的”指在化学基团的术语或系列中所有随后的修饰成分。例如，在术语“任选地取代的芳基烷基”中，分子的“烷基”部分和“芳基”部分可被或可不被取代，并且对于系列“任选地取代的烷基、环烷基、芳基和杂芳基”，该烷基、环烷基、芳基和杂芳基彼此独立地可被或可不被取代。

6.3工程化的亚胺还原酶(IRED)多肽

本发明提供了具有亚胺还原酶活性的工程化的多肽、编码所述多肽的多核苷酸；制备所述多肽的方法，和用于使用所述多肽的方法。当描述涉及多肽时，要理解其还描述编码所述多肽的多核苷酸。

如上文所指出的，亚胺还原酶属于如方案1所阐明的催化酮底物和伯胺或仲胺底物还原胺化成仲胺或叔胺产物的一类酶(对于方案和式(I)、(II)和(III)的化合物的基团结构参见上文)。

具有SEQ ID NO:2的氨基酸序列的来自节杆菌属菌株1C的冠瘿碱脱氢酶(在本文中也被称为“CENDH”)，天然地催化酮底物丙酮酸和氨基酸底物L-2-氨基戊酸(或“L-正缬氨酸”)转化成产物(2S)-2-((1-羧乙基)氨基)戊酸。CENDH还催化丙酮酸与氨基酸底物L-鸟氨酸和β-丙氨酸以及结构相似的氨基磺酸底物牛磺酸的反应。此外，CENDH被发现催化未活化的酮底物环己酮(而非丙酮酸)和其天然胺底物L-正缬氨酸转化成仲胺产物(S)-2-(环己基氨基)戊酸。CENDH还被发现催化其天然酮底物丙酮酸与伯胺丁胺、乙胺和异丙胺转化成它们各自的2-(烷基氨基)丙酸仲胺产物。但是，CENDH对于丙酮酸与仲胺诸如二甲胺的转化不表现出任何活性。此外，当与未活化的伯胺底物丁胺一起使用时，CENDH不显示出任何对于未活化的酮底物环己酮的亚胺还原酶活性。

本发明提供了克服野生型冠瘿碱脱氢酶CENDH的缺陷的工程化的亚胺还原酶。衍生自节杆菌属菌株1C的野生型酶的工程化的亚胺还原酶多肽能够有效地将丙酮酸和L-正缬氨酸转化为产物(2S)-2-((1-羧乙基)氨基)戊酸，而且还能有效地将一系列的式(I)的酮底物化合物和式(II)的胺底物化合物转化成式(III)的仲胺和叔胺产物化合物，如在下表2中列出的通过转化反应(a)至(s)所示。

明显地，本发明提供了导致改进的酶性质的在SEQ ID NO:6(其以前从SEQ ID NO:2的天然存在的CENDH多肽进化而来)的具有亚胺还原酶活性的参考工程化的多肽的序列中的氨基酸残基位置和相应的突变，所述酶性质除其它之外包括亚胺还原酶活性、底物特异性、选择性、热稳定性和溶剂稳定性。特别地，本发明提供了能够催化还原胺化反应的工程化的IRED多肽，还原胺化反应诸如表2的那些反应(即，式(I)的酮底物化合物(例如，环己酮)与式(II)的伯胺和仲胺底物化合物还原胺化从而生成式(III)的仲胺或叔胺化合物)。

在一些实施方案中，工程化的亚胺还原酶多肽表现出与野生型酶CENDH相比，在限定的时间内使用相同量的酶将式(I)的酮底物和式(II)的胺底物转化成式(III)的胺产物的增加的活性。在一些实施方案中，在合适的反应条件下工程化的亚胺还原酶多肽与SEQID NO:6和/或SEQ ID NO:12的参考工程化的多肽相比具有至少约1.2倍、1.5倍、2倍、3倍、4倍、5或10倍或更多的活性。

在一些实施方案中，工程化的亚胺还原酶多肽表现将式(I)的酮底物和式(II)的胺底物转化成式(III)的胺产物的亚胺还原酶活性，对于所述转化SEQ ID NO:2的野生型多肽CENDH不具有可检测的活性。

通过工程化的亚胺还原酶多肽产生的式(III)的产物化合物可以是具有一个或更多个手性中心的仲胺或叔胺化合物。在一些实施方案中，工程化的亚胺还原酶多肽能够以大于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％或更大的对映异构体过量或非对映异构体过量将式(I)和式(II)的酮和胺底物化合物转化为式(III)的手性胺产物化合物。

在一些实施方案中，在合适的反应条件下，工程化的亚胺还原酶多肽能够以相对于SEQ ID NO:6和/或SEQ ID NO:12的参考多肽的耐受性增加的对这些底物化合物的一种或两种的存在的耐受性转化式(I)和式(II)的酮和胺底物化合物。因此，在一些实施方案中，工程化的亚胺还原酶多肽能够在合适的反应条件下，在约120小时或更少、约72h或更少、约48h或更少、约36h或更少、或约24h或更少的反应时间内，在至少约10g/L、约20g/L、约30g/L、约40g/L、约50g/L、约70g/L、约100g/L、约125g/L、约150g/L、约175g/L或约200g/L或更多的底物载量浓度下，以至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约98％或至少约99％的百分比转化转化式(I)和式(II)的酮和胺底物化合物。

工程化的多肽的以上描述的改进的特性在其下执行转化的合适的反应条件，可关于多肽的浓度或量、底物、辅因子(例如，NAD(P)H)、辅酶(例如，FDH或GDH)、缓冲液、共溶剂、pH、温度、反应时间和/或多肽固定在固相支持物上的条件来确定，如在以下和在实施例中进一步描述的。

本发明提供了大量的示例性的具有亚胺还原酶活性的工程化的多肽。这些示例性的多肽从SEQ ID NO:6的以前工程化的多肽(其通过定向进化从SEQ ID NO:2的野生型CENDH衍生)进化而来，并且在多种酮和胺底物的转化中表现出改进的性质，特别是增加的活性和稳定性，所述多种酮和胺底物的转化包括化合物(1j)和(2b)转化为胺产物化合物(3o)、化合物(1j)和(2c)转化为胺产物化合物(3p)、化合物(1j)和(2g)转化为胺产物化合物(3q)、化合物(1i)和(2h)转化为胺产物化合物(3r)和化合物(1e)和(2d)转化为胺产物化合物(3s)。这些示例性的具有亚胺还原酶活性的工程化的多肽具有在以下残基位置处的与SEQ ID NO:6相比的一个或更多个残基差异的氨基酸序列(在所附序列表中提供为SEQ IDNO:8-924中的偶数序列标识符)：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352。在与表3A-3L的示例性多肽的改进的性质相关的这些位置中的每个处的具体的氨基酸差异包括：X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/P/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N/W、X142A、X143F/L/W/Y、X153E/F/Y、X154C/D/F/G/K/L/N/Q/S/T/V/Y、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T/V、X257Q、X259C/I/L/M/R/T、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X273C/W、X274L/M/S、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X283M/V、X284C/F/H/L/P/Q/S、X291E、X292E/P、X295F、X296N、X326V和X352Q。特别是，氨基酸残基差异X12M、X82C/P/T和X111A/H与跨越一系列酮和胺底物的增加的亚胺还原酶活性和/或稳定性相关(如表3A-3L中的结果所显示的)。

本发明的示例性的非天然存在的(或工程化的)亚胺还原酶多肽的结构和功能信息基于在这些酶的定向进化中使用的五个不同的高通量(HTP)筛选测定：(1)酮和胺底物化合物(1j)和(2b)转化成胺产物化合物(3o)；(2)酮和胺底物化合物(1j)和(2c)转化成胺产物化合物(3p)；(3)酮和胺底物化合物(1j)和(2g)转化成胺产物化合物(3q)；(4)酮和胺底物化合物(1i)和(2h)转化成胺产物化合物(3r)；和(5)酮和胺底物化合物(1e)和(2d)转化成胺产物化合物(3s)。这些HTP筛选测定的结果在下表3A-3L中示出。奇数序列标识符(即SEQ ID NO)指编码由偶数SEQ ID NO提供的氨基酸序列的核苷酸序列，并且序列被提供于附于此发明的电子序列表文件中，通过引用将序列表文件并入本文。表3A中列出的氨基酸残基差异基于与SEQ ID NO:6的参考序列的比较，SEQ ID NO:6的参考序列是具有与来自节杆菌属菌株1C的冠瘿碱脱氢酶相比的以下29个残基差异的工程化的多肽的氨基酸序列：S29R、N94K、A111R、S137N、K156T、G157L、V184Q、V197I、N198E、M201L、Q220H、L223T、S232A、H259V、E261I、S266T、A279V、Y280L、A284M、I287T、N288S、R292V、Y293H、F295S、A311V、D324L、S328E、T332V和G353E。表3B-3L中列出的氨基酸残基差异基于与SEQ ID NO:12的工程化的多肽的氨基酸序列的比较，SEQ ID NO:12的工程化的多肽的氨基酸序列具有与SEQID NO:6的参考序列相比的以下9个残基差异：R111A、T141W、N153Y、A154F、C256E、V274M、I283V、M284S和E296N。

使用以下五个高通量(HTP)测定中的一种或更多种作为初级筛选确定所述工程化的亚胺还原酶多肽相对于参考(或对照)工程化的多肽(如在表格中所列的)的活性的活性。(1)酮和胺底物化合物(1j)和(2b)转化成胺产物化合物(3o)；(2)酮和胺底物化合物(1j)和(2c)转化成胺产物化合物(3p)；(3)酮和胺底物化合物(1j)和(2g)转化成胺产物化合物(3q)；(4)酮和胺底物化合物(1i)和(2h)转化成胺产物化合物(3r)；和(5)酮和胺底物化合物(1e)和(2d)转化成胺产物化合物(3s)。按照如在表中记录的测定反应条件，使用每孔～100μL体积的96孔板形式中的大肠杆菌(E.coli)澄清的细胞裂解物来确定HTP测定值。

从表3A-3L中所示的示例性多肽的分析，酶性质的改进与以下残基位置处的与SEQID NO:6的工程化的多肽的参考序列相比的残基差异相关：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352。在与改进的性质相关的这些位置中的每个处的具体的残基差异包括：X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/P/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N/W、X142A、X143F/L/W/Y、X153E/F/Y、X154C/D/F/G/K/L/N/Q/S/T/V/Y、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T/V、X257Q、X259C/I/L/M/R/T、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X273C/W、X274L/M/S、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X283M/V、X284C/F/H/L/P/Q/S、X291E、X292E/P、X295F、X296N、X326V和X352Q。

与以上的残基位置处的与SEQ ID NO:6相比的碱基差异相关的具体的酶性质除其他之外，包括酶活性和稳定性(热稳定性和溶剂稳定性)。酶活性和稳定性的实质改进与残基位置X12、X82、X94、X111、X141、X143、X153、X154、X159、X163、X256、X259、X273、X274、X283、X284、X296处的残基差异相关，并且与具体的残基差异X12M、X82C/P/T、X94N、X111A/H、X141M/N/W、X143F/L/W/Y、X153E/F/Y、X154C/D/G/F/K/L/N/Q/S/T/V/Y、X159C/L/Q/V、X163V、X256A/E/I/L/S/T/V、X259C/I/L/M/R/T、X273C/W、X274L/M/S、X283V、X284C/F/H/L/P/Q/S和X296N/V相关。特别是，如表3A-3L中的结果所示，氨基酸残基差异X12M、X82C/P/T和X111A/H提供了跨越一系列酮和胺底物的增加的亚胺还原酶活性和/或稳定性。

未活化的酮和未活化的胺底物化合物的多种组合在产生多种胺产物化合物(3o)、(3p)、(3q)、(3r)和(3s)(例如，表2的反应(o)–(s))中的活性、稳定性和选择性的进一步改进与以下位置处的残基差异相关：X18、X20、X26、X27、X29、X37、X57、X65、X74、X87、X93、X96、X108、X126、X138、X140、X142、X156、X157、X158、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X257、X260、X261、X262、X263、X264、X265、X267、X270、X272、X276、X277、X278、X279、X281、X282、X291、X292、X295、X326和X352，并包括具体的氨基酸残基差异X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X87A、X93G/Y、X96C、X108S、X126S、X138L、X140M、X142A、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X257Q、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X291E、X292E/P、X295F、X326V和X352Q。因此，在前述残基位置处的残基差异可单独使用或者以多种组合使用以产生具有希望的改进的性质的工程化的亚胺还原酶多肽，所述希望的改进的性质除其他之外，包括酶活性、稳定性、选择性和底物耐受性。

此外，如上文所述，已经确定了冠瘿碱脱氢酶CENDH的晶体结构(参见Britton等,Nat.Struct.Biol.,5:593-601[1998])。因此，本文公开的多个氨基酸差异与功能活性的关联与已知的野生型酶CENDH的三维结构一起可为普通技术人员提供足够的信息以合理地对本文提供的多肽(或者对包括OpDH、BADH、CEOS和TauDH的同源的冠瘿碱脱氢酶酶)进行工程化进一步的氨基酸残基改变，并保持或改进亚胺还原酶活性或稳定性特性。在一些实施方案中，预期这类改进可包括工程化本发明的工程化的多肽以具有使用一系列底物的亚胺还原酶活性并且提供一系列如方案1中所描述的产物。

鉴于本文提供的指导，还预期偶数序列标识符SEQ ID NO:8–924的示例性工程化的多肽序列中的任一个可被用作用于合成其他工程化的亚胺还原酶多肽的起始氨基酸序列，例如通过随后通过添加来自表3A-3L中的其他多肽的各种氨基酸差异和本文描述的其他残基位置的新的组合的多轮进化。另外的改进可通过在贯穿较早轮次的进化保持未改变的残基位置处包含氨基酸差异来生成。因此，在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列与SEQ ID NO:6的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列同一性并且具有以下特征中的至少一个：

(ii)选自以下的与SEQ ID NO:6的参考序列相比的残基差异：X20V、X29K、X37P、X74W、X82C/T、X94N、X108S、X111A/H、X141M/N、X143F/L/Y、X153E/F、X154C/D/G/K/L/N/S/T/V、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X163V、X197V、X201I、X220C/K/Q、X223S、X256A/E/I/L/S/T、X259C/R、X260A/D/N/Q/V/Y、X261E/F/H/L/P/Q/Y、X264V、X270L、X273C、X274L/S、X279T、X284C/F/H/P/Q/S、X292E/P和X295F；和/或

(iii)选自以下的与SEQ ID NO:6的参考序列相比的两个或更多个残基差异：X82、X141W、X153Y、X154F、X259I/L/M、X274L/M、X283V和X296N/V。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X12M、X37P、X82T、X111A、X154S、X156N/M、X223S、X256E、X260D、X261H、X262P、X263C/E/Q、X267G、X277L、X281A、X284P/S和X292E。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X93G/Y、X94N、X96C、X111A/H、X142A、X159L、X163V、X256E、X259R、X273C和X284P/S。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少两个残基差异：X82P、X141W、X143W、X153Y、X154F/Q/Y、X256V、X259I/L/M/T、X260G、X261R、X265L、X273W、X274M、X277A/I、X279L、X283V、X284L、X296N、X326V。在一些实施方案中，所述至少两个残基差异选自X141W、X153Y、X154F、X259I/L/M、X274L/M、X283V和X296N/V。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异组合：(a)X153Y和X283V；(b)X141W、X153Y和X283V；(c)X141W、X153Y、X274L/M和X283V；(d)X141W、X153Y、X154F、X274L/M和X283V；(e)X141W、X153Y、X154F和X283V；(f)X141W、X153Y、X283V和X296N/V；(g)X141W、X153Y、X274L/M、X283V和X296N/V；(h)X111A、X153Y、X256E、X274M和X283V；(i)X111A、X141W、X153Y、X273C、X274M、X283V和X284S；(j)X111A、X141W、X153Y、X273C和X283V；(k)X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N；(l)X111A、X141W、X153Y、X256E、X273W、X274L、X283V、X284S和X296N；(m)X111H、X141W、X153Y、X273W、X274M、X284S和X296N；(n)X111H、X141W、X153Y、X154F、X273W、X274L、X283V、X284S和X296N；(o)X82P、X141W、X153Y、X256E、X274M和X283V；(p)X82P、X111A、X141W、X153Y、X256E、X274M、X283V、M284S和E296V；(q)X94N、X143W、X159L、X163V、X259M和X279L；(r)X141W、X153Y、X154F和X256E；和(s)X153Y、X256E和X274M。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含以上氨基酸残基差异组合(a)至(s)中的至少一个，并且还包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N、X142A、X143F/L/Y、X153E/F、X154C/D/G/K/L/N/S/T/V、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T、X257Q、X259C/R、X260A/D/N/Q/V/Y、X261E/F/H/L/P/Q/Y、X262P、X262F/G/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X267E/G/H/I/N/S、X270L、X272D、X273C、X274L/S、X276L、X277H/L、X278E/H/K/N/R/S/W、X279T、X281A、X282A/R、X284C/F/H/P/Q/S、X291E、X292E/P、X295F和X352Q。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含残基差异X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N的组合并且包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异或残基差异组合：(a)X156N；(b)X37P、X82T和X156N；(c)X37P、X82T、X156N和X259I；(d)X259L/M；(e)X82T、X156N、X223S、X259L、X267G和X281A；(f)X263C；(g)X12M、X261H、X263C、X277L和X292E；(h)X154S；和(i)X154S、X156M、X260D、X261H、X262P、X263E和X284P。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列与偶数序列标识符SEQ ID NO:8-924的序列具有70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更高的同一性。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列与偶数序列标示符SEQ ID NO:6-924的序列具有70％、80％、85％、90％、95％、97％、98％、99％或者更高的一致性，其中所述氨基酸序列包含如上文(和本文其它位置)公开的氨基酸残基差异，但是不包含在选自以下的一个或更多个残基位置处与SEQ ID NO:6的参考序列相比的残基差异：X29、X137、X157、X184、X197、X198、X201、X220、X232、X261、X266、X279、X280、X287、X288、X293、X295、X311、X324、X328、X332和X353。

在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列与偶数序列标示符SEQ ID NO:6-924的序列具有70％、80％、85％、90％、95％、96％、97％、98％、99％或者更高的同一性，其中所述氨基酸序列包含上文(和本文其它位置)公开的氨基酸残基差异，其中所述氨基酸序列还包含选自以下的与SEQ ID NO:6的参考序列相比的残基差异：X4H/L/R、X5T、X14P、X20T、X29R/T、X37H、X67A/D、X71C/V、X74R、X82P、X94K/R/T、X97P、X100W、X111M/Q/R/S、X124L/N、X136G、X137N、X141W、X143W、X149L、X153E/V/Y、X154F/M/Q/Y、X156G/I/Q/S/T/V、X157D/H/L/M/N/R、X158K、X160N、X163T、X177C/H、X178E、X183C、X184K/Q/R、X185V、X186K/R、X197I/P、X198A/E/H/P/S、X201L、X220D/H、X223T、X226L、X232G/A/R、X243G、X246W、X256V、X258D、X259E/H/I/L/M/S/T/V/W、X260G、X261A/G/I/K/R/S/T、X265G/L/Y、X266T、X270G、X273W、X274M、X277A/I、X279F/L/V/Y、X280L、X283M/V、X284K/L/M/Y、X287S/T、X288G/S、X292C/G/I/P/S/T/V/Y、X293H/I/K/L/N/Q/T/V、X294A/I/V、X295R/S、X296L/N/V/W、X297A、X308F、X311C/T/V、X323C/I/M/T/V、X324L/T、X326V、X328A/G/E、X332V、X353E和X356R。

在一些实施方案中，具有与SEQ ID NO:6相比改进的性质的具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列与选自SEQ ID NO:6、12、84、92、146、162、198、228、250、354和440的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的同一性，并且具有与SEQ IDNO:6相比在选自以下的残基位置处的一个或更多个残基差异：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352。

如本领域技术人员将领会的，在一些实施方案中，选择的以上的残基差异的一个或组合在工程化的亚胺还原酶中可以作为核心序列而保持恒定，并且在其他残基位置处的另外的残基差异并入核心序列以生成另外的具有改进的性质的工程化的亚胺还原酶多肽。因此，要理解对于包含以上的残基差异中的一个或子集的任何工程化的亚胺还原酶，本发明涵盖了包含残基差异中的该一个或子集，以及另外地在本文公开的其他残基位置处的一个或更多个残基差异的其他的工程化的亚胺还原酶。通过举例和非限制，在残基位置X256处包含残基差异的工程化的亚胺还原酶可以在其它残基位置处(例如，X111、X141、X153、X154、X198、X274、X283、X284和X296)进一步并入一个或更多个残基差异。事实上，包含与SEQ ID NO:6相比的残基差异X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N的组合的SEQ ID NO:12的工程化的亚胺还原酶多肽被进一步进化以产生另外的具有改进的活性和稳定性的工程化的亚胺还原酶多肽。这些进一步改进的工程化亚胺还原酶多肽包含在选自以下的残基位置处的与SEQ ID NO:6的序列相比的一个或更多个残基差异：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352。与改进的活性或稳定性相关的在这些位置处的具体氨基酸残基差异选自X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/P/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N/W、X142A、X143F/L/W/Y、X153E/F/Y、X154C/D/F/G/K/L/N/Q/S/T/V/Y、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T/V、X257Q、X259C/I/L/M/R/T、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X273C/W、X274L/M/S、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X283M/V、X284C/F/H/L/P/Q/S、X291E、X292E/P、X295F、X296N、X326V和X352Q。

因此，在一些实施方案中，具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列与SEQ ID NO:6(或SEQ ID NO:8–924的示例性工程化的多肽中的任一个)具有至少80％的序列同一性，具有在选自X111、X141、X153、X154、X256、X274、X283、X284和X296的残基位置处的与SEQ ID NO:6的序列相比的一个或更多个残基差异(如上文所述)，并且进一步包含在选自以下的残基位置处的与SEQ ID NO:6的序列相比的一个或更多个残基差异：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352。在一些实施方案中，这些进一步的残基差异选自X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/P/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N/W、X142A、X143F/L/W/Y、X153E/F/Y、X154C/D/F/G/K/L/N/Q/S/T/V/Y、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T/V、X257Q、X259C/I/L/M/R/T、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X273C/W、X274L/M/S、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X283M/V、X284C/F/H/L/P/Q/S、X291E、X292E/P、X295F、X296N、X326V和X352Q。

通常，本发明的具有亚胺还原酶活性的工程化的多肽能够以相对于SEQ ID NO:2的节杆菌属菌株C1野生型冠瘿碱脱氢酶参考多肽或者相对于选自偶数序列标识符SEQ IDNO:8-924的工程化的多肽的具有亚胺还原酶活性的参考多肽改进的活性和/或改进的立体选择性，将式(I)的化合物和式(II)的化合物转化成式(III)的胺产物化合物(如方案1所阐明的)。在一些实施方案中，改进的活性和/或改进的立体选择性是关于将表2中所示的式(I)的化合物和式(II)的化合物的特定组合转化为表2中所示的相应的式(III)的胺产物化合物。

因此，在一些实施方案中，本发明的具有亚胺还原酶活性的工程化的多肽能够在合适的反应条件下以相对于偶数序列标识符SEQ ID NO:4–100和112-750的参考多肽改进的活性和/或改进的立体选择性进行以下转化反应中的一个或更多个：

(a)底物化合物(1a)和(2a)转化成产物化合物(3a)；

(b)底物化合物(1a)和(2b)转化成产物化合物(3b)；

(c)底物化合物(1b)和(2a)转化成产物化合物(3c)；

(d)底物化合物(1b)和(2b)转化成产物化合物(3d)；

(e)底物化合物(1b)和(2c)转化成产物化合物(3e)；

(f)底物化合物(1b)和(2d)转化成产物化合物(3f)；

(g)底物化合物(1c)和(2a)转化成产物化合物(3g)；

(h)底物化合物(1d)和(2a)转化成产物化合物(3h)；

(i)底物化合物(1e)和(2b)转化成产物化合物(3i)；

(j)底物化合物(1f)和(2b)转化成产物化合物(3j)；

(k)底物化合物(1g)和(2e)转化成产物化合物(3k)；

(l)底物化合物(1b)和(2f)转化成产物化合物(3l)；

(m)底物化合物(1h)和(2a)转化成产物化合物(3m)；

(n)底物化合物(1i)和(2b)转化成产物化合物(3n)；

(o)底物化合物(1j)和(2b)转化成产物化合物(3o)；

(p)底物化合物(1j)和(2c)转化成产物化合物(3p)；

(q)底物化合物(1j)和(2g)转化成产物化合物(3q)；

(r)底物化合物(1i)和(2h)转化成产物化合物(3r)；和

(s)底物化合物(1e)和(2d)转化成产物化合物(3s)，所述工程化的多肽具有与选自偶数序列标识符SEQ ID NO:8-924的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的同一性的氨基酸序列，并且具有在选自X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352的残基位置处的与SEQ ID NO:6相比的一个或更多个残基差异。

在一些实施方案中，具有亚胺还原酶活性并且能够在合适的反应条件下以改进的活性和/或立体选择性催化以上转化反应(a)-(s)中的一个或更多个的工程化的多肽包含与偶数序列标识符SEQ ID NO:6-924中的一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％的同一性的氨基酸序列，和如在表3A-3L中提供的在偶数序列标识符SEQ ID NO:8-924中的任一个中存在的与SEQ IDNO:6相比的氨基酸残基差异。

在一些实施方案中，具有亚胺还原酶活性并且能够在合适的反应条件下以改进的活性和/或立体选择性催化以上转化反应(a)-(s)中的一个或更多个的工程化的多肽具有包含选自偶数序列标识符SEQ ID NO:8-924的序列的氨基酸序列。衍生本发明的工程化的多肽自的SEQ ID NO:2的来自节杆菌属菌株C1的野生型冠瘿碱脱氢酶(CENDH)不具有可检测的将化合物(1b)的酮底物和化合物(2b)的胺底物转化成仲胺产物化合物(3d)的活性。但是，在一些实施方案中，具有亚胺还原酶活性的工程化的多肽能够将化合物(1b)的酮底物和化合物(2b)的胺底物转化成仲胺产物化合物(3d)。

此外，在一些实施方案中，本文公开的具有亚胺还原酶活性的工程化的多肽能够以相对于SEQ ID NO:6或12的参考多肽的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多倍的活性将化合物(1j)的酮底物和化合物(2b)的胺底物转化成胺产物化合物(3o)。在一些实施方案中，本文公开的具有亚胺还原酶活性的工程化的多肽能够以相对于SEQ IDNO:6、12、92或350的参考多肽的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多倍的活性将化合物(1j)的酮底物和化合物(2c)的胺底物转化成胺产物化合物(3p)。在一些实施方案中，本文公开的具有亚胺还原酶活性的工程化的多肽能够以相对于SEQ ID NO:6、12、146或198的参考多肽的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多倍的活性将化合物(1j)的酮底物和化合物(2g)的胺底物转化成胺产物化合物(3q)。在一些实施方案中，本文公开的具有亚胺还原酶活性的工程化的多肽能够以相对于SEQ ID NO:6、12、84或228的参考多肽的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多倍的活性将化合物(1i)的酮底物和化合物(2h)的胺底物转化成胺产物化合物(3r)。在一些实施方案中，本文公开的具有亚胺还原酶活性的工程化的多肽能够以相对于SEQ IDNO:6、12、162或354的参考多肽的活性至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多倍的活性将化合物(1e)的酮底物和化合物(2d)的胺底物转化成胺产物化合物(3s)。

除了以上所指定的残基差异的位置之外，本文公开的工程化的亚胺还原酶多肽中的任一个可以还包含除了表3A-3L中公开的氨基酸差异中的那些之外的其它残基位置处的相对于SEQ ID NO：6的其他残基差异，所述其它残基位置即除了X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352之外的残基位置。在这些其他的残基位置处的残基差异可以提供氨基酸序列中的另外的变化，而不不利地影响多肽催化以上来自表2的转化反应(a)-(s)中的一个或更多个的能力。因此，在一些实施方案中，除了在选自SEQ ID NO:8-924的工程化的亚胺还原酶多肽中的任何一个中存在的氨基酸残基差异之外，所述序列还可包含与SEQ ID NO:6相比在其他氨基酸残基位置处的1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40、1-45或1-50个残基差异。在一些实施方案中，与参考序列相比氨基酸残基差异的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、30、35、40、45或50个残基位置。在一些实施方案中，与参考序列相比氨基酸残基差异的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24或25个残基位置。在这些其他位置处的残基差异可以是保守变化或非保守变化。在一些实施方案中，与SEQ ID NO:2的天然存在的亚胺还原酶多肽或SEQ ID NO:6的工程化的亚胺还原酶多肽相比，残基差异可包含保守取代和非保守取代。

在一些实施方案中，本发明还提供了包含本文描述的工程化的亚胺还原酶多肽的任一个的片段并保持所述工程化的亚胺还原酶的功能活性和/或改进的特性的工程化的多肽。因此，在一些实施方案中，本发明提供了能够在合适的反应条件下催化以上表2的转化反应(a)-(s)中的一个或更多个的多肽片段，其中所述片段包含本发明的工程化的亚胺还原酶多肽的全长氨基酸序列的至少约80％、85％、90％、95％、96％、97％、98％或99％，所述本发明的工程化的亚胺还原酶多肽诸如选自偶数序列标识符SEQ ID NO:8-924的示例性的工程化的亚胺还原酶多肽。

在一些实施方案中，工程化的亚胺还原酶多肽可具有本文描述的工程化的亚胺还原酶多肽中的任一个的缺失的氨基酸序列，本文描述的工程化的亚胺还原酶多肽诸如具有偶数序列标识符SEQ ID NO:8-924的示例性工程化的多肽。因此，对于本发明的工程化的亚胺还原酶多肽的各个和每个实施方案，氨基酸序列可包含一个或更多个氨基酸、2个或更多个氨基酸，3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多达亚胺还原酶多肽的氨基酸总数的10％、多达亚胺还原酶多肽的氨基酸总数的10％、多达亚胺还原酶多肽的氨基酸总数的20％、或多达亚胺还原酶多肽的氨基酸总数的30％的缺失，其中本文描述的工程化的亚胺还原酶的相关功能活性和/或改进的性质被保持。在一些实施方案中，缺失可包含1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-15、1-20、1-21、1-22、1-23、1-24、1-25、1-30、1-35、1-40、1-45或1-50个氨基酸残基。在一些实施方案中，缺失的数目可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、30、35、40、45或50个氨基酸残基。在一些实施方案中，缺失可包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24或25个氨基酸残基的缺失。

在一些实施方案中，本文的工程化的亚胺还原酶多肽可具有与本文描述的工程化的亚胺还原酶多肽中的任一个相比包含插入的氨基酸序列，本文描述的工程化的亚胺还原酶多肽诸如具有偶数序列标识符SEQ ID NO:8-924的示例性工程化的多肽。因此，对于本发明的亚胺还原酶多肽的各个和每个实施方案，插入片段可包含一个或更多个氨基酸、2个或更多个氨基酸，3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、20个或更多个氨基酸、30个或更多个氨基酸、40个或更多个氨基酸、或50个或更多个氨基酸，其中本文描述的工程化的亚胺还原酶的相关功能活性和/或改进的特性被保持。插入可以至亚胺还原酶多肽的氨基末端或羧基末端，或中间部分。

在一些实施方案中，本文的工程化的亚胺还原酶多肽可以具有包含选自偶数序列标识符SEQ ID NO:8-924的序列的氨基酸序列，并且任选地具有一个或若干个(例如，多达3、4、5或多达10个)氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-15、1-20、1-21、1-22、1-23、1-24、1-25、1-30、1-35、1-40、1-45或1-50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列的数目任选地具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、30、35、40、45或50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24或25个氨基酸残基缺失、插入和/或取代。在一些实施方案中，取代可以是保守取代或非保守取代。

在以上实施方案中，工程化的多肽的合适的反应条件可以是在表3A-3L和实施例中描述的那些HTP测定条件。使用这些前述HTP和SFP反应条件和亚胺还原酶多肽的指导被提供于除了其他以外，表3A-3L以及实施例中。

在一些实施方案中，本发明的多肽可以是融合多肽的形式，其中工程化的多肽融合至其它多肽，所述其它多肽诸如以举例的方式但不限于抗体标签(例如，myc表位)、纯化序列(例如，用于结合金属的His标签)和细胞定位信号(例如，分泌信号)。因此，本文描述的工程化的多肽可以与其它多肽融合或不融合地使用。

要理解本文所述的多肽不局限于遗传编码的氨基酸。除了遗传编码的氨基酸，本文所述的多肽可以整体或部分由天然存在的和/或合成的非编码氨基酸组成。本文描述的多肽可包含的某些通常遇见的非编码氨基酸包括但不局限于：遗传编码氨基酸的D-立体异构体；2,3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ--氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘苯丙氨酸(Pif)；4-氨甲基苯丙氨酸(Pamf)；2,4-二氯苯丙氨酸(Opef)；3,4-二氯苯丙氨酸(Mpcf)；2,4-二氟苯丙氨酸(Opff)；3,4-二氯苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(InAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯丙氨酸(sAla)；蒽基丙氨酸(aAla)；3,3-二苯丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；l,2,3,4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4羧酸；哌啶酸(PA),氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)、高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰基赖氨酸(AcLys)；2,4-二氨基丁酸(Dbu)；2,3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。可以被本文描述的多肽包括的另外的非编码氨基酸对本领域技术人员将是明显的(见，如在Fasman,1989,CRC Practical Handbook of Biochemistry and Molecular Biology,CRC Press,BocaRaton,FL,pp.3-70和其中引用的参考文献中提供的各种的氨基酸，所有这些文献均通过引用并入)。这些氨基酸可为L-构型或D-构型的。

本领域技术人员将认识到，具有侧链保护基团的氨基酸或残基也可组成本文所述的多肽。在这种情况下属于芳香类的这类被保护的氨基酸的非限制性实例包括(保护基团在括号中列出)，但不限于：Arg(tos),Cys(甲苄基)、Cys(硝基吡啶次磺酰基)、Glu(δ-苄酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

可包含于本文所述的多肽中的构象受限的非编码氨基酸包括但不局限于N-甲基氨基酸(L-构型)；1-氨基环戊-(2或3)-烯-4-羧酸；哌可酸；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)；和1-氨基环戊烷-3-羧酸。

在一些实施方案中，工程化的多肽可以是多种形式，例如诸如分离的制品、作为基本上纯化的酶、用编码酶的基因转化的全细胞和/或作为此类细胞的细胞提取物和/或裂解物。酶可以是冻干的、喷雾干燥的、沉淀的或是粗的糊状物的形式，如以下进一步讨论的。

在一些实施方案中，可在固体支持物上提供工程化的多肽，所述固体支持物诸如膜、树脂、固体载体或其他固相材料。固体支持物可以包括有机聚合物，例如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚乙烯氧和聚丙烯酰胺及其共聚物和接枝物。固体支持物还可以是无机的，例如玻璃、二氧化硅、可控孔度玻璃(CPG)、反相二氧化硅或金属，例如金或铂。固体支持物的构造可以是珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平的、大体上平的或不平的。固体支持物可以是多孔的或非多孔的，并且可以具有溶胀或非溶胀特征。固体支持物可以被配置为孔、凹陷或其他器皿(container)、容器(vessel)、特征或位置的形式。

在一些实施方案中，本发明的具有亚胺还原酶活性的工程化的多肽可被固定在固体支持物上，以使得所述工程化的多肽保持其相对于SEQ ID NO:6的参考工程化的多肽的改进的活性、立体选择性和/或其它改进的性质。在此类实施方案中，固定的多肽可利于式(I)和式(II)的酮和胺底物化合物生物催化转化成式(III)的胺产物化合物(例如，如表2中的转化反应(a)-(s)中的)，并且在反应完成之后被容易地保留(例如通过保留多肽被固定于其上的珠)并且然后在随后的反应中被再利用或再循环。此类固定的酶方法允许进一步的高效和降低成本。因此，还构思了使用本发明的亚胺还原酶多肽的任何方法可使用结合或固定于固体支持物上的相同的亚胺还原酶多肽来进行。

酶固定的方法在本领域是被熟知的。工程化的多肽可被非共价地或共价地结合。用于将酶偶联或固定至固体支持物(例如，树脂、膜、珠、玻璃等)的多种方法是本领域所熟知的(参见例如，Yi等,Proc.Biochem.,42:895-898[2007]；Martin等,Appl.Micro.andBiotech.,76:843-851[2007]；Koszelewski等,J.Mol.Cat.B:Enzy.,63:39-44[2010]；Truppo等,Org.Proc.Res.Dev.,线上公开dx.doi.org/10.1021/op200157c；Hermanson,Bioconjugate Techniques,第二版,Academic Press[2008]；Mateo等，Biotech.Prog.,18:629-34[2002]；和C.M.Niemeyer[编],Bioconjugation Protocols:Strategies andMethods,In Methods in Molecular Biology,.,Humana Press[2004]，它们的每个通过引用并入本文)。可用于固定本发明的工程化的亚胺还原酶的固体支持物包括但不限于珠或树脂，所述珠或树脂包括具有环氧官能团的聚甲基丙烯酸酯、具有氨基环氧官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或聚甲基丙烯酸酯。可用于固定本发明的工程化的亚胺还原酶多肽的示例性固体支持物包括但不限于壳聚糖珠、Eupergit C和SEPABEAD(Mitsubishi)，SEPABEAD包括以下不同类型的SEPABEAD：EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，本文描述的多肽可以试剂盒的形式被提供。试剂盒中的酶可单独地存在或作为多种酶存在。试剂盒还可包括用于进行酶促反应的试剂、用于评价酶活性的底物、以及用于检测产物的试剂。试剂盒还可包括试剂分配器和试剂盒使用说明。

在一些实施方案中，本发明的试剂盒包括在不同的可寻址的位置处含有多个不同的亚胺还原酶多肽的阵列，其中不同的多肽为参考序列的不同变体，其每个具有至少一种不同的改进的酶特性。在一些实施方案中，在固体支持物上固定的多种多肽可以被配置在对于机器人递送试剂或通过检测方法和/或仪器可寻址的各个位置的阵列上。阵列可被用来测试用于被多肽转化的各种底物化合物。包含多个工程化的多肽的此类阵列及其使用方法是已知的(参见例如，WO2009/008908A2)。

6.4编码工程化的亚胺还原酶的多核苷酸、表达载体和宿主细胞

在另一方面，本发明提供了编码本文描述的工程化的亚胺还原酶多肽的多核苷酸。多核苷酸可与控制基因表达的一个或更多个异源调控序列可操作地连接以产生能够表达多肽的重组多核苷酸。包含编码工程化的亚胺还原酶的异源多核苷酸的表达构建体可被引入合适的宿主细胞以表达相应的亚胺还原酶多肽。

如对本领域技术人员将是明显的，蛋白序列的可得性和对应于多种氨基酸的密码子的知识提供能够编码目标多肽的所有多核苷酸的说明。其中相同氨基酸由可选的或同义的密码子编码的遗传密码的简并性允许产生极大数目的核酸，所有这些核酸编码改进的亚胺还原酶。因此，知道了特定的氨基酸序列后，本领域技术人员可以通过以不改变蛋白的氨基酸序列的方式简单修饰一个或更多个密码子的序列来制备任何数目的不同核酸。在这方面，本发明特别地构思了可通过基于可能的密码子选取而选择组合来制备编码本文描述的多肽的多核苷酸的各个和每个可能的变体，并且所有这类变体被针对本文描述的任何多肽而具体地公开，本文描述的任何多肽包括在表3A-3L中呈现的氨基酸序列以及在通过引用并入本文的序列表中作为偶数序列标识符SEQ ID NO:8-924的序列中公开的氨基酸序列。

在多种实施方案中，密码子被优选地选择以适应蛋白在其中产生的宿主细胞。例如，用于细菌的优选密码子用于表达细菌中的基因；用于酵母中的优选密码子用于在酵母中表达；且用于哺乳动物的优选密码子用于在哺乳动物细胞中表达。在一些实施方案中，不是所有的密码子需要被取代来优化亚胺还原酶的密码子使用，因为天然序列将包括优选的密码子并且由于优选的密码子的使用可能不是所有氨基酸残基所需要的。因此，编码亚胺还原酶的密码子优化的多核苷酸可在全长编码区的约40％、50％、60％、70％、80％或高于90％的密码子位置包含优选的密码子。

在一些实施方案中，多核苷酸包含编码SEQ ID NO:2的天然存在的亚胺还原酶多肽的密码子优化的核苷酸序列。在一些实施方案中，多核苷酸具有包含与SEQ ID NO:1的密码子优化的核酸序列至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的核酸序列。SEQ ID NO:1的密码子优化的序列增强编码的天然存在的亚胺还原酶的表达。

在一些实施方案中，多核苷酸能够在高度严格的条件下与SEQ ID NO:1的参考序列或者其互补物杂交，并且编码具有亚胺还原酶活性的多肽。

如上文所述，在一些实施方案中，多核苷酸编码具有以与SEQ ID NO:6相比改进的特性的亚胺还原酶活性的工程化的多肽，其中所述多肽包含与选自偶数序列标识符SEQ IDNO:8-924的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的同一性并且具有以下特征中的至少一个的氨基酸序列：

(iii)选自以下的与SEQ ID NO:6的参考序列相比的两个或更多个残基差异：X82、X141W、X153Y、X154F、X259I/L/M、X274L/M、X283V和X296N/V。在一些实施方案中，参考序列选自SEQ ID NOS:6、12、84、92、146、162、198、228、250、354和440。

在一些实施方案中，多核苷酸编码能够以与SEQ ID NO:6相比改进的特性将底物化合物(1j)和(2b)转化成产物化合物(3o)的亚胺还原酶多肽，其中所述多肽包含与参考序列SEQ ID NO:6相比具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性并且在选自以下的残基位置处具有与SEQ ID NO:6相比的一个或更多个残基差异的氨基酸序列：X82P、X141W、X143W、X153Y、X154F/Q/Y、X256V、X259I/L/M/T、X260G、X261R、X265L、X273W、X274M、X277A/I、X279L、X283V、X284L、X296N、X326V。

在一些实施方案中，多核苷酸编码能够以与SEQ ID NO:6相比改进的特性将底物化合物(1j)和(2b)转化成产物化合物(3o)的亚胺还原酶多肽，其中所述多肽包含与参考序列SEQ ID NO:6相比具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列同一性并且具有选自以下的与SEQ ID NO:6相比的至少一个残基差异的组合的氨基酸序列：(a)X153Y和X283V；(b)X141W、X153Y和X283V；(c)X141W、X153Y、X274L/M和X283V；(d)X141W、X153Y、X154F、X274L/M和X283V；(e)X141W、X153Y、X154F和X283V；(f)X141W、X153Y、X283V和X296N/V；(g)X141W、X153Y、X274L/M、X283V和X296N/V；(h)X111A、X153Y、X256E、X274M和X283V；(i)X111A、X141W、X153Y、X273C、X274M、X283V和X284S；(j)X111A、X141W、X153Y、X273C和X283V；(k)X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N；(l)X111A、X141W、X153Y、X256E、X273W、X274L、X283V、X284S和X296N；(m)X111H、X141W、X153Y、X273W、X274M、X284S和X296N；(n)X111H、X141W、X153Y、X154F、X273W、X274L、X283V、X284S和X296N；(o)X82P、X141W、X153Y、X256E、X274M和X283V；(p)X82P、X111A、X141W、X153Y、X256E、X274M、X283V、M284S和E296V；(q)X94N、X143W、X159L、X163V、X259M和X279L；(r)X141W、X153Y、X154F和X256E；和(s)X153Y、X256E和X274M。

在一些实施方案中，多核苷酸编码能够以与SEQ ID NO:2的参考多肽相比改进的酶特性将底物化合物(1j)和(2b)转化成产物化合物(3o)的工程化的亚胺还原酶多肽，其中所述多肽包含与选自偶数序列标识符SEQ ID NO:8-924中的任一个的参考多肽具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％的同一性的氨基酸序列，条件是所述氨基酸序列包含如表3A-3L所列的偶数序列标识符SEQ ID NO:8-924的多肽序列中的任一个中含有的与SEQ ID NO:6相比的残基差异的组中的任一个。

在一些实施方案中，编码工程化的亚胺还原酶的多核苷酸包含选自奇数序列标识符SEQ ID NO:7-603的多核苷酸序列。

在一些实施方案中，多核苷酸能在高度严格条件下与选自奇数序列标识符SEQ IDNO:7-603的参考多核苷酸序列或其互补物杂交，并且编码以本文描述的改进的特性的一种或更多种具有亚胺还原酶活性的多肽。在一些实施方案中，能够在高度严格的条件下杂交的多核苷酸编码亚胺还原酶多肽，所述亚胺还原酶具有在选自以下的残基位置处包含与SEQ ID NO:6相比的一个或更多个残基差异的氨基酸序列：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352。在一些实施方案中，在这些残基位置处的具体的残基差异选自：X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/P/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N/W、X142A、X143F/L/W/Y、X153E/F/Y、X154C/D/F/G/K/L/N/Q/S/T/V/Y、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T/V、X257Q、X259C/I/L/M/R/T、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X273C/W、X274L/M/S、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X283M/V、X284C/F/H/L/P/Q/S、X291E、X292E/P、X295F、X296N、X326V和X352Q。

在一些实施方案中，所述多核苷酸编码本文描述的多肽，但是在核苷酸水平上与编码工程化的亚胺还原酶的参考多核苷酸具有约80％或更高的序列同一性，约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性。在一些实施方案中，参考多核苷酸序列选自奇数序列标识符SEQ ID NO:7-603。

可采用各种方法处理编码改进的亚胺还原酶多肽的分离的多核苷酸以提供所述多肽的表达。在一些实施方案中，编码多肽的多核苷酸可以作为表达载体而提供，其中存在一个或更多个控制序列来调节多核苷酸和/或多肽的表达。取决于表达载体，在分离的多核苷酸插入载体之前对分离的多核苷酸的操作可以是期望的或必需的。利用重组DNA方法修饰多核苷酸和核酸序列的技术在本领域中是公知的。Sambrook等,2001,MolecularCloning:A Laboratory Manual,第三版,Cold Spring Harbor Laboratory Press；和Current Protocols in Molecular Biology,Ausubel.F.编著,Greene Pub.Associates,1998,2006年更新中提供了指导。

在一些实施方案中，控制序列包括，除了其他以外，启动子、前导序列、多聚腺苷酸化序列、前肽序列、信号肽序列和转录终止子。合适的启动子可基于使用的宿主细胞而选择。对于细菌宿主细胞，用于指导本发明的核酸构建体的转录的合适启动子包括从以下获得的启动子：大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillusamyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因及原核β-内酰胺酶基因(Villa-Kamaroff等人，Proc.NatlAcad.Sci.USA 75:3727-3731[1978])、以及tac启动子(DeBoer等人,1983,Proc.NatlAcad.Sci.USA 80:96:21-25[1983])。用于丝状真菌宿主细胞的示例性启动子包括获取自以下的基因的启动子：米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucormiehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见例如，WO 96/00787)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和其突变启动子、截短启动子和杂合启动子。示例性酵母细胞启动子可来自于可来自酿酒酵母(Saccharomyces cerevisiae)烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)、和酿酒酵母3-磷酸甘油酸激酶的基因的基因。可用于酵母宿主细胞的其它启动子是本领域已知的(参见例如，Romanos等,Yeast8:423-488[1992])。

控制序列也可以是合适的转录终止子序列，转录终止子序列是被宿主细胞识别以终止转录的序列。终止子序列被可操作地连接到编码多肽的核酸序列的3'末端。在所选宿主细胞中有功能的任何终止子可用于本发明中。例如，用于丝状真菌宿主细胞的示例性转录终止子可以从米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合成酶、黑曲霉α-葡萄糖苷酶、和尖孢镰刀菌胰蛋白酶样蛋白酶的基因获得。酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因获得。可用于酵母宿主细胞的其它终止子也是本领域已知的(参见例如，Romanos等,同上)。

控制序列也可以是适合的前导序列，前导序列是对宿主细胞的翻译重要的mRNA的非翻译区。前导序列与编码多肽的核酸序列的5'末端可操作地连接。可以使用在所选择的宿主细胞中有功能的任何前导序列。用于丝状真菌宿主细胞的示例性前导序列从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因获得。用于酵母宿主细胞的合适的前导序列从酿酒酵母烯醇酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶，酿酒酵母α-因子、和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因获得。

控制序列也可以是多聚腺苷酸化序列，多聚腺苷酸化序列是可操作地连接到核酸序列的3'末端的序列，并且其在转录时，被宿主细胞识别为向转录的mRNA添加多聚腺苷残基的信号。在所选宿主细胞中有功能的任何多聚腺苷酸化序列可用于本发明中。用于丝状真菌宿主细胞的示例性多聚腺苷酸化序列可以来自米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合成酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡萄糖苷酶的基因。用于酵母宿主细胞的有用的多聚腺苷酸化序列是本领域已知的(参见例如，Guoand Sherman,Mol.Cell.Biol.,15:5983-5990[1995])。

控制序列也可以是信号肽编码区，其编码连接到多肽氨基末端的氨基酸序列并指导编码的多肽进入细胞的分泌途径中。核酸序列的编码序列的5'末端可以固有地包含信号肽编码区，其在翻译阅读框中与编码分泌的多肽的编码区片段天然地连接。可选地，编码序列的5'末端可以包含对编码序列而言外来的信号肽编码区。指导表达的多肽进入选择的宿主细胞的分泌途径的任何信号肽编码区可用于本发明中。用于细菌宿主细胞的有效的信号肽编码区是从芽孢杆菌NClB 11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)、和枯草芽孢杆菌prsA的基因获得的信号肽编码区。其它信号肽是本领域已知的(参见例如，Simonen和Palva,Microbiol.Rev.,57:109-137[1993])。用于丝状真菌宿主细胞的有效的信号肽编码区可以是从米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和柔毛腐质菌(Humicola lanuginosa)脂肪酶的基因获得的信号肽编码区。用于酵母宿主细胞的有用的信号肽可以来自酿酒酵母α-因子和酿酒酵母转化酶的基因。其它有用的信号肽编码区是本领域已知的(参见例如，Romanos等,同上)。

控制序列也可以是编码位于多肽氨基末端的氨基酸序列的前肽编码区。产生的多肽被称为原酶或者多肽原(或在某些情况下称为酶原)。多肽原可以通过催化裂解或自动催化裂解来自多肽原的前肽而被转化为成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米赫根毛霉天冬氨酸蛋白酶、和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶(参见例如，WO95/33836)的基因获得。在多肽的氨基末端存在信号肽和前肽区的情况下，前肽区被定位接着在多肽的氨基末端且信号肽区被定位在接着前肽区的氨基末端。

可能还需要增加调控序列，其允许相对于宿主细胞的生长来调节多肽的表达。调节系统的实例是促使基因的表达响应于化学或物理刺激被开启或关闭的那些，所述化学或物理刺激包括调节性化合物的存在。在原核宿主细胞中，适合的调节序列包括lac、tac和trp操纵子系统。在酵母宿主细胞中，适合的调节系统包括作为实例的ADH2系统或GAL1系统。在丝状真菌中，适合的调节序列包括TAKA α-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子、和米曲霉葡糖淀粉酶启动子。

调节序列的其他的例子为允许基因扩增的那些序列。在真核系统中，这些实例包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和随重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的多肽的核酸序列将与调节序列可操作地连接。

在另一个方面中，本发明还涉及重组表达载体，所述重组表达载体包括编码工程化的亚胺还原酶多肽的多核苷酸，和取决于其将被导入的宿主的类型的一个或更多个表达调节区诸如启动子和终止子、复制起点等。以上所述的各种核酸和控制序列可被连接在一起以产生重组表达载体，该重组表达载体可包括一个或更多个方便的限制性位点以允许编码多肽的核酸序列在此位点的插入或取代。可选地，本发明的核酸序列可以通过将核酸序列或包括该序列的核酸构建体插入到适当的表达载体中来表达。在产生表达载体时，编码序列位于载体中使得编码序列与用于表达的合适的控制序列可操作地连接。

重组表达载体可为任何载体(例如，质粒或病毒)，其可方便地进行重组DNA步骤中并且可带来多核苷酸序列的表达。载体的选择通常将取决于载体与待引入载体的宿主细胞的相容性。载体可以是线性或闭合环状的质粒。

表达载体可以是自主复制的载体(即作为染色体外的实体而存在的载体)，它的复制独立于染色体的复制(如质粒、染色体外的元件、微小染色体、或人工染色体)。载体可以包含用于保证自我复制的任何工具(means)。可选地，载体可以是在被引入到宿主细胞中时整合到基因组中并且与其所整合到的染色体一起复制的载体。而且，可以使用单一载体或质粒或者一起包含待引入到宿主细胞基因组中的总DNA的两种或多种载体或质粒，或者转座子。

本发明的表达载体优选地包含一个或更多个可选择标记物，该标记物允许容易地选择转化细胞。可选择标记物是如下基因，其产物提供杀生物剂抗性或病毒抗性、对重金属的抗性、原养型的营养缺陷型等等。细菌可选择标记物的例子为来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予诸如氨苄西林、卡那霉素、氯霉素(实施例1)或四环素耐受性的抗生素耐受性的标记物。酵母宿主细胞的适合的标记物包括但不限于ADE2、HIS3、LEU2、LYS2、MET3、TRP1、和URA3。用于在丝状真菌宿主细胞中使用的可选择标记物包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰转移酶)、bar(膦丝菌素乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶(sulfate adenyltransferase))和trpC(邻氨基苯甲酸合成酶)，以及其等同物。在曲霉属细胞中使用的实施方案包括构巢曲霉或米曲霉的amdS和pyrG基因以及吸水链霉菌(Streptomyces hygroscopicus)的bar基因。

在另一方面，本发明提供包含编码本发明的改进的亚胺还原酶多肽的多核苷酸的宿主细胞，所述多核苷酸被可操作地连接至用于在宿主细胞中表达转氨酶的一个或更多个控制序列。用于表达由本发明的表达载体编码的多肽的宿主细胞在本领域中是被熟知的，并包括但不限于细菌细胞诸如大肠杆菌、枯草芽孢杆菌、链霉菌(Streptomyces)和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞；真菌细胞，诸如酵母细胞(例如酿酒酵母或毕赤酵母(Pichia pastoris)(ATCC登录号201178))；昆虫细胞诸如果蝇(Drosophila)S2和夜蛾(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑素瘤细胞；和植物细胞。示例性的宿主细胞是大肠杆菌W3110(ΔfhuA)和BL21。

上述宿主细胞的合适的培养基以及生长条件在本领域内是公知的。用于表达亚胺还原酶的多核苷酸可通过本领域已知的多种方法被引入至细胞。技术包括，除了其他以外，电穿孔、生物射弹颗粒轰击法、脂质体介导的转染、氯化钙转染和原生质体融合。

在一些实施方案中，多肽可以在无细胞的表达系统中表达(参见例如，Kudlicki等,Cell Free Expression,第一版,Landes Biosciences[2007]；和Spirin等(编),CellFree Protein Synthesis:Methods and Protocols,第一版,Wiley-VCH[2007]，其全部通过引用并入本文)。

在本文的实施方案中，改进的多肽和相应的多核苷酸可利用本领域技术人员使用的方法获得。本文描述的工程化的亚胺还原酶可以如上文所述通过使编码天然存在的编码野生型冠瘿碱脱氢酶CENDH(SEQ ID NO:2)的基因或另一工程化的亚胺还原酶的多核苷酸经受诱变和/或定向进化方法而获得。

例如，诱变和定向进化方法可以容易地应用于多核苷酸以产生可以被表达、筛选和测定的变体文库。诱变和定向进化方法是本领域公知的(参见例如，美国专利号5,605,793、5,811,238、5,830,721、5,834,252、5,837,458、5,928,905、6,096,548、6,117,679、6,132,970、6,165,793、6,180,406、6,251,674、6,277,638、6,287,861、6,287,862、6,291,242、6,297,053、6,303,344、6,309,883、6,319,713、6,319,714、6,323,030、6,326,204、6,335,160、6,335,198、6,344,356、6,352,859、6,355,484、6,358,740、6,358,742、6,365,377、6,365,408、6,368,861、6,372,497、6,376,246、6,379,964、6,387,702、6,391,552、6,391,640、6,395,547、6,406,855、6,406,910、6,413,745、6,413,774、6,420,175、6,423,542、6,426,224、6,436,675、6,444,468、6,455,253、6,479,652、6,482,647、6,489,146、6,506,602、6,506,603、6,519,065、6,521,453、6,528,311、6,537,746、6,573,098、6,576,467、6,579,678、6,586,182、6,602,986、6,613,514、6,653,072、6,716,631、6,946,296、6,961,664、6,995,017、7,024,312、7,058,515、7,105,297、7,148,054、7,288,375、7,421,347、7,430,477、7,534,564、7,620,500、7,620,502、7,629,170、7,702,464、7,747,391、7,747,393、7,751,986、7,776,598、7,783,428、7,795,030、7,853,410、7,868,138、7,873,499、7,904,249和7,957,912，和所有相关的非美国的对应专利；Ling等.,Anal.Biochem.,254(2):157-78[1997]；Dale等,Meth.Mol.Biochem.,254(2):157-78[1997]；Dale等,Meth.Mol.Biol.,57:369-74[1996]；Smith,Ann.Rev.Genet.,19:423-462[1985]；Botstein等,Science,229:1193-1201[1985]；Carter,Biochem.J.,237:1-7[1986]；Kramer等,Cell,38:879-887[1984]；Wells等,Gene,34:315-323[1985]；Minshull等,Curr.Op.Chem.Biol.,3:284-290[1999]；Christians等,Nat.Biotechnol.,17:259-264[1999]；Crameri等,Nature,391:288-291[1998]；Crameri等,Nat.Biotechnol.,15:436-438[1997]；Zhang等，Proc.Nat.Acad.Sci.U.S.A.,94:4504-4509[1997]；Crameri等,Nat.Biotechnol.,14:315-319[1996]；Stemmer,Nature,370:389-391[1994]；Stemmer,Proc.Nat.Acad.Sci.USA,91:10747-10751[1994]；美国专利申请公开号2008/0220990和US 2009/0312196；WO 95/22625、WO 97/0078、WO 97/35966、WO 98/27230、WO 00/42651、WO 01/75767和WO 2009/152336；其全部通过引用并入本文)。有用的其它定向进化步骤除了其它之外包括但不限于，交错延伸程序(StEP)、体外重组(参见例如，Zhao等，Nat.Biotechnol.,16:258–261[1998])、诱变PCR(参见例如，Caldwell等PCR Meth.Appl.,3:S136-S140[1994])和盒式诱变(参见例如,Black等,Proc.Natl.Acad.Sci.USA 93:3525-3529[1996])，它们全部都通过引用并入本文。

可筛选诱变处理后获得的克隆中具有一个或更多个期望的改进的酶特性的工程化的亚胺还原酶。例如，当期望的改进的酶特性是将化合物(1b)的酮和化合物(2b)的胺转化为化合物(3d)的仲胺的增加的活性时，可以针对化合物(3d)的产生测量酶活性。然后包含编码具有期望的性质的亚胺还原酶的多核苷酸的克隆被分离、测序以鉴定核苷酸序列的改变(如果有的化)，并且用于在宿主细胞中表达酶，所述期望的性质例如增加的化合物(3d)的产生。测量来自表达文库的酶的活性可以使用标准生物化学技术进行，所述标准生物化学技术诸如HPLC分析和/或产物衍生(分离前或分离后)，例如使用丹磺酰氯或OPA的产物衍生。

当工程化的多肽的序列为已知时，编码酶的多核苷酸可根据已知的合成方法通过标准的固相方法制备。在一些实施方案中，多达约100个碱基的片段可单独地合成，然后连接(例如，通过酶促或化学的连接方法或聚合酶介导的方法)以形成任何期望的连续序列。例如，编码亚胺还原酶的部分的多核苷酸和寡核苷酸可以通过化学合成使用经典的亚磷酰胺方法(参见例如，Beaucage等,Tetra.Lett.,22:1859-69[1981])或可选的方法(参见例如，Matthes等,EMBO J.,3:801-05[1984])制备，如同其典型地在自动合成方法中进行的那样。根据亚磷酰胺方法，寡核苷酸在例如，在自动的DNA合成仪中合成、纯化、退火、连接以及克隆至合适的载体中。另外，基本上任何核酸可从多种商业来源的任一个获得。在一些实施方案中，额外的变化变异可以通过合成包含缺失、插入和/或取代的寡核苷酸并且以多种置换组合所述寡核苷酸以产生具有改进的特性的工程化的亚胺还原酶来产生。

因此，在一些实施方案中，用于制备工程化的亚胺还原酶多肽的方法可以包括：(a)合成编码多肽的多核苷酸，所述多肽包含选自偶数序列标识符SEQ ID NO:6-924的氨基酸序列并且在选自以下的残基位置处具有与SEQ ID NO:2相比的一个或更多个残基差异：X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352；以及(b)表达由所述多核苷酸编码的亚胺还原酶多肽。

在所述方法的一些实施方案中，在残基位置X12、X18、X20、X26、X27、X29、X37、X57、X65、X74、X82、X87、X93、X94、X96、X108、X111、X126、X138、X140、X141、X142、X143、X153、X154、X156、X157、X158、X159、X163、X170、X175、X177、X195、X197、X200、X201、X220、X221、X223、X234、X241、X242、X253、X254、X256、X257、X259、X260、X261、X262、X263、X264、X265、X267、X270、X272、X273、X274、X276、X277、X278、X279、X281、X282、X283、X284、X291、X292、X295、X296、X326和X352处的残基差异选自X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/P/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N/W、X142A、X143F/L/W/Y、X153E/F/Y、X154C/D/F/G/K/L/N/Q/S/T/V/Y、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T/V、X257Q、X259C/I/L/M/R/T、X260A/D/G/N/Q/V/Y、X261E/F/H/L/P/Q/R/Y、X262F/G/P/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X265L、X267E/G/H/I/N/S、X270L、X272D、X273C/W、X274L/M/S、X276L、X277A/H/I/L、X278E/H/K/N/R/S/W、X279L/T、X281A、X282A/R、X283M/V、X284C/F/H/L/P/Q/S、X291E、X292E/P、X295F、X296N、X326V和X352Q。

在所述方法的一些实施方案中，多核苷酸可以编码任选地具有一个或数个(例如，多达3、4、5个，或多达10个)氨基酸残基缺失、插入和/或取代的工程化的亚胺还原酶。在一些实施方案中，氨基酸序列具有任选地1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-15、1-20、1-21、1-22、1-23、1-24、1-25、1-30、1-35、1-40、1-45或1-50个氨基酸残基缺失和/或取代。在一些实施方案中，氨基酸序列的数目具有任选地1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、30、35、40、45或50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列具有任选地1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24或25个氨基酸残基缺失、插入和/或取代。在一些实施方案中，取代可以是保守取代或非保守取代。

在另一方面，本发明提供了制备工程化的亚胺还原酶多肽的方法，其中该方法可包括在适于该多肽的表达的条件下培养能够表达编码亚胺还原酶多肽的多核苷酸的宿主细胞。该方法还可包括分离或纯化表达的亚胺还原酶多肽，如本文描述的。

在一些实施方案中，用于制备或制造亚胺还原酶多肽的方法还包括分离多肽的步骤。工程化的多肽可在如以上描述的合适的细胞中表达，并利用所熟知的用于蛋白纯化的技术中的任何一种或更多种从宿主细胞、培养物培养基和/或表达培养基中分离(或回收)，所述熟知的用于蛋白纯化的技术包括，除了其他以外，溶菌酶处理、超声、过滤、盐析、超速离心和色谱。用于裂解诸如大肠埃希氏菌的细菌并从从诸如大肠埃希氏菌的细菌中高效提取蛋白质的合适的溶液是可商业地获得的,诸如来自St.Louis MO的Sigma-Aldrich的CelLytic B^TM。用于分离亚胺还原酶多肽的色谱技术，包括但不限于,除了其它以外，反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。

在一些实施方案中，本发明的非天然存在的多肽可以以多种形式制备并使用，所述形式包括但不限于粗提取物(例如，无细胞裂解物)、粉末(例如，摇瓶粉末)、冷冻干产物和基本上纯的制剂(例如DSP粉末)，如在下文实施例中进一步阐明的。

在一些实施方案中，工程化的多肽可以以纯化的形式例如基本上纯化的形式被制备和使用。通常，用于纯化特定的多肽的条件会部分取决于诸如净电荷、疏水性、亲水性、分子量、分子形状等因素，而且对本领域的技术人员将是明显的。为了促进纯化，构思了在一些实施方案中工程化的多肽可以作为具有纯化标签的融合蛋白来表达，该标签诸如具有金属亲和性的His标签、或结合抗体的抗体标签，如myc表位标签。

在一些实施方案中，亲和技术可用于分离改进的亚胺还原酶。对于亲和色谱纯化，可使用特异性结合亚胺还原酶多肽的任何抗体。对于抗体的产生，包括但不限于兔、小鼠、大鼠等的多种宿主动物可通过用亚胺还原酶多肽或其片段注射来被免疫。借助于侧链官能团或与侧链官能团连接的接头，亚胺还原酶多肽或片段可以连接至合适的载体。在一些实施方案中，亲和纯化可以使用亚胺还原酶结合的特定的配体，诸如聚(L-脯氨酸)或染料亲和柱(参见，例如，EP0641862；Stellwagen,E.,2001,“Dye Affinity Chromatography,”InCurrent Protocols in Protein Science Unit 9.2-9.2.16)。

6.5使用工程化的亚胺还原酶的方法

在另一个方面，本文描述的具有亚胺还原酶活性的工程化的多肽可以用于如上文所述的和方案1中所阐明的将式(I)的化合物和式(II)的化合物转化成式(III)的仲胺或叔胺化合物的方法中。通常，用于执行方案1的还原胺化反应的这样的生物催化方法包括在适用于形成式(III)的胺产物化合物的反应条件下在辅因子诸如NADH或NADPH的存在下使酮和胺底物化合物与本发明的具有亚胺还原酶活性的工程化的多肽接触或孵育。

在一些实施方案中，亚胺还原酶可以用于制备式(III)的仲胺或叔胺产物化合物的方法中，

其中R¹和R²基团独立地选自任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基；并且可选地R¹和R²连接以形成3元至10元环；R³和R⁴基团独立地选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基，条件是R³和R⁴二者不能都是氢；并且任选地R³和R⁴连接以形成3元至10元环；并且任选地，由*指示的碳原子和/或氮原子是手性的。所述方法包括在合适的反应条件下在辅因子的存在下使式(I)的酮底物：

其中R¹和R²如以上所限定；

和式(II)的胺化合物，

如表2中的反应和表3A-3L所阐明的，本发明的具有亚胺还原酶活性的工程化的多肽具有或者可以被进一步工程化以具有在用于制备式(III)的化合物的方法中对大范围的式(II)的胺底物化合物的活性。因此，在以上的用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(II)的化合物可以为伯胺，其中R³和R⁴中的至少一个是氢，由此式(III)的化合物是仲胺化合物。在所述方法的一些实施方案中，R³或R⁴都不是氢并且式(II)的化合物是仲胺，由此式(III)的化合物是叔胺。在所述方法的一些实施方案中，式(II)的化合物是仲胺并且R³或R⁴不同，由此式(III)的胺化合物的由*指示的氮原子是手性的。此外，在一些实施方案中，式(III)的手性胺化合物的一个立体异构体立体选择性地形成，并且任选地高度立体选择性地形成(例如，以至少约85％立体异构过量)。

在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(II)的化合物的R³和R⁴基团连接以形成3元至10元环。在一些实施方案中，环是5元至8元的，是任选地取代的环烷基、芳基、芳烷基、杂环烷基、杂芳基或杂芳烷基环。

在用于制备式(III)的胺产物化合物的生物催化方法的一些实施方案中，式(II)的化合物是伯胺，其中R³基团是氢，并且R⁴选自任选地取代的(C₁-C₆)烷基、(C₁-C₆)烯基、(C₁-C₆)炔基、(C₁-C₆)羧烷基、(C₁-C₆)氨基烷基、(C₁-C₆)卤烷基和(C₁-C₆)烷基硫代烷基。在一些实施方案中，R⁴基团选自任选地取代的(C₁-C₆)烷基、(C₁-C₆)羧烷基和(C₁-C₆)氨基烷基。在一些实施方案中，R⁴基团是任选地取代的(C₁-C₆)烷基或(C₁-C₆)羧烷基。在一些实施方案中，式(II)的化合物选自甲胺、二甲胺、异丙胺、丁胺和异丁胺。在一些实施方案中，胺底物化合物R³基团是氢，并且R⁴选自任选地取代的(C₄-C₈)环烷基、(C₄-C₈)杂环烷基、(C₄-C₈)芳基、(C₄-C₈)芳烷基、(C₄-C₈)杂芳基和(C₄-C₈)杂芳烷基。在一些实施方案中，胺底物化合物R³基团是氢，并且R⁴选自任选地取代的(C₄-C₈)芳基、(C₄-C₈)芳烷基、(C₄-C₈)杂芳基和(C₄-C₈)杂芳烷基。在一些实施方案中，胺底物化合物R³基团是氢，并且R⁴是任选地取代的(C₄-C₈)芳基。在一些实施方案中，式(II)的化合物是任选地取代的苯胺。

如表2中的反应和表3A-3L所阐明的，本发明的具有亚胺还原酶活性的工程化的多肽具有或者可以被进一步工程化以具有在用于制备式(III)的化合物的方法中对大范围的式(I)的酮底物化合物的活性。在一些实施方案中，化合物(I)的酮底物的R¹和R²基团不同，由此式(III)的胺化合物的由*指示的碳原子是手性的。此外，在所述方法的一些实施方案中，式(III)的手性胺化合物的一个立体异构体立体选择性地形成，并且任选地高度立体选择性地形成(例如，以至少约85％立体异构过量)。

在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(I)的化合物的R¹和R²基团连接以形成3元至10元环。在一些实施方案中，环是任选地取代的环烷基、芳基、芳烷基、杂环烷基、杂芳基或杂芳烷基环。在所述方法的一些实施方案中，式(I)的化合物选自任选地取代的环丁酮、环戊酮、环己酮和环庚酮。

在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(I)的化合物的R¹和R²基团独立地选自任选地取代的(C₁-C₆)烷基、(C₁-C₆)烯基、(C₁-C₆)炔基、(C₁-C₆)羧烷基、(C₁-C₆)氨基烷基、(C₁-C₆)卤烷基和(C₁-C₆)烷基硫代烷基。

在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(I)的化合物的R¹基团选自任选地取代的(C₁-C₆)烷基、(C₁-C₆)烯基、(C₁-C₆)炔基、(C₁-C₆)羧烷基、(C₁-C₆)氨基烷基、(C₁-C₆)卤烷基和(C₁-C₆)烷基硫代烷基；并且式(I)的化合物的R²基团选自任选地取代的(C₄-C₈)环烷基、(C₄-C₈)杂环烷基、(C₄-C₈)芳烷基、(C₄-C₈)杂芳基和(C₄-C₈)杂芳烷基。

在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(I)的化合物的R¹基团是羧基。在一些实施方案中，式(I)的化合物是选自丙酮酸、2-氧代丙酸、2-氧代丁酸、2-氧代戊酸、2氧代己酸的2-酮酸。

在用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(I)的化合物的R¹基团是氢原子，并且式(I)的化合物是醛。在这类实施方案中，式(I)的化合物的R¹基团选自任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧基烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳烷基、杂环烷基、杂芳基和杂芳烷基。

如在表2中的反应列出的式(I)、(II)和(III)的化合物所阐明的，在以上的用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，式(III)的产物化合物包括选自由以下组成的组的化合物：化合物(3a)、化合物(3b)、化合物(3c)、化合物(3d)、化合物(3e)、化合物(3f)、化合物(3g)、化合物(3h)、化合物(3i)、化合物(3j)、化合物(3k)、化合物(3l)、化合物(3m)、化合物(3n)、化合物(3o)、化合物(3p)、化合物(3q)、化合物(3r)和化合物(3s)。在所述方法的一些实施方案中，式(I)的化合物包括选自由以下组成的组的化合物：化合物(1a)、化合物(1b)、化合物(1c)、化合物(1d)、化合物(1e)、化合物(1f)、化合物(1g)、化合物(1h)、化合物(1i)和化合物(1j)。在所述方法的一些实施方案中，式(II)的化合物包括选自由以下组成的组的化合物：化合物(2a)、化合物(2b)、化合物(2c)、化合物(2d)、化合物(2e)、化合物(2f)和化合物(2g)。

还构思了在一些实施方案中，由本发明的具有亚胺还原酶活性的工程化的多肽催化的制备式(III)的胺产物化合物的方法包括分子内反应，其中式(I)的化合物和式(II)的化合物是在同一单个分子上的基团。因此，在一些实施方案中，式(I)的酮化合物的R¹和R²中的至少一个与式(II)的胺化合物的R³和R⁴中的至少一个连接，并且所述方法包括在合适的反应条件下使具有与式(II)的胺基团连接的式(I)的酮基团的单个化合物与本发明的工程化的多肽接触。示例性的分子内反应包括但不限于下表4中示出的方案2-5的反应，其中基团R₁和R₃是如上文对于R¹和R³所限定的，并且基团R₅选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧基烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳烷基、杂环烷基、杂芳基和杂芳烷基。

表4

不被理论所约束，相信在大多数情况下，方案1的生物催化反应涉及中间体亚胺化合物(例如亚铵(iminium)离子中间体)的形成，所述中间体亚胺化合物然后被酶进一步还原为最终的式(III)的仲胺或叔胺产物化合物。还构思了在一些实施方案中，由本发明的具有亚胺还原酶活性的工程化的多肽催化的制备式(III)的胺产物化合物的方法包括使本发明的工程化的亚胺还原酶多肽与式(I)的酮底物和式(II)的伯胺化合物接触，由此形成亚胺中间体，所述亚胺中间体然后经历分子内不对称环化反应以产生环仲羟胺或环叔羟胺中间体，所述环仲羟胺或环叔羟胺中间体经历羟基清除以得到第二亚胺(或烯胺)中间体。然后该第二亚胺(或烯胺)随后被本发明的工程化的亚胺还原酶多肽原位还原以产生最终的环胺产物。涉及通过羟胺中间体的不对称环化的示例性的反应包括但不限于下表5中示出的方案6-9的反应，其中基团R₁和R₃是如上文对于R¹和R³所限定的，并且基团R₅、R₆和R₇独立地选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧基烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳烷基、杂环烷基、杂芳基和杂芳烷基。

表5

不被理论所约束，相信具有亚胺还原酶(IRED)活性的工程化的多肽不仅如方案2-9的反应中所示介导亚胺和/或羟胺中间体的形成，还介导由第二个反应箭头描绘的将亚胺中间体转化成最终的式(III)的胺产物化合物。

通常，亚胺化合物不如胺化合物稳定，并且对不合需要的氧化反应敏感。但是，构思了在本发明的方法的一些实施方案中，亚胺化合物或可发生互变异构以形成亚胺的烯胺化合物可以在不存在酶的情况下从式(I)的酮和式(II)的胺化合物形成，并且然后与本发明的工程化的多肽接触以催化其最终转化成式(III)的仲胺或叔胺产物化合物。例如，亚胺或烯胺中间体化合物首先如方案6-9所示的结合式(I)的酮和式(II)的胺化合物而形成，但不存在IRED(即，具有亚胺还原酶活性的工程化的多肽)。然后可以使直接形成的或来自烯胺化合物的互变异构作用的亚胺化合物与具有亚胺还原酶活性的工程化的多肽接触，以催化转化成最终的式(III)的胺产物化合物。在一些实施方案中，构思了当适当地稳定时，可以在进行使亚胺或烯胺中间体化合物与具有亚胺还原酶活性的工程化的多肽接触的步骤之前，分离亚胺或烯胺中间体化合物。因此，构思了在所述方法的一些实施方案中，首先从式(I)和式(II)的化合物形成亚胺或烯胺化合物，或者通过具有与胺基连接的酮基的化合物的分子内反应形成亚胺或烯胺化合物，并且然后使该亚胺或烯胺化合物与具有亚胺还原酶活性的工程化的多肽接触以形成式(III)的胺产物化合物。

在一些实施方案中，可以获得稳定的亚胺或烯胺化合物(即，不需要首先将式(I)的酮化合物与式(II)的胺化合物反应)，并将其直接用作IRED的底物。构思了在这类实施方案中，进行生物催化方法，其中仅有单一底物，该单一底物是稳定的亚胺或烯胺化合物，并且该化合物与催化稳定的亚胺化合物还原形成式(III)的次生化合物(secondarycompound)的本发明的具有亚胺还原酶活性的工程化的多肽接触。在这样的反应中，工程化的多肽的立体选择性可以介导式(III)的化合物的临近胺基的手性中心的形成。表6(下文)列出了稳定的亚胺化合物的三个实例，该稳定的亚胺化合物可以在使用本发明的工程化的多肽的生物催化方法中经历手性还原以产生用于合成药物索利那新和他达拉非以及用于合成药物化合物右哌甲酯的中间体化合物。

表6

可选地，还构思了(如表6中所示的)通过IRED催化的分离的亚胺或烯胺化合物的反应产生的式(III)的产物化合物中的任一个还可以通过IRED催化的分子内反应(如表4中阐明的那些)使用开链形式的亚胺或烯胺底物化合物作为底物产生。因此，表6的产物化合物中的每个还可以使用表7中所示的分子内底物使用本发明的具有亚胺还原酶活性的工程化的多肽制备。

表7

存在大量的包含仲胺基或叔胺基的活性药物成分化合物，所述化合物可以使用本发明的具有亚胺还原酶活性的工程化的多肽和/或通过本发明的工程化的多肽的进一步定向进化产生的工程化的多肽通过生物催化的还原胺化产生。例如，表8列出了为已知的活性药物成分化合物或者用于合成活性药物成分化合物的中间体化合物的多种式(III)的产物化合物，所述式(III)的产物化合物可以使用本发明的具有亚胺还原酶活性的工程化的多肽与相应的式(I)和/或式(II)的底物化合物产生。

表8

在以上的用于制备式(III)的仲胺或叔胺产物化合物的生物催化方法的一些实施方案中，具有亚胺还原酶活性的工程化的多肽衍生自天然存在的冠瘿碱脱氢酶。在一些实施方案中，如本文所公开的，具有亚胺还原酶活性的工程化的多肽是衍生自SEQ ID NO:2的来自节杆菌属菌株1C的冠瘿碱脱氢酶并且通过偶数序列标识符SEQ ID NO:8-924的工程化的亚胺还原酶多肽例证的工程化的多肽。

本文所述的工程化的亚胺还原酶中的任一个可以用于以上的用于制备式(III)的仲胺或叔胺化合物的生物催化方法中。举例来说并且不进行限制，在一些实施方案中，所述方法可以使用工程化的亚胺还原酶多肽，所述工程化的亚胺还原酶多肽与选自偶数序列标识符SEQ ID NO:4–924的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的同一性并且具有以下特征中的至少一个的氨基酸序列：

在一些实施方案中，在以上的用于制备式(III)的仲胺或叔胺化合物的生物催化方法中使用的具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X12M、X37P、X82T、X111A、X154S、X156N/M、X223S、X256E、X260D、X261H、X262P、X263C/E/Q、X267G、X277L、X281A、X284P/S和X292E。在一些实施方案中，氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X256E、X93G/Y、X94N、X96C、X111A/H、X142A、X159L、X163V、X259R、X273C和X284P/S。在一些实施方案中，氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少两个残基差异：X82P、X141W、X143W、X153Y、X154F/Q/Y、X256V、X259I/L/M/T、X260G、X261R、X265L、X273W、X274M、X277A/I、X279L、X283V、X284L、X296N、X326V。在一些实施方案中，所述至少两个残基差异选自X141W、X153Y、X154F、X259I/L/M、X274L/M、X283V和X296N/V。

在一些实施方案中，在以上的用于制备式(III)的仲胺或叔胺化合物的生物催化方法中使用的具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异组合：(a)X153Y和X283V；(b)X141W、X153Y和X283V；(c)X141W、X153Y、X274L/M和X283V；(d)X141W、X153Y、X154F、X274L/M和X283V；(e)X141W、X153Y、X154F和X283V；(f)X141W、X153Y、X283V和X296N/V；(g)X141W、X153Y、X274L/M、X283V和X296N/V；(h)X111A、X153Y、X256E、X274M和X283V；(i)X111A、X141W、X153Y、X273C、X274M、X283V和X284S；(j)X111A、X141W、X153Y、X273C和X283V；(k)X111A、X141W、X153Y、X154F、X256E、X274M、X283V、X284S和X296N；(l)X111A、X141W、X153Y、X256E、X273W、X274L、X283V、X284S和X296N；(m)X111H、X141W、X153Y、X273W、X274M、X284S和X296N；(n)X111H、X141W、X153Y、X154F、X273W、X274L、X283V、X284S和X296N；(o)X82P、X141W、X153Y、X256E、X274M和X283V；(p)X82P、X111A、X141W、X153Y、X256E、X274M、X283V、M284S和E296V；(q)X94N、X143W、X159L、X163V、X259M和X279L；(r)X141W、X153Y、X154F和X256E；和(s)X153Y、X256E和X274M。

在一些实施方案中，在以上的用于制备式(III)的仲胺或叔胺化合物的生物催化方法中使用的具有亚胺还原酶活性的工程化的多肽包含氨基酸序列，所述氨基酸序列包含以上氨基酸残基差异组合(a)至(s)中的至少一个，并且还包含选自以下的与SEQ ID NO:6的参考序列相比的至少一个残基差异：X12M、X18G、X20V、X26M/V、X27S、X29K、X37P、X57D/L/V、X65I/V、X74W、X82C/T、X87A、X93G/Y、X94N、X96C、X108S、X111A/H、X126S、X138L、X140M、X141M/N、X142A、X143F/L/Y、X153E/F、X154C/D/G/K/L/N/S/T/V、X156H/L/N/M/R、X157F/Q/T/Y、X158I/L/R/S/T/V、X159C/L/Q/V、X163V、X170F/K/R/S、X175R、X177R、X195S、X197V、X200S、X201I、X220C/K/Q、X221F、X223S、X234V/C/L、X241K、X242C/L、X253K/N、X254R、X256A/E/I/L/S/T、X257Q、X259C/R、X260A/D/N/Q/V/Y、X261E/F/H/L/P/Q/Y、X262P、X262F/G/V、X263C/D/E/H/I/K/L/M/N/P/Q/V、X264V、X267E/G/H/I/N/S、X270L、X272D、X273C、X274L/S、X276L、X277H/L、X278E/H/K/N/R/S/W、X279T、X281A、X282A/R、X284C/F/H/P/Q/S、X291E、X292E/P、X295F和X352Q。

在以上方法的一些实施方案中，可以使用能够执行本文公开的表2的转化反应(a)-(s)的示例性的亚胺还原酶。这包括本文公开的包含选自偶数序列标识符SEQ ID NO:8-924的氨基酸序列的工程化的多肽。本文的说明中提供了关于选择和使用工程化的亚胺还原酶的指导，例如表3A-3L以及实施例。

在本文中的和在实施例中阐明的实施方案中，可以用于所述方法中的多种范围的合适的反应条件包括但不限于，底物载量、辅因子载量、多肽载量、pH、温度、缓冲液、溶剂系统、反应时间和/或多肽被固定在固体支持物上的条件。使用本文描述的工程化的亚胺还原酶多肽进行将底物化合物生物催化转化成产物化合物的方法的另外的合适的反应条件可鉴于本文提供的指导通过常规实验容易地优化，所述常规实验包括但不限于使工程化的亚胺还原酶多肽与感兴趣的酮和胺底物化合物在浓度、pH、温度、溶剂条件的实验反应条件下接触，并检测产物化合物。

通常，在本发明的方法中，合适的反应条件包括可以在由亚胺还原酶执行的还原反应中充当电子供体的辅因子分子的存在。在一些实施方案中，辅因子选自(但不限于)NADP⁺(烟酰胺腺嘌呤二核苷酸磷酸)、NADPH(NADP⁺的还原形式)、NAD⁺(烟酰胺腺嘌呤二核苷酸)和NADH(NAD⁺的还原形式)。通常，还原形式的辅因子被加入酶反应混合物中。因此，在一些实施方案中，所述方法在选自NADPH和NADH(这两个辅因子在本文中也被共同称为"NAD(P)H")的辅因子的存在下被执行。在一些实施方案中，电子供体是NADPH辅因子。在一些实施方案中，所述方法可以被执行，其中反应条件包括约0.03至约1g/L、0.03至约0.8g/L、约0.03至约0.5g/L、约0.05至约0.3g/L、约0.05至约0.2g/L或约0.1至约0.2g/L的NADH或NADPH辅因子浓度。在一些实施方案中、所述方法在约1g/L、约0.8g/L、约0.5g/L、约0.3g/L、约0.2g/L、约0.1g/L、约0.05g/L或约0.03g/L的NADH或NADPH辅因子浓度下被执行。

在所述方法的一些实施方案中，任选的辅因子再循环系统，也被称为辅因子再生系统，可以被用于从酶促反应中产生的NADP+/NAD+再生辅因子NADPH/NADH。辅因子再生系统是指参与还原该辅因子的氧化形式的反应(例如，NADP⁺到NADPH)的一组反应物。通过多肽对酮底物的还原所氧化的辅因子被辅因子再生系统以还原形式再生。辅因子再生系统包括化学计量的还原剂，所述还原剂是还原氢等同物的来源并且能够还原辅因子的氧化形式。辅因子再生系统还可以包括催化剂，例如，催化辅因子的氧化形式被还原剂还原的酶催化剂。分别从NAD⁺或NADP⁺再生NADH或NADPH的辅因子再生系统是本领域已知的并且可以用于本文所述的方法中。

可在本发明的亚胺还原酶方法中使用的合适的示例性的辅因子再生系统包括但不局限于甲酸和甲酸脱氢酶、葡萄糖和葡萄糖脱氢酶、葡萄糖-6-磷酸和葡萄糖-6-磷酸脱氢酶、仲醇和醇脱氢酶、亚磷酸和亚磷酸脱氢酶、分子氢和氢化酶等。这些系统可与作为辅因子的NADP⁺/NADPH或NAD⁺/NADH联合使用。使用氢化酶的电化学再生也可用作辅因子再生系统(参见，例如，美国专利号5,538,867和6,495,023，二者均通过引用并入本文)。包含金属催化剂和还原剂(例如，分子氢或甲酸)的化学辅因子再生系统也是合适的(参见，例如，WO 2000/053731，其通过引用并入本文)。

在一些实施方案中，辅因子再生系统包含甲酸脱氢酶，其为催化甲酸和NAD⁺或NADP⁺分别转化成二氧化碳和NADH或NADPH的NAD⁺或NADP⁺-依赖酶。适合用作本文所述的亚胺还原酶方法中的辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢酶。合适的甲酸脱氢酶包括，但不限于目前本领域已知的那些(参见例如，WO 2005/018579，其通过引用并入本文)。在一些实施方案中，在所述方法中使用的甲酸脱氢酶是商购可得的FDH-101(Codexis,Inc.Redwood City,California,USA)。甲酸可以盐的形式提供，典型地为碱金属盐或铵盐(例如，HCO₂Na、KHCO₂NH₄等)，以甲酸的形式提供，典型地为水性甲酸，或其混合物。碱或缓冲液可用于提供期望的pH。

在一些实施方案中，辅因子再循环系统包含葡萄糖脱氢酶(GDH)，其是催化D-葡萄糖和NAD⁺或NADP⁺分别转化成葡萄糖酸和NADH或NADPH的NAD⁺或NADP⁺-依赖酶。适于在本文所述的亚胺还原酶方法的实践中使用的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶以及非天然存在的葡萄糖脱氢酶。天然存在的葡萄糖脱氢酶编码基因已经在文献中报道(例如，枯草芽孢杆菌61297GDH基因、蜡样芽胞杆菌(B.cereus)ATCC14579和巨大芽孢杆菌(B.megaterium))。非天然存在的葡萄糖脱氢酶使用本领域已知的任何合适的方法产生(例如，诱变、定向进化等；参见例如，WO 2005/018579和美国专利申请公开号2005/0095619和2005/0153417，其每一个通过引用并入本文)。在一些实施方案中，在所述方法中使用的葡萄糖脱氢酶是每个都是商购可得的CDX-901或GDH-105(Codexis,Inc.Redwood City,California,USA)

在一些实施方案中，辅因子再生系统包含醇脱氢酶或酮还原酶，其为催化仲醇和NAD⁺或NADP⁺分别转化成酮和NADH或NADPH的NAD⁺或NADP⁺-依赖酶。可用于辅因子再生系统中的合适的仲醇包括低级仲烷醇和芳基-烷基甲醇，包括但不限于，异丙醇、2-丁醇、3-甲基-2-丁醇、2-戊醇、3-戊醇、3,3-二甲基-2-丁醇等。适合用作本文所述方法中的辅因子再生系统的醇脱氢酶包括天然存在的酮还原酶以及非天然存在的酮还原酶。天然存在的醇脱氢酶/酮还原酶包括来自以下的已知的酶，举例来说并不进行限制，Thermoanerobiumbrockii、红平红球菌(Rhodococcus erythropolis)、克菲尔乳杆菌(Lactobacilluskefir)和短乳杆菌(Lactobacillus brevis)，并且非天然存在的醇脱氢酶包括从其衍生的工程化的醇脱氢酶。在一些实施方案中，可以使用为了热稳定性和溶剂稳定性而工程化的非天然存在的酮还原酶。这样的酮还原酶包括本文所述的那些酮还原酶以及本领域已知的其它酮还原酶(参见例如，美国专利申请公开号20080318295A1、US 20090093031A1、US20090155863A1、US 20090162909A1、US 20090191605A1、US 20100055751A1、WO/2010/025238A2、WO/2010/025287A2和US 20100062499A1；其每一个通过引用并入本文)。

考虑到例如期望的产物化合物的量、底物浓度对酶活性的影响、反应条件下酶的稳定性和底物到产物的转化百分比，反应混合物中的酮和胺底物化合物的浓度可以变化。在一些实施方案中，合适的反应条件包括至少约0.5至约200g/L、1至约200g/L、5至约150g/L、约10至约100g/L、20至约100g/L或约50至约100g/L的底物化合物载量。在一些实施方案中，合适的反应条件包括至少约0.5g/L、至少约1g/L、至少约5g/L、至少约10g/L、至少约15g/L、至少约20g/L、至少约30g/L、至少约50g/L、至少约75g/L、至少约100g/L、至少约150g/L或至少约200g/L或甚至更高的酮和胺底物化合物中的每个的载量。本文提供的底物载量的值基于化合物(1b)的分子量，但是还构思了可以使用相等摩尔量的其它酮和胺底物，诸如酮底物化合物(1a)–(1j)和胺底物化合物(2a)–(2g)，并且在该方法中可以使用等摩尔量的这些化合物中的任一个的水合物或盐。还构思了在一些实施方案中，合适的反应条件包括以摩尔浓度为单位相当于化合物(1b)的以上g/L浓度的酮和胺底物化合物中的每个的载量。因此，反应条件可以包括至少约5mM、至少约10mM、至少约25mM、至少约50mM、至少约75mM、至少约100mM或甚至更高的酮和胺底物化合物中的每个的底物载量。此外，构思了由式(I)和(II)覆盖的底物化合物可以与化合物(1b)使用的那些相同的范围使用。

在进行本文描述的亚胺还原酶介导的方法中，工程化的多肽可以纯化的酶、部分纯化的酶、用编码酶的基因转化的完整细胞的形式、作为此类细胞的细胞提取物和/或裂解物、和/或作为在固体支持物上固定的酶加入至反应混合物中。用编码工程化的亚胺还原酶的基因转化的全细胞，或其细胞提取物、裂解物，以及分离的酶可以以多种不同的形式使用，包括固体(例如，冻干的、喷雾干燥的等)或半固体(例如，粗糊状物)。通过沉淀(硫酸铵、聚乙烯亚胺、热处理等)，随后通过冻干前的脱盐程序(例如超滤、透析等)可部分纯化细胞提取物或细胞溶解产物。任何酶制剂(包括全细胞制剂)可通过使用已知的交联剂诸如例如戊二醛交联，或固定到固相(例如，Eupergit C等)而被稳定化。

编码工程化的亚胺还原酶多肽的基因可分别地被转化入宿主细胞或一起转化入同一宿主细胞。例如，在一些实施方案中，可用编码一种工程化的亚胺还原酶多肽的基因转化一组宿主细胞，并且用编码另一种工程化的亚胺还原酶多肽的基因转化另一组。两组转化的宿主细胞均可以全细胞的形式，或其衍生的裂解物或提取物的形式一起用于反应混合物。在其他实施方案中，一个宿主细胞可用编码多种工程化的亚胺还原酶多肽的基因转化。在一些实施方案中，工程化的多肽可以分泌的多肽的形式表达，并且含有分泌的多肽的培养基可被用于亚胺还原酶反应。

本文公开的工程化的亚胺还原酶多肽的改进的活性和/或立体选择性提供了了这样的方法，其中可以以较低浓度的工程化的多肽实现较高的转化百分比。在该方法的一些实施方案中，合适的反应条件包括底物化合物载量的约1％(w/w)、2％(w/w)、5％(w/w)、10％(w/w)、20％(w/w)、30％(w/w)、40％(w/w)、50％(w/w)、75％(w/w)、100％(w/w)或更多的工程化的多肽量。

在一些实施方案中，工程化的多肽以约0.01g/L至约50g/L；约0.05g/L至约50g/L；约0.1g/L至约40g/L；约1g/L至约40g/L；约2g/L至约40g/L；约5g/L至约40g/L；约5g/L至约30g/L；约0.1g/L至约10g/L；约0.5g/L至约10g/L；约1g/L至约10g/L；约0.1g/L至约5g/L；约0.5g/L至约5g/L；或约0.1g/L至约2g/L存在。在一些实施方案中，亚胺还原酶以约0.01g/L、0.05g/L、0.1g/L、0.2g/L、0.5g/L、1、2g/L、5g/L、10g/L、15g/L、20g/L、25g/L、30g/L、35g/L、40g/L或50g/L存在。

在反应的过程期间，反应混合物的pH可改变。反应混合物的pH可保持在期望的pH或在期望的pH范围内。这可通过在反应过程之前和/或期间添加酸或碱来完成。可选地，pH可通过使用缓冲剂来控制。相应地，在一些实施方案中，反应条件包括缓冲剂。保持期望的pH范围的合适的缓冲剂在本领域已知的，并且包括例如但不限于硼酸盐、2-(N-吗啉代)乙磺酸(MES)、3-(N-吗啉代)丙烷磺酸(MOPS)、乙酸盐、三乙醇胺(TEA)、和2-氨基-2-羟甲基-丙烷-1,3-二醇(Tris)等。在一些实施方案中，缓冲剂是磷酸盐。在该方法的一些实施方案中，合适的反应条件包括缓冲剂(例如，磷酸盐)浓度为从约0.01至约0.4M、0.05至约0.4M、0.1至约0.3M、或约0.1至约0.2M。在一些实施方案中，反应条件包括约0.01、0.02、0.03、0.04、0.05、0.07、0.1、0.12、0.14、0.16、0.18、0.2、0.3或0.4M的缓冲剂(例如磷酸盐)浓度。在一些实施方案中，反应条件包括水作为可溶溶剂，而不存在缓冲剂。

在方法的实施方案中，反应条件可包括合适的pH。期望的pH或期望的pH范围可通过使用酸或碱、合适的缓冲剂、或缓冲和添加酸或碱的组合来保持。反应混合物的pH可在反应过程之前和/或期间控制。在一些实施方案中，合适的反应条件包括从约4至约10的溶液pH、从约5至约10的pH、从约7至约11的pH、从约8至约10的pH、从约6至约8的pH。在一些实施方案中，反应条件包括约4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10的溶液pH。

在本文的方法的实施方案中，考虑到例如在较高温度下增加的反应速率和在反应时间段期间酶的活性，合适的温度可被用于反应条件。因此，在一些实施方案中，合适的反应条件包括从约10℃至约80℃、约10℃至约70℃、约15℃至约65℃、约20℃至约60℃、约20℃至约55℃、约25℃至约55℃或约30℃至约50℃的温度。在一些实施方案中，合适的反应条件包括约10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃、70℃、75℃或80℃的温度。在一些实施方案中，酶反应期间的温度可以在整个反应过程中保持在特定的温度。在一些实施方案中，酶促反应期间的温度可以在反应过程期间通过温度曲线调节。

本发明的方法通常在溶剂中进行。合适的溶剂包括水、水性缓冲溶液、有机溶剂、聚合物溶剂和/或共溶剂系统，共溶剂系统通常包括水性溶剂、有机溶剂和/或聚合物溶剂。水性溶液(水或水性共溶剂系统)可为pH-缓冲的或非缓冲的。在一些实施方案中，使用工程化的亚胺还原酶多肽的方法可以在包含以下的水性共溶剂系统中进行：有机溶剂(例如，乙醇、异丙醇(IPA))、二甲基亚砜(DMSO)、二甲基甲酰胺(DMF)、二甲基乙酰胺(DMAc)、N-甲基-吡咯烷酮(NMP)、乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔-丁基醚(MTBE)、甲苯等)、离子或极性溶剂(例如，四氟硼酸1-乙基-4-甲基咪唑鎓、四氟硼酸1-丁基-3-甲基咪唑鎓、六氟磷酸1-丁基-3-甲基咪唑鎓、甘油、聚乙二醇(PEG)等)。在一些实施方案中，共溶剂可以是极性溶剂，诸如多元醇、二甲基亚砜(DMSO)或低级醇。水性共溶剂系统中的非水性共溶剂组分可与水性组分混溶，提供单一的液相，或可与水性组分部分混溶或不混溶，提供双液相。示例性水性共溶剂系统可包括水和选自有机溶剂、极性溶剂和多元醇溶剂的一种或更多种共溶剂。通常，选择水性共溶剂系统的共溶剂组分以使得其在反应条件下不会不利地使亚胺还原酶失活。通过用在候选溶剂系统中的感兴趣的确定的底物并应用诸如本文描述的那些的酶活性测定而测量特定的工程化的亚胺还原酶的酶促活性，合适的共溶剂系统可被容易地鉴定。

在该方法的一些实施方案中，合适的反应条件包括水性共溶剂，其中共溶剂包括约1％至约50％(v/v)、约1至约40％(v/v)、约2％至约40％(v/v)、约5％至约30％(v/v)、约10％至约30％(v/v)、或约10％至约20％(v/v)的DMSO。在该方法的一些实施方案中，合适的反应条件可以包括水性共溶剂，所述水性共溶剂包含约1％(v/v)、约5％(v/v)、约10％(v/v)、约15％(v/v)、约20％(v/v)、约25％(v/v)、约30％(v/v)、约35％(v/v)、约40％(v/v)、约45％(v/v)或约50％(v/v)的DMSO。

在一些实施方案中，反应条件可以包括用于稳定或增强反应的表面活性剂。表面活性剂可以包括非离子型、阳离子型、阴离子型和/或两亲性表面活性剂。示例性的表面活性剂，包括例如并不限于，壬基苯氧基聚乙氧基乙醇(NP40)、Triton X-100、聚氧乙烯-硬脂胺、鲸蜡基三甲基溴化铵、油酰氨基硫酸钠、聚氧乙烯-脱水山梨醇单硬脂酸酯、十六烷基二甲基胺等。可以使用可以稳定或增强反应的任何表面活性剂。在反应中使用的表面活性剂的浓度通常可以为从0.1至50mg/ml，特别是从1至20mg/ml。

在一些实施方案中，反应条件可以包括消泡剂，所述消泡剂帮助在诸如混合或喷射反应溶液时减少或防止反应溶液中泡沫的形成。消泡剂包括非极性油(例如矿物质、硅酮等)、极性油(例如，脂肪酸、烷基胺、烷基酰胺、烷基硫酸酯等)和疏水性的(例如，处理的二氧化硅、聚丙烯等)，其中的一些还起表面活性剂的作用。示例性的消泡剂包括，

(Dow Corning)、聚二元醇共聚物、氧基/乙氧基化的醇和聚二甲基硅氧烷。在一些实施方案中，消泡可以以约0.001％(v/v)至约5％(v/v)、约0.01％(v/v)至约5％(v/v)、约0.1％(v/v)至约5％(v/v)、或约0.1％(v/v)至约2％(v/v)存在。在一些实施方案中，消泡剂可以根据需要以约0.001％(v/v)、约0.01％(v/v)、约0.1％(v/v)、约0.5％(v/v)、约1％(v/v)、约2％(v/v)、约3％(v/v)、约4％(v/v)或约5％(v/v)或更高存在以促进反应。

在亚胺还原酶反应中使用的反应物的量通常根据期望的产物的量改变，并随附地根据使用的亚胺还原酶底物的量而改变。本领域的普通技术人员会容易地理解如何改变这些量以使其适用于期望的产率水平和生产规模。

在一些实施方案中，加入反应物的顺序并不关键。反应物可同时一起加入至溶剂中(例如，单相溶剂、双相水性共溶剂系统等)，或者可选地，反应物中的一些可分别地加入，以及一些在不同的时间点一起加入。例如，辅因子、协同底物、亚胺还原酶和底物可首先加入溶剂中。

固体反应物(例如，酶、盐等)可以多种不同的形式提供给反应，包括粉末(例如，冻干的、喷雾干燥的等)、溶液、乳剂、悬浮液等。反应物可使用为本领域普通技术人员已知的方法和仪器容易地冻干或喷雾干燥。例如，蛋白质溶液可以小的等分试样冷冻于-80℃，然后加入至预冷却的冻干室内，之后应用真空。

为了当使用水性共溶剂系统时的改进的混合效率，亚胺还原酶和辅因子可首先加入和混合入水相中。然后可加入和混合入有机相，然后加入亚胺还原酶底物和协同底物。可选地，亚胺还原酶底物可在加入到水相之前在有机相中预混合。

通常允许亚胺还原酶反应进行，直至底物向产物的进一步转化不随反应时间显著地改变，例如，小于10％的底物被转化，或小于5％的底物被转化。在一些实施方案中，允许反应进行直至有底物至产物的完全或接近完全的转化。底物至产物的转化可使用已知的方法通过检测底物和/或产物来监测，存在或不存在衍生化作用。合适的分析方法包括气相色谱、HPLC等。

在该方法的一些实施方案中，合适的反应条件包括至少约5g/L、10g/L、20g/L、30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更多的底物载量，并且其中该方法在约48h或更少内、在约36h或更少内、或在约24h或更少内导致至少约50％、60％、70％、80％、90％、95％或更高的底物化合物向产物化合物的转化。

在合适的反应条件下在该方法中使用时本发明的工程化的亚胺还原酶多肽导致至少90％、95％、96％、97％、98％、99％或更高的非对映异构过量的期望的仲胺或叔胺产物。在一些实施方案中，不形成可检测的量的不期望的非对映异构的仲胺或叔胺产物。

在用于使用工程化的亚胺还原酶多肽将底物化合物转化成胺产物化合物的方法的其它实施方案中，合适的反应条件可以包括至反应溶液随后被多肽接触的初始底物载量。然后该反应溶液用另外的底物化合物如下进一步补充，以至少约1g/L/h、至少约2g/L/h、至少约4g/L/h、至少约6g/L/h、或更高的速率随时间连续或分批添加。因此，根据这些合适的反应条件，多肽被添加到具有每个至少约20g/L、30g/L或40g/L的初始酮和胺底物载量的溶液中。该多肽的添加然后随后是将进一步的酮和胺底物以约2g/L/h、4g/L/h或6g/L/h的速率连续添加到溶液，直至达到每个至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L、150g/L、200g/L或更多的高很多的最终底物载量。因此，在该方法的一些实施方案中，合适的反应条件包括将多肽添加到具有每个至少约20g/L、30g/L或40g/L的初始底物载量的溶液中，随后将进一步的酮和胺底物以约2g/L/h、4g/L/h或6g/L/h的速率添加到溶液，直至达到至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更多的最终底物载量。这些底物补充的反应条件允许达到更高的底物载量，同时保持至少约50％、60％、70％、80％、90％或更高转化的高的底物向胺产物的转化率。

在该方法的一些实施方案中，使用工程化的亚胺还原酶多肽的反应可以包括以下合适的反应条件：(a)约5g/L至30g/L的底物载量；(b)约0.1g/L至约10g/的工程化的多肽；(c)约19g/L(0.13M)至约57g/L(0.39M)的α-酮戊二酸；(d)约14g/L(0.08M)至63g/L(0.36M)的抗坏血酸；(e)约1.5g/L(3.8mM)至4.5g/L(11.5mM)的FeSO₄；(f)约6至9的pH；(g)约20℃至50℃的温度；和(h)2-24小时的反应时间。

在该方法的一些实施方案中，使用工程化的亚胺还原酶多肽的反应可以包括以下合适的反应条件：(a)约10g/L至100g/L的底物载量；(b)约1g/L至约50g/L的共程化的多肽；(c)约0.1g/L(至约5g/L的NADH或NADPH载量；(d)约6至10的pH；(e)约20℃至50℃的温度；和(f)6至120小时的反应时间。

在一些实施方案中，进行另外的反应组分或另外的技术以补充反应条件。这些可包括采取措施来稳定酶或阻止酶的失活、降低产物抑制、将反应平衡转向胺产物形成。

在另外的实施方案中，以上所述的用于将底物化合物转化成产物化合物的方法中的任一个可以进一步包括选自以下的一个或更多个步骤：产物化合物的提取；分离；纯化和结晶。用于从通过以上公开的方法产生的生物催化反应混合物提取、分离、纯化和/或结晶胺产物的方法、技术和方案对于本领域技术人员是已知的和/或通过常规实验可达到的。另外，在以下实施例中提供了示例性的方法。

本发明的不同的特征和实施方案在以下代表性的实施例中举例说明，其意图是示例性的而不是限制性的。

实验

以下实施例，包括实验和获得的结果，仅为了示例性目的提供，并且不被解释为限制本发明。

在以下的实验性公开内容中，以下缩写适用：ppm(百万分率)；M(体积摩尔浓度)；mM(体积毫摩尔浓度、uM和μM(体积微摩尔浓度)；nM(体积纳摩尔浓度)；mol(摩尔)；gm和g(克)；mg(毫克)；ug和μg(微克)；L和l(升)；ml和mL(毫升)；cm(厘米)；mm(毫米)；um和μm(微米)；sec.(秒)；min(分钟)；h和hr(小时)；U(单位)；MW(分子量)；rpm(转数每分)；psi和PSI(磅每平方英寸)；℃(摄氏度)；RT和rt(室温)；CAM和cam(氯霉素)；DMSO(二甲亚砜)；PMBS(多黏菌素B硫酸盐)；IPTG(异丙基β-D-1-硫代半乳糖苷)；LB(Luria肉汤)；TB(terrific肉汤)；SFP(摇瓶粉末)；CDS(编码序列)；DNA(脱氧核糖核酸)；RNA(核糖核酸)；大肠杆菌W3110(通常使用的实验室大肠杆菌菌株，可从大肠杆菌遗传库(Coli Genetic Stock)[CGSC],New Haven,CT获得)；HTP(高通量)；HPLC(高压液相色谱)；FIOPC(积极控制褶皱的改进(fold improvements over positive control))；Sigma-Aldrich(Sigma-Aldrich,St.Louis,MO；Difco(Difco Laboratories,BD Diagnostic Systems,Detroit,MI)；Agilent(Agilent Technologies,Inc.,Santa Clara,CA)；Corning(Corning,Inc.,PaloAlto,CA)；Dow Corning(Dow Corning,Corp.,Midland,MI)和Gene Oracle(Gene Oracle,Inc.,Mountain View,CA)。

实施例1

合成、优化和筛选衍生自CENDH的具有亚胺还原酶活性的工程化的多肽

基因合成和优化：使用GeneIOS合成平台(GeneOracle)对如SEQ ID NO:2代表的编码报道的来自节杆菌属菌株C1的野生型冠瘿碱脱氢酶多肽CENDH的多核苷酸序列进行密码子优化，并合成为SEQ ID NO:1的基因。将合成的SEQ ID NO:1的基因克隆到pCK110900载体系统中(参见例如，美国专利申请公开号20060195947，其由此通过引用并入本文)并且随后在大肠杆菌W3110fhuA中表达。在lac启动子的控制下，大肠杆菌菌株W3110表达冠瘿碱脱氢酶多肽CENDH。基于与其它CENDH(和其它氨基酸脱氢酶)的序列比较以及对接至底物的CENDH的结构的计算机建模，鉴定与活性位点、多肽环、溶液/底物界面和可能的稳定性位置相关的残基位置。

简言之，通过构建其中与某些结构特征相关的这些位置经历诱变的变体基因文库执行CENDH基因的定向进化。然后如实施例2和3所述将这些文库铺板、使其生长，并使用HTP测定筛选，以提供第一轮("轮次1")的41个具有亚胺还原酶活性的工程化的CENDH变体多肽。将在这些轮次1的工程化的CENDH变体多肽中鉴定的氨基酸差异重新组合以构建新的轮次2文库，然后筛选轮次2文库的使用化合物(1b)的酮底物和化合物(2b)的胺底物以产生仲胺产物化合物(3d)的活性。这种对轮次2筛选的亚胺还原酶活性在所述变体所衍生自的天然存在的冠瘿碱脱氢酶CENDH多肽中是不可检测到的。轮次2的定向进化得到具有4至10个相对于SEQ ID NO:2的氨基酸差异和期望的非天然亚胺还原酶活性的7个工程化的多肽。这些轮次2变体包括SEQ ID NO:4，所述SEQ ID NO:4具有8个氨基酸差异：X156T、X197I、X198E、X201L、X259H、X280L、X292V、X293H。进行从SEQ ID NO:4的工程化的多肽开始的三轮进一步的定向进化，并得到SEQ ID NO:6的工程化的多肽，所述SEQ ID NO:6的工程化的多肽相对于SEQ ID NO:4具有至少3倍改进的将化合物(1j)的酮底物和化合物(2b)的胺底物转化为仲胺产物化合物(3o)的亚胺还原酶活性。相对于SEQ ID NO:6的工程化的多肽从其进化的SEQ ID NO:4的工程化的多肽，SEQ ID NO:6的工程化的多肽具有以下22个另外的氨基酸差异：X29R、X94K、X111R、X137N、X157R、X184Q、X220H、X223T、X232A、X259V、X261I、X266T、X279V、X284M、X287T、X288S、X295S、X311V、X324L、X328E、X332V和X353E。SEQ ID NO:6的工程化的多肽被用作起始“骨架”参考序列用于本文提供的SEQ ID NO:8–924的多个工程化的多肽的进一步定向进化(参见例如，表3A–3L)。

实施例2

衍生自CENDH的具有亚胺还原酶活性的工程化的多肽的产生

在lac启动子的控制下，在大肠杆菌W3110中产生SEQ ID NO:4-92的工程化的亚胺还原酶多肽。如下制备用于在工程化的多肽的定向进化中使用的HTP测定的酶制剂。

高通量(HTP)生长、表达和裂解物制备。挑取细胞并在30℃，200rpm，85％湿度下在含有1％葡萄糖和30μg/mL CAM的LB培养基中过夜培养。将20μL的过夜生长物转移至含有380μL的含有30μg/mL CAM、1mM IPTG的TB生长培养基的深孔平板并在30℃、200rpm和85％湿度下孵育～18h。在4000rpm、4℃下将细胞培养物离心10分钟，并且弃去培养基。将由此获得的细胞沉淀保存在-80℃，并将其用来制备裂解物用于如下的HTP反应。在0.1M，pH 8.5(或pH 10)的磷酸盐缓冲液中制备含有1g/L溶菌酶和1g/L PMBS的裂解缓冲液。在250μL裂解缓冲液中裂解96孔平板中的细胞沉淀，在室温在滴定板振荡器上低速振荡1.5小时。然后在4000rpm，4℃将平板离心10分钟，并且将澄清的上清液用作HTP测定反应中的澄清的裂解液。

摇瓶粉末(SFP)的生成：摇瓶程序可以用于产生工程化的亚胺还原酶多肽摇瓶粉末(SFP)，所述摇瓶粉末可用于第二次筛选测定或者可以用于执行本文公开的生物催化方法。酶的摇瓶粉末(SFP)制剂提供了与HTP测定中使用的细胞裂解物相比更加纯化的工程化的酶的制剂(例如，高达总蛋白的30％)，并且除其他之外，允许使用更加浓缩的酶溶液。将包含编码所感兴趣的工程化的多肽的质粒的大肠杆菌的单个菌落接种于含有30μg/ml氯霉素和1％葡萄糖的50mL Luria Bertani肉汤中。在250rpm摇动下，使细胞在30℃培养箱中生长过夜(至少16小时)。在1升摇瓶中，将培养物在含有30μg/ml CAM的250mL Terrific肉汤(12g/L细菌用胰蛋白胨、24g/L酵母提取物、4mL/L甘油、65mM磷酸钾、pH 7.0、1mM MgSO₄)中稀释至0.2的600nm的光密度(OD₆₀₀)并允许在30℃下生长。当培养物的OD₆₀₀为0.6至0.8时，通过添加IPTG至1mM的终浓度诱导亚胺还原酶基因的表达。然后继续孵育过夜(至少16小时)。通过离心(5000rpm、15分钟、4℃)收获细胞并弃去上清液。细胞沉淀用相等体积的冷的(4℃)50mM pH 7.5的磷酸钾缓冲液重悬，并如上通过离心收获。将洗涤的细胞在两个体积的冷的50mM pH 7.5的磷酸钾缓冲液中重悬，并在12000psi下穿过弗氏压碎器(FrenchPress)2次，同时保持在4℃。通过离心(10,000rpm，45分钟，4℃)除去细胞碎片。收集澄清的裂解物上清液并贮存于-20℃。冷冻的澄清裂解物的冻干提供粗工程化的多肽的干燥摇瓶粉末。可选地，细胞沉淀(洗涤之前或之后)可贮存在4℃或-80℃。

实施例3

针对在制备化合物(3n)、(3o)、(3p)、(3q)、(3r)和(3s)中的改进的稳定性和亚胺还原酶活性的衍生自SEQ ID NO:6的工程化的多肽的进化和筛选。

SEQ ID NO:6的具有亚胺还原酶活性的工程化的多肽用于产生表3A-3L的进一步工程化的多肽，所述进一步工程化的多肽具有进一步改进的稳定性(例如，在44℃和15％或30％DMSO中的活性)和改进的亚胺还原酶活性(例如，酮底物化合物(1j)转化为产物的百分比)。使用如上文所述的定向进化方法与HTP测定和表3A-3L中记录的和以下进一步描述的分析方法一起从SEQ ID NO:6的“骨架”氨基酸序列产生具有偶数序列标识符SEQ ID NO:8-924的氨基酸序列的这些工程化的多肽。

定向进化从编码SEQ ID NO:6的工程化的多肽的SEQ ID NO:5的多核苷酸开始作为起始“骨架”基因序列。工程化的多肽的文库使用多种公知的技术(例如，饱和诱变、以前鉴定的有利氨基酸差异的重新组合)产生，并使用HTP测定和测量工程化的多肽执行表2中所示的催化反应(o)至(s)中的一个或更多个的能力的分析方法筛选。筛选之后，表现出超过起始骨架序列(或“对照”序列)的最多改进的工程化的多肽被用作骨架序列用于另外的文库的构建，并且重复筛选过程以使多肽针对期望的活性进化。具体地，对于催化反应(p)而言，特别改进的骨架序列包括SEQ ID NO:12、92和350；对于催化反应(q)而言，特别改进的骨架序列包括SEQ ID NO:12、146、350和440；对于催化反应(r)而言，特别改进的骨架序列包括SEQ ID NO:12、84和228；并且对于催化反应(s)而言，特别改进的骨架序列包括SEQID NO:12、162和354。

表3A-3L描述了在进化SEQ ID NO:8–924的工程化的多肽的测定方案和条件，SEQID NO:8–924的工程化的多肽用于执行表2的生物催化转化反应(a)-(s)，并且特别是产生胺化合物产物(3o)、(3p)、(3q)、(3r)和(3s)的生物催化反应(o)、(p)、(q)、(r)和(s)。以下提供了分析在生物催化测定混合物中产生的这些特定的胺产物的另外的细节。

对于胺产物化合物(3o)的HPLC分析(表3A测定)：使用以下所示的仪器和参数通过HPLC分析如表3A中所记录制备的HTP测定混合物。

对于胺产物化合物(3p)的LC-MS分析(表3B和3E测定)：通过LC-MS以MRM方式使用MRM转换：294/112分析如表3B和3E中记录制备的HTP测定混合物的产物化合物(3p)的形成。另外的相关LC-MS仪器的参数和条件如下文所示。

对于胺产物化合物(3p)的HPLC分析(表3I测定)：使用以下所示的仪器的参数和条件通过HPLC分析如表3I中记录制备的HTP测定混合物的产物化合物(3p)的形成。

对于胺产物化合物(3q)的HPLC分析(表3B、3C、3G和3K测定)：使用以下所示的仪器的参数和条件通过HPLC分析如表3B、3C、3G和3K中记录制备的HTP测定混合物的产物化合物(3q)的形成。

对于胺产物化合物(3r)的LC-MS分析(表3B和3D测定)：使用LC-MS使用MRM转换：294/112分析如表3B和3D中记录制备的HTP测定混合物的产物化合物(3r)的形成。另外的相关LC-MS仪器的参数和条件如下所示。

对于胺产物化合物(3r)的HPLC分析(表3H测定)：使用以下所示的仪器的参数和条件通过HPLC分析如表3H中记录制备的HTP测定混合物的产物化合物(3r)的形成。

对于胺产物化合物(3s)的LC-MS分析(表3B、3F、3J和3L测定)：使用LC-MS分析使用MRM转换：206/174如表3B、3F、3J和3L中记录制备的HTP测定混合物的产物化合物(3s)的形成。另外的相关LC-MS仪器的参数和条件如下所示。

本申请中提到的所有出版物、专利、专利申请和其他文件为了所有目的特此通过引用将其全部并入，如同每个单独的出版物、专利、专利申请或其他文件为了所有目的被单独指明通过引用并入。

虽然已说明和描述了多种具体实施方案，将应理解，可作出各种改变而不偏离本发明的精神和范围。

Claims

1.一种工程化的多肽，其中所述工程化的多肽的氨基酸序列与SEQ ID NO:12之间的氨基酸差异是T156N和Y263Q/H，以及选自以下的至少一个残基差异：A37P、V82T、I261H，其中所述工程化的多肽具有亚胺还原酶活性。

2.一种工程化的多肽，其中所述工程化的多肽的氨基酸序列与SEQ ID NO:12之间的氨基酸差异是T156N以及选自以下的2-5个残基差异：V82T、V259L、T223S、R281A、P267G、F154N，其中所述工程化的多肽具有亚胺还原酶活性。

3.一种工程化的多肽，其中所述工程化的多肽的氨基酸序列与SEQ ID NO:12之间的氨基酸差异是T156M/N和F154S/D，以及选自以下的1-4个残基差异：L12M、V82T、M159C、A234L、K260A/D、I261P/H、S262P、Y263P/E，其中所述工程化的多肽具有亚胺还原酶活性。

4.一种工程化的多肽，其中所述工程化的多肽的氨基酸序列与SEQ ID NO:12之间的氨基酸差异是Y263C和L12M，以及选自以下的1-4个残基差异：V259M/L、I261H、N277L、P278H、V292E，其中所述工程化的多肽具有亚胺还原酶活性。

5.一种工程化的多肽，其中所述工程化的多肽的氨基酸序列与SEQ ID NO:12之间的氨基酸差异是A37P、V82T、T156N、V259I和Y263Q，以及选自以下的1-7个残基差异：A18G、K26M、A57D/V/L、F140M、A158S/R/V/T、G170K/S、E256S、P267S/N/G、P278W/S、A352Q，其中所述工程化的多肽具有亚胺还原酶活性。

6.一种工程化的多肽，其中所述工程化的多肽的氨基酸序列与SEQ ID NO:12之间的氨基酸差异是L12M、I261H/Q、S262V、Y263C、N277L、V292E和L65V，以及选自以下的2-9个残基差异：V82T、Y153F/E、M159Q、L201I、A234C、I242C、E256A/V、K260N、S284H，其中所述工程化的多肽具有亚胺还原酶活性。

7.一种工程化的多肽，所述工程化的多肽由SEQ ID NO:88、108、114、116、118、130、132、140、144、146、154、176、178、186-198、204、210、214、222、228-234、238-244、248-264、268-272、276、280、282、286-312、318-322、328和332-924中的偶数标识符的序列组成。

8.如权利要求1-7中任一项所述的工程化的多肽，其中所述亚胺还原酶活性包括在适当的反应条件下将以下酮和胺底物化合物对中的至少一个转化为所列的胺产物化合物：

(a)酮底物化合物(1j)

和胺底物化合物(2b)

转化为胺产物化合物(3o)，

(b)酮底物化合物(1j)

和胺底物化合物(2c)

H₂N-

(2c)

转化为胺产物化合物(3p)，

(c)酮底物化合物(1j)

和胺底物化合物(2g)

转化为胺产物化合物(3q)，

(d)酮底物化合物(1i)

和胺底物化合物(2h)

转化为胺产物化合物(3r)，

和

(e)酮底物化合物(1e)

和胺底物化合物(2d)

转化为胺产物化合物(3s)，

9.如权利要求8所述的工程化的多肽，其中在适当的反应条件下将所述酮和胺底物化合物对转化为所列的胺产物化合物的所述亚胺还原酶活性与SEQ ID NO:6的参考序列的相应活性相比增加至少2倍。

10.一种多核苷酸，编码权利要求1-8中任一项所述的工程化的多肽。

11.一种多核苷酸，其中所述多核苷酸由SEQ ID NO:87、107、113、115、117、129、131、139、143、145、153、175、177、185-197、203、209、213、221、227-233、237-243、247-263、267-271、275、279、281、285-311、317-321、327和331-923中的奇数标识符的序列组成。

12.一种表达载体，包含权利要求10所述的多核苷酸。

13.一种宿主细胞，包含权利要求10所述的多核苷酸。

14.一种宿主细胞，包含权利要求12所述的表达载体。

15.一种制备具有亚胺还原酶活性的工程化的多肽的方法，所述方法包括在适于所述工程化的多肽表达的条件下培养权利要求13所述的宿主细胞，任选地还包括分离所述工程化的多肽。

16.一种制备具有亚胺还原酶活性的工程化的多肽的方法，所述方法包括在适于所述工程化的多肽表达的条件下培养权利要求14所述的宿主细胞，任选地还包括分离所述工程化的多肽。

17.一种用于制备式(III)的胺化合物的方法，

其中

R¹和R²基团独立地选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基；并且任选地R¹和R²连接以形成3元至10元环；

R³和R⁴基团独立地选自氢原子和任选地取代的烷基、烯基、炔基、烷氧基、羧基、氨基羰基、杂烷基、杂烯基、杂炔基、羧烷基、氨基烷基、卤烷基、烷基硫代烷基、环烷基、芳基、芳基烷基、杂环烷基、杂芳基和杂芳基烷基，条件是R³和R⁴二者不能都是氢；并且任选地R³和R⁴连接以形成3元至10元环；并且

任选地，由*指示的碳原子和/或氮原子是手性的；

所述方法包括在适当的反应条件下在辅因子的存在下使

式(I)的化合物，

其中

R¹和R²如以上所限定；

和

式(II)的化合物，

其中

R³和R⁴如以上所限定，

与权利要求1-8中任一项所述的工程化的多肽接触。

18.如权利要求17所述的方法，其中R³和R⁴连接以形成3元至10元环。

19.如权利要求17所述的方法，其中式(II)的底物化合物选自甲胺、二甲胺、异丙胺、丁胺、异丁胺、L-正缬氨酸、苯胺、(S)-2-氨基戊-4-烯酸、吡咯烷和羟基吡咯烷。

20.如权利要求17所述的方法，其中式(I)的化合物的R¹和R²中的至少一个与式(II)的胺化合物的R³和R⁴中的至少一个连接，因此所述用于制备式(III)的胺化合物的方法包括分子内反应。

21.根据权利要求17所述的方法，其中所述适当的反应条件包括：

(a)10g/L至100g/L的底物载量；

(b)0.1g/L至50g/L的所述工程化的多肽；

(c)0.05g/L至2.5g/L的NAD(P)H；

(d)6至10的pH；

(e)20℃至50℃的温度；和

(f)2-120小时的反应时间。