CN101627116A

CN101627116A - 酮还原酶及其用途

Info

Publication number: CN101627116A
Application number: CN200880004582A
Authority: CN
Inventors: 沙琳·奇恩; 约翰·M·格鲁伯; 吉伽特·W·哈思曼; 艾米丽·穆德弗; 利萨·M·纽曼
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2007-02-08
Filing date: 2008-02-08
Publication date: 2010-01-13
Anticipated expiration: 2028-02-08
Also published as: CN101627116B; IL258857B; ATE518946T1; IL248616B; JP2010517574A; WO2008103248A1; US8415127B2; IL199399A; US20120178142A1; US8071347B2; US7820421B2; US20110165670A1; US20080318295A1; WO2008103248A8; KR101502634B1; US8980605B2; EP2115130B1; EP2115130A1; US20130196408A1; IL248616A0

Abstract

本公开提供与天然存在的野生型酮还原酶相比，具有改善的性质的工程酮还原酶。还提供了编码该工程酮还原酶的多核苷酸、能够表达该工程酮还原酶的宿主细胞和使用该工程酮还原酶合成多种手性化合物的方法。

Description

酮还原酶及其用途

1.相关申请的交叉引用

本申请根据35U.S.C.§119(e)要求2007年2月8日提交的申请序列号60/900,494和2007年2月8日提交的申请序列号60/900,430的权益，其内容在此通过引用并入。

2.序列表、表格或计算机程序的引用

根据37C.F.R.§1.821(c)与本申请同时提交的“序列表”和根据37C.F.R.§1.821(e)提交的序列表的计算机可读形式(CRF)通过引用以其整体并入。提供了序列表的两个拷贝，这两个光盘的每一个上标记“拷贝1”和“拷贝2”。序列表的每个电子拷贝创建于2008年2月8日，具有221Kb的文件大小。文件名是：Copy 1-376247-015WO.txt和Copy2-376247-015WO.txt。通过引用在此并入的序列表和与其同时提交的序列表的CRF相同。

3.背景

属于酮还原酶(KRED)或羰基还原酶类(EC 1.1.1.184)的酶对从对应的前手性酮底物合成光学活性醇是有用的。KRED通常将酮底物转化为对应的醇产物，但是还可以催化逆反应，将醇底物氧化为对应的酮/醛产物。酶，诸如KRED，对酮的还原和对醇的氧化需要辅因子，最普通地是还原型烟酰胺腺嘌呤二核苷酸(NADH)或还原型烟酰胺腺嘌呤二核苷酸磷酸(NADPH)和用于氧化反应的烟酰胺腺嘌呤二核苷酸(NAD)或烟酰胺腺嘌呤二核苷酸磷酸(NADP)。NADH和NADPH作为电子供体，而NAD和NADP作为电子受体。经常观察到酮还原酶和醇脱氢酶接受磷酸化或未磷酸化的辅因子(在其氧化和还原状态下)，但不同时接受它们。

KRED酶可以在大范围的细菌和酵母中发现(参见：Kraus和Waldman，Enzyme catalysis in organic synthesis(有机合成中的酶催化)，第1 & 2卷，VCH Weinheim 1995；Faber，K.，Biotransformations in organic chemistry(有机化学中的生物转化)，第4版Springer，Berlin Heidelberg New York.2000；Hummel和Kula Eur.J. Biochem.1989184：1-13)。已经报道了几种KRED基因和酶序列，例如木兰假丝酵母(Candida magnoliae)(Genbank登录号JC7338；GI：11360538)、近平滑假丝酵母(Candida parapsilosis)(Genbank登录号BAA24528.1；GI：2815409)、赭色掷孢酵母(Sporobolomycessalmonicolor)(Genbank登录号AF 160799；GI：6539734)。

为了避开制备关键化合物的许多化学合成过程，酮还原酶的使用在不断增加，以将不同酮底物酶促转化为手性醇产物。这些应用可以采用表达酮还原酶的全细胞用于生物催化的酮还原，或在其中多个酮还原酶的存在影响所需产物的特异性和收率的那些实例中采用纯化酶。对于体外应用，辅因子(NADH或NADPH)再生酶，诸如葡糖脱氢酶(GDH)、甲酸脱氢酶等等，与酮还原酶联合使用。使用酮还原酶制备有用的化合物的实例包括不对称还原4-氯乙酰乙酸酯类(Zhou，J.Am.Chem.Soc.1983105：5925-5926；Santaniello，J.Chem.Res.(S)1984：132-133；美国专利第5,559,030号；美国专利第5,700,670号和美国专利第5,891,685号)；还原二氧羧酸类(例如美国专利第6,399,339号)；还原(S)氯-5-羟基-3-氧代己酸叔丁酯(例如美国专利第6,645,746号和WO 01/40450)；还原基于吡咯并三嗪的化合物(例如美国申请第2006/0286646号)；还原取代的乙酰苯(例如美国专利第6,800,477号)；以及还原羟基四氢噻吩(hydroxythiolanes)(WO 2005/054491)。

期望鉴别可用于执行多种酮底物向其对应的手性醇产物转化的其他酮还原酶。

4.概述

本公开提供了工程或重组酮还原酶多肽，其能够将化合物1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮还原或转化为对应产物(R)1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇。该工程或重组酮还原酶还能够将乙酰苯还原或转化为(R)-1-苯基乙醇。在本文的实施方案中，该工程酮还原酶与天然存在的克菲尔乳杆菌(Lactobacillus kefir)和短乳杆菌(Lactobacillus brevis)的野生型酮还原酶对比，在将底物转化为产物方面具有一个或多个改善的性质。

一方面，能够将1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)-1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的重组多肽包括具有以下的氨基酸序列：(1)对应于SEQ ID NO：2或SEQID NO：4的残基94的氨基酸残基处的芳族氨基酸或G，和/或(2)对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的S和N之外的氨基酸残基。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，条件是对应于残基94的残基是芳族氨基酸残基或G。该工程酮还原酶可任选地包括在所述氨基酸序列中的其他残基位置上的一个或多个保守取代。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少90％氨基酸序列同一性的氨基酸序列，并且包括对应于SEQID NO：2或SEQ ID NO：4的残基94的氨基酸残基处的芳族氨基酸或G。

在一些实施方案中，能够将1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)-1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽可以包括具有与SEQ ID NO：2或SEQ ID NO：4的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域，条件是对应于残基94的氨基酸残基是芳族氨基酸残基或G。在这些酮还原酶多肽的一些实施方案中，对应于SEQ IDNO：2或SEQ ID NO：4的残基90-233的剩余残基中的一个或多个可具有保守取代。

除了对应于SEQ ID NO：2或SEQ ID NO：4的残基94的氨基酸残基处的芳族氨基酸或G以外，能够将化合物1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽还可包括选自以下的特征中的一个或多个：残基96是S/N之外的任何氨基酸；残基153是L之外的脂肪族氨基酸残基；残基199是L之外的任何氨基酸残基；残基202是G，或是A之外的脂肪族氨基酸残基；以及残基206是芳族氨基酸残基。

在一些实施方案中，在残基94处具有指定的氨基酸的酮还原酶多肽可包括选自以下的下列附加特征中的一个(on)或多个：残基49是K之外的极性氨基酸残基；残基53是酸性氨基酸残基；残基54是T/P之外的小的或脂肪族氨基酸残基；残基60是V之外的脂肪族氨基酸残基；残基95是V之外的脂肪族氨基酸；残基97是小的氨基酸或G；残基109是K之外的碱性氨基酸残基；残基147是脂肪族氨基酸残基；残基165是羟基或小的氨基酸残基；残基197是小的氨基酸残基或G；残基223是L之外的脂肪族氨基酸残基；以及残基233是小的氨基酸残基或G。

在另一个方面中，能够将化合物1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的重组酮还原酶多肽包括在对应于SEQ ID NO：2或SEQID NO：4的残基96的氨基酸残基处具有S和N之外的氨基酸的氨基酸序列。在一些实施方案中，这些重组酮还原酶多肽可包括在对应于SEQ IDNO：2或SEQ ID NO：4的残基96的氨基酸残基处具有G、F、Y或I的氨基酸序列。

在一些实施方案中，该酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，条件是对应于残基96的残基是S和N之外的氨基酸残基。该工程酮还原酶可任选地包括在氨基酸序列中的其他残基位置上的一个或多个保守取代。

在一些实施方案中，这些酮还原酶多肽可包括与SEQ ID NO：2或SEQID NO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，条件是对应于残基96的残基是G、F、Y或I。

在一些实施方案中，能够将1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)-1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽可以包括具有与SEQ ID NO：2或SEQ ID NO：4的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域，条件是对应于残基96的残基是S和N之外的氨基酸残基。在这些酮还原酶多肽的一些实施方案中，对应于SEQ ID NO：2或SEQ ID NO：4的残基90-233的剩余残基中的一个或多个可具有保守取代。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少90％氨基酸序列同一性的氨基酸序列，并且包括在对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的G、F、Y或I。这些工程酮还原酶可任选地包括在多肽序列中的其他残基位置上的一个或多个保守突变。

在一些实施方案中，除了在对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的G、F、Y或I之外，能够将化合物1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽还可包括选自以下的特征中的一个或多个：残基94是芳族氨基酸残基或G；残基153是L之外的脂肪族氨基酸残基；残基199是L之外的任何氨基酸残基；残基202是A之外的脂肪族氨基酸残基；以及残基206是芳族氨基酸残基。

在一些实施方案中，在残基96处具有指定的氨基酸残基的酮还原酶多肽可包括选自以下的特征中的一个或多个：残基49是K之外的极性氨基酸残基；残基53是酸性氨基酸残基；残基54是T/P之外的小的或脂肪族氨基酸残基；残基60是V之外的脂肪族氨基酸残基；残基95是V之外的脂肪族氨基酸；残基97是小的氨基酸或G；残基109是K之外的碱性氨基酸残基；残基147是脂肪族氨基酸残基；残基165是羟基或小的氨基酸残基；残基197是小的氨基酸残基或G；残基223是L之外的脂肪族氨基酸残基；以及残基233是小的氨基酸残基或G。

在一些实施方案中，能够将化合物1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为对应产物(R)1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽选自SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116和118。

如上所示，重组酮还原酶多肽还能将乙酰苯还原或转化为对应产物(R)-1-苯基乙醇。能够将乙酰苯转化为对应产物(R)1-苯基乙醇的其他多肽包括重组酮还原酶多肽，该重组酮还原酶多肽包括在对应于SEQ IDNO：2或SEQ ID NO：4的残基96的氨基酸残基处具有G、I、C或芳族氨基酸的氨基酸序列。

在一些实施方案中，这些酮还原酶多肽可包括与SEQ ID NO：2或SEQID NO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，条件是对应于残基96的残基是G、I、C或芳族氨基酸。这些工程酮还原酶可任选地包括在多肽序列中的其他残基位置上的一个或多个保守突变。

在一些实施方案中，能够将乙酰苯还原或转化为对应产物(R)-1-苯基乙醇的酮还原酶多肽可以包括具有与SEQ ID NO：2或SEQ ID NO：4的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域，条件是对应于残基96的残基是G、I、C或芳族氨基酸。在这些酮还原酶多肽的一些实施方案中，对应于SEQ ID NO：2或SEQ ID NO：4的残基90-233的剩余残基中的一个或多个可具有保守取代。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少90％氨基酸序列同一性的氨基酸序列，并且包括在对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的G、I、C或芳族氨基酸。

在一些实施方案中，除了在对应于残基96的氨基酸残基处的G、I、C或芳族氨基酸之外，能够将乙酰苯还原或转化为对应产物(R)-1-苯基乙醇的酮还原酶多肽可包括选自以下的特征中的一个或多个：残基94是芳族氨基酸残基或G；残基153是L之外的脂肪族氨基酸残基；残基199是L之外的任何氨基酸残基；残基202是A之外的脂肪族氨基酸残基；以及残基206是芳族氨基酸残基。

在一些实施方案中，能够将乙酰苯还原或转化为对应产物(R)-1-苯基乙醇的酮还原酶多肽可另外地包括选自以下的特征中的一个或多个：残基49是K之外的极性氨基酸残基；残基53是酸性氨基酸残基；残基54是T/P之外的小的或脂肪族氨基酸残基；残基60是V之外的脂肪族氨基酸残基；残基95是V之外的脂肪族氨基酸；残基97是小的氨基酸或G；残基109是K之外的碱性氨基酸残基；残基147是脂肪族氨基酸残基；残基165是羟基或小的氨基酸残基；残基197是小的氨基酸残基或G；残基223是L之外的脂肪族氨基酸残基；以及残基233是小的氨基酸残基或G。

在一些实施方案中，能够将乙酰苯还原或转化为对应产物(R)-1-苯基乙醇的酮还原酶多肽选自SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116和118。在一些实施方案中，能够将乙酰苯还原或转化为对应产物(R)-1-苯基乙醇的酮还原酶多肽选自SEQ ID NO：120、122、124、126、128、130、132、134、136和138。

在另一个方面中，本公开提供编码本文描述的工程酮还原酶的多核苷酸或与此类多核苷酸在高度严格条件下杂交的多核苷酸。该多核苷酸可包含用于表达所编码的工程酮还原酶的启动子和其他调节元件，并且可利用针对具体所需表达系统所优化的密码子。示例性多核苷酸包括SEQ ID NO：5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135和137。

在再一个方面中，本公开提供包含本文描述的多核苷酸和/或表达载体的宿主细胞。这些宿主细胞可以是克菲尔乳杆菌或短乳杆菌，或它们可以是不同的生物体。这些宿主细胞可用于工程酮还原酶的表达和分离，或可选地，它们可直接用于将酮底物转化为手性醇产物。

如本领域技术人员所了解，以上阐述的还原反应一般需要辅因子，其通常为NADH或NADPH，并且该还原反应可包括用于再生该辅因子的系统，例如葡萄糖和葡糖脱氢酶。在使用纯化的工程酮还原酶的一些实施方案中，此类辅因子和任选地此类辅因子再生系统，通常将与底物和酮还原酶一起添加到反应介质中。与工程酮还原酶类似，包含辅因子再生系统的任何酶可以此类细胞的提取物或溶解产物形式，或作为纯化的酶提供于反应混合物。在使用细胞提取物或细胞溶解产物的实施方案中，用于产生提取物或溶解产物的细胞可设计为表达仅含有辅因子再生系统或含有辅因子再生系统连同工程酮还原酶的酶。在使用全细胞的实施方案中，该细胞可设计为表达含有辅因子再生系统连同工程酮还原酶的酶。

不论用全细胞、细胞提取物或纯化的酮还原酶执行所述方法，可使用单一酮还原酶，或可选地，可使用两种或更多种酮还原酶的混合物。

在不同的实施方案中，工程酶可执行具有对映选择性≥99％的程度的还原或转化反应。因此，以上的反应可用作标准反应来评价与参考酮还原酶(诸如SEQ ID NO：2或SEQ ID NO：4的酮还原酶)相比的工程酮还原酶的活性。

在一些实施方案中，因为本文描述的工程酮还原酶具有高度的立体选择性，所以得到的产物结构式(II)(“化合物(II)”)或结构式(IV)(“化合物(IV)”)可以大致立体化学纯的形式回收，而不需要将它与对应的对映体手性分离。

5.附图简述

图1阐明酮还原酶在将确定的底物化合物(I)转化为手性醇产物化合物(II)中的作用。该图还显示包含葡糖脱氢酶(GDH)和葡萄糖的辅因子再生系统的使用。

图2阐明酮还原酶在将确定的底物化合物(III)转化为手性醇产物化合物(IV)中的作用。该图还显示包含葡糖脱氢酶(GDH)和葡萄糖的辅因子再生系统的使用。

6.详细描述

如本说明书和所附的权利要求所用，单数形式“一个”、“一种”和“所述”包括复数指示物，除非上下文中另外清晰地指出。因此，例如，所提及的“一种蛋白质”包括多于一种蛋白质，且所提及的“一个化合物”指多于一个化合物。此外，除非另外陈述，否则使用“或”指“和/或”。相似地，“包括(comprise)”、“包括(comprises)”、“包括(comprising)”、“包含(include)”、“包含(includes)”和“包含(including)”可相互交换，并且无意限制。

应进一步理解，当多个实施方案的描述使用术语“包括”时，本领域技术人员应理解为：在一些具体情况下，一个实施方案可可选地使用语句“主要由...组成”或“由...组成”来描述。

本文使用的章节标题仅为了组织目的，并且不解释为限制所描述的主题。

6.1定义

如本文所用，以下术语意在具有以下含义。

“酮还原酶”和“KRED”在本文中可相互交换使用以指能够将酮基还原为其对应的醇的多肽。更加具体地，本公开的酮还原酶多肽能够立体选择性地将上述的式(I)的化合物还原为上述式(II)的醇产物(参见图1)和/或将上述式(III)的化合物还原为式(IV)的醇产物(参见图2)。该多肽通常利用辅因子还原型烟酰胺腺嘌呤二核苷酸(NADH)或还原型烟酰胺腺嘌呤二核苷酸磷酸(NADPH)作为还原剂。如本文所用，酮还原酶包括天然存在的(野生型)酮还原酶以及由人工处理产生的非天然存在的工程多肽(即重组多肽)。

“编码序列”指编码蛋白质的氨基酸序列的那部分核酸(例如基因)。

“天然存在的”或“野生型”指在自然界中发现的形式。例如，天然存在的或野生型多肽或多核苷酸序列是存在于生物体的序列，它可以从自然界中的来源分离，并且没有被人工处理所特意地修饰。

当使用涉及例如，细胞、核酸或多肽时，“重组”指已经以自然界中未存在的方式修饰的，或与其相同，但是是由合成材料和/或通过使用重组技术的处理制备或衍生的材料，或对应于材料的天然或固有形式的材料。其中，非限制性的实例包括表达在细胞的固有(非重组)形式中未发现的基因或表达以不同水平另外表达的固有基因的重组细胞。

“序列同一性的百分比”和“百分比同源性”在本文中可互换使用以指多核苷酸和多肽之间的对比，并且通过在对比视窗(comparison window)对比两个最佳比对序列来确定，其中在对比视窗中的多核苷酸或多肽序列部分与用于两条序列的最佳比对的参考序列(其不包含添加或缺失)对比，可包含添加或缺失(即缺口)。该百分比可通过以下计算：确定相同核酸碱基或氨基酸残基在两个序列都存在的位置数以产生匹配位置数，将匹配位置数除以对比视窗中位置的总数，并用100乘以结果以产生序列同一性的百分比。可选地，该百分比可通过以下计算：确定相同核酸碱基或氨基酸残基在两个序列都存在或核酸碱基或氨基酸残基与缺口比对的位置数以产生匹配位置数，该匹配位置数除以对比视窗中的位置总数，并用100乘以结果以产生序列同一性的百分比。本领域技术人员应理解，有许多可用于比对两个序列的确定的算法。用于对比的序列的最佳比对可通过以下进行：例如Smith和Waterman的局部同源性算法，1981，Adv.Appl.Math.2：482，Needleman和Wunsch的同源性比对算法，1970，J.Mol.Biol.48：443，Pearson和Lipman的相似性搜索方法，1988，Proc.Natl.Acad.Sci.USA85：2444，通过这些算法的计算机化执行(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA)，或目测(一般参见Current Protocols inMolecular Biology(最新分子生物学实验方法汇编)，F.M.Ausubel等人编，Current Protocols，Greene Publishing Associates，Inc.和John Wiley & Sons，Inc.之间的合资企业，(1995补充)(Ausubel))。适合于确定百分比序列同一性和序列相似性的算法的实例是BLAST和BLAST 2.0算法，它们分别描述于Altschul等人，1990，J.Mol.Biol.215：403-410和Altschul等人，1977，Nucleic Acids Res.3389-3402。用于执行BLAST分析的软件是通过美国国家生物技术信息中心的网站公共可用的。这一算法包括首先通过鉴别查询序列中长度W的短字来鉴别高分序列对(HSP)，所述短字与数据库序列中相同长度的字比对时匹配或满足一些正值阀值得分T。T称为邻近字得分阀值(Altschul等人，同上)。这些起始邻近字匹配字串(word hits)作为启动搜索的种子以寻找含有它们的更长HSP。然后，将字匹配字串沿着每个序列的两个方向延伸，直到累积比对得分可以被增加。对于核苷酸序列，使用参数M(匹配残基对的奖励得分；总是＞0)和N(错配残基的罚分；总是＜0)计算累积得分。对于氨基酸序列，得分矩阵用于计算累积得分。当以下情况时，每个方向中的字匹配字串的延伸被终止：累积比对得分从其最大达到值下降了量X；由于累积一个或多个负得分残基比对，累积得分达到0或以下；或到达任一序列末端。BLAST算法参数W、T和X确定比对的敏感度和速度。BLASTN程序(针对核苷酸序列)使用字长(W)11、期望值(E)10、M＝5、N＝-4以及两条链的对比作为默认值。针对氨基酸序列，BLASTP程序使用字长(W)3、期望值(E)10和BLOSUM62得分矩阵(参见Henikoff和Henikoff，1989，Proc Natl Acad SciUSA 89：10915)作为默认值。序列比对和％序列同一性的示例性确定可使用GCG Wisconsin软件包(Accelrys，Madison WI)中的BESTFIT或GAP程序，使用所提供的默认参数。

“参考序列”指用于作为序列对比的基础的确定序列。参考序列可以是较大序列的子集，例如全长基因或多肽序列的区段。一般来说，参考序列为至少20个核苷酸或氨基酸残基长度、至少25个残基长度、至少50个残基长度或核酸或多肽的全长。由于两个多核苷酸或多肽可能各自(I)包含在两个序列之间相似的序列(即完整序列的一部分)，并且(II)可进一步包括两个序列之间不同的序列，因此两个(或更多个)多核苷酸或多肽之间的序列对比通常通过对比“对比视窗”上两个多核苷酸的序列以鉴别并比较序列相似性的局部区域来进行。

“对比视窗”指至少约20个连续核苷酸位置或氨基酸残基的概念区段，其中序列可以与至少20个连续核苷酸或氨基酸的参考序列对比，并且其中对比视窗中的序列部分可包括与用于两个序列的最佳比对的参考序列(其不包含添加或缺失)相比，20％或更少的添加或缺失(即缺口)。对比视窗可以比20个连续的残基更长，并且包括任选地30、40、50、100个或更长的视窗。

“大致同一性”指在至少20个残基位置对比视窗内、通常在至少30-50个残基的视窗内与参考序列对比，具有至少80％的序列同一性、至少85％的序列同一性和89％至95％的序列同一性，更加常见地至少98％的序列同一性、至少99％的序列同一性或至少99.5％或更高的序列同一性的多核苷酸或多肽序列，其中序列同一性的百分比是通过在对比视窗内对比参考序列和包括总计为参考序列的20％或更少缺失或添加的序列来计算。在应用于多肽的具体实施方案中，术语“大致同一性”指当诸如通过程序GAP或BESTFIT，使用默认缺口权重进行最佳比对时，两个多肽序列共享至少80％的序列同一性、优选至少89％的序列同一性、至少95％的序列同一性、至少98％的序列同一性或至少99％的序列同一性。优选地，不同的残基位置因保守氨基酸取代而不同。

当在给定的氨基酸或多核苷酸序列的编号的内容中使用时，“对应于”、“参考”或“相对于”指当给定的氨基酸或多核苷酸序列与指定的参考序列对比时，所述参考序列的残基的编号。换言之，给定聚合体的残基编号或残基位置是根据参考序列指定的，而不是通过给定氨基酸或多核苷酸序列中残基的实际编号位置指定。例如，给定的氨基酸序列，诸如工程酮还原酶的氨基酸序列，可通过导入缺口来与参考序列比对以优化两个序列之间的残基匹配。在这些情况下，尽管存在缺口，给定氨基酸或多核苷酸序列中的残基根据其已经比对的参考序列进行编号。

“立体选择性”指一个立体异构体与另一个立体异构体相比在化学或酶促反应中的优先形成。立体选择性可以是部分的，其中一个立体异构体的形成相对另一立体异构体是有利的，或其可以是完全的，其中仅形成一个立体异构体。当立体异构体是对映体时，立体选择性称为对映选择性，一个对映体在两个总和中的比例(通常报道为百分比)。其在本领域中一般报道(通常为百分比)为根据式[主要对映体-次要对映体]/[主要对映体+次要对映体]从中计算的对映体过量。如果立体异构体是非对映异构体，则立体选择性称为非对映选择性，一个非对映体在它与其他非对映体的总和中的比例(通常报道为百分比)。

“高度立体选择性”指能够以至少约85％的立体异构体过量将底物转化或还原为具有化学式(II)的对应产物的酮还原酶多肽。

“立体特异性”指化学或酶促反应中一个立体异构体超过另一个的优先转化。立体特异性可以是部分的，其中一个立体异构体的转化相对另一立体异构体是有利的，或它可以是完全的，其中仅转化一个立体异构体。

“改善的酶性质”指与参考酮还原酶相比在任何的酶性质方面表现出改善的酮还原酶多肽。对于本文描述的工程酮还原酶多肽，通常与野生型酮还原酶进行对比，尽管在一些实施方案中，参考酮还原酶可以是另一个改善的工程酮还原酶。需要改善的酶性质包括但不限于，酶促活性(其可以根据底物的转化百分比来表达)、热稳定性、pH活性特征(profile)、辅因子需求、对抑制剂(例如产物抑制)的不应性(refractoriness)、立体特异性和立体选择性(包括对映选择性)。

“增加的酶促活性”指工程酮还原酶多肽的改善的性质，其可以表示为与参考酮还原酶对比，比活性(例如所产生的产物/时间/重量蛋白)的增加，或底物转化为产物的百分比(例如使用指定量的KRED时，起始量的底物在指定的时间段内转化为产物的百分比)的增加。在实施例中提供确定酶活性的示例性方法。可能影响涉及酶活性的任何性质，包括典型的酶性质K_m、V_max或k_cat，它们的变化可导致酶促活性的增加。酶活性的改善可以是从对应野生型酮还原酶的酶促活性的约1.5倍，至超过所述酮还原酶多肽衍生自的天然存在的酮还原酶或另一个工程酮还原酶的酶促活性多达2倍、3倍、4倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更多。在具体的实施方案中，工程酮还原酶可表现出改善的酶促活性，其范围是比母体酮还原酶的酶促活性大1.5至50倍，1.5至100倍。本领域技术人员应理解，任何酶的活性是扩散限制的，以致底物(包括任何所需的辅因子)的催化周转速率不可能超过扩散速率。扩散限制的理论最大值，或k_cat/K_m，一般是约10⁸至10⁹(M^-1s^-1)。因此，酮还原酶的酶活性的任何改善将具有与酮还原酶所作用的底物的扩散速率有关的上限。酮还原酶活性可通过测量酮还原酶所用的标准测定中的任何一个来测量，诸如测量由于伴随酮还原成醇的NADPH氧化导致的NADPH吸光度或荧光降低，或通过在偶联测定中所产生的产物来测量。如本文中进一步详细地描述，使用确定的酶制品、在设定条件下的确定测定和一个或多个确定的底物进行酶活性的对比。一般来说，当对比溶解产物时，确定细胞的数量和所测定的蛋白质的量，并使用相同表达系统和相同宿主细胞，以使宿主细胞所产生的和在溶解产物中存在的酶的量的变化最小化。

“转化”指将底物酶促转化为对应产物。“转化百分比”指在指定的条件下在一定时间段内还原为产物的底物的百分比。因此，酮还原酶多肽的“酶促活性”或“活性”可以表达为底物至产物的“转化百分比”。

“热稳定”指在暴露于升高的温度(例如40-80℃)一段时间(例如0.5-24小时)后，与未处理的酶对比，维持相似的活性(例如超过60％至80％，或更多)的酮还原酶多肽。

“溶剂稳定”指在暴露于变化浓度(例如5-99％)的溶剂(例如异丙醇、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、醋酸丁酯、甲基叔丁基醚等等)或溶剂混合物一段时间(例如0.5-24小时)后，与未处理的酶对比，维持相似的活性(超过例如60％至80％)的酮还原酶多肽。

“pH稳定”指在暴露于高或低pH(例如4.5-6或8至12)一段时间(例如0.5-24小时)后，与未处理的酶对比，维持相似的活性(超过例如60％至80％)的酮还原酶多肽。

“热和溶剂稳定”指热稳定和溶剂稳定的酮还原酶多肽。

如本文的工程酮还原酶的内容中所用，“衍生自”鉴别工程所依靠的起始酮还原酶和/或编码此类酮还原酶的基因。例如，通过多代人工进化编码SEQ ID NO：2的克菲尔乳杆菌酮还原酶的基因来获得SEQ ID NO：10的工程酮还原酶。因此，这一工程酮还原酶“衍生自”SEQ ID NO：2的野生型酮还原酶。

“亲水氨基酸或残基”指具有表现出根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的标准化统一疏水性标度，疏水性小于零的侧链的氨基酸或残基。遗传编码的亲水氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

“酸性氨基酸或残基”指当氨基酸包含于肽或多肽时，具有表现出小于约6的pK值的侧链的亲水氨基酸或残基。在生理pH下，酸性氨基酸由于缺失了氢离子而通常具有带负电的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

“碱性氨基酸或残基”指当氨基酸包含于肽或多肽时，具有表现出大于约6的pK值的侧链的亲水氨基酸或残基。在生理pH下，碱性氨基酸由于与水合氢离子缔合而通常具有带正电的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

“极性氨基酸或残基”指具有生理pH下不带电的侧链的亲水氨基酸或残基，但该侧链具有其中两个原子共享的电子对维持为更加接近所述原子之一的至少一个键。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

“疏水氨基酸或残基”指具有表现出根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的标准化统一疏水性标度，疏水性大于零的侧链的氨基酸或残基。遗传编码的疏水氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

“芳族氨基酸或残基”指具有包含至少一个芳族环或杂芳族环的侧链的亲水或疏水氨基酸或残基。遗传编码的芳族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管由于L-His(H)的杂芳族氮原子的pKa，其有时被分类为碱性残基，或因为其侧链包含杂芳族环而分类为芳族残基，但本文中组氨酸被分类为亲水残基或为“限制残基”(见下文)。

“限制氨基酸或残基”指具有限制几何学的氨基酸或残基。本文中，限制残基包括L-pro(P)和L-his(H)。组氨酸具有限制几何学，是因为其具有相对小的咪唑环。脯氨酸具有限制几何学，也是因为其也具有五元环。

“非极性氨基酸或残基”指具有生理pH下不带电的侧链的疏水氨基酸或残基，并且该侧链具有其中两个原子共享的电子对一般由两个原子中的每一个平等维持的键(即侧链是非极性的)。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

“脂肪族氨基酸或残基”指具有脂肪烃侧链的疏水氨基酸或残基。遗传编码的脂肪族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。

“半胱氨酸”。氨基酸L-Cys(C)不常见，原因是其可与其他L-Cys(C)氨基酸或其他含有硫烷基或硫氢基的氨基酸形成二硫键。“半胱氨酸样残基”包括半胱氨酸和含有可用于形成二硫键的硫氢基部分的其他氨基酸。L-Cys(C)(和具有含-SH的侧链的其他氨基酸)以还原的游离-SH或氧化的二硫键形式存在于肽中的能力影响L-Cys(C)是否对肽贡献净疏水或亲水特征。虽然根据Eisenberg(Eisenberg等人，1984，同上)的标准化统一标度，L-Cys(C)表现为0.29的疏水性，但应理解，对于本公开的目的，L-Cys(C)其自身单独划分为一组。

“小的氨基酸或残基”指具有包含总计三个或更少的碳和/或杂原子(排除α-碳和氢)的侧链的氨基酸或残基。根据以上定义，小的氨基酸或残基可进一步分类为脂肪族、非极性、极性或酸性的小的氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

“含有羟基的氨基酸或残基”指含有羟基(-OH)部分的氨基酸。遗传编码的含有羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

“保守”氨基酸取代或突变指具有相似侧链的残基的可交换性，因此通常包括用属于相同或相似的氨基酸定义类型的氨基酸取代多肽中的氨基酸。然而，如本文所用，保守突变不包括从亲水残基到亲水残基、从疏水残基到疏水残基、从含有羟基的残基到含有羟基的残基或从小残基到小残基的取代，如果保守突变可以替代地是从脂肪族残基到脂肪族残基、从非极性残基到非极性残基、从极性残基到极性残基、从酸性残基到酸性残基、从碱性残基到碱性残基、从芳族残基到芳族残基或限制残基到限制残基的取代。此外，如本文所用，可将A、V、L或I保守地突变为另一个脂肪族残基或另一个非极性残基。下表显示示例性保守取代。

残基	可能的保守突变
残基	可能的保守突变	A、L、V、I	其他的脂肪族残基(A、L、V、I)其他的非极性残基(A、L、V、I、G、M)
G、M	其他的非极性残基(A、L、V、I、G、M)	A、L、V、I	其他的脂肪族残基(A、L、V、I)其他的非极性残基(A、L、V、I、G、M)
G、M	其他的非极性残基(A、L、V、I、G、M)	D、E	其他的酸性残基(D、E)
K、R	其他的碱性残基(K、R)	D、E	其他的酸性残基(D、E)
K、R	其他的碱性残基(K、R)	P、H	其他的限制残基(P、H)
N、Q、S、T	其他的极性残基	P、H	其他的限制残基(P、H)
N、Q、S、T	其他的极性残基	Y、W、F	其他的芳族残基(Y、W、F)
C	无	Y、W、F	其他的芳族残基(Y、W、F)

“非保守取代”指用侧链性质显著不同的氨基酸取代或突变多肽中的氨基酸。非保守取代可使用以上列出的定义组之间的氨基酸，而不是属于一组的氨基酸。在一个实施方案中，非保守突变影响(a)取代区域内肽主链的结构(例如脯氨酸取代甘氨酸)(b)电荷或疏水性，或(c)侧链的体积(bulk)。

“缺失”指通过去除参考多肽的一个或多个氨基酸来修饰多肽。缺失可包括去除组成参考酶的1、2、3、4、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、20个或更多个氨基酸、多达氨基酸总数的10％或多达氨基酸总数的20％，而仍旧保持酶促活性和/或保持工程酮还原酶的改善的性质。缺失可针对多肽的内部部分和/或末端部分。在不同的实施方案中，缺失可包括连续的区段或可以是不连续的。

“插入”指通过向参考多肽添加一个或多个氨基酸来修饰多肽。在一些实施方案中，改善的工程酮还原酶包括向天然存在的酮还原酶多肽插入一个或多个氨基酸，以及向其他的工程酮还原酶多肽插入一个或多个氨基酸。可以在多肽的内部部分插入，或插入到羧基或氨基末端。如本文所用，插入包括本领域所知的融合蛋白。插入可以是连续的氨基酸区段，或被天然存在的多肽中的一个或多个氨基酸隔开。

关于指定的参考序列，“不同于(different from)”或“不同于(differsfrom)”指当与参考序列比对时，给定氨基酸或多核苷酸序列的差异。一般来说，当最佳比对两个序列时，可确定差异。差异包括与参考序列对比时，氨基酸残基的插入、缺失或取代。

如本文所用，“片段”指具有氨基末端和/或羧基末端缺失，但其中剩余的氨基酸序列与序列中的对应位置相同的多肽。片段可以是至少14个氨基酸长、至少20个氨基酸长、至少50个氨基酸长或更长，和多达全长参考序列的70％、80％、90％、95％、98％和99％，所述参考序列诸如野生型(SEQ ID NO：2或SEQ ID NO：4)或工程酮还原酶多肽。

“分离的多肽”指与天然伴随多肽的其他杂质(如蛋白质、脂质和多核苷酸)大致分离的多肽。该术语包括已经从多肽的天然存在的环境或表达系统(例如宿主细胞或体外合成)中移出或纯化的多肽。改善的酮还原酶可存在于细胞中、存在于细胞培养基(cellular medium)中，或以不同的形式制备，诸如溶解产物或分离的制品。因此，在一些实施方案中，改善的酮还原酶可以是分离的多肽。

“大致纯的多肽”指一种组合物，其中多肽物类是存在的主要物类(即根据摩尔或质量，它比组合物中的任何其他单个大分子物类更丰富)，并且当目标物类以摩尔或％重量计包括存在的大分子物类的至少约50％时，该组合物一般是大致纯化的组合物。一般来说，大致纯的酮还原酶组合物按摩尔或％重量计，将包括存在于组合物中所有大分子物类的约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多和约98％或更多。在一些实施方案中，将目标物类纯化为基本同质(即在组合物中通过常规检测方法不能检测到杂质物类)，其中该组合物基本上由单一大分子物类组成。溶剂物类、小分子(＜500道尔顿)和元素离子物类不认为是大分子物类。在一些实施方案中，分离的改善的酮还原酶多肽是大致纯的多肽组合物。

本文所用的“严格杂交”指核酸杂交体(hybrid)稳定的条件。如本领域技术人员所知，杂交体的稳定性是以杂交体的解链温度(Tm)来反映。一般来说，杂交体的稳定性是离子强度、温度、G/C含量和离液剂的存在的函数。多核苷酸的Tm值可使用用于预测解链温度的已知方法来计算(参见例如Baldino等人，Methods Enzymology 168：761-777；Bolton等人，1962，Proc.Natl.Acad.Sci.USA 48：1390；Bresslauer等人，1986，Proc.Natl.Acad.Sci USA 83：8893-8897；Freier等人，1986，Proc.Natl.Acad.Sci USA83：9373-9377；Kierzek等人，Biochemistry 25：7840-7846；Rychlik等人，1990，Nucleic Acids Res 18：6409-6412(勘误，1991，Nucleic Acids Res19：698)；Sambrook等人，同上)；Suggs等人，1981，在Developmental BiologyUsing Purified Genes(使用纯化基因的发育生物学)(Brown等人编)中，第683-693页，Academic Press；和Wetmur，1991，Crit Rev Biochem Mol Biol26：227-259。所有出版物在此通过引用并入)。在一些实施方案中，多核苷酸编码本文公开的多肽，并且在确定条件(诸如适度严格或高度严格条件)下杂交于编码本公开的工程酮还原酶的序列的互补序列。

“杂交严格性”指核酸的这种洗涤条件。一般来说，杂交反应在较低严格性条件下进行，随后在变化的但是较高的严格性下洗涤。术语“适度严格杂交”指允许目标多核苷酸结合互补多核苷酸的条件，所述互补多核苷酸与目标多核苷酸具有约60％的序列同一性、约75％的序列同一性、约85％的序列同一性、约90％的序列同一性或具有约95％或更高的序列同一性。示例性适度严格条件是等同于在42℃下在50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中杂交，随后在42℃下在0.2×SSPE、0.2％SDS中洗涤的条件。

“高度严格性杂交”一般指如在确定的多核苷酸序列的溶解条件下所确定的，比热解链温度T_m低约10℃或更少的条件。在一些实施方案中，高度严格性条件指仅允许在65℃下0.018M NaCl中形成稳定杂交体的那些核酸序列杂交的条件。(即如果杂交体在65℃下0.018M NaCl中不稳定，那么它在高度严格性条件下也是不稳定的，诸如本文所涵盖)。例如，可通过以下提供高度严格性条件：在等同于42℃下50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS的条件下杂交，随后在65℃下在0.1×SSPE和0.1％SDS中洗涤。其他高度严格性杂交条件，以及适度严格条件在以上引用的参考文献中描述。

“异源”多核苷酸指通过实验室技术导入宿主细胞的任何多核苷酸，并且包括从宿主细胞移出，进行实验室处理，然后再次导入宿主细胞的多核苷酸。

“优化的密码子”指编码蛋白质的多核苷酸的密码子变化为在特定生物体中优先使用的密码子，以便所编码的蛋白质在关注的生物体中被有效地表达。尽管遗传密码是简并的，即大多数氨基酸是由几个称为“同义(synonyms)”或“同义(synonymous)”密码子的密码子代表，但已公知特定生物体对密码子的使用是非随机的并且偏倚于特定的密码子三联体。对于给定基因、共同功能或祖先起源的基因、相对低拷贝数的蛋白质高度表达的蛋白质，以及生物体的基因组的聚集蛋白质编码区，这一密码子使用偏倚可能更高。在一些实施方案中，编码酮还原酶的多核苷酸可能为了从选择用于表达的宿主生物体的最佳生产而进行了密码子优化。

“优选的、最佳、高度密码子使用偏倚密码子”互换地指在蛋白质编码区中比编码相同氨基酸的其他密码子使用频率更高的密码子。优选密码子的确定可与以下有关：单个基因、具有共同功能或起源的一组基因、高度表达的基因中的密码子使用；整个生物体的聚集蛋白质编码区中的密码子频率；相关生物体的聚集蛋白质编码区中的密码子频率或其组合。频率随基因表达水平增加的密码子通常是用于表达的最佳密码子。已知用于确定具体生物体中密码子频率(例如密码子使用、相对同义密码子使用)和密码子喜好的多种方法，包括多变量分析(multivariat analysis)，例如使用聚类分析或对应分析，以及在基因中所用的密码子的有效数(参见GCGCodonPreference，Genetics Computer Group Wisconsin Package；CodonW，John Peden，University of Nottingham；McInerney，J.O，1998，Bioinformatics14：372-73；Stenico等人，1994，Nucleic Acids Res.222437-46；Wright，F.，1990，Gene 87：23-29)。具有可用的密码子使用表的生物体的列表在不断增加(参见例如Wada等人，1992，Nucleic Acids Res.20：2111-2118；Nakamura等人，2000，Nucl.Acids Res.28：292；Duret等人，同上；Henaut和Danchin，“Escherichia coli and Salmonella(大肠杆菌和沙门氏菌)”，1996，Neidhardt等人编，ASM Press，Washington D.C.，第2047-2066页)。用于获得密码子使用的数据源可依赖于能够编码蛋白质的任何可用核苷酸序列。这些数据集包括实际已知编码表达的蛋白质(例如完全蛋白质编码序列-CDS)、表达的序列标签(ESTS)或基因组序列的预测编码区的核酸序列(参见例如Mount，D.，Bioinformatics：Sequence and Genome Analysis(生物信息学：序列和基因组分析)，第8章，Cold Spring Harbor Laboratory Press，ColdSpring Harbor，N.Y.，2001；Uberbacher，E.C.，1996，Methods Enzymol.266：259-281；Tiwari等人，1997，Comput.Appl.Biosci.13：263-270)。

本文定义的“控制序列”包括对本公开的多肽的表达必需的或有利的所有组分。对于编码多肽的核酸序列，每个控制序列可以是固有的或外源的。这种控制序列包括但不限于，前导区、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。至少，控制序列包括启动子，以及转录和翻译终止信号。控制序列可提供有连接体，以便导入促进所述控制序列与编码多肽的核酸序列的编码区连接的具体限制位点。

本文定义的“可操作地连接”为一种构型，其中控制序列适当地置于相对于多核苷酸序列的编码序列的位置，以便控制序列指导或影响该多核苷酸编码的多核苷酸和/或多肽的表达。

“启动子序列”是由用于表达多核苷酸(诸如含有编码区的多核苷酸)的宿主细胞所识别的核酸序列。一般来说，启动子序列包括介导多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中表现出转录活性的任何核酸序列，包括突变、截短和杂合启动子，并且可以从宿主细胞的同源或异源的编码细胞外或细胞内多肽的基因获得。

“辅因子再生系统”指参与还原氧化形式的辅因子的反应(例如NADP⁺到NADPH)的一组反应物。由酮还原酶催化的酮底物的还原所氧化的辅因子通过辅因子再生系统再生为还原形式。辅因子再生系统包括化学计量的还原剂，它是还原氢等同物的来源，并且能够还原氧化形式的辅因子。辅因子再生系统可进一步包括催化剂，例如酶催化剂，它催化还原剂还原氧化形式的辅因子。从NAD⁺或NADP⁺分别再生NADH或NADPH的辅因子再生系统为本领域所知，并且可用于本文描述的方法中。

6.2酮还原酶

本公开提供能够将确定的酮底物还原或转化为其对应的醇产物的工程或重组酮还原酶(“KRED”)，并且该酶当与从克菲尔乳杆菌或短乳杆菌获得的天然存在的野生型酮还原酶或另一种参考酮还原酶(诸如另一种工程酮还原酶)比较时，具有改善的性质。如下文进一步讨论，在本文的实施方案中，重组酮还原酶多肽能够将如式(I)的结构所代表的底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为如式(II)的结构所代表的产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇。与天然存在的克菲尔乳杆菌或乳酸杆菌(Lactobacillusbacillus)的酮还原酶相比，该酮还原酶在将式(I)的底物转化为式(II)的产物方面具有改善的性质。

如下文进一步讨论，在一些实施方案中，重组酮还原酶多肽还能够将如结构式(III)所代表的底物乙酰苯还原或转化为如结构式(IV)所代表的手性醇产物(R)1-苯基乙醇。因此，使用底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮或乙酰苯，或两者，可对比工程酮还原酶和参考酮还原酶。在一些实施方案中，当对比工程酮还原酶和参考酮还原酶(例如SEQ ID NO：2或SEQ ID NO：4)的活性时，一种参考底物(例如1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮)可以用其他的参考底物(例如乙酰苯)代替。

在本文的实施方案中，酮还原酶多肽分别在SEQ ID NO：2和4的野生型克菲尔乳杆菌或短乳杆菌序列的对应残基位置上包括至少(1)94位的氨基酸残基，它是芳族氨基酸残基或G，和/或(2)96位的氨基酸残基，它是S/N之外的氨基酸。因此，在本文的不同实施方案中，本公开的酮还原酶包括对对应于SEQ ID NO：2或SEQ ID NO：4的氨基酸序列的多肽的至少以下氨基酸取代：(1)从A→芳族氨基酸残基或G来修饰残基94，和/或(2)从S/N→S/N之外的任何氨基酸来修饰残基96。

这些非天然存在的酮还原酶可通过不同的公知技术制备，诸如遗传材料的体外诱变或定向进化，所述遗传材料编码克菲尔乳杆菌或短乳杆菌的酮还原酶，并且识别表达具有所需性质的工程酶的多核苷酸。KRED的能力可以指它们作为单个多肽的性质，或指多聚体形式下它们的性质，这是由于它们可存在于野生型酶中。

对本文的目的有用的诱变和定向进化技术详细地描述于以下参考文献：Ling等人，1997，“Approaches to DNA mutagenesis：an overview(DNA诱变的方法：综述)”Anal.Biochem.254(2)：157-78；Dale等人，1996，“Oligonucleotide-directed random mutagenesis using the phosphorothioatemethod(使用硫代磷酸酯方法的寡核苷酸指导的随机诱变)”Methods Mol.Biol.57：369-74；Smith，1985，“In vitro mutagenesis(体外诱变)”，Ann.Rev.Genet.19：423-462；Botstein等人，1985，“Strategies and applications of in vitromutagenesis(体外诱变的策略和应用)”，Science 229：1193-1201；Carter，1986，“Site-directed mutagenesis(位点定向诱变)”，Biochem.J.237：1-7；Kramer等人，1984，“Point Mismatch Repair(点错配修复)”，Cell，38：879-887；Wells等人，1985，“Cassette mutagenesis：an efficient method forgeneration of multiple mutations at defined sites(盒式诱变：在确定位点产生多个突变的有效方法)”，Gene 34：315-323；Minshull等人，1999，“Proteinevolution by molecular breeding(通过分子育种的蛋白质进化)”，Curr OpinChem Biol 3：284-290；Christians等人，1999，“Directed evolution of thymidinekinase for AZT phosphorylation using DNA family shuffling(使用DNA家族改组定向进化用于AZT磷酸化的胸苷激酶)”，Nature Biotech 17：259-264；Crameri等人，1998，“DNA shuffling of a family of genes from diverse speciesaccelerates directed evolution(对来自不同物种的基因的家族的DNA改组加速了定向进化)”，Nature 391：288-291；Crameri等人，1997，“Molecularevolution of an arsenate detoxification pathway by DNA shuffling(通过DNA改组的砷酸盐解毒途径的分子进化)”，Nature Biotech 15：436-438；Zhang等人，1997，“Directed evolution of an effective fructosidase from agalactosidase by DNA shuffling and screening(通过DNA改组和筛选从半乳糖苷酶定向进化到有效的果糖苷酶)”，Proc Natl Acad Sci USA94：45-4-4509；Crameri等人，1996，“Improved green fluorescent protein bymolecular evolution using DNA shuffling(通过使用DNA改组的分子进化改善绿色荧光蛋白)”，Nature Biotech 14：315-319；Stemmer，1994，“Rapidevolution of a protein in vitro by DNA shuffling(通过DNA改组体外快速进化蛋白质)”，Nature 370：389-391；Stemmer，1994，“DNA shuffling by randomfragmentation and reassembly：In vitro recombination for molecular evolution(通过随机断裂和重新组装的DNA改组：用于分子进化的体外重组)”，Proc Natl Acad Sci USA 91：10747-10751；WO 95/22625；WO 97/0078；WO97/35966；WO 98/27230；WO 00/42651；WO 01/75767和美国专利6,537,746。所有出版物在此通过引用并入。

编码天然存在的克菲尔乳杆菌和短乳杆菌的酮还原酶(还称为“醇脱氢酶”或“ADH”)的天然存在的多核苷酸可从已知编码酮还原酶活性的分离多核苷酸(例如对于克菲尔乳杆菌，Genbank登录号AAP94029GI：33112056和对于短乳杆菌，Genbank登录号CAD66648GI：28400789)获得。可选地，可通过本领域已知的多核苷酸合成方法学，根据已报道的酮还原酶编码基因的多核苷酸序列合成编码天然存在的酮还原酶的多核苷酸。在不同的实施方案中，如下文进一步所述，编码酮还原酶以及工程酮还原酶的天然存在的多核苷酸可被密码子优化为用于表达该酶的具体宿主细胞优选的密码子。

编码天然存在的或野生型酮还原酶的母体或参考多核苷酸经受诱变过程(例如随机诱变和重组)以将突变导入该多核苷酸。表达并翻译突变的多核苷酸，从而产生具有相对所述多肽的修饰的工程酮还原酶。如本文所用，“修饰”包括氨基酸取代、缺失和插入。可将修饰的任何一种或组合导入天然存在的酶活性多肽以产生工程酶，然后通过各种方法筛选工程酶以鉴别具有在具体酶性质方面的所需改善的多肽和对应的多核苷酸。编码具有改善的性质的工程酮还原酶的多核苷酸可经受另外的数轮诱变处理以产生具有进一步改善的所需酶性质的多肽。需要改善的酶性质包括但不限于酶促活性、热稳定性、pH活性特征、辅因子需求、对抑制剂(例如产物抑制)的不应性、立体特异性、立体选择性和溶剂稳定性。

在一些实施方案中，重组酮还原酶包括衍生自SEQ ID NO：2的克菲尔乳杆菌酮还原酶或SEQ ID NO：4的短乳杆菌酮还原酶的工程多肽，并因此可与它们对比。在本说明书中，氨基酸残基位置是根据参考多肽确定的。对于SEQ ID NO：2或SEQ ID NO：4的参考序列，编号开始于起始甲硫氨酸(M)残基(即M代表1位残基)，尽管本领域技术人员应理解，起始甲硫氨酸残基可通过生物加工机器(诸如在宿主细胞或体外翻译系统中)除去以产生缺少起始甲硫氨酸残基的成熟蛋白质。如果两个参考酮还原酶之间相同残基位置上的氨基酸残基不同，则不同的残基通过“/”(排列为“克菲尔乳杆菌残基/短乳杆菌残基”)来指示。用不同的氨基酸残基取代参考序列(例如SEQ ID NO：2和SEQ ID NO：4的野生型酮还原酶)中的氨基酸残基的取代突变用符号“→”指示。

产生改善的酮还原酶性质的对参考多肽(诸如天然存在的SEQ IDNO：2或SEQ ID NO：4的多肽)的修饰的数量可包括参考酶序列的一个或多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、或15个或更多个氨基酸、20个或更多个氨基酸、多达氨基酸总数的10％、多达氨基酸总数的20％或多达氨基酸总数的30％。同样地，本公开的多肽可在参考序列(例如SEQ ID NO：2或SEQ ID NO：4)的1、2、3、4、5、6、7、8、9、10、11、12、14、16、18、20或25个或更多个氨基酸，或多达氨基酸的5％、多达氨基酸的10％、多达氨基酸的20％或多达氨基酸总数的30％上不同于所述参考多肽。

在不同的实施方案中，产生改善的酶性质的对参考多肽的修饰可包括在参考序列(诸如SEQ ID NO：2或SEQ ID NO：4)的1、2、3、4、5、6、7、8、9、10、11、12、14、16、18、20、25个或更多个氨基酸，或多达氨基酸的5％、多达氨基酸的10％、多达氨基酸的20％或多达氨基酸总数的30％上的取代。用于产生改善的酮还原酶的取代可包括保守取代、非保守取代以及保守和非保守取代的组合。

在一些实施方案中，与SEQ ID NO：2或SEQ ID NO：4的野生型参考酮还原酶的活性对比，该酮还原酶多肽具有增加的将底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酶活性。在一些实施方案中，增加的酶活性是野生型参考多肽的酶活性的至少1.5倍或更高。在一些实施方案中，与参考多肽SEQ ID NO：2或SEQ ID NO：4的活性对比，增加的酶活性是至少2.0倍或更高的酶活性、至少3.0倍或更高的酶活性、至少5倍或更高的酶活性、至少10倍或更高的酶活性、至少20倍或更高的酶活性、至少25倍或更高的酶活性、至少50倍或更高的酶活性、至少75倍或更高的酶活性、至少100倍或更高的酶活性。

在一些实施方案中，在定义的条件下与SEQ ID NO：2或SEQ ID NO：4的野生型参考酮还原酶的转化率对比，该酮还原酶多肽具有增加的将1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的转化率。在一些实施方案中，工程酮还原酶的特征为在定义的条件下，底物的转化大于70％、大于80％、大于90％、大于95％、大于98％或大于99％。示例性定义的条件是用约10g/L的KRED将10g/L底物转化24小时。

在一些实施方案中，与SEQ ID NO：2或SEQ ID NO：4的野生型参考酮还原酶的活性对比，该酮还原酶多肽具有增加的将底物乙酰苯立体选择性地还原或转化为产物(R)-1-苯基乙醇的酶活性。在一些实施方案中，增加的酶活性是野生型参考多肽的酶活性的至少1.5倍或更高。在一些实施方案中，与参考多肽SEQ ID NO：2或SEQ ID NO：4的活性对比，增加的酶活性是至少2.0倍或更高的酶活性、至少3.0倍或更高的酶活性、至少5倍或更高的酶活性、至少10倍或更高的酶活性、至少20倍或更高的酶活性、至少25倍或更高的酶活性、至少50倍或更高的酶活性、至少75倍或更高的酶活性、至少100倍或更高的酶活性。

在一些实施方案中，在定义的条件下与SEQ ID NO：2或SEQ ID NO：4的野生型参考酮还原酶的活性对比，该酮还原酶多肽具有增加的将底物乙酰苯立体选择性地还原或转化为产物(R)-1-苯基乙醇的转化率。在一些实施方案中，工程酮还原酶的特征为在定义的条件下，底物的转化大于70％、大于80％、大于90％、大于95％、大于98％或大于99％。示例性定义的条件是用约10g/L的KRED将10g/L底物转化24小时。

在不同的实施方案中，该酮还原酶多肽能够以SEQ ID NO：2或SEQ IDNO：4的活性的至少1.5倍将底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇，并且包括具有以下的氨基酸序列：(1)在参考序列SEQ ID NO：2或SEQ ID NO：4的对应残基位置94处的芳族氨基酸或G，或(2)在参考序列SEQ ID NO：2或SEQ ID NO：4的对应残基位置96处的S/N之外的氨基酸。在一些实施方案中，在对应残基位置96处的氨基酸残基不是S和N。如下文所讨论，在这些实施方案的一些中，该酮还原酶多肽与参考序列对比，可在2个或更多个氨基酸残基、3个或更多个氨基酸残基、或4个或更多个氨基酸残基处不同于参考序列。

在一些实施方案中，能够将底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽包括在参考序列SEQID NO：2或SEQ ID NO：4的对应残基位置94处具有芳族氨基酸或G的氨基酸序列。同样地，在一些实施方案中，该酮还原酶多肽包括SEQ ID NO：2或SEQ ID NO：4的对应序列的残基94处A→芳族氨基酸残基或G的修饰。如下文所讨论，在这些实施方案的一些中，该酮还原酶多肽与参考序列对比，可在2个或更多个氨基酸残基、3个或更多个氨基酸残基、或4个或更多个氨基酸残基处不同于参考序列。

在一些实施方案中，该酮还原酶多肽包括在SEQ ID NO：2或SEQ IDNO：4的残基94的对应氨基酸残基处具有氨基酸F、W、H或Y的氨基酸序列。同样地，在一些实施方案中，该酮还原酶多肽包括在SEQ ID NO：2或SEQ ID NO：4的对应序列的残基94处的A→F、W、H或Y的修饰。在一些实施方案中，残基94处的氨基酸是F。

在一些实施方案中，在残基94处具有指定氨基酸的能够将底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽可包括对应SEQ ID NO：2或SEQ ID NO：4的其他氨基酸残基处的修饰，包括非保守或保守取代。如下文进一步讨论，非保守取代可以在对应于残基位置53、54、96、97、147、165、153、197、199、206、223和233的氨基酸残基处。当存在另外的取代时，该取代可包括在其他氨基酸残基位置处的一个或多个保守取代。

因此，在一些实施方案中，重组酮还原酶多肽包括与SEQ ID NO：2在1至25个氨基酸位置上不同的氨基酸序列，条件是对应于SEQ ID NO：2或SEQ ID NO：4的残基94的氨基酸残基是芳族氨基酸或G。同样地，一些多肽包括与SEQ ID NO：2或SEQ ID NO：4在以下位置上不同的氨基酸序列：在1、2、3、4、5、6、7、8、9、10、11、12、14、16、18、20或25个氨基酸位置上，例如在1-25个氨基酸位置、1-20个氨基酸位置、1-18个氨基酸位置、1-16个氨基酸位置、1-14个氨基酸位置、1-12个氨基酸位置、1-11个氨基酸位置、1-10个氨基酸位置、1-9个氨基酸位置、1-8个氨基酸位置、1-7个氨基酸位置、1-6个氨基酸位置、1-5个氨基酸位置、1-4个氨基酸位置、1-3个氨基酸位置或1-2个氨基酸位置上。

在一些实施方案中，能够将底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽包括在对应于SEQ IDNO：2或SEQ ID NO：4的残基94的残基处具有芳族氨基酸或G的氨基酸序列，和选自以下的特征中的一个或多个：(1)对应于残基96的残基处的氨基酸是S/N之外的任何氨基酸；(2)对应于残基153的氨基酸残基是L之外的脂肪族氨基酸；(3)对应于残基199的氨基酸残基是L之外的任何氨基酸；(4)对应于残基202的氨基酸残基是G，或是A之外的脂肪族氨基酸；以及(5)对应于残基206的氨基酸残基是芳族氨基酸。因此，在一些实施方案中，该酮还原酶多肽可包括具有SEQ ID NO：2或SEQ IDNO：4的对应序列的残基94处的A→芳族氨基酸残基或G的修饰和选自以下一种或多种修饰的氨基酸序列：96(S/N→S/N之外的任何氨基酸)；153(L→L之外的脂肪族氨基酸残基)；199(L→L之外的任何氨基酸残基)；202(A→G，或A之外的脂肪族氨基酸残基)；以及206(M→芳族氨基酸残基)。

在一些实施方案中，氨基酸残基和以上残基中的对应突变选自：残基153是G或A；残基199是K、I、N、R、V、Q或W；残基202是I、L或G；且残基206是F。

在一些实施方案中，能够将底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮立体选择性地还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酮还原酶多肽包括在对应于SEQ IDNO：2或SEQ ID NO：4的残基96的氨基酸残基处具有G、F、Y或I的氨基酸序列。同样地，在一些实施方案中，该酮还原酶多肽包括SEQ.ID NO：2或SEQ ID NO：4的对应序列的残基96处的S/N→G、F、Y或I的修饰。如下文所讨论，在这些实施方案的一些中，该酮还原酶多肽与参考序列对比，可在2个或更多个氨基酸残基、3个或更多个氨基酸残基、或4个或更多个氨基酸残基处不同于参考序列。

在一些实施方案中，该酮还原酶多肽还能够将底物乙酰苯立体选择性地还原或转化为产物(R)-1-苯基乙醇。在这些实施方案的一些中，该酮还原酶多肽包括在对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处具有G、I、C或芳族氨基酸的氨基酸序列。同样地，在一些实施方案中，该酮还原酶多肽包括SEQ ID NO：2或SEQ ID NO：4的对应序列的残基96处的S/N→G、I、C或芳族氨基酸残基的修饰。如下文所讨论，在这些实施方案的一些中，该酮还原酶多肽与参考序列对比，可在2个或更多个氨基酸残基、3个或更多个氨基酸残基、或4个或更多个氨基酸残基处不同于参考序列。

在一些实施方案中，在残基96处具有指定氨基酸的酮还原酶多肽可包括对应的SEQ ID NO：2或SEQ ID NO：4的其他氨基酸残基处的修饰，包括非保守或保守取代。如下文进一步讨论，非保守取代可以在对应于残基位置53、54、96、97、147、165、153、197、199、206、223和233的氨基酸残基处。当存在另外的取代时，该取代可包括在其他氨基酸残基位置处的一个或多个保守取代。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2在1至25个氨基酸位置上不同的氨基酸序列，条件是对应于SEQ ID NO：2或SEQ IDNO：4的残基96的氨基酸残基是G、F、Y或I。同样地，一些多肽包括与SEQ ID NO：2或SEQ ID NO：4在以下位置上不同的氨基酸序列：在1、2、3、4、5、6、7、8、9、10、11、12、14、16、18、20或25个氨基酸位置上，例如在1-25个氨基酸位置、1-20个氨基酸位置、1-18个氨基酸位置、1-16个氨基酸位置、1-14个氨基酸位置、1-12个氨基酸位置、1-11个氨基酸位置、1-10个氨基酸位置、1-9个氨基酸位置、1-8个氨基酸位置、1-7个氨基酸位置、1-6个氨基酸位置、1-5个氨基酸位置、1-4个氨基酸位置、1-3个氨基酸位置或1-2个氨基酸位置上。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2在1至25个氨基酸位置上不同的氨基酸序列，并且包括在对应于SEQ ID NO：2或SEQID NO：4的残基96的残基处的G、I、C或芳族氨基酸。同样地，一些多肽包括与SEQ ID NO：2或SEQ ID NO：4在以下位置上不同的氨基酸序列：在1、2、3、4、5、6、7、8、9、10、11、12、14、16、18、20或25个氨基酸位置上，例如在1-25个氨基酸位置、1-20个氨基酸位置、1-18个氨基酸位置、1-16个氨基酸位置、1-14个氨基酸位置、1-12个氨基酸位置、1-11个氨基酸位置、1-10个氨基酸位置、1-9个氨基酸位置、1-8个氨基酸位置、1-7个氨基酸位置、1-6个氨基酸位置、1-5个氨基酸位置、1-4个氨基酸位置、1-3个氨基酸位置或1-2个氨基酸位置上。

在一些实施方案中，酮还原酶多肽包括在以上SEQ ID NO：2或SEQ IDNO：4的残基96处具有指定氨基酸的氨基酸序列，和以下特征中的一个或多个：(1)对应于残基94的残基处的氨基酸是芳族氨基酸或G；(2)对应于残基153的氨基酸残基是L之外的脂肪族氨基酸；(3)对应于残基199的氨基酸残基是L之外的任何氨基酸；(4)对应于残基202的氨基酸残基是G，或是A之外的脂肪族氨基酸；以及(5)对应于残基206的氨基酸残基是芳族氨基酸。

因此，在一些实施方案中，该酮还原酶多肽包括具有SEQ ID NO：2或SEQ ID NO：4的对应序列的残基96处的S/N→G、F、Y或I的修饰和以下残基处的一种或多种修饰的氨基酸序列：94(A→芳族氨基酸残基或G)；153(L→L之外的脂肪族氨基酸残基)；199(L→L之外的任何氨基酸残基)；202(A→G，或A之外的脂肪族氨基酸残基)；以及206(M→芳族氨基酸残基)。

在一些实施方案中，该酮还原酶多肽包括具有SEQ ID NO：2或SEQ IDNO：4的对应序列的残基96处的S/N→G、I、C的修饰和以下残基处的一种或多种修饰的氨基酸序列：94(A→芳族氨基酸残基或G)；153(L→L之外的脂肪族氨基酸残基)；199(L→L之外的任何氨基酸残基)；202(A→G，或A之外的脂肪族氨基酸残基)；以及206(M→芳族氨基酸残基)。

在一些实施方案中，氨基酸残基和以上残基中的对应突变可选自以下中的一个或多个：残基94是F或G；残基153是G或A；残基199是K、I、N、R、V、Q或W；残基202是I、L或G；且残基206是F。

在一些实施方案中，可将另外的突变并入到以上所有的酮还原酶多肽的实施方案中以增强多肽活性的一个或多个性质，所述多肽活性诸如，酶活性、热稳定性和/或溶剂稳定性和类似性质。因此在一些实施方案中，除了以上所有的实施方案之外，该酮还原酶多肽可包括以下特征中的一个或多个：(1)对应于残基49的残基处的氨基酸是K之外的极性氨基酸残基；(2)对应于残基53的残基处的氨基酸是酸性氨基酸残基；(3)对应于残基54的残基处的氨基酸是T/P之外的小的或脂肪族氨基酸残基；(4)对应于残基60的残基处的氨基酸是V之外的脂肪族氨基酸残基；(5)对应于残基95的残基处的氨基酸是V之外的脂肪族氨基酸；(6)对应于残基97的残基处的氨基酸是小的氨基酸或G；(7)对应于残基109的残基处的氨基酸是K之外的碱性氨基酸残基；(8)对应于残基147的残基处的氨基酸是脂肪族氨基酸残基；(9)对应于残基165的残基处的氨基酸是羟基或小的氨基酸残基；(10)对应于残基197的残基处的氨基酸是小的氨基酸残基或G；(11)对应于残基223的残基处的氨基酸是L之外的脂肪族氨基酸残基；以及(12)对应于残基233的残基处的氨基酸是小的氨基酸残基或G。

因此，在这些实施方案中，该酮还原酶多肽可包括以上酮还原酶的每个实施方案所描述的具有SEQ ID NO：2或SEQ ID NO：4的对应序列的指定修饰和以下修饰中的一个或多个的氨基酸序列：49(K→K之外的极性氨基酸残基)；53(G/T→酸性氨基酸残基)；54(T/P→T/P之外的小的或脂肪族氨基酸残基)；60(V/F→V之外的脂肪族氨基酸残基)；95(V→V之外的脂肪族氨基酸)；97(K→小的氨基酸或G)；109(K→K之外的碱性氨基酸残基)；147(F→脂肪族氨基酸残基)；165(I→羟基或小的氨基酸残基)；197(D→小的氨基酸残基或G)；223(I→L之外的脂肪族氨基酸残基)；以及233(D/N→小的氨基酸残基或G)。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，条件是(1)对应于残基94的残基是芳族氨基酸残基或G，和/或(2)对应于残基96的残基是S/N之外的氨基酸残基。在一些实施方案中，对应的残基位置96处的氨基酸残基不是S和N。

在一些实施方案中，酮还原酶多肽可包括与SEQ ID NO：2或SEQ IDNO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，条件是(1)对应于残基94的残基是F、W、H或Y；(2)对应于残基96的残基是G、F、Y或I；或(3)对应于残基96的残基是G、I、C或芳族氨基酸。

在一些实施方案中，本发明的酮还原酶多肽可包括具有与SEQ IDNO：2或SEQ ID NO：4的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域，条件是(1)对应于SEQID NO：2或SEQ ID NO：4的对应残基的残基94的残基是芳族氨基酸残基或G，和/或(2)对应于SEQ ID NO：2或SEQ ID NO：4的对应残基的残基96的残基是S/N之外的氨基酸残基。在一些实施方案中，对应的残基位置96处的氨基酸残基不是S和N。在这些酮还原酶多肽的一些实施方案中，对应于SEQ ID NO：2或SEQ ID NO：4的残基90-233的剩余残基中的一个或多个可被保守地突变。

在一些实施方案中，酮还原酶多肽可包括具有与SEQ ID NO：2或SEQID NO：4的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域，条件是(1)对应于SEQ ID NO：2或SEQ ID NO：4的对应残基的残基94的残基是F、W、H或Y；(2)对应于SEQ ID NO：2或SEQ ID NO：4的对应残基的残基96的残基是G、F、Y或I；或(3)对应于SEQ ID NO：2或SEQ ID NO：4的对应残基的残基96的残基是G、I、C或芳族氨基酸。在这些酮还原酶多肽的一些实施方案中，对应于SEQ ID NO：2或SEQ ID NO：4的残基90-233的剩余残基中的一个或多个可被保守地突变。

在一些实施方案中，工程酮还原酶多肽选自表1列举的氨基酸序列。对比使用ADH-LK(SEQ ID NO：2)所测量的活性，表1排列了使用所列的工程酮还原酶多肽测量的将1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮还原或转化为产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇的酶活性的等级。

表1：

核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)
核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)	5	6	L17Q；A94F；S96Y；F147L；L153G；L199I	+++
7	8	G53D；S96G	+	5	6	L17Q；A94F；S96Y；F147L；L153G；L199I	+++
7	8	G53D；S96G	+	9	10	S96G	+
11	12	S96G；K109R	+	9	10	S96G	+
11	12	S96G；K109R	+	13	14	S96Y	+
15	16	A94F；S96P	+	13	14	S96Y	+
15	16	A94F；S96P	+	17	18	S96F	+
19	20	T54A；A94F；S96G；K109R；F147L；L153A；D233G	+++	17	18	S96F	+
19	20	T54A；A94F；S96G；K109R；F147L；L153A；D233G	+++	21	22	V43A；V60A；A94G；F147L	+++
23	24	V43A；F74L；S96I；F147L；L153G；L199K；I223V	+++	21	22	V43A；V60A；A94G；F147L	+++
23	24	V43A；F74L；S96I；F147L；L153G；L199K；I223V	+++	25	26	V43A；F74L；S96G；F147L；L153A；D197G；L199I；A202L	++

核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)
核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)	27	28	V43A；F74L；A94G；S96G；F147L；L153A；D197G；L199I；A202L；I223V	+++
29	30	V43A；F74L；A94G；S96Y；F147L；L153A；K211R；I223V	++	27	28	V43A；F74L；A94G；S96G；F147L；L153A；D197G；L199I；A202L；I223V	+++
29	30	V43A；F74L；A94G；S96Y；F147L；L153A；K211R；I223V	++	31	32	V43A；F74L；A94G；F147L；L199K；A202I	++
33	34	V43A；F74L；A94G；F147L；L199I；A202I；M206F；I223V	++	31	32	V43A；F74L；A94G；F147L；L199K；A202I	++
33	34	V43A；F74L；A94G；F147L；L199I；A202I；M206F；I223V	++	35	36	V43A；F74L；A94F；S96Y；L153A；I 165T	++
37	38	V43A；A94G；F147L	+++	35	36	V43A；F74L；A94F；S96Y；L153A；I 165T	++
37	38	V43A；A94G；F147L	+++	39	40	V43A；A94G；E106G；F147L；A202L	++
41	42	V43A；A94F；V95I；S96G；F147L；L153G；D197G；D233G	+++	39	40	V43A；A94G；E106G；F147L；A202L	++
41	42	V43A；A94F；V95I；S96G；F147L；L153G；D197G；D233G	+++	43	44	V43A；A94F；S96D；F147L；L153G；D197G；D233G	+++
45	46	V43A；A94F；S96G；F147L；L153G；D197G；L199Q；D233G	+++	43	44	V43A；A94F；S96D；F147L；L153G；D197G；D233G	+++
45	46	V43A；A94F；S96G；F147L；L153G；D197G；L199Q；D233G	+++	47	48	V43A；A94F；S96G；F147L；L153G；D197G；L199R；D233G	+++
49	50	V43A；A94F；S96G；F147L；L153G；D197G；D233G	++	47	48	V43A；A94F；S96G；F147L；L153G；D197G；L199R；D233G	+++
49	50	V43A；A94F；S96G；F147L；L153G；D197G；D233G	++	51	52	V43A；A94F；S96G；K97G；F147L；L153G；D197G；M205T；D233G	+++
53	54	V43A；A94F；S96Y；L153G；D197G；L199N；A202I；I223V	++	51	52	V43A；A94F；S96G；K97G；F147L；L153G；D197G；M205T；D233G	+++
53	54	V43A；A94F；S96Y；L153G；D197G；L199N；A202I；I223V	++	55	56	V43A；T54A；A94G；S96G；F147L；I223V	+++
57	58	F74L；A94G；S96G；F147L；L153A；A202I；M206F	++	55	56	V43A；T54A；A94G；S96G；F147L；I223V	+++

核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)
核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)	59	60	F74L；A94G；S96G；F147L；L153A；D197G；L199K	++
61	62	F74L；A94G；F147L；L199K；A202I	+++	59	60	F74L；A94G；S96G；F147L；L153A；D197G；L199K	++
61	62	F74L；A94G；F147L；L199K；A202I	+++	63	64	F74L；A94G；F147L；D197G；I223V	++
65	66	A94G；F 147L；L199I；A202I	++	63	64	F74L；A94G；F147L；D197G；I223V	++
65	66	A94G；F 147L；L199I；A202I	++	67	68	A94G；F147L；L199I；A202L；M206F；K211R	++
69	70	A94F；V95I；S96Y；F147L；L153G	+++	67	68	A94G；F147L；L199I；A202L；M206F；K211R	++
69	70	A94F；V95I；S96Y；F147L；L153G	+++	7	72	A94F；V95L；S96Y；F147L；L153G	+++
73	74	A94F；S96G；F147L；L153A；L199V；D233G	+++	7	72	A94F；V95L；S96Y；F147L；L153G	+++
73	74	A94F；S96G；F147L；L153A；L199V；D233G	+++	75	76	A94F；S96Y；L124Q；F147L；L153G	+++
77	78	A94F；S96Y；F147L；L153G	++	75	76	A94F；S96Y；L124Q；F147L；L153G	+++
77	78	A94F；S96Y；F147L；L153G	++	79	80	A94F；S96Y；K109R；F147L；L153A；D233G	+++
81	82	A94F；S96F；K109R；F147L；L153A；D233G	+++	79	80	A94F；S96Y；K109R；F147L；L153A；D233G	+++
81	82	A94F；S96F；K109R；F147L；L153A；D233G	+++	83	84	T77A；A94F；S96Y；F147L；L153G；L199W	+++
85	86	T54A；A94F；S96G；F147L；L153A；D233G	+++	83	84	T77A；A94F；S96Y；F147L；L153G；L199W	+++
85	86	T54A；A94F；S96G；F147L；L153A；D233G	+++	87	88	T54A；A94F；S96G；F147L；L153A；L199V；D233G	+++
89	90	T54A；A94F；S96Y；F147L；L153A；D233G	+++	87	88	T54A；A94F；S96G；F147L；L153A；L199V；D233G	+++
89	90	T54A；A94F；S96Y；F147L；L153A；D233G	+++	91	92	T54A；A94F；S96Y；F147L；L153G；D233G	+++
93	94	T54A；A94F；S96Y；K109R；F147L；L153A；L199I；D233G；	+++	91	92	T54A；A94F；S96Y；F147L；L153G；D233G	+++
93	94	T54A；A94F；S96Y；K109R；F147L；L153A；L199I；D233G；	+++	95	96	T54A；A94F；S96Y；K109R；F147L；L153A；L199R	+++
97	98	T54A；A94F；S96Y；K109R；F147L；L153A；D233G	+++	95	96	T54A；A94F；S96Y；K109R；F147L；L153A；L199R	+++

核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)
核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)的突变	活性等级(参见图例)	99	100	T54A；A94F；K109R；F147L；L153A；D233G	+++
101	102	T54A；A94F；K109R；F147L；L153A；L199K；N221D；D233G	+++	99	100	T54A；A94F；K109R；F147L；L153A；D233G	+++
101	102	T54A；A94F；K109R；F147L；L153A；L199K；N221D；D233G	+++	103	104	T54A；A94F；S96F；K109R；F147L；L153A；D233G	+++
105	106	K49R；A94G；F147L；D197G；A202G	++	103	104	T54A；A94F；S96F；K109R；F147L；L153A；D233G	+++
105	106	K49R；A94G；F147L；D197G；A202G	++	107	108	V43A；F74L；A94F；S96Y；L153G	++
109	110	T54A；A94F；S96G；K109R；F147L；L153A；L199K；D233G	+++	107	108	V43A；F74L；A94F；S96Y；L153G	++
109	110	T54A；A94F；S96G；K109R；F147L；L153A；L199K；D233G	+++	111	112	I11V；A94F	+
113	114	A94G	+	111	112	I11V；A94F	+

¹活性等级：+与ADH-LK对比提高活性多达20倍。++与ADH-LK对比提高活性21至80倍。+++与ADH-LK对比提高活性超过80倍。

在一些实施方案中，工程酮还原酶选自表2列举的氨基酸序列。对比使用ADH-LK(SEQ ID NO：2)所测量的活性，表2排列了使用所列的衍生于ADH-LK的工程酮还原酶多肽测量的将乙酰苯还原或转化为(R)-1-苯基乙醇的酶活性的等级。

表2

核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)或ADH-LB(SEQ ID NO：4)的突变	活性等级¹(参见图例)
核酸SEQ ID NO.	多肽SEQ ID NO.	从ADH-LK(SEQ ID NO：2)或ADH-LB(SEQ ID NO：4)的突变	活性等级¹(参见图例)	115	116	ADH-LB：A96G
117	118	ADH-LB：N96F		115	116	ADH-LB：A96G
117	118	ADH-LB：N96F		119	120	ADH-LK：S96F	+++
121	122	ADH-LK：S96G；F147L；L199N	+++	119	120	ADH-LK：S96F	+++

123	124	ADH-LK：S96F；F147L	+++
123	124	ADH-LK：S96F；F147L	+++	125	126	ADH-LK：S96Y；F147L	+++
127	128	ADH-LK：S96I	+++	125	126	ADH-LK：S96Y；F147L	+++
127	128	ADH-LK：S96I	+++	129	130	ADH-LK：A94H	++
131	132	ADH-LK：S96C	++	129	130	ADH-LK：A94H	++
131	132	ADH-LK：S96C	++	133	134	ADH-LK：S96W	++
135	136	ADH-LK：S96I；F147L	+++	133	134	ADH-LK：S96W	++
135	136	ADH-LK：S96I；F147L	+++	137	138	ADH-LK：A94S；F147L	+++

¹活性等级：在实施例16的方法中，乙酰苯转化为(R)1-苯基乙醇：+＜70％转化；++70-90％转化；+++＞90％转化。

在一些实施方案中，酮还原酶多肽包括与SEQ ID NO：2或SEQ IDNO：4具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列，其中氨基酸序列包含表1或表2中所列的多肽序列的任何一个中所含的一套突变中的任何一个。在一些实施方案中，酮还原酶多肽包含在表1或表2的指定残基位置处的一套氨基酸残基中的任何一个，并且它与对应序列在约1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-16、1-18、1-20或1-25个氨基酸位置上不同。在一些实施方案中，酮还原酶多肽包含表1或表2所列的一组突变中的任何一个，并且在其他残基处另外地包含约1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-16、1-18、1-20或1-25个保守取代。因此，在一些实施方案中，与表1或表2中的氨基酸序列对比，酮还原酶多肽可在1、2、3、4、5、6、7、8、9、10、11、12、14、16、18、20或25个氨基酸位置上不同。

在一些实施方案中，酮还原酶多肽可包括具有与SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116或118的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域。在一些实施方案中，酮还原酶多肽可包括具有与SEQ ID NO：120、122、124、126、128、130、132、134、136或138的区域或其结构域(诸如残基90-233)具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性的氨基酸序列的区域。

在一些实施方案中，酮还原酶多肽选自SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116和118。在一些实施方案中，酮还原酶多肽选自SEQ ID NO：120、122、124、126、128、130、132、134、136和138。

在一些实施方案中，如果酮还原酶多肽包括在对应于SEQ ID NO：2或SEQ ID NO：4的残基94的残基处具有芳族酸(aromatic acid)或G的氨基酸序列，则酮还原酶多肽可选自SEQ ID NO：6、16、20、22、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116和128的氨基酸序列。

在一些实施方案中，如果酮还原酶多肽包括在对应于SEQ ID NO：2或SEQ ID NO：4的残基96的残基处具有S/N之外的氨基酸的氨基酸序列，则酮还原酶多肽可选自SEQ ID NO：6、8、10、12、14、16、18、20、24、26、28、30、36、42、44、46、48、50、52、54、56、58、60、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、104、108、110、118、120、122、124、126、128、132、134和136的氨基酸序列。

在一些实施方案中，可缺失酮还原酶多肽的区段以产生多肽片段。如本文所用，术语“片段”指具有氨基末端和/或羧基末端缺失，但其中剩余氨基酸序列与序列中的对应位置相同的多肽。片段可以是至少14个氨基酸长、至少20个氨基酸长、至少50个氨基酸长或更长。在一些实施方案中，片段多达以上全长重组酮还原酶多肽的70％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％，包括SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116和118的酮还原酶多肽的片段。在一些实施方案中，片段多达以上全长重组酮还原酶多肽的70％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％，包括SEQ ID NO：120、122、124、126、128、130、132、134、136和138的酮还原酶多肽的片段。

改善的酮还原酶可存在于细胞中、存在于细胞培养基中，或制备成不同的形式，诸如溶解产物或分离的制品。同样地，在一些实施方案中，改善的酮还原酶可以是分离的多肽。术语“分离的多肽”指与天然伴随多肽的其他杂质(如蛋白质、脂质和多核苷酸)大致分离的多肽。该术语包括已经从多肽的天然存在的环境或表达系统(例如宿主细胞或体外合成)中移出或纯化的多肽。

在一些实施方案中，分离的改善的酮还原酶多肽是大致纯的多肽组合物。术语“大致纯的多肽”指一种组合物，其中多肽物类是存在的主要物类(即根据摩尔或重量，它比组合物中的任何其他单个大分子物类更丰富)，并且当目标物类以摩尔或％重量计包括存在的大分子物类的至少约50％时，该组合物一般是大致纯化的组合物。一般来说，大致纯的酮还原酶组合物按摩尔或％重量计，将包括存在于组合物中的所有大分子物类的约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多和约98％或更多。在一些实施方案中，将目标物类纯化为基本同质(即在组合物中通过常规检测方法不能检测到杂质物类)，其中该组合物主要由单一大分子物类组成。溶剂物类、小分子(＜500道尔顿)和元素离子物类不认为是大分子物类。

6.3编码工程酮还原酶的多核苷酸

在另一个方面中，本公开提供编码工程酮还原酶多肽的多核苷酸。多核苷酸可以可操作地连接到控制基因表达的一个或多个异源调节或控制序列以产生能够表达该多肽的重组多核苷酸。含有编码工程酮还原酶的异源多核苷酸的表达构建体可导入合适的宿主细胞以表达对应酮还原酶。

由于对对应于不同氨基酸的密码子的了解，多肽序列的可用性提供对能够编码主题多肽的所有多核苷酸的描述。遗传密码的简并性(其中相同氨基酸由可选的或同义密码子编码)允许制备极大量的核酸，它们所有均编码本文公开的改善的酮还原酶。因此，已经鉴别了特定的氨基酸序列后，本领域技术人员能够通过以不改变蛋白质的氨基酸序列的方式简单地修饰序列的一个或多个密码子，来制备任何数量的不同核酸。在这方面，本公开特别涵盖了多核苷酸的各种和每个可能的变化，这可通过根据可能的密码子选择挑选组合来制备，并且所有这些变化被认为是为本文公开的任何多肽所特别公开的，包括表1和表2中提供的氨基酸序列。同样地，本公开的多核苷酸包括编码SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136或138的酮还原酶多肽的任何和所有可能的多核苷酸序列。

在一些实施方案中，编码酮还原酶的多核苷酸可为了从选择用于表达的宿主生物体中最佳生产而进行密码子优化。例如，用于细菌的优选密码子用于表达细菌中的基因；用于酵母中的优选密码子用于在酵母中表达；且用于哺乳动物的优选密码子用于在哺乳动物细胞中表达。例如，SEQ IDNO：1的多核苷酸为在大肠杆菌(E.coli)中表达而进行了密码子优化，但是另外编码天然存在的克菲尔乳杆菌的酮还原酶。

在一些实施方案中，不是所有的密码子需要被取代来优化酮还原酶的密码子使用，这是因为天然序列将包括优选的密码子并且由于优选的密码子的使用可能不是所有氨基酸残基所需要的。结果，编码酮还原酶的密码子优化的多核苷酸在全长编码区的约40％、50％、60％、70％、80％或超过90％的密码子位置可包含优选密码子。

在一些实施方案中，编码工程酮还原酶的多核苷酸选自SEQ ID NO：5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115和117。在一些实施方案中，编码工程酮还原酶的多核苷酸选自SEQ ID NO：119、121、123、125、127、129、131、133、135和137。

这些多核苷酸编码由表1和表2列出的氨基酸序列所代表的对应多肽，它们是通过使大肠杆菌密码子优化的克菲尔乳杆菌基因经受本文描述的定向基因进化技术来衍生的。

在一些实施方案中，多核苷酸包括编码本文描述的多肽的多核苷酸，但是它在核苷酸水平上与编码工程酮还原酶的参考多核苷酸具有约80％或更高的序列同一性、约85％或更高的序列同一性、约90％或更高的序列同一性、约91％或更高的序列同一性、约92％或更高的序列同一性、约93％或更高的序列同一性、约94％或更高的序列同一性、约95％或更高的序列同一性、约96％或更高的序列同一性、约97％或更高的序列同一性、约98％或更高的序列同一性或约99％或更高的序列同一性。在一些实施方案中，参考多核苷酸选自SEQ ID NO：5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115和117的多核苷酸序列。在一些实施方案中，参考多核苷酸选自SEQ ID NO：119、121、123、125、127、129、131、133、135和137的序列。

在一些实施方案中，该多核苷酸编码本文公开的多肽，并且在定义的条件(诸如适度严格或高度严格条件)下杂交于编码本公开的工程酮还原酶的序列的互补序列。同样地，在一些实施方案中，编码酮还原酶多肽的多核苷酸包括在高度严格条件下杂交于选自以下的多核苷酸的多核苷酸：SEQ ID NO：5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115和117。在一些实施方案中，编码酮还原酶多肽的多核苷酸包括在高度严格条件下杂交于选自以下的多核苷酸的多核苷酸：SEQ ID NO：119、121、123、125、127、129、131、133、135和137。

编码改善的酮还原酶多肽的分离的多核苷酸可以多种方式处理以提供多肽的表达。根据表达载体，在将分离的多核苷酸插入载体前，对其处理可能是需要的或必需的。利用重组DNA方法修饰多核苷酸和核酸序列的技术在本领域中是公知的。指导提供于Sambrook等人，2001，MolecularCloning：A Laboratory Manual(分子克隆：实验室手册)，第3版，Cold SpringHarbor Laboratory Press；和Current Protocols in Molecular Biology(最新分子生物学实验方法汇编)，Ausubel.F编，Greene Pub.Associates，1998，更新至2006。

在一些实施方案中，控制序列可能是合适的启动子序列，它可从编码同源或异源于宿主细胞的细胞外或细胞内多肽的基因获得。对于细菌宿主细胞，用于指导本公开的核酸构建体的转录的合适启动子包括从以下获得的启动子：大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因及原核β-内酰胺酶基因(Villa-Kamaroff等人，1978，Proc.Natl Acad.Sci.USA 75：3727-3731)，以及tac启动子(DeBoer等人，1983，Proc.NatlAcad.Sci.USA 80：21-25)。此外，启动子描述于“Useful proteins fromrecombinant bacteria(来自重组细菌的有用蛋白质)”，Scientific American，1980，242：74-94；以及Sambrook等人，见上。

对于丝状真菌宿主细胞，用于指导本公开的核酸构建体的转录的合适启动子包括从以下的基因获得的启动子：米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillusnidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(WO 96/00787)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)及其突变体、截短和杂合启动子。

在酵母宿主中，有用的启动子可来自酿酒酵母(Saccharomycescerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)和酿酒酵母3-磷酸甘油酸激酶的基因。用于酵母宿主细胞的其他有用启动子描述于Romanos等人，1992，Yeast 8：423-488。

在一些实施方案中，控制序列还可以是合适的转录终止子序列——一种由宿主细胞识别以终止转录的序列。终止子序列可操作地连接于编码多肽的核酸序列的3′末端。在选择的宿主细胞中起作用的任何终止子可用于本发明。

例如，用于丝状真菌宿主细胞的示例性转录终止子可从米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合成酶、黑曲霉α-葡糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶的基因获得。

用于酵母宿主细胞的示例性终止子可从酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因获得。用于酵母宿主细胞的其他有用终止子描述于Romanos等人，1992，同上。

在一些实施方案中，控制序列还可以是合适的前导区序列——一种对宿主细胞的翻译重要的mRNA的非翻译区。该前导区序列可操作地连接于编码多肽的核酸序列的5′末端。可使用在选择的宿主细胞中起作用的任何前导区序列。用于丝状真菌宿主细胞的示例性前导区是从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因获得。用于酵母宿主细胞的合适前导区是从酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因获得。

在一些实施方案中，控制序列还可以是聚腺苷酸化序列——一种可操作地连接于核酸序列的3′末端并且当转录时被宿主细胞识别为向转录的mRNA添加聚腺苷残基的信号的序列。在选择的宿主细胞中起作用的任何聚腺苷酸化序列可用于本发明。用于丝状真菌宿主细胞的示例性聚腺苷酸化序列可来自米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合成酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶的基因。对酵母宿主细胞有用的聚腺苷酸化序列描述于Guo和Sherman，1995，MolCell Bio 15：5983-5990。

在一些实施方案中，控制序列还可以是信号肽编码区，其编码连接于多肽的氨基末端的氨基酸序列，并且指导编码多肽进入细胞分泌途径。核酸序列的编码序列的5′末端本身可含有按翻译阅读框天然连接于编码分泌的多肽的编码区的区段的信号肽编码区。可选地，编码序列的5′末端可含有外源于编码序列的信号肽编码区。如果编码序列不是天然含有信号肽编码区，则可能需要外源信号肽编码区。

可选地，外源信号肽编码区可简单地代替天然信号肽编码区，从而增强多肽的分泌。然而，指导表达的多肽进入选择的宿主细胞的分泌途径的任何信号肽编码区可用于本发明。

用于细菌宿主细胞的有效的信号肽编码区是从以下的基因获得的信号肽编码区：芽孢杆菌(Bacillus)NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。另外的信号肽描述于Simonen和Palva，1993，Microbiol Rev 57：109-137。

用于丝状真菌宿主细胞的有效的信号肽编码区可以是从以下的基因获得的信号肽编码区：米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和柔毛腐质霉(Humicola lanuginosa)脂肪酶。

对酵母宿主细胞有用的信号肽可来自酿酒酵母α-因子和酿酒酵母转化酶的基因。其他有用的信号肽编码区描述于Romanos等人，1992，同上。

在一些实施方案中，控制序列还可以是前肽编码区，它编码位于多肽的氨基末端的氨基酸序列。产生的多肽称为酶原(proenzyme)或多肽原(或在一些情况下称为酶原(zymogen))。多肽原通常无活性，并且可通过从多肽原催化或自身催化切割前肽而转化为成熟的活性多肽。前肽编码区可从以下的基因获得：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶(WO 95/33836)。

如果信号肽和前肽区都存在于多肽的氨基末端，则前肽区位于多肽氨基末端的相邻位置，且信号肽区位于前肽区的氨基末端的相邻位置。

还可期望添加调节序列，其允许相对宿主细胞生长调节多肽的表达。调节系统的实例是引起响应化学或物理刺激(包括调节化合物的存在)而打开或关闭基因的表达的调节系统。在原核宿主细胞中，合适的调节序列包括lac、tac和trp操纵基因系统。在酵母宿主细胞中，合适的调节系统包括，例如ADH2系统或GAL1系统。在丝状真菌中，合适的调节序列包括TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子和米曲霉葡糖淀粉酶启动子。

调节或控制序列的其他实例是允许基因扩增的调节或控制序列。在真核系统中，这些包括在氨甲蝶呤存在时扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的KRED多肽的核酸序列将与控制序列可操作地连接。

因此，在另一个方面中，本公开还涉及重组表达载体，根据它们所导入的宿主的类型，其包括编码工程酮还原酶多肽或其变体的多核苷酸，和一个或多个表达调节区(诸如启动子和终止子)、复制起点等等。以上描述的各种核酸和控制序列可连接到一起以产生重组表达载体，其可包括一个或多个方便的限制位点以使得编码多肽的核酸序列在该位点插入或取代。可选地，可通过将核酸序列或包含该序列的核酸构建体插入到用于表达的合适载体来表达本公开的核酸序列。在产生表达载体中，编码序列位于载体中，以使编码序列可操作地连接于用于表达的合适控制序列。

重组表达载体可以是可方便地经受重组DNA过程并可使多核苷酸序列表达的任何载体(例如质粒或病毒)。载体的选择将通常依赖于载体与该载体所导入的宿主细胞的相容性。载体可以是直线的或封闭环状质粒。

表达载体可以是自主复制载体，即作为染色体外实体存在的载体，其复制独立于染色体复制，该载体例如质粒、染色体外元件、微型染色体或人工染色体。该载体可包括确保自身复制的任何部件(means)。可选地，该载体可以是当导入宿主细胞时整合于基因组并与其所整合的染色体一起复制的载体。此外，可使用单个载体或质粒，或一起含有被导入到宿主细胞的基因组的总DNA的两个或更多个载体或质粒，或转座子。

本发明的表达载体优选含有一个或多个选择标记基因，其允许易于选择转化细胞。选择标记基因是一种基因，其产物提供杀生物剂或病毒抗性、对重金属的抗性、营养缺陷型的原养型，以及类似性质。细菌选择标记基因的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素抗性，诸如氨比西林、卡那霉素、氯霉素(实施例1)或四环素抗性的标记基因。适合于酵母宿主细胞的标记基因是ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。

在丝状真菌宿主细胞中使用的选择标记基因包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰转移酶)、bar(膦丝菌素乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶(sulfate adenyltransferase))和trpC(邻氨基苯甲酸合成酶)，以及其等同物。在曲霉菌细胞中使用的实施方案包括构巢曲霉或米曲霉的amdS和pyrG基因，以及吸水链霉菌(Streptomyceshygroscopicus)的bar基因。

本发明的表达载体优选地包含允许该载体整合到宿主细胞的基因组或允许载体在细胞中独立于基因组自主复制的元件。对于整合到宿主细胞基因组，该载体可依靠编码多肽的核酸序列或载体的任何其他元件，从而通过同源或非同源重组将载体整合到基因组。

可选地，表达载体可包含用于指导通过同源重组整合到宿主细胞的基因组的另外的核酸序列。该另外的核酸序列能够使载体在染色体的精确位置整合到宿主细胞基因组。为了增加在精确位置整合的可能性，该整合元件应该优选地包含足够数量的与对应靶序列高度同源的核酸，诸如100至10,000个碱基对、优选400至10,000个碱基对和最优选800至10,000个碱基对以增加同源重组的可能性。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码或编码的核酸序列。另一方面，载体可通过非同源重组整合到宿主细胞的基因组。

对于自主复制，载体可进一步包括能够使载体在相关的宿主细胞中自主复制的复制起点。细菌复制起点的实例是P15A ori(如在图5的质粒中所示)，或允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYC177(该质粒具有P15Aori)或pACYC184的复制起点，和允许在芽孢杆菌中复制的pUB110、pE194、pTA1060或pAM.β.l的复制起点。在酵母宿主细胞中使用的复制起点的实例是2微米的复制起点ARS1、ARS4，ARS1和CEN3的组合以及ARS4和CEN6的组合。复制起点可以是具有使之在宿主细胞中的功能温度敏感的突变的复制起点(参见例如Ehrlich，1978，Proc NatlAcad Sci.USA 75：1433)。

可将本发明的核酸序列的多于一个拷贝插入到宿主细胞以增加基因产物的生产。可通过将序列的至少一个另外的拷贝整合到宿主细胞基因组中，或通过随核酸序列包含可扩增的选择标记基因(如果细胞包含选择标记基因的扩增拷贝，则核酸序列的另外拷贝可通过在存在合适的选择剂下培养细胞来筛选)来获得核酸序列的拷贝数量的增加。

用于本发明中的表达载体中的许多是商业上可获得的。合适的商业表达载体包括来自Sigma-Aldrich Chemicals，St.Louis MO.的p3xFLAGTM^TM表达载体，它包括用于在哺乳动物宿主细胞中表达的CMV启动子和hGH聚腺苷酸化位点，以及用于在大肠杆菌中扩增的pBR322复制起点和氨比西林抗性标记基因。其他合适的表达载体是可从Stratagene，LaJolla CA商业获得的pBluescriptII和pBK-CMV，以及从pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly衍生的质粒(Lathe等人，1987，Gene 57：193-201)。

6.4用于表达酮还原酶多肽的宿主细胞

在另一个方面中，本公开提供包含编码本公开的改善的酮还原酶多肽的多核苷酸的宿主细胞，该多核苷酸可操作地连接于在宿主细胞中用于表达酮还原酶的一个或多个控制序列。用于表达由本发明的表达载体编码的酮还原酶多肽的宿主细胞在本领域中是公知的，并且包括但不限于细菌细胞，诸如大肠杆菌、克菲尔乳杆菌、短乳杆菌、链霉菌(Streptomyces)和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞；真菌细胞，诸如酵母细胞(例如酿酒酵母或毕赤酵母(Pichia pastoris)(ATCC登录号201178))；昆虫细胞，诸如果蝇S2和灰翅夜蛾Sf9(Spodoptera Sf9)细胞；动物细胞，诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞；以及植物细胞。以上描述的宿主细胞的合适的培养基和生长条件在本领域中是公知的。

通过本领域中所知的各种方法可将用于表达酮还原酶的多核苷酸导入细胞。技术包括电穿孔、生物射弹粒子轰击(biolistic particlebombardment)、脂质体介导的转染、氯化钙转染和原生质体融合以及其他技术。用于将多核苷酸导入细胞的各种方法对本领域技术人员将是明显的。

示例性宿主细胞是大肠杆菌(Escherichia coli)W3110。通过将编码改善的酮还原酶的多核苷酸可操作地连接到质粒pCK110900，进而可操作地连接于由lacI阻抑蛋白控制的lac启动子来产生表达载体。表达载体还包含P15a复制起点和氯霉素抗性基因。大肠杆菌W3110中含有主题多核苷酸的细胞通过使细胞经受氯霉素选择来分离。

6.5产生工程酮还原酶多肽的方法

为了制备本公开的改善的酮还原酶多核苷酸和多肽，从克菲尔乳杆菌或短乳杆菌获得催化还原反应的天然存在的酮还原酶。在一些实施方案中，对母体多核苷酸序列进行了密码子优化以增强特定宿主细胞中酮还原酶的表达。作为示例，从根据Genbank数据库中可获得的克菲尔乳杆菌KRED序列的已知多肽序列(Genbank登录号AAP94029GI：33112056)制备的寡核苷酸构建编码野生型克菲尔乳杆菌的酮还原酶多肽的母体多核苷酸序列。将母体多核苷酸序列(称为SEQ ID NO：1)密码子优化以在大肠杆菌中表达，并且将密码子优化的多核苷酸克隆于表达载体，将酮还原酶基因的表达置于lac启动子和lacI阻抑蛋白基因的控制之下。鉴别在大肠杆菌中表达活性酮还原酶的克隆，并且测序基因以确定它们的同一性。指定的序列(SEQ ID NO：1)是用作从克菲尔乳杆菌酮还原酶进化的工程酮还原酶的所有实验和文库构建的起始点的母体序列。

如前所述，通过使编码天然存在的酮还原酶的多核苷酸经受诱变和/或定向进化方法可获得工程酮还原酶。示例性定向进化技术是诱变和/或DNA改组，参见Stemmer，1994，Proc NatlAcad Sci USA 91：10747-10751；WO 95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767和美国专利6,537,746。除了别的以外，可用的其他定向进化程序包括交叉延伸过程(staggered extension process)(StEP)、体外重组(Zhao等人，1998，Nat.Biotechnol.16：258-261)、诱变PCR(Caldwell等人，1994，PCR Methods Appl.3：S136-S140)和盒式诱变(Black等人，1996，Proc NatlAcad Sci USA 93：3525-3529)。

从诱变处理后获得的克隆中筛选具有所需改善的酶性质的工程酮还原酶。由于NADH或NADPH转化为NAD⁺或NADP⁺，因此使用监测NADH或NADPH浓度的减少速率(经由吸光度或荧光的减少)的标准生物化学技术可对来自表达文库的酶活性进行测量。在这一反应中，当酮还原酶将酮底物还原为对应的羟基时，酮还原酶消耗(氧化)了NADH或NADPH。如通过吸光度或荧光的减少所测，每单位时间NADH或NADPH浓度的减少速率表明在固定量的溶解产物(或由此制备的冻干粉末)中酮还原酶多肽的相对(酶促)活性。如果所需的改善的酶性质是热稳定性，则可在酶制品经受确定的温度并测量热处理后剩余的酶活性的量之后来测量酶活性。然后分离含有编码酮还原酶的多核苷酸的克隆，并对其测序以鉴别核苷酸序列的变化(如果有)，并将其用于在宿主细胞中表达酶。

根据已知的合成方法，如果知道工程多肽的序列，则编码酶的多核苷酸可通过标准固相方法制备。在一些实施方案中，多达约100个碱基的片段可被单独地合成，然后连接(例如通过酶促或化学连接(litigation)方法，或聚合酶介导的方法)以形成任何所需的连续序列。例如，本发明的多核苷酸和寡核苷酸可通过化学合成来制备，其使用例如Beaucage等人，1981，Tet Lett 22：1859-69中描述的经典亚磷酰胺方法，或Matthes等人，1984，EMBO J.3：801-05中描述的方法，例如，如其通常在自动化合成方法中所实践的。根据亚磷酰胺方法，寡核苷酸被合成(例如在自动DNA合成仪中)、纯化、退火、连接并克隆于合适的载体中。此外，基本上任何核酸可从各种商业来源中任何一个来获得，所述商业来源诸如TheMidland Certified Reagent Company，Midland，TX、The Great American GeneCompany，Ramona，CA、ExpressGen Inc.Chicago，IL、Operon TechnologiesInc.，Alameda，CA以及许多其他的公司。

在宿主细胞中表达的工程酮还原酶可从细胞和/或培养基回收，其使用了蛋白质纯化公知技术中的任何一种或多种，包括溶菌酶处理、超声、过滤、盐析、超速离心和色谱以及其他方法。用于从细菌(诸如大肠杆菌)中溶解和高效提取蛋白质的合适溶液是以St.Louis MO的Sigma-Aldrich的商标名CelLytic B^TM市售的。

用于分离酮还原酶多肽的色谱技术包括反相色谱高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱以及其他技术。用于纯化特定酶的条件将部分依赖于诸如净电荷、疏水性、亲水性、分子量、分子形状等因素，并将对本领域技术人员是明显的。

在一些实施方案中，亲和技术可用于分离改善的酮还原酶。对于亲和色谱纯化，可使用特异性结合酮还原酶多肽的任何抗体。为了产生抗体，各种宿主动物，包括但不限于兔、小鼠、大鼠等等，可通过用化合物注射来免疫。该化合物可通过侧链官能团或连接到侧链官能团的连接体连接于合适的载体，诸如BSA。根据宿主物种，可使用各种佐剂以增加免疫应答，佐剂包括但不限于弗氏佐剂(完全和不完全)、矿物凝胶(诸如氢氧化铝)、表面活性物质(诸如溶血卵磷脂)、普卢兰尼克多元醇类(pluronic polyol)、聚阴离子、肽、油乳剂、匙孔血蓝蛋白、二硝基苯酚和可能有用的人类佐剂，诸如BCG(卡介苗)和短小棒状杆菌(Corynebacterium parvum)。

6.6使用工程酮还原酶和由其制备的化合物的方法

本文描述的酮还原酶可将如式(I)的结构所代表的底物1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮

催化还原为如式(II)的结构所代表的手性醇产物(R)-1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇

以上化合物用于合成蛋白质激酶抑制剂，并且被包含于一类化合物中，这类化合物描述于美国申请第US 2006/0004007、US 2006/0128709；US 2006/0257400；US20060264438和US20060286646(所有出版物在此通过引用并入)号中。因此，具有所需酮基的该类的其他化合物可用作本文公开的酮还原酶的底物。

在不同的实施方案中，方法可包括用本公开的酮还原酶在适合于将底物转化为结构式(II)的化合物的反应条件下与式(I)的化合物接触或混合。示例性反应条件描述于实施例中。其他合适的反应条件对本领域技术人员将是明显的。可用于该方法的示例性酮还原酶多肽包括但不限于SEQID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116和118。

在一些实施方案中，本文描述的酮还原酶多肽能够将如结构式(III)代表的底物乙酰苯

转化为由结构式(IV)代表的对应手性醇产物(R)-1-苯基乙醇

在不同的实施方案中，方法可包括用本公开的酮还原酶在适合于将底物转化为结构式(IV)的化合物的反应条件下与式(III)的化合物接触或混合。示例性反应条件描述于实施例(参见例如实施例15)中。其他合适的反应条件对本领域技术人员将是明显的。可用于该方法的示例性酮还原酶多肽包括但不限于SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136或138。在一些实施方案中，可用于将乙酰苯还原或转化为(R)1-苯基乙醇的酮还原酶多肽选自SEQ ID NO：120、122、124、126、128、130、132、134、136或138的多肽。

在一些实施方案中，产生的产物以特定的立体异构体(即化合物(II)或化合物(IV))富集。如本文所用，当存在的特定的立体异构体超过存在于化合物中的任何其他立体异构体时，化合物以该特定的立体异构体“富集”。以特定的立体异构体富集的化合物通常将包括至少约60％或更多、70％或更多、80％或更多、90％或更多、95％或更多、96％或更多、97％或更多、98％或更多、99％或更多或99.5％或更多的指定的立体异构体。使用本领域技术人员常规使用的常规分析方法，可确定特定立体异构体的富集的量。

在一些实施方案中，不需要的立体异构体的量可以少于10％，例如少于9％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％、少于1％或甚至少于0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.2％或0.1％。含有至少约99.5％或更多所需的立体异构体的立体异构体富集的化合物本文称为“大致纯的”立体异构体。在一些实施方案中，以特定立体异构体大致纯的化合物含有超过99.0％、99.2％、99.4％、99.6％、99.8％或甚至更高的纯度。含有≥99.9％的所需立体异构体的立体异构体富集的化合物本文称为“纯的”立体异构体。

如本领域技术人员所知，酮还原酶催化的还原反应通常需要辅因子。由本文描述的工程酮还原酶催化的还原反应通常也需要辅因子，尽管工程酮还原酶的许多实施方案需要的辅因子远少于用野生型酮还原酶催化的反应。如本文所用，术语“辅因子”指与酮还原酶组合起作用的非蛋白质化合物。适合与本文描述的工程酮还原酶一起使用的辅因子包括但不限于NADP⁺(烟酰胺腺嘌呤二核苷酸磷酸)、NADPH(NADP⁺的还原形式)、NAD⁺(烟酰胺腺嘌呤二核苷酸)和NADH(NAD⁺的还原形式)。一般来说，将还原形式的辅因子添加到反应混合物。还原型NAD(P)H形式可使用辅因子再生系统从氧化型NAD(P)⁺形式任选地再生。

可使用的合适的示例性辅因子再生系统包括但不限于葡萄糖和葡糖脱氢酶、甲酸盐和甲酸脱氢酶、葡糖-6-磷酸和葡糖-6-磷酸脱氢酶、仲醇(例如异丙醇)和仲醇脱氢酶、亚磷酸酯和亚磷酸脱氢酶、分子氢和氢化酶，以及类似系统。这些系统可与作为辅因子的NADP⁺/NADPH或NAD⁺/NADH组合使用。使用氢化酶的电化学再生也可用作辅因子再生系统。参见，例如美国专利第5,538,867和6,495,023号，它们两者通过引用在此并入。包含金属催化剂和还原剂(例如，分子氢或甲酸盐)的化学辅因子再生系统也是合适的。参见例如PCT公布WO 2000/053731，其通过引用在此并入。

本文中，术语“葡糖脱氢酶”和“GDH”可互换使用以指NAD⁺或NADP⁺依赖性酶，它们分别催化D-葡萄糖和NAD⁺或NADP⁺转化为葡糖酸和NADH或NADPH。以下反应式(1)描述葡糖脱氢酶催化的葡萄糖对NAD⁺或NADP⁺的还原。

适合用于本文描述的方法的实践的葡糖脱氢酶包括天然存在的葡糖脱氢酶以及非天然存在的葡糖脱氢酶。天然存在的葡糖脱氢酶编码基因已经在文献中报道。例如枯草芽孢杆菌61297GDH基因在大肠杆菌中被表达，并且已经报道它表现出与其固有宿主中产生的酶相同的物理化学性质(Vasantha等人，1983，Proc.Natl.Acad.Sci.USA 80：785)。对应于Genbank登录号M12276的枯草芽孢杆菌GDH基因的基因序列由Lampel等人，1986，J.Bacteriol.166：238-243报道，并且由Yamane等人，1996，Microbiology 142：3047-3056报道其修正形式为Genbank登录号D50453。天然存在的GDH基因还包括编码来自蜡状芽孢杆菌(B.cereus)ATCC14579(Nature，2003，423：87-91；Genbank登录号AE017013)和巨大芽孢杆菌(B.megatertum)(Eur.J.Biochem.，1988，174：485-490，Genbank登录号X12370；J.Ferment.Bioeng.，1990，70：363-369，Genbank登录号GI216270)的GDH的基因。来自芽孢杆菌(Bacillus sp.)的葡糖脱氢酶在PCT公布WO 2005/018579中提供为SEQ ID NO：10和12(分别由对应于PCT公布的SEQ ID NO：9和11的多核苷酸序列编码)，其公开通过引用在此并入。

非天然存在的葡糖脱氢酶可使用已知的方法诸如，例如，诱变、定向进化以及类似方法制备。具有合适活性的GDH酶，不论是天然存在的还是非天然存在的，可使用PCT公布WO 2005/018579的实施例4中描述的测定来容易地鉴别，所述专利的公开通过引用在此并入。示例性非天然存在的葡糖脱氢酶在PCT公布WO 2005/018579中提供为SEQ ID NO：62、64、66、68、122、124和126。编码它们的多核苷酸序列在PCT公布WO2005/018579中分别提供为SEQ ID NO：61、63、65、67、121、123和125。所有这些序列通过引用在此并入。适合于在本文公开的酮还原酶催化的还原反应中使用的另外的非天然存在的葡糖脱氢酶在美国申请公布第2005/0095619和2005/0153417号中提供，其公开通过引用在此并入。

在本文描述的酮还原酶催化的还原反应中使用的葡糖脱氢酶在PCT公布WO 2005/018579的实施例4中描述的测定中可表现出至少约10μmol/min/mg，并且有时为至少约10²μmol/min/mg或约10³μmol/min/mg、多达约10⁴μmol/min/mg或更高的活性。

本文描述的酮还原酶催化的还原反应一般在溶剂中进行。合适的溶剂包括水、有机溶剂(例如乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔丁基醚(MTBE)、甲苯以及类似溶剂)和离子液体(例如1-乙基4-甲基咪唑鎓四氟硼酸盐、1-丁基-3-甲基咪唑鎓四氟硼酸盐、1-丁基-3-甲基咪唑鎓六氟磷酸盐以及类似离子液体)。在一些实施方案中，使用水性溶剂，包括水和水性共溶剂系统。

示例性水性共溶剂系统具有水和一种或多种有机溶剂。一般来说，选择水性共溶剂系统的有机溶剂组分以使其不会完全使酮还原酶灭活。利用如本文描述的那些酶活性测定，通过在候选溶剂系统中用确定的关注底物测量指定的工程酮还原酶的酶促活性，可容易地鉴别合适的共溶剂系统。

水性共溶剂系统的有机溶剂组分可以是与水性组分混溶的，提供单一的液相，或可以是与水性组分部分混溶的或不能混溶的，提供两个液相。一般来说，当使用水性共溶剂系统时，选择它是两相的，水分散于有机溶剂，或相反。一般来说，当利用水性共溶剂系统时，需要选择能够容易地与水相分离的有机溶剂。一般来说，共溶剂系统中水比有机溶剂的比例通常在有机溶剂比水约90∶10至约10∶90(v/v)的范围内，和有机溶剂比水在80∶20和20∶80(v/v)之间。共溶剂系统可在加入反应混合物前预先形成，或其可以在反应器内原位形成。

水性溶剂(水或水性共溶剂系统)可以是pH缓冲的或未缓冲的。一般来说，可在约10或以下的pH，通常在约5至约10的范围内进行还原。在一些实施方案中，在约9或以下的pH，通常在约5至约9的范围内进行还原。在一些实施方案中，在约8或以下的pH，经常在约5至约8的范围内并且通常在约6至约8的范围内进行还原。还可以在约7.8或以下，或7.5或以下的pH下进行还原。可选地，可在中性pH(即约7)下进行还原。

在还原反应过程期间，反应混合物的pH可以改变。通过在反应过程期间加入酸或碱，可将反应混合物的pH维持在所需的pH或所需的pH范围内。可选地，通过使用包含缓冲剂的水性溶剂可控制pH。维持所需pH范围的合适缓冲剂为本领域所知，并且包括，例如，磷酸盐缓冲剂、三乙醇胺缓冲剂以及类似缓冲剂。还可使用缓冲和酸或碱的添加的组合。

当使用葡萄糖/葡糖脱氢酶辅因子再生系统时，如反应式(3)所代表，葡糖酸(pKa＝3.6)的共同产生(co-production)引起反应混和物的pH的下降，如果产生的水性葡糖酸没有通过其他途径中和。可通过标准缓冲技术，其中缓冲剂中和葡糖酸直到所提供的缓冲容量，或通过与转化过程同步加入碱，将反应混合物的pH维持在所需水平。还可使用缓冲和碱的添加的组合。维持所需pH范围的合适缓冲剂如上所述。用于中和葡糖酸的合适的碱是有机碱例如胺、醇盐以及类似有机碱，和无机碱例如氢氧化物盐(例如NaOH)、碳酸盐(例如NaHCO₃)、碳酸氢盐(例如K₂CO₃)、碱式磷酸盐(例如K₂HPO₄、Na₃PO₄)以及类似无机碱。伴随转化过程的碱添加，可在监测反应混合物pH的同时手动进行，或更加方便地，通过使用自动滴定计作为恒pH器(pH stat)来进行。部分缓冲容量和碱的添加的组合也可用于过程控制。

当使用碱的添加来中和酮还原酶催化的还原反应期间释放的葡糖酸时，转化的过程可通过维持pH所添加的碱的量来监测。通常，将在还原过程中加入到非缓冲的或部分缓冲的反应混合物的碱以水性溶液添加。

在一些实施方案中，辅因子再生系统可包括甲酸脱氢酶。本文中，术语“甲酸脱氢酶”和“FDH”可互换使用以指NAD⁺或NADP⁺依赖性酶，它们分别催化甲酸盐和NAD⁺或NADP⁺转化为二氧化碳和NADH或NADPH。适合于用作本文描述的酮还原酶催化的还原反应中的辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢酶。甲酸脱氢酶包括对应于PCT公布WO 2005/018579的SEQ ID NO：70(假单胞菌(Pseudomonas sp.))和72(博伊丁假丝酵母(Candida boidinii))的甲酸脱氢酶，SEQ ID NO：70和72由对应于PCT公布2005/018579的SEQ ID NO：69和71的多核苷酸序列分别编码，所述专利的公开通过引用在此并入。在本文描述的方法中使用的甲酸脱氢酶，不论是天然存在的还是非天然存在的，可表现出至少约1μmol/min/mg、有时至少约10μmol/min/mg、或至少约10²μmol/min/mg，多达约10³μmol/min/mg或更高的活性，并且在PCT公布WO 2005/018579的实施例4中描述的测定中可容易地筛选其活性。

如本文所用，术语“甲酸盐”指甲酸阴离子(HCO₂ ^-)、甲酸(HCO₂H)及其混合物。甲酸盐可提供为盐的形式，通常是碱金属盐或铵盐(例如HCO₂Na、KHCO₂NH₄以及类似的盐)；甲酸的形式，通常是甲酸水溶液；或其混合物的形式。甲酸是中度酸。在其pKa(水中pKa＝3.7)的几个pH单位内的水溶液中，甲酸盐以平衡浓度的HCO₂ ^-和HCO₂H存在。当pH值大于约pH 4时，甲酸盐主要以HCO₂ ^-存在。当甲酸盐作为甲酸提供时，反应混合物通常被缓冲或通过加入碱来使酸性降低以提供所需的pH，通常是约pH 5或更高。用于中和甲酸的合适的碱包括但不限于有机碱例如胺、醇盐以及类似有机碱，和无机碱例如氢氧化物盐(例如NaOH)、碳酸盐(例如NaHCO₃)、碳酸氢盐(例如K₂CO₃)、碱式磷酸盐(例如K₂HPO₄、Na₃PO₄)以及类似无机碱。

对于大于约pH 5的pH值，此时甲酸盐主要以HCO₂ ^-存在，以下反应式(2)描述甲酸脱氢酶催化的甲酸盐对NAD⁺或NADP⁺的还原。

当使用甲酸盐和甲酸脱氢酶作为辅因子再生系统时，可通过标准缓冲技术，其中缓冲剂释放质子至多为所提供的缓冲容量，或通过与转化过程同时添加酸，将反应混合物的pH维持在所需的水平。反应过程期间添加以维持pH的合适的酸包括有机酸，例如羧酸、磺酸、膦酸以及类似有机酸，矿物酸例如氢卤酸(诸如盐酸)、硫酸、磷酸以及类似矿物酸，酸式盐例如二氢磷酸盐(例如KH₂PO₄)、硫酸氢盐(例如NaHSO₄)以及类似酸式盐。一些实施方案利用甲酸，借此维持甲酸盐浓度和溶液的pH。

在使用甲酸盐/甲酸脱氢酶辅因子再生系统的还原反应期间，当使用添加酸来维持pH时，可通过维持pH所添加的酸的量监测转化过程。通常，转化过程中加入到非缓冲的或部分缓冲的反应混合物的酸以水性溶液添加。

本文中，术语“仲醇脱氢酶”和“sADH”互换使用以指NAD⁺或NADp⁺依赖性酶，它们分别催化仲醇和NAD⁺或NADP⁺转化为酮和NADH或NADPH。以下，反应式(3)描述仲醇对NAD⁺或NADP⁺的还原，以异丙醇为例。

适合于用作本文描述的酮还原酶催化的还原反应中的辅因子再生系统的仲醇脱氢酶包括天然存在的仲醇脱氢酶以及非天然存在的仲醇脱氢酶。天然存在的仲醇脱氢酶包括来自布氏热厌氧菌(Thermoanerobiumbrockii)、红平红球菌(Rhodococcus etythropolis)、克菲尔乳杆菌和短乳杆菌的已知醇脱氢酶，而非天然存在的仲醇脱氢酶包括由此衍生的工程醇脱氢酶。在本文描述的方法中使用的仲醇脱氢酶，不论是天然存在的还是非天然存在的，可表现出至少约1μmol/min/mg、有时至少约10μmol/min/mg、或至少约10²μmol/min/mg，多达约10³μmol/min/mg或更高的活性。

合适的仲醇包括低级仲链烷醇和芳基-烷基甲醇。低级仲醇的实例包括异丙醇、2-丁醇、3-甲基-2-丁醇、2-戊醇、3-戊醇、3，3-二甲基-2-丁醇以及类似低级仲醇。在一个实施方案中，仲醇是异丙醇。合适的芳基-烷基甲醇包括未取代的和取代的1-芳基乙醇。

当使用仲醇和仲醇脱氢酶作为辅因子再生系统时，通过仲醇脱氢酶将仲醇偶联氧化为酮，进而还原产生的NAD⁺或NADP⁺。一些工程酮还原酶还具有使仲醇还原剂脱氢的活性。在一些使用仲醇作为还原剂的实施方案中，工程酮还原酶和仲醇脱氢酶是同一个酶。

在使用辅因子再生系统执行本文描述的酮还原酶催化的还原反应的实施方案时，初始可提供氧化或还原形式的辅因子。如上所述，辅因子再生系统将氧化的辅因子转化为其还原形式，然后在酮还原酶底物的还原中使用所述还原形式。

在一些实施方案中，不使用辅因子再生系统。对于没有使用辅因子再生系统执行的还原反应，向反应混合物加入还原形式的辅因子。

在一些实施方案中，当使用宿主生物体的全细胞执行该过程时，该全细胞可自身提供辅因子。可选地或在组合中，该细胞可自身或重组地提供葡糖脱氢酶。

在执行本文描述的对映选择性还原反应中，可向反应混合物加入纯化酶、用编码该酶的基因转化的全细胞、和/或该细胞的细胞提取物和/或溶解产物的形式的工程酮还原酶和包含任选的辅因子再生系统的任何酶。编码工程酮还原酶和任选的辅因子再生酶的基因可分别转化到宿主细胞，或一起转化到相同的宿主细胞。例如，在一些实施方案中，一组宿主细胞可用编码工程酮还原酶的基因转化，并且另一组可用编码辅因子再生酶的基因转化。可以以全细胞的形式或由此衍生的溶解产物或提取物的形式，将两组转化的细胞一起用于反应混合物。在其他的实施方案中，宿主细胞可以用编码工程酮还原酶和辅因子再生酶的基因转化。

用编码工程酮还原酶和/或任选的辅因子再生酶的基因转化的全细胞，或其细胞提取物和/或溶解产物，可以多种不同的形式使用，包括固体(例如冻干固体、喷雾干燥的固体以及类似的固体)或半固体(例如粗糊剂)。

通过沉淀(硫酸铵、聚乙烯亚胺、热处理或类似处理)，随后通过冻干前的脱盐程序(例如超滤、透析以及类似处理)可部分纯化细胞提取物或细胞溶解产物。可通过使用已知交联剂(诸如例如戊二醛)交联或固定于固相(例如Eupergit C以及类似固相)来稳定任何的细胞制品。

可向反应提供各种不同形式的固体反应物(例如酶、盐等等)，包括粉末(例如冻干的、喷雾干燥的以及类似的)、溶液、乳剂、悬浮液以及类似形式。使用本领域普通技术人员所知的方法和设备，可容易地冻干或喷雾干燥反应物。例如，蛋白质溶液可以小的等份在-80℃下冷冻，然后加入到预冷的冻干室中，随后施用真空。在除去样品中的水后，通常将温度升至4℃，持续2小时，然后释放真空并回收冻干样品。

在还原反应中所用的反应物的量通常将根据所需产物的量和伴随地所用酮还原酶底物的量而变化。以下指导可用于确定使用的酮还原酶、辅因子和任选的辅因子再生系统的量。一般来说，使用约50mg至约5g的酮还原酶和约10mg至约150mg的辅因子，可使用浓度约20至300克/升的酮底物。本领域普通技术人员将容易地理解，如何改变这些量以将它们调整到生产力和生产规模的所需水平。根据所用的辅因子和/或酮还原酶的量，通过常规实验可容易地确定任选的辅因子再生系统的合适的量。一般来说，使用的还原剂(例如葡萄糖、甲酸盐、异丙醇等等)的水平超过酮还原酶底物的等摩尔水平，以实现酮还原酶底物基本完全或几乎完全的转化。

反应物的加入顺序并不重要。反应物可在相同的时间一起加入到溶剂(例如单相溶剂、两相水性共溶剂系统以及类似溶剂)中，或可选地，可分别加入反应物中的一些，并且一些反应物在不同的时间点一起加入。例如，可首先将辅因子再生系统、辅因子、酮还原酶和酮还原酶底物加入到溶剂中。

为了改善使用水性共溶剂系统时的混合效力，可首先将辅因子再生系统、酮还原酶和辅因子加入并混合到水相。然后可加入有机相并混合，随后加入酮还原酶底物。可选地，酮还原酶底物可以在加入到水相之前，于有机相中预混合。

用于执行本文描述的酮还原酶催化的还原反应的合适条件包括很多种条件，它们可容易地被常规实验优化，实验包括但不限于在实验pH和温度下使工程酮还原酶和底物接触，并且例如，使用本文提供的实施例中描述的方法检测产物。

通常在约15℃至约75℃的温度范围内执行酮还原酶催化的还原。对于一些实施方案，在约20℃至约55℃的温度范围内执行反应。在其他的实施方案中，在约20℃至约45℃的温度范围内执行反应。还可以在环境条件下执行反应。

通常允许还原反应进行，直到实现底物的基本完全或几乎完全还原。底物还原为产物可使用已知的方法，通过检测底物和/或产物来监测。合适的方法包括气相色谱、HPLC以及类似方法。在反应混合物中产生的醇还原产物的转化收率通常大于约50％，还可大于约60％，还可大于约70％，还可大于约80％，还可大于90％并且通常大于约97％。

7.实施例

在以下的代表性实施例中阐明本公开的各种特征和实施方案，实施例意在示例而不是限制。

在以下的描述中，不论何处使用葡糖脱氢酶(GDH)，它是可从JulichChiral Solutions，Jülich，德国获得的GDH CDX901。

7.1实施例1：野生型酮还原酶基因的获得和表达载体的构建

根据已报道的酮还原酶的氨基酸序列和如美国临时申请序列号60/848,950(通过引用在此并入)的实施例1所描述的密码子优化算法，设计用于在大肠杆菌中表达的酮还原酶(KRED)编码基因。使用包括42个核苷酸的寡核苷酸合成基因，并且将其克隆于表达载体pCK110900(如美国专利申请公布20060195947的图3所描述)并处于lac启动子的控制下。该表达载体还包含P15a复制起点和氯霉素抗性基因。使用标准方法将产生的质粒转化到大肠杆菌W3110。可发现密码子优化的基因和编码多肽adh-LB基因(Genbank登录号：GI：28400789)和adh-LK基因(Genbank登录号：AAP94029.1；GI：33112056)为SEQ ID NO：1和3。如美国临时申请序列号60/848,950所描述，确认了野生型酮还原酶的活性。本文使用的其他酮还原酶，包括密码子优化的基因，以及Ydl124wp(Genbank登录号：NP_010159.1；GI：6320079)、adh-LB基因(Genbank登录号：1NXQ_A；GI：30749782)、adh-RE基因(Genbank登录号：AAN73270.1；GI：34776951)、Yprlp基因(Genbank登录号：NP_010656.1；GI：6320576)、Gre2p基因(Genbank登录号：NP_014490.1；GI：6324421)的编码多肽也公开于美国临时申请序列号60/848,950，其通过引用在此并入。

编码本公开的工程酮还原酶的多核苷酸同样地克隆于载体pCK110900，以便在大肠杆菌W3110中表达。

7.2实施例2：用于底物特异性和转化的LC/MS/MS测定

将含有具有所关注的酮还原酶基因的质粒的大肠杆菌的单一微生物菌落接种于50ml含有30μg/ml氯霉素和1％葡萄糖的LB肉汤(LuriaBertani broth)。30℃，250rpm振荡下，使细胞在培养箱中生长过夜(至少16小时)。将培养物稀释于250ml Terrific肉汤(Terrific Broth)(12g/L细菌用胰蛋白胨、24g/L酵母提取物、4ml/L甘油、65mM磷酸钾、pH 7.0、1mM MgSO₄、30μg/ml氯霉素于1升烧瓶中)至600nm处的光密度(OD600)为0.2，并允许其在30℃下生长。当培养物的OD600是0.6至0.8时，酮还原酶基因的表达用1mM IPTG诱导，并孵育过夜(至少16小时)。通过离心(5000rpm，15min，4℃)收获细胞，并弃去上清液。将细胞沉淀物用等体积的冷(4℃)的100mM三乙醇胺(氯化物)缓冲液，pH 7.0(在ADH-LK和ADH-LB以及由此衍生的工程酮还原酶的情况中，包括2mMMgSO₄)再次悬浮，并通过如上的离心收获。将洗涤的细胞在两体积的冷三乙醇胺(氯化物)缓冲液中再次悬浮，并在12000psi下穿过弗氏压碎器2次，且保持在4℃。通过离心(9000rpm，45min，4℃)除去细胞碎片。收集澄清的溶解产物上清液，并在-20℃下储存。冻干冷冻的澄清溶解产物提供粗酮还原酶的干燥粉末。

如美国临时申请序列号60/848,950所描述，确认了野生型酮还原酶的活性。向1mL 100mM磷酸盐(钠)缓冲液，pH 7.5的溶液加入10mg酮还原酶粉末、50mg NAD(P)H、100μL异丙醇和10mg 4′-氯乙酰苯或未取代的乙酰苯。将反应混合物在室温下搅拌16小时，然后用1mL MTBE萃取。通过手性HPLC分析MTBE相的样品中4′-氯乙酰苯的转化和产物1-(4′-氯苯基)乙醇的对映异构体组成。

7.3实施例3：酮还原酶的生产；发酵过程。

在充气搅拌的15L发酵罐中，使6.0L的生长培养基达到30℃的温度，所述培养基包括0.88g/L硫酸铵、0.98g/L的柠檬酸钠；12.5g/L的磷酸氢二钾三水合物、6.25g/L的磷酸二氢钾、6.2g/L的Tastone-154酵母提取物、0.083g/L柠檬酸铁铵和8.3ml/L的微量元素溶液，微量元素溶液含有2g/L的氯化钙二水合物、2.2g/L硫酸锌七水合物、0.5g/L硫酸镁一水合物、1g/L硫酸亚铜七水合物、0.1g/L钼酸铵四水合物和0.02g/L四硼酸钠十水合物。发酵罐用大肠杆菌W3110的后期指数培养物接种，所述培养物含有具有所关注的酮还原酶基因的质粒，在如实施例3所描述的摇瓶中生长至起始OD600为0.5至2.0。发酵罐以500-1500rpm搅拌，并且以1.0-15.0L/min向发酵容器提供空气以保持30％饱和的溶氧水平或更高。通过加入20％v/v的氢氧化铵，将培养物的pH控制在7.0。通过添加含有500g/L工业葡萄糖(cerelose)、12g/L氯化铵和10.4g/L硫酸镁七水合物的料液(feedsolution)来维持培养物的生长。培养物达到50的OD600后，通过加入异丙基-b-D-硫代半乳糖苷(IPTG)至1mM的最终浓度来诱导酮还原酶的表达。使培养物生长另外14个小时。然后将培养物冷却至4℃，并维持在4℃直到收获。4℃下在Sorval RC12BP离心机中以5000G离心40分钟收获细胞。收获的细胞直接用于以下的下游回收过程，或在4℃下储存直到此类使用。

4℃下，将细胞沉淀物再次悬浮于2体积的100mM三乙醇胺(氯化物)缓冲液，pH 6.8(每体积的湿细胞糊状物(wet cell paste))。通过使用12000psig的压力将该悬浮液通过安装二级匀浆阀组件(assembly)的匀浆机，使细胞内酮还原酶从细胞释放。破坏后，立即将细胞匀浆物冷却至4℃。将10％w/v的聚乙烯亚胺溶液，pH 7.2加入到溶解产物至最终浓度0.5％w/v，并搅拌30分钟。通过在标准实验室离心机中以5000G离心30分钟，使产生的悬浮液澄清。倾出澄清的上清液，使用具有截留分子量为30Kd的纤维素超滤膜浓缩10倍。将最终浓缩物分散于浅容器，在-20℃下冷冻，并冻干成粉末。将酮还原酶粉末储存于-80℃。

7.4实施例4确定化合物(II)的转化和对映体过量的分析方法。

用于转化的反相HPLC测定。以下HPLC方法用于在高通量下分析式(I)的化合物还原为式(II)的化合物：

仪器：Agilent 1100系列HP

方法名称：1549-ISO

柱型号：Eclipse XDB C 18

柱尺寸：2.1×50mm

填充尺寸：3.5μm C 18 Zorbax XDB

运行时间：3分钟

流动相：50％乙腈50％0.25％乙酸

流速：0.6ml/min，温度：室温

检测：UV 250nm

洗脱时间：醇：0.9分钟

酮：1.2分钟。

用于确定对映体过量的手性HPLC。以下的HPLC方法用于分离和分析式(II)的化合物的(S)和(R)对映体：

仪器：Agilent 1100系列HP

柱：Chiralpak AD-H，250×4.6mm

溶剂：等度(Isocratic)，80％A(庚烷)和20％B(庚烷-异丙醇50∶50)

流速：1ml/min，温度：室温

检测：UV 220nm

运行时间：45min

保留时间如下：(I)29.1min，R-(II)35.4min，S-(II)38.7min。R-和S-醇显示出具有1∶1面积比的基线分离。

7.5实施例5：使用葡萄糖和葡糖脱氢酶用于辅因子再生的野生型酮还原酶还原化合物(I)的活性的评价：

将1ml反应体积的含有30mg/L KRED、12mg/ml1-[4-(4-氟-2-甲基-1H-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]丙-2-酮(I)(可根据WO06130657中的方案1和实施例1获得，通过引用在此并入)、1.5mg/mL GDH CDX901(Julich Chiral Solutions，Jülich，德国)、1mMNADp⁺、66mg/mL葡萄糖、200mM NaH₂PO₄/Na₂HPO₄(pH 7)、100mM三乙醇胺/氯化物缓冲液，pH 7.0、1mM MgSO₄的反应混合物室温下搅拌孵育20小时，然后用3mL乙酸乙酯萃取，通过如实施例4所描述的方法或

根据WO06130657的实施例2的方法分析。结果如表3所示。

+表明观察到活性。

野生型酮还原酶ADH-LK提供具有＞99.9％的对映选择性(＞99.9％e.e.)的R-(II)。

该实施例阐明当与辅因子再生系统(葡萄糖和葡糖脱氢酶)组合使用时，对野生型酮还原酶活性和对映选择性的评价。野生型酮还原酶ADH-LK提供所需的(R)-对映体。

7.6实施例6：使用异丙醇用于辅因子再生的野生型酮还原酶还原化合物(I)的活性的评价：

将1ml的反应体积的含有15mg/ml KRED；在DMF或THF中的2mg/ml(I)(通过对20mg/ml的储存溶液10倍稀释来添加)、2mg/mLNADP+、0.4-0.5mlIPA、0.4ml 100mM三乙醇胺/氯化物缓冲液，pH 7.0、1mM MgSO₄的反应混合物室温下搅拌孵育8小时(当使用DMF时)或16小时(当使用THF时)。样品通过实施例4和5的方法分析。

在这些反应条件下，来自克菲尔乳杆菌的ADH-LK在DMF中提供21％的转化，且在THF中提供61％的转化，而来自短乳杆菌的ADH-LB在DMF中提供70％的转化，且在THF中提供26％的转化。

所述实施例阐明当与用于辅因子再生的IPA组合使用时，对野生型乳杆菌(Lactobacillus)酮还原酶活性和对映选择性的评价。野生型酮还原酶ADH-LK在10％THF存在下提供高e.e的所需(R)-对映体。

7.7实施例7：使用葡萄糖/葡糖脱氢酶用于辅因子再循环的对化合物(I)的酮还原酶活性的高通量HPLC测定。

使用Q-

自动菌落挑取器(Genetix USA，Inc.，Beaverton，OR)，将文库菌落挑取到含有180μL LB肉汤(LB)、1％葡萄糖和30μg/mL氯霉素(CAM)的96孔浅孔微量滴定板。250rpm振荡下，使细胞在37℃下生长过夜。然后，将10μL的这一培养物转移至含有390μL Terrific肉汤(TB)和30μg/mL CAM的96深孔板上。30℃，250rpm振荡下，将深孔板孵育2.5至3小时(OD₆₀₀0.6-0.8)后，通过最终浓度1mM的异丙基硫代半乳糖苷(IPTG)诱导细胞培养物表达重组基因。然后，30℃，250rpm振荡下，将板孵育过夜。

细胞经由离心沉淀，在300μL溶解缓冲液中再次悬浮，并通过在室温下振荡至少2小时来溶解。溶解缓冲液含有100mM三乙醇胺(氯化物)缓冲液，pH 7.0-7.2、1mg/mL溶菌酶和750μg/mL硫酸多粘菌素B。

通过将测量量的溶解混合物转移到含有205μL测定混合物的微量滴定板的孔中，测量酮还原酶的活性，所述测定混合物含有1.7mg/mL GDHCDX901、0.7mg/ml NADP+、66.7mg/mL葡萄糖、200mMNaH₂PO₄/Na₂HPO₄(pH 7)、100mM三乙醇胺/氯化物缓冲液，pH 7.0、1mM MgSO₄。通过加入25μL在DMF中的2mg/ml(I)((I)的最终浓度是0.2mg/ml)启动反应，并且在25℃下孵育1小时。每个孔加入500μL乙腈，混合孔，之后将200μL转移至Solvinert(Millipore，MA)滤板。通过将solvenert滤板在200rpm下离心1分钟，将滤液收集到Nunc圆底板。将样品板密封以防止溶剂蒸发，并根据实施例4通过HPLC分析。

7.8实施例8：使用IPA用于辅因子再循环的对化合物(I)的酮还原酶活性的高通量HPLC测定。

根据实施例8制备细胞沉淀，将其再次悬浮于具有1mM MgSO₄的150μL 200mM三乙醇胺/氯化物缓冲液，pH 7.0。向再次悬浮的细胞加入150μL的异丙醇，并且在密封板后，通过在室温下在定轨振荡器上振荡至少120分钟来溶解细胞。

通过将测量量的溶解混合物转移到含有175μL测定混合物以及50μL在50％THF/50％IPA中的5mg/ml(I)的深孔(2ml)微量滴定板的孔中，测量酮还原酶的活性，所述测定混合物由100mM三乙醇胺/氯化物缓冲液，pH 7.0、25％异丙醇(IPA)、2％丙酮、1mM MgSO₄和0.7mg/ml NADP+组成。

通过加入25μL溶解产物(必要时，用等体积的IPA稀释)启动反应，热封，并在25至50℃下，在振荡培养箱中孵育18小时。在反应末期，将500μL乙酸乙酯加入各孔，再次密封该板，并在定轨振荡器上剧烈振荡至少5分钟。将该板在4000rpm下离心20至30秒。将140μL乙腈和70μL的乙酸乙酯反应混合物转移至Solvinert滤板(Millipore，MA)，然后通过将solvenert滤板在200rpm下离心3分钟，将滤液收集到Nunc圆底板。将样品板密封以防止溶剂蒸发，并根据实施例4通过HPLC分析。

7.9实施例9：酮还原酶对异丙醇的活性的高通量荧光预筛选。

根据实施例8，使细胞生长，收获并溶解细胞。

在96孔黑色微量滴定板中，将20μL的样品(必要时，稀释于100mM三乙醇胺/氯化物缓冲液，pH 7.0、1mM MgSO₄)加入到180μL测定混合物，所述测定混合物由100mM三乙醇胺/氯化物缓冲液，pH 7.0、2％异丙醇(IPA)、1mM MgSO₄组成，并且通过在Flexstation(Molecular Devices，USA)中，监控(following)在330nm激发后NADP由于转化为NADPH的445nm处荧光的减少来测量反应过程。

7.10实施例10：丙酮稳定的酮还原酶的高通量筛选

根据实施例8制备细胞沉淀，将其再次悬浮于具有1mM MgSO₄的150μL 200mM三乙醇胺/氯化物缓冲液，pH 7.0。将含有76％IPA、20％THF和4％丙酮的150μL混合物加入到再次悬浮的细胞，并且在密封该板后，通过室温下，在定轨振荡器上振荡18个小时来溶解细胞。

通过将测量量的溶解混合物转移到含有175μL测定混合物以及50μL在50％THF/50％IPA中的5mg/ml(I)的深孔(2ml)微量滴定板的孔中，测量酮还原酶的活性，所述测定混合物由80mM三乙醇胺/氯化物缓冲液，pH 7.0、26.2％至37.1％异丙醇(IPA)、1.8％丙酮、1mM MgSO₄和0.7mg/mlNADP+组成。

通过加入25μL溶解产物(必要时，用等体积的IPA稀释)启动反应，热封，并在25至50℃下，在振荡培养箱中孵育18小时。在反应末期，将500μL乙酸乙酯加入各孔，再次密封该板，并在定轨振荡器上剧烈振荡至少5分钟。将该板在4000rpm(3220×g)下离心20至30秒。将140μL乙腈和70μL的乙酸乙酯反应混合物转移至Solvinert滤板(Millipore，MA)，且通过将solvenert滤板在200rpm下离心3分钟，将滤液收集到Nunc圆底板。将样品板密封以防止溶剂蒸发，并根据实施例4通过HPLC分析。

7.11实施例11：使用异丙醇用于辅因子再生的衍生自野生型ADH-LK的工程酮还原酶将化合物(I)还原为(R)-2的改善的活性。

将1ml反应体积的含有15mg/ml KRED；在THF中的2mg/ml(I)、2mg/mL NADP+、0.4mlIPA、0.5ml 100mM三乙醇胺/氯化物缓冲液，pH7.0、1mM MgSO₄的反应混合物室温下搅拌孵育16小时。样品通过实施例4和5的方法分析。

在这些反应条件下，在THF中，ADH-LK提供61％的转化、ADH-LB提供26％的转化；具有SEQ ID NO：114的ADH-LK变体提供100％的转化，且具有SEQ ID NO：18的ADH-LK变体提供93％的转化。

当在相似的反应条件下只是用3mg/ml KRED和在THF中的1mg/ml(I)试验时，2小时的反应时间后，ADH-LK、SEQ ID NO：114和SEQ IDNO：18的转化分别是11、100和23％。将来自SEQ ID NO：114的突变A94G导入ADH-LB提供了SEQ ID NO：116。具有SEQ ID NO：114和SEQ IDNO：116的酮还原酶在10％DMF中具有相似的活性。

通过对比酮还原酶的量、反应时间和转化，该实施例阐明衍生自野生型酮还原酶ADH-LK的工程酮还原酶与酮还原酶ADH-LK相比，提供改善的活性。

7.12实施例12：衍生自ADH-LK的工程酮还原酶对化合物(I)的改善的转化。

在如实施例7所描述的条件下，通过孵育1g/L的各种KRED确定工程ADH-LK多肽的转化。

表4提供对应酮还原酶粉末的SEQ ID NO.、从野生型ADH-LK的氨基酸突变的数量和20分钟反应中化合物(I)向(R)-2的转化。

+：＜20％转化；++：25-75％转化；+++：＞75％转化

7.13实施例13：衍生自ADH-LK的工程酮还原酶的改善的转化和对丙酮的耐受性

通过在室温下，使在10％THF、40％IPA、50％100mM三乙醇胺-氯化物、1mM MgSO₄pH 8.0、0.7mg/ml NADp⁺的混合物中的0.5g/L(I)与1g/L的各种KRED，在缺少或存在2％的丙酮下孵育20分钟，随后根据实施例4确定转化，来确定工程ADH-LK变体的转化和对丙酮的耐受性。

表5提供对应酮还原酶粉末的SEQ ID NO.、从野生型ADH-LK的氨基酸突变的数量和20分钟反应中(I)向(R)-2的转化。

7.14实施例14：化合物(II)的R-异构体的制备

向含有磁力搅拌子(4×12mm)的20ml样品瓶(21mm OD)加入3.5mg的NADP⁺(来自Oriental Yeast，Japan的一钠盐)，25mg SEQ ID NO：78的KRED和500mg的(I)。将1.5ml 2-甲基THF(Aldrich，USA)、1.0ml异丙醇和2.5ml 100mM三乙醇胺/氯化物(pH 8)、1mM MgSO₄的混合物加入到该固体，并且将产生的三相混合物在40℃下搅拌并加热(油浴)24小时。从搅拌的混合物中取出样品，用于根据实施例4或根据WO06130657的实施例2来分析何时(I)完全转化为＞99.9％e.e.的R-(II)。

7.15实施例15：使用IPA用于辅因子再循环的乙酰苯还原的高通量手性GC测定：

手性GC分析：

仪器：Astec Chiraldex B-DP柱(30m×0.25mm)

温度：110℃

入口温度：250℃

分流比：1∶100

压力：15psi氦

检测器：FID，250℃

保留时间：酮：6.6分钟

(R)-醇：9.1分钟

(S)-醇：9.5分钟

7.16实施例16：使用异丙醇用于辅因子再生的衍生自野生型克菲尔乳杆菌的工程酮还原酶将乙酰苯还原为(R)-1-苯基乙醇的改善的活性：

通过使用Q-

自动菌落挑取器(Genetix USA，Inc.，Beaverton，OR)，将菌落挑取到含有180μL LB肉汤(LB)、1％葡萄糖和30μg/mL氯霉素(CAM)的96孔浅孔微量滴定板来制备细胞溶解产物。250rpm振荡下，使细胞在37℃下生长过夜。然后，将10μL的这一培养物转移至含有390μLTerrific肉汤(TB)和30μg/mL CAM的96深孔板上。30℃，250rpm振荡下，将深孔板孵育2.5至3小时(OD₆₀₀0.6-0.8)后，通过最终浓度1mM的异丙基硫代半乳糖苷(IPTG)诱导细胞培养物表达重组基因。然后，30℃，250rpm振荡下，将板孵育过夜。

细胞经由离心沉淀，在300μL溶解缓冲液中再次悬浮，并通过在室温下振荡至少2小时来溶解。溶解缓冲液含有100mM三乙醇胺(氯化物)缓冲液，pH 7.0-7.2、1mg/mL溶菌酶和750μg/mL硫酸多粘菌素B。向100μL细胞溶解产物加入50μL 100mM三乙醇胺-HCl缓冲液，pH 7.0(其含有0.5mM NADP钠盐)、300μL异丙醇和在四氢呋喃(THF)中的50μL 50g/L乙酰苯，并且将该板密封后，通过在室温下，在定轨振荡器上以850rpm振荡4小时来孵育细胞。

通过向每个样品加入1mL的乙酸乙酯，并且在密封微量滴定板后，在室温下以850rpm振荡10分钟来萃取反应产物(1-苯基乙醇)。板在4℃在平板离心机(plate centrifuge)(3220×g)中以4,000rpm离心2分钟，将来自各孔的200μL有机相转移至浅孔板，并在密封该板后进行手性GC分析。

表6提供对应酮还原酶的SEQ ID NO.、从野生型KEFc(ADH-LK)的氨基酸突变的数量和乙酰苯向(R)-1-苯基乙醇的转化。

+：＜70％转化；++：70-90％转化；+++：＞90％转化。

对于所有的目的，本申请引用的所有出版物、专利、专利申请和其他文件在此通过引用以其整体并入，其等同于对于所有的目的，单独地指明每个个体出版物、专利、专利申请或其他文件通过引用并入。

尽管已经阐述并描述了各个具体的实施方案，但应理解，可进行各种变化而不脱离本发明的精神和范围。

Claims

1.一种重组酮还原酶多肽，其能够以SEQ ID NO：2的多肽活性的至少1.5倍将化合物1-[4-(4-氟2-甲基-IH-吲哚-5-基氧基)-5-甲基-吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-酮转化为1-[4-(4-氟-2-甲基-IH-吲哚-5-基氧基)-5-甲基吡咯并[2，1-f][1，2，4]三嗪-6-基氧基]-丙-2-醇，所述多肽包括与SEQ ID NO：2或SEQ ID NO：4具有至少90％序列同一性的氨基酸序列，并且具有(a)对应于SEQ ID NO：2或SEQ ID NO：4的残基94的氨基酸残基处的芳族氨基酸或G，或(b)对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的S和N之外的氨基酸。

2.如权利要求1所述的重组多肽，其中所述氨基酸序列包括对应于SEQ ID NO：2或SEQ ID NO：4的残基94的氨基酸残基处的芳族氨基酸或G。

3.如权利要求2所述的重组多肽，其中所述残基94是F、W、H或Y。

4.如权利要求2所述的重组多肽，其中所述氨基酸序列进一步包括选自以下的一个或多个特征：残基96是S/N之外的任何氨基酸；残基153是L之外的脂肪族氨基酸残基；残基199是L之外的任何氨基酸残基；残基202是G，或是A之外的脂肪族氨基酸残基；以及残基206是芳族氨基酸残基。

5.如权利要求4所述的重组多肽，其中所述氨基酸序列具有选自以下的特征中的一个或多个：残基153是G或A；残基199是K、I、N、R、V、Q或W；残基202是I、L或G；以及残基206是F。

6.如权利要求1至5中任一项所述的重组多肽，其中所述氨基酸序列进一步包括选自以下的特征中的一个或多个：残基49是K之外的极性氨基酸残基；残基53是酸性氨基酸残基；残基54是T/P之外的小的或脂肪族氨基酸残基；残基60是V之外的脂肪族氨基酸残基；残基95是V之外的脂肪族氨基酸；残基97是小的氨基酸或G；残基109是K之外的碱性氨基酸残基；残基147是脂肪族氨基酸残基；残基165是羟基或小的氨基酸残基；残基197是小的氨基酸残基或G；残基223是L之外的脂肪族氨基酸残基；以及残基233是小的氨基酸残基或G。

7.如权利要求6所述的重组多肽，其中所述氨基酸序列包括选自以下的一个或多个特征：残基49是R；残基53是D；残基54是A；残基60是A；残基95是L；残基97是G；残基109是R；残基147是L；残基165是T；残基197是G；残基223是V；以及残基233是G。

8.如权利要求7所述的重组多肽，其中所述氨基酸序列具有选自以下的一个或多个特征：残基54是A；残基109是R；残基147是L；以及残基233是G。

9.如权利要求1所述的重组多肽，其中所述氨基酸序列包括对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的S和N之外的氨基酸。

10.如权利要求9所述的重组多肽，其中所述氨基酸序列具有对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的G、F、Y或I。

11.如权利要求10所述的重组多肽，其中所述氨基酸序列进一步包括选自以下的下列特征中的一个或多个：残基94是芳族氨基酸残基或G；残基153是L之外的脂肪族氨基酸残基；残基199是L之外的任何氨基酸残基；残基202是A之外的脂肪族氨基酸残基；或残基206是芳族氨基酸残基。

12.如权利要求11所述的重组多肽，其中所述氨基酸序列包括选自以下的下列特征中的一个或多个：残基94是F或G；残基153是G或A；残基199是K、I、N、R、V、Q或W；残基202是I、L或G；以及残基206是F。

13.如权利要求9至12中任一项所述的重组多肽，其中所述氨基酸序列进一步包括选自以下的下列特征中的一个或多个：残基49是K之外的极性氨基酸残基；残基53是酸性氨基酸残基；残基54是T/P之外的小的或脂肪族氨基酸残基；残基60是V之外的脂肪族氨基酸残基；残基95是V之外的脂肪族氨基酸；残基97是小的氨基酸或G；残基109是K之外的碱性氨基酸残基；残基147是脂肪族氨基酸残基；残基165是羟基或小的氨基酸残基；残基197是小的氨基酸残基或G；残基223是L之外的脂肪族氨基酸残基；以及残基233是小的氨基酸残基或G。

14.如权利要求13所述的重组多肽，其中所述氨基酸序列包括选自以下的一个或多个特征：残基49是R；残基53是D；残基54是A；残基60是A；残基95是L；残基97是G；残基109是R；残基147是L；残基165是T；残基197是G；残基223是V；以及残基233是G。

15.如权利要求14所述的重组多肽，其中所述氨基酸序列具有选自以下的特征中的一个或多个：残基54是A；残基109是R；残基147是L；以及残基233是G。

16.如权利要求9所述的重组多肽，其中所述氨基酸序列包括对应于SEQ ID NO：2或SEQ ID NO：4的残基96的氨基酸残基处的G、I、C或芳族氨基酸。

17.如权利要求16所述的重组多肽，其中所述氨基酸序列进一步包括选自以下的特征中的一个或多个：残基94是芳族氨基酸残基或G；残基153是L之外的脂肪族氨基酸残基；残基199是L之外的任何氨基酸残基；残基202是A之外的脂肪族氨基酸残基；以及残基206是芳族氨基酸残基。

18.如权利要求17所述的重组多肽，其中所述氨基酸序列包括选自以下的特征中的一个或多个：残基94是F或G；残基153是G或A；残基199是K、I、N、R、V、Q或W；残基202是I、L或G；以及残基206是F。

19.如权利要求16至18中任一项所述的重组多肽，其中所述氨基酸序列进一步包括选自以下的特征中的一个或多个：残基49是K之外的极性氨基酸残基；残基53是酸性氨基酸残基；残基54是T/P之外的小的或脂肪族氨基酸残基；残基60是V之外的脂肪族氨基酸残基；残基95是V之外的脂肪族氨基酸；残基97是小的氨基酸或G；残基109是K之外的碱性氨基酸残基；残基147是脂肪族氨基酸残基；残基165是羟基或小的氨基酸残基；残基197是小的氨基酸残基或G；残基223是L之外的脂肪族氨基酸残基；以及残基233是小的氨基酸残基或G。

20.如权利要求19所述的重组多肽，其中所述氨基酸序列包括选自以下的特征中的一个或多个：残基49是R；残基53是D；残基54是A；残基60是A；残基95是L；残基97是G；残基109是R；残基147是L；残基165是T；残基197是G；残基223是V；以及残基233是G。

21.如权利要求20所述的重组多肽，其中所述氨基酸序列具有选自以下的特征中的一个或多个：残基54是A；残基109是R；残基147是L；以及残基233是G。

22.如权利要求1所述的重组多肽，其包括选自由SEQ ID NO：6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136和138组成的组的氨基酸序列。

23.如权利要求1至21中任一项所述的重组多肽，其中所述重组多肽是分离的多肽。

24.如权利要求23所述的重组多肽，其中所述分离的多肽是大致纯的多肽。

25.一种多核苷酸，其编码如权利要求1至22中任一项所述的重组多肽。

26.如权利要求25所述的多核苷酸，其选自由SEQ ID NO：5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135和137组成的组。

27.如权利要求25所述的多核苷酸，其中所述多核苷酸在高度严格性条件下杂交于选自由SEQ ID NO：5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135和137组成的组的多核苷酸。

28.一种表达载体，其包括可操作地连接于适于指导在宿主细胞中表达的控制序列的如权利要求25和27中任一项所述的多核苷酸。

29.如权利要求28所述的表达载体，其中所述控制序列是启动子。

30.如权利要求29所述的表达载体，其中所述启动子包括大肠杆菌启动子。

31.如权利要求29所述的表达载体，其中所述控制序列是分泌信号。

32.一种宿主细胞，其包括如权利要求28至31中任一项所述的表达载体。

33.如权利要求32所述的宿主细胞，其与衍生工程酮还原酶的野生型酮还原酶的细胞类型是同源的。

34.如权利要求32所述的宿主细胞，其与衍生工程酮还原酶的野生型酮还原酶的细胞类型是异源的。

35.如权利要求32所述的宿主细胞，其中所述细胞是大肠杆菌。

36.如权利要求32或35所述的宿主细胞，其中包括所述表达载体的密码子已经为在所述宿主细胞中表达而进行了优化。