CN102186972B

CN102186972B - 用于立体选择性生产(4s)-3-[(5s)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的酮还原酶多肽

Info

Publication number: CN102186972B
Application number: CN200980141486.8A
Authority: CN
Inventors: 艾米丽·穆德弗; 埃里克·德弗里斯
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2008-08-29
Filing date: 2009-08-20
Publication date: 2014-08-20
Anticipated expiration: 2029-08-20
Also published as: US20180312817A1; US8956840B2; EP2329014A4; US20130210098A1; CN102186972A; US8415126B2; US10544401B2; SG10201404330VA; US20160376565A1; US20150132806A1; US20200095561A1; US9139820B2; WO2010025085A3; US8273554B2; SI2329014T1; US20100062499A1; US10047348B2; US20180023059A1; US10246687B2; US20190161740A1

Abstract

本公开内容提供了工程化的酮还原酶，所述工程化的酮还原酶相比于天然存在的野生型酮还原酶具有改进的特性，包括将5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮还原为(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的能力。还提供了编码所述工程化酮还原酶的多核苷酸、能够表达所述工程化酮还原酶的宿主细胞以及在制造依折麦布的过程中使用所述工程化酮还原酶合成中间体(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的方法。

Description

用于立体选择性生产(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1,3-噁唑烷-2-酮的酮还原酶多肽

技术领域

本公开内容涉及工程化的多肽和所述多肽用于在制造依折麦布(Ezetimibe)的过程中制备中间体(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的用途。

对序列表、表格或计算机程序的引用

根据37C.F.R.§1.821，通过引用将以电子化方式经由EFS-Web同时提交的以计算机可读形式(CRF)、文件名为CX2-025_ST25.txt的序列表并入本文。在2009年7月31日创建了序列表的电子副本，文件大小为300Kb。该序列表除了较小的格式更正以外与2008年8月28日创建的376247_021USP1.txt(296Kb)相同，后者通过引用在优先权美国临时申请61/092,807中并入。

背景技术

属于酮还原酶(KRED)或羰基还原酶类别(EC1.1.1.184)的酶可用于从对应的前立体异构(prostereoisomeric)酮底物并通过对应的外消旋醛和外消旋酮底物的立体特异性还原合成旋光活性的醇。KRED通常将酮底物或醛底物转化为对应的醇产物，但是也可能催化逆反应，将醇底物氧化为对应的酮/醛产物。诸如KRED的酶对酮和醛的还原以及对醇的氧化需要辅因子，最常见的是还原型烟酰胺腺嘌嗡二核苷酸(NADH)或还原型烟酰胺腺嘌呤二核苷酸磷酸(NADPH)，以及用于氧化反应的烟酰胺腺嘌呤二核苷酸(NAD)或烟酰胺腺嘌呤二核苷酸磷酸(NADP)。NADH和 NADPH充当电子供体，而NAD和NADP充当电子受体。经常观察到酮还原酶和醇脱氢酶接受磷酸化的或非磷酸化的辅因子(处于其氧化态和还原态)。

KRED酶可见于广泛范围的细菌和酵母中(综述：Kraus和Waldman，Enzyme catalysis in organic synthesis(有机合成中的酶催化)卷1&2.VCHWeinheim 1995；Faber，K.，Biotransformations in organic chemistry(有机化学中的生物转化)，第4版.Springer，Berlin Heidelberg New York.2000；Hummel和Kula Eur.J.Biochem.1989 184：1-13)。已报道了几种KRED基因和酶的序列，例如，木兰假丝酵母(Candida magnoliae)(Genbank获取号JC7338；GI：11360538)、近平滑假丝酵母(Candida parapsilosis)(Genbank获取号BAA24528.1；GI：2815409)、赭色掷孢酵母(Sporobolomyces salmonicolor)(Genbank获取号AF160799；GI：6539734)。

为了绕过生产关键化合物的许多化学合成步骤，越来越多地利用酮还原酶将不同的酮底物和醛底物酶促转化为手性醇产物。这些应用可以利用表达用于生物催化酮还原的酮还原酶的全细胞或在以下情况下的纯化酶：其中全细胞中多种酮还原酶的存在将不利地影响期望产物的立体纯度(stereopurity)和产量。对于体外应用，将再生辅因子(NADH或NADPH)的酶诸如葡萄糖脱氢酶(GDH)、甲酸脱氢酶等与酮还原酶一起使用。使用酮还原酶产生有用的化学化合物的实例包括4-氯乙酰乙酸酯的不对称还原(Zhou，J.Am.Chem.Soc.1983 105：5925-5926；Santaniello，J.Chem.Res.(S)1984：132-133；美国专利第5,559,030号；美国专利第5,700,670号和美国专利第5,891,685号)、二氧羧酸的还原(例如，美国专利第6,399,339号)、(S)氯-5-羟基-3-氧代己酸叔丁酯的还原(例如，美国专利第6,645,746号和WO 01/40450)、基于吡咯并三嗪的化合物的还原(例如，美国申请第2006/0286646号)、取代的苯乙酮的还原(例如，美国专利第6,800,477号)以及酮噻戊烷(ketothiolane)的还原(WO 2005/054491)。

识别可用于进行各种酮底物向其对应的手性醇产物的转化的其他酮还原酶是令人期望的。

发明概述

本公开内容提供了能够将5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3基))-1-(4-氟苯基)戊烷-1，5-二酮(“底物”)还原为(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮(“产物”)的酮还原酶多肽、编码这些多肽的多核苷酸和使用这些多肽的方法。所述酮还原酶多肽也能够将1-(4-氟苯基)-3(R)-[3-氧代-3-(4-氟苯基)丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮还原为对应的立体异构体醇1-(4-氟苯基)-3(R)-[3(S)-羟基-3(4-氟苯基)-丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮。

一方面，相比于野生型酮还原酶或产生了对于确定的酮底物的改进特性的工程化酮还原酶的参考氨基酸序列，本文所述的酮还原酶多肽所具有的氨基酸序列具有一个或更多个氨基酸差异。一般而言，相比于从高加索酸奶乳杆菌(Lactobacillus kefir)(“L.kefir”；SEQ ID NO：4)、短乳杆菌(Lactobacillus brevis)(“L.brevis”；SEQ ID NO：2)和微小乳杆菌(Lactobacillus minor)(“L.minor”；SEQ ID NO：158)获得的天然存在的野生型酮还原酶，工程化酮还原酶多肽具有改进的特性。在一些实施方案中，相比于另一种工程化多肽诸如SEQ ID NO：8，本公开内容的多肽具有改进的特性。酶特性的改进包括在酶活性、立体选择性、立体特异性、热稳定性、溶剂稳定性或减少的产物抑制上的提高。在本公开内容中，相比于SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的氨基酸序列，酮还原酶多肽具有至少以下氨基酸序列差异：对应于X145的氨基酸残基是丝氨酸，并且对应于X190的氨基酸残基是半胱氨酸。在一些实施方案中，相比于SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的序列，酮还原酶多肽具有至少以下氨基酸序列差异：(1)对应于X145的氨基酸残基是丝氨酸；对应于残基X190的氨基酸残基是半胱氨酸；并且对应于X96的氨基酸残基是谷氨酰胺。在一些实施方案中，与SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的氨基酸序列相比，相比于SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的氨基酸序列，酮还原酶多肽具有至少以下氨基酸序列：残基X145是丝氨酸，残基X190是半胱氨酸并且残基X211是精氨酸。

在一些实施方案中，本发明的酮还原酶多肽在其酶活性的速率(即它们将底物转化为产物的速率)方面与SEQ ID NO：2、SEQ ID NO：4或SEQ IDNO：158相比改进了。在一些实施方案中，酮还原酶多肽能够以SEQ IDNO：2、SEQ ID NO：4或SEQ ID NO：158的酶所展现的速率的以下倍数的速率将底物转化为产物：至少1.5倍、2倍、3倍、4倍、5倍、10倍、25倍、50倍、100倍、150倍、200倍、400倍、1000倍、3000倍、5000倍、7000倍或多于7000倍。

在一些实施方案中，酮还原酶多肽能够以比具有SEQ ID NO：8氨基酸序列的参考多肽提高的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。在一些实施方案中，这些酮还原酶多肽也能够将底物转化为具有至少约95％的立体异构体过量百分比(percentstereomeric excess)的产物。在一些实施方案中，这些酮还原酶多肽也能够将底物转化为具有至少约99％的立体异构体过量百分比的产物。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8的氨基酸序列的参考多肽提高至少约5倍或更高的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8氨基酸序列的参考多肽提高至少约3000倍至约7000倍的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4- 氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：44、46、50、52、54、56、58、60、62、64、66、68、72、74、78、80、82、84和86的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8氨基酸序列的参考多肽提高至少7000倍的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ IDNO：102、108、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽当以大于约100g/L底物和小于约5g/L多肽进行反应时能够在少于约24小时内将至少约95％的底物转化为产物。具有这种能力的示例性多肽包括但不限于包含对应于SEQ ID NO：102、108、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽具有高立体选择性，其中该多肽能够将底物还原为处于大于约99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％立体异构体过量的产物。具有高立体选择性的示例性酮还原酶多肽包括但不限于包含对应于SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，改进的酮还原酶多肽包含对应于序列式SEQ IDNO：161、162或163(或其区域，诸如残基90-211)的氨基酸序列。SEQ IDNO：162是基于高加索酸奶乳杆菌酮还原酶的氨基酸序列SEQ ID NO：4。SEQ ID NO：161的序列式是基于短乳杆菌酮还原酶的氨基酸序列(SEQ IDNO：2)。SEQ ID NO：163的序列式是基于微小乳杆菌(Lactobacillus minor)酮还原酶的氨基酸序列(SEQ ID NO：158)。SEQ ID NO：161、162或163指定残基X145为极性残基并且残基X190为半胱氨酸。

在一些实施方案中，本公开内容的改进的酮还原酶多肽是基于序列式 SEQ ID NO：161、162或163并且可以包含与SEQ ID NO：128、130或160的参考序列至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是该酮还原酶氨基酸序列在对应于残基X145的残基处具有丝氨酸，并且在对应于X190的氨基酸残基处具有半胱氨酸。在一些实施方案中，相比于SEQ IDNO：128、130或160，酮还原酶多肽可具有一个或更多个氨基酸残基差异。这些差异可以是氨基酸的插入、缺失、取代或这些改变的任意组合。在一些实施方案中，氨基酸序列差异可以包括非保守的、保守的氨基酸取代以及非保守的和保守的氨基酸取代的组合。本文描述了可以进行这些改变的多种氨基酸残基位置。

在一些实施方案中，改进的酮还原酶多肽是基于序列式SEQ IDNO：161、162或163，并且可以包含具有与SEQ ID NO：128、130或160的参考序列的区域或结构域诸如残基90-211至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列的区域，条件是该酮还原酶多肽氨基酸序列在对应于残基X145的残基处具有丝氨酸，并且在对应于X190的氨基酸残基处具有半胱氨酸。在一些实施方案中，氨基酸序列差异可以包括非保守的、保守的氨基酸取代以及非保守的和保守的氨基酸取代的组合。本文描述了可以在限定区域内进行这些改变的多种氨基酸残基位置。

在一些实施方案中，改进的酮还原酶包含的氨基酸序列与对应于SEQID NO：8、42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，其中改进的酮还原酶多肽氨基酸序列包含在表3和表4中提供的任意一组指定的氨基酸取代组合。在一些实施方案中，这些酮还原酶多肽可以具有在其他氨基酸残基处的突变。

另一方面，本公开内容提供了编码本文所述的工程化酮还原酶的多核苷酸或在高度严格条件下与这些多核苷酸杂交的多核苷酸。多核苷酸可以包含启动子和用于表达编码的工程化酮还原酶的其他调节元件，并且可以利用为期望的特定表达系统优化的密码子。在一些实施方案中，多核苷酸编码的酮还原酶多肽具有与SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的氨基酸序列相比的至少以下氨基酸序列：对应于X145的氨基酸残基是丝氨酸，并且对应于X190的氨基酸残基是半胱氨酸。示例性多核苷酸包括但不限于SEQ ID NO：41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、94、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123和125的多核苷酸序列。

另一方面，本公开内容提供了包含本文所述的多核苷酸和/或表达载体的宿主细胞。所述宿主细胞可以是高加索酸奶乳杆菌或短乳杆菌，或者它们可以是不同的生物体，诸如大肠杆菌(E.coli)。宿主细胞可以用于本文所述的工程化酮还原酶的表达和分离，或者可选地，它们可以直接用于将底物转化为立体异构体产物。

无论是用全细胞、细胞提取物或是用纯化的酮还原酶执行该方法，可以使用单一酮还原酶，或者可选地，可以使用两种或多种酮还原酶的混合物。

本文所述的酮还原酶能够催化结构式(I)的化合物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮(“底物”)中的酮基

到对应的结构式(II)的立体异构体醇产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮(“产物”)的还原反应：

在一些实施方案中，将具有结构式(I)的底物还原或转化为对应的结构式(II)的产物的方法包括在适于将该底物还原或转化为产物的反应条件下使该底物与本文所公开的酮还原酶多肽相接触或一起孵育。

在一些实施方案中，本文所述的酮还原酶也能够催化结构式(III)的化合物1-(4-氟苯基)-3(R)-[3-氧代-3-(4-氟苯基)丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮中的酮基

到对应的结构式(IV)的立体异构体醇产物1-(4-氟苯基)-3(R)-[3(S)-羟基-3(4-氟苯基)-丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮的还原反应，

在一些实施方案中，将具有结构式(III)的底物还原为对应的结构式(IV)的产物的方法包括在适于将式(III)的底物还原或转化为式(IV)的产物的反应条件下使式(III)的化合物与本文所公开的酮还原酶多肽相接触或一起孵育。

在这种将底物还原为产物的方法的一些实施方案中，底物被还原为处于大于约99％立体异构体过量的产物，其中酮还原酶多肽包含对应于SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的序列。

在这种将底物还原为产物的方法的一些实施方案中，当以大于约100g/L底物和小于约5g/L多肽进行反应时至少约95％的底物在少于约24小时内被转化为产物，其中多肽包含对应于SEQ ID NO：102、108、120、122、124或126的氨基酸序列。

附图简述

图1展示了酮还原酶(KRED)在将底物式(I)的化合物转化为对应的式(II)的产物中的作用。这种还原使用了本发明的KRED和辅因子诸如NADPH。葡萄糖脱氢酶(GDH)用于将NADP⁺转化/再循环为NADPH。葡萄糖被转化为葡糖酸，葡糖酸加上氢氧化钠进而被转化为其钠盐(葡糖酸钠)。

发明详述

定义

如本文所用，下列术语旨在具有以下含义。

“酮还原酶”和“KRED”在本文可互换使用，是指具有将羰基还原为其对应醇的酶促能力的多肽。更具体而言，本发明的酮还原酶多肽能够以立体选择性方式将上述式(I)的化合物还原为对应的上文式(II)的产物。该多肽通常利用辅因子还原型烟酰胺腺嘌呤二核苷酸(NADH)或还原型烟酰胺腺嘌呤二核苷酸磷酸(NADPH)作为还原剂。本文所用的酮还原酶包括天然存在的(野生型)酮还原酶以及通过人为操作产生的非天然存在的工程化多肽。

“编码序列”是指编码蛋白质的氨基酸序列的核酸部分(例如基因)。“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中的序列，能够从自然界来源中分离并且没有被人为操作有意修饰。

“重组体”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会另外存在的方式被改变，或与其相同但是从合成材料和/或通过使用重组技术操作而产生或获取。非限制性实例包括但不限于表达在细胞的固有(非重组)形式中未发现的基因或表达另外以不同水平表达的固有基因的重组细胞。

“序列同一性百分比”和“同源性百分比”在本文可互换使用，是指多核苷酸和多肽之间的比较，并且通过跨比较窗口比较两条最佳比对的序列来确定，其中在所述比较窗口中的多核苷酸或多肽序列的部分可以包括相比于参考序列(它不包括添加或缺失)的添加或缺失(即空位)，以用于这两条序列的最优比对。该百分比可通过以下方式计算：确定相同的核酸碱基或氨基酸残基在两条序列中都存在的位置的数目以得出匹配的位置的数目，用匹配的位置的数目除以比较窗口中的位置的总数目，并且将结果乘以100得出序列同一性百分比。可选地，该百分比可通过以下方式计算：确定相同的核酸碱基或氨基酸残基在两条序列中都存在的位置的数目或者核酸碱基或氨基酸残基与空位对齐的位置的数目以得出匹配的位置的数目，用匹配的位置的数目除以比较窗口中的位置的总数目，并且将结果乘以100得出序列同一性百分比。本领域技术人员理解存在许多已建立的可用于比对两条序列的算法。例如通过Smith和Waterman，1981，Adv.Appl.Math.2：482的局部同源性算法，通过Needleman和Wunsch，1970，J.Mol.Biol.48：443的同源性比对算法，通过Pearson和Lipman，1988，Proc.Natl.Acad.Sci.USA 85：2444的相似性搜寻方法，通过这些算法的计算机化实现(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA)，或者通过目视检查(一般参见，Current Protocols in Molecular Biology(现代分子生物学实验技术)，F.M.Ausubel等人，编，Current Protocols(现代实验技术)，Greene Publishing Associates，Inc.与John Wiley&Sons，Inc.之间的合作项目(1995增补)(Ausubel))，可以进行用于比较的序列的最佳比对。适于确定序列同一性和序列相似性百分比的算法的实例是分别被描述于Altschul等人，1990，J.Mol.Biol.215：403-410和Altschul等人，1977，Nucleic Acids Res.3389-3402中的BLAST和BLAST 2.0算法。用于执行BLAST分析的软件是通过美国国家生物技术信息中心网站公开可用的。这种算法包括首先通过识别问询序列中具有长度W的字(word)来识别高得分序列对(HSP)，该高得分序列对当与数据库序列中的相同长度的字对齐时匹配或满足某个正值阈值得分T。T被称为相邻字得分阈值(neighborhood word score threshold)(Altschul等人，上述)。这些最初的相邻字匹配(word hit)充当用于启动搜索的种子以寻找包含它们的更长的HSP。然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。对于核苷酸序列，使用参数M(对一对匹配残基的奖励得分；总是＞0)和N(对错配残基的处罚得分；总是＜0)计算累计得分。对于氨基酸序列，使用得分矩阵来计算累计得分。当发生以下情况时字匹配在每个方向上的延伸停止：累计比对得分从其所达到的最大值下降了量X；由于一个或更多个负得分残基比对的累积，累计得分趋于零或零以下；或者到达每条序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列而言)使用字长(W)11、期望(E)10、M＝5、N＝-4以及两条链的比较作为缺省值。对于氨基酸序列，BLASTP程序使用字长(W)3、期望(E)10以及BLOSUM62得分矩阵作为缺省值(参见Henikoff和Henikoff，1989，Proc Natl Acad Sci USA 89：10915)。序列比对和％序列同一性的示例性确定可以利用GCG Wisconsin软件包(Accelrys，Madison WI)中的BESTFIT或GAP程序，使用提供的缺省参数。

“参考序列”是指用作序列比较的基础的限定序列。参考序列可以是较大序列的子部分(subset)，例如，全长基因或多肽序列的区段。一般而言，参考序列长度为至少20个核苷酸或氨基酸残基，至少25个残基，至少50个残基，或者核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包含在这两条序列之间相似的序列(即完整序列的一部分)，以及(2)还可以包含在这两条序列之间相异的序列，所以在两种(或更多种)多核苷酸或多肽之间的序列比较通常是通过跨“比较窗口”比较这两种多核苷酸的序列而进行的，以识别和比较局部区域的序列相似性。

“比较窗口”是指至少约20个连续核苷酸位置或氨基酸残基的概念性区段，其中可以将序列与至少20个连续核苷酸或氨基酸的参考序列进行比较，并且其中在比较窗口中的序列的部分可以包括与参考序列(它不包括添加或缺失)相比20％或更少的添加或缺失(即空位)，以用于这两条序列的最优比对。比较窗口可以比20个连续残基长，并且任选地包括30、40、50、100或更长的窗口。

“基本同一性(Substantial identity)”是指具有与参考序列跨至少20个残基位置的比较窗口、通常至少30-50个残基的窗口相比至少80％序列同一性、至少85％同一性以及89％至95％序列同一性、更通常至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性百分比是通过跨比较窗口比较参考序列与包括参考序列的总计20％或更少的缺失或添加的序列而计算的。在应用于多肽的特定实施方案中，术语“基本同一性”表示两条多肽序列当通过诸如程序GAP或BESTFIT使用缺省空位权重(default gapweight)进行最优比对时共有至少80％的序列同一性，优选至少89％序列同一性，至少95％序列同一性或更大(例如，99％序列同一性)。优选地，不相同的残基位置差别在于保守的氨基酸取代。

“对应于”、“关于”或“相对于”当用在给定氨基酸或多核苷酸序列的编号上下文中时，是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基编号。换言之，给定聚合物的残基号码或残基位置是根据参考序列指定的，而不是给定氨基酸或多核苷酸序列内的残基的实际数字位置。例如，可以将给定的氨基酸序列诸如工程化酮还原酶的氨基酸序列与参考序列进行比对，这是通过引入空位以优化这两条序列之间的残基匹配而实现的。在这些情况下，尽管存在空位，对给定氨基酸或多核苷酸序列中的残基进行编号是根据与其进行比对的参考序列。

“立体选择性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种，或者立体选择性可以是完全的，其中只形成一种立体异构体。当立体异构体是对映体时，立体选择性被称为对映体选择性，即一种对映体在两种对映体之和中的分数(通常被报告为百分比)。它在本领域中通常可选地被报告为(通常为百分比)根据式[主要对映体-次要对映体]/[主要对映体+次要对映体]从其计算出的对映体过量(e.e.)。当立体异构体是非对映体时，立体选择性被称为非对映体选择性，即一种非对映体在两种非对映体的混合物之中的分数(通常被报告为百分比)，通常被可选地报告为非对映体过量(d.e)。对映体过量和非对映体过量是立体异构体过量的类型。

“高立体选择性”：是指能够将底物转化或还原为对应的具有至少约99％立体异构体过量的(S)-产物的酮还原酶多肽。

“立体特异性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先转化。立体特异性可以是部分的，其中一种立体异构体的转化优于另一种，或者立体特异性可以是完全的，其中只转化一种立体异构体。

“化学选择性”是指在化学反应或酶促反应中一种产物比另一种产物优先形成。

“改进的酶特性”是指与参考酮还原酶相比展现出在任何酶特性上的改进的酮还原酶多肽。对于本文所述的工程化酮还原酶多肽而言，这种比较一般是对野生型酮还原酶作出的，但是在一些实施方案中，参考酮还原酶可以是另一种改进的工程化酮还原酶。期望改进的酶特性包括但不限于酶活性(它可以按照底物转化百分比来表示)、热稳定性、pH活性概况、辅因子需求、对抑制剂(例如，产物抑制)的不应性、立体特异性和立体选择性(包括对映体选择性)。

“提高的酶活性”是指与参考酮还原酶相比可以由比活性(例如，产生的产物/时间/重量蛋白)的提高或者由底物转化为产物的百分比(例如，使用指定量的KRED在指定时间段内将起始量的底物转化为产物的百分比)的提高表示的工程化酮还原酶多肽的改进特性。确定酶活性的示例性方法被提供在实施例中。可以影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的改变能够导致提高的酶活性。酶活性的改进可以是从对应的野生型酮还原酶的约1.5倍酶活性，到相比于天然存在的酮还原酶或从中获取酮还原酶多肽的另一种工程化酮还原酶的多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍、150倍、200倍、500倍、1000，倍、3000倍、5000倍、7000倍或更大的酶活性。在具体的实施方案中，工程化酮还原酶展现出在比母体酮还原酶的酶活性大150倍到3000倍、3000倍到7000倍或多于7000倍的范围内的改进的酶活性。本领域技术人员理解，任何酶的活性都受扩散限制以致催化转换率不能超过包括任何所需的辅因子在内的底物的扩散速率。扩散限制的理论最大值或k_cat/K_m一般是约10⁸到10⁹(M^-1s^-1)。因此，酮还原酶的酶活性上的任何改进将具有与酮还原酶所作用的底物的扩散速率相关的上限。酮还原酶活性可以通过用于测量酮还原酶的标准测定中的任何一种来测量，例如由于伴随着酮还原为醇的NADPH氧化所致的NADPH的吸光度或荧光减少，或者通过在偶联测定中所产生的产物来测量。使用本文进一步详述的限定的酶制备、在设置条件下的确定的测定以及一种或多种确定的底物，进行酶活性的比较。一般而言，在比较溶胞产物时，确定所测定的细胞数目和蛋白的量，并使用相同的表达系统和相同的宿主细胞以使得由该宿主细胞所产生并存在于溶胞产物中的酶量的改变最小化。

“转化”是指底物被酶促还原为对应的产物。“转化百分比”是指在指定条件下在一段时间内被还原为产物的底物的百分比。因此，酮还原酶多肽的“酶活性”或“活性”可以表示为底物到产物的“转化百分比”。

“热稳定的”是指与未处理的酶相比，在暴露于升高的温度(例如40-80℃)一段时间(例如0.5-24小时)后保持相似活性(例如多于60％到80％)的酮还原酶多肽。

“溶剂稳定的”是指与未处理的酶相比，在暴露于不同浓度(例如，5-99％)的溶剂(异丙醇、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等等)一段时间(例如0.5-24小时)后保持相似活性(多于例如60％到80％)的酮还原酶多肽。

“pH稳定的”是指与未处理的酶相比，在暴露于高pH或低pH(例如4.5-6或8到12)一段时间(例如0.5-24小时)后保持相似活性(例如多于60％到80％)的酮还原酶多肽。

“热稳定且溶剂稳定的”是指既热稳定又溶剂稳定的酮还原酶多肽。

在工程化酮还原酶的上下文中，本文所用的“源自于”标明了该工程化以之为基础的起源的酮还原酶和/或编码这种酮还原酶的基因。例如，通过经多代人工发展编码SEQ ID NO：4的高加索酸奶乳杆菌酮还原酶的基因，获得了SEQ ID NO：158的工程化酮还原酶。因此，这种工程化酮还原酶“源自于”SEQ ID NO：4的野生型酮还原酶。

“亲水性氨基酸或残基”是指根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的一致的标准化疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。遗传编码的亲水性氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

“酸性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出小于约6的pK值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理pH下通常具有带负电的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

“碱性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出大于约6的pK值的侧链的亲水性氨基酸或残基。碱性氨基酸由于与水合氢离子缔合在生理pH下通常具有带正电的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

“极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷但具有如下至少一个键的亲水性氨基酸或残基：在所述至少一个键中由两个原子共有的电子对被这两个原子之一更紧密地持有。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

“疏水性氨基酸或残基”是指根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的一致的标准化疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。遗传编码的疏水性氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

“芳香族氨基酸或残基”是指具有包括至少一个芳环或杂芳环的侧链的亲水性或疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管L-His(H)由于其杂芳香族氮原子的pKa有时被分类为碱性残基，或者因为其侧链包括杂芳环而被分类为芳香族残基，但本文的组氨酸被分类为亲水性残基或“受限制的残基(constrained residue)”(见下面)。

“受限制的氨基酸或残基”是指具有受限制的几何形状的氨基酸或残基。本文中，受限制的残基包括L-pro(P)和L-his(H)。组氨酸具有受限制的几何形状，因为它具有相对小的咪唑环。脯氨酸具有受限制的几何形状，因为它也具有五元环。

“非极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷并且具有如下键的疏水性氨基酸或残基：在所述键中由两个原子共有的电子对一般被这两个原子中每一个同等持有(即侧链是没有极性的)。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

“脂肪族氨基酸或残基”是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的脂肪族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。

“半胱氨酸”.氨基酸L-Cys(C)是独特的，因为它能够与其他L-Cys(C)氨基酸或其他包含硫烷基或硫氢基的氨基酸形成二硫键桥。“半胱氨酸样残基”包括半胱氨酸和其他包含可用于形成二硫键桥的硫氢基部分的氨基酸。L-Cys(C)(和其他具有包含-SH的侧链的氨基酸)以游离-SH还原形式或氧化的二硫键桥形式存在于肽中的能力影响L-Cys(C)是否把净疏水性或净亲水性贡献给肽。尽管根据Eisenberg的一致的标准化量表(Eisenberg等人，1984，上述)L-Cys(C)展现出0.29的疏水性，但应理解出于本公开内容的目的将L-Cys(C)归为它自己一组。

“小氨基酸或残基”是指具有由总计三个或更少的碳和/或杂原子(不包括α-碳和氢)组成的侧链的氨基酸或残基。根据以上定义可以将小氨基酸或残基进一步归类为脂肪族、非极性、极性或酸性的小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

“包含羟基的氨基酸或残基”是指包含羟基(-OH)部分的氨基酸。遗传编码的包含羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

“保守的”氨基酸取代或突变是指具有相似侧链的残基的可互换性，并因此通常包括用相同或相似定义的氨基酸类别中的氨基酸取代多肽中的氨基酸。然而，如本文所用，保守的突变不包括从亲水性残基到亲水性残基、疏水性残基到疏水性残基、包含羟基的残基到包含羟基的残基、或小残基到小残基的取代，但保守的突变可以是从脂肪族残基到脂肪族残基、非极性残基到非极性残基、极性残基到极性残基、酸性残基到酸性残基、碱性残基到碱性残基、芳香族残基到芳香族残基、或受限制的残基到受限制的残基的取代。此外，如本文所用，A、V、L或I可以被保守突变为另一种脂肪族残基或另一种非极性残基。以下表1显示了示例性保守取代。

表1：保守取代

“非保守取代”是指用具有显著差别的侧链特性的氨基酸取代或突变多肽中的氨基酸。非保守取代可以利用以上列出的限定组之间而不是它们之内的氨基酸。在一个实施方案中，非保守突变影响：(a)取代区域(例如，脯氨酸取代甘氨酸)中的肽骨架的结构，(b)电荷或疏水性，或(c)侧链体积。

“缺失”是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或者20个或更多个氨基酸、高达氨基酸总数的10％、或高达组成参考酶的氨基酸总数的20％，同时保留酶活性和/或保留工程化酮还原酶的改进特性。缺失可以针对多肽的内部和/或端部。在多个实施方案中，缺失可以包括连续的区段或者可以是不连续的。

“插入”是指通过向参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一些实施方案中，改进的工程化酮还原酶包括一个或更多个氨基酸插入天然存在的酮还原酶多肽，以及一个或更多个氨基酸插入其他改进的酮还原酶多肽。插入可以在多肽的内部或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基酸的连续区段，或者在天然存在的多肽中被一个或更多个氨基酸分隔。

“不同于”或“差别在于”就指明的参考序列而言是指给定的氨基酸序列或多核苷酸序列当与参考序列比对时的差异。一般而言，这些差异可以在这两条序列被最优比对时确定。差异包括与参考序列的比较，氨基酸残基的插入、缺失或取代。

如本文所用的“片段”是指如下多肽：所述多肽具有氨基端和/或羧基端缺失，但其中剩余的氨基酸序列与该序列中的对应位置相同。片段可以为至少14个氨基酸长、至少20个氨基酸长，至少50个氨基酸长或更长，以及高达全长酮还原酶多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上自其天然伴随的其他污染物例如蛋白、脂质和多核苷酸中分离。该术语包括已自其天然存在环境或表达系统(例如，宿主细胞或体外合成)中移出或纯化的多肽。改进的酮还原酶可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如溶胞产物或分离的制备物。像这样，在一些实施方案中，改进的酮还原酶可以是分离的多肽。

“基本上纯的多肽”是指如下组合物：在所述组合物中多肽物类是存在的优势物类(即，在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富)，并且当目标物类构成存在的大分子物类的按摩尔或重量％计至少约50％时一般是基本上纯化的组合物。一般而言，基本上纯的酮还原酶组合物将构成该组合物中存在的所有大分子物类的按摩尔或重量％计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物类纯化至基本的均一性(即，通过常规检测方法不能在组合物中检测出污染物类)，其中组合物基本上由单一大分子物类组成。溶剂物类、小分子(＜500道尔顿)、以及元素离子物类不被认为是大分子物类。在一些实施方案中，分离的改进酮还原酶多肽是基本上纯的多肽组合物。

如本文所用的“严格杂交”是指如下条件：在所述条件下核酸杂交体是稳定的。如本领域技术人员已知的，杂交体的稳定性反映在杂交体的解链温度(T_m)上。一般而言，杂交体的稳定性随离子强度、温度、G/C含量和离液剂的存在而变化。多核苷酸的T_m值可以使用预测解链温度的已知方法计算(参见例如，Baldino等人，MethodsEnzymology 168：761-777；Bolton等人，1962，Proc.Natl.Acad.Sci.USA 48：1390；Bresslauer等人，1986，Proc.Natl.Acad.Sci USA 83：8893-8897；Freier等人，1986，Proc.Natl.Acad.SciUSA 83：9373-9377；Kierzek等人，Biochemistry 25：7840-7846；Rychlik等人，1990，Nucleic Acids Res 18：6409-6412(勘误，1991，Nucleic Acids Res19：698)；Sambrook等人，上述)；Suggs等人，1981，在Developmental BiologyUsing Purified Genes(使用纯化基因的发育生物学)(Brown等人，编)，第683-693页，Academic Press中；以及Wetmur，1991，Crit Rev Biochem MolBiol 26：227-259。所有的出版物均通过引用并入本文)。在一些实施方案中，多核苷酸编码本文公开的多肽并且在限定条件下诸如在中度严格或高度严格条件下与编码本公开内容的工程化酮还原酶的序列的互补序列杂交。

“杂交严格度”涉及核酸的这些洗涤条件。一般而言，在较低严格度条件下进行杂交反应，接着是具有不同但更高的严格度的洗涤。术语“中度严格杂交”是指允许靶DNA结合互补核酸的条件，所述互补核酸对该靶DNA具有约60％同一性、优选约75％同一性、约85％同一性；对靶多核苷酸具有大于约90％同一性。示例性中度严格条件是等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中杂交，接着在42℃于0.2×SSPE、0.2％SDS中洗涤的条件。“高严格度杂交”一般是指如下条件：距离在用于限定的多核苷酸序列的溶液条件之下确定的热解链温度T_m约10℃或更小。在一些实施方案中，高严格度条件是指允许仅那些在65℃于0.018M NaCl中形成稳定杂交体的核酸序列杂交的条件(即，如果杂交体在65℃于0.018M NaCl中不稳定，它在本文考虑的高严格度条件下将是不稳定的)。可以例如通过在等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS的条件中杂交，接着在65℃于0.1×SSPE和0.1％SDS中洗涤，而提供高严格度条件。其他高严格度杂交条件以及中度严格条件描述于以上引用的参考文献中。

“异源”多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中移出、经历实验室操作、然后引入宿主细胞中的多核苷酸。

“密码子优化的”是指编码蛋白质的多核苷酸的密码子变为特定生物体中优先使用的那些密码子，以致所编码的蛋白被有效表达在感兴趣的生物体中。尽管遗传密码由于大多数氨基酸被称作“同义物(synonym)”或“同义”密码子的几个密码子代表而为简并的，但众所周知具体生物体的密码子使用是非随机的且偏于特定的密码子三联体。就给定基因、具有共同功能或祖先起源的基因、高表达蛋白相对于低拷贝数蛋白以及生物体基因组的聚集蛋白编码区而言，这种密码子使用偏向可能更高。在一些实施方案中，可以对编码酮还原酶的多核苷酸进行密码子优化，以用于从为表达所选的宿主生物体中优化生产。

“优选的密码子、优化的密码子、高密码子使用偏向的密码子”可互换地指在蛋白编码区中以高于编码同一氨基酸的其他密码子的频率被使用的密码子。优选的密码子可以根据在单基因、一组具有共同功能或起源的基因、高表达基因中的密码子使用，在整个生物体的聚集蛋白编码区中的密码子频率，在相关生物体中的聚集蛋白编码区中的密码子频率或它们的组合来确定。频率随基因表达水平而提高的密码子通常是用于表达的优化密码子。多种方法已知用于确定具体生物体中的密码子频率(例如，密码子使用，相对同义的密码子使用)和密码子偏好，包括多变量分析，例如使用聚类分析或对应分析，以及用于确定基因中使用的密码子的有效数目(参见GCG CodonPreference，遗传学计算机工作组Wisconsin软件包(Genetics Computer Group Wisconsin Package)；CodonW，John Peden，诺丁汉大学；McInerney，J.O，1998，Bioinformatics 14：372-73；Stenico等人，1994，Nucleic Acids Res.222437-46；Wright，F.，1990，Gene 87：23-29)。密码子使用表格可用于不断增加的生物名单(参见例如，Wada等人，1992，Nucleic Acids Res.20：2111-2118；Nakamura等人，2000，Nucl.AcidsRes.28：292；Duret等人，上述；Henaut和Danchin，“Escherichia coli andSalmonella(大肠杆菌和沙门氏菌)，”1996，Neidhardt等人编，ASM Press，Washington D.C.，第2047-2066页)。用于获得密码子使用的数据资源可依赖于能够编码蛋白的任何可用的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序列(例如，完整的蛋白编码序列-CDS)、表达序列标签(ESTS)、或基因组序列的预测编码区(参见，例如Mount，D.，Bioinformatics：Sequence and Genome Analysis(生物信息学：序列和基因组分析)，第8章，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.，2001；Uberbacher，E.C.，1996，Methods Enzymol.266：259-281；Tiwari等人，1997，Comput.Appl.Biosci.13：263-270)。

本文定义“控制序列”包括对本公开内容的多肽的表达必要或有利的所有组分。每个控制序列可能对编码多肽的核酸序列是天然的或外来的。这些控制序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。在最小程度上，控制序列包括启动子和转录及翻译的终止信号。出于引入有利于控制序列与编码多肽的核酸序列编码区的连接的特定限制性位点的目的，可向控制序列提供连接物。

“可操作地连接”在本文定义为如下一种构型：在所述构型中控制序列被适当安放在相对于DNA序列的编码序列的位置，以使得控制序列指导多核苷酸和/或多肽的表达。

“启动子序列”是由宿主细胞识别用于表达编码区的核酸序列。控制序列可以包括适当的启动子序列。启动子序列包含介导多肽的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变的、截短的和杂合的启动子，并且可以从编码细胞外多肽或细胞内多肽的与该宿主细胞同源或异源的基因中获得。

“辅因子再生系统”是指参与还原该辅因子的氧化形式的反应(例如，NADP+到NADPH)的一组反应物。通过酮还原酶催化的酮底物的还原所氧化的辅因子被辅因子再生系统以还原形式再生。辅因子再生系统包括化学计量的还原剂，所述还原剂是还原氢等同物的来源并且能够还原辅因子的氧化形式。辅因子再生系统还可以包括催化剂，例如，催化辅因子的氧化形式被还原剂还原的酶催化剂。分别从NAD+或NADP+再生NADH或NADPH的辅因子再生系统是本领域已知的并且可以用于本文所述的方法中。

酮还原酶

本公开内容提供了能够将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮立体选择性还原或转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮，并且与高加索酸奶乳杆菌(SEQ ID NO：4)、短乳杆菌(SEQ ID NO：2)或微小乳杆菌(SEQ ID NO：158)的天然存在的野生型KRED酶比较或者与其他工程化酮还原酶(例如，SEQ ID NO：8的工程化酮还原酶)比较具有改进特性的工程化酮还原酶(“KRED”)。

工程化酮还原酶(“KRED”)也能够将化合物1-(4-氟苯基)-3(R)-[3-氧代-3-(4-氟苯基)丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮立体选择性还原或转化为对应的立体异构体醇产物1-(4-氟苯基)-3(R)-[3(S)-羟基-3(4-氟苯基)-丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮，并且与高加索酸奶乳杆菌(SEQ ID NO：4)、短乳杆菌(SEQ ID NO：2)或微小乳杆菌(SEQ ID NO：158)的天然存在的野生型KRED酶比较或者与其他工程化酮还原酶(例如，SEQ ID NO：8的工程化酮还原酶)比较具有改进特性。

期望改进的酶特性包括但不限于酶活性、热稳定性、pH活性概况、辅因子需求、对抑制剂(例如，产物抑制)的不应性、立体特异性、立体选择性和溶剂稳定性。这些改进可以涉及单个酶特性诸如酶活性，或不同酶特性(诸如酶活性和立体选择性)的组合。对于本文所述的多肽，酮还原酶多肽的氨基酸序列具有以下要求：(1)对应于SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的残基145位的氨基酸残基是丝氨酸，并且(2)对应于SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的残基190位的氨基酸残基是半胱氨酸。

在一些实施方案中，如以上所指出的，相对于高加索酸奶乳杆菌酮还原酶SEQ ID NO：4、短乳杆菌酮还原酶SEQ ID NO：2或微小乳杆菌SEQ IDNO：158，描述了具有提高的酶活性的工程化酮还原酶。在两种酮还原酶中确定氨基酸残基位置，从起始的甲硫氨酸(M)残基开始(即，M代表残基位置1)，但是技术人员将理解这种起始甲硫氨酸残基可以被诸如宿主细胞或体外翻译系统中的生物加工机构移除，以产生没有起始甲硫氨酸残基的成熟蛋白。存在特定氨基酸或氨基酸改变的氨基酸残基位置有时在措辞上描述为“Xn”或“位置n”，其中n是指残基位置。当相同残基位置处的氨基酸残基在酮还原酶之间不同时，这些不同残基用“/”表示，排列为：例如“高加索酸奶乳杆菌残基/短乳杆菌残基/微小乳杆菌残基”。取代突变是以不同氨基酸残基对参考序列对应残基中氨基酸残基的置换，所述参考序列例如野生型酮还原酶SEQ ID NO：2、SEQ ID NO：4或SEQ IDNO：158，取代突变用符号“→”表示。

在本文，有时将突变描述为突变“到一种”氨基酸类型。例如，残基211可以被突变“到一种”碱性残基。但是短语“到一种”的使用不排除从一种类别的一种氨基酸到同一类别的另一种氨基酸的突变。例如，残基211可以从赖氨酸突变到精氨酸。

编码高加索酸奶乳杆菌和短乳杆菌的天然存在的酮还原酶(也称为“醇脱氢酶”或“ADH”)的多核苷酸序列以及由此对应的氨基酸序列可以从高加索酸奶乳杆菌的Genbank获取号AAP94029GI：33112056、短乳杆菌的Genbank获取号CAD66648GI：28400789以及美国专利申请第20040265978号或微小乳杆菌的SEQ ID NO：158获得。

在一些实施方案中，本文的酮还原酶多肽可以具有对参考序列(例如，天然存在的多肽或工程化多肽)的许多修饰来产生改进的酮还原酶特性。在这些实施方案中，对氨基酸序列的修饰的数目可以包括一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、高达氨基酸总数的10％、高达氨基酸总数的20％、或高达参考酶序列的氨基酸总数的30％。在一些实施方案中，对天然存在的多肽或产生改进的酮还原酶特性的工程化多肽的修饰的数目可以包括参考序列的约1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35或约1-40个修饰。修饰可以包括插入、缺失、取代或其组合。

在一些实施方案中，修饰包括对参考序列的氨基酸取代。能够产生改进的酮还原酶特性的取代可以是一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、或20个或更多个氨基酸、高达氨基酸总数的10％、高达氨基酸总数的20％、或高达参考酶序列的氨基酸总数的30％。在一些实施方案中，对天然存在的多肽或产生改进的酮还原酶特性的工程化多肽的取代的数目可以包括参考序列的约1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35或约1-40个氨基酸取代。

在一些实施方案中，与野生型或另一种工程化多肽相比，酮还原酶多肽的改进特性是关于其立体选择性的提高，即在本文为将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮还原或转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的产物立体异构体过量的提高。在一些实施方案中，酮还原酶多肽的改进特性是关于其将较大百分比的底物转化或还原为产物的能力的提高。在一些实施方案中，酮还原酶多肽的改进特性是关于其将底物转化为产物的速率的提高。这种酶活性的改进可以通过与野生型或其他参考序列(例如SEQ IDNO：8)相比使用较少的改进多肽来还原或转化相同量的产物的能力来显示。在一些实施方案中，酮还原酶多肽的改进特性是关于其稳定性或热稳定性。在一些实施方案中，酮还原酶多肽具有多于一种改进特性。

在一些实施方案中，本公开内容的酮还原酶多肽能够以至少约90％的立体异构体过量百分比和比SEQ ID NO：8的氨基酸序列提高的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。因为具有SEQ ID NO：8氨基酸序列的参考多肽能够以一定速率(例如，用大约5g/L的KRED在24小时内将4％的1g/L底物转化为产物)和比野生型(SEQ ID NO：4)改进的立体选择性(94％立体异构体过量)将底物转化为产物，所以本文比SEQ ID NO：8改进的多肽也比野生型改进。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8氨基酸序列的参考多肽提高至少约5倍的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8氨基酸序列的参考多肽提高至少约120倍或更高的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基 -1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8氨基酸序列的参考多肽改进至少约3000倍或更高的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，酮还原酶多肽能够以至少约99％的立体异构体过量百分比和比具有SEQ ID NO：8氨基酸序列的参考多肽改进至少约7000倍或更高的速率将底物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。具有这些特性的示例性多肽包括但不限于包含对应于SEQ ID NO：102、108、120、122、124和126的氨基酸序列的多肽。

在一些实施方案中，本公开内容的酮还原酶多肽包括能够将底物还原为处于大于约99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％立体异构体过量的产物的高立体选择性酮还原酶多肽。具有这种高立体选择性的示例性酮还原酶多肽包括但不限于包含对应于SEQID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列的多肽。

以下的表2、表3和表4提供了本文公开的具有相关活性的SEQ ID NO列表。除非另外指明，否则以下序列是基于野生型高加索酸奶乳杆菌酮还原酶序列(SEQ ID NO：3和SEQ ID NO：4)。在以下的表中，每个横行列出两个SEQ ID NO，其中奇数是指编码由偶数提供的氨基酸序列的核苷酸序列。列出突变(即残基改变)数目的纵行是指与SEQ ID NO：4的高加索酸奶乳杆菌KRED氨基酸序列相比的氨基酸取代数目。每个表后面跟着标明符号“+”、“++”、“+++”和“++++”在每个上下文中的含义的说明。

表2

以下表3和表4显示各种酮还原酶的活性概况。

表4

在一些实施方案中，本文的酮还原酶多肽包含与包含序列SEQ IDNO：128、SEQ ID NO：130或SEQ ID NO：160的参考序列相比至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是该酮还原酶多肽包含如下氨基酸序列：在所述氨基酸序列中对应于残基145位的氨基酸残基是极性残基，并且对应于残基190位的氨基酸残基是半胱氨酸。SEQ ID NO：128、SEQ IDNO：130和SEQ ID NO：160的多肽分别是短乳杆菌酮还原酶、高加索酸奶乳杆菌酮还原酶和微小乳杆菌酮还原酶的变体，各自具有序列取代：E145S和Y190C。在一些实施方案中，酮还原酶多肽包含如下氨基酸序列：在所述氨基酸序列中对应于残基145位的氨基酸残基是丝氨酸，并且对应于190位的氨基酸残基是半胱氨酸。在一些实施方案中，相比于参考序列，酮还原酶多肽可以在其他氨基酸残基处具有一种或多种残基差异。这些差异可以包括与参考序列SEQ ID NO：128、SEQ ID NO：130或SEQ ID NO：160中的任何一个相比的取代、缺失和插入。这些差异可以是非保守取代、保守取代或非保守取代与保守取代的组合。在一些实施方案中，这些酮还原酶多肽可以任选地在其他氨基酸残基处具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15 个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个差异。在一些实施方案中，与参考序列相比的差异数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个差异。在一些实施方案中，这些差异包括与参考序列相比的保守突变。

在一些实施方案中，改进的酮还原酶多肽包含基于SEQ ID NO：161、162或163中列出的序列式或其区域(诸如残基90-211)的氨基酸序列。SEQ ID NO：161的序列式是基于由SEQ ID NO：2表示的短乳杆菌酮还原酶的氨基酸序列。SEQ ID NO：162的序列式是基于由SEQ ID NO：4表示的高加索酸奶乳杆菌酮还原酶的氨基酸序列。SEQ ID NO：163的序列式是基于由SEQ ID NO：158表示的微小乳杆菌酮还原酶的氨基酸序列。在一些实施方案中，基于序列式SEQ ID NO：161、162或163的酮还原酶多肽可以包含与SEQ ID NO：128、130或160至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是该酮还原酶多肽具有如下氨基酸序列：在所述氨基酸序列中对应于X145的残基为极性残基，尤其为丝氨酸，并且对应于X190的氨基酸残基为半胱氨酸。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的一个或更多个特征：对应于X3的残基是酸性、极性或亲水性残基；对应于X7的残基是非极性或极性残基；对应于X17的残基是非极性、脂肪族或极性残基；对应于X21的残基是非极性、芳香族、或疏水性残基；对应于X25的残基是酸性、非极性或极性残基；对应于X29的残基是酸性、脂肪族或非极性残基；对应于X40的残基是受限制的、碱性、或亲水性残基；对应于X42的残基是酸性或非极性残基；对应于X53的残基是非极性或酸性残基；对应于X75的残基是酸性或极性残基；对应于X94的残基是非极性或极性残基；对应于X95的残基是非极性或脂肪族残基；对应于X96 的残基是极性残基；对应于X101的残基是酸性、非极性、或极性残基；对应于X105的残基是酸性或非极性残基；对应于X108的残基是亲水性、极性或受限制的残基；对应于X111的残基是非极性或脂肪族残基；对应于X112的残基是酸性或极性残基；对应于X113的残基是非极性或脂肪族残基；对应于X117的残基是非极性或极性残基；对应于X127的残基是碱性或极性残基；对应于X147的残基是非极性、芳香族、或疏水性残基；对应于X152的残基是非极性、碱性残基、或亲水性残基；对应于X157的残基是极性残基；对应于X163的残基是非极性或脂肪族残基；对应于X176的残基是非极性或脂肪族残基；对应于X194的残基是受限制的、碱性、或极性残基；对应于X197的残基是亲水性、酸性、碱性、脂肪族或非极性残基；对应于X198的残基是酸性、碱性、亲水性、或非极性残基；对应于X199的残基是酸性、脂肪族、或非极性残基；对应于X200的残基是酸性或受限制的残基；对应于X202的残基是非极性或脂肪族残基；对应于X206的残基是非极性、芳香族、或疏水性残基；对应于X211的残基是碱性残基；对应于X223的残基是非极性或脂肪族残基；并且对应于X250的残基是极性或非极性残基。在一些实施方案中，包含与SEQ ID NO：161、162或163中提供的序列式(或其区域)对应的氨基酸序列的多肽可以额外具有不被要突变的X所指定的残基中的一个或更多个。在一些实施方案中，这些突变可以是在不由以上X所限定的其他氨基酸残基处的1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个突变。在一些实施方案中，突变的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个突变。在一些实施方案中，突变包括保守突变。

在以上一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，包含与SEQ ID NO：161、162或163中所列出的序列式(或其区域)对应的氨基酸序列的酮还原酶多肽可以具有一个或更多个保守突变。示例性保守突变包括氨基酸置换，诸如但不限于：用另一个非极性氨基酸例如丙氨酸、亮氨酸、异亮氨酸、甘氨酸或甲硫氨酸置换对应于X95的残基(缬氨酸)；用另一个极性氨基酸例如天冬酰胺、谷氨酰胺、或苏氨酸置换对应于X96的残基(丝氨酸)；用另一个非极性氨基酸例如丙氨酸、亮氨酸、异亮氨酸、甘氨酸或甲硫氨酸置换对应于X111的残基(亮氨酸)；用另一个脂肪族氨基酸例如丙氨酸、亮氨酸或异亮氨酸置换对应于X113的残基(缬氨酸)；用另一个极性氨基酸例如谷氨酰胺、丝氨酸或苏氨酸置换对应于X157的残基(天冬酰胺)；用另一个脂肪族氨基酸例如丙氨酸、亮氨酸或异亮氨酸置换对应于X163的残基(缬氨酸)；用另一个脂肪族氨基酸例如丙氨酸、缬氨酸和异亮氨酸置换对应于X176的残基(亮氨酸)；用另一个非极性氨基酸例如丙氨酸、亮氨酸、异亮氨酸、甘氨酸或甲硫氨酸置换对应于X202的残基(丙氨酸)；用另一个碱性氨基酸例如精氨酸置换对应于X211的残基(赖氨酸)；用另一个脂肪族氨基酸例如丙氨酸、亮氨酸或缬氨酸置换对应于X223的残基(异亮氨酸)。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的一个或更多个特征：对应于X3的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺；对应于X7的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X17的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是谷氨酰胺；对应于X21的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸或色氨酸，特别是苯丙氨酸；对应于X25的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是苏氨酸；对应于X29的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸或丙氨酸；对应于X40的残基是组氨酸、赖氨酸、精氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是精氨酸；对应于X42的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸；对应于X53的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、天冬氨酸、谷氨酸，特别是天冬氨酸；对应于X75的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是精氨酸；对应于X94的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺、甘氨酸或丝氨酸；对应于X95的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是亮氨酸或甲硫氨酸；对应于X96的残基是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是谷氨酰胺、天冬酰胺或苏氨酸；对应于X101的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺或甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸或天冬酰胺；对应于X105的残基是谷氨酸、天冬氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是甘氨酸；对应于X108的残基是精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、组氨酸，特别是组氨酸或丝氨酸；对应于X111的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甲硫氨酸；或脂肪族残基；对应于X112的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是天冬氨酸；对应于X113的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是丙氨酸；对应于X117的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X127的残基是赖氨酸、精氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是精氨酸；对应于X147的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸、色氨酸，特别是亮氨酸；对应于X152的残基是甘氨酸、甲硫氨酸、缬氨酸、亮氨酸、异亮氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是甲硫氨酸或赖氨酸；对应于X157的残基是丝氨酸、苏氨酸、天冬酰胺、和谷氨酰胺，特别是苏氨酸；对应于X163的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是异亮氨酸；对应于X176的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是缬氨酸；对应于X194的残基是脯氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是精氨酸或谷氨酰胺；对应于X197的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是缬氨酸或谷氨酸；对应于X198的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸、谷氨酸或赖氨酸；对应于X199的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是天冬氨酸；对应于X200的残基是天冬氨酸、谷氨酸或脯氨酸，特别是脯氨酸；对应于X202的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是甘氨酸；对应于X206的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸、色氨酸，特别是甘氨酸；对应于X211的残基是精氨酸或赖氨酸；对应于X223的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是缬氨酸；并且对应于X250的残基是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是异亮氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，包含与序列式SEQ ID NO：161、162或163(或其区域)对应的氨基酸序列的多肽可以额外具有不被要突变的X所指定的残基中的一个或更多个。在一些实施方案中，这些突变可以是在不由以上X所限定的其他氨基酸残基处的1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个突变。在一些实施方案中，突变的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个突变。在一些实施方案中，突变包括保守突变。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的特征中的一个或更多个或至少全部：对应于X7的残基是非极性或极性残基；对应于X108的残基是亲水性、极性或受限制的残基；对应于X117的残基是非极性或极性残基；对应于X152的残基是非极性、碱性或亲水性残基；并且对应于X199的残基是酸性、脂肪族或非极性残基。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的特征中的一个或更多个或至少全部：对应于X7的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X108的残基是精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、组氨酸，特别是组氨酸或丝氨酸；对应于X117的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X152的残基是甘氨酸、甲硫氨酸、缬氨酸、亮氨酸、异亮氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是甲硫氨酸或赖氨酸；并且对应于X199的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是天冬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、 1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的特征中的一个或更多个或至少全部：对应于X3的残基是酸性、极性或亲水性残基；对应于X17的残基是非极性、脂肪族或极性残基；对应于X25的残基是酸性、非极性或极性残基；对应于X42的残基是酸性或非极性残基；对应于X94的残基是非极性或极性残基；对应于X194的残基是受限制的、碱性或极性残基；对应于X198的残基是酸性、碱性、亲水性或非极性的残基；并且对应于X200的残基是酸性或受限制的残基。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、 92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的特征中的一个或更多个或至少全部：对应于X3的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺；对应于X17的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是谷氨酰胺；对应于X25的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是苏氨酸；对应于X42的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸；对应于X94的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺、甘氨酸或丝氨酸；对应于X194的残基是脯氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是精氨酸或谷氨酰胺；对应于X198的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸、谷氨酸或赖氨酸；对应于X200的残基是天冬氨酸、谷氨酸或脯氨酸，特别是脯氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、 91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的特征中的一个或更多个或至少全部：对应于X3的残基是酸性、极性、或亲水性残基；对应于X7的残基是非极性或极性残基；对应于X17的残基是非极性、脂肪族或极性残基；对应于X25的残基是酸性、非极性或极性残基；对应于X42的残基是酸性或非极性残基；对应于X94的残基是非极性或极性残基；对应于X108的残基是亲水性、极性或受限制的残基；对应于X117的残基是非极性或极性残基；对应于X152的残基是非极性、碱性或亲水性残基；对应于X194的残基是受限制的、碱性或极性残基；对应于X198的残基是酸性、碱性、亲水性或非极性残基；对应于X199的残基是酸性、脂肪族或非极性残基；对应于X200的残基是酸性或受限制的残基。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163的氨基酸序列，其中该氨基酸序列具有对于本文所述的残基X145和X190的指定特征，并且其中该多肽还可以包括选自以下的特征中的一个或更多个或至少全部：对应于X3的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺；对应于X7的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X17的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是谷氨酰胺；对应于X25的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是苏氨酸；对应于X42的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸；对应于X94的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺、甘氨酸或丝氨酸；对应于X108的残基是精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、组氨酸，特别是组氨酸或丝氨酸；对应于X117的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X152的残基是甘氨酸、甲硫氨酸、缬氨酸、亮氨酸、异亮氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是甲硫氨酸或赖氨酸；对应于X194的残基是脯氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是精氨酸或谷氨酰胺；对应于X198的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸；对应于X199的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是天冬氨酸；对应于X200的残基是天冬氨酸、谷氨酸或脯氨酸，特别是脯氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、 12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X3的氨基酸残基是酸性、极性或亲水性残基，特别是天冬酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X7的氨基酸残基是非极性或极性残基，特别是丝氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X17的氨基酸残基是非极性、脂肪族或极性残基，特别是谷氨酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X21的氨基酸残基是非极性、芳香族或疏水性残基，特别是苯丙氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X25的氨基酸残基是酸性、非极性或极性残基，特别是苏氨酸或丝氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X29的氨基酸残基是酸性、脂肪族或非极性残基，特别是丙氨酸或甘氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，所述改进的酮还原酶多肽具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X40的氨基酸残基是受限制的、碱性或亲水性残基，特别是精氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、 1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X42的氨基酸残基是酸性或非极性残基，特别是甘氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X53 的氨基酸残基是非极性或酸性残基，特别是天冬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X75的氨基酸残基是酸性或极性残基，特别是天冬酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X94的氨基酸残基是非极性或极性残基，特别是甘氨酸、丝氨酸或天冬酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X95的氨基酸残基是非极性或脂肪族残基，特别是赖氨酸或甲硫氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于SEQ ID NO：128、130或160的序列式或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X96的氨基酸残基是极性残基，特别是苏氨酸、天冬酰胺或谷氨酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X101的氨基酸残基是酸性、非极性或极性残基，特别是天冬酰胺或甘氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、 1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X105的氨基酸残基是酸性或非极性残基，特别是甘氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X108的氨基酸残基是亲水性、极性或受限制的残基，特别是组氨酸、丝氨酸或天冬酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X111的氨基酸残基是非极性或脂肪族残基，特别是甲硫氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X112的氨基酸残基是酸性或极性残基，特别是天冬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X113的氨基酸残基是非极性或脂肪族残基，特别是丙氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X117的氨基酸残基是非极性或极性残基，特别是丝氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X127的氨基酸残基是碱性或极性残基，特别是精氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X147的氨基酸残基是非极性、脂肪族、芳香族或疏水性残基，特别是亮氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X152的氨基酸残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸或赖氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X157的氨基酸残基是极性残基，特别是苏氨酸或丝氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、 35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X163的氨基酸残基是非极性或脂肪族残基，特别是异亮氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X176的氨基酸残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、 1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X194的氨基酸残基是碱性受限制的、碱性或极性残基，特别是精氨酸或谷氨酰胺。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X197的氨基酸残基是亲水性、酸性、碱性、脂肪族或非极性残基，特别是谷氨酸或缬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X198的氨基酸残基是酸性、碱性、亲水性或非极性残基，特别是甘氨酸、赖氨酸或谷氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X199的氨基酸残基是酸性、脂肪族或非极性残基，并且特别是天冬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X200的氨基酸残基是酸性或受限制的残基，特别是脯氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、 1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X202的氨基酸残基是非极性残基，并且特别是甘氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X206的氨基酸残基是非极性、芳香族或疏水性残基，并且特别是甘氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，所述改进的酮还原酶多肽具有至少以下特征：对应于X145的氨基酸残基是是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X211的氨基酸残基是碱性残基，特别是精氨酸。在一些实施方案中，相比于SEQ IDNO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X223的氨基酸残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶多肽包含基于序列式SEQ IDNO：161、162或163或其区域(诸如残基90-211)的氨基酸序列，其中该氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，特别是丝氨酸；对应于X190的氨基酸残基是半胱氨酸；并且对应于X250的氨基酸残基是极性或非极性残基，特别是异亮氨酸。在一些实施方案中，相比于SEQ ID NO：128、130或160的参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中相比于基于SEQ ID NO：128、130或160的具有前述特征的参考序列，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含的氨基酸序列与对应于表3和表4中所列出的SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96或98的氨基酸序列至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，其中改进的酮还原酶多肽氨基酸序列包括在表3和表4中提供的任意一组指定的氨基酸取代组合。在一些实施方案中，相比于参考序列，酮还原酶多肽在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。

在一些实施方案中，改进的酮还原酶包含对应于SEQ ID NO：8、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸或丝氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：8的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：8具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X94的残基是非极性或极性残基，特别是丝氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：42的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、 1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：42具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：44的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：44具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、 162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：46的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：46具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X202的残基是非极性残基或脂肪族残基，特别是甘氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：48的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7 个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：48具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性或碱性残基，特别是甲硫氨酸或赖氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：52或SEQ ID NO：54的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：52或SEQ ID NO：54具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、 97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X94的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ IDNO：56的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：56具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X194的残基是受限制的、碱性或极性残基，特别是精氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；并且对应于X211的残基是碱性残基。在一些实施方案中，相比于SEQ ID NO：58的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：58具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺或苏氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X194的残基是受限制的、碱性或极性残基，特别是精氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：72或SEQ ID NO：74的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约 1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：72或SEQ ID NO：74具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X25的残基是酸性、非极性或极性残基，特别是苏氨酸；对应于X40的残基是受限制的、碱性或亲水性残基；对应于X75的残基是酸性或极性残基，特别是天冬酰胺；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X157的残基是极性残基，特别是苏氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：76的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：76具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X25的残基是酸性、非极性或极性残基，特别是苏氨酸；对应于X95的残基是非极性或脂肪族残基，特别是亮氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X176的残基是非极性或脂肪族残基，特别是缬氨酸；对应于X190的残基是半胱氨酸；对应于X198的残基是酸性、碱性、亲水性或非极性残基，特别是谷氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：82的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQID NO：82具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、 162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X25的残基是酸性、非极性或极性残基，特别是苏氨酸；对应于X95的残基是非极性或脂肪族残基，特别是亮氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X176的残基是非极性或脂肪族残基，特别是缬氨酸；对应于X190的残基是半胱氨酸；对应于X197的残基是亲水性、酸性、碱性、脂肪族或非极性残基，特别是缬氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：84的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：84具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X25的残基是酸性、非极性或极性残基，特别是苏氨酸；对应于X95的残基是非极性或脂肪族残基，特别是甲硫氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X176的残基是非极性或脂肪族残基，特别是缬氨酸；对应于X190的残基是半胱氨酸；对应于X194的残基是受限制的、碱性或极性残基，特别是精氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQID NO：86的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：86具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；并且对应于X211的残基是碱性残基，特别是精氨酸。在一些实施方案中，相比于SEQ IDNO：90的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、 1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：90具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X53的残基是非极性或酸性残基，特别是天冬氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X163的残基是非极性或脂肪族残基，特别是异亮氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：94的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：94具有至少85％、86％、87％、88％、89％、90％、91％、92％、 93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X101的残基是酸性、非极性或极性残基，特别是甘氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X147的残基是非极性、脂肪族、芳香族或疏水性残基，特别是亮氨酸；对应于X152的残基是非极性、碱性残基，特别是甲硫氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：100的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：100具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X111的残基是非极性或脂肪族残基，特别是甲硫氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：102的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：102具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸；并且对应于X250的残基是极性或非极性残基，特别是异亮氨酸。在一些实施方案中，相比于SEQ ID NO：104的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：104具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X29的残基是酸性、脂肪族或非极性残基，特别是甘氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X101的残基是酸性、非极性或极性残基，特别是天冬酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X200的残基是酸性或受限制的残基，特别是脯氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：106的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、 15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：106具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X3的残基是酸性、极性或亲水性残基，特别是天冬酰胺；对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X17的残基是非极性、脂肪族或极性残基，特别是谷氨酰胺；对应于X42的残基是酸性或非极性残基，特别是甘氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X127的残基是碱性或极性残基，特别是精氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性残基或亲水性残基，特别是甲硫氨酸；对应于X176的残基是非极性或脂肪族残基，特别是缬氨酸；对应于X190的残基是半胱氨酸；对应于X194的残基是受限制的、碱性或极性残基，特别是精氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X200的残基是酸性或受限制的残基，特别是脯氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：114的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：114具有至少85％、 86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X3的残基是酸性、极性或亲水性残基，特别是天冬酰胺；对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X17的残基是非极性、脂肪族或极性残基，特别是谷氨酰胺；对应于X21的残基是非极性、芳香族或疏水性残基，特别是苯丙氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X147的残基是非极性、脂肪族、芳香族或疏水性残基，特别是亮氨酸；对应于X152的残基是非极性、碱性或亲水性残基，特别是甲硫氨酸；对应于X176的残基是非极性或脂肪族残基，特别是缬氨酸；对应于X190的残基是半胱氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：116的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：116具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、 162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X3的残基是酸性、极性或亲水性残基，特别是天冬酰胺；对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X17的残基是非极性、脂肪族或极性残基，特别是谷氨酰胺；对应于X29的残基是酸性、脂肪族或非极性残基，特别是丙氨酸；对应于X42的残基是酸性或非极性残基，特别是甘氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X105的残基是酸性或非极性残基，特别是甘氨酸；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性或亲水性残基，特别是甲硫氨酸；对应于X190的残基是半胱氨酸；对应于X197的残基是亲水性、酸性、碱性、脂肪族或非极性残基，特别是缬氨酸；对应于X198的残基是酸性、碱性、亲水性或非极性残基，特别是赖氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X200的残基是酸性或受限制的残基，特别是脯氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ ID NO：118的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：118具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X17的残基是非极性、脂肪族或极性残基，特别是谷氨酰胺；对应于X29的残基是酸性、脂肪族或非极性残基，特别是丙氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X152的残基是非极性、碱性或亲水性残基，特别是甲硫氨酸；对应于X163的残基是非极性或脂肪族残基，特别是异亮氨酸；对应于X190的残基是半胱氨酸；对应于X198的残基是酸性、碱性、亲水性或非极性残基，特别是赖氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X200的残基是酸性或受限制的残基，特别是脯氨酸；对应于X211的残基是碱性残基，特别是精氨酸。在一些实施方案中，相比于SEQ ID NO：122的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：122具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包含基于序列式SEQ ID NO：161、162或163或其区域(诸如残基90到211)的氨基酸序列，并且具有至少以下特征：对应于X7的残基是非极性或极性残基，特别是丝氨酸；对应于X17的残基是非极性、脂肪族或极性残基，特别是谷氨酰胺；对应于X29的残基是酸性、脂肪族或非极性残基，特别是丙氨酸；对应于X96的残基是极性残基，特别是谷氨酰胺；对应于X108的残基是亲水性、极性或受限制的残基，特别是组氨酸；对应于X117的残基是非极性或极性残基，特别是丝氨酸；对应于X145的残基是极性残基，特别是丝氨酸；对应于X147的残基是非极性、脂肪族、芳香族或疏水性残基，特别是亮氨酸；对应于X152的残基是非极性、碱性或亲水性残基，特别是甲硫氨酸；对应于X163的残基是非极性或脂肪族残基，特别是异亮氨酸；对应于X176的残基是非极性或脂肪族残基，特别是缬氨酸；对应于X190的残基是半胱氨酸；对应于X198的残基是酸性、碱性、亲水性或非极性残基，特别是赖氨酸；对应于X199的残基是酸性、脂肪族或非极性残基，特别是天冬氨酸；对应于X200的残基是酸性或受限制的残基，特别是脯氨酸；对应于X211的残基是碱性残基，特别是精氨酸；并且对应于X223的残基是非极性或脂肪族残基，特别是缬氨酸。在一些实施方案中，相比于SEQ IDNO：126的参考序列，酮还原酶多肽在其他残基位置可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35个或约1-40个残基差异。在一些实施方案中，差异的数目可以是在其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有前述特征的氨基酸序列，并且其中该氨基酸序列对SEQ ID NO：126具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，改进的酮还原酶包括具有对应于序列式SEQ IDNO：161、162或163的残基90-211的区域或结构域的氨基酸序列，其中该结构域的氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是极性残基，并且对应于X190的氨基酸残基是半胱氨酸。在一些实施方案中，改进的酮还原酶具有对应于以序列式SEQ ID NO：161、162或163为基础的残基90-211的区域或结构域，其中该结构域的氨基酸序列具有至少以下特征：对应于X145的氨基酸残基是丝氨酸，并且对应于X190的氨基酸残基是半胱氨酸。在一些实施方案中，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有与基于SEQ ID NO：128、130或160的参考序列的对应结构域相比1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ IDNO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X94的残基是非极性或极性残基；对应于X95的残基是非极性或脂肪族残基；对应于X96的残基是极性残基；对应于X101的残基是酸性、非极性或极性残基；对应于X105的残基是酸性或非极性残基；对应于X108的残基是亲水性、极性或受限制的残基；对应于X111的残基是非极性或脂肪族残基；对应于X112的残基是酸性或极性残基；对应于X113的残基是非极性或脂肪族残基；对应于X117的残基是非极性或极性残基；对应于X127的残基是碱性或极性残基；对应于X147的残基是非极性、脂肪族、芳香族或疏水性残基；对应于X152的残基是非极性、碱性或亲水性残基；对应于X157的残基是极性残基；对应于X163的残基是非极性或脂肪族残基；对应于X176的残基是非极性或脂肪族残基；对应于X194的残基是受限制的、碱性或极性残基；对应于X197的残基是亲水性、酸性、碱性、脂肪族或非极性残基；对应于X198的残基是酸性、碱性、亲水性或非极性残基；对应于X199的残基是酸性、脂肪族或非极性残基；对应于X200的残基是酸性或受限制的残基；对应于X202的残基是非极性残基；对应于X206的残基是非极性、芳香族或疏水性残基；对应于X211的残基是碱性残基。在一些实施方案中，相比于基于SEQ ID NO：128、130或160的参考序列的对应结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有约1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。

在一些实施方案中，相比于SEQ ID NO：128、130或160的对应结构域，具有对应于如以上所述的序列式SEQ ID NO：161、162或163的残基90-211的氨基酸序列的结构域的酮还原酶多肽可以具有一个或更多个保守突变。这些保守突变的实例包括氨基酸置换，诸如但不限于：用另一个非极性氨基酸例如丙氨酸、亮氨酸、异亮氨酸、甘氨酸或甲硫氨酸置换对应于X95的残基(缬氨酸)；用另一个极性氨基酸例如天冬酰胺、谷氨酰胺或苏氨酸置换对应于X96的残基(丝氨酸)；用另一个非极性氨基酸例如丙氨酸、亮氨酸、异亮氨酸、甘氨酸或甲硫氨酸置换对应于X111的残基(亮氨酸)；用另一个脂肪族氨基酸例如丙氨酸、亮氨酸或异亮氨酸置换对应于X113的残基(缬氨酸)；用另一个极性氨基酸例如谷氨酰胺、丝氨酸或苏氨酸置换对应于X157的残基(天冬酰胺)；用另一个脂肪族氨基酸例如丙氨酸、亮氨酸或异亮氨酸置换对应于X163的残基(缬氨酸)；用另一个脂肪族氨基酸例如丙氨酸、缬氨酸和异亮氨酸置换对应于X176的残基(亮氨酸)；用另一个非极性氨基酸例如丙氨酸、亮氨酸、异亮氨酸、甘氨酸或甲硫氨酸置换对应于X202的残基(丙氨酸)；并且用另一个碱性氨基酸例如精氨酸置换对应于X211的残基(赖氨酸)。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X94的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺、甘氨酸或丝氨酸；对应于X95的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是亮氨酸或甲硫氨酸；对应于X96的残基是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是谷氨酰胺、天冬酰胺或苏氨酸；对应于X101的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺或甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸或天冬酰胺；对应于X105的残基是谷氨酸、天冬氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是甘氨酸；对应于X108的残基是精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、组氨酸，特别是组氨酸或丝氨酸；对应于X112的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是天冬氨酸；对应于X113的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是丙氨酸；对应于X117的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X127的残基是赖氨酸、精氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是精氨酸；对应于X147的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸、色氨酸，特别是亮氨酸；对应于X152的残基是甘氨酸、甲硫氨酸、缬氨酸、亮氨酸、异亮氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是甲硫氨酸或赖氨酸；对应于X157的残基是丝氨酸、苏氨酸、天冬酰胺、和谷氨酰胺，特别是苏氨酸；对应于X163的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是异亮氨酸；对应于X176的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是缬氨酸；对应于X194的残基是脯氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是精氨酸或谷氨酰胺；对应于X197的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是缬氨酸或谷氨酸；对应于X198的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸、谷氨酸或赖氨酸；对应于X199的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是天冬氨酸；对应于X200的残基是天冬氨酸、谷氨酸或脯氨酸，特别是脯氨酸；对应于X202的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是甘氨酸；对应于X206的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸、色氨酸，特别是甘氨酸；对应于X211的残基是精氨酸或赖氨酸。在一些实施方案中，相比于以SEQ ID NO：128、130或160为基础的参考序列的对应结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有约1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X108的残基是亲水性、极性或受限制的残基；对应于X117的残基是非极性或极性残基；对应于X152的残基是非极性、碱性或亲水性残基；并且对应于X199的残基是酸性、脂肪族或非极性残基。在一些实施方案中，相比于基于SEQID NO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X108的残基是精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、组氨酸，特别是组氨酸或丝氨酸；对应于X117的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X152的残基是甘氨酸、甲硫氨酸、缬氨酸、亮氨酸、异亮氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是甲硫氨酸或赖氨酸；并且对应于X199的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是天冬氨酸。在一些实施方案中，相比于基于SEQ ID NO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X94的残基是非极性或极性残基；对应于X194的残基是受限制的、碱性或极性残基；对应于X198的残基是酸性、碱性、亲水性或非极性残基；并且对应于X200的残基是酸性或受限制的残基。在一些实施方案中，相比于基于SEQ IDNO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、 1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。在一些实施方案中，相比于基于SEQ ID NO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X94的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺、甘氨酸或丝氨酸；对应于X194的残基是脯氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是精氨酸或谷氨酰胺；对应于X198的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸、谷氨酸或赖氨酸；对应于X200的残基是天冬氨酸、谷氨酸或脯氨酸，特别是脯氨酸。在一些实施方案中，相比于基于SEQ ID NO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X94的残基是非极性或极性残基；对应于X108的残基是亲水性、极性或受限制的残基；对应于X117的残基是非极性或极性残基；对应于X152的残基是非极性、碱性或亲水性残基；对应于X194的残基是受限制的、碱性或极性残基；对应于X198的残基是酸性、碱性、亲水性或非极性残基；对应于X199的残基是酸性、脂肪族或非极性残基；对应于X200的残基是酸性或受限制的残基。在一些实施方案中，相比于基于SEQ ID NO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、 130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，具有对应于残基90-211的结构域或区域并且具有如本文所述的残基X145和X190的指定特征的酮还原酶多肽还可以在所述区域或结构域中包括选自以下的一个或更多个特征：对应于X94的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是天冬酰胺、甘氨酸或丝氨酸；对应于X108的残基是精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、组氨酸，特别是组氨酸或丝氨酸；对应于X117的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是丝氨酸；对应于X152的残基是甘氨酸、甲硫氨酸、缬氨酸、亮氨酸、异亮氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺，特别是甲硫氨酸或赖氨酸；对应于X194的残基是脯氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺，特别是精氨酸或谷氨酰胺；对应于X198的残基是天冬氨酸、谷氨酸、精氨酸、赖氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是甘氨酸；对应于X199的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是天冬氨酸；对应于X200的残基是天冬氨酸、谷氨酸或脯氨酸，特别是脯氨酸。在一些实施方案中，相比于基于SEQ ID NO：128、130或160的参考序列的结构域，对应于残基90-211的区域或结构域在其他氨基酸残基处可以额外具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个或1-20个残基差异。在一些实施方案中，差异的数目可以是在该结构域的其他氨基酸残基处的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个或约20个残基差异。在一些实施方案中，差异包括保守突变。在一些实施方案中，酮还原酶多肽包含具有至少前述特征的氨基酸序列，并且其中与基于SEQ ID NO：128、130或160的具有前述特征的参考序列的残基90-211所对应的氨基酸序列相比，该氨基酸序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的同一性。

在一些实施方案中，酮还原酶具有对应于序列式SEQ ID NO：161、162或163的残基1-89的区域，其中氨基酸序列具有以下特征中的一个或多个：对应于X3的残基是酸性、极性或亲水性残基；对应于X7的残基是非极性或极性残基；对应于X17的残基是非极性、脂肪族或极性残基；对应于X21的残基是非极性、芳香族或疏水性残基；对应于X25的残基是酸性、非极性或极性残基；对应于X29的残基是酸性、脂肪族或非极性残基；对应于X40的残基是受限制的、碱性或亲水性残基；对应于X42的残基是酸性或非极性残基；对应于X53的残基是非极性或酸性残基；对应于X75的残基是酸性或极性残基。

在一些实施方案中，酮还原酶多肽具有对应于序列式SEQ ID NO：161、162或163的残基1-89的区域，其中所述结构域或区域的氨基酸序列具有以下特征中的一个或更多个：对应于X3的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺，特别是天冬酰胺；对应于X7的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺，特别是丝氨酸；对应于X17的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺，特别是谷氨酰胺；对应于X21的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、酪氨酸、苯丙氨酸、或色氨酸，特别是苯丙氨酸；对应于X25的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是苏氨酸；对应于X29的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、或异亮氨酸，特别是甘氨酸或丙氨酸；对应于X40的残基是组氨酸、赖氨酸、精氨酸、丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺，特别是精氨酸；对应于X42的残基是天冬氨酸、谷氨酸、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、或异亮氨酸，特别是甘氨酸；对应于X53的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、天冬氨酸、谷氨酸，特别是天冬氨酸；对应于X75的残基是天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺，特别是精氨酸。

在一些实施方案中，酮还原酶多肽具有对应于序列式SEQ ID NO：161、162或163的残基212-252的区域，其中氨基酸序列具有以下特征中的一个或更多个：对应于X223的残基是非极性或脂肪族残基；并且对应于X250的残基是极性或非极性残基。

在一些实施方案中，酮还原酶多肽具有对应于序列式SEQ ID NO：161、162或163的残基212-252的区域，其中氨基酸序列具有以下特征中的一个或多个：对应于X223的残基是甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸或异亮氨酸，特别是缬氨酸；并且对应于X250的残基是丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、甘氨酸、甲硫氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸，特别是异亮氨酸。

在一些实施方案中，本公开内容的酮还原酶多肽可以包括如下区域：所述区域具有与SEQ ID NO：128、130或160的区域或结构域(诸如残基90-211)至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是对应于X145的残基是丝氨酸并且对应于X190的残基是半胱氨酸，并且其中该氨基酸序列可以额外具有以下取代中的一个或更多个以使得该多肽比野生型高加索酸奶乳杆菌酮还原酶或另一种工程化酮还原酶(诸如SEQ IDNO：8)被进一步改进(例如，关于立体选择性、酶活性和/或热稳定性)：3→N、7→S、17→Q、21→F、25→T、29→A或G、42→G、53→D、75→N、95→L或M、96→Q、101→Q或G、105→G、108→H或S、112→D、117→S、127→R、147→L、152→M、157→T、163→L或I、167→V、176→V、194→R、197→V或E、198→K或E、199→D、200→P、211→R、223→V以及250→I。

在一些实施方案中，本公开内容的酮还原酶多肽可以包括如下区域：所述区域具有与SEQ ID NO：128、130或160的区域或结构域(诸如残基90-211)至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，其中该氨基酸序列可以额外具有以下取代中的一个或更多个以使得该多肽比野生型高加索酸奶乳杆菌酮还原酶或另一种工程化酮还原酶(诸如SEQ ID NO：8)进一步改进(例如，关于立体选择性、酶活性和/或热稳定性)：7→S、17→Q、96→Q、108→H、117→S、152→M、163→I、176→V、198→K、199→D、211→R和223→V。

在一些实施方案中，本公开内容的酮还原酶服从以下附带条件中的一个或更多个：(1)特别排除具有选自SEQ ID NO：8、44、46、48、164和165的具体序列的多肽；(2)氨基酸序列要求在对应于X152的残基处为碱性或非极性残基，特别是甲硫氨酸或赖氨酸；(3)氨基酸序列要求在对应于X199的残基处为酸性残基，特别是天冬氨酸；以及(4)氨基酸序列要求在对应于X96的残基处为谷氨酰胺。

在一些实施方案中，本文所述每一种改进的工程化酮还原酶可以包括本文所述的多肽的缺失。因此，对于本公开内容的酮还原酶多肽的每一种和每一个实施方案，只要保持该酮还原酶活性的功能活性，缺失可以包括一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、高达氨基酸总数的10％、高达氨基酸总数的20％、或高达酮还原酶多肽的氨基酸的总数的30％。在一些实施方案中，缺失可以包括1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-25个、1-30个、1-35或约1-40个氨基酸。在一些实施方案中，缺失可以包括1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个或1-20个氨基酸残基的缺失。在一些实施方案中，缺失的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、14个、15个、16个、18个、20个、22个、24个、26个、30个、35个或约40个氨基酸。在一些实施方案中，缺失可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个或20个氨基酸残基的缺失。

如技术人员将理解的，本文所述的多肽不受限于遗传编码的氨基酸。除了遗传编码的氨基酸以外，本文所述的多肽可以总体上或部分上由天然存在的和/或合成的非编码氨基酸组成。可组成本文所述的多肽的某些常见非编码氨基酸可以包括但不限于：遗传编码的氨基酸的D-立体异构体；2，3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘苯丙氨酸(Pif)；4-氨甲基苯丙氨酸(Pamf)；2，4-二氯苯丙氨酸(Opef)；3，4-二氯苯丙氨酸(Mpcf)；2，4-二氟苯丙氨酸(Opff)；3，4-二氟苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯基丙氨酸(sAla)；蒽基丙氨酸(aAla)；3，3-二苯丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1，2，3，4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4羧酸；2-哌啶酸(PA)；氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)；高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰赖氨酸(AcLys)；2，4-氨基丁酸(Dbu)；2，3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。本文所述多肽可包含的另外的非编码氨基酸将对本领域技术人员是明显的(参见，例如，在Fasman，1989，CRC Practical Handbook of Biochemistry and Molecular Biology(CRC生物化学和分子生物学实用手册)，CRC Press，Boca Raton，FL，在第3-70页及其中引用的参考文献中提供的多种氨基酸，该文献以及其中所引用的参考文献全部通过引用并入本文)。这些氨基酸可以处于L-构型或D-构型。

本领域技术人员将认识到，带有侧链保护基的氨基酸或残基也可以构成本文所述的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括(在圆括号中列出保护基)但不限于：Arg(tos)、Cys(甲苄基)、Cys(硝基吡啶亚氧硫基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

可构成本文所述多肽的构象上受限制的非编码氨基酸包括但不限于N-甲基氨基酸(L-构型)；1-氨基酸环戊-(2或3)-烯-4-羧酸；2-哌啶酸；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)；以及1-氨基环戊烷-3-羧酸。如上所述被引入天然存在的多肽以产生工程化酮还原酶的各种修饰可以被定向至该酶的具体特性。

编码工程化酮还原酶的多核苷酸

一方面，本公开内容提供了编码本文所公开的工程化酮还原酶的多核苷酸。可以将所述多核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列以产生能够表达该多肽的重组多核苷酸。可以将包含编码工程化酮还原酶的异源多核苷酸的表达构建体引入适当的宿主细胞中来表达对应的酮还原酶多肽。

由于对各种氨基酸所对应的密码子的了解，蛋白序列的可用性提供了对能够编码该主题的所有多核苷酸的描述。相同氨基酸由替代的或同义的密码子编码的遗传密码的简并性允许极大数目的核酸被制出，所有这些核酸编码本文所公开的改进的酮还原酶。因此，如果已识别了具体的氨基酸序列，本领域技术人员能够以不改变蛋白的氨基酸序列的方式通过仅仅变更一个或更多个密码子的顺序来制出任意数目的不同核酸。在这点上，本公开内容确切地考虑可通过选择基于可能的密码子选择的组合制出的多核苷酸的每一种和每一个可能的改变，并且所有这些改变必须被认为对本文公开的任何多肽确切地公开，所述本文公开的任何多肽包括在表3和表4中提供的氨基酸序列。

在一些实施方案中，多核苷酸编码相比于SEQ ID NO：2、SEQ ID NO：4或SEQ ID NO：158的氨基酸序列具有至少以下特征的酮还原酶多肽：(1)对应于残基X145的氨基酸残基是丝氨酸残基，并且(2)对应于残基X190的氨基酸残基是半胱氨酸残基。在一些实施方案中，多核苷酸包括编码酮还原酶多肽的核苷酸序列，所述酮还原酶多肽具有的氨基酸序列对本文所述的任何工程化酮还原酶参考多肽具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性，其中该酮还原酶多肽包含具有至少以下特征的氨基酸序列：对应于SEQ ID NO：2、4或158的145位残基的氨基酸残基是丝氨酸并且对应于SEQ ID NO：2、4或158的残基190位残基的氨基酸残基是半胱氨酸。

在一些实施方案中，多核苷酸编码本文所述的多肽，但是在核苷酸水平上对编码工程化酮还原酶的参考多核苷酸具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性。在一些实施方案中，参考多核苷酸选自由SEQ IDNO：41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123和125表示的多核苷酸序列。

在一些实施方案中，多核苷酸可以编码改进的酮还原酶，所述改进的酮还原酶多肽包含的氨基酸序列与对应于表3和表4中列出的SEQ ID NO： 42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同，其中改进的酮还原酶多肽氨基酸序列包括在表3和表4中提供的任意一组指定的氨基酸取代组合。在一些实施方案中，多核苷酸编码的工程化酮还原酶包括选自SEQ ID NO：42、44、46、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的氨基酸序列。

在一些实施方案中，多核苷酸能够在高严格条件下与包括SEQ ID NO：41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123和125的多核苷酸杂交，其中多核苷酸编码执行如本文所述的底物到产物的转化的功能性酮还原酶。

在多个实施方案中，偏爱性地选择密码子以适合在其中产生蛋白的宿主细胞。例如，在细菌中使用的偏爱密码子用于在细菌中表达基因；在酵母中使用的偏爱密码子用于酵母中的表达；并且在哺乳动物中使用的偏爱密码子用于哺乳动物细胞中的表达。通过举例，SEQ ID NO：3的多核苷酸已被密码子优化用于大肠杆菌中的表达，但另外编码高加索酸奶乳杆菌的天然存在的酮还原酶。

在某些实施方案中，由于天然序列将包括偏爱密码子并且因为偏爱密码子的使用可能并不是所有氨基酸残基所需的，所以不必替换所有密码子来优化酮还原酶的密码子使用。所以，编码酮还原酶的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包含偏爱密码子。

在多个实施方案中，可以用多种方式操作编码改进的酮还原酶多肽的分离的多核苷酸以提供该多肽的表达。取决于表达载体，所分离的多核苷酸在其插入载体中之前的操作可能是令人期望的或必要的。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域公知的。在Sambrook等人，2001，Molecular Cloning：A Laboratory Manual(分子克隆：实验室指南)，第3版，Cold Spring Harbor Laboratory Press；以及Current Protocols inMolecular Biology(现代分子生物学实验技术)，Ausubel.F.编，Greene Pub.Associates，1998，更新至2006中提供了指导。

对于细菌宿主细胞，用于指导本公开内容的核酸构建体转录的适宜启动子包括从大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)生麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA基因和xylB基因、以及原核β-内酰胺酶基因(Villa-Kamaroff等人，1978，Proc.Natl Acad.Sci.USA 75：3727-3731)获得的启动子以及tac启动子(DeBoer等人，1983，Proc.Natl Acad.Sci.USA 80：21-25)。

对于丝状真菌宿主细胞而言，用于指导本公开内容的核酸构建体转录的适宜启动子包括从米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定的α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillusawamori)葡萄糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(WO 96/00787)的基因获得的启动子以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和它们突变的、截短的及杂合的启动子。

在酵母宿主中，有用的启动子可以来自酿酒酵母(Saccharomycescerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)以及酿酒酵母3-磷酸甘油酸酯激酶的基因。Romanos等人，1992，Yeast 8：423-488描述了酵母宿主细胞其他有用的启动子。

控制序列也可以是适宜的转录终止子序列，即由宿主细胞识别的终止转录的序列。终止子序列被可操作地连接于编码多肽的核酸序列的3′端。在本发明中可以使用在选择的宿主细胞中有功能的任何终止子。

例如，丝状真菌宿主细胞的示例性转录终止子可以从米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶的基因中获得。

酵母宿主细胞的示例性终止子可以从酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因中获得。上述Romanos等人，1992对酵母宿主细胞其他有用的终止子进行了描述。

控制序列也可以是适宜的前导序列，即对宿主细胞翻译而言重要的mRNA的非翻译区。前导序列被可操作地连接于编码多肽的核酸序列的5′端。可以使用在选择的宿主细胞中有功能的任何前导序列。丝状真菌宿主细胞的示例性前导序列是从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因中获得。酵母宿主细胞适宜的前导序列是从酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子以及酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)的基因中获得。

控制序列也可以是聚腺苷酸化序列，即可操作地连接于核酸序列的3′端并且当转录时被宿主细胞识别为向转录的mRNA添加聚腺苷残基的信号的序列。在本发明中可以使用在选择的宿主细胞中有功能的任何聚腺苷酸化序列。丝状真菌宿主细胞的示例性聚腺苷酸化序列可以从米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶的基因中获得。Guo和Sherman，1995，Mol Cell Bio 15：5983-5990描述了酵母宿主细胞的有用的聚腺苷酸化序列。

控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导该编码多肽进入细胞分泌途径的信号肽编码区。核酸序列的编码序列的5′端可以固有地包含翻译阅读框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。可选地，编码序列的5′端可以包含对编码序列而言为外来的信号肽编码区。在编码序列天然不包含信号肽编码区时可能需要外来的信号肽编码区。

可选地，外来的信号肽编码区可能仅仅代替天然信号肽编码区以增强多肽的分泌。然而，在本发明中可以使用引导表达的多肽进入所选择的宿主细胞的分泌途径中的任何信号肽编码区。

细菌宿主细胞有效的信号肽编码区是从芽孢杆菌NClB 11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因中获得的信号肽编码区。Simonen和Palva，1993，Microbiol Rev 57：109-137描述了其他的信号肽。

丝状真菌宿主细胞有效的信号肽编码区可以是从米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡萄糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶以及柔毛腐质酶(Humicolalanuginosa)脂肪酶的基因中获得的信号肽编码区。

酵母宿主细胞有用的信号肽可以来自酿酒酵母α-因子和酿酒酵母转化酶的基因。上述Romanos等人，1992对其他有用的信号肽编码区进行了描述。

控制序列也可以是编码位于多肽氨基端的氨基酸序列的前肽编码区。生成的多肽被称为酶原(proenzyme)或多肽原(或在某些情况下称为酶原(zymogen))。多肽原一般是无活性的，并且可以通过对前肽的催化裂解或自身催化裂解从多肽原转化为成熟的活性多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthorathermophila)乳糖酶的基因获得(WO 95/33836)。

在信号肽和前肽区在多肽的氨基端都存在时，前肽区被定位于紧挨着多肽的氨基端并且信号肽区被定位于紧挨着前肽区的氨基端。

添加调节序列可能也是令人期望的，所述调节序列允许调节与宿主细胞的生长有关的多肽的表达。调节系统的实例是促使基因的表达被打开或关闭以响应于化学刺激或物理刺激(包括调节化合物的存在)的那些调节系统。在原核宿主细胞中，适宜的调节序列包括lac、tac以及trp操纵子系统。在酵母宿主细胞中，适宜的调节系统包括，例如ADH2系统或GAL1系统。在丝状真菌中，适宜的调节序列包括TAKAα-淀粉酶启动子、黑曲霉葡萄糖淀粉酶启动子以及米曲霉葡萄糖淀粉酶启动子。

调节序列的其他实例是那些允许基因扩增的调节序列。在真核系统中，这些调节序列包括在甲氨蝶呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的KRED多肽的核酸序列将与调节序列可操作地连接。

因此，在另一个实施方案中，本公开内容也针对重组表达载体，所述重组表达载体包含编码工程化酮还原酶多肽或其变体的多核苷酸以及一个或更多个表达调节区，诸如启动子和终止子、复制起点等等，这取决于表达调节区被引入的宿主的类型。可以将上述多种核酸和控制序列连接在一起产生如下重组表达载体：所述重组表达载体可以包括一个或更多个便利的限制性位点以允许在这些位点插入或取代编码多肽的核酸序列。可选地，本公开内容的核酸序列可以通过将该核酸序列或包含该序列的核酸构建体插入用于表达的适当载体中来表达。在表达载体的创建中，编码序列位于载体中以使得该编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体可以是能够便利地进行重组DNA步骤并且能够导致多核苷酸序列表达的任何载体(例如质粒或病毒)。载体的选择将通常取决于载体与该载体要引入的宿主细胞的相容性。载体可以是线性质粒或闭合环状质粒。

表达载体可以是自主复制的载体，即作为染色体外的实体而存在、其复制独立于染色体复制的载体，例如质粒、染色体外的元件、微型染色体或人工染色体。载体可以包含用于确保自我复制的任何手段。可选地，载体可以是在引入宿主细胞中时被整合到基因组并与它所整合的染色体一起复制的载体。此外，可以使用单种载体或质粒，或者一起包含要引入到宿主细胞基因组中的总DNA的两种或更多种载体或质粒，或转座子。

本发明的表达载体优选地包含一种或多种选择性标记，所述选择性标记使得容易选择转化的细胞。选择性标记是一种基因，其产物提供了杀生物剂抗性或病毒抗性、对重金属的耐受性、针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或是赋予抗生素抗性诸如氨苄西林、卡那霉素、氯霉素(实施例1)或四环素抗性的标记。酵母宿主细胞的适宜标记是ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。

在丝状真菌宿主细胞中使用的选择性标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨基甲酰基转移酶)、bar(草丁膦乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸盐还原酶)、pyrG(乳清酸核苷-5′-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)、以及trpC(邻氨基苯甲酸合酶)以及它们的等同物。在曲霉属细胞中使用的实施方案包括构巢曲霉或米曲霉的amdS基因和pyrG基因，以及吸水链霉菌(Streptomyces hygroscopicus)的bar基因。

本发明的表达载体优选地包含允许载体整合到宿主细胞基因组中或允许该载体在细胞中独立于基因组而自主复制的元件。对于整合到宿主细胞基因组中，载体可以依赖于编码多肽的核酸序列或通过同源重组或非同源重组将载体整合到基因组中的载体的任何其他元件。

可选地，表达载体可以包含用于通过同源重组指导整合到宿主细胞基因组中的另外的核酸序列。所述另外的核酸序列使载体能够在染色体中的精确位置被整合到宿主细胞基因组中。为了提高在精确位置整合的可能性，整合元件应该优选地包含与对应的靶序列高度同源的数目足够的核酸，诸如100到10,000个碱基对，优选400到10,000个碱基对，以及最优选800到10,000个碱基对，以增强同源重组的机率。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码核酸序列或编码核酸序列。另一方面，可以通过非同源重组将载体整合到宿主细胞的基因组中。

对于自主复制，载体还可以包括使该载体能在要考虑的宿主细胞中自主复制的复制起点。细菌复制起点的实例是P15A ori(如在图5的质粒中所示)或允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYCl77(这些质粒具有P15A ori)或质粒pACYC184的复制起点，以及允许在芽孢杆菌中复制的pUB110、pE194、pTA1060或pAMβ1的复制起点。在酵母宿主细胞中使用的复制起点的实例是2m(2micron)复制起点ARS1、ARS4，ARS1和CEN3的组合，以及ARS4和CEN6的组合。复制起点可以是具有突变的复制起点，所述突变使其在宿主细胞中以温度敏感的方式起作用(参见，例如Ehrlich，1978，Proc Natl Acad Sci.USA 75：1433)。

可以将多于一个拷贝的本发明的核酸序列插入宿主细胞中以提高基因产物的生产量。核酸序列拷贝数的增加可以通过如下方式获得：通过将该序列的至少另外一个拷贝整合到宿主细胞基因组中，或者通过使该核酸序列包括可扩增的选择性标记基因，其中可以通过在适当选择剂的存在下培养细胞来选择包含该选择性标记基因的扩增拷贝和由此包含该核酸序列的另外拷贝的细胞。

在本发明中使用的许多表达载体可商购获得。适宜的商业表达载体包括来自Sigma-Aldrich Chemicals，St.Louis MO.的p3xFLAGTMTM表达载体，它包括用于在哺乳动物宿主细胞中表达的CMV启动子和hGH多腺苷酸化位点以及用于在大肠杆菌中扩增的pBR322复制起点和氨苄西林抗性标记。其他适宜的表达载体是可以从Stratagene，LaJolla CA商购获得的pBluescriptII SK(-)和pBK-CMV，以及源自于pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly(Lathe等人，1987，Gene 57：193-201)的质粒。

用于表达酮还原酶多肽的宿主细胞

另一方面，本公开内容提供了包含编码本公开内容的改进酮还原酶多肽的多核苷酸的宿主细胞，该多核苷酸与用于在该宿主细胞中表达酮还原酶的一个或更多个控制序列可操作地连接。在由本发明的表达载体所编码的KRED多肽的表达中使用的宿主细胞是本领域公知的并且包括但不限于：细菌细胞，诸如大肠杆菌、高加索酸奶乳杆菌、短乳杆菌、微小乳杆菌、链霉菌属和鼠伤寒沙门氏菌(Salmonella typhimurium)的细胞；真菌细胞，诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤酵母(Pichia pastoris)(ATCC获取号201178))；昆虫细胞诸如果蝇S2细胞和夜蛾(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞；以及植物细胞。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。

可以通过本领域已知的多种方法将用于表达酮还原酶的多核苷酸引入细胞中。技术包括但不限于电穿孔、生物射弹粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合。用于将多核苷酸引入细胞中的多种方法将对技术人员是明显的。

示例性宿主细胞是大肠杆菌W3110。通过将编码改进的酮还原酶的多核苷酸可操作地连入质粒pCK110900而创建表达载体，该多核苷酸在lacI阻抑物的控制下与lac启动子可操作地连接。该表达载体也包含P15a复制起点和氯霉素抗性基因。通过对在大肠杆菌W3110中包含主题多核苷酸的细胞进行氯霉素选择来分离这些细胞。

产生工程化酮还原酶多肽的方法

在一些实施方案中，为了制备本公开内容的改进的KRED多核苷酸和多肽，从高加索酸奶乳杆菌或短乳杆菌中获得(或获取)了催化还原反应的天然存在的酮还原酶。在一些实施方案中，对亲本多核苷酸序列进行密码子优化以增强酮还原酶在指定的宿主细胞中的表达。作为例证，从基于Genbank数据库中可用的高加索酸奶乳杆菌KRED序列的已知多肽序列(Genbank获取号AAP94029GI：33112056)制备的寡核苷酸构建编码高加索酸奶乳杆菌的野生型KRED多肽的亲本多核苷酸序列。对命名为SEQ ID NO：3的亲本多核苷酸序列进行密码子优化以用于在大肠杆菌中表达并且将密码子优化的多核苷酸克隆到表达载体中，将酮还原酶基因的表达置于lac启动子和lacI阻抑物基因的控制下。鉴定在大肠杆菌中表达活性酮还原酶的克隆并对基因进行测序以证实其身份。命名的序列(SEQ ID NO：3)是用作大多数实验的起点的亲本序列，并且工程化酮还原酶的文库构建从高加索酸奶乳杆菌酮还原酶发展而来。

通过使编码天然存在的酮还原酶的多核苷酸经历如以上所讨论的诱变和/或定向进化方法，可以获得工程化酮还原酶。示例性定向进化技术是如在Stemmer，1994，Proc Natl Acad Sci USA 91：10747-10751；WO95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767和美国专利6,537,746中所述的诱变和/或DNA改组。其他可以使用的定向进化方案包括但不限于：交错延伸过程(StEP)、体外重组(Zhao等人，1998，Nat.Biotechnol.16：258-261)、诱变PCR(Caldwell等人，1994，PCR Methods Appl.3：S136-S140)和盒式诱变(Black等人，1996，Proc Natl Acad Sci USA 93：3525-3529)。

对诱变处理后获得的克隆筛选具有期望的改进酶特性的工程化酮还原酶。测量来自表达文库的酶活性可以使用监测NADH或NADPH在转化为NAD⁺或NADP⁺时的浓度减少速率(通过吸光度或荧光的减少)的标准生物化学技术进行。在这个反应中，随着该酮还原酶将酮底物还原为对应的羟基，NADH或NADPH由酮还原酶消耗(氧化)。每单位时间通过吸光度或荧光的降低所测量的NADH或NADPH浓度的降低速率指示在固定量的溶胞产物(或由其制成的冻干粉末)中KRDE多肽的相对(酶)活性。在期望的改进酶特性是热稳定性的情况下，可以在使酶制备物经历限定的温度之后并测量热处理后剩余的酶活性的量而测量酶活性。然后对包含编码酮还原酶的多核苷酸的克隆进行分离，测序，以识别核苷酸序列的改变(如果有的话)，并将这些克隆用于在宿主细胞中表达酶。

在工程化多肽的序列为已知的情况下，可以根据已知的合成方法通过标准固相方法制备编码酶的多核苷酸。在一些实施方案中，高达大约100个碱基的片段能够以个别方式合成，然后连接(例如，通过酶连接或化学连接方法或聚合酶介导的方法)形成任何期望的连续序列。例如，可以使用例如由Beaucage等人，1981，Tet Lett 22：1859-69所描述的经典亚磷酰胺方法或由Matthes等人，1984，EMBO J.3：801-05所描述的方法(例如，当它通常在自动化合成方法中实施时)通过化学合成来制备本发明的多核苷酸和寡核苷酸。根据亚磷酰胺方法，例如在自动化DNA合成器中合成寡核苷酸，纯化，退火，连接并克隆在适当载体中。此外，基本上任何核酸都可以从各种商业来源中的任何一种获得，诸如The Midland Certified Reagent Company，Midland，TX、The Great American Gene Company，Ramona，CA、ExpressGen Inc.Chicago，IL、Operon Technologies Inc.，Alameda，CA以及许多其他来源。

在宿主细胞中表达的工程化酮还原酶可以使用任何一种或多种公知的蛋白质纯化技术从这些细胞中和或培养基中回收，所述公知的蛋白质纯化技术包括但不限于溶菌酶处理、超声处理、过滤、盐析、超离心和色谱。用于裂解和从细菌诸如大肠杆菌中高效提取蛋白的适宜溶液是以St.Louis MO的Sigma-Aldrich的商标名CelLytic BTM可商用的。

用于分离酮还原酶多肽的色谱技术包括但不限于反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件将部分取决于如下因素：诸如净电荷、疏水性、亲水性、分子量、分子形状等等，并且将对本领域技术人员是明显的。

在一些实施方案中，亲和技术可以用于分离改进的酮还原酶。对于亲和色谱纯化，可以使用特异性结合酮还原酶多肽的任何抗体。对于抗体的产生，可以通过用化合物注射来免疫多种宿主动物，包括但不限于兔、小鼠、大鼠等等。可以将该化合物与适宜载体(诸如BSA)通过侧链官能基团或与侧链官能基团相连的连接物相连。多种佐剂可根据宿主物种用于提高免疫应答，包括但不限于弗氏(完全或不完全)佐剂，矿物凝胶诸如氢氧化铝，表面活性物质诸如溶血卵磷脂，多聚醇，聚阴离子，肽，油乳剂，匙孔血蓝蛋白，二硝基苯酚，以及可能有用的人佐剂诸如BCG(卡介苗)和短小棒状杆菌(Corynebacterium parvum)。

使用工程化酮还原酶和用其制备的化合物的方法

本文所述的酮还原酶能够催化结构式(I)的底物化合物5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮

还原为对应的结构式(II)的立体异构体产物((4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮)：

在一些实施方案中，将具有化学式(I)的底物还原为对应的式(II)的产物的方法包括在适于将底物还原或转化为产物化合物的反应条件下使底物与本文所公开的酮还原酶多肽相接触或一起孵育。产物是用于合成降低胆固醇水平的抗高血脂药物依折麦布的中间体(美国专利第5,767,115号)。因此，在用于合成依折麦布的方法中，该方法可以包括使用本文所公开的酮还原酶多肽将式(I)的化合物转化为式(II)的化合物的步骤。在一些实施方案中，产物比对应的(R)醇产物大于约99％、99.1％、99.2％、99.3％、99.4％、99.5％、99.6％、99.7％、99.8％或99.9％立体异构体过量。

到对应的结构式(IV)的立体异构体醇产物1-(4-氟苯基)-3(R)-[3(S)-羟基-3(4-氟苯基)-丙基)]-4(S)-(4-羟苯基)-2-氮杂环丁酮(即，依折麦布)的还原反应：

因此，本公开内容提供了合成依折麦布的方法，该方法包括使式(III)的化合物与本文所公开的酮还原酶多肽在适于将式(III)的底物化合物还原或转化为式(IV)的生产化合物的反应条件下相接触或孵育。在美国专利第5,767,115号(通过引用并入本文)中描述了与式(I)的化合物和式(III)的化合物相似的其他化合物。

在用于将式(I)的化合物还原为式(II)的化合物或用于将式(III)的化合物还原为式(IV)的化合物的方法中，分别相比于SEQ ID NO：4、2和158的野生型高加索酸奶乳杆菌、短乳杆菌、微小乳杆菌的KRED序列，酮还原酶多肽具有至少以下氨基酸取代：(1)残基145是丝氨酸并且(2)残基190是半胱氨酸。酮还原酶多肽的多种实施方案如以上所述。在一些实施方案中，相比于野生型高加索酸奶乳杆菌、短乳杆菌、微小乳杆菌的KRED序列SEQ ID NO：4、2和158，酮还原酶多肽具有至少以下氨基酸取代：(1)残基145是丝氨酸残基，(2)残基190是半胱氨酸残基，并且(3)残基96是谷氨酰胺残基。在一些实施方案中，相比于野生型高加索酸奶乳杆菌、短乳杆菌、微小乳杆菌的KRED序列SEQ ID NO：4、2和158，本发明的酮还原酶多肽具有至少以下氨基酸取代：(1)残基X145是丝氨酸残基，(2)残基X190是半胱氨酸残基，并且(3)残基X211是精氨酸残基。

如本文所指出的，在一些实施方案中，与包括序列SEQ ID NO：128、SEQ ID NO：130或SEQ ID NO：160的参考序列相比，酮还原酶多肽可以包含至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的氨基酸序列，条件是该多肽包括如下氨基酸序列：在所述氨基酸序列中对应于残基X145的氨基酸残基是丝氨酸，并且对应于残基X190的氨基酸残基是半胱氨酸。在一些实施方案中，这些酮还原酶多肽可以具有对氨基酸序列SEQ ID NO：128、130或160的一种或多种修饰。修饰可以包括取代、缺失和插入。取代可以是非保守取代、保守取代或非保守取代与保守取代的组合。

在这种将底物还原为产物的方法的一些实施方案中，底物被还原为处于大于约99％立体异构体过量的产物，其中酮还原酶多肽包含对应于SEQID NO：42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126的序列。

在这种将底物还原为产物的方法的另一个实施方案中，当以大于约100g/L底物和小于约5g/L多肽进行反应时至少约95％的底物在少于约24小时内被转化为产物，其中多肽包含对应于SEQ ID NO：102、108、120、122、124或126的氨基酸序列。

如本领域技术人员已知的，酮还原酶催化的还原反应通常需要辅因子。由本文所述的工程化酮还原酶催化的还原反应通常也需要辅因子，但工程化酮还原酶的许多实施方案需要比用野生型酮还原酶催化的反应少得多的辅因子。如本文所用，术语“辅因子”是指与酮还原酶联合起作用的非蛋白化合物。适合于与本文所述的工程化酮还原酶一起使用的辅因子包括但不限于NADP⁺(烟酰胺腺嘌呤二核苷酸磷酸)、NADPH(NADP⁺的还原形式)、NAD⁺(烟酰胺腺嘌呤二核苷酸)和NADH(NAD⁺的还原形式)。一般而言，将辅因子的还原形式添加到反应混合物中。还原的NAD(P)H形式可以使用辅因子再生系统任选地从氧化的NAD(P)⁺形式再生。

术语“辅因子再生系统”是指参与还原该辅因子的氧化形式的反应(例如，NADP⁺到NADPH)的一组反应物。通过酮还原酶催化的酮底物的还原所氧化的辅因子被辅因子再生系统以还原形式再生。辅因子再生系统包括化学计量还原剂，所述化学计量还原剂是还原氢等同物的来源并且能够还原辅因子的氧化形式。辅因子再生系统还可以包括催化剂，例如，催化辅因子的氧化形式被还原剂还原的酶催化剂。分别从NAD⁺或NADP⁺再生NADH或NADPH的辅因子再生系统是本领域已知的并且可以用于本文所述的方法中。

可以利用的适宜的示例性辅因子再生系统包括但不限于葡萄糖和葡萄糖脱氢酶、甲酸和甲酸脱氢酶、葡萄糖-6-磷酸和葡萄糖-6-磷酸脱氢酶、仲醇(例如异丙醇)和仲醇脱氢酶、亚磷酸和亚磷酸脱氢酶、分子氢和氢化酶等。这些系统可以与作为辅因子的NADP⁺/NADPH或NAD⁺/NADH一起使用。使用氢化酶进行电化学再生也可以用作辅因子再生系统。参见例如，美国专利第5,538,867号和第6,495,023号，二者均通过引用并入本文。包括金属催化剂和还原剂(例如，分子氢或甲酸)的化学辅因子再生系统也是适合的。参见例如，PCT公布WO 2000/053731，通过引用将其并入本文。

术语“葡萄糖脱氢酶”和“GDH”在本文可互换使用，是指催化D-葡萄糖和NAD⁺或NADP⁺分别转化为葡糖酸和NADH或NADPH的NAD⁺或NADP⁺依赖性酶。以下等式(1)描述了由葡萄糖对NAD⁺或NADP⁺进行的葡萄糖脱氢酶催化的还原。

适于在本文所述方法的实施中使用的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶以及非天然存在的葡萄糖脱氢酶。天然存在的葡萄糖脱氢酶编码基因已在文献中报道。例如，枯草芽孢杆菌61297GDH基因被表达在大肠杆菌中并且被报道展现出与其固有宿主中产生的酶相同的物理化学特性(Vasantha等人，1983，Proc.Natl.Acad.Sci.USA 80：785)。与Genbank获取号M12276对应的枯草芽孢杆菌GDH基因的基因序列由Lampel等人，1986，J.Bacteriol.166：238-243报道，并且以更正形式由Yamane等人，1996，Microbiology 142：3047-3056报道为Genbank获取号D50453。天然存在的GDH基因也包括编码来自蜡状芽孢杆菌(B.cereus)ATCC 14579(Nature，2003，423：87-91；Genbank获取号AE017013)和巨大芽孢杆菌(B.megaterium)(Eur.J.Biochem.，1988，174：485-490，Genbank获取号X12370；J.Ferment.Bioeng.，1990，70：363-369，Genbank获取号GI216270)的GDH的基因。来自芽孢杆菌的葡萄糖脱氢酶在PCT公布WO 2005/018579中作为SEQ ID NO：10和SEQ ID NO：12(分别由对应于该PCT公布的SEQ ID NO：9和SEQ ID NO：11的多核苷酸序列编码)而提供，该文献的公开内容通过引用并入本文。

非天然存在的葡萄糖脱氢酶可以使用已知方法产生，诸如，例如诱变、定向进化以及类似方法。具有适宜活性的GDH酶，不论是天然存在或非天然存在的，都可以使用在PCT公布WO 2005/018579的实施例4中所述的测定容易地识别，该文献的公开内容通过引用并入本文。示例性非天然存在的葡萄糖脱氢酶在PCT公布WO 2005/018579中作为SEQ ID NO：62、64、66、68、122、124和126而提供。编码它们的多核苷酸序列在PCT公布WO 2005/018579中分别作为SEQ ID NO：61、63、65、67、121、123和125而提供。通过引用将所有这些序列并入本文。适于在本文公开的酮还原酶催化的还原反应中使用的另外的非天然存在的葡萄糖脱氢酶被提供在美国专利申请公布第2005/0095619号和第2005/0153417号中，通过引用将这两篇文献的公开内容并入本文。

在本文所述的酮还原酶催化的还原反应中利用的葡萄糖脱氢酶可在PCT公布WO 2005/018579的实施例4中描述的测定中展现出至少约10μmol/min/mg并且有时为至少约10²μmol/min/mg或约10³μmol/min/mg、高达约10⁴μmol/min/mg或更高的活性。

本文所述的酮还原酶催化的还原反应一般在溶剂中进行。适宜溶剂包括水，有机溶剂(例如，乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔丁基醚(MTBE)、甲苯等)，以及离子液体(例如，四氟硼酸1-乙基-4-甲基咪唑鎓、四氟硼酸1-丁基-3-甲基咪唑鎓、六氟磷酸1-丁基-3-甲基咪唑鎓等)。在一些实施方案中，使用包括水和含水共溶剂系统在内的含水溶剂。

示例性含水共溶剂系统具有水和一种或多种有机溶剂。一般来说，选择含水共溶剂系统的有机溶剂组分以致它不完全使酮还原酶失活。利用酶活性测定，诸如本文所述的那些酶活性测定，通过在候选溶剂系统中测量指定的工程化酮还原酶对感兴趣的限定底物的酶活性，可以容易地鉴别适当的共溶剂系统。

含水共溶剂系统的有机溶剂组分可能易于与含水组分混合，提供单一液相，或者可与含水组分部分地混合或不互混，提供两种液相。一般来说，当利用含水的共溶剂系统时，选择其为双相性的，其中水分散于有机溶剂中，或者反之亦然。一般来说，当利用含水的共溶剂系统时，期望选择可以容易地从水相分离的有机溶剂。一般说来，在共溶剂系统中水与有机溶剂的比率通常在约90∶10到约10∶90(v/v)的有机溶剂比水的范围，和80∶20与20∶80(v/v)之间的有机溶剂比水范围。共溶剂系统可以在添加到反应混合物之前预先形成，或者它可以在反应器中原位形成。

水溶剂(水或含水的共溶剂系统)可以是pH缓冲的或未缓冲的。一般说来，可以在约10或10以下的pH进行还原，通常在约5到约10的范围内。在一些实施方案中，可以在约9或9以下的pH进行还原，通常在约5到约9的范围内。在一些实施方案中，可以在约8或8以下的pH进行还原，通常在约5到约8的范围内，并且通常在约6到约8的范围内。也可以在约7.8或7.8以下、或7.5或7.5以下的pH进行还原。可选地，还原可以在中性pH即约7的pH进行。

在还原反应过程中，反应混合物的pH可以改变。通过在反应过程中添加酸或碱，可以将反应混合物的pH保持在期望的pH或在期望的pH范围内。可选地，可以通过使用包括缓冲液的含水溶剂控制pH。保持期望的pH范围的适宜缓冲液是本领域已知的并且包括，例如磷酸盐缓冲液、三乙醇胺缓冲液以及类似缓冲液。也可以使用缓冲作用与酸添加或碱添加的组合。

当利用葡萄糖/葡萄糖脱氢酶辅因子再生系统时，如果不将得到的含水葡糖酸另外中和的话，等式(1)所表示的葡糖酸(pKa＝3.6)的共生产促使反应混合物的pH下降。可以通过标准缓冲技术(其中缓冲液中和葡糖酸达到提供的缓冲容量)或者通过在转化过程的同时添加碱将反应混合物的pH保持在期望水平。也可以使用缓冲作用与碱添加的组合。以上描述了保持期望pH范围的适宜缓冲液。用于中和葡糖酸的适合的碱为有机碱，例如胺、醇盐等，以及无机碱，例如氢氧化物盐(例如NaOH)、碳酸盐(例如K₂CO₃)、碳酸氢盐(例如NaHCO₃)、碱性磷酸盐(例如K₂HPO₄、Na₃PO₄)等。与转化过程同时添加碱可以在监测反应混合物pH同时人工完成，或者更便利地通过使用自动滴定器作为pH固定计来完成。部分缓冲容量与碱添加的组合也可以用于过程控制。

当利用碱添加来中和酮还原酶催化的还原反应过程中释放的葡糖酸时，可以通过保持pH所添加的碱的量监测转化的进展。通常，在还原过程中添加至未缓冲或部分缓冲的反应混合物的碱在水溶液中被添加。

在一些实施方案中，辅因子再生系统可以包括甲酸脱氢酶。术语“甲酸脱氢酶”和“FDH”在本文可互换使用，是指催化甲酸和NAD⁺或NADP⁺分别转化为二氧化碳和NADH或NADPH的NAD⁺或NADP⁺依赖性酶。适合于在本文所述的酮还原酶催化的还原反应中用作辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢酶。甲酸脱氢酶包括分别由对应于PCT公布2005/018579的SEQ ID NO：69和SEQID NO：71的多核苷酸序列编码的对应于PCT公布WO 2005/018579的SEQID NO：70(假单胞菌)和SEQ ID NO：72(博伊丁假丝酵母(Candidaboidinii))的甲酸脱氢酶，所述参考文献的公开内容通过引用并入本文。在本文所述的方法中利用的甲酸脱氢酶，不论是天然存在的或非天然存在的，都可以在PCT公布WO 2005/018579的实施例4所述的测定中展现出至少约1μmol/min/mg、有时至少约10μmol/min/mg、或至少约10²μmol/min/mg、高达约10³μmol/min/mg或更高的活性，或者可以被容易地筛选活性。

如本文所用，术语“甲酸”是指甲酸根阴离子(HCO₂ ^-)、甲酸(HCO₂H)以及它们的混合物。甲酸可以以盐的形式、以甲酸的形式或其混合物的形式提供，所述盐通常为碱盐或铵盐(例如，HCO₂Na、KHCO₂NH₄等)，所述甲酸通常为含水甲酸。甲酸是中等酸。甲酸在水溶液中在其pKa(在水中pKa＝3.7)的几个pH单位内以平衡浓度的HCO₂ ^-和HCO₂H二者存在。在高于约pH 4的pH值，甲酸主要以HCO₂ ^-存在。当甲酸以甲酸提供时，反应混合物通常被缓冲或通过添加碱使之酸性更小，以提供通常为大约pH5或更高的期望pH。用于中和甲酸的适合的碱包括但不限于有机碱，例如胺、醇盐等，以及无机碱，例如氢氧化物盐(例如NaOH)、碳酸盐(例如K₂CO₃)、碳酸氢盐(例如NaHCO₃)、碱性磷酸盐(例如K₂HPO₄、 Na₃PO₄)等。

对于高于约pH 5的pH值而言，在该pH甲酸主要以HCO₂ ^-存在，以下等式(2)描述了由甲酸根对NAD⁺或NADP⁺进行甲酸脱氢酶催化的还原。

当甲酸和甲酸脱氢酶被用作辅因子再生系统时，可以通过标准缓冲技术(其中缓冲液释放质子达到提供的缓冲容量)或者通过在转化过程的同时添加酸将反应混合物的pH保持在期望水平。为保持pH而在反应过程中添加的适宜的酸包括有机酸，例如羧酸、磺酸、膦酸等；无机酸，例如氢卤酸(诸如盐酸)、硫酸、磷酸等；酸式盐，例如磷酸二氢盐(例如KH₂PO₄)、硫酸氢盐(例如NaHSO₄)等。一些实施方案利用甲酸，由此保持甲酸浓度和溶液的pH二者。

当在使用甲酸/甲酸脱氢酶辅因子再生系统的还原反应过程中利用酸添加保持pH时，可以通过保持pH所添加的酸的量监测转化进程。通常，在转化过程中添加至未缓冲的或部分缓冲的反应混合物的酸在水溶液中被添加。

术语“仲醇脱氢酶”和“sADH”在本文可互换使用，是指催化仲醇和NAD⁺或NADP⁺分别转化为酮和NADH或NADPH的NAD⁺或NADP⁺依赖性酶。以下等式(3)描述了NAD⁺或NADP⁺被仲醇(通过异丙醇举例说明)还原。

适合于在本文所述的酮还原酶催化的还原反应中用作辅因子再生系统的仲醇脱氢酶包括天然存在的仲醇脱氢酶以及非天然存在的仲醇脱氢酶。天然存在的仲醇脱氢酶包括来自布氏热厌氧杆菌(Thermoanerobiumbrockii)、红串红球菌(Rhodococcus etythropolis)、高加索酸奶乳杆菌、微小乳杆菌和短乳杆菌的已知醇脱氢酶，并且非天然存在的仲醇脱氢酶包括自其获取的工程化醇脱氢酶。在本文所述的方法中利用的仲醇脱氢酶不论是否是天然存在或非天然存在的，可能展现出至少约1μmol/min/mg、有时至少约10μmol/min/mg或至少约10²μmol/min/mg、高达约10³μmol/min/mg或更高的活性。

适合的仲醇包括低级仲链烷醇和芳基-烷基甲醇。低级仲醇的实例包括异丙醇、2-丁醇、3-甲基-2-丁醇、2-戊醇、3-戊醇、3，3-二甲基-2-丁醇等。在一个实施方案中，仲醇是异丙醇。适合的芳基-烷基甲醇包括未取代的和取代的1-芳基乙醇。

在一个实施方案中，其中异丙醇到丙酮的氧化用于再生NADH/NADPH，可以用使得丙酮从反应混合物中被除去的方式在减小的压力下进行反应。

当仲醇和仲醇脱氢酶用作辅因子再生系统时，得到的NAD⁺或NADP⁺被仲醇到酮的偶联氧化所还原，所述仲醇是由仲醇脱氢酶偶联氧化为酮。一些工程化酮还原酶也具有使仲醇还原剂脱氢的活性。在一些使用仲醇作为还原剂的实施方案中，工程化酮还原酶和仲醇脱氢酶是同一种酶。

在利用辅因子再生系统执行本文所述的酮还原酶催化的还原反应的实施方案时，最初可以提供辅因子的氧化形式或还原形式。如以上所述，辅因子再生系统将氧化的辅因子转化为其还原形式，然后其还原形式在酮还原酶底物的还原中被利用。

在一些实施方案中，不使用辅因子再生系统。对于不使用辅因子再生系统而执行的还原反应，辅因子以还原形式被添加到反应混合物中。

在一些实施方案中，当使用宿主生物的全细胞执行该过程时，全细胞可以天然地提供辅因子。可选地或合并地，细胞可以天然地或重组地提供葡萄糖脱氢酶。

在执行本文所述的立体选择性还原反应时，工程化酮还原酶和任何包括任选的辅因子再生系统的酶可以以纯化的酶形式、用编码这些酶的基因转化的全细胞和/或这些细胞的细胞提取物和/或溶胞产物的形式添加至反应混合物。可以将编码工程化酮还原酶和任选的辅因子再生酶的基因分别转化到宿主细胞中或一起转化到同一宿主细胞中。例如，在一些实施方案中，可以用编码工程化酮还原酶的基因转化一组宿主细胞，并且用编码辅因子再生酶的基因转化另一组。两组转化的细胞可以在反应混合物中以全细胞形式或者以由其获取的溶胞产物或提取物形式被一起利用。在其他实施方案中，可以用编码工程化酮还原酶和辅因子再生酶的基因转化宿主细胞。

用编码工程化酮还原酶和/或任选的辅因子再生酶的基因转化的全细胞或其细胞提取物和/或溶胞产物可以以多种不同形式利用，包括固体(例如，冻干的、喷雾干燥的等)或半固体(例如，粗制糊)。

通过沉淀(硫酸铵，聚乙烯亚胺，热处理或类似处理)接着是冻干之前的脱盐步骤(例如，超滤，透析等)，可以部分地纯化细胞提取物或细胞溶胞产物。通过使用已知的交联剂(诸如例如戊二醛)交联或固定到固相(例如，Eupergit C等)，可以稳定任何细胞制备物。

固体反应物(例如酶、盐等)可以以多种不同形式被提供至反应，包括粉末(例如，冻干、喷雾干燥的等)、溶液、乳液、悬浮液等。使用本领域普通技术人员已知的方法和设备可以使反应物容易地冻干或喷雾干燥。例如，蛋白溶液能够以小等份冷冻在-80℃，然后被添加到预冷的冷冻干燥室中，接着施加真空。在从样品中除去水后，在真空释放和取回冻干样品之前通常将温度升至4℃两小时。

在还原反应中使用的反应物的量一般将随期望的产物量和伴随地利用的酮还原酶底物的量而变化。以下方针可用于确定使用酮还原酶、辅因子和任选的辅因子再生系统的量。一般而言，使用约50mg到约5g的酮还原酶和约10mg到约150mg的辅因子，酮底物能够以约20到300克/升的浓度被利用。本领域普通技术人员将容易地理解如何改变这些量以使其适应于期望的产率水平和生产规模。任选的辅因子再生系统的适当量可以通过常规实验基于利用的辅因子和/或酮还原酶的量容易地确定。一般来说，还原剂(例如，葡萄糖、甲酸和异丙醇)以高于酮还原酶底物的等摩尔水平的水平被利用以达到基本上完全或接近完全转化酮还原酶底物。

添加反应物的次序不是关键的。反应物可以被同时一起添加至溶剂(例如，单相溶剂，双相含水共溶剂系统等)，或者可选地，反应物中的一些可以被分别添加，并且一些在不同时间点被一起添加。例如，辅因子再生系统、辅因子、酮还原酶和酮还原酶底物可以被首先添加至溶剂。

对于改进的混合效率，当使用含水的共溶剂系统时，辅因子再生系统、酮还原酶和辅因子可以被首先添加并混合到水相中。然后可以添加并混合有机相，接着添加酮还原酶底物。可选地，在添加至水相之前，酮还原酶底物可以在有机相中被预混合。

用于执行本文所述的酮还原酶催化的还原反应的适宜条件包括可以容易地通过常规实验优化的广泛种类的条件，所述常规实验包括但不限于使工程化酮还原酶和底物在实验pH和温度下接触，并且例如使用在本文提供的实施例中所述的方法检测产物。

酮还原酶催化的还原通常在约15℃至约75℃的范围内的温度执行。对于一些实施方案，反应在约20℃到约55℃的范围内的温度执行。仍在其他实施方案中，反应在约20℃到约45℃的范围内的温度执行。反应也可以在室温条件下执行。

一般使还原反应进行到直至基本上完全或接近完全，获得了底物的还原。底物还原为产物可以使用已知方法通过检测底物和/或产物来监测。适宜方法包括气相色谱、HPLC等。在反应混合物中产生的醇还原产物的转化产率一般大于约50％，也可以大于约60％，也可以大于约70％，也可以大于约80％，也可以大于90％，并且通常大于约97％。

实施例

本公开内容的多个特征和实施方案在以下代表性实施例中被举例说明，这些代表性实施例旨在举例说明而不是限制性的。

在以下描述中，不论在哪儿使用葡萄糖脱氢酶(GDH)，它是从Julich Chiral Solutions，Jülich，Germany可获得的GDH CDX901。

实施例1：野生型酮还原酶基因采集和表达载体的构建.

基于报道的酮还原酶的氨基酸序列和如通过引用并入本文的美国临时申请系列第60/848,950号的实施例1中所述的密码子优化算法，酮还原酶(KRED)编码基因被设计用于在大肠杆菌中表达。(标准的密码子优化软件还综述于例如“OPTIMIZER：a web server for optimizing the codonusage of DNA sequences(OPTIMIZER：用于优化DNA序列的密码子使用的web服务器)”Puigbò等人，Nucleic Acids Res.2007年7月；35(Web服务器问题)：W126-31.Epub 2007年4月16日中。)使用例如由42个核苷酸组成的寡核苷酸来合成基因，并将其克隆到在lac启动子控制下的表达载体pCK110900(在美国专利申请公布20060195947中被描绘为图3)中。该表达载体也包含P15a复制起点和氯霉素抗性基因。使用标准方法将得到的质粒转化到大肠杆菌W3110中。密码子优化的基因和编码多肽的实例也列在表5中。如在美国临时申请系列第60/848,950号中所述证实了野生型酮还原酶的活性。

编码本发明的工程化酮还原酶的多核苷酸被同样克隆到载体pCK110900中用于在大肠杆菌W3110中表达。

实施例2：酮还原酶粉末的产生；摇瓶步骤.

将包含具有感兴趣酮还原酶基因的质粒的大肠杆菌的单个微生物菌落接种到包含30μg/ml氯霉素和1％葡萄糖的50ml Luria Bertani肉汤中。在250rpm摇动下，使细胞在30℃培养箱中生长过夜(至少16小时)。将培养物稀释到1升烧瓶内的250ml Terrific肉汤(12g/L细菌用胰蛋白胨，24g/L酵母提取物，4ml/L甘油，65mM磷酸钾，pH 7.0，1mM MgSO4，30μg/ml氯霉素)中至600nm光密度(OD600)为0.2并使其在30℃生长。当培养物的OD600为0.6到0.8时用1mM IPTG诱导酮还原酶基因的表达并培养过夜(至少16小时)。通过离心(5000rpm，15min和4℃) 收获细胞并弃掉上清液。用等体积冷(4℃)100mM三乙醇胺(氯化物)缓冲液pH 7.0(在ADH-LK和ADH-LB以及自其获取的工程化酮还原酶的情况下包括2mM MgSO4)重悬细胞团粒并如上通过离心收获。将洗涤的细胞重悬在两倍体积冷三乙醇胺(氯化物)缓冲液中并使其通过12000psi的French Press两次，同时将温度保持在4℃。通过离心(9000rpm，45min.，和4℃)除去细胞碎片。收集澄清的溶胞产物上清液并将其储存在-20℃。冰冻的澄清溶胞产物的冻干提供粗制酮还原酶的干燥粉末。

实施例3：酮还原酶的生产；发酵步骤.

在通气搅拌的15L发酵罐中，使包含以下成分的6.0L生长培养基到30℃的温度：0.88g/L硫酸铵，0.98g/L柠檬酸钠，12.5g/L磷酸氢二钾三水合物，6.25g/L磷酸二氢钾，6.2g/L Tastone-154酵母提取物，0.083g/L柠檬酸铁铵，以及包含2g/L氯化钙二水合物、2.2g/L硫酸锌七水合物、0.5g/L硫酸镁一水合物、1g/L硫酸亚铜七水合物、0.1g/L钼酸铵四水合物和0.02g/L四硼酸钠十水合物的8.3ml/L痕量元素溶液。用大肠杆菌W3110的指数后期培养物接种发酵罐，所述大肠杆菌W3110包含具有感兴趣的酮还原酶基因的质粒，在如实施例3所述的摇动烧瓶中生长到起始OD600为0.5到2.0。以500-1500rpm搅拌发酵罐并且将空气以1.0-15.0L/min供给发酵容器以保持30％饱和或更大的溶解氧水平。通过添加20％v/v氢氧化铵将培养物的pH控制在7.0。通过添加包含500g/L工业葡萄糖、12g/L氯化铵和10.4g/L硫酸镁七水合物的进料液保持培养物的生长。在培养物达到OD600为50后，通过添加异丙基-b-D-硫代半乳糖苷(IPTG)至1mM的终浓度诱导酮还原酶的表达。使培养物生长另外14小时。然后使培养物冷却至4℃并保持在4℃直至收获。通过在4℃的Sorval RC12BP离心机中以5000G离心40分钟收获细胞。将收获的细胞直接用在下面的下游回收过程中或储存在4℃直至这种使用。

在4℃将细胞团粒重悬在2体积的100mM三乙醇胺(氯化物)缓冲液pH 6.8中至每个体积的湿细胞糊状物(wet cell paste)。通过使悬液通过配有二段式均质阀(two-stage homogenizing valve)组件使用12000psig压力的均质器，从细胞中释放细胞内酮还原酶。将细胞匀浆在破裂后立即冷却至4℃。将10％w/v聚乙烯亚胺pH 7.2的溶液添加到溶胞产物中至0.5％w/v的终浓度，并搅拌30分钟。通过在标准实验室离心机中以5000G离心30分钟，使得到的悬液澄清。滗去澄清的上清液并使用具有30KD的截留分子量的纤维素超滤膜浓缩十次。将最终的浓缩液分配到浅容器中，在-20℃冷冻并冻干成粉末。将酮还原酶粉末储存在-20℃。

实施例4：用于将5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3基))-1-(4-氟苯基)戊烷-1，5-二酮转化为(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的分析方法.

确定(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮和对映体过量的(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的转化的分析方法。

确定转化的非手性HPLC方法。使用配有Agilent Zorbax Eclipse XDB柱(7.5cm长，2.1mm直径，洗脱液：水/乙腈50∶50，流速0.7ml/min；柱温度40℃)的Agilent 1100HPLC确定(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮还原为(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮。保留时间：(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮：1.3min，(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮：2.2min。

确定(4S)-3-[5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的立体纯度的手性HPLC方法。使用配有Chiralcel OD-H柱(15cm长度，2.1mm直径，洗脱液：己烷/乙醇80∶20，流速1ml/min)的Agilent 1100HPLC确定(4S)-3-[5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的立体异构体纯度。保留时间：(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮：6.64min，(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮：7.93min，(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮：10.44min。

实施例5：用于还原5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮的野生型酮还原酶的评估

使用NADH和NADPH作辅因子以及葡萄糖脱氢酶/葡萄糖或异丙醇(“IPA”)作辅因子再生系统，筛选实施例1的表5中描述的KRED。将100μl细胞溶胞产物添加到深孔板(Costar#3960)中，所述深孔板包含25μl 5mg/ml Na-NADP(Oriental Yeast)和100mM三乙醇胺(氯化物)(pH 7.0)中的2mM MgSO₄，以及包含2g/L(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮的125μl异丙醇。在用铝/聚丙烯分层热封带(速度11(Menlo Park，CA)，Cat#06643-001)将板密封后，反应在室温下进行至少16小时。在反应结束时，每孔添加1ml乙腈(对于反相HPLC)或MTBE(对于正相HPLC)。将板重新密封，摇动20分钟，并离心(4000rpm，10min，4℃)。将200ul有机层转移至新的浅孔微量滴定板中用于分析。

这个实施例将证明，野生型酮还原酶对5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮如果有活性的话具有非常小的活性。

实施例6：用于还原5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮的ADH-LK变体的评估

评估了已产生的几种ADH-LK变体，并发现当在实施例5中所述的条件下评估时，具有SEQ ID NO：8的ADH-LK变体将底物转化为手性(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮产物，在表6中列出。

这个实施例显示，包含G7S、R108H、G117S、E145S、N157T、Y190C、K112R和I223V突变的ADH-LK变体将5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3基))-1-(4-氟苯基)戊烷-1，5-二酮转化为具有高立体选择性(94％立体异构体过量)的(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮。

实施例7：使用用于辅因子再循环的异丙醇高通量HPLC测定酮还原酶对5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮的活性.

将通过定向进化获得并包含进化的酮还原酶基因的质粒文库转化到大肠杆菌中并将其铺板于包含1％葡萄糖和30μg/mL氯霉素(CAM)的Luria-Bertani(LB)肉汤。在30℃培养至少16小时后，使用机器菌落采集器(Genetix USA，Inc.，Beaverton，OR)挑取菌落到包含180μLTerrific肉汤(TB)、1％葡萄糖、30μg/mL氯霉素(CAM)和2mM MgSO₄的96孔浅孔微量滴定板中。在200rpm摇动下使细胞在30℃生长过夜。然后将20μL的这种培养物转移到包含350μL Terrific肉汤(TB)、2mMMgSO₄和30μg/mL CAM的96深孔板中。在30℃于250rpm摇动下培养深孔板2.5到3小时(OD₆₀₀.6-0.8)后，通过添加异丙基硫代半乳糖苷(IPTG)至1mM终浓度诱导细胞培养物的重组基因表达。然后将板在30℃于250rpm摇动下培养15-23小时。

将100μl细胞溶胞产物添加到深孔板(Costar#3960)中，所述深孔板包含25μl 5mg/ml Na-NADP(Oriental Yeast)和100mM三乙醇胺(氯化物)(pH 7.0)中的2mM MgSO₄，以及包含2g/L(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮的125μl异丙醇。在用铝/聚丙烯分层热封带(速度11(Menlo Park，CA)，Cat#06643-001)将板密封后，反应在室温下进行至少16小时。在反应结束时，每孔添加1ml乙腈(对于反相HPLC)或MTBE(对于正相HPLC)。将板重新密封，摇动20分钟，并离心(4000rpm，10min，4℃)。将200ul有机层转移至新的浅孔微量滴定板中用于如实施例4中所述的分析。

这个实施例描述了用于鉴定对于5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮的还原改进的KRED变体的方法。

实施例8：源自ADH-LK的工程化酮还原酶还原5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮.

在小规模化学反应中分析用于将(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮还原为(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的改进的AHD-LK变体。在带有特氟纶(teflon)搅拌棒的玻璃容器中，将500mg(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮、100mg KRED变体、0.5mg Na-NADP(Oriental Yeast)、2.5ml异丙醇、以及2.5ml 100mM三乙醇胺(氯化物)缓冲液pH 7.0、2mM MgSO₄混合并在25℃搅拌过夜。通过实施例4的方法分析反应样品。

实施例9：(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1，3-噁唑烷-2-酮的制备规模生产

使用用于辅因子再循环的iPA的(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的制备规模生产。在带有特氟纶搅拌棒的25℃恒温的1升圆底烧瓶中，将2.5克冻干的KRED催化剂溶解于200ml 100mM三乙醇胺(氯化物)pH 7.0，2mM MgSO₄中。在酶溶解后，添加175mg -NADP⁺，接着添加5克(S)-1-(4-氟-苯基)-5-(2-氧代-4-苯基-噁唑烷-3-基)-戊烷-1，5-二酮。添加200ml的2-丙醇，导致白色沉淀的形成。在25℃搅拌5小时后，此时反应完全，将混合物过滤通过硅藻土以除去不溶解的蛋白部分。将异丙醇蒸馏出去直至剩余约200ml溶液。用200ml乙酸乙酯萃取水层两次并且用饱和NaCl洗涤合并的乙酸乙酯层。乙酸乙酯层经Na₂SO₄干燥并且在过滤后，将乙酸乙酯蒸馏出，产生约5g的手性醇2，为淡黄色油。(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的立体异构纯度(如在实施例4中所述确定)为大于99％(S，S)。

使用GDH和外部pH对照的(4S)-3-[(5S)-5-(4-氟-苯基)-5-羟基-戊酰基]-4-苯基-噁唑烷-2-酮的制备规模生产。2L树脂锅配有顶置式机械搅拌器(mechanical overhead stirrer)、pH探头和用于滴定含水的4N NaOH的入口。对外部滴定器(Schott Titronic)设计程序以保持pH在7.00+/-0.10。

向该树脂锅中填充为粉末的5-((4S)-2-氧代-4-苯基(1，3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1，5-二酮(120g)，接着填充右旋糖粉末(91g)、甲苯(200ml)以及缓冲液(750ml 0.02M的磷酸钾和0.002M硫酸镁)。合上顶板并扣紧。除了与pH探头相配的pH探头入口以外关闭所有适当的入口。然后将电动机装配到联接器(coupling)上，开始搅拌达1200rpm的速率。测量反应混合物的pH并将其调整至7.0+0.1。使反应混合物的温度达到30+1℃。当反应达到温度时，将0.4g Na-NADP、0.8g GDH和2.00g冻干的KRED溶解于40ml去离子水中。当反应器温度在适当范围内时，一次性添加酶悬液，同时搅拌。开始滴定程序并且在整个反应持续时间通过添加4N NaOH将pH保持在7.0+/-0.1。在30℃搅拌反应持续16小时。定期对反应器取样，并通过如实施例4所述的HPLC检查底物转化。定期取样和分析持续直到转化率达到99％或更好。

当认为反应结束时，停止搅拌并使二相混合物分离。通过注射器尽可能好地将澄清水层(240ml)从容器的底部移出。将该水层中的90ml添加至22g硅藻土并放在一边，弃掉剩余水层。将甲苯(240ml)添加至反应混合物，然后将其搅拌10分钟并使其再次沉降30分钟。通过注射器移出另一部分180ml的澄清水相并弃掉。重新开始搅拌，接着添加硅藻土和放在一边的含水混合物。继续搅拌10分钟。将反应混合物过滤通过“M”烧结玻璃漏斗以除去不可溶的材料(主要为变性的酶和硅藻土)。将饼状物过滤直至几乎干燥。用甲苯(100mL)漂洗反应器。将反应器漂洗液添加至滤饼。将滤饼填实，然后用100ml以上甲苯洗涤并使其干燥。将双相滤液转移至分液漏斗并分离。将饱和的含水硫酸铵(100ml)添加至有机层并轻轻混合，使之分离。移除下(水)层。然后用去离子水洗涤甲苯两次。在最终分离后，将得到的包含产物的湿甲苯溶液填入1升烧瓶中并且于真空下在旋转蒸发器上移去。当完成这些时，将加热浴升温至不超过50℃并将真空从110mm(最初)降到2mm。得到的粗产物是在两天之内放置后凝固的油。产量：125g。

在本申请中引用的所有出版物、专利、专利申请和其他文件出于所有目的均通过引用以其整体并入本文，其程度如同分别指出将每个单独的出版物、专利、专利申请或其他文件出于所有目的通过引用并入一样。

尽管已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的主旨和范围。

Claims

1.一种重组酮还原酶多肽，所述重组酮还原酶多肽能够将底物5-((4S)-2-氧代-4-苯基(1,3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1,5-二酮转化为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1,3-噁唑烷-2-酮，其中所述重组酮还原酶多肽是基于SEQ ID NO:130的氨基酸序列，条件是所述氨基酸序列在对应于残基X7的残基处是丝氨酸、对应于残基X145的残基处是丝氨酸、对应于残基X190的残基处是半胱氨酸并且在对应于残基X211的残基处是精氨酸，所述重组酮还原酶多肽是选自由SEQ ID NO:42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124和126组成的组的氨基酸序列。

2.如权利要求1所述的重组酮还原酶多肽，所述重组酮还原酶多肽能够将所述底物转化为具有至少95%的立体异构体过量百分比的所述产物。

3.如权利要求1所述的重组酮还原酶多肽，所述重组酮还原酶多肽能够将所述底物转化为具有至少99%的立体异构体过量百分比的所述产物。

4.如权利要求1所述的重组酮还原酶多肽，所述重组酮还原酶多肽能够以相比于所述参考多肽大至少120倍或更大的速率将所述底物转化为所述产物。

5.如权利要求1所述的重组酮还原酶多肽，所述重组酮还原酶多肽能够以比所述参考多肽大至少3000倍或更大的速率将所述底物转化为所述产物。

6.如权利要求1所述的重组酮还原酶多肽，所述重组酮还原酶多肽当以大于100g/L的底物和小于5g/L的多肽进行反应时能够在少于24小时内将至少95%的所述底物转化为所述产物。

7.一种多核苷酸，所述多核苷酸编码根据权利要求1-6任一项所述的重组酮还原酶多肽。

8.一种表达载体，所述表达载体包含与适于在宿主细胞中指导被编码的多肽的表达的控制序列可操作地连接的权利要求7所述的多核苷酸。

9.一种宿主细胞，所述宿主细胞包含权利要求8所述的表达载体。

10.一种用于将底物5-((4S)-2-氧代-4-苯基(1,3-噁唑烷-3-基))-1-(4-氟苯基)戊烷-1,5-二酮立体选择性还原为产物(4S)-3-[(5S)-5-(4-氟苯基)-5-羟基戊酰基]-4-苯基-1,3-噁唑烷-2-酮的方法，所述方法包括使所述底物与权利要求1-6任一项所述的重组酮还原酶多肽；

在适于将所述底物还原或转化为所述产物的反应条件下接触。

11.如权利要求10所述的方法，其中所述产物以大于99%的立体异构体过量被还原。

12.如权利要求10所述的方法，其中所述底物的至少95%在少于24小时内被还原为所述产物，其中所述底物的浓度为至少100g/L并且所述重组酮还原酶多肽的浓度小于5g/L，并且其中所述重组酮还原酶多肽是选自由SEQ ID NO:102、108、120、122、124和126组成的组的氨基酸序列。

13.如权利要求10所述的方法，所述方法用表达所述重组酮还原酶多肽的全细胞或这些细胞的提取物或溶胞产物进行。

14.如权利要求10所述的方法，其中所述重组酮还原酶多肽被分离和/或纯化，并且所述还原反应在所述重组酮还原酶多肽的辅因子和任选地所述辅因子的再生系统的存在下进行，其中所述再生系统包括葡萄糖脱氢酶和葡萄糖；甲酸脱氢酶和甲酸；或异丙醇和仲醇脱氢酶。

15.如权利要求14所述的方法，其中所述仲醇脱氢酶是所述重组酮还原酶多肽。

16.一种组合物，所述组合物包含结构式(I)的化合物

和/或结构式(II)的化合物

以及权利要求1-6任一项所述的重组酮还原酶多肽。