CN102884178B

CN102884178B - 拉唑化合物的合成

Info

Publication number: CN102884178B
Application number: CN201080054980.3A
Authority: CN
Inventors: 荣贵·彭; 迈克尔·D·克莱; 史蒂文·J·科利尔; 本杰明·米杰茨; 迈克尔·沃格尔; 张希云; 朱军; 约瓦娜·纳佐尔; 德里克·史密斯; 宋士玮
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2009-12-08
Filing date: 2010-12-08
Publication date: 2014-12-03
Anticipated expiration: 2030-12-08
Also published as: CN102884178A; EP2510089B1; US20150056668A1; US9422534B2; US20130017580A1; US20160319252A1; WO2011071982A3; EP2510089A4; US20160076008A1; SI2510089T1; US8895271B2; EP2510089A2; US9228216B2; US9631181B2; SG181535A1; WO2011071982A2

Abstract

本公开涉及用于制备拉唑化合物的非天然存在的单加氧酶多肽、编码所述多肽的多核苷酸和使用所述多肽的方法。

Description

拉唑化合物的合成

技术领域

本公开涉及生物催化剂以及使用所述生物催化剂的方法。

对序列表、表格或计算机程序的引用

经由EFS-Web与说明书同时提交作为ASCII格式文本文件、文件名为CX2-036WO1_ST25.txt、创建日期为2010年12月7日、文件大小为955175字节的序列表。经由EFS-Web提交的序列表是说明书的一部分，并在此通过引用整体并入本文。

背景

艾司奥美拉唑(esomeprazole)是指定用于治疗消化不良、消化性溃疡病(PUD)、胃食管反流病(GORD/GERD)和Zollinger-Ellison综合征的质子泵抑制剂。艾司奥美拉唑是奥美拉唑的S-对映异构体，奥美拉唑是S和R异构体的外消旋混合物。艾司奥美拉唑(在此还称为“(S)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑”或“化合物(2b)”)具有以下结构：

艾司奥美拉唑及其相应的R-异构体是前药，其在酸性环境下被转化为活性形式。它被质子催化的过程所活化以形成次磺酰胺，次磺酰胺与H+K+-ATP酶的胞外结构域中半胱氨酸残基的硫氢基相互作用，从而抑制其活性。表明S-对映异构体的效力大于外消旋的奥美拉唑。

如Cotton等人，2000，Tetrahedron：Asymmetry11：3819所描述的，通常通过将硫化物化学不对称氧化成亚砜，即Kagan-Sharpless型氧化，来合成艾司奥美拉唑。该过程得到大约94％对映异构体过量的艾司奥美拉唑。可以通过制备镁盐、随后结晶来明显增加艾司奥美拉唑制品的对映异构体纯度。还描述了艾司奥美拉唑的不同的盐和水合物。例如，WO00/44744公开了艾司奥美拉唑的钾盐。美国专利号6,162,816公开了中性艾司奥美拉唑的结晶形式A和较低结晶形式B，其通过从乙酸乙酯、二氯甲烷或甲苯重结晶来制备。美国专利号6,369,085公开了从相应的钾盐制备、用丙酮沉淀并用水处理的艾司奥美拉唑镁三水合物。

然后，需要提高生产效率以及降低用于形成高对映异构体纯的艾司奥美拉唑制品的加工步骤的数目。还需要确定适合制备除了艾司奥美拉唑以外的其他拉唑化合物的方法。

概述

本公开提供用于生物催化磺化氧化拉唑化合物、特别是将5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑的硫化物底物(在本文还称为“化合物(1)”)转化为5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑的(R)-和(S)-奥美拉唑产物(在本文还称为“化合物(2)”)的多肽，编码所述多肽的多核苷酸，以及使用所述多肽的方法。

虽然天然存在的环己酮单加氧酶(CHMO)多肽不能有效地将化合物(1)转化为化合物(2)，但本公开的非天然存在的单加氧酶多肽(在本文还称为“工程化CHMO多肽”)被设计为有效进行所述转化。而且，在一些实施方案中，本公开的非天然存在的单加氧酶多肽可以立体选择性地进行反应以形成相对于R-异构体对映异构体过量的S-异构体(S)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(在本文还称为“化合物(2b)”)，或在一些实施方案中形成相对于S-异构体对映异构体过量的(R)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(在本文还称为“化合物(2a)”)。在一些实施方案中，单加氧酶多肽可以产生基本上对映异构体纯的制品的化合物(2b)。

在一些实施方案中，所述多肽能够以对映异构体过量将化合物(1)转化为化合物(2a)。在一些实施方案中，R-对映异构体选择性单加氧酶多肽包括与参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206和208。特别地，参考序列是SEQ ID NO：6、166、170、174、190、192、196、200、204或206。

在一些实施方案中，所述多肽能够以对映异构体过量将化合物(1)转化为化合物(2b)。在一些实施方案中，S-对映异构体选择性单加氧酶多肽包括与参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：8、10、22、52、76、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266。特别地，参考序列是SEQ ID NO：116、124、130、138或158。

此外，本公开提供了能够以相对于SEQ ID NO：2的天然存在的单加氧酶提高的速率将化合物(1)转化为化合物(2)的单加氧酶多肽。在一些实施方案中，本公开的非天然存在的单加氧酶多肽能够以大于SEQ ID NO：2速率的1.5倍的速率将化合物(1)转化为化合物(2)。在一些实施方案中，所述多肽能够以大于SEQ ID NO：2多肽1.5倍的速率将化合物(1)转化为化合物(2)，并且包括与参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，参考序列选自SEQ ID NO：4、6、8、10、22、52、76、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266。特别地，参考序列是SEQ ID NO：116、124、130、138或158。

从不动杆菌(Acinetobacter)NCIMB9871的天然存在的环己酮单加氧酶衍生的、能够以提高的对映异构体选择性和/或酶活性将化合物(1)转化为化合物(2)的多肽包括与SEQ ID NO：2的序列相比具有一个或多个残基差异的氨基酸序列。残基差异可以存在于被鉴定为与以下性质的希望变化有关的残基位置：酶活性、对映异构体选择性、砜副产物形成、热稳定性、溶剂稳定性、表达或其各种组合。因此，在一些实施方案中，与SEQ ID NO：2相比，本公开的多肽可以在以下残基位置具有一个或多个残基差异：X3；X14；X34；X43；X71；X111；X141；X149，X174；X209；X240；X246；X248；X288；X307；X326；X383；X386；X388；X390；X400；X415；X426；X432；X433；X435；X438；X448；X449；X481；X488；X489；X490；X499；X505；X516；X526；X537；和X540。在一些实施方案中，与SEQ ID NO：2的参考序列相比，单加氧酶氨基酸序列在以上残基位置具有至少2个或更多、至少3个或更多、或至少4个或更多残基差异。在本文详述中提供了可以在这些位置存在的氨基酸残基。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与对映异构体选择性变化相关的残基位置具有一个或多个残基差异的氨基酸序列，所述位置选自以下：X246；X248；X326；X386；X432；X433；X435；X438；和X448。在一些实施方案中，与SEQ ID NO：2的参考序列相比，单加氧酶在这些残基位置具有至少2个或更多、至少3个或更多、或至少4个或更多残基差异。

在一些实施方案中，非天然存在的单加氧酶多肽包括与SEQ ID NO：2相比在与砜副产物形成降低相关的残基位置具有一个或多个残基差异的氨基酸序列，其中砜副产物具有以下化合物(3)的结构：

与生物催化过程中形成的化合物(3)的砜副产物的量降低相关的残基位置可以选自以下：X246、X248、X277和X438。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与热稳定性和/或溶剂稳定性的增加相关的残基位置具有一个或多个残基差异的氨基酸序列，所述位置选自以下：X43、X71、X111、X149、X174、X307、X341、X368、X388、X390、X400、X449、X481和X488。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与蛋白表达增加相关的残基位置具有残基差异的氨基酸序列，所述位置包括X3。

如对于技术人员明显的，可以利用与SEQ ID NO：2相比在与酶活性、对映异构体选择性、砜副产物形成、热稳定性、溶剂稳定性和表达的希望变化相关的残基位置的残基差异的各种组合来形成本公开的多肽。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2a)的多肽(R-对映异构体选择性的)包括至少包括以下特征的两个或多个的氨基酸序列：对应于X432的位置的残基是脂肪族氨基酸残基；对应于X433的位置的残基是非极性氨基酸残基；对应于X435的位置的残基是含羟基的氨基酸残基；并且对应于X490的位置的残基是碱性氨基酸残基。在一些实施方案中，R-对映异构体选择性单加氧酶具有至少以上特征的3个或至少以上特征的全部。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽(S-选择性的)包括其中至少对应于X326的位置的残基是半胱氨酸(C)的氨基酸序列。在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括其中至少对应于X386的位置的残基是含羟基的氨基酸残基、特别是S的氨基酸序列。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是半胱氨酸(C)并且对应于X386的位置的残基是含羟基的氨基酸残基、特别是S。

在一些实施方案中，S-对映异构体选择性单加氧酶多肽包括的氨基酸序列除了以上与S-对映异构体选择性相关的残基差异，还具有与增加的吡美拉唑(pyrmetazole)底物酶活性和/或增加的S-对映异构体选择性相关的残基位置的至少一个或多个残基差异，特别是在残基位置X432、X433、X435、X438、X448和X490、更特别是在残基位置X432、X433、X435和X490的至少1个或更多残基差异。

因此，在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是半胱氨酸(C)；对应于X386的位置的残基是含羟基的氨基酸残基；和对应于X432的位置的残基是脂肪族氨基酸残基。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是半胱氨酸(C)；对应于X386的位置的残基是含羟基的氨基酸残基；对应于X432的位置的残基是脂肪族氨基酸残基；对应于X433的位置的残基是脂肪族氨基酸残基；对应于X435的位置的残基是含羟基的氨基酸残基；和对应于X490的位置的残基是碱性氨基酸残基。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X432的位置的残基是A或L；对应于X433的位置的残基是A、L或V；对应于X435的位置的残基是S；和对应于X490的位置的残基是R。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X34的位置的残基是K；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X288的位置的残基是I；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X415的位置的残基是A；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X490的位置的残基是R；对应于X516的位置的残基是V；和对应于X537的位置的残基是T。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X141的位置的残基是V；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X288的位置的残基是I；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X516的位置的残基是V；和对应于X537的位置的残基是T。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X111的位置的残基是T；对应于X141的位置的残基是V；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X246的位置的残基是Y；对应于X288的位置的残基是I；对应于X307的位置的残基是C或R；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X481的位置的残基是K；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X505的位置的残基是L；对应于X516的位置的残基是V；和对应于X537的位置的残基是T。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X111的位置的残基是T；对应于X141的位置的残基是V；对应于X149的位置的残基是W；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X246的位置的残基是Y；对应于X248的位置的残基是I或V；对应于X277的位置的残基是M；对应于X288的位置的残基是I；对应于X307的位置的残基是C或R；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X390的位置的残基是I；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X481的位置的残基是K；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X499的位置的残基是G、L或R；对应于X505的位置的残基是L；对应于X516的位置的残基是V；对应于X526的位置的残基是V；对应于X537的位置的残基是T；和对应于X540的位置的残基是Q。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X111的位置的残基是T；对应于X141的位置的残基是V；对应于X149的位置的残基是W；对应于X174的位置的残基是I；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X246的位置的残基是Y；对应于X248的位置的残基是I或V；对应于X277的位置的残基是M；对应于X288的位置的残基是I；对应于X307的位置的残基是C或R；对应于X326的位置的残基是C；对应于X341的位置的残基是E；对应于X383的位置的残基是G；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X390的位置的残基是I；对应于X400的位置的残基是I；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X449的位置的残基是F；对应于X481的位置的残基是K；对应于X488的位置的残基是K；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X499的位置的残基是G、L或R；对应于X505的位置的残基是L；对应于X516的位置的残基是V；对应于X526的位置的残基是V；对应于X537的位置的残基是T；和对应于X540的位置的残基是Q。

除了以上指定的残基位置，相对于SEQ ID NO：2的各种其他残基差异可以存在于本文公开的非天然存在的单加氧酶多肽的其他残基位置。这些可以是保守的或非保守的差异，包括保守取代和非保守取代。详述中提供了这些其他残基位置的指导以及在这些其他指定位置的氨基酸残基的选择。

另一方面，本文提供了编码单加氧酶多肽的多核苷酸，包含所述多核苷酸的表达载体，以及能够表达所述多肽的宿主细胞。

另一方面，本文提供了使用本公开的多肽将的结构式(I)的底物化合物转化为式(II)的产物化合物的方法：

其中，

Ar¹是任选取代的芳基或杂芳基环；

R是H、低级烃基、杂烃基或与Ar¹的环碳形成5至8元环烃基、杂烃基、芳基或杂芳基稠环；并且

Ar²是与咪唑环稠合的任选取代的环烃基、杂环烃基、芳基或杂芳基环。

一般而言，所述方法包括，在适合的反应条件下，在辅因子存在下，使式(I)化合物与本文描述的工程化单加氧酶多肽接触，以将所述底物转化为式(II)的产物化合物。适合的反应条件通常包括分子氧O₂来源，并且所述辅因子是NADPH或NADH。

使用本公开多肽的方法可用于以对映异构体过量制备结构式(II)的奥美拉唑类似物化合物，其中结构式(II)的化合物选自：(R)或(S)-兰索拉唑、(R)或(S)-替那拉唑、(R)或(S)-雷贝拉唑、(R)或(S)-泮托拉唑、(R)或(S)-艾普拉唑(ilaprazole)、(R)或(S)-来明拉唑、(R)或(S)-沙维拉唑和(R)或(S)-TY-11345。

在一些实施方案中，Ar¹是任选取代的苯基或吡啶基。在一些实施方案中，Ar²是任选取代的噻吩基、苯基或吡啶基。在一些实施方案中，式(I)化合物是化合物(1)并且式(II)的产物化合物是化合物(2)。

用于上述方法的示例性多肽可以包括选自由SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266组成的组的氨基酸序列，或者包括相对于SEQ ID NO：2具有表2A或2B中所列的这些多肽的任何一组氨基酸差异的氨基酸序列的工程化CHMO多肽。

在一些实施方案中，所述方法用于以对映异构体过量将化合物(1)转化为化合物(2a)。在一些实施方案中，所述方法包括，在适合的反应条件下，在辅因子存在下，使化合物(1)与本文描述的某种单加氧酶多肽接触，来以对映异构体过量形成化合物(2a)。在以对映异构体过量制备化合物(2a)的方法中使用的示例性多肽可以包括选自由以下组成的组的氨基酸序列：SEQID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206和208。

在一些实施方案中，所述方法用于以对映异构体过量将化合物(1)转化为化合物(2b)。在一些实施方案中，所述方法包括，在适合的反应条件下，在辅因子存在下，使化合物(1)与本文描述的某种单加氧酶多肽接触，来以对映异构体过量形成化合物(2b)。在以对映异构体过量制备化合物(2b)的方法中使用的示例性多肽可以包括选自由以下组成的组的氨基酸序列：SEQID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266。

在一些实施方案中，所述方法包括，在适合的反应条件下，在辅因子存在下，使化合物(1)与本公开的多肽接触，来以至少90％对映异构体过量形成化合物(2b)。

用于以至少90％对映异构体过量制备化合物(2b)的示例性多肽可以包括选自由以下组成的组的氨基酸序列：SEQ ID NO：10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、242、244、248、250、254、256、258、262和264。

在一些实施方案中，所述方法包括，在适合的反应条件下，在辅因子存在下，使化合物(1)与本公开的多肽接触，来以至少99％对映异构体过量形成化合物(2b)。用于以至少99％对映异构体过量制备化合物(2b)的示例性多肽可以包括选自由以下组成的组的氨基酸序列：SEQ ID NO：16、18、20、22、24、26、28、30、32、42、44、86、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158。

在一些实施方案中，所述方法中的反应条件包括10℃至50℃、特别是25℃至40℃的温度。

在一些实施方案中，所述方法中的反应条件包括约8.5的pH至约10的pH、特别是约8.5的pH至约9.0的pH。

在一些实施方案中，所述方法中的反应条件包括大于大气压的O₂分压。此外，可以通过用含O₂气体喷射反应溶液或者通过使用含O₂气体无泡充气来增加所述方法中的溶解分子氧。

在所述方法的一些实施方案中，反应条件包括共溶剂，例如MeOH、EtOH、异丙醇(IPA)、丙酮、甲苯、MeCN、甲基叔丁基醚(MTBE)、N-甲基-2-吡咯烷酮(NMP)、二甲基乙酰胺(DMAc)、二甲基甲酰胺(DMF)、丙二醇、聚乙二醇(PEG)、四甲基脲、N-乙基吡咯烷酮、四乙二醇二甲醚(tetraglyme)、1，3-二甲基-3，4，5，6-四氢-2(1H)-嘧啶酮(DMPU)、DMIU、六甲基磷酰胺(HMPA)和二甲亚砜(DMSO)。共溶剂可以减少可能影响过程的速率和可量测性(scalability)的聚集物的形成。

在一些实施方案中，所述方法还包括利用辅因子再生系统分别转化从NADH或NADPH生成的NAD+或NADP+。所述辅因子再生系统可以使用适当的脱氢酶，例如葡萄糖脱氢酶、葡萄糖-磷酸脱氢酶、甲酸脱氢酶、亚磷酸脱氢酶和酮还原酶/醇脱氢酶以及相应的底物，例如分别是葡萄糖、葡萄糖-6-磷酸、甲酸、亚磷酸或醇。在一些实施方案中，辅因子再生系统是酮还原酶和仲醇，特别是异丙醇(IPA)。

在另一方面，可以提供试剂盒或阵列形式的工程化单加氧酶多肽，特别用于筛选针对其他感兴趣的拉唑化合物的活性。

详述

本公开提供能够介导底物5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑(“化合物(1)”)转化为产物5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(“化合物(2)”)的有效的生物催化剂。在一些实施方案中，所述生物催化剂是高度选择性的，能够介导化合物(1)以对映异构体过量转化为化合物(2b)的(S)-异构体或化合物(2a)的(R)-异构体。通过改变天然存在的环己酮单加氧酶(CHMO)的氨基酸序列以形成具有所需酶性质，例如酶活性、对映异构体选择性、副产物形成、热稳定性、溶剂稳定性和表达，设计了本文描述的生物催化剂。这些多肽还用于磺化氧化与艾司奥美拉唑结构类似的其他拉唑化合物。

随后的详述描述了这些工程化单加氧酶多肽以及进行拉唑化合物的磺化氧化、特别是化合物(1)转化为化合物(2)的方法。在一些实施方案中，详述还提供了以对映异构体过量将化合物(1)转化为化合物(2b)的单加氧酶多肽。

对于本文说明书和所附权利要求书而言，除非上下文清楚地另外指明，单数形式“一个”、“一种”和“该”包括复数指代物。因此，例如，对“一种多肽”的提及包括不止一种多肽，并且对“一种化合物”的提及指不止一种化合物。

而且，除非另外说明，“或”的使用表示“和/或”。类似地，“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“包括(include)”、“包括(includes)”和“包括(including)”可互换使用，并且不意图是限制性的。

还要理解，当各种实施方案的描述使用术语“包含(comprising)”时，本领域技术人员将理解，在一些具体情况下，可选地，可以使用语言“基本由...组成”或“由...组成”来描述实施方案。

要理解，前述一般描述，包括附图和随后详述，都仅是示例性和解释性的，并且不是限制本公开内容。

定义

除非另外明确定义，否则本文说明书中使用的技术术语和科学术语具有本领域普通技术人员通常理解的含义。因此，以下术语意为具有以下含义。

“蛋白”、“多肽”和“肽”在本文可互换使用，表示由酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(如，糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等等)。这一定义中包括D-氨基酸和L-氨基酸，以及D-氨基酸与L-氨基酸的混合物。

“编码序列”是指编码蛋白质的氨基酸序列的核酸部分(例如基因)。

“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中的序列，能够从自然界来源中分离并且没有被人为操作有意修饰。

“重组的”或“工程化的”或“非天然存在的”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会另外存在的方式被改变，或与其相同但是从合成材料和/或通过使用重组技术操作而产生或获取。非限制性实例包括但不限于表达在细胞的固有(非重组)形式中未发现的基因或表达另外以不同水平表达的固有基因的重组细胞。

“序列同一性百分比”、“百分比同一性”和“百分比同一”在本文用来指多核苷酸序列或多肽序列之间的比较，并且通过跨比较窗口比较两条最佳比对的序列来确定，其中在所述比较窗口中的多核苷酸或多肽序列的部分可以包括相比于参考序列的添加或缺失(即空位)，以用于这两条序列的最优比对。该百分比通过以下方式计算：确定相同的核酸碱基或氨基酸残基在两条序列中都存在的位置的数目或者核酸碱基或氨基酸残基与空位对齐的位置的数目以得出匹配的位置的数目，用匹配的位置的数目除以比较窗口中的位置的总数目，并且将结果乘以100得出序列同一性百分比。使用BLAST和BLSAT2.0算法进行最优比对和百分比序列同一性的确定(参见例如，Altschul等人，1990，J. Mol.Biol.215：403-410和Altschul等人，1977，Nucleic Acids Res.3389-3402)。用于执行BLAST分析的软件是通过美国国家生物技术信息中心(National Center for Biotechnology Information)网站公开可用的。

简言之，BLAST分析包括首先通过识别问询序列中具有长度W的字(word)来识别高得分序列对(HSP)，该高得分序列对当与数据库序列中的相同长度的字对齐时匹配或满足某个正值阈值得分T。T被称为相邻字得分阈值(neighborhood word score threshold)(Altschul等人，上述)。这些最初的相邻字匹配(word hit)充当用于启动搜索的种子以寻找包含它们的更长的HSP。然后字匹配沿每条序列在两个方向上延伸远至累计的比对得分可被增加。对于核苷酸序列，使用参数M(对一对匹配残基的奖励得分；总是＞0)和N(对错配残基的处罚得分；总是＜0)计算累计得分。对于氨基酸序列，使用得分矩阵来计算累计得分。当发生以下情况时字匹配在每个方向上的延伸停止：累计比对得分从其所达到的最大值下降了量X；由于一个或更多个负得分残基比对的累积，累计得分达到零或零以下；或者到达每条序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列而言)使用字长(W)11、期望(E)10、M＝5、N＝-4以及两条链的比较作为缺省值。对于氨基酸序列，BLASTP程序使用字长(W)3、期望(E)10以及BLOSUM62得分矩阵作为缺省值(参见Henikoff和Henikoff，1989，Proc Natl Acad Sci USA89：10915)。

可获得与BLAST相似地作用的许多其他算法来提供两条序列的同一性百分比。用于比较的序列的最佳比对可如下进行：例如，通过Smith和Waterman，1981，Adv.Appl.Math.2：482的局部同源性算法，通过Needleman和Wunsch，1970，J.Mol.Biol.48：443的同源性比对算法，通过Pearson和Lipman，1988，Proc.Natl.Acad.Sci.USA85：2444的相似性搜索方法，通过这些算法的计算机实现(GCG Wisconsin软件包中的GAP、BESTFIT、FASTA或TFASTA)或通过直观检查(一般参见，CurrentProtocols in Molecular Biology(分子生物学最新实验方案)，F.M.Ausubel等编著，Current Protocols，Greene Publishing Associates Inc.和John Wiley &Sons，Inc.之间的合资企业，(1995年增刊)(Ausubel))。另外，序列比对和序列同一性百分比的确定可以利用GCG Wisconsin软件包(Accelrys，Madison WI)中的BESTFIT或GAP程序，使用提供的缺省参数。

“参考序列”是指与另一序列进行比较的限定序列。参考序列可以是较大序列的子部分(subset)，例如，全长基因或多肽序列的区段。一般而言，参考序列为至少20个核苷酸或氨基酸残基长，至少25个残基长，至少50个残基长，或者核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包含在这两条序列之间相似的序列(即完整序列的一部分)，以及(2)还可以包含在这两条序列之间相异的序列，所以在两种(或更多种)多核苷酸或多肽之间的序列比较通常是通过跨比较窗口比较这两种多核苷酸的序列而进行的，以识别和比较局部区域的序列相似性。

术语“参考序列”不意为限于野生型序列，且可包括工程化或改变的序列。例如，在一些实施方案中，“参考序列”可以是之前工程化或改变的氨基酸序列。

“比较窗口”是指至少约20个连续核苷酸位置或氨基酸残基的概念性区段，其中可以将序列与至少20个连续核苷酸或氨基酸的参考序列进行比较，并且其中在比较窗口中的序列的部分可以包括与参考序列(它不包括添加或缺失)相比20％或更少的添加或缺失(即空位)，以用于这两条序列的最优比对。比较窗口可以比20个连续残基长，并且任选地包括30、40、50、100或更长的窗口。

“对应于”、“关于”或“相对于”当用在给定氨基酸或多核苷酸序列的编号上下文中时，是指在该给定氨基酸或多核苷酸序列与指定的参考序列进行比较时该参考序列的残基编号。换言之，给定聚合物的残基号码或残基位置是根据参考序列指定的，而不是给定氨基酸或多核苷酸序列内的残基的实际数字位置。例如，可以将给定的氨基酸序列诸如工程化单加氧酶的氨基酸序列与参考序列进行比对，这是通过引入空位以优化这两条序列之间的残基匹配而实现的。在这些情况下，尽管存在空位，对给定氨基酸或多核苷酸序列中的残基进行编号是根据与其进行比对的参考序列。

“立体选择性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种，或者立体选择性可以是完全的，其中只形成一种立体异构体。当立体异构体是对映异构体时，立体选择性被称为对映异构体选择性，即一种对映异构体在两种对映异构体之和中的分数(通常被报告为百分比)。它在本领域中通常可选地被报告为(通常为百分比)根据式[主要对映异构体-次要对映异构体]/[主要对映异构体+次要对映异构体]从其计算出的对映异构体过量(e.e)。当立体异构体是非对映异构体时，立体选择性被称为非对映异构体选择性，即一种非对映异构体在两种非对映异构体的混合物之中的分数(通常被报告为百分比)，通常被可选地报告为非对映异构体过量(d.e.)。对映异构体过量和非对映异构体过量是立体异构体过量的类型。

“高立体选择性”是指能够以至少约85％立体异构体过量将底物(例如，5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑)转化为其对应的立体异构体产物(例如，(R)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑或(R)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑)的化学或酶促反应。

“提高的酶活性”或“提高的活性”是指工程化酶的改进特性，其可以由与参考酶相比较比活性(例如，产生的产物/时间/重量蛋白)的提高或者由底物转化为产物的百分比(例如，使用指定量的单加氧酶在指定时间段内将起始量的底物转化为产物的百分比)的提高表示。确定酶活性的示例性方法被提供在实施例中。可以影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的改变能够导致提高的酶活性。单加氧酶活性可以通过用于测量单加氧酶的标准测定中的任何一种来测量，例如底物或产物浓度的变化，或者辅因子浓度的变化(不存在辅因子再生系统的情况下)。使用本文进一步详述的限定的酶制品、在设置条件下的确定的测定以及一种或多种确定的底物，进行酶活性的比较。一般而言，在比较细胞溶解产物中的酶时，确定所测定的细胞数目和蛋白的量，并使用相同的表达系统和相同的宿主细胞以使得由该宿主细胞所产生并存在于溶解产物中的酶量的偏差最小化。

“转化”是指底物被酶促转化为对应的产物。“转化百分比”是指在指定条件下在一段时间内被转化为产物的底物的百分比。因此，例如，单加氧酶多肽的“酶活性”或“活性”可以表示为底物到产物的“转化百分比”。

“热稳定的”或“热稳定”可互换使用，是指与未处理的酶相比，在暴露于一组温度条件(例如40-80℃)一段时间(例如0.5-24小时)时耐受失活，从而在暴露于高温后保持某一水平残留活性(例如，举例来说，多于60％到80％)的多肽。

“溶剂稳定的”是指与未处理的酶相比，在暴露于不同浓度(例如，5-99％)的溶剂(例如，异丙醇、二甲亚砜、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚、乙腈等等)一段时间(例如0.5-24小时)后保持相似活性(多于例如60％到80％)的多肽。

“亲水性氨基酸或残基”是指根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的一致的标准化疏水性量表具有展现出小于零的疏水性的侧链的氨基酸或残基。遗传编码的亲水性氨基酸包括Thr(T)、Ser(S)、His(H)、Glu(E)、Asn(N)、Gln(Q)、Asp(D)、Lys(K)和Arg(R)。

“酸性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出小于约6的pK值的侧链的亲水性氨基酸或残基。酸性氨基酸由于氢离子的缺失在生理pH下通常具有带负电的侧链。遗传编码的酸性氨基酸包括Glu(E)和Asp(D)。

“碱性氨基酸或残基”是指当氨基酸被包括在肽或多肽中时具有展现出大于约6的pK值的侧链的亲水性氨基酸或残基。碱性氨基酸由于与水合氢离子缔合在生理pH下通常具有带正电的侧链。遗传编码的碱性氨基酸包括Arg(R)和Lys(K)。

“极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷但具有如下至少一个键的亲水性氨基酸或残基：在所述至少一个键中由两个原子共有的电子对被这两个原子之一更紧密地持有。遗传编码的极性氨基酸包括Asn(N)、Gln(Q)、Ser(S)和Thr(T)。

“疏水性氨基酸或残基”是指根据Eisenberg等人，1984，J.Mol.Biol.179：125-142的一致的标准化疏水性量表具有展现出大于零的疏水性的侧链的氨基酸或残基。遗传编码的疏水性氨基酸包括Pro(P)、Ile(I)、Phe(F)、Val(V)、Leu(L)、Trp(W)、Met(M)、Ala(A)和Tyr(Y)。

“芳香族氨基酸或残基”是指具有包括至少一个芳环或杂芳环的侧链的亲水性或疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括Phe(F)、Tyr(Y)和Trp(W)。尽管His(H)由于其杂芳香族环侧链而被分类为芳香族残基，但由于其杂芳香族氮原子的pKa，也可以被分类为碱性残基。

“非极性氨基酸或残基”是指所具有的侧链在生理pH下不带电荷并且具有如下键的疏水性氨基酸或残基：在所述键中由两个原子共有的电子对一般被这两个原子中每一个同等持有(即侧链是没有极性的)。遗传编码的非极性氨基酸包括Gly(G)、Leu(L)、Val(V)、Ile(I)、Met(M)和Ala(A)。

“脂肪族氨基酸或残基”是指具有脂肪烃侧链的疏水性氨基酸或残基。遗传编码的脂肪族氨基酸包括Ala(A)、Val(V)、Leu(L)和Ile(I)。

氨基酸Cys(C)是独特的，因为它能够与其他Cys(C)氨基酸或其他包含硫烷基或硫氢基的氨基酸形成二硫键桥。Cys(和具有包含-SH的侧链的其他氨基酸)以还原的游离-SH形式或氧化的二硫键桥形式存在于多肽中的能力影响它赋予多肽净疏水性还是净亲水性。尽管根据Eisenberg的一致的标准化量表(Eisenberg等人，1984，同上)Cys展现出0.29的疏水性，但应理解出于本公开的目的将Cys归为其自己一组。

氨基酸Pro(P)是构象限制性质的。尽管它具有疏水性质，如本文使用的，Pro(P)或其他类似残基被分类为“构象限制的”。

“包含羟基的氨基酸或残基”是指包含羟基(-OH)部分的氨基酸或残基。遗传编码的包含羟基的氨基酸包括Ser(S)和Thr(T)。虽然L-Tyr(Y)含有羟基部分，但它在本文被分类为芳香族氨基酸或残基。

“氨基酸差异”或“残基差异”是指与参考序列相比，在多肽序列指定位置的残基改变。例如，参考序列在位置X3具有谷氨酰胺时，位置X3的残基差异是指在位置X3的残基改变为谷氨酰胺以外的任何残基。如本文公开的，酶可包括相对参考序列的一个或多个残基差异，其中多个残基差异通常由相对参考序列进行改变的指定位置的列表表示。

“保守氨基酸取代”是指具有相似侧链的残基的可互换性，并因此通常包括用相同或相似的氨基酸定义类别中的氨基酸取代多肽中的氨基酸。例如但不限于，具有脂肪族侧链的氨基酸可以用另一种脂肪族氨基酸例如丙氨酸、缬氨酸、亮氨酸和异亮氨酸取代；具有羟基侧链的氨基酸用另一种具有羟基侧链的氨基酸例如丝氨酸和苏氨酸取代；具有芳香族侧链的氨基酸用另一种具有芳香族侧链的氨基酸例如苯丙氨酸、酪氨酸、色氨酸和组氨酸取代；具有碱性侧链的氨基酸用另一种具有碱性侧链的氨基酸例如赖氨酸和精氨酸取代；具有酸性侧链的氨基酸用另一种具有酸性侧链的氨基酸例如天冬氨酸或谷氨酸取代；并且疏水性氨基酸或亲水性氨基酸分别用另一种疏水性氨基酸或亲水性氨基酸取代。以下提供了示例性的保守取代：

“非保守取代”是指用具有显著差别的侧链特性的氨基酸取代多肽中的氨基酸。非保守取代可以利用限定组之间而不是它们之内的氨基酸，并且影响：(a)取代区域(例如，脯氨酸取代甘氨酸)中的肽骨架的结构，(b)电荷或疏水性，或(c)侧链体积。例如但不限于，示例性非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸；用小氨基酸取代芳香族氨基酸；和用疏水性氨基酸取代亲水性氨基酸。

“缺失”是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或者20个或更多个氨基酸、高达组成多肽的氨基酸总数的10％、或高达氨基酸总数的20％，同时保留酶活性和/或保留工程化单加氧酶的改进特性。缺失可以针对多肽的内部和/或端部。在多个实施方案中，缺失可以包括连续的区段或者可以是不连续的。

“插入”是指通过向参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一些实施方案中，改进的工程化单加氧酶包括一个或更多个氨基酸插入天然存在的环己酮单加氧酶多肽，以及一个或更多个氨基酸插入其他改进的单加氧酶多肽。插入可以在多肽的内部或者到羧基端或氨基端。如本文所用的插入包括本领域已知的融合蛋白。插入可以是氨基酸的连续区段，或者被在天然存在的多肽中一个或更多个氨基酸分隔。

如本文所用的“片段”是指如下多肽：所述多肽具有氨基端和/或羧基端缺失，但其中剩余的氨基酸序列与该序列中的对应位置相同。片段通常可以是全长单加氧酶、例如SEQ ID NO：2的多肽的约80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上自其天然伴随的其他污染物例如蛋白、脂质和多核苷酸中分离。该术语包括已自其天然存在环境或表达系统(例如，宿主细胞或体外合成)中移出或纯化的多肽。改进的单加氧酶可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如溶解产物或分离的制品。像这样，在一些实施方案中，改进的单加氧酶可以是分离的多肽。

“基本上纯的多肽”是指如下组合物：在所述组合物中多肽物类是存在的优势物类(即，在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富)，并且当目标物类构成存在的大分子物类的按摩尔或重量％计至少约50％时一般是基本上纯化的组合物。一般而言，基本上纯的单加氧酶组合物将构成该组合物中存在的所有大分子物类的按摩尔或重量％计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。溶剂物类、小分子(＜500道尔顿)、以及元素离子物类不被认为是大分子物类。在一些实施方案中，分离的改进单加氧酶多肽是基本上纯的多肽组合物。

“异源”多核苷酸是指通过实验技术引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中移出、经历实验室操作、然后重新引入宿主细胞中的多核苷酸。

“密码子优化的”是指将编码蛋白质的多核苷酸的密码子改变为特定生物体中优先使用的那些密码子，以致所编码的蛋白被有效表达在感兴趣的生物体中。在一些实施方案中，可以对编码单加氧酶的多核苷酸进行密码子优化，以用于从为表达所选的宿主生物体中优化生产。

本文定义“控制序列”包括对本公开的多核苷酸和/或多肽的表达必要或有利的所有组分。每个控制序列可能对感兴趣的多核苷酸是天然的或外来的。此类控制序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。

“可操作地连接”在本文定义为如下一种配置：在所述配置中控制序列适当安放(即，以功能关系)在相对于感兴趣的多核苷酸的位置，使得控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达。

单独的或作为另一取代基一部分的“烃基(alkyl)”指具有指定数目的碳原子(即，C₁-C₆指1至6个碳原子)的、饱和的或不饱和的支链、直链或环状的单价烃自由基，其通过从母体烷烃、烯烃或炔烃的单个碳原子除去一个氢原子而生成。术语“烃基”明确意图包括具有任何饱和程度或水平的基团，即，只有碳-碳单键的基团，具有一个或多个碳-碳双键的基团，具有一个或多个碳-碳三键的基团，和具有碳-碳单键、双键和三键的混合物的基团。当预期具体饱和水平时，使用措辞“烷基”、“烯基”和“炔基”。措辞“低级烃基”指由1至6个碳原子(C₁-C₆)、优选1-4个碳原子(C₁-C₄)构成的烃基。

单独的或作为另一取代基一部分的“烷基”指饱和的支链、直链或环状烃基，其通过从母体烷烃的单个碳原子除去一个氢原子而生成。烷基包括但不限于甲烷基；乙烷基；丙烷基，例如丙-1-基、丙-2-基(异丙基)、环丙-1-基等；丁烷基如丁-1-基、丁-2-基(仲丁基)、2-甲基-丙-1-基(异丁基)、2-甲基-丙-2-基(叔丁基)、环丁-1-基等；及类似基团。在一些实施方案中，烷基是(C₁-C₆)烃基。

单独的或作为另一取代基一部分的“烯基”指不饱和的支链、直链或环状烃基，具有至少一个碳-碳双键，通过从母体烯烃的单个碳原子除去一个氢原子而生成。该基团可以是关于双键的顺式或反式构象。在一些实施方案中，烯基是(C₂-C₆)烯基。

单独的或作为另一取代基一部分的“炔基”指不饱和的支链、直链或环状烃基，具有至少一个碳-碳三键，通过从母体炔烃的单个碳原子除去一个氢原子而生成。在一些实施方案中，炔基是(C₂-C₆)炔基。

单独的或作为另一取代基一部分的“烃氧基”指-OR^a，其中R^a代表如本文定义的烃基或环烃基。典型的烃氧基包括但不限于甲氧基、乙氧基、丙氧基、丁氧基、环己基氧基及类似物。

单独的或作为另一取代基一部分的“氨基”指基团-NH₂。取代的氨基指基团-NHR^b、NR^bR^b和NR^bR^bR^b，其中每个R^b独立选自取代的或未取代的烃基、环烃基、环杂烃基、烃氧基、芳基、杂芳基、杂芳基烃基、酰基、烃氧基羰基、硫烷基、亚硫酰基、磺酰基及类似物。典型的氨基包括但不限于二甲基氨基、二乙基氨基、三甲基氨基、三乙基氨基、甲基磺酰基氨基、呋喃基-氧基-磺氨基和类似物。

单独的或作为另一取代基一部分的“杂烃基”、“杂烷基”、“杂烯基”和“杂炔基”分别指以下烃基、烷基、烯基和炔基：其中碳原子的一个或多个各自独立被相同或不同的杂原子或杂原子基团所替代。可以替代碳原子的杂原子和/或杂原子基团包括但不限于-O-、-S-、-S-O-、-NR^c、-PH-、-S(O)-、-S(O)₂-、-S(O)NR^c-、-S(O)₂NR^c-和类似物，包括其组合，其中每个R^c独立为氢或(C₁-C₆)烃基。

单独的或作为另一取代基一部分的“环烃基”和“杂环烃基”分别指“烃基”和“杂烃基”的环形式。对于杂烃基，杂原子可以占据与分子其余部分连接的位置。典型的环烃基包括但不限于环丙基；环丁基，例如环丁烷基和环丁烯基；环戊基，例如环戊烷基和环戊烯基；环己基，例如环己烷基和环己烯基；和类似物。典型的杂环烃基包括但不限于四氢呋喃基(例如，四氢呋喃-2-基、四氢呋喃-3-基等)、哌啶基(例如，哌啶-1-yl、哌啶-2-基等)、吗啉基(例如，吗啉-3-基、吗啉-4-基等)、哌嗪基(例如，哌嗪-1-基、哌嗪-2-基等)和类似物。

单独的或作为另一取代基一部分的“芳基”指具有指定数目的碳原子(即，C₅-C₁₅指5至15个碳原子)的单价芳香族烃基团，其通过从母体芳香环系统的单个碳原子除去一个氢原子而生成。在一些实施方案中，芳基是(C₅-C₁₀)芳基，(C₅-C₈)是更优选的。在一些实施方案中，芳基是环戊二烯基、苯基和萘基。

单独的或作为另一取代基一部分的“杂芳基”指具有指定数目的环原子(例如，“5-14元”指5至14个环原子)的单价杂芳族基团，其通过从母体杂芳族环系统的单个原子除去一个氢原子而生成。在一些实施方案中，杂芳基是5-10元杂芳基。在一些实施方案中，杂芳基是5-8元杂芳基。

除非另外说明，单独的或作为另一取代基一部分的“卤素”或“卤代”指氟代、氯代、溴代和碘代。

单独的或作为另一取代基一部分的“卤代烃基”指其中氢原子的一个或多个被卤素替代的烃基。因此，术语“卤代烃基”意图包括单卤代烃基、二卤代烃基、三卤代烃基等，直至全卤代烃基。例如，措辞“(C₁-C₂)卤代烃基”包括1-氟代甲基、二氟代甲基、三氟代甲基、1-氟代乙基、1，1-二氟代乙基、1，2-二氟代乙基、1，1，1-三氟代乙基、全氟代乙基等等。

如本文使用的，“任选取代的”表示基团的一个或多个氢原子(例如，1、2、3、4、5或6个氢原子)可以各自被取代原子或基团所替代。每个取代基可以相同或不同。适合取代基的实例包括但不限于烃基、烯基、炔基、环烃基、芳基、芳烃基、环杂烃基、杂芳基、OR^d(例如，羟基、烃氧基(例如，甲氧基、乙氧基和丙氧基)、芳基氧基、杂芳基氧基、芳烃基氧基、醚、酯、氨基甲酸酯等)、羟基烃基、烃氧基羰基、烃氧基烃氧基、全卤代烃基、全氟代烃基(例如，CF₃、CF₂、CF₃)、全氟代烃氧基(例如，OCF₃、OCF₂CF₃)、烃氧基烃基、SR^d(例如，硫醇、烃硫基、芳硫基、杂芳硫基、芳烃硫基等)、S(O)R^d、SO2R^d、NR^dR^e(例如，伯胺(即，NH₂)、仲胺、叔胺、酰胺、氨基甲酸酯、脲等)、酰肼、卤化物、腈、硝基、硫化物、亚砜、砜、磺酰胺、硫醇、羧基、醛、酮、羧酸、酯、酰胺、亚胺和酰亚胺，包括其硒基和硫基衍生物，其中每个取代基可以任选地被进一步取代。在一些实施方案中，任选取代基的数目是1至5，其中取代基是如本文定义的基团。优选地，可以存在1-3个任选的取代基。在其中具有芳香碳环的官能团被取代的实施方案中，此类取代数目通常小于约10个取代、更优选约1-5个取代，约1至3个取代是优选的。一般而言，选择不作为本公开的单加氧酶的底物的取代基。

“取代的烃基、环烃基、杂环烃基、芳基或杂芳基”指其中一个或多个氢原子被另一个取代基所替代的烃基、环烃基、杂环烃基、芳基或杂芳基。

详细描述

如以下反应图解所示，最初根据其进行环己酮向ε-己内酯(一种七元环产物)转化的能力而鉴定了环己酮单加氧酶(CHMO)：

该生物催化反应利用O₂和辅因子NAPDH产生己内酯、氧化的辅因子NADP+和H₂O。环己酮单加氧酶是黄素依赖性酶，并且含有黄素辅基，一般是黄素腺嘌呤二核苷酸(FAD)。该FAD辅基与酶结合，并且不受理论束缚，认为它通过形成过氧黄素中间体而参与催化反应(参见例如，Sheng等人，2001，Biochemistry40(37)：11156-67；Malito等人，2004，Pro.Natl AcadSci USA101(36)：13157-13162)。

环己酮单加氧酶还用作对映异构体选择性空气氧化前手性硫醚的生物催化剂，以形成手性亚砜(参见例如，Light等人，1982，Biochemistry，21(10)：2490-8)。这种使用环己酮单加氧酶的反应实例描述于Reetz等人，2004，Angew.Chem.Int.Ed.43：4078-4081：

环己酮单加氧酶可以识别多种芳基-烃基硫化物底物，其实例描述于Pasta等人，1995，Tetrahedron：Asymmetry6(4)：933-936；Yeung和Rettie，2005，“Prochiral Sulfoxidation as a probe for Flavin-Containingmonooxygenase(作为含有黄素的单加氧酶探针的前手性磺化氧化)，Methods in Molecular Biology：Cytochrome P450Protocols320：163-172；Colonna等人，2000，Chirality13(1)：40-42；和Alphand等人，2003，TrendsBiotechnology21(7)：318-323。

化学名称为5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑的吡美拉唑(在本文还称为“化合物(1)”)是合成化学名称为(S)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑的艾司奥美拉唑(在本文还称为“化合物(2b)”)的中间体。如上所述，艾司奥美拉唑是奥美拉唑的S-异构体，奥美拉唑是含有S和R异构体的外消旋混合物。奥美拉唑和艾司奥美拉唑是H⁺K⁺ATP酶抑制剂，H⁺K⁺ATP酶是参与胃中酸生成的质子转运蛋白。奥美拉唑和艾司奥美拉唑被指定用于治疗溃疡、胃食管反流病和Zollinger-Ellison综合征。目前，艾司奥美拉唑的合成包括Kagan-Sharpless型氧化硫化物至亚砜(参见Cotton等人，2000，Tetrahedron：Asymmetry11：3819)。虽然由环己酮单加氧酶介导的吡美拉唑的生物催化的氧化描述于美国专利号5,840,552，但是该方法使用了全细胞制品并以低产量得到产物。特别地，不动杆菌NCIMB9871的制品展现出比其他生物体制品更低的对吡美拉唑的活性。

在本公开中，从不动杆菌NCIMB9871的环己酮单加氧酶开始设计了工程化单加氧酶多肽以有效氧化吡美拉唑(“化合物(1)”)至亚砜产物(“化合物(2)”)。天然存在的环己酮单加氧酶在催化该反应时是低效的。在一些实施方案中，工程化多肽还能够对映异构体选择性地将吡美拉唑转化为对映异构体过量的奥美拉唑的(R)或(S)形式。在一些实施方案中，这些工程化生物催化剂提供了用于产生基本上对映异构体纯制品的艾司奥美拉唑的高效方法。这些工程化单加氧酶多肽还可用于磺化氧化与吡美拉唑结构类似的化合物。

因此，在一些实施方案中，本公开提供了能够以比SEQ ID NO：2单加氧酶提高的速率将化合物(1)转化为化合物(2)的多肽，如以下反应图解1所示：

图解1

在一些实施方案中，工程化单加氧酶的转化速率大于SEQ ID NO：2单加氧酶转化速率的1.5倍。

一般而言，氧化在分子氧O₂和电子供体例如辅因子NADPH或NADH存在下发生。为了与参考单加氧酶例如SEQ ID NO：2比较活性，使用了辅因子NADPH。如在下文进一步讨论的，可以在辅因子再生系统存在下进行反应，辅因子再生系统例如适当的脱氢酶(例如，葡萄糖脱氢酶、甲酸脱氢酶、亚磷酸脱氢酶或酮还原酶/醇脱氢酶)和适当的脱氢酶底物，例如葡萄糖、葡萄糖-6-磷酸、甲酸、亚磷酸或醇，例如异丙醇。

在一些实施方案中，多肽能够以大于SEQ ID NO：2单加氧酶多肽速率的1.5倍的速率将化合物(1)转化为化合物(2)，并且包括与参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：4、6、10、22、52、76、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266。特别地，参考序列是SEQ IDNO：116、124、130、138或158。

工程化单加氧酶多肽的一些实施方案能够以对映异构体过量将化合物(1)转化为(R)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(“化合物(2a)”)，而单加氧酶多肽的其他实施方案能够以对映异构体过量将化合物(1)转化为(S)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(“化合物(2b)”)。如对于技术人员明显的，通过使用底物吡美拉唑并测定生成的产物的(R)和(S)形式的量，可以确认工程化单加氧酶的立体选择性。可以类似方式确定单加氧酶对其他拉唑底物的立体选择性。

在一些实施方案中，多肽能够以对映异构体过量将化合物(1)转化为(R)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(“化合物(2a)”)，如以下反应图解2所示：

图解2

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2a)的多肽包括与参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206和208。特别地，参考序列是SEQ ID NO：6、166、170、174、190、192、196、200、204或206。

在一些实施方案中，多肽能够以对映异构体过量将化合物(1)转化为(S)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(“化合物(2b)”，如以下反应图解3所示：

图解3

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括与参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：8、10、22、52、76、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266。特别地，参考序列是SEQ ID NO：116、124、130、138或158。

因为不动杆菌NCIMB9871的野生型(WT)环己酮单加氧酶不能有效转化吡美拉唑至亚砜，本文提出的多肽包括与由SEQ ID NO：2代表的不动杆菌NCIMB9871的天然存在的环己酮单加氧酶的参考序列相比具有一个或多个残基差异的氨基酸序列。残基差异可以是非保守变化或保守变化。在一些实施方案中，残基差异可以保守取代、非保守取代、或非保守取代和保守取代的组合。为了描述本文多肽，从起始蛋氨酸(M)残基(即，M表示残基位置1)开始，在单加氧酶多肽中确定参考序列的氨基酸残基位置，但是技术人员将理解，该起始蛋氨酸残基可以例如在宿主细胞中或体外翻译系统中通过生物加工机制被去除，以产生缺乏起始蛋氨酸残基的成熟蛋白。特定氨基酸或氨基酸变化(“残基差异”)存在的多肽序列位置在本文有时描述为“Xn”或“位置n”，其中n指相对于参考序列的残基位置。

适当时，用不同的指定残基替代参考序列中特定残基的特定取代突变，可以由常规标记法“X(数字)Y”来标记，其中X是参考序列中残基的单字母标识符，“数字”是参考序列中的残基位置，Y是工程化序列中残基取代的单字母标识符。

在一些实施方案中，与SEQ ID NO：2相比的残基差异存在于以下残基位置的一个或多个：X3；X14；X34；X43；X71；X111；X141；X149，X174；X209；X240；X246；X248；X288；X307；X326；X383；X386；X388；X390；X400；X415；X426；X432；X433；X435；X438；X448；X449；X481；X488；X489；X490；X499；X505；X516；X526；X537；和X540。发现这些残基位置与酶活性、对映异构体选择性、砜副产物形成、热稳定性、溶剂稳定性和/或蛋白表达的希望变化相关。在一些实施方案中，与SEQ ID NO：2的参考序列相比，单加氧酶在以上残基位置具有至少2个或更多、至少3个或更多、或至少4个或更多残基差异。

基于SEQ ID NO：2的不动杆菌NCIMB9871的环己酮单加氧酶的模拟研究，残基位置X14、X34、X43、X111、X141、X386、X388、X426、X432、X433、X435和X438在酶上FAD辅基的内；残基位置X149、X209、X277、X326、X426、X432、X435、X438、X488、X489和X490在酶结合的NADPH辅因子的内；并且残基位置X277、X326、X426、X432、X433、X435、X438、X489、X490和X505在酶结合的吡美拉唑的内。虽然这些残基位置与结合的底物、FAD辅基和辅因子接近，但已经发现，在这些残基位置和以上其他位置的氨基酸残基可以变化以改变特定的酶性质，包括但不限于底物结合、酶活性、对映异构体选择性和热稳定性。

在一些实施方案中，从本公开单加氧酶多肽明确排除的是具有与SEQID NO：2相比包含以下突变或突变集的氨基酸序列的多肽：D41N和F505Y；K78E和F432S；L143F；L220Q、P428S和T433A；F432S；F432I；L426P和A541V； F432Y和K500R；以及L143F、E292G、L435Q和T464A；D384H；K229I和L248P；Y132C、F246I、V361A和T415A；以及F16L和F277S。这些单加氧酶公开于Mihovilovic等人，2006，Organic Lett.8(6)：1221-1224；Reetz等人，2004，Angew.Chem.Int.Ed.43：4075-4078；和Reetz等人，2004，Angew Chem.Int.Ed.43：4078-4081；其内容在此通过引用并入。

在一些实施方案中，从本公开单加氧酶多肽明确排除的是具有在以下UniProt数据库访问号中公开的氨基酸序列的多肽：(a)gi|81324523|sp|Q9F7E4|Q9F7E4_9GAMM环己酮单加氧酶；(b)gi|118066|sp|P12015.2|CYMO_ACISP RecName：Full＝环己酮1，2-单加氧酶；(c)gi|123163966|sp|Q11Z78|Q11Z78_POLSJ含黄素的单加氧酶FMO；(d)tr|A3U3H1|A3U3H1_9RHOB含黄素的单加氧酶FMO：FAD依赖性氧化还原酶OS＝Oceanicola batsensis HTCC2597GN＝OB2597_18631PE＝4SV＝1；(e)tr|A3T2M3|A3T2M3_9RHOB含黄素的单加氧酶FMO：FAD依赖性氧化还原酶OS＝亚硫酸杆菌(Sulfitobacter)NAS-14.1GN＝NAS141_04678PE＝4SV＝1；和(f)tr|A1W7Q2|A1W7Q2_ACISJ环己酮单加氧酶OS＝噬酸菌(Acdovorax)(菌株JS42)GN＝Ajs_2102PE＝SV＝1。

在一些实施方案中，与SEQ ID NO：2相比在指定残基位置的残基差异可以选自以下特征：对应于X3的位置的残基是含羟基的氨基酸残基；对应于X14的位置的残基是脂肪族氨基酸残基；对应于X34的位置的残基是碱性氨基酸残基；对应于X43的位置的残基是脂肪族氨基酸残基；对应于X71的位置的残基是非极性氨基酸残基；对应于X111的位置的残基是含羟基的氨基酸残基；对应于X141的位置的残基是脂肪族氨基酸残基；对应于X149的位置的残基是脂肪族或芳香族氨基酸残基；对应于X174的位置的残基是脂肪族氨基酸残基；对应于X209的位置的残基是受限制的氨基酸残基；对应于X240的位置的残基是碱性氨基酸残基；对应于X246的位置的残基是芳香族氨基酸残基；对应于X248的位置的残基是半胱氨酸(C)或脂肪族、极性或含羟基的氨基酸残基；对应于X288的位置的残基是脂肪族氨基酸残基；对应于X307的位置的残基是碱性氨基酸残基；对应于X326的位置的残基是半胱氨酸(C)或含羟基的氨基酸残基；对应于X383的位置的残基是脂肪族氨基酸残基；对应于X386的位置的残基是含羟基的氨基酸残基；对应于X388的位置的残基是碱性氨基酸残基；对应于X390的位置的残基是脂肪族或碱性氨基酸残基；对应于X400的位置的残基是脂肪族氨基酸残基；对应于X415的位置的残基是脂肪族氨基酸残基；对应于X426的位置的残基是芳香族氨基酸残基；对应于X432的位置的残基是脂肪族或含羟基的氨基酸残基；对应于X433的位置的残基是非极性或脂肪族氨基酸残基；对应于X435的位置的残基是含羟基的氨基酸残基；对应于X438的位置的残基是脂肪族氨基酸残基；对应于X448的位置的残基是芳香族或脂肪族氨基酸残基；对应于X449的位置的残基是非极性、脂肪族或芳香族氨基酸残基；对应于X481的残基位置的残基是碱性氨基酸残基；对应于X488的残基是碱性氨基酸残基；对应于X489的位置的残基是半胱氨酸(C)；对应于X490的位置的残基是碱性氨基酸残基；对应于X499的位置的残基是脂肪族氨基酸残基；对应于X505的位置的残基是脂肪族或芳香族氨基酸残基；对应于X516的位置的残基是脂肪族氨基酸残基；对应于X526的位置的残基是脂肪族氨基酸残基；对应于X537的位置的残基是含羟基的残基；和对应于X540的位置的残基是极性或脂肪族氨基酸残基。在一些实施方案中，当SEQ ID NO：2在相应残基位置的氨基酸残基包含在为指定位置描述的氨基酸类别之内时，可根据本文提供的指导使用该氨基酸类别之内的不同氨基酸。

在一些实施方案中，与SEQ ID NO：2相比在指定残基位置的残基差异可以选自以下特征：对应于X3的位置的残基是T；对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X111的位置的残基是T；对应于X141的位置的残基是I或V；对应于X149的位置的残基是V或W；对应于X174的位置的残基是L或I；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X246的位置的残基是E、H、Q、S、R、W或Y；对应于X248的位置的残基是C、I、N、V或S；对应于X277的位置的残基是L、M或Q；对应于X278的位置的残基是G、N或S；对应于X280的位置的残基是G或R；对应于X281的位置的残基是A或S；对应于X282的位置的残基是S；对应于X248的位置的残基是C、N、V或S；对应于X288的位置的残基是I；对应于X307的位置的残基是R；对应于X326的位置的残基是C或T；对应于X383的位置的残基是I或G；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X390的位置的残基是R或I；对应于X400的位置的残基是I；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是A、C、D、H、I、K、L、S、T或Y；对应于X433的位置的残基是A、F、G、K、L或W；对应于X435的位置的残基是S或A；对应于X438的位置的残基是I；对应于X448的位置的残基是V或W；对应于X449的位置的残基是M、F或L；对应于X481的位置的残基是K；对应于X488的位置的残基是F、K或L；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X499的位置的残基是L；对应于X505的位置的残基是W或L；对应于X516的位置的残基是V；对应于X526的位置的残基是V；对应于X537的位置的残基是T；和对应于X540的残基是Q或A。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与增加的酶活性相关的残基位置具有一个或多个残基差异的氨基酸序列，所述位置选自以下：X14、X34、X43、X71、X111、X141、X149、X174、X209、X240、X246、X248、X277、X278、X280、X281、X282、X288、X307、X326、X341、X368、X386、X388、X390、X400、X415、X426、X432、X433、X435、X438、X448、X449、X481、X488、X489、X490、X499、X505、X516、X526、X537和X540。在一些实施方案中，与SEQ ID NO：2的参考序列相比，多肽氨基酸序列在与增加的酶活性相关的残基位置具有至少2个或更多残基差异、至少3个或更多残基差异、或至少4个或更多残基差异。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在影响对映异构体选择性的残基位置具有一个或多个残基差异的氨基酸序列，所述位置选自以下：X246；X248；X326；X386；X432；X433；X435；X438；和X448。在一些实施方案中，与SEQ ID NO：2的参考序列相比，多肽氨基酸序列在与对映异构体选择性相关的残基位置具有至少2个或更多残基差异、至少3个或更多残基差异、或至少4个或更多残基差异。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与砜副产物形成的量降低相关的残基位置具有一个或多个残基差异的氨基酸序列，其中砜副产物具有化合物(3)的结构(上文显示)。与化合物(3)的砜副产物的量降低相关的残基位置选自以下：X246、X248、X277和X438。化合物(3)的砜副产物是酶促反应的不希望的产物，并且容易通过其在固定于5-μm二氧化硅的3，5-二甲基苯基氨基甲酸酯衍生的直链淀粉的色谱柱上的洗脱曲线来鉴定。从吡美拉唑和艾司奥美拉唑拆分砜副产物的示例性溶剂条件是45：55庚烷/EtOH，1.0mL/min，40℃，洗脱液在300nm检测。在一些实施方案中，多肽能够产生的化合物(3)的砜副产物量比在相同测定条件下由SEQ ID NO：52多肽产生的量减少20％或更多、40％或更多、或90％或更多。

在一些实施方案中，与SEQ ID NO：52多肽相比能够形成减少的量的化合物(3)的砜副产物的多肽包括具有以下特征的一个或多个的氨基酸序列：对应于X246的位置的残基是Y；对应于X248的位置的残基是S；和对应于X438的位置的残基是I。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与热稳定性和/或溶剂稳定性的增加相关的残基位置具有一个或多个残基差异的氨基酸序列，所述位置选自以下：X43、X71、X111、X149、X174、X307、X341、X368、X388、X390、X400、X449、X481和X488。通过在一组确定温度和时间(例如，4℃-50℃，持续18-24小时)下预孵育多肽，随后使用确定测定来测量多肽的％残余活性，可以测定热稳定性。然后，热稳定性可以被表征为变体保持50％残余活性时的温度。在一些实施方案中，热稳定的多肽在示例性预孵育条件下具有至少50％残余活性。因此，在一些实施方案中，本公开多肽表现出增加的热稳定性，在30℃、32℃、34℃、36℃、38℃、40℃、42℃、44℃、46℃、48℃、50℃、52℃或甚至更高温度预孵育18小时之后保留50％残余活性。热稳定性还可以被表征为当在高温(elevated temperature)下进行活性测定时的活性FIOP，例如在32℃下的FIOP活性。因此，在一些实施方案中，如通过在高温30℃、32℃、34℃、36℃、38℃、40℃、42℃、44℃、46℃、48℃、50℃、52℃或甚至更高温度下活性FIOP的增加所测定的，本公开多肽表现出增加的热稳定性。类似地，通过在确定的温度和时间下在确定溶剂中预孵育多肽并使用确定测定测量多肽的％残余活性，可以测定溶剂稳定性。

在一些实施方案中，与SEQ ID NO：6多肽相比具有增加的热稳定性的多肽包括具有以下特征的一个或多个的氨基酸序列：对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X111的位置的残基是T；对应于X149的位置的残基是V或W；对应于X174的位置的残基是L或I，对应于X307的位置的残基是R；对应于X341的位置的残基是E；对应于X368的位置的残基是N或V；对应于X388的位置的残基是K；对应于X390的位置的残基是R；对应于X400的位置的残基是I；对应于X449的位置的残基是M、F或L；对应于X481的位置的残基是K；和对应于X488的位置的残基是K。

在一些实施方案中，多肽包括与SEQ ID NO：2相比在与蛋白表达增加相关的残基位置具有残基差异的氨基酸序列，所述位置包括X3。特别地，对应于X3的位置的残基是T。

除了以上的影响酶活性、对映异构体选择性、砜副产物形成、热稳定性、溶剂稳定性和/或表达的残基位置以外，与SEQ ID NO：2相比，多肽可以在其他残基位置具有其他残基差异。这些残基其他位置的残基差异提供了氨基酸序列的其他变化，而不负面影响多肽进行化合物(1)至化合物(2)的转化、特别是以对映异构体过量转化为化合物(2b)的能力。在一些实施方案中，多肽可以包括除了以上指定残基位置的特征以外还包括以下特征的一个或多个的氨基酸序列：对应于X15的位置的残基是脂肪族氨基酸残基；对应于X22的位置的残基是脂肪族氨基酸残基；对应于X32的位置的残基是极性氨基酸残基；对应于X39的位置的残基是脂肪族氨基酸残基；对应于X44的位置的残基是酸性氨基酸残基；对应于X59的位置的残基是受限制的氨基酸残基；对应于X74的位置的残基是脂肪族氨基酸残基；对应于X83的位置的残基是酸性氨基酸残基；对应于X92的位置的残基是极性氨基酸残基；对应于X107的位置的残基是碱性氨基酸残基；对应于X114的位置的残基是碱性氨基酸残基；对应于X123的位置的残基是酸性氨基酸残基；对应于X146的位置的残基是含羟基或脂肪族氨基酸残基；对应于X155的位置的残基是非极性氨基酸残基；对应于X161的位置的残基是脂肪族或酸性氨基酸残基；对应于X176的位置的残基是酸性氨基酸残基；对应于X194的位置的残基是含羟基的氨基酸残基；对应于X195的位置的残基是脂肪族氨基酸残基；对应于X199的位置的残基是受限制的氨基酸残基；对应于X201的位置的残基是极性氨基酸残基；对应于X244的位置的残基是脂肪族氨基酸残基；对应于X245的位置的残基是脂肪族氨基酸残基；对应于X329的位置的残基是极性氨基酸残基；对应于X330的位置的残基是含羟基或脂肪族氨基酸残基；对应于X354的位置的残基是脂肪族氨基酸残基；对应于X367的位置的残基是酸性氨基酸残基；对应于X368的位置的残基是极性或脂肪族氨基酸残基；对应于X408的位置的残基是脂肪族氨基酸残基；对应于X428的位置的残基是脂肪族氨基酸残基；对应于X451的位置的残基是碱性氨基酸残基；对应于X454的位置的残基是脂肪族氨基酸残基；对应于X459的位置的残基是碱性氨基酸残基；对应于X475的位置的残基是脂肪族氨基酸残基；对应于X507的位置的残基是芳香族氨基酸残基；和对应于X532的位置的残基是受限制的氨基酸残基。如上所述，在一些实施方案中，当SEQ ID NO：2在相应残基位置的氨基酸残基包含在为工程化多肽的指定位置描述的氨基酸类别之内时，可根据本文提供的指导使用该氨基酸类别之内的不同氨基酸。不受理论束缚，表3提供了这些残基位置对酶功能的影响。

在一些实施方案中，对于指定的残基位置，多肽氨基酸序列可以具有以下特征的一个或多个：对应于X15的位置的残基是A；对应于X22的位置的残基是A；对应于X32的位置的残基是N；对应于X38的位置的残基是E；对应于X39的位置的残基是G；对应于X44的位置的残基是E；对应于X59的位置的残基是P；对应于X64的位置的残基R；对应于X74的位置的残基是G；对应于X83的位置的残基是E；对应于X92的位置的残基是N；对应于X107的位置的残基是K；对应于X114的位置的残基是R；对应于的位置的残基是D；对应于X143的位置的残基是N或V；对应于X144的位置的残基是A；对应于X146的位置的残基是T或V；对应于X149的位置的残基是F、M、V或W；对应于X155的位置的残基是M；对应于X161的位置的残基是A、V或D；对应于X176的位置的残基是D；对应于X194的位置的残基是E或S；对应于X195的位置的残基是G；对应于X199的位置的残基是P；对应于X201的位置的残基是N；对应于X244的位置的残基是V；对应于X245的位置的残基是G；对应于X272的位置的残基是R；对应于X312的位置的残基是Q；对应于X329的位置的残基是N；对应于X330的位置的残基是S或G；对应于X354的位置的残基是A；对应于X367的位置的残基是E；对应于X368的位置的残基是N或V；对应于X373的位置的残基是L；对应于X377的位置的残基是G；对应于X406的位置的残基是D；对应于X408的位置的残基是A；对应于X428的位置的残基是L；对应于X451的位置的残基是R；对应于X454的位置的残基是I；对应于X459的位置的残基是K；对应于X464的位置的残基是D；对应于X475的位置的残基是A；对应于480的位置的残基N；对应于X499的位置的残基是G或R；对应于X507的位置的残基是F；对应于X512的位置的残基是N；对应于X532的位置的残基是P；和对应于X541的位置的残基是G。

如技术人员将理解的，与SEQ ID NO：2相比，单加氧酶多肽可以在不同于以上指定的那些位置的残基位置具有其他残基差异。在一些实施方案中，与参考序列相比，多肽还可以在其他氨基酸残基位置具有另外1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40个残基差异。在一些实施方案中，在其他残基位置的差异数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35和40个残基差异。在这些其他位置的残基差异可以包括保守变化或非保守变化。在一些实施方案中，与SEQ ID NO：2单加氧酶相比，残基差异可以包括保守取代和非保守取代。在一些实施方案中，其他残基差异包括保守取代。

可以利用与SEQ ID NO：2相比在以上确定的残基位置的氨基酸残基差异的各种组合来形成具有希望特征的多肽。如将对技术人员明显的，一些残基位置可以对不止一种酶性质具有作用，并且因此可用于影响不止一种酶性质。例如，影响酶活性和对映异构体选择性的残基可以组合使用，以形成对于转化化合物(1)至化合物(2b)具有增加的酶活性和对映异构体选择性、或者对于转化化合物(1)至化合物(2a)具有增加的酶活性和对映异构体选择性的多肽。此外，可以加合与增加的热稳定性、增加的溶剂稳定性、减少的砜副产物形成和增加的蛋白表达相关的残基位置，以实现多肽中与此类性质相关的变化。

鉴于上文，在一些实施方案中，能够以大于SEQ ID NO：2单加氧酶的速率的1.5倍的速率、以对映异构体过量将化合物(1)转化为化合物(2a)的多肽可以包括至少包括以下特征的两个或多个的氨基酸序列：对应于X432的位置的残基是脂肪族或含羟基的氨基酸残基；对应于X433的位置的残基是非极性或脂肪族氨基酸残基；对应于X435的位置的残基是含羟基或脂肪族氨基酸残基；和对应于X490的位置的残基是碱性氨基酸残基。在一些实施方案中，R-对映异构体选择性单加氧酶具有至少以上特征的三个或多个、或者至少以上特征的全部。

在一些实施方案中，能够以大于SEQ ID NO：2单加氧酶的速率的1.5倍的速率、以对映异构体过量将化合物(1)转化为化合物(2a)的多肽可以包括至少包括以下特征的两个或多个的氨基酸序列：对应于X432的位置的残基是A、C、D、H、K、I、S、T或Y；对应于X433的位置的残基是A、F、G、K或W；对应于X435的位置的残基是A或S；和对应于X490的位置的残基是E、P或R。在一些实施方案中，R-对映异构体选择性单加氧酶具有的氨基酸序列具有至少以上特征的三个或多个、或者至少以上特征的全部。

在R-对映异构体选择性多肽的一些实施方案中，在与其他酶活性例如酶活性、砜副产物形成、热稳定性、溶剂稳定性和/或蛋白表达的希望变化相关的其他残基位置的残基差异可以存在。

在R-对映异构体选择性多肽的一些实施方案中，除了以上特征，多肽氨基酸序列还可以包括以下特征的一个或多个：对应于X326的位置的残基是含羟基的残基；对应于X329的位置的残基是极性残基；对应于X383的位置的残基是脂肪族氨基酸残基；和对应于X451的位置的残基是碱性氨基酸残基。在一些实施方案中，所述残基位置的氨基酸残基选自以下：对应于X277的位置的残基是V；对应于X278的位置的残基是H；对应于X279的位置的残基是Y；对应于X280的位置的残基是W；对应于X281的位置的残基是H；对应于X326的位置的残基是A、D、L、S或T；对应于X329的位置的残基是N；对应于X383的位置的残基是I；对应于X426的位置的残基是H或Q；对应于X451的位置的残基是R；和对应于X489的位置的残基是P。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2a)的多肽包括至少包括以下特征的氨基酸序列：对应于X432的位置的残基是A；对应于X433的位置的残基是A；对应于X435的位置的残基是S；和对应于X490的位置的残基是R。在此类实施方案中，能够将化合物(1)转化为化合物(2a)的多肽还可以包括以下特征的一个或多个：对应于X277的位置的残基是V；对应于X278的位置的残基是H；对应于X279的位置的残基是Y；对应于X280的位置的残基是W；对应于X281的位置的残基是H；对应于X326的位置的残基是A、D、L、S或T；对应于X329的位置的残基是N；对应于X383的位置的残基是I；对应于X426的位置的残基是H或Q；对应于X451的位置的残基是R；和对应于X489的位置的残基是P。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2a)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是T；对应于X329的位置的残基是N；对应于X383的位置的残基是I；对应于X432的位置的残基是S；对应于X433的位置的残基是G；对应于X435的位置的残基是S；对应于X451的位置的残基是R；和对应于X490的位置的残基是R。在此类实施方案中，能够将化合物(1)转化为化合物(2a)的多肽还可以包括以下特征的一个或多个：对应于X277的位置的残基是V；对应于X278的位置的残基是H；对应于X279的位置的残基是Y；对应于X280的位置的残基是W；对应于X281的位置的残基是H；对应于X326的位置的残基是A、D、L、S或T；对应于X329的位置的残基是N；对应于X383的位置的残基是I；对应于X426的位置的残基是H或Q；对应于X451的位置的残基是R；和对应于X489的位置的残基是P。

除了以上的残基位置，与SEQ ID NO：2相比，R-对映异构体选择性多肽可以在其他残基位置具有其他残基差异。在一些实施方案中，与参考序列相比，R-对映异构体选择性多肽还可以在其他氨基酸残基位置具有另外1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40个残基差异。在一些实施方案中，在其他残基位置的差异数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35和40个残基差异。在这些其他位置的残基差异可以包括保守变化或非保守变化。在一些实施方案中，与SEQ ID NO：2单加氧酶相比，残基差异可以包括保守取代和非保守取代。在一些实施方案中，这些其他残基差异包括保守取代。

如上所述，本文公开的单加氧酶的一些实施方案能够以对映异构体过量将化合物(1)转化为化合物(2b)。在一些实施方案中，这些化合物(2b)对映异构体选择性单加氧酶包括在与S-对映异构体选择性相关的残基位置、特别是在对应于X326和X386的残基位置具有残基差异的氨基酸序列。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括其中至少对应于X326的位置的残基是半胱氨酸(C)的氨基酸序列。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括其中至少对应于X386的位置的残基是含羟基的氨基酸残基、特别是S的氨基酸序列。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括其中至少对应于X326的位置的残基是半胱氨酸(C)并且对应于X386的位置的残基是含羟基的氨基酸残基、特别是S的氨基酸序列。

在一些实施方案中，S-对映异构体选择性单加氧酶多肽包括除了以上与S-对映异构体选择性相关的残基差异以外还在对吡美拉唑底物酶活性增加和/或S-对映异构体选择性进一步增加相关的残基位置，特别是在残基位置X432、X433、X435、X438、X448和X490具有至少一个或多个残基差异；和更特别是在残基位置X432、X433、X435和X490具有至少一个或多个残基差异的氨基酸序列。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是半胱氨酸(C)；对应于X386的位置的残基是含羟基的氨基酸残基；和对应于X432的位置的残基是脂肪族或含羟基的氨基酸残基。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是C；对应于X386的位置的残基是S；和对应于X432的位置的残基是A或L。

在S-对映异构体选择性单加氧酶的一些实施方案中，除了在位置X326、X386和X432的以上特征外，多肽氨基酸序列还可以包括以下特征的一个或多个：对应于X433的位置的残基是脂肪族氨基酸残基；对应于X435的位置的残基是含羟基的氨基酸残基；对应于X438的位置的残基是脂肪族氨基酸残基；对应于X448的位置的残基是脂肪族或芳香族氨基酸残基；和对应于X490的位置的残基是碱性氨基酸残基。在S-对映异构体选择性单加氧酶的一些实施方案中，在与酶活性相关的残基位置的氨基酸残基可以选自以下：对应于X433的位置的残基是A、L或V；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V或W；和对应于X490的位置的残基是R。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是半胱氨酸(C)；对应于X386的位置的残基是含羟基的氨基酸残基；对应于X432的位置的残基是脂肪族或含羟基的氨基酸残基；对应于X433的位置的残基是脂肪族氨基酸残基，对应于X435的位置的残基是含羟基的氨基酸残基；和对应于X490的位置的残基是碱性氨基酸残基。

如上所述，与SEQ ID NO：2相比，在与酶活性、对映异构体选择性、砜副产物形成、热稳定性、溶剂稳定性和表达的希望变化相关的其他残基位置的残基差异可以与以上描述的特定残基位置的特征组合使用，以形成在化合物(1)至化合物(2b)的生物转化或在一些实施方案中化合物(1)至化合物(2a)的生物转化中具有额外改善的多肽。在一些实施方案中，除了以上特征，多肽氨基酸序列还可以包括以下特征的一个或多个：对应于X3的位置的残基是含羟基的氨基酸残基；对应于X14的位置的残基是脂肪族氨基酸残基；对应于X34的位置的残基是碱性氨基酸残基；对应于X43的位置的残基是脂肪族氨基酸残基；对应于X71的位置的残基是非极性氨基酸残基；对应于X83的位置的残基是酸性氨基酸残基；对应于X111的位置的残基是含羟基的氨基酸残基；对应于X141的位置的残基是脂肪族氨基酸残基；对应于X149的位置的残基是脂肪族或芳香族氨基酸残基；对应于X174的位置的残基是脂肪族氨基酸残基；对应于X209的位置的残基是受限制的氨基酸残基；对应于X240的位置的残基是芳香族或碱性氨基酸残基；对应于X246的位置的残基是芳香族氨基酸残基；对应于X248的位置的残基是半胱氨酸(C)或脂肪族、极性或含羟基的氨基酸残基；对应于X288的位置的残基是脂肪族氨基酸残基；对应于X307的位置的残基是半胱氨酸(C)或碱性氨基酸残基；对应于X341的位置的残基是酸性氨基酸残基；对应于X388的位置的残基是碱性氨基酸残基；对应于X390的位置的残基是脂肪族或碱性氨基酸残基；对应于X400的位置的残基是脂肪族氨基酸残基；对应于X415的位置的残基是脂肪族氨基酸残基；对应于X426的位置的残基是芳香族氨基酸残基；对应于X449的位置的残基是非极性或芳香族氨基酸残基；对应于X449的位置的残基是酸性残基；对应于X481的位置的残基是碱性氨基酸残基；对应于X488的位置的残基是碱性氨基酸残基；对应于X489的位置的残基是半胱氨酸(C)；对应于X499的位置的残基是脂肪族氨基酸残基；对应于X505的位置的残基是脂肪族或芳香族氨基酸残基；对应于X516的位置的残基是脂肪族氨基酸残基；对应于X526的位置的残基是脂肪族氨基酸残基；对应于X537的位置的残基是含羟基的残基；和对应于X540的位置的残基是极性或脂肪族氨基酸残基。

在一些实施方案中，多肽氨基酸序列可以在指定残基位置的一个或多个包括以下特征：对应于X3的位置的残基是T；对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X83的位置的残基是E；对应于X111的位置的残基是T；对应于X141的位置的残基是I或V；对应于X149的位置的残基是V或W；对应于X174的位置的残基是L或I；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X246的位置的残基是E、H、Q、S、R、W或Y；对应于X248的位置的残基是C、I、N、V或S；对应于X277的位置的残基是L、M或Q；对应于X278的位置的残基是G、N或S；对应于X280的位置的残基是G或R；对应于X281的位置的残基是A或S；对应于X282的位置的残基是S；对应于X288的位置的残基是I；对应于X307的位置的残基是C或R；对应于X341的位置的残基是E；对应于X373的位置的残基是L；对应于X377的位置的残基是G；对应于X388的位置的残基是K；对应于X390的位置的残基是R或I；对应于X400的位置的残基是I；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X449的位置的残基是M、F或L；对应于X464的位置的残基是D；对应于X481的位置的残基是K；对应于X488的位置的残基是F、K或L；对应于X489的位置的残基是C；对应于X499的位置的残基是L；对应于X505的位置的残基是W或L；对应于X516的位置的残基是V；对应于X526的位置的残基是V；对应于X537的位置的残基是T；和对应于X540的位置的残基是Q或A。

如上所述，在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)，或在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2a)的多肽可以包括除了以上指定残基位置的特征以外还包括在以下位置的一个或多个的残基差异的氨基酸序列：X15；X22；X32；X38；X39；X44；X59；X64；X74；X92；X107；X114；X123；X143；X144；X146；X149；X155；X161；X176；X194；X195；X199；X201；X244；X245；X246；X272；X278；X279；X280；X281；X282；X312；X329；X330；X341；X354；X367；X368；X406；X408；X428；X451；X454；X459；X464；X475；X480；X499；X507；X512；X532；和X541。

可以在这些其他残基位置使用的氨基酸残基如上所述。在一些实施方案中，当SEQ ID NO：2在相应残基位置的氨基酸残基包含在为工程化多肽指定位置描述的氨基酸类别之内时，可根据本文提供的指导使用该氨基酸类别之内的不同氨基酸。

因此，在一些实施方案中，能够将化合物(1)转化为化合物(2)的多肽可以包括至少包括以下特征的氨基酸序列：对应于X34的位置的残基是K；对应于X209的位置的残基是P；对应于X240的位置的残基是K；对应于X288的位置的残基是I；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X415的位置的残基是A；对应于X432的位置的残基是L；对应于X433的位置的残基是A、对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X490的位置的残基是R；对应于X516的位置的残基是V；和对应于X537的位置的残基是T。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X141的位置的残基是V；对应于X209的位置的残基是P；对应于X240的位置的残基是K；对应于X288的位置的残基是I；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X516的位置的残基是V；和对应于X537的位置的残基是T。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X111的位置的残基是T；对应于X141的位置的残基是V；对应于X209的位置的残基是P；对应于X240的位置的残基是K；对应于X246的位置的残基是Y；对应于X288的位置的残基是I；对应于X307的位置的残基是R；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X481的位置的残基是K；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X505的位置的残基是L；对应于X516的位置的残基是V；和对应于X537的位置的残基是T。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X111的位置的残基是T；对应于X141的位置的残基是V；对应于X149的位置的残基是W；对应于X209的位置的残基是P；对应于X240的位置的残基是K；对应于X246的位置的残基是Y；对应于X248的位置的残基是V；对应于X277的位置的残基是M；对应于X288的位置的残基是I；对应于X307的位置的残基是R；对应于X326的位置的残基是C；对应于X341的位置的残基是E；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X390的位置的残基是I；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X464的位置的残基是D；对应于X481的位置的残基是K；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X499的位置的残基是L；对应于X505的位置的残基是L；对应于X516的位置的残基是V；对应于X526的位置的残基是V；对应于X537的位置的残基是T；和对应于X540的位置的残基是Q。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X14的位置的残基是A；对应于X34的位置的残基是K；对应于X43的位置的残基是G；对应于X71的位置的残基是M；对应于X83的位置的残基是E；对应于X111的位置的残基是T；对应于X141的位置的残基是V；对应于X149的位置的残基是W；对应于X174的位置的残基是I；对应于X209的位置的残基是P；对应于X240的位置的残基是F或K；对应于X246的位置的残基是Y；对应于X248的位置的残基是I或V；对应于X277的位置的残基是M；对应于X288的位置的残基是I；对应于X307的位置的残基是C或R；对应于X326的位置的残基是C；对应于X341的位置的残基是E；对应于X373的位置的残基是L；对应于X377的位置的残基是G；对应于X383的位置的残基是G；对应于X386的位置的残基是S；对应于X388的位置的残基是K；对应于X390的位置的残基是I；对应于X400的位置的残基是I；对应于X415的位置的残基是A；对应于X426的位置的残基是F；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；对应于X448的位置的残基是V；对应于X449的位置的残基是F；对应于X464的位置的残基是D；对应于X481的位置的残基是K；对应于X488的位置的残基是K；对应于X489的位置的残基是C；对应于X490的位置的残基是R；对应于X499的位置的残基是L；对应于X505的位置的残基是L；对应于X516的位置的残基是V；对应于X526的位置的残基是V；对应于X537的位置的残基是T；和对应于X540的位置的残基是Q。

在一些实施方案中，与参考序列相比，以上多肽还可以在其他氨基酸残基位置具有另外1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40个残基差异。在一些实施方案中，在其他残基位置的差异数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35和40个残基差异。在这些其他位置的残基差异可以包括保守变化或非保守变化。在一些实施方案中，与SEQ ID NO：2单加氧酶相比，残基差异可以包括保守取代和非保守取代。在一些实施方案中，残基差异包括保守取代。

在一些实施方案中，能够以对映异构体过量形成化合物(2b)的多肽包括选自由以下组成的组的氨基酸序列：SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126，128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266。

在一些实施方案中，多肽能够以至少90％对映异构体过量将化合物(1)转化为化合物(2b)。在一些实施方案中，多肽能够以至少91％、92％、93％、94％、95％、96％、97％、98％或99％或更高对映异构体过量形成化合物(2b)。

在一些实施方案中，能够以至少90％对映异构体过量形成化合物(2b)的多肽包括具有以下特征的至少一个或更多、至少两个或更多、至少三个或更多或至少四个或更多的氨基酸序列：对应于X246的位置的残基是Y；对应于X248的位置的残基是S；对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X432的位置的残基是L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；对应于X438的位置的残基是I；和对应于X448的位置的残基是V。

在一些实施方案中，能够以至少90％对映异构体过量形成化合物(2b)的多肽包括至少包括以下特征的氨基酸序列：对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X438的位置的残基是I；和对应于X448的位置的残基是V。

在一些实施方案中，能够以至少90％对映异构体过量形成化合物(2b)的多肽包括选自由以下组成的组的氨基酸序列：SEQ ID NO：10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126，128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、242、244、248、250、254、256、258、262和264。

在一些实施方案中，多肽能够以至少99％对映异构体过量和SEQ IDNO：10多肽酶活性的至少4倍酶活性形成化合物(2b)。

在一些实施方案中，能够以至少99％对映异构体过量和SEQ ID NO：10多肽酶活性至少4倍或更高酶活性形成化合物(2b)的多肽包括选自由以下组成的组的氨基酸序列：SEQ ID NO：16、18、20、22、24、26、28、30、32、42、44、86、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158。

如本文提供的，在一些实施方案中，与SEQ ID NO：52多肽相比，单加氧酶多肽能够形成降低的量的化合物(3)的砜副产物。与SEQ ID NO：52多肽相比，能够形成降低的量的化合物(3)的砜副产物的示例性单加氧酶多肽可以包括选自由以下组成的组的氨基酸序列：SEQ ID NO：54、58、60、62、64、70、72、76、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158。

在一些实施方案中，多肽能够以比SEQ ID NO：52多肽产生的量减少约20％或更高的量形成化合物(3)的砜副产物，并且包括选自由以下组成的组的氨基酸序列：SEQ ID NO：54、58、60、62、64、70、72、76、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158。

在一些实施方案中，多肽能够以比SEQ ID NO：52多肽产生的量减少约40％或更高的量形成化合物(3)的砜副产物，并且包括选自由以下组成的组的氨基酸序列：SEQ ID NO：54、72、76、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158。

在一些实施方案中，多肽能够以比SEQ ID NO：52多肽产生的量减少约90％或更高的量形成化合物(3)的砜副产物，并且包括选自由以下组成的组的氨基酸序列：SEQ ID NO：84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158。

如上所述，在一些实施方案中，与SEQ ID NO：2相比，多肽氨基酸序列可以在与蛋白表达增加相关的残基位置具有残基差异。因此，在一些实施方案中，本文描述的多肽氨基酸序列还可以在对应于X3的残基位置包括含羟基的残基。在一些实施方案中，对应于X3的位置的残基是T。该特征特别用于在细菌宿主生物体、特别是大肠杆菌中增强的表达。

以下表2A提供了能够将化合物(1)转化为化合物(2b)的示例性工程化多肽。奇数编号的SEQ ID NO指编码由偶数编号的SEQ ID NO提供的氨基酸序列的核苷酸序列。残基差异基于与SEQ ID NO：2的参考序列即不动杆菌NCIMB9871的天然存在的环己酮单加氧酶的比较。活性提高表示为“相对于母体的倍增”或“FLOP”，其中用作参考的母体多肽氨基酸序列由单独列中的SEQ ID NO指示。SEQ ID NO：4和6的多肽有能力将化合物(1)转化为化合物(2)，但是产物具有R-异构体的对映异构体过量。SEQ ID NO：4单加氧酶的活性是SEQ ID NO：2活性的约1.7倍。

使用以下一般的HTP测定条件来测定表2A的示例性非天然存在的单加氧酶多肽(“工程化CHMO多肽”)在进行底物化合物(1)至产物化合物(2)的生物催化转化中的活性FIOP和对映异构体选择性(％ee)：6g/L底物化合物(1)，10μL工程化CHMO多肽溶解产物，1g/L SEQ ID NO：268的KRED，0.1g/L NADP，在50mM磷酸钾缓冲溶液中，8％(v/v)IPA，2％丙酮，15％N-甲基-2-吡咯烷酮(NMP)，pH9.0，25℃反应温度和24h反应时间。实施例中描述了使用的HTP测定的进一步细节。

表2A：具有改善的性质的工程化CHMO多肽

在一些实施方案中，能够以大于SEQ ID NO：2的速率的1.5倍的速率、以对映异构体过量将化合物(1)转化为化合物(2a)的多肽可以包括与参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206和208，条件是多肽氨基酸序列与SEQ IDNO：2相比包括如表2A或2B中所提供的SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206或208所示多肽序列中存在的任何一组残基差异。在一些实施方案中，与参考序列相比，多肽还可以在其他氨基酸残基位置具有1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40个残基差异。在一些实施方案中，在其他残基位置的差异数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35和40个残基差异。在这些其他位置的残基差异可以包括保守变化或非保守变化。在一些实施方案中，与参考序列相比，残基差异可以包括保守取代和非保守取代。在一些实施方案中，残基差异是保守取代。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽可以包括与SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266的参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列。

在一些实施方案中，能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽可以包括与参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列，参考序列选自由以下组成的组：SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266，条件是多肽氨基酸序列与SEQ ID NO：2相比包括如表2A中的SEQ ID NO：8至SEQ ID NO：158或表2B中的SEQ ID NO：210至SEQ ID NO：266所示多肽序列的任何一个中存在的任何一组残基差异。在一些实施方案中，与参考序列相比，多肽还可以在其他氨基酸残基位置具有另外1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35、1-40个残基差异。在一些实施方案中，在其他残基位置的差异数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35和40个残基差异。在这些其他位置的残基差异可以包括保守变化或非保守变化。在一些实施方案中，与参考序列相比，残基差异可以包括保守取代和非保守取代。在一些实施方案中，残基差异是保守取代。

以下表2B提供了能够将化合物(1)转化为化合物(2)的示例性非天然存在的单加氧酶多肽，其与SEQ ID NO：4、16、32、52、56、58和76的参考多肽相差一个氨基酸残基差异。奇数编号的SEQ ID NO指编码由偶数编号的SEQ ID NO提供的氨基酸序列的核苷酸序列。表2B中的残基差异基于与SEQ ID NO：2的参考序列以及SEQ ID NO：4、16、32、52、56、58和76的参考多肽的比较。

使用以下一般的HTP测定条件来测定表2B的53种示例性非天然存在的单加氧酶多肽在进行底物化合物(1)(吡美拉唑)至产物化合物(2)((R)-或(S)-奥美拉唑)的生物催化转化中的活性FIOP和对映异构体选择性(％ee)：5g/L吡美拉唑底物，10μL工程化CHMO多肽溶解产物，1g/L SEQ ID NO：268的KRED，0.5g/L NADP，在50mM磷酸钾缓冲溶液中，10％(v/v)IPA，pH9.0，25℃反应温度和24h反应时间(伴随400rpm搅拌)。实施例中描述了使用的HTP测定方法的进一步细节。

表2B

因此，在一些实施方案中，本公开提供了并且能够将化合物(1)转化为化合物(2)的工程化多肽可以包括与SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156或158的参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，并且包括选自以下的相对于参考序列的一个或多个氨基酸差异：X143N；X143V；X144A；X149F；X149M；X149W；X246E；X246H；X246Q；X246R；X246S；X246W；X277L；X277Q；X277V；X278G；X278H；X278N；X278S；X279Y；X280G；X280R；X280W；X281A；X281H；X281S；X282S；X326A；X326S；X326L；X326D；X330G；X426F；X426H；X426Q；X432C；X432D；X432H；X432I；X432K；X432L；X432T；X432Y；X433F；X433K；X433L；X433W；X488K；X488F；X488L；X489P；X490E；X490P；和X505L(即，表2B的氨基酸差异)。在一些实施方案中，工程化多肽包括与SEQ ID NO：160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266任何一个的序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的序列。在一些实施方案中，工程化多肽能够以对映异构体过量将化合物(1)转化为化合物(2)的(R)-或(S)-对映异构体。

在一些实施方案中，本公开提供了能够以对映异构体过量将底物吡美拉唑的结构类似物(例如，结构式(I)的化合物)转化为相应的类似拉唑化合物(例如，结构式(II)的化合物)的(R)-或(S)-对映异构体的工程化多肽，其包括与SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266的参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列。在一些实施方案中，工程化多肽能够将吡美拉唑类似物底物转化为选自以下的奥美拉唑类似物化合物：(R)或(S)-兰索拉唑、(R)或(S)-替那拉唑、(R)或(S)-雷贝拉唑、(R)或(S)-泮托拉唑、(R)或(S)-艾普拉唑、(R)或(S)-来明拉唑、(R)或(S)-沙维拉唑和(R)或(S)-TY-11345。

在一些实施方案中，本公开提供了能够以对映异构体过量将吡美拉唑类似物底物5-(二氟甲氧基)-2-((3，4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑转化为奥美拉唑类似物化合物(S)-泮托拉唑的工程化多肽。在一些实施方案中，能够以对映异构体过量产生(S)-泮托拉唑的多肽包括选自由以下组成的组的氨基酸序列：SEQ ID NO：70、72、76、78、80、82、84、86、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、126、128、130、228、232、244、248、256、258、260、262和264。

在一些实施方案中，本公开提供了能够以对映异构体过量将吡美拉唑类似物底物5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4，5-b]吡啶转化为奥美拉唑类似物化合物(S)-替那拉唑的工程化多肽。在一些实施方案中，能够产生(S)-替那拉唑的多肽包括选自由以下组成的组的氨基酸序列：SEQ ID NO：66、102、104、114、122、124、128、232、238、244、260、262和264。

在一些实施方案中，本公开提供了能够以对映异构体过量将吡美拉唑类似物底物2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑转化为奥美拉唑类似物化合物(S)-雷贝拉唑的工程化多肽。在一些实施方案中，能够产生(S)-雷贝拉唑的多肽包括选自由以下组成的组的氨基酸序列：SEQ ID NO：62、76、84、86、124、238、240、250、258、262和264。

本公开还涵盖能够将化合物(1)转化为化合物(2)的工程化CHMO多肽，其中所述多肽包括具有基于母体多肽的结构中的位置或区域的突变的氨基酸序列。因此，参考表3，母体多肽(例如，SEQ ID NO：2)的变体可以包括如表3中鉴定的母体多肽结构中位置的特定残基的氨基酸取代。表3中还鉴定了每个相关位置的示例性取代。

表3：用于工程化CHMO多肽的结构位置

在一些实施方案中，多肽可以包括本文描述的工程化单加氧酶多肽的缺失。因此，对于本公开多肽的每一个实施方案，缺失可以包括1个或更多氨基酸、2个或更多氨基酸、3个或更多氨基酸、4个或更多氨基酸、5个或更多氨基酸、6个或更多氨基酸、8个或更多氨基酸、10个或更多氨基酸、15个或更多氨基酸、或20个或更多氨基酸、高达多肽氨基酸总数的10％、高达氨基酸总数的10％、高达氨基酸总数的20％，只要保持本文描述的单加氧酶多肽的功能活性。在一些实施方案中，功能活性是关于以大于SEQ ID NO：2单加氧酶速率的1.5倍的速率将化合物(1)转化为化合物(2)。在一些实施方案中，多肽的功能活性是关于以对映异构体过量将化合物(1)转化为化合物(2b)。在一些实施方案中，缺失可以包括1-2、1-3、1-4、1-5、1-6、1-7、1-8、1-9、1-10、1-11、1-12、1-14、1-15、1-16、1-18、1-20、1-22、1-24、1-26、1-30、1-35或1-40个氨基酸残基。在一些实施方案中，缺失数目可以是1、2、3、4、5、6、7、8、9、10、11、12、14、15、16、18、20、22、24、26、30、35或40个氨基酸。在一些实施方案中，缺失可以包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18或20个氨基酸残基的缺失。

在一些实施方案中，多肽可以包括本文描述的工程化多肽的片段。在一些实施方案中，片段可以具有全长多肽、例如SEQ ID NO：8多肽的约80％、90％、95％、98％和99％，只要保持多肽的功能活性。在一些实施方案中，功能活性是关于以大于SEQ ID NO：2单加氧酶速率的1.5倍的速率将化合物(1)转化为化合物(2)。在一些实施方案中，多肽的功能活性是关于以对映异构体过量将化合物(1)转化为化合物(2b)。

在一些实施方案中，本公开的多肽可以是其中工程化多肽与其他多肽融合的融合多肽形式，所述其他多肽例如但不限于抗体标签(例如，myc表位)、纯化序列(例如，用于结合金属的His标签)和细胞定位信号(例如，分泌信号)。因此，本文描述的工程化多肽可以与其他多肽融合或不融合来使用。

如技术人员将理解的，本文描述的多肽不限于遗传编码的氨基酸。除了遗传编码的氨基酸以外，本文描述的多肽可以整体或部分包括天然存在和/或合成的非编码氨基酸。本文描述的多肽可能包括的某些常见的非编码氨基酸可以包括但不限于：遗传编码氨基酸的D-对映异构体；2，3-二氨基丙酸(Dpr)；α-二氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯代苯丙氨酸(Ocf)；3-氯代苯丙氨酸(Mcf)；4-氯代苯丙氨酸(Pcf)；2-氟代苯丙氨酸(Off)；3-氟代苯丙氨酸(Mff)；4-氟代苯丙氨酸(Pff)；2-溴代苯丙氨酸(Obf)；3-溴代苯丙氨酸(Mbf)；4-溴代苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟代甲基苯丙氨酸(Otf)；3-三氟代甲基苯丙氨酸(Mtf)；4-三氟代甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘代苯丙氨酸(Pif)；4-氨基甲基苯丙氨酸(Pamf)；2，4-二氯代苯丙氨酸(Opef)；3，4-二氯代苯丙氨酸(Mpcf)；2，4-二氟代苯丙氨酸(Opff)；3，4-二氟代苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟代苯丙氨酸(5ff)；苯乙烯基丙氨酸(sAla)；蒽基丙氨酸(aAla)；3，3-二苯基丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1，2，3，4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；蛋氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；磷酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4羧酸；哌啶甲酸(pipecolic acid，PA)，吖丁啶-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)，高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰基赖氨酸(AcLys)；2，4-二氨基丁酸(Dbu)；2，3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟脯氨酸(Hyp)和高脯氨酸(hPro)。本文描述的多肽可以包括的其他非编码氨基酸对于本领域技术人员是明显的(参见例如，Fasman，1989，CRC Practical Handbook of Biochemistry and MolecularBiology，CRC Press，Boca Raton，FL，第3-70页和其中引用的参考文献中提供的各种氨基酸，其全部通过引用并入)。这些氨基酸可以是L-或D-构型。

本领域技术人员将理解，携带侧链保护基的氨基酸或残基还可以构成本文描述的多肽。在此例中属于芳香族类别的此类受保护的氨基酸的非限制性实例包括(括号中列出的保护基)但不限于：Arg(tos)、Cys(甲基苄基)、Cys(硝基吡啶亚氧硫基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

本文描述的多肽可以包括的构象限制的非编码氨基酸包括但不限于N-甲基氨基酸(L-构型)；1-氨基环戊-(2或3)-烯-4-羧酸；哌啶甲酸；吖丁啶-3-羧酸；高脯氨酸(hPro)；和1-氨基环戊烷-3-羧酸。

在一些实施方案中，多肽可以存在于用编码工程化单加氧酶的基因转化的全细胞内，或者作为细胞提取物、溶解产物、分离的多肽，或是基本上纯化的，其可以处于各种不同形式，包括固体(例如，冻干的、喷雾干燥的等等)或半固体(例如，粗制糊)。

在一些实施方案中，可以试剂盒形式提供本文描述的多肽。试剂盒中的酶可以单独或作为多种酶存在。试剂盒还可以包括用于进行酶促反应的试剂，用于评估酶活性的底物，以及用于检测产物的试剂。试剂盒还可以包括试剂分配器和试剂盒使用说明。

在一些实施方案中，可以在物理基底上提供多肽。在一些实施方案中，可以阵列形式提供多肽，其中多肽以位置上不同的位置(positionally distinctlocations)安排。可以使用阵列来测试供多肽转化的多种芳基烃基硫化物。阵列上下文中“基底”、“支持体”、“固体支持体”、“固体载体”或“树脂”指任何固相材料。基底还涵盖诸如“固相”、“表面”和/或“膜”的术语。固体支持体可以包括有机聚合物，例如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯和聚丙烯酰胺及其共聚物和接枝物。固体支持体还可以是无机的，例如玻璃、二氧化硅、可控孔度玻璃(CPG)、反相二氧化硅或金属(例如金或铂)。基底构造可以是珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平面的、基本上平面的或非平面的。固体支持体可以是多孔的或非多孔的，并且可以具有溶胀或非溶胀特征。固体支持体可以配置为孔、凹陷或其他容器、器皿、特征或位置的形式。多种支持体可以对试剂的机器人递送或通过检测方法和/或仪器可寻址的不同的位置配置在阵列上。

在某些实施方案中，本公开的试剂盒包括在不同的可寻址位置包括多个不同的工程化单加氧酶多肽的阵列，其中不同的多肽是参考序列的不同变体，每个变体具有至少一种不同的改善的酶性质。包含多种工程化多肽的此类阵列及其使用方法描述于例如WO2009/008908A2。

多核苷酸、表达载体和宿主细胞

另一方面，本公开提供了编码本文描述的多肽的多核苷酸。多核苷酸可以与控制基因表达的一种或多种异源调控序列可操作连接，以产生能够表达单加氧酶多肽的重组多核苷酸。可以将含有编码工程化单加氧酶的异源多核苷酸的表达构建体引入适当宿主细胞以表达相应的多肽。

要理解，因为了解对应于各种氨基酸的密码子，多肽氨基酸序列的可利用性提供了对能够编码本发明多肽的所有多核苷酸的描述。因此，鉴定了特定的氨基酸序列后，通过以不改变蛋白的氨基酸序列的方式简单改变一个或多个密码子的序列，本领域技术人员可以制备任何数目的不同核酸。就这点而言，本公开特别涵盖可以通过选择基于可能的密码子选择的组合来制备的多核苷酸的每一个可能的变化，并且认为所有此类变化是针对本文公开的任何多肽(包括表2A和2B中提出的氨基酸序列)明确公开的。

在一些实施方案中，可以选择和/或工程化多核苷酸以包括被优选为适合在其中产生蛋白的宿主细胞的密码子。例如，使用在细菌中使用的偏爱密码子以在细菌中表达基因；使用在酵母中使用的偏爱密码子来在酵母中表达；并且使用在哺乳动物中使用的偏爱密码子来在哺乳动物细胞中表达。因为并非所有的密码子需要被替换以优化单加氧酶的密码子使用(例如，因为天然序列可以具有偏爱密码子，以及因为不是所有氨基酸残基都要求使用偏爱密码子)，编码单加氧酶多肽的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或超过90％的密码子位置含有偏爱密码子。

在一些实施方案中，多核苷酸编码包括与选自由以下组成的组的氨基酸序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高序列同一性的氨基酸序列的多肽：SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266，其中所述多肽能够以大于SEQ ID NO：2单加氧酶速率的1.5倍的速率将化合物(1)转化为化合物(2)。

在一些实施方案中，多核苷酸编码包括与选自由SEQ ID NO：4和6组成的组的氨基酸序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高序列同一性的氨基酸序列的多肽，其中所述多肽能够以对映异构体过量并且以大于SEQ ID NO：2单加氧酶多肽速率的1.5倍的速率将化合物(1)转化为化合物(2)。在一些实施方案中，多核苷酸编码能够以对映异构体过量将化合物(1)转化为化合物(2a)的多肽，并且所述多肽包括与基于SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206或208的参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列，条件是所述氨基酸序列与SEQ ID NO：2相比包括如表2A或2B中所提供的SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206或208的多肽序列中存在的任何一组残基差异。

在一些实施方案中，多核苷酸编码包括与选自由以下组成的组的氨基酸序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高序列同一性的氨基酸序列的多肽：SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266，其中所述多肽能够以对映异构体过量将化合物(1)转化为化合物(2b)。

在一些实施方案中，多核苷酸编码能够以对映异构体过量将化合物(1)转化为化合物(2b)的多肽，并且所述多肽包括与参考序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性的氨基酸序列，参考序列选自由以下组成的组SEQID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266，条件是所述氨基酸序列与SEQ ID NO：2相比包括如表2A中提供的SEQ ID NO：8至SEQ ID NO：158或表2B中提供的SEQ ID NO：210至SEQ ID NO：266的多肽序列的任何一个中存在的任何一组残基差异。

在一些实施方案中，编码多肽的多核苷酸选自由以下组成的组：SEQID NO：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、126、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263和265。

在一些实施方案中，多核苷酸能够在高度严格条件下与包括SEQ IDNO：3、5、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205或207的多核苷酸或其互补体杂交，其中高度严格杂交的多核苷酸编码能够以对映异构体过量、以大于SEQ ID NO：2单加氧酶多肽速率的1.5倍的速率将化合物(1)转化为化合物(2a)的单加氧酶多肽。

在一些实施方案中，多核苷酸能够在高度严格条件下与选自由SEQ IDNO：7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263和265组成的组的多核苷酸或其互补体杂交，其中高度严格杂交的多核苷酸编码能够以对映异构体过量将化合物(1)转化为化合物(2b)的单加氧酶多肽。

在一些实施方案中，多核苷酸编码本文描述的多肽，但是在核苷酸水平上与编码本文描述的工程化单加氧酶的参考多核苷酸具有约80％或更高的序列同一性、约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性。在一些实施方案中，参考多核苷酸选自由以下组成的组：SEQ ID NO：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263和265。

编码本公开多肽的分离的多核苷酸可以多种方式操纵以提供多肽表达。在一些实施方案中，编码多肽的多核苷酸可以作为表达载体来提供，其中存在一个或多个控制序列以调节多核苷酸的表达。在其插入载体之前，分离的多核苷酸的操纵可能是希望的或必需的，这取决于表达载体。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域公知的。Sambrook等人，2001，Molecular Cloning：A Laboratory Manual(分子克隆：实验室手册)，第3版，Cold Spring Harbor Laboratory Press；和CurrentProtocols in Molecular Biology(现代分子生物学实验指南)，Ausubel.F.编，Greene Pub.Associates，1998，更新至2009提供了指导，其公开内容在此通过引用并入。

在一些实施方案中，控制序列包括但不限于启动子、前导序列、聚腺苷酸化序列、前肽序列、信号肽序列和转录终止子。可以基于使用的宿主细胞来选择适合的启动子。示例性的细菌启动子包括大肠杆菌lac操纵子、大肠杆菌trp操纵子、噬菌体λ、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、β-内酰胺酶基因和tac启动子。丝状真菌宿主细胞的示例性启动子包括从米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定性α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶的基因获得的启动子及其突变的、截短的和杂合的启动子。示例性的酵母细胞启动子可以来自酿酒酵母(Saccharomyces cerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GALl)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)和酿酒酵母3-磷酸甘油酸激酶的基因。

在一些实施方案中，控制序列还可以是信号肽编码区，其编码与多肽氨基端连接并指导编码多肽进入细胞分泌途径的氨基酸序列。信号序列通常取决于被用来表达多肽的宿主细胞的类型。细菌宿主细胞的有效信号肽编码区是从芽孢杆菌NClB11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)α-淀粉酶、地衣芽孢杆菌枯草蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因获得的信号肽编码区。丝状真菌宿主细胞的示例性信号肽编码区可以是从米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicolainsolens)纤维素酶和绵毛状腐质霉(Humicola lanuginosa)脂肪酶的基因获得的信号肽编码区。用于酵母宿主细胞的信号肽可以来自酿酒酵母α-因子和酿酒酵母转化酶的基因。

可以使用本领域可获得的其他控制序列，例如前导序列、聚腺苷酸化序列和转录终止子序列(参见Sambrook，同上，和Current Protocols inMolecular Biology(现代分子生物学实验指南)，同上)。

另一方面，本公开还涉及包含编码工程化单加氧酶多肽的多核苷酸或其变体以及一种或多种表达调节区域(例如启动子和终止子、复制起点等，取决于它们被引入的宿主类型)的重组表达载体。重组表达载体可以是任何载体(例如，质粒、黏粒或病毒)，其可以方便地经受重组DNA程序，并且可以使多核苷酸序列表达。载体的选择通常根据载体与载体将被引入的宿主细胞的相容性。载体可以是线性或闭合环状质粒。

表达载体可以是自主复制载体，即，作为染色体外实体存在的、其复制独立于染色体复制的载体，例如质粒、染色体外元件、微型染色体或人工染色体。载体可以含有用于保证自复制的任何工具(means)。可选地，载体可以是当被引入宿主细胞时整合入基因组并与它整合的染色体一起复制的载体。表达载体优选含有一个或多个选择性标记，其允许转化细胞的轻易选择。选择性标记是一种基因，其产物提供杀菌剂或病毒抗性、重金属抗性、营养缺陷型的原养型、化学剂(例如，抗生素)抗性等。

另一方面，本公开提供了包含编码本公开工程化单加氧酶多肽的多核苷酸的宿主细胞，所述多核苷酸与用于在宿主细胞中表达单加氧酶多肽的一个或多个控制序列可操作连接。用于表达由本发明表达载体编码的单加氧酶多肽的宿主细胞是本领域公知的，并且包括但不限于：细菌细胞，例如大肠杆菌、乳酸杆菌、链霉菌和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞；真菌细胞，例如酵母细胞；昆虫细胞，例如果蝇S2和夜蛾Sf9细胞；动物细胞，例如CHO、COS、BHK、293和Bowes黑色素瘤细胞；和植物细胞。示例性的宿主细胞是大肠杆菌BL21和W3110。

用于上述宿主细胞的适当培养基和生长条件是本领域公知的。可以通过本领域已知的各种方法(例如，电穿孔、生物弹道粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合)将用于表达单加氧酶的多核苷酸引入宿主细胞。

在本文的实施方案中，可以使用本领域技术人员常用的方法来制备单加氧酶多肽和编码此类多肽的核苷酸。如上所述，天然存在的氨基酸序列和编码不动杆菌NCIMB9871的环己酮单加氧酶(本文表示为SEQ ID NO：2)的相应多核苷酸描述于Chen等人，1988，J.Bacteriol.170(2)，781-789和Genbank登录号BAA86293.1GI：6277322。在一些实施方案中，母体多核苷酸序列被密码子优化以增强单加氧酶在指定宿主细胞中的表达。

通过使编码天然存在的环己酮单加氧酶的多核苷酸经受诱变和/或定向进化方法，可以获得工程化单加氧酶(例如，Stemmer，1994，Proc NatlAcad Sci USA91：10747-10751；WO95/22625；WO97/0078；WO97/35966；WO98/27230；WO00/42651；WO01/75767和美国专利6,537,746；其每一个在此通过引用并入)。

可以使用的其他定向进化程序包括但不限于交错延伸过程(StEP)、体外重组(Zhao等人，1998，Nat.Biotechnol.16：258-261)、诱变PCR(Caldwell等人，1994，PCR Methods Appl.3：S136-S140)和盒诱变(Black等人，1996，Proc Natl Acad Sci USA93：3525-3529)。用于本文目的的诱变和定向进化技术还描述于以下参考文献：Ling，等人，1997，Anal.Biochem.254(2)：157-78；Dale等人，1996，Methods Mol.Biol.57：369-74；Smith，1985，Ann.Rev.Genet.19：423-462；Botstein等人，1985，Science229：1193-1201；Carter，1986，“Site-directed mutagenesis(定点诱变)”Biochem.J.237：1-7；Kramer等人，1984，Cell38：879-887；Wells等人，1985，Gene34：315-323；Minshull等人，1999，Curr Opin Chem Biol3：284-290；Christians等人，1999，Nature Biotech17：259-264；Crameri等人，1998，Nature391：288-291；Crameri等人，1997，Nature Biotech15：436-438；Zhang等人，1997，Proc Natl Acad Sci USA94：45-4-4509；Crameri等人，1996，Nature Biotech14：315-319；和Stemmer，1994，Nature370：389-391。所有出版物在此通过引用并入。

在一些实施方案中，针对具有希望酶性质的单加氧酶来筛选诱变处理后获得的克隆。使用标准技术，例如产物分离(例如，通过HPLC)和通过测量分离底物和产物的UV吸光度和/或使用串联质谱(例如，MS/MS)的检测的产物检测，可以测量来自表达文库的单加氧酶酶活性。然后分离含有编码希望多肽的多核苷酸的克隆，测序以鉴定核苷酸序列变化(如果有的话)，并用于在宿主细胞中表达酶。实施例2提供了单加氧酶活性的示例性测定。

当多肽序列已知时，可以根据已知的合成方法，例如Beaucage等人，1981，Tet Lett22：1859-69描述的亚磷酰胺方法或Matthes等人，1984，EMBO J.3：801-05描述的方法，通过标准固相方法来制备编码酶的多核苷酸。在一些实施方案中，可以单独合成最多约100个碱基的片段，然后连接(例如，通过酶促或化学连接方法，或聚合酶介导的方法)以形成任何希望的连续序列。

可以在适当细胞中表达多肽，使用公知的蛋白质纯化技术的任何一种或多种从宿主细胞和或培养基中回收多肽，所述蛋白质纯化技术包括但不限于溶菌酶处理、声处理、过滤、盐析、超离心和色谱。用于分离单加氧酶多肽的色谱技术包括但不限于反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。

用于纯化特定酶的条件将部分取决于诸如以下因素：净电荷、疏水性、亲水性、分子量、分子形状等等，并且将对本领域技术人员是明显的。在一些实施方案中，工程化单加氧酶可表达为与纯化标签(诸如具有对金属的亲和力的His-标签)或用于结合抗体的抗体标签(如myc表位标签)的融合蛋白。

如以下进一步描述的，可以粗提取物、冻干物(lyophizate)、粉末、分离制品和基本上纯的制品形式制备本公开的多肽。

使用方法

在进一步方面，可以在用于将各种芳基-烃基硫化物底物转化为相应亚砜的过程中使用本公开的单加氧酶多肽。虽然就5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑(化合物(1))转化为5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(化合物(2))来描述本文的单加氧酶多肽，但工程化单加氧酶多肽可用于转化与吡美拉唑结构类似的其他拉唑化合物。因此，在一些实施方案中，可以在用于将结构式(I)的化合物转化为式(II)产物的过程中使用本公开的单加氧酶多肽：

其中，Ar¹是任选取代的芳基或杂芳基环；R是H、低级烃基、杂烃基或与Ar¹的环碳形成5至8元环烃基、杂烃基、芳基或杂芳基稠环；并且Ar²是与咪唑环稠合的任选取代的环烃基、杂环烃基、芳基或杂芳基环。

在一些实施方案中，Ar¹是任选取代的苯基或吡啶基。在一些实施方案中，Ar¹可以具有1至5个取代，优选1、2或3个取代。Ar¹中的取代可以是取代的或未取代的：低级烃基、低级烃氧基、氨基或烃基氨基。在一些实施方案中，取代的烃基是卤代烃基。

在一些实施方案中，Ar²选自任选取代的噻吩基、苯基或吡啶基。在一些实施方案中，Ar²可以具有1至5个取代，优选1、2或3个取代。Ar¹中的取代可以是取代的或未取代的：低级烃基、低级烃氧基、或5至7元杂环烃基、芳基或杂芳基环。

可以通过使用本文描述的单加氧酶制备的拉唑化合物包括例如但不限于以下表4中所示的那些。

表4

在一些实施方案中，方法可以包括在电子供体存在下、在适合的反应条件下，使上述式(I)化合物与本文描述的工程化CHMO多肽接触或一起孵育，以将式(I)化合物转化为式(II)的产物化合物。适合的反应条件包括分子氧(O₂)来源，并且所述电子供体可以是辅因子NADPH或NADH。在一些实施方案中，O₂可以是溶解于反应溶液中的O₂。该方法的对映异构体选择性可以通过测量反应中形成的(R)和(S)产物的量来测定。用于该方法的示例性多肽可以是包括选自由SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266组成的组的氨基酸序列的多肽，或者包括具有在SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列的工程化CHMO多肽。

在一些实施方案中，用于该方法的工程化CHMO多肽可以包括与选自由SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266组成的组的参考序列具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高同一性的氨基酸序列，并且任选地还包括具有表2A或2B中针对4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266所列的相对于SEQID NO：2的一组氨基酸差异的氨基酸序列。

如上所述，在一些实施方案中，本公开的单加氧酶多肽可以在用于将5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑(“吡美拉唑”或“化合物(1)”)转化为5-甲氧基-2-((4-甲氧基-3，5--二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑(“R-和S-奥美拉唑”或“化合物(2)”)的方法中使用。在一些实施方案中，该方法包括在电子供体例如辅因子存在下、在适合的反应条件下，使化合物(1)与本文描述的多肽接触或一起孵育，以将化合物(1)转化为化合物(2)。

在一些实施方案中，单加氧酶多肽可用于以对映异构体过量将化合物(1)转化为化合物(2a)。在一些实施方案中，所述方法包括在电子供体例如辅因子存在下、在适合的反应条件下，使化合物(1)与本文描述的R-对映异构体选择性多肽接触或一起孵育，来以对映异构体过量将化合物(1)转化为化合物(2a)。用于该方法的示例性多肽可以包括选自由SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206和208组成的组的氨基酸序列，或者包括具有在SEQ ID NO：4、6、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206或208的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列的工程化CHMO多肽。

在一些实施方案中，单加氧酶多肽可用于以对映异构体过量将化合物(1)转化为化合物(2b)。在一些实施方案中，所述方法包括在电子供体例如辅因子存在下、在适合的反应条件下，使化合物(1)与本文描述的S-对映异构体选择性多肽接触或一起孵育，来以对映异构体过量将化合物(1)转化为化合物(2b)。用于该方法的示例性多肽可以包括选自SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266的氨基酸序列，或者具有在SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列的工程化CHMO多肽。

在一些实施方案中，所述方法包括在电子供体例如辅因子存在下、在适合的反应条件下，使化合物(1)与本文描述的S-对映异构体选择性多肽接触或一起孵育，来以至少90％对映异构体过量将化合物(1)转化为化合物(2b)。用于该方法的示例性多肽可以包括选自SEQ ID NO：10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、242、244、248、250、254、256、258、262和264的氨基酸序列，或者包括具有在SEQ ID NO：10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、242、244、248、250、254、256、258、262或264的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列的工程化CHMO多肽。

在一些实施方案中，所述方法包括在电子供体例如辅因子存在下、在适合的反应条件下，使化合物(1)与本文描述的多肽接触或一起孵育，来以至少99％对映异构体过量将化合物(1)转化为化合物(2b)。用于该方法的示例性多肽可以包括选自SEQ ID NO：16、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、116、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156和158的氨基酸序列，或者包括具有在SEQ ID NO：16、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、116、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156或158的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列的工程化CHMO多肽。

在一些实施方案中，单加氧酶多肽可以用于以对映异构体过量制备结构式(II)的奥美拉唑类似物化合物，其中结构式(II)的化合物选自：(R)或(S)-兰索拉唑、(R)或(S)-替那拉唑、(R)或(S)-雷贝拉唑、(R)或(S)-泮托拉唑、(R)或(S)-艾普拉唑、(R)或(S)-来明拉唑、(R)或(S)-沙维拉唑和(R)或(S)-TY-11345。在此类实施方案中，所述方法包括在电子供体例如辅因子存在下、在适合的反应条件下，使奥美拉唑类似物化合物(即，相应的吡美拉唑底物类似物化合物)的结构式(I)的硫化物前体与本文描述的多肽接触或一起孵育，以将式(I)化合物的硫化物前体转化为结构式(II)的奥美拉唑类似物化合物。

在一些实施方案中，可以进行用于制备奥美拉唑类似物化合物的该方法，其中式(I)化合物的硫化物前体是5-(二氟甲氧基)-2-((3，4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑，并且式(II)化合物是(S)-泮托拉唑，其以对映异构体过量生成。在此类实施方案中，可以进行该方法，其中多肽包括选自由SEQ ID NO：70、72、76、78、80、82、84、86、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、126、128、130、228、232、244、248、256、258、260、262和264组成的组的氨基酸序列，或者其中多肽包括具有在ID NO：70、72、76、78、80、82、84、86、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、126、128、130、228、232、244、248、256、258、260、262或264的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列。

在一些实施方案中，可以进行制备奥美拉唑类似物化合物的该方法，其中硫化物前体式(I)化合物是5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4，5-b]吡啶，并且式(II)化合物是(S)-替那拉唑，其以对映异构体过量生成。在此类实施方案中，可以进行该方法，其中多肽包括选自由SEQ ID NO：66、102、104、114、122、124、128、232、238、244、260、262和264组成的组的氨基酸序列，或者其中多肽包括具有在SEQ IDNO：66、102、104、114、122、124、128、232、238、244、260、262或264的任何一个中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列。

在一些实施方案中，可以进行制备奥美拉唑类似物化合物的该方法，其中硫化物前体式(I)化合物是2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑，并且式(II)化合物是(S)-雷贝拉唑，其以对映异构体过量生成。在此类实施方案中，可以进行该方法，其中多肽包括选自由SEQID NO：62、76、84、86、124、238、240、250、258、262和264组成的组的氨基酸序列，或者其中多肽包括具有在SEQ ID NO：62、76、84、86、124、238、240、250、258、262或264的任何一个中存在的相对于SEQ IDNO：2的一组氨基酸差异的氨基酸序列。

在一些实施方案中，可以进行制备奥美拉唑类似物化合物的该方法，其中硫化物前体式(I)化合物是2-((3-甲基-4-(2，2，2-三氟乙氧基)吡啶-2-基)甲硫基)-1H-苯并[d]咪唑，并且式(II)化合物是(R)-兰索拉唑，其以对映异构体过量生成。在此类实施方案中，可以进行该方法，其中多肽包括SEQ IDNO：6的氨基酸序列，或者其中多肽包括具有在SEQ ID NO：6中存在的相对于SEQ ID NO：2的一组氨基酸差异的氨基酸序列。

在一些实施方案中，所述方法在温度为10℃至50℃、特别是25℃至40℃的反应条件下进行。可以选择温度以最大化在较高温度下的反应速率，同时使酶活性保持足以有效转化底物至产物的持续时间。当使用较高温度时，可以选择具有增加的热稳定性的多肽来进行该方法。

在一些实施方案中，反应条件包括约8.5的pH至约10的pH。在一些实施方案中，反应条件是约8.5至约9的pH。该略碱性的条件限制了在低于约pH8.5下发生的产物化合物(2)的降解。在反应过程中，反应混合物的pH可以变化。通过在反应过程中加入酸或碱，可以使反应混合物的pH维持在希望的pH或希望的pH范围内。可选地，可以通过使用包含缓冲剂的水性溶剂来控制pH。适合维持希望的pH范围的缓冲液是本领域已知的，并且包括例如磷酸盐缓冲液、三乙醇胺缓冲液等。也可以使用缓冲和加酸或碱的组合。在一些实施方案中，反应条件包括约5至50mM的磷酸盐缓冲液浓度。在较低的磷酸盐缓冲液浓度下，显示NADPH具有更大的稳定性。

如上所述，本文描述的方法消耗分子氧，即O₂，其中氧原子被转移至硫化物以产生亚砜。在一些实施方案中，O₂溶解于反应溶液。通过将O₂气体直接喷射入反应溶液(例如，美国专利号6,478,964)和/或通过使O₂分压增加至高于大气压的压力，可以增加溶解O₂。在一些实施方案中，通过无气泡方法进行反应溶液的氧合作用。例如，跨PTFE膜以进行无气泡充气的氧质转移描述于Schneider等人，1995，Enzyme and MicrobialTechnology17(9)：839-847和EP0172478，其在此通过引用并入。

一般而言，辅因子在还原反应中使用。在所述方法中，辅因子与本公开的多肽组合作用。适合的辅因子包括但不限于NADP⁺(烟酰胺腺嘌呤二核苷酸磷酸)、NADPH(NADP⁺的还原形式)、NAD⁺(烟酰胺腺嘌呤二核苷酸)和NADH(NAD⁺的还原形式)。一般而言，将辅因子的还原形式添加至反应混合物。可以使用辅因子再生系统从氧化的NAD(P)⁺形式任选地再生还原的NAD(P)H形式。在该方法的一些实施方案中，使用辅因子再循环系统从反应中生成的NADP+/NAD+再生辅因子NADPH/NADH。

在该方法的一些实施方案中，可以使用任选的辅因子再循环系统从反应中生成的NADP+/NAD+再生辅因子NADPH/NADH。辅因子再生系统指参与还原辅因子的氧化形式的反应(例如，NADP⁺到NADPH)的一组反应物。通过酮底物的多肽还原被氧化的辅因子被辅因子再生系统以还原形式再生。辅因子再生系统包括化学计量的还原剂，所述还原剂是还原氢等同物的来源并且能够还原辅因子的氧化形式。辅因子再生系统还可以包括催化剂，例如，催化辅因子的氧化形式被还原剂还原的酶催化剂。分别从NAD+或NADP+再生NADH或NADPH的辅因子再生系统是本领域已知的并且可以用于本文所述的方法中。

可以利用的适宜的示例性辅因子再生系统包括但不限于葡萄糖和葡萄糖脱氢酶；甲酸和甲酸脱氢酶；葡萄糖-6-磷酸和葡萄糖-6-磷酸脱氢酶；醇(例如异丙醇)和酮还原酶/醇脱氢酶；亚磷酸和亚磷酸脱氢酶；分子氢和氢化酶；等。这些系统可以与作为辅因子的NADP⁺/NADPH或NAD⁺/NADH组合使用。使用氢化酶进行的电化学再生也可以用作辅因子再生系统。参见例如，美国专利第5,538,867号和第6,495,023号，二者在此通过引用并入。包括金属催化剂和还原剂(例如，分子氢或甲酸)的化学辅因子再生系统也是适合的。参见例如，PCT公布WO2000/053731，其在此通过引用并入。

在一些实施方案中，辅因子再循环系统可以包括葡萄糖脱氢酶(GDH)，其是催化D-葡萄糖和NAD⁺或NADP⁺分别转化为葡糖酸和NADH或NADPH的NAD⁺或NADP⁺依赖性酶。适用于实施本文所述方法的葡萄糖脱氢酶包括天然存在的葡萄糖脱氢酶以及非天然存在的葡萄糖脱氢酶。天然存在的葡萄糖脱氢酶编码基因已在文献中报道，例如枯草芽孢杆菌61297GDH基因，蜡状芽孢杆菌(B.cereus)ATCC14579和巨大芽孢杆菌(B.megaterium)。使用例如诱变、定向进化以及类似方法产生的非天然存在的葡萄糖脱氢酶提供于PCT公布WO2005/018579和美国公布号2005/0095619和2005/0153417。所有这些序列在此通过引用并入。

在一些实施方案中，辅因子再生系统可以包括甲酸脱氢酶，其是催化甲酸和NAD⁺或NADP⁺分别转化为二氧化碳和NADH或NADPH的NAD⁺或NADP⁺依赖性酶。适合在本文所述的单加氧酶反应中用作辅因子再生系统的甲酸脱氢酶包括天然存在的甲酸脱氢酶以及非天然存在的甲酸脱氢酶。适合的甲酸脱氢酶描述于PCT公布WO2005/018579。可以盐、通常碱盐(alkali salt)或铵盐(例如，HCO₂Na、KHCO₂NH₄等)的形式，以甲酸、通常甲酸水溶液的形式，或其混合物来提供甲酸。可以使用碱或缓冲液来提供希望的pH。

在一些实施方案中，辅因子再生系统可以包括亚磷酸脱氢酶，其催化亚磷酸和NAD⁺或NADP⁺分别转化为磷酸和NADH或NADPH。适合在本文所述的方法中用作辅因子再生系统的亚磷酸脱氢酶包括天然存在的亚磷酸脱氢酶以及非天然存在的亚磷酸脱氢酶。天然存在的亚磷酸脱氢酶包括来自施氏假单胞菌(Pseudomonas stutzeri)和粪产碱菌(Alcaligenes faecalis)的那些，而非天然存在的亚磷酸脱氢酶包括从其衍生的工程化亚磷酸脱氢酶。亚磷酸脱氢酶描述于Johannes等人，2005，Applied and EnvironmentalMicrobiology71(10)：5728-5734；Woodyer等人，2003，Biochemistry42(40)：11604-11614；Vrtis等人，2002，Angewandte Chemie41(17)：3257-3259；Johannes等人，2006，Biotechnology and BioengineeringVolume96(1)：18-26；和McLachlan等人，2008，Biotechnology andBioengineering99(2)：268-274。

在一些实施方案中，辅因子再生系统可以包括醇脱氢酶或酮还原酶，其是催化醇和NAD⁺或NADP⁺分别转化为醛或酮和NADH或NADPH的NAD⁺或NADP⁺依赖性酶。适合在本文所述的方法中用作辅因子再生系统的醇脱氢酶或酮还原酶包括天然存在的和非天然存在的醇脱氢酶和酮还原酶。天然存在的醇脱氢酶包括但不限于来自布氏热厌氧杆菌(Thermoanerobium brockii)、红串红球菌(Rhodococcus etythropolis)、酿酒酵母、高加索酸奶乳杆菌(Lactobacillus kefiri)、微小乳杆菌(Lactobacillus minor)和短乳杆菌(Lactobacillus brevis)的醇脱氢酶/酮还原酶，而非天然存在的醇脱氢酶/酮还原酶包括从其衍生的工程化醇脱氢酶/酮还原酶。在一些实施方案中，可以使用针对热稳定性和溶剂稳定性而工程化的非天然存在的醇脱氢酶/酮还原酶。此类醇脱氢酶/酮还原酶描述于专利公布US20080318295；20090093031；20090191605；US20090155863；和US20090162909；其全部在此通过引用并入。

适合的醇包括低级仲链烷醇和芳基-烃基甲醇。低级仲醇的实例包括异丙醇、2-丁醇、3-甲基-2-丁醇、2-戊醇、3-戊醇、3，3-二甲基-2-丁醇等。在一个实施方案中，仲醇是异丙醇。适合的芳基-烃基甲醇包括未取代的和取代的1-芳基乙醇。

在其中辅因子再循环系统产生挥发性产物例如从异丙醇产生丙酮的一些实施方案中，可以通过用非反应性气体喷射反应溶液或者通过施加真空以降低反应压力并除去气相中存在的挥发物来去除挥发性产物。非反应性气体是不与反应组分反应的任何气体。各种非反应性气体包括氮和稀有气体(例如，惰性气体)。在一些实施方案中，非反应性气体是氮气。例如，通过用氮气喷射反应溶液或者向反应溶液施加真空并通过丙酮阱例如冷凝器或其他冷阱从气相除去丙酮，可以除去由异丙醇氧化生成的丙酮。

在本文的实施方案中，可以纯化酶、用编码酶的基因转化的全细胞和/或此类细胞的细胞提取物和/或溶解产物的形式向反应混合物添加用于进行吡美拉唑至艾司奥美拉唑的转化的多肽和构成任选的辅因子再生系统的任何酶。编码本文公开的多肽和任选的辅因子再生酶的基因可以被分开转化入宿主细胞，或者被一起转化入相同的宿主细胞。可以多种不同形式使用经编码工程化酮还原酶和/或任选的辅因子再生酶的基因转化的全细胞或其细胞提取物和/或溶解产物，包括固体(例如，冻干的、喷雾干燥的等等)或半固体(例如，粗制糊)。

一般在水性溶剂(例如，水、缓冲液和盐)中进行本文描述的方法。在一些实施方案中，使用水性溶剂，包括水和/或共溶剂系统。共溶剂可以减少可能影响过程的速率和可量测性(scalability)的聚集物的形成。当底物载量是75g/L或更高时，希望使用共溶剂。适合的共溶剂包括：MeOH、EtOH、异丙醇(IPA)、丙酮、甲苯、MeCN、甲基叔丁基醚(MTBE)、N-甲基-2-吡咯烷酮(NMP)、二甲基乙酰胺(DMAc)、二甲基甲酰胺(DMF)、丙二醇、聚乙二醇(PEG)、四甲基脲、N-乙基吡咯烷酮、四乙二醇二甲醚、1，3-二甲基-3，4，5，6-四氢-2(1H)-嘧啶酮(DMPU)、DMIU、六甲基磷酰胺(HMPA)和二甲亚砜(DMSO)。共溶剂的选择可以基于评价因素的组合，所述因素包括化合物溶解度、化合物稳定性、反应/过程安全性、毒性、溶剂在产品(例如，API产品)中的允许水平；共溶剂在预防产物聚集中的效力，和单加氧酶对共溶剂的稳定性。NMP是特别适合100g/L底物载量反应的共溶剂。

反应物的添加顺序不是关键的。可以同时向溶剂(例如，单相溶剂，双相水性共溶剂系统，等等)一起添加反应物，或者可选地，可以分开添加一些反应物并在不同的时间点一起添加一些反应物。

在本文方法中，一般允许反应进行直至获得在适合的反应条件下本文描述的多肽对化合物(1)基本上完全或接近完全的转化，以将化合物(1)转化为化合物(2b)。使用已知方法通过检测底物和/或产物，可以监测底物至产物的转化。适合的方法包括气相色谱、HPLC等。

实施例

在以下代表性实施例中举例说明本公开的各个特征和实施方案，这些代表性实施例旨在举例说明而不是限制性的。

实施例1：野生型环己酮单加氧酶(CHMO)基因的获取和表达载体的构建

利用标准的密码子优化，为在大肠杆菌中表达而设计来自不动杆菌NCIMB9871的野生型环己酮单加氧酶(CHMO)(SEQ ID NO：2)的编码基因，以产生SEQ ID NO：1的序列(标准密码子优化软件综述于例如“OPTIMIZER：a web server for optimizing the codon usage of DNA sequences(OPTIMIZER：用于优化DNA序列的密码子使用的web服务器)”Puigbò等人，Nucleic Acids Res.2007年7月；35(web服务器专刊)：W126-31.电子出版2007年4月16日)。使用由42个核苷酸构成的寡核苷酸合成优化基因，并克隆入表达载体pCK110900(描绘为美国专利申请公布20060195947的图3，其在此通过引用并入本文)，处于lac启动子控制下。pCK110900表达载体还包含P15a复制起点和氯霉素抗性基因。利用标准方法将所得质粒转化到大肠杆菌W3110中。

进行密码子优化的野生型CHMO基因的多轮定向进化，得到编码具有改善的酶性质的工程化CHMO多肽的变体多核苷酸。将这些变体多核苷酸克隆入载体pCK110900，以根据以上针对野生型基因描述的相同程序在大肠杆菌W3110中表达。从定向进化得到的变体CHMO核苷酸和氨基酸序列列于在此通过引用并入的序列表中。表2A和2B(上文)以及以下实施例的表6、7、13、16和19中总结了这些工程化CHMO多肽的氨基酸残基差异和改变的酶性质。

实施例2：工程化CHMO多肽的测定程序

(a)高通量活性测定

本实施例说明了96孔板形式的高通量分光光度测定，其用于测定工程化CHMO多肽(如表2A中)的相对活性。该测定还可用于实时监测使用这些多肽的生物过程。

在96孔板的孔中，将底物吡美拉唑(6g/L)、SEQ ID NO：268的酮还原酶(辅因子再循环酶)(1g/L)和辅因子(0.1g/L)溶解于含有8％异丙醇(IPA)、2％丙酮和15％N-甲基-2-吡咯烷酮(NMP)的300μL体积的缓冲液(pH9.0)。然后将含有工程化CHMO多肽的定向进化样品或生物过程样品的细胞溶解产物(总反应体积的3.3％)添加至反应混合物。板还含有提供背景反应水平的阴性对照孔(空载体)。

在环境温度下振摇反应24h(或者可利用0.5h来实时监测生物过程)，然后通过用3.33体积的乙腈稀释来猝灭，并充分搅拌而得到总共4.3倍的稀释液。在4000rpm下离心猝灭的混合物10min。然后将猝灭混合物的样品转移至空的96孔板。通过高效液相色谱(HPLC)在250nm下利用色谱方法分析板。以下表5总结了测定条件。

表5：HTP活性测定条件

化学品/试剂	量
		底物	6g/L
辅因子(NADP+)	0.1g/L
		辅酶(SEQ ID NO：268的酮还原酶)	1g/L
缓冲液(磷酸钾，pH9.0)	75％(v/v)
		共底物(IPA)	10％(v/v)
共溶剂(丙酮)	2％(v/v)
		共溶剂(NMP)	15％(v/v)
细胞溶解产物体积	3.3％
		反应体积	300μL
反应温度	环境温度

基于从HPLC色谱获得的底物和产物峰面积，如下计算底物吡美拉唑至艾司奥美拉唑产物的转化百分比：转化百分比＝产物峰*相对响应因子/(底物峰面积*响应因子+产物峰*响应因子)*100％。

(b)热稳定性测定.

在96孔板的孔中，将底物吡美拉唑(6g/L)、SEQ ID NO：268的酮还原酶(KRED)(1g/L)和NADP⁺(0.1g/L)溶解于含有8％IPA和2％丙酮的300μL体积的缓冲液(pH9.0)。然后将含有工程化CHMO多肽的定向进化或生物过程样品的细胞溶解产物(总反应体积的5％)添加至反应混合物。板还含有提供背景反应水平的阴性对照孔(空载体)。

在32℃下振摇反应24h，然后通过用3.33体积的乙腈稀释来猝灭，并充分搅拌而得到总共4.3倍的稀释液。在4000rpm下离心猝灭的混合物10min。然后将猝灭混合物的样品转移至空的96孔板。通过HPLC在250nm下利用色谱方法分析板。

(c)砜生成的测定

在96孔板的孔中，将产物艾司奥美拉唑(1g/L)、KRED(1g/L)和NADP⁺(0.1g/L)溶解于含有8％IPA和2％丙酮的300μL体积的缓冲液(pH9.0)。然后将含有工程化CHMO多肽的定向进化或生物过程样品的细胞溶解产物(总反应体积的60％)添加至反应混合物。板还含有提供背景反应水平的阴性对照孔(空载体)。

基于从HPLC色谱获得的艾司奥美拉唑和砜副产物峰面积，如下计算艾司奥美拉唑产物至化合物(3)的砜副产物的转化百分比：转化百分比＝砜峰面积*响应因子/(艾司奥美拉唑峰面积*响应因子+砜峰面积*相对响应因子)*100。

(d)对映异构体过量(％ee)的测定

在96孔板的孔中，将底物吡美拉唑(2g/L)、KRED(1g/L)和NADP⁺(0.1g/L)溶解于含有8％IPA和2％丙酮的300μL体积的缓冲液(pH9.0)。然后将含有工程化CHMO多肽的定向进化或生物过程样品的细胞溶解产物(总反应体积的60％)添加至反应混合物。板还含有提供背景反应水平的阴性对照(空载体)。

基于从HPLC色谱获得的(S)-奥美拉唑和(R)-奥美拉唑峰面积，如下计算艾司奥美拉唑(或(S)-奥美拉唑)产物的百分比对映异构体过量：对映异构体过量＝(R)-奥美拉唑峰面积-(S)-奥美拉唑峰面积/((R)-奥美拉唑峰面积+(S)-奥美拉唑峰面积)X100％。然而，按照贯穿本公开的习惯，将有利于(S)-对映异构体的％ee值指定为正，而将有利于(R)-对映异构体的％ee值指定为负。

实施例3：工程化CHMO多肽摇瓶粉末的生成

本实施例说明了工程化CHMO多肽的“摇瓶粉末”的生成和测定。摇瓶粉末包括大约30％总蛋白，并因此提供了与实施例2的高通量测定中使用的细胞溶解产物相比更加纯化的工程化酶制品。

将包含编码目标工程化CHMO基因的质粒的大肠杆菌的单个微生物菌落接种到含30μg/mL氯霉素和1％葡萄糖的50mL Luria Bertani肉汤中。细胞在培养箱中在30℃生长过夜(至少16小时)，伴随以250rpm摇动。将培养物稀释到1升烧瓶中含30μg/mL氯霉素的250mL Terrific肉汤(12g/L细菌用胰蛋白胨，24g/L酵母提取物，4ml/L甘油，65mM磷酸钾，pH7.0，1mM MgSO4)中，至600nm的光密度(OD₆₀₀)为0.2，并允许在30℃生长。当培养物的OD₆₀₀是0.6至0.8时，通过加入异丙基βD-硫代半乳糖苷(IPTG)至终浓度1mM来诱导CHMO基因的表达，然后继续培养过夜(至少16小时)。

通过离心(5000rpm、15min、4℃)收集细胞，弃掉上清液。将细胞沉淀重悬在等体积的冷的(4℃)25mM磷酸盐缓冲液(pH9.0)中，如上述通过离心收集。将洗涤的细胞重悬在2体积的冷的磷酸盐缓冲液中，以12,000psi在保持4℃下通过French Press两次。通过离心(9000rpm、45min.、4℃)去除细胞碎片。收集澄清的溶解产物上清液，储存在-20℃。对冷冻的澄清溶解产物的冷冻干燥提供了CHMO多肽的干燥摇瓶粉末。可选地，细胞沉淀(洗涤前或洗涤后)可储存在4℃或-80℃。

如实施例2所述进行活性、砜副产物生成和热稳定性的测定，除了使用以下试剂/条件：1-10g/L单加氧酶的摇瓶粉末；10-100g/L吡美拉唑底物；1g/L KRED辅酶；0.2-0.5g/L NADP+辅因子；4％IPA；96％磷酸盐缓冲液(pH9)；反应温度：室温；反应时间：24h。下表6显示了示例性工程化CHMO多肽的摇瓶粉末制品的测定结果。

表6

实施例4：生成工程化CHMO多肽DSP粉末的发酵程序

本实施例说明工程化CHMO多肽的下游加工(“DSP”)粉末的生成和测定。DSP粉末包括大约80％总蛋白，并因此提供了与实施例2的高通量测定中使用的细胞溶解产物相比更加纯化的工程化酶制品。

使用6.0L生长培养基(0.88g/L硫酸铵、0.98g/L柠檬酸钠；12.5g/L磷酸氢二钾三水合物、6.25g/L磷酸二氢钾、3.33g/L Tastone-154酵母提取物、0.083g/L柠檬酸铁铵、和含2g/L氯化钙二水合物、2.2g/L硫酸锌七水合物、0.5g/L硫酸锰一水合物、1g/L硫酸亚铜七水合物、0.1g/L钼酸铵四水合物和0.02g/L四硼酸钠的8.3ml/L微量元素溶液)，在通气、搅动的15L发酵罐中，在分批阶段37℃和表达阶段30℃下，进行工程化CHMO多肽的小型发酵。向发酵罐接种包含编码目标工程化CHMO基因的质粒的大肠杆菌W3110的指数晚期培养物(如实施例3所述在摇瓶中培养)至初始OD₆₀₀为0.5至2.0。以500-1500rpm搅动发酵罐，以2.0-30L/min向发酵容器供应空气以保持55％饱和或更大的溶解氧水平。通过加入28％v/v氢氧化铵保持培养物的pH在7.0。通过加入含500g/L右旋糖一水合物、12g/L氯化铵和5.1g/L硫酸镁七水合物的进料溶液来维持培养物的生长。进料体积达到1000mL后，通过加入IPTG至终浓度1mM来诱导CHMO多肽的表达，发酵继续另外18小时。然后将培养物冷却到4℃并保持在这一温度，直到收获。通过在4℃以6600G离心30分钟来收集细胞。收获的细胞直接用于下游回收工艺，或在-20℃储存，直到这样使用。

在4℃将细胞沉淀以每体积的湿细胞糊重悬于2体积的25mM磷酸钠缓冲液(pH7.0)中。在溶解之前，必须使用1N氢氧化钠将pH调节至7.0。利用12000psig的压力将悬液通过配备有两阶段匀浆阀组件的匀浆器来从细胞释放细胞内CHMO多肽。破裂后立即将细胞匀浆收集于保持在冰浴中的冷却容器中。必须使用1N氢氧化钠将溶解产物pH调节至7.0。向溶解产物加入11％w/v聚乙烯亚胺(pH7.2)溶液，至终浓度为0.5％w/v，并在25℃至30℃的温度下以600rpm搅拌30分钟。通过在标准实验室离心机中在4-8℃以6600G离心60分钟来澄清所得的悬液。倾析的澄清上清液被冷却至4-8℃，并使用1N NaOH调节pH至7.0，然后在10℃下利用分子量截留为30kD的纤维素超滤膜浓缩10倍。将最终浓缩物分配到陪替氏培养皿，在-20℃冷冻并冻干48h以提供DSP粉末。然后将DSP粉末转移至聚乙烯袋并在-20℃储存。

总体如实施例2所述进行活性、砜副产物生成和热稳定性的测定，除了使用以下试剂/条件：1-10g/L工程化CHMO多肽的DSP粉末；10-100g/L吡美拉唑底物；1g/L KRED辅酶；0.2-0.5g/L NADP+辅因子；4％IPA；96％磷酸盐缓冲液(pH9)；反应温度：室温；反应时间：24h。下表7显示了工程化CHMO多肽的DSP粉末制品的测定结果。

表7

实施例5：使用工程化CHMO多肽生成艾司奥美拉唑的方法

本实施例说明了通过使吡美拉唑底物化合物(1)与本公开的工程化CHMO多肽(例如，SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264或266的多肽)接触来以对映异构体过量制备艾司奥美拉唑((S)-5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑或“化合物(2b)”)的两种底物载量的方法和产物后处理(workup)程序。

a.使用33g/L吡美拉唑底物载量的示例性方法

在25mL管形瓶中，将360mg吡美拉唑悬浮于8.52mL缓冲溶液(50mM磷酸盐缓冲液，pH＝9.0)。连续添加0.48mL IPA、1mL缓冲溶液中的6mg NADP、1mL缓冲溶液中的12mg KRED和1mL缓冲溶液中的12mg工程化CHMO多肽(SEQ ID NO：100)。在室温(～25℃)下、氧气氛中以700rpm搅拌反应溶液，通过HPLC定期监测转化。24h之后，获得底物至艾司奥美拉唑产物的99％转化，仅存在0.9％砜副产物。艾司奥美拉唑产物是以99.83％ee过量的S-对映异构体。

b.使用100g/L吡美拉唑底物载量的示例性方法

反应：在配有顶置式搅拌的圆底烧瓶中，将7.5g吡美拉唑底物悬浮于47.5mL缓冲溶液(50mM磷酸盐缓冲液，pH＝9.0)，并添加7.5mL NMP。在添加3mL IPA之前，使混合物脱气并用氧气填充4次。连续添加2mL缓冲溶液中的15mg NADP(0.2g/L)、10mL缓冲溶液中的75mg KRED(1g/L)和5mL缓冲溶液中的37.5mg工程化CHMO多肽(SEQ ID NO：124)(0.5g/L)。反应混合物为浆体，将其在室温(～25℃)下、氧气氛中以250rpm搅拌24h。通过HPLC定期监测底物至产物的转化。24h之后，23％的吡美拉唑底物被转化为艾司奥美拉唑。经69h的完整反应时间的过程，进一步5次添加作为固体的150mg(2g/L)工程化CHMO多肽、75mg(1g/L)KRED和15mg(0.2g/L)NADP，提供了99.6％的最终底物转化。

产物后处理：调节反应混合物的pH至pH＝7.9，搅拌下用75mL冷水(pH＝8)稀释浆体。在4℃搅拌混合物另外20min并过滤。用另外75mL冰冷水洗涤残余物以提供淡褐色滤饼作为产物。该产物在2-3mbar和40℃下干燥以提供7.7g(98％产率)的粗料。HPLC分析指示该粗料是97.8％纯的艾司奥美拉唑，仅有0.2％化合物(3)的砜副产物和1.5％吡美拉唑底物。艾司奥美拉唑产物是99.9％ee过量的S-对映异构体。

实施例6：使用工程化CHMO多肽以30g规模生成艾司奥美拉唑的方法

本实施例说明使用本公开的工程化CHMO多肽(例如，SEQ ID NO：8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156或158的多肽)，通过底物吡美拉唑的生物催化的转化，以30g规模以对映异构体过量制备艾司奥美拉唑的方法。

A.生物催化反应方案：向配有挡板和顶置式搅拌器、配有锚形搅拌器的1L多颈夹套反应容器装填30g吡美拉唑(来自Sinojie(HK)Ltd.)和1.5g艾司奥美拉唑“晶种”(在之前酶促反应中制备)的预混粉末，然后装填517mL0.05M磷酸钾，pH9.0(“缓冲溶液”)。在25℃下以150rpm搅拌该反应混合物10min以获得良好悬浮的浆体。将三通龙头连接至容器的颈。龙头配有2个填充了氧气的橡胶气球和用于在反应开始之前进行脱气步骤的真空管线。应用真空至容器(30mbar，5min内获得)，通过三通龙头向排空的烧瓶装填氧。该排空-气体-填充循环又被重复两次。然后在正氧压力下向反应容器依次装填以下：24mL IPA(HPLC级)；4mL缓冲溶液(pH9.0)中的60mg NADP；15mL缓冲溶液(pH9.0)中的300mg SEQ ID NO：268酮还原酶；40mL缓冲溶液(pH9.0)中的600mg CHMO SEQ ID NO：158；和1.2mL过氧化氢酶(经氯化钠和山梨糖醇稳定的黑曲霉过氧化氢酶在缓冲液中的溶液，标称活性25000ClU/g；可获自Sigma-Aldrich)。添加过氧化氢酶以中和可能在反应期间形成并不利地影响CHMO性能的过氧化物。在25℃下搅拌以上反应混合物48小时。如以下表8所示，搅拌速率在开始时是300rpm并逐步增加。通过从反应混合物定期取～0.3mL样品来跟踪反应过程，样品在10mL MeOH中被猝灭并使用以下所述HPLC分析。为了追踪过程，将添加CHMO的时间设为t＝0。在反应过程期间也取样并测试过氧化物，但没有检测到过氧化物。以下表8总结了基于样品分析的过程中反应概况。从反应的动力学概况可以估计36小时内＞99％的％转化。在可比较的运行中，在32h之后测定～98％的转化(转化速率在反应后期恒定为～1％/h)，并且在所述实验设置下的重复运行中可以获得类似的动力学概况。开始后48小时，反应混合物用于如下所述的产物后处理和分离。

表8：反应概况

B.反应后处理方案：向反应混合物添加165mL(5.5体积)甲基异丁基酮(“MIBK”)，将夹套温度调节至48℃，并在300rpm搅拌混合物。25min之后，内部温度显示45℃，浆体完全溶解。停止混合，20min之后分离相。下部水层略微浑浊，呈淡黄色。上部有机层表现为乳液并且颜色是棕色。排出并收集水层。随后排出有机层并施加真空经Celite热过滤(夹套滤器温度被调节至45℃)。将水相转移回加热的容器，并添加45mL MIBK。在300rpm搅拌30min，20min内的相分离提供了下部略微浑浊的淡黄色水层和上部淡褐色有机层。排出并弃掉水层。排出并收集有机层。在完成第一次过滤(相同的滤器和Celite层)之后，使溶液经Celite热过滤。合并有机相并与过滤期间形成的水层分离。弃掉水层并将有机相转移回容器。将温度调节至15℃，在150rpm搅拌溶液1小时。产物从溶液缓慢沉淀以产生稠浆体。进一步降低温度至10℃，在150rpm搅拌浆体30分钟。最后，将温度调节至5℃，在150rpm搅拌混合物30分钟。为了增加浆体的流度，以30mL份(每5min)缓慢添加240ml正庚烷。排出并滤除浆体。25℃下真空烘箱(3-10mm hg)中干燥滤饼72h。分离共计28.7g艾司奥美拉唑(87％分离产率)，HPLC分析化学纯度为99％。

C.用于测定反应％转化的非手性HPLC分析：从反应容器取出20μL样品，添加至Eppendorf管，添加1.98mL甲醇(100倍稀释)。离心样品3min，将100μL澄清上清液添加至具有玻璃插入物的HPLC管并进行HPLC分析。如果不低于1g/L，稀释需要在线性范围内。表9显示了用于测定转化百分比的HPLC参数。

表9

D.用于测定手性分析的手性HPLC：从反应取20μL样品并蒸发至几乎干燥以除去丙酮(残余丙酮对手性柱固定相是有害的)。将残余物溶解于1mL乙腈(HPLC级)并进行离心。取100μL澄清上清液样品，放入HPLC管。溶液用900μL乙腈稀释并进行HPLC分析。应该调节稀释剂的量以使艾司奥美拉唑的最大峰高维持在低于800mAU。表10显示了用于测定手性纯度的手性HPLC参数。

表10

基于手性HPLC峰面积，如下计算以％ee表示的对映异构体选择性：

实施例7：使用工程化CHMO多肽制备其他拉唑化合物

本实施例说明使用表2A和2B中公开的示例性工程化CHMO多肽将结构类似于吡美拉唑的硫化物底物转化为其相应的(R)-和/或(S)-拉唑化合物，它们是(R)-和(S)-奥美拉唑的结构类似物。在本实施例中，根据活性筛选工程化CHMO多肽，并且鉴定工程化CHMO多肽可用于制备拉唑化合物(S)-泮托拉唑、(S)-替那拉唑、(S)-雷贝拉唑以及(R)-和(S)-兰索拉唑，如以下图解4、5、6和7所示。

A.S-泮托拉唑的制备

本实施例说明使用本公开的工程化CHMO多肽进行硫化物前体底物(和吡美拉唑类似物)5-(二氟甲氧基)-2-((3，4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑至拉唑产物化合物(S)-泮托拉唑的对映异构体过量的生物催化转化，如图解4所示。

图解4

细胞溶解产物的制备：向各自含有表达目标工程化CHMO的大肠杆菌的细胞沉淀的深孔板的孔以每孔600μL添加细胞溶解产物储液(1mg/mL溶菌酶，0.5mg/mL PMBS，100mM磷酸盐缓冲液，pH10)。以高速度剧烈摇动板1-5min以分散细胞沉淀，然后在室温下缓慢摇动1.5-2小时。然后在4℃以4000rpm离心板20分钟。

反应：向深孔板的每个孔添加10μL泮托拉唑-前体硫化物底物化合物(5-(二氟甲氧基)-2-((3，4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑)储液(1.4g/L的IPA溶液)。然后还向深孔板的每个孔添加180μL再循环系统储液(0.2g/L NADP+辅因子和1g/L KRED的100mM磷酸盐溶液，pH10)。通过向深孔板的每个孔添加10μL细胞溶解产物溶液而起始反应。在180℃密封板3.0s，然后在室温以缓慢速度摇动2h。

分析：向每个孔添加400μL乙腈以猝灭反应。在180℃下再次密封板2.0s，然后在室温摇动15-20min，并在4000rpm离心20min(25℃)。将猝灭溶液的200μL上清液转移至浅孔圆底板，该板在180℃密封3s，然后摇动10min。立即使用圆底板中的这些样品，根据以下表11和12中所示的参数和条件进行非手性和/或手性HPLC分析。如果没有立即使用HPLC分析板，则将样品储存在-4℃。

表11：非手性HPLC参数和条件

表12：手性HPLC参数和条件

结果：如下表13所示，以下工程化CHMO多肽能够以对映异构体过量将前体硫化物底物转化为约20％至99％(S)-泮托拉唑产物：70、72、76、78、80、82、84、86、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、126、128、130、228、232、244、248、256、258、260、262和264。这代表相对于SEQ ID NO：2的野生型CHMO，该底物至该产物转化百分比的约60倍至310倍的提高。SEQ ID NO：236的工程化CHMO多肽能够分别以86％和89％的高对映异构体过量将前体硫化物底物转化为20％和27％的相反对映异构体(R)-泮托拉唑。

表13

B.S-替那拉唑的制备

本实施例说明使用本公开的工程化CHMO多肽进行硫化物前体底物(和吡美拉唑类似物)5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4，5-b]吡啶至拉唑产物化合物(S)-替那拉唑的对映异构体过量的生物催化转化，如图解5所示。

图解5

反应：向深孔板的每个孔添加10μL替那拉唑-前体硫化物底物化合物(5-甲氧基-2-((4-甲氧基-3，5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4，5-b]吡啶)储液(0.65g/L的IPA溶液)。然后还向深孔板的每个孔添加180μL再循环系统储液(0.2g/L NADP+辅因子和1g/L KRED的100mM磷酸盐溶液，pH10)。通过向深孔板的每个孔添加10μL细胞溶解产物溶液而起始反应。在180℃密封板3.0s，然后在室温以缓慢速度摇动2h。

分析：向每个孔添加400μL乙腈以猝灭反应。在180℃下再次密封板2.0s，然后在室温摇动15-20min，并在4000rpm离心20min(25℃)。对于非手性HPLC样品制备，将猝灭溶液的200μL上清液转移至浅孔圆底板，该板在180℃密封3s，然后摇动10min。立即使用圆底板中的这些样品，根据以下表14中所示的参数和条件进行非手性HPLC分析。如果没有立即使用HPLC分析板，则将样品储存在-4℃。

表14：非手性HPLC参数和条件(用于测定％转化)

对于手性HPLC样品制备，将浅孔圆底板中猝灭溶液的200μL上清液在真空烘箱中完全蒸发，向每个孔添加200μL MTBE。该板在180℃密封2s并摇动10min，然后立即根据以下表15中所示的参数和条件进行手性HPLC分析。如果没有立即使用HPLC分析板，则将样品储存在-4℃。

表15：手性HPLC参数和条件

结果：如下表16所示，以下工程化CHMO多肽能够以100％ee将前体硫化物底物转化为约10％至60％(S)-替那拉唑产物：66、102、104、114、122、124、128、232、238、244、260、262和264。这代表相对于SEQ IDNO：2的野生型CHMO，该底物至该产物转化百分比的约10倍至60倍的提高。

表16

C.S-雷贝拉唑的制备

本实施例说明使用本公开的工程化CHMO多肽进行硫化物前体底物(和吡美拉唑类似物)2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑至拉唑产物化合物(S)-雷贝拉唑的对映异构体过量的生物催化转化，如图解6所示。

图解6

反应：向深孔板的每个孔添加10μL雷贝拉唑-前体硫化物底物化合物(2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑)储液(1.9gL的IPA溶液)。然后还向深孔板的每个孔添加180μL再循环系统储液(0.2g/L NADP+辅因子和1g/L KRED的100mM磷酸盐溶液，pH10)。通过向深孔板的每个孔添加10μL细胞溶解产物溶液而起始反应。在180℃密封板3.0s，然后在室温以缓慢速度摇动2h。

分析：向每个孔添加400μL乙腈以猝灭反应。在180℃下再次密封板2.0s，然后在室温摇动15-20min，并在4000rpm离心20min(25℃)。对于非手性HPLC样品制备，将猝灭溶液的200μL上清液转移至浅孔圆底板，该板在180℃密封3s，然后摇动10min。立即使用圆底板中的这些样品，根据以下表17中所示的参数和条件进行非手性HPLC分析。如果没有立即使用HPLC分析板，则将样品储存在-4℃。

表17：非手性HPLC参数和条件

对于手性HPLC样品制备，将浅孔圆底板中猝灭溶液的200μL上清液在真空烘箱中完全蒸发，向每个孔添加200μL MTBE。该板在180℃密封2s并摇动10min，然后立即根据以下表18中所示的参数和条件进行手性HPLC分析。如果没有立即使用HPLC分析板，则将样品储存在-4℃。

表18：手性HPLC参数和条件

结果：SEQ ID NO：2的野生型CHMO的使用没有导致2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑至(R)-或(S)-雷贝拉唑的任何可检测的转化。如下表19所示，以下工程化CHMO多肽能够将前体硫化物底物转化为约1％至10％(S)-雷贝拉唑产物：62、76、84、86、124、238、240、250、258、262和264。具有最高％转化的两种多肽(SEQ ID NO：76和86)的手性HPLC分析显示，它们以100％ee生成(S)-雷贝拉唑产物。

表19

SEQ ID NO：	％转化	S-异构体的％ee
			61/62	1.56
75/76	3.25	100
			83/84	2.19
85/86	10.27	100
			123/124	1.49
237/238	1.89
			239/240	1.20
249/250	1.81
			257/258	3.06
261/262	3.06
			263/264	2.43

D.S-兰索拉唑或R-兰索拉唑(“右旋兰索拉唑”)的制备

本实施例说明使用本公开的工程化CHMO多肽进行硫化物前体底物(和吡美拉唑类似物)2-((3-甲基-4-(2，2，2-三氟乙氧基)吡啶-2-基)甲硫基)-1H-苯并[d]咪唑至拉唑产物化合物(S)-兰索拉唑或(R)-兰索拉唑的对映异构体过量的生物催化转化，如图解7所示。

图解7

使用本公开的某些工程化CHMO多肽进行使用硫化物前体底物2-((3-甲基-4-(2，2，2-三氟乙氧基)吡啶-2-基)甲硫基)-1H-苯并[d]咪唑的筛选测定。以下表20中提供了测定条件和有关％转化和产物对映异构体选择性的结果。

表20

如表20所示，SEQ ID NO：22、72和80的工程化CHMO多肽能够以对映异构体过量将兰索拉唑硫化物前体底物转化为(S)-兰索拉唑。SEQ IDNO：72和80的多肽能够分别以大约72％ee和92％ee的对映异构体选择性达到27％和19％转化。尽管SEQ ID NO：6的工程化CHMO多肽仅显示1％转化，但证实它对于(R)-兰索拉唑产物是选择性的。还发现SEQ ID NO：6的多肽以98.9％对映异构体过量转化吡美拉唑，以利于(R))-奥美拉唑产物超过(S)-奥美拉唑产物(参见表2A)。可以合理预期，SEQ ID NO：6的工程化多肽的进一步定向进化将得到能够以高对映异构体过量(例如，98％或更大)和高得多的％转化(例如，20％或更大)生成(R)-兰索拉唑产物的工程化CHMO多肽。

在本申请中引用的所有出版物、专利、专利申请和其他文件出于所有目的均通过引用以其整体并入本文，其程度如同分别指出将每个单独的出版物、专利、专利申请或其他文件出于所有目的通过引用并入一样。

尽管已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的主旨和范围。

Claims

1.一种非天然存在的单加氧酶，所述单加氧酶由能够以大于SEQ IDNO:2单加氧酶速率的1.5倍的速率将化合物(1):5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑转化为化合物(2):5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑的多肽组成，并且所述多肽氨基酸序列与SEQ ID NO:2相比具有至少下列残基差异：对应于X326的位置的残基是C；对应于X386的位置的残基是S；对应于X432的位置的残基是A或L；对应于X433的位置的残基是A；对应于X435的位置的残基是S；并且对应于X490的位置的残基是R，其中所述氨基酸序列由选自由以下组成的组的序列组成：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264和266。

2.如权利要求1所述的非天然存在的单加氧酶，其中所述多肽能够以对映异构体过量将化合物(1)转化为化合物(2b):(S)-5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑。

3.一种多核苷酸，所述多核苷酸编码权利要求1至2任一项所述的多肽。

4.如权利要求3所述的多核苷酸，所述多核苷酸由选自由以下组成的组的核苷酸序列组成：SEQ ID NO:7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263和265。

5.一种表达载体，所述表达载体包括权利要求3所述的多核苷酸。

6.如权利要求5所述的表达载体，所述表达载体包括控制序列。

7.一种宿主细胞，包括权利要求3的多核苷酸或权利要求5的表达载体。

8.如权利要求7所述的宿主细胞，所述宿主细胞是大肠杆菌(E.coli)。

9.一种将结构式(I)的底物化合物转化为式(II)的产物化合物的方法：

其中，

Ar¹是任选取代的芳基或杂芳基环；

Ar²是与咪唑环稠合的任选取代的环烃基、杂环烃基、芳基或杂芳基环；

所述方法包括：

在适合的反应条件下，在辅因子存在下，使式(I)化合物与权利要求1至2任一项的多肽接触，以将所述底物转化为式(II)的产物化合物；

其中式(I)的化合物选自5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑、5-(二氟甲氧基)-2-((3,4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑、5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4,5-b]吡啶、2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑和2-((3-甲基-4-(2,2,2-三氟乙氧基)吡啶-2-基)甲硫基)-1H-苯并[d]咪唑；式(II)的化合物选自5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑、(S)-泮托拉唑、(S)-替那拉唑、(S)-雷贝拉唑和(S)-兰索拉唑；

并且其中：

当所述式(I)的化合物是5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑时，所述式(II)的化合物是5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑，并且所述多肽是如权利要求1中所定义的；

当所述式(I)的化合物是5-(二氟甲氧基)-2-((3,4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑时，所述式(II)的化合物是(S)-泮托拉唑，并且所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:70、72、76、78、80、82、84、86、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、126、128、130、228、232、244、248、256、258、260、262和264；

当所述式(I)的化合物是5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4,5-b]吡啶时，所述式(II)的化合物是(S)-替那拉唑，并且所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:66、102、104、114、122、124、128、232、238、244、260、262和264；

当所述式(I)的化合物是2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑时，所述式(II)的化合物是(S)-雷贝拉唑，并且所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:62、76、84、86、124、238、240、250、258、262和264；以及

当所述式(I)的化合物是2-((3-甲基-4-(2,2,2-三氟乙氧基)吡啶-2-基)甲硫基)-1H-苯并[d]咪唑时，所述式(II)的化合物是(S)-兰索拉唑，并且所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:22、72和80。

10.如权利要求9所述的方法，其中所述辅因子是NADPH。

11.如权利要求9所述的方法，其中式(I)化合物是化合物(1):5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑并且式(II)的产物化合物是化合物(2):5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑，其中化合物(1)以大于SEQ ID NO:2单加氧酶速率的1.5倍的速率被转化为化合物(2)。

12.如权利要求9所述的方法，其中式(I)化合物是化合物(1)并且式(II)的产物化合物是化合物(2b):(S)-5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲基亚硫酰基)-1H-苯并[d]咪唑，其中化合物(2b)以对映异构体过量形成。

13.如权利要求12所述的方法，其中化合物(2b)以至少90％对映异构体过量生成，其中所述多肽由选自由以下组成的组的氨基酸序列组成：SEQID NO:10、12、14、16、18、20、22、24、26、28、30、32、44、46、48、50、86、88、90、94、96、98和100。

14.如权利要求9所述的方法，其中式(I)化合物是5-(二氟甲氧基)-2-((3,4-二甲氧基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑，并且式(II)化合物是以对映异构体过量生成的(S)-泮托拉唑，其中所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:70、72、76、78、80、82、84、86、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、126、128、130、228、232、244、248、256、258、260、262和264。

15.如权利要求9所述的方法，其中式(I)化合物是5-甲氧基-2-((4-甲氧基-3,5-二甲基吡啶-2-基)甲硫基)-1H-咪唑并[4,5-b]吡啶，并且式(II)化合物是以对映异构体过量生成的(S)-替那拉唑，其中所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:66、102、104、114、122、124、128、232、238、244、260、262和264。

16.如权利要求9所述的方法，其中式(I)化合物是2-((4-(3-甲氧基丙氧基)-3-甲基吡啶-2-基)甲硫基)-1H-苯并[d]咪唑，并且式(II)化合物是以对映异构体过量生成的(S)-雷贝拉唑，其中所述多肽由选自由以下组成的组的氨基酸序列组成：SEQ ID NO:62、76、84、86、124、238、240、250、258、262和264。

17.如权利要求9所述的方法，其中式(I)化合物是2-((3-甲基-4-(2,2,2-三氟乙氧基)吡啶-2-基)甲硫基)-1H-苯并[d]咪唑，并且式(II)化合物是以对映异构体过量生成的(S)-兰索拉唑，其中所述多肽由选自以下组成的组的氨基酸序列组成：SEQ ID NO:22、72和80。

18.如权利要求9至17任一项所述的方法，其中所述反应条件包括25℃至40℃的温度。

19.如权利要求9至17任一项所述的方法，其中所述反应条件包括8.5的pH至10的pH。

20.如权利要求9至17任一项所述的方法，其中所述反应条件包括大于大气压的O₂分压。

21.如权利要求9至17任一项所述的方法，其中所述反应条件包括浓度5mM至50mM的磷酸盐。

22.如权利要求9和11-17任一项所述的方法，其中所述辅因子是NADPH或NADH，并且所述方法还包括利用辅因子再生系统将从NADH或NADPH生成的NAD+或NADP+分别转化为NADH或NADPH。

23.如权利要求22所述的方法，其中所述辅因子再生系统选自酮还原酶和醇、或葡萄糖脱氢酶和葡萄糖。

24.如权利要求23所述的方法，其中所述辅因子再生系统是酮还原酶和醇，其中所述醇是仲醇。

25.如权利要求24所述的方法，其中所述仲醇是异丙醇。

26.如权利要求9-17和23-25任一项所述的方法，所述方法在共溶剂存在下进行。

27.如权利要求18所述的方法，其中所述方法在共溶剂存在下进行。

28.如权利要求19所述的方法，其中所述方法在共溶剂存在下进行。

29.如权利要求20所述的方法，其中所述方法在共溶剂存在下进行。

30.如权利要求21所述的方法，其中所述方法在共溶剂存在下进行。

31.如权利要求22所述的方法，其中所述方法在共溶剂存在下进行。

32.如权利要求26所述的方法，其中所述共溶剂选自甲醇、乙醇、异丙醇(IPA)、丙酮、甲苯、MeCN、甲基叔丁基醚(MTBE)、N-甲基-2-吡咯烷酮(NMP)、二甲基乙酰胺(DMAc)、二甲基甲酰胺(DMF)、丙二醇、聚乙二醇(PEG)、四甲基脲、N-乙基吡咯烷酮、四乙二醇二甲醚、1,3-二甲基-3,4,5,6-四氢-2(1H)-嘧啶酮(DMPU)、DMIU、六甲基磷酰胺(HMPA)和二甲亚砜(DMSO)。

33.如权利要求27-31中任一项所述的方法，其中所述共溶剂选自甲醇、乙醇、异丙醇(IPA)、丙酮、甲苯、MeCN、甲基叔丁基醚(MTBE)、N-甲基-2-吡咯烷酮(NMP)、二甲基乙酰胺(DMAc)、二甲基甲酰胺(DMF)、丙二醇、聚乙二醇(PEG)、四甲基脲、N-乙基吡咯烷酮、四乙二醇二甲醚、1,3-二甲基-3,4,5,6-四氢-2(1H)-嘧啶酮(DMPU)、DMIU、六甲基磷酰胺(HMPA)和二甲亚砜(DMSO)。