CN104428412A

CN104428412A - 用于化合物的羟基化的生物催化剂和方法

Info

Publication number: CN104428412A
Application number: CN201380036295.1A
Authority: CN
Inventors: 陈海滨; 荣贵·彭; 法比安·卡比罗尔; 阿努潘·苟呵尔; 涛·李; 杰弗里·C·穆尔; 玛蒂娜·金塔纳尔-欧德罗; 宏·杨; 史蒂文·J·科利尔; 德里克·史密斯
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2012-05-08
Filing date: 2013-05-07
Publication date: 2015-03-18
Anticipated expiration: 2033-05-07
Also published as: WO2013169725A2; US10995349B2; SG11201407295YA; WO2013169725A3; US20170121744A1; US10731189B2; ES2712682T3; US20190323046A1; HUE042605T2; US20230227875A1; CN107699548B; US20150118719A1; EP2847327A2; EP2847327A4; US10370688B2; EP2847327B1; US20200325510A1; CN107699548A; US20210230654A1; DK2847327T3

Abstract

本公开内容提供了用于产生羟基化化合物的工程化脯氨酸羟化酶多肽、编码该工程化脯氨酸羟化酶的多核苷酸、能够表达该工程化脯氨酸羟化酶的宿主细胞、以及使用该工程化脯氨酸羟化酶制备在产生活性药物试剂中有用的化合物的方法。本公开内容提供了工程化脯氨酸羟化酶生物催化剂、编码该生物催化剂的多核苷酸、它们的制备方法和使用这些工程化生物催化剂制备羟基化化合物的方法。

Description

用于化合物的羟基化的生物催化剂和方法

1.技术领域

本公开内容涉及用于化合物的羟基化的生物催化剂。

2.对序列表、表格或计算机程序的引用

序列表的正式文本作为ASCII格式文本文件与说明书经EFS-Web同时被提交，文件名为“CX2-095WO2_ST25.txt”，创建日期为2013年5月2日，且大小为433,542字节。经EFS-Web提交的序列表为本说明书的一部分，并且通过引用以其整体并入本文。

3.背景

因为脯氨酸的受约束的构象，碳环上具有官能团的脯氨酸衍生物是用于合成药物化合物的有用合成砌块(building block)。一种此类衍生物，羟基化的脯氨酸，是用于合成以下各种治疗性化合物的起始材料：包括碳青霉烯类抗生素(参见，例如，Altamura等人，1995,J Med Chem.38(21):4244-56)、血管紧张素转换酶抑制剂、蛋白酶抑制剂(参见，例如，Chen等人，2002,JOrg Chem.67(8):2730-3；Chen等人，2006,J Med Chem.49(3):995-1005)、核酸类似物(Efimov等人，2006,Nucleic Acids Res.34(8):2247-2257)、异戊二烯基转移酶抑制剂(O’Connell等人，2000,Chem Pharm Bull.48(5):740-742)、以及药物文库构建(Vergnon等人，2004,J Comb Chem.6(1):91-8；Remuzon P.，1996,Tetrahedron 52:13803-13835)。同样地，脯氨酸同系物L-哌可酸的羟基化的衍生物还用作用于药物化合物的合成砌块。例如，羟基哌可酸是β-内酰胺酶抑制剂(参见，例如，WO2009091856、WO2010126820和US20110046102)和TNF-α转化酶(TACE)抑制剂(Levatic等人，2002,Bioorg Medicinal Chem Lett.12(10):1387-1390)的合成中的中间体。

羟基脯氨酸可从天然原料，诸如植物材料和胶原水解物获得。羟基脯氨酸还可化学合成，诸如从起始材料烯丙基溴(allyl bromide)和二乙基乙酰氨基丙二酸(Kyun Lee等人，1973,Bull.Chem.Soc.Japan,46:2924)、D-谷氨酸(Eguchi等人，1974,Bull.Chem.Soc.Japan,47:1704-08)、乙二醛和草酰乙酸(Ramaswamy等人，1977,J.Org.Chem.42(21):3440-3443)、和β-丙氨酸(Sinha等人，2000,Proc.ECSOC-4,The Fourth International ElectronicConference on Synthetic Organic Chemistry,ISBN 3-906980-05-7)。

羟基哌可酸还可从植物和其他天然原料获得(参见，例如，Romeo等人，1983,Phytochemistry 22(7):1615–1617；Fowden,L.,1958,Biochem J.70(4):629-33；Clark-Lewis和Mortimer,1959,Nature 184(Suppl 16):1234-5)。羟基哌可酸的化学合成描述于以下中：Callens等人，2010,Bulletin desSociétés Bulletin des Sociétés Chimiques Belges 91(8):713-723；Adams等人，1996,Chem.Commun.3:349-350；Botman等人，2004,Organic Letters6(26):4941-4944；Cohen等人，1956,Science 123(3202):842-843；Beyerman等人，1959,Recueil des Travaux Chimiques des Pays-Bas,78(9):648-658；Marin等人，2004,J Org Chem.69(1):130-41；Kumar等人，2005,J OrgChem.70(1):360-3；Liang等人，2005,J Org Chem.70(24):10182-5；Kalamkar等人，2008,J Org Chem.73(9):3619-22；Chiou等人，2010,J OrgChem.75(5):1748-51；Lemire等人，2010,J Org Chem.75(6):2077-80；以及Angelique等人，2000,Tetrahedron Lett.41(36):7033-7036。

从天然来源的分离受到原材料的可用性限制，需要从大量的背景污染物纯化，且缺少某些期望的非对映体。化学合成方法可需要复杂的步骤，难以扩大规模至工业规模水平，并且由于形成多个羟基化产品需要另外的纯化步骤。

用于制备羟基化脯氨酸的另一种方法使用脯氨酸羟化酶，其是2-氧代戊二酸(2-oxoglutarate)依赖性双加氧酶，利用2-氧代戊二酸(α-酮戊二酸(α-ketoglutarate))和O₂作为共底物且亚铁离子作为辅因子(参见，例如，Klein等人，2011,Adv Synth.Catal.353:1375-1383；美国专利号5364775；以及Shibasaki等人，1999,Appl Environ Microbiol.65(9):4028-4031)。不像特定识别前胶原和相关肽中的肽基脯氨酸的脯氨酰羟化酶，脯氨酸羟化酶能够将游离脯氨酸转化为羟基脯氨酸。产生顺式-3-、顺式-4-或反式-4-羟基脯氨酸的几种微生物酶是已知的(参见，例如，美国专利号5962292、美国专利号5963254、美国专利号5854040、WO2009139365、和EP2290065)，且产生反式-3-羟基脯氨酸的酶已在真菌Glarea lozoyensis的提取物中被确定。许多脯氨酸羟化酶发现于细菌中，其中脯氨酸羟化酶与肽类抗生素的生物合成相关。顺式-4-脯氨酸羟化酶还显示在将L-哌可酸(即，(2S)-哌啶-2-羧酸)转化为顺式-5-羟基哌可酸(即，(2S,5S)-5-羟基哌啶-2-羧酸)中的活性；Klein等人同上)。已证明了使用这些酶用于制备5-羟基哌可酸的体外转化，但发现分离的脯氨酸羟化酶在反应条件下变性并具有相对低的比活性，致使体外应用对于商业应用不可行(Klein等人，同上)。虽然表达克隆的脯氨酸羟化酶的重组全细胞更适合于大规模工业生产过程，然而全细胞的应用限制反应条件，诸如高底物浓度的变化；约束可与全细胞一起使用的底物类型为可渗透至细胞的那些；并导致必须从最终产物中分离的不期望的副产物。另外，体内系统可需要非最佳或成本有效的限定的生长培养基，因为应用从蛋白水解物制备的富生长培养基包含游离脯氨酸，当靶向脯氨酸之外的底物时其可以是竞争性抑制剂。期望用于合成脯氨酸和脯氨酸类似物、以及其他化合物的羟基化形式的替代方法，其可容易地扩大规模并导致基本上纯的立体异构产物。

4.概述

本公开内容提供了工程化脯氨酸羟化酶生物催化剂、编码该生物催化剂的多核苷酸、其制备的方法、以及使用这些工程化生物催化剂制备羟基化化合物的工艺过程。本公开内容的脯氨酸羟化酶已工程化为相对于固氮革兰氏阴性细菌苜蓿中华根瘤菌(Sinorhizobium meliloti)的天然存在的顺式-4-脯氨酸羟化酶(SEQ ID NO:2)具有改进的特性。工程化脯氨酸羟化酶的改进的生物催化剂特性包括，活性、区域选择性(regioselectivity)、底物耐受性、和稳定性，以及其他。还发现工程化脯氨酸羟化酶羟化各种底物化合物，包括将(2S)-哌啶-2-羧酸(即，L-哌可酸)选择性转化为(2S,5S)-5-羟基哌啶-2-羧酸(即，顺式-5-羟基哌可酸)。具有改进特性的工程化酶具有与天然存在的脯氨酸羟化酶相比的一个或更多个残基差异，其中残基差异出现在影响前述酶特性的残基位置上。

因此，在一方面，本公开内容提供了具有脯氨酸羟化酶活性的工程化多肽，其中该多肽包括具有与SEQ ID NO:2的至少80％同一性和与SEQ IDNO:2相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。

在一些实施方案中，在残基位置X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271上的残基差异可选自X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。以下详述提供了对可用于制备具有期望的改进的生物催化特性的工程化脯氨酸羟化酶的残基差异的选择的指导。

在一些实施方案中，工程化脯氨酸羟化酶多肽具有包括选自以下的至少一个特征组合的氨基酸序列：(a)X103L和X166Q；(b)X52P和X255Y；(c)X4E/L/S和X115A；(d)X25R和X58A；(e)X29A和X166T/Q/L；(f)X115H/D/G和X121F；(g)X3S、X103L、和X166Q；(h)X103L、X131Y/F、和X166T/Q/L；(i)X26T、X103L和X166T/Q/L；(j)X25R、X66Q、X92V和X115E；(k)X25R、X66Q、X92V、X103L、X115E、和X166Q；以及(l)X3S、X25R、X66Q、X92V、X103L、X115E、和X166Q。

如以上提到的，具有脯氨酸羟化酶活性的工程化多肽还能够以与天然存在的酶相比改进的特性将底物化合物(2)，(2S)-哌啶-2-羧酸转化为产物化合物(1)，(2S,5S)-5-羟基哌啶，如方案1中所示，

方案1

在一些实施方案中，工程化多肽能够以天然存在的酶的活性的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、或10倍或更多的活性，并且将底物化合物(2)转化为大于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的非对映体过量于(2S,5R)-5-羟基哌啶-2-羧酸的产物化合物(1)。

在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽还展现用于形成过量于其他区域异构体(regioisomer)，例如方案1中显示为化合物(1a)的(2S,3R)-3-羟基哌啶-2-羧酸，的(2S,5S)-5-羟基哌啶-2-羧酸的增强的区域选择性。因此，在一些实施方案中，工程化脯氨酸羟化酶能够将底物化合物(2)转化为过量于产物化合物(1a)的产物化合物(1)，其中形成的产物化合物(1)相比于产物化合物(1a)的比是至少1.5、2、3、4、5或6或更多。在一些实施方案中，具有用于形成过量于产物化合物(1a)的产物化合物(1)的增强的选择性的工程化脯氨酸羟化酶包括具有以下特征的一个或更多个的氨基酸序列：X103L、X115E、X131Y和X166Q，特别是特征X103L和X166Q的组合。

在一些实施方案中，具有改进特性的工程化多肽具有包括选自由以下组成的组的序列的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在另一个方面，本公开内容提供了编码具有改进特性的工程化脯氨酸羟化酶多肽的多核苷酸。示例性多核苷酸序列提供于通过引用并入本文的序列表中并且包括SEQ ID NO:7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、和227。

在另外的方面，本公开内容还提供了编码包括野生型脯氨酸羟化酶的氨基酸序列(SEQ ID NO:2)的多肽的密码子优化的多核苷酸。在一些实施方案中，密码子优化的多核苷酸具有与编码脯氨酸羧化酶的天然存在的多核苷酸相比在细菌宿主细胞中的增加的表达。在一些实施方案中，密码子优化的多核苷酸可具有与SEQ ID NO:1、3、或5的密码子优化的核酸序列的至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性，SEQ ID NO:1、3、或5分别编码SEQ ID NO:2、4、或6的相同多肽序列。与天然存在的多核苷酸序列相比，SEQ ID NO:1、3、或5的密码子优化的序列可提高编码的野生型脯氨酸羟化酶的表达为至少1.2倍、1.5倍或2倍或更大。

在另一个方面，本公开内容的多核苷酸可掺入进表达载体和宿主细胞用于表达多核苷酸和相应编码的脯氨酸羟化酶多肽。同样地，在一些实施方案中，本公开内容提供了通过在适合于表达工程化多肽的条件下培养包含能够表达本公开内容的脯氨酸羟化酶的多核苷酸或表达载体的宿主细胞制备脯氨酸羟化酶多肽的方法。在一些实施方案中，制备脯氨酸羟化酶的方法可包括分离表达的多肽的另外步骤。

在一些实施方案中，本公开内容还提供了制造工程化脯氨酸羟化酶多肽的方法，其中该方法可包括：(a)合成编码以下多肽的多核苷酸，所述多肽包括选自以下的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，以及具有与SEQ ID NO:2相比在选自以下的残基位置上的一个或更多个残基差异：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271，以及(b)表达由多核苷酸编码的脯氨酸羟化酶多肽。如以上提到的，在位置X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271上的残基差异选自X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。如在详细描述中进一步提供的，在合成多核苷酸期间可掺入的另外的变异，以制备在表达的氨基酸序列中具有相应差异的工程化脯氨酸羟化酶。

在另一个方面，工程化脯氨酸羟化酶多肽可用于制备各种羟基化的化合物，诸如羟基化的脯氨酸或羟基化的哌啶-2-羧酸的方法中。因此，在一些实施方案中，工程化脯氨酸羟化酶多肽可用于将式(II)的底物化合物转化为式(I)的产物化合物的方法中，如下所示：

其中

L选自由以下组成的组：键(bond)、(C₁-C₄)亚烷基(alkylene)和(C₂-C₄)亚烯基(alkenylene)；

R¹选自由以下组成的组：羟基、氨基、(C₁-C₆)烷氧基、芳氧基、(C₁-C₆)烷基硫代和芳基硫代；

R²和R³各自独立地选自由以下组成的组：氢和任选地取代的(C₁-C₆)烷基、(C₂-C₆)烯基、和(C₂-C₆)炔基；

R⁴选自由以下组成的组：任选地取代的(C₁-C₆)烷基、(C₂-C₆)烯基、(C₂-C₆)炔基、芳基、杂芳基、环烷基、杂环烃基；或R⁴与R¹或R²之一一起是(C₁-C₅)亚烷基或(C₂-C₅)亚烯基并形成包含氮原子的5-至8-元杂环，其中所述环任选地被1至4个独立地选择的R⁶基团取代；

R⁵是氢或与L的碳原子形成环氧化物的键；

R⁶的每次出现独立地选自由以下组成的组：卤代、(C₁-C₆)烷基、和(C₁-C₆)烷氧基；以及

代表与L的碳原子形成双键的任选的键；

条件是

(i)当R⁴不与R²或R3之一形成环时，或当R⁴与R²或R³之一形成包含氮原子的5-元杂环时，则L是亚甲基；

(ii)当R⁴与R²或R³之一形成包含氮原子的6-元杂环时，则L是键或亚乙基(ethylene)；以及

(iii)当R⁵是与L的碳原子形成环氧化物的键时，则R⁴与R²或R³之一形成包含氮原子的杂环且L是(C₁-C₄)亚烷基或(C₂-C₄)亚烯基。

在一些实施方案中，工程化脯氨酸羟化酶可用于将结构式(IIa)的环化合物转化为结构式(Ia)的羟基化产物化合物；

其中

其中Q选自由以下组成的组：(C₁-C₅)亚烷基和(C₂-C₅)亚烯基；

L选自由以下组成的组：键、(C₁-C₄)亚烷基和(C₂-C₄)亚烯基；

R²选自由以下组成的组：氢和任选地取代的(C₁-C₆)烷基、(C₂-C₆)烯基、和(C₂-C₆)炔基；

R⁵是氢，或与L的碳原子形成环氧化物的直接键；

R⁶的每次出现选自由以下组成的组：卤代、(C₁-C₆)烷基、和(C₁-C₆)烷氧基；

q是从0至4的整数；以及

-----代表与L的碳原子形成双键的任选的键；

其中Q+L的环碳原子的和是从2至5的整数；

条件是

(i)当Q+L的环碳原子的和是2时，则L是亚甲基；以及

(ii)当Q+L的环碳原子的和是3时，则L是键或亚乙基。

在一些实施方案中，工程化脯氨酸羟化酶可用于将结构式(IV)的底物化合物转化为结构式(III)的羟基化产物化合物；

其中

其中R¹选自由以下组成的组：羟基、氨基、(C₁-C₆)烷氧基、芳氧基、(C₁-C₆)烷基硫代和芳基硫代；

R²和R³各自独立地选自由以下组成的组：氢和任选地取代的(C₁-C₆)烷基、(C₂-C₆)烯基、和(C₂-C₆)炔基；以及

R⁴选自由以下组成的组：任选地取代的烷基、烯基、炔基、芳基、杂芳基、环烷基、和杂环烃基。

在一些实施方案中，工程化脯氨酸羟化酶可用于将结构式(VI)的底物化合物转化为结构式(V)的羟基化产物化合物；

其中

R²和R³独立地选自由以下组成的组：氢和任选地取代的(C₁-C₆)烷基、(C₂-C₆)烯基、和(C₂-C₆)炔基；

R⁶的每次出现独立地选自由以下组成的组：卤代、(C₁-C₆)烷基、和(C₁-C₆)烷氧基；

R⁷选自由以下组成的组：氢、卤代、和任选取代的(C₁-C₆)烷基和(C₁-C₆)烷氧基；或R⁷与R²或R³之一一起形成包含氮原子的5-至7-元杂环；

q是从0至4的整数；以及

-----代表形成芳环的任选的双键。

使用工程化脯氨酸羟化酶的以上羟基化反应在适当的反应条件下在共底物(例如，α-酮戊二酸)、二价过渡金属(例如，Fe⁺²)、和分子氧(即，O₂)的存在下来进行。适当的反应条件可包括共底物、二价过渡金属、分子氧的范围以及其他参数，诸如还原剂(例如，抗坏血酸)浓度、清洁剂浓度、pH、温度、缓冲液、溶剂系统、底物载量、多肽载量、压力、和反应时间的范围。在一些实施方案中，可在其中工程化脯氨酸羟化酶被固定在固体支持物上时进行羟基化反应。

在一些实施方案中，适当的反应条件可包括以下：(a)以约5g/L至30g/L的底物载量；(b)约0.1g/L至10g/L的工程化多肽；(c)约19g/L(0.13M)至57g/L(0.39M)的α-酮戊二酸；(d)约14g/L(0.08M)至63g/L(0.36M)抗坏血酸；(e)约1.5g/L(3.8mM)至4.5g/L(11.5mM)的FeSO₄；(f)约6至7的pH；(g)约20℃至40℃的温度；以及(h)2-24h的反应时间。在一些实施方案中，适当的反应条件包括以约3L/h的速度用O₂对反应溶液的强制通气。

在一些实施方案中，适当的反应条件可包括以下：(a)以约10g/L至100g/L的底物载量；(b)约1g/L至约50g/L的工程化多肽；(c)以底物化合物的约1至2摩尔当量的α-酮戊二酸；(d)以底物化合物的约0.25至0.75摩尔当量的抗坏血酸；(e)约0.5mM至约12mM的FeSO₄；(f)约6至8的pH；(g)约20℃至40℃的温度；以及(h)6至120h的反应时间。在一些实施方案中，适当的反应条件包括以约2L/h至约5L/h的速度用O₂对反应溶液的强制通气。

关于选择工程化脯氨酸羟化酶、制备生物催化剂、选择酶底物、以及进行方法的参数的指导被进一步描述于以下的详述中。

5.详述

除非上下文另外清楚地指明，否则如本说明书和所附的权利要求书中使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数指示物。因此，例如，提及“一种多肽”包括多于一种多肽。

类似地，“包括(comprise)”、“包括(comprises)”、“包括(comprising)”、“包括(include)”、“包括(includes)”、和“包括(including)”是可互换的，且不意图为限制性的。

还应理解的是，当各个实施方案的描述使用术语“包括(comprising)”时，本领域技术人员将理解，在一些特定情况下，实施方案可替代地利用措辞“基本上由…组成”或“由…组成”来描述。

应理解的是，上述的一般说明和以下详述两者都只是示例性和说明性的，而不是限制本公开内容。

本文所用的章节标题仅用于组织目的，且不应当被解释为限制所描述的主题。

5.1缩写

用于遗传编码的氨基酸的缩写是常规的，并如下：

氨基酸	三字母缩写	单字母缩写
			丙氨酸	Ala	A
精氨酸	Arg	R
			天冬酰胺	Asn	N
天冬氨酸	Asp	D
			半胱氨酸	Cys	C
谷氨酸	Glu	E
			谷氨酰胺	Gln	Q
甘氨酸	Gly	G
			组氨酸	HIS	H
异亮氨酸	Ile	I
			亮氨酸	Leu	L
赖氨酸	Lys	K

甲硫氨酸	Met	M
			苯丙氨酸	Phe	F
脯氨酸	Pro	P
			丝氨酸	Ser	S
苏氨酸	Thr	T
			色氨酸	Trp	W
酪氨酸	Tyr	Y
			缬氨酸	Val	V

当使用三字母缩写时，除非前面明确加有“L”或“D”或从使用缩写的上下文明显，否则氨基酸可为关于α-碳(Cα)成L-构型或D-构型。例如，“Ala”表示丙氨酸，而没有指明关于α-碳的构型，但“D-Ala”与“L-Ala”分别表示D-丙氨酸与L-丙氨酸。当使用单字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，而小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸而“a”表示D-丙氨酸。当多肽序列被呈现为一串单字母或三字母缩写(或其混合)时，根据通常惯例，序列以氨基(N)至羧基(C)方向呈现。

用于遗传编码的核苷的缩写是常规的，并且是如下：腺苷(A)；鸟苷(G)；胞苷(C)；胸苷(T)；以及尿苷(U)。除非特别描绘，否则缩写的核苷可为核糖核苷或2’-脱氧核糖核苷。核苷可以单个计(on an individual basis)或以聚集体计(on an aggregate basis)被指定为核糖核苷或2’-脱氧核糖核苷。当核酸序列被呈现为一串单字母缩写时，根据通常惯例，序列以5’至3’方向呈现，且没有显示磷酸。

5.2定义

关于本公开内容，除非另外具体指明，否则本文的说明书中使用的技术术语和科学术语将具有本领域普通技术人员通常理解的含义。因此，以下术语意为具有以下含义：

“蛋白”、“多肽”和“肽”在本文中可互换使用，表示通过酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(例如，糖基化、磷酸化、脂化、肉豆蔻化(myristilation)、泛素化等等)。包括在这一定义中的是D-氨基酸和L-氨基酸，以及D-氨基酸和L-氨基酸的混合物。

“多核苷酸”或“核酸”是指共价地连接在一起的两个或更多个核苷。多核苷酸可完全由核糖核苷酸(即，RNA)组成，完全由2’脱氧核糖核苷酸(即，DNA)组成或由核糖核苷酸和2’脱氧核糖核苷酸的混合物组成。尽管核苷将通常通过标准磷酸二酯键合连接在一起，但多核苷酸可包括一个或更多个非标准的键合。多核苷酸可以是单链的或双链的，或可包括单链区和双链区两者。此外，虽然多核苷酸将通常由天然存在的编码核碱基(即，腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶)组成，但其可包括一个或更多个修饰的和/或合成的核碱基，诸如，例如，肌苷、黄嘌呤、次黄嘌呤等。优选地，这种修饰的或合成的核碱基将为编码核碱基。

“脯氨酸羟化酶”是指具有在共底物α-酮戊二酸和分子氧的存在下将游离脯氨酸转化为羟基脯氨酸的酶促能力的多肽，如以下示例的：

应理解的是，脯氨酸羟化酶不限于与脯氨酸的前述反应，而可羟化其他底物，例如哌可酸。如本文所用的脯氨酸羟化酶包括天然存在的(野生型)脯氨酸羟化酶以及由人工操作产生的非天然存在的工程化多肽。

脯氨酸羟化酶的“共底物”是指α-酮戊二酸和可在羟基化脯氨酸和脯氨酸底物类似物中代替α-酮戊二酸的共底物类似物。共底物类似物包括，例如，而不限于，2-氧代己二酸(参见，例如，Majamaa等人，1985,Biochem.J.229:127-133)。

“编码序列”是指编码蛋白的氨基酸序列的核酸(例如，基因)的那部分。

“天然存在的”或“野生型”是指天然发现的形式。例如，天然存在的或野生型多肽或多核苷酸序列是生物体中存在的序列，其可从天然来源分离且未通过人为操纵而被有意识地修改。

当关于例如细胞、核酸或多肽使用时，“重组的”或“工程化的”或“非天然存在的”指如下材料或与该材料的自然或天然形式相应的材料：已经以自然界中本来不存在的方式被修饰或与其相同但由合成的材料和/或通过使用重组技术操作产生或衍生。非限制性实例包括，表达在细胞的天然(非重组的)形式中未发现的基因或表达本来以不同的水平被表达的天然基因的重组细胞以及其他。

“序列同一性的百分比”和“同源性百分比”在本文可互换使用以指多核苷酸以及多肽之间的对比，并通过跨比较窗比较两条最佳比对的序列来确定，其中多核苷酸或多肽序列在比较窗中的部分与参考序列相比可以包括添加或缺失(即，空位)，以用于两条序列的最佳比对。百分比可以通过如下计算：确定两个序列中出现相同的核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目，并将结果乘以100以得到序列同一性的百分比。可选地，百分比可以通过如下计算：确定两个序列中出现相同的核酸碱基或氨基酸残基或者核酸碱基或氨基酸残基与空位对齐的位置的数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目并将结果乘以100以得到序列同一性的百分比。本领域的技术人员理解，存在许多可用于比对两个序列的已建立的算法。用于比较的最佳序列比对可如下进行，例如，通过Smith和Waterman，1981，Adv.Appl.Math.2:482的局部同源性算法，通过Needleman和Wunsch，1970，J.Mol.Biol.48:443的同源性比对算法，通过Pearson和Lipman，1988,Proc.Natl.Acad.Sci.USA 85:2444的相似度检索方法，通过这些算法的计算机化实现(在GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA)，或通过目测(通常参见，CurrentProtocols in Molecular Biology,F.M.Ausubel等人编著,Current Protocols,ajoint venture between Greene Publishing Associates,Inc.和John Wiley&Sons,Inc.,(1995增刊)(Ausubel))。适合用于确定序列同一性和序列相似性百分比的算法的实例是BLAST和BLAST 2.0算法，其被分别描述于Altschul等人,1990,J.Mol.Biol.215:403-410以及Altschul等人,1977,Nucleic Acids Res.3389-3402中。用于进行BLAST分析的软件为通过美国国家生物技术信息中心网站公共可获得的。这一算法包括首先通过识别查询序列(query sequence)中具有长度W的短字来确定高评分序列对(HSP)，当其与数据库序列中相同长度的字比对时，所述短字匹配或满足某个正值阈值评分T。T被称为邻近字评分阈值(Altschul等人，如上述)。这些最初的邻近字匹配(word hit)用作启动检索的种子以找到包括它们的更长的HSP。然后字击中沿着每个序列的两个方向延伸到累积比对评分不能增加的程度。对于核苷酸序列，累积评分使用参数M(用于一对匹配残基的奖励评分；总是>0)和N(用于错配残基的惩罚评分；总是<0)来计算。对于氨基酸序列，使用评分矩阵以计算累积评分。当发生以下情况时字匹配在每个方向的延伸停止：累积比对评分从其最大获得的值下降了量X；由于一个或更多个负评分残基比对的累积，累积评分变成零或以下；或达到任一序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列)使用11的字长(W)、10的期望值(E)、M＝5、N＝-4、以及两个链的比较作为缺省值。对于氨基酸序列，BLASTP程序使用3的字长(W)、10的期望值(E)，和BLOSUM62评分矩阵作为缺省值(参见Henikoff和Henikoff,1989,Proc Natl Acad Sci USA 89:10915)。序列比对与％序列同一性的示例性确定可使用GCG Wisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序，使用提供的缺省参数。

“参考序列”是指用作序列比较的基础的确定序列。参考序列可以是更大序列的子集，例如，全长基因或多肽序列的区段。通常，参考序列为至少20个核苷酸或氨基酸残基的长度，至少25个残基的长度，至少50个残基的长度，或核酸或多肽的全长。因为两种多核苷酸或多肽可以各自(1)包括两个序列之间相似的序列(即，完整序列的一部分)，且(2)还可包括在两种序列之间不同的序列，所以两种(或更多种)多核苷酸或多肽之间的序列比较通常通过在“比较窗”内比较两种多核苷酸或多肽的序列以确定和比较具有序列相似性的局部区域来进行。在一些实施方案中，“参考序列”可基于基本氨基酸序列(primary amino acid sequence)，其中参考序列为可在基本序列中具有一个或更多个变化的序列。

“比较窗”是指至少约20个连续核苷酸位置或氨基酸残基的概念性片段，其中序列可与至少20个连续的核苷酸或氨基酸的参考序列进行比较，并且其中序列在比较窗中的部分与用于两个序列的最佳比对的参考序列(其不包含添加或缺失)相比，可以包括20％或更少的添加或缺失(即，空位)。比较窗可以比20个连续的残基更长，并任选地包括30、40、50、100或更长的窗。

“基本同一性”指以下的多核苷酸或多肽序列，在至少20个残基位置的比较窗内，经常在至少30-50个残基的比较窗内，其与参考序列相比具有至少80％序列同一性、至少85％同一性和89％至95％序列同一性、更通常至少99％序列同一性，其中序列同一性百分比通过在比较窗内比较参考序列与包括总计参考序列的20％或更少的缺失或添加的序列来计算。在应用于多肽的特定的实施方案中，术语“基本同一性”指当最佳比对时，如通过程序GAP或BESTFIT使用缺省空位权重，两种多肽序列共有至少80％的序列同一性，优选地至少89％的序列同一性，至少95％的序列同一性或更多(例如99％的序列同一性)。优选地，不相同的残基位置通过保守的氨基酸取代而不同。

当在给定的氨基酸或多核苷酸序列编号的上下文中使用时，“对应于”、“关于”或“相对于”指当给定的氨基酸或多核苷酸序列与指定的参考序列相比时，参考序列的残基编号。换言之，给定的聚合物的残基数目或残基位置关于参考序列被指定，而不是通过给定的氨基酸或多核苷酸序列内残基的实际数字位置被指定。例如，给定的氨基酸序列，如工程化脯氨酸羟化酶的氨基酸序列，可以通过引入空位以优化两个序列之间的残基匹配而与参考序列比对。在这些情况中，虽然存在空位，给定的氨基酸或多核苷酸序列中残基的编号是关于与其比对的参考序列作出的。

“氨基酸差异”或“残基差异”是指在多肽序列的位置上的氨基酸残基相对于参考序列中相应位置上的氨基酸残基的变化。在某些情况下，残基差异还称为多肽序列的“特征”。氨基酸差异的位置通常在本文中称为“Xn”，其中n是指残基差异所基于的参考序列中的相应位置。例如，“与SEQ ID NO:2相比在位置X103上的残基差异”是指相应于SEQ ID NO:2的位置103的多肽位置上的氨基酸残基的变化。因此，如果SEQ ID NO:2的参考多肽在位置103上具有异亮氨酸，那么“与SEQ ID NO:2相比在位置X103上的残基差异”指在相应于SEQ ID NO:2的位置103的多肽位置上的异亮氨酸以外的任何残基的氨基酸置换。在本文的大多数情况下，位置上的特定氨基酸残基差异表示为“XnY”，其中“Xn”指定如上所述的相应位置，且“Y”是工程化多肽中发现的氨基酸的单字母标识符(即，与参考多肽相比的不同残基)。在一些实施方案中，当多于一个氨基酸可出现在指定残基位置中时，备选的氨基酸可以形式XnY/Z列出，其中Y和Z表示替代的氨基酸残基，或呈现为“Xn”后跟指定的残基的列表。在一些情况下(例如，在表2A、2B、2C、2D和2E中)，本公开内容还提供了由常规表示法“AnB”表示的特定氨基酸差异，其中A是参考序列中残基的单字母标识符，“n”是参考序列中的残基位置的编号，且B是工程化多肽的序列中的残基置换的单字母标识符。本公开内容包括包含一个或更多个氨基酸差异的工程化多肽序列，所述氨基酸差异包括保守和非保守氨基酸置换中的任一个/或两个。

“保守氨基酸置换”指用具有相似侧链的不同残基置换残基，并且因此，通常涉及用在氨基酸的相同或相似定义类别内的氨基酸置换多肽中的氨基酸。通过示例的方式而非限制，具有脂族侧链的氨基酸可被另一个脂族氨基酸置换，例如，丙氨酸、缬氨酸、亮氨酸和异亮氨酸；具有羟基侧链的氨基酸被具有羟基侧链的另一个氨基酸置换，例如，丝氨酸和苏氨酸；具有芳香族侧链的氨基酸被具有芳香族侧链的另一个氨基酸置换，例如，苯丙氨酸、酪氨酸、色氨酸和组氨酸；具有碱性侧链的氨基酸被具有碱性侧链的另一个氨基酸置换，例如，赖氨酸和精氨酸；具有酸性侧链的氨基酸被具有酸性侧链的另一个氨基酸置换，例如，天冬氨酸或谷氨酸；且疏水性氨基酸或亲水性氨基酸分别被另一个疏水性氨基酸或亲水性氨基酸置换。示例性保守置换被提供在下面的表1中。

表1

“非保守置换”是指用具有显著差异侧链性质的氨基酸置换多肽中的氨基酸。非保守置换可以利用定义组之间，而不是它们之内的氨基酸，并影响(a)置换的区域中肽骨架的结构(例如，脯氨酸置换为甘氨酸)(b)电荷或疏水性，或(c)侧链的体积。通过示例的方式而非限制，示例性的非保守置换可以是酸性氨基酸被碱性或脂族氨基酸置换；芳香族氨基酸被小氨基酸置换；以及亲水性氨基酸被疏水性氨基酸置换。

“缺失”是指通过从参考多肽去除一个或更多个氨基酸而对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多至组成参考酶的氨基酸总数的10％、或多至氨基酸总数的20％，同时保留酶活性和/或保留工程化脯氨酸羟基化酶的改进特性。缺失可以涉及多肽的内部和/或端部。在各个实施方案中，缺失可以包括连续的区段或可以是不连续的。

“插入”是指通过向参考多肽添加一个或更多个氨基酸而对多肽进行的修饰。在一些实施方案中，改进的工程化脯氨酸羟基化酶包括一个或更多个氨基酸插入天然存在的脯氨酸羟基化酶多肽，以及一个或更多个氨基酸插入其它改进的脯氨酸羟基化酶多肽。插入可以是在多肽的内部或到羧基或氨基末端。如本文所用的插入包括如本领域已知的融合蛋白。插入可以是氨基酸的连续区段或由参考多肽中的一个或更多个氨基酸分隔。

如本文所用的“片段”是指如下多肽：所述多肽具有氨基末端和/或羧基末端缺失，但其中剩余的氨基酸序列与该序列中相应位置相同。片段可以是至少14个氨基酸长、至少20个氨基酸长、至少50个氨基酸长或更长，以及多至全长脯氨酸羟基化酶多肽，例如SEQ ID NO:2的多肽或SEQ IDNO:34的工程化多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽与天然伴随其的其它污染物，例如，蛋白、脂质和多核苷酸基本上分离。该术语包括已从它们天然存在环境或表达系统(例如，宿主细胞或体外合成)中取出或纯化的多肽。改进的脯氨酸羟化酶可以存在于细胞内，存在于细胞培养基中，或以各种形式制备，诸如溶解产物或分离的制剂。因此，在一些实施方案中，改进的脯氨酸羟化酶可以是分离的多肽。

“基本上纯的多肽”是指如下组合物，在所述组合物中多肽物质是存在的优势物质(即，在摩尔基础或重量基础上，它比在该组合物中的任何其它个体大分子物质更丰富)，并且当目标物质构成存在的大分子物质的按摩尔或％重量计至少约50％时，一般是基本上纯化的组合物。一般而言，基本上纯的脯氨酸羟化酶组合物将构成该组合物中存在的所有大分子物质的按摩尔或％重量计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物质纯化至基本的均一性(即，通过常规检测方法不能在组合物中检测出污染物质)，其中组合物基本上由单一大分子物质组成。溶剂物质、小分子(<500道尔顿)、以及元素离子物质不被认为是大分子物质。在一些实施方案中，分离的改进的脯氨酸羟化酶多肽是基本上纯的多肽组合物。

“立体选择性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种立体异构体的形成，或立体选择性可以是完全的，其中只形成一种立体异构体。当立体异构体是对映体时，立体选择性被称为对映体选择性，即一种对映体在两种对映体的总和中的分数(通常被报告为百分比)。它在本领域通常可选择地被报告为(通常为百分比)对映体过量(e.e.)，其根据以下式计算：[主要对映体-次要对映体]/[主要对映体+次要对映体]。当立体异构体是非对映异构体时，立体选择性被称为非对映选择性，即一种非对映体在两种非对映体的混合物中的分数(通常被报告为百分比)，通常可选择地报告为非对映体过量(d.e.)。对映体过量和非对映体过量是立体异构体过量的类型。

“高立体选择性”是指能够以至少约85％立体异构体过量将底物例如化合物(2)转化为其对应的羟基化产物例如化合物(1)的化学或酶促反应。

“区域选择性”或“区域选择反应”是指其中相比于所有其他可能的方向，一个方向的成键或断键(bond making or breaking)优先地发生的反应。如果区别是彻底的，则反应可以是完全(100％)区域选择的，如果相比于其他位点上的反应产物在一个位点上的反应产物占优势，例如，相比于产物化合物(1a))优先形成产物化合物(1)，则基本上区域选择的(至少75％)，或部分区域选择的(x％)。

“改进的酶特性”是指相比于参考脯氨酸羟化酶表现出任何酶特性的改进的脯氨酸羟化酶多肽。对于本文描述的工程化脯氨酸羟化酶多肽，通常对野生型脯氨酸羟化酶进行比较，但是在一些实施方案中，参考脯氨酸羟化酶可以是另一工程化脯氨酸羟化酶。期望改进的酶特性包括，但不限于，酶活性(其可以底物的转化百分比的方式被表示)、热稳定性、溶剂稳定性、pH活性特征、辅因子需求、对抑制剂的耐受性(例如，底物或产物抑制)、和立体选择性。

“增加的酶活性”是指工程化脯氨酸羟化酶多肽的改进特性，其可被表示为与参考脯氨酸羟化酶相比，比活性(例如，产生的产物/时间/重量蛋白)的增加，或底物至产物的转化百分比(例如，在指定的时间段使用指定量的脯氨酸羟化酶，起始量的底物至产物的转化百分比)的增加。确定酶活性的示例性方法被提供于实施例中。可影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的改变可导致增加的酶活性。酶活性的改进可以是从相应的野生型脯氨酸羟化酶的酶活性的约1.2倍，到相比于天然存在的脯氨酸羟化酶或从其衍生脯氨酸羟化酶多肽的另一种工程化脯氨酸羟化酶的多达2倍、5倍、10倍、20倍、25倍、50倍或更大的酶活性。脯氨酸羟化酶活性可通过标准测定中的任何一个来测量，诸如通过监测反应物或产物的分光光度法性质中的变化。在一些实施方案中，产生的产物的量可以通过高效液相色谱法(HPLC)分离结合诸如o-酞二醛(OPA)或丹磺酰氯衍生化后的UV吸光度或荧光检测来测量。使用确定的酶制剂、在设定条件下的确定的测定、和一种或更多种确定的底物进行酶活性的比较，如本文进一步详细地描述的。通常，当比较溶解产物时，细胞的数目和测定的蛋白的量是确定的，并使用相同的表达系统和相同的宿主细胞以将由宿主细胞产生的和溶解产物中存在的酶的量的变化最小化。

“转化(conversion)”是指底物至相应的产物的酶促转化。“转化百分比”是指在指定条件下一段时间内被转化为产物的底物的百分比。因此，脯氨酸羟化酶多肽的“酶活性”或“活性”可表示为底物至产物的“转化百分比”。

“热稳定的”是指与野生型酶相比，脯氨酸羟化酶多肽在暴露于高温(例如，40℃-80℃)持续一段时间(例如，0.5-24h)之后维持相似活性(例如，大于60％至80％)。

“溶剂稳定的”指与野生型酶相比，脯氨酸羟化酶多肽在暴露于不同浓度(例如5％-99％)的溶剂(乙醇、异丙醇、二甲亚砜(DMSO)、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)持续一段时间(例如0.5-24h)之后维持相似的活性(多于例如60％至80％)。

“热且溶剂稳定的”指热稳定的且溶剂稳定的脯氨酸羟化酶多肽。

本文使用的“严格杂交”指核酸杂交体(hybrid)在其下稳定的条件。如本领域技术人员已知，杂交体的稳定性通过杂交体的熔化温度(T_m)反映。大体上，杂交体的稳定性是离子强度、温度、G/C含量和离液剂存在的函数。使用预测熔化温度的已知的方法可以计算多核苷酸的T_m值(参见例如Baldino等，Methods Enzymology 168:761-777；Bolton等，1962，Proc.Natl.Acad.Sci.USA 48:1390；Bresslauer等,1986,Proc.Natl.Acad.SciUSA 83:8893-8897；Freier等,1986,Proc.Natl.Acad.Sci USA 83:9373-9377；Kierzek等人，Biochemistry 25:7840-7846；Rychlik等人，1990，Nucleic AcidsRes 18:6409-6412(勘误，1991，Nucleic Acids Res 19:698)；Sambrook等人，上文)；Suggs等人，1981，于Developmental Biology Using Purified Genes(Brown等人，编)，683-693页,Academic Press；和Wetmur，1991，Crit RevBiochem Mol Biol 26:227-259.所有出版物通过引用并入本文)。在一些实施方案中，多核苷酸编码本文公开的多肽并且在规定的条件下，诸如中度严格的或高度严格的条件下与编码本公开内容的工程化脯氨酸羟化酶的序列的互补序列杂交。

“杂交严格性”涉及核酸杂交中的杂交条件，诸如洗涤条件。通常，杂交反应在较低严格性的条件下进行，随后是不同的但较高严格性的洗涤。术语“中度严格杂交”指允许靶-DNA结合以下互补的核酸的条件，所述互补的核酸具有与靶DNA约60％的同一性、优选地约75％的同一性、约85％的同一性，与靶-多核苷酸的大于约90％的同一性。示例性中度严格的条件是等同于以下的条件：在50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中在42℃杂交，随后在0.2×SSPE、0.2％SDS中在42℃洗涤。“高度严格的杂交”通常指以下的条件：偏离对于确定的多核苷酸序列在溶液条件下确定的热熔化温度T_m约10℃或更少。在一些实施方案中，高度严格的条件指以下的条件，其仅允许那些在0.018M NaCl在65℃形成稳定的杂交体的核酸序列的杂交(即，如果杂交体在0.018M NaCl在65℃是不稳定的，其在高度严格的条件下将是不稳定的，如本文所考虑)。可以例如通过以下提供高度严格条件，在与50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS在42℃等同的条件杂交，随后在0.1×SSPE和0.1％SDS在65℃洗涤。另一高度严格的条件是在与以下等同的条件中杂交：在包含0.1％(w:v)SDS的5X SSC中在65℃杂交并在包含0.1％SDS的0.1x SSC中在65℃洗涤。其他高度严格的杂交条件，以及中度严格条件在以上引用的文献中描述。

“异源的”多核苷酸指通过实验技术被引入宿主细胞的任何多核苷酸，且包括从宿主细胞取出，接受实验处理并然后再引入宿主细胞的多核苷酸。

“密码子优化”指编码蛋白的多核苷酸的密码子变化为具体的生物体中优先使用的那些，以使编码的蛋白在受关注的生物体中被有效地表达。尽管遗传密码是简并的，即大多数氨基酸由称为“同义的(synonyms)”或“同义(synonymous)”密码子的几个密码子表示，但熟知的是：具体的生物体的密码子使用是非随机的并且偏向特定的密码子三联体。对于给定的基因、共同功能或祖先起源的基因、高度表达的蛋白对低拷贝数(lowcopy number)蛋白、和生物体基因组的聚集蛋白编码区，这一密码子使用偏好可以更高。在一些实施方案中，编码脯氨酸羟化酶的多核苷酸可以为选择用于表达的宿主生物体中的最佳生产而进行密码子优化。

“优选的、最佳的、高度密码子使用偏好的密码子”互换地指以下的密码子，其以比编码相同的氨基酸的其它密码子更高的频率在蛋白编码区中被使用。优选的密码子可以根据单个基因、共同功能或起源的一组基因、高度表达的基因中的密码子使用、整个生物体的聚集蛋白编码区中的密码子频率、相关的生物体的聚集蛋白编码区中的密码子频率、或其组合确定。频率随着基因表达水平增加的密码子通常是用于表达的最佳密码子。已知多种方法用于确定特定的生物体中的密码子频率(例如密码子使用、相对的同义密码子的使用)和密码子偏好，包括多变量分析，例如，使用聚类分析或对应分析，和基因中使用的密码子的有效数目(参见GCGCodonPreference，Genetics Computer Group Wisconsin Package；CodonW，John Peden，University of Nottingham；McInerney，J.O，1998，Bioinformatics14:372-73；Stenico等人，1994，Nucleic Acids Res.222437-46；Wright，F.，1990，Gene 87:23-29)。对于许多不同的生物体列表密码子使用表是可获得的(参见，例如，Wada等人，1992，Nucleic Acids Res.20:2111-2118；Nakamura等人，2000，Nucl.Acids Res.28:292；Duret,等人，如上述；Henaut和Danchin，“Escherichia coli and Salmonella,”1996，Neidhardt,等人编，ASM Press，Washington D.C.，2047-2066页)。用于获得密码子使用的数据来源可以依赖于能够编码蛋白的任何可获得的核苷酸序列。这些数据集合包括实际上已知编码表达的蛋白的核酸序列(例如完整的蛋白编码序列-CDS)、表达的序列标签(ESTS)、或基因组序列的预测编码区(参见，例如，Mount，D.，Bioinformatics:Sequence and Genome Analysis，第8章，Cold Spring HarborLaboratory Press，Cold Spring Harbor，N.Y.，2001；Uberbacher，E.C.，1996，Methods Enzymol.266:259-281；Tiwari等，1997，Comput.Appl.Biosci.13:263-270)。

“控制序列”在本文被定义为包括对于本公开内容的多核苷酸和/或多肽的表达是必需的或有利的所有组分。对于编码多肽的核酸序列，每个控制序列可以是天然的或外来的。此类控制序列包括，但不限于，启动子、转录终止子前导(即，翻译起始)序列、聚腺苷酸化序列、前肽序列、以及信号肽序列。控制序列可以与连接子一起被提供，以用于引入促进控制序列与编码多肽的核酸序列的编码区的连接的特定的限制位点。

“可操作地连接”在本文被定义为以下的结构(configuration)，其中控制序列被适当地置于(即，处于功能性关系)相对于受关注的多核苷酸的位置以使控制序列指导或调节受关注的多核苷酸和/或多肽的表达。

“启动子序列”指被宿主细胞识别用于受关注的多核苷酸诸如编码序列的表达的核酸序列。启动子序列包含转录控制序列，其介导受关注的多核苷酸的表达。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，其包括突变体、截短的和杂合(hybrid)启动子，并且可以获自编码对于宿主细胞同源的或异源的细胞外或细胞内多肽的基因。

“适当的反应条件”是指在生物催化反应方案中的那些条件(例如，酶载量、底物载量、共底物载量、辅因子载量、温度、pH、缓冲液、共溶剂等的范围)，在上述条件下本公开内容的脯氨酸羟化酶多肽能够将底物化合物转化为产物化合物(例如，将化合物(2)转化为化合物(1))。示例性的“适当的反应条件”被提供在本公开内容中，并通过实施例说明。

“载量”，诸如在“化合物载量”或“酶载量”或“辅因子载量”中是指在反应开始时反应混合物中组分的浓度或量。

在生物催化剂介导的方法的上下文中的“底物”是指生物催化剂所作用于的化合物或分子。例如，在本文中所公开的方法中脯氨酸羟化酶生物催化剂的示例性底物是化合物(2)。

在生物催化剂介导的方法的上下文中的“产物”是指由生物催化剂的作用产生的化合物或分子。例如，在本文中所公开的方法中脯氨酸羟化酶生物催化剂的示例性产物是化合物(1)。

“还原剂”是指能够将Fe⁺³转化为Fe⁺²的化合物或试剂。示例性的还原剂是抗坏血酸，其通常呈L-抗坏血酸的形式。

“烷基(alkyl)”是指1个至18个(含)碳原子，直链的或支链的，更优选地1个至8个(含)碳原子，且最优选地1个至6个(含)碳原子的饱和烃基。具有指定数目的碳原子的烷基被表示在括号中，例如，(C₁-C₆)烷基是指1个至6个碳原子的烷基。

“烯基”是指包含至少一个双键，但任选地包含多于一个双键的2个至12个(含)碳原子的直链或支链的烃基。

“炔基”是指含有至少一个三键，但任选地含有多于一个三键，并且另外任选地含有一个或更多个双键部分的2个至12个(含)碳原子的直链或支链的烃基。

“亚烷基(Alkylene)”是指任选地被一个或更多个适当的取代基取代的具有1个至18个(含)碳原子，更优选地1个至8个(含)碳原子，以及最优选地1个至6个(含)碳原子的直连或支链的二价烃基。示例性“亚烷基”包括，但不限于，亚甲基、亚乙基、亚丙基、亚丁基，以及类似的。

“亚烯基(Alkenylene)”是指任选地被一个或更多个适当的取代基取代的具有2个至12个(含)碳原子和一个或更多个碳-碳双键，更优选地2个至8个(含)碳原子，以及最优选地2个至6个(含)碳原子的直连或支链的二价烃基。

“杂烷基”、“杂烯基”和“杂炔基”是指其中一个或更多个碳原子各自独立地被相同或不同的杂原子或杂原子基团代替的如本文所定义的烷基、烯基和炔基。可代替碳原子的杂原子和/或杂原子基团包括，但不限于，-O-、-S-、-S-O-、-NR^γ-、-PH-、-S(O)-、-S(O)₂-、-S(O)NR^γ-、-S(O)₂NR^γ-以及类似的，包括其组合，其中每个R^γ独立地选自氢、烷基、杂烷基、环烷基、杂环烃基、芳基、以及杂芳基。

“芳基”是指具有单环(例如，苯基)或多个稠环(例如，萘基或蒽基)的6个至12个(含)碳原子的不饱和芳香族碳环基团。示例性芳基包括苯基、吡啶基、萘基以及类似的。

“芳基烷基”是指被芳基取代的烷基，即芳基-烷基-基团，优选地具有在烷基部分的1个至6个(含)碳原子和在芳基部分的6个至12个(含)碳原子。此类芳基烷基基团由苯甲基、苯乙基以及类似的举例说明。

“芳氧基”是指–OR^λ基团，其中R^λ是可任选地被取代的芳基基团。

“环烷基”是指具有可任选地被1个至3个烷基基团取代的单环或多个稠环的3个至12个(含)碳原子的环状烷基基团。示例性的环烷基基团包括，但不限于，单环结构诸如环丙基、环丁基、环戊基、环辛基、1-甲基环丙基、2-甲基环戊基、2-甲基环辛基以及类似的，或多环结构，包括桥环系统，诸如金刚烷基以及类似的。

“环烷基烷基”是指被环烷基取代的烷基，即，环烷基-烷基-基团，优选具有在烷基部分中的1个至6个(含)碳原子和在环烷基部分中的3个至12个(含)碳原子。此类环烷基烷基基团由环丙基甲基、环己基乙基以及类似的举例说明。

“氨基”是指基团-NH₂。取代的氨基是指基团-NHR^η、NR^ηR^η和NR^ηR^ηR^η，其中每个R^η独立地选自取代的或未被取代的烷基、环烷基、环杂烷基、烷氧基、芳基、杂芳基、杂芳基烷基、酰基、烷氧基羰基、硫酰基(sulfanyl)、亚磺酰基(sulfinyl)、磺酰基(sulfonyl)，以及类似的。典型的氨基基团包括但不限于二甲基氨基、二乙基氨基、三甲基铵、三乙基铵、甲基磺酰基氨基(methylysulfonylamino)、呋喃基-氧基-磺氨基以及类似的。

“氨基烷基”是指其中氢原子中的一个或更多个被一个或更多个氨基，包括取代的氨基，代替的烷基基团。

“氨基羰基”是指-C(O)NH₂。取代的氨基羰基是指-C(O)NR^ηR^η，其中氨基NR^ηR^η如本文所定义。

“氧基”是指二价基团-O-，其可具有各种取代基以形成不同的氧基基团，包括醚和酯。

“烷氧基(alkoxy)”或“烷基氧基(alkyloxy)”在本文可互换使用以指基团–OR^ζ，其中R^ζ是烷基基团，包括任选地取代的烷基基团。

“羧基”是指-COOH。

“羰基”是指-C(O)-，其可具有多种取代基以形成不同的羰基基团，包括酸、酰基卤、醛、酰胺、酯和酮。

“羧基烷基”是指其中氢原子中的一个或更多个被一个或更多个羧基基团代替的烷基。

“氨基羰基烷基”是指被氨基羰基基团取代的烷基，如本文所定义的。

“卤素”或“卤代”是指氟、氯、溴和碘。

“卤代烷基”是指其中氢原子中的一个或更多个被卤素代替的烷基基团。如此，术语“卤代烷基”意指包括单卤代烷基、二卤代烷基、三卤代烷基等，直至全卤代烷基。例如，表述“(C₁C₂)卤代烷基”包括1-氟甲基、二氟甲基、三氟甲基、1-氟乙基、1,1-二氟乙基、1,2-二氟乙基、1,1,1三氟乙基、全氟乙基等。

“羟基”是指-OH。

“羟基烷基”是指其中其中氢原子中的一个或更多个被一个或更多个羟基基团代替的烷基基团。

“巯基(Thiol)”或“硫烷基”是指–SH。取代的巯基或硫烷基是指–S-R^η，其中R^η是烷基、芳基或其他合适的取代基。

“烷基硫代”是指-SR^ζ，其中R^ζ是烷基，其可任选地被取代。示例性的烷基硫代基团包括，但不限于，甲基硫代、乙基硫代、正丙基硫代，以及类似的。

“芳基硫代”是指–SR^λ，其中R^λ是芳基，其可任选地被取代。示例性的芳基硫代基团包括，但不限于，苯基硫代、(4-甲基苯基)硫代、吡啶基硫代，以及类似的。

“烷基硫代烷基”是指被烷基硫代基团-SR^ζ取代的烷基，其中R^ζ是烷基，其可任选地被取代。

“巯基烷基”是指其中氢原子中的一个或更多个被一个或更多个–SH基团代替的烷基基团。

“磺酰基”是指-SO₂-。取代的磺酰基是指–SO-R^η，其中R^η是烷基、芳基或其他适合的取代基。

“烷基磺酰基”是指-SO₂-R^ζ，其中R^ζ是烷基，其可任选地被取代。典型的烷基磺酰基基团包括，但不限于，甲基磺酰基、乙基磺酰基、正丙基磺酰基，以及类似的。

“烷基磺酰基烷基”是指被烷基磺酰基基团-SO₂-R^ζ取代的烷基，其中R^ζ是烷基，其可任选地被取代。

“杂芳基”是指1个至10个(含)碳原子和在环内的选自氧、氮和硫的1个至4个(含)杂原子的芳族杂环基团。此类杂芳基基团可具有单个环(例如，吡啶基或呋喃基)或多个稠环(例如，吲哚嗪基或苯并噻吩基)。

“杂芳基烷基”是指被杂芳基取代的烷基，即，杂芳基-烷基-基团，优选具有在烷基部分中的1个至6个(含)碳原子和在杂芳基部分中的5个至12个(含)环原子。此类杂芳基烷基基团由吡啶基甲基以及类似的举例说明。

“杂环”、“杂环的”和可互换的“杂环烃基(heterocycloalkyl)”是指具有单环或多个稠环、2个至10个(含)碳环原子和在环内的选自氮、硫或氧的1个至4个(含)杂环原子的饱和或不饱和的基团。此类杂环基团可具有单环(例如，哌啶基或四氢呋喃基)或多个稠环(例如，吲哚啉基、二氢苯并呋喃或奎宁环基)。杂环的实例包括，但不限于，呋喃、噻吩、噻唑、噁唑、吡咯、咪唑、吡唑、吡啶、吡嗪、嘧啶、哒嗪、吲嗪、异吲哚、吲哚、吲唑、嘌呤、喹嗪、异喹啉、喹啉、酞嗪、萘基吡啶、喹噁啉、喹唑啉、噌啉、蝶啶、咔唑、咔啉、菲啶、吖啶、菲咯啉、异噻唑、吩嗪、异噁唑、吩噁嗪、吩噻嗪、咪唑烷、咪唑啉、哌啶、哌嗪、吡咯烷、二氢吲哚以及类似的。

“杂环烃基烷基”是指被杂环烃基取代的烷基，即，杂环烃基-烷基-基团，优选具有在烷基部分中的1个至6个(含)碳原子和在杂环烃基部分中的3个至12个(含)环原子。

“元环”意指包括任何环状结构。术语“元”之前的数字表示构成该环的骨架原子的数目。因此，例如，环己基、吡啶、吡喃和噻喃是6元环而环戊基、吡咯、呋喃和噻吩是5元环。

如本文所用的“稠合双环”是指在各环中具有5个至8个原子、环具有2个共有原子的未取代和取代的碳环部分和/或杂环部分。

除非另有说明，否则在上述基团中由氢占据的位置可被取代基进一步取代，所述取代基的示例为，但不限于，羟基、氧代、硝基、甲氧基、乙氧基、烷氧基、取代的烷氧基、三氟甲氧基、卤代烷氧基、氟、氯、溴、碘、卤代、甲基、乙基、丙基、丁基、烷基、烯基、炔基、取代的烷基、三氟甲基、卤代烷基、羟烷基、烷氧基烷基、硫代、烷基硫代、酰基、羧基、烷氧基羰基、甲酰氨基、取代的甲酰氨基、烷基磺酰基、烷基亚磺酰基、烷基磺酰基氨基、磺酰氨基、取代的磺酰氨基、氰基、氨基、取代的氨基、烷基氨基、二烷基氨基、氨基烷基、酰氨基、脒基、氨基肟基(amidoximo)、羟基草氨酰基(hydroxamoyl)、苯基、芳基、取代的芳基、芳氧基、芳基烷基、芳基烯基、芳基炔基、吡啶基、咪唑基、杂芳基、取代的杂芳基、杂芳氧基、杂芳基烷基、杂芳基烯基、杂芳基炔基、环丙基、环丁基、环戊基、环己基、环烷基、环烯基、环烷基烷基、取代的环烷基、环烷氧基、吡咯烷基、哌啶基、吗啉代、杂环、(杂环)氧基和(杂环)烷基；且优选的杂原子是氧、氮和硫。应理解，当这些取代基上存在开放化合价时，它们可被烷基、环烷基、芳基、杂芳基和/或杂环基团进一步取代，当这些开放化合价存在于碳上时，它们可被卤素和被氧键合取代基、氮键合取代基或硫键合取代基进一步取代，并且当多个这样的开放化合价存在时，这些基团可通过直接形成键或通过与新的杂原子，优选氧、氮或硫，形成键而被连接以形成环。还应理解，只要用取代基取代氢不向本公开内容的分子引入不可接受的不稳定性，并且在其他方面是化学上合理的，就可以进行上述取代。

“任选的”或“任选地”是指随后描述的事件或情况可以发生或可以不发生，并且该描述包括其中所述事件或情况发生的情形和其中所述事件或情况不发生的情形。本领域普通技术人员将理解，对于描述为含有一个或更多个任选的取代基的任何分子，仅意在包括空间上实际的和/或合成上可行的化合物。“任选地取代的”是指在化学基团的术语或系列中的所有其后的修饰词。例如，在术语“任选地取代的芳基烷基”中，分子的“烷基”部分和“芳基”部分可以被取代或可以不被取代，并且对于系列“任选地取代的烷基、环烷基、芳基和杂芳基”，该烷基、环烷基、芳基和杂芳基基团，独立于其他，可以被取代或可以不被取代。

5.3工程化脯氨酸羟化酶多肽

本公开内容提供了具有脯氨酸羟化酶活性的多肽、编码多肽的多核苷酸、制备多肽的方法、以及使用该多肽的方法。当描述涉及多肽时，应理解，其还描述了编码该多肽的多核苷酸。

脯氨酸羟化酶属于加双氧酶类别，其在α-酮戊二酸和氧气(O₂)的存在下催化脯氨酸羟基化。α-酮戊二酸在羟基化过程中化学计量地脱羧基，O₂分子的一个原子掺入进琥珀酸，且另一个掺入进在脯氨酸残基上形成的羟基。如以上提到的，脯氨酸羟化酶以其羟化游离脯氨酸的能力与脯氨酰基羟化酶区分开。

基于在酶促反应中形成的主要非对映体产物，已确定了几种类型的脯氨酸羟化酶：顺式-3-脯氨酸羟化酶(顺式-P3H)、顺式-4-脯氨酸羟化酶(顺式-P4H)、反式-3-脯氨酸羟化酶(反式-P3H)、和反式-4-脯氨酸羟化酶(反式-P4H)。顺式-P3H酶已在链霉菌Streptomyces sp.TH1、Streptomyces canus和芽孢杆菌Bacillus sp.TH2和TH3中被确定(Mori H.等人,1996,Appl.Environ.Microbiol.62(6):1903–1907)。反式-P3H已在Glarea lozoyensis中被确定(Petersen,L.等人，2003,Appl Microbiol Biotechnol.62(2-3):263-7)。顺式-P4H已在百脉根根瘤菌(Lotus corniculatus rhizobia)、Mesorhiboziumloti、苜蓿中华根瘤菌(Sinorhizobium meliloti)、和紫花苜蓿根瘤菌(Medicagosativa rhizobia)中确定(Hara和Kino,2009,Biochem Biophys ResCommun.379(4):882-6；美国专利公布号20110091942)。反式-P4H已在指孢囊菌Dactylosporangium sp.、拟无枝酸菌Amycolatopsis sp.、Streptomycesgriseoviridus、链霉菌Streptomyces sp.和Glarea lozoyensis中确定(ShibasakiT.等人，1999,Appl.Environ.Microbiol 65(9):4028-31；2003,Petersen,L.等人，2003,Appl Microbiol Biotechnol.62(2-3):263-7；Mori,H.等人，1996,Appl.Environ.Microbiol.62:1903–1907；Lawrence,C.C.,等人，1996,Biochem.J.313:185–191；以及EP0641862)。

来自苜蓿中华根瘤菌的顺式-4-脯氨酸羟化酶将游离脯氨酸转化为初级产物顺式-4-羟基脯氨酸。根据Klein等人，同上，该酶还识别L-哌可酸，将其转化为顺式-5-和顺式-3-羟基哌可酸的混合物。然而，对哌可酸的活性比对脯氨酸更低，且报道该酶在反应条件下具有低的比活性并变性(Klein等人，同上)。因此，用于以在大肠杆菌中表达的重组野生型酶制备羟基脯氨酸和羟基哌可酸的体外转化反应不适于作为用于商业规模制备的合成策略。发现表达酶的全细胞是更有效的，但需要使用缺乏脯氨酸的限定生长培养基以最小化游离脯氨酸的竞争，并且还简化羟基哌可酸产物的纯化(Klein等人，同上)。

在本公开内容中，描述了克服苜蓿中华根瘤菌的野生型顺式-4-脯氨酸羟化酶的缺陷的工程化脯氨酸羟化酶。源自苜蓿中华根瘤菌的野生型酶的工程化脯氨酸羟化酶多肽在体外能够将游离脯氨酸有效地转化为顺式-4-羟基脯氨酸，而且还能够有效地转化一系列底物，包括将L-哌可酸(即，(2S)-哌啶-2-羧酸)转化为顺式-5-羟基哌可酸(即，2S,5S)-5-羟基哌啶-2-羧酸)。显著地，本公开内容确定了脯氨酸羟化酶多肽序列中与天然存在的酶相比改进了酶特性的氨基酸残基位置及相应突变，所述酶特性包括，活性、稳定性、表达、区域选择性、立体选择性、底物耐受性、和底物特异性，以及其他。特别是，本公开内容提供了能够在适当的反应条件下在共底物的存在下将底物化合物(2)，(2S)-哌啶-2-羧酸有效地转化为产物化合物(1)，(2S,5S)-5-羟基哌啶-2-羧酸的工程化多肽(如以上方案1中所示)。

在一些实施方案中，工程化脯氨酸羟化酶多肽显示用与野生型酶相比的相同量的酶在限定的时间内分别在将脯氨酸和(2S)-哌啶-2-羧酸转化为产物顺式-4-羟基脯氨酸和(2S,5S)-5-羟基哌啶-2-羧酸中的增强的活性。在一些实施方案中，工程化脯氨酸羟化酶多肽在适当的反应条件下具有与由SEQ ID NO:2表示的多肽相比的至少约1.2倍、1.5倍、2倍、3倍、4倍、5倍、或10倍或更多倍的活性。

在一些实施方案中，与野生型脯氨酸羟化酶相比，工程化脯氨酸羟化酶多肽具有增加的区域选择性。具体地，天然存在的酶将脯氨酸，主要如果不唯一地，转化为顺式-4-羟基脯氨酸，并将(2S)-哌啶-2-羧酸转化为包含化合物(1)，(2S,5S)-5-羟基哌啶-2-羧酸和化合物(1a)，(2S,3R)-3-羟基哌啶-2-羧酸的非对映体产物的混合物。在一些实施方案中，本文的工程化脯氨酸羟化酶多肽能够选择性地形成过量于产物化合物(1a)的化合物(1)。在一些实施方案中，工程化多肽能够选择性地形成过量于产物化合物(1a)的化合物(1)，其中形成的化合物(1)相比于化合物(1a)的比在适当的反应条件下是至少1.5、2、3、4、5或6或更多。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够将底物化合物(2)转化为产物化合物(1)而不形成大量的反式-5-羟基哌可酸(即，(2S,5R)-5-羟基哌啶-2-羧酸)。在一些实施方案中，工程化脯氨酸羟化酶多肽能够在适当的反应条件下将底物化合物(2)转化为大于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5或更大的非对映体过量于(2S,5R)-5-羟基哌啶-2-羧酸的产物化合物(1)。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够在适当的反应条件下以相对于SEQ ID NO:2的参考多肽对底物存在的增加的耐受性将底物化合物(2)转化为产物化合物(1)。因此，在一些实施方案中，工程化脯氨酸羟化酶多肽能够在适当的反应条件下在约120h或更短、72h或更短、约48h或更短、约36h或更短、或约24h更短的反应时间内，以至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约98％、或至少约99％的转化百分比在至少约10g/L、约20g/L、约30g/L、约40g/L、约50g/L、约70g/L、约100g/L、约125g/L、约150g/L、约175g/L或约200g/L或更多的底物载量浓度下将底物化合物(2)转化为产物化合物(1)。

工程化多肽的以上描述的改进特性在其下进行羟基化反应的适当的反应条件可关于多肽、底物、共底物、过渡金属辅因子、还原剂、缓冲液、共溶剂的浓度或量、pH、包括温度及反应时间的条件、和/或以多肽固定在固体支持物上的条件来确定，如在以下和实施例中进一步描述的。

具有改进特性，特别是在将化合物(2)转化为化合物(1)中具有改进特性的具有脯氨酸羟化酶活性的示例性工程化多肽包括具有与SEQ ID NO:2相比在以下残基位置上的一个或更多个残基差异的氨基酸序列：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。与表2A、2B、2C、2D、2E、2F、2G、和2H的示例性多肽的改进特性相关的这些位置的每一个上的特定氨基酸差异包括：X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

本公开内容的示例性非天然存在(或工程化)脯氨酸羟化酶多肽的结构与功能信息基于化合物(2)至化合物(1)的转化，其结果示于以下表2A、2B、2C、2D、2E、2F、2G、和2H中。奇数序列标识符(即，“SEQ ID NO”)是指编码由偶数的SEQ ID NO提供的氨基酸序列的核苷酸序列。示例性序列被提供在伴随本公开内容的电子序列表文件中，该序列表文件在此通过引用并入本文。氨基酸残基差异是基于与SEQ ID NO:2(或SEQ ID NO:4、或6)的参考序列比较，其代表苜蓿中华根瘤菌的顺式-4-脯氨酸羟化酶的天然存在的氨基酸序列。各工程化多肽相对于SEQ ID NO:2的参考多肽的活性按在设定的时间段和温度下在被用作初级筛选的高通量(HTP)测定中将底物(2S)-哌啶-2-羧酸向产物(2S,5S)-5-羟基哌啶-2-羧酸的转化确定。表2A、2B、和2F中的HTP测定值，使用大肠杆菌澄清细胞溶解产物以～200μL体积/孔的96孔板格式，根据如表和实施例中标注的测定反应条件来确定。在某些情况下，使用摇瓶粉(SFP)或下游处理(DSP)粉测定作为次级筛选以评估工程化脯氨酸羟化酶的特性，其结果提供于表2C、2D、2E、2G、和2H中。SFP形式提供工程化多肽的更纯的粉末制品，并且可包含多达总蛋白的约30％的工程化多肽。由于DSP制品可包含多达总蛋白的约80％的工程化脯氨酸羟化酶，该制品可提供工程化多肽的甚至更纯的形式。还通过测量在反应中形成的产物化合物(1)，(2S,5S)-5-羟基哌啶-2-羧酸与产物化合物(1a)，(2S,3R)-3-羟基哌啶-2-羧酸的比(表示为选择性比)检查工程化脯氨酸羟化酶的区域选择性。

表2A：使用HTP制品的工程化多肽和相对酶改进

表2B：使用HTP制品的工程化多肽和相对酶改进

表2C：使用“微型-DSP”酶制品的工程化多肽和相对酶改进

表2D：使用全部DSP制品的工程化多肽和相对酶改进

表2E：使用SFP制品的工程化多肽和相对酶改进

表2F：使用HTP制品的工程化多肽和相对酶改进

表2G：使用SFP制品的工程化多肽和相对酶改进

表2H：使用DSP制品的工程化多肽和相对酶改进

从示例性多肽的分析，酶特性中的改进与相比于SEQ ID NO:2在以下残基位置上的残基差异相关：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。与改进的特性相关的这些位置的每一个上的具体残基差异包括：X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

与相比于SEQ ID NO:2在以上残基位置上的残基差异相关的特定酶特性包括，酶活性、区域选择性、多肽表达、和底物耐受性，以及其他。酶活性和底物耐受性中的改进与以下位置上的残基差异相关：X3；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X188；X225；X230；X270；和X271。区域选择性中的改进与以下残基位置上的残基差异相关：X3；X25；X42；X66；X92；X98；X103；X115；X131；和X166。多肽表达中的改进与以下残基位置上的残基差异相关：X2；X4；X5；X9；和X13。因此，前述残基位置上的残基差异，可以单独或以各种组合用于产生具有期望的改进的特性的工程化脯氨酸羟化酶多肽，期望的改进的特性包括酶活性、区域选择性、立体选择性、和底物耐受性，以及其他。影响多肽表达的其他残基差异可用于增加工程脯氨酸羟化酶的表达。

根据本文提供的指导，进一步设想，以下的示例性工程化多肽的任何一种：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228可用作用于合成其他工程化脯氨酸羟化酶多肽的起始氨基酸序列，例如，通过掺入来自表2A、2B、2C、2D、2E、2F、2G、和2H中的其他多肽以及本文描述的其他残基位置的各种氨基酸差异的新组合通过随后几轮进化。进一步的改进可通过包括在贯穿前几轮的进化中保持为不变的残基位置上的氨基酸差异而产生。

因此，在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽包括具有与参考序列SEQ ID NO:2的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性以及与SEQ ID NO:2相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。

在一些实施方案中，具有与SEQ ID NO:2相比改进的特性的具有脯氨酸羟化酶活性的工程化多肽包括具有与选自以下的参考序列至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，以及与SEQ ID NO:2相比在选自以下的残基位置上的一个或更多个残基差异：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。在一些实施方案中，参考氨基酸序列选自SEQ ID NO:10、24、104、106、108、110、132、164、222、224、226、和228。在一些实施方案中，参考氨基酸序列是SEQ ID NO:10。在一些实施方案中，参考氨基酸序列是SEQ ID NO:24。在一些实施方案中，参考氨基酸序列是SEQ ID NO:104。在一些实施方案中，参考氨基酸序列是SEQ ID NO:108。在一些实施方案中，参考氨基酸序列是SEQ IDNO:110。在一些实施方案中，参考氨基酸序列是SEQ ID NO:132。在一些实施方案中，参考氨基酸序列是SEQ ID NO:164。在一些实施方案中，参考氨基酸序列是SEQ ID NO:222。在一些实施方案中，参考氨基酸序列是SEQ ID NO:224。在一些实施方案中，参考氨基酸序列是SEQ ID NO:226。在一些实施方案中，参考氨基酸序列是SEQ ID NO:228。

在一些实施方案中，具有与SEQ ID NO:2相比改进的特性的具有脯氨酸羟化酶活性的工程化多肽包括选自以下的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，以及具有与SEQ IDNO:2相比在选自以下的残基位置上的一个或更多个残基差异：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。在一些实施方案中，氨基酸序列选自SEQ ID NO:10、24、104、106、108、110、132、164、222、224、226、和228。在一些实施方案中，氨基酸序列是SEQ ID NO:10。在一些实施方案中，氨基酸序列是SEQ ID NO:24。在一些实施方案中，氨基酸序列是SEQ ID NO:104。在一些实施方案中，氨基酸序列是SEQ IDNO:108。在一些实施方案中，氨基酸序列是SEQ ID NO:110。在一些实施方案中，氨基酸序列是SEQ ID NO:132。在一些实施方案中，参考氨基酸序列是SEQ ID NO:164。在一些实施方案中，参考氨基酸序列是SEQ IDNO:222。在一些实施方案中，参考氨基酸序列是SEQ ID NO:224。在一些实施方案中，参考氨基酸序列是SEQ ID NO:226。在一些实施方案中，参考氨基酸序列是SEQ ID NO:228。

在一些实施方案中，在残基位置X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271上的残基差异选自X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

因此，在一些实施方案中，展示一种或更多种本文描述的改进特性的工程化脯氨酸羟化酶多肽可包括具有与如以上描述的参考序列的氨基酸序列同一性，以及与SEQ ID NO:2相比选自以下的一个或更多个残基差异的氨基酸序列：X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

在一些实施方案中，工程化脯氨酸羟化酶具有包括与SEQ ID NO:2相比选自以下的至少一个或更多个残基差异的氨基酸序列：X25R；X26T；X103L；X115E；X131Y/F；和X166Q。

在一些实施方案中，工程化脯氨酸羟化酶多肽包括具有与SEQ IDNO:2相比选自以下的至少一个残基差异组合的氨基酸序列：(a)X103L和X166Q；(b)X52P和X255Y；(c)X4E/L/S和X115A；(d)X25R和X58A；(e)X29A和X166T/Q/L；(f)X115H/D/G和X121F；(g)X3S、X103L、和X166Q；(h)X103L、X131Y/F、和X166T/Q/L；(i)X26T、X103L和X166T/Q/L；(j)X25R、X66Q、X92V和X115E；(k)X25R、X66Q、X92V、X103L、X115E、和X166Q；以及(l)X3S、X25R、X66Q、X92V、X103L、X115E、和X166Q。

如本领域技术人员将理解的，在一些实施方案中，被选择的以上残基差异的一个或组合在工程化脯氨酸羟化酶中作为核心特征可以被保持恒定(即，维持)，并且在其他残基位置上的另外的残基差异掺入进该序列以产生具有改进特性的另外的工程化脯氨酸羟化酶多肽。因此，应理解，对于包含以上残基差异的一个或子集的任何工程化脯氨酸羟化酶，本公开内容涵盖包括该残基差异的一个或子集、以及另外的在本文公开的其他残基位置上的一个或更多个残基差异的其他工程化脯氨酸羟化酶。通过示例的方式而非限制，包含残基位置X103上的残基差异的工程化脯氨酸羟化酶，还可在以下其他残基位置上掺入一个或更多个残基差异：例如，X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。另一个实例是包含残基位置X166上的残基差异的工程化脯氨酸羟化酶，其还可在以下其他残基位置上包含一个或更多个残基差异：例如，X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X186；X188；X205；X225；X230；X270；和X271。

如以上提到的，具有脯氨酸羟化酶活性的工程化多肽还能够将底物化合物(2)转化为产物化合物(1)。在一些实施方案中，工程化脯氨酸羟化酶多肽能够以相对于SEQ ID NO:2的参考多肽的活性的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多的活性将底物化合物(2)转化为产物化合物(1)。在一些实施方案中，能够以相对于SEQ ID NO:2的参考多肽的活性的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍或更多的活性将底物化合物(2)转化为产物化合物(1)的工程化脯氨酸羟化酶多肽包括具有选自以下的一个或更多个特征的氨基酸序列：X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够以相对于SEQ IDNO:2的活性的至少1.2倍将底物化合物(2)转化为产物化合物(1)，并包括选自以下的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够以相对于SEQ IDNO:2的活性的至少2倍将底物化合物(2)转化为产物化合物(1)，并且包括具有选自以下的一个或更多个残基差异的氨基酸序列：X3S；X30P；X86S；X103L；X103Q；X113E；X115E；X150S；X166Q；X151S；X225L；和270E。

在一些实施方案中，能够以相对于SEQ ID NO:2的活性的至少2倍将底物化合物(2)转化为产物化合物(1)工程化脯氨酸羟化酶多肽包括选自以下的氨基酸序列：SEQ ID NO:10、12、18、24、28、66、68、70、72、76、98、100、102、104、106、108、110；112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够在HTP测定条件、在SFP测定条件下、或DSP测定条件下，以约100g/L、约50g/L、或约20g/L的底物载量，在120h或更短、72h或更短、48h或更短、或24h或更短内将至少50％或更多、60％或更多、70％或更多、89％或更多、90％或更多、91％或更多、92％或更多、93％或更多、94％或更多、或95％或更多的化合物(2)转化为化合物(1)。在一些实施方案中，工程化脯氨酸羟化酶多肽能够在25℃下在DSP测定条件下以约20g/L的底物载量在24h或更短内将至少50％或更多的化合物(2)转化为化合物(1)。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够将底物化合物(2)转化为过量于化合物(1a)的产物化合物(1)。在表2A、2B、2C、2D、2E、2F、2G、和2H的示例性工程化脯氨酸羟化酶中鉴定的残基差异显示在转化反应中维持或增加对化合物(1)相对于化合物(1a)的区域选择性。在一些实施方案中，工程化脯氨酸羟化酶多肽能够将底物化合物(2)转化为过量于化合物(1a)的产物化合物(1)，其中形成的产物化合物(1)相比于化合物(1a)的比是至少1.5、2、3、4、5或6或更多，特别是在HTP测定、SFP测定、或DSP测定条件下。

在一些实施方案中，能够将底物化合物(2)转化为以至少2或更大的比过量于化合物(1a)的产物化合物(1)的工程化脯氨酸羟化酶多肽包括具有以下特征的至少一个或更多个的氨基酸序列：X103L；X115E；X166Q和X131Y。在一些实施方案中，能够将底物化合物(2)转化为以至少2或更大的比过量于化合物(1a)的产物化合物(1)的工程化脯氨酸羟化酶包括选自以下的氨基酸序列：SEQ ID NO:10、24、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，能够将底物化合物(2)转化为以至少4或更大的比过量于化合物(1a)的产物化合物(1)的工程化脯氨酸羟化酶多肽包括具有至少特征X103L和X166Q的氨基酸序列。在一些实施方案中，能够将底物化合物(2)转化为以至少4或更大的比过量于化合物(1a)的产物化合物(1)的工程化脯氨酸羟化酶包括选自以下的氨基酸序列：SEQ ID NO:104、106、108、110、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够将底物化合物(2)转化为立体异构过量于(1R)，(2S,5R)-5-羟基哌啶-2-羧酸的产物化合物(1)，

野生型酶通过其将(2S)-哌啶-2-羧酸转化为(2S,5S)-5-羟基哌啶-2-羧酸，如果有则具有很少的反式羟基产物(1R)的能力来表征。如本文所示，在表2A、2B、2C、2D、2E、2F、2G、和2H的示例性工程化脯氨酸羟化酶多肽中的残基差异维持这一高度非对映体选择性，包括具有氨基酸序列的非保守改变的那些多肽。在一些实施方案中，能够将底物化合物(2)转化为非对映体过量于化合物(1R)的产物化合物(1)的工程化脯氨酸羟化酶包括具有选自以下的一个或更多个特征的氨基酸序列：X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。在一些实施方案中，产物化合物(1)以至少90％、95％、96％、97％、98％、99％、或更大的非对映体过量于化合物(1R)来形成。在一些实施方案中，在适当的反应条件下工程化多肽未形成可检测量的反式羟基产物(1R)。

在一些实施方案中，工程化脯氨酸羟化酶具有包含与SEQ ID NO:2相比的一个或更多个残基差异、增加工程化脯氨酸羟化酶活性在细菌宿主细胞，特别是大肠杆菌中的表达的氨基酸序列。在一些实施方案中，显示在细菌宿主细胞中增加的表达的氨基酸序列包括选自以下的一个或更多个残基差异：X2K；X2T；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；和X13T。

在一些实施方案中，具有在化合物(2)向化合物(1)的转化中的改进的特性的工程化脯氨酸羟化酶多肽具有包括选自以下序列的氨基酸序列：SEQID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽包括以下氨基酸序列，所述氨基酸序列具有与以下序列中的一个的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％同一性：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，以及与SEQ ID NO:2相比存在于以下的任何一个的氨基酸残基差异：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，如在表2A、2B、2C、2D、2E、2F、2G、和2H中提供的。

除以上指定的残基位置之外，本文所公开的任何工程化脯氨酸羟化酶多肽还可包括相对于SEQ ID NO:2，在其他残基位置即，除以下残基位置外的残基位置的其他残基差异：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。在这些其他残基位置上的残基差异可提供氨基酸序列的另外变异而没有不利地影响多肽进行脯氨酸向顺式-4-羟基脯氨酸的转化以及化合物(2)向化合物(1)的转化的能力。因此，在一些实施方案中，除了选自以下的工程化脯氨酸羟化酶多肽的任何一个中存在的氨基酸残基差异之外：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，序列还可包括与SEQ ID NO:2相比在其他氨基酸残基位置上的1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个、1-40个、1-45个、或1-50个残基差异。在一些实施方案中，与参考序列相比，氨基酸残基差异的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个、或50个残基位置。在一些实施方案中，与参考序列相比，氨基酸残基差异的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个、或25个残基位置。在这些其他位置上的残基差异可以是保守的变化或非保守的变化。在一些实施方案中，与SEQ ID NO:2的天然存在的脯氨酸羟化酶多肽相比，残基差异可包括保守的置换和非保守的置换。

在一些实施方案中，本公开内容还提供了包括本文描述的任何工程化脯氨酸羟化酶多肽的片段的工程化多肽，该片段保留了该工程化脯氨酸羟化酶的功能活性和/或改进特性。因此，在一些实施方案中，本公开内容提供了能够在适当的反应条件下将化合物(2)转化为化合物(1)的多肽片段，其中该片段包括本公开内容的工程化脯氨酸羟化酶多肽的全长氨基酸序列的至少约80％、90％、95％、96％、97％、98％、或99％，工程化脯氨酸羟化酶多肽诸如选自以下的示例性工程化脯氨酸羟化酶多肽：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，工程化脯氨酸羟化酶多肽可具有包括本文描述的工程化脯氨酸羟化酶多肽，诸如以下的示例性工程化多肽中的任一个的缺失的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。因此，对于本公开内容的工程化脯氨酸羟化酶多肽的每个和每一个实施方案，氨基酸序列可包括一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多至脯氨酸羟化酶多肽的氨基酸总数的10％、多至氨基酸总数的10％、多至氨基酸总数的20％、或多至氨基酸总数的30％的缺失，其中保留了本文描述的工程化脯氨酸羟化酶的相关功能活性和/或改进特性。在一些实施方案中，缺失可包括1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-15个、1-20个、1-21个、1-22个、1-23个、1-24个、1-25个、1-30个、1-35个、1-40个、1-45个、或1-50个氨基酸残基。在一些实施方案中，缺失的数目可以是1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个、或50个氨基酸残基。在一些实施方案中，缺失可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个、或25个氨基酸残基的缺失。

在一些实施方案中，本文的工程化脯氨酸羟化酶多肽可具有与本文描述的工程化脯氨酸羟化酶多肽，诸如以下的示例性工程化多肽中的任何一个相比包括插入的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。因此，对于本公开内容的脯氨酸羟化酶多肽的每个和每一个实施方案，插入可包括一个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、20个或更多个氨基酸、30个或更多个氨基酸、40个或更多个氨基酸、或50个或更多个氨基酸，其中保留了本文描述的工程化脯氨酸羟化酶的相关功能活性和/或改进特性。插入可以是在脯氨酸羟化酶多肽的氨基末端或羧基末端、或内部部分。

在一些实施方案中，本文的工程化脯氨酸羟化酶多肽可具有以下氨基酸序列，所述氨基酸序列包括选自以下的序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，和任选地一个或数个(例如，多达3个、4个、5个或多达10个)氨基酸残基缺失、插入和/或置换。在一些实施方案中，氨基酸序列任选地具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-15个、1-20个、1-21个、1-22个、1-23个、1-24个、1-25个、1-30个、1-35个、1-40个、1-45个、或1-50个氨基酸残基缺失、插入和/或置换。在一些实施方案中，氨基酸序列的数目任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个、或50个氨基酸残基缺失、插入和/或置换。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个、或25个氨基酸残基缺失、插入和/或置换。在一些实施方案中，置换可以是保守的或非保守的置换。

在上述实施方案中，用于工程化多肽的适当的反应条件可以是表2A、2B、2C、2D、2E、2F、2G、和2H中所描述的那些条件。因此，在一些实施方案中，适当的反应条件是HTP测定条件，该条件可包括：10g/L或20g/L底物化合物载量；19g/Lα-酮戊二酸；21g/L L-抗坏血酸；1.5mM莫尔盐；50mM磷酸钾缓冲液，pH 6.3(用KOH调整pH)；100μL粗溶解产物；以及在约25℃(室温)下的反应温度进行约24h的反应时间。

在一些实施方案中，适当的反应条件是对摇瓶粉(SFP)测定描述的那些条件，该条件可包括：30g/L底物化合物载量；52.5g/Lα-酮戊二酸；21g/LL-抗坏血酸；2.25mM莫尔盐；50mM磷酸钾缓冲液，pH 6.3(用KOH调整pH)；5g/L SFP酶粉制品的蛋白；以及c.a.25℃(室温)的反应温度进行约24h的反应时间。

在一些实施方案中，适当的反应条件是对微型下游处理粉(DSP)测定描述的那些条件，该条件包括：10g/L或20g/L底物载量；19g/Lα-酮戊二酸；21g/L L-抗坏血酸；1mM莫尔盐；50mM磷酸钾缓冲液，pH 6.3；20g/L DSP粉末制品的蛋白；以及约25℃(室温)的反应温度进行约24h的约反应时间。

这些前述反应条件和脯氨酸羟化酶多肽的使用的指导提供于表2A、2B、2C、2D、2E、2F、2G、和2H及实施例以及其他中。

在一些实施方案中，本公开内容的多肽可以是融合多肽的形式，其中工程化多肽与其他多肽融合，所述其他多肽诸如通过举例的方式而非限制，抗体标签(例如，myc表位)、纯化序列(例如，用于结合至金属的His标签)和细胞定位信号(例如，分泌信号)。因此，本文描述的工程化多肽可与其它多肽融合或不与其它多肽融合使用。

应理解的是，本文描述的多肽不限于遗传编码的氨基酸。除了遗传编码的氨基酸以外，本文描述的多肽可完全或部分包括天然存在的和/或合成的非编码氨基酸。本文描述的多肽可包括的某些常见非编码氨基酸包括但不限于：遗传编码的氨基酸的D-立体异构体；2,3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘苯丙氨酸(Pif)；4-氨甲基苯丙氨酸(Pamf)；2,4-二氯苯丙氨酸(Opef)；3,4-二氯苯丙氨酸(Mpcf)；2,4-二氟苯丙氨酸(Opff)；3,4-二氟苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯基丙氨酸(sAla)；蒽基丙氨酸(aAla)；3,3-二苯丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1,2,3,4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4羧酸；哌可酸(PA)；氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aGly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)；高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰赖氨酸(AcLys)；2,4-二氨基丁酸(Dbu)；2,3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。本文描述的多肽可包括的另外的非编码氨基酸对本领域技术人员将是明显的(参见，例如，在Fasman,1989,CRC PracticalHandbook of Biochemistry and Molecular Biology,CRC Press,Boca Raton,FL,在第3-70页及其中引用的参考文献中提供的多种氨基酸，全部参考文献通过引用并入本文)。这些氨基酸可以是以L-构型或D-构型。

本领域技术人员将认识到，带有侧链保护基的氨基酸或残基还可以构成本文所描述的多肽。在这种情况下属于芳香族类别的这些受保护的氨基酸的非限制性实例包括(在括号中列出保护基)但不限于：Arg(tos)、Cys(甲苄基)、Cys(硝基吡啶次磺酰基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

本文所述的多肽可包括的构型上受限制的非编码氨基酸包括但不限于，N-甲基氨基酸(L-构型)；1-氨基酸环戊-(2或3)-烯-4-羧酸；哌可酸；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)；以及1-氨基环戊烷-3-羧酸。

在一些实施方案中，工程化多肽可以是各种形式，例如，诸如分离的制品，作为基本上纯化的酶、用编码酶的基因转化的整个细胞、和/或作为此类细胞的细胞提取物和/或溶解产物。酶可以冻干、喷雾干燥、沉淀、或为粗浆料的形式，如下面进一步讨论的。

在一些实施方案中，工程化多肽可被提供在固体支持物上，诸如膜、树脂、固体载体(solid carrier)、或其他固相材料。固体支持物可包括有机聚合物如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚乙烯氧和聚丙烯酰胺以及其共聚物和接枝物。固体支持物还可以是无机的，诸如玻璃、二氧化硅、可控孔度玻璃(CPG)、反相二氧化硅或金属诸如金或铂。固体支持物的结构可呈珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平面的、基本上平面的或非平面的。固体支持物可以是多孔的或非多孔的，并且可以具有溶胀的或非溶胀的性质。固体支持物可以被配置成孔、凹部或其它容器、器皿(vessel)、特征(feature)或位置(location)的形式。

在一些实施方案中，本公开内容的具有脯氨酸羟化酶活性的工程化多肽可被固定在固体支持物上，使得它们保留它们的相对于SEQ ID NO:2的参考多肽的改进活性、立体选择性、和/或其他改进特性。在这样的实施方案中，固定的多肽可促进式(II)、(VI)的底物化合物或其他适当的底物分别生物催化转化为式(I)、(V)的产物化合物或相应的产物(例如，如方案1、2和3中所示的)，并且在反应完全后很容易保留(例如，通过保留在其上固定多肽的珠)，并且然后在后续反应中再利用或回收。这样的固定的酶的方法允许更高的效率和成本降低。因此，进一步设想，使用本公开内容的脯氨酸羟化酶多肽的方法中的任一种，可使用结合或固定在固体支持物上的相同的脯氨酸羟化酶多肽来进行。

酶固定的方法是本领域中熟知的。可非共价地或共价地结合工程化多肽。用于缀合和固定酶至固体支持物(例如，树脂、膜、珠、玻璃等等)的各种方法是本领域熟知的并描述于例如：Yi等人，“Covalentimmobilization ofω-transaminase from Vibrio fluvialis JS17on chitosanbeads,”Process Biochemistry 42(5):895-898(May 2007)；Martin等人，“Characterization of free and immobilized(S)-aminotransferase foracetophenone production,”Applied Microbiology and Biotechnology76(4):843-851(Sept.2007)；Koszelewski等人，“Immobilization ofω-transaminases by encapsulation in a sol-gel/celite matrix,”Journal ofMolecular Catalysis B:Enzymatic,63:39-44(Apr.2010)；Truppo等人,“Development of an Improved Immobilized CAL-B for the EnzymaticResolution of a Key Intermediate to Odanacatib,”Organic Process Research&Development,published online:dx.doi.org/10.1021/op200157c；Hermanson,G.T.,Bioconjugate Techniques,Second Edition,Academic Press(2008)；Mateo等人,“Epoxy sepabeads:a novel epoxy support for stabilization of industrialenzymes via very intense multipoint covalent attachment,”BiotechnologyProgress 18(3):629-34(2002)；and Bioconjugation Protocols:Strategies andMethods,In Methods in Molecular Biology,C.M.Niemeyer编著,HumanaPress(2004)；其每个的公开内容通过引用并入本文。可用于固定本公开内容的工程化脯氨酸羟化酶的固体支持物包括但不限于，包括以下的珠或树脂：具有环氧官能团的聚甲基丙烯酸酯、具有氨基环氧官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或聚甲基丙烯酸酯。可用于固定本公开内容的工程化脯氨酸羟化酶多肽的示例性固体支持物包括但不限于，壳聚糖珠、Eupergit C和SEPABEAD(Mitsubishi)，包括以下不同类型的SEPABEAD:EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，本文描述的多肽可以试剂盒的形式被提供。试剂盒中的酶可以单独地存在或作为多种酶存在。试剂盒还可包括用于进行酶促反应的试剂、用于评估酶活性的底物、以及用于检测产物的试剂。试剂盒还可包括试剂分配器和试剂盒的使用说明书。

在一些实施方案中，本公开内容的试剂盒包括以下的阵列，其包括在不同的可寻址的位置的多种不同的脯氨酸羟化酶多肽，其中不同的多肽是参考序列的不同的变体，各自具有至少一种不同的改进的酶性质。在一些实施方案中，固定在固体支持物上的多种多肽可以配置在阵列上的不同的位置，这对于试剂的机器人递送或通过检测方法和/或仪器是可寻址的。阵列可用于测试各种底物化合物被多肽的转化。包括多种工程化多肽的这样的阵列和它们的使用方法被描述在例如WO2009/008908A2中。

5.4编码工程化脯氨酸羟化酶的多核苷酸、表达载体和宿主细胞

在另一个方面，本公开内容提供编码本文描述的工程化脯氨酸羟化酶多肽的多核苷酸。多核苷酸可与控制基因表达的一个或更多个异源的调节序列可操作地连接，以产生能够表达多肽的重组的多核苷酸。包含编码工程化脯氨酸羟化酶的异源的多核苷酸的表达构建体可被引入适当的宿主细胞以表达相应的脯氨酸羟化酶多肽。

如对本领域技术人员将是明显的，蛋白序列的可用性和相应于各种氨基酸的密码子的知识提供了对能够编码该主题多肽的所有多核苷酸的描述。遗传密码的简并性，其中相同氨基酸由替代的或同义的密码子编码，允许极大数目的核酸被制出，所有这些核酸编码改进的脯氨酸羟化酶。因此，具有具体的氨基酸序列的知识后，本领域技术人员能够以不改变蛋白的氨基酸序列的方式通过仅仅变更序列的一个或更多个密码子来制出任何数目的不同核酸。在这点上，本公开内容明确涵盖可通过选择基于可能的密码子选择的组合制出的编码本文描述的多肽的多核苷酸的每种和每一种可能的变异，并且所有这些变异将被认为针对本文描述的任何多肽被明确地公开，所述本文描述的任何多肽包括作为以下在表2A、2B、2C、2D、2E、2F、2G和2H中呈现的以及在通过引用并入本文的序列表中公开的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在各种实施方案中，密码子被优选地选择以适合在其中产生蛋白的宿主细胞。例如，细菌中使用的优选的密码子被用于在细菌中表达基因；酵母中使用的优选的密码子被用于酵母中的表达；并且哺乳动物中使用的优选的密码子被用于哺乳动物细胞中的表达。在一些实施方案中，不需要替换所有密码子以优化脯氨酸羟化酶的密码子使用，因为天然序列将包括优选的密码子并且因为优选的密码子的使用对于所有氨基酸残基可能不是必需的。因此，编码脯氨酸羟化酶的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包括优选的密码子。

在一些实施方案中，多核苷酸包括编码如由SEQ ID NO:2呈现的天然存在的脯氨酸羟化酶多肽氨基酸序列的密码子优化的核苷酸序列。在一些实施方案中，多核苷酸具有包括与SEQ ID NO:1、3、或5的密码子优化的核酸序列的至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性的核酸序列，SEQ ID NO:1、3、或5的每一个分别编码SEQ ID NO:2、4、或6的相同多肽序列。SEQ ID NO:1、3、或5的密码子优化的序列增强编码的野生型脯氨酸羟化酶的表达，提供能够在微型-DSP测定条件下将超过80％的化合物(2)体外转化为化合物(1)，以及在DSP测定条件下将超过45％的化合物(2)转化为化合物(1)的酶制品。在一些实施方案中，与在本文中公开为SEQ ID NO:135的来自苜蓿中华根瘤菌的天然存在的多核苷酸序列相比，密码子优化的多核苷酸序列可以以至少1.2倍、1.5倍、或2倍或更大增强脯氨酸羟化酶的表达。

在一些实施方案中，多核苷酸能够在高度严格条件下与SEQ ID NO:1、3、或5的参考序列或其互补序列杂交，并且编码具有脯氨酸羟化酶活性的多肽。

在一些实施方案中，如以上所述，多核苷酸编码具有与SEQ ID NO:2相比的改进特性的具有脯氨酸羟化酶活性的工程化多肽，其中多肽包括以下氨基酸序列，所述氨基酸序列具有与选自以下的参考序列的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，以及与SEQ ID NO:2相比选自以下的一个或更多个残基差异：X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。在一些实施方案中，参考氨基酸序列选自SEQ ID NO:10、24、104、106、108、110、132、164、222、224、226、和228。在一些实施方案中，参考氨基酸序列是SEQ IDNO:10。在一些实施方案中，参考氨基酸序列是SEQ ID NO:24。在一些实施方案中，参考氨基酸序列是SEQ ID NO:104。在一些实施方案中，参考氨基酸序列是SEQ ID NO:108。在一些实施方案中，参考氨基酸序列是SEQID NO:110。在一些实施方案中，参考氨基酸序列是SEQ ID NO:132。在一些实施方案中，参考氨基酸序列是SEQ ID NO:164。在一些实施方案中，参考氨基酸序列是SEQ ID NO:222。在一些实施方案中，参考氨基酸序列是SEQ ID NO:224。在一些实施方案中，参考氨基酸序列是SEQ IDNO:226。在一些实施方案中，参考氨基酸序列是SEQ ID NO:228。

在一些实施方案中，多核苷酸编码与SEQ ID NO:2相比具有改进的特性的能够将底物化合物(2)转化为产物化合物(1)的脯氨酸羟化酶多肽，其中多肽包括具有与参考序列SEQ ID NO:2的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性以及与SEQ ID NO:2相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。

在一些实施方案中，多核苷酸编码与SEQ ID NO:2相比具有改进的特性的能够将底物化合物(2)转化为产物化合物(1)的脯氨酸羟化酶多肽，其中多肽包括具有与参考序列SEQ ID NO:2的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性以及与SEQ ID NO:2相比选自以下的至少一个残基差异组合的氨基酸序列：(a)X103L和X166Q；(b)X52P和X255Y；(c)X4E/L/S和X115A；(d)X25R和X58A；(e)X29A和X166T/Q/L；(f)X115H/D/G和X121F；(g)X3S、X103L、和X166Q；(h)X103L、X131Y/F、和X166T/Q/L；(i)X26T、X103L和X166T/Q/L；(j)X25R、X66Q、X92V和X115E；(k)X25R、X66Q、X92V、X103L、X115E、和X166Q；以及(l)X3S、X25R、X66Q、X92V、X103L、X115E、和X166Q。

在一些实施方案中，多核苷酸编码与SEQ ID NO:2的参考多肽相比具有改进的酶特性的能够将底物化合物(2)转化为产物化合物(1)的工程化脯氨酸羟化酶多肽，其中多肽包括具有与选自以下任一个的参考多肽的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％同一性的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，条件是氨基酸序列包括与SEQ ID NO:2相比包含在以下的任何一个多肽序列中的残基差异集合的任何一个：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，如列于表2A、2B、2C、2D、2E、2F、2G、和2H中的。

在一些实施方案中，编码工程化脯氨酸羟化酶的多核苷酸包括选自以下的多核苷酸序列：SEQ ID NO:7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、和227。

在一些实施方案中，多核苷酸能够在高度严格条件下与选自以下的参考多核苷酸序列或其互补序列杂交：SEQ ID NO:7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、和227，并且编码具有本文描述的一种或更多种改进特性的具有脯氨酸羟化酶活性的多肽。在一些实施方案中，能够在高度严格条件下杂交的多核苷酸编码具有以下氨基酸序列的脯氨酸羟化酶多肽，所述氨基酸序列包括与SEQ ID NO:2相比在选自以下的残基位置上的一个或更多个残基差异：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。在一些实施方案中，在残基位置X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271上的残基差异选自X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

在一些实施方案中，多核苷酸编码本文描述的多肽，但具有在核苷酸水平上与编码工程化脯氨酸羟化酶的参考多核苷酸的至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％或更多序列同一性。在一些实施方案中，参考多核苷酸序列选自SEQ ID NO:7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、和227。

编码改进的脯氨酸羟化酶多肽的分离的多核苷酸可以以多种方式操作以提供多肽的表达。在一些实施方案中，编码多肽的多核苷酸可以被提供为表达载体，其中存在一个或更多个控制序列以调控多核苷酸和/或多肽的表达。取决于表达载体，分离的多核苷酸在其插入载体中之前的操作可以是令人期望的或必要的。利用重组DNA方法修改多核苷酸和核酸序列的技术是本领域熟知的。在Sambrook等人,2001,Molecular Cloning:ALaboratory Manual,第3版,Cold Spring Harbor Laboratory Press；以及Current Protocols in Molecular Biology,Ausubel.F.编著,Greene Pub.Associates,1998,更新至2006中提供了指导。

在一些实施方案中，控制序列包括启动子、前导序列、多腺苷酸化序列、前肽序列、信号肽序列、和转录终止子以及其他。适合的启动子可基于使用的宿主细胞来选择。对于细菌宿主细胞，用于指导本公开内容的核酸构建体的转录的适合的启动子包括获自以下的启动子：大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热芽孢杆菌(Bacillusstearothermophilus)淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillusamyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因和原核的β-内酰胺酶基因(Villa-Kamaroff等人，1978，Proc.Natl Acad.Sci.USA 75:3727-3731)，以及tac启动子(DeBoer等人，1983，Proc.Natl Acad.Sci.USA 80:21-25)。用于丝状真菌宿主细胞的示例性启动子，包括获自以下基因的启动子：米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(WO 96/00787)以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶和米曲霉磷酸丙糖异构酶的基因的启动子的杂合体)和其突变的、截短的和杂合的启动子。示例性酵母细胞启动子可来自以下基因可来自以下基因：酿酒酵母(Saccharomyces cerevisiae)烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母乙醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)和酿酒酵母3-磷酸甘油酸激酶。用于酵母宿主细胞的其它有用的启动子由Romanos等人，1992，Yeast 8:423-488描述。

控制序列还可以是适当的转录终止子序列，转录终止子序列是由宿主细胞识别以终止转录的序列。终止子序列可操作地连接到编码多肽的核酸序列的3’末端。在选择的宿主细胞中有功能的任何终止子可用于本发明中。例如，用于细菌细胞的示例性转录终止子描述于Ermolaeva等人，2001,J.Mol.Biol.301:27-33。用于丝状真菌宿主细胞的示例性转录终止子可以获自以下的基因：米曲霉TAKA淀粉酶、黑曲霉葡萄糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶。用于酵母宿主细胞的示例性终止子可以获自以下的基因：酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶。用于酵母宿主细胞的其他有用的终止子由上述Romanos等人，1992描述。

控制序列还可以是包含翻译起始序列的合适的前导序列。前导序列可操作地连接到编码多肽的核酸序列的5’末端。可使用在选择的宿主细胞中在起始翻译中有功能的任何前导序列。示例性细菌翻译起始序列可获自任何表达的细菌基因，诸如来自大肠杆菌、枯草芽孢杆菌、乳酸乳球菌(Lactococcus lactic)、和苜蓿中华根瘤菌(参见，例如，Sakai，等人2001,J.Mol.Evol.52:164-170；Ma等人2002,J Bacteriol.184(20):5733-5745)。在一些实施方案中，可使用人工翻译起始序列(例如，Shine-Delgarno序列)(参见，例如，Vimberg等人，2007,BMC Molecular Biology 8:100)。用于丝状真菌宿主细胞的示例性前导序列获自以下的基因：米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶。用于酵母宿主细胞的适当的前导序列获自以下的基因：酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油激酶、酿酒酵母α因子和酿酒酵母乙醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

控制序列还可以是多腺苷酸序列，所述多腺苷酸序列是可操作地连接到核酸序列的3’末端的序列，并且当转录时，被宿主细胞识别为将聚腺苷残基加到转录的mRNA的信号。在选择的宿主细胞中有功能的任何多腺苷酸序列可用于本发明中。用于丝状真菌宿主细胞的示例性多腺苷酸序列可以获自以下的基因：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合成酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α葡糖苷酶。用于酵母宿主细胞的有用的多腺苷酸序列由Guo和Sherman，1995，MolCell Bio 15:5983-5990描述。

控制序列还可以是信号肽编码区，其编码与多肽的氨基末端连接的氨基酸序列并将编码的多肽引导入细胞的分泌通路。核酸序列的编码序列的5’末端可以本身包括信号肽编码区，其与编码分泌的多肽的编码区的区段符合翻译读码框地天然连接。可选地，编码序列的5’末端可以包含对于编码序列是外来的信号肽编码区。将表达的多肽引导入选择的宿主细胞的分泌通路的任何信号肽编码区可以被用于本发明中。对细菌宿主细胞有效的信号肽编码区是获自以下的基因的信号肽编码区：芽孢杆菌(Bacillus)NClB 11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。另外的信号肽由Simonen和Palva，1993，Microbiol Rev 57:109-137描述。对丝状真菌宿主细胞有效的信号肽编码区可以是获自以下的基因的信号肽编码区：米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和柔毛腐质霉(Humicola lanuginosa)脂肪酶。对酵母宿主细胞有用的信号肽可以来自酿酒酵母α因子和酿酒酵母转化酶的基因。其他有用的信号太编码区由上述Romanos等人，1992描述。

控制序列还可以是前肽编码区，其编码定位在多肽的氨基末端的氨基酸序列。产生的多肽称为前酶(pro-enzyme)或前多肽(或在一些情况中酶原(zymogen))。通过从前多肽催化或自催化裂解前肽，前多肽可以被转化成成熟的活性多肽。前肽编码区可以获自以下的基因：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶(WO 95/33836)。当信号肽和前肽区均存在于多肽的氨基末端时，前肽区定位为紧邻多肽的氨基末端并且信号肽区定位为紧邻前肽区的氨基末端。

加入调节序列也可以是期望的，调节序列允许关于宿主细胞的生长调节多肽的表达。调节系统的实例是引起响应化学或物理刺激物，包括调节化合物的存在，而开启或关闭基因的表达的那些调节系统。在原核宿主细胞中，适当的调节序列包括lac、tac和trp操纵子系统。在酵母宿主细胞中，适当的调节系统包括，作为实例的ADH2系统或GAL1系统。在丝状真菌中，适当的调节序列包括TAKAα-淀粉酶启动子、黑曲霉葡萄糖淀粉酶启动子和米曲霉葡萄糖淀粉酶启动子。

在另一方面，本公开内容还涉及重组表达载体，取决于其将被引入的宿主的类型，重组表达载体包括编码工程化脯氨酸羟化酶多肽的多核苷酸、和一种或更多种表达调节区诸如启动子和终止子，复制起点等。以上描述的各种核酸和控制序列可连接在一起以产生重组表达载体，其可包括一个或更多个方便的限制位点以允许编码多肽的核酸序列在这些位点的插入或置换。可选地，本公开内容的核酸序列可通过将核酸序列或包括所述序列的核酸构建体插入用于表达的适当的载体来表达。在产生表达载体时，编码序列位于载体中以使编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体可以是任何载体(例如，质粒或病毒)，其可以方便地经历重组DNA程序并且可以引起多核苷酸序列的表达。载体的选择将通常取决于载体与载体将被引入的宿主细胞的相容性。载体可以是线性的或闭合的环状质粒。

表达载体可以是自主复制载体，即，作为染色体外实体存在的载体，其复制独立于染色体复制，自主复制载体例如质粒、染色体外元件、微型染色体或人工染色体。载体可包含用于保证自身复制的任何工具(means)。可选地，载体可以是当被引入宿主细胞时，被整合进入基因组并与其被整合进入的染色体一起复制的载体。此外，可以使用单一载体或质粒或一起包括待引入宿主细胞的基因组的总DNA的两种或更多种载体或质粒，或转座子。

表达载体优选地包含一个或更多个可选择的标记物，其使得容易选择转化细胞。可选择的标记物是其产物提供杀生物剂或病毒抗性、对重金属的抗性、营养缺陷型的原养型以及类似性质的基因。细菌的可选择的标记物的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素抗性如氨苄西林、卡那霉素、氯霉素(实施例1)或四环素抗性的标记物。用于酵母宿主细胞的合适的标记物是ADE2、HIS3、LEU2、LYS2、MET3、TRP1、和URA3。用于丝状真菌宿主细胞的可选择的标记物包括但不限于：amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草胺膦乙酰基转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5’-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶)和trpC(邻氨基苯甲酸合酶)以及其等同物。用于曲霉细胞的实施方案包括构巢曲霉或米曲霉的amdS和pyrG基因和吸水链霉菌(Streptomyces hygroscopicus)的bar基因。

在另一个方面，本公开内容提供了包括编码本公开内容的改进的脯氨酸羟化酶多肽的多核苷酸的宿主细胞，该多核苷酸与用于在该宿主细胞中表达脯氨酸羟化酶的一个或更多个控制序列可操作地连接。在表达由表达载体编码的多肽中使用的宿主细胞是本领域熟知的并且包括但不限于：细菌细胞，诸如大肠杆菌、枯草芽孢杆菌、链霉菌属和鼠伤寒沙门氏菌(Salmonella typhimurium)的细胞；真菌细胞，诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤酵母(Pichia pastoris)(ATCC登录号201178))；昆虫细胞诸如果蝇S2细胞和夜蛾(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞；以及植物细胞。示例性宿主细胞是大肠杆菌W3110(ΔfhuA)和BL21。

因此，在另一方面，本公开内容提供了制造工程化脯氨酸羟化酶多肽的方法，其中该方法可包括将能够表达编码工程化脯氨酸羟化酶多肽的多核苷酸的宿主细胞在适合于表达该多肽的条件下培养。方法还可包括分离的或纯化表达的脯氨酸羟化酶多肽，如本文描述的。

用于以上描述的宿主细胞的适当培养基和生长条件是本领域熟知的。可通过本领域已知的多种方法将用于表达脯氨酸羟化酶的多核苷酸引入细胞中。技术包括电穿孔、生物射弹粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合以及其他。

在本文的实施方案中，可使用本领域技术人员使用的方法获得改进的多肽及相应的多核苷酸。编码苜蓿中华根瘤菌的天然存在的顺式-4-脯氨酸羟化酶的亲本、天然存在的多核苷酸序列描述于美国专利公布号US20110091942和国际专利公布号WO2009139365中，其通过引用并入本文。本文描述的工程化脯氨酸羟化酶可通过使编码天然存在的或另一种工程化脯氨酸羟化酶的多核苷酸经历诱变和/或定向进化方法而获得，如本文所讨论的。示例性的定向进化技术是诱变和/或DNA改组，如Stemmer，1994，Proc Natl Acad Sci USA 91:10747-10751；WO 95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767和美国专利6,537,746中所描述。6,537,746.可以使用的其它定向进化程序包括交错延伸过程(StEP)、体外重组(Zhao等人，1998，Nat.Biotechnol.16:258–261)、诱变PCR(Caldwell等人，1994，PCR Methods Appl.3:S136-S140)、和盒式诱变(Black等人，1996，Proc Natl Acad Sci USA 93:3525-3529)以及其他。可用于本文目的的诱变和定向进化技术也被描述在以下文献中：例如，Ling等人，1997，Anal.Biochem.254(2):157-78；Dale等人，1996，“Oligonucleotide-directed random mutagenesis using the phosphorothioatemethod”，于Methods Mol.Biol.57:369-74；Smith，1985，Ann.Rev.Genet.19:423-462；Botstein等人，1985，Science 229:1193-1201；Carter，1986，Biochem.J.237:1-7；Kramer等人，1984，Cell，38:879-887；Wells等人，1985，Gene 34:315-323；Minshull等人，1999，Curr Opin Chem Biol3:284-290；Christians等人，1999，Nature Biotech 17:259-264；Crameri等人，1998，Nature 391:288-291；Crameri等人，1997，Nature Biotech15:436-438；Zhang等人，1997，Proc Natl Acad Sci USA 94:45-4-4509；Crameri等人，1996，Nature Biotech 14:315-319；Stemmer，1994，Nature370:389-391；Stemmer，1994，Proc Natl Acad Sci USA 91:10747-10751；WO 95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767和美国专利号6,537,746。所有出版物通过引用并入本文。

可对诱变处理后获得的克隆筛选具有一种或更多种期望的改进的酶特性的工程化脯氨酸羟化酶。例如，当期望的改进的酶特性是区域选择性时，可用化合物(1)和化合物(1a)的产生测量酶活性。然后将包含编码具有期望的特征，例如化合物(1)相比于化合物(1a)的增加的比例的脯氨酸羟化酶的多核苷酸的克隆分离、测序以确定核苷酸序列变化(如果有)，并用于在宿主细胞中表达该酶。可使用标准生物化学技术，诸如HPLC分析和/或产物(分离前或分离后)的例如用丹磺酰氯或OPA衍生化，进行测量来自表达文库的酶活性(参见，例如，Yaegaki等人，1986,J Chromatogr.356(1):163-70)。

当工程化多肽的序列是已知的时，编码酶的多核苷酸可根据已知的合成方法通过标准的固相方法被制备。在一些实施方案中，多至约100个碱基的片段可以被单独地合成，然后连接(例如，通过酶或化学连接方法或聚合酶介导的方法)以形成任何期望的连续序列。例如，编码脯氨酸羟化酶的部分的多核苷酸和寡核苷酸可使用以下通过化学合成被制备：例如，由Beaucage等人，1981，Tet Lett 22:1859-69描述的经典的亚磷酰胺法或由Matthes等人，1984，EMBO J.3:801-05描述的方法，例如，如通常在自动化合成方法中所实践的。根据亚磷酰胺方法，寡核苷酸被例如在自动化DNA合成器中合成，纯化，退火，连接和克隆入适当的载体。此外，基本上任何核酸可从任何各种商业来源获得。在一些实施方案中，可通过合成包含缺失、插入、和/或置换的寡核苷酸，并以各种排列组合寡核苷酸以创造具有改进的特性的工程化脯氨酸羟化酶。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法可包括：(a)合成编码包括以下氨基酸序列的多肽的多核苷酸，所述氨基酸序列选自：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228，以及具有与SEQ ID NO:2相比在选自以下的残基位置上的一个或更多个残基差异：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271；以及(b)表达由多核苷酸编码的脯氨酸羟化酶多肽。

在该方法的一些实施方案中，在残基位置X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271上的残基差异选自X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X17V、X24R；X24S；X25R；X26R；X26T；X26W；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X62Q；X66Q；X86S；X88R；X92V；X95M；X98F；X98T；X103L；X103Q；X112T；X112V；X113E；X114N；X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X140L；X150S；X151A；X151H；X151S；X166T；X166L；X166Q；X186G；X188G；X205V；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

在该方法的一些实施方案中，多核苷酸可编码任选地具有一个或数个(例如，多达3个、4个、5个、或多达10个)氨基酸残基缺失、插入和/或置换的工程化脯氨酸羟化酶。在一些实施方案中，氨基酸序列任选地具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-15个、1-20个、1-21个、1-22个、1-23个、1-24个、1-25个、1-30个、1-35个、1-40个、1-45个、或1-50个氨基酸残基缺失、插入和/或置换。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个、或50个氨基酸残基缺失、插入和/或置换。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个、或25个氨基酸残基缺失、插入和/或置换。在一些实施方案中，置换可以是保守的或非保守的置换。

在一些实施方案中，在宿主细胞中表达的任何工程化脯氨酸羟化酶可以使用任何一种或更多种熟知的蛋白纯化技术从细胞和/或培养基回收，方法包括，溶菌酶处理、声处理、过滤、盐析、超速离心和色谱法以及其他。用于溶解和从细菌，诸如大肠杆菌，高效提取蛋白的适合的溶液是商业上可获得的，诸如来自St.Louis MO的Sigma-Aldrich的CelLytic B^TM。

用于分离脯氨酸羟化酶多肽的色谱方法包括，反相色谱法、高效液相色谱法、离子交换色谱法、凝胶电泳和亲和色谱法以及其他。用于纯化具体的酶的条件将部分地取决于诸如净电荷、疏水性、亲水性、分子量、分子形状等因素，并且对于本领域技术人员将是显然的。

在一些实施方案中，亲和技术可被用于分离改进的脯氨酸羟化酶。对于亲和色谱纯化，可使用特异性结合脯氨酸羟化酶多肽的任何抗体。对于抗体的产生，各种宿主动物，包括但不限于：兔、小鼠、大鼠等，可通过注射脯氨酸羟化酶多肽或其片段而被免疫。脯氨酸羟化酶多肽或片段可借助侧链官能团或连接到侧链官能团的连接子被连接到适合的载体，如BSA。在一些实施方案中，亲和纯化可使用脯氨酸羟化酶结合的特定配体，诸如聚(L-脯氨酸)或染料亲和柱(参见，例如，EP0641862；Stellwagen,E.,2001,“Dye Affinity Chromatography,”于Current Protocols in ProteinScience Unit 9.2-9.2.16)。

5.7使用工程化脯氨酸羟化酶的方法

在另一个方面，本文描述的脯氨酸羟化酶可用于将合适的底物转化为其羟基化产物的方法中。通常，用于进行羟基化反应的方法包括在适合于形成羟基化产物的适当的反应条件下在共底物，诸如α-酮戊二酸的存在下，使底物化合物与本公开内容的脯氨酸羟化酶多肽接触或温育。

在一些实施方案中，脯氨酸羟化酶可被用于将底物化合物(II)转化为产物化合物(I)，如方案2中所示：

方案2

其中

R⁵是氢或与L的碳原子形成环氧化物的键；

-----代表与L的碳原子形成双键的任选的键；

条件是

(i)当R⁴不与R²或R³之一形成环时，或当R⁴与R²或R³之一形成包含氮原子的5-元杂环时，则L是亚甲基；

(ii)当R⁴与R²或R³之一形成包含氮原子的6-元杂环时，则L是键或亚乙基；以及

(iii)当R⁵是与L的碳原子形成环氧化物的键时，则R⁴与R²或R3之一形成包含氮原子的杂环且L是(C₁-C₄)亚烷基或(C₂-C₄)亚烯基。

因此，在一些实施方案中，用于制备产物化合物(I)的方法可包括在适当的反应条件下在共底物的存在下使式(II)的底物化合物与本文公开的工程化多肽接触

其中

L、R¹、R²、R³、R⁴、和R⁶如以上所定义，

-----代表与L的碳原子形成双键的任选的键。

在该方法的一些实施方案中，式(I)的化合物包括式(Ia)的化合物，

其中

Q选自由以下组成的组：(C₁-C₅)亚烷基和(C₂-C₅)亚烯基；

R⁵是氢，或与L的碳原子形成环氧化物的键；

R⁶的每次出现选自由以下组成的组：卤代、(C₁-C₆)烷基、和(C₁-C₆)烷氧基；以及

q是从0至4的整数；

其中Q+L的环碳原子的和是从2至5的整数；

条件是

(i)当Q+L的环碳原子的和是2时，则L是亚甲基；以及

(ii)当Q+L的环碳原子的和是3时，则L是键或亚乙基。

因此，用于制备式(Ia)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(IIa)的化合物与本公开内容的工程化多肽接触，

其中

L、Q、R¹、R²、R⁶、和q如以上对于式(Ia)的化合物所定义；以及

-----代表与L的碳原子形成双键的任选的键。

在该方法的一些实施方案中，式(Ia)的化合物包括式(Ib)的化合物，

其中

k是从1至5的整数；

r是从0至4的整数；

其中k+r是3、4或5；以及

q是从0至4的整数；

条件是当k+r是3时，则k是1或3。

因此，用于制备式(Ib)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(IIb)的化合物与本公开内容的工程化多肽接触，

其中

R¹、R²、R⁶、k、r和q如以上对于式(Ib)的化合物所定义。在一些实施方案中，k是1，且r是2、3、或4。

在该方法的一些实施方案中，式(Ia)的化合物包括式(Ic)的化合物，

其中

R⁶的每次出现独立地选自由以下组成的组：氢、卤代、(C₁-C₆)烷基、和(C₁-C₆)烷氧基；以及

q是从0至4的整数。

因此，用于制备式(Ic)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(IIc)的化合物与本公开内容的工程化多肽接触，

其中

R¹、R²、R⁶和q如以上对于式(Ic)的化合物所定义。

在该方法的一些实施方案中，形成过量于式(Ic3)的产物化合物的式(Ic)的化合物，

因此，用于制备过量于式(Ic3)的化合物的式(Ic)的化合物的方法包括使(IIc)的化合物在适当的反应条件下在共底物的存在下与本文描述的具有相比于产物化合物(1a)对产物化合物(1)的区域选择性的工程化多肽接触。在该方法的一些实施方案中，形成过量于式(Ic3)的产物化合物的式(Ic)的产物化合物，其中形成的化合物(Ic)相比于化合物(Ic3)的比是至少1.5、2、3、4、5、或6或更大。

在该方法的一些实施方案中，形成非对映体过量于化合物(IcR)的产物化合物(Ic)，

在该方法的一些实施方案中，形成至少90％、95％、96％、97％、98％、99％、或更大的非对映体过量于化合物(IcR)的产物化合物(Ic)。在一些实施方案中，在方法中未形成可检测量的化合物(IcR)。

在用于制备式(Ic)的产物化合物的方法的一些实施方案中，R¹是羟基、R²是氢，且q是0。因此，在该方法的一些实施方案中，式(I)的化合物包括式(1)的化合物，

因此，用于制备式(1)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(2)的化合物与本公开内容的工程化多肽接触，

在该方法的一些实施方案中，形成过量于产物化合物(1a)的产物化合物(1)。在一些实施方案中，产物化合物(1)以至少1.5、2、3、4、5或6或更大的比相比于化合物(1a)过量来形成。在该方法的一些实施方案中，用于制备过量于式(1a)的化合物的化合物(1)的有用的工程化多肽包括在适当的反应条件下使式(2)的化合物与本文描述式的具有相比于化合物(1a)对产物化合物(1)的区域选择性的工程化多肽接触。

在该方法的一些实施方案中，形成非对映体过量于化合物(1R)的产物化合物(1)，

在该方法的一些实施方案中，形成至少90％、95％、96％、97％、98％、99％、或更大的非对映体过量于化合物(1R)的产物化合物(1)。在一些实施方案中，在方法中未形成可检测量的化合物(1R)。

在该方法的一些实施方案中，式(Ia)的化合物包括式(Ie)的化合物，

其中

q是从0至3的整数。

因此，在一些实施方案中，用于制备式(Ie)的产物化合物的方法包括在适当的反应条件下在共底物的存在下使式(IIe)的化合物与本公开内容的工程化多肽接触，

其中R¹、R²、R6和q如对于式(Ie)的化合物所定义。

在该方法的一些实施方案中，形成非对映体过量于式(IeR)的化合物的式(Ie)的化合物，

在该方法的一些实施方案中，形成至少90％、95％、96％、97％、98％、99％、或更大的非对映体过量于式(IeR)的化合物的式(Ie)的产物化合物。在一些实施方案中，未形成可检测量的式(IeR)的化合物。

在用于制备式(Ie)的产物化合物的方法的一些实施方案中，R¹是羟基、R²是氢，且q是0。因此，在一些实施方案中，式(Ie)的化合物包括化合物(3)，

其中用于制备化合物(3)的方法包括在适当的反应条件下在共底物的存在下使化合物(4)与本公开内容的工程化多肽接触，

在该方法的一些实施方案中，形成非对映体过量于化合物(3R)的化合物(3)，

在该方法的一些实施方案中，形成至少90％、95％、96％、97％、98％、99％、或更大的非对映体过量于化合物(3R)的产物化合物(3)。在一些实施方案中，未形成可检测量的化合物(3R)。

在一些实施方案中，式(Ia)的化合物包括化合物(5)，

因此，用于制备化合物(5)的方法包括在适当的反应条件下在共底物的存在下使化合物(6)与本公开内容的工程化多肽接触；

在一些实施方案中，式(I)的化合物包括式(III)的化合物，

其中

R⁴选自由以下组成的组：任选地取代的烷基、烯基、炔基、芳基、杂芳基、环烷基、和杂环烃基；

在一些实施方案中，任选地取代的烷基选自由以下组成的组：羧基(C₁-C₆)烷基、氨基羰基(C₁-C₆)烷基、氨基(C₁-C₆)烷基、巯基(C₁-C₆)烷基、和烷基硫代(C₁-C₆)烷基、烷基磺酰基(C₁-C₆)烷基、芳基(C₁-C₆)烷基、杂芳基(C₁-C₆)烷基、环烷基(C₁-C₆)烷基、和杂环烃基(C₁-C₆)烷基。

因此，在一些实施方案中，用于制备式(III)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(IV)的化合物与本公开内容的工程化多肽接触，

其中

R¹、R²、R³和R⁴如以上对于式(III)的化合物所定义。

在一些实施方案中，工程化多肽可用于进行方案3中显示的转化的方法，

方案3

其中，

q是从0至4的整数；以及

-----代表形成芳环的任选的双键

因此，在一些实施方案中，用于制备式(V)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(VI)的化合物与本公开内容的工程化多肽接触，

其中R¹、R²、R³、R⁶、R⁷和q如对于式(V)的化合物所定义。

在一些实施方案中，式(V)的化合物包括式(Va)的化合物，

其中，

q是从0至4的整数。

因此，在一些实施方案中，用于制备式(Va)的化合物的方法包括在适当的反应条件下在共底物的存在下使式(VIa)的化合物与本公开内容的工程化多肽接触，

其中R¹、R²、R³、R⁶、和q如以上对于式(Va)的化合物所定义。

对于前述方法，可使用本文描述的任何工程化脯氨酸羟化酶。通过示例的方法而非限制，在一些实施方案中，该方法可使用包括以下氨基酸序列的工程化脯氨酸羟化酶多肽，所述氨基酸序列具有与选自以下的参考序列的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在该方法的一些实施方案中，工程化脯氨酸羟化酶多肽包括具有与相比于SEQ ID NO:2在以下残基位置上的一个或更多个残基差异的氨基酸序列：X2；X3；X4；X5；X9；X13；X17；X24；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X62；X66；X86；X88；X92；X95；X98；X103；X112；X113；X114；X115；X116；X121；X131；X140；X150；X151；X166；X186；X188；X205；X225；X230；X270；和X271。

如以上提到的，在用于制备过量于式(Ic3)的化合物的式(Ic)的产物化合物或用于制备过量于化合物(1a)的化合物(1)的方法的一些实施方案中，工程化多肽可包括具有选自以下的一个或更多个特征的氨基酸序列：X103L；X115E；X131Y和X166Q。具有相关区域选择性的示例性工程化多肽可包括选自由以下组成的氨基酸序列：SEQ ID NO:10、24、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

在一些实施方案中，能够进行本文中方法的示例性脯氨酸羟化酶多肽可具有包括选自以下的序列的氨基酸序列：SEQ ID NO:8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。关于选择和使用工程化脯氨酸羟化酶的指导在本文的描述中，例如在表2A、2B、2C、2D、2E、2F、2G、和2H以及实施例中提供。

在本文中的实施方案中并在实施例中所示的，可在方法中使用的适当的反应条件的各种范围，包括但不限于，底物载量、共底物载量、还原剂、二价过渡金属、pH、温度、缓冲液、溶剂系统、多肽载量、和反应时间。用于使用本文所述的工程化脯氨酸羟化酶多肽进行用于将底物化合物生物催化转化为产物化合物的方法的另外的适当的反应条件可根据本文提供的指导通过常规实验而容易地优化，常规实验包括但不限于：使工程化脯氨酸羟化酶多肽与底物化合物在浓度、pH、温度、和溶剂条件的实验反应条件下接触，并检测产物化合物。

使用工程化脯氨酸羟化酶多肽的适当的反应条件通常包括化学计量地用于羟基化反应的共底物。通常，用于脯氨酸羟化酶的共底物是α-酮戊二酸(α-ketoglutarate)，还称为α-酮戊二酸(α-ketoglutaric acid)和2-氧代戊二酸。可使用能够用作脯氨酸羟化酶的共底物的α-酮戊二酸的其他类似物。可用作共底物的示例性类似物是2-氧代己二酸。因为化学计量地使用共底物，共底物以与底物化合物等摩尔或比底物化合物的量更高的量存在，即共底物的摩尔浓度等于或高于底物化合物的摩尔浓度。在一些实施方案中，适当的反应条件可包括比底物化合物的摩尔浓度多至少1倍、1.5倍、2倍、3倍、4倍、或5倍或更多的共底物摩尔浓度。在一些实施方案中，适当的反应条件可包括约0.001M至约2M、0.01M至约2M、0.1M至约2M、0.2M至约2M、约0.5M至约2M、或约1M至约2M的共底物浓度，特别是α-酮戊二酸浓度。在一些实施方案中，反应条件包括约0.001、0.01、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、1、1.5或2M的共底物浓度。在一些实施方案中，在反应过程中可添加另外的共底物。

考虑到例如，产物化合物的需要量、底物浓度对酶活性的影响、酶在反应条件下的稳定性、以及底物至产物的转化百分比，在反应混合物中的底物化合物可以被改变。在一些实施方案中，适当的反应条件包括以下的底物化合物载量：至少约0.5至约200g/L、1至约200g/L、5至约150g/L、约10至约100g/L、20至约100g/L、或约50至约100g/L。在一些实施方案中，适当的反应条件包括以下的底物化合物载量：至少约0.5g/L、至少约1g/L、至少约5g/L、至少约10g/L、至少约15g/L、至少约20g/L、至少约30g/L、至少约50g/L、至少约75g/L、至少约100g/L、至少约150g/L或至少约200g/L、或甚至更大。本文中提供的底物载量的值是基于化合物(2)的分子量，然而还设想，等摩尔量的化合物(2)的各种水合物和盐还可在方法中被使用。此外，由式(II)和(VI)涵盖的底物化合物，包括式(IIa)、(IVa)和(VIa)的化合物，还可根据化合物(2)的使用量以适当的量被使用。

在进行本文描述的脯氨酸羟化酶介导的方法时，工程化多肽可以以纯化的酶、部分纯化的酶、用编码酶的基因转化的整个细胞、作为细胞提取物和/或此类细胞的溶解产物、和/或作为固定在固体支持物上的酶的形式被添加到反应混合物中。用编码工程化脯氨酸羟化酶的基因转化的整个细胞或其细胞提取物、溶解产物和分离的酶可以多种不同的形式被使用，包括固体(例如冻干的、喷雾干燥的以及类似的)或半固体(例如，粗糊料)。细胞提取物或细胞溶解产物可通过沉淀(硫酸铵、聚乙烯亚胺、热处理或类似方法，随后脱盐程序，之后冻干(例如，超滤、渗析以及类似的)来部分地纯化。任何酶制品(包括整个细胞制品)可通过使用已知的交联剂，诸如例如戊二醛交联或固定至固相材料(例如，Eupergit C以及类似的)而被稳定。

编码工程化脯氨酸羟化酶多肽的基因可被单独地转化进入宿主细胞或一起转化进入同一宿主细胞。例如，在一些实施方案中，宿主细胞的一个集合可用编码一种工程化脯氨酸羟化酶多肽的基因转化并且另一集合可用编码另一工程化脯氨酸羟化酶多肽的基因转化。转化的细胞的两个集合可在反应混合物中以整个细胞的形式或以从其得到的溶解产物或提取物的形式一起被使用。在其他实施方案中，宿主细胞可用编码多个工程化脯氨酸羟化酶多肽的基因转化。在一些实施方案中，工程化多肽可以分泌的多肽的形式被表达并且包含分泌的多肽的培养基可以被用于脯氨酸羟化酶反应。

本文公开的工程化脯氨酸羟化酶多肽的改进的活性和/或立体选择性提供了其中较高百分比转化可用较低浓度的工程化转多肽实现的方法。在该方法的一些实施方案中，适当的反应条件包括约1％(w/w)、2％(w/w)、5％(w/w)、10％(w/w)、20％(w/w)、30％(w/w)、40％(w/w),50％(w/w)、75％(w/w)、100％(w/w)或更多的底物化合物载量的工程化多肽量。

在一些实施方案中，工程化多肽以约0.01g/L至约50g/L、约0.05g/L至约50g/L、约0.1g/L至约40g/L、约1g/L至约40g/L、约2g/L至约40g/L、约5g/L至约40g/L、约5g/L至约30g/L、约0.1g/L至约10g/L、约0.5g/L至约10g/L、约1g/L至约10g/L、约0.1g/L至约5g/L、约0.5g/L至约5g/L、或约0.1g/L至约2g/L存在。在一些实施方案中，脯氨酸羟化酶以约0.01g/L、0.05g/L、0.1g/L、0.2g/L、0.5g/L、1、2g/L、5g/L、10g/L、15g/L、20g/L、25g/L、30g/L、35g/L、40g/L、或50g/L存在。

在一些实施方案中，反应条件还包括能够在氧化反应中用作辅因子的二价过渡金属。通常，二价过渡金属辅因子是亚铁离子，即，Fe⁺²。亚铁离子可以以各种形式，诸如硫酸亚铁(FeSO₄)、氯化亚铁(FeCl₂)、碳酸亚铁(FeCO₃)、以及有机酸的盐诸如柠檬酸盐、乳酸盐和延胡索酸盐来提供。硫酸亚铁的示例性来源是莫尔盐，其是硫酸亚铁铵(NH₄)₂Fe(SO₄)₂，并以无水和水合(即，六水合物)形式可得。尽管亚铁离子是在天然存在的脯氨酸羟化酶中发现的过渡金属辅因子并在工程化酶中是功能有效的，应理解在该方法中可使用能够用作辅因子的其他二价过渡金属。在一些实施方案中，二价过渡金属辅助因子可包括Mn⁺²和Cr⁺²。在一些实施方案中，反应条件可包括以下浓度的二价过渡金属辅因子，特别是Fe⁺²：约0.1mM至10mM,0.1mM至约5mM,0.5mM至约5mM,约0.5mM至约3mM或约1mM至约2mM。在一些实施方案中，反应条件包括以下浓度的二价过渡金属辅因子：约0.1mM、0.2mM、0.5mM、1mM、1.5mM、2mM、3mM、5mM、7.5mM或10mM。在一些实施方案中，可使用更高浓度的二价过渡金属辅因子，例如多达50mM或多达100mM。

在一些实施方案中，反应条件还可包括能够将铁离子Fe⁺³还原为亚铁离子Fe⁺²的还原剂。在一些实施方案中，还原剂包括抗坏血酸，典型的L-抗坏血酸。虽然羟基化反应不需要抗坏血酸，但其存在增强酶活性。不受限于理论，认为抗坏血酸维持或再生酶-Fe⁺²形式，其是介导羟基化反应的活化型。通常，反应条件可包括成比例地相应于底物载量的抗坏血酸浓度。在一些实施方案中，抗坏血酸以底物的摩尔量的至少约0.1倍、0.2倍、0.3倍、0.5倍、0.75倍、1倍、1.5倍、或至少2倍存在。在一些实施方案中，还原剂，特别是L-抗坏血酸以约0.001M至约0.5M、约0.01M至约0.5M、约0.01M至约0.4M、约0.1M至约0.4M、或约0.1M至约0.3M的浓度存在。在一些实施方案中，还原剂，特别是抗坏血酸以约0.001M、0.005M、0.01M、0.02M、0.03M、0.05M、0.1M、0.15M、0.2M、0.3M、0.4M、或0.5M的浓度存在。

在一些实施方案中，反应条件包括分子氧，即，O₂。不受限于理论，来自分子氧的一个氧原子被掺入进底物化合物，以形成羟基化产物化合物。O₂可天然地存在于反应溶液中，或人工地引入和/或补充进反应中。在一些实施方案中，反应条件可包括用空气、O₂气体、或其他包含O₂的气体的强制通气(例如，喷雾)。在一些实施方案中，反应中的O₂可通过用O₂或包含O₂的气体增加反应的压强来增加。这可通过在可用O₂气体来增压的容器中进行反应来做。在一些实施方案中，O₂气体可以以至少1升/小时(L/h)、至少2L/h、至少3L/h、至少4L/h、至少5L/h、或更大的速率喷射通过反应溶液。在一些实施方案中，O2气体可以以约1L/h和10L/h之间、约2L/h和7L/h之间、或约3L/h和5L/h之间的速率喷射通过反应溶液。

在反应的过程中，反应混合物的pH可以变化。反应混合物的pH可以被维持在期望的pH或在期望的pH范围内。这可通过在反应的过程之前和/或期间加入酸或碱来实现。可选地，pH可以通过使用缓冲液来控制。因此，在一些实施方案中，反应条件包括缓冲液。维持期望的pH范围的合适的缓冲液是本领域已知的，并且包括，例如且不限于，硼酸盐、磷酸盐、2-(N-吗啉代)乙磺酸(MES)、3-(N-吗啉代)丙磺酸(MOPS)、乙酸盐、三乙醇胺和2-氨基-2-羟甲基-丙烷-1,3-二醇(Tris)，以及类似的。在一些实施方案中，缓冲液是磷酸盐。在方法的一些实施方案中，适当的反应条件包括以下缓冲液(例如磷酸盐)浓度：从约0.01至约0.4M、0.05至约0.4M、0.1至约0.3M、或约0.1至约0.2M。在一些实施方案中，反应条件包括以下的缓冲液(例如磷酸盐)浓度：约0.01、0.02、0.03、0.04、0.05、0.07、0.1、0.12、0.14、0.16、0.18、0.2、0.3、或0.4M。在一些实施方案中，反应条件包括水作为适当的溶剂而没有缓冲液存在。

在方法的一些实施方案中，反应条件可包括适当的pH。期望的pH或期望的pH范围可通过使用酸或碱、适当的缓冲液、或缓冲和酸或碱添加的组合来维持。反应混合物的pH可在反应的过程之前和/或期间被控制。在一些实施方案中，适当的反应条件包括从约4至约10的溶液pH、从约5至约10的pH、从约5至约9的pH、从约6至约9的pH、从约6至约8的pH。在一些实施方案中，反应条件包括约4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10的溶液pH。

在本文方法的实施方案中，例如，考虑到：在较高的温度下增加的反应速率、以及在反应时间段期间酶的活性，适当的温度可用于反应条件。因此，在一些实施方案中，适当的反应条件包括以下的温度：约10℃至约60℃、约10℃至约55℃、约15℃至约60℃、约20℃至约60℃、约20℃至约55℃、约25℃至约55℃、或约30℃至约50℃。在一些实施方案中，适当的反应条件包括约10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、或60℃的温度。在一些实施方案中，酶促反应过程中的温度可以贯穿反应过程维持在特定温度。在一些实施方案中，酶促反应过程中的温度可在反应过程期间按温度谱图来调节(adjusted over a temperatureprofile during the course of the reaction)。

本公开内容的方法一般在溶剂中进行。适当的溶剂包括水、缓冲水溶液(aqueous buffer solution)、有机溶剂、聚合溶剂、和/或共溶剂系统，其通常包括含水溶剂(aqueous solvent)、有机溶剂和/或聚合溶剂。含水溶剂(水或含水的共溶剂系统)可以是pH缓冲的或无缓冲的。在一些实施方案中，使用工程化脯氨酸羟化酶多肽的方法可在包括以下的含水共溶剂系统中进行：有机溶剂(例如，乙醇、异丙醇(IPA)、二甲亚砜(DMSO)、二甲基甲酰胺(DMF)乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔丁基醚(MTBE)、甲苯以及类似物)、离子或极性溶剂(例如，1-乙基-4-甲基咪唑鎓四氟硼酸盐、1-丁基-3-甲基咪唑鎓四氟硼酸盐、1-丁基-3-甲基咪唑鎓六氟磷酸盐、甘油、聚乙二醇以及类似物)。在一些实施方案中，共溶剂可以是极性溶剂，诸如多元醇、二甲亚砜(DMSO)、或低级醇。含水共溶剂系统的非含水共溶剂组分可以是与含水组分易混溶的，提供单一的液相，或可以是与含水组分部分地易混溶的或不易混溶的，提供两个液相。示例性含水共溶剂系统可包括水和选自有机溶剂、极性溶剂、和多元醇溶剂的一种或更多种共溶剂。通常，选择含水共溶剂系统的共溶剂组分使得其在反应条件下不会不利地使脯氨酸羟化酶失活。适当的共溶剂系统可通过使用酶活性测定，诸如本文描述的那些，用指定的感兴趣的底物在候选溶剂系统中测量特定的工程化脯氨酸羟化酶的酶促活性来容易地确定。

在方法的一些实施方案中，适当的反应条件包括含水共溶剂，其中该共溶剂包括以下的DMSO：约1％至约50％(v/v)、约1至约40％(v/v)、约2％至约40％(v/v)、约5％至约30％(v/v)、约10％至约30％(v/v)、或约10％至约20％(v/v)。在该方法的一些实施方案中，适当的反应条件可包括含水共溶剂，其包括以下的DMSO：约1％(v/v)、约5％(v/v)、约10％(v/v)、约15％(v/v)、约20％(v/v)、约25％(v/v)、约30％(v/v)、约35％(v/v)、约40％(v/v)、约45％(v/v)、或约50％(v/v)。

在一些实施方案中，反应条件可包括用于稳定或增强反应的表面活性剂。表面活性剂可包括非离子、阳离子、阴离子和/或两亲性表面活性剂。示例性表面活性剂，包括例如且不限于，壬基酚聚氧乙烯醚(nonylphenoxypolyethoxylethanol，NP40)、Triton X-100、聚氧化乙烯十八烷基胺、溴化十六烷基三甲铵、硫酸氨基油酸钠(sodium oleylamidosulfate)、聚氧乙烯-脱水山梨醇单硬脂酸酯(polyoxyethylene-sorbitanmonostearate)、十六烷基二甲基胺(hexadecyldimethylamine)等。可应用可稳定或增强反应的任何表面活性剂。在反应中待应用的表面活性剂的浓度通常可以是从0.1至50mg/ml，特别是从1至20mg/ml。

在一些实施方案中，反应条件可包括止泡剂，其有助于减少或防止反应溶液中泡沫的形成，诸如当混合或喷射反应溶液时。止泡剂包括非极性油(例如，矿物油、硅酮油等)、极性油(例如，脂肪酸、烷基胺、烷基酰胺、烷基硫酸酯(alkyl sulfate)等)、和疏水性(例如，处理的二氧化硅、聚丙烯等)，其中的一些还起表面活性剂的作用。示例性止泡剂包括，(Dow Corning)、聚二醇共聚物(poly-glycol copolymer)、氧化/乙氧基化的醇、和聚二甲硅氧烷。在一些实施方案中，止泡剂可以以约0.001％(v/v)至约5％(v/v)、约0.01％(v/v)至约5％(v/v)、约0.1％(v/v)至约5％(v/v)、或约0.1％(v/v)至约2％(v/v)存在。在一些实施方案中，当期望促进反应时，止泡剂可以以约0.001％(v/v)、约0.01％(v/v)、约0.1％(v/v)、约0.5％(v/v)、约1％(v/v)、约2％(v/v)、约3％(v/v)、约4％(v/v)、或约5％(v/v)或更多存在。

用于羟化酶反应的反应物的量将一般取决于期望的产物的量、和伴随地使用的脯氨酸羟化酶底物的量而不同。本领域普通技术人员将容易地理解如何改变这些量以使它们适合期望的水平的生产力和生产规模。

在一些实施方案中，加入反应物的顺序不是关键的。可在相同的时间将反应物一起加到溶剂中(例如单相溶剂、双相含水共溶剂系统以及类似物)，或可选地，反应物中的一些可以被单独地添加，并且一些反应物在不同的时间点一起添加。例如，辅因子、共底物、脯氨酸羟化酶和底物可以被先加到溶剂中。

可以多种不同的形式，包括粉末(例如冻干的、喷雾干燥的和类似粉末)、溶液、乳液、悬浮液和类似形式向反应提供固体反应物(例如酶、盐等)。可使用本领域普通技术人员已知的方法和装置容易地冻干或喷雾干燥反应物。例如，蛋白溶液可在-80℃以小份冷冻，然后加到预冷的冻干室中，随后应用真空。

当含水的共溶剂系统被使用时，为了改进混合效率，脯氨酸羟化酶和辅因子可被首先加入并混合进入水相。然后可加入有机相并混合，随后加入脯氨酸羟化酶底物和共底物。可选地，在加入水相之前，脯氨酸羟化酶底物可以在有机相中预混合。

通常允许羟基化过程进行直到底物向羟基化产物的进一步转化不随反应时间显著变化，例如小于10％的底物被转化，或小于5％的底物被转化)。在一些实施方案中，允许反应进行直到存在底物向产物完全或接近完全的转化。底物向产物转化可以使用已知的方法在有或没有衍生化下通过检测底物和/或产物来监测。适合的分析方法包括气相色谱法、HPLC、MS和类似方法。

在该方法的一些实施方案中，适当的反应条件包括至少约5g/L、10g/L、20g/L、30g/L、40g/L、50g/L、60g/L、70g/L、100g/L、或更多的底物载量，并且其中该方法导致在约48h或更短、约36h或更短、约24h或更短内将至少约50％、60％、70％、80％、90％、95％或更大的底物化合物至产物化合物的转化。

当在适当的反应条件下在该方法中使用时，本公开内容的工程化脯氨酸羟化酶多肽导致以相比于反式-羟基化产物的至少90％、95％、96％、97％、98％、99％、或更大的非对映体过量的顺式-羟基化产物的过量。在一些实施方案中，未形成可检测量的反式-羟基化产物化合物。

在使用工程化脯氨酸羟化酶多肽将底物化合物转化为羟基化产物化合物的方法的另外的实施方案中，适当的反应条件可包括反应溶液的初始底物载量，然后该反应溶液被多肽接触。然后该反应溶液还随着时间以至少约1g/L/h、至少约2g/L/h、至少约4g/L/h、至少约6g/L/h、或更高的速率作为连续或分批添加来补充另外的底物化合物。因此，根据这些适当的反应条件，添加多肽至具有至少约20g/L、30g/L、或40g/L的初始底物载量的溶液。然后多肽的该添加之后是以约2g/L/h、4g/L/h、或4g/L/h的速率连续添加另外的底物至溶液，直到达到至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L、150g/L、200g/L或更多的高得多的最终底物载量。因此，在方法的一些实施方案中，适当的反应条件包括将多肽添加至具有至少约20g/L、30g/L、或40g/L的初始底物载量的溶液中，然后以约2g/L/h、4g/L/h、或6g/L/h的速率添加另外的底物至溶液中，直到达到至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更多的最终底物载量。该底物补充反应条件允许获得更高底物载量，同时维持至少约50％、60％、70％、80％、90％或更大的底物转化的底物向羟基化产物的高转化率。在该方法的一些实施方案中，添加的底物是在以与该另外添加的底物等摩尔或更高的量包含α-酮戊二酸的溶液中。

在该方法的一些实施方案中，使用工程化脯氨酸羟化酶多肽的反应可包括以下适当的反应条件：(a)以约5g/L至30g/L的底物载量；(b)约0.1g/L至10g/L的工程化多肽；(c)约19g/L(0.13M)至57g/L(0.39M)的α-酮戊二酸；(d)约14g/L(0.08M)至63g/L(0.36M)抗坏血酸；(e)约1.5g/L(3.8mM)至4.5g/L(11.5mM)的FeSO₄；(f)约6至7的pH；(g)约20℃至40℃的温度；以及(h)2-24h的反应时间。

在该方法的一些实施方案中，使用工程化脯氨酸羟化酶多肽的反应可包括以下适当的反应条件：(a)以约10g/L至100g/L的底物载量；(b)约1g/L至约50g/L的工程化多肽；(c)以底物化合物的约1至2摩尔当量的α-酮戊二酸；(d)以底物化合物的约0.25至0.75摩尔当量的抗坏血酸；(e)约0.5mM至约12mM)的FeSO₄；(f)约6至8的pH；(g)约20℃至40℃的温度；以及(h)6至120h的反应时间。

在一些实施方案中，进行另外的反应组分或另外的技术以补充反应条件。这些可包括采取措施以稳定或阻止酶的失活、减少产物抑制、使反应平衡向羟基化产物形成转移。

在另外的实施方案中，任何以上描述的用于将底物化合物转化为产物化合物的方法还可包括选自以下的一种或更多种步骤：产物化合物的提取、分离、纯化、和结晶。用于从通过以上公开的方法产生的生物催化反应混合物中提取、分离、纯化、和/或结晶羟基化产物的方法、技术和试验方案是普通技术人员已知的和/或通过常规实验可获得的。另外，例证性的方法在下面的实施例中提供。

本公开内容的各种特征和实施方案在以下代表性实施例中被说明，代表性实施例意图是说明性的而非限制性的。

6.实施例

实施例1：工程化脯氨酸羟化酶多肽的合成、优化和筛选

基因合成与优化：编码如SEQ ID NO:2表示的来自苜蓿中华根瘤菌的经报道的野生型顺式-4-脯氨酸羟化酶多肽的多核苷酸序列合成为SEQ IDNO:1的基因。将SEQ ID NO:1的合成的基因克隆进入pCK110900载体系统(参见例如，美国专利申请公布20060195947，该申请在此通过引用并入本文)并且随后于大肠杆菌W3110fhuA中表达。大肠杆菌W3110在lac启动子的控制下表达脯氨酸羟化酶多肽。基于与其他脯氨酸羟化酶的序列比对和对接(docked)底物脯氨酸的酶结构的计算机模拟，与活性位点、肽环、溶液/底物交界面、和潜在的稳定性位置相关的残基位置被鉴定并经历诱变。在HTP测定条件下用(2S)-哌啶-2-羧酸作为底物筛选这些第一轮变体。鉴定了具有增加的酶活性和/或表达的变体。出于比较的目的，还生成了编码天然存在的酶的氨基酸序列的两个另外的密码子优化的多核苷酸(即，SEQ ID NO:3和5)。表达天然存在的顺式-4-脯氨酸羟化酶的密码子优化的多核苷酸3和5显示相对于SEQ ID NO:1的多核苷酸增加的表达。将来自第一轮筛选的残基差异以各种排列组合并在HTP测定、SFP测定、和DSP测定条件下筛选改进的特性。从筛选获得的工程化脯氨酸羟化酶多肽序列和特定突变及相对活性列于表2A、2B、2C、2D、2E、2F、2G、和2H中。

实施例2：工程化脯氨酸羟化酶的生产

工程化脯氨酸羟化酶多肽在大肠杆菌W3110中在lac启动子的控制下产生。用于HTP、DSP、和SFP测定的酶制品制备如下。

高通量(HTP)生长、表达、及溶解产物制备。细胞被挑选并在30℃，200rpm，85％湿度在包含1％葡萄糖和30μg/ml氯霉素(CAM)的LB培养基中生长过夜。将过夜生长的20μl等份转移至包含380μl的包含30μg/ml CAM、1mM IPTG的2xTB生长培养基的深孔板，且在30℃，200rpm，85％湿度下温育持续～18h。细胞培养物以4000rpm、4℃离心10min，并丢弃培养基。将细胞团块再悬浮在100μl溶解缓冲液(50mM磷酸盐缓冲液、pH 6.3，包含100μM莫尔盐(即，(NH₄)₂Fe(SO₄)₂)、0.5mg/mL PMBS(硫酸多粘菌素B)和1mg/mL溶菌酶)中。溶解缓冲液通过加入60mL的50mM磷酸盐缓冲液、pH 6.3，60mg溶菌酶和30mg的PMBS新鲜制备。在混合溶菌酶溶液后，添加0.6mL的10mM莫尔盐溶液(在H₂O中)。

摇瓶粉(SFP)的生产：摇瓶程序用于产生在本文公开的二次筛选测定或生物催化方法中使用的工程化脯氨酸羟化酶多肽粉。摇瓶粉(SFP)提供与HTP测定中使用的细胞溶解产物相比更纯化的工程化酶制品(例如，多达总蛋白的30％)。将包含编码感兴趣的工程化多肽的质粒的大肠杆菌的单菌落接种到包含30μg/ml氯霉素和1％葡萄糖的50mL Luria Bertani肉汤中。细胞在培养箱(incubator)中在30℃下以250rpm摇动生长过夜(至少16小时)。将培养物在1升烧瓶中包含30μg/ml氯霉素的250mL TerrificBroth(12g/L细菌用胰蛋白胨、24g/L酵母提取物、4mL/L甘油、65mM磷酸钾pH 7.0、1mM MgSO₄)中稀释至600nm的光密度(OD600)为0.2，并允许在30℃生长。当培养物的OD600是0.6至0.8时，通过加入异丙基-β-D-硫代半乳糖苷(“IPTG”)至终浓度1mM来诱导脯氨酸羟化酶基因的表达。然后温育持续过夜(至少16小时)。通过离心(5000rpm、15min、4℃)收获细胞，并丢弃上清液。将细胞团块用等体积的冷(4℃)50mM磷酸钾缓冲液，pH 6.3再悬浮，并如以上通过离心来收获。洗涤的细胞再悬浮于两体积的冷50mM磷酸钾缓冲液、pH 6.3中，并且以12,000psi经过French Press两次，同时保持在4℃。通过离心(9000rpm、45分钟、4℃)除去细胞碎片。收集澄清的溶解产物上清液，并储存在-20℃。冷冻的澄清溶解产物的冷冻干燥提供了粗制工程化多肽的干摇瓶粉。可选地，细胞团块(洗涤前或洗涤后)可储存在4℃或-80℃。

下游处理(DSP)粉的生产：DSP粉提供与HTP或SFP测定中使用的细胞溶解产物相比更纯化的工程化脯氨酸羟化酶制品。用于生产DSP粉的工程化脯氨酸羟化酶的较大规模发酵(来自10L的～100-120g)可根据标准生物加工方法作为短分批随后是进料分批法进行。简言之，通过添加IPTG至1mM的最终浓度来诱导脯氨酸羟化酶表达。在发酵之后，收获细胞，并将其再悬浮在50mM磷酸盐缓冲液中，然后通过匀化而被机械破裂。细胞碎片和核酸用聚乙烯亚胺(PEI)絮凝，并通过离心使悬浮液澄清。使用切向横流超滤膜浓缩所产生的澄清上清液以除去盐和水。然后浓缩的和部分纯化的酶浓缩物可在冷冻干燥器中干燥并被包装(例如，在聚乙烯容器中)。

实施例3：分析程序

方法1-HTP测定反应的HPLC分析：在96深孔格式测定块中，10μL的反应溶液用230μL的5％碳酸氢钠溶液随后是160μL的丹磺酰氯溶液(在MeCN中的6mg/mL丹磺酰氯)来稀释。将板加热密封、离心，并在55℃下置于培养箱中45分钟。当丹磺酰氯衍生化完成时，反应溶液由黄色变成为浅黄色。在其中溶液保持黄色的情况下，将板加热另一个15min。温育后，将板以4000rpm离心5min。将上清液的200μL等份转移进96Corning板进行HPLC分析。底物的最终浓度低于0.25g/L。

对猝灭反应在以下条件下进行HPLC分析。

化合物(2)至化合物(1)的转化由产生的色谱图来如下确定：

％转化＝{(RF x产物面积)/[(RF x产物面积)+底物面积]}x 100

其中

响应因子(RF)＝底物面积/产物面积。

使用该方法快速鉴定(2S)-哌啶-2-羧酸向羟基哌啶-2-羧酸的转化。

指示为“响应时间”的色谱洗脱曲线如下：

方法2-DSP和SFP反应的HPLC分析：将来自DSP或SFP反应的10μL反应溶液吸取进1.5ml Eppendorf管中并用230μL的5％碳酸氢钠来稀释。然后加入丹磺酰氯溶液的160μL等份(在MeCN中的6mg/ml丹磺酰氯)。将管在加热器中开着盖子在55℃下加热至少30分钟，以确保完全衍生化，如通过衍生混合物的颜色从黄色向浅黄色的变化所指示的。将管涡旋并然后以12,000rpm离心5分钟。将上清液的200μL等份转移进具有插入件的2ml HPLC小瓶中。将小瓶进行反相HPLC-UV分析，如以下所述。底物的最终浓度低于0.25g/l。

对猝灭反应在以下条件下进行HPLC分析。

色谱洗脱曲线如下：

实施例4：用于将化合物(2)转化为化合物(1)的脯氨酸羟化酶的高通量(HTP)筛选

HTP筛选测定：用于指导变体的初级筛选的高通量筛选在96板中使用细胞溶解产物进行。使用两个条件，条件A和条件B。

条件A反应如下进行。细胞如以上所述生长在96孔板中并且溶解产物通过分配100μL溶解缓冲液进入各孔来制备。溶解缓冲液通过将30mg的溶菌酶和15mg的PMBS溶解在30mL的50mM磷酸盐缓冲液，pH 6.3，中来制备。将在无菌水中新鲜制备的600μL体积的10mM莫尔盐加入至溶菌酶溶液中。将板加热密封，并然后在滴定板振动器上以速度#8在室温下振摇2h。随后，将板快速旋转以将溶解产物沉淀在板的底部。该粗制溶解产物用于反应。

200μL规模的条件A反应在98孔板中进行。预混合料贮备溶液通过将1.33g的α-酮戊二酸和1.47g的L-抗坏血酸溶解在31.5mL的50mM磷酸盐缓冲液中，pH 6.3(通过使用KOH调整pH)来制备。混合后，用KOH将pH调整至6.3。为了调整预混合料的pH，添加41.16mg的莫尔盐。溶液由于莫尔盐在水性溶剂中的低溶解度而变浑浊。

向以上制备的各100μL的粗溶解产物，将90μL的预混合料贮备溶液加入至各孔，随后立即加入10uL/孔的200g/L底物贮备溶液，即在50mM磷酸盐缓冲液、pH 6.3中制备的化合物(2)。将板用AirPore封条(Qiagen)密封，并且将反应置于滴定振动器上以#2.5的振摇速度在室温下进行过夜。

条件A具有以下最终反应参数：(a)10g/L底物载量；(b)19g/Lα-酮戊二酸；(c)21g/L抗坏血酸；(d)1.5mM莫尔盐；(e)50mM磷酸盐缓冲液，pH 6.3(用KOH调整pH)；(f)环境温度(20℃至25℃)；以及(g)约c.a.24h的反应时间。

在过夜温育后，将板以4000rpm在室温下离心5min。反应样品通过将10μL的澄清的反应混合物等分进包含230μL/孔的5％碳酸氢钠(aq)的96深孔板来衍生化并猝灭。将160μL体积的在MeCN中的6mg/mL的丹磺酰氯添加至各孔，将板热封口并且然后快速旋转以使反应溶液沉淀至孔的底部。然后将板在55℃、无振摇下加热至少45min，并以4000rpm在室温下离心10min。将200μL体积的衍生化溶液转移进96圆底板中并进行HPLC分析。

条件B反应如下进行。细胞如以上所述生长在96孔板中并且溶解产物通过分配100μL溶解缓冲液进入各孔来制备。溶解缓冲液通过将30mg的溶菌酶和15mg的PMBS溶解在30mL的50mM磷酸盐缓冲液，pH 6.3中，随后是在无菌水中新鲜制备的600μL体积的10mM莫尔盐来新鲜制备。将溶解板加热密封，并然后在滴定板振动器上以速度#8在室温下振摇2h。随后，将板快速旋转以将溶解产物沉淀在板的底部。该100μL粗溶解产物用于反应。

200μL规模的条件B反应在98孔板中进行。预混合料贮备溶液通过将1.33g的α-酮戊二酸和1.47g的L-抗坏血酸溶解在31.5mL的50mM磷酸盐缓冲液中，pH 6.3(通过使用KOH调整pH)来制备。混合后，用KOH将pH调整至6.3。为了调整预混合料的pH，添加41.16mg的莫尔盐。

向以上制备的各100μL的粗溶解产物，将90μL的预混合料贮备溶液加入至各孔，随后立即是10uL/孔的200g/L底物贮备溶液，即在50mM磷酸盐缓冲液、pH 6.3中制备的化合物(2)。将板用封条(Qiagen)密封，并且将反应置于滴定振动器上以#2.5的振摇速度在室温下进行过夜。

条件B具有以下最终反应参数：(a)10g/L底物载量；(b)19g/Lα-酮戊二酸；(c)21g/L抗坏血酸；(d)1.5mM莫尔盐；(e)50mM磷酸盐缓冲液，pH 6.3(用KOH调整pH)；(f)环境温度(20℃至25℃)；以及(g)c.a.24h的反应时间。

在过夜温育后，将板以4000rpm在室温下离心5min。反应样品通过将10μL的澄清的反应混合物等分进包含230μL/孔的5％碳酸氢钠(aq)的96深孔板来衍生化并猝灭。将160μL体积的在MeCN中的6mg/mL的丹磺酰氯添加至各孔，将板热封口并且然后快速旋转以使反应溶液沉淀至孔的底部。然后将板在Infors HT电子回旋加速器上以500rpm的振摇速度在55℃下震摇加热至少45min。将板以4000rpm在室温下离心10min。将200μL体积的衍生化溶液转移进96圆底板中并进行HPLC分析。

实施例5：用于使用药瓶粉(SFP)制品将化合物(2)转化为化合物(1)的方法

200μL规模反应使用SFP酶粉如下进行。预混合料贮备溶液通过将1.05g的α-酮戊二酸、420mg的L-抗坏血酸和600mg的底物(2S)-哌啶-2-羧酸溶解在10mL的50mM磷酸盐缓冲液中，pH 6.3(通过使用KOH调整pH)来新鲜制备。充分混合溶液后，使用KOH将pH调整至6.3。向调整pH的预混合料溶液，添加45mg的莫尔盐。

酶的贮备溶液通过将20mg的SFP酶粉溶解在2mL的50mM磷酸盐缓冲液，pH 6.3中来制备。为了启动反应，将100μL的酶溶液加入进板，随后是100μL的预混合料贮备溶液至200μL的最终反应体积。将板用封条(Qiagen)密封，并允许反应在滴定板振动器(速度#2.5)上在室温下振摇进行过夜(c.a.,24h)。

SFP测定条件(即，条件C)具有以下最终参数：(a)5g/L酶粉载量；(b)30g/L底物载量；(c)52.5g/Lα-酮戊二酸；(d)21g/L L-抗坏血酸；(e)2.25mM莫尔盐；(f)50mM磷酸钾缓冲液pH 6.3(用KOH调整pH)；(g)在环境室温下的反应温度；以及(h)约c.a.24h的反应时间。在一些反应中，反应条件还包含1％(v/v)止泡剂(Dow Corning)，且反应溶液以2L/h通入O₂气体。

反应用400μL的75％MeCN和25％H₂O来猝灭。将板在室温下振摇10min并以4000rpm离心。衍生化通过将20μL的猝灭的反应转移至包含230μL/孔的5％碳酸氢钠(aq)的96深孔板来进行。将在MeCN中的21mg/mL丹磺酰氯的150μL等份添加至各孔。将板热封口并快速旋转，并且然后将板在Infors HT电子回旋加速器上以500rpm的振摇速度在65℃下振摇温育至少1h。将板以4000rpm在室温下离心10min。将200μL体积的衍生化溶液转移进96圆底板中并通过HPLC进行分析。

实施例6：用于使用下游处理粉(DSP)制品将化合物(2)转化为化合物(1)的方法

两个反应条件用于下游处理粉(DSP)制品。称为“微型-DSP”条件(即，条件D)的第一个反应条件在1mL规模上如下进行。预混合料贮备溶液通过以下来新鲜制备：将120mg的(2S)-哌啶-2-羧酸(即，L-哌可酸)、228mg的α-酮戊二酸和252mg的L-抗坏血酸溶解于11.88mL的50mM磷酸盐缓冲液、pH 6.3中。然后预混合料溶液的pH使用KOH调整至6.3。添加120μL体积的150mM莫尔盐(在无菌水中)以形成预混合料贮备溶液。

反应通过将20mg的DSP酶粉称重进小瓶中，随后是1mL的预混合料贮备溶液来运行。将溶液充分混合，并将小瓶在室温下敞开放置过夜(～24h)。将反应溶液在反应过程中以1200rpm搅拌。

该“微型DSP”反应条件具有以下参数：(a)20g/L底物载量；(b)34g/Lα-酮戊二酸(1.5底物当量)；(c)13.6g/L抗坏血酸(0.5底物当量)；(d)1.5mM莫尔盐；(e)20g/L DSP酶制品的蛋白；(f)50mM磷酸盐缓冲液，pH 6.3(用KOH调整pH)；(f)环境温度；以及(g)～24h的反应时间。在一些反应中，反应溶液还包含1％(v/v)的止泡剂(Dow Corning)，且反应溶液在反应过程中以2L/h通入O₂气体。

为监控反应过程，采取10μL样品并溶解于230μL的5％碳酸氢钠(水溶液)中。然后将160μL体积的MeCN中的6mg/mL的丹磺酰氯添加至混合物中，充分混合管，并然后打开盖在50℃下加热30分钟。然后将样品离心，并通过HPLC分析澄清的上清液，如实施例2中所述。

称为“完全DSP”条件的第二反应条件如下进行。用于1mL规模反应的预混合料贮备溶液通过以下来新鲜制备：将240mg的(2S)-哌啶-2-羧酸(L-哌可酸)、228mg的α-酮戊二酸、和252mg的L-抗坏血酸溶解于11.88mL的50mM磷酸盐缓冲液、pH 6.3中。预混合料溶液的pH用KOH调整至6.3。添加120μL体积的150mM莫尔盐(在无菌水中)以形成预混合料贮备溶液。

反应通过将10mg的DSP酶粉称重并添加1mL的预混合料贮备溶液来运行。混合后，将小瓶在室温下敞开放置过夜(～24h)。将反应溶液在反应过程中以1200rpm搅拌。

“完全DSP”反应条件具有以下参数：(a)10g/L底物载量；(b)38g/Lα-酮戊二酸；(c)21g/L抗坏血酸；(d)1.5mM莫尔盐；(e)10g/L DSP酶制品；(f)50mM磷酸盐缓冲液pH 6.3(用KOH调整pH)；(f)25℃的反应温度；以及(g)c.a.24h的反应时间。在一些反应中，反应条件还包含1％(v/v)止泡剂(Dow Corning)，且反应溶液以2L/h通入O₂气体。

为监控反应过程，取出10μL样品并溶解于230μL的5％碳酸氢钠(水溶液)中。然后将160μL体积的在MeCN中的6mg/mL丹磺酰氯添加至混合物。将管充分混合并然后打开盖子在50℃下加热30分钟。然后将样品离心，并通过HPLC分析澄清的上清液，如实施例2中所述。

实施例7：用于使用工程化脯氨酸羟化酶多肽的DSP粉将式(II)的化合物转化为式(I)的化合物的方法

检查了工程化脯氨酸羟化酶识别除了脯氨酸或哌可酸之外的底物的能力。反应条件包括(a)20g/L底物载量；(b)35g/Lα-酮戊二酸；(c)14g/L抗坏血酸；(d)1.5mM莫尔盐；(e)10g/L SEQ ID NO:108的DSP酶制品的蛋白；(f)50mM磷酸盐缓冲液，pH 6.3(用KOH调整pH)；(f)25℃的反应温度；以及(g)～24h的反应时间。阴性对照使用从转化了没有编码脯氨酸羟化酶的基因的表达载体的细胞获得的酶制品。

反应通过以50:50的乙腈：H₂O稀释2000倍来猝灭，并且通过LC/MS/MS分析反应产物。

用于哌可酸、脯氨酸和正缬氨酸的LC/MS/MS分析在以下条件下进行：

用于四氢异喹啉羧酸的猝灭的反应在以下条件下进行LC/MS/MS分析：

实施例8：用于将L-哌可酸(化合物(2))转化为(2S,5S)-5-羟基哌啶-2-羧酸(化合物(1))随后是Boc-保护步骤的方法

酶促反应：将溶解于138ml的50mM磷酸钾缓冲液，pH 6.3中的L-哌可酸(15g)的溶液加入至包含以下的预混合的溶液中：(i)SEQ ID NO:132的多肽的DSP制品(5g)；(ii)止泡剂Y-30乳剂(5mL)；(iii)莫尔盐(1.08g)；(iv)α-酮戊二酸(25.5g)；和(iv)抗坏血酸(10.2g)；全部溶解于250mL的50mM磷酸钾缓冲液，pH 6.3中。将所得混合物搅拌并以3L/h的速率且在25℃下通入氧气。使用实施例3的方法2通过HPLC监控酶促反应的进展。L-哌可酸向(2S,5S)-5-羟基哌啶-2-羧酸的转化遵循以下反应过程：在25h时～78％转化、在45h时～92％转化、以及直到52h时～94％转化，但在75h时未达到更高转化。(2S,5S)-5-羟基哌啶-2-羧酸产物在52h反应后的区域纯度是6:1。

Boc-保护：来自酶促反应的粗混合物用KOH(50％w/w)调整至pH 9.5，加热至60℃1h，并且然后冷却至室温。此后，随着搅拌(10分钟)添加Celite过滤助剂(15g)，并将混合物通过Celite 545的1cm厚垫过滤。用水(60mL)洗涤滤饼，并向过滤液充入NaOH(10M，38.5mL)和二碳酸二叔丁基酯(Boc₂-O)(42.2g在75mL THF中)。反应完成后(在两天内～96％转化)，用庚烷洗涤水相两次(2x 125mL)。丢弃庚烷洗涤液，并且将水相用5M HCl调整至pH 3.5，且用NaCl(40g)处理。水相用叔丁基甲基醚(TBME)(3x 125mL)来提取，并将所得有机相提取物合并，经MgSO₄干燥，过滤并浓缩以产生粗(2S,5S)-1-(叔丁氧羰基)-5-羟基哌啶-2-羧酸。

分离：粗(2S,5S)-1-(叔丁氧羰基)-5-羟基吡啶-2-羧酸产物(25g)在TBME(250mL)中的溶液用磁力搅拌棒搅拌，过滤不溶物，并用TBME(150mL)润洗。浓缩的滤液在真空下干燥过夜，并溶解于乙酸异丙酯(100mL)和庚烷(100mL)中。将所得混合物在80℃下加热20-25分钟，通过热过滤除去不溶物，将滤液在室温下冷却并搅拌24h。将固体过滤并用冷的(0℃至5℃)庚烷-乙酸异丙酯混合物(1:1，50mL)洗涤滤饼。收集固体产物，并在真空下干燥过夜以得到纯化的(2S,5S)-1-(叔丁氧羰基)-5-羟基吡啶-2-羧酸(8.6g,30％产率)。

在本申请中引用的所有出版物、专利、专利申请和其他文件出于所有目的均通过引用以其整体并入本文，其程度如同分别指出将每个单独的出版物、专利、专利申请或其它文件出于所有目的通过引用并入一样。

尽管已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的精神和范围。

Claims

1.一种具有脯氨酸羟化酶活性的工程化多肽，所述工程化多肽包括具有与SEQ ID NO:2的至少80％同一性和与SEQ ID NO:2的序列相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：X166；X2；X3；X4；X5；X9；X13；X25；X26；X29；X30；X36；X42；X52；X57；X58；X59；X66；X86；X92；X95；X103；X112；X113；X115；X116；X121；X131；X150；X151；X225；X230；X270；和X271。

2.如权利要求1所述的工程化多肽，其中在残基位置X166；X2；X3；X4；X5；X9；X13；X25；X26；X29；X30；X36；X42；X52、X57；X58；X59；X66；X92；X95；X103；X112；X115；X116；X121；X131；X150；X151；X225；X230；和X271上的残基差异选自X166Q；X166L；X166T；X2K；X2T；X3S；X4Q；X4L；X4E；X4S；X5I；X5L；X5M；X9I；X13T；X25R；X26T；X29A；X30V；X30P；X36T；X42E；X52P；X57T；X57A；X58A；X59G；X66Q；X86S；X92V；X95M；X103L；X103Q；X112T；X112V；X113E、X115E；X115H；X115D；X115G；X115S；X115A；X116L；X121F；X131Y；X131F；X150S；X151S；X225L；X225Y；X225W；X230V；X270E；X271K；和X271R。

3.如权利要求1或2的任一项所述的工程化多肽，其中所述氨基酸序列包括选自以下的至少一个特征组合：

(a)X103L和X166Q；

(b)X52P和X255Y；

(c)X4E/L/S和X115A；

(d)X25R和X58A；

(e)X29A和X166T/Q/L；

(f)X115H/D/G和X121F；

(g)X3S、X103L、和X166Q；

(h)X103L、X131Y/F、和X166T/Q/L；

(i)X26T、X103L和X166T/Q/L；

(j)X25R、X66Q、X92V和X115E；

(k)X25R、X66Q、X92V、X103L、X115E、和X166Q；以及

(l)X3S、X25R、X66Q、X92V、X103L、X115E、和X166Q。

4.如权利要求1至3的任一项所述的工程化多肽，所述工程化多肽还包括与SEQ ID NO:2的序列相比在选自以下的残基位置上的一个或更多个残基差异：X17、X24、X26、X62、X88、X98、X114、X140、X151、X186、X188、和X205。

5.如权利要求4所述的工程化多肽，其中在残基位置X17、X24、X26、X62、X88、X98、X114、X140、X151、X186、X188、和X205上的残基差异选自X17V、X24R、X24S、X26R、X26W、X62Q、X88R、X98F、X98T、X114N、X140L、X151A、X151H、X186G、X188G、和X205V。

6.如权利要求1至5的任一项所述的工程化多肽，所述工程化多肽能够在适当的反应条件下将底物化合物(2)，(2S)-哌啶-2-羧酸，

转化为产物化合物(1)，(2S,5S)-5-羟基哌啶-2-羧酸，

7.如权利要求6所述的工程化多肽，其中所述多肽能够以SEQ ID NO:2的至少2倍的活性将底物化合物(2)转化为产物化合物(1)，任选地，其中所述氨基酸序列包括选自以下的一个或更多个特征：X3S；X4Q；X4L；X5I；X5L；X24S；X25R；X30P；X66Q；X86S；X92V；X103L；X103Q；X113E；X115E；X150S；X166Q；X151S；X225L；和X270E。

8.如权利要求1至6的任一项所述的工程化多肽，所述工程化多肽能够将底物化合物(2)转化为过量于产物化合物(1a)，(2S,3R)-3-羟基哌啶-2-羧酸的产物化合物(1)，

其中所述氨基酸序列包括选自以下的一个或更多个特征：X103L；X115E；X131Y和X166Q。

9.如权利要求1至6的任一项所述的工程化多肽，所述工程化多肽能够形成非对映体过量于产物化合物(1R)，(2S,5R)-5-羟基哌啶-2-羧酸

的产物化合物(1)，

10.如权利要求1所述的具有脯氨酸羟化酶活性的工程化多肽，其中所述氨基酸序列包括选自由以下组成的组的序列：SEQ ID NO:24、8、10、12、14、16、18、20、22、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、和228。

11.一种多核苷酸，所述多核苷酸编码权利要求1至10的任一项所述的工程化多肽，所述多核苷酸任选地包括选自由以下组成的组的核酸序列：SEQ ID NO:7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、和227。

12.一种编码SEQ ID NO:2的多肽的多核苷酸，所述多核苷酸包括为了在大肠杆菌(E.coli)中表达而优化的核酸序列，任选地包括具有与选自SEQ ID NO:1、3、和5的核酸序列的至少80％或更多同一性的序列。

13.一种表达载体，所述表达载体包含权利要求11或12所述的多核苷酸，任选地还包含控制序列。

14.一种宿主细胞，所述宿主细胞包含权利要求11或12所述的多核苷酸，任选地其中所述宿主细胞是大肠杆菌。

15.一种制备权利要求1至10的任一项所述的工程化多肽，所述方法包括在适合于表达所述多肽的条件下培养权利要求14所述的宿主细胞，任选地所述方法还包括分离所述工程化多肽的步骤。

16.一种用于制备式(Ia)的产物化合物的方法，

其中

Q选自由以下组成的组：(C₁-C₅)亚烷基和(C₂-C₅)亚烯基；

R¹选自由以下组成的组：羟基、氨基、(C₁-C₆)烷氧基、芳氧基、(C₁-C6)烷基硫代和芳基硫代；

R⁵是氢、或与L的碳原子形成环氧化物的直接键；

q是从0至4的整数；

其中Q+L的环碳原子的和是从2至5的整数；

条件是

(i)当Q+L的环碳原子的和是2时，则L是亚甲基；以及

(ii)当Q+L的环碳原子的和是3时，则L是键或亚乙基；

所述方法包括在适当的反应条件下在共底物的存在下，使式(IIa)的底物化合物与权利要求1至10的任一项的工程化多肽接触，

其中L、Q、R¹、R²、R⁶、和q如以上对于式(Ia)的化合物所定义；以及

代表与L的碳原子形成双键的任选的键。

17.如权利要求16所述的方法，其中式(Ia)的化合物包括式(Ib)的化合物

其中

k是从1至5的整数；

r是从0至4的整数；

其中k+r是3、4或5；以及

q是从0至4的整数；

条件是当k+r是3时，则k是1或3；

所述方法包括在适当的反应条件下在共底物的存在下，使式(IIb)的底物化合物与权利要求1至10的任一项的工程化多肽接触，

其中R¹、R²、R⁶、k、r和q如以上对于式(Ib)的化合物所定义。

18.如权利要求16所述的方法，其中式(Ia)的化合物包括式(Ic)的化合物，

其中

q是从0至4的整数；

所述方法包括在适当的反应条件下在共底物的存在下，使式(IIc)的底物化合物与权利要求1至10的任一项的工程化多肽接触，

其中

R¹、R²、R⁶和q如以上对于式(Ic)的化合物所定义。

19.如权利要求16所述的方法，其中式(Ia)的化合物包括式(Ie)的化合物

其中

q是从0至4的整数；

所述方法包括在适当的反应条件下在共底物的存在下，使式(IIe)的底物化合物与权利要求1至10的任一项的工程化多肽接触，

其中

R¹、R²、R⁶和q如对于式(Ie)的化合物所定义。

20.如权利要求16所述的方法，其中式(Ia)的化合物包括化合物(5)，

所述方法包括在适当的反应条件下在共底物的存在下，使底物化合物(6)与权利要求1至10的任一项的工程化多肽接触，

21.如权利要求16至20的任一项所述的方法，其中所述共底物包括α-酮戊二酸，任选地在与底物化合物浓度等摩尔或比其高的浓度下。

22.如权利要求16至20的任一项所述的方法，其中所述反应条件包括Fe⁺²，任选地其中所述Fe⁺²呈(NH₄)₂(FeSO₄)₂的形式。

23.如权利要求16至20的任一项所述的方法，其中所述反应条件包括能够将Fe⁺³还原为Fe⁺²的还原剂，任选地其中所述还原剂包括以底物化合物的摩尔浓度的至少约0.1倍、0.2倍、0.3倍、0.5倍、0.75倍、1倍、1.5倍、或至少2倍存在的抗坏血酸。

24.如权利要求16至20的任一项所述的方法，其中所述反应条件包括O₂，任选地其中所述O₂以强制通气来提供。

25.如权利要求16至20的任一项所述的方法，其中所述适当的反应条件包括(a)以约10g/L至100g/L的底物载量；(b)约1g/L至约50g/L的工程化多肽；(c)以底物化合物的约1至2摩尔当量的α-酮戊二酸；(d)以底物化合物的约0.25至0.75摩尔当量的抗坏血酸；(e)约0.5mM至约12mM的FeSO₄；(f)约6至8的pH；(g)约20℃至40℃的温度；以及(h)6至120h的反应时间。