CN109715817B

CN109715817B - 用于化合物的羟基化的生物催化剂和方法

Info

Publication number: CN109715817B
Application number: CN201780048037.3A
Authority: CN
Inventors: 约瓦娜·纳佐尔; 罗伯特·奥斯本; 杰克·梁; 乔纳森·弗罗姆; 张希云; 大卫·恩特韦斯特尔; 拉玛·沃兰德里; 拉维·大卫·加西亚; 杰弗里·C·穆尔; 谢恩·格罗瑟; 波吉特·科斯耶克; 马修·特鲁波
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2016-06-09
Filing date: 2017-04-19
Publication date: 2022-12-09
Anticipated expiration: 2037-04-19
Also published as: EP3469088A4; IL263448A; WO2017213758A1; US20210032605A1; IL263448B2; US20230272354A1; SG11201809575TA; US20170355968A1; EP3469088B1; EP3469088C0; US20190078061A1; US11634695B2; US10184117B2; CN109715817A; IL263448B1; US10844358B2; EP3469088A1

Abstract

本发明提供了用于产生羟基化化合物的工程化脯氨酸羟化酶多肽、编码该工程化脯氨酸羟化酶的多核苷酸、能够表达该工程化脯氨酸羟化酶的宿主细胞、以及使用该工程化脯氨酸羟化酶制备在产生活性药剂中有用的化合物的方法。

Description

用于化合物的羟基化的生物催化剂和方法

本申请要求2016年6月9日提交的美国临时专利申请序列第62/347,724号的优先权，为了所有目的特此通过引用全文并入。

技术领域

本发明涉及用于化合物的羟基化的生物催化剂。

对序列表、表格或计算机程序的引用

序列表的正式副本作为ASCII格式化文本文件经由EFS-Web与说明书同时被提交，具有文件名“CX2-153USP1_ST25.txt”，创建日期2016年6月9日，且大小为1,888,256字节。经由EFS-Web提交的序列表为说明书的一部分并且通过引用以其整体并入本文。

背景

因为脯氨酸的受约束的构象，碳环上具有官能团的脯氨酸衍生物是用于合成药物化合物的有用合成砌块(building block)。一种此类衍生物，羟基化的脯氨酸，是用于合成以下各种治疗性化合物的起始材料：包括碳青霉烯类抗生素(参见例如，Altamura等人,J.Med.,Chem.38(21):4244-56[1995])、血管紧张素转换酶抑制剂、蛋白酶抑制剂(参见例如，Chen等人,J.Org.Chem.,67(8):2730-3[2002]；Chen等人,2006,J Med Chem.49(3):995-1005)、核酸类似物(参见例如，Efimov等人,Nucleic Acids Res.,34(8):2247-2257[2006])、异戊二烯基转移酶抑制剂(O’Connell等人,Chem.Pharm.Bull.,48(5):740-742[2000])、以及药物文库构建(Vergnon等人,J.Comb.Chem.,6(1):91-8[2004]；和Remuzon,Tetrahedron 52:13803-13835[1996])。同样地，脯氨酸同系物L-哌可酸(也被称为高脯氨酸)的羟基化的衍生物还用作用于药物化合物的合成砌块。例如，羟基哌可酸是β-内酰胺酶抑制剂(参见例如，WO2009091856、WO2010126820和US20110046102)和TNF-α转化酶(TACE)抑制剂(Levatic等人,Bioorg.Med.Chem.Lett.,12(10):1387-1390[2002])的合成中的中间体。

羟基脯氨酸可从天然原料，诸如植物材料和胶原水解物获得。羟基脯氨酸还可化学合成，诸如从起始材料烯丙基溴(allyl bromide)和二乙基乙酰氨基丙二酸(Kyun Lee等人,Bull.Chem.Soc.Japan,46:2924[1973])、D-谷氨酸(Eguchi等人,Bull.Chem.Soc.Japan,47:1704-08[1974])、乙二醛和草酰乙酸(Ramaswamy等人,J.Org.Chem.,42(21):3440-3443[1977])、和α-丙氨酸(Sinha等人,Proc.ECSOC-4,TheFourth International Electronic Conference on Synthetic Organic Chemistry,ISBN 3-906980-05-7[2000])。

羟基哌可酸还可从植物和其他天然原料获得(参见例如，Romeo等人,Phytochem.,22(7):1615–1617[1983]；Fowden,Biochem.J.,70(4):629-33[1958]；和Clark-Lewis和Mortimer,Nature 184(Suppl 16):1234-5[1959])。羟基哌可酸的化学合成也是本领域已知的(参见例如，Callens等人,Bulletin des Sociétés Bulletin des SociétésChimiques Belges 91(8):713-723[2010]；Adams等人,Chem.Commun.,3:349-350[1996]；Botman等人,Org.Lett.,6(26):4941-4944[2004]；Cohen等人,Science 123(3202):842-843[1956]；Beyerman等人,Recueil des Travaux Chimiques des Pays-Bas,78(9):648-658[1959]；Marin等人,J.Org.Chem.,69(1):130-41[2004]；Kumar等人,J.Org.Chem.,70(1):360-3[2005]；Liang等人,J.Org.Chem.,70(24):10182-5[2005]；Kalamkar等人,J.Org.Chem.,73(9):3619-22[2008]；Chiou等人,J.Org.Chem.,75(5):1748-51[2010]；Lemire等人,J.Org.Chem.,75(6):2077-80[2010]；和Angelique等人,Tetrahedron Lett.,41(36):7033-7036[2000])。

从天然来源的分离受到原材料的可用性限制，需要从大量的背景污染物纯化，且缺少某些期望的非对映体。化学合成方法可需要复杂的步骤，难以扩大规模至工业规模水平，并且由于形成多个羟基化产物需要另外的纯化步骤。

用于制备羟基化脯氨酸的另一种方法使用脯氨酸羟化酶，其是2-氧代戊二酸(2-oxoglutarate)依赖性双加氧酶，利用2-氧代戊二酸(α-酮戊二酸(α-ketoglutarate))和O₂作为共底物且亚铁离子作为辅因子(参见例如，Klein等人,Adv.Synth.Catal.,353:1375-1383[2011]；美国专利号5,364,775；和Shibasaki等人,Appl.Environ.Microbiol.,65(9):4028–4031[1999])。不同于特异性识别前胶原和相关肽中的肽基脯氨酸的脯氨酰羟化酶，脯氨酸羟化酶能够将游离脯氨酸转化为羟基脯氨酸。产生顺式-3-、顺式-4-或反式-4-羟基脯氨酸的几种微生物酶是本领域已知的(参见例如，美国专利号5,962,292、5,963,254和5,854,040；WO2009139365；和EP2290065)且产生反式-3-羟基脯氨酸的酶已在真菌Glarealozoyensis的提取物中被鉴定。许多脯氨酸羟化酶发现于细菌中，其中脯氨酸羟化酶与肽类抗生素的生物合成相关。顺式-4-脯氨酸羟化酶还显示在将L-哌可酸(即，(2S)-哌啶-2-羧酸)转化为顺式-5-羟基哌可酸(即，(2S,5S)-5-羟基哌啶-2-羧酸)中的活性；Klein等人，同上)。已证明了使用这些酶用于制备5-羟基哌可酸的体外转化，但发现分离的脯氨酸羟化酶在反应条件下变性并具有相对低的比活性，致使体外应用对于商业应用不可行(Klein等人,同上)。虽然表达克隆的脯氨酸羟化酶的重组全细胞更适合于大规模工业生产过程，然而全细胞的应用限制反应条件，诸如高底物浓度的变化；约束可使用的底物类型为可渗透至细胞的那些；并导致必须从最终产物中分离的不期望的副产物。另外，体内系统可需要非最佳或成本有效的限定的生长培养基，因为应用从蛋白水解物制备的富生长培养基包含游离脯氨酸，当靶向脯氨酸之外的底物时其可以是竞争性抑制剂。期望用于合成脯氨酸和脯氨酸类似物、以及其他化合物的羟基化形式的替代方法，其可容易地扩大规模并导致基本上纯的立体异构产物。

发明概述

本发明提供了工程化脯氨酸羟化酶生物催化剂、编码该生物催化剂的多核苷酸、其制备的方法、以及使用这些工程化生物催化剂制备羟基化化合物的工艺。本发明的脯氨酸羟化酶已工程化为相对于固氮革兰氏阴性细菌苜蓿中华根瘤菌(Sinorhizobiummeliloti)的天然存在的顺式-4-脯氨酸羟化酶(SEQ ID NO:2)具有一种或更多种改进的特性。工程化脯氨酸羟化酶的改进的生物催化剂特性包括，活性、区域选择性(regioselectivity)、底物耐受性、和稳定性，以及其他。还发现工程化脯氨酸羟化酶羟化多种底物化合物，包括使用α-酮戊二酸作为共底物将(S)-哌可酸羟化为(2S,5S)-5-羟基哌可酸。在一些实施方案中，该工艺在氧气(即，空气)和铁(即，Fe(II))的存在下进行。

具有改进特性的工程化酶具有与天然存在的脯氨酸羟化酶相比的一个或更多个残基差异，其中残基差异出现在影响一个或更多个前述酶特性的残基位置上。

因此，在一个方面，本发明提供了具有脯氨酸羟化酶活性的工程化多肽，其中该多肽包括与SEQ ID NO:4、604、和/或810具有至少约80％同一性的氨基酸序列。在一些实施方案中，本发明提供了具有脯氨酸羟化酶活性的工程化多肽，其中该多肽包括SEQ ID NO:4-1004的范围中的偶数序列所列的氨基酸序列。以下详述提供了对可用于制备具有期望的改进的生物催化特性的工程化脯氨酸羟化酶的残基差异的选择的指导。

本发明提供了具有脯氨酸羟化酶活性的工程化多肽，包括与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的氨基酸序列。在一些实施方案中，本发明提供了具有脯氨酸羟化酶活性的工程化多肽，包括与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQ IDNO:4相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280。在一些实施方案中，工程化多肽与SEQID NO:6-1004中的偶数序列的至少一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。在一些另外的实施方案中，工程化多肽与SEQ ID NO:6-646和810中的偶数序列的至少一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。

本发明提供了具有脯氨酸羟化酶活性的工程化多肽，包括与SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的氨基酸序列。在一些实施方案中，本发明提供了具有脯氨酸羟化酶活性的工程化多肽，包括与SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQID NO:604相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273。在一些实施方案中，工程化多肽与SEQ ID NO:6-1004中的偶数序列的至少一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。在一些另外的实施方案中，工程化多肽与SEQ ID NO:640-982中的偶数序列的至少一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。

本发明提供了具有脯氨酸羟化酶活性的工程化多肽，包括与SEQ ID NO:810具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的氨基酸序列。在一些实施方案中，本发明提供了具有脯氨酸羟化酶活性的工程化多肽，包括与SEQ ID NO:810具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQID NO:810相比在选自33、40、95和156的残基位置上的一个或更多个残基差异的氨基酸序列。在一些实施方案中，工程化多肽与SEQ ID NO:6-1004中的偶数序列的至少一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。在一些另外的实施方案中，工程化多肽与SEQ ID NO:984-1004中的偶数序列的至少一个具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的序列同一性。

本发明还提供了具有脯氨酸羟化酶活性的工程化多肽，能够将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。在一些实施方案中，工程化多肽能够以天然存在的酶的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多的活性将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。在一些另外的实施方案中，工程化多肽能够以(2S,5S)-5-羟基哌可酸的大于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的非对映体过量将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。

本发明还提供了编码具有脯氨酸羟化酶活性的工程化多肽的多核苷酸。在一些实施方案中，多核苷酸包含为在大肠杆菌(E.coli)中表达而优化的核酸序列。

本发明还提供了包含编码具有脯氨酸羟化酶活性的工程化多肽的多核苷酸的表达载体。在一些实施方案中，表达载体包含至少一种控制序列。在一些实施方案中，表达载体包括SEQ ID NO:1007、1008或1009。

本发明还提供了包含编码具有脯氨酸羟化酶活性的工程化多肽的多核苷酸的宿主细胞。在一些实施方案中，宿主细胞为大肠杆菌。

本发明还提供了制备具有脯氨酸羟化酶活性的工程化多肽的方法，包括在适于表达多肽的条件下培养包含表达载体的宿主细胞，所述表达载体包含编码具有脯氨酸羟化酶活性的工程化多肽的至少一种多核苷酸。在一些实施方案中，方法还包括分离工程化多肽的步骤。

附图描述

图1提供了显示实施例7中描述的从赖氨酸的“一锅(one pot)”合成反应的结果的图。

发明描述

除非另外定义，本文使用的所有技术和科学术语通常具有与本发明所属领域普通技术人员通常理解的相同的含义。通常，本文使用的命名法和下文描述的细胞培养、分子遗传学、微生物学、有机化学、分析化学和核酸化学的实验室程序是本领域公知和常用的那些。这些技术是众所周知的，并且描述于本领域技术人员公知的许多教科书和参考文献中。标准技术或其修改用于化学合成和化学分析。本文(上文和下文两者)提及的所有专利、专利申请、文章和出版物，在此通过引用明确并入本文。

尽管本发明的实践中可使用类似或等同于本文描述那些的任何合适的方法和材料，本文描述了一些方法和材料。应当理解本发明不限于所描述的特定方法论、方案和试剂，因为取决于本领域技术人员使用其的情况，这些可以改变。因此，下文即将定义的术语通过参考本发明作为整体而被更充分地描述。

应该理解，上文的一般描述和下文的详细描述仅是示例性的和说明性的，而不是限制本发明。

本文使用的章节标题仅用于组织目的，并且不被解释为限制所描述的主题。

数值范围包括限定该范围的数字。因此，本文公开的每个数值范围意图包括落在此类较宽数值范围内的每一较窄数值范围，如同此类较窄数值范围在本文被全部清楚地写出。还意图本文公开的每个最大的(或最小的)数值限制包含每个较低(或较高)的数值限制，如同在本文中此类较低(或较高)数值限制被清楚地写出。

缩写

用于遗传编码的氨基酸的缩写是常规的并且如下所示：

氨基酸	三字母缩写	单字母缩写
			丙氨酸	Ala	A
精氨酸	Arg	R
			天冬酰胺	Asn	N
天冬氨酸	Asp	D
			半胱氨酸	Cys	C
谷氨酸	Glu	E
			谷氨酰胺	Gln	Q
甘氨酸	Gly	G
			组氨酸	HIS	H
异亮氨酸	Ile	I
			亮氨酸	Leu	L
赖氨酸	Lys	K
			甲硫氨酸	Met	M
苯丙氨酸	Phe	F
			脯氨酸	Pro	P
丝氨酸	Ser	S
			苏氨酸	Thr	T
色氨酸	Trp	W
			酪氨酸	Tyr	Y
缬氨酸	Val	V

当使用三字母缩写时，除非前面具体地有“L”或“D”，或者从使用缩写的上下文清楚看出，否则氨基酸可以关于α-碳(C_α)是L-构型或D-构型的。例如，“Ala”表示丙氨酸而不指定关于α-碳的构型，而“D-Ala”和“L-Ala”分别表示D-丙氨酸和L-丙氨酸。当使用单字母缩写时，大写字母表示关于α-碳的L-构型的氨基酸，小写字母表示关于α-碳的D-构型的氨基酸。例如，“A”表示L-丙氨酸并且“a”表示D-丙氨酸。当多肽序列以单字母或三字母缩写(或其混合物)串表示时，根据常规惯例将序列呈现为氨基(N)至羧基(C)方向。

用于遗传编码核苷的缩写是常规的并且如下：腺苷(A)；鸟苷(G)；胞苷(C)；胸苷(T)；和尿苷(U)。除非具体描述，否则缩写的核苷可以是核糖核苷或2'-脱氧核糖核苷。核苷可以单独地或总体地指定为核糖核苷或2'-脱氧核糖核苷。当核酸序列以单字母缩写串表示时，序列按照常规惯例呈现为5'至3'方向，并且不示出磷酸。

定义

参考本发明，本文描述中使用的技术和科学术语将具有本领域普通技术人员通常理解的含义，除非另有具体定义。因此，以下术语旨在具有以下含义。

除非上下文另外清楚指明，如本文使用的单数形式"一(a)"、"一(an)"和"该(the)"包括复数指代物。因此，例如对“多肽(a polypeptide)”的提及包括多个多肽。

类似地，“包括(comprise、comprises、comprising)”、“包括(include、includes和including)”是可互换的，而不意图是限制性的。因此，如本文使用的，术语“包含(comprising)”及其同根词以其包含性含义被使用(即，等同于术语“包括(including)”及其相应的同根词)。

还应当理解，在各种实施方案的描述中使用术语“包括(comprising)”的情况下，本领域技术人员将理解，在一些特定情况下，可以使用“基本上由...组成”或“由...组成”的语言可选择地描述实施方案。

术语“约”意指特定值的可接受误差。在一些情况下，“约”意指在给定值范围的0.05％、0.5％、1.0％或2.0％内。在一些情况下，“约”意指在给定值的1、2、3或4个标准差内。

“EC”数字指Nomenclature Committee of the International Union ofBiochemistry and Molecular Biology(生物化学和分子生物学国际联合命名委员会)(NC-IUBMB)的酶命名法。该IUBMB生化分类是基于酶催化的化学反应的酶数字分类系统。

“ATCC”指AmericanType Culture Collection(美国典型培养物保藏中心)，其生物保藏收集包括基因和菌株。

“NCBI”指National Center for Biological Information(美国国家生物技术信息中心)和在其中提供的序列数据库。

“蛋白”、“多肽”和“肽”在本文可互换使用，以表示不管长度或翻译后修饰(例如，糖基化或磷酸化)通过酰胺键共价连接的至少两个氨基酸的聚合物。包括在这一定义中的是D-氨基酸和L-氨基酸，和D-氨基酸和L-氨基酸的混合物，以及包括D-氨基酸和L-氨基酸、和D-氨基酸和L-氨基酸的混合物的聚合物。

“氨基酸”通过其通常已知的三字母符号或通过IUPAC-IUB生物化学命名委员会推荐的单字母符号在本文被提及。同样地，核苷酸可以通过其通常可接受的单字母代码被提及。

如本文使用的，“多核苷酸”和“核酸”指共价连接在一起的两个或更多个核苷。多核苷酸可以完全包含核糖核苷酸(即RNA)、完全包含2'脱氧核糖核苷酸(即DNA)或核糖核苷酸和2'脱氧核糖核苷酸的混合物。虽然核苷将通常通过标准磷酸二酯键连接在一起，但多核苷酸可以包括一个或更多个非标准连接。多核苷酸可以是单链或双链的，或者可以包括单链区和双链区二者。此外，虽然多核苷酸通常由天然存在的编码核苷碱基(即腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶)组成，它可以包含一种或更多种经修饰和/或合成的核苷碱基，诸如例如肌苷、黄嘌呤、次黄嘌呤等。在一些实施方案中，此类经修饰或合成的核苷碱基是编码氨基酸序列的核苷碱基。

“编码序列”指编码蛋白质的氨基酸序列的核酸部分(例如基因)。

“脯氨酸羟化酶”是指具有在共底物α-酮戊二酸和分子氧的存在下将游离脯氨酸转化为羟基脯氨酸的酶促能力的多肽，如以下示例的：

应理解的是，脯氨酸羟化酶不限于与脯氨酸的前述反应，而可羟化其他底物，例如哌可酸。如本文使用的，脯氨酸羟化酶包括天然存在的(野生型)脯氨酸羟化酶以及通过人类操作产生的非天然存在的工程化多肽。在一些实施方案中，本发明的脯氨酸羟化酶变体能够将(S)-哌可酸(即，化合物I)转化为(2S,5S)-5-羟基哌可酸(即，化合物II)，如以下方案1所示：

脯氨酸羟化酶的“共底物”是指α-酮戊二酸和可在脯氨酸和脯氨酸底物类似物的羟基化中代替α-酮戊二酸的共底物类似物。共底物类似物包括，例如，而不限于，2-氧代己二酸(参见例如，Majamaa等人,Biochem.J.,229:127-133[1985])。

如本文使用的，“野生型”和“天然存在的”指在自然界中发现的形式。例如野生型多肽或多核苷酸序列为生物体中存在的序列，其可从天然来源分离且未通过人为操作被有意识地修饰。

当关于细胞、核酸或多肽使用时，“重组”或“工程化”或“非天然存在的”指的是材料或相应于该材料的天然或自然形式的材料，其已经以自然中原本不存在的方式修饰。在一些实施方案中，细胞、核酸或多肽与天然存在的细胞、核酸或多肽相同，但由合成的材料和/或通过使用重组技术操作产生或衍生。非限制性实例包括，除其他以外，表达在天然(非重组)形式的细胞中未发现的基因或表达原本以不同水平表达的天然基因的重组细胞。

如本文使用的术语“序列同一性百分比(％)”是指多核苷酸或多肽之间的比较，并通过跨比较窗比较两条最佳比对的序列来确定，其中多核苷酸或多肽序列在比较窗中的部分与参考序列相比可以包括添加或缺失(即，空位)，以用于两个序列的最佳比对。百分比可以如下计算：通过确定两个序列中出现相同的核酸碱基或氨基酸残基的位置的数目，以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目，并将结果乘以100以得到序列同一性的百分比。可选地，百分比可以如下计算：通过确定两个序列中出现相同的核酸碱基或氨基酸残基或者核酸碱基或氨基酸残基与空位对齐的位置的数目，以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目，并将结果乘以100以得到序列同一性的百分比。本领域技术人员理解，存在许多可用于比对两个序列的已建立的算法。用于比较的最佳序列比对可通过任何合适的方法进行，所示方法包括但不限于，Smith和Waterman(Smith和Waterman,Adv.Appl.Math.,2:482[1981])的局部同源性算法，通过Needleman和Wunsch(Needleman和Wunsch,J.Mol.Biol.,48:443[1970])的同源性比对算法，通过Pearson和Lipman(Pearson和Lipman,Proc.Natl.Acad.Sci.USA 85:2444[1988])的相似度检索方法，通过这些算法的计算机化实现(例如，GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA)，或通过目测，如本领域已知的。适用于确定序列同一性和序列相似性百分比的算法的实例包括但不限于，BLAST和BLAST 2.0算法，其分别在Altschul等人.(参见Altschul等人,J.Mol.Biol.,215:403-410[1990]；和Altschul等人,Nucl.AcidsRes.,3389-3402[1977]中描述)。用于进行BLAST分析的软件为通过美国国家生物技术信息中心网站公共可得的。该算法包括首先通过鉴定查询序列中长度W的短字来鉴定高评分序列对(HSP)，当所述短字与数据库序列中相同长度的字比对时匹配或满足一些正值的阀值评分T。T被称为邻近字评分阈值(参见，Altschul等，同上)。这些最初的邻近字击中(wordhit)用作启动检索的种子以找到更长的包含它们的HSP。然后字击中沿着每个序列的两个方向延伸直到累积比对评分不能增加的程度。对于核苷酸序列，累积评分使用参数M(对于匹配残基对的奖励评分；永远＞0)和N(对于错配残基的惩罚评分；永远＜0)计算。对于氨基酸序列，评分矩阵用于计算累积评分。当以下情况时，每一个方向中的字击中的延伸被终止：累积比对评分从其最大达到值下降了量X；由于累积一个或更多个负评分残基比对，累积得分达到0或以下；或到达任一序列末端。BLAST算法参数W、T和X确定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列)使用以下作为缺省值：字长(W)为11、期望值(E)为10、M＝5、N＝-4、以及两个链的比较。对于氨基酸序列，BLASTP程序使用以下作为缺省值：字长(W)为3，期望值(E)为10和BLOSUM62评分矩阵(参见，Henikoff和Henikoff,Proc.Natl.Acad.Sci.USA 89:10915[1989])。序列比对与％序列同一性的示例性确定可以使用GCG Wisconsin软件包(Accelrys，MadisonWI)中的BESTFIT或GAP程序，使用提供的缺省参数。

“参考序列”指用作序列和/或活性比较的基础的指定序列。参考序列可以是更大序列的子集，例如，全长基因或多肽序列的区段。通常，参考序列为至少20个核苷酸或氨基酸残基的长度、至少25个残基的长度、至少50个残基的长度、至少100个残基的长度或核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包括在两个序列之间相似的序列(即，完整序列的一部分)，和(2)可以还包括在两个序列之间趋异的(divergent)序列，所以两个(或更多个)多核苷酸或多肽之间的序列比较通常通过比较两个多核苷酸或多肽在“比较窗”上的序列以鉴定和比较序列局部区域的相似性来进行。在一些实施方案中，“参考序列”可以是基于基本氨基酸序列，其中参考序列是可以在基本序列中具有一个或更多个变化的序列。

如本文所用的，“比较窗”指至少约20个连续核苷酸位置或氨基酸残基的概念性区段，其中序列可以与至少20个连续核苷酸或氨基酸的参考序列进行比较，并且其中序列在比较窗中的部分与参考序列(其不包含添加或缺失)相比，可以包括20％或更少的添加或缺失(即，空位)以用于两个序列的最佳比对。比较窗可以比20个连续残基更长，并任选地包括30、40、50、100或更长的窗。

在用于指定的氨基酸或多核苷酸序列的编号的情况下，“对应于”、“参考于”或“相对于”指当指定的氨基酸或多核苷酸序列与参考序列相比较时指定的参考序列残基的编号。换言之，给定的聚合物的残基数目或残基位置关于参考序列被指定，而不是通过给定的氨基酸或多核苷酸序列内残基的实际数字位置被指定。例如，给定的氨基酸序列，诸如工程化脯氨酸羟化酶的氨基酸序列可以通过引入空位以与参考序列对齐而优化两条序列之间的残基匹配。在这些情况中，尽管存在空位，在给定的氨基酸或多核苷酸序列中的残基的编号关于与其比对的参考序列作出。

“大体同一性”是指在至少20个残基位置的比较窗中、通常在至少30个-50个残基窗中，与参考序列相比，具有至少80％序列同一性、至少85％同一性、至少89％至95％序列同一性，或更通常至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性的百分比通过在比较窗上比较参考序列和包含总计为参考序列的20％或更少的缺失或添加的序列来计算。在应用于多肽的一些具体实施方案中，术语“大体同一性”指当诸如通过程序GAP或BESTFIT使用默认缺口权重进行最佳比对时，两个多肽序列共享至少80％的序列同一性，优选地至少89％的序列同一性、或至少95％的序列同一性或更高(例如99％的序列同一性)。在一些实施方案中，被比较的序列中不相同的残基位置因保守氨基酸取代不同。

如本文所用的，“氨基酸差异”和“残基差异”指在多肽序列的一个位置处氨基酸残基相对于参考序列中对应位置处的氨基酸残基的差异。本文中氨基酸差异的位置通常被称为“Xn”，其中n指残基差异所基于的参考序列中的对应位置。例如，“与SEQ ID NO:4相比在位置X93处的残基差异”指在对应于SEQ ID NO:4的位置93的多肽位置处的氨基酸残基的差异。因此，如果SEQ ID NO:4的参考多肽在位置93处具有丝氨酸，则“与SEQ ID NO:4相比在位置X93处的残基差异”指在对应于SEQ ID NO:4的位置93的多肽位置处除了丝氨酸以外的任何残基的氨基酸取代。在本文的大多数实例中，在一个位置处的特定氨基酸残基差异指示为“XnY”，其中“Xn”指定如以上描述的对应位置，并且“Y”为在工程化多肽中发现的氨基酸的单字母标识符(即，与参考多肽中的不同的残基)。在一些情况下(例如，在表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2和6.3中)，本发明还提供由常规符号“AnB”表示的特定氨基酸差异，其中A是参考序列中的残基的单字母标识符，“n”是参考序列中残基位置的编号，B是工程化多肽序列中残基取代的单字母标识符。在一些情况下，本发明的多肽相对于参考序列包含一个或更多个氨基酸残基，其由相对于参考序列存在残基差异的一列指定位置指示。在一些实施方案中，当多于一个氨基酸可以在多肽的特定残基位置中使用时，可以使用的多种氨基酸残基由“/”分开(例如，X307H/X307P或X307H/P)。斜线也可用于指示给定变体内的多个取代(即，在给定序列中存在多于一个取代，例如在组合变体中)。在一些实施方案中，本发明包括包含一个或更多个氨基酸差异的工程化多肽序列，所述氨基酸差异包括保守性氨基酸取代或非保守性氨基酸取代。在一些另外的实施方案中，本发明提供了包含保守和非保守氨基酸取代的工程化多肽序列。

如本文所用的，“保守氨基酸取代”指用具有相似侧链的不同残基来取代残基，并且因此通常包括用相同或相似的氨基酸定义类别中的氨基酸取代多肽中的氨基酸。例如但不限于，在一些实施方案中，具有脂肪族侧链的氨基酸可以被另一个脂肪族氨基酸(例如，丙氨酸、缬氨酸、亮氨酸和异亮氨酸)取代；具有羟基侧链的氨基酸被另一个具有羟基侧链的氨基酸(例如，丝氨酸和苏氨酸)取代；具有芳香族侧链的氨基酸被另一个具有芳香族侧链的氨基酸(例如，苯丙氨酸、酪氨酸、色氨酸和组氨酸)取代；具有碱性侧链的氨基酸被另一个具有碱性侧链的氨基酸(例如，赖氨酸和精氨酸)取代；具有酸性侧链的氨基酸被另一个具有酸性侧链的氨基酸(例如，天冬氨酸或谷氨酸)取代；和/或疏水性氨基酸或亲水性氨基酸分别被另一个疏水性氨基酸或亲水性氨基酸取代。

如本文所用的，“非保守取代”指用具有显著不同的侧链特性的氨基酸取代多肽中的氨基酸。非保守取代可以使用定义的组之间而不是之内的氨基酸，并且影响：(a)取代区域中的肽骨架的结构(例如，脯氨酸取代甘氨酸)，(b)电荷或疏水性，或(c)侧链堆积。例如但不限于，示例性非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸；用小氨基酸取代芳香族氨基酸；和用疏水性氨基酸取代亲水性氨基酸。

如本文所用的，“缺失”指通过从参考多肽去除一个或更多个氨基酸的多肽修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸或者20个或更多个氨基酸、多达组成参考酶的氨基酸总数的10％、或多达氨基酸总数的20％，同时保留酶促活性和/或保留工程化脯氨酸羟化酶的改进的特性。缺失可以涉及多肽的内部和/或端部。在多个实施方案中，缺失可以包括连续的区段或可以是不连续的。

如本文所用的，“插入”指通过从参考多肽添加一个或更多个氨基酸的多肽修饰。插入可以在多肽的内部或至羧基或氨基末端。如本文使用的插入包括如本领域已知的融合蛋白。插入可以是氨基酸的连续区段或由天然存在的多肽中的一个或更多个氨基酸分开。

在本文可互换使用的“功能片段”或“生物活性片段”指如下多肽：所述多肽具有氨基末端和/或羧基末端缺失和/或内部缺失，但其中剩余的氨基酸序列与和它相比的序列(例如，本发明的全长工程化脯氨酸羟化酶)中的对应位置相同，并且保留全长多肽的基本上所有的活性。

如本文所用的，“分离的多肽”指如下多肽：所述多肽与其天然伴随的其他污染物(如蛋白、脂质和多核苷酸)基本上分开。该术语包括已从它们天然存在的环境或表达系统(例如，在宿主细胞内或经由体外合成)中取出或纯化的多肽。重组脯氨酸羟化酶多肽可以存在于细胞内、存在于细胞培养基中，或以多种形式(诸如溶解产物或分离的制品)制备。因此，在一些实施方案中，重组脯氨酸羟化酶可以是分离的多肽。

如本文所用的，“基本上纯的多肽”指如下组合物，在所述组合物中多肽物类为存在的优势物类(即，在摩尔或重量基础上，它比在该组合物中的任何其他单独的大分子物类更丰富)，并且当目标物类构成存在的大分子物类的按摩尔或％重量计至少约50％时，通常为基本上纯化的组合物。然而，在一些实施方案中，包含脯氨酸羟化酶的组合物包含少于50％纯的(例如，约10％、约20％、约30％、约40％、或约50％)的脯氨酸羟化酶。通常，基本上纯的脯氨酸羟化酶组合物构成该组合物中存在的所有大分子物类的按摩尔或重量％计约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物类纯化至基本的均一性(即，通过常规检测方法不能在组合物中检测出污染物物类)，其中该组合物基本上由单一大分子物类组成。溶剂物类、小分子(<500道尔顿)和元素离子物类不被认为是大分子物类。在一些实施方案中，分离的重组脯氨酸羟化酶多肽为基本上纯的多肽组合物。

如本文所用，“改进的酶性质”是指酶的至少一种改进的性质。在一些实施方案中，本发明提供了工程化的脯氨酸羟化酶多肽，其与参考脯氨酸羟化酶多肽和/或野生型脯氨酸羟化酶多肽和/或另一种工程化的脯氨酸羟化酶多肽相比表现出任何酶性质的改进。因此，可以确定并比较各种脯氨酸羟化酶，包括野生型以及工程化的脯氨酸羟化酶之间的“改进”水平。改进的特性包括但不限于诸如以下的特性：增加的蛋白表达、增加的热活性(thermoactivity)、增加的热稳定性、增加的pH活性、增加的稳定性、增加的酶活性、增加的底物特异性或亲和力、增加的比活性、增加的对底物或终产物抑制的抗性、增加的化学稳定性、改进的化学选择性、改进的溶剂稳定性、增加的对酸性pH的耐受性、增加的对碱性pH的耐受性、增加的对蛋白水解活性的耐受性(即，降低的对蛋白水解的敏感性)、降低的聚集、增加的溶解度、和改变的温度谱。

如本文使用的，“增加的酶促活性”和“增强的酶促活性”指工程化脯氨酸羟化酶多肽的改进的特性，其可以被表示为与参考脯氨酸羟化酶相比，比活性(例如产生的产物/时间/重量蛋白)的增加或底物向产物的转化百分比(例如在指定的时间段使用指定量的脯氨酸羟化酶，起始量的底物向产物的转化百分比)的增加。确定酶活性的示例性方法被提供于实施例中。可以影响与酶活性相关的任何特性，包括经典酶特性K_m、V_max或k_cat，它们的改变可以导致增加的酶促活性。酶活性的改进可以是从对应野生型酶的酶活性的约1.1倍到相比于天然存在的脯氨酸羟化酶或脯氨酸羟化酶多肽所源自的另一种工程化脯氨酸羟化酶的多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍、150倍、200倍或更多的酶促活性。

如本文使用的，“转化”指底物向对应的产物的酶促转化(或生物转化)。“转化百分比”指在指定条件下在一定时间段内被转化为产物的底物的百分比。因此，脯氨酸羟化酶多肽的“酶促活性”或“活性”可以表示为在指定的时间段内底物向产物的“转化百分比”。

具有“通用性特性(generalist properties)”的酶(或“通用性酶”)指与亲本序列相比，对宽范围的底物表现出改进的活性的酶。通用性酶对于每种可能的底物不必表现出改进的活性。在一些实施方案中，本发明提供了具有通用性特性的脯氨酸羟化酶变体，因为它们相对于亲本基因对宽范围的空间和电子不同的底物表现出相似或改进的活性。另外，本文提供的通用性酶被工程化为跨越宽范围的不同的API样分子被改进以增加代谢物/产物的产生。

术语“严格杂交条件”在本文中用于指核酸杂合体稳定的条件。如本领域技术人员已知的，杂合体的稳定性反映在杂合体的解链温度(T_m)中。通常，杂合体的稳定性是离子强度、温度、G/C含量和离液剂的存在的函数。使用预测解链温度的已知方法可以计算多核苷酸的T_m值(参见例如，Baldino等人,Meth.Enzymol.,168:761-777[1989]；Bolton等人,Proc.Natl.Acad.Sci.USA 48:1390[1962]；Bresslauer等人,Proc.Natl.Acad.Sci.USA83:8893-8897[1986]；Freier等人,Proc.Natl.Acad.Sci.USA 83:9373-9377[1986]；Kierzek等人,Biochem.,25:7840-7846[1986]；Rychlik等人,Nucl.Acids Res.,18:6409-6412[1990](erratum,Nucl.Acids Res.,19:698[1991])；Sambrook等人,同上)；Suggs等人,1981,于Developmental Biology Using Purified Genes,Brown等人[eds.],pp.683-693,Academic Press,Cambridge,MA[1981]；和Wetmur,Crit.Rev.Biochem.Mol.Biol.26:227-259[1991])。在一些实施方案中，多核苷酸编码本文公开的多肽，并且在限定的条件下，诸如中度严格或高度严格的条件下，与编码本发明的工程化脯氨酸羟化酶的序列的互补物杂交。

“杂交严格度”指在核酸杂交中的杂交条件，诸如洗涤条件。通常，杂交反应在较低严格度的条件下进行，随后是不同的但较高严格度的洗涤。术语“中度严格杂交”指允许靶DNA结合以下互补的核酸的条件，所述互补的核酸与靶DNA具有约60％同一性，优选地约75％同一性，约85％同一性，与靶多核苷酸具有大于约90％同一性。示例性中度严格条件为等同于在42℃于50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS中杂交，随后是在42℃于0.2×SSPE、0.2％SDS中洗涤的条件。“高严格度杂交”通常指与如对指定的多核苷酸序列在溶液条件下确定的热解链温度T_m相差约10℃或更小的条件。在一些实施方案中，高严格度条件指以下的条件：其仅允许在65℃于0.018M NaCl中形成稳定的杂交体的那些核酸序列的杂交(即，如果杂交体在65℃于0.018M NaCl中为不稳定的，它在如本文考虑的高严格度条件下将为不稳定的)。可以例如通过以下提供高严格度条件：在与50％甲酰胺、5×Denhart溶液、5×SSPE、0.2％SDS在42℃等同的条件杂交，随后在0.1×SSPE和0.1％SDS中在65℃洗涤。另一高严格度条件是在与以下等同的条件中杂交：在包含0.1％(w:v)SDS的5XSSC中在65℃杂交并在包含0.1％SDS的0.1x SSC中在65℃洗涤。其他高严格度杂交条件，以及中严格度条件在以上引用的文献中描述。

“密码子优化”是指编码蛋白的多核苷酸的密码子改变为在特定生物体中优先使用的那些密码子，使得编码的蛋白在感兴趣的生物体中有效地表达。尽管遗传密码为简并的，即大多数氨基酸由被称为“同义”(“synonyms”)或“同义”(“synonymous”)密码子的几个密码子表示，但熟知的是，特定生物体的密码子使用为非随机的和对于特定的密码子三联体有偏好的。就给定的基因、具有共同功能或祖先起源的基因、高度表达的蛋白相对于低拷贝数蛋白和生物体基因组的聚集蛋白编码区域而言，这种密码子使用偏向可能更高。在一些实施方案中，可以对编码脯氨酸羟化酶的多核苷酸进行密码子优化，用于在选择用于表达的宿主生物体中的优化产生。

“优选的、最佳的、高密码子使用偏好密码子”可以互换地指在蛋白编码区中的使用频率高于编码相同氨基酸的其他密码子的密码子。优选密码子可根据单个基因、共同功能或来源的一组基因、高表达基因中的密码子使用、整个生物体的聚集蛋白编码区中的密码子频率、相关生物体的聚集蛋白编码区中的密码子频率或其组合来确定。其频率随着基因表达的水平而增加的密码子通常是用于表达的最佳密码子。用来确定特定生物体中密码子的频率(例如密码子使用、相对同义密码子使用)和密码子偏好的多种方法是已知的，包括多变量分析，例如使用聚类分析或相关性分析和基因中使用的密码子的有效数目(参见例如，GCG CodonPreference,Genetics Computer Group WisconsinPackage；CodonW,Peden,University of Nottingham；McInerney,Bioinform.,14:372-73[1998]；Stenico等人,Nucl.Acids Res.,222437-46[1994]；和Wright,Gene 87:23-29[1990])。对于许多不同的生物体，密码子使用表是可获得的(参见例如，Wada等人,Nucl.Acids Res.,20:2111-2118[1992]；Nakamura等人,Nucl.Acids Res.,28:292[2000]；Duret,等人,同上；Henaut和Danchin,in Escherichia coli and Salmonella,Neidhardt,等人(eds.),ASM Press,Washington D.C.,p.2047-2066[1996])。用于获得密码子使用的数据源可以依赖于能够编码蛋白的任何可获得的核苷酸序列。这些数据集包括实际上已知编码表达的蛋白的核酸序列(例如完整的蛋白编码序列-CDS)、表达的序列标签(ESTS)、或基因组序列的预测编码区(参见例如，Mount,Bioinformatics:Sequence and Genome Analysis,Chapter 8,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,N.Y.[2001]；Uberbacher,Meth.Enzymol.,266:259-281[1996]；和Tiwari等人,Comput.Appl.Biosci.,13:263-270[1997])。

“控制序列”在本文中指包括对本发明的多核苷酸和/或多肽的表达必要或有利的所有组分。每一个控制序列可以是对于编码多肽的核酸序列天然的或外来的。此类控制序列包括，但不限于，前导序列、多腺苷酸化序列、前肽序列、启动子序列、信号肽序列、起始序列和转录终止子。在最小程度上，控制序列包括启动子和转录及翻译终止信号。控制序列可以与接头一起被提供，以用于导入促进控制序列与编码多肽的核酸序列的编码区域的连接的特定限制性位点的目的。

“可操作地连接”在本文被定义为如下配置：在所述配置中控制序列适当放置(即，以功能关系)在相对于感兴趣的多核苷酸的位置处，使得控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达。

“启动子序列”指被宿主细胞识别用于感兴趣的多核苷酸诸如编码序列的表达的核酸序列。启动子序列包含介导感兴趣的多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变、截短的和杂合启动子，并且可以从编码与宿主细胞同源或异源的细胞外或细胞内多肽的基因来获得。

“合适的反应条件”指在酶促转化反应溶液中的那些条件(例如，酶载量、底物载量、温度、pH、缓冲液、助溶剂等的范围)，在上述条件下本发明的脯氨酸羟化酶多肽能够将底物转化为期望的产物化合物。一些示例性的“合适的反应条件”在本文提供。

如本文使用的，“载量”，诸如在“化合物载量”或“酶载量”中，指在反应起始时成分在反应混合物中的浓度或量。

如本文使用的，在酶促转化反应过程的情况下，“底物”指由脯氨酸羟化酶多肽作用的化合物或分子。

如本文使用的，在酶促转化过程的情况下，“产物”指从脯氨酸羟化酶多肽对底物的作用产生的化合物或分子。

如本文使用的术语“培养”指微生物细胞群体在任何合适的条件(例如，使用液体、凝胶或固体培养基)下的生长。

重组多肽可以使用本领域已知的任何合适的方法产生。编码感兴趣的野生型多肽的基因可以被克隆到载体诸如质粒中，并在所需的宿主例如大肠杆菌等中表达。重组多肽的变体可以通过本领域已知的各种方法产生。事实上，存在本领域技术人员公知的各种不同的诱变技术。另外，诱变试剂盒还从许多商业分子生物学供应商可得。方法可用于做出在指定的氨基酸(定点)上的特定取代、在基因的局部区域中的特异性(区域特异性)或随机突变、或在整个基因内的随机诱变(例如，饱和诱变)。本领域技术人员已知许多合适的方法来生成酶变体，包括但不限于使用PCR对单链DNA或双链DNA的定点诱变、盒式诱变、基因合成、易错PCR、改组、和化学饱和诱变、或本领域已知的任何其他合适的方法。以下专利中提供了用于DNA和蛋白质工程化的方法的非限制性实例：美国专利第6,117,679号；美国专利第6,420,175号；美国专利第6,376,246号；美国专利第6,586,182号；美国专利第7,747,391号；美国专利第7,747,393号；美国专利第7,783,428号；和美国专利第8,383,346号。在变体产生之后，可以对它们筛选任何期望的特性(例如，高或增加的活性或低或降低的活性、增加的热活性、增加的热稳定性和/或酸性pH稳定性等)。在一些实施方案中，可使用“重组脯氨酸羟化酶多肽”(在本文中还被称为“工程化脯氨酸羟化酶多肽”、“变体脯氨酸羟化酶酶”和“脯氨酸羟化酶变体”)。

如本文使用的，“载体”为用于将DNA序列导入到细胞中的DNA构建体。在一些实施方案中，载体为被可操作地连接至能够影响DNA序列中编码的多肽在合适宿主中的表达的合适的控制序列的表达载体。在一些实施方案中，“表达载体”具有可操作地连接至DNA序列(例如，转基因)以驱动在宿主细胞中表达的启动子序列，并且在一些实施方案中，还包含转录终止子序列。

如本文使用的，术语“表达”包括参与多肽产生的任何步骤，包括但不限于，转录、转录后修饰、翻译和翻译后修饰。在一些实施方案中，该术语还包括多肽从细胞中的分泌。

如本文使用，术语“产生”指蛋白和/或其他化合物从细胞的产生。意图是，该术语包括参与多肽产生的任何步骤，包括但不限于，转录、转录后修饰、翻译和翻译后修饰。在一些实施方案中，该术语还包括多肽从细胞中的分泌。

如本文使用的，如果氨基酸或核苷酸序列(例如，启动子序列、信号肽、终止子序列等)与它被可操作地连接至其的另一个序列在自然界中未缔合，则这两个序列为异源的。例如，“异源”多核苷酸是通过实验室技术被引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中取出、进行实验室操作然后重新引入宿主细胞的多核苷酸。

如本文使用的，术语“宿主细胞”和“宿主菌株”指用于包含本文提供的DNA(例如，编码脯氨酸羟化酶变体的多核苷酸)的表达载体的合适的宿主。在一些实施方案中，宿主细胞为已用使用如本领域已知的重组DNA技术构建的载体转化或转染的原核细胞或真核细胞。

术语“类似物”意指与参考多肽具有多于70％序列同一性，但少于100％序列同一性(例如，多于75％、78％、80％、83％、85％、88％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％序列同一性)的多肽。在一些实施方案中，类似物意指这样的多肽，所述多肽包含一个或更多个非天然存在的氨基酸残基以及天然存在的氨基酸，所述一个或更多个非天然存在的氨基酸残基包括但不限于高精氨酸、鸟氨酸和正缬氨酸。在一些实施方案中，类似物还包括一个或更多个D-氨基酸残基和两个或更多个氨基酸残基之间的非肽键。

术语“有效量”意指足以产生期望的结果的量。本领域一般技术人员可以通过使用常规实验确定有效量是多少。

术语“分离的”和“纯化的”用于指从与其天然缔合的至少一种其他组分分开的分子(例如，分离的核酸、多肽等)或其他组分。术语“纯化的”不要求绝对纯度，而是意图作为相对定义。

“立体选择性”是指在化学反应或酶促反应中一种立体异构体比另一种立体异构体优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于其他种，或者其可以是完全的，其中只形成一种立体异构体。当立体异构体是对映异构体时，立体选择性被称为对映选择性，即二者的总和中一种对映体的分数(通常以百分比表示)。可选择地，本领域通常报告其为根据下式从中计算的对映体过量(e.e.)(通常为百分比)：[主要对映异构体-次要对映异构体]/[主要对映异构体+次要对映体]。当立体异构体是非对映异构体时，立体选择性被称为非对映选择性，即两种非对映体的混合物中一种非对映体的分数(通常报道为百分比)，通常可选择地报告为非对映体过量(d.e.)。对映异构体过量和非对映体过量是立体异构过量的类型。

“高度立体选择性”指能够以至少约85％立体异构体过量将底物(例如底物化合物(1))转化成其相应的羟化产物(例如化合物(2))的化学或酶促反应。

“区域选择性”或“区域选择反应”是指其中相比于所有其他可能的方向，一个方向的成键或断键(bond making or breaking)优先地发生的反应。如果区别是彻底的，则反应可以是完全(100％)区域选择的，如果在一个位点的反应产物优于在其他位点的反应产物，例如优先形成产物化合物(2)(即，(2S,3S)-羟基哌可酸超过不需要的产物(2S,5S)-羟基哌可酸)，则反应可以是大体上区域选择的(至少75％)，或部分区域选择的(x％，其中百分比依赖于感兴趣的反应设置)。

如本文使用的，“热稳定”指与暴露于相同高温的野生型酶相比，在暴露于高温(例如40℃至80℃)一段时间(例如0.5小时至24小时)后，保持相似活性(例如超过60％至80％)的脯氨酸羟化酶多肽。

如本文使用的，“溶剂稳定”指与暴露于相同浓度的相同溶剂的野生型酶相比，在暴露于变化浓度(例如5％至99％)的溶剂(乙醇、异丙醇、二甲基亚砜[DMSO]、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯，乙酸丁酯、甲基叔丁基醚等)一段时间(例如0.5小时至24小时)后，保持相似活性(大于例如60％至80％)的脯氨酸羟化酶多肽。

如本文使用的，“热稳定且溶剂稳定”指既热稳定也溶剂稳定的脯氨酸羟化酶多肽。

如本文使用的，“还原剂”是指能够将Fe⁺³转化为Fe⁺²的化合物或试剂。示例性的还原剂是抗坏血酸，其通常呈L-抗坏血酸的形式。

“烷基”指具有从1至18个碳原子(包括端点)的，直链的或支链的，更优选地从1-8个碳原子(包括端点)，并且最优选地1-6个碳原子(包括端点)的饱和烃基。具有指定数目的碳原子的烷基在括号中表示(例如(C₁-C₆)烷基指1-6个碳原子的烷基)。

“烯基”指具有从2至12个碳原子(包括端点)的、直链或支链的、含有至少一个双键但任选地含有多于一个双键的烃基团。

“炔基”指具有从2至12个碳原子(包括端点)的、直链或支链的、含有至少一个三键但任选地含有多于一个三键，并且另外任选地含有一个或更多个双键键合部分的烃基团。

“亚烷基”指具有从1至18个碳原子(包括端点)的，更优选地从1至8个碳原子(包括端点)，并且最优选的1至6个碳原子(包括端点)，任选地被一个或更多个合适的取代基取代的直链或支链二价烃基。示例性的“亚烷基”包括但不限于，亚甲基、亚乙基、亚丙基、亚丁基，以及类似的。

“亚烯基”是指具有2至12个碳原子(包括端点)和一个或更多个碳-碳双键，更优选地从2至8个碳原子(包括端点)，最优选地2至6个碳原子(包括端点)，任选地被一个或更多个合适的取代基取代的直链或支链的二价烃基。

“杂烷基”、“杂烯基”和“杂炔基”分别指其中一个或更多个碳原子各自独立地被相同或不同的杂原子或杂原子基团取代的如本文定义的烷基、烯基和炔基。可以代替碳原子的杂原子和/或杂原子基团包括但不限于-O-、-S-、-S-O-、-NR^γ-、-PH-、-S(O)-、-S(O)₂-、-S(O)NR^γ-、-S(O)₂NR^γ-等，包括其组合，其中每个R^γ独立地选自氢、烷基、环烷基、杂环烷基、芳基和杂芳基。

“芳基”指具有单环(例如苯基)或多个稠环(例如萘基或蒽基)的具有从6至12个碳原子(包括端点)的不饱和芳族碳环基团。示例性的芳基包括苯基、吡啶基、萘基等。

“芳基烷基”指被芳基取代的烷基(即芳基-烷基-基团)，优选地在烷基部分具有从1至6个碳原子(包括端点)且在芳基部分具有从6至12个碳原子(包括端点)。此类芳基烷基基团的实例是苄基、苯乙基等。

“芳氧基”指–OR^λ基团，其中R^λ是可以任选地被取代的芳基基团。

“环烷基”指具有从3至12个碳原子(包括端点)的、具有单个环状环或多个稠环(condensed rings)的环状烷基基团，其可以被从1至3个烷基基团任选地取代。示例性环烷基基团包括但不限于单环结构和多环结构，所述单环结构诸如环丙基、环丁基、环戊基、环辛基、1-甲基环丙基、2-甲基环戊基、2-甲基环辛基等，所述多环结构包括桥环系诸如金刚烷基等。

“环烷基烷基”指被环烷基取代的烷基(即环烷基-烷基-基团)，优选地在烷基部分具有从1至6个碳原子(包括端点)并且在环烷基部分具有从3至12个碳原子(包括端点)。此类环烷基烷基基团的实例是环丙基甲基、环己基乙基等。

“氨基”指基团-NH₂。被取代的氨基指–NHR^η、NR^ηR^η和NR^ηR^ηR^η，其中每个R^η独立地选自被取代的或未被取代的烷基、环烷基、环杂烷基、烷氧基、芳基、杂芳基、杂芳基烷基、酰基、烷氧基羰基、硫烷基、亚磺酰基、磺酰基等。典型的氨基基团包括但不限于二甲基氨基、二乙基氨基、三甲基铵、三乙基铵、甲基磺酰基氨基、呋喃基-氧基-磺氨基等。

“氨基烷基”指其中一个或更多个氢原子被一个或更多个氨基基团(包括被取代的氨基基团)取代的烷基。

“氨基羰基”是指-C(O)NH₂。取代的氨基羰基是指–C(O)NR^ηR^η，其中氨基基团NR^ηR^η如本文所定义。

“氧基”指二价基团-O-，其可以具有各种取代基以形成不同的氧基基团，包括醚和酯。

“烷氧基”或“烷基氧基”在本文中可互换使用来指基团–OR^ξ，其中R^ξ是烷基基团，包括任选地被取代的烷基基团。

“羧基”指-COOH。

“羰基”是指-C(O)-，其可具有多种取代基以形成不同的羰基基团，包括酸、酰基卤、醛、酰胺、酯和酮。

“羧基烷基”指其中一个或更多个氢原子被一个或更多个羧基基团取代的烷基。

“氨基羰基烷基”指被如本文定义的氨基羰基基团取代的烷基。

“卤素(halogen)”或“卤代(halo)”指氟、氯、溴和碘。

“卤代烷基”指其中一个或更多个氢原子被卤素取代的烷基基团。因此，术语“卤代烷基”意指包括单卤代烷基、二卤代烷基、三卤代烷基等直到全卤代烷基。例如，表述“(C₁-C₂)卤代烷基”包括1-氟甲基、二氟甲基、三氟甲基、1-氟乙基、1,1-二氟乙基、1,2-二氟乙基、1,1,1-三氟乙基、全氟乙基等。

“羟基”指-OH。

“羟基烷基”指其中一个或更多个氢原子被一个或更多个羟基基团取代的烷基基团。

“硫基(thio)”或“硫烷基”指-SH。被取代的硫基或硫烷基指–S-R^η，其中R^η是烷基、芳基或其他合适的取代基。

“烷硫基”指–SR^ξ，其中R^ξ是可以任选地被取代的烷基。典型的烷硫基基团包括但不限于甲硫基、乙硫基、正丙硫基等。

“烷硫基烷基”指被烷硫基基团–SR^ξ取代的烷基，其中R^ξ是可以任选地被取代的烷基。

“磺酰基”指-SO₂-。被取代的磺酰基指–SO₂-R^η，其中R^η是烷基、芳基或其它合适的取代基。

“烷基磺酰基”指–SO₂-R^ξ，其中R^ξ是可以任选地被取代的烷基。典型的烷基磺酰基基团包括但不限于甲基磺酰基、乙基磺酰基、正丙基磺酰基等。

“烷基磺酰基烷基”指被烷基磺酰基基团–SO₂-R^ξ取代的烷基，其中R^ξ是可以任选地被取代的烷基。

“杂芳基”指具有从1至10个碳原子(包括端点)和在环内的选自氧、氮和硫的1至4个杂原子(包括端点)的芳族杂环基团。此类杂芳基基团可以具有单环(例如吡啶基或呋喃基)或多个稠环(例如吲嗪基(indolizinyl)或苯并噻吩基)。

“杂芳基烷基”指被杂芳基取代的烷基(即杂芳基-烷基-基团)，优选地在烷基部分具有从1至6个碳原子(包括端点)并且在杂芳基部分具有从5至12个环原子(包括端点)。此类杂芳基烷基基团的实例是吡啶基甲基等。

“杂环”、“杂环的”和可互换的“杂环烷基”指具有单环或多个稠环的、具有从2至10个碳环原子(包括端点)和在环内的选自氮、硫或氧的从1至4个杂环原子(包括端点)的饱和的或不饱和的基团。此类杂环基团可以具有单环(例如哌啶基或四氢呋喃基)或多个稠环(例如，二氢吲哚基、二氢苯并呋喃或奎宁环基(quinuclidinyl))。杂环的实例包括但不限于呋喃、噻吩、噻唑、噁唑、吡咯、咪唑、吡唑、吡啶、吡嗪、嘧啶、哒嗪、吲嗪、异吲哚、吲哚、吲唑、嘌呤、喹嗪(quinolizine)、异喹啉、喹啉、酞嗪(phthalazine)、萘基吡啶、喹喔啉、喹唑啉、噌啉、蝶啶、咔唑(carbazole)、咔啉(carboline)、菲啶(phenanthridine)、吖啶、菲咯啉(phenanthroline)、异噻唑、吩嗪(phenazine)、异噁唑、酚噁嗪(phenoxazine)、吩噻嗪(phenothiazine)、四氢咪唑(imidazolidine)、咪唑啉(imidazoline)、哌啶、哌嗪、吡咯烷、二氢吲哚(indoline)等。

“杂环烷基烷基”指被杂环烷基取代的烷基(即杂环烷基-烷基-基团)，优选在烷基部分具有从1至6个碳原子(包括端点)，并且在杂环烷基部分具有从3至12个环原子(包括端点)。

“元环(membered ring)”意在包括任何环状结构。术语“元”之前的数字表示构成环的骨架原子的数目。因此，例如环己基、吡啶、吡喃和噻喃是6元环，并且环戊基、吡咯、呋喃和噻吩是5元环。

如本文使用的，“稠合双环(Fused bicyclic ring)”是指在每个环中具有5至8个原子的未被取代的和被取代的碳环和/或杂环的环部分，所述环具有2个共用原子。

除非另外指明，否则上述基团中被氢占据的位置可以用取代基进一步取代，所述取代基例如但不限于，羟基、氧代、硝基、甲氧基、乙氧基、烷氧基、被取代的烷氧基、三氟甲氧基、卤代烷氧基、氟、氯、溴、碘、卤素、甲基、乙基、丙基、丁基、烷基、烯基、炔基、被取代的烷基、三氟甲基、卤代烷基、羟基烷基、烷氧基烷基、硫基、烷硫基、酰基、羧基、烷氧基羰基、甲酰氨基、被取代的甲酰氨基、烷基磺酰基、烷基亚磺酰基、烷基磺酰基氨基、磺酰氨基、被取代的磺酰氨基、氰基、氨基、被取代的氨基、烷基氨基、二烷基氨基、氨基烷基、酰基氨基、脒基、脒肟基(amidoximo)、羟基甲酰基(hydroxamoyl)、苯基、芳基、被取代的芳基、芳氧基、芳基烷基、芳基烯基、芳基炔基、吡啶基、咪唑基、杂芳基、被取代的杂芳基、杂芳氧基、杂芳基烷基、杂芳基烯基、杂芳基炔基、环丙基、环丁基、环戊基、环己基、环烷基、环烯基、环烷基烷基、被取代的环烷基、环烷基氧基、吡咯烷基、哌啶基、吗啉代、杂环基、(杂环)氧基和(杂环)烷基；且优选的杂原子是氧、氮和硫。应理解的是，当在这些取代基上存在开放化合价时，它们可以进一步被烷基、环烷基、芳基、杂芳基和/或杂环基团取代，当这些开放化合价存在于碳上时，它们可以进一步被卤素和氧-、氮-、或硫-键合的取代基取代，并且当存在多个这样的开放化合价时，这些基团可以通过直接形成键或通过与新的杂原子(优选氧、氮或硫)键合形成键而连接形成环。进一步理解的是，可以进行上述取代，条件是用取代基代替氢不会对本发明的分子带来不可接受的不稳定性，并且以别的方式在化学上是合理的。

“任选的”或“任选地”意指随后描述的事件或情形可以发生或可以不发生，并且意指该描述包括当该事件或情形发生时的情况和其中该事件或情形没有发生的情况。本领域普通技术人员将理解，对于被描述为包含一个或更多个任选的取代基的任何分子，仅意在包括空间上可实现的和/或合成上可行的化合物。“任选地被取代的”是指术语或一系列化学基团中的所有后续修饰对象(modifier)。例如，在术语“任选地被取代的芳基烷基”中，分子的“烷基”部分和“芳基”部分可以被取代或可以不被取代，并且对于一系列“任选地被取代的烷基、环烷基、芳基和杂芳基”，烷基、环烷基、芳基和杂芳基彼此独立地可以被取代或可以不被取代。

工程化脯氨酸羟化酶多肽

本发明提供了具有脯氨酸羟化酶活性的多肽，编码该多肽的多核苷酸，制备该多肽的方法以及使用该多肽的方法。当描述涉及多肽时，应当理解，它可以描述编码该多肽的多核苷酸。

脯氨酸羟化酶属于加双氧酶类别，其在α-酮戊二酸和氧气(O₂)的存在下催化脯氨酸羟基化。α-酮戊二酸在羟基化过程中化学计量地脱羧基，O₂分子的一个原子掺入进琥珀酸，且另一个掺入进在脯氨酸残基上形成的羟基基团。如以上提到的，脯氨酸羟化酶以其羟化游离脯氨酸的能力与脯氨酰羟化酶区分开。

基于在酶促反应中形成的主要非对映体产物，已鉴定了几种类型的脯氨酸羟化酶：顺式-3-脯氨酸羟化酶(顺式-P3H)、顺式-4-脯氨酸羟化酶(顺式-P4H)、反式-3-脯氨酸羟化酶(反式-P3H)、和反式-4-脯氨酸羟化酶(反式-P4H)。顺式-P3H酶已在链霉菌属(Streptomyces sp.)TH1、Streptomyces canus和芽孢杆菌属(Bacillus sp.)TH2和TH3中被鉴定(Mori等人,Appl.Environ.Microbiol.,62(6):1903–1907[1996])。反式-P3H已在Glarea lozoyensis中被鉴定(Petersen等人,Appl Microbiol Biotechnol.62(2-3):263-7[2003])。顺式-P4H已在百脉根根瘤菌(Lotus corniculatus rhizobia)、百脉根根瘤菌(Mesorhizobium loti)、苜蓿中华根瘤菌(Sinorhizobium meliloti)、和紫花苜蓿根瘤菌(Medicago sativa rhizobia)中鉴定(Hara和Kino,Biochem.Biophys.Res.Commun.,379(4):882-6[2009]；美国专利申请公布第2011/0091942号)。反式-P4H已在指孢囊菌属(Dactylosporangium sp.)、拟无枝酸菌属(Amycolatopsis sp.)、Streptomycesgriseoviridus、链霉菌属(Streptomyces sp.)和Glarea lozoyensis中鉴定(Shibasaki等人,Appl.Environ.Microbiol.,65(9):4028-31[1999]；Petersen等人,Appl.Microbiol.Biotechnol.,62(2-3):263-7[2003]；Mori等人,Appl.Environ.Microbiol.,62:1903–1907[1996]；Lawrence等人,Biochem.J.,313:185–191[1996]；和EP 0641862)。

来自苜蓿中华根瘤菌的顺式-4-脯氨酸羟化酶将游离脯氨酸转化为主要产物顺式-4-羟基脯氨酸。根据Klein等人，同上，该酶还识别L-哌可酸，将其转化为顺式-5-羟基哌可酸和顺式-3-羟基哌可酸的混合物。然而，对哌可酸的活性比对脯氨酸更低，且报道该酶在反应条件下具有低的比活性并变性(Klein等人，同上)。因此，用于以在大肠杆菌中表达的重组野生型酶制备羟基脯氨酸和羟基哌可酸的体外转化反应不适于作为用于商业规模制备的合成策略。发现表达酶的全细胞是更有效的，但需要使用缺乏脯氨酸的限定生长培养基以最小化游离脯氨酸的竞争，并且还简化羟基哌可酸产物的纯化(Klein等人,同上)。

在本文中描述了克服苜蓿中华根瘤菌的野生型顺式-4-脯氨酸羟化酶的缺陷的工程化脯氨酸羟化酶。源自苜蓿中华根瘤菌的野生型酶的工程化脯氨酸羟化酶多肽在体外能够将游离脯氨酸有效地转化为顺式-4-羟基脯氨酸，而且还能够有效地转化一系列底物，包括将(S)-哌可酸(1)转化为(2S,5S)-5-羟基哌可酸(2)。本发明鉴定了脯氨酸羟化酶多肽序列中与天然存在的酶相比改进了酶特性的氨基酸残基位置及相应突变，所述酶特性包括，活性、稳定性、表达、区域选择性、立体选择性、底物耐受性、和底物特异性，以及其他。特别是，本发明提供了在适当的反应条件下(例如，在氧气和Fe(II)的存在下)在共底物(例如，α-酮戊二酸)的存在下能够将底物化合物(1)有效地转化为产物化合物(2)(如以上方案1中所示)的工程化多肽。

在一些实施方案中，工程化脯氨酸羟化酶多肽显示用与野生型酶相比的相同量的酶在限定的时间内在将(S)-哌可酸(1)羟化为(2S,3S)-羟基哌可酸(2)中的增加的活性。在一些实施方案中，工程化脯氨酸羟化酶多肽在适当的反应条件下具有与由SEQ ID NO:4、604、和/或810表示的多肽相比至少约1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多的活性。

在一些实施方案中，与野生型脯氨酸羟化酶相比，工程化脯氨酸羟化酶多肽具有增加的区域选择性。具体地，天然存在的酶将底物(1)转化为相应的5-羟基化产物(2)。如本文所述，酶区域选择性是工程化多肽在所需(5S)位置优先于底物上所有其他可能的羟基化位点催化羟基化反应的能力。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够在适当的反应条件下以相对于SEQ ID NO:4、604、和/或810的参考多肽对底物存在的增加的耐受性将底物化合物(1)转化为产物化合物(2)。因此，在一些实施方案中，在合适的反应条件下，在约120h或更少、72h或更少、约48h或更少、约36h或更少或约24h或更少的反应时间内，工程化脯氨酸羟化酶多肽能够以至少约10g/L、约20g/L、约30g/L、约40g/L、约50g/L、约70g/L、约100g/L、约125g/L、约150g/L、约175g/L或约200g/L或更大的底物载量浓度以至少约40％、至少约50％、至少约60％、至少约70％、至少约80％、至少约90％、至少约95％、至少约98％或至少约99％的转化百分比转化底物化合物(1)为产物化合物(2)。

工程化多肽的上述增强的性质进行羟化反应的合适的反应条件可以根据多肽、底物、共底物、过渡金属辅因子的浓度或量、还原剂、缓冲剂、共溶剂、pH、包括温度和反应时间的条件、和/或多肽固定于固体支持物上的条件确定，如下文和实施例中进一步描述的。

在一些实施方案中，具有改进特性，特别是在将化合物(1)转化为化合物(2)中具有改进特性的具有脯氨酸羟化酶活性的示例性工程化多肽包括具有与SEQ ID NO:4相比在表4.1、4.2、4.3、4.4、5.1、6.1、6.2和6.3中所示的残基位置上的一个或更多个残基差异的氨基酸序列。

在一些另外的实施方案中，具有改进特性，特别是在将化合物(1)转化为化合物(2)中具有改进特性的具有脯氨酸羟化酶活性的示例性工程化多肽包括具有与SEQ ID NO:604相比在表4.5、4.6和4.7中所示的残基位置上的一个或更多个残基差异的氨基酸序列。

在一些另外的实施方案中，具有改进特性，特别是在将化合物(1)转化为化合物(2)中具有改进特性的具有脯氨酸羟化酶活性的示例性工程化多肽包括具有与SEQ ID NO:810相比在表4.8中所示的残基位置上的一个或更多个残基差异的氨基酸序列。

本发明的示例性非天然存在(或工程化)脯氨酸羟化酶多肽的结构与功能信息基于化合物(1)至化合物(2)的转化，其结果示于以下表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2、和/或6.3中。奇数序列标识符(即，SEQ ID NO)是指编码由偶数的SEQ ID NO提供的氨基酸序列的核苷酸序列。示例性序列被提供在伴随本发明的电子序列表文件中，该序列表文件通过引用特此并入本文。氨基酸残基差异是基于与SEQ ID NO:4、604或810的参考序列比较。苜蓿中华根瘤菌的顺式-4-脯氨酸羟化酶的天然存在的氨基酸序列在本文作为SEQ ID NO:2提供(相应的多核苷酸序列是SEQ ID NO:1，如本文提供的)。各工程化多肽相对于SEQ ID NO:4、604或810的参考多肽的活性如在本文实施例中描述的底物的转化确定。在一些实施方案中，使用摇瓶粉末(SFP)或下游工艺(DSP)粉末测定作为次级筛选以评估工程化脯氨酸羟化酶的特性，其结果提供于表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2、和/或6.3中。SFP形式提供工程化多肽的更纯化的粉末制品，并且可包含多达总蛋白的约30％的工程化多肽。由于DSP制品可包含多达总蛋白的约80％的工程化脯氨酸羟化酶，该制品可提供工程化多肽的甚至更纯化的形式。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件A”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：C37I、K39R、A101G、N131H、A156V、F176V、S2E/M151R/F176V、S2F/M151R/F176V、S2H/M151R/F176V、S2I/M151R/F176V、S2N/M151R/F176V、K8Q/S87F/M151R/F176V、K10N/M151R/F176V、R15C/I56R/L76V/G128H/M151R/F176V、R15C/L76V/G128H/M151R/F176V、R15C/M151R/F176V、R15C/I56R/L76V/K136R/M151R/F176V、R15C/I56R/L76V/M151R/F176V、S30R/V44P/A62F/L76V/G128Y/M151R/F176V、S30R/A62C/L76V/G128A/I145C/M151R/F176V、S30R/A62C/L76V/G128A/M151T/F176V、S30R/A62C/L76V/M151R/F176V、S30R/A62F/K71C/L76V/G128A/M151T/F176V、S30R/K71V/L76V/G128Y/M151T/F176V、S30R/K71V/L76V/M151R/S160E/F176V、S30R/L76V/G128A/I145C/M151R/F176V、S30R/L76V/G128A/I145C/M151R/F176V/G270V/Y280F、S30R/L76V/G128A/M151R/S160E/F176V、S30R/L76V/G128A/M151R/F176V、S30R/L76V/G128Y/M151R/F176V、S30R/L76V/M151R/F176V、S30T/V44P/V57I/L76V/G128A/M151R/F176V、S30T/V44P/V57I/L76V/G128Y/M151R/F176V、S30T/V44P/A62C/L76V/G128A/M151R/F176V、S30T/A62C/K71V/L76V/G128A/M151T/F176V、S30T/A62C/L76V/G128Y/I145C/M151R/F176V、S30T/A62C/L76V/I145C/M151R/F176V、S30T/A62F/L76V/G128A/I145C/M151R/F176V、S30T/A62F/L76V/G128Y/I145C/M151R/F176V、S30T/K71V/L76V/G128A/M151R/F176V、S30T/K71V/L76V/G128A/M151T/F176V、S30T/L76V/G128A/I145C/M151R/F176V、S30T/L76V/G128A/M151R/S160E/F176V、S30T/L76V/G128Y/I145C/M151R/F176V、S30T/L76V/G128Y/M151R/F176V、S30T/L76V/I145C/M151R/F176V、S30T/L76V/M151R/S160E/F176V、S30T/L76V/M151R/F176V、A36T/V97I、C37L/L42S/D124C/A130F/Q166M/F176V、C37L/D124N/T132S/Q166M/F176V、C37L/A130F/T132S/Q166M/F176V、C37L/A130F/Q166M/F176V、C37L/T132S/Q166M/F176V、C37L/Q166M/F176V、C37L/F176V、C43A/L45C/V58M/K71I/L76V/G128E/M151R/L165Y/F176V、C43A/K71I/L76V/G128E/M151R/F176V、C43A/E114H/M151H/L165Y/F176V、C43A/E114K/G128T/M151G/L165F/F176V/D237A、C43A/E114K/G128T/M151G/F176V/D237T/G270R、C43A/E114K/M151G/L165Y/A173R/F176V/D237K/E273V、C43A/E114K/M151G/A173R/F176V/D237S/G270R,、C43A/E114K/M151G/F176V、C43A/E114K/M151Q/F176V/D237K/G270R、C43A/E114K/M151Q/L165Y/F176V/D237A/E273V、C43A/E114R/E115P/M151R/F176V/E273V、C43A/E115P/G128T/M151G/F176V/E273V、C43A/E115P/M151G/L165Y/A173R/F176V/D237C、C43A/E115P/L121M/M151Q/L165Y/F176V/E273V、C43A/E115P/G128T/M151G/A173R/F176V/E273V、C43A/G128A/M151G/L165Y/F176V/E273V、C43A/G128A/M151G/A173R/F176V/D237S/G270R、C43A/G128A/M151Q/A173R/F176V/D237S/E273V、C43A/G128T/M151G/L165Y/A173R/F176V/D237C/G270R、C43A/G128T/M151G/L165Y/F176V/E273V、C43A/G128T/M151R/L165Y/F176V/E273V、C43A/G128T/M151G/A173R/F176V/D237T/G270R、C43A/G128T/M151G/F176V/D237A、C43A/G128T/M151Q/F176V/D237S/G270R、C43A/G128T/M151R/F176V/D237C/E273V、C43A/M151G/L165Y/F176V/E273V、C43A/M151G/A173R/F176V/G270R/E273V、C43A/M151G/F176V/G270R/E273V、C43A/M151Q/L165Y/F176V/D237C/E273V、C43A/M151Q/A173R/F176V/D237C/G270R、C43A/M151Q/A173R/F176V/D237S/G270R/E273V、C43A/M151Q/F176V/D237C、C43A/M151Q/F176V/G270R、C43A/M151Q/F176V/D237A/E273V、C43A/M151R/L165Y/F176V/D237K、C43A/M151R/L165Y/F176V/D237K/G270R、C43A/M151R/L165Y/F176V/E273V、C43A/M151R/F176V/D237A/E273V、C43A/M151R/F176V/E273V、C43A/F176V、V44M/F176V、L45C/V58M/L76V/G128E/M151R/L165Y/F176V、L45C/V58M/L76V/M151R/L165Y/F176V、L45C/L76V/M151R/L165Y/F176V、R48I/L76V/G128T/M151N/F176V、R48I/L76V/M151R/F176V、G50A/L76V/M151R/F176V、G50A/M151R/F176V、G50S/M151R/F176V、I56R/M151R/F176V、V57I/A62C/L76V/G128Y/M151T/F176V、V57I/L76V/M151R/F176V、V57I/M151R/F176V、V58M/K71I/L76V/V92C/M151R/L165Y/F176V、V58M/K71I/L76V/M151R/L165Y/F176V、V58M/L76V/L119A/M151R/F176V、V58M/L76V/M151R/F176V、V58M/M151R/F176V、A62C/L76V/I145C/M151R/F176V、A62C/M151R/F176V、A62F/M151R/F176V、P63F/L76V/M151N/F176V、P63F/L76V/M151R/F176V、P63F/M151R/F176V、P63H/L76V/G128H/K136R/M151R/F176V、P63H/M151R/F176V、P63I/L76V/K136R/M151R/F176V、P63I/L76V/G128H/K136R/M151R/F176V、P63I/L76V/M151R/F176V、P63I/M151R/F176V、P63L/L76V/M151N/F176V、P63L/L76V/M151R/F176V、P63L/M151R/F176V、P63V/L76V/M151R/F176V、P63V/M151R/F176V、K71C/L76V/G128A/M151R/S160E/F176V、K71C/L76V/G128Y/M151T/F176V、K71C/M151R/F176V、K71I/L76V/V92C/G128E/M151R/L165Y/F176V、K71I/L76V/G128E/M151R/F176V、K71I/M151R/F176V、K71V/M151R/F176V、K71V/L76V/G128Y/M151T/F176V、L76F/M151R/F176V、L76V/S87C/M151N/F176V、L76V/S87W/G128H/K136R/M151R/F176V、L76V/R88W/G128A/M151R/F176V、L76V/R88W/G128Y/M151R/F176V、L76V/L119A/D124H/M151R/L165Y/F176V、L76V/L119A/M151R/L165Y/F176V、L76V/G128A/I145C/M151R/F176V、L76V/G128A/M151R/F176V、L76V/G128A/M151R/S160E/F176V、L76V/G128E/M151R/F176V、L76V/G128H/E134Q/K136R/M151R/F176V、L76V/G128H/M151R/F176V、L76V/G128T/M151N/F176V、L76V/G128T/M151R/F176V、L76V/G128Y/I145C/M151R/F176V、L76V/G128Y/I145C/M151T/F176V、L76V/G128Y/M151R/S160E/F176V、L76V/G128Y/M151R/F176V、L76V/G128Y/M151T/F176V、L76V/M151R/S160R/F176V、L76V/M151R/F176V、N77Y/M151R/F176V、E81C/M151R/F176V、E81L/M151R/F176V、S87C/M151R/F176V、S87F/M151R/F176V、S87L/M151R/F176V、S87P/M151R/F176V、S87V/M151R/F176V、S87W/M151R/F176V、S87Y/M151R/F176V、R88V/F176V、E114R/M151Q/F176V/G270R/E273V、E114K/F176V、E114R/F176V、E115P/F176V、E115Q/G128T/M151R/A173R/F176V、G128T/M151R/L165Y/F176V/D237K/G270R、G128T/F176V、M151G/L165Y/F176V/E273V、M151Q/A173R/F176V/D237S/G270R/E273V、M151G/A173R/F176V/G270R/E273V、M151G/F176V、M151K/F176V、M151N/F176V、M151Q/F176V、M151R/F176V、M151T/F176V、I56R/P63H/L76V/K136R/M151R/F176V、I56R/L76V/K136R/M151R/F176V、I56R/L76V/M151R/F176V、L165Y/F176V、A173R/F176V、F176V/V194I、F176V/D237A、F176V/D237C、F176V/D237K、F176V/D237S、F176V/D237T、F176V/G270K、F176V/G270R、F176V/R274P、F176V/E273V、F176V/R274A、F176V/R274E、F176V/R274L和F176V/R274Q。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件B”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：S30R/C37I/K39R/A62C/L76V/M151R/S160R/F176V/S240H/A256D、S30R/C37I/L76V/A101G/M151T/P153G/L165Y/F176V/S240H/L269I、S30R/C37I/L76V/M151R/S160R/F176V、S30R/L76V/A101G/M151T/S160R/L165Y/F176V/S240H、S30R/L76V/M151R/S160R/L165Y/F176V、S30R/L76V/M151R/S160R/L165Y/F176V/S240H/A256D、S30R/L76V/M151T/S160R/F176V、S30T/I56R/L76V/K136R/M151R/S160R/F176V、S30T/I56R/L76V/M151N/S160R/F176V、S30T/I56R/L76V/M151R/S160R/F176V、S30T/L76V/M151R/S160R/F176V、C37I/K39R/A62C/L76V/A101G/M151R/S160R/F176V、C37I/K39R/L76V/M151R/S160R/F176V、C43A/V58M/L76V/M151R/S160R/F176V/F180Y/V184F、C43A/V58M/L76V/M151R/S160R/F176V/I213E/R266Q/R274Y、C43A/L76V/M151R/S160R/F176V/E178C/F180Y/V184F/I213E/S263D、L76V/S87C/G128T/K136R/M151N/L165Y/F176V、L76V/K136N/M151R/S160R/F176V/R274P/G275A、L76V/K136R/M151R/S160R/F176V、L76V/M151R/S160R/F176V/S263E/R274Y、L76V/M151R/S160R/F176V/R274P、L76V/M151R/S160R/F176V/R274P/Y280L和L76V/M151T/S160R/L165Y/F176V/S240H。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件C”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：H4P/S30R/C37I/N61D/A62G/L76V/V97A/M151R/S160R/F176V/H271Q、S30A/C37I/L76V/M151R/S160R/F176V、S30E/C37I/L76V/M151R/S160R/F176V、S30G/C37I/L76V/M151R/S160R/F176V、S30N/C37I/L76V/M151R/S160R/F176V、S30R/S33T/C37I/N61D/A62G/L76V/V97A/A130L/M151R/S160R/F176V/H271Q、S30R/S33T/C37I/A62G/L76V/V97A/L119V/M151R/S160R/F176V/H271Q、S30R/S33T/C37I/L76V/V97A/L119V/M151R/S160R/F176V、S30R/S33T/C37I/L76V/M151R/S160R/F176V、S30R/C37I/K39P/L76V/M151R/S160R/F176V、S30R/C37I/K39T/L76V/M151R/S160R/F176V、S30R/C37I/Q52P/L76V/M151R/S160R/F176V、S30R/C37I/D55E/L76V/M151R/S160R/F176V、S30R/C37I/V58T/L76V/M151R/S160R/F176V、S30R/C37I/N61D/A62E/L76V/V97A/L119V/M151R/S160R/F176V、S30R/C37I/N61D/L76V/V97A/M151R/S160R/F176V、S30R/C37I/N61D/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/N61D/L76V/M151R/S160R/F176V、S30R/C37I/N61D/A62E/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/N61D/A62G/L76V/V97A/S98P/M151R/S160R/F176V/H271Q、S30R/C37I/N61D/A62G/L76V/V97A/M151R/S160R/F176V、S30R/C37I/N61D/A62T/L76V/V97A/L119V/M151R/S160R/F176V/H271Q、S30R/C37I/N61D/A62T/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/A62E/L76V/I94L/V97A/L119V/M151R/S160R/F176V、S30R/C37I/A62E/L76V/V97A/M151R/S160R/F176V、S30R/C37I/A62E/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/A62E/L76V/M151R/S160R/F176V、S30R/C37I/A62G/L76V/V97A/S98P/M151R/S160R/F176V、S30R/C37I/A62G/L76V/V97A/M151R/S160R/F176V、S30R/C37I/A62G/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/A62G/L76V/M151R/S160R/F176V、S30R/C37I/A62R/L76V/V97A/D124E/M151R/S160R/F176V、S30R/C37I/A62R/L76V/V97A/M151R/S160R/F176V、S30R/C37I/A62R/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/A62R/L76V/M151R/S160R/F176V、S30R/C37I/A62T/L76V/V97A/S98P/M151R/S160R/F176V、S30R/C37I/A62T/L76V/V97A/L119V/M151R/S160R/F176V/H271Q、S30R/C37I/A62T/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/A62T/L76V/M151R/S160R/F176V、S30R/C37I/L76V/I94L/M151R/S160R/F176V、S30T/C37I/L76V/V95I/V97A/M151R/S160R/F176V、S30R/C37I/L76V/V95I/M151R/S160R/F176V、S30R/C37I/L76V/V97A/S98P/M151R/S160R/F176V、S30R/C37I/L76V/V97A/L119V/M151R/S160R/F176V/H271Q、S30R/C37I/L76V/V97A/M151R/S160R/F176V、S30R/C37I/L76V/V97A/M151R/S160R/F176V/H271Q、S30R/C37I/L76V/S98P/M151R/S160R/F176V、S30R/C37I/L76V/S107A/M151R/S160R/F176V、S30R/C37I/L76V/S107M/M151R/S160R/F176V、S30R/C37I/L76V/Y109F/M151R/S160R/F176V、S30R/C37I/L76V/E114G/M151R/S160R/F176V、S30R/C37I/L76V/E114N/M151R/S160R/F176V、S30R/C37I/L76V/E114Q/M151R/S160R/F176V、S30R/C37I/L76V/E114S/M151R/S160R/F176V、S30R/C37I/L76V/E115G/M151R/S160R/F176V、S30R/C37I/L76V/L119V/M151R/S160R/F176V、S30R/C37I/L76V/A130L/M151R/S160R/F176V、S30R/C37I/L76V/M151R/S160C/F176V、S30R/C37I/L76V/M151G/S160R/F176V、S30R/C37I/L76V/M151G/S160R/F176V、S30R/C37L/L76V/M151R/S160R/F176V、S30R/C37I/L76V/M151R/S160R/F176V/H271Q、S30R/C37I/L76V/M151R/S160R/F176V/V277E、S30R/C37I/L76V/M151R/S160R/F176V/V277M、S30R/C37I/L76V/M151R/S160R/F176V/V277K、S30R/C37I/L76V/M151R/S160R/F176V/V277R、S30R/C37I/V97A/M151R/S160R/F176V、S30R/C37I/V97A/M151R/S160R/F176V/V277M、S30T/C37I/L76V/M151R/S160R/F176V和S30V/C37I/L76V/M151R/S160R/F176V。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件D”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：S30R/C37I/D55E/L76V/M151R/S160R/F176V、S30R/C37I/D55S/L76V/M151R/S160R/F176V、S30R/C37I/V57A/L76V/M151R/S160R/F176V、S30R/C37I/V57A/V97A/M151R/S160R/F176V、S30R/C37I/V57L/L76V/M151R/S160R/F176V、S30R/C37I/V57T/L76V/M151R/S160R/F176V、S30R/C37I/V58C/L76V/M151R/S160R/F176V、S30R/C37I/V58H/L76V/M151R/S160R/F176V、S30R/C37I/V58L/L76V/M151R/S160R/F176V、S30R/C37I/V58N/L76V/M151R/S160R/F176V、S30R/C37I/V58T/L76V/M151R/S160R/F176V、S30R/C37I/V58Y/L76V/M151R/S160R/F176V、S30R/C37I/L76V/S107A/M151R/S160R/F176V、S30R/C37I/L76V/S107M/M151R/S160R/F176V、S30R/C37I/L76V/Y109F/M151R/S160R/F176V、S30R/C37I/L76V/E115C/M151R/S160R/F176V、S30R/C37I/L76V/E115G/M151R/S160R/F176V、S30R/C37I/L76V/M151G/S160R/F176V、S30R/C37I/L76V/M151R/A156S/S160R/F176V、S30R/C37I/L76V/M151R/S160C/F176V、S30R/C37I/L76V/M151R/S160R/Q166L/F176V、S30R/C37I/L76V/M151R/S160R/Q166V/F176V、S30R/C37I/L76V/M151R/S160R/M168I/F176V、S30R/C37I/L76V/M151R/S160R/M168L/F176V、S30R/C37I/L76V/M151R/S160R/M168R/F176V、S30R/C37I/L76V/M151R/S160R/F176V/V277E、S30R/C37I/L76V/M151R/S160R/F176V/V277K、S30R/C37I/L76V/M151R/S160R/F176V/V277M、S30R/C37I/L76V/M151R/S160R/F176V/V277R和L76V/M151R/S160R/F176V/S30R/C37I/V58S。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件E”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:604列出)：R30N/A57V/A62E/L76V/A97V/E114S/H271R/E273T、R30N/N61D/A62E/E114K/H271W/E273G、R30N/N61D/A62D/E114S/H271W、R30N/N61D/A62E/E114N/H271W、R30N/N61D/A62E/E114N/H271W/E273T、R30N/N61D/A62E/E114S/H271W/E273T、R30N/A62D/E114N/H271W/E273T、R30N/A62D/E114S/H271W/E273T、R30N/A62D/H271R、R30N/A62E/E114N/H271W、R30N/A62E/E114S/H271W/E273T、R30N/A62E/E114S/E273G和A62D/E114S/H271W。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件F”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:604列出)：S24T/R30N/A62D/E114S/H271W/E273T、R26G/R30N/A62D/E114S/H271W/E273T、R30N/A62D/S72V/E114S/H271W/E273T、R30N/A62D/T82K/E114S/H271W/E273T、R30N/A62D/T82R/E114S/H271W/E273T、R30N/A62D/E114S/S127R/H271W/E273T、R30N/A62D/E114S/S127T/H271W/E273T、R30N/A62D/E114S/L142Q/H271W/E273T、R30N/A62D/E114S/A173Y/H271W/E273T、R30N/A62D/E114S/A175Q/H271W/E273T、R30N/A62D/E114S/F180M/H271W/E273T、R30N/A62D/E114S/Q186R/H271W/E273T、R30N/A62D/E114S/P187C/H271W/E273T、R30N/A62D/E114S/V188I/H271W/E273T、R30N/A62D/E114S/T189H/H271W/E273T、R30N/A62D/E114S/T189I/H271W/E273T、R30N/A62D/E114S/R191L/H271W/E273T、R30N/A62D/E114S/D192Q/H271W/E273T、R30N/A62D/E114S/G207C/H271W/E273T、R30N/A62D/E114S/G207M/H271W/E273T、R30N/A62D/E114S/G207W/H271W/E273T、R30N/A62D/E114S/G210M/H271W/E273T、R30N/A62D/E114S/S240Q/H271W/E273T、R30N/A62D/E114S/S240T/H271W/E273T、R30N/A62D/E114S/S263D/H271W/E273T和R30N/A62D/E114S/H271W/E273T。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件G”所列的HTP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:604列出)：E13K/E27T/R30N/A62D/T82R/C86E/E114S/G207W/A256R/S263D/H271W/E273T、E13K/R30N/A62D/E114S/L142S/A175Q/F180M/S263D/H271W/E273T、A14G/R30N/A62D/E114S/H271W/E273T、S24T/R26A/R30N/A62D/S72E/T82K/E114S/G128A/A173Y/V176D/I213L/S240T/H271W/E273T、S24T/R26A/R30N/A62D/S72E/T82K/E114S/G128A/F233Y/H271W/E273T、S24T/R26A/R30N/A62D/S72E/E114S/C158N/K161P/T189A/H271W/E273T、S24T/R26A/R30N/A62D/S72E/E114S/K161P/A173K/S240T/H271W/E273T、S24T/R26A/R30N/A62D/S72E/E114S/K161P/F233E/H271W/E273T、S24T/R26A/R30N/A62D/S72Y/E114S/G128A/T189A/S240C/H271W/E273T、S24T/R26A/R30N/A62D/T82K/E114S/G128A/K161P/A173Y/F180M/K198A/I213L/F233E/S40T/H271W/E273T、S24T/R26A/R30N/A62D/T82K/E114S/C158N/K161P/F180M/F233E/H271W/E273T、S24T/R26A/R30N/A62D/E114S/G128A/A173K/T189A/S225A/F233E/H271W/E273T、S24T/R26A/R30N/A62D/E114S/G128A/F180M/G207K/H271W/E273T、S24T/R26A/R30N/A62D/E114S/A173Y/H271W/E273T、S24T/R26A/R30N/A62D/E114S/C158N/T189A/D192A/S225A/H271W/E273T、S24T/R26A/R30N/A62D/E114S/T189A/H271W/E273T、S24T/R26G/R30N/A62D/S72E/T82K/E114S/G128A/C158N/K161P/T189A/S240T/M241C/H271W/E273T、S24T/R26G/R30N/A62D/S72E/E114S/C158N/A173K/I213L/F233Y/H271W/E273T、S24T/R30N/A62D/E114S/C158N/K161P/V176D/F233E/H271W/E273T、S24T/R30N/A62D/E114S/A173K/H271W/E273T、S24T/R30N/A62D/E114S/T189H/D192W/H271W/E273T、R26A/R30N/A62D/S72E/T82K/E114S/A173Y/D192A/S240T/H271W/E273T、R26A/R30N/A62D/S72E/E114S/G128A/C158N/K198A/H271W/E273T、R26A/R30N/A62D/S72E/E114S/C158N/K161P/D192P/H271W/E273T、R26A/R30N/A62D/S72E/E114S/C158N/D192P/S240T/M241C/H271W/E273T、R26A/R30N/A62D/S72E/E114S/K161P/S225A/H271W/E273T、R26A/R30N/A62D/S72E/E114S/K161P/H271W/E273T、R26A/R30N/A62D/S72E/E114S/A173Y/F180M/H271W/E273T、R26A/R30N/A62D/T82K/E114S/C158N/K161P/H271W/E273T、R26A/R30N/A62D/T82K/E114S/F233Y/H271W/E273T、R26A/R30N/A62D/E114S/K161P/T189A/D192P/F233E/S240T/H271W/E273T、R26A/R30N/A62D/E114S/A173Y/V176D/F180M/T189A/D192P/S225A/M241C/H271W/E273T、R26G/R30N/A62D/S72E/E114S/C158N/A173K/T189A/F233E/H271W/E273T、R26G/R30N/A62D/S72Y/E114S/C158N/H271W/E273T、R26G/R30N/A62D/T82K/E114S/G128A/K161P/F180M/K198A/H271W/E273T、R26G/R30N/A62D/T82K/E114S/K161P/A173Y/F180M/D192A/F233E/H271W/E273T、R26G/R30N/A62D/T82K/E114S/H271W/E273T、E27T/R30N/A62D/T82R/E114S/G128F/D192Q/A256R/H271W/E273T、E27T/R30N/A62D/T82R/E114S/L142S/D192Q/S263D/H271W/E273T、E27T/R30N/A62D/T82R/E114S/A175Q/D192Q/H271W/E273T、E27T/R30N/A62D/T82R/E114S/F180M/D192Q/H271W/E273T、E27T/R30N/A62D/E114S/G207W/A236S/S263D/H271W/E273T、E27T/R30N/A62D/E114S/G207W/S240R/S263D/H271W/E273T、E27T/R30N/A62D/E114S/A256R/H271W/E273T、E27T/R30N/A62D/E114S/S263D/H271W/E273T、R30N/A62D/S72E/T82K/E114S/A173K/F180M/G207R/I213L/S225A/F233E/H271W/E273T、R30N/A62D/S72E/T82K/E114S/I213L/F233E/H271W/E273T、R30N/A62D/S72E/E114S/C158N/H271W/E273T、R30N/A62D/S72E/E114S/A173Y/T189A/F233E/H271W/E273T、R30N/A62D/S72V/E114S/Q186G/M193I/H271W/E273T、R30N/A62D/S72V/E114S/S240Q/H271W/E273T、R30N/A62D/N77L/E114S/H271W/E273T、R30N/A62D/E81V/E114S/H271W/E273T、R30N/A62D/T82K/E114S/G128A/I213L/H271W/E273T、R30N/A62D/T82R/C86E/E114S/R191L/D192Q/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G128F/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G128N/H271W/E273T、R30N/A62D/T82R/E114S/L142S/A175Q/F180M/G207W/A256R/H271W/E273T、R30N/A62D/T82R/E114S/A175Q/F180M/C238T/S240R/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G207W/A256R/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G207W/S263D/H271W/E273T、R30N/A62D/C86E/E114S/G207W/S263D/H271W/E273T、R30N/A62D/R88H/E114S/H271W/E273T、R30N/A62D/E114S/S127R/K161G/E185V/H271W/E273T、R30N/A62D/E114S/S127R/K161G/V188I/T189P/H271W/E273T、R30N/A62D/E114S/S127T/S240Q/H271W/E273T、R30N/A62D/E114S/G128F/L142Q/R191L/D192Q/S263D/H271W/E273T、R30N/A62D/E114S/G128K/L142S/A256R/S263D/H271W/E273T、R30N/A62D/E114S/G128S/H271W/E273T、R30N/A62D/E114S/L142G/H271W/E273T、R30N/A62D/E114S/L142Q/S263D/H271W/E273T、R30N/A62D/E114S/C158N/A173Y/I213L/H271W/E273T、R30N/A62D/E114S/C158N/H271W/E273T、R30N/A62D/E114S/K161G/E185V/V188I/T189H/H271W/E273T、R30N/A62D/E114S/K161G/E185V/T189H/H271W/E273T、R30N/A62D/E114S/K161G/T189H/H271W/E273T、R30N/A62D/E114S/P163E/H271W/E273T、R30N/A62D/E114S/A173Y/F180M/H271W/E273T、R30N/A62D/E114S/A173Y/S263G/H271W/E273T、R30N/A62D/E114S/A173Y/H271W/E273T、R30N/A62D/E114S/V176K/P187H/S263G/H271W/E273T、R30N/A62D/E114S/V176K/P187H/H271W/E273T、R30N/A62D/E114S/E178R/V184L/Q186G/H271W/E273T、R30N/A62D/E114S/V184L/Q186G/T189I/G207R/H271W/E273T、R30N/A62D/E114S/V184L/Q186G/T189I/S240Q/H271W/E273T、R30N/A62D/E114S/V184L/Q186R/G207M/H271W/E273T、R30N/A62D/E114S/V184L/T189I/G207K/H271W/E273T、R30N/A62D/E114S/V184L/T189I/G207M/H271W/E273T、R30N/A62D/E114S/V184L/G207R/H271W/E273T、R30N/A62D/E114S/V184L/G210M/S240Q/H271W/E273T、R30N/A62D/E114S/Q186G/T189I/G207R/H271W/E273T、R30N/A62D/E114S/Q186G/T189I/S240I/H271W/E273T、R30N/A62D/E114S/Q186R/T189I/G207R/H271W/E273T、R30N/A62D/E114S/Q186R/T189I/S240I/H271W/E273T、R30N/A62D/E114S/Q186R/T189I/H271W/E273T、R30N/A62D/E114S/Q186R/G207M/H271W/E273T、R30N/A62D/E114S/Q186R/G207R/H271W/E273T、R30N/A62D/E114S/Q186R/H271W/E273T、R30N/A62D/E114S/P187H/S263G/H271W/E273T、R30N/A62D/E114S/P187H/H271W/E273T、R30N/A62D/E114S/T189A/E273A、R30N/A62D/E114S/T189I/S240I/H271W/E273T、R30N/A62D/E114S/T189V/H271W/E273T、R30N/A62D/E114S/R191L/D192Q/G207W/S263D/H271W/E273T、R30N/A62D/E114S/D192Q/H271W/E273T、R30N/A62D/E114S/D195A/H271W/E273T、R30N/A62D/E114S/D195G/H271W/E273T、R30N/A62D/E114S/L200A/H271W/E273T、R30N/A62D/E114S/G207R/H271W/E273T、R30N/A62D/E114S/L209E/H271W/E273T、R30N/A62D/E114S/L209G/H271W/E273T、R30N/A62D/E114S/G210M/S240Q/H271W/E273T、R30N/A62D/E114S/F211S/H271W/E273T、R30N/A62D/E114S/I213G/H271W/E273T、R30N/A62D/E114S/I213L/F233E/H271W/E273T、R30N/A62D/E114S/I213R/H271W/E273T、R30N/A62D/E114S/I215V/H271W/E273T、R30N/A62D/E114S/E217G/H271W/E273T、R30N/A62D/E114S/A218C/H271W/E273T、R30N/A62D/E114S/A218G/H271W/E273T、R30N/A62D/E114S/E222Q/H271W/E273T、R30N/A62D/E114S/L230E/H271W/E273T、R30N/A62D/E114S/C238G/H271W/E273T、R30N/A62D/E114S/C238S/H271W/E273T、R30N/A62D/E114S/S240I/H271W/E273T、R30N/A62D/E114S/S240Q/S263G/H271W/E273T、R30N/A62D/E114S/S240Q/H271W/E273T、R30N/A62D/E114S/M241I/H271W/E273T、R30N/A62D/E114S/M241V/H271W/E273T、R30N/A62D/E114S/E259G/H271W/E273T、R30N/A62D/E114S/S263G/H271W/E273T、R30N/A62D/E114S/E265C/H271W/E273T和R30N/A62D/E114S/E265V/H271W/E273T。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件H”所列的HTP测定条件下测试。这些变体包括具有以下取代的那些(其中取代相对于SEQ ID NO:810列出)：S33G、S33H、S33K、S33T、S33W、W40Q、W40T、V95I、A156F、A156S和A156V。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件I”所列的SFP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：R26A/S30N/C37I/V57A/A62D/T82K/V97A/E114S/M151R/C158N/S160R/K161P/F176V/H271W/E273T；S30N/C37I/V57A/A62D/V97A/E114S/M151R/S160R/F176V/H271W/E273T、S30R/C37I/V57A/V97A/M151R/S160R/F176V、S30R/C37I/L76V/M151R/S160R/F176V、S30R/C37I/V97A/M151R/S160R/F176V和M151R/F176V。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件J”所列的DSP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：R26A/S30N/C37I/V57A/A62D/T82K/V97A/E114S/M151R/C158N/S160R/K161P/F176V/H271W/E273T；S30N/C37I/V57A/A62D/V97A/E114S/M151R/S160R/F176V/H271W/E273T；S30R/C37I/V57A/V97A/M151R/S160R/F176V；S30R/C37I/L76V/M151R/S160R/F176V；S30R/C37I/V97A/M151R/S160R/F176V；和M151R/F176V。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件K”所列的DSP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：R26A/S30N/C37I/V57A/A62D/T82K/V97A/E114S/M151R/C158N/S160R/K161P/F176V/H271W/E273T、S30N/C37I/V57A/A62D/V97A/E114S/M151R/S160R/F176V/H271W/E273T、S30R/C37I/V57A/V97A/M151R/S160R/F176V、S30R/C37I/L76V/M151R/S160R/F176V、S30R/C37I/V97A/M151R/S160R/F176V和M151R/F176V。

在一些实施方案中，本发明的脯氨酸羟化酶变体在本文作为“条件L”所列的DSP测定条件下测试。这些变体包括具有以下取代或取代组的那些(其中取代相对于SEQ ID NO:4列出)：R26A/S30N/C37I/V57A/A62D/T82K/V97A/E114S/M151R/C158N/S160R/K161P/F176V/H271W/E273T、S30N/C37I/V57A/A62D/V97A/E114S/M151R/S160R/F176V/H271W/E273T、S30R/C37I/V57A/V97A/M151R/S160R/F176V、S30R/C37I/L76V/M151R/S160R/F176V、S30R/C37I/V97A/M151R/S160R/F176V和M151R/F176V。

在一些实施方案中，与相比于SEQ ID NO:4、604、和/或810在本文所示残基位置上的残基差异相关的特定酶特性包括，酶活性、区域选择性、多肽表达、和底物耐受性，以及其他。酶活性和底物耐受性中的改进与本文实施例中所示残基位置上的残基差异相关。区域选择性中的改进与本文实施例中所示残基位置上的残基差异相关。在一些实施方案中，多肽表达中的改进在本文提供。因此，这些残基位置上的残基差异，可以单独或以各种组合用于产生具有期望的改进的特性的工程化脯氨酸羟化酶多肽，期望的改进的特性包括酶活性、区域选择性、立体选择性、和底物耐受性，以及其他。影响多肽表达的其他残基差异可用于增加工程化脯氨酸羟化酶的表达。

根据本文提供的指导，进一步设想，包括SEQ ID NO:4-1004的偶数序列的示例性工程化多肽的任何一种可用作用于合成其他工程化脯氨酸羟化酶多肽的起始氨基酸序列，例如，通过掺入来自表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2、和/或6.3中的其他多肽以及本文描述的其他残基位置的各种氨基酸差异的新组合通过随后几轮进化。另外的改进可以通过在贯穿较早轮的进化维持未改变的残基位置处包含氨基酸差异来生成。

在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽包括与参考序列SEQ IDNO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQ ID NO:4相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280。

在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽包括与参考序列SEQ IDNO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQ ID NO:604相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273。

因此，在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽包括与参考序列SEQ ID NO:810具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQ ID NO:810相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：33、40、95和156。

在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQ ID NO:4相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280。在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和选自以下的一个或更多个残基差异的氨基酸序列：2E、2F、2H、2I、2N、4P、8Q、10N、15C、26A、30A、30E、30G、30N、30R、30T、30V、33T、36T、37I、37L、39P、39R、39T、42S、43A、44M、44P、45C、48I、50A、50S、52P、55E、55S、56R、57A、57I、57L、57T、58C、58H、58L、58M、58N、58S、58T、58Y、61D、62C、62D、62E、62F、62G、62R、62T、63F、63H、63I、63L、63V、71C、71I、71V、76V、77Y、81C、81L、82K、87C、87F、87L、87P、87V、87W、87Y、88V、88W、92C、94L、95I、97A、97I、98P、101G、107A、107M、109F、114G、114H、114K、114N、114Q、114R、114S、115C、115G、115P、115Q、119A、119V、121M、124C、124E、124H、124N、128A、128E、128H、128T、128Y、130F、130L、131H、132S、134Q、136N、136R、145C、151G、151H、151K、151N、151Q、151R、151T、153G、156S、156V、158N、160C、160E、160R、161P、165F、165Y、166L、166M、166V、168I、168L、168R、173R、176V、178C、180Y、184F、194I、213E、237A、237C、237K、237S、237T、240H、256D、263D、263E、266Q、L269I、270K、270R、270V、271Q、271W、273T、273V、274A、274E、274L、274P、274Q、274Y、275A、277E、277K、277M、277R、280F和280L(相对于SEQ ID NO:4)。在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和选自以下的一个或更多个残基差异的氨基酸序列：S2E、S2F、S2H、S2I、S2N、H4P、K8Q、K10N、R15C、R26A、S30A S30E、S30G、S30N、S30R、S30T、S30V、S33T、A36T、C37I、C37L、K39P、K39R、K39T、L42S、C43A、V44M、V44P、L45C、R48I、G50A、G50S、Q52P、D55E、D55S、I56R、V57A、V57I、V57L、V57T、V58C、V58H、V58L、V58M、V58N、V58S、V58T、V58Y、N61D、A62CA62D、A62E、A62F、A62G、A62R、A62T、P63F、P63H、P63I、P63L、P63V、K71C、K71I、K71V、L76F、L76V、N77Y、E81C、E81L、T82K、S87C、S87F、S87L、S87P、S87V、S87W、S87Y、R88V、R88W、V92C、I94L、V95I、V97A、V97I、S98P、A101G、S107A、S107M、Y109F、E114G、E114H、E114K、E114N、E114Q、E114R、E114S、E115C、E115G、E115P、E115Q、L119A、L119V、L121M、D124C、D124E、D124H、D124N、G128A、G128E、G128H、G128T、G128Y、A130F、A130L、N131H、T132S、E134Q、K136N、K136R、I145C、M151G、M151H、M151K、M151N、M151Q、M151R、M151T、P153G、A156S、C158N、A156V、S160C、S160E、S160R、K161P、L165F、L165Y、Q166L、Q166M、Q166V、M168I、M168L、M168R、A173R、F176V、E178C、F180Y、V184F、V194I、I213E、D237A、D237C、D237K、D237S、D237T、S240H、A256D、S263D、S263E、R266Q、L269I、G270K、G270R、G270V、H271Q、H271W、E273T、E273V、R274A、R274E、R274L、R274P、R274Q、R274Y、G275A、V277E、V277K、V277M、V277R、Y280F和Y280L(相对于SEQ ID NO:4)。

在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和在选自以下的残基位置的一个或更多个残基差异的氨基酸序列：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273。在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和在选自以下的一个或更多个残基差异的氨基酸序列：13K、14G、24T、26A、26G、27T、30N、61D、62D、62E、72E、72V、72Y、76V、77L、81V、82K、82R、86E、97V、114K、114N、114S、127R、127T、128A、128F、128K、128N、128S、142G、142Q、142S、158N、161G、161P、163E、173K、173Y、175Q、176D、176K、178R、180M、184L、185V、186G、186R、187C、187H、188I、189A、189H、189I、189P、189V、191L、192A、192P、192Q、192W、193I、195A、195G、198A、200A、207C、207K、207M、207R、207W、209E、209G、210M、211S、213G、213L、213R、215V、217G、218C、218G、222Q、225A、230E、233E、233Y、236S、238G、238S、238T、240C、240I、240Q、240R、240T、241C、241I、241L、241V、256R、259G、263D、263G、265C、265V、271R、271W、273G和273T(相对于SEQ ID NO:604)。在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和选自以下的一个或更多个残基差异的氨基酸序列：E13K、A14G、S24T、R26A、R26G、E27T、R30N、A57V、N61D、A62D、A62E、S72E、S72V、S72Y、L76V、N77L、E81V、T82K、T82R、C86E、R88H、A97V、E114K、E114N、E114S、S127R、S127T、G128A、G128F、G128K、G128N、G128S、L142G、L142Q、L142S、C158N、K161G、K161P、P163E、A173K、A173Y、A175Q、V176D、V176K、E178R、F180M、V184L、E185V、Q186G、Q186R、P187C、P187H、V188I、T189A、T189H、T189I、T189P、T189V、R191L、D192A、D192Q、D192P、D192W、M193I、D195A、D195G、K198A、L200A、G207C、G207K、G207M、G207R、G207W、L209E、L209G、G210M、F211S、I213G、I213L、I213R、I215V、E217G、A218C、A218G、E222Q、S225A、L230E、F233E、F233Y、C238G、C238S、C238T A236S、S240C、S240I、S240Q、S240R、S240T、M241C、M241I、M241L、M241V、A256R、E259G、S263D、S263G、E265C、E265V、H271RH271W、E273A、E273G、E273T(相对于SEQ ID NO:604)。在一些实施方案中，工程化脯氨酸羟化酶多肽包括与SEQ ID NO:604相比具有选自以下的残基差异的至少组合的氨基酸序列：E13K/E27T/R30N/A62D/T82R/C86E/E114S/G207W/A256R/S263D/H271W/E273T、E13K/R30N/A62D/E114S/L142S/A175Q/F180M/S263D/H271W/E273T、A14G/R30N/A62D/E114S/H271W/E273T、S24T/R26A/R30N/A62D/S72E/T82K/E114S/G128A/A173Y/V176D/I213L/S240T/H271W/E273T、S24T/R26A/R30N/A62D/S72E/T82K/E114S/G128A/F233Y/H271W/E273T、S24T/R26A/R30N/A62D/S72E/E114S/C158N/K161P/T189A/H271W/E273T、S24T/R26A/R30N/A62D/S72E/E114S/K161P/A173K/S240T/H271W/E273T、S24T/R26A/R30N/A62D/S72E/E114S/K161P/F233E/H271W/E273T、S24T/R26A/R30N/A62D/S72Y/E114S/G128A/T189A/S240C/H271W/E273T、S24T/R26A/R30N/A62D/T82K/E114S/G128A/K161P/A173Y/F180M/K198A/I213L/F233E/S240T/H271W/E273T、S24T/R26A/R30N/A62D/T82K/E114S/C158N/K161P/F180M/F233E/H271W/E273T、S24T/R26A/R30N/A62D/E114S/G128A/A173K/T189A/S225A/F233E/H271W/E273T、S24T/R26A/R30N/A62D/E114S/G128A/F180M/G207K/H271W/E273T、S24T/R26A/R30N/A62D/E114S/C158N/T189A/D192A/S225A/H271W/E273T、S24T/R26A/R30N/A62D/E114S/A173Y/H271W/E273T、S24T/R26A/R30N/A62D/E114S/T189A/H271W/E273T、S24T/R26G/R30N/A62D/S72E/T82K/E114S/G128A/C158N/K161P/T189A/S240T/M241C/H271W/E273T、S24T/R26G/R30N/A62D/S72E/E114S/C158N/A173K/I213L/F233Y/H271W/E273T、S24T/R30N/A62D/E114S/C158N/K161P/V176D/F233E/H271W/E273T、S24T/R30N/A62D/E114S/A173K/H271W/E273T、S24T/R30N/A62D/E114S/T189H/D192W/H271W/E273T、S24T/R30N/A62D/E114S/H271W/E273T、R26A/R30N/A62D/S72E/T82K/E114S/A173Y/D192A/S240T/H271W/E273T、R26A/R30N/A62D/S72E/E114S/G128A/C158N/K198A/H271W/E273T、R26A/R30N/A62D/S72E/E114S/C158N/K161P/D192P/H271W/E273T、R26A/R30N/A62D/S72E/E114S/C158N/D192P/S240T/M241C/H271W/E273T、R26A/R30N/A62D/S72E/E114S/K161P/S225A/H271W/E273T、R26A/R30N/A62D/S72E/E114S/K161P/H271W/E273T、R26A/R30N/A62D/S72E/E114S/A173Y/F180M/H271W/E273T、R26A/R30N/A62D/T82K/E114S/C158N/K161P/H271W/E273T、R26A/R30N/A62D/T82K/E114S/F233Y/H271W/E273T、R26A/R30N/A62D/E114S/K161P/T189A/D192P/F233E/S240T/H271W/E273T、R26A/R30N/A62D/E114S/A173Y/V176D/F180M/T189A/D192P/S225A/M241C/H271W/E27T、R26G/R30N/A62D/S72E/E114S/C158N/A173K/T189A/F233E/H271W/E273T、R26G/R30N/A62D/S72Y/E114S/C158N/H271W/E273T、R26G/R30N/A62D/T82K/E114S/K161P/A173Y/F180M/D192A/F233E/H271W/E273T、R26G/R30N/A62D/T82K/E114S/G128A/K161P/F180M/K198A/H271W/E273T、R26G/R30N/A62D/T82K/E114S/H271W/E273T、R26G/R30N/A62D/E114S/H271W/E273T、E27T/R30N/A62D/T82R/E114S/G128F/D192Q/A256R/H271W/E273T、E27T/R30N/A62D/T82R/E114S/L142S/D192Q/S263D/H271W/E273T、E27T/R30N/A62D/T82R/E114S/A175Q/D192Q/H271W/E273T、E27T/R30N/A62D/T82R/E114S/F180M/D192Q/H271W/E273T、E27T/R30N/A62D/E114S/G207W/A236S/S263D/H271W/E273T、E27T/R30N/A62D/E114S/G207W/S240R/S263D/H271W/E273T、E27T/R30N/A62D/E114S/A256R/H271W/E273T、E27T/R30N/A62D/E114S/S263D/H271W/E273T、R30N/A57V/A62E/L76V/A97V/E114S/H271R/E273T、R30N/N61D/A62D/E114S/H271W、R30N/N61D/A62E/E114K/H271W/E273G、R30N/N61D/A62E/E114N/H271W、R30N/N61D/A62E/E114N/H271W/E273T、R30N/N61D/A62E/E114S/H271W/E273T、R30N/A62D/S72E/T82K/E114S/A173K/F180M/G207R/I213L/S225A/F233E/H271W/E273T、R30N/A62D/S72E/T82K/E114S/I213L/F233E/H271W/E273T、R30N/A62D/S72E/E114S/C158N/H271W/E273T、R30N/A62D/S72E/E114S/A173Y/T189A/F233E/H271W/E273T、R30N/A62D/S72V/E114S/Q186G/M193I/H271W/E273T、R30N/A62D/S72V/E114S/S240Q/H271W/E273T、R30N/A62D/N77L/E114S/H271W/E273T、R30N/A62D/T82K/E114S/G128A/I213L/H271W/E273T、R30N/A62D/T82K/E114S/H271W/E273T、R30N/A62D/T82R/E114S/G128F/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G128N/H271W/E273T、R30N/A62D/T82R/E114S/L142S/A175Q/F180M/G207W/A256R/H271W/E273T、R30N/A62D/T82R/E114S/A175Q/F180M/C238T/S240R/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G207W/A256R/S263D/H271W/E273T、R30N/A62D/T82R/E114S/G207W/S263D/H271W/E273T、R30N/A62D/T82R/E114S/H271W/E273T、R30N/A62D/T82R/C86E/E114S/R191L/D192Q/S263D/H271W/E273T、R30N/A62D/C86E/E114S/G207W/S263D/H271W/E273T、R30N/A62D/R88H/E114S/H271W/E273T R30N/A62D/E114S/F211S/H271W/E273T、R30N/A62D/E114N/H271W/E273T、R30N/A62D/E114S/S127R/K161G/E185V/H271W/E273T、R30N/A62D/E114S/S127R/K161G/V188I/T189P/H271W/E273T、R30N/A62D/E114S/S127R/H271W/E273T、R30N/A62D/E114S/S127T/S240Q/H271W/E273T、R30N/A62D/E114S/S127T/H271W/E273T、R30N/A62D/E114S/G128F/L142Q/R191L/D192Q/S263D/H271W/E273T、R30N/A62D/E114S/G128K/L142S/A256R/S263D/H271W/E273T、R30N/A62D/E114S/G128S/H271W/E273T R30N/A62D/E114S/P163E/H271W/E273T、R30N/A62D/E114S/L142G/H271W/E273T R30N/A62D/E114S/T189V/H271W/E273T、R30N/A62D/E114S/L142Q/S263D/H271W/E273T、R30N/A62D/E114S/L142Q/H271W/E273T、R30N/A62D/E114S/C158N/A173Y/I213L/H271W/E273T、R30N/A62D/E114S/C158N/H271W/E273T、R30N/A62D/E114S/K161G/E185V/V188I/T189H/H271W/E273T、R30N/A62D/E114S/K161G/E185V/T189H/H271W/E273T、R30N/A62D/E114S/K161G/T189H/H271W/E273T、R30N/A62D/E114S/A173Y/F180M/H271W/E273T、R30N/A62D/E114S/A173Y/S263G/H271W/E273T、R30N/A62D/E114S/A173Y/H271W/E273T、R30N/A62D/E114S/A175Q/H271W/E273T、R30N/A62D/E114S/V176K/P187H/S263G/H271W/E273T、R30N/A62D/E114S/V176K/P187H/H271W/E273T、R30N/A62D/E114S/E178R/V184L/Q186G/H271W/E273T、R30N/A62D/E114S/F180M/H271W/E273T、R30N/A62D/E114S/V184L/Q186G/T189I/G207R/H271W/E273T、R30N/A62D/E114S/V184L/Q186G/T189I/S240Q/H271W/E273T、R30N/A62D/E114S/V184L/Q186R/G207M/H271W/E273T、R30N/A62D/E114S/V184L/T189I/G207K/H271W/E273T、R30N/A62D/E114S/V184L/G207R/H271W/E273T、R30N/A62D/E114S/V184L/G210M/S240Q/H271W/E273T、R30N/A62D/E114S/V184L/T189I/G207M/H271W/E273T、R30N/A62D/E114S/Q186G/T189I/G207R/H271W/E273T、R30N/A62D/E114S/Q186G/T189I/S240I/H271W/E273T、R30N/A62D/E114S/Q186R/T189I/G207R/H271W/E273T、R30N/A62D/E114S/Q186R/T189I/S240I/H271W/E273T、R30N/A62D/E114S/Q186R/T189I/H271W/E273T、R30N/A62D/E114S/Q186R/G207M/H271W/E273T、R30N/A62D/E114S/Q186R/G207R/H271W/E273T、R30N/A62D/E114S/Q186R/H271W/E273T、R30N/A62D/E114S/P187C/H271W/E273T、R30N/A62D/E114S/P187H/S263G/H271W/E273T、R30N/A62D/E114S/P187H/H271W/E273T、R30N/A62D/E114S/V188I/H271W/E273T、R30N/A62D/E114S/T189A/E273A、R30N/A62D/E114S/T189H/H271W/E273T、R30N/A62D/E114S/T189I/S240I/H271W/E273T、R30N/A62D/E114S/T189I/H271W/E273T、R30N/A62D/E114S/R191L/D192Q/G207W/S263D/H271W/E273T、R30N/A62D/E114S/R191L/H271W/E273T、R30N/A62D/E114S/D192Q/H271W/E273T、R30N/A62D/E114S/D195A/H271W/E273T、R30N/A62D/E114S/D195G/H271W/E273T、R30N/A62D/E114S/L200A/H271W/E273T、R30N/A62D/E114S/G207C/H271W/E273T、R30N/A62D/E114S/G207R/H271W/E273T、R30N/A62D/E114S/G207M/H271W/E273T、R30N/A62D/E114S/G207W/H271W/E273T、R30N/A62D/E114S/L209E/H271W/E273T、R30N/A62D/E114S/L209G/H271W/E273T、R30N/A62D/E114S/S240I/H271W/E273T、R30N/A62D/E114S/S240Q/S263G/H271W/E273T、R30N/A62D/E114S/S240Q/H271W/E273T、R30N/A62D/E114S/G210M/S240Q/H271W/E273T、R30N/A62D/E114S/G210M/H271W/E273T、R30N/A62D/E114S/I213G/H271W/E273T、R30N/A62D/E114S/A218C/H271W/E273T、R30N/A62D/E114S/I213L/F233E/H271W/E273T、R30N/A62D/E114S/I213R/H271W/E273T、R30N/A62D/E114S/I215V/H271W/E273T、R30N/A62D/E114S/E217G/H271W/E273T、R30N/A62D/E114S/L230E/H271W/E273T、R30N/A62D/E114S/A218G/H271W/E273T、R30N/A62D/E114S/E265C/H271W/E273T、R30N/A62D/E114S/E222Q/H271W/E273T、R30N/A62D/E114S/C238G/H271W/E273T、R30N/A62D/E114S/C238S/H271W/E273T、R30N/A62D/E114S/S240Q/H271W/E273T、R30N/A62D/E114S/S240T/H271W/E273T、R30N/A62D/E114S/M241I/H271W/E273T、R30N/A62D/E114S/M241V/H271W/E273T、R30N/A62D/E114S/E259G/H271W/E273T、R30N/A62D/E114S/S263D/H271W/E273T、R30N/A62D/E114S/S263G/H271W/E273T、R30N/A62D/E114S/E265V/H271W/E273T、R30N/A62D/E81V/E114S/H271W/E273T、R30N/A62D/E114S/H271W/E273T、R30N/A62D/E114S/H271W/E273T、R30N/A62D/H271R、R30N/A62E/E114N/H271W、R30N/A62E/E114S/H271W/E273T、R30N/A62E/E114S/E273G和A62D/E114S/H271W。

在一些实施方案中，具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽包括与参考序列SEQ ID NO:810具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和与SEQ ID NO:810相比在选自以下的残基位置的一个或更多个残基差异的氨基酸序列：33、40、95和156。在一些实施方案中，工程化脯氨酸羟化酶包括以下取代的至少一个(相对于SEQ ID NO:810)：33G、33H、33K、33T、33W、40Q、40T、95I、156F、156S和156V。在一些实施方案中，工程化脯氨酸羟化酶包括以下取代的至少一个(相对于SEQ ID NO:810)：S33G、S33H、S33K、S33T、S33W、W40Q、W40T、V95I、A156F、A156S和A156V。

如本领域技术人员将理解的，在一些实施方案中，选择的以上残基差异之一或其组合可以作为核心特征在工程化脯氨酸羟化酶中保持恒定(即，维持)，并且在其它残基位置处的另外的残基差异可以被掺入到序列以产生具有改进性质的另外的工程化脯氨酸羟化酶多肽。因此，应理解，对于含有以上残基差异的一个或子集的任何工程化脯氨酸羟化酶，本发明预期了包含所述残基差异的一个或子集并且在本文公开的其他残基位置处另外包含一个或更多个残基差异的其它工程化脯氨酸羟化酶。

如以上提到的，具有脯氨酸羟化酶活性的工程化多肽还能够将底物化合物(1)转化为产物化合物(2)。在一些实施方案中，工程化脯氨酸羟化酶多肽能够以相对于SEQ IDNO:4、604、和/或810的参考多肽的活性的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多的活性将底物化合物(1)转化为产物化合物(2)。在一些实施方案中，能够以相对于SEQ ID NO:4、604、和/或810的参考多肽的活性的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多的活性将底物化合物(1)转化为产物化合物(2)的工程化脯氨酸羟化酶多肽，包括具有选自改进的区域选择性、改进的活性、改进的比活性和/或改进的热稳定性的一个或更多个特征的氨基酸序列。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够以相对于SEQ ID NO:4、604、和/或810的活性的至少1.2倍将底物化合物(1)转化为产物化合物(2)，并包括选自以下范围中的偶数序列的氨基酸序列：SEQ ID NO:6-602、606-808和812-1004。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够以相对于SEQ ID NO:4、604、和/或810的活性的至少2倍将底物化合物(1)转化为产物化合物(2)，并包括具有如本文提供的一个或更多个残基差异(适当地，与SEQ ID NO:4、604、和/或810相比)的氨基酸序列。

在一些实施方案中，能够以相对于SEQ ID NO:4、604、和/或810的活性的至少2倍将底物化合物(1)转化为产物化合物(2)的工程化脯氨酸羟化酶多肽，包括选自以下范围中的偶数序列的氨基酸序列：SEQ ID NO:6-602、606-808和812-1004。

在一些实施方案中，工程化脯氨酸羟化酶多肽能够在HTP测定条件、在SFP测定条件下、或DSP测定条件下，以约100g/L、约50g/L、或约20g/L的底物载量，在120h或更短时间、72h或更短时间、48h或更短时间、或24h或更短时间内将至少50％或更多、60％或更多、70％或更多、89％或更多、90％或更多、91％或更多、92％或更多、93％或更多、94％或更多、或95％或更多的化合物(1)转化为化合物(2)。在一些实施方案中，工程化脯氨酸羟化酶多肽能够在DSP测定条件下在约25℃，以约20g/L的底物载量，在24h或更短时间内将至少50％或更多的化合物(1)转化为化合物(2)。

在一些实施方案中，工程化脯氨酸羟化酶具有包含与SEQ ID NO:4、604、和/或810相比的一个或更多个残基差异、增加工程化脯氨酸羟化酶活性在细菌宿主细胞，特别是大肠杆菌中的表达的氨基酸序列。

在一些实施方案中，具有在化合物(2)向化合物(1)的转化中的改进的特性的工程化脯氨酸羟化酶多肽具有包括选自以下范围中的偶数序列的序列的氨基酸序列：SEQ IDNO:6-602、606-808和812-1004。

在一些实施方案中，具有脯氨酸羟化酶活性的工程化多肽包括以下氨基酸序列，所述氨基酸序列与选自以下范围中的偶数序列之一具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一性：SEQ ID NO:6-602、606-808和812-1004，和具有与SEQ ID NO:4、604、和/或810相比在以下范围中的偶数序列的任何一种中存在的氨基酸残基差异：SEQ ID NO:6-602、606-808和812-1004，如在表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2、和/或6.3中提供的。

除以上指定的残基位置之外，本文所公开的任何工程化脯氨酸羟化酶多肽还可包括相对于SEQ ID NO:4、604、和/或810，在其他残基位置(即，除在以下范围中的偶数序列的任何一种中包括的那些残基位置外的残基位置：SEQ ID NO:6-602、606-808和812-1004)的其他残基差异。在这些其他残基位置上的残基差异可提供氨基酸序列的另外变异而没有不利地影响多肽进行脯氨酸向顺式-4-羟基脯氨酸的转化以及化合物(1)向化合物(2)的转化的能力。因此，在一些实施方案中，除了选自以下范围中的偶数序列的工程化脯氨酸羟化酶多肽的任何一个中存在的氨基酸残基差异之外：SEQ ID NO:6-602、606-808和812-1004，序列还可包括与SEQ ID NO:4、604、和/或810相比在其他氨基酸残基位置上的1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-11个、1-12个、1-14个、1-15个、1-16个、1-18个、1-20个、1-22个、1-24个、1-26个、1-30个、1-35个、1-40个、1-45个、或1-50个残基差异。在一些实施方案中，与参考序列相比的氨基酸残基差异的数量可以为1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个残基位置。在一些实施方案中，与参考序列相比的氨基酸残基差异的数量可以为1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个残基位置。在这些其他位置处的残基差异可以是保守变化或非保守变化。在一些实施方案中，与SEQ ID NO：4、604和/或810的天然存在的脯氨酸羟化酶多肽相比，残基差异可以包括保守取代和非保守取代。

在一些实施方案中，本发明还提供了包含保持本文描述的任何工程化脯氨酸羟化酶的功能活性和/或改进的特性的该工程化脯氨酸羟化酶多肽的片段的工程化多肽。因此，在一些实施方案中，本发明提供了能够在适当的反应条件下将化合物(1)转化为化合物(2)的多肽片段，其中该片段包括本发明的工程化脯氨酸羟化酶多肽的全长氨基酸序列的至少约80％、90％、95％、96％、97％、98％、或99％，工程化脯氨酸羟化酶多肽诸如选自以下范围中的偶数序列的示例性工程化脯氨酸羟化酶多肽：SEQ ID NO:6-602、606-808和812-1004。

在一些实施方案中，工程化脯氨酸羟化酶多肽可具有包括本文描述的工程化脯氨酸羟化酶多肽，诸如以下范围中的偶数序列的示例性工程化多肽中的任一个中的缺失的氨基酸序列：SEQ ID NO:6-602、606-808和812-1004。

因此，对于本发明的工程化脯氨酸羟化酶多肽的每个和每一个实施方案，氨基酸序列可以包括1个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多的氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或20个或更多个氨基酸、多达脯氨酸羟化酶多肽的氨基酸总数的10％、多达氨基酸总数的20％、或多达氨基酸总数的30％的缺失，其中本文描述的工程化脯氨酸羟化酶的相关的功能活性和/或改进的性质被保持。在一些实施方案中，缺失可以包括1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-15个、1-20个、1-21个、1-22个、1-23个、1-24个、1-25个、1-30个、1-35个、1-40个、1-45个或1-50个氨基酸残基。在一些实施方案中，缺失的数量可以为1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个氨基酸残基。在一些实施方案中，缺失可以包括1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个氨基酸残基的缺失。

在一些实施方案中，本文的工程化脯氨酸羟化酶多肽可具有与本文描述的工程化脯氨酸羟化酶多肽，诸如以下范围中的偶数序列的示例性工程化多肽中的任何一个相比包括插入的氨基酸序列：SEQ ID NO:6-602、606-808和812-1004。因此，对于本发明的脯氨酸羟化酶多肽的每个和每一个实施方案，插入可以包含1个或更多个氨基酸、2个或更多个氨基酸、3个或更多个氨基酸、4个或更多个氨基酸、5个或更多个氨基酸、6个或更多个氨基酸、8个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、20个或更多个氨基酸、30个或更多个氨基酸、40个或更多个氨基酸或50个或更多个氨基酸，其中本文所述的工程化脯氨酸羟化酶的相关功能活性和/或改进的性质被保持。插入可以是在脯氨酸羟化酶多肽的氨基或羧基末端，或内部部分。

在一些实施方案中，本文的工程化脯氨酸羟化酶多肽可具有以下氨基酸序列，所述氨基酸序列包括选自以下范围中的偶数序列的序列：SEQ ID NO:6-602、606-808和812-1004，和任选地一个或数个(例如，多达3个、4个、5个或多达10个)氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-15个、1-20个、1-21个、1-22个、1-23个、1-24个、1-25个、1-30个、1-35个、1-40个、1-45个或1-50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列的数量任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个氨基酸残基缺失、插入和/或取代。在一些实施方案中，取代可以是保守取代或非保守取代。

在上述实施方案中，用于工程化多肽的合适反应条件在表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2、和/或6.3中提供，并且如实施例4、5和6中所述。

在一些实施方案中，本发明的多肽为融合多肽，其中工程化多肽与其它多肽融合，诸如例如但不限于抗体标签(例如myc表位)、纯化序列(例如用于结合金属的His标签)和细胞定位信号(例如分泌信号)。因此，本文所述的工程化多肽可以与其它多肽融合或不融合使用。

应当理解，本文所述的多肽不限于遗传编码氨基酸。除了遗传编码氨基酸之外，本文所述的多肽可以完整地或部分地包含天然存在的和/或合成的非编码氨基酸。本文描述的多肽可以包含的某些常见的非编码氨基酸包括但不限于：遗传编码氨基酸的D-立体异构体；2,3-二氨基丙酸(Dpr)；α-氨基异丁酸(Aib)；ε-氨基己酸(Aha)；δ-氨基戊酸(Ava)；N-甲基甘氨酸或肌氨酸(MeGly或Sar)；鸟氨酸(Orn)；瓜氨酸(Cit)；叔丁基丙氨酸(Bua)；叔丁基甘氨酸(Bug)；N-甲基异亮氨酸(MeIle)；苯基甘氨酸(Phg)；环己基丙氨酸(Cha)；正亮氨酸(Nle)；萘基丙氨酸(Nal)；2-氯苯丙氨酸(Ocf)；3-氯苯丙氨酸(Mcf)；4-氯苯丙氨酸(Pcf)；2-氟苯丙氨酸(Off)；3-氟苯丙氨酸(Mff)；4-氟苯丙氨酸(Pff)；2-溴苯丙氨酸(Obf)；3-溴苯丙氨酸(Mbf)；4-溴苯丙氨酸(Pbf)；2-甲基苯丙氨酸(Omf)；3-甲基苯丙氨酸(Mmf)；4-甲基苯丙氨酸(Pmf)；2-硝基苯丙氨酸(Onf)；3-硝基苯丙氨酸(Mnf)；4-硝基苯丙氨酸(Pnf)；2-氰基苯丙氨酸(Ocf)；3-氰基苯丙氨酸(Mcf)；4-氰基苯丙氨酸(Pcf)；2-三氟甲基苯丙氨酸(Otf)；3-三氟甲基苯丙氨酸(Mtf)；4-三氟甲基苯丙氨酸(Ptf)；4-氨基苯丙氨酸(Paf)；4-碘代苯丙氨酸(Pif)；4-氨基甲基苯丙氨酸(Pamf)；2,4-二氯苯丙氨酸(Opef)；3,4-二氯苯丙氨酸(Mpcf)；2,4-二氟苯丙氨酸(Opff)；3,4-二氟苯丙氨酸(Mpff)；吡啶-2-基丙氨酸(2pAla)；吡啶-3-基丙氨酸(3pAla)；吡啶-4-基丙氨酸(4pAla)；萘-1-基丙氨酸(1nAla)；萘-2-基丙氨酸(2nAla)；噻唑基丙氨酸(taAla)；苯并噻吩基丙氨酸(bAla)；噻吩基丙氨酸(tAla)；呋喃基丙氨酸(fAla)；高苯丙氨酸(hPhe)；高酪氨酸(hTyr)；高色氨酸(hTrp)；五氟苯丙氨酸(5ff)；苯乙烯基丙氨酸(styrylkalanine)(sAla)；蒽基丙氨酸(aAla)；3,3-二苯基丙氨酸(Dfa)；3-氨基-5-苯基戊酸(Afp)；青霉胺(Pen)；1,2,3,4-四氢异喹啉-3-羧酸(Tic)；β-2-噻吩基丙氨酸(Thi)；甲硫氨酸亚砜(Mso)；N(w)-硝基精氨酸(nArg)；高赖氨酸(hLys)；膦酰基甲基苯丙氨酸(pmPhe)；磷酸丝氨酸(pSer)；磷酸苏氨酸(pThr)；高天冬氨酸(hAsp)；高谷氨酸(hGlu)；1-氨基环戊-(2或3)-烯-4-羧酸；哌啶酸(PA)；氮杂环丁烷-3-羧酸(ACA)；1-氨基环戊烷-3-羧酸；烯丙基甘氨酸(aOly)；炔丙基甘氨酸(pgGly)；高丙氨酸(hAla)；正缬氨酸(nVal)；高亮氨酸(hLeu)、高缬氨酸(hVal)；高异亮氨酸(hIle)；高精氨酸(hArg)；N-乙酰基亮氨酸(AcLys)；2,4-二氨基丁酸(Dbu)；2,3-二氨基丁酸(Dab)；N-甲基缬氨酸(MeVal)；高半胱氨酸(hCys)；高丝氨酸(hSer)；羟基脯氨酸(Hyp)和高脯氨酸(hPro)。本文描述的多肽可以包含的另外的非编码氨基酸对于本领域技术人员而言将是明显的(参见例如Fasman,CRC Practical Handbook of Biochemistry and Molecular Biology,CRCPress,Boca Raton,FL,第3-70页[1989]，以及其中引用的参考文献中提供的各种氨基酸，其全部通过引用并入)。这些氨基酸可以是L-构型或D-构型的。

本领域技术人员将认识到，具有侧链保护基团的氨基酸或残基还可以构成本文所述的多肽。在这种情况下属于芳香族类别的此类受保护的氨基酸的非限制性实例包括(保护基团在括号中列出)但不限于：Arg(tos)、Cys(甲苄基)、Cys(硝基吡啶次磺酰基)、Glu(δ-苄基酯)、Gln(呫吨基)、Asn(N-δ-呫吨基)、His(bom)、His(苄基)、His(tos)、Lys(fmoc)、Lys(tos)、Ser(O-苄基)、Thr(O-苄基)和Tyr(O-苄基)。

可以构成本文所述多肽的构象约束的非编码氨基酸包括但不限于N-甲基氨基酸(L-构型)；1-氨基环戊-(2或3)-烯-4-羧酸；哌可酸(pipecolic acid)；氮杂环丁烷-3-羧酸；高脯氨酸(hPro)和1-氨基环戊烷-3-羧酸。

在一些实施方案中，工程化多肽可以呈各种形式，例如诸如分离的制品、作为基本上纯化的酶、用编码该酶的基因转化的完整细胞和/或作为此类细胞的细胞提取物和/或溶解产物。酶可以被冻干、喷雾干燥、沉淀或呈粗制糊状物的形式，如以下进一步讨论的。

在一些实施方案中，工程化多肽可以提供于固体支持物诸如膜、树脂、固体载体或其它固相材料上。固体支持物可以由有机聚合物如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯(polyethyleneoxy)和聚丙烯酰胺以及它们的共聚物和接枝物组成。固体支持物还可以是无机的，诸如玻璃、二氧化硅(silica)、可控孔隙玻璃(CPG)、反相二氧化硅或金属诸如金或铂。固体支持物的形状可以呈珠、球、颗粒(particle)、颗粒(granule)、凝胶、膜或表面的形式。表面可以是平面的、基本上平面的或非平面的。固体支持物可以是多孔的或无孔的，并且可以具有溶胀或非溶胀特性。固体支持物可以被配置为孔、凹陷或其他容器(container)、容器(vessel)、特征或位置的形式。

在一些实施方案中，本发明的具有脯氨酸羟化酶活性的工程化多肽可以被固定在固体支持物上，使得它们相对于SEQ ID NO：4、604和/或810的参考多肽保持其增强的活性、立体选择性和/或其它改善的性质。在此类实施方案中，固定的多肽可以促进底物化合物或其他合适的底物向产物的生物催化转化，并且反应完成后容易保留(例如通过保留固定有多肽的珠子)并然后在随后的反应中重新使用或再循环。此类固定化酶方法允许进一步提高效率和降低成本。因此，还预期，使用本发明的脯氨酸羟化酶多肽的任何方法可以使用结合或固定在固体支持物上的相同的脯氨酸羟化酶多肽进行。

酶固定化的方法是本领域公知的。工程化多肽可以被非共价地或共价地结合。用于缀合和固定酶至固体支持物(例如，树脂、膜、珠、玻璃等)的各种方法是本领域熟知的(参见例如，Yi等人,Proc.Biochem.,42(5):895-898[2007]；Martin等人,Appl.Microbiol.Biotechnol.,76(4):843-851[2007]；Koszelewski等人,J.Mol.Cat.B:Enzymatic,63:39-44[2010]；Truppo等人,Org.Proc.Res.Dev.,published online:dx.doi.org/10.1021/op200157c；Hermanson,Bioconjugate Techniques,2^nd ed.,Academic Press,Cambridge、MA[2008]；Mateo等人,Biotechnol.Prog.,18(3):629-34[2002]；和“Bioconjugation Protocols:Strategies and Methods,”In Methods in Molecular Biology,Niemeyer(ed.),Humana Press,New York、NY[2004]；其每个的公开内容通过引用并入本文)。用于固定本发明的工程化脯氨酸羟化酶的固体支持物包括但不限于包含具有环氧化物官能团的聚甲基丙烯酸酯、具有氨基环氧化物官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或聚甲基丙烯酸酯的珠或树脂。可用于固定本发明的工程化脯氨酸羟化酶多肽的示例性固体支持物包括但不限于壳聚糖珠、EupergitC和SEPABEAD(Mitsubishi)，包括以下不同类型的SEPABEAD：EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，本文所述的多肽以试剂盒的形式提供。试剂盒中的酶可以单独存在或作为多种酶存在。试剂盒还可以包括用于进行酶促反应的试剂、用于评估酶的活性的底物以及用于检测产物的试剂。试剂盒还可以包括试剂分配器和试剂盒的使用说明。

在一些实施方案中，本发明的试剂盒包括在不同可寻址位置上包含多个不同脯氨酸羟化酶多肽的阵列，其中不同多肽是各自具有至少一种不同的改良的酶性质的参考序列的不同变体。在一些实施方案中，固定在固体支持物上的多个多肽被配置在阵列的多个位置上，可用试剂的自动递送或通过检测方法和/或仪器寻址。阵列可被用于测试各种底物化合物被多肽的转化。包含多种工程化多肽的此类阵列及其使用方法是本领域已知的(参见例如WO2009/008908A2)。

编码工程化脯氨酸羟化酶多肽的多核苷酸、表达载体和宿主细胞

在另一方面，本发明提供了编码本文所述的工程化脯氨酸羟化酶多肽的多核苷酸。多核苷酸可以可操作地连接到控制基因表达的一个或更多个异源调控序列，以产生能够表达该多肽的重组多核苷酸。将包含编码工程化脯氨酸羟化酶的异源多核苷酸的表达构建体导入到适当的宿主细胞以表达相应的脯氨酸羟化酶多肽。

如对本领域技术人员将是明显的，蛋白序列的可得性和对应于多种氨基酸的密码子的知识提供能够编码主题多肽的所有多核苷酸的说明。遗传密码的简并性——其中相同的氨基酸由可选择的密码子或同义密码子编码——允许制备极大量的核酸，所有这些核酸都编码改进的脯氨酸羟化酶。因此，知道了特定的氨基酸序列后，本领域技术人员可以通过以不改变蛋白的氨基酸序列的方式简单改变一个或更多个密码子的序列来制备任何数目的不同核酸。在这方面，本方面明确涵盖可通过选择基于可能的密码子选择的组合制出的编码本文描述的多肽的多核苷酸的每种和每一种可能的变异，并且所有此类变异将被认为对于本文描述的任何多肽被明确地公开，所述本文描述的任何多肽包括在表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2和/或6.3中呈现的以及在通过引用并入本文的序列表中作为在以下范围中的偶数序列公开的氨基酸序列：SEQ ID NO:6-602、606-808和812-1004。

在多种实施方案中，密码子被优选地选择为适应在其中产生蛋白的宿主细胞。例如，在细菌中使用的优选的密码子被用于在细菌中表达基因；在酵母中使用的优选的密码子被用于酵母中的表达；并且在哺乳动物中使用的优选的密码子被用于在哺乳动物细胞中表达。在一些实施方案中，所有密码子不需要被替换以优化脯氨酸羟化酶的密码子使用，因为天然序列将包含优选的密码子并且因为可不需要对所有氨基酸残基使用优选的密码子。因此，编码脯氨酸羟化酶的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包含优选密码子。

在一些实施方案中，多核苷酸包括编码如由SEQ ID NO:4、604、和/或810呈现的天然存在的脯氨酸羟化酶多肽氨基酸序列的密码子优化的核苷酸序列。在一些实施方案中，多核苷酸具有包括与编码以下范围中的偶数序列的密码子优化的核酸序列的至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性的核酸序列：SEQ ID NO:6-602、606-808和812-1004。在一些实施方案中，多核苷酸具有包括与以下范围中的奇数序列中的密码子优化的核酸序列的至少80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性的核酸序列：SEQ ID NO:5-601、605-807和811-1003。以下范围中的奇数序列中的密码子优化的序列：SEQ ID NO:5-601、605-807和811-1003，增强编码的野生型脯氨酸羟化酶的表达，提供能够在微型-DSP测定条件下将超过80％的化合物(1)体外转化为化合物(2)，以及在DSP测定条件下将超过45％的化合物(1)转化为化合物(2)的酶制品。在一些实施方案中，与来自苜蓿中华根瘤菌的天然存在的多核苷酸序列相比，密码子优化的多核苷酸序列可以以至少1.2倍、1.5倍、或2倍或更大增强脯氨酸羟化酶的表达。

在一些实施方案中，多核苷酸能够在高度严格条件下与选自SEQ ID NO：3-1003中的奇数序列的参考序列或其互补物杂交，并编码具有脯氨酸羟化酶活性的多肽。

在一些实施方案中，如以上所述，多核苷酸编码具有与SEQ ID NO:4、604、和/或810相比的改进特性的具有脯氨酸羟化酶活性的工程化多肽，其中多肽包括以下氨基酸序列，所述氨基酸序列具有与选自SEQ ID NO:4、604、和/或810的参考序列至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多同一性，以及与SEQ ID NO:4、604、和/或810相比选自以下范围中的偶数序列的一个或更多个残基差异：SEQ ID NO:6-602、606-808和812-1004。在一些实施方案中，参考氨基酸序列选自以下范围中的偶数序列：SEQ ID NO:6-602、606-808和812-1004。在一些实施方案中，参考氨基酸序列是SEQ ID NO:4。在一些实施方案中，参考氨基酸序列是SEQ ID NO:604。在一些另外的实施方案中，参考氨基酸序列是SEQ ID NO:810。

在一些实施方案中，多核苷酸编码与SEQ ID NO:4、604、和/或810相比具有改进的特性的能够将底物化合物(1)转化为产物化合物(2)的脯氨酸羟化酶多肽，其中多肽包括具有与参考序列SEQ ID NO:4、604、和/或810的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性以及与SEQ ID NO:4、604、和/或810相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280；或在选自以下的残基位置：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273；或在选自以下的残基位置：33、40、95和156。

在一些实施方案中，多核苷酸编码与SEQ ID NO:4、604、和/或810相比具有改进的特性的能够将底物化合物(1)转化为产物化合物(2)的脯氨酸羟化酶多肽，其中多肽包括具有与参考序列SEQ ID NO:4、604、和/或810的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性以及与SEQ ID NO:4、604、和/或810相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：2、4、8、10、13、14、15、24、26、27、30、33、36、37、39、40、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、72、76、77、81、82、86、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、127、128、130、131、132、134、136、142、145、151、153、156、158、160、161、163、165、166、168、173、175、176、178、180、184、185、186、187、188、189、191、192、194、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、237、238、240、241、256、259、263、265、266、269、270、271、273、274、275和280。

在一些实施方案中，多核苷酸编码与SEQ ID NO:4、604、和/或810相比具有改进的特性的能够将底物化合物(1)转化为产物化合物(2)的脯氨酸羟化酶多肽，其中多肽包括具有与参考序列SEQ ID NO:4、604、和/或810的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性以及与SEQ ID NO:604、和/或810相比选自以下的残基差异的至少一个组合的氨基酸序列：(a)4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280；(b)13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273；或(c)33、40、95和156。

在一些实施方案中，多核苷酸编码具有脯氨酸羟化酶活性、与SEQ ID NO:4、604和/或810相比具有改进的特性的工程化多肽，所述工程化多肽包括与参考序列SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性和在选自以下的残基位置的一个或更多个残基差异的氨基酸序列：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273。

在一些实施方案中，多核苷酸编码与SEQ ID NO:4、604和/或810的参考多肽相比具有改进的酶特性的能够将底物化合物(1)转化为产物化合物(2)的工程化脯氨酸羟化酶多肽，其中多肽包括具有与选自以下范围中的偶数序列的任一个的参考多肽的至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、或99％同一性的氨基酸序列：SEQ ID NO:6-602、606-808和812-1004，条件是氨基酸序列包括与SEQ ID NO:4、604和/或810相比包含来自以下范围中的偶数序列的任何一个多肽序列中的残基差异集合的任何一个：SEQ ID NO:6-602、606-808和812-1004，如列于表4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、5.1、6.1、6.2、和/或6.3中的。

在一些实施方案中，编码工程化脯氨酸羟化酶的多核苷酸包括选自以下范围中的奇数序列的多核苷酸序列：SEQ ID NO:5-601、605-807和811-1003。

在一些实施方案中，多核苷酸能够在高严格度条件下与选自以下范围中的奇数序列的参考多核苷酸序列或其互补物杂交：SEQ ID NO:5-601、605-807和811-1003，并且编码具有本文描述的一种或更多种改进特性的具有脯氨酸羟化酶活性的多肽。在一些实施方案中，能够在高严格度条件下杂交的多核苷酸编码包括以下氨基酸序列的脯氨酸羟化酶多肽，所述氨基酸序列与SEQ ID NO:604具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性，具有与SEQ ID NO:604相比在选自以下的残基位置上包括一个或更多个残基差异的氨基酸序列：2、4、8、10、13、14、15、24、26、27、30、33、36、37、39、40、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、72、76、77、81、82、86、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、127、128、130、131、132、134、136、142、145、151、153、156、158、160、161、163、165、166、168、173、175、176、178、180、184、185、186、187、188、189、191、192、194、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、237、238、240、241、256、259、263、265、266、269、270、271、273、274、275和280。

在一些实施方案中，能够在高严格度条件下杂交的多核苷酸编码工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，具有改进的特性，包括与SEQ ID NO:4具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性，和与SEQ ID NO:4相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280。

在一些实施方案中，能够在高严格度条件下杂交的多核苷酸编码工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，具有改进的特性，包括与SEQ ID NO:810具有至少80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性，和与SEQ ID NO:810相比在选自以下的残基位置上的一个或更多个残基差异的氨基酸序列：33、40、95和156。

在一些实施方案中，多核苷酸编码本文所述的多肽，但在核苷酸水平与编码工程化脯氨酸羟化酶的参考多核苷酸具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性。在一些实施方案中，参考多核苷酸序列选自范围SEQ ID NO:3-1003中的奇数序列。

在一些实施方案中，编码本文提供的工程化脯氨酸羟化酶多肽中的任何一个的分离的多核苷酸以多种方式被操作，以提供所述多肽的表达。在一些实施方案中，编码多肽的多核苷酸作为表达载体来提供，其中存在一个或更多个控制序列来调节多核苷酸和/或多肽的表达。取决于表达载体，在分离的多核苷酸插入载体之前对分离的多核苷酸的操作可以是期望的或必要的。利用重组DNA方法改变多核苷酸和核酸序列的技术在本领域中是熟知的。

在一些实施方案中，控制序列包括，除了其他序列以外，启动子、前导序列、多腺苷酸化序列、前肽序列、信号肽序列和转录终止子。如本领域已知的，合适的启动子可以基于使用的宿主细胞来选择。对于细菌宿主细胞，用于指导本申请的核酸构建体的转录的合适启动子包括，但不限于从以下获得的启动子：大肠杆菌lac操纵子、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌(Bacillus subtilis)果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌(Bacillus licheniformis)α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因及原核β-内酰胺酶基因(参见例如，Villa-Kamaroff等，Proc.Natl Acad.Sci.USA 75:3727-3731[1978])、以及tac启动子(参见例如，DeBoer等人,Proc.Natl Acad.Sci.USA 80:21-25[1983])。用于丝状真菌宿主细胞的示例性启动子包括从以下的基因获得的启动子：米曲霉(Aspergillus oryzae)TAKA淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、黑曲霉(Aspergillus niger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillusnidulans)乙酰胺酶和尖孢镰孢菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见，例如WO96/00787)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体)，和其突变启动子、截短启动子和杂合启动子。示例性酵母细胞启动子可以来自以下的基因：酿酒酵母(Saccharomyces cerevisiae)烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)、和酿酒酵母3-磷酸甘油酸激酶。用于酵母宿主细胞的其他有用的启动子是本领域已知的(参见例如，Romanos等，Yeast 8:423-488[1992])。

在一些实施方案中，控制序列为合适的转录终止子序列，转录终止子序列是由宿主细胞识别以终止转录的序列。终止子序列被可操作地连接至编码多肽的核酸序列的3'末端。在选择的宿主细胞中有功能的任何终止子可用于本发明中。例如，用于丝状真菌宿主细胞的示例性转录终止子可以从以下的基因获得：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶、和尖孢镰刀菌胰蛋白酶样蛋白酶。用于酵母宿主细胞的示例性终止子可以从以下的基因获得：酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)、和酿酒酵母甘油醛-3-磷酸脱氢酶。用于酵母宿主细胞的其他有用的终止子是本领域已知的(参见例如，Romanos等，同上)。

在一些实施方案中，控制序列为合适的前导序列，前导序列是一种对由宿主细胞的翻译重要的mRNA的非翻译区域。前导序列被可操作地连接至编码多肽的核酸序列的5'末端。可以使用在所选择的宿主细胞中有功能的任何前导序列。用于丝状真菌宿主细胞的示例性前导序列从以下的基因获得：米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶。用于酵母宿主细胞的适合的前导序列包括，但不限于，从以下的基因获得的那些：酿酒酵母烯醇酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶，酿酒酵母α-因子、和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

控制序列也可以是多腺苷酸化序列，多腺苷酸化序列是一种可操作地连接至核酸序列的3'末端的序列，并且其在转录时，被宿主细胞识别为将多腺苷残基添加至转录的mRNA的信号。在所选择的宿主细胞中有功能的任何多腺苷酸化序列可用于本发明中。用于丝状真菌宿主细胞的示例性多腺苷酸化序列包括，但不限于来自以下的基因的那些：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α葡糖苷酶。用于酵母宿主细胞的有用的多腺苷酸化序列也是本领域已知的(参见例如，Guo和Sherman,Mol.Cell.Bio.,15:5983-5990[1995])。

在一些实施方案中，控制序列为信号肽编码区域，其编码连接至多肽的氨基末端的氨基酸序列并将编码的多肽引导到细胞的分泌途径中。核酸序列的编码序列的5'末端可以固有地包含信号肽编码区域，其符合翻译阅读框地(in translation reading frame)与编码分泌多肽的编码区域的区段天然地连接。可选地，编码序列的5'末端可以包含对编码序列而言外来的信号肽编码区域。将表达的多肽引导到选择的宿主细胞的分泌途径中的任何信号肽编码区域可用于本文提供的工程化脯氨酸羟化酶多肽的表达。用于细菌宿主细胞的有效的信号肽编码区域包括但不限于从以下的基因获得的信号肽编码区域：芽孢杆菌(Bacillus)NClB 11837生麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)、和枯草芽孢杆菌prsA。另外的信号肽是本领域已知的(参见例如，Simonen和Palva，Microbiol.Rev.,57:109-137[1993])。对于丝状真菌宿主细胞有效的信号肽编码区域包括但不限于从以下的基因获得的信号肽编码区：米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和胎毛腐质霉(Humicola lanuginosa)脂肪酶。用于酵母宿主细胞的有用的信号肽包括但不限于来自以下的基因的那些：酿酒酵母α因子和酿酒酵母转化酶。

在一些实施方案中，控制序列为前肽编码区域，其编码定位在多肽的氨基末端处的氨基酸序列。产生的多肽被称为“前酶(proenzyme)”、“前多肽(propolypeptide)”或在某些情况下称为“酶原(zymogen)”)。前多肽可以通过催化或自动催化前肽从前多肽的裂解被转化为成熟活性多肽。前肽编码区域包括但不限于以下的基因：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶、和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶(参见，如WO95/33836)。当信号肽和前肽区域均存在于多肽的氨基末端时，前肽区域紧邻多肽的氨基末端定位并且信号肽区域紧邻前肽区域的氨基末端定位。

在一些实施方案中，还利用了调节序列。这些序列促进多肽表达相对于宿主细胞的生长的调节。调节系统的实例为促使基因的表达被开启或关闭以响应于化学或物理刺激的那些，所述化学或物理刺激包括调节性化合物的存在。在原核宿主细胞中，合适的调节序列包括但不限于lac、tac和trp操纵子系统。在酵母宿主细胞中，合适的调节系统包括但不限于ADH2系统或GAL1系统。在丝状真菌中，合适的调节序列包括但不限于TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子和米曲霉葡糖淀粉酶启动子。

在另一方面，本发明还提供包含编码工程化脯氨酸羟化酶多肽的多核苷酸以及根据它们将被引入的宿主的类型，一个或更多个表达调控区诸如启动子和终止子、复制起点等的重组表达载体。在一些实施方案中，上文描述的各种核酸和控制序列被组合在一起以产生重组表达载体，其包括一个或更多个方便的限制性位点，以允许在此类位点插入或取代编码变体脯氨酸羟化酶多肽的核酸序列。可选地，本发明的多核苷酸序列通过将多核苷酸序列或包含该多核苷酸的核酸构建体插入到适当的表达载体来表达。在创建表达载体时，编码序列位于载体中以使编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体可以是任何载体(例如，质粒或病毒)，其可以方便地经历重组DNA程序中并且可以导致变体脯氨酸羟化酶多核苷酸序列的表达。载体的选择通常将取决于载体与待引入载体的宿主细胞的相容性。载体可以是线性质粒或闭合的环状质粒。

在一些实施方案中，表达载体为自主复制载体(即，作为染色体外的实体存在的载体，其复制独立于染色体复制，诸如质粒、染色体外元件、微型染色体或人工染色体)。载体可以包含用于确保自我复制的任何工具(means)。在一些可选的实施方案中，载体可以是当被引入到宿主细胞中时，被整合到基因组中并与其被整合进的染色体一起复制的载体。此外，可以使用单一载体或质粒或者一起包含待引入到宿主细胞基因组中的总DNA的两种或多种载体或质粒，或者转座子。

在一些实施方案中，表达载体优选地包含一个或更多个可选择的标志物，其允许容易选择经转化的细胞。“可选择的标志物”为其产物提供杀生物剂或病毒抗性、对重金属的抗性、对营养缺陷型的原养型等的基因。细菌的可选择的标志物的实例包括但不限于，来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素抗性诸如氨苄青霉素、卡那霉素、氯霉素或四环素抗性的标志物。用于酵母宿主细胞的合适的标志物包括但不限于ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。用于在丝状真菌宿主细胞中使用的可选择的标志物包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰转移酶)、bar(膦丝菌素乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶(sulfate adenyltransferase))和trpC(邻氨基苯甲酸合成酶)，以及其等同物。在另一个方面，本发明提供了一种宿主细胞，所述宿主细胞包含编码本申请的至少一种工程化脯氨酸羟化酶多肽的多核苷酸，所述多核苷酸被可操作地连接至一个或更多个控制序列用于在宿主细胞中表达工程化脯氨酸羟化酶。用于在表达由本发明的表达载体编码的多肽中使用的宿主细胞是本领域熟知的，并且包括但不限于细菌细胞，诸如大肠杆菌、河流弧菌(Vibrio fluvialis)、链霉菌属(Streptomyces)和鼠伤寒沙门氏菌(Salmonellatyphimurium)细胞；真菌细胞，诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤酵母(Pichiapastoris)[ATCC保藏号201178])；昆虫细胞，诸如果蝇属(Drosophila)S2和夜蛾属(Spodoptera)Sf9细胞；动物细胞，诸如CHO、COS、BHK、293和Bowes黑素瘤细胞；和植物细胞。示例性宿主细胞为大肠杆菌(Escherichia coli)菌株(例如，W3110(ΔfhuA)和BL21)。

因此，在另一个方面，本发明提供了用于产生工程化脯氨酸羟化酶多肽的方法，其中所述方法包括将能够表达编码工程化脯氨酸羟化酶多肽的多核苷酸的宿主细胞在适合该多肽表达的条件下培养。在一些实施方案中，该方法还包括分离和/或纯化如本文描述的脯氨酸羟化酶多肽的步骤。

以上描述的宿主细胞的适当的培养基以及生长条件是本领域熟知的。用于表达脯氨酸羟化酶多肽的多核苷酸可以通过本领域已知的多种方法被引入到细胞中。技术包括，除了其他以外，电穿孔、生物颗粒轰击法、脂质体介导的转染、氯化钙转染和原生质体融合。

具有本文公开的特性的工程化脯氨酸羟化酶可以通过使编码天然存在的或工程化脯氨酸羟化酶多肽的多核苷酸经历本领域中已知的和如本文所描述的诱变和/或定向进化方法来获得。示例性的定向进化技术为诱变和/或DNA改组(参见例如，Stemmer,Proc.Natl.Acad.Sci.USA91:10747-10751[1994]；WO 95/22625；WO 97/0078；WO 97/35966；WO98/27230；WO 00/42651；WO 01/75767和美国专利第6,537,746号)。可以使用的其它定向进化程序包括交错延伸过程(StEP)、体外重组(参见例如，Zhao等人,Nat.Biotechnol.,16:258–261[1998])、诱变PCR(参见例如，Caldwell等人,PCR MethodsAppl.,3:S136-S140[1994])、和盒式诱变(参见例如，Black等人,Proc.Natl.Acad.Sci.USA93:3525-3529[1996])以及其他。

例如，诱变和定向进化的方法可以容易地应用至多核苷酸，以生成可以被表达、筛选和测定的变体库。诱变和定向进化方法是本领域公知的(参见例如美国专利第5,605,793、5,830,721、6,132,970、6,420,175、6,277,638、6,365,408、6,602,986、7,288,375、6,287,861、6,297,053、6,576,467、6,444,468、5,811238、6,117,679、6,165,793、6,180,406、6,291,242、6,995,017、6,395,547、6,506,602、6,519,065、6,506,603、6,413,774、6,573,098、6,323,030、6,344,356、6,372,497、7,868,138、5,834,252、5,928,905、6,489,146、6,096,548、6,387,702、6,391,552、6,358,742、6,482,647、6,335,160、6,653,072、6,355,484、6,303,344、6,319,713、6,613,514、6,455,253、6,579,678、6,586,182、6,406,855、6,946,296、7,534,564、7,776,598、5,837,458、6,391,640、6,309,883、7,105,297、7,795,030、6,326,204、6,251,674、6,716,631、6,528,311、6,287,862、6,335,198、6,352,859、6,379,964、7,148,054、7,629,170、7,620,500、6,365,377、6,358,740、6,406,910、6,413,745、6,436,675、6,961,664、6,537,746、7,430,477、7,873,499、7,702,464、7,783,428、7,747,391、7,747,393、7,751,986、6,376,246、6,426,224、6,423,542、6,479,652、6,319,714、6,521,453、6,368,861、7,421,347、7,058,515、7,024,312、7,620,502、7,853,410、7,957,912、7,904,249、8,383,346、8,504,498、8,768,871、8,762,066、8,849,575号，以及所有相关的非美国的对应申请；Ling等人,Anal.Biochem.,254:157-78[1997]；Dale等人,Meth.Mol.Biol.,57:369-74[1996]；Smith,Ann.Rev.Genet.,19:423-462[1985]；Botstein等人,Science,229:1193-1201[1985]；Carter,Biochem.J.,237:1-7[1986]；Kramer等人,Cell,38:879-887[1984]；Wells等人,Gene,34:315-323[1985]；Minshull等人,Curr.Op.Chem.Biol.,3:284-290[1999]；Christians等人,Nat.Biotechnol.,17:259-264[1999]；Crameri等人,Nature,391:288-291[1998]；Crameri,等人,Nat.Biotechnol.,15:436-438[1997]；Zhang等人,Proc.Nat.Acad.Sci.U.S.A.,94:4504-4509[1997]；Crameri等人,Nat.Biotechnol.,14:315-319[1996]；Stemmer,Nature,370:389-391[1994]；Stemmer,Proc.Nat.Acad.Sci.USA,91:10747-10751[1994]；WO 95/22625；WO 97/0078；WO 97/35966；WO98/27230；WO 00/42651；WO 01/75767；WO 2009/152336、WO 2009/102901、WO2009/102899、WO 2011/035105、WO 2013/138339、WO 2013/003290、WO 2014/120819、WO2014/120821、WO 2015/0134315和WO 2015/048573，其全部通过引用并入本文)。

在一些实施方案中，诱变处理后获得的酶克隆通过使酶经历指定的温度(或其他测定条件，诸如测试酶对宽范围的底物的活性)，并测量热处理或其他测定条件之后剩余的酶活性的量进行筛选。然后包含编码脯氨酸羟化酶多肽的多核苷酸的克隆被测序以鉴定核苷酸序列的改变(如果有)，并且用于在宿主细胞中表达酶。测量来自表达文库的酶活性可以使用本领域已知的任何合适的方法(例如，标准生物化学技术，诸如HPLC分析)来进行。

在一些实施方案中，可对在诱变处理后获得的克隆筛选具有一种或更多种期望的改进的酶性质(例如改进的区域选择性)的工程化脯氨酸羟化酶。测量来自表达文库的酶活性可以使用诸如以下的标准生物化学技术进行：HPLC分析，和/或产物的衍生(分离前或分离后)，例如用丹酰氯或OPA。(参见例如，Yaegaki等人,J Chromatogr.356(1):163-70[1986])。

当已知工程化多肽的序列时，根据已知的合成方法可以通过标准固相方法制备编码该酶的多核苷酸。在一些实施方案中，多达约100个碱基的片段可以被单独地合成、然后被连接(例如通过酶促或化学连接方法或聚合酶介导的方法)以形成任何期望的连续序列。例如，编码脯氨酸羟化酶的部分的多核苷酸和寡核苷酸可通过本领域已知的化学合成被制备(例如，Beaucage等人,Tet.Lett.22:1859-69[1981]的经典的亚磷酰胺法或由Matthes等人，EMBO J.3:801-05[1984]描述的方法)，如通常在自动化合成方法中所实践的。根据亚磷酰胺方法，寡核苷酸被合成(例如，在自动的DNA合成仪中)、纯化、退火、连接并克隆入适当的载体。此外，可以从各种商业来源中的任何一个获得基本上任何核酸。在一些实施方案中，通过合成含有缺失、插入和/或取代的寡核苷酸并且以各种排列组合寡核苷酸可以创造另外的变化，以产生具有改进性质的工程化脯氨酸羟化酶。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法包括：(a)合成编码多肽的多核苷酸，所述多肽包括与选自SEQ ID NO:4-1004的偶数序列的氨基酸序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多序列同一性和与SEQ ID NO:4相比在选自以下的残基位置上具有一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280；和(b)表达由该多核苷酸编码的脯氨酸羟化酶多肽。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法包括：(a)合成编码多肽的多核苷酸，所述多肽包括与选自SEQ ID NO:4-1004的偶数序列的氨基酸序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多序列同一性和与SEQ ID NO:604相比在选自以下的残基位置上具有一个或更多个残基差异的氨基酸序列：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273；和(b)表达由该多核苷酸编码的脯氨酸羟化酶多肽。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法包括：(a)合成编码多肽的多核苷酸，所述多肽包括与选自SEQ ID NO:4-1004的偶数序列的氨基酸序列具有至少约80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多序列同一性和与SEQ ID NO:810相比在选自以下的残基位置上具有一个或更多个残基差异的氨基酸序列：33、40、95和156；和(b)表达由该多核苷酸编码的脯氨酸羟化酶多肽。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法包括：(a)合成编码多肽的多核苷酸，所述多肽包括选自SEQ ID NO:4-1004的偶数序列和与SEQ ID NO:4相比在选自以下的残基位置上具有一个或更多个残基差异的氨基酸序列：2、4、8、10、15、26、30、33、36、37、39、42、43、44、45、48、50、52、55、56、57、58、61、62、63、71、76、77、81、82、87、88、92、94、95、97、98、101、107、109、114、115、119、121、124、128、130、131、132、134、136、145、151、153、156、158、160、161、165、166、168、173、176、178、180、184、194、213、230、237、240、256、263、266、269、270、271、273、274、275和280；和(b)表达由该多核苷酸编码的脯氨酸羟化酶多肽。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法包括：(a)合成编码多肽的多核苷酸，所述多肽包括选自SEQ ID NO:4-1004的偶数序列和与SEQ ID NO:604相比在选自以下的残基位置上具有一个或更多个残基差异的氨基酸序列：13、14、24、26、27、30、57、61、62、72、76、77、81、82、86、88、97、114、127、128、142、158、161、163、173、175、176、178、180、184、185、186、187、188、189、191、192、195、198、200、207、209、210、211、213、215、217、218、222、225、230、233、236、238、240、241、256、259、263、265、271和273；和(b)表达由该多核苷酸编码的脯氨酸羟化酶多肽。

因此，在一些实施方案中，用于制备工程化脯氨酸羟化酶多肽的方法包括：(a)合成编码多肽的多核苷酸，所述多肽包括选自SEQ ID NO:4-1004的偶数序列和与SEQ ID NO:810相比在选自以下的残基位置上具有一个或更多个残基差异的氨基酸序列：33、40、95和156；和(b)表达由该多核苷酸编码的脯氨酸羟化酶多肽。

在该方法的一些实施方案中，多核苷酸编码任选地具有一个或更多个(例如多达3个、4个、5个或多达10个)氨基酸残基缺失、插入和/或取代的工程化脯氨酸羟化酶。在一些实施方案中，氨基酸序列任选地具有1-2个、1-3个、1-4个、1-5个、1-6个、1-7个、1-8个、1-9个、1-10个、1-15个、1-20个、1-21个、1-22个、1-23个、1-24个、1-25个、1-30个、1-35个、1-40个、1-45个或1-50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、30个、30个、35个、40个、45个或50个氨基酸残基缺失、插入和/或取代。在一些实施方案中，氨基酸序列任选地具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、18个、20个、21个、22个、23个、24个或25个氨基酸残基缺失、插入和/或取代。在一些实施方案中，取代可以是保守取代或非保守取代。

在一些实施方案中，可以使用用于蛋白纯化的熟知技术中的任何一种或更多种，将在宿主细胞中表达的工程化脯氨酸羟化酶多肽的任一种从细胞和/或培养基中回收，用于蛋白纯化的熟知技术除了其他以外包括，溶菌酶处理、超声处理、过滤、盐析、超离心和色谱法。用于溶解和从细菌，诸如大肠杆菌，高效提取蛋白的适合的溶液是商业上可获得的(例如，CelLytic B^TM,Sigma-Aldrich,St.Louis MO)。

用于分离脯氨酸羟化酶多肽的色谱技术，除了其他以外，包括，反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件将部分地取决于因素诸如净电荷、疏水性、亲水性、分子量、分子形状等，并且对本领域技术人员将是明显的。

在一些实施方案中，亲和技术可以被用于分离改进的脯氨酸羟化酶。对于亲和色谱纯化，可以使用特异性结合脯氨酸羟化酶多肽的任何抗体。为了产生抗体，可以通过注射脯氨酸羟化酶多肽或其片段免疫各种宿主动物，包括但不限于兔、小鼠、大鼠等。脯氨酸羟化酶多肽或片段可以通过侧链官能团或附接至侧链官能团的接头的方式附接到合适的载体诸如BSA上。在一些实施方案中，亲和纯化可以使用脯氨酸羟化酶结合的特异配体诸如聚(L-脯氨酸)或染料亲和柱(参见例如EP0641862；Stellwagen,“Dye AffinityChromatography,”In Current Protocols in Protein Science,Unit 9.2-9.2.16[2001])。

使用工程化脯氨酸羟化酶的方法

在一些实施方案中，本文描述的脯氨酸羟化酶可用于将合适的底物转化为其羟基化产物的方法中。通常，用于进行羟基化反应的方法包括在适合于形成羟基化产物的反应条件下在共底物，诸如α-酮戊二酸的存在下，使底物化合物与本发明的脯氨酸羟化酶多肽接触或温育，如以上方案1所示的。

在本文提供的实施方案中并如实施例中说明的，可以在该方法中使用的各种合适的反应条件的范围包括但不限于底物载量、共底物载量、还原剂、二价过渡金属、pH、温度、缓冲液、溶剂体系、多肽载量、和反应时间。用于使用本文所述的工程化脯氨酸羟化酶多肽进行底物化合物向产物化合物的生物催化转化的另外合适的反应条件可以根据本文提供的指导通过常规实验容易地优化，其包括但不限于使工程化脯氨酸羟化酶多肽和底物化合物在浓度、pH、温度和溶剂条件的实验反应条件下接触，并检测产物化合物。

使用工程化脯氨酸羟化酶多肽的适当的反应条件通常包括化学计量地用于羟基化反应的共底物。通常，用于脯氨酸羟化酶的共底物是α-酮戊二酸(α-ketoglutarate)，还称为α-酮戊二酸(α-ketoglutaric acid)和2-氧代戊二酸。可使用能够用作脯氨酸羟化酶的共底物的α-酮戊二酸的其他类似物。可用作共底物的示例性类似物是α-氧代己二酸。因为化学计量地使用共底物，共底物以与底物化合物等摩尔或比底物化合物的量更高的量存在(即共底物的摩尔浓度等于或高于底物化合物的摩尔浓度)。在一些实施方案中，适当的反应条件可包括比底物化合物的摩尔浓度多至少1倍、1.5倍、2倍、3倍、4倍、或5倍或更多的共底物摩尔浓度。在一些实施方案中，适当的反应条件可包括约0.001M至约2M、0.01M至约2M、0.1M至约2M、0.2M至约2M、约0.5M至约2M、或约1M至约2M的共底物浓度，特别是α-酮戊二酸浓度。在一些实施方案中，反应条件包括约0.001、0.01、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、1、1.5或2M的共底物浓度。在一些实施方案中，在反应过程中可添加另外的共底物。

考虑到例如期望的产物化合物的量、底物浓度对酶活性的影响、酶在反应条件下的稳定性和底物向产物的转化百分比，反应混合物中的底物化合物可以变化。在一些实施方案中，合适的反应条件包括至少约0.5g/L至约200g/L、1g/L至约200g/L、5g/L至约150g/L、约10g/L至约100g/L、20g/L至约100g/L或约50g/L至约100g/L的底物化合物载量。在一些实施方案中，合适的反应条件包括至少约0.5g/L、至少约1g/L、至少约5g/L、至少约10g/L、至少约15g/L、至少约20g/L、至少约30g/L、至少约50g/L、至少约75g/L、至少约100g/L、至少约150g/L或至少约200g/L或甚至更高的底物化合物载量。本文中提供的底物载量的值是基于化合物(1)的分子量，然而还设想，等摩尔量的化合物(1)的各种水合物和盐还可在方法中被使用。

在进行本文所述的脯氨酸羟化酶介导的方法时，工程化多肽可以以纯化酶、部分纯化的酶、用编码该酶的基因转化的完整的细胞、此类细胞的提取物和/或溶解产物、和/或固定在固体支持物上的酶的形式加入到反应混合物中。用编码工程化脯氨酸羟化酶的基因转化的完整细胞或细胞提取物、其溶解产物和分离的酶可以以多种不同的形式使用，包括固体(例如冷冻干燥、喷雾干燥等)或半固体(例如粗制糊状物)。细胞提取物或细胞溶解产物可以通过沉淀(硫酸铵、聚乙撑亚胺、热处理等)部分纯化，然后在冷冻干燥前进行脱盐程序(例如超滤、透析等)。任何酶制品(包括完整细胞制品)可以通过使用已知的交联剂诸如戊二醛进行交联或固定于固相(例如Eupergit C等)来稳定。

编码工程化脯氨酸羟化酶多肽的基因可以分别转化到宿主细胞中或一起转化到相同的宿主细胞中。例如，在一些实施方案中，可以用编码一种工程化脯氨酸羟化酶多肽的基因转化一组宿主细胞，并且可以用编码另一工程化脯氨酸羟化酶多肽的基因转化另一组宿主细胞。两组转化细胞可以以完整细胞的形式或以由其衍生的溶解产物或提取物的形式一起用于反应混合物中。在其他实施方案中，可以用编码多个工程化脯氨酸羟化酶多肽的基因转化宿主细胞。在一些实施方案中，工程化多肽可以以分泌的多肽的形式表达，并且含有分泌的多肽的培养基可以用于脯氨酸羟化酶反应。

在一些实施方案中，本文公开的工程化脯氨酸羟化酶多肽的改进的活性和/或立体选择性提供了其中可以用更低浓度的工程化多肽实现更高转化百分比的方法。在该方法的一些实施方案中，合适的反应条件包括底物化合物载量的约1％(w/w)、2％(w/w)、5％(w/w)、10％(w/w)、20％(w/w)、30％(w/w)、40％(w/w)、50％(w/w)、75％(w/w)、100％(w/w)或更高的工程化多肽的量。

在一些实施方案中，工程化多肽以约0.01g/L至约50g/L；约0.05g/L至约50g/L；约0.1g/L至约40g/L；约1g/L至约40g/L；约2g/L至约40g/L；约5g/L至约40g/L；约5g/L至约30g/L；约0.1g/L至约10g/L；约0.5g/L至约10g/L；约1g/L至约10g/L；约0.1g/L至约5g/L；约0.5g/L至约5g/L；或约0.1g/L至约2g/L存在。在一些实施方案中，脯氨酸羟化酶多肽以约0.01g/L、0.05g/L、0.1g/L、0.2g/L、0.5g/L、1g/L、2g/L、5g/L、10g/L、15g/L、20g/L、25g/L、30g/L、35g/L、40g/L或50g/L存在。

在一些实施方案中，反应条件还包括能够在氧化反应中用作辅因子的二价过渡金属。通常，二价过渡金属辅因子是亚铁离子(即，Fe⁺²)。亚铁离子可以以各种形式，诸如硫酸亚铁(FeSO₄)、氯化亚铁(FeCl₂)、碳酸亚铁(FeCO₃)、以及有机酸的盐诸如柠檬酸盐、乳酸盐和延胡索酸盐来提供。硫酸亚铁的示例性来源是莫尔盐，其是硫酸亚铁铵(NH₄)₂Fe(SO₄)₂，并以无水和水合(即，六水合物)形式可得。尽管亚铁离子是在天然存在的脯氨酸羟化酶中发现的过渡金属辅因子并在工程化酶中是功能有效的，应理解在该方法中可使用能够用作辅因子的其他二价过渡金属。在一些实施方案中，二价过渡金属辅助因子可包括Mn⁺²和Cr⁺²。在一些实施方案中，反应条件可包括以下浓度的二价过渡金属辅因子，特别是Fe⁺²：约0.1mM至10mM、0.1mM至约5mM、0.5mM至约5mM、约0.5mM至约3mM或约1mM至约2mM。在一些实施方案中，反应条件包括以下浓度的二价过渡金属辅因子：约0.1mM、0.2mM、0.5mM、1mM、1.5mM、2mM、3mM、5mM、7.5mM或10mM。在一些实施方案中，可使用更高浓度的二价过渡金属辅因子，例如多达50mM或多达100mM。

在一些实施方案中，反应条件还可包括能够将铁离子Fe⁺³还原为亚铁离子Fe⁺²的还原剂。在一些实施方案中，还原剂包括抗坏血酸，典型地L-抗坏血酸。虽然羟基化反应不需要抗坏血酸，但其存在增强酶活性。不受限于理论，认为抗坏血酸维持或再生酶-Fe⁺²形式，其是介导羟基化反应的活化型。通常，反应条件可包括成比例地相应于底物载量的抗坏血酸浓度。在一些实施方案中，抗坏血酸以底物的摩尔量的至少约0.1倍、0.2倍、0.3倍、0.5倍、0.75倍、1倍、1.5倍、或至少2倍存在。在一些实施方案中，还原剂，特别是L-抗坏血酸以约0.001M至约0.5M、约0.01M至约0.5M、约0.01M至约0.4M、约0.1M至约0.4M、或约0.1M至约0.3M的浓度存在。在一些实施方案中，还原剂，特别是抗坏血酸以约0.001M、0.005M、0.01M、0.02M、0.03M、0.05M、0.1M、0.15M、0.2M、0.3M、0.4M或0.5M的浓度存在。

在一些实施方案中，反应条件包括分子氧(即，O₂)。不受限于理论，来自分子氧的一个氧原子被掺入进底物化合物，以形成羟基化产物化合物。O₂可天然地存在于反应溶液中，或人工地引入和/或补充进反应中。在一些实施方案中，反应条件可包括用空气、O₂气体、或其他包含O₂的气体的强制通气(例如，喷雾)。在一些实施方案中，反应中的O₂可通过用O₂或包含O₂的气体增加反应的压强来增加。这可通过在可用O₂气体来增压的容器中进行反应来完成。在一些实施方案中，O₂气体可以以至少1升/小时(L/h)、至少2L/h、至少3L/h、至少4L/h、至少5L/h、或更大的速率喷射通过反应溶液。在一些实施方案中，O₂气体可以以约1L/h和10L/h之间、约2L/h和7L/h之间、或约3L/h和5L/h之间的速率喷射通过反应溶液。

在反应过程期间，反应混合物的pH可以变化。反应混合物的pH可以保持在期望的pH或在期望的pH范围内。这可以通过在反应过程之前和/或期间加入酸或碱来进行。可选择地，可以通过使用缓冲液来控制pH。因此，在一些实施方案中，反应条件包括缓冲液。保持期望的pH范围的合适的缓冲剂是本领域已知的，并且包括例如但不限于硼酸盐、磷酸盐、2-(N-吗啉代)乙磺酸(MES)、3-(N-吗啉代)丙磺酸(MOPS)、乙酸盐、三乙醇胺和2-氨基-2-羟甲基-丙烷-1,3-二醇(Tris)等。在一些实施方案中，缓冲剂是磷酸盐。在方法的一些实施方案中，适当的反应条件包括以下缓冲液(例如磷酸盐)浓度：从约0.01至约0.4M、0.05至约0.4M、0.1至约0.3M、或约0.1至约0.2M。在一些实施方案中，反应条件包括以下的缓冲液(例如磷酸盐)浓度：约0.01、0.02、0.03、0.04、0.05、0.07、0.1、0.12、0.14、0.16、0.18、0.2、0.3、或0.4M。在一些实施方案中，反应条件包括水作为适当的溶剂而没有缓冲液存在。

在该方法的实施方案中，反应条件可以包括合适的pH。通过使用酸或碱、适当的缓冲液或缓冲和酸或碱添加的组合可以维持期望的pH或期望的pH范围。可以在反应过程之前和/或期间控制反应混合物的pH。在一些实施方案中，合适的反应条件包括pH从约4至约10、pH从约5至约10、pH从约5至约9、pH从约6至约9、pH从约6至约8的溶液。在一些实施方案中，反应条件包括约4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10的溶液pH。

在本文的方法的实施方案中，可以使用合适的温度用于反应条件，例如考虑到较高温度下的反应速率的增加和反应时间段期间酶的活性。因此，在一些实施方案中，适当的反应条件包括以下的温度：约10℃至约60℃、约10℃至约55℃、约15℃至约60℃、约20℃至约60℃、约20℃至约55℃、约25℃至约55℃、或约30℃至约50℃。在一些实施方案中，适当的反应条件包括约10℃、15℃、20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、或60℃的温度。在一些实施方案中，酶促反应期间的温度可以贯穿反应过程维持在特定温度。在一些实施方案中，酶促反应期间的温度可以在反应过程中在温度曲线上进行调节。

本发明的方法通常在溶剂中进行。合适的溶剂包括水、水性缓冲溶液、有机溶剂、聚合物溶剂和/或共溶剂系统，其通常包含水性溶剂、有机溶剂和/或聚合物溶剂。水性溶剂(水或水性共溶剂系统)可以是pH缓冲的或不缓冲的。在一些实施方案中，使用工程化脯氨酸羟化酶多肽的方法可以在包含有机溶剂(例如乙醇、异丙醇(IPA)、二甲亚砜(DMSO)、二甲基甲酰胺(DMF)、乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔丁基醚(MTBE)、甲苯等)、离子或极性溶剂(例如1-乙基4-甲基咪唑鎓四氟硼酸盐、1-丁基-3-甲基咪唑鎓四氟硼酸盐、1-丁基3-甲基咪唑六氟磷酸盐、甘油、聚乙二醇等)的水性共溶剂系统中进行。在一些实施方案中，共溶剂可以是极性溶剂诸如多元醇、二甲亚砜(DMSO)或低级醇。水性共溶剂系统的非水性共溶剂组分可以与水性组分混溶，提供单一液相，或可以与水性组分部分混溶或不混溶，提供两个液相。示例性的水性共溶剂系统可以包含水和选自有机溶剂、极性溶剂和多元醇溶剂的一种或更多种共溶剂。通常，选择水性共溶剂系统的共溶剂组分，使得其在反应条件下不会不利地使脯氨酸羟化酶失活。通过利用酶活性测定(诸如本文描述的那些)测量具体工程化脯氨酸羟化酶与限定的感兴趣的底物在候选溶剂系统中的酶促活性可以容易地鉴定适当的共溶剂系统。

在该方法的一些实施方案中，合适的反应条件包括水性共溶剂，其中共溶剂包含约1％至约50％(v/v)、约1％至约40％(v/v)、约2％至约40％(v/v)、约5％至约30％(v/v)、约10％至约30％(v/v)或约10％至约20％(v/v)的DMSO。在该方法的一些实施方案中，合适的反应条件可以包括包含约1％(v/v)、约5％(v/v)、约10％(v/v)、约15％(v/v)、约20％(v/v)、约25％(v/v)、约30％(v/v)、约35％(v/v)、约40％(v/v)、约45％(v/v)或约50％(v/v)的DMSO的水性共溶剂。

在一些实施方案中，反应条件可以包括用于稳定或促进反应的表面活性剂。表面活性剂可以包括非离子、阳离子、阴离子和/或两亲性表面活性剂。示例性的表面活性剂包括例如但不限于壬基苯氧基聚乙氧基乙醇(NP40)、Triton X-100、聚氧乙烯-硬脂酰胺、十六烷基三甲基溴化铵、油烯基酰氨基硫酸钠、聚氧乙烯脱水山梨糖醇单硬脂酸酯、十六烷基二甲基胺等。可以使用任何可以稳定或促进反应的表面活性剂。在反应中使用的表面活性剂的浓度通常可以从0.1mg/ml至50mg/ml，特别是从1mg/ml至20mg/ml。

在一些实施方案中，反应条件可以包括消泡剂，其有助于减少或防止在反应溶液中形成泡沫，诸如当反应溶液被混合或喷洒时。消泡剂包括非极性油(例如矿物油、硅酮等)、极性油(例如脂肪酸、烷基胺、烷基酰胺、烷基硫酸酯(alkyl sulfate)等)和疏水性(例如经处理的二氧化硅(silica)、聚丙烯等)，其中一些也充当表面活性剂。示例性的消泡剂包括Y-

(Dow Corning)、聚乙二醇共聚物、氧基/乙氧基化醇和聚二甲基硅氧烷。在一些实施方案中，消泡剂可以以约0.001％(v/v)至约5％(v/v)、约0.01％(v/v)至约5％(v/v)、约0.1％(v/v)至约5％(v/v)或约0.1％(v/v)至约2％(v/v)存在。在一些实施方案中，消泡剂可以以约0.001％(v/v)、约0.01％(v/v)、约0.1％(v/v)、约0.5％(v/v)、约1％(v/v)、约2％(v/v)、约3％(v/v)、约4％(v/v)或约5％(v/v)或更高存在，如促进反应所需的。

在羟化反应中使用的反应物的量通常将根据所需产物的量以及伴随的所用脯氨酸羟化酶底物的量而变化。本领域普通技术人员将容易地理解如何改变这些量以将它们定制到所需的生产率和生产规模的水平。

在一些实施方案中，加入反应物的顺序不是关键的。反应物可以一起同时加入到溶剂(例如单相溶剂、双相水性共溶剂系统等)中，或者可选择地，一些反应物可以分开加入，而一些反应物可以在不同的时间点一起加入。例如，辅因子、共底物、脯氨酸羟化酶和底物可以先加到溶剂中。

固体反应物(例如酶、盐等)可以各种不同的形式提供给反应，包括粉末(例如冻干、喷雾干燥等)、溶液、乳液、悬浮液等。使用本领域普通技术人员已知的方法和设备，可以容易地将反应物冻干或喷雾干燥。例如，蛋白溶液可以在-80℃下以小等分试样冷冻，然后加到预冷的冻干室中，随后施加真空。

在使用水性共溶剂体系时，为了提高混合效率，可以先将脯氨酸羟化酶和辅因子加入并混合到水相中。然后可以加入并混合有机相，然后加入脯氨酸羟化酶底物和共底物。可选择地，脯氨酸羟化酶底物可以在添加到水相中之前在有机相中预混合。

通常允许羟化过程进行，直到底物向羟化产物的进一步转化不随反应时间显著变化(例如少于10％的底物被转化或少于5％的底物被转化)。在一些实施方案中，允许反应进行直到底物完全或接近完全转化为产物。可使用已知方法通过检测底物和/或产物(伴随或不伴随衍生化)来监测底物向产物的转化。合适的分析方法包括气相色谱、HPLC、MS等。

在该方法的一些实施方案中，合适的反应条件包括至少约5g/L、10g/L、20g/L、30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更高的底物载量，并且其中该方法在约48h或更少、在约36h或更少或在约24h或更少的时间内产生至少约50％、60％、70％、80％、90％、95％或更高的底物化合物向产物化合物的转化。

当在合适的反应条件下在该方法中使用时，本发明的工程化脯氨酸羟化酶多肽产生相比于反式羟化产物，至少90％、95％、96％、97％、98％、99％或更高的顺式羟化产物的非对映体过量的过量。在一些实施方案中，未形成可检测量的反式-羟基化产物化合物。

在使用工程化脯氨酸羟化酶多肽将底物化合物转化为羟化产物化合物的方法的另外的实施方案中，合适的反应条件可以在反应溶液中包括初始底物载量，然后与多肽接触。然后，此反应溶液还补充有连续或分批添加的另外的底物化合物，以至少约1g/L/h、至少约2g/L/h、至少约4g/L/h、至少约6g/L/h或更大的速率随时间加入。因此，根据这些合适的反应条件，多肽被加至具有至少约20g/L、30g/L或40g/L的初始底物载量的溶液。加入多肽后，然后以约2g/L/h、4g/L/h或6g/L/h的速率向溶液连续加入另外的底物，直到达到高得多的至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L、150g/L、200g/L或更高的最终底物载量。因此，在该方法的一些实施方案中，合适的反应条件包括将多肽加入到具有至少约20g/L、30g/L或40g/L的初始底物载量的溶液中，然后以约2g/L/h、4g/L/h或6g/L/h的速率向溶液添加另外的底物直到达到至少约30g/L、40g/L、50g/L、60g/L、70g/L、100g/L或更大的最终底物载量。这一底物补充反应条件允许达到更高的底物载量，同时保持底物向底物的羟化产物的至少约50％、60％、70％、80％、90％或更高转化的高转化率。在该方法的一些实施方案中，添加的底物是在以与该另外添加的底物等摩尔或更高的量包含α-酮戊二酸的溶液中。

在该方法的一些实施方案中，使用工程化脯氨酸羟化酶多肽的反应可包括以下合适的反应条件：(a)约5g/L至30g/L的底物载量；(b)约0.1g/L至10g/L的工程化多肽；(c)约19g/L(0.13M)至57g/L(0.39M)的α-酮戊二酸盐；(d)约14g/L(0.08M)至63g/L(0.36M)的抗坏血酸；(e)约1.5g/L(3.8mM)至4.5g/L(11.5mM)的FeSO₄；(f)约6至7的pH；(g)约20℃至40℃的温度；和(h)2-24小时的反应时间。

在该方法的一些实施方案中，使用工程化脯氨酸羟化酶多肽的反应可包括以下合适的反应条件：(a)以约10g/L至100g/L的底物载量；(b)约1g/L至约50g/L的工程化多肽；(c)以底物化合物的约1至2摩尔当量的α-酮戊二酸；(d)以底物化合物的约0.25至0.75摩尔当量的抗坏血酸；(e)约0.5mM至约12mM)的FeSO₄；(f)约6至8的pH；(g)约20℃至40℃的温度；以及(h)6至120h的反应时间。

在一些实施方案中，进行另外的反应组分或另外的技术以补充反应条件。这些可以包括采取措施来稳定酶或防止酶失活、减少产物抑制、使反应平衡移动到羟化产物形成。

在另外的实施方案中，用于将底物化合物转化为产物化合物的任何上述方法还可以包括一个或更多个选自以下的步骤：提取；分离；纯化；和产物化合物的结晶。用于从通过以上公开的方法产生的生物催化反应混合物提取、分离、纯化和/或结晶羟化产物的方法、技术和方案是普通技术人员已知的和/或可通过常规实验获得的。此外，在下面的实施例中提供了说明性的方法。

本发明的各种特征和实施方案在以下代表性实施例中进行了说明，这些实施例旨在说明而非限制。

实验

提供以下实施例，包括实验和获得的结果，仅用于说明的目的，而不应被解释为限制本发明。

在下面的实验公开内容中，以下缩写适用：ppm(百万分率)；M(摩尔/升)；mM(毫摩尔/升)、uM和μM(微摩尔/升)；nM(纳摩尔/升)；mol(摩尔)；gm和g(克)；mg(毫克)；ug和μg(微克)；L和l(liter)；ml和mL(毫升)；cm(厘米)；mm(毫米)；um和μm(微米)；sec.(秒)；min(s)(分钟)；h(s)和hr(s)(小时)；U(单位)；MW(分子量)；rpm(每分钟转数)；℃(摄氏度)；CDS(编码序列)；DNA(脱氧核糖核酸)；RNA(核糖核酸)；NA(核酸；多核苷酸)；AA(氨基酸；多肽)；大肠杆菌W3110(常用的实验室大肠杆菌菌株，可从Coli Genetic Stock Center[CGSC],NewHaven,CT获得)；HPLC(高压液相色谱)；SDS-PAGE(十二烷基硫酸钠聚丙烯酰胺凝胶电泳)；PES(聚醚砜)；CFSE(羧基荧光素琥珀酰亚胺酯)；IPTG(异丙基β-D-1-硫代吡喃半乳糖苷)；PMBS(多粘菌素B硫酸盐)；NADPH(烟酰胺腺嘌呤二核苷酸磷酸盐)；GDH(葡萄糖脱氢酶)；聚乙烯亚胺(PEI)；FIOPC(比阳性对照的改进倍数)；DO(溶解氧)；ESI(电喷雾电离)；LB(Luria肉汤)；TB(terrific肉汤)；MeOH(甲醇)；HTP(高通量)；SFP(摇瓶粉末)；DSP(下游工艺粉末)；Athens Research(Athens Research Technology、Athens,GA)；ProSpec(ProSpecTany Technogene,East Brunswick,NJ)；Sigma-Aldrich(Sigma-Aldrich,St.Louis,MO)；Ram Scientific(Ram Scientific,Inc.,Yonkers,NY)；Pall Corp.(Pall,Corp.,Pt.Washington,NY)；Millipore(Millipore,Corp.,Billerica MA)；Difco(DifcoLaboratories,BD Diagnostic Systems,Detroit,MI)；Molecular Devices(MolecularDevices,LLC,Sunnyvale,CA)；Kuhner(Adolf Kuhner,AG,Basel,Switzerland)；CambridgeIsotope Laboratories,(Cambridge Isotope Laboratories,Inc.,Tewksbury,MA)；Applied Biosystems(Applied Biosystems,Life Technologies,Corp.,Grand Island,NY的一部分),Agilent(Agilent Technologies,Inc.,Santa Clara,CA)；Thermo Scientific(Thermo Fisher Scientific,Waltham,MA的一部分)；Fisher(Fisher Scientific,Waltham,MA)；Corning(Corning,Inc.,Palo Alto,CA)；Waters(Waters Corp.,Milford,MA)；GE Healthcare(GE Healthcare Bio-Sciences,Piscataway,NJ)；Pierce(PierceBiotechnology(现为Thermo Fisher Scientific的一部分),Rockford,IL)；Phenomenex(Phenomenex,Inc.,Torrance,CA)；Optimal(Optimal Biotech Group,Belmont,CA)；和Bio-Rad(Bio-Rad Laboratories,Hercules,CA)。

以下序列用于开发本发明。

实施例1

表达和筛选工程化脯氨酸羟化酶多肽

将多核苷酸序列SEQ ID NO:4(参见，WO2013/169725A2的SEQ ID NO:134)克隆进入pCK110900载体系统(参见例如，美国专利申请公布第2006/0195947号，其特此通过引用并入本文)、pJV110900载体系统(SEQ ID NO:1007)、pJV110900a18c RBS载体系统(SEQ IDNo:1008)或pJV110900gc RBS载体系统(SEQ ID NO:1009)并随后在大肠杆菌W3110菌株中表达。大肠杆菌W3110菌株在lac启动子的控制下表达脯氨酸羟化酶多肽。基于与其他脯氨酸羟化酶的序列比较和对接(docked)底物脯氨酸的酶结构的计算机模拟，与活性位点、肽环、溶液/底物交界面、和潜在的稳定性位置相关的残基位置被鉴定并经历诱变。在HTP测定条件下用(2S)-哌啶-2-羧酸作为底物筛选这些第一轮变体。鉴定了具有增加的酶活性和/或表达的变体。将来自第一轮筛选的残基差异以各种排列组合并在HTP测定、SFP测定、和DSP测定条件下筛选改进的特性。从筛选获得的工程化脯氨酸羟化酶多肽序列和特定突变及相对活性列于以下实施例中的表格中。

实施例2

工程化脯氨酸羟化酶的生产

如以上指出的，实施例1的工程化脯氨酸羟化酶多肽在大肠杆菌W3110中在lac启动子的控制下产生。用于HTP、DSP、和SFP测定的酶制品制备如下。

高通量(HTP)生长、表达和溶解产物制备

挑取细胞并在含有1％葡萄糖和30μg/mL氯霉素(CAM)的LB培养基中、30℃、200rpm、85％湿度下培养过夜。然后将20μL过夜生长的等份转移到含有包含30μg/mL CAM、1mM IPTG的380μL 2xTB生长培养基的深孔板中，并在30℃、200rpm、85％湿度孵育～18h。将细胞培养物在4000rpm、4℃离心10分钟，并弃去培养基。将细胞团块再悬浮在200μL溶解缓冲液(50mM Bis-Tris缓冲液,pH 6.3，包含0.5mg/mL PMBS、1mM MgSO₄和1mg/mL溶菌酶)中。溶解缓冲液通过向90mL的50mM Bis-Tris缓冲液,pH 6.3加入10mL Bis-Tris,pH 6.3中10mM MgSO₄、50mg PMBS和100mg溶菌酶新鲜制备。

摇瓶粉末(SFP)的生产

摇瓶程序用于产生在本文公开的二次筛选测定或生物催化方法中使用的工程化脯氨酸羟化酶多肽粉末。摇瓶粉末提供与HTP测定中使用的细胞溶解产物相比更纯化的工程化酶制品(例如，多达总蛋白的30％)。将含有编码感兴趣的工程化多肽的质粒的大肠杆菌的单菌落接种到含有30μg/ml氯霉素和1％葡萄糖的50mL Luria Bertani肉汤中。细胞在培养箱中在30℃下以250rpm振荡生长过夜(至少16小时)。在1升烧瓶中，在含有30μg/ml氯霉素的250mL Terrific肉汤(12g/L细菌用胰蛋白胨、24g/L酵母提取物、4mL/L甘油、65mM磷酸钾，pH 7，1mM MgSO₄)中将培养物稀释至600nm的光密度(OD600)为0.05，并允许在30℃下生长。当培养物的OD600为0.6至0.8时，通过加入IPTG至1mM的终浓度来诱导脯氨酸羟化酶基因的表达。然后继续温育过夜(至少16小时)。通过离心(5000rpm，15分钟，4℃)并弃去上清液来收获细胞。通过用等体积的冷的(4℃)25mM Tris-HCl缓冲液pH 6.3重新悬浮来洗涤并通过如上所述的离心来收获细胞沉淀。将洗涤的细胞再悬浮于两体积的冷25mM Tris-HCl缓冲液,pH 6.3中，并且以12,000psi经过French Press两次，同时保持在4℃。通过离心(9000rpm、45分钟、4℃)除去细胞碎片。收集澄清的溶解产物上清液并储存在-20℃。冷冻澄清溶解产物的冷冻干燥提供了粗制工程化多肽的干摇瓶粉末。可选择地，细胞沉淀物(洗涤前或洗涤后)可以储存在4℃或-80℃。

下游工艺粉末(DSP)的生产

DSP粉末提供与HTP或SFP测定中使用的细胞溶解产物相比更纯化的工程化脯氨酸羟化酶制品。用于生产DSP粉末的工程化脯氨酸羟化酶的较大规模发酵(来自10L的～100-120g)可根据标准生物加工方法作为短分批随后是进料分批法进行。简言之，通过添加IPTG至1mM的最终浓度来诱导脯氨酸羟化酶表达。在发酵后，收获细胞，并将其再悬浮在33mMTEA缓冲液中，然后通过匀化而被机械破裂。细胞碎片和核酸用PEI絮凝，并通过离心使悬浮液澄清。使用切向横流超滤膜浓缩所产生的澄清上清液以除去盐和水。然后浓缩的和部分纯化的酶浓缩物可在冷冻干燥器中干燥并被包装(例如，在聚乙烯容器中)。

实施例3

分析程序

在该实施例中，描述了用于表征本文提供的酶变体的分析程序。

方法1-HTP测定、SFP和DSP反应的HPLC分析：

在96深孔格式测定块中，将5μL的反应溶液用200μL的5％碳酸氢钠溶液随后是200μL的丹酰氯溶液(MeCN中的10mg/mL丹酰氯)稀释。将板热密封、离心，并在44-45℃置于培养箱伴随在600rpm振摇1小时。当丹酰氯衍生化完成时，反应溶液由黄色变成为浅黄色。在溶液保持黄色的情况下，将板加热另一个15min。温育后，将板以4000rpm离心1min。将上清液的20μL等份转移进包含每孔140ul水的96Corning板用于HPLC分析。对猝灭的反应在以下条件下进行HPLC分析。

化合物(1)至化合物(2)的转化从产生的色谱图如下确定：

％转化＝{(RF x产物面积)/[(RF x产物面积)+底物面积]}x 100

其中

响应因子(RF)＝底物面积/产物面积。

使用该方法快速鉴定(2S)-哌啶-2-羧酸(化合物1)向羟基哌啶-2-羧酸(化合物2)的转化。指示为“响应时间”的色谱洗脱曲线在表3.2中提供。

方法2–HTP测定的LC/MS/MS分析

反应通过以50:50的乙腈:H₂O稀释2000倍来猝灭，并且通过LC/MS/MS分析反应产物。用于羟基哌可酸和哌可酸的LC/MS/MS分析在以下条件下进行：

方法3–用于脯氨酸羟化酶定量的尺寸排阻色谱(SEC)方法

在96圆底孔格式测定块中，用90uL水稀释10uL脯氨酸羟化酶溶解产物(或在1mg/mL粉末溶液的SF或DSP粉末溶液)反应溶液。将板热密封并将样品注入HPLC上以定量脯氨酸羟化酶。

对样品在以下条件下进行HPLC分析。

方法4-从L-赖氨酸的“一锅”反应的HPLC分析：

在96深孔格式测定块中，将5μL的反应溶液用200μL的5％碳酸氢钠溶液随后是200μL的丹酰氯溶液(MeCN中的10mg/mL丹酰氯)稀释。将板热密封、离心，并在44-45℃置于培养箱伴随在600rpm振摇1小时。当丹酰氯衍生化完成时，反应溶液由黄色变成为浅黄色。在溶液保持黄色的情况下，将板加热另一个15min。温育后，将板以4000rpm离心1min。将上清液的20μL等份转移进包含每孔140ul水的96Corning板用于HPLC分析。

对猝灭的反应在以下条件下进行HPLC分析。

化合物(1)至化合物(2)的转化从产生的色谱图如下确定：

％转化＝{(RF x产物面积)/[(RF x产物面积)+底物面积]}x 100

其中

响应因子(RF)＝底物面积/产物面积。

使用该方法快速鉴定L-赖氨酸向羟基哌啶-2-羧酸的转化。指示为“响应时间”的色谱洗脱曲线在表3.6中提供。

实施例4

用于将化合物(1)转化为化合物(2)的脯氨酸羟化酶的高通量(HTP)筛选

在该实施例中，描述了用于HTP筛选本发明的脯氨酸羟化酶的测定方法。

HTP筛选测定：

用于指导变体的初级筛选的高通量筛选在96板中使用细胞溶解产物进行。使用八个条件，称为“条件”A、B、C、D、E、F、G和H。对于所有八种条件的细胞生长和溶解如下进行。将细胞如以上所述生长在96孔板中并且溶解产物通过分配200uL溶解缓冲液进入各孔来制备。溶解缓冲液通过将100mg的溶菌酶和50mg的PMBS溶解在90mL的50mM Bis-Tris缓冲液,pH 6.3和10mL Bis-Tris,pH＝6.3中的10mM MgSO4中来制备。将板热密封，并然后在室温振摇2h。随后，将板快速旋转以将溶解产物沉淀在板的底部。该粗制溶解产物用于反应。

条件A-E：

用于条件A–E的最终反应参数如下：100μL的60g/L哌可酸、90μL的100g/Lα-酮戊二酸、80μL的溶解产物(条件A和B)、15μL溶解产物(条件C-E)、65μL的50mM Bis-Tris缓冲液pH＝6.3(条件C-E)、以及30μL的20mM(条件A)、5mM(条件B)100mM(条件C-E)抗坏血酸中40mM(条件A)、5mM(条件B-E)莫尔盐。将所有储备溶液在50mM Bis-Tris,pH6.3中缓冲并调整pH。

将60g/L哌可酸溶液和100g/Lα-酮戊二酸溶液在氮气下吹扫20分钟。100mM抗坏血酸溶液在50mM Bis-Tris,pH＝6.3缓冲液中制备，并用50％NaOH调整pH至pH＝6.3。将100mM抗坏血酸溶液在氮气下吹扫20分钟。

以300μL规模运行的条件A-E反应在96孔板中进行。在该测定中，将100μL/孔的50mM Bis-Tris,pH＝6.3中60g/L哌可酸等分到96孔板中。向带有100uL 60g/L哌可酸的每个孔加入90μL的50mM Bis-Tris,pH 6.3中100g/Lα-酮戊二酸，然后加入80μL粗制细胞溶解产物(条件A和B)或15μL粗制细胞溶解产物(条件C-E)以及65μL的50mM Bis-Tris缓冲液pH＝6.3(条件C-E)。制备以下预混物储备溶液：50mM Bis-Tris,pH 6.3中20mM(条件A)、5mM(条件B)和100mM(条件C-E)抗坏血酸中的40mM(条件A)、5mM(条件B-E)莫尔盐，并将30μL加入96孔板的每个孔中。将板用AirPore seal(Qiagen)密封，并使反应在2”throw Kuhner中在25℃，200rpm，85％相对湿度进行过夜。

在过夜孵育后，将来自板的每个孔的5μL反应物稀释并进行LC/MS/MS分析(条件A–B)或衍生化并通过将5ul反应混合物等分到含200μl/孔的5％碳酸氢钠的96深孔板中猝灭(条件C–E)。

向每个孔加入200uL体积的MeCN中10mg/mL丹酰氯，将板热密封，且然后快速旋转以使反应溶液沉降到孔的底部。然后将板在44-45℃加热1小时，同时以600rpm振荡。孵育后，将板在4000rpm离心1分钟。将上清液的20uL等份转移进包含每孔140ul水的96孔Corning板用于HPLC分析。

条件F和G：

用于条件F和G的最终反应参数如下：50(条件G)或65(条件F)μL的50mM Bis-Tris、pH＝6.3、100μL的60g/L哌可酸、90μL的100g/Lα-酮戊二酸、15μL粗制细胞溶解产物(条件F)、30μL粗制细胞溶解产物(条件G)、以及30μL的100mM抗坏血酸中5mM莫尔盐。将所有储备溶液在50mM Bis-Tris,pH 6.3中缓冲并调整pH。然后，将60g/L哌可酸溶液和100g/Lα-酮戊二酸溶液在氮气下吹扫20分钟。100mM抗坏血酸溶液在50mM Bis-Tris,pH＝6.3缓冲液中制备，并用50％NaOH调整pH至pH＝6.3。将100mM抗坏血酸溶液在氮气下吹扫20分钟。

以300uL规模运行的条件F和G反应在96孔板中进行。将50μL(条件G)或65μL(条件F)的50mM Bis-Tris缓冲液,pH＝6.3等分到96孔板的每个孔中，然后加入90μL的50mM Bis-Tris,pH 6.3中100g/Lα-酮戊二酸，以及15uL粗制细胞溶解产物(条件F)或30uL粗制细胞溶解产物(条件G)。制备50mM Bis-Tris,pH 6.3中100mM抗坏血酸中5mM莫尔盐的预混物储备溶液，并将30μL加入96孔板的每个孔中。将板用AirPore seal(Qiagen)密封，并使反应在2”throw Kuhner中在25℃，200rpm，85％相对湿度预孵育2小时。在预孵育后，加入100μL/孔的50mM Bis-Tris,pH＝6.3中60g/L哌可酸。将板用AirPore seal(Qiagen)再次密封，并使反应在2”throw Kuhner中在25℃，200rpm，85％相对湿度预孵育过夜。

在过夜孵育后，将来自板的每个孔的5uL反应物衍生化并通过将5ul反应混合物等分到含200μl/孔的5％碳酸氢钠的96深孔板中猝灭。向每个孔加入200uL体积的MeCN中10mg/mL丹酰氯，将板热密封，且然后快速旋转以使反应溶液沉降到孔的底部。然后将板在44-45℃加热1小时，同时以600rpm振荡。孵育后，将板在4000rpm离心1分钟。将上清液的20uL等份转移进包含每孔140ul水的96孔Corning板用于HPLC分析。

条件H：

用于条件H的最终反应参数如下：100μL的180g/L哌可酸、90μL的300g/Lα-酮戊二酸、30μL溶解产物、50μL的50mM Bis-Tris缓冲液pH＝6.3以及30μL的300mM抗坏血酸中15mM莫尔盐。将所有储备溶液在50mM Bis-Tris,pH 6.3中缓冲并调整pH。

首先，将180g/L哌可酸溶液和300g/Lα-酮戊二酸溶液在氮气下吹扫20分钟。然后，300mM抗坏血酸溶液在50mM Bis-Tris,pH＝6.3缓冲液中制备，并用50％NaOH调整pH至pH＝6.3。将300mM抗坏血酸溶液在氮气下吹扫20分钟。

以300uL规模运行的条件H反应在96孔板中进行。将100μL/孔的50mM Bis-Tris,pH＝6.3中180g/L哌可酸等分到96孔板中。向带有100uL180g/L哌可酸的每个孔加入90μL的50mM Bis-Tris,pH 6.3中300g/Lα-酮戊二酸，然后加入30μL粗制细胞溶解产物以及50μL的50mM Bis-Tris缓冲液pH＝6.3。制备以下预混物储备溶液：50mM Bis-Tris,pH 6.3中300mM抗坏血酸中的15mM莫尔盐，并将30μL加入96孔板的每个孔中。将板用AirPore seal(Qiagen)密封，并使反应在2”throw Kuhner中在25℃，200rpm，85％相对湿度进行过夜。

在过夜孵育后，将来自板的每个孔的5uL反应物衍生化并通过将5uL反应混合物等分到含200μl/孔的5％碳酸氢钠的96深孔板中猝灭。向每个孔加入200uL体积的MeCN中10mg/mL丹酰氯，将板热密封，且然后快速旋转以使反应溶液沉降到孔的底部。然后将板在44-45℃加热1小时，同时以600rpm振荡。孵育后，将板在4000rpm离心1分钟。将上清液的20uL等份转移进包含每孔140ul水的96孔板用于HPLC分析。

下面总结了每种条件(A-H)以及活性结果。活性水平(FIOPC)由“+”符号表示，根据以下图例：

HTP测定条件A总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mMBisTris缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。

用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；0.35g/L L-抗坏血酸；4mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3、80uL粗制溶解产物和反应温度在约25℃(室温)，持续约24小时。将板用O₂可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。活性相对于SEQ ID NO：4测量，计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:4(WO2013/169725A2的SEQ ID NO:134)的％转化。如通过LC/MS/MS分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比。

HTP测定条件B总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mMBisTris缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；0.08g/L L-抗坏血酸；0.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3、80uL粗制溶解产物和反应温度在约25℃(室温)，持续约24小时。将板用O₂可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。活性相对于SEQ ID NO：4测量，计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ IDNO:4(WO2013/169725A2的SEQ ID NO:134)的％转化。如通过LCMS分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比。

HTP测定条件C总结和结果：

将酶从pJV900表达载体表达用于测定条件C。用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；1.75g/L L-抗坏血酸；0.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3、15uL粗制溶解产物和反应温度在约25℃(室温)，持续约24小时。将板用O₂可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。相对于SEQID NO：4的活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:4的％转化。如通过HPLC分析确定的，通过将丹酰氯衍生化产物峰面积除以丹酰氯衍生化底物、产物和杂质/副产物峰的面积之和来定量％转化。

HTP测定条件D总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mM磷酸盐缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。将酶从pJV900表达载体表达用于测定条件D。用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；1.75g/LL-抗坏血酸；0.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3、15uL粗制溶解产物和反应温度在约25℃(室温)，持续约24小时。将板用O2可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。相对于SEQ ID NO：4的活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:4的％转化。如通过HPLC分析确定的，通过将丹酰氯衍生化产物峰面积除以丹酰氯衍生化底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。相对于SEQ ID NO：4的区域选择性通过将期望的区域异构体(2S,5S)峰除以不期望的区域异构体(2S,3S)峰与期望的区域异构体(2S,5S)峰之和并乘以100来计算。

HTP测定条件E总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mM磷酸盐缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。将酶从pJV900表达载体表达用于测定条件E。用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；1.75g/LL-抗坏血酸；0.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3、15uL粗制溶解产物和反应温度在约25℃(室温)，持续约24小时。将板用O₂可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。相对于SEQ ID NO：604的活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:604的％转化。如通过HPLC分析确定的，通过将丹酰氯衍生化产物峰面积除以丹酰氯衍生化底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。每种变体相对于SEQ ID NO：604的比活性计算为在特定反应条件下形成的产物的转化百分比(％)相比于相应的SEQ ID NO:604的％转化，如通过SEC确定的，对脯氨酸羟化酶峰面积归一化。如通过HPLC分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。

HTP测定条件F总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mM磷酸盐缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。将酶从pJV900表达载体表达用于测定条件F。用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；1.75g/LL-抗坏血酸；0.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3。将15uL粗制溶解产物与除底物之外的所有反应组分一起在25℃(室温)预孵育2小时，之后加入底物(1)并将反应混合物孵育约24小时。将板用O2可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。变体相对于SEQ ID NO：604的活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:604的％转化。如通过HPLC分析确定的，通过将丹酰氯衍生化产物峰面积除以丹酰氯衍生化底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。每种变体相对于SEQ ID NO：604的比活性计算为在特定反应条件下形成的产物的转化百分比(％)相比于相应的SEQ ID NO:604的％转化，如通过SEC确定的，对脯氨酸羟化酶峰面积归一化。如通过HPLC分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。

HTP测定条件G总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mM磷酸盐缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。将酶从带有a18c RBS的pJV900表达载体表达用于测定条件G。用于300uL反应的反应条件包括：20g/L底物化合物(2)、30g/L a-酮戊二酸；1.75g/L L-抗坏血酸；0.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3。将30uL粗制溶解产物与除底物之外的所有反应组分一起在25℃(室温)预孵育2小时，之后加入底物(1)并将反应混合物孵育约24小时。将板用O₂可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。每种变体相对于SEQ ID NO：604的活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:604的％转化。如通过HPLC分析确定的，通过将丹酰氯衍生化产物峰面积除以丹酰氯衍生化底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。每种变体相对于SEQ ID NO：604的比活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:604的％转化，如通过SEC确定的，对脯氨酸羟化酶峰面积归一化。如通过HPLC分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。

HTP测定条件H总结和结果：

用200uL溶解缓冲液(1mg/mL溶菌酶、0.5mg/mL多粘菌素B硫酸盐(PMBS)和50mM磷酸盐缓冲液,pH＝6.3)溶解在96孔板中生长的细胞。将酶从pJV900gc RBS表达载体表达用于测定条件H。用于300uL反应的反应条件包括：60g/L底物化合物(2)、90g/L a-酮戊二酸；30mM L-抗坏血酸；1.5mM莫尔盐；50mM Bis-Tris缓冲液pH＝6.3。30uL粗制溶解产物和反应温度在约25℃(室温)，持续约24小时。将板用O₂可渗透密封物密封，并在2”throw Kuhner中以200rpm和85％相对湿度孵育。每种变体相对于SEQ ID NO：810的活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:810的％转化。如通过HPLC分析确定的，通过将丹酰氯衍生化产物峰面积除以丹酰氯衍生化底物、产物和杂质/副产物峰的面积之和来定量％转化。每种变体相对于SEQ ID NO：810的比活性计算为在特定反应条件下形成的产物的％转化相比于相应的SEQ ID NO:810的％转化，如通过SEC确定的，对脯氨酸羟化酶峰面积归一化。如通过HPLC分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％转化)。

实施例5

用于使用摇瓶粉末(SFP)制品将化合物(1)转化为化合物(2)的方法

在该实施例中，描述了使用SFP制品将化合物(1)转化为化合物(2)的方法。

使用SFP酶粉末的200mL规模反应在具有Rushton叶轮、气体喷射环、热电偶和溶解氧(DO)探头的500mL夹套BioStat“Q”发酵容器中进行。反应混合物(条件I)包括：30g/L底物化合物(1)、1.5当量(350mM)a-酮戊二酸；0.3当量(70mM)L-抗坏血酸；1mM莫尔盐；100mM磷酸钾缓冲液,pH＝6.3(pH用KOH调整)、3g/L SFP酶粉末制品的蛋白。向反应器加入130mL的100mM pH 6.3KPO₄缓冲液。通过分别以1.0SLPM使空气或氮气流动直至观察到稳定的探头读数，在100％和0％DO校准DO探头。向在0％DO、氮气流速为0.4SLPM，搅拌的(200rpm)缓冲液中，加入6.0g L-哌可酸(46.5mmol)、10.2gα-酮戊二酸(70mmol；1.5当量)和2.5g的L-抗坏血酸(14mmol；0.3当量)，在～5分钟内得到在pH～2的均匀溶液。用50％w/v(～9M)KOH(～32-35mL)将pH调整至～6.3。在放热(高达～30-35℃)平息后，通过逐滴加入50％w/v KOH或浓H₃PO₄将所得溶液的pH调整至6.3(冷却至室温时pH降低)。DO探头应始终读数<10％。向所得溶液加入400mg(1.0mmol；5mM)莫尔盐(NH₄)₂Fe(SO₄)₂*6H₂O，得到红褐色溶液。当反应在恒定的氮气喷射下时，红褐色应维持至少6小时。将1.0mL Antifoam-204(Aldrich#A6426)加入到红褐色溶液中，得到红褐色混浊/乳状混合物，在2-5分钟内向该混合物加入20mL100mM pH 6.3K-PO₄缓冲液中的600mg SFP，得到～200mL红褐色混浊/乳状混合物。通过将进入的气流切换到空气(100％DO＝空气饱和水中的氧气水平)，在25℃的反应温度将发酵罐置于自动反馈DO(在10％DO)控制(可变搅拌速率)下约24小时。

在指定的时间点，将5μL反应混合物等分到含有200μl/孔的5％碳酸氢钠的96深孔板中。向每个孔加入200μL体积的MeCN中10mg/mL丹酰氯，将板热密封，且然后快速旋转以使反应溶液沉降到孔的底部。然后将板在44-45℃加热1小时，同时以600rpm振荡。孵育后，将板在4000rpm离心1分钟。将上清液的20μL等份转移进包含每孔140ul水的96孔板用于HPLC分析。

结果示于以下表格中。每种变体的相对活性计算为在特定反应条件下形成的产物的转化百分比(％)相比于SEQ ID NO:4(即参考序列)的％转化。如通过HPLC分析确定的，通过将产物峰面积除以底物、产物和杂质/副产物峰的面积之和来定量转化百分比(％)。将不期望的产物峰(2S,3S)-羟基哌可酸的峰面积表示为相对于期望的产物(2S,5S)-羟基哌可酸的峰面积的百分比。

实施例6

用于使用下游工艺粉末(DSP)制品将化合物(1)转化为化合物(2)的方法

在该实施例中，描述了使用DSP制品将化合物(1)转化为化合物(2)的方法。

使用DSP酶粉末的200mL规模反应在具有Rushton叶轮、气体喷射环、热电偶和溶解氧(DO)探头的500mL夹套BioStat“Q”发酵容器中进行。

反应混合物包括：30g/L底物化合物(1，条件J和K)或60g/L底物化合物(1，条件L)、1.5当量α-酮戊二酸；70mM L-抗坏血酸；1mM莫尔盐；100mM磷酸钾缓冲液pH＝6.3(pH用KOH调整)、3g/L(条件J)或6g/L(条件K和L)DSP酶粉末制品的蛋白。

首先，向反应器加入130mL的100mM pH 6.3K-PO₄缓冲液。通过分别以1.0SLPM流动空气或氮气直至观察到稳定的探头读数，在100％和0％DO校准DO探头。向在0％DO、氮气流速为0.4SLPM，搅拌的(200rpm)缓冲液中，加入6.0g L-哌可酸(46.5mmol，条件J和K)或12gL-哌可酸(93mmol，条件L)、10.2gα-酮戊二酸(70mmol；1.5当量，条件J和K)或20.4gα-酮戊二酸(140mmol；1.5当量，条件L)和2.5g的L-抗坏血酸(14mmol；0.3当量(条件J和K)或0.15当量(条件L))，在～5分钟内得到在pH～2的均匀溶液。用50％w/v(～9M)KOH(～32-35mL)将pH调整至～6.3。在放热(高达～30-35℃)平息后，通过逐滴加入50％w/v KOH或浓H₃PO₄将所得溶液的pH调整至6.3(冷却至室温时pH降低)。DO探头应始终读数<10％。然后，向所得溶液加入400mg(1.0mmol；5mM)莫尔盐(NH₄)₂Fe(SO₄)₂*6H₂O，得到红褐色溶液。当反应在恒定的氮气喷射下时，红褐色应维持至少6小时。将1.0mL Antifoam-204(Aldrich#A6426)加入到红褐色溶液中，得到红褐色混浊/乳状混合物，在2-5分钟内向该混合物加入20mL 100mM pH6.3K-PO₄缓冲液中的DSP(600mg,条件J或1200mg条件K和L)，得到～200mL红褐色混浊/乳状混合物。通过将进入的气流切换到空气(100％DO＝空气饱和水中的氧气水平)，在25℃的反应温度将发酵罐置于自动反馈DO(在10％DO)控制(可变搅拌速率)下约24小时。

在指定的时间点，将5μL反应混合物等分到含有200μl/孔的5％碳酸氢钠的96深孔板中。向每个孔加入200uL体积的MeCN中10mg/mL丹酰氯，将板热密封，且然后快速旋转以使反应溶液沉降到孔的底部。然后将板在44-45℃加热1小时，同时以600rpm振荡。孵育后，将板在4000rpm离心1分钟。将上清液的20μL等份转移进包含每孔140ul水的96孔板用于HPLC分析。

用于DSP测定条件J的总结和结果：

这一DSP测定条件在200mL规模在具有Rushton叶轮、气体喷射环、热电偶和溶解氧(DO)和pH探头的500mL夹套BioStat“Q”发酵反应容器中进行。反应混合物包括：30g/L底物化合物(2)、1.5当量(350mM)a-酮戊二酸；0.3当量(70mM)L-抗坏血酸；1mM莫尔盐；100mM磷酸钾缓冲液pH＝6.3(pH用KOH调整)、3g/L DSP酶粉末制品的蛋白。通过将进入的气流切换到空气(100％DO＝空气饱和水中的氧气水平)，在25℃的反应温度将发酵罐置于自动反馈DO(在10％DO)控制(可变搅拌速率)下约24小时。

用于DSP测定条件K的总结和结果：

这一DSP测定条件在200mL规模在具有Rushton叶轮、气体喷射环、热电偶和溶解氧(DO)和pH探头的500mL夹套BioStat“Q”发酵反应容器中进行。反应混合物包括：30g/L底物化合物(1)、1.5当量(350mM)a-酮戊二酸；0.3当量(70mM)L-抗坏血酸；1mM莫尔盐；100mM磷酸钾缓冲液pH＝6.3(pH用KOH调整)、6g/L DSP酶粉末制品的蛋白。通过将进入的气流切换到空气(100％DO＝空气饱和水中的氧气水平)，在25℃的反应温度将发酵罐置于自动反馈DO(在10％DO)控制(可变搅拌速率)下约24小时。

用于DSP测定条件L的总结和结果：

这一DSP测定条件在200mL规模在具有Rushton叶轮、气体喷射环、热电偶和溶解氧(DO)和pH探头的500mL夹套BioStat“Q”发酵反应容器中进行。反应混合物包括：60g/L底物化合物(1)、1.5当量(350mM)a-酮戊二酸；0.3当量(70mM)L-抗坏血酸；1mM莫尔盐；100mM磷酸钾缓冲液pH＝6.3(pH用KOH调整)、6g/L DSP酶粉末制品的蛋白。将发酵罐置于稳定气流0.4SLPM空气；720rpm(kLA～0.05/s)、25℃的反应温度持续约24小时。

实施例7

用于从L-赖氨酸“一锅”合成化合物(2)的方法

在该实施例中，描述了用于从L-赖氨酸“一锅”合成化合物(2)的方法。

使用DSP酶粉末的200mL规模反应在具有Rushton叶轮、气体喷射环、热电偶和溶解氧(DO)探头的500mL夹套BioStat“Q”发酵容器中进行。反应混合物包括：68g/L底物化合物、1.2当量α-酮戊二酸；70mM L-抗坏血酸；2mM莫尔盐；100mM磷酸钾缓冲液pH＝7.3(pH用KOH调整)、6g/L SEQ ID NO:810DSP酶粉末制品的蛋白、0.5g/L NAD、3g/L赖氨酸环化脱氨酶SEQ ID NO:1006的蛋白。首先，将140mL的100mM磷酸钾缓冲液,pH＝7.3加入到反应器中，然后加入13.6g(470mmol)的L-赖氨酸(在100％转化，相当于～60g/L)和16.3g(112mmol；1.2当量)的α-酮戊二酸，在～5分钟内得到澄清的无色溶液(pH～3)。通过50wt％KOH将pH调整至7.3(～17mL；放热至～32-35℃)。将反应混合物冷却至～22-24℃后，在氮气喷射(DO＝0％)下向反应器加入：1mL的Antifoam 204、10mL 100mM pH 7.3磷酸钾缓冲液中100mg(～0.5g/L，基于最终体积)的NAD、0.6g的SEQ ID NO:1006DSP(～3g/L，基于最终体积)，得到澄清的浅黄色溶液(在t＝1和2h时，取10μL等份并用700μL的5％NaHCO₃猝灭)。在氮气下搅拌2小时后，向反应混合物中加入2.8g(14mmol；0.15当量)抗坏血酸钠，然后加入160mg(0.4mmol)莫尔盐((NH₄)₂Fe(SO₄)₂*6H₂O),得到暗红色溶液(如果需要，将pH重新调整至7.3)，并加入10mL 100mM pH 7.3磷酸钾缓冲液中1.2g SEQ ID NO:810DSP(～6g/L，基于最终体积)，得到暗红色的暗浊溶液。将搅拌速率增加至720rpm并将气流改变为0.4SLPM的60:40空气/N₂。

在t＝3、16、18、20、22、24、26、40、44和48h时，取10μL等份并用700μL 5％NaHCO₃猝灭。在t＝16和26h时；加入160mg(0.4mmol)莫尔盐。在t＝40h时，将搅拌设置为600rpm，并将气流设置为0.4SLPM的50:50空气/N₂。将等份用500μL乙腈中的10g/L丹酰氯在50℃处理1h。衍生化后，将样品在室温以5000rpm离心3分钟。取出50μL所得上清液并用200μL dH₂O稀释用于HPLC分析。结果示于图1中。

在本文中引用的所有出版物、专利、专利申请和其他文件出于所有目的均通过引用以其整体并入本文，其程度如同分别指出将每个单独的出版物、专利、专利申请或其它文件出于所有目的通过引用并入一样。

尽管已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的精神和范围。

Claims

1. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:4之间的残基差异为C43A、M151G/H/Q/R、F176V，以及选自以下的1-5个残基差异：L45C、V58M、K71I、E114K/H/R、E115P、G128A/E/T、L165F/Y、A173R、D237A/K/C/T/S、G270R、E273V。

2. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:4之间的残基差异为L76V、M151R/N/T、F176V，以及选自以下的1-6个残基差异：R15C、C43A、L45C、R48I、G50A、I56R、V57I、V58M、A62C、P63F/L/V/H/I、K71C/V/I、S87C/W、R88W、V92C、L119A、D124H、G128A/E/H/T/Y、E134Q、K136R、I145C、S160E/R、L165Y。

3. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:4之间的残基差异为S30T/R、L76V、M151R/T、F176V，以及选自以下的1-4个残基差异：V44P、V57I、A62C/F、K71C/V、G128A/Y、I145C、S160E、G270V、Y280F。

4. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:4之间的残基差异为L76V、M151R/T/N、S160R、F176V，以及选自以下的1-6个残基差异：S30R/T、C37I、K39R、C43A、I56R、V58M、A62C、A101G、K136N/R、L165Y、E178C、F180Y、V184F、I213E、S240H、A256D、S263E/D、R266Q、R274P/Y、G275A、Y280L。

5. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:4之间的残基差异为S30R/A/E/N/T/V/G、C37I/L、L76V、M151R、S160R、F176V，以及选自以下的1-5个残基差异：H4P、S33T、K39P/T、Q52P、D55E、V58T、N61D、A62E/R/G/T、I94L、V95I、V97A、S98P、S107A/M、Y109F、E114G/N/Q/S、E115G/C、L119V、D124E、A130L、H271Q、V277E/K/R/M。

6. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:4之间的残基差异为S30R、C37I、M151R/G、S160R/C、F176V，以及选自以下的1-2个残基差异：D55E/S、V57A/L/T、V58L/S/Y/C/H/N/T、L76V、V97A、S107A/M、Y109F、E115C/G、A156S、V277E/K/M/R。

7. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:604之间的残基差异为R30N、A62D/E，以及选自以下的1-6个残基差异：A57V、N61D、L76V、A97V、E114K/N/S、E273G/T、H271R/W。

8. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:604之间的残基差异为R30N、A62D、E114S、E273T、H271W，以及选自以下的1-4个残基差异：S24T、S72V、S127T/R、K161G、A173Y、E178R、V184L、Q186R、P187H、V188I、E185V、Q186G、T189I/H/P、D192W、M193I、G207R、G210M、S240I/Q、S263G、H271W。

9. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:604之间的残基差异为R26A/G、R30N、A62D、E114S、E273T、H271W，以及选自以下的1-10个残基差异：S24T、S72E/Y、T82K、G128A、C158N、K161P、A173K/Y、F180M、T189A、D192A/P、K198A、G207K、I213L、S225A、F233E/Y、S240C/T、M241C。

10. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:604之间的残基差异为R30N、A62D、E114S、E273T、H271W、S263D，以及选自以下的1-6个残基差异：E13K、E27T、T82R、C86E、G128F/K、L142Q、L142S、A175Q、F180M、R191L、D192Q、G207W、A236S、C238T、S240R、A256R。

11. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，其中所述工程化多肽的氨基酸序列与序列SEQ ID NO:604之间的残基差异为R30N、A62D、E114S、E273T、H271W，以及选自以下的1-4个残基差异：V184L、Q186G/R、T189I、G207K/M/R。

12. 一种工程化多肽，所述工程化多肽具有脯氨酸羟化酶活性，所述工程化多肽的氨基酸序列为序列SEQ ID NO:6或SEQ ID NO:20-1004中的偶数序列中的一个。

13.根据权利要求1至12的任一项所述的工程化多肽，其中所述工程化多肽能够将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。

14.根据权利要求13所述的工程化多肽，其中所述工程化多肽能够以天然存在的酶的至少1.2倍、1.5倍、2倍、3倍、4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍或更多的活性将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。

15.根据权利要求13所述的工程化多肽，其中所述工程化多肽能够以(2S,5S)-5-羟基哌可酸的大于90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的非对映体过量将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。

16.根据权利要求14所述的工程化多肽，其中所述工程化多肽能够以(2S,5S)-5-羟基哌可酸的大于90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的非对映体过量将(S)-哌可酸转化为(2S,5S)-5-羟基哌可酸。

17.一种多核苷酸，所述多核苷酸编码如权利要求1至16的任一项所述的工程化多肽。

18. 根据权利要求17所述的多核苷酸,其中所述工程化多肽的多核苷酸序列为序列SEQ ID NO:5或SEQ ID NO:19-1003中的奇数序列中的一个。

19. 根据权利要求17或18所述的多核苷酸，其中所述多核苷酸包含为在大肠杆菌(E. coli)中表达而优化的核酸序列。

20.一种表达载体，所述表达载体包含权利要求17-19中任一项所述的多核苷酸。

21.根据权利要求20所述的表达载体，所述表达载体还包含至少一种控制序列。

22. 根据权利要求20-21中任一项所述的表达载体，其中所述载体包括SEQ ID NO:1007、1008或1009。

23.一种宿主细胞，所述宿主细胞包含权利要求17-19中任一项所述的多核苷酸或权利要求20-22中任一项所述的表达载体。

24.根据权利要求23所述的宿主细胞，其中所述宿主细胞是大肠杆菌。

25.一种制备权利要求1至16的任一项所述的工程化多肽的方法，所述方法包括在适合于表达所述多肽的条件下培养权利要求23或24所述的宿主细胞。

26.根据权利要求25所述的方法，还包括分离所述工程化多肽的步骤。