CN117425732A

CN117425732A - 用于合成普瑞巴林中间体的生物催化剂和方法

Info

Publication number: CN117425732A
Application number: CN202280038016.4A
Authority: CN
Inventors: 陈海滨; 张迎新; 马可·博科拉; 蔡宝琴; 章兆琪; 罗霄; 纪摇摇; 张城孝; 洪瑞梅
Original assignee: Enzymaster Ningbo Bio Engineering Co Ltd
Current assignee: Enzymaster Ningbo Bio Engineering Co Ltd
Priority date: 2021-11-21
Filing date: 2022-10-30
Publication date: 2024-01-19
Also published as: CN114686465B; WO2023088077A1; CN114686465A

Abstract

本公开内容提供了一种能够用于催化3‑异丁基戊二酰亚胺不对称水解生成(R)‑(‑)‑3‑(氨甲酰甲基)‑5‑甲基己酸的工程化多肽，该多肽立体选择性高、催化活性高、工艺稳定性及热稳定性好、且耐受高产物浓度，具有很好的工业应用价值。

Description

用于合成普瑞巴林中间体的生物催化剂和方法

技术领域

本发明涉及一种生物催化剂和使用该生物催化剂体来制备普瑞巴林中间体的方法。

背景技术

普瑞巴林(Pregabalin)是一种手性小分子化合物的药物，化学名称为S-(+)-3-异丁基γ-氨基丁酸。其与内源的抑制性神经递质有关，具有抗癫痫活性，因此常用治疗抗癫痫及治疗神经痛的手性药物。该原研药物由美国的辉瑞公司生产，2004年7月，欧盟批准其用于治疗部分癫痫发作，2005年由美国FDA批准上市，其原研路线如图1所示。

生产普瑞巴林产品最重要的指标之一为手性纯度。现有专利和文献中普瑞巴林及其中间体合成方法主要分为三类：化学/酶拆分法、不对称合成法和手性源合成法，其中前两者使用较多。拆分路线中，产物的ee值相对较低，且需要将另一种构型的化合物进行消旋再利用，导致最终的合格产品收率很低。比如CN102102114B公开了一种脂肪酶拆分制备普瑞巴林中间体并最终合成普瑞巴林的技术，拆分步骤转化率在40-45％左右，而整体收率仅约30％，路线如图2所示。

相比之下，在反应中引入手性的不对称合成法原料利用率更高，可通过手性催化剂或酶来完成。然而化学不对称合成法需要使用昂贵的手性催化剂，且工艺往往复杂繁琐，如美国辉瑞公司开发的原研路线需要9步。专利CN105753726B中合成工艺仅4步，但同样需要用到手性硫脲铵盐作为催化剂，且涉及氢化等工艺，反应条件苛刻，路线如图3所示。

因此，我们亟需寻找更合适的方法生产普瑞巴林。CN111944856A公开了一个全新的合成普瑞巴林中间体的路线，即利用海因酶(hydantoinase)不对称地水解3-异丁基戊二酰亚胺来制备高手性纯度的普瑞巴林中间体(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸(如图4所示)，该步反应能够得到ee≥99％的(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸，避免了拆分和再消旋的步骤，缩短了反应路径，提高了原料利用率，能有效降低成本，并对环境友好。但CN111944856A公开的海因酶的催化性能还不够理想，酶的用量偏高，且所能达到的产物的时空产率偏低。

针对这些不足，本发明公开了一系列经过定向进化技术开发的工程化海因酶多肽，大大降低了酶用量，使得酶促反应和后处理工艺简单高效，并提高了时空产率。

发明内容

1.概述

本发明提供了一种立体选择性高、催化活性高、工艺稳定性及热稳定性好、且耐受高产物浓度的工程化多肽，能够用于催化3-异丁基戊二酰亚胺不对称水解生成(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸。还提供了工程化多肽的基因，含有该基因的重组表达载体，工程菌株及工程化多肽的高效制备方法，以及使用工程化多肽制备(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸的反应工艺。

发明人经过实验研究，发现了一个来源于Pseudomonas fluorescens的野生型(wild type)海因酶(GenBank:KF268426.1)，其氨基酸序列如SEQ ID NO：2所示，相比CN111944856A中公开的海因酶，SEQ ID NO：2具有较佳的活性催化3-异丁基戊二酰亚胺水解生成(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸。虽然SEQ ID NO：2是野生型海因酶中对图5所示反应有较优活性的酶，但其距离工业化应用还有距离，其多方面的性能有待提升。对该野生型海因酶的研究在Appl Biochem Biotechnol(2016)179:1–15中有报道，其研究结果显示该野生型海因酶在催化乙内酰脲衍生物(substituted hydantoins)的水解反应时，最适pH在8.5-9.5之间，当pH<7.5时，活性大幅下降；其热稳定性也不佳，在50℃、55℃和60℃下的半衰期分别为2.23h、1.44h和0.78h，不利于酶制剂的生产和储存。发明人研究发现，在没有任何催化剂的情况下，3-异丁基戊二酰亚胺会自发水解生成消旋的3-(氨甲酰甲基)-5-甲基己酸，这个自发水解的速度对pH有很强的相关性，在pH>8.5时，自发水解的速度很显著，生成的消旋产物中含有不期望的手性异构体(S)-(-)-3-(氨甲酰甲基)-5-甲基己酸，会影响最终产品的手性纯度(即ee值)，所以3-异丁基戊二酰亚胺的自发水解是本发明所极力避免的；而3-异丁基戊二酰亚胺的自发水解在pH≤7.0时几乎检测不到，所以图5所示反应需在pH≤7.0时进行。

除了SEQ ID NO：2对催化图5所示反应的活性、热稳定性和在pH≤7.0时的稳定性需要提升外，发明人在研究过程中发现，当酶促反应中的产物浓度积累到一定程度后，SEQID NO：2的活性被严重抑制，限制了时空产率的进一步提升，所以克服SEQ ID NO：2的产物抑制(或者说，提升SEQ ID NO：2对高浓度产物的耐受性)，也是SEQ ID NO：2需要改善的性质。发明人使用定向进化技术，结合计算机辅助设计和筛选，对SEQ ID NO：2进行了工程化改造，得到了一系列立体选择性高、催化活性高、热稳定性和反应pH稳定性好、且耐受高产物浓度的工程化多肽。这些工程化多肽包括与SEQ ID NO：2的参考序列相比具有一个或多个残基差异的氨基酸序列，这些残基差异出现在影响酶的多个不同功能特性的氨基酸位置，功能特性包括催化活性、立体选择性、底物和/或产物耐受性、热稳定性、反应过程稳定性(包括pH波动范围、离子强度、溶剂耐受性等等)、重组表达效果等其他影响酶的制备和催化性能的特性以及这些特性的各种组合。

在一些实施方案中，工程化多肽可包括具有与SEQ ID NO：2的多肽至少90％的序列同一性且与SEQ ID NO：2相比在选自以下的残基位置的一个或多个残基差异的氨基酸序列：X8，X39，X46，X51，X62，X63，X64，X66，X67，X71，X73，X95，X97，X113，X152，X159，X189，X199，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X320，X329，X336，X337，X340，X462，X467，X474，X476，X479。在一些实施方案中，与SEQ ID NO：2相比的氨基酸残基差异选自以下：A8G，A39P，G46A，L51V，L51I，M62L，Q63E，L64I，L64T，L64S，L64A，F66Y，F66L，M67W，M67Y，M67F，A71T，A71S，E73D，I95V，I95L，I95M，N97G，N97D，N97L，N97Q，A113T，F152Y，F152M，F152L，I159L，I159F，I159Y，L189I，L189V，L189M，A199V，G201H，Q215A，Q215P，S254Q，S254L，S254N，S254G，S254F，K255F，K255Y，K255H，K255N，Q257W，V263T，L264C，A265P，G266Q，H267Y，M288C，F292L，F320S，F320L，R329A，R329L，R329Y，P336M，P336L，P336Q，N337P，A340P，F462R，K467D，P474W，A476P，R479Q，R479L，R479P；或同时在这些差异的基础上，包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24、25或更多个氨基酸残基的插入或缺失。

如本文所提供，在一些实施方案中，公开的氨基酸差异可单独使用或以各种组合使用以产生具有改进的酶特性的工程化多肽。在一些实施方案中，工程化多肽包括具有与参考序列SEQ ID NO:2至少90％的序列同一性和与SEQ ID NO:2相比在残基位置X64上的至少一个残基差异的氨基酸序列。在一些实施方案中，在残基位置X64上的氨基酸残基选自I、T、S和A。

更具体的，在一些实施方案中，在SEQ ID NO：2基础上改进的工程化多肽包括对应SEQ IDNo：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286所示氨基酸序列组成的多肽。

在一些实施方案中，改进的工程化多肽包括与SEQ ID NO：2、4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286的参考序列至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的氨基酸序列。

两条氨基酸序列或两条核苷酸序列之间的同一性均可通过本领域常用的算法得到，可采用NCBI Blastp和Blastn软件根据默认参数计算得到，也可采用采用Clustal W算法(Nucleic Acid Research,22(22):4673-4680,1994)。比如用采用Clustal W算法，SEQID NO：2与SEQ ID NO：184的氨基酸序列同一性为97.9％。

在另一方面，本发明提供了编码工程化多肽的多核苷酸序列。在一些实施方案中，多核苷酸可以是具有用于表达工程化多肽的一种或多种控制序列的表达载体的部分。在一些实施方案中，多核苷酸可包括对应SEQ ID No：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263、265、267、269、271、273、275、277、279、281、283、285所示序列的多核苷酸序列。

如本领域技术人员所知，由于核苷酸密码子的简并性，编码SEQ ID No：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286的氨基酸序列的多核苷酸序列不仅仅局限于SEQ ID No：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263、265、267、269、271、273、275、277、279、281、283、285。本发明的海因酶基因的核酸序列也可以是编码序列表中SEQ ID No：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286所示氨基酸序列的其他任何核酸序列。

在另一方面，本公开内容提供包含编码工程化多肽的多核苷酸或能够表达工程化多肽的表达载体和宿主细胞。在一些实施方案中，宿主细胞可以是细菌宿主细胞，比如大肠杆菌。宿主细胞可用于表达和分离本文所述的工程化多肽，或可选地直接用于反应转化底物为产物。

在一些实施方案中，以完整细胞、粗提取物、分离的多肽或纯化的多肽形式的工程化多肽可单独使用，或以固定化形式(比如固定在树脂上)使用。

本公开内容还提供了使用本文公开的工程化多肽将结构式A1所示化合物转化为结构式A2所示的手性化合物的方法，所示结构式A2的手性化合物与相应的对映异构体相比过量，所述方法包括在适于转化A1为A2的反应条件下，将结构式A1化合物与工程化多肽接触，其中所述工程化多肽是本文所述的工程化多肽。在一些实施方案中，所述工程化多肽与SEQ ID NO：2具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的序列同一性并能够将结构式A1的化合物转化为结构式A2的化合物。

在一些实施方案中，结构式A2的化合物以至少97％、98％或99％或更大的对映体过量产生。

用于该方法的工程化多肽的具体实施方案在详述中进一步提供。可用在以上方法中的工程化多肽可包括选自具有与SEQ ID NO：2至少90％的序列同一性且与SEQ ID NO：2相比存在选自以下的残基位置的一个或多个残基差异的氨基酸序列：X8，X39，X46，X51，X62，X63，X64，X66，X67，X71，X73，X95，X97，X113，X152，X159，X189，X199，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X320，X329，X336，X337，X340，X462，X467，X474，X476，X479。在一些实施方案中，与SEQ ID NO：2相比的氨基酸残基差异选自以下：A8G，A39P，G46A，L51V，L51I，M62L，Q63E，L64I，L64T，L64S，L64A，F66Y，F66L，M67W，M67Y，M67F，A71T，A71S，E73D，I95V，I95L，I95M，N97G，N97D，N97L，N97Q，A113T，F152Y，F152M，F152L，I159L，I159F，I159Y，L189I，L189V，L189M，A199V，G201H，Q215A，Q215P，S254Q，S254L，S254N，S254G，S254F，K255F，K255Y，K255H，K255N，Q257W，V263T，L264C，A265P，G266Q，H267Y，M288C，F292L，F320S，F320L，R329A，R329L，R329Y，P336M，P336L，P336Q，N337P，A340P，F462R，K467D，P474W，A476P，R479Q，R479L，R479P；或同时在这些差异的基础上，包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、18、20、21、22、23、24、25或更多个氨基酸残基的插入或缺失。

在一些实施方案中，可用在以上方法中的工程化多肽可包括选自对应SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286的氨基酸序列。

如本文公开的使用工程化多肽用于式A2化合物的方法中的任一种可在一系列合适的反应条件下被执行，所述一系列合适的反应条件包括但不限于pH、温度、缓冲液、溶剂系统、底物载量、多肽载量、压力和反应时间的范围。例如，在一些实施方案中，制备式A2化合物可被执行，其中合适的反应条件包括：(a)约1g/L至400g/L化合物A1的底物载量；(b)约0.1g/L至50g/L工程化多肽的载量；(d)约6.0至约8.5的pH；和(d)约10℃至60℃的温度。

在一些实施方案中，工程化多肽能够在适当的反应条件下将底物化合物A1转化为化合物A2，具有相对于SEQ ID NO:2的参考多肽的活性增加了至少约2倍、3倍、4倍、5倍、10倍、15倍、20倍或更多倍的活性。在一些实施方案中，工程化多肽能够在适当的反应条件下在约48小时、约36小时、约24小时或更短时间长度的反应时间内将化合物A1转化为化合物A2，具有至少约5g/L h^-1、10g/L h^-1、15g/L h^-1、20g/L h^-1或更高的时空产率。

2详述

2.1定义

关于本公开内容，除非另外明确定义，否则本文说明书中使用的技术术语和科学术语具有本领域普通技术人员通常理解的含义。

“蛋白”、“多肽”和“肽”在本文可互换使用，表示由酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(如，糖基化、磷酸化、脂质化、豆蔻酰化、泛素化等等)。该定义包括D-氨基酸和L-氨基酸、以及D-氨基酸和L-氨基酸的混合物。

“工程化海因酶”、“工程化海因酶多肽”、“改进的海因酶多肽”和“工程化多肽”在本文可互换使用。

“多核苷酸”和“核酸”在本文可互换使用。

“编码序列”指编码蛋白的氨基酸序列的核酸部分(例如，基因)。

“天然存在的”或“野生型”是指在自然界发现的形式。例如，天然存在的或野生型的多肽或多核苷酸序列是存在于生物体中、可分离自自然界中的来源且未通过人工操作有意地修饰的序列。

“重组的”或“工程化的”或“非天然存在的”当用于指例如细胞、核酸或多肽时，是指如下材料或与该材料的天然形式或固有形式相对应的材料：所述材料以自然界中不会存在的方式被改变，或与其相同但是从合成材料和/或通过使用重组技术操作而产生或获取。

“序列同一性”和“同源性”在本文可互换地用于指多核苷酸之间或多肽之间的对比(“序列同一性”和“同源性”通常以百分比的形式来表示)，且通过在比较窗口上比较两个最佳对齐的序列来确定，其中多核苷酸或多肽序列在比较窗口中的部分与参照序列相比可包括添加或缺失(即，空位)，用于两个序列的最佳对齐。百分比可以通过如下计算：确定两个序列中出现相同的核酸碱基或氨基酸残基的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗口中位置总数并将结果乘以100以得到序列同一性百分比。可选地，该百分比可通过以下计算：确定相同核酸碱基或氨基酸残基在两个序列中都存在的位置数或核酸碱基或氨基酸残基与空位对齐的位置数以得到匹配位置数，将该匹配位置数除以比较窗口中的位置总数，并将结果乘以100以得到序列同一性的百分比。本领域技术人员将认识到，存在许多可用于比对两个序列的建立的算法。用于比较的序列最佳比对可例如通过Smith和Waterman，1981，Adv.Appl.Math.2:482的局部同源性算法、通过Needleman和Wunsch，1970，J.Mol.Biol.48:443的同源性比对算法，通过Pearson和Lipman,1988,Proc.Natl.Acad.Sci.USA85:2444的相似性搜索方法，通过这些算法的计算机实现(GCGWisconsin软件包中的GAP、BESTFIT、FASTA或TFASTA)或通过直观检查(一般参见，Current Protocols in Molecular Biology,F.M.Ausubel等编著，Current Protocols,Greene Publishing Associates Inc.和John Wiley&Sons,Inc.之间的合资企业,(1995年增刊)(Ausubel))。适宜于确定序列同一性和序列相似性百分比的算法的实例是BLAST和BLAST2.0算法，它们分别描述于Altschul等人，1990，J.Mol.Biol.215:403-410和Altschul等,1977,Nucleic Acids Res.3389-3402中。用于执行BLAST分析的软件是通过美国国家生物技术信息中心(National Center for Biotechnology Information)网站公开可用的。该算法包括首先通过鉴定查询序列中长度W的短字来鉴定高评分序列对(HSP)，所述短字与数据库序列中相同长度的字比对时匹配或满足一些正值的阀值得分T。T被称作邻近字评分阈值(Altschul等，如上述)。这些初始相邻字匹配(word hit)充当用于启始搜索的种子来寻找包含它们的更长的HSP。然后字匹配沿着每个序列在两个方向延伸到累积比对得分不能够增加的程度。对于核苷酸序列，累积得分使用参数M(对于匹配残基对的奖励得分；永远＞0)和N(对于错配残基的惩罚得分；永远＜0)计算。对于氨基酸序列，得分矩阵被用于计算累计得分。当以下情况时，每个方向中的字匹配字串的延伸被终止：累积比对得分从其最大达到值下降了量X；由于累积一个或多个负得分残基比对，累积得分达到0或以下；或到达任一序列末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(用于核苷酸序列)使用字长(W)11、期望值(E)10、M＝5、N＝-4以及两链的比较作为默认值。对于氨基酸序列，BLASTP程序使用以下作为缺省值：字长(W)为3，期望值(E)为10和BLOSUM62得分矩阵(见Henikoff和Henikoff,1989,Proc Natl Acad Sci USA89：10915)。序列比对和序列同一性％的示例性确定可使用GCG Wisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序，使用所提供的缺省参数。

“参考序列”是指用作序列比较的基础的限定序列。参考序列可以是较大序列的子集，例如，全长基因或多肽序列的片段。一般而言，参考序列为至少20个核苷酸或氨基酸残基长，至少25个残基长，至少50个残基长，或者核酸或多肽的全长。因为两种多核苷酸或多肽可以各自(1)包括在两种序列之间相似的序列(即，完整序列的一部分)，且(2)可以进一步包括在两种序列之间不同的序列，两种(或更多)多核苷酸或多肽之间的序列比较通常通过在“比较窗口”内比较两种多核苷酸或多肽的序列来进行以鉴定和比较序列相似性的局部区域。在一些实施方案中，“参照序列”不意为限于野生型序列，且可包括工程化或改变的序列。例如，“在对应于X64的残基处具有苏氨酸的基于SEQ ID NO:2的参考序列”指其中在SEQ ID NO:2中的X64处相应的残基(是亮氨酸)已经改变成苏氨酸的参考序列。

“比较窗口”指至少约20个相邻核苷酸位置或者氨基酸残基的概念性片段，其中序列可以与至少20个相邻核苷酸或氨基酸的参考序列相比较，并且其中比较窗口中的序列的部分可以包括与参考序列(其不包括添加或缺失)相比20％或更少的添加或缺失(即，空位)，用于两序列的最佳比对。比较窗口可以长于20个相邻残基，并且包括任选地30、40、50、100或更长的窗口。

在用于指定的氨基酸或多核苷酸序列的编号的情况下，"相应于"、"参考于"或"相对于"指当指定的氨基酸或多核苷酸序列与参考序列相比较时指定的参考序列残基的编号。换言之，给定序列的残基编号或残基位置是根据参考序列指定的，而不是给定氨基酸或多核苷酸序列内的残基的实际数字位置指定的。例如，可以将给定的氨基酸序列诸如工程化海因酶的氨基酸序列与参考序列进行比对，这是通过引入空位以优化这两条序列之间的残基匹配而实现的。在这些情况下，虽然存在空位，但是给定氨基酸或多核苷酸序列中的残基编号相对于已与其比对的参考序列制定。

“氨基酸差异”或“残基差异”指在多肽序列的一个位置处氨基酸残基相对于参考序列中相应位置处的氨基酸残基的差异。本文中氨基酸差异的位置一般被称为“Xn”，其中n指残基差异基于其的参考序列中的相应位置。例如，“与SEQ ID NO:2相比在位置X64处的残基差异”指在相应于SEQ ID NO:2的位置64的多肽位置处的氨基酸残基的差异。因此，如果SEQ ID NO:2的参考多肽在位置64处具有亮氨酸，那么“与SEQ ID NO:2相比在位置X64处的残基差异”是指在相应于SEQ ID NO:2的位置64的多肽位置处除了亮氨酸之外的任何残基的氨基酸取代。在本文的大多数实例中，在一个位置处的特定氨基酸残基差异表示为“XnY”，其中“Xn”指如以上描述的对应位置，并且“Y”为在工程化多肽中发现的氨基酸的一字母标识符(即，与参考多肽中的不同的残基)。在一些实例中(例如，在表1中)，本公开内容还提供由常规符号“AnB”表示的特定氨基酸差异，其中A为参考序列中的残基的一字母标识符，“n”为在参考序列中的残基位置的编号，并且B为工程化多肽的序列中残基取代的单字母标识符。在一些实例中，本公开内容的多肽可包含相对于参考序列的一个或更多个氨基酸残基差异，其通过相对于参考序列存在残基差异处的特定位置的列表表示。

“缺失”指通过从参考多肽去除一个或更多个氨基酸而对多肽的修饰。缺失可以包括除去1个或多个、2个或多个氨基酸，5个或多个氨基酸，10个或多个氨基酸，15个或多个氨基酸，或20个或多个氨基酸，多达组成参照酶的氨基酸总数的10％，或多达组成参照酶的氨基酸总数的20％，同时保留工程化海因酶的酶活性和/或保留工程化海因酶的改进的性质。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中，缺失可以包括连续的区段或者可以是不连续的。

"插入"指通过从参考多肽添加一个或多个氨基酸的多肽的修饰。在一些实施方案中，改进的工程化海因酶包括一个或更多个氨基酸插入天然存在的海因酶多肽，以及一个或更多个氨基酸插入其他改进的海因酶多肽。可在多肽的内部部分插入，或插入到羧基或氨基末端。如本文所用的，插入包括本领域中已知的融合蛋白。插入可以是氨基酸的连续区段，或者被在天然存在的多肽中一个或更多个氨基酸分隔。

如本文所用的"片段"指具有氨基末端和/或羧基末端缺失、但是其中保留的氨基酸序列与序列中相应的位置相同的多肽。片段可以为至少10个氨基酸长、至少20个氨基酸长，至少50个氨基酸长或更长，以及高达全长海因酶多肽的70％、80％、90％、95％、98％和99％。

“分离的多肽”是指如下多肽：所述多肽基本上与其天然伴随的其他物质例如蛋白、脂质和多核苷酸分离。该术语包括已从其天然存在的环境或表达系统(例如，宿主细胞或体外合成中)移去或纯化的多肽。改进的海因酶多肽可以存在于细胞内、存在于细胞培养基中或者以各种形式制备，诸如裂解物或分离的制备物。像这样，在一些实施方案中，改进的海因酶多肽可以是分离的多肽。

“手性中心”是指连接四个不同基团的碳原子。

“立体选择性”(stereoselectivity)指在化学或酶促反应中一种立体异构体相对于另一种或多种异构体的优先形成。立体选择性可以是部分的，其中一种立体异构体的形成优于另一种异构体；或可以是完全的，其中仅形成一种立体异构体。当立体异构体是对映异构体时(enantiomers)，立体选择性被称为对映异构体选择性(enantioselectivity)，一种对映异构体在两种对映异构体的混合物之中的过量分数(通常被报告为百分比)通常被可选地报告为“对映异构体过量”(enantiomeric excess，简称为ee)。当立体异构体是非对映异构体时(diastereoisomers)，立体选择性被称为非对映异构体选择性(diastereoselectivity)，即一种非对映异构体在两种非对映异构体的混合物之中的过量分数(通常被报告为百分比)，通常被可选地报告为“非对映异构体过量”(diastereoisomeric excess，简称为de)。在本领域内该分数(典型地为百分比)通常可选择地报道为根据下式从中计算的对映异构体过量(enantiomeric excess，即ee)：{主要对映异构体浓度–次要对映异构体浓度}/{主要对映异构体浓度+次要对映异构体浓度}。

“立体异构体”、“立体异构形式”和类似表述在本文可互换使用，是指分子差异仅在其原子在空间中的方位不同所造成的所有异构体。其包括对映异构体和具有多于一个手性中心、且彼此不是镜像的化合物的异构体(即“非对映异构体”)。

“改进的酶性质”指与参考海因酶相比显示任何酶性质的改进的海因酶多肽，所述参考海因酶诸如野生型海因酶或另一种改进的工程化海因酶。期望改进的酶性质包括，但不限于，酶活性(其可以底物的转化百分比的方式被表示)、热稳定性、溶液稳定性、pH活性特征、对抑制物的耐受性(例如，底物或产物抑制)和立体选择性。

“转化”指底物向相应的产物的酶转化。“转化百分比”或“转化率”是指在指定反应条件下在指定的反应时间内，反应体系中被转化为产物的底物的百分比。因此，海因酶多肽的“酶活性”或“活性”可以被表示为底物向产物的“转化百分比”。转化率一般通过取样来测定反应体系中的产物浓度和底物浓度来计算：{产物摩尔浓度}/{底物摩尔浓度+产物摩尔浓度}。

“热稳定的”指与野生型酶相比海因酶多肽在暴露于升高的温度(例如72℃或更高温度)持续一段时间(例如2.5小时或更长时间)之后维持相似活性。

“溶剂稳定的”或“溶剂耐受的”指与野生型酶相比海因酶多肽在暴露于不同浓度(例如5-99％)的溶剂(甲醇、乙醇、异丙醇、二甲基亚砜(DMSO)、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)持续一段时间(例如0.5-24小时)之后维持相似的活性。

“合适的反应条件”指生物催化反应溶液中的那些条件(例如，酶载量、底物载量、温度、pH、缓冲液、共溶剂等的范围)，在该条件下本公开内容的海因酶多肽能将底物转化成期望的产物化合物。示例性“合适的反应条件”被提供于本公开内容并通过实施例例证。

“烃基”是指直链或支链的烃基团。符号“C”后出现下标的数字规定了特定基团可包含的碳原子数。例如，“C₁-C₈”是指具有1至8个碳原子的直链或支链烃基基团。烃基基团可任选第被一个或多个取代基基团取代。“芳基”是指6至约20个碳原子的单价芳香族烃基。“杂芳基”和“杂芳族”是指其中母体芳环系统的一个或多个碳原子被杂原子(O，N或S)代替的芳基基团。“取代的”当用于修饰指定基团或自由基时，是指指定基团或自由基的一个或多个氢原子各自彼此独立地本文所用的“化合物”是指伴随本文公开的化合物标明的结构式和/或化学名涵盖的任何化合物。化合物可以其化学结构和/或化学名标明。当化学结构与化学名冲突时，化学结构决定化合物的身份。除非另外具体地描述或指出，否则本文描述的化学结构涵盖所描述化合物的所有可能异构体形式。

被相同或不同的取代基代替。“取代的烃基、芳基或杂芳基”指其中一个或多个氢原子用另一取代基代替的烃基、芳基或杂芳基基团。“任选”或“任选地”是指所描述的事件或情况可能发生或不发生；例如“任选地取代的芳基”是指可能被取代或可能未被取代的芳基基团，这一描述包括取代的芳基基团和未取代的芳基基团二者。

2.2工程化多肽

本发明公开的工程化多肽，是由一种野生型的海因酶，经过创造性的定向进化过程的改造，发生一定数量的氨基酸残基置换、插入或缺失等突变而来；定向进化技术的介绍可参考“Directed Evolution:Bringing New Chemistry to Life”Frances H.Arnold,Angewandte Chemie,November 28,2017。由于对酶定向进化技术的开创性贡献，FrancesH.Arnold获得了2018年的诺贝尔化学奖。该野生型的海因酶来源于Pseudomonasfluorescens，其氨基酸序列如SEQ ID NO：2所示。经发明人检测，SEQ ID No：2所对应的野生型海因酶对A1的活性仍不佳，受pH的影响大，特别是对高浓度产物A2的耐受性差，热稳定性也差。这些缺陷都不利于产业化应用，需要通过酶的定向进化技术对SEQ ID NO：2进行工程化改进。

SEQ ID NO：2所对应的蛋白没有公开的3D结构，发明人使用Yasara软件构建了其3D结构模型，然后结合生物信息学的技术手段，设计了针对多个残基的定点饱和突变文库或多点组合突变文库，然后在不同的研发阶段分别采用表1.1、表2.1、2.2和表3.1-3.4所示的筛选反应条件对这些文库进行筛选。构建突变文库的方法可采用本领域常见的定点突变PCR(如实施例2所示)、或多点突变PCR(参考“Mutagenesis and Synthesis of NovelRecombinant Genes Using PCR,”Chapter 32,in PCR Primer,2nd edition(eds.Dieffenbach and Dveksler).Cold Spring Harbor Laboratory Press,ColdSpring Harbor,NY,USA,2003.)

为了开发出用于图5所示反应的、性能优异的酶催化剂，本发明分阶段对SEQ IDNO：2进行了定向进化，针对待提升的酶的不同特性，设计了不同的高通量筛选反应条件。第一阶段主要是对酶的活性进行提升，设计的高通量筛选反应条件如表1.1或实施例8所示。表1列举了第一阶段所得到的一些示例性的工程化多肽及其筛选反应结果。

表1定向进化第一阶段得到的示例性的工程化多肽

/>

表1.1

/>

在实际的工业应用中，反应体系越简单越好，一般不使用DMSO等助溶剂，同时底物的载量要尽可能高。为了在工业应用相关的条件下检测表1中所示工程化多肽的催化效果，并与野生型的SEQ ID NO：2相比较，本发明使用如下的反应条件对第一阶段所得到的示例性的工程化多肽进行了检测：底物A1的载量为10g/L,直接使用表达了工程化多肽的湿菌体的载量50g/L,0.1M PBS pH7.0，30℃。反应过程如实施例12所描述。结果如表1.2所示。

表1.2工业应用相关的反应条件下第一阶段突变酶的催化效果

第二阶段在对酶的活性进行提升的同时，增加了对pH稳定性的进化。设计的高通量筛选反应条件如表2.1和表2.2所示。表2列举了第二阶段所得到的一些示例性的工程化多肽及其筛选反应结果。

表2定向进化第二阶段得到的示例性的工程化多肽

/>

表2.1

表2.2

/>

使用如下的反应条件对第二阶段所得到的示例性的工程化多肽进行了检测：底物A1的载量为10g/L,直接使用表达了工程化多肽的湿菌体的载量6g/L,0.1M PBS pH7.0，30℃。反应过程如实施例13所描述。结果如表2.3所示。

表2.3工业应用相关的反应条件下第二阶段突变酶的催化效果

第三阶段在对酶的活性和pH稳定性进化的基础上，进一步增加了对高浓度产物难受性和热稳定性的提升。设计的高通量筛选反应条件如表3.1、表3.2、表3.3和表3.4所示。表3和3.5列举了第三阶段所得到的一些示例性的工程化多肽及其筛选反应结果。

表3定向进化第三阶段得到的示例性的工程化多肽

/>

表3.1

/>

表3.2

表3.3

表3.4

表3.5

/>

使用如下的反应条件对第三阶段所得到的示例性的工程化多肽进行了检测：底物A1的载量为10g/L,直接使用表达了工程化多肽的湿菌体的载量1g/L,0.1M PBS pH7.0，40℃。反应过程如实施例14所描述。结果如表3.6所示。

表3.6工业应用相关的反应条件下第三阶段突变酶的催化效果

基于表1、表2和表3所列举的示例性多肽的特性，酶活性的增加(即，将化合物A1转化为化合物A2)与以下残基位置上的残基差异以及其他相关：X8，X39，X46，X51，X62，X63，X64，X66，X67，X71，X73，X95，X97，X152，X159，X189，X199，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X320，X329，X336，X337，X340，X462，X467，X474，X476，X479。在一些实施方案中，与SEQ ID NO：2相比的氨基酸残基差异选自以下：A8G，A39P，G46A，L51V，L51I，M62L，Q63E，L64I，L64T，L64S，L64A，F66Y，F66L，M67W，M67Y，M67F，A71T，A71S，E73D，I95V，I95L，I95M，N97G，N97D，N97L，N97Q，F152Y，F152M，F152L，I159L，I159F，I159Y，L189I，L189V，L189M，A199V，G201H，Q215A，Q215P，S254Q，S254L，S254N，S254G，S254F，K255F，K255Y，K255H，K255N，Q257W，V263T，L264C，A265P，G266Q，H267Y，M288C，F292L，F320S，F320L，R329A，R329L，R329Y，P336M，P336L，P336Q，N337P，A340P，F462R，K467D，P474W，A476P，R479Q，R479L，R479P。

基于表2和表3.5所列举的示例性多肽的特性，酶pH稳定性的增加与以下残基位置上的残基差异以及其他相关：X8，X39，X46，X51，X64，X66，X67，X71，X73，X95，X97，X113，X152，X159，X189，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X329，X337，X340，X462，X467，X474，X476。在一些实施方案中，与SEQ ID NO：2相比的氨基酸残基差异选自以下：A8G，A39P，G46A，L51V，L51I，L64T，L64I，L64S，F66Y，M67F，M67Y，M67W，A71T，A71S，E73D，I95V，I95L，I95M，N97L，N97Q，A113T，F152Y，F152M，F152L，I159Y，I159F，I159L，L189I，L189V，G201H，Q215A，Q215P，S254Q，S254L，S254N，S254G，S254F，K255F，K255Y，K255H，K255N，Q257W，V263T，L264C，A265P，G266Q，H267Y，M288C，F292L，R329A，R329L，R329Y，N337P，A340P，F462R，K467D，P474W，A476P。

基于表3.5所列举的示例性多肽的特性，酶的产物耐受性和/或热稳定性的增加与以下残基位置上的残基差异以及其他相关：X39，X51，X64，X66，X71，X97，X113，X159，X189，X199，X215，X255，X257，X337，X340。在一些实施方案中，与SEQ ID NO：2相比的氨基酸残基差异选自以下：A39P，L51I，L64T，F66Y，A71T，N97L，N97Q，A113T，I159L，I159Y，I159F，L189V，L189I，L189M，A199V，Q215A，Q215P，K255H，K255N，Q257W，N337P，A340P。

如对本领域技术人员将是明显的，前述残基位置和每个残基位置的特定氨基酸残基，可以单独或以各种组合用于合成具有所需改进特性的海因酶多肽，所需改进特性包括酶活性、立体选择性、稳定性以及其他。

根据本文提供的指导，可进一步设想，具有SEQ ID NO:4–286中的偶数序列标识符的任何示例性工程化多肽可用作于合成其它工程化多肽的起始氨基酸序列，例如，通过添加来自表1、表2、表3中描述的残基位置的各种氨基酸差异。进一步的改进可以通过包括在前三个阶段的进化中保持不变的位置上的氨基酸差异而产生。

因此，在一些实施方案中，能够进行将化合物A1转化为化合物A2的工程化多肽，该包括具有与选自SEQ ID NO:4-286中的偶数序列标识符的参考序列至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的同一性，以及与SEQ ID NO:2相比在选自以下的残基位置上的一个或多个残基差异：X8，X39，X46，X51，X62，X63，X64，X66，X67，X71，X73，X95，X97，X113，X152，X159，X189，X199，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X320，X329，X336，X337，X340，X462，X467，X474，X476，X479。

在一些实施方案中，能够在适当的反应条件下将化合物A1转化为化合物A2的工程化多肽，包括具有与选自SEQ ID NO:4-286中的偶数序列标识符的参考序列至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的同一性，和与SEQ ID NO:2相比选自以下的一个或多个残基差异的氨基酸序列：A8G，A39P，G46A，L51V，L51I，M62L，Q63E，L64I，L64T，L64S，L64A，F66Y，F66L，M67W，M67Y，M67F，A71T，A71S，E73D，I95V，I95L，I95M，N97G，N97D，N97L，N97Q，A113T，F152Y，F152M，F152L，I159L，I159F，I159Y，L189I，L189V，L189M，A199V，G201H，Q215A，Q215P，S254Q，S254L，S254N，S254G，S254F，K255F，K255Y，K255H，K255N，Q257W，V263T，L264C，A265P，G266Q，H267Y，M288C，F292L，F320S，F320L，R329A，R329L，R329Y，P336M，P336L，P336Q，N337P，A340P，F462R，K467D，P474W，A476P，R479Q，R479L，R479P。

除上面指定的残基位置之外，本文所公开的任何工程化多肽还可以包括相对于SEQ ID NO:2的参考多肽序列，在其它残基位置即，除以下残基位置外的残基位置的残基差异：X8，X39，X46，X51，X62，X63，X64，X66，X67，X71，X73，X95，X97，X113，X152，X159，X189，X199，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X320，X329，X336，X337，X340，X462，X467，X474，X476，X479。在这些其它残基位置上的残基差异可以提供氨基酸序列中的另外变体而没有改变多肽将化合物A1转化为化合物A2的能力，特别是关于酶活性的增加，pH稳定性的增加，酶的产物耐受性的增加，以及热稳定性的增加。因此，在一些实施方案中，除选自具有SEQ ID NO:4-286中的偶数序列标识符的多肽的工程化多肽中的任何一个的氨基酸残基差异之外，序列还可以包括与SEQ ID NO:2相比在其它氨基酸残基位置上的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个残基差异。

2.3可用于制备工程化多肽的多核苷酸、控制序列、表达载体和宿主细胞

在另一方面，本公开内容提供了编码本文描述的具有海因酶活性的工程化多肽的多核苷酸。多核苷酸可与控制基因表达的一种或多种异源调控序列可操作地连接以产生能够表达多肽的重组多核苷酸。包含编码工程化海因酶的异源多核苷酸的表达构建体可被引入合适的宿主细胞以表达相应的工程化多肽。

如对本领域技术人员明显的是，蛋白序列的可得性和相应于多种氨基酸的密码子的知识提供能够编码目标蛋白序列的所有多核苷酸的说明。其中相同氨基酸由可选择的或同义密码子编码的遗传密码的简并性允许产生极大数目的核酸，所有这些核酸编码本文公开的改进的海因酶多肽。因此，确定特定的氨基酸序列后，本领域的技术人员可以以不改变蛋白质的氨基酸序列的方式通过仅仅修饰一个或多个密码子的序列来产生任何数目的不同的核酸。在这点上，本公开内容特别地构思了可通过基于可能的密码子选取而选择组合来制备的多核苷酸的各个和每个可能的改变，并且对于本文公开的任何多肽，包括在表1、表2、表3中提供的示例性工程化多肽的氨基酸序列，以及在通过引用并入本文的序列表中作为SEQ ID NO:4-286中的偶数序列标识符的序列公开的任何多肽，所有这些改变被认为特别地公开。

在多种实施方案中，密码子被优选地选择以适应在其中产生蛋白的宿主细胞。例如，用于细菌的优选密码子用于表达细菌中的基因；用于酵母中的优选密码子用于在酵母中表达；且用于哺乳动物的优选密码子用于在哺乳动物细胞中表达。

在一些实施方案中，所述多核苷酸编码包含与选自SEQ ID NO:4-286中的偶数序列标识符的参考序列至少约90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多序列同一性的氨基酸序列的海因酶多肽，其中所述多肽具有海因酶活性以及本文描述的改进的特性中的一种或更多种，例如以与SEQ ID NO:2的多肽相比增加的活性将化合物A1转化成产物化合物A2的能力。

在一些实施方案中，所述多核苷酸编码工程化多肽，所述工程化多肽包含与SEQID NO:2相比具有以上描述的同一性百分比并且具有一个或更多个氨基酸残基差异的氨基酸序列。在一些实施方案中，本公开内容提供了具有海因酶活性的工程化多肽，所述工程化多肽包含与SEQ ID NO:2的参考序列具有至少90％的序列同一性以及具有选自以下位置的残基差异的组合：X8，X39，X46，X51，X62，X63，X64，X66，X67，X71，X73，X95，X97，X113，X152，X159，X189，X199，X201，X215，X254，X255，X257，X263，X264，X265，X266，X267，X288，X292，X320，X329，X336，X337，X340，X462，X467，X474，X476，X479。

在一些实施方案中，编码工程化多肽的多核苷酸包含选自SEQ ID No：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263、265、267、269、271、273、275、277、279、281、283、285的序列。

在一些实施方案中，所述多核苷酸编码本文所述的多肽，但是在核苷酸水平上与编码工程化海因酶的参考多核苷酸具有约50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性。在一些实施方案中，参考多核苷酸序列选自SEQ ID No：3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263、265、267、269、271、273、275、277、279、281、283、285的序列。

编码工程化多肽的分离的多核苷酸可以多种方法被操作以提供多肽的表达，所述方法包括通过密码子优化来进一步改变序列以改进表达、在合适的有或无另外的控制序列的表达元件中插入、和转化入适于表达并产生多肽的宿主细胞。

取决于表达载体，在分离的多核苷酸插入载体之前对分离的多核苷酸的操作可以是期望的或必需的。利用重组DNA方法修饰多核苷酸和核酸序列的技术在本领域中是公知的。在以下中提供了指导：Sambrook等人,2001,Molecular Cloning:A LaboratoryManual,第三版,Cold Spring Harbor Laboratory Press；和Current Protocols inMolecular Biology,Ausubel.F.编著,GreenePub.Associates,1998,2010年更新。

在另一个方面，本公开还涉及重组表达载体，根据它们将被导入的宿主的类型，其包括编码工程化多肽或其变体的多核苷酸，和一个或多个表达调节区，诸如启动子和终止子、复制起点等等。可选地，本公开内容的核酸序列可以通过使核酸序列或包括该序列的核酸构建体插入到适当的表达载体中来表达。在产生表达载体时，编码序列位于载体中以使编码序列被可操作地连接于用于表达的合适的控制序列上。

重组表达载体可为任何载体(例如，质粒或病毒)，其可方便地应用于重组DNA步骤中并且可带来多核苷酸序列的表达。载体的选择通常将取决于载体与待引入载体的宿主细胞的相容性。载体可以是线性或闭合环状的质粒。表达载体可以是自主复制的载体，即作为染色体外的实体而存在的载体，它的复制独立于染色体的复制，如质粒、染色体外的元件、微小染色体、或人工染色体。载体可以包含用于保证自我复制的任何工具。可选地，载体可以是在被引入到宿主细胞中时整合到基因组中并且与其所整合到的染色体一起复制的载体。而且，可以使用单一载体或质粒或者一起包含待引入到宿主细胞基因组中的总DNA的两种或多种载体或质粒。

对本公开内容的实施方案有用的很多表达载体是商业上可得的。示例性表达载体可通过将编码改进的海因酶多肽的多核苷酸可操作地连接到质粒pACYC-Duet-1(Novagen)中来制备。

在另一方面，本公开内容提供包含编码本公开内容的改进的海因酶多肽的多核苷酸的宿主细胞，所述多核苷酸被可操作地连接至在宿主细胞中用于海因酶的表达的一个或更多个控制序列。用于表达由本公开内容的表达载体编码的多肽的宿主细胞在本领域是公知的，并且包括但不局限于诸如大肠杆菌、节杆菌属种KNK168、链霉菌属和鼠伤寒沙门氏菌(Salmonella typhimurium)细胞的细菌细胞；诸如酵母细胞(例如，酿酒酵母或巴斯德毕赤氏酵母(Pichia pastoris))的真菌细胞；诸如果蝇S2以及灰翅夜蛾(Spodoptera)Sf9细胞的昆虫细胞；诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞的动物细胞；以及植物细胞。示例性的宿主细胞为大肠杆菌BL21(DE3)。上述宿主细胞可以是野生型的，也可以是经过基因组编辑的工程细胞，比如把宿主细胞基因组中所携带的野生型的海因酶基因敲除。上述宿主细胞的合适的培养基以及生长条件在本领域内是公知的。

用于表达海因酶的多核苷酸可通过本领域已知的多种方法被引入至细胞。技术包括，除了其他以外，电穿孔、生物颗粒轰击法、脂质体介导的转染、氯化钙转染和原生质体融合。将多核苷酸引入细胞的不同方法对于本领域技术人员是明显的。

2.4产生工程化多肽的方法

当工程化多肽的序列为已知时，编码多肽的多核苷酸可根据已知的合成方法通过标准的固相方法制备。在一些实施方案中，多达约100个碱基的片段可单独地合成，然后连接(例如，通过酶促或化学的连接方法或聚合酶介导的方法)以形成任何需要的连续序列。例如，本公开内容的多核苷酸和寡核苷酸可通过化学合成制备，使用，例如，描述于Beaucage等人,1981,TetLett22：1859-69的经典的亚磷酰胺方法，或描述于Matthes等人,1984,EMBOJ.3:801-05的方法，例如，如在自动化合成方法中典型地实践的。根据亚磷酰胺方法，寡核苷酸在例如，在自动化DNA合成仪中合成、纯化、退火、连接以及克隆至合适的载体中。另外，基本上任何核酸可从多种商业来源的任一个获得。

在一些实施方案中，本公开内容还提供了用于制备或制作工程化多肽的方法，其中该方法包括在适于表达多肽的培养条件下培养能够表达编码工程化多肽的多核苷酸的宿主细胞。在一些实施方案中，制备多肽的方法还包括分离多肽。工程化多肽可在合适的细胞中表达，并利用所熟知的用于蛋白纯化的技术中的任何一种或更多种从宿主细胞和/或培养基分离(或回收)，所述用于蛋白纯化的技术包括，除了其他以外，溶菌酶处理、超声、过滤、盐析、热处理、超速离心、层析和色谱。

2.5利用工程化海因酶的方法以及用其制备的化合物

本公开内容还提供了使用本文所述的改进的工程化海因酶多肽，制备结构式(I)化合物的方法：

所述结构式(I)的化合物在标为*的手性中心具有所示的立体化学构型；所示结构式(I)的合物与相应的对映异构体相比过量，其中

n＝0或1；

R₁，R₂彼此独立地选自H、任选取代的或未取代的芳基或杂芳基、直链或支链且任选取代的或未取代的C₁-C₄烷基、直链或支链的且任选取代的或未取代的C₁-C₄烯基、任选取代的或未取代的环烷基、-OR’、-NH₂或-NR’R’、-SR’、-CO₂R’或-C(O)R’；

其中每个R’独立地选自-H或(C₁-C₄)烃基；

所述方法包括以具有结构式(II)的海因衍生物为底物，

与工程化海因酶多肽接触，所述结构式(II)中n、R₁、R₂的定义与结构式(I)相同。

在另一方面，本公开内容还提供了使用本文所述的改进的工程化海因酶多肽，制备结构式(III)化合物的方法：

所述结构式(III)的化合物在标为*的手性中心具有所示的立体化学构型；所示结构式(III)的合物与相应的对映异构体相比过量，其中

n＝0或1；

R₁，R₂彼此独立地选自H、直链或支链且任选取代的或未取代的C₁-C₄烷基或任选取代的或未取代的C₆H₆；

当n＝0时，R₁、R₂也可共同形成环结构基团，该基团选自单环或多环的、任选取代的或未取代的芳基或是单环或多环的、任选取代的或未取代的杂芳基；

所述方法包括以具有结构式(IV)的酰亚胺衍生物为底物，

与工程化海因酶多肽接触，所述结构式(IV)中n、R₁、R₂的定义与结构式(III)相同。

在另一方面，本文所述的改进的工程化多肽，可将DL-对羟基苯海因转化为N-氨甲酰-D-对羟基苯甘氨酸，在盐酸作用下，进一步转化为D-对羟基苯甘氨酸。

在另一方面，本文所述的改进的工程化多肽，可将A1转化为A2。在一些实施方案中，工程化多肽可以用在制备对映体过量的式A2化合物的方法中：

在这些实施方案中，所述方法包括在合适的反应条件下，将结构式A1所示化合物：

与本文公开的工程化多肽接触的步骤。

在以上方法的一些实施方案中，式A2化合物以至少97％、98％、99％或更大对映体过量产生。

用于该方法的工程化的海因酶多肽的具体实施方案在详述中进一步提供。可用在以上方法中的改进的工程化多肽可包括选自对应SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286的氨基酸序列，也包括与选自SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286的序列中的任一个参考氨基酸序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的氨基酸序列。

如本文描述并在实施例中例证的，本公开内容构思了可在本文的方法中使用的合适的反应条件的范围，包括但不限于pH、温度、缓冲液、溶剂系统、底物载量、多肽载量和反应时间的范围。用于执行使用本文描述的工程化的海因酶多肽将底物化合物生物催化地转化成产物化合物的方法的另外的合适的反应条件可容易地通过常规实验优化，所述常规实验包括但不限于在浓度、pH、温度、溶剂条件的实验反应条件下使工程化多肽与底物化合物接触，并检测产物化合物，例如，利用在本文提供的实施例中描述的方法。

如以上描述的，用于本公开内容的方法的具有海因酶活性的工程化多肽通常包含与选自SEQ ID NO：4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286序列中的任一个参考氨基酸序列具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的氨基酸序列。

考虑到例如期望的产物化合物的量、底物浓度对酶活性的影响、反应条件下酶的稳定性、和底物到产物的转化百分比，反应混合物中的底物化合物可以变化。在所述方法的一些实施方案中，合适的反应条件包括至少约1g/L、至少约5g/L、至少约10g/L、至少约15g/L、至少约20g/L、至少约30g/L、至少约50g/L、至少约75g/L、至少约100g/L、至少约150g/L、至少约200g/L或甚至更大的底物A1的载量。虽然本文提供的底物载量的值是基于化合物A1的分子量，但是还预期，也可在方法中使用相等的摩尔量的化合物A1的多种水合物和盐。

在反应的实施方案中，反应条件可包括合适的pH。如以上所述，期望的pH或期望的pH范围可通过使用酸或碱、合适的缓冲剂、或缓冲和添加酸或碱的组合来保持。反应混合物的pH可在反应过程之前和/或期间控制。在一些实施方案中，合适的反应条件包括约6至约8.5的溶液pH。在一些实施方案中，反应条件包括约6、6.5、7、7.5、8或8.5的溶液pH。

在本文的方法的实施方案中，例如考虑到在较高的温度下在反应速率上的增加、对于足够久的反应持续时间的酶的活性，合适的温度可被用于反应条件。相应地，在一些实施方案中，合适的反应条件包括约10℃至约60℃、约25℃至约50℃、约25℃至约40℃、或约25℃至约30℃的温度。在一些实施方案中，合适的反应温度包括约25℃、30℃、35℃、40℃、45℃、50℃、55℃或60℃的温度。在一些实施方案中，酶促反应期间的温度可以贯穿反应过程保持在一定温度。在一些实施方案中，酶促反应期间的温度可以在反应过程期间调整为温度曲线。

使用工程化海因酶的方法通常在水或溶剂中进行。合适的溶剂包括水性缓冲溶液、有机溶剂和/或共溶剂系统，共溶剂系统通常包括水性溶剂和有机溶剂。水性溶液(水或水性共溶剂系统)可为pH缓冲的或非缓冲的。在一些实施方案中，使用工程化多肽的方法通常地于包含以下的水性共溶剂系统中进行：有机溶剂(例如，甲醇、乙醇、丙醇、异丙醇(IPA))、二甲基亚砜(DMSO)、二甲基甲酰胺(DMF)、乙酸异丙酯、乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔-丁基醚(MTBE)、甲苯等)、离子液体(例如，四氟硼酸1-乙基4-甲基咪唑、四氟硼酸1-丁基-3-甲基咪唑、六氟磷酸1-丁基-3-甲基咪唑等)。水性共溶剂系统中的有机溶剂组分可与水性组分混溶，提供单一的液相，或可与水性组分部分混溶或不混溶，提供双液相。水解反应过程中产生的二氧化碳有可能造成泡沫的形成，可以适当添加消泡剂。示例性的水性共溶剂系统包含水和一种或多种有机溶剂。通常，选择水性共溶剂系统的有机溶剂组分以便其不会完全使海因酶失活。通过用候选溶剂系统中的感兴趣的确定的底物并利用诸如本文描述的酶活性测定而测量特定的工程化的海因酶的酶活性，合适的共溶剂系统可被容易地鉴定。

合适的反应条件可包括提供将底物化合物生物催化转化成其相应的产物化合物的反应参数的组合。相应地，在方法的一些实施方案中，反应参数的组合包括：(a)约1g/L至400g/L底物A1的载量；(b)约0.1g/L至50g/L的工程化多肽浓度；(c)约6.0至8.5的pH；和(d)约10℃至60℃的温度。

在一些实施方案中，上述方法包括，在约30℃至约50℃的温度和pH6.0至8.0的反应条件下，将≥10g/L的A1底物与本文所述工程化多肽接触，在24小时内至少70％、80％、90％、95％或更多的底物A1被转化为产物A2，且、产物A2以至少97％、98％、99％或更大对映体过量产生。在一些实施方案中，能够进行上述反应的海因酶多肽包括对应SEQ ID NO:4-286中的偶数序列标识符的氨基酸序列。

示例性反应条件包括在实施例12-22中提供的条件。

在进行本文描述的酶催化反应时，工程化多肽可以部分地纯化的或纯化的酶、经热处理的酶液、用编码酶的基因转化的完整细胞、和/或此类细胞的细胞提取物和/或裂解物的形式加入至反应混合物中。用编码工程化多肽的基因转化的完整细胞，或其细胞提取物、其裂解物，以及分离的酶可以多种不同的形式使用，包括固体(例如，冻干的、喷雾干燥的等)或半固体(例如，湿菌体等粗糊状物)。细胞提取物或细胞裂解物可通过沉淀(例如，硫酸铵、聚乙烯亚胺、热处理或类似处理)部分纯化，之后在冻干前进行除盐程序(例如，超滤、透析及类似程序)。任何酶制品可通过使用已知的交联剂诸如，例如戊二醛交联或固定到固相材料(例如树脂)而被稳定化。

在本文描述的酶催化反应的一些实施方案中，反应在本文描述的合适的反应条件下进行，其中工程化多肽被固定至固体支持物上。可用于固定进行酶催化反应的工程化多肽的固体支持物包括但不限于微球或树脂，所述微球或树脂包含具有环氧官能团的聚甲基丙烯酸酯、具有氨基环氧官能团的聚甲基丙烯酸酯、具有十八烷基官能团的苯乙烯/DVB共聚物或具有十八烷基官能团的聚甲基丙烯酸酯。示例性固体支持物包括但不限于壳聚糖珠、EupergitC和SEPABEAD(Mitsubishi)，包括以下不同类型的SEPABEAD：EC-EP、EC-HFA/S、EXA252、EXE119和EXE120。

在一些实施方案中，其中工程化多肽可以分泌多肽的形式被表达，含有该分泌多肽的培养基可被用于本文的方法中。

在一些实施方案中，固体反应物(例如，酶、盐等)可以各种不同的形式提供给反应，包括粉末(例如，冻干的、喷雾干燥的等)、溶液、乳液、悬浮液等。反应物可使用为本领域普通技术人员共知的方法和仪器容易地冻干或喷雾干燥。例如，蛋白质溶液可以小量冷冻于-80℃，然后加入至预冷却的冻干室内，之后应用真空。

在一些实施方案中，加入反应物的顺序或方式有多种选择。反应物可同时一起加入至溶剂中(例如，单相溶剂、双相水性共溶剂体系等)；或者可选择地，一些反应物可首先加入，其他反应物可流动加入或分批次间隔加入。

本公开内容的不同的特征和实施方案示例于以下代表性的实施例中，其意图是例证性的而不是限制性的。

附图说明

图1为普瑞巴林原研路线图

图2为脂肪酶拆分路线合成普瑞巴林及其中间体

图3为化学不对称合成普瑞巴林及其中间体

图4为海因酶不对称地水解3-异丁基戊二酰亚胺来制备普瑞巴林中间体

图5为海因酶催化3-异丁基戊二酰亚胺水解生成(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸

图6为蛋白电泳图分析

具体实施方式

下面用实施例来进一步说明本发明，但本发明并不受其限制。下列实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。

实施例1：基因克隆和表达载体的构建

源自于Pseudomonas fluorescens的野生型的海因酶的基因序列，可从NCBI上检索得到(GenBank:KF268426.1)，然后通过本领域的常见技术合成出来并克隆到表达载体pACYC-Duet-1(Novagen)上。将重组表达质粒转化到E.coli BL21(DE3)的感受态细胞中。转化条件为42℃、热击90秒，转化液涂布到含有氯霉素的LB平板上，37℃倒置培养过夜，即获得重组转化体。

实施例2：海因酶突变文库的构建

这里所用到的都是商业试剂，较佳地选用Quikchange试剂盒(供应商：Agilent)。突变引物的序列设计按照试剂盒的说明进行。

PCR体系为：10×buffer 2.5μL，dNTP mix 1μL，引物Oligomix 2μL(5μM)，质粒模板2.5μL(50ng/μl),高保真酶1μL，ddH2O 16μL。

PCR扩增步骤为：(1)95℃，预变性1min；(2)95℃，变性1min；(3)55℃退火1min；(4)65℃延伸6min；步骤(2)～(4)重复29次；(5)65℃继续延伸5min，冷却至4℃。在PCR产物中加入2μl DpnI(Kit),37℃酶切2h。转化产物到E.coli BL21(DE3)电感受态细胞，并涂布含有氯霉素的LB平板上，37℃倒置培养过夜，即获得文库菌落。

实施例3：突变酶库的表达和筛选用酶液的制备

从琼脂平板挑取突变酶库的菌落，接种至含有氯霉素的LB培养基的96孔板中，置于摇床30℃下过夜培养。当培养液的OD₆₀₀达到2～3时，从96孔板取20μL接种到含有氯霉素的TB培养基的96孔深孔板中(每孔400μL TB培养基)，置于摇床在30℃下培养。当培养液的OD₆₀₀达到0.6～0.8时，加入终浓度为1mM的IPTG作为诱导剂，置于摇床30℃下过夜表达(18-20h)。表达结束，将含有菌液的深孔板离心，去除菌液上清，得到湿菌体。湿菌体加入细胞裂解液(1g/L lysozyme，0.5g/L PMBS，溶于PBS缓冲液，pH7)，震荡1h使细胞破碎，得到裂解液。将裂解液离心，将上清转移到新的深孔板上，即得到可用于筛选反应的酶液。

实施例4：工程化多肽的表达

将包含带有目标工程化多肽表达质粒的大肠杆菌BL21(DE3)的单个微生物菌落，接种至含有50mL LB培养基(含氯霉素30μg/mL)的250mL锥形瓶中，置于30℃的摇床振荡培养过夜。当培养液的OD₆₀₀达到2时，按5％(v/v)的接种量接入装有250mL TB培养基的1000mL锥形瓶中，置于30℃的摇床振摇培养。当培养液的OD₆₀₀达到0.6时，加入终浓度为1mM的IPTG来诱导海因酶的表达。培养20h后，将培养液离心(8000rpm，10分钟)，离心后弃上清液，收集细胞得到湿菌体。湿菌体直接用于制备酶液，或可在-20℃冷冻储存直到使用。

将湿菌体重新悬浮于PBS缓冲液中，在冰浴中超声破碎，离心收集上清液，得到含有工程化多肽的酶液。

实施例5：对酶液样品中海因酶多肽的定量

根据实施例4的方法，制备SEQ ID NO：2的酶液，稀释100倍(样品1)和200倍(样品2)，与不同浓度的BCA蛋白标准样品(Easy IIProtein Quantitative Kit，品牌:Transgen)一起进行电泳分析，利用计算机软件对电泳图上的蛋白条带进行灰度分析，可得到BCA条带(图6中样品3-7)灰度值与BCA浓度的标准曲线。将海因酶酶液目标条带(图6中虚线箭头所示)的灰度值带入标准曲线的方程，即可得到酶液样品中海因酶多肽的浓度。

电泳样品编号	1	2	3	4	5	6	7
								电泳样品	酶液1	酶液2	BCA	BCA	BCA	BCA	BCA
蛋白浓度(μg/mL)	42.9	23.9	100	50	25	12.5	6.25

实施例6：液相孔板高通量转化率分析方法：

HPLC分析方法：色谱柱为Gemini C18 250mm*4.6mm*5um，使用的流动相为70％0.4％ HCLO4:30％ACN,流速为1mL/min,柱温箱温度为40℃，检测波长210nm,溶剂为50％ACN,进样量为10uL，其中(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸的保留时间为5.030min，3-异丁基戊二酰亚胺的保留时间为11.188min。

实施例7：手性分析方法:

样品衍生过程：取1mL反应液，以产物：碳酸钾：2-溴苯乙酮(质量比)＝5:3:1比例称取碳酸钾与2-溴苯乙酮，加入1mL乙腈与1mL反应液混合后1500rpm震荡15min，加入3mL乙酸乙酯，1500rpm震荡15min，离心取乙酸乙酯层后冷冻干燥，用50％ ACN溶解后HPLC检测。

HPLC分析方法：色谱柱为CHIRALPAK AD-RH 4.6*150mm*5um，使用的流动相为50％水(磷酸调pH至2.50)：50％ ACN，流速为0.5ml/min，柱温箱温度为30℃，检测波长为210nm，进样量为10ul，(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸的保留时间为15.2min，(S)-(-)-3-(氨甲酰甲基)-5-甲基己酸的保留时间为13.2min。

ee＝{[(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸]–[(S)-(-)-3-(氨甲酰甲基)-5-甲基己酸]}/{[(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸]+[(S)-(-)-3-(氨安甲酰甲基)-5-甲基己酸]}.

实施例8：定向进化第一阶段针对催化活性的筛选反应

参考实施例3的方法，制备pH7.0的酶液，立即用于进行筛选反应。

在96孔板上，将酶液与底物母液(由底物A1溶解于DMSO制得)相混合，使反应体系中各组分的终浓度为【底物2g/L，DMSO 10％，酶10g/L，0.05M PBS】，将孔板置于250rpm、30℃的摇床中振荡22小时。反应结束后，每孔加入200μL的纯乙腈对反应进行淬灭，置于平板振荡器上震荡30min(800rpm)，然后离心(4000rpm，10min)，取离心后的上清,按照实施例6的方法进行HPLC分析并计算A1到A2的转化率，按照实施例7的方法检测产物A2的ee值。

实施例9：定向进化第二阶段针对pH稳定性的筛选反应

参考实施例3的方法，制备pH6.3的酶液，并在室温下(20℃-25℃)震荡23小时，然后加入PBS缓冲液,是酶液的pH调整为7.0，进行筛选反应。

在96孔板上，将预处理过的酶液与底物母液(由底物A1溶解于DMSO制得)相混合，使反应体系中各组分的终浓度为【底物2g/L，DMSO 10％，酶3g/L，0.05M PBS】，将孔板置于250rpm、30℃的摇床中振荡22小时。反应结束后，每孔加入200μL的纯乙腈对反应进行淬灭，置于平板振荡器上震荡30min(800rpm)，然后离心(4000rpm，10min)，取离心后的上清,按照实施例6的方法进行HPLC分析并计算A1到A2的转化率，按照实施例7的方法检测产物A2的ee值。

实施例10：定向进化第三阶段产物耐受性的筛选反应

参考实施例3的方法，制备pH7.0的酶液，立即进行筛选反应。

在96孔板上，将酶液与底物母液(由底物A1溶解于DMSO制得)和产物母液(由产物A2溶解于PBS缓冲液)相混合，使反应体系中各组分的终浓度为【底物2g/L，产物50g/L，DMSO10％，酶0.3g/L，0.05M PBS】，将孔板置于250rpm、30℃的摇床中振荡22小时。反应结束后，每孔加入200μL的纯乙腈对反应进行淬灭，置于平板振荡器上震荡30min(800rpm)，然后离心(4000rpm，10min)，取离心后的上清,按照实施例6的方法进行HPLC分析并计算A1到A2的转化率。

实施例11：定向进化第三阶段针对热稳定性的筛选反应

参考实施例3的方法，制备pH7.0的酶液，并在50℃下震荡23小时，然后进行筛选反应。

在96孔板上，将酶液与底物母液(由底物A1溶解于DMSO制得)相混合，使反应体系中各组分的终浓度为【底物A1 2g/L，DMSO 10％，酶0.3g/L，0.05M PBS】，将孔板置于250rpm、30℃的摇床中振荡22小时。反应结束后，每孔加入200μL的纯乙腈对反应进行淬灭，置于平板振荡器上震荡30min(800rpm)，然后离心(4000rpm，10min)，取离心后的上清,按照实施例6的方法进行HPLC分析并计算A1到A2的转化率。

实施例12：第一阶段摇瓶菌5mL反应测转化率的反应方法

在总容积为30mL的反应瓶中，投入表达了SEQ ID NO：8的湿菌体250mg，投入50mg底物A1，最后加入PBS缓冲液(0.1M，pH7.0)使反应的总体积为5.0mL，反应体系中各组分的浓度为【湿菌体50g/L，底物A1 10g/L】，向反应瓶中加入磁力搅拌转子，置于设定为400rpm、30℃的磁力搅拌器上开始反应。反应24小时后，向瓶中加入5mL乙腈对反应进行淬灭，淬灭时长30min。将灭活液转移到2mL离心管，然后离心(13000rpm，3min)，取离心后的上清,分别按照1)实施例6的方法进行HPLC分析并计算A1到A2的转化率；2)实施例7的方法进行HPLC分析并计算A2的ee值。

实施例13：第二阶段摇瓶菌5mL反应测转化率的反应方法

在总容积为30mL的反应瓶中，投入表达了SEQ ID NO：50的湿菌体30mg，投入50mg底物A1，最后加入PBS缓冲液(0.1M，pH7.0)使反应的总体积为5.0mL，反应体系中各组分的浓度为【湿菌体6g/L，底物A1 10g/L】，向反应瓶中加入磁力搅拌转子，置于设定为400rpm、30℃的磁力搅拌器上开始反应。反应24小时后，向瓶中加入5mL乙腈对反应进行淬灭，淬灭时长30min。将灭活液转移到2mL离心管，然后离心(13000rpm，3min)，取离心后的上清,分别按照1)实施例6的方法进行HPLC分析并计算A1到A2的转化率；2)实施例7的方法进行HPLC分析并计算A2的ee值。

实施例14：第三阶段摇瓶菌5mL反应测转化率的反应方法

在总容积为30mL的反应瓶中，投入表达了SEQ ID NO：184的湿菌体5mg，投入50mg底物A1，最后加入PBS缓冲液(0.1M，pH7.0)使反应的总体积为5.0mL，反应体系中各组分的浓度为【湿菌体1g/L，底物A1 10g/L】，向反应瓶中加入磁力搅拌转子，置于设定为400rpm、40℃的磁力搅拌器上开始反应。反应24小时后，向瓶中加入5mL乙腈对反应进行淬灭，淬灭时长30min。将灭活液转移到2mL离心管，然后离心(13000rpm，3min)，取离心后的上清,分别按照1)实施例6的方法进行HPLC分析并计算A1到A2的转化率；2)实施例7的方法进行HPLC分析并计算A2的ee值。

实施例15工程化海因酶多肽SEQ ID No：10催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入100mL 0.05M PBS pH7.0缓冲液，再加入50mL酶液(SEQ IDNo：10)，开启水浴控温30℃，搅拌速度200rpm，最后加入3g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率为71％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到约2.2g粗品，ee％＝99.8％。

实施例16工程化海因酶多肽SEQ ID No：24催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入100mL 0.05M PBS pH7.0缓冲液，再加入50mL酶液(SEQ IDNo：24)，开启水浴控温30℃，搅拌速度200rpm，最后加入3g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率为73％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到约2.3g粗品，ee％＝99.7％。

实施例17工程化海因酶多肽SEQ ID No：52催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入140mL 0.05M PBS pH7.0缓冲液，再加入10mL酶液(SEQ IDNo：52)，开启水浴控温35℃，搅拌速度200rpm，最后加入10g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率为95％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到10.1g粗品，ee％≥99.6％。

实施例18工程化海因酶多肽SEQ ID No：162催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入140mL 0.05M PBS pH7.0缓冲液，再加入10mL酶液(SEQ IDNo：162)，开启水浴控温35℃，搅拌速度200rpm，最后加入10g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率为96％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到10.4g粗品，ee％＝99.5％。

实施例19工程化海因酶多肽SEQ ID No：184催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入145mL 0.05M PBS pH7.0缓冲液，再加入5mL酶液(SEQ IDNo：184)，开启水浴控温45℃，搅拌速度200rpm，最后加入30g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率98％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到32.1g粗品，ee％＝99.7％。

实施例20工程化海因酶多肽SEQ ID No：264催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入145mL 0.05M PBS pH7.0缓冲液，再加入5mL酶液(SEQ IDNo：264)，开启水浴控温45℃，搅拌速度200rpm，最后加入20g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率为72％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到15.8g粗品，ee％＝99.8％。

实施例21工程化海因酶多肽SEQ ID No：286催化合成普瑞巴林中间体的工艺

在容积为500mL的反应釜里，加入145mL 0.05M PBS pH7.0缓冲液，再加入5mL酶液(SEQ IDNo：286)，开启水浴控温45℃，搅拌速度200rpm，最后加入36g底物(3-异丁基戊二酰亚胺)开始反应。反应过程中用氨水调节pH，控制在7.0±0.2，反应20h后结束。取样检测反应20h后的转化率96％。

将反应结束后的反应液使用硅藻土助滤，滤液浓缩至约100mL后，滴加盐酸将浓缩液pH调至3.0，搅拌30min后，过滤得到湿粗品，烘干后称重，最终得到37.9g粗品，ee％＝99.8％。

实施例22工程化海因酶多肽SEQ ID No：214催化合成D-对羟基苯甘氨酸的工艺

以下为一个具代表性的检测转化率的5mL反应体积的流程。在总容积为30mL的反应瓶中，投入SEQ ID NO:214的酶液70μL，投入对羟基苯海50mg，最后加入5mL的磷酸缓冲液(0.1M，pH7.5)，使反应体系中各组分的浓度为【SEQ ID NO:214的酶液14mL/L，对羟基苯海因10g/L】，向反应瓶中加入磁力搅拌转子，置于设定为400rpm，40℃的IKA磁力搅拌器上开始反应。反应1小时后，向瓶中加入5mL乙腈对反应进行淬灭。在经淬灭的反应瓶内加入浓盐酸，至浓度为2mmo/L，再向反应瓶中加入亚硫酸氢钠27mg，置于磁力搅拌器上50℃，400rpm搅拌进行水解。3小时后，向反应瓶中加入5mL的0.1％冰醋酸，随后取反应液离心(13000rpm，3min)，取离心后上清对样品进行HPLC分析，测得转化率为42.3％。

应理解，在阅读了本发明的上述内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种工程化海因酶多肽，催化3-异丁基戊二酰亚胺不对称水解生成(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸，且ee值至少97％,所述多肽包括具有与参考序列SEQ ID NO:2至少90％的序列同一性和与SEQ ID NO:2相比在残基位置X64上的至少一个残基差异的氨基酸序列，其中，在残基位置X64上的氨基酸残基选自I、T、S和A。

2.根据权利要求1所述的多肽，反应条件包括约1g/L-400g/L的3-异丁基戊二酰亚胺的载量，0.1g/L至50g/L工程化多肽的载量，6.0至8.5的pH，10-60℃。

3.根据权利要求1或2所述的多肽，其中所述多肽的氨基酸序列为SEQ ID No 4、6、8、10、12、14、16、18、20、22、24、26、28、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58、60、62、64、66、68、70、72、74、76、78、80、82、84、86、88、90、92、94、96、98、100、102、104、106、108、110、112、114、116、118、120、122、124、126、128、130、132、134、136、138、140、142、144、146、148、150、152、154、156、158、160、162、164、166、168、170、172、174、176、178、180、182、184、186、188、190、192、194、196、198、200、202、204、206、208、210、212、214、216、218、220、222、224、226、228、230、232、234、236、238、240、242、244、246、248、250、252、254、256、258、260、262、264、266、268、270、272、274、276、278、280、282、284、286所示的氨基酸序列。

4.一种通过化学键或物理吸附的方法被固定在固体材质上的多肽，所述多肽选自权利要求1-3任一项所述的多肽。

5.一种多核苷酸，所述多核苷酸编码权利要求1-4任一项的多肽。

6.如权利要求5所述的多核苷酸，其中所述多核苷酸序列为对应SEQ ID No：1、3、5、7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37、39、41、43、45、47、49、51、53、55、57、59、61、63、65、67、69、71、73、75、77、79、81、83、85、87、89、91、93、95、97、99、101、103、105、107、109、111、113、115、117、119、121、123、125、127、129、131、133、135、137、139、141、143、145、147、149、151、153、155、157、159、161、163、165、167、169、171、173、175、177、179、181、183、185、187、189、191、193、195、197、199、201、203、205、207、209、211、213、215、217、219、221、223、225、227、229、231、233、235、237、239、241、243、245、247、249、251、253、255、257、259、261、263、265、267、269、271、273、275、277、279、281、283、285的多核苷酸序列。

7.一种表达载体，所述表达载体包含权利要求5-6所述的多核苷酸。

8.如权利要求7所述的表达载体，所述表达载体包括质粒、粘粒、噬菌体或病毒载体。

9.一种宿主细胞，所述宿主细胞包括权利要求7-8任一项的表达载体，所述宿主细胞优选大肠杆菌。

10.一种海因酶多肽的制备方法，其包括如下步骤：培养权利要求9所述的宿主细胞，以及从培养物中获得的多肽。

11.一种海因酶催化剂，其选自权利要求7-10任一项的培养物，通过从培养物中获得的含海因酶多肽的宿主细胞或培养液，或者用其加工的制品；其中，所述制品是指由宿主细胞得到的提取物，通过对提取物中的海因酶进行分离或纯化得到的分离产品，或通过固定化宿主细胞及其提取物或提取物的分离产品而得到的固定化制品。

12.一种制备结构式(I)化合物的方法：

所述结构式(I)的化合物在标为*的手性中心具有所示的立体化学构型；所示结构式(I)的合物与相应的对映异构体相比过量，其中，

n＝0或1；

其中每个R’独立地选自-H或C₁-C₄烃基；

所述方法包括以具有结构式(II)的海因衍生物为底物，

与权利要求1-4任一项的工程化海因酶多肽接触的步骤，所述结构式(II)中n、R₁、R₂的定义与结构式(I)相同。

13.一种制备结构式(III)化合物的方法：

所述结构式(III)的化合物在标为*的手性中心具有所示的立体化学构型；所示结构式(III)的合物与相应的对映异构体相比过量，其中，

n＝0或1；

所述方法包括以具有结构式(IV)的酰亚胺衍生物为底物，

与权利要求1-4任一项的工程化海因酶多肽接触的步骤，所述结构式(IV)中n、R₁、R₂的定义与结构式(III)相同。

14.一种制备式D-对羟基苯甘氨酸的方法：

底物DL-对羟基苯海因

在权利要求1-4所示的海因酶作用下，转化为N-氨甲酰-D-对羟基苯甘氨酸，

N-氨甲酰-D-对羟基苯甘氨酸在盐酸作用下，进一步转化为D-对羟基苯甘氨酸。

15.一种制备式A2化合物(R)-(-)-3-(氨甲酰甲基)-5-甲基己酸的方法：

所述方法包括，将结构式A1化合物3-异丁基戊二酰亚胺

与权利要求1-4任一项的工程化海因酶多肽接触的步骤。

16.如权利要求12-15任一项所述的方法，其中产物以至少97％、98％、99％或更大的对映体过量产生。

17.如权利要求12-15任一项所述的方法，其中反应溶剂包括水，甲醇、乙醇、丙醇、异丙醇、二甲基亚砜、二甲基甲酰胺、乙酸异丙酯、乙酸乙酯、乙酸丁酯、1-辛醇、庚烷、辛烷、甲基叔-丁基醚(MTBE)、甲苯等。

18.如权利要求12-17任一项所述的方法，其中温度为10℃至60℃。

19.如权利要求12-18任一项所述的方法，其中pH为pH6.0至pH8.5。

20.如权利要求12-19任一项所述的方法，其中底物载量为1g/L至400g/L。