CN110506113B

CN110506113B - 青霉素g酰化酶

Info

Publication number: CN110506113B
Application number: CN201880016037.XA
Authority: CN
Inventors: 奥斯卡·阿尔维左; 大卫·艾尔加特; 罗伯特·凯文·奥尔; 詹姆斯·尼古拉斯·里金斯; 安娜·弗里斯科瓦斯卡; 卡特里娜·W·莱克萨; 易翔; 段达; 考特尼·黛安娜·莫菲特; 尼基·德拉斯; 韦丝娜·米切尔
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2017-01-05
Filing date: 2018-01-04
Publication date: 2024-05-03
Anticipated expiration: 2038-01-04
Also published as: AU2023285775A1; AU2018205718B2; US10745681B2; US12084697B2; US11591588B2; IL267768A; US20200339973A1; AU2018205718A1; US10865402B2; KR102696584B1; JP2020513774A; CA3048475A1; EP3565893A4; US20230227805A1; CN110506113A; US20210054357A1; EP3565893A1; MX2019008096A; WO2018129130A1; KR20190102063A

Abstract

本发明提供了工程化青霉素G酰化酶(PGA)、编码该酶的多核苷酸、包含该酶的组合物以及使用该工程化PGA酶的方法。

Description

青霉素G酰化酶

本申请要求分别于2017年1月5日和2017年3月16日提交的美国专利申请序列号62/442,810和62/472,055的优先权，这两个专利申请为了所有目的特此通过引用以其整体并入。

发明领域

本发明提供了工程化青霉素G酰化酶(PGA)酶、编码该酶的多核苷酸、包含该酶的组合物以及使用该工程化PGA酶的方法。

对序列表、表格或计算机程序的引用

序列表的正式副本作为ASCII格式的文本文件经由EFS-Web与本说明书同时提交，文件名为“CX2-161USP2_ST25.txt”，创建日期为2017年2月15日，且大小为940千字节。经由EFS-Web提交的序列表是本说明书的一部分并且通过引用以其整体并入本文。

发明背景

青霉素G酰化酶(PGA)(青霉素酰胺酶，EC 3.5.1.11)催化青霉素G(苄基青霉素)侧链的酰胺键的裂解。该酶在商业上被用于制造6-氨基-青霉烷酸(6-APA)和苯基乙酸(PAA)。6-APA是工业生产半合成的β-内酰胺抗生素诸如阿莫西林、氨苄青霉素和头孢氨苄的关键化合物。天然存在的PGA酶在商业过程中显示出不稳定性，需要固定在固体基底上以用于商业应用。PGA已经被共价结合至各种支持物上，并且PGA固定化系统已经被报道作为用于合成纯光学异构体的有用的工具。然而，附接到固体表面导致受损的酶特性，诸如降低的活性和/或选择性以及对溶质接触的限制。此外，尽管附接到固体基底允许捕获酶并在另外的加工循环中再次使用，但酶的稳定性使得此类应用可能受到限制。PGA酶促催化青霉素G形成6-APA是配向性(regiospecific)(它不裂解内酰胺酰胺键)和立体特异性的。生产6-APA可能构成药物生产中酶促催化的最大利用。PGA与苯乙酰基部分相关的酶活性允许大量的伯胺以及醇的苯乙酰基衍生物的立体特异性水解。

发明概述

本发明提供了工程化青霉素G酰化酶(PGA)、编码该酶的多核苷酸、包含该酶的组合物以及使用该工程化PGA酶的方法。本发明提供了能够将胰岛素酰化的工程化青霉素G酰化酶，其中所述青霉素G酰化酶的多肽序列与SEQ ID NO:2、4、12、24、40、56、70、82、100、108、110、116、136、142、154和160至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同。在一些实施方案中，青霉素G酰化酶包含SEQ ID NO:4、12、24、40、56、70、82、108、110、116、136、142、154或160。在一些另外的实施方案中，工程化青霉素G酰化酶包含与表5.1、表5.2、表6.1、表6.2、表6.3、表6.4、表6.5、表6.6、表6.7、表7.1、表8.1、表9.1、表11.1、表12.1、表13.1、表14.1、表15.1、表17.1、表18.1、表19.1、表20.1、表22.1、表23.1和/或表23.2中列出的至少一种序列至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的序列。在一些另外的实施方案中，工程化青霉素G酰化酶包含表5.1、表5.2、表6.1、表6.2、表6.3、表6.4、表6.5、表6.6、表6.7、表7.1、表8.1、表9.1、表11.1、表12.1、表13.1、表14.1、表15.1、表17.1、表18.1、表19.1、表20.1、表22.1、表23.1和/或表23.2中列出的序列。在仍一些另外的实施方案中，工程化青霉素G酰化酶包含组氨酸标签。在一些实施方案中，组氨酸标签存在于工程化青霉素G酰化酶的C-末端。在一些另外的实施方案中，工程化青霉素G酰化酶包含选自SEQ ID NO:110和SEQ ID NO:142的多肽序列。

本发明还提供了编码本文提供的工程化青霉素G酰化酶的工程化多核苷酸序列。在一些实施方案中，工程化多核苷酸序列包含与SEQ ID NO:1、11、23、39、55、69、81、99、107、109、115、135、141、153和/或159至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的多核苷酸序列。

本发明还提供了包含本文提供的工程化多核苷酸序列的载体。在一些实施方案中，载体包含至少一种工程化多核苷酸序列，该工程化多核苷酸序列包含与SEQ ID NO:1、11、23、39、55、69、81、99、107、109、115、135、141、153和/或159至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的多核苷酸序列。在一些另外的实施方案中，载体包含至少一种控制序列。

本发明还提供了包含至少一种本文提供的载体的宿主细胞。在一些实施方案中，宿主细胞内的载体包含至少一种工程化多核苷酸序列，该工程化多核苷酸序列包含与SEQID NO:1、11、23、39、55、69、81、99、107、109、115、135、141、153和/或159至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的多核苷酸序列。在一些另外的实施方案中，载体包含至少一种控制序列。

本发明还提供了用于产生酰化胰岛素的方法，所述方法包括：提供至少一种本文所述的工程化青霉素G酰化酶和胰岛素；以及将工程化青霉素G酰化酶和胰岛素暴露在使得工程化青霉素G酰化酶将胰岛素酰化的条件下，从而产生酰化胰岛素。在一些实施方案中，酰化在苯乙酸甲酯的存在下进行。在一些另外的实施方案中，酰化发生在所述胰岛素的位置A1、B1和/或B29中的任何位置处。在一些另外的实施方案中，酰化发生在所述胰岛素的位置A1处，而在一些可选择的实施方案中，酰化发生在所述胰岛素的位置B1处，并且在仍其他实施方案中，酰化发生在所述胰岛素的位置B29处。在一些实施方案中，酰化发生在所述胰岛素的位置A1、B1和/或B29处。在一些另外的实施方案中，酰化发生在胰岛素的位置A1、B1和B29处。在所述方法的仍一些另外的实施方案中，与SEQ ID NO:2、4、12、24、40、56、70、82、100、108、110、116、136、142、154和/或160的多肽产生的酰化胰岛素相比，工程化青霉素G酰化酶产生多了大于90％的酰化胰岛素。

本发明还提供了使用至少一种本文提供的工程化青霉素G酰化酶产生的酰化胰岛素组合物。在一些另外的实施方案中，本发明提供了包含使用至少一种本文提供的方法产生的酰化胰岛素的组合物。

附图简述

图1提供了表21.5中描述的用于定量胰岛素的分析方法的层析图和酰化产物的洗脱顺序。

图2提供了实施例10中描述的实验的结果。

图3提供了实施例16中描述的实验的结果。

发明描述

本发明提供了能够将青霉素裂解为苯乙酸和6-氨基青霉烷酸(6-APA)的工程化青霉素G酰化酶(PGA)，6-氨基青霉烷酸是合成各种各样的β-内酰胺抗生素的关键中间体。特别地，本发明提供了能够通过将保护基团添加到游离胰岛素的A1、B1或B29位置或从A1/B1/B29三保护的胰岛素去除保护基团或去除A1/B1/B29三-乙酸苯酯保护基团以释放游离胰岛素来产生乙酸苯酯单保护的或二保护的胰岛素的工程化PGA。

通常，天然存在的PGA是包含α亚基和β亚基的异二聚体酶。野生型PGA被天然地合成为原前体PGA(pre-pro-PGA)多肽，包含介导易位至周质的N-末端信号肽和将α亚基的C-末端连接至β亚基的N-末端的接头区域。蛋白水解处理产生成熟的异二聚体酶。分子间接头区域还可以起促进酶的正确折叠的功能。本文提供的PGA基于来自Kluyvera citrophila的PGA，其中已经引入了多种修饰以产生如下文详细描述的改进的酶学特性。

对于本文提供的描述，单数的使用包括复数(并且反之亦然)，除非另外明确说明。例如，单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物，除非上下文另外明确指示。类似地，“包含(comprise、comprises、comprising)”、“包括(include、includes和including)”是可互换的，而不意图是限制性的。还应理解，在各种实施方案的描述中使用术语“包含(comprising)”的情况下，本领域技术人员将理解，在一些特定情况下，可以使用语言“基本上由...组成”或“由...组成”可选择地描述实施方案。

包括附图的上述一般描述以及以下详细描述两者仅是示例性和说明性的，并且不限制本公开内容。此外，本文使用的章节标题仅用于组织目的，并且不被解释为限制所描述的主题。

定义

如本文使用的，以下术语意图具有以下含义。

参考本公开内容，本文的说明书中使用的技术和科学术语将具有本领域普通技术人员通常理解的含义，除非另外具体定义。因此，以下术语意图具有以下含义。本文提及的所有专利和出版物，包括这样的专利和出版物内公开的所有序列被明确地通过引用并入。除非另外指示，本发明的实践包括分子生物学、发酵、微生物学和相关领域中常用的常规技术，这些技术是本领域技术人员已知的。除非本文另外定义，本文使用的所有技术和科学术语具有与本发明所属领域内的普通技术人员通常理解的相同含义。尽管与本文描述的那些相似或等效的任何方法和材料都可以用于实践或测试本发明，但描述了优选的方法和材料。实际上，不意图本发明受限于本文描述的特定方法学、方案和试剂，因为这些可以取决于使用它们的环境而变化。本文提供的标题不限制本发明的各个方面或实施方案。

尽管如此，为了便于理解本发明，下文定义了许多术语。数值范围包括限定该范围的数字。因此，本文公开的每个数值范围意图涵盖落在此类较宽数值范围内的每个较窄数值范围，如同此类较窄数值范围在本文被全部清楚地写出。还意图本文公开的每个最大的(或最小的)数值限制包括每个较低(或较高)的数值限制，如同此类较低(或较高)的数值限制在本文被清楚地写出。

如本文使用的，术语“包含(comprising)”及其同源词以其包含性含义被使用(即等同于术语“包括(including)”及其对应的同源词)。

如在本文和在所附权利要求中使用的，单数的“一(a)”、“一(an)”和“该(the)”包括复数指代物，除非上下文另外明确规定。因此，例如对“宿主细胞(host cell)”的提及包括多于一种此类宿主细胞。

除非另外指示，分别地，核酸以5’至3’的方向从左向右书写，而氨基酸序列以氨基至羧基的方向从左向右书写。

本文提供的标题不是对可以通过整体参考说明书而获得的本发明的各个方面或实施方案的限制。因此，下文定义的术语通过整体参考说明书被更充分地定义。

如本文使用的，术语“蛋白”、“多肽”和“肽”在本文中可互换使用，以指通过酰胺键共价连接的至少两个氨基酸的聚合物，而不论长度或翻译后修饰(例如糖基化、磷酸化、脂质化、豆蔻酰化(myristilation)、泛素化等)如何。此定义内包括D-氨基酸和L-氨基酸以及D-氨基酸和L-氨基酸的混合物。

如本文使用的，“多核苷酸”和“核酸”指的是共价连接在一起的两个或更多个核苷。多核苷酸可以完全由核糖核苷(即RNA)组成、完全由2’脱氧核糖核苷(即DNA)或核糖核苷和2’脱氧核糖核苷的混合物组成。虽然核苷将通常经由标准磷酸二酯键连接在一起，但多核苷酸可以包括一种或更多种非标准的键。多核苷酸可以是单链的或双链的，或者可以包括单链区和双链区两者。此外，虽然多核苷酸将通常包含天然存在的编码核碱基(即腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶)，但它可以包含一种或更多种修饰的和/或合成的核碱基(例如肌酐、黄嘌呤、次黄嘌呤等)。优选地，这样的修饰的或合成的核碱基将是编码核碱基。

如本文使用的，“杂交严格度”涉及核酸杂交时的杂交条件，诸如洗涤条件。通常，杂交反应在较低严格度的条件下进行，随后是不同但较高严格度的洗涤。术语“中度严格杂交”指的是允许靶DNA结合互补核酸的条件，所述互补核酸与靶DNA具有约60％同一性、优选地约75％同一性、约85％同一性；与靶多核苷酸具有大于约90％同一性。示例性中度严格条件是等同于在50％甲酰胺、5×Denhart's溶液、5×SSPE、0.2％SDS中在42℃杂交，随后在0.2×SSPE、0.2％SDS中在42℃洗涤的条件。“高严格度杂交”通常指的是与针对指定的多核苷酸序列在溶液条件下确定的热解链温度T_m相差约10℃或更少的条件。在一些实施方案中，高严格度条件指的是仅允许在65℃在0.018M NaCl中形成稳定的杂交体的那些核酸序列杂交的条件(即如果杂交体在65℃在0.018M NaCl中是不稳定的，它在如本文设想的高严格度条件下将是不稳定的)。高严格度条件可以例如通过在等同于在42℃在50％甲酰胺、5×Denhart's溶液、5×SSPE、0.2％SDS的条件下杂交，然后在65℃在0.1×SSPE和0.1％SDS中洗涤来提供。另一个高严格度条件是在等同于在65℃在含有0.1％(w:v)SDS的5×SSC中杂交的条件下杂交，并在65℃在含有0.1％SDS的0.1×SSC中洗涤。其他高严格度杂交条件以及中度严格条件是本领域技术人员已知的。

如本文使用的，“编码序列”指的是编码蛋白的氨基酸序列的核酸部分(例如基因)。

如本文使用的，“密码子优化”指的是编码蛋白的多核苷酸的密码子向特定生物体中优选使用的密码子的改变，使得编码的蛋白在感兴趣的生物体中有效地表达。在一些实施方案中，编码PGA酶的多核苷酸可以被密码子优化以用于从所选择的用于表达的宿主生物体优化产生。尽管遗传密码是简并的，因为大多数氨基酸由若干个被称为“同义(synonym)”或“同义突变(synonymous)”密码子的密码子表示，但熟知的是特定生物体的密码子使用是非随机的，并且对特定的密码子三联体有偏好。这种密码子使用偏好对于给定基因、具有共同功能或祖先来源的基因、高表达蛋白相对于低拷贝数蛋白、以及生物体的基因组的聚集蛋白编码区可能更高。在一些实施方案中，编码PGA酶的多核苷酸可以被密码子优化以用于从所选择的用于表达的宿主生物体优化产生。

如本文使用的，“优选的、最佳的、高密码子使用偏好密码子”可互换地指的是在蛋白编码区中的使用频率高于编码相同氨基酸的其他密码子的密码子。优选的密码子可以根据单个基因、一组具有共同功能或来源的基因、高表达基因、整个生物体的聚集蛋白编码区中的密码子频率、相关生物体的聚集蛋白编码区域中的密码子频率或其组合来确定。频率随基因表达的水平而增加的密码子通常是用于表达的最佳密码子。用来确定特定生物体中密码子的频率(例如密码子使用、相对同义突变密码子使用)和密码子偏好的多种方法是已知的，包括多变量分析，例如使用对基因中使用的密码子的聚类分析或相关性分析(correspondence analysis)和有效数目(参见例如，GCG CodonPreference,GeneticsComputer Group Wisconsin Package；CodonW,John Peden,University of Nottingham；McInerney,Bioinform.,14:372-73[1998]；Stenico等人,Nucleic Acids Res.,222:437-46[1994]；和Wright,Gene 87:23-29[1990])。密码子使用表可用于越来越多的生物体(参见例如，Wada等人,Nucleic Acids Res.,20:2111-2118[1992]；Nakamura等人,Nucl.AcidsRes.,28:292[2000]；Duret,等人,同上；Henaut和Danchin,“Escherichia coli andSalmonella,”Neidhardt,等人(编著),ASM Press,Washington D.C.,[1996],第2047-2066页)。用于获得密码子使用的数据源可以依赖于能够编码蛋白的任何可获得的核苷酸序列。这些数据集包括实际已知编码表达蛋白的核酸序列(例如完整的蛋白编码序列-CDS)、表达序列标签(ESTS)或基因组序列的预测编码区(参见例如，Uberbacher,Meth.Enzymol.,266:259-281[1996]；Tiwari等人，Comput.Appl.Biosci.,13:263-270[1997])。

如本文使用的，“控制序列”在本文中被定义为包括对本发明的多核苷酸和/或多肽的表达是必需或有利的所有组分。每个控制序列对于感兴趣的多核苷酸可以是天然的或外源的。这样的控制序列包括但不限于前导序列、多腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。

如本文使用的，“可操作地连接”在本文中被定义为控制序列被适当地放置(即，以功能性关系)在相对于感兴趣的多核苷酸序列的某一位置处的配置，使得控制序列指导或调控感兴趣的多核苷酸和/或多肽的表达。

如本文使用的，“启动子序列”指的是被宿主细胞识别用于表达感兴趣的多核苷酸诸如编码序列的核酸序列。控制序列可以包括合适的启动子序列。启动子序列包含介导感兴趣的多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示出转录活性的任何核酸序列，包括突变体、截短的和杂合的启动子，并且可以从编码与宿主细胞同源或异源的细胞外多肽或细胞内多肽的基因获得。

如本文使用的，“天然存在的”或“野生型”指的是自然界中发现的形式。例如，天然存在的或野生型多肽或多核苷酸序列是存在于可以从自然界的来源分离的生物体中并且没有被人工操作有意修饰的序列。

如本文使用的，当在本公开内容中提及(例如细胞、核酸或多肽)使用时，“非天然存在的”、“工程化的”和“重组的”指的是已经以自然界中原本不存在的方式被修饰的材料，或对应于材料的自然或天然形式的材料。在一些实施方案中，材料虽与天然存在的材料相同，但产生自或源自合成的材料和/或通过使用重组技术操作产生。非限制性实例包括，除其他以外，表达在天然(非重组)形式的细胞中未发现的基因或表达原本以不同水平表达的天然基因的重组细胞。

如本文使用的，“序列同一性百分比”、“同一性百分比”和“相同百分比”指的是多核苷酸序列或多肽序列之间的比较，并且通过在比较窗上比较两个最佳比对序列来确定，其中与参考序列相比，比较窗中的多核苷酸或多肽序列的部分可以包括添加或缺失(即空位)，用于这两个序列的最佳比对。百分比如下计算：通过确定两个序列中出现相同的核酸碱基或氨基酸残基，或者核酸碱基或氨基酸残基与空位比对的位置的数目，以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数，并将结果乘以100以产生序列同一性百分比。确定最佳比对和序列同一性百分比使用BLAST和BLAST 2.0算法来进行(参见例如，Altschul等人，J.Mol.Biol.215 403-410[1990]；和Altschul等人，Nucl.AcidsRes.3389-3402[1977])。用于进行BLAST分析的软件通过美国国家生物技术信息中心(National Center for Biotechnology Information)网站公开可得。

简言之，BLAST分析包括首先通过鉴定查询序列中的长度W的短字(short words)来鉴定高评分序列对(HSP)，所述长度W的短字在与数据库序列中的相同长度的字比对时，匹配或满足某个正值的阈值评分T。T被称为相邻字评分阈值(neighborhood word scorethreshold)(Altschul等人，同上)。这些初始的相邻字击中(word hit)充当种子，用于启动检索以发现包含它们的更长的HSP。然后，字击中沿每个序列在两个方向上延伸，直至累积比对评分不能增加的程度。对于核苷酸序列，累积评分使用参数M(对于一对匹配的残基的奖励评分；总是>0)和N(对于错配残基的惩罚评分；总是<0)来计算。对于氨基酸序列，使用评分矩阵来计算累积评分。当以下情况时，字击中在每个方向上的延伸停止：累积比对评分从其最大达到的值下降了量X；由于累积一个或更多个负评分残基比对，累积评分达到零或以下；或到达任一序列的末端。BLAST算法参数W、T和X决定比对的灵敏度和速度。BLASTN程序(对于核苷酸序列)使用以下作为缺省值(default)：字长(W)为11、期望值(E)为10、M＝5、N＝-4以及两条链的比较。对于氨基酸序列，BLASTP程序使用以下作为缺省值：字长(W)为3、期望值(E)为10和BLOSUM62评分矩阵(参见例如，Henikoff和Henikoff,Proc.Natl.Acad.Sci.USA 89:10915[1989])。

许多其他算法是可获得的和本领域已知的，这些算法在提供两个序列的同一性百分比方面与BLAST起相似作用。用于比较的序列的最佳比对可以使用本领域已知的任何合适的方法进行(例如通过Smith和Waterman,Adv.Appl.Math.2:482[1981]的局部同源性算法；通过Needleman和Wunsch,J.Mol.Biol.48:443[1970]的同源性比对算法；通过Pearson和Lipman,Proc.Natl.Acad.Sci.USA 85:2444[1988]的搜索相似性的方法；和/或通过这些算法的计算机实现[GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA]),或通过使用本领域通常已知的方法进行目视检查。此外，序列比对和序列同一性百分比的确定可以使用所提供的缺省参数，采用GCG Wisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序。

如本文使用的，“大体同一性(substantial identity)”指的是在至少20个残基位置的比较窗上、通常在至少30个-50个残基的窗上，与参考序列相比，具有至少80％序列同一性、至少85％同一性和89％至95％序列同一性，更通常地至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性的百分比通过在比较窗上比较参考序列和包含总计为参考序列的20％或更少的缺失或添加的序列来计算。在应用于多肽的具体实施方案中，术语“大体同一性”意指当诸如通过程序GAP或BESTFIT使用缺省空位权重进行最佳比对时，两个多肽序列共有至少80％的序列同一性，优选地至少89％的序列同一性、至少95％的序列同一性或更高(例如99％的序列同一性)。在一些优选的实施方案中，不相同的残基位置因保守氨基酸取代而不同。

如本文使用的，“参考序列”指的是另一序列被与之比较的特定序列。参考序列可以是更大的序列的子集；例如，全长基因或多肽序列的区段。通常，参考序列为至少20个核苷酸或氨基酸残基的长度、至少25个残基的长度、至少50个残基的长度，或核酸或多肽的全长。由于两个多核苷酸或多肽可以各自(1)包含两个序列之间相似的序列(即完整序列的一部分)，和(2)还可以包含两个序列之间趋异的(divergent)序列，因此两个(或更多个)多核苷酸或多肽之间的序列比较通常通过在比较窗上比较两个多核苷酸的序列来鉴定和比较序列局部区域的相似性来进行。术语“参考序列”不意图受限于野生型序列，并且可以包括工程化序列或改变的序列。例如，在一些实施方案中，“参考序列”可以是先前工程化或改变的氨基酸序列。

如本文使用的，“比较窗”指的是至少约20个连续核苷酸位置或氨基酸残基的概念性区段(conceptual segment)，其中序列可以与至少20个连续核苷酸或氨基酸的参考序列比较，并且其中与参考序列(其不包含添加或缺失)相比，序列在比较窗中的部分可以包含20％或更少的添加或缺失(即空位)，以用于两个序列的最佳比对。比较窗可以长于20个连续残基，并且包括任选地30个、40个、50个、100个或更长的窗。

如本文使用的，当在给定的氨基酸或多核苷酸序列的编号的上下文中使用时，“对应于”、“关于(reference to)”和“相对于”指的是当将给定的氨基酸或多核苷酸序列与参考序列相比时，指定的参考序列的残基的编号。换言之，给定聚合物的残基编号或残基位置相对于参考序列被指定，而不是通过残基在给定的氨基酸或多核苷酸序列内的残基的实际编号位置被指定。例如，给定的氨基酸序列诸如工程化PGA的氨基酸序列可以通过引入空位来与参考序列比对，以优化两个序列之间的残基匹配。在这些情况下，尽管存在空位，但是给定的氨基酸或多核苷酸序列中的残基的编号相对于其被与之比对的参考序列进行。如本文使用的，如下文进一步描述的对残基位置的提及，诸如“Xn”，应被理解为指“对应于……的残基”，除非另外明确说明。因此，例如“X94”指的是多肽序列中在位置94处的任何氨基酸。

如本文使用的，“改进的酶特性”指的是与参考PGA相比表现出任何酶特性的改进的PGA。对于本文描述的工程化PGA多肽，比较通常针对野生型PGA酶进行，尽管在一些实施方案中，参考PGA可以是另一种改进的工程化PGA。期望改进的酶特性包括但不限于酶促活性(其可以依据使用指定量的PGA在指定反应时间，底物的转化百分比表示)、化学选择性、热稳定性、溶剂稳定性、pH活性谱、辅因子需求、对抑制剂的耐受性(例如产物抑制)、立体特异性和立体选择性(包括对映异构体选择性)。

如本文使用的，“增加的酶促活性”指的是工程化PGA多肽的改进特性，其可以通过与参考PGA酶相比，比活性(例如，产生的产物/时间/重量蛋白)的增加或底物向产物的转化百分比(例如使用指定量的PGA，在指定时间段内起始量的底物向产物的转化百分比)的增加来表示。在实施例中提供了确定酶活性的示例性方法。可以影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的变化可以导致增加的酶促活性。酶活性的改进可以从对应的野生型PGA酶的酶促活性的约1.5倍至比天然存在的PGA或PGA多肽所源自的另一种工程化PGA的酶促活性高多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更多。在具体实施方案中，工程化PGA酶表现出比亲本PGA酶高1.5倍至50倍、1.5倍至100倍的范围内的改进的酶促活性。技术人员应理解，任何酶的活性都是受扩散限制的，使得催化周转速率不能超过底物包括任何需要的辅因子的扩散速率。扩散限制或k_cat/K_m的理论最大值通常为约10⁸至10⁹(M^-1s^-1)。因此，PGA的酶活性的任何改进将具有与被PGA酶作用的底物的扩散速率相关的上限。PGA活性可以通过用于测量青霉素G裂解时乙酸苯酯的释放的任何一种标准测定来测量，诸如通过滴定法(参见例如Simons和Gibson,Biotechnol.Tech.,13:365-367[1999])。在一些实施方案中，PGA活性可以通过使用6-硝基苯基乙酰氨基苯甲酸(NIPAB)来测量，其裂解产物5-氨基-2-硝基-苯甲酸是分光光度法可检测的(λmax＝405nm)。酶活性的比较使用定义的酶制品、在设定条件下的定义的测定和一种或更多种定义的底物进行，如本文进一步详细描述的。通常，当比较裂解物时，确定细胞的数目和测定的蛋白的量，并且使用相同的表达系统和相同的宿主细胞以使由宿主细胞产生并存在于裂解物中的酶的量的变化最小化。

如本文使用的，“增加的酶促活性”和“增加的活性”指的是工程化酶的改进的特性，其可以通过与本文描述的参考酶相比，比活性(例如，产生的产物/时间/重量蛋白)的增加或底物向产物的转化百分比(例如使用指定量的PGA，在指定时间段内起始量的底物向产物的转化百分比)的增加来表示。可以影响与酶活性相关的任何特性，包括经典的酶特性K_m、V_max或k_cat，它们的变化可以导致增加的酶促活性。在一些实施方案中，本文提供的PGA酶通过从胰岛素的特定残基去除三-乙酸苯酯保护基团来释放胰岛素。酶活性的比较使用定义的酶制品、在设定条件下的定义的测定和一种或更多种定义的底物进行，如本文进一步详细描述的。通常，当比较细胞裂解物中的酶时，确定细胞的数目和测定的蛋白的量，并且使用相同的表达系统和相同的宿主细胞以使由宿主细胞产生并存在于裂解物中的酶的量的变化最小化。

如本文使用的，“转化”指的是将底物酶促转化成对应的产物。

如本文使用的，“转化百分比”指的是在指定条件下在一定时间段内转化成产物的底物的百分比。因此，例如，PGA多肽的“酶促活性”或“活性”可以表示为底物向产物的“转化百分比”。

如本文使用的，“化学选择性”指的是一种产物相对于另一种产物在化学或酶促反应中的优先形成。

如本文使用的，“热稳定性的(thermostable)”和“热稳定的(thermal stable)”可互换地使用以指这样的多肽，其与未处理的酶相比，当暴露于一组温度条件(例如40℃-80℃)持续一定时间段(例如0.5hr-24hr)时耐受失活，因此在暴露于升高的温度后，保持一定水平的残余活性(例如多于60％至80％)。

如本文使用的，“溶剂稳定的”指的是与未处理的酶相比，多肽在暴露于不同浓度(例如5％-99％)的溶剂(例如异丙醇、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)持续一定时间段(例如0.5hr-24hr)后，维持相似活性(例如，多于例如60％至80％)的能力。

如本文使用的，“pH稳定的”指的是与未处理的酶相比，在暴露于高pH或低pH(例如4.5-6或8至12)持续一定时间段(例如0.5hr-24hr)后维持相似活性(例如多于60％至80％)的PGA多肽。

如本文使用的，“热稳定且溶剂稳定的”指的是既热稳定也溶剂稳定的PGA多肽。

如本文使用的，“亲水性氨基酸或残基”指的是具有根据Eisenberg等人的标准化共有疏水性量表(normalized consensus hydrophobicity scale)表现出小于零的疏水性的侧链的氨基酸或残基(Eisenberg等人，J.Mol.Biol.,179:125-142[1984])。遗传编码的亲水性氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

如本文使用的，“酸性氨基酸或残基”指的是当氨基酸包含于肽或多肽中时，具有表现出小于约6的pK值的侧链的亲水性氨基酸或残基。由于失去氢离子，酸性氨基酸在生理pH通常具有带负电荷的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

如本文使用的，“碱性氨基酸或残基”指的是当氨基酸包含于肽或多肽内时，具有表现出大于约6的pK值的侧链的亲水性氨基酸或残基。由于与水合离子的缔合，碱性氨基酸通常在生理pH具有带正电荷的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

如本文使用的，“极性氨基酸或残基”指的是具有在生理pH不带电荷的侧链的亲水性氨基酸或残基，但所述侧链具有至少一个其中两个原子共有的电子对被一个原子更紧密地持有的键。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

如本文使用的，“疏水性氨基酸或残基”指的是具有根据Eisenberg等人的标准化共有疏水性量表表现出大于零的疏水性的侧链的氨基酸或残基(Eisenberg等人，J.Mol.Biol.,179:125-142[1984])。遗传编码的疏水性氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

如本文使用的，“芳香族氨基酸或残基”指的是具有包括至少一个芳香族环或杂芳香族环的侧链的亲水性或疏水性氨基酸或残基。遗传编码的芳香族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管由于L-His(H)的杂芳香族氮原子的pKa，它有时被归类为碱性残基或者因为它的侧链包括杂芳香族环而被归类为芳香族残基，在本文中组氨酸被归类为亲水性残基或“受限残基(constrained residue)”(参见下文)。

如本文使用的，“受限氨基酸或残基”指的是具有受限几何学的氨基酸或残基。在本文中，受限残基包括L-Pro(P)和L-His(H)。组氨酸具有受限几何学，因为它具有相对小的咪唑环。脯氨酸具有受限几何学，因为它也具有五元环。

如本文使用的，“非极性氨基酸或残基”指的是具有在生理pH不带电荷的侧链的疏水性氨基酸或残基，并且所述侧链具有其中两个原子共有的电子对通常被两个原子的每一个等同地持有的键(即，侧链不是极性的)。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

如本文使用的，“脂肪族氨基酸或残基”指的是具有脂肪族烃侧链的疏水性氨基酸或残基。遗传编码的脂肪族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。

应注意，半胱氨酸(或“L-Cys”或“[C]”)之所以与众不同，是因为它可以与其他L-Cys(C)氨基酸或其他含巯基(sulfanyl)或巯基(sulfhydryl)氨基酸形成二硫桥。“半胱氨酸样残基”包括半胱氨酸和含有可用于形成二硫桥的巯基部分的其他氨基酸。L-Cys(C)(和具有含-SH侧链的其他氨基酸)以还原的游离-SH或氧化的二硫桥的形式存在于肽中的能力影响L-Cys(C)是否向肽贡献净的疏水性质或亲水性质。虽然根据Eisenberg的标准化共有量表(Eisenberg等人,1984,同上)，L-Cys(C)表现出0.29的疏水性，但是应理解，为了本公开内容的目的，L-Cys(C)被归入它自己的独特的组。

如本文使用的，“小氨基酸或残基”指的是具有包括总计三个或更少个碳和/或杂原子(不包括α-碳和氢)的侧链的氨基酸或残基。根据上文的定义，小氨基酸或残基可以进一步分类为脂肪族、非极性、极性或酸性小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

如本文使用的，“含羟基的氨基酸或残基”指的是含有羟基(-OH)部分的氨基酸。遗传编码的含羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

如本文使用的，“氨基酸差异”和“残基差异”指的是多肽序列的一个位置处的氨基酸残基相对于参考序列中对应位置处的氨基酸残基的差异。本文中氨基酸差异的位置通常被称为“Xn”，其中n指的是残基差异所基于的参考序列中的对应位置。例如，“与SEQ ID NO:2相比在位置X40处的残基差异”指的是在对应于SEQ ID NO:2的位置40的多肽位置处的氨基酸残基的差异。因此，如果SEQ ID NO:2的参考多肽在位置40处具有组氨酸，那么“与SEQID NO:2相比在位置X40处的残基差异”指的是在对应于SEQ ID NO:2的位置40的多肽位置处除组氨酸以外的任何残基的氨基酸取代。在本文的大多数情况下，在一个位置处的特定氨基酸残基差异指示为“XnY”，其中“Xn”指定如上文描述的对应位置，并且“Y”是在工程化多肽中发现的氨基酸的单字母标识符(即与参考多肽中的不同的残基)。在一些情况下，本公开内容还提供由常规符号“AnB”表示的特定氨基酸差异，其中A是参考序列中的残基的单字母标识符，“n”是参考序列中的残基位置的编号，并且B是工程化多肽序列中残基取代的单字母标识符。在一些情况下，本公开内容的多肽可以包含相对于参考序列的一个或更多个氨基酸残基差异，所述氨基酸残基差异由相对于参考序列存在残基差异的指定位置的列表指示。在一些实施方案中，当多于一个氨基酸可以在多肽的指定残基位置中使用时，可以使用的多种氨基酸残基由“/”隔开(例如X192A/G)。本公开内容包括包含一个或更多个氨基酸差异的工程化多肽序列，所述一个或更多个氨基酸差异包括保守氨基酸取代和非保守氨基酸取代的任一种/或两者。包括于本公开内容的序列表中的特定重组碳酸酐酶多肽的氨基酸序列包括起始甲硫氨酸(M)残基(即M代表残基位置1)。然而，技术人员理解，该起始甲硫氨酸残基可以通过诸如宿主细胞中或体外翻译系统中的生物加工机制去除，以产生缺乏起始甲硫氨酸残基但在其他方面保留酶的特性的成熟蛋白。因此，如本文使用的术语“相对于SEQ ID NO:2在位置Xn处的氨基酸残基差异”可以指位置“Xn”或已经被加工以缺少起始甲硫氨酸的参考序列的对应位置(例如位置(X-1)n)。

如本文使用的，措辞“保守氨基酸取代”指的是具有相似侧链的残基的可互换性，并且因此通常包括用相同或相似的氨基酸定义类别内的氨基酸取代多肽中的氨基酸。通过举例且非限制性的方式，在一些实施方案中，具有脂肪族侧链的氨基酸被另一种脂肪族氨基酸(例如，丙氨酸、缬氨酸、亮氨酸和异亮氨酸)取代；具有羟基侧链的氨基酸被另一种具有羟基侧链的氨基酸(例如，丝氨酸和苏氨酸)取代；具有芳香族侧链的氨基酸被另一种具有芳香族侧链的氨基酸(例如，苯丙氨酸、酪氨酸、色氨酸和组氨酸)取代；具有碱性侧链的氨基酸被另一种具有碱性侧链的氨基酸(例如，赖氨酸和精氨酸)取代；具有酸性侧链的氨基酸被另一种具有酸性侧链的氨基酸(例如，天冬氨酸或谷氨酸)取代；和/或疏水性或亲水性氨基酸分别被另一种疏水性或亲水性氨基酸取代。示例性保守取代在表1中提供。

如本文使用的，措辞“非保守取代”指的是用具有显著不同的侧链特性的氨基酸取代多肽中的氨基酸。非保守取代可以使用定义的组之间而非定义的组之内的氨基酸，并且影响(a)取代区域中的肽骨架的结构(例如，脯氨酸取代甘氨酸)，(b)电荷或疏水性，或(c)侧链的体积。通过举例且非限制性的方式，示例性非保守取代可以是用碱性氨基酸或脂肪族氨基酸取代的酸性氨基酸；用小氨基酸取代的芳香族氨基酸；和用疏水性氨基酸取代的亲水性氨基酸。

如本文使用的，“缺失”指的是通过从参考多肽去除一个或更多个氨基酸来修饰多肽。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸、或者20个或更多个氨基酸、多达构成多肽的氨基酸总数的10％或多达构成多肽的氨基酸总数的20％，同时保留酶促活性和/或保留工程化酶的改进的特性。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中，缺失可以构成连续的区段，或者可以是不连续的。

如本文使用的，“插入”指的是通过向参考多肽添加一个或更多个氨基酸来修饰多肽。在一些实施方案中，改进的工程化PGA酶包括向天然存在的PGA多肽插入一个或更多个氨基酸，以及向工程化PGA多肽插入一个或更多个氨基酸。插入可以在多肽的内部部分，或在羧基或氨基末端。如本文使用的插入包括如本领域已知的融合蛋白。插入可以是氨基酸的连续区段，或由天然存在的多肽中的一个或更多个氨基酸隔开。

术语“氨基酸取代集”或“取代集”指的是与参考序列相比，多肽序列中的一组氨基酸取代。取代集可以具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或更多个氨基酸取代。在一些实施方案中，取代集指的是存在于实施例中提供的表格中所列的变体PGA的任一个中的氨基酸取代集。

如本文使用的，“片段”指的是具有氨基末端和/或羧基末端缺失，但其中剩余的氨基酸序列与序列中的对应位置相同的多肽。片段可以通常具有全长PGA多肽，例如SEQ IDNO:2的多肽的约80％、约90％、约95％、约98％或约99％。在一些实施方案中，片段是“有生物活性的”(即，它表现出与全长序列相同的酶促活性)。

如本文使用的，“分离的多肽”指的是与天然伴随多肽的其他污染物，例如蛋白、脂质和多核苷酸大体上分离的多肽。该术语包括已经从其天然存在的环境或表达系统(例如，宿主细胞或体外合成)中取出或纯化的多肽。改进的PGA酶可以存在于细胞内、存在于细胞培养基中，或以各种形式制备，诸如裂解物或分离的制品。如此，在一些实施方案中，本公开内容的工程化PGA多肽可以是分离的多肽。

如本文使用的，“大体上纯的多肽”指的是其中多肽物质是存在的主要物质(即，以摩尔或重量计，其比组合物中的任何其他单独的大分子物质更丰富)的组合物，并且当目标物质以摩尔或％重量计构成存在的大分子物质的至少约50％时，该组合物通常为大体上纯的组合物。通常，以存在于组合物中的所有大分子物质的摩尔或％重量计，大体上纯的工程化PGA多肽组合物占约60％或更多、约70％或更多、约80％或更多、约90％或更多、约91％或更多、约92％或更多、约93％或更多、约94％或更多、约95％或更多、约96％或更多、约97％或更多、约98％或更多、或约99％。溶剂物质、小分子(<500道尔顿)和元素离子物质不被认为是大分子物质。在一些实施方案中，分离的改进的PGA多肽是大体上纯的多肽组合物。

如本文使用的，当关于核酸或多肽使用时，术语“异源的”指的是正常情况下生物体(例如，野生型生物体)不表达和分泌的序列。在一些实施方案中，该术语涵盖包含两个或更多个子序列的序列，发现所述子序列彼此之间关系与在自然界中正常存在的关系不同，或所述序列被重组工程化，使得其表达水平或与细胞中的其他核酸或其他分子的物理关系或结构不是正常存在于自然界中的。例如，异源的核酸通常被重组地产生，具有以自然界中未发现的方式排列的来自不相关的基因的两个或更多个序列(例如，本发明的核酸开放阅读框(ORF)可操作地连接至被插入到表达盒诸如载体中的启动子序列)。在一些实施方案中，“异源多核苷酸”指的是通过实验室技术被引入到宿主细胞中的任何多核苷酸，并且包括从宿主细胞中取出、经受实验室操作、并且然后重新引入到宿主细胞的多核苷酸。

如本文使用的，“合适的反应条件”指的是生物催化反应溶液中的那些条件(例如，酶载量、底物载量、辅因子载量、温度、pH、缓冲剂、共溶剂等的范围)，在该条件下本公开内容的PGA多肽能够通过去除三-乙酸苯酯保护基团来释放游离胰岛素。在本公开内容中提供并通过实施例说明了示例性的“合适的反应条件”。

如本文使用的，诸如“化合物载量”、“酶载量”或“辅因子载量”中的“载量”指的是在反应开始时反应混合物中组分的浓度或量。

如本文使用的，在生物催化剂介导的方法的上下文中，“底物”指的是由生物催化剂作用的化合物或分子。

如本文使用的，在生物催化剂介导的方法的上下文中，“产物”指的是由生物催化剂的作用产生的化合物或分子。

如本文使用的，“平衡”指的是在化学或酶促反应中产生稳定状态浓度的化学物质的过程(例如，两种物质A和B的相互转化)，包括立体异构体的相互转化，如通过该化学或酶促反应的正向速率常数和逆向速率常数确定的。

如本文使用的，“酰化酶”和“酰基转移酶”可互换地使用以指能够从供体转移酰基基团至受体以形成酯或酰胺的酶。酰化酶介导的逆反应导致酯或酰胺的水解。

如本文使用的，“青霉素G”和“苄基青霉素”指的是也被称为(2S,5R,6R)-3,3-二甲基-7-氧代-6-(2-苯基乙酰氨基)-4-硫杂-1-氮杂双环[3.2.0]庚烷-2-羧酸(C₁₆H₁₈N₂O₄S)的抗生素。它主要有效针对革兰氏阳性生物体，但是一些革兰氏阴性生物体也对它易感。

如本文使用的，“青霉素G酰化酶”和“PGA”可互换地使用以指具有介导青霉素G(苄基青霉素)裂解成苯乙酸(PHA)和6-氨基青霉烷酸(6-APA)的能力的酶。在一些实施方案中，PGA活性可以基于裂解模式底物，例如将6-硝基-3-(苯基乙酰氨基)苯甲酸裂解成苯乙酸和5-氨基-2-硝基-苯甲酸。PGA还能够进行将酰基供体的酰基基团转移至酰基受体的逆反应。如本文提及的，PGA包括天然存在的(野生型)PGA以及包含通过人为操作产生的一种或更多种工程化多肽的非天然存在的PGA酶。野生型PGA基因是由通过54个氨基酸的间隔区连接的α亚基(23.8KDa)和β亚基(62.2KDa)组成的异二聚体。由于存在间隔区，需要自加工步骤以形成活性蛋白。

如本文使用的，“酰基供体”指的是酰化酶底物中将酰基基团贡献给酰基受体以形成酯或酰胺的部分。

如本文使用的，“酰基受体”指的是酰化酶底物中接受酰基供体的酰基基团以形成酯或酰胺的部分。

如本文使用的，“α-链序列”指的是对应于SEQ ID NO:2的位置27至235处的残基的氨基酸序列(例如，与这些残基具有至少85％同一性)。如本文使用的，单链多肽可以包含“α-链序列”和另外的序列。

如本文使用的，“β-链序列”指的是对应于SEQ ID NO:2的位置290至846处的残基的氨基酸序列(例如，与这些残基具有至少85％同一性)。如本文使用的，单链多肽可以包含“β-链序列”和另外的序列。

如本文使用的，当在工程化PGA酶的上下文中使用时，“源自”表明工程化所基于的原始PGA酶，和/或编码这样的PGA酶的基因。例如，SEQ ID NO:60的单链工程化PGA酶通过使编码K.citrophila PGA的基因人工进化多代获得。因此，在一些实施方案中，工程化PGA酶源自SEQ ID NO:2的天然存在的或野生型PGA，而在一些另外的实施方案中，工程化PGA酶源自其他进化的PGA酶。在一些实施方案中，工程化PGA包含α-链序列和β-链序列，它们可以作为成熟酶中的独立多肽存在，或者作为单链多肽的一部分存在。在一些实施方案中，当作为单链形式存在时，工程化PGA多肽可以从氨基末端至羧基末端包含结构

B-L-A

其中，B是β-链序列(或B单元)；A是α-链序列(或A单元)；并且L是将α-链序列连接至β-链序列的接头。在一些实施方案中，间隔物或接头L包含具有足够长度和柔性的间隔物或接头，以允许A单元和B单元的正确折叠和相互作用，以形成功能性PGA酶。示例性接头/间隔物包含氨基酸序列Gln～Leu～Asp～Gln。

无论是以单独的多肽的形式还是以单链多肽的形式，α-链序列和β-链序列与K.citrophila PGA的天然存在的α-链序列和β-链序列相比可以具有一个或更多个残基差异。

如本文使用的，“胰岛素”指的是由正常个体的胰腺的β细胞产生的多肽激素。胰岛素是通过降低血糖水平调控糖类代谢所必需的。全身性缺乏胰岛素导致糖尿病。胰岛素包含51个氨基酸并且具有约5800道尔顿的分子量。胰岛素包含两条肽链(被指定为“A”和“B”)，含有一个亚基内二硫键和两个亚基间二硫键。A链包含21个氨基酸，并且B链包含30个氨基酸。两条链形成高度有序的结构，在A链和B链两者中具有数个α-螺旋区。分离的链是无活性的。在溶液中，胰岛素是单体、二聚体或六聚体。它在用于皮下注射的高度浓缩的制品中是六聚体的，但当它在体液中被稀释时变成单体的。该定义意图涵盖胰岛素原和具有部分或全部一级结构构象和天然存在的胰岛素的至少一种生物学特性的任何纯化的分离的多肽。它还意图涵盖天然和合成来源的胰岛素，包括糖型以及类似物(例如，具有缺失、插入和/或取代的多肽)。

胰岛素包含可以潜在地与乙酸苯酯供体反应并可以被PGA去保护的3个亲核胺。这些残基包括在B链上位置29(B29)处的Lys和两个N-末端游离胺：A链上位置1(A1)处的Gly和B链上位置1(B1)处的Phe。本文提供了三保护的胰岛素(化学附接至人类胰岛素上的A1、B1、B29残基的乙酸苯酯)。先前已经报道了PGA以对乙酸苯酯酰胺键的排他选择性催化N-乙酸苯酯保护的肽和胰岛素的水解，使蛋白的剩余肽键不受影响(Brtnik等人，Coll.Czech.Chem.Commun.,46(8),1983-1989[1981]；和Wang等人，Biopolym.25(增刊),S109-S114[1986])。

如本文使用的，“三-乙酸苯酯保护基团”指的是在B1、B29和A1位置具有三个被苯基酰基基团保护的伯胺的胰岛素分子。

如本文使用的，“二-乙酸苯酯保护基团”指的是在B1、B29和/或A1位置具有两个被苯基酰基基团保护的伯胺的胰岛素分子。

如本文使用的，“单-乙酸苯酯保护基团”指的是在B1、B29或A1位置具有一个被苯基酰基基团保护的伯胺的胰岛素分子。

青霉素G酰化酶

青霉素酰化酶首先由Sakaguchi和Murao描述为来自产黄青霉(Penicilliumchrysogenum)Wisc.Q176(Sakaguchi和Murao,J.Agr.Chem.Soc.Jpn.,23:411[1950])。青霉素G酰化酶是作用于青霉素G、头孢菌素G和相关抗生素的侧链以产生β-内酰胺抗生素中间体6-氨基青霉烷酸和7-氨基脱乙酰氧基头孢菌素酸(cephalosporanic acid)的水解酶，以苯乙酸作为常见副产物。这些抗生素中间体是半合成的抗生素，诸如氨苄青霉素、阿莫西林、氯唑西林、头孢氨苄和cefatoxime的潜在构成单元。

如上文指示的，青霉素G酰化酶(PGA)的特征在于催化具有结构式(I)的共轭碱的青霉素G水解裂解成具有结构式(II)的共轭碱的6-氨基青霉烷酸和结构式(III)的苯乙酸的能力，如方案1中示出的：

虽然不被理论束缚，底物特异性表现为与识别疏水性苯基基团相关，而亲核体充当β-内酰胺和多种其他基团，诸如β-氨基酸的受体，该亲核体在一些PGA中是β-链的N-末端的丝氨酸残基。PGA的特征还可以在于裂解类似于青霉素G的模式底物的能力，例如如方案2中示出的，将结构式(IV)的6-硝基-3-(苯乙酰氨基)苯甲酸(NIPAB)裂解为结构式(III)的苯乙酸和结构式(V)的5-氨基-2-硝基苯甲酸(参见例如，Alkema等人，Anal.Biochem.,275:47-53[1999])：

因为5-氨基-2-硝基-苯甲酸是显色的，式(IV)的底物提供了测量PGA活性的方便途径。除了上述反应以外，PGA还可以在DL-叔亮氨酸的动力学拆分中使用，用于制备光学纯的叔亮氨酸(参见例如，Liu等人，Prep.Biochem.Biotechnol.,36:235-41[2006])。

本发明的PGA基于从生物体Kluyvera citrophila(K.citrophila)获得的酶。如同来自其他生物体的PGA，K.citrophila的PGA是包含通过PGA原前体多肽的蛋白水解加工产生的α亚基和β亚基的异二聚体酶。去除信号肽和间隔肽产生成熟的异二聚体(参见例如，Barbero等人，Gene 49:69-80[1986])。天然存在的K.citrophila的PGA原前体多肽的氨基酸序列是公开可得的(参见例如，Genbank登录号P07941,[gi:129551])并且在本文中作为SEQ ID NO:2提供。天然存在的K.citrophila PGA的α-链序列对应于SEQ ID NO:2的残基27至235。天然存在的K.citrophila PGA的β-链序列对应于SEQ ID NO:2的残基290至846。SEQID NO:2的残基1至26对应于信号肽，并且SEQ ID NO:2的残基236-289对应于连接前肽，信号肽和连接前肽两者被去除以产生天然存在的成熟PGA酶，成熟PGA酶是包含α-链亚基和β-链亚基的异二聚体。在一些实施方案中，工程化PGA包含α-链序列和β-链序列，它们可以作为成熟酶中的单独的多肽存在，或者作为单链多肽的一部分存在。在一些实施方案中，当作为单链形式存在时，工程化PGA多肽可以从氨基末端至羧基末端包含结构

B-L-A

在一些实施方案中，本发明提供了具有与SEQ ID NO:12、24、40、56、70、82、100、108、110、116、136、154和/或160具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多序列同一性的氨基酸序列的工程化PGA多肽。

本发明提供了适用于商业规模用途的胰岛素特异性酰化生物催化剂。使用定向进化来开发能够在A1、B1和/或B29位置将乙酸苯酯保护基团添加到胰岛素的高效酰化酶变体。与野生型PGA相比，本文提供的PGA变体能够接受各种各样的酰基基团，表现出增加的溶剂稳定性和改进的热稳定性。本文提供的变体PGA缺少间隔区。因此，不需要自体加工步骤来产生有活性的酶。本发明还提供了编码工程化PGA多肽的多核苷酸。在一些实施方案中，多核苷酸被可操作地连接至控制基因表达的一个或更多个异源调控序列，以产生能够表达多肽的重组多核苷酸。包含编码工程化PGA多肽的异源多核苷酸的表达构建体可以被引入到适当的宿主细胞以表达对应的PGA多肽。因为知晓对应于各种氨基酸的密码子，蛋白序列的可得性提供了对能够编码目标的所有多核苷酸的描述。遗传密码的简并性，其中相同的氨基酸由可替代的密码子或同义突变密码子编码，允许制备极大数目的核酸，所有这些核酸都编码本文公开的改进的PGA酶。因此，已经鉴定了特定的氨基酸序列，本领域技术人员可以通过以不改变蛋白的氨基酸序列的方式简单修改序列的一个或更多个密码子来制备任何数目的不同核酸。在此方面，本公开内容特别设想了通过选择基于可能的密码子选择的组合可以进行的每个和每一个可能的多核苷酸变异，并且所有这样的变异应被认为针对本文公开的任何多肽(包括实施例中的表格中呈现的氨基酸序列)具体公开。

在各种实施方案中，优选地选择密码子来适应在其中产生蛋白的宿主细胞。例如，在细菌中使用的优选的密码子被用于在细菌中表达基因；在酵母中使用的优选的密码子被用于酵母中的表达；并且在哺乳动物中使用的优选的密码子被用于在哺乳动物细胞中表达。

在某些实施方案中，不是所有密码子都需要被替换以优化PGA多肽的密码子使用，因为天然序列将包含优选的密码子，并且因为可能不需要对所有氨基酸残基使用优选的密码子。因此，编码PGA酶的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包含优选的密码子。

在一些实施方案中，多核苷酸包含编码PGA多肽的核苷酸序列，所述PGA多肽具有与本文描述的任何参考工程化PGA多肽的α-链和/或β-链具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多序列同一性的氨基酸序列。相应地，在一些实施方案中，多核苷酸编码与基于SEQ ID NO:12、24、40、56、70、82、100、108、110、116、136、154和/或160的参考α-链和β-链序列至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的氨基酸序列。在一些实施方案中，多核苷酸编码SEQ ID NO:12、24、40、56、70、82、100、108、110、116、136、154和/或160的α-链和/或β-链氨基酸序列。

在一些实施方案中，多核苷酸包含编码PGA多肽的核苷酸序列，所述PGA多肽具有与SEQ ID NO:12、24、40、56、70、82、100、108、110、116、136、154和/或160具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多序列同一性的氨基酸序列。相应地，在一些实施方案中，多核苷酸编码与SEQ ID NO:12、24、40、56、70、82、100、108、110、116、136、154和/或160至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的氨基酸序列。

在一些实施方案中，编码改进的PGA多肽的分离的多核苷酸以多种方式被操作以提供改进的多肽活性和/或表达。取决于表达载体，对分离的多核苷酸在其插入到载体中之前的操作可以是期望的或必要的。用于利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域熟知的。

例如，诱变和定向进化方法可以容易地应用于多核苷酸以产生可以被表达、筛选和测定的变体文库。诱变和定向进化方法是本领域熟知的(参见例如，美国专利第5,605,793号、第5,830,721号、第6,132,970号、第6,420,175号、第6,277,638号、第6,365,408号、第6,602,986号、第7,288,375号、第6,287,861号、第6,297,053号、第6,576,467号、第6,444,468号、第5,811238号、第6,117,679号、第6,165,793号、第6,180,406号、第6,291,242号、第6,995,017号、第6,395,547号、第6,506,602号、第6,519,065号、第6,506,603号、第6,413,774号、第6,573,098号、第6,323,030号、第6,344,356号、第6,372,497号、第7,868,138号、第5,834,252号、第5,928,905号、第6,489,146号、第6,096,548号、第6,387,702号、第6,391,552号、第6,358,742号、第6,482,647号、第6,335,160号、第6,653,072号、第6,355,484号、第6,303,344号、第6,319,713号、第6,613,514号、第6,455,253号、第6,579,678号、第6,586,182号、第6,406,855号、第6,946,296号、第7,534,564号、第7,776,598号、第5,837,458号、第6,391,640号、第6,309,883号、第7,105,297号、第7,795,030号、第6,326,204号、第6,251,674号、第6,716,631号、第6,528,311号、第6,287,862号、第6,335,198号、第6,352,859号、第6,379,964号、第7,148,054号、第7,629,170号、第7,620,500号、第6,365,377号、第6,358,740号、第6,406,910号、第6,413,745号、第6,436,675号、第6,961,664号、第7,430,477号、第7,873,499号、第7,702,464号、第7,783,428号、第7,747,391号、第7,747,393号、第7,751,986号、第6,376,246号、第6,426,224号、第6,423,542号、第6,479,652号、第6,319,714号、第6,521,453号、第6,368,861号、第7,421,347号、第7,058,515号、第7,024,312号、第7,620,502号、第7,853,410号、第7,957,912号、第7,904,249号和所有相关的非美国的对应专利；Ling等人,Anal.Biochem.,254(2):157-78[1997]；Dale等人,Meth.Mol.Biol.,57:369-74[1996]；Smith,Ann.Rev.Genet.,19:423-462[1985]；Botstein等人,Science,229:1193-1201[1985]；Carter,Biochem.J.,237:1-7[1986]；Kramer等人,Cell,38:879-887[1984]；Wells等人,Gene,34:315-323[1985]；Minshull等人,Curr.Op.Chem.Biol.,3:284-290[1999；Christians等人,Nat.Biotechnol.,17:259-264[1999]；Crameri等人,Nature,391:288-291[1998]；Crameri,等人,Nat.Biotechnol.,15:436-438[1997]；Zhang等人,Proc.Nat.Acad.Sci.U.S.A.,94:4504-4509[1997]；Crameri等人,Nat.Biotechnol.,14:315-319[1996]；Stemmer,Nature,370:389-391[1994]；Stemmer,Proc.Nat.Acad.Sci.USA,91:10747-10751[1994]；WO 95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767；和WO 2009/152336，其全部通过引用并入本文)。

在一些实施方案中，本发明的变体PGA酰化酶还包含不改变酶的编码活性的另外的序列。例如，在一些实施方案中，变体PGA酰化酶被连接至可用于纯化的表位标签或另一个序列。

在一些实施方案中，本发明的变体PGA酰化酶多肽从它们在其中被表达的宿主细胞(例如，酵母宿主细胞或丝状真菌宿主细胞)分泌，并且被表达为包括信号肽(即，连接至多肽的氨基末端并指导所编码的多肽进入细胞分泌途径的氨基酸序列)的前蛋白。

在一些实施方案中，信号肽是内源的K.citrophila PGA酰化酶信号肽。在一些其他实施方案中，使用来自其他K.citrophila分泌蛋白的信号肽。

在一些实施方案中，根据宿主细胞和其他因素使用其他信号肽。用于丝状真菌宿主细胞的有效的信号肽编码区包括但不限于从以下获得的信号肽编码区：米曲霉(Aspergillus oryzae)TAKA淀粉酶、黑曲霉(Aspergillus niger)中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、特异腐质霉(Humicolainsolens)纤维素酶、绵毛状腐质霉(Humicola lanuginosa)脂肪酶和里氏木霉(T.reesei)纤维二糖水解酶II。用于细菌宿主细胞的信号肽编码区包括但不限于从以下的基因获得的信号肽编码区：芽孢杆菌(Bacillus)NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)α-淀粉酶、地衣芽孢杆菌(Bacillus licheniformis)枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌(Bacillus subtilis)prsA。在一些另外的实施方案中，在本发明中可使用其他信号肽(参见例如，Simonen和Palva,Microbiol.Rev.,57:109-137[1993]，通过引用并入本文)。另外的可用于酵母宿主细胞的信号肽包括来自酿酒酵母(Saccharomyces cerevisiae)α-因子、酿酒酵母SUC2转化酶的基因的那些(参见例如，Taussig和Carlson,Nucl.Acids Res.,11:1943-54[1983]；SwissProt登录号P00724；和Romanos等人，Yeast 8:423-488[1992])。在一些实施方案中，可使用这些信号肽和其他信号肽的变体。实际上，本发明不意图受限于任何具体的信号肽，因为本领域已知的任何合适的信号肽可在本发明中使用。

在一些实施方案中，本发明提供了编码变体PGA酰化酶多肽的如本文描述的多核苷酸和/或其生物活性片段。在一些实施方案中，多核苷酸被可操作地连接至控制基因表达的一个或更多个异源调控序列或控制序列，以产生能够表达多肽的重组多核苷酸。在一些实施方案中，包含编码变体PGA酰化酶的异源多核苷酸的表达构建体被引入到适当的宿主细胞以表达变体PGA酰化酶。

本领域普通技术人员理解，由于遗传密码的简并性，存在编码本发明的变体PGA酰化酶多肽的多种核苷酸序列。例如，密码子AGA、AGG、CGA、CGC、CGG和CGU都编码氨基酸精氨酸。因此，在其中精氨酸被密码子指定的本发明的核酸的每个位置处，该密码子可以被更改为上文描述的对应密码子中的任一个，而不改变编码的多肽。应理解，RNA序列中的“U”对应于DNA序列中的“T”。本发明设想并提供了可以通过选择基于可能的密码子选择的组合制备的编码本发明的多肽的核酸序列的每种和每一种可能的变异。

如上文指示的，编码PGA的DNA序列还可以被设计为高密码子使用偏好密码子(在蛋白编码区比编码相同氨基酸的其他密码子以更高的频率使用的密码子)。优选的密码子可以根据单个基因、一组具有共同功能或来源的基因、高表达基因、整个生物体的聚集蛋白编码区中的密码子频率、相关生物体的聚集蛋白编码区域中的密码子频率或其组合来确定。其频率随基因表达的水平而增加的密码子通常是用于表达的最佳密码子。特别地，DNA序列可以被优化以便在特定宿主生物体中表达。用于确定特定生物体中的密码子频率(例如，密码子使用、相对同义密码子使用)和密码子偏好的多种方法是本领域熟知的，包括对基因中使用的密码子的多变量分析(例如，使用聚类分析或相关性分析)和有效数目。用于获得密码子使用的数据源可以依赖于能够编码蛋白的任何可得的核苷酸序列。

如本领域熟知的，这些数据集包括实际已知编码表达蛋白(例如，完整的蛋白编码序列-CDS)、表达序列标签(EST)或基因组序列的预测编码区的核酸序列。编码变体PGA的多核苷酸可以使用本领域已知的任何合适的方法来制备。通常，寡核苷酸被单独地合成，然后连接(例如，通过酶促连接方法或化学连接方法或聚合酶介导的方法)，以基本上形成任何期望的连续序列。在一些实施方案中，本发明的多核苷酸使用本领域已知的任何合适的方法通过化学合成来制备，包括但不限于自动化合成方法。例如，在亚磷酰胺方法中，寡核苷酸被合成(例如，在自动DNA合成仪中)、纯化、退火、连接并克隆到适当的载体中。在一些实施方案中，双链DNA片段然后通过合成互补链和将链在适当条件下退火到一起，或通过用适当引物序列使用DNA聚合酶添加互补链来获得。存在多种常规和标准教科书，提供可在本发明中使用的本领域技术人员熟知的方法。

如上文讨论的，可以通过使编码天然存在的PGA的多核苷酸经受诱变和/或定向进化方法来获得工程化PGA。诱变可以根据本领域已知的任何技术来进行，包括随机诱变和定点诱变。定向进化可以用本领域已知的任何技术包括重排来进行，以筛选改进的变体。其他可使用的定向进化程序包括但不限于交错延伸程序(StEP)、体外重组、诱变PCR、盒式诱变、通过重叠延伸剪接(SOEing)、ProSAR^TM定向进化方法等，以及任何其他合适的方法。

对在诱变处理后获得的克隆筛选具有期望的改进的酶特性的工程化PGA。可以使用监测产物形成速率的标准生物化学技术对来自表达文库的酶活性进行测量。当期望的改进的酶特性是热稳定性时，可以在使酶制品经受指定的温度并测量热处理后剩余的酶活性的量后测量酶活性。然后对包含编码PGA的多核苷酸的克隆分离、测序以鉴定核苷酸序列的改变(如果有的话)、并且用于在宿主细胞中表达酶。

当已知工程化多肽的序列时，编码该酶的多核苷酸可以根据已知的合成方法通过标准固相方法来制备。在一些实施方案中，多达约100个碱基的片段可以被单独地合成、然后连接(例如，通过酶促连接方法或化学连接方法或聚合酶介导的方法)以形成任何期望的连续序列。例如，本发明的多核苷酸和寡核苷酸可以通过化学合成来制备(例如，使用由Beaucage等人，Tet.Lett.,22:1859-69[1981]描述的经典亚磷酰胺法，或由Matthes等人，EMBO J.,3:801-05[1984]描述的方法，因为它通常以自动化合成方法实践)。根据亚磷酰胺方法，寡核苷酸被合成(例如，在自动DNA合成仪中)、纯化、退火、连接并克隆到适当的载体中。此外，基本上任何核酸可以从多种商业来源中的任一种获得(例如，The MidlandCertified Reagent Company,Midland,TX，The Great American Gene Company,Ramona,CA，ExpressGen Inc.Chicago,IL，Operon Technologies Inc.,Alameda,CA以及许多其他商业来源)。

本发明还提供了包含编码如本文提供的至少一种变体PGA的序列的重组构建体。在一些实施方案中，本发明提供了一种表达载体，所述表达载体包含可操作地连接至异源启动子的变体PGA多核苷酸。在一些实施方案中，本发明的表达载体被用于转化适当的宿主细胞，以允许该宿主细胞表达变体PGA蛋白。用于在真菌和其他生物体中重组表达蛋白的方法是本领域熟知的，并且多种表达载体是可得的或可以使用常规方法构建。在一些实施方案中，本发明的核酸构建体包含本发明的核酸序列插入其中的载体，诸如质粒、黏粒、噬菌体、病毒、细菌人工染色体(BAC)、酵母人工染色体(YAC)等。在一些实施方案中，本发明的多核苷酸被整合到适用于表达变体PGA多肽的多种表达载体中的任一种中。合适的载体包括但不限于染色体、非染色体和合成的DNA序列(例如，SV40的衍生物)，以及细菌质粒、噬菌体DNA、杆状病毒(baculovirus)、酵母质粒、源自质粒和噬菌体DNA的组合的载体、病毒DNA诸如牛痘、腺病毒、禽痘病毒、假狂犬病、腺病毒、腺相关病毒、反转录病毒以及许多其他载体。本发明可使用将遗传材料转导到细胞中的任何合适的载体，并且如果期望复制，该载体在相关宿主中是可复制并且可生存的。

在一些实施方案中，构建体还包含调控序列，包括但不限于可操作地连接至蛋白编码序列的启动子。大量合适的载体和启动子是本领域技术人员已知的。实际上，在一些实施方案中，为了在特定宿主中获得高表达水平，在异源启动子的控制下表达本发明的变体PGA经常是有用的。在一些实施方案中，使用本领域已知的任何合适的方法将启动子序列可操作地连接至变体PGA编码序列的5'区。用于表达变体PGA的有用的启动子的实例包括但不限于来自真菌的启动子。在一些实施方案中，可使用驱动真菌菌株中除PGA基因以外的基因表达的启动子序列。作为非限制性实例，可以使用来自编码内切葡聚糖酶的基因的真菌启动子。在一些实施方案中，可使用在除该PGA源自的真菌菌株以外的真菌菌株中驱动PGA基因表达的启动子序列。可用于指导本发明的核苷酸构建体在丝状真菌宿主细胞中的转录的其他合适的启动子的实例包括但不限于从以下的基因获得的启动子：米曲霉TAKA淀粉酶、米黑根毛霉天冬氨酸蛋白酶、黑曲霉中性α-淀粉酶、黑曲霉酸稳定性α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰孢菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见例如WO 96/00787，通过引用并入本文)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶和米曲霉磷酸丙糖异构酶的基因的启动子的杂合体)、启动子诸如cbh1、cbh2、egl1、egl2、pepA、hfb1、hfb2、xyn1、amy和glaA(参见例如，Nunberg等人，Mol.Cell Biol.,4:2306-2315[1984]；Boel等人，EMBO J.,3:1581-85[1984]；和欧洲专利申请137280，这些全部通过引用并入本文)，以及它们的突变的、截短的和杂合的启动子。

在酵母宿主细胞中，有用的启动子包括但不限于来自以下基因的那些：酿酒酵母烯醇化酶(eno-1)、酿酒酵母半乳糖激酶(gal1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)和酿酒酵母3-磷酸甘油酸激酶。可用于酵母宿主细胞的另外的有用的启动子是本领域已知的(参见例如，Romanos等人，Yeast 8:423-488[1992]，通过引用并入本文)。另外，与真菌中壳多糖酶产生相关的启动子可用于本发明(参见例如，Blaiseau和Lafay,Gene120243-248[1992]；和Limon等人，Curr.Genet.28:478-83[1995]，两者通过引用并入本文)。

对于细菌宿主细胞，用于指导本公开内容的核酸构建体的转录的合适的启动子包括但不限于从以下获得的启动子：大肠杆菌(E.coli)lac操纵子、大肠杆菌trp操纵子、噬菌体λ、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌果聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因以及原核生物β-内酰胺酶基因(参见例如，Villa-Kamaroff等人，Proc.Natl.Acad.Sci.USA 75:3727-3731[1978])、以及tac启动子(参见例如，DeBoer等人，Proc.Natl.Acad.Sci.USA 80:21-25[1983])。

在一些实施方案中，本发明的克隆的变体PGA还具有合适的转录终止子序列，由宿主细胞识别以终止转录的序列。终止子序列被可操作地连接至编码多肽的核酸序列的3'末端。在所选择的宿主细胞中有功能的任何终止子可用于本发明中。用于丝状真菌宿主细胞的示例性转录终止子包括但不限于从以下的基因获得的那些：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶(还参见美国专利第7,399,627号，通过引用并入本文)。在一些实施方案中，用于酵母宿主细胞的示例性终止子包括从以下的基因获得的那些：酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶。用于酵母宿主细胞的其他有用的终止子是本领域技术人员熟知的(参见例如，Romanos等人，Yeast 8:423-88[1992])。

在一些实施方案中，合适的前导序列是克隆的变体PGA序列的一部分，前导序列是mRNA的对宿主细胞翻译重要的非翻译区。前导序列被可操作地连接至编码多肽的核酸序列的5'末端。在所选择的宿主细胞中有功能的任何前导序列可用于本发明中。用于丝状真菌宿主细胞的示例性前导序列包括但不限于从以下的基因获得的那些：米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶。用于酵母宿主细胞的合适的前导序列包括但不限于从以下的基因获得的那些：酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

在一些实施方案中，本发明的序列还包括多腺苷酸化序列，它是可操作地连接至核酸序列的3'末端的序列，并且它在转录时被宿主细胞识别为向转录的mRNA添加多腺苷酸残基的信号。在所选择的宿主细胞中有功能的任何多腺苷酸化序列可用于本发明中。用于丝状真菌宿主细胞的示例性多腺苷酸化序列包括但不限于从以下的基因获得的那些：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶。用于酵母宿主细胞的有用的多腺苷酸化序列是本领域已知的(参见例如，Guo和Sherman,Mol.Cell.Biol.,l5:5983-5990[1995])。

在一些实施方案中，控制序列包括编码连接至多肽的氨基末端的氨基酸序列的信号肽编码区，并指导编码的多肽进入细胞的分泌途径中。核酸序列的编码序列的5'末端可以固有地包含信号肽编码区，所述信号肽编码区符合翻译阅读框地(in translationreading frame)与编码分泌多肽的编码区的区段天然地连接。可选择地，编码序列的5'末端可以包含对编码序列是外源的信号肽编码区。当编码序列不天然包含信号肽编码区时可能需要外源信号肽编码区。

可选择地，外源信号肽编码区可以简单替换天然信号肽编码区以增加多肽的分泌。然而，指导所表达的多肽进入所选择的宿主细胞的分泌途径的任何信号肽编码区可以在本发明中使用。

用于细菌宿主细胞的有效信号肽编码区包括但不限于从以下的基因获得的信号肽编码区：芽孢杆菌NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。另外的信号肽是本领域已知的(参见例如，Simonen和Palva,Microbiol.Rev.,57:109-137[1993])。

用于丝状真菌宿主细胞的有效的信号肽编码区包括但不限于从以下的基因获得的信号肽编码区：米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和绵毛状腐质霉(Humicolalanuginosa)脂肪酶。

用于酵母宿主细胞的有用的信号肽包括但不限于酿酒酵母α因子和酿酒酵母转化酶的基因。其它有用的信号肽编码区是本领域已知的(参见例如，Romanos等人，[1992]，同上)。

在一些实施方案中，控制序列包含前肽编码区，该前肽编码区编码位于多肽的氨基末端的氨基酸序列。所得多肽被称为酶原(proenzyme)或多肽原(或在某些情况下为酶原(zymogen))。多肽原通常是无活性的并且可以通过前肽从多肽原的催化裂解或自动催化裂解转化为成熟的有活性的PGA多肽。前肽编码区可以从以下的基因获得：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶(参见例如，WO 95/33836)。

当信号肽区和前肽区两者存在于多肽的氨基末端时，前肽区紧邻多肽的氨基末端定位，并且信号肽区紧邻前肽区的氨基末端定位。

在一些实施方案中，还使用调控序列以允许相对于宿主细胞的生长调控多肽的表达。调控系统的实例是引起基因表达响应于化学或物理刺激(包括调控化合物的存在)而开启或关闭的那些。在原核宿主细胞中，合适的调控序列包括但不限于lac、tac和trp操纵子系统。在酵母宿主细胞中，合适的调控系统包括例如ADH2系统或GAL1系统。在丝状真菌中，合适的调控序列包括TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子和米曲霉葡糖淀粉酶启动子。

调控序列的其他实例是允许基因扩增的那些。在真核系统中，这些包括在氨甲蝶呤存在下扩增的二氢叶酸还原酶基因以及用重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的PGA多肽的核酸序列将与调控序列可操作地连接。

因此，在另外的实施方案中，本发明提供了包含编码工程化PGA多肽或其变体的多核苷酸，以及根据它们被引入的宿主的类型，一个或更多个表达调控区诸如启动子和终止子、复制起点等的重组表达载体。在一些实施方案中，上文描述的各种核酸和控制序列被连接在一起以产生重组表达载体，所述重组表达载体可以包括一个或更多个方便的限制性位点以允许在这样的位点插入或取代编码多肽的核酸序列。可选择地，在一些实施方案中，核酸序列通过将该核酸序列或包含该序列的核酸构建体插入到用于表达的适当的载体中来表达。在产生表达载体时，编码序列位于载体中，使得编码序列与用于表达的适当的控制序列可操作地连接。

重组表达载体包括任何合适的载体(例如质粒或病毒)，其可以方便地经受重组DNA程序并且可以引起多核苷酸序列的表达。载体的选择通常取决于载体与待引入该载体的宿主细胞的相容性。在一些实施方案中，载体是线性质粒或闭合的环状质粒。

在一些实施方案中，表达载体是自主复制载体(即，作为染色体外实体存在的载体，其复制独立于染色体复制，诸如质粒、染色体外元件、微型染色体或人工染色体)。在一些实施方案中，载体包含用于确保自我复制的任何工具(means)。可选择地，在一些其他实施方案中，当被引入到宿主细胞后，载体被整合到基因组中并与其整合的染色体一起复制。此外，在另外的实施方案中，可使用单个载体或质粒，或共同包含待引入到宿主细胞的基因组的总DNA的两个或更多个载体或质粒。

在一些实施方案中，本发明的表达载体包含一个或更多个可选择的标志物，其允许容易地选择转化的细胞。“可选择的标志物”是基因，其产物提供杀生物剂或病毒耐受性、对抗微生物剂或重金属的耐受性、对营养缺陷型的原养型等。本发明中可使用用于在丝状真菌宿主细胞中使用的任何合适的可选择的标志物，包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(膦丝菌素乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酰转移酶(sulfateadenyltransferase))和trpC(邻氨基苯甲酸合酶)以及其等同物。在宿主细胞诸如曲霉属真菌(Aspergillus)中可用的另外的标志物包括但不限于构巢曲霉或米曲霉的amdS和pyrG基因，以及吸水链霉菌(Streptomyces hygroscopicus)的bar基因。用于酵母宿主细胞的合适的标志物包括但不限于ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。细菌的可选择标志物的实例包括但不限于来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或赋予抗生素耐受性诸如氨苄青霉素、卡那霉素、氯霉素和/或四环素耐受性的标志物。

在一些实施方案中，本发明的表达载体包含允许载体整合到宿主细胞的基因组中或允许载体在细胞中独立于基因组自主复制的元件。在一些涉及整合到宿主细胞基因组中的实施方案中，载体依赖于编码多肽的核酸序列或用于通过同源或非同源重组将载体整合到基因组的载体的任何其他元件。

在一些可选择的实施方案中，表达载体包含用于指导通过同源重组整合到宿主细胞的基因组中的另外的核酸序列。另外的核酸序列能够使载体在染色体的准确位置整合到宿主细胞基因组中。为了增加在准确位置整合的可能性，整合元件优选地含有充足数目的核苷酸，诸如100至10,000个碱基对，优选地400至10,000个碱基对，并且最优选地800至10,000个碱基对，所述充足数目的核苷酸与对应的靶序列高度同源以增加同源重组的可能性。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码的或编码的核酸序列。在另一方面中，载体可以通过非同源重组整合到宿主细胞的基因组中。

对于自主复制，载体还可以包含能够使载体在所讨论的宿主细胞中自主复制的复制起点。细菌复制起点的实例是允许在大肠杆菌中复制的P15A ori或质粒pBR322、pUC19、pACYCl77(该质粒具有P15A ori)、或pACYC184的复制起点，和允许在芽孢杆菌中复制的pUB110、pE194、pTA1060或pAMβ1的复制起点。用于在酵母宿主细胞中使用的复制起点的实例是2微米(2micron)复制起点、ARS1、ARS4、ARS1和CEN3的组合、以及ARS4和CEN6的组合。复制起点可以是具有使其在宿主细胞中的功能对温度敏感的突变的复制起点(参见例如，Ehrlich,Proc.Natl.Acad.Sci.USA 75:1433[1978])。

在一些实施方案中，多于一个拷贝的本发明的核酸序列被插入到宿主细胞中以增加基因产物的产生。核酸序列的拷贝数的增加可以通过将至少一个另外拷贝的序列整合到宿主细胞基因组中，或通过包括具有核酸序列的可扩增的可选择标志物基因来获得，其中包含可选择标志物基因的扩增拷贝并从而包含核酸序列的另外拷贝的细胞可以通过在适当的选择剂的存在下培养细胞被选择。

用于在本发明中使用的许多表达载体是商业上可得的。合适的商业表达载体包括但不限于p3xFLAGTM^TM表达载体(Sigma-Aldrich Chemicals)，其包括CMV启动子和用于在哺乳动物宿主细胞中表达的hGH多腺苷酸化位点以及用于在大肠杆菌中扩增的pBR322复制起点和氨苄青霉素耐受性标志物。其他合适的表达载体包括但不限于pBluescriptII SK(-)和pBK-CMV(Stratagene)，以及源自pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly的质粒(参见例如，Lathe等人，Gene 57:193-201[1987])。

因此，在一些实施方案中，包含编码至少一种变体PGA的序列的载体被转化到宿主细胞中以允许载体繁殖和表达变体PGA。在一些实施方案中，变体PGA被翻译后修饰以去除信号肽，并且在一些情况下可以在分泌后被裂解。在一些实施方案中，上文描述的转化的宿主细胞在允许表达变体PGA的条件下在合适的营养培养基中培养。可用于培养宿主细胞的任何合适的培养基可用于本发明中，包括但不限于基本培养基或包含适当补充剂的复合培养基。在一些实施方案中，宿主细胞在HTP培养基中生长。合适的培养基从各种商业供应商可获得，或者可以根据公开的配方(例如，在美国典型培养物保藏中心(American TypeCulture Collection)的目录中)制备。

在另一方面中，本发明提供了包含编码本文提供的改进的PGA多肽的多核苷酸的宿主细胞，多核苷酸被可操作地连接至用于在宿主细胞中表达PGA酶的一个或更多个控制序列。用于在表达由本发明的表达载体编码的PGA多肽中使用的宿主细胞是本领域熟知的，并且包括但不限于细菌细胞诸如大肠杆菌、巨大芽孢杆菌(Bacillus megaterium)、开菲尔乳杆菌(Lactobacillus kefir)、链霉菌属(Streptomyces)和鼠伤寒沙门氏菌(Salmonellatyphimurium)细胞；真菌细胞，诸如酵母细胞(例如酿酒酵母或巴斯德毕赤酵母(Pichiapastoris)(ATCC登录号201178))；昆虫细胞诸如果蝇属(Drosophila)S2和夜蛾属(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑素瘤细胞；以及植物细胞。用于上文描述的宿主细胞的适当的培养基和生长条件是本领域熟知的。

用于表达PGA的多核苷酸可以通过本领域已知的各种方法引入到细胞中。技术包括电穿孔、生物弹射粒子轰击(biolistic particle bombardment)、脂质体介导的转染、氯化钙转染和原生质体融合、以及其他。用于将多核苷酸引入到细胞中的各种方法是本领域技术人员已知的。

在一些实施方案中，宿主细胞是真核细胞。合适的真核宿主细胞包括但不限于真菌细胞、藻类细胞、昆虫细胞和植物细胞。合适的真菌宿主细胞包括但不限于子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、半知菌门(Deuteromycota)、接合菌门(Zygomycota)、半知菌(Fungi imperfecti)。在一些实施方案中，真菌宿主细胞是酵母细胞和丝状真菌细胞。本发明的丝状真菌宿主细胞包括亚门真菌亚门(Eumycotina)和卵菌门(Oomycota)的所有丝状形式。丝状真菌的特征在于具有包含壳多糖、纤维素和其他复杂多糖的细胞壁的营养菌丝体。本发明的丝状真菌宿主细胞在形态学上与酵母不同。

在本发明的一些实施方案中，丝状真菌宿主细胞是任何合适的属和种的，包括但不限于绵霉属(Achlya)、枝顶孢属(Acremonium)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、烟管菌属(Bjerkandera)、拟蜡菌属(Ceriporiopsis)、头孢霉属(Cephalosporium)、金孢子菌属(Chrysosporium)、旋孢腔菌属(Cochliobolus)、棒囊壳属(Corynascus)、丛赤壳属(Cryphonectria)、隐球菌属(Cryptococcus)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、色二孢属(Diplodia)、Endothis、镰孢属(Fusarium)、赤霉菌属(Gibberella)、胶枝霉属(Gliocladium)、腐质霉属(Humicola)、肉座菌属(Hypocrea)、毁丝霉属(Myceliophthora)、毛霉属(Mucor)、脉孢菌属(Neurospora)、青霉菌属(Penicillium)、柄孢壳菌属(Podospora)、白腐菌属(Phlebia)、瘤胃壶菌属(Piromyces)、梨形孢属(Pyricularia)、根毛霉属(Rhizomucor)、根霉属(Rhizopus)、裂褶菌属(Schizophyllum)、柱顶孢霉属(Scytalidium)、孢子丝菌属(Sporotrichum)、踝节菌属(Talaromyces)、热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、栓菌属(Trametes)、弯颈霉属(Tolypocladium)、木霉属(Trichoderma)、轮枝孢属(Verticillium)和/或小包脚菇属(Volvariella)、和/或它们的有性型或无性型、和同义型、基原异名或分类学等同物。

在本发明的一些实施方案中，宿主细胞是酵母细胞，包括但不限于假丝酵母属(Candida)、汉逊酵母属(Hansenula)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、毕赤酵母属(Pichia)、克鲁维酵母属(Kluyveromyces)或亚罗酵母属(Yarrowia)的种的细胞。在本发明的一些实施方案中，酵母细胞是多形汉逊酵母(Hansenula polymorpha)、酿酒酵母、卡氏酵母(Saccharomyces carlsbergensis)、糖化酵母(Saccharomyces diastaticus)、诺地酵母(Saccharomyces norbensis)、克氏酵母(Saccharomyces kluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、巴斯德毕赤酵母(Pichia pastoris)、芬兰毕赤酵母(Pichia finlandica)、Pichia trehalophila、Pichia kodamae、膜醭毕赤氏酵母(Pichia membranaefaciens)、Pichia opuntiae、Pichiathermotolerans、Pichia salictaria、Pichia quercuum、Pichia pijperi、树干毕赤酵母(Pichia stipitis)、甲醇毕赤酵母(Pichia methanolica)、安格斯毕赤酵母(Pichiaangusta)、乳酸克鲁维酵母(Kluyveromyces lactis)、白色念珠菌(Candida albicans)或解脂耶氏酵母(Yarrowia lipolytica)。

在本发明的一些实施方案中，宿主细胞是藻类细胞，诸如衣藻属(Chlamydomonas)(例如，莱茵哈德衣藻(C.reinhardtii))和席藻属(Phormidium)(P.sp.ATCC29409)。

在一些其他实施方案中，宿主细胞是原核细胞。合适的原核细胞包括但不限于革兰氏阳性、革兰氏阴性和革兰氏不定的细菌细胞。在本发明中可使用任何合适的细菌生物体，包括但不限于土壤杆菌属(Agrobacterium)、脂环酸芽孢杆菌属(Alicyclobacillus)、鱼腥藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属(Acinetobacter)、嗜酸菌属(Acidothermus)、节杆菌属(Arthrobacter)、固氮菌属(Azobacter)、芽孢杆菌属(Bacillus)、双歧杆菌属(Bifidobacterium)、短杆菌属(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌属(Buchnera)、Campestris、弯曲杆菌属(Camplyobacter)、梭菌属(Clostridium)、棒杆菌属(Corynebacterium)、着色菌属(Chromatium)、粪球菌属(Coprococcus)、埃希氏菌属(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属(Enterobacter)、欧文氏菌属(Erwinia)、梭杆菌属(Fusobacterium)、Faecalibacterium、弗朗西斯菌属(Francisella)、黄杆菌属(Flavobacterium)、地芽孢杆菌属(Geobacillus)、嗜血杆菌属(Haemophilus)、螺杆菌属(Helicobacter)、克雷伯菌属(Klebsiella)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属(Ilyobacter)、微球菌属(Micrococcus)、细杆菌属(Microbacterium)、生根瘤菌属(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、原绿球藻属(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅藻属(Scenedesmus)、链霉菌属(Streptomyces)、链球菌属(Streptococcus)、Synecoccus、糖单孢菌属(Saccharomonospora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺氏菌属(Shigella)、嗜热厌氧杆菌属(Thermoanaerobacterium)、Tropheryma、Tularensis、Temecula、热聚球藻属(Thermosynechococcus)、高温球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞菌属(Xanthomonas)、木杆菌属(Xylella)、耶尔森氏菌属(Yersinia)和发酵单胞菌属(Zymomonas)。在一些实施方案中，宿主细胞是以下物种：土壤杆菌属、不动杆菌属、固氮菌属、芽孢杆菌属、双歧杆菌属、布赫纳氏菌属、地芽胞杆菌属、弯曲杆菌属(Campylobacter)、梭菌属、棒杆菌属、埃希氏菌属、肠球菌属、欧文氏菌属、黄杆菌属、乳杆菌属、乳球菌属、泛菌属、假单胞菌属、葡萄球菌属、沙门氏菌属、链球菌属、链霉菌属或发酵单胞菌属。在一些实施方案中，细菌宿主菌株是对人类非致病性的。在一些实施方案中，细菌宿主菌株是工业菌株。许多细菌工业菌株是已知的，并且在本发明中是合适的。在本发明的一些实施方案中，细菌宿主细胞是土壤杆菌属的种(例如，放射型土壤杆菌(A.radiobacter)、发根土壤杆菌(A.rhizogenes)和悬钩土壤杆菌(A.rubi))。在本发明的一些实施方案中，细菌宿主细胞是节杆菌属的种(例如，金黄节杆菌(A.aurescens)、柠檬色节杆菌(A.citreus)、球形节杆菌(A.globiformis)、裂烃谷氨酸节杆菌(A.hydrocarboglutamicus)、迈索尔节杆菌(A.mysorens)、烟草节杆菌(A.nicotianae)、石蜡节杆菌(A.paraffineus)、A.protophonniae、A.roseoparqffinus、硫磺节杆菌(A.sulfureus)和产脲节杆菌(A.ureafaciens))。在本发明的一些实施方案中，细菌宿主细胞是芽孢杆菌属的种(例如，苏云金芽孢杆菌(B.thuringensis)、炭疽芽孢杆菌(B.anthracis)、巨大芽胞杆菌(B.megaterium)、枯草芽孢杆菌(B.subtilis)、迟缓芽孢杆菌(B.lentus)、环状芽胞杆菌(B.circulans)、短小芽胞杆菌(B.pumilus)、灿烂芽孢杆菌(B.lautus)、凝结芽孢杆菌(B.coagulans)、短芽胞杆菌(B.brevis)、坚强芽孢杆菌(B.firmus)、B.alkaophius、地衣芽孢杆菌(B.licheniformis)、克劳氏芽孢杆菌(B.clausii)、嗜热脂肪芽孢杆菌(B.stearothermophilus)、耐盐芽孢杆菌(B.halodurans)和解淀粉芽孢杆菌(B.amyloliquefaciens))。在一些实施方案中，宿主细胞是工业芽孢杆菌菌株，包括但不限于枯草芽孢杆菌、短小芽胞杆菌、地衣芽孢杆菌、巨大芽胞杆菌、克劳氏芽孢杆菌、嗜热脂肪芽杆菌或解淀粉芽孢杆菌。在一些实施方案中，芽孢杆菌宿主细胞是枯草芽孢杆菌、地衣芽孢杆菌、巨大芽胞杆菌、嗜热脂肪芽孢杆菌和/或解淀粉芽孢杆菌。在一些实施方案中，细菌宿主细胞是梭菌属的种(例如，丙酮丁醇梭菌(C.acetobutylicum)、破伤风梭菌(C.tetani)E88、C.lituseburense、C.saccharobutylicum、产气荚膜梭菌(C.perfringens)和C.beijerinckii)。在一些实施方案中，细菌宿主细胞是棒杆菌属的种(例如，谷氨酸棒杆菌(C.glutamicum)和嗜乙酰棒杆菌(C.acetoacidophilum))。在一些实施方案中，细菌宿主细胞是埃希氏菌属的种(例如，大肠杆菌)。在一些实施方案中，细菌宿主细胞是欧文氏菌属的种(例如，噬夏孢欧文氏菌(E.uredovora)、胡萝卜欧文氏菌(E.carotovora)、菠萝欧文氏菌(E.ananas)、草生欧文氏菌(E.herbicola)、斑点欧文氏菌(E.punctata)和土欧文氏菌(E.terreus))。在一些实施方案中，细菌宿主细胞是泛菌属的种(例如，柠檬泛菌(P.citrea)和成团泛菌(P.agglomerans))。在一些实施方案中，细菌宿主细胞是假单胞菌属的种(例如，恶臭假单胞菌(P.putida)、铜绿假单胞菌(P.aeruginosa)、P.mevalonii和假单胞菌属的种(P.sp)D-01 10)。在一些实施方案中，细菌宿主细胞是链球菌属的种(例如，S.equisimiles、酿脓链球菌(S.pyogenes)和乳链球菌(S.uberis))。在一些实施方案中，细菌宿主细胞是链霉菌属的种(例如，生二素链霉菌(S.ambofaciens)、不发色链霉菌(S.achromogenes)、阿维链霉菌(S.avermitilis)、天蓝色链霉菌、金黄色链霉菌(S.aureofaciens)、金色链霉菌(S.aureus)、杀真菌素链霉菌(S.fungicidicus)、灰色链霉菌(S.griseus)和变铅青链霉菌(S.lividans))。在一些实施方案中，细菌宿主细胞是发酵单胞菌属的种(例如，运动发酵单胞菌(Z.mobilis)和Z.lipolytica)。

示例性宿主细胞是大肠杆菌W3110。表达载体通过将编码改进的PGA的多核苷酸可操作地连接至质粒pCK110900来创建，所述编码改进的PGA的多核苷酸可操作地连接至在lacI阻遏子的控制下的lac启动子。表达载体还包含P15a复制起点和氯霉素耐受性基因。大肠杆菌W3110中包含主题多核苷酸的细胞通过使细胞经受氯霉素选择来分离。

在本发明中可用的许多原核和真核菌株是公众从多个培养物保藏中心可容易地获得的，诸如美国典型培养物保藏中心(ATCC)、德国微生物保藏中心(DSM)、真菌菌种保藏中心(CBS)和农业研究机构专利培养物保藏中心，北方区域研究中心(AgriculturalResearch Service Patent Culture Collection,Northern Regional Research Center(NRRL))。

在一些实施方案中，宿主细胞被遗传修饰以具有改进蛋白分泌、蛋白稳定性的特征和/或蛋白表达和/或分泌期望的其他特性。遗传修饰可以通过遗传工程技术和/或经典微生物技术(例如化学或UV诱变和随后的选择)来实现。实际上，在一些实施方案中，重组修饰和经典选择技术的组合被用于产生宿主细胞。使用重组技术，核酸分子可以以在宿主细胞中和/或在培养基中导致PGA变体的收率增加的方式被引入、删除、抑制或修饰。例如，敲除Alp1功能导致蛋白酶缺陷型细胞，而敲除pyr5功能导致具有嘧啶缺陷表型的细胞。在一种遗传工程方法中，同源重组被用于通过体内特异性靶向基因引起靶向基因修饰，以抑制编码的蛋白的表达。在可选择的方法中，siRNA、反义和/或核酶技术可用于抑制基因表达。本领域已知多种方法用于降低蛋白在细胞中的表达，包括但不限于缺失编码该蛋白的全部或部分基因和定点诱变(site-specific mutagenesis)以破坏基因产物的表达或活性。(参见例如，Chaveroche等人，Nucl.Acids Res.,28:22e97[2000]；Cho等人，Molec.PlantMicrobe Interact.,19:7-15[2006]；Maruyama和Kitamoto,Biotechnol Lett.,30:1811-1817[2008]；Takahashi等人，Mol.Gen.Genom.,272:344-352[2004]；和You等人，Arch.Micriobiol.,191:615-622[2009]，这些全部通过引用并入本文)。也可使用随机诱变，随后筛选期望的突变(参见例如，Combier等人，FEMS Microbiol.Lett.,220:141–8[2003]；和Firon等人，Eukary.Biotech.2:247-55(2003)，两者通过引用并入)。

将载体或DNA构建体引入宿主细胞可以使用本领域已知的任何合适的方法来实现，包括但不限于磷酸钙转染、DEAE-右旋糖酐介导的转染、PEG介导的转化、电穿孔或本领域已知的其他常用技术。

在一些实施方案中，本发明的工程化宿主细胞(即“重组宿主细胞”)在常规营养培养基中培养，所述常规营养培养基经适当修饰用于活化启动子、选择转化体或扩增PGA多核苷酸。培养条件，诸如温度、pH等，是先前对所选择的用于表达的宿主细胞使用的那些，并且是本领域技术人员熟知的。如所提及的，许多标准参考文献和教科书可用于培养和产生许多细胞，包括细菌、植物、动物(特别是哺乳动物)和古细菌来源的细胞。

在一些实施方案中，表达本发明的变体PGA多肽的细胞在分批或连续发酵条件下生长。经典的“分批发酵”是封闭的系统，其中培养基的组成在发酵开始时设置并且在发酵期间不进行人工调整。分批系统的变化是也可在本发明中使用的“补料-分批发酵”。在此变化中，随发酵进展增量地添加底物。当分解代谢物阻遏可能抑制细胞的新陈代谢时以及当期望在培养基中具有有限量的底物时，可使用补料-分批系统。分批发酵和补料-分批发酵在本领域中是常见的和熟知的。“连续发酵”是一种开放系统，其中向生物反应器连续添加指定的发酵培养基，并且同时取出等量的条件培养基用于加工。连续发酵通常维持培养物在恒定的高密度，其中细胞主要处于对数期生长。连续发酵系统力求维持稳定状态的生长条件。用于调节用于连续发酵过程的营养物和生长因子的方法以及用于使产物形成的速率最大化的技术是工业微生物学领域熟知的。

在本发明的一些实施方案中，可使用无细胞转录/翻译系统产生变体PGA。若干系统是商业上可得的并且方法是本领域技术人员熟知的。

本发明提供了制备变体PGA多肽或其生物活性片段的方法。在一些实施方案中，所述方法包括：提供用以下多核苷酸转化的宿主细胞，所述多核苷酸编码与SEQ ID NO:12、24、40、56、70、82、100、108、110、116、136、154和/或160具有至少约70％(或至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％)序列同一性的氨基酸序列并包含如本文提供的至少一个突变；在宿主细胞表达编码的变体PGA多肽的条件下在培养基中培养转化的宿主细胞；以及任选地回收或分离所表达的变体PGA多肽，和/或回收或分离包含所表达的变体PGA多肽的培养基。在一些实施方案中，所述方法还提供了任选地在表达编码的PGA多肽后裂解转化的宿主细胞，以及任选地从细胞裂解物回收和/或分离所表达的变体PGA多肽。本发明还提供了制备变体PGA多肽的方法，所述方法包括在适合于产生变体PGA多肽的条件下培养用变体PGA多肽转化的宿主细胞，以及回收变体PGA多肽。通常，使用本领域熟知的蛋白回收技术，包括本文描述的那些，从宿主细胞培养基、宿主细胞或两者回收或分离PGA多肽。在一些实施方案中，将宿主细胞通过离心收获，用物理或化学手段破碎，并将所得粗提取物保留用于进一步纯化。在蛋白的表达中使用的微生物细胞可以通过任何常规方法破碎，包括但不限于冻融循环、超声、机械破碎和/或使用细胞裂解剂，以及本领域技术人员熟知的许多其他合适的方法。

在宿主细胞中表达的工程化PGA酶可以从细胞和/或培养基回收，使用用于蛋白纯化的熟知的技术中的任一种或更多种，包括溶菌酶处理、超声、过滤、盐析、超速离心和层析、以及其他。用于裂解和从细菌诸如大肠杆菌高效提取蛋白的合适的溶液是以商标名CelLytic B^TM(Sigma-Aldrich)商业上可得的。

因此，在一些实施方案中，所得多肽被回收/分离，并任选地通过本领域已知的多种方法中的任一种纯化。例如，在一些实施方案中，多肽通过常规程序从营养培养基分离，包括但不限于离心、过滤、提取、喷雾干燥、蒸发、层析(例如，离子交换、亲和性、疏水相互作用、聚焦层析和尺寸排阻)或沉淀。在一些实施方案中，按需要使用蛋白重折叠步骤完成成熟蛋白的构型。此外，在一些实施方案中，在最后纯化步骤中使用高效液相层析(HPLC)。例如，在一些实施方案中，本发明可使用本领域已知的方法(参见例如，Parry等人，Biochem.J.,353:117[2001]；和Hong等人，Appl.Microbiol.Biotechnol.,73:1331[2007]，两者通过引用并入本文)。实际上，本领域已知的任何合适的纯化方法可用于本发明。

用于分离PGA多肽的层析技术包括但不限于反相层析、高效液相层析、离子交换层析、凝胶电泳和亲和层析。用于纯化特定酶的条件将部分地取决于诸如净电荷、疏水性、亲水性、分子量、分子形状等本领域技术人员已知的因素。

在一些实施方案中，亲和技术可用于分离改进的PGA酶。对于亲和层析纯化，可以使用特异性结合PGA多肽的任何抗体。为了产生抗体，可以通过注射PGA来免疫各种宿主动物，包括但不限于兔、小鼠、大鼠等。PGA多肽可以通过侧链官能团或附接至侧链官能团的接头的方式被附接至合适的载体诸如BSA。取决于宿主物种，多种佐剂可以被用来增加免疫应答，包括但不限于弗氏佐剂(完全和不完全)、矿物凝胶诸如氢氧化铝、表面活性物质诸如溶血卵磷脂、pluronic多元醇、聚阴离子、肽、油乳剂、钥孔虫戚血兰素、二硝基酚和可能有用的人类佐剂诸如BCG(卡介苗)和短棒杆菌(Corynebacterium parvum)。

在一些实施方案中，PGA变体以表达酶的细胞的形式、作为粗提取物、或作为分离的或纯化的制品来制备和使用。在一些实施方案中，PGA变体被制备为呈粉末形式(例如丙酮粉末)的冻干物或被制备为酶溶液。在一些实施方案中，PGA变体呈大体上纯的制品的形式。

在一些实施方案中，PGA多肽被附接至任何合适的固体基底。固体基底包括但不限于固相、表面和/或膜。固体支持物包括但不限于有机聚合物诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯(polyethyleneoxy)和聚丙烯酰胺以及它们的共聚物和接枝物。固体支持物还可以是无机的，诸如玻璃、二氧化硅、可控孔隙玻璃(CPG)、反相二氧化硅或金属诸如金或铂。基底的构型可以呈珠、球、微粒(particle)、颗粒(granule)、凝胶、膜或表面的形式。表面可以是平面的、大体上平面的或非平面的。固体支持物可以是多孔的或无孔的，并且可以具有溶胀或非溶胀特征。固体支持物可以被配置为孔、凹陷或其他容器、器皿、特征或位置的形式。多于一种支持物可以被配置在阵列的多个位置上，所述多个位置是试剂的自动递送或通过检测方法和/或仪器可寻址的。

在一些实施方案中，使用免疫学方法来纯化PGA变体。在一种方法中，将使用常规方法针对变体PGA多肽(例如，针对包含SEQ ID NO:2、4、12、24、40、56、70、82、100、108、110、116、136、154和/或160中的任一个的多肽、和/或其免疫原性片段)产生的抗体固定在珠上，在其中变体PGA被结合并沉淀的条件下与细胞培养基混合。在相关方法中，可使用免疫层析。

在一些实施方案中，变体PGA被表达为包括非酶部分的融合蛋白。在一些实施方案中，变体PGA序列被融合至纯化辅助结构域。如本文使用的，术语“纯化辅助结构域”指的是介导与其融合的多肽的纯化的结构域。合适的纯化结构域包括但不限于金属螯合肽、允许在固定的金属上纯化的组氨酸-色氨酸模块、结合谷胱甘肽的序列(例如GST)、血球凝集素(HA)标签(对应于源自流感血球凝集素蛋白的表位；参见例如，Wilson等人，Cell 37:767[1984])、麦芽糖结合蛋白序列、在FLAGS延伸/亲和纯化系统(例如，从Immunex Corp可获得的系统)中使用的FLAG表位等。设想用于在本文描述的组合物和方法中使用的一种表达载体提供包含本发明的多肽的融合蛋白的表达，本发明的多肽被融合至多组氨酸区，由肠激酶裂解位点隔开。组氨酸残基有助于在IMIAC(固定化金属离子亲和层析；参见例如，Porath等人，Prot.J.Exp.Purif.,3:263-281[1992])上纯化，同时肠激酶裂解位点提供用于从融合蛋白分离变体PGA多肽的手段。pGEX载体(Promega)还可以被用于以与谷胱甘肽S-转移酶融合的融合蛋白表达外源多肽。一般而言，这样的融合蛋白是可溶的，并且可以被容易地通过吸附到配体-琼脂糖珠(例如，在GST-融合的情况下是谷胱甘肽-琼脂糖)从裂解的细胞中纯化，随后是在游离配体的存在下洗脱。

实验

本公开内容的各种特征和实施方案在以下代表性实施例中进行了说明，这些实施例意图说明而非限制。

在下文的实验公开内容中，使用以下缩写：ppm(百万分率)；M(摩尔/升)；mM(毫摩/升)，uM和μM(微摩/升)；nM(纳摩/升)；mol(摩尔)；gm和g(克)；mg(毫克)；ug和μg(微克)；L和l(升)；ml和mL(毫升)；cm(厘米)；mm(毫米)；um和μm(微米)；sec.(秒)；min(分钟)；h和hr(小时)；U(单位)；MW(分子量)；rpm(转每分)；℃(摄氏度)；RT(室温)；CDS(编码序列)；DNA(脱氧核糖核酸)；RNA(核糖核酸)；aa(氨基酸)；TB(Terrific肉汤；12g/L细菌-胰蛋白胨、24g/L酵母提取物、4mL/L甘油、65mM磷酸钾，pH 7.0，1mM MgSO₄)；CAM(氯霉素)；PMBS(多粘菌素B硫酸盐)；IPTG(异丙基硫代半乳糖苷)；TFA(三氟乙酸)；CHES(2-环己基氨基)乙磺酸；HPLC(高效液相层析)；FIOPC(相对于阳性对照的倍数改进)；HTP(高通量)；LB(Luria肉汤)；Codexis(Codexis,Inc.,Redwood City,CA)；Sigma-Aldrich(Sigma-Aldrich,St.Louis,MO)；Millipore(Millipore,Corp.,Billerica MA)；Difco(Difco Laboratories,BDDiagnostic Systems,Detroit,MI)；Daicel(Daicel,West Chester,PA)；Genetix(GenetixUSA,Inc.,Beaverton,OR)；Molecular Devices(Molecular Devices,LLC,Sunnyvale,CA)；Applied Biosystems(Applied Biosystems,part of Life Technologies,Corp.,GrandIsland,NY),Agilent(Agilent Technologies,Inc.,Santa Clara,CA)；ThermoScientific(part of Thermo Fisher Scientific,Waltham,MA)；(Infors；Infors-HT,Bottmingen/Basel,Switzerland)；Corning(Corning,Inc.,Palo Alto,CA)；和Bio-Rad(Bio-Rad Laboratories,Hercules,CA)；Microfluidics(Microfluidics Corp.,Newton,MA)。

实施例1

包含重组PGA基因的大肠杆菌表达宿主

用于产生本发明的变体的初始PGA酶从Acylase Panel(“PGA组平板”；Codexis)或共同拥有的美国专利申请公布第2016/0326508号中公开的变体获得。PGA组平板包括与野生型Khuyvera citrophila PGA相比具有改进的特性的工程化PGA多肽的集合。野生型PGA蛋白是由通过54aa间隔区连接的α亚基(23.8KDa)和β亚基(62.2KDa)组成的异二聚体。由于存在间隔区，需要自加工步骤以形成活性蛋白。在本发明的开发期间，将野生型基因修饰以消除间隔区，因此消除自加工步骤。PGA组平板(Codexis)包含缺少间隔区的PGA变体(参见例如，美国专利申请公布2010/0143968A1)。将PGA编码基因克隆到表达载体pCK110900中(参见美国专利申请公布第2006/0195947号的图3)，可操作地连接至在lacI阻遏子的控制下的lac启动子。表达载体还包含P15a复制起点和氯霉素耐受性基因。使用本领域已知的标准方法将所得质粒转化到大肠杆菌W3110中。如本领域已知的，通过使细胞经受氯霉素选择来分离转化体(参见例如，美国专利第8,383,346号和WO2010/144103)。

实施例2

制备含有HTP PGA的湿细胞沉淀物

将来自单克隆菌落的含有重组PGA编码基因的大肠杆菌细胞接种到96孔浅孔微量滴定板的孔中的含有1％葡萄糖和30μg/mL氯霉素的180μl LB中。将板用O₂可渗透密封物密封，并且使培养物在30℃、200rpm和85％湿度生长过夜。然后，将10μl的每种细胞培养物转移到含有390mL TB和30μg/mL CAM的96孔深孔板的孔中。将深孔板用O₂可渗透密封物密封，并且在30℃、250rpm和85％湿度孵育直至达到OD₆₀₀ 0.6-0.8。然后将细胞培养物用达到1mM的终浓度的IPTG诱导，并且在与最初使用的相同条件下孵育过夜。然后，使用在4000rpm持续10min的离心使细胞沉淀。弃去上清液并在裂解前将沉淀物在-80℃冷冻。

实施例3

制备含有HTP PGA的细胞裂解物

首先，向如实施例2中描述的产生的每个孔中的细胞团(cell paste)添加含有10mM Tris-HCl缓冲液(pH 7.5)、1mg/mL溶菌酶和0.5mg/mL PMBS的200μl裂解缓冲液。伴随在台式振荡器(a bench top shaker)上震荡，使细胞在室温裂解持续2小时。然后将板在4000rpm和4℃离心持续15min。然后将澄清的上清液用于生物催化反应以确定它们的活性水平。

实施例4

从摇瓶(SF)培养物制备冻干的裂解物

将选择的如上文描述生长的HTP培养物铺板于具有1％葡萄糖和30μg/ml CAM的LB琼脂板上并且在37℃生长过夜。将来自每种培养物的单个菌落转移到具有1％葡萄糖和30μg/ml CAM的6ml的LB中。使培养物在30℃、250rpm生长持续18h，并以约1:50传代培养至含有30μg/ml CAM的250ml的TB中，至最终OD₆₀₀为0.05。使培养物在30℃、250rpm生长持续约195分钟，至OD₆₀₀在0.6-0.8之间，并用1mM IPTG诱导。然后使培养物在30℃、250rpm生长持续20h。4000rpm x 20min离心培养物。弃去上清液，并将沉淀物在30ml的20mM TRIS-HCl(pH7.5)中重悬。使细胞沉淀(4000rpm x 20min)并在-80℃冷冻持续120分钟。将冷冻的沉淀物重悬在30ml的20mM TRIS-HCl(pH 7.5)中，并使用处理器系统(Microfluidics)以18,000psi裂解。使裂解物沉淀(10,000rpm x 60min)并且将上清液冷冻并冻干以产生摇瓶(SF)酶。

实施例5

相比于SEQ ID NO:4在A1、B1和B29位置处胰岛素的酰化的改进

基于对共同拥有的美国专利申请公布第2016/0326508号中公开的变体筛选的结果，选择SEQ ID NO:4作为亲本酶用于产生B29脱酰化产物。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的在HTP中产生，并且可溶性裂解物如实施例3中描述的产生。

每个反应孔含有200μL的以下：0.1M CHES(pH 10)、10g/L胰岛素、17g/L苯乙酸甲酯、和20μl HTP上清液。将HTP板在振荡器(3mm摆幅(throw)，模式#AJ185，Infors)中在30℃、300rpm孵育持续20小时。反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:4的活性(活性FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:4产生的转化百分比。结果在表5.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来计算。表5.2提供了示出变体相对于SEQ ID NO:4的选择性的结果。

实施例6

在高通量筛选中与SEQ ID NO:12相比在A1、B1和B29位置处胰岛素的酰化的改进

基于实施例5中描述的结果(即在位置B29酰化胰岛素方面鉴定的最佳的酶)，选择SEQ ID NO:12作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

将每种变体在200μL反应物中在30℃筛选持续5小时，该反应物包含10g/L胰岛素、0.1M TRIS缓冲液(pH9.25)、20％乙腈、17g/L苯乙酸甲酯和10μL澄清裂解物。将96孔板热密封并在振荡器中以100rpm孵育。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:12的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:12产生的转化百分比。这些结果在表6.1、表6.2、表6.3、表6.4、表6.5、表6.6和表6.7中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来计算。

相对于SEQ ID NO:12的选择性百分比(选择性百分比FIOP)被计算为由变体形成的产物的选择性百分比相对于由SEQ ID NO:12产生的选择性百分比。结果在表6.1、表6.2、表6.3、表6.4、表6.5、表6.6和表6.7中示出。选择性百分比通过将如通过HPLC分析观察到的产物峰的面积除以产物和杂质/副产物峰的面积之和来计算。

实施例7

与SEQ ID NO:12相比在B29位置处胰岛素酰化的改进

以摇瓶规模测试表7.1中列出的四种变体的B29的酰化。如实施例4中描述的产生摇瓶粉末。反应在96孔深孔板中进行，每个孔含有200μL的以下：0.2M TRIS(pH 9.25)、20％乙腈、10g/L胰岛素、17g/L苯乙酸甲酯、和在10mM TRIS(pH 7.5)中重构的0.9g/L冻干的酶粉末。将HTP板热密封并在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续5小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:12的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:12产生的转化百分比。结果在表7.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

相对于SEQ ID NO:12的选择性百分比(选择性百分比FIOP)被计算为由变体形成的产物的选择性百分比相对于由SEQ ID NO:12产生的选择性百分比。选择性百分比通过将如通过HPLC分析观察到的产物峰的面积除以产物和杂质/副产物峰的面积之和来计算。

实施例8

在高通量筛选中与SEQ ID NO:108相比在B29位置处胰岛素酰化的改进

基于实施例7中描述的结果，选择SEQ ID NO:108作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.1M TRIS(pH9.25)、20％乙腈、25g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP上清液。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续3小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:108的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:108产生的转化百分比。结果在表8.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例9

在高通量筛选中与SEQ ID NO:24相比在B29位置处胰岛素的酰化的改进

基于实施例8中描述的结果，选择SEQ ID NO:24作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.2M TRIS、20％乙腈、25g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP上清液(添加裂解物前的初始pH为9.4)。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续3小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:24的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:24产生的转化百分比。结果在表9.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例10

添加组氨酸标签对SEQ ID NO:82的影响

以摇瓶规模比较如实施例9中描述的SEQ ID NO:82的B29的酰化和在C-末端含有六个组氨酸标签的SEQ ID NO:110的B29的酰化。如实施例4中描述的产生摇瓶粉末。反应在96孔深孔板中进行，每个孔含有200μL，所述200μL包含0.2M TRIS(pH 9.25)、20％乙腈、25g/L胰岛素、17g/L苯乙酸甲酯、和在10mM TRIS(pH 7.5)中重构的0.3g/L至10g/L冻干的酶粉末。将HTP板热密封并在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续3小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。图2提供了示出结果的图。如指示的，相对于非组氨酸加标签的形式，添加组氨酸标签对酶具有最小的影响。

实施例11

在高通量筛选中与SEQ ID NO:110相比在B29位置处胰岛素酰化的改进

在示出了组氨酸标签对SEQ ID NO:82的活性具有最小的影响之后，选择SEQ IDNO:110作为亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的来产生，但是使用400uL裂解缓冲液而不是200uL。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.2M TRIS、20％乙腈、25g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP上清液(添加裂解物前的初始pH为9.4)。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续2小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:110的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:110产生的转化百分比。结果在表9.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例12

在高通量筛选中与SEQ ID NO:40相比在B29位置处胰岛素酰化的改进

基于实施例11中描述的结果，选择SEQ ID NO:40作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生，但是使用400uL裂解缓冲液而不是200uL。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.2M TRIS、20％乙腈、25g/L胰岛素、17g/L苯乙酸甲酯、和80μl HTP上清液(添加裂解物前的初始pH为9.4)。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续2小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min并加载到HPLC中用于分析。

相对于SEQ ID NO:40的转化百分比(转化百分比(FIOP))被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:40产生的转化百分比。结果在表12.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

相对于SEQ ID NO:40的选择性百分比(选择性百分比FIOP)被计算为由变体形成的产物的选择性百分比除以由SEQ ID NO:40产生的选择性百分比。选择性百分比通过将如通过HPLC分析观察到的产物峰的面积除以产物和杂质/副产物峰的面积之和来计算。

实施例13

在高通量筛选中与SEQ ID NO:56相比在B29位置处胰岛素酰化的改进

基于实施例12中描述的结果，选择SEQ ID NO:56作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生，但是使用400uL裂解缓冲液而不是200uL。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.2M TRIS、10％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP上清液(添加裂解物前的初始pH为9.4)。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续3小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min，并稀释另外2倍至水中后加载到HPLC中用于分析。

相对于SEQ ID NO:56的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:56产生的转化百分比，并在以下表中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

相对于SEQ ID NO:56的选择性百分比(选择性百分比FIOP)被计算为由变体形成的产物的选择性百分比相对于由SEQ ID NO:56产生的选择性百分比。结果在表13.1中示出。选择性百分比通过将如通过HPLC分析观察到的产物峰的面积除以产物和杂质/副产物峰的面积之和来计算。

实施例14

在高通量筛选中与SEQ ID NO:70相比在A1位置处胰岛素酰化的改进

基于实施例7中描述的结果，选择SEQ ID NO:70作为另外的亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生，但是使用400μl裂解缓冲液而不是200μl。

HTP反应在96孔深孔板中进行，每个孔含有200μL的以下：0.1M Tris-HCl(pH9.25)、20％乙腈、20g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP裂解物。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续5小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min，稀释2倍至水中，并加载到HPLC中用于分析。

相对于SEQ ID NO:70的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:70产生的转化百分比。结果在表14.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例15

在高通量筛选中与SEQ ID NO:116相比在A1位置处胰岛素酰化的改进

基于实施例14中描述的结果，选择SEQ ID NO:116作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生，但是使用400μl裂解缓冲液而不是200μl。HTP反应在96孔深孔板中进行，每个孔含有200μL的以下：0.25M Tris-HCl(pH 9.25)、20％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP裂解物。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续4小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心5min，稀释24x至水中，并加载到HPLC中用于分析。

相对于SEQ ID NO:116的转化百分比(转化百分比FIOP)被计算为变体形成的产物的转化百分比相对于由SEQ ID NO:116产生的转化百分比。结果在表15.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例16

添加组氨酸标签对SEQ ID NO:136的影响

以摇瓶规模比较SEQ ID NO:136的A1的酰化(在实施例15中描述的)和在SEQ IDNO:136的C-末端处含有六个组氨酸标签的SEQ ID NO:142的A1的酰化。如实施例4中描述的产生摇瓶粉末。反应在96孔深孔板中进行，每个孔含有200μL的以下：0.25M Tris-HCl(pH9.25)、20％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、和0.05-0.5g/L冻干的酶粉末。将板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续4小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min，稀释20x倍至水中，并加载到HPLC中用于分析。结果在图3中示出。如该图指示的，相对于非组氨酸加标签的形式，添加组氨酸标签对酶具有最小的影响。

实施例17

在高通量筛选中与SEQ ID NO:40相比在A1和B29位置处胰岛素酰化的改进

基于实施例11中描述的结果，选择SEQ ID NO:40作为另外的亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

HTP反应在96孔深孔板中进行，每个孔含有200μL，所述200μL包含0.2M TRIS(pH9.25)、20％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP上清液。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续2小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5分钟并加载到HPLC中用于分析。

相对于SEQ ID NO:40的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:40产生的转化百分比。结果在表17.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

相对于SEQ ID NO:40的选择性百分比(选择性百分比FIOP)被计算为由变体形成的产物的选择性百分比除以由SEQ ID NO:40产生的选择性百分比。结果在表17.1中示出。选择性百分比通过将如通过HPLC分析观察到的产物峰的面积除以产物和杂质/副产物峰的面积之和来计算。

实施例18

在高通量筛选中与SEQ ID NO:154相比在A1和B29位置处胰岛素酰化的改进

基于实施例17中描述的结果，选择SEQ ID NO:154作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

相对于SEQ ID NO:154的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:154产生的转化百分比。结果在表18.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

相对于SEQ ID NO:154的选择性百分比(选择性百分比FIOP)被计算为由变体形成的产物的选择性百分比相对于由SEQ ID NO:154产生的选择性百分比。结果在表18.1中示出。选择性百分比通过将如通过HPLC分析观察到的产物峰的面积除以产物和杂质/副产物峰的面积之和来计算。

实施例19

在高通量筛选中与SEQ ID NO:12相比在A1和B1位置处胰岛素酰化的改进

基于实施例7中描述的结果，选择SEQ ID NO:12作为另外的亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

HTP反应在96孔深孔板中进行，每个孔含有200μL的以下：0.1M TRIS(pH 9.25)、20％乙腈、10g/L胰岛素、17g/L苯乙酸甲酯、和10μl HTP上清液。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续5小时。将反应用200μl乙腈或二甲基乙酰胺猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5分钟并加载到HPLC中用于分析。

相对于SEQ ID NO:12的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:12产生的转化百分比。结果在表19.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例20

在高通量筛选中在苯乙酸的存在下与SEQ ID NO:56相比在B29位置处胰岛素酰化的改进

基于实施例12中描述的结果，选择SEQ ID NO:56作为另外的亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生，但是使用400uL裂解缓冲液而不是200uL。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.2M TRIS、10％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、12.5g/L或15g/L苯乙酸、和10μl HTP上清液(添加裂解物前的初始pH为9.4)。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续3小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后，添加400μL的水并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5min，并稀释另外2x倍至水中后加载到HPLC中用于分析。

相对于SEQ ID NO:56的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:56产生的转化百分比。结果在表20.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例21

胰岛素及其酰化产物的分析检测

实施例5-实施例18中描述的数据使用表21.1、表21.2、表21.3、表21.4和表21.5中的分析方法收集。本文提供的方法都可用于分析使用本发明产生的变体。然而，并不意图本文描述的方法是适用于分析本文提供和/或使用本文提供的方法产生的变体的唯一方法。图1中示出的结果对应于这些方法的化合物的洗脱顺序。

实施例22

在高通量筛选中与SEQ ID NO:160相比在A1和B29位置处胰岛素酰化的改进

基于实施例18中描述的结果，选择SEQ ID NO:160作为另外的亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生。

HTP反应在96孔深孔板中进行，每个孔含有200μL，所述200μL包含0.5M TRIS(pH10.0)、20％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、和5-10μl HTP上清液。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续2小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。然后将板在4000rpm离心持续5分钟并加载到HPLC中用于分析。

相对于SEQ ID NO:160的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:160产生的转化百分比。结果在表22.1中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

实施例23

在高通量筛选中与SEQ ID NO:100相比在B29位置处胰岛素酰化的改进

基于实施例13中描述的结果，选择SEQ ID NO:100作为下一亲本酶。使用成熟技术(例如，饱和诱变和先前鉴定的有益突变的重组)产生工程化基因的文库。由每种基因编码的多肽如实施例2中描述的以HTP产生，并且可溶性裂解物如实施例3中描述的产生，但使用400uL裂解缓冲液而不是200uL。

HTP反应在96孔深孔板中进行。每个反应孔含有200μL的以下：0.5M TRIS、20％乙腈、50g/L胰岛素、17g/L苯乙酸甲酯、和40μl HTP上清液(添加裂解物前的初始pH＝10)。将HTP板在振荡器(3mm摆幅，模式#AJ185，Infors)中在30℃、100rpm孵育持续5小时。将反应用200μl乙腈猝灭并使用台式振荡器混合持续5分钟。添加400μL的水并使用台式振荡器再次将板混合持续5分钟。然后将板在4000rpm离心持续5分钟，并稀释另外2倍至水中后加载到HPLC中用于分析。

相对于SEQ ID NO:100的转化百分比(转化百分比FIOP)被计算为由变体形成的产物的转化百分比相对于由SEQ ID NO:100产生的转化百分比，并在下表中示出。转化百分比通过将如通过HPLC分析观察到的产物峰的面积除以底物、产物和杂质/副产物峰的面积之和来定量。

在本申请中引用的所有出版物、专利、专利申请和其他文件为了所有目的特此通过引用以其整体并入，其程度如同每个单独的出版物、专利、专利申请或其他文件被单独地指明为了所有目的通过引用并入。

虽然已经说明和描述了多个具体的实施方案，但是将理解可以进行各种改变，而不偏离本发明的精神和范围。

本发明还提供以下项目：

1.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:2、4、12、24、40、56、70、82、100、108、110、116、136、142、154和160至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同。

2.如项目1所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶包含SEQID NO:2、4、12、24、40、56、70、82、108、110、116、136、142、154或160。

3.如项目1所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶包含与表5.1、表5.2、表6.1、表6.2、表6.3、表6.4、表6.5、表6.6、表6.7、表7.1、表8.1、表9.1、表11.1、表12.1、表13.1、表14.1、表15.1、表17.1、表18.1、表19.1、表20.1、表22.1、表23.1和/或表23.2中列出的至少一种序列至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的序列。

4.如项目1所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶包含表5.1、表5.2、表6.1、表6.2、表6.3、表6.4、表6.5、表6.6、表6.7、表7.1、表8.1、表9.1、表11.1、表12.1、表13.1、表14.1、表15.1、表17.1、表18.1、表19.1、表20.1、表22.1、表23.1和/或表23.2中列出的序列。

5.如项目1-4中任一项所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶包含组氨酸标签。

6.如项目5所述的工程化青霉素G酰化酶，其中所述组氨酸标签存在于所述工程化青霉素G酰化酶的C-末端。

7.如项目6所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶包含选自SEQ ID NO:100、110和142的多肽序列。

8.一种工程化多核苷酸序列，所述工程化多核苷酸序列编码如项目1-7中任一项所述的工程化青霉素G酰化酶。

9.如项目8所述的工程化多核苷酸序列，其中所述工程化多核苷酸序列包含与SEQID NO:1、11、23、39、55、69、81、99、107、109、115、135、141、153和/或159至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同的多核苷酸序列。

10.一种载体，所述载体包含如项目8和/或项目9所述的工程化多核苷酸序列。

11.如项目10所述的载体，还包含至少一种控制序列。

12.一种宿主细胞，所述宿主细胞包含如项目10和/或项目11所述的载体。

13.一种用于产生酰化胰岛素的方法，所述方法包括：提供如项目1-7中任一项所述的工程化青霉素G酰化酶和胰岛素；将所述工程化青霉素G酰化酶和所述胰岛素暴露在使得所述工程化青霉素G酰化酶将所述胰岛素酰化的条件下，从而产生酰化胰岛素。

14.如项目13所述的方法，其中所述酰化在苯乙酸甲酯的存在下进行。

15.如项目13所述的方法，其中所述酰化发生在所述胰岛素的位置A1、B1和/或B29中的任何位置处。

16.如项目14所述的方法，其中所述酰化发生在所述胰岛素的位置A1、B1和/或B29中的任何位置处。

17.如项目13或项目14所述的方法，其中所述酰化发生在所述胰岛素的位置A1处。

18.如项目13或项目14所述的方法，其中所述酰化发生在所述胰岛素的位置B1处。

19.如项目13或项目14所述的方法，其中所述酰化发生在所述胰岛素的位置B29处。

20.如项目13或项目14所述的方法，其中所述酰化发生在所述胰岛素的位置A1、B1和B29处。

21.如项目13或项目14所述的方法，其中与SEQ ID NO:2、4、12、24、40、56、70、82、100、108、110、116、136、142、154和/或160的多肽产生的酰化胰岛素相比，所述工程化青霉素G酰化酶产生多了大于90％的酰化胰岛素。

22.一种组合物，所述组合物包含根据项目13-21中任一项所述的方法产生的酰化胰岛素。

Claims

1.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为M71Q、R256L和T443D；或者所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为M71Q、R256L和T443D以及选自S67A、Q134H、N185D、K390L、K436G、S619W、Q626M/E、E707K和K723D的1-5个氨基酸残基差异。

2.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为S67A、M71Q、R256L、T443D、S619W和选自T32V、G54A/S、Q112D、K128Q、T131D/E/N、N185D、L225T、Q233A/D、D334P、D252C、S386G、G415H、N444S、E482Q/M/Y/I/T/L、D484T/L、P496A/T/R/N、Q556G、L557P/S/Q/R/V/M、Y616D/N/G/A、S639G/A/E/D、S704T/A、D709E、S740A和R748S的1-6个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

3.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为S67A、M71Q、R256L、S386G、T443D、S619W和选自T27Y、A28V/R、Y52L、L55I、G74D、Q112D、T131E、S150A、L175H、N185D、Q233R、H348N、A362R、P366G/S、W370K、T374S、Q380F、G415H、N444G、H472A、P513S、K547Q、Y616A、D623V/L、S704A和K723D的1-9个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

4.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为S67A、M71Q、R256L、S386G、T443D、S619W、D623L和选自F57H/C、Q112D/L、D130E、T131E/D、Q157S、L225T、A255G/D、P366S、K369D、K390Q/A/S、K436G、D484T、T491S、L557V/P、E561P、Y616T、S639T、S675E、S704A、I708V、D709E、K723D和S740A的1-5个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

5.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为S67A、M71Q、R256L、S386G、T443D、S619W和选自L55I、G74D、K128W、T129W、N185E、G202A、Y253S、F254W/K、A279P、N333S/A、H348D/N、A349E、K352T、A362V、P364L、K369C、R373K、Q380P、T384P/R、G415H、N440L/Y、N444S、N457M/T、D518R、H546L、Q556G、L557G、Q559H、T560G、Y616R、K682A/G、D709E和K723E的1-7个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

6.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为S67A、M71Q、R256L、S386G、T443D、S619W、D623L和选自T27S、F57H/C/V、A160C、R373I、T379S和S704A的1个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

7.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为F57C、S67A、M71Q、R256L、S386G、T443D、S619W、D623L和选自A28V、V56L、Q157S、A160T、P249A、F254H、A255G、R316H、N333A、A362V、K369D、R373N、T384E、K390Q/A、N444S、N457T、A466M、L557G、T560G、E561P、Y616T、S675E和D709E的1-6个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

8.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够将胰岛素酰化，其中所述工程化青霉素G酰化酶的多肽序列与SEQ ID NO:24之间的氨基酸残基差异为F57C、S67A、M71Q、R256L、S386G、T443D、S619W、D623L和选自A28T、Q112D、P249A、F254H、A255G、R316H、N333A、H348N、A362V、K390Q、N444S、N457T、A466M、D484T、L557V/G、T560G、E561P、Y616T、S675E、S704A、D709E和K723D的1-6个氨基酸残基差异以及任选地存在于C-末端的组氨酸标签。

9.一种工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶的多肽序列是SEQ IDNO:100、40、56、82、110、136、142、154或160。

10.一种工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶的多肽序列是表9.1、表11.1、表12.1、表13.1、表17.1、表20.1、表23.1或表23.2中列出的序列。

11.如权利要求2-8中任一项所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶的多肽序列是表11.1、表12.1、表13.1、表17.1、表20.1、表23.1或表23.2中列出的序列。

12.如权利要求1-9中任一项所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶的多肽序列是选自SEQ ID NO:100、110或142的多肽序列。

13.如权利要求10所述的工程化青霉素G酰化酶，其中所述工程化青霉素G酰化酶的多肽序列是选自SEQ ID NO:100、110或142的多肽序列。

14.一种工程化多核苷酸，所述工程化多核苷酸编码如权利要求1-13中任一项所述的工程化青霉素G酰化酶。

15.如权利要求14所述的工程化多核苷酸，其中所述工程化多核苷酸的序列包含与SEQID NO:39、55、81、99、109、135、141、153或159相同的多核苷酸序列。

16.一种载体，所述载体包含如权利要求14所述的工程化多核苷酸的序列。

17.一种载体，所述载体包含如权利要求15所述的工程化多核苷酸的序列。

18.如权利要求16所述的载体，还包含至少一种控制序列。

19.如权利要求17所述的载体，还包含至少一种控制序列。

20.一种宿主细胞，所述宿主细胞包含如权利要求16所述的载体。

21.一种宿主细胞，所述宿主细胞包含如权利要求17所述的载体。

22.一种用于产生酰化胰岛素的方法，所述方法包括：提供如权利要求1-13中任一项所述的工程化青霉素G酰化酶和胰岛素；将所述工程化青霉素G酰化酶和所述胰岛素暴露在使得所述工程化青霉素G酰化酶将所述胰岛素酰化的条件下，从而产生酰化胰岛素。

23.如权利要求22所述的方法，其中所述酰化在苯乙酸甲酯的存在下进行。