CN107531762A

CN107531762A - 青霉素g酰化酶

Info

Publication number: CN107531762A
Application number: CN201680026529.8A
Authority: CN
Inventors: 高塔米·班纳吉; 杨劼; 张希云; 埃里卡·M·米尔泽克; 美利莎·安·梅奥; 斯蒂芬·詹纳
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2015-05-07
Filing date: 2016-05-06
Publication date: 2018-01-02
Also published as: CA2983620A1; US20160326508A1; US10400231B2; US20190345474A1; US20180201919A1; US10781436B2; JP6755886B2; IL255245A0; EP3292136A4; US11180747B2; EP3292136B1; AU2016258091B2; US20200385699A1; DK3292136T3; IL255245B; MX2017014213A; US9944916B2; JP2018515089A; SG11201708356PA; KR20180004169A

Abstract

本公开内容涉及具有改进的性质的工程化青霉素G酰化酶(PGA)、编码该酶的多核苷酸、包括该酶的组合物以及使用该酶的方法。

Description

青霉素G酰化酶

本申请要求于2015年5月7日递交的美国临时专利申请序列号62/158,118的优先权，出于所有目的将其通过引用全文并入本文。

对序列表、表格或计算机程序的引用

根据37 C.F.R.§1.821，以计算机可读形式(CRF)以文件名CX2-149WO1_ST25.txt通过EFS-Web与此同时递交的序列表通过引用并入本文。序列表的电子副本建立于2016年4月28日，文件大小为88千字节。

发明领域

本发明提供了工程化青霉素G酰化酶(PGA)、编码该酶的多核苷酸、包含该酶的组合物以及使用该工程化PGA酶的方法。

发明背景

青霉素G酰化酶(PGA)(青霉素酰胺酶，EC 3.5.1.11)催化青霉素G(苄基青霉素)侧链的酰胺键的裂解。该酶在商业上被用于制造6-氨基-青霉烷酸(6-APA)和苯基乙酸(PAA)。6-APA是工业生产半合成的β-内酰胺抗生素例如阿莫西林、氨苄青霉素和头孢氨苄的关键化合物。天然存在的PGA酶在商业过程中显示出不稳定性，需要固定在固体基底上以用于商业应用。PGA已经被共价键接到各种支持物上，并且PGA固定化系统已经被报道作为合成纯光学异构体的有用的工具。但是，附接到固体表面导致受损的酶特性，例如降低的活性和/或选择性和对溶质接触的限制。此外，尽管附接到固体基底允许捕获酶和在另外的加工循环中的再次使用，酶的稳定性使得此类应用受到限制。PGA酶促催化青霉素G形成6-APA是配向性(regiospecific)(它不裂解内酰胺酰胺键)和立体特异性的。生产6-APA可能构成药品生产中酶促催化的最大利用。PGA与苯乙酰基部分相关的酶活性允许大量的伯胺以及醇的苯乙酰基衍生物的立体特异性水解。

发明概述

本发明提供了能够从胰岛素去除A1/B1/B29三-乙酸苯酯保护基团以产生游离胰岛素的工程化青霉素G酰化酶，其中所述青霉素G酰化酶与SEQ ID NO：2、4、6、8、10和/或12至少约85％、约86％、约87％、约88％、约89％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或更多地相同。在一些实施方案中，本发明提供了能够从胰岛素去除A1/B1/B29三-乙酸苯酯保护基团以产生游离胰岛素的工程化青霉素G酰化酶，其中所述青霉素G酰化酶与SEQ ID NO：2、4、6、8、10和/或12至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同。在一些另外的实施方案中，本发明提供了能够从胰岛素去除A1/B1/B29三-乙酸苯酯保护基团以产生游离胰岛素的工程化青霉素G酰化酶，其中所述青霉素G酰化酶包括SEQ ID NO：2、4、6、8、10和/或12。在一些另外的实施方案中，青霉素G酰化酶包含表5.1、表6.2和/或表6.3中提供的至少一个突变。

本发明还提供了由与选自SEQ ID NO：3、5、7、9和11的序列具有至少约85％、约86％、约87％、约88％、约89％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或更高序列同一性的多核苷酸序列编码的青霉素G酰化酶。

在一些实施方案中，青霉素G酰化酶由与选自SEQ ID NO：3、5、7、9和11的序列具有至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高序列同一性的多核苷酸序列编码。在一些实施方案中，青霉素G酰化酶由选自SEQ ID NO：3、5、7、9和11的多核苷酸序列编码。本发明还提供了包含本文提供的多核苷酸序列(例如，SEQ ID NO：3、5、7、9和/或11)的载体。本发明还提供了包含本文提供的载体(例如，包含SEQ ID NO：3、5、7、9和/或11的多核苷酸序列的载体)的宿主细胞。

本发明还提供了用于生产游离胰岛素的方法，所述方法包括：i)提供至少一种本文提供的工程化青霉素G酰化酶，和包含A1/B1/B29三-乙酸苯酯保护基团的胰岛素；和ii)在使得工程化青霉素G酰化酶去除A1/B1/B29三-乙酸苯酯保护基团并生产游离胰岛素的条件下，将工程化青霉素G酰化酶暴露于包含A1/B1/B29三-乙酸苯酯保护基团的胰岛素。在所述方法的一些实施方案中，青霉素G酰化酶与SEQ ID NO：2、4、6、8、10和/或12至少约85％、约86％、约87％、约88％、约89％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或更多地相同。在所述方法的一些实施方案中，青霉素G酰化酶与SEQ ID NO：2、4、6、8、10和/或12至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同。在所述方法的一些另外的实施方案中，青霉素G酰化酶包括SEQ ID NO：2、4、6、8、10和/或12。在一些实施方案中，工程化青霉素G酰化酶生产多于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的游离胰岛素。本发明还提供了包含根据本文提供的方法生产的游离胰岛素的组合物。

附图说明

图1提供了示出用变体1观察到的底物抑制活性的图。

图2提供了示出使用7个变体PGA产生的游离胰岛素的量的图。

图3提供了示出使用3个变体PGA产生的游离胰岛素的收率％的图。

图4提供了示出在反应中在存在DMSO的情况下，使用3个变体PGA产生的游离胰岛素的收率％的图。

具体实施方式

本发明提供了能够将青霉素裂解为苯乙酸和6-氨基青霉烷酸(6-APA)的工程化青霉素G酰化酶(PGA)，6-氨基青霉烷酸是合成各种各样的β-内酰胺抗生素的关键中间体。特别地，本发明提供了能够去除A1/B1/B29三-乙酸苯酯保护基团以释放游离胰岛素的工程化PGA。

通常，天然存在的PGA是包括α亚基和β亚基的异二聚体酶。野生型PGA天然地被合成为前体原PGA(pre-pro-PGA)多肽，包含介导易位至周质的N-末端信号肽和连接α亚基的C-末端至β亚基的N-末端的接头区域。蛋白水解处理产生成熟的异二聚体酶。分子间接头区域还可以起促进酶的正确折叠的功能。本文描述的PGA基于来自Kluyvera citrophila的PGA，其中引入多种修饰以产生如下文详细描述的提高的酶学性质。

对于本文提供的说明，单数的使用包括复数(反之亦然)，除非另有明确说明。例如，单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物,除非上下文另有明确指示。类似地，“包含(comprise、comprises、comprising)”、“包括(include、includes和including)”是可互换的，而不意图是限制性的。还应当理解，在各种实施方案的描述中使用术语“包含(comprising)”的情况下，本领域技术人员将理解，在一些特定情况下，可以使用“基本上由...组成”或“由...组成”的语言可选择地描述实施方案。

上述一般描述(包括附图)，以及以下详细描述仅仅是示例性和说明性的，并且不限制本公开内容。此外，本文使用的章节标题仅用于组织目的，并且不被解释为限制所描述的主题。

定义

如本文使用的，以下的术语意图具有以下意义。

参考本公开内容，本说明书中使用的技术和科学术语将具有本领域普通技术人员通常理解的含义，除非另有具体定义。因此，以下术语旨在具有以下含义：本文提及的全部专利和出版物，包括这些专利和出版物中公开的全部序列被明确地通过引用并入。除非本文另外定义，本发明的实践包括分子生物学、发酵、微生物学和相关领域中常用的常规方法，这些方法是本领域技术人员已知的。除非本文中另有定义，本文使用的所有技术和科学术语具有与本发明所属领域内普通技术人员通常的理解相同含义。尽管与本文描述的那些方法和材料相似或等效的任何方法和材料都可用于实践或测试本发明，但描述了优选的方法和材料。的确，不意图本发明受限于本文描述的特定方法学、方案和试剂，因为这些可以根据使用它们的环境变化。本文提供的标题不意图限制本发明的多个方面或实施方案。

但是，为了便于理解本发明，以下定义了许多术语。数值范围包括定义该范围的数字。因此，本文公开的每个数值范围意图包括落入该较宽数值范围的每个较窄的数值范围，犹如本文明确记载这些较窄的数值范围一样。还意图本文公开的每个最大(或最小)数值限制包括每个更低(或更高)的数值限值，就像本文明确记载这些更低(或更高)的数值限值一样。

如本文使用的，术语“包含(comprising)”及其同源词以其包容性的含义使用(即相当于术语“包括(including)”及其对应的同源词)。

如在本文和在所附的权利要求中所使用的，单数的“一(a)”、“一(an)”及“该(the)”包括复数指代，除非上下文另外清楚地规定。因此，例如对“宿主细胞(host cell)”的指代包括多个此类宿主细胞。

除非另外说明，分别地,核酸以5’至3’的方向从左向右记载，而氨基酸序列以氨基至羧基的方向从左向右记载。

本文提供的标题不是对可以通过整体参考说明书而获得的本发明的各个方面或实施方案的限制。因此，以下定义的术语通过整体参考说明书更充分地定义。

如本文使用的，不管长度或翻译后修饰(例如，糖基化、磷酸化、脂质化、豆蔻酰化(myristilation)、泛素化等),术语“蛋白”、“多肽”和“肽”在本文中可互换使用，以指由酰胺键共价连接的至少2个氨基酸的聚合物。D-氨基酸和L-氨基酸，以及D-氨基酸和L-氨基酸的混合物包括在此定义内。

如本文使用的，“多核苷酸”和“核酸”指共价连接在一起的2个或更多个核苷。多核苷酸可以完全由核糖核苷(即RNA)组成、完全由2’脱氧核糖核苷(即DNA)或核糖核苷和2’脱氧核糖核苷的混合物组成。虽然核苷将通常经由标准磷酸二酯连接连接到一起，多核苷酸可以包括一种或更多种非标准连接。多核苷酸可以是单链的或双链的，或者可以包括单链区和双链区二者。此外，尽管多核苷酸将通常包括天然存在的编码碱基(即腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶)，它还可以包括一种或更多种修饰的和/或合成的碱基(例如肌酐、黄嘌呤、次黄嘌呤等)。优选地，此类修饰的或合成的碱基将是编码碱基。

如本文使用的，“杂交严格性”指核酸杂交时的杂交条件，诸如洗涤条件。通常，杂交反应在较低严格性的条件下进行，随后是不同但严格性更高的洗涤。术语“中度严格性杂交”是指这样的允许靶DNA与互补核酸结合的条件,所述互补核酸与靶DNA具有约60％同一性、优选地约75％同一性、约85％同一性；与靶多核苷酸具有大于约90％同一性。示例性的中等严格条件是等同于在50％甲酰胺、5×Denhart's溶液、5×SSPE、0.2％SDS中在42℃杂交、随后在0.2×SSPE、0.2％SDS、在42℃下洗涤的条件。“高严格杂交”通常指，在针对特定多核苷酸序列的溶液条件下测定的距热解链温度T_m约10℃或更少的条件。在一些实施方案中，高严格条件指仅允许在65℃的0.018M NaCl中形成稳定杂合体的那些核酸序列杂交的条件(即如本文设想的,如果杂合体在65℃的0.018M NaCl中不稳定，它在高严格条件下将不稳定)。可以例如通过在相当于在42℃下、50％甲酰胺、5×Denhart's溶液、5×SSPE、0.2％SDS的条件下杂交，然后在65℃下、0.1×SSPE和0.1％SDS中洗涤来提供高严格条件。另一个高严格条件是在相当于在65℃、在含有0.1％(w：v)SDS的5X SSC的条件下杂交，并在65℃、含有0.1％SDS的0.1×SSC洗涤。其他高严格杂交条件以及中等严格条件是本领域技术人员已知的。

如本文使用的，“编码序列”指编码蛋白质的氨基酸序列的核酸部分(例如基因)。

如本文中使用的，“密码子优化的”指，编码蛋白的多核苷酸的密码子向特定生物体中优选使用的那些密码子的改变，使得编码的蛋白在感兴趣的生物体中高效地表达。在一些实施方案中，编码PGA酶的多核苷酸可以被密码子优化以从所选择的用于表达的宿主生物体最佳生产。虽然遗传密码是简并的，因为大多数氨基酸由几个被称为“同义(synonym)”或“同义突变(synonymous)”密码子的密码子表示，但公知的是特定生物体的密码子使用是非随机的，并且偏向于特定的密码子三联体。这种密码子使用偏好对于给定基因、具有共同功能或祖先来源的基因、高表达蛋白与低拷贝数蛋白、以及生物体的基因组的密集蛋白编码区可能更高。在一些实施方案中，编码PGA酶的多核苷酸可以被密码子优化以从被选择用于表达的宿主生物体最佳生产。

如本文中使用的，“优选的、最佳的、高密码子使用偏向密码子”可以互换地指在蛋白编码区中的使用频率高于编码相同氨基酸的其他密码子的密码子。优选的密码子可根据单个基因、一组具有共同功能或来源的基因、高表达基因、整个生物体的密集蛋白编码区中的密码子频率、相关生物体的密集蛋白编码区域中的密码子频率或其组合来确定。其频率随着基因表达的水平而增加的密码子通常是用于表达的最佳密码子。用来确定特定生物体中密码子的频率(例如密码子使用、相关同义密码子使用)和密码子偏好的多种方法是已知的，包括多变量分析，例如使用对基因中使用的密码子的聚类分析或相应分析(correspondence analysis)和有效数目(参见例如，GCG Codon Preference,GeneticsComputer Group Wisconsin Package；Codon W,John Peden,University of Nottingham；McInerney,Bioinform.,14：372-73[1998]；Stenico等人,Nucleic Acids Res.,222：437-46[1994]；和Wright,Gene 87：23-29[1990])。密码子使用表可用于越来越多的生物体(参见例如Wada等人,Nucleic Acids Res.,20：2111-2118；[1992]；Nakamura等人,Nucl.AcidsRes.,28：292[2000]；Duret,等人,同上；Henaut和Danchin,“Escherichia coli andSalmonella,”Neidhardt等人(eds.),ASM Press,Washington D.C.,[1996],p.2047-2066。用于获得密码子使用的数据源可依赖于能够编码蛋白的任何可获得的核苷酸序列。这些数据集包括实际已知编码被表达的蛋白(例如完整的蛋白编码序列-CDS)、被表达的序列标签(ESTS)或基因组序列的预测编码区)的核酸序列(参见例如Uberbacher,Meth.Enzymol.,266：259-281[1996]；Tiwari等人,Comput.Appl.Biosci.,13：263-270[1997])。

如本文中使用的，在本文中“控制序列”被定义为包括对本公开内容的多核苷酸和/或多肽的表达是必需或有利的所有组分。每个控制序列对于感兴趣的多核苷酸可以是天然的或外源的。此类控制序列包括但不限于前导序列、多聚腺苷酸化序列、前体肽序列、启动子、信号肽序列和转录终止子。

如本文中使用的，“可操作地连接”在本文中被定义为控制序列被适当地置于相对于感兴趣的多核苷酸序列的某一位置(即,处于功能性关系中)的构型，以便控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达。

如本文中使用的，“启动子序列”是指被宿主细胞识别用于表达感兴趣的多核苷酸(诸如编码序列)的核酸序列。控制序列可以包括合适的启动子序列。启动子序列含有介导感兴趣的多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示转录活性的任何核酸序列，包括突变体、截短的和杂合的启动子，并且可以从编码对于宿主细胞而言是同源或异源的胞外多肽或胞内多肽的基因获得。

如本文中使用的，“天然存在的”或“野生型”指自然界中发现的形式。例如，天然存在或野生型多肽或多核苷酸序列是存在于可以从自然界的来源分离并且没有被人工操作有意修饰的生物体中的序列。

如本文中使用的，当在本公开内容中指代例如细胞、核酸或多肽使用时，“非天然存在的”、“工程化的”和“重组的”指代自然界中原本不存在的材料,或对应于材料的自然或天然形式,其已被修饰,修饰的方式使得其在自然界中原本不存在。在一些实施方案中，材料虽与天然存在的材料相同，但产生自或衍生自合成的材料和/或通过使用重组技术操作产生。非限制性实例包括，除其他以外，重组细胞,所述重组细胞表达从细胞的天然(非重组)形式发现的基因或表达原本以不同水平表达的天然基因。

如本文中使用的，“序列同一性百分比”、“百分比同一性”和“百分比相同”指多核苷酸或多肽之间的比较，并且通过在比较窗上比较两个最佳比对序列来确定，其中与用于这两个序列的最佳比对的序列的参考序列相比，比较窗中的多核苷酸或多肽序列的部分可以包括添加或缺失(即缺口)。百分比如下计算，通过确定两个序列中出现相同的核酸碱基或氨基酸残基,或与缺口对齐的核酸碱基或氨基酸残基所在位置的数目，以产生匹配位置的数目，用匹配位置的数目除以比较窗中位置的总数，并将结果乘以100以得到序列同一性的百分比。确定最佳比对和百分比序列同一性使用BLAST和BLAST 2.0算法进行(参见例如,Altschul等人,J.Mol.Biol.215403-410[1990]；和Altschul等人,Nucl.Acids Res.3389-3402[1977])。用于进行BLAST分析的软件可通过国家生物技术信息中心(National Centerfor Biotechnology Information，NCBI)网站公开获得。

简而言之，BLAST分析包括先通过鉴定询问序列中长度为Win的短字(shortwords)鉴定高得分序列对(HSP)，所述长度为Win的短字在与数据库序列中的相同长度的字对齐时，匹配或满足某个正值的阈值得分T。T被称为相邻字分阈值(neighborhood wordscore threshold)(Altschul等人,同上)。这些初始的相邻字击中充当种子，用于开启搜索以发现包含它们的更长的HSP。然后，字击中沿着每个序列在两个方向上延伸，远至累积对齐得分可被增加的距离。对于核苷酸序列，使用参数M(对于一对匹配的残基的奖励得分；总是>0)和N(对于不匹配的残基的罚分；总是<0)计算累积得分。对于氨基酸序列，使用得分矩阵来计算累积得分。当累积对齐得分从其达到的最大值下降量X；由于一个或更多个负得分的残基对齐导致累积得分到达零或零以下时；或到达任一序列的末端时，字击中在每个方向上的延伸停止。BLAST算法参数W、T和X确定比对的灵敏度和速度。BLASTN程序(用于核苷酸序列)使用以下为默认项(default)：字长(W)为11、期望值(E)为10、M＝5、N＝-4和双链比较。对于氨基酸序列，BLASTP程序使用字长(W)3、期望值(E)10和BLOSUM62得分矩阵作为默认项(参见例如Henikoff和Henikoff Proc Natl Acad Sci USA 89：10915[1989])。

许多其他算法是可获得的和本领域已知的，这些算法在提供两个序列的百分比同一性方面与BLAST相似地运作。待比较的序列的最佳比对可以使用本领域已知的任何合适的方法进行(例如通过Smith和Waterman,Adv.Appl.Math.2：482[1981]的局部同源性算法；通过Needleman和Wunsch,J.Mol.Biol.48：443[1970]的同源性比对算法；通过Pearson andLipman,Proc.Natl.Acad.Sci.USA 85：2444[1988]搜索相似性的方法；和/或通过计算机实现这些算法[GCG Wisconsin软件包中的GAP、BESTFIT、FASTA和TFASTA]),或通过使用本领域通常已知的方法进行目视检查。此外，序列比对和百分比序列同一性的确定可以使用所提供的默认参数,采用GCG Wisconsin软件包(Accelrys,Madison WI)中的BESTFIT或GAP程序。

如本文中使用的，“大体同一性(substantial identity)”在至少20个残基位置的比较窗口上、通常在至少30个-50个残基窗口上，与参考序列相比，具有至少80％序列同一性、至少85％同一性和89％至95％序列同一性，更通常具有至少99％序列同一性的多核苷酸或多肽序列，其中序列同一性的百分比通过在比较窗口上比较参考序列和包含总计为参考序列的20％或更少的缺失或添加的序列来计算。在应用于多肽的具体实施方案中，术语“大体同一性”指当诸如通过程序GAP或BESTFIT使用默认缺口权重进行最佳比对时，两个多肽序列共享至少80％的序列同一性，优选地至少89％的序列同一性、至少95％的序列同一性或更高的序列同一性(例如99％的序列同一性)。在一些优选实施方案中，不相同的残基位置因保守氨基酸取代而不同。

如本文中使用的，“参考序列”指的是另一序列被与之比较的特定序列。参考序列可以是更大的序列的子集；例如，全长基因或多肽序列的区段。通常，参考序列为至少20个核苷酸或氨基酸残基的长度、至少25个残基的长度、至少50个残基的长度，或为核酸或多肽的全长。由于两个多核苷酸或多肽可以各自(1)包含两个序列之间相似的序列(即完整序列的一部分)，和(2)还可以包含两个序列之间不同的序列，因此两个(或更多个)多核苷酸或多肽之间的序列比较通常通过在比较窗口上比较两个多核苷酸的序列来鉴定和比较具有序列相似性的局部区域来进行。术语“参考序列”不意图受限于野生型序列，并且可以包括工程化序列或改变的序列。例如，在一些实施方案中，“参考序列”可以是之前工程化或改变的氨基酸序列。

如本文中使用的，“比较窗口”指至少约20个连续核苷酸位置或氨基酸残基的概念性区段(conceptual segment)，其中序列可以与至少20个连续核苷酸或氨基酸的参考序列比较，并且其中与用于两个序列最佳比对的参考序列(其不包含添加或缺失)相比，序列在比较窗口中的部分可以包含20％或更少的添加或缺失(即缺口)。比较窗口可以长于20个连续残基，并且包括任选地30个、40个、50个、100个或更多个残基的窗口。

如本文中使用的，当在特定氨基酸或多核苷酸序列的编号的上下文中使用时，“对应于”、“关于(reference to)”和“相对于”指当把给定氨基酸或多核苷酸序列与特定参考序列相比时，该参考序列的残基的编号。换句话说，给定聚合物的残基编号或残基位置针对参考序列指定，而不是通过残基在给定氨基酸或多核苷酸序列内的残基的实际编号位置指定。例如，通过引入缺口以优化两个序列之间的残基匹配来把给定氨基酸序列诸如工程化PGA的氨基酸序列与参考序列比对。在这些情况下，尽管存在缺口，但是给定氨基酸或多核苷酸序列中残基的编号相对于其被与之比对的参考序列进行。如本文中使用的，对残基位置的指代，诸如下文进一步描述的“Xn”，应被理解为指“对应于......的残基”，除非另有明确说明。因此，例如，“X94”指多肽序列中94位的任何氨基酸。

如本文中使用的，“改进的酶特性”指与参考PGA相比表现出任何酶特性的改进的PGA。对于本文描述的工程化多肽，比较通常针对野生型PGA酶，尽管在一些实施方案中，参考PGA可以是另一个改进的工程化PGA。需要改进的酶特性包括但不限于酶活性(其可以用底物在指定量的PGA在指定反应时间的转化的百分比表示)、热稳定性、溶剂稳定性、pH活性谱、辅因子需求、对抑制剂的耐受性(例如产物抑制)、立体专一性和立体选择性(包括对映异构体选择性)。

如本文中使用的，“增加的酶促活性”指工程化PGA多肽的改进特性，其可以通过与参考PGA酶相比的比活性(例如，产生的产量/时间/重量蛋白)的增加或底物转化为产物的百分比(例如使用特定量的PGA，在指定时间段内起始量的底物转化为产物的百分比转化率)的增加来表示。在实施例中提供了确定酶活性的示例性方法。与酶活性相关的任何特性都可以被影响，包括经典的酶特性K_m、V_max或k_cat，其变化可导致酶活性的增加。酶活性的改进可以从对应的野生型PGA酶的酶活性的约1.5倍至比天然存在的PGA或所述PGA多肽从其衍生的另一个工程化PGA的酶活性高多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍或更多。在具体实施方案中，工程化PGA酶显示比亲本PGA酶高1.5至50倍、1.5至100倍的范围内的提高的酶活性。技术人员应理解，任何酶的活性都是受扩散限制的，使得催化转化速率不能超过底物包括任何需要的辅因子的扩散速率。扩散限值，或k_cat/K_m的理论最大值通常为约10⁸至10⁹(M^-1s^-1)。因此，PGA的酶活性的任何改进将具有与被PGA酶作用的底物的扩散速率相关的上限。PGA活性可以通过用于测量青霉素G裂解时乙酸苯酯的释放的任何一种标准测定测量，诸如滴定法(参见例如Simons和Gibson,Biotechnol.Tech.,13：365-367[1999])。在一些实施方案中，PGA活性可以通过使用6-硝基苯基乙酰氨基苯甲酸(NIPAB)测量，其裂解产物5-氨基-2-硝基-苯甲酸是分光光度法可测量的(λmax＝405nm)。如本文进一步详细描述的，使用特定的酶制剂、在设定条件下的特定测定和一种或更多种特定底物进行酶活性的比较。通常，当比较裂解物时，确定细胞的数目和被测定的蛋白的量，并且使用相同表达系统和相同宿主细胞以使由该宿主细胞产生并存在于裂解物中的酶的量的变化最小化。

如本文中使用的，“增加的酶活性”和“增加的活性”指与本文描述的参考酶相比，工程化酶的改进的特性，其可以通过比活性(例如，产生的产量/时间/重量蛋白)的增加或底物转化为产物的百分比(例如使用特定量的PGA，在指定时间段内起始量的底物转化为产物的百分比转化率)的增加来表示。与酶活性相关的任何特性都可以被影响，包括经典的酶特性K_m、V_max或k_cat，其变化可导致酶活性的增加。在一些实施方案中，本文提供的PGA酶通过从胰岛素的特定残基去除三-乙酸苯酯保护基团来释放胰岛素。如本文进一步详细描述地，使用特定的酶制剂、在设定条件下的特定测定和一种或更多种特定底物进行酶活性的比较。通常，当比较细胞裂解物中的酶时，确定细胞的数目和被测定的蛋白的量，并且使用相同表达系统和相同宿主细胞以使由该宿主细胞产生并存在于裂解物中的酶的量的变化最小化。

如本文中使用的，“转化”指将底物酶促转化成相应的产物。

如本文中使用的，“转化百分数”指在特定条件下在一段时间内转化成产物的底物的百分比。因此，例如，PGA多肽的“酶活性”或“活性”可以表示为底物到产物的“转化百分数”。

如本文中使用的，“化学选择性”指相对于一种产物相对于另一种产物在化学或酶促反应中的优先形成。

如本文中使用的，“热稳定性的(thermostable)”和“热稳定的(thermal stable)”可互换使用以指这样的多肽,其与未经处理的酶相比，当持续一段时间暴露于一组温度条件(例如40-80℃)(例如0.5-24小时)时抵制失活，因此在暴露于升高的温度后，保持一定水平的残余活性(例如多于60％至80％)。

如本文中使用的，“溶剂稳定的”指与未经处理的酶相比，多肽在暴露于不同浓度(例如5-99％)的溶剂(例如异丙醇、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯，乙酸丁酯、甲基叔丁基醚等)一段时间(例如0.5-24小时)后保持相似活性(例如，大于例如60％至80％)的能力。

如本文中使用的，“pH稳定”指与未处理的酶相比，暴露于高pH或低pH(例如4.5-6或8至12)一段时间(例如0.5-24小时)后保持相似活性(例如多于60％至80％)的PGA多肽。

如本文中使用的，“热稳定且溶剂稳定的”指既热稳定也溶剂稳定的PGA多肽。

如本文中使用的，“亲水性氨基酸或残基”指具有根据Eisenberg等人的标准化共有疏水性级别(normalized consensus hydrophobicity scale)表现出小于0的亲水性的侧链的氨基酸或残基(Eisenberg等人,J.Mol.Biol.,179：125-142,Feb.1984)。遗传编码的亲水性氨基酸包括L-Thr(T)、L-Ser(S)、L-His(H)、L-Glu(E)、L-Asn(N)、L-Gln(Q)、L-Asp(D)、L-Lys(K)和L-Arg(R)。

如本文中使用的，“酸性氨基酸或残基”指当氨基酸包含于肽或多肽内时，具有表现出小于约6的pK值的侧链的亲水性氨基酸或残基。由于失去氢离子，酸性氨基酸在生理pH通常具有带负电荷的侧链。遗传编码的酸性氨基酸包括L-Glu(E)和L-Asp(D)。

如本文中使用的，“碱性氨基酸或残基”指当氨基酸包含于肽或多肽内时，具有表现出大于约6的pK值的侧链的亲水性氨基酸或残基。由于与水合离子的缔合，碱性氨基酸通常在生理pH具有带正电荷的侧链。遗传编码的碱性氨基酸包括L-Arg(R)和L-Lys(K)。

如本文中使用的，“极性氨基酸或残基”指具有在生理pH不带电荷的侧链的亲水性氨基酸或残基，但所述侧链具有至少一个其中两个原子共用的电子对被一个原子更紧密地持有的键。遗传编码的极性氨基酸包括L-Asn(N)、L-Gln(Q)、L-Ser(S)和L-Thr(T)。

如本文中使用的，“疏水性氨基酸或残基”指具有根据Eisenberg等人的标准化共有疏水性级别表现出小于0的疏水性的侧链的氨基酸或残基(Eisenberg等人,J.Mol.Biol.,179：125-142,[1984])。遗传编码的疏水性氨基酸包括L-Pro(P)、L-Ile(I)、L-Phe(F)、L-Val(V)、L-Leu(L)、L-Trp(W)、L-Met(M)、L-Ala(A)和L-Tyr(Y)。

如本文中使用的，“芳族氨基酸或残基”指具有包括至少一个芳环或杂芳环的侧链的亲水性或疏水性氨基酸或残基。遗传编码的芳族氨基酸包括L-Phe(F)、L-Tyr(Y)和L-Trp(W)。尽管由于L-His(H)的杂芳基氮原子的pKa，它有时被归类为碱性残基或因为它的侧链包括杂芳环而被归类为芳族残基，在本文中组氨酸被归类为亲水性残基或“受限残基(constrained residue)”(参见下文)。

如本文中使用的，“受限氨基酸或残基”指具有受限制的几何学的氨基酸或残基。本文中，受限制的残基包括L-Pro(P)和L-His(H)。组氨酸具有受限制的几何学，因为它具有相对小的咪唑环。脯氨酸具有受限制的几何学，因为它也具有五元环。

如本文中使用的，“非极性氨基酸或残基”指具有在生理pH不带电荷的侧链的疏水性氨基酸或残基,并且所述侧链具有其中两个原子共有的电子对通常被两个原子的每一个等同地持有的键。遗传编码的非极性氨基酸包括L-Gly(G)、L-Leu(L)、L-Val(V)、L-Ile(I)、L-Met(M)和L-Ala(A)。

如本文中使用的，“脂族氨基酸或残基”指具有脂族烃侧链的疏水性氨基酸或残基。遗传编码的脂族氨基酸包括L-Ala(A)、L-Val(V)、L-Leu(L)和L-Ile(I)。

应注意，半胱氨酸(或“L-Cys”或“[C]”)之所以与众不同，是因为它可以与其他L-Cys(C)氨基酸或其他含巯基(sulfanyl)或巯基(sulfhydryl)氨基酸形成二硫键。“半胱氨酸样残基”包括半胱氨酸和含有可用于形成二硫键的巯基部分的其他氨基酸。L-Cys(C)(和具有含-SH侧链的其他氨基酸)以还原的游离-SH或氧化的二硫桥接形式存在于肽中的能力影响L-Cys(C)是否向肽贡献净的疏水性质或亲水性质。虽然根据Eisenberg的标准化共有疏水性级别(Eisenberg等人,1984,同上)，L-Cys(C)表现出0.29的疏水性，但是应理解，为了本公开内容的目的，L-Cys(C)被归入它自己的独特的组。

如本文中使用的，“小氨基酸或残基“指具有包括总计三个或更少个碳和/或杂原子(不包括α碳和氢)的侧链的氨基酸或残基。根据以上定义，小氨基酸或残基可以继续分类为脂族、非极性、极性或酸性小氨基酸或残基。遗传编码的小氨基酸包括L-Ala(A)、L-Val(V)、L-Cys(C)、L-Asn(N)、L-Ser(S)、L-Thr(T)和L-Asp(D)。

如本文中使用的，“含羟基的氨基酸或残基”指含有羟基(-OH)部分的氨基酸。遗传编码的含羟基的氨基酸包括L-Ser(S)、L-Thr(T)和L-Tyr(Y)。

如本文中使用的，“氨基酸差异”和“残基差异”指多肽序列的一个位置的氨基酸残基相对于参考序列中对应位置的氨基酸残基的差异。在本文中，氨基酸差异的位置通常被称为“Xn”，其中n指在残基差异所基于的参考序列中的相应位置。例如，“与SEQ ID NO：2相比，在位置X40的残基差异”指多肽在对应于SEQ ID NO：2的位置40的位置的氨基酸残基的变化。因此，如果SEQ ID NO：2的参考多肽在位置40具有组氨酸，那么“与SEQ ID NO：2相比，在位置X40的残基差异”指在多肽在对应于SEQ ID NO：2的位置40的位置的除组氨酸以外的任何残基的氨基酸置换。在本文的大多数情况下，一个位置上的特定氨基酸残基差异表示为“XnY”，其中如上所述“Xn”指定相应的位置，而“Y”是在工程化多肽中存在的氨基酸的单字母标识符(即与参考多肽不同的残基)。在一些情况下，本公开内容还提供由常规符号“AnB”表示的特定氨基酸差异，其中A是参考序列中的残基的单字母标识符，“n”是参考序列中残基位置的编号，而B是工程化多肽序列中残基取代的单字母标识符。在一些情况下，本公开内容的多肽可以包括相对于参考序列的一个或更多个氨基酸残基差异，所述氨基酸残基差异由相对于参考序列存在残基差异的指定位置的列表指示。在其中多于一个氨基酸可以被用于多肽的指定残基位置的一些实施方案中，可以使用的多种氨基酸残基由“/”隔开(例如X192A/G)。本公开内容包括包含一个或更多个氨基酸差异的工程化多肽序列，所述一个或更多个氨基酸差异包括保守氨基酸置换和非保守氨基酸置换之一/或二者。包括于本公开内容的序列表中的特定重组碳酸酐酶多肽的氨基酸序列包括起始甲硫氨酸(M)残基(即M代表残基位置1)。然而，技术人员理解，该起始甲硫氨酸残基可以通过例如宿主细胞中或体外翻译系统中的生物加工机制去除，以产生缺乏起始甲硫氨酸残基但以其他方式保留酶的性质的成熟蛋白。因此，如本文中使用的术语“相对于SEQ ID NO：2在位置Xn的氨基酸残基差异”可以指位置“Xn”或已经被加工以缺少起始甲硫氨酸的参考序列的对应位置(例如，位置(X-1)n)。

如本文中使用的，词组“保守氨基酸置换”指具有相似侧链的残基的可互换性，并因此通常包括用相同或相似的特定氨基酸类别的氨基酸置换多肽中的氨基酸。以举例且非限制性的方式，在一些实施方案中，分别地，具有脂族侧链的氨基酸被另一种脂族氨基酸(例如丙氨酸、缬氨酸、亮氨酸和异亮氨酸)置换；具有羟基侧链的氨基酸被具有羟基侧链的另一种氨基酸(例如丝氨酸和苏氨酸)置换；具有芳族侧链的氨基酸被具有芳族侧链的另一种氨基酸(例如苯丙氨酸、酪氨酸、色氨酸和组氨酸)置换；具有碱性侧链的氨基酸被具有碱性侧链的另一种氨基酸(例如赖氨酸和精氨酸)置换；具有酸性侧链的氨基酸被具有酸性侧链的另一种氨基酸(例如天冬氨酸或谷氨酸)置换；和/或疏水性或亲水性氨基酸被另一种疏水性或亲水性氨基酸替换。示例性保守置换在表1中提供。

如本文中使用的，措辞“非保守置换”指用具有显著不同侧链性质的氨基酸置换多肽中的氨基酸。非保守置换可以使用特定的组之间而非特定的组之内的氨基酸，并影响(a)取代区域中肽骨架的结构(例如，用甘氨酸取代脯氨酸)，(b)电荷或疏水性，或(c)侧链的体积。作为实例而非限制，示例性非保守置换可以是用碱性或脂族氨基酸置换酸性氨基酸；用小氨基酸置换芳族氨基酸；和用疏水性氨基酸置换亲水性氨基酸。

如本文中使用的，“缺失”指通过从参考多肽中去除一个或更多个氨基酸来修饰多肽。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸或20个或更多个氨基酸、多达构成多肽的氨基酸总数的10％或多达构成参考酶的氨基酸总数的20％，同时保留酶活性和/或保留工程化酶的改进特性。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中，缺失可以构成连续的区段，或者可以是不连续的。

如本文中使用的，“插入”指通过向参考多肽添加一个或更多个氨基酸来修饰多肽。在一些实施方案中，改进的工程化PGA酶包括向天然存在的PGA多肽插入一个或更多个氨基酸，以及向工程化PGA多肽插入一个或更多个氨基酸。插入可以在多肽的内部部分，或在羧基或氨基末端。如本文使用的，插入包括本领域已知的融合蛋白。插入可以是连续区段的氨基酸，或由天然存在的多肽中的一个或更多个氨基酸隔开。

术语“氨基酸置换集”或“置换集”指与参考序列相比，多肽序列中的一组氨基酸置换。置换集可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个氨基酸置换。在一些实施方案中，置换集指存在于实施例中提供的表中所列的变体PGA的任一个中的一组氨基酸置换。

如本文中使用的，“片段”指具有氨基末端和/或羧基末端缺失，但其中残余的氨基酸序列与序列中的对应位置相同的多肽。片段可以通常具有全长PGA多肽，例如SEQ ID NO：2的多肽的约80％、约90％、约95％、约98％或约99％。在一些实施方案中，片段是“有生物活性的”(即它表现出与全长序列相同的酶活性)。

如本文中使用的，“分离的多肽”指与天然伴随该多肽的其他污染物，例如蛋白、脂质和多核苷酸基本上分离的多肽。该术语包括已经从其天然存在的环境或表达系统(例如宿主细胞或体外合成)中取出或纯化的多肽。改进的PGA酶可以存在于细胞内、存在于细胞培养基中，或以各种形式制备，诸如裂解物或分离的制品。如此，在一些实施方案中，本公开内容的工程化PGA多肽可以是分离的多肽。

如本文中使用的，“基本纯的多肽”是指其中多肽种类是存在的主导种类的组合物(即，以摩尔或重量计，其比组合物中的任何其它单独大分子种类更丰富)，并且当目标种类以摩尔或％重量计构成存在的大分子种类的至少约50％时，该组合物一般为基本纯的组合物。通常，以存在于组合物中的所有大分子物质的摩尔或％重量计，基本纯的工程化PGA多肽组合物占约60％或更多、约70％或更多、约80％或更多、约90％或更多、约91％或更多、约92％或更多、约93％或更多、约94％或更多、约95％或更多、约96％或更多、约97％或更多、约98％或更多、或约99％。溶剂种类、小分子(<500道尔顿)和元素离子种类不被认为是大分子物质。在一些实施方案中，分离的改进的PGA多肽是基本纯的多肽组合物。

如本文中当关于核酸或多肽使用时，术语“异源的”指正常情况下生物体(例如，野生型生物体)不表达和分泌的序列。在一些实施方案中，该术语包括包含两个或更多个子序列的序列，发现所述子序列彼此之间的关系与在自然界中正常存在的关系不同，或所述序列被重组工程化，使得其表达水平或与细胞中的其他核酸或其他分子的物理关系或结构不是正常存在于自然界中的。例如，异源的核酸通常被重组地产生，具有以在自然界中未发现的方式排列的来自不相关的基因的两个或更多个序列(例如，本发明的核酸开放阅读框(ORF)可操作地连接到被插入到表达盒例如载体中的启动子序列)。在一些实施方案中，“异源多核苷酸”指通过实验室技术被引入宿主细胞的任何多核苷酸，并且包括从宿主细胞中取出、进行实验室操作然后重新引入宿主细胞的多核苷酸。

如本文中使用的，“合适的反应条件”指生物催化反应溶液中的那些条件(例如，酶载量、底物载量、辅因子载量、温度、pH、缓冲剂、共溶剂等的范围)，在该条件下本公开内容的PGA多肽能够通过去除三-乙酸苯酯保护基团来释放游离胰岛素。在本公开内容中提供并通过实施例说明了示例性的“合适的反应条件”。

如本文用在诸如“化合物载量”、“酶载量”或“辅因子载量”中的“载量”指在反应开始时反应混合物中组分的浓度或量。

如本文中使用的，在生物催化剂介导的方法的背景下，“底物”指由生物催化剂作用的化合物或分子。

如本文中使用的，在生物催化剂介导的方法的背景下，“产物”指由生物催化剂的作用产生的化合物或分子。

如本文中使用的，本文中使用的“平衡”指在化学或酶促反应中产生稳定状态浓度的化学物质的过程(例如两种物质A和B的相互转化)，包括立体异构体的相互转化，如通过该化学或酶促反应的正向速率常数和逆向速率常数确定的。

如本文中使用的，“酰化酶”和“酰基转移酶”互换使用以指能够从供体转移酰基至受体以形成酯或酰胺的酶。酰化酶介导引起酯或酰胺水解的逆反应。

如本文中使用的，“青霉素G”和“苄青霉素”指也被称为(2S,5R,6R)-3,3-二甲基-7-氧杂-6-(2-苯基乙酰氨基)-4-硫杂-1-氮杂双环[3.2.0]庚烷-2-羧酸(C₁₆H₁₈N₂O₄S)的抗生素。它主要有效针对革兰氏阳性生物体，但是一些革兰氏阴性生物体也对它敏感。

如本文中使用的，“青霉素G酰化酶”和“PGA”可互换使用以指具有介导青霉素G(苄青霉素)裂解成苯乙酸(PHA)和6-氨基青霉烷酸(6-APA)的能力的酶。在一些实施方案中，PGA活性可以基于裂解模式底物，例如将6-硝基-3-(苯基乙酰氨基)苯甲酸裂解成苯乙酸和5-氨基-2-硝基-苯甲酸。PGA还能够进行转移酰基供体的酰基基团至酰基受体的逆反应。如本文中使用的，PGA包括天然存在的(野生型)PGA以及包含通过人为操作产生的一种或更多种工程化多肽的非天然存在的PGA酶。野生型PGA基因由通过54个氨基酸的间隔区连接的α亚基(23.8KDa)和β亚基(62.2KDa)组成的异二聚体。由于存在间隔区，需要自动加工步骤(autoprocessing step)以形成活性蛋白。

如本文中使用的，“酰基供体”指酰化酶底物将酰基基团贡献给酰基受体以形成酯或酰胺的部分。

如本文中使用的，“酰基受体”指酰化酶底物接受酰基供体的酰基基团以形成酯或酰胺的部分。

如本文中使用的，“α-链序列”指对应于SEQ ID NO：2的位置27至235处的残基的氨基酸序列(例如，与这些残基具有至少85％同一性)。如本文中使用的，单链多肽可以包含“α-链序列”和另外的序列。

如本文中使用的，“β-链序列”指对应于SEQ ID NO：2的位置290至846处的残基的氨基酸序列(例如与这些核苷酸具有至少85％同一性)。如本文中使用的，单链多肽可以包含“β-链序列”和另外的序列。

如本文中使用的，当在工程化PGA酶的上下文中使用时，“源自”指出原始的PGA酶，和/或编码该PGA酶的基因，基于该基因进行工程化。例如，SEQ ID NO：60的工程化PGA酶通过使编码SEQ ID NO：2的K.citrophila PGAα-链和β-链序列人工进化多代获得。因此，该工程化PGA酶“源自”SEQ ID NO：2的天然存在的或野生型PGA。

如本文中使用的，“胰岛素”指由正常个体的胰腺的β细胞产生的多肽激素。胰岛素是通过降低血糖水平调节糖类代谢所必需的。全身性缺乏胰岛素导致糖尿病。胰岛素包括51个氨基酸并且具有大约5800道尔顿的分子量。胰岛素包括2条肽链(被指定为“A”和“B”)，含有1个亚基内和2个亚基间二硫键。A链包括21个氨基酸，且B链包括30个氨基酸。两条链形成高度有序的结构，在A链和B链二者中具有数个α-螺旋区。分离的链是无活性的。在溶液中，胰岛素是单体、二聚体或六聚体。它在用于皮下注射的高度浓缩的制剂中是六聚体的，但当它被稀释在体液中时变成单体。该定义意图包括前胰岛素原和具有部分或全部一级结构构型和天然存在的胰岛素的至少一个生物学性质的任何纯化的多肽。它还意图包括天然和合成来源的胰岛素，包括糖型(glycoform)以及类似物(例如，具有缺失、插入和/或置换的多肽)。

胰岛素含有可以潜在地与乙酸苯酯供体反应并可以被PGA去保护的3个亲核胺。这些残基包括在B链的位置29(B29)的Lys和两个N-末端游离胺、A链的位置1(A1)的Gly和B链的位置1(B1)的Phe。本发明提供了三保护的胰岛素(化学连接至人类胰岛素上的A1、B1、B29残基的乙酸苯酯)。PGA已经被报道为以对乙酸苯酯酰胺键的排他选择性催化N-乙酸苯酯保护的肽和胰岛素的水解，使蛋白的剩余肽键不受影响(Brtnik等人,Coll.Czech.Chem.Commun.,46(8),1983-1989[1981]；和Wang等人.Biopolym.25(Suppl.),S109-S114[1986])。

如本文中使用的，“三-乙酸苯酯保护基团”指如本文所述的，在B1、B29和A1位置具有三个被苯乙酰基基团保护的伯胺的分子。

青霉素G酰化酶

青霉素酰化酶首先由Sakaguchi和Murao描述为来自从产黄青霉(Penicilliumchrysogenum)Wisc.Q176(Sakaguchi and Murao,J.Agr.Chem.Soc.Jpn.,23：411[1950])。青霉素G酰化酶是作用于青霉素G、头孢菌素G和相关的抗生素的侧链以产生β-内酰胺抗生素中间体6-氨基青霉烷酸和7-氨基脱乙酰氧基头孢菌素酸(cephalosporanic acid)的水解酶，以苯乙酸作为常见副产物。这些抗生素中间体是半合成的抗生素，诸如氨苄青霉素、阿莫西林、氯唑西林、头孢氨苄和cefatoxime的潜在构成单元。

如上文所述，青霉素G酰化酶(PGA)的特征在于如方案1中示出的将具有结构式(I)的共轭碱的青霉素G水解裂解成具有结构式(II)的共轭碱的6-氨基青霉烷酸和结构式(III)的苯乙酸的能力：

方案1

虽然不囿于理论，底物特异性表现为与识别疏水性苯基基团相关，而亲核体，(该亲核体在一些PGA中是β-链的N-末端的丝氨酸残基)充当β-内酰胺和多种其他基团，诸如β-氨基酸的受体。PGA的特征还在于裂解类似于青霉素G的模式底物，例如如方案2中示出的，将结构式(IV)的6-硝基-3-(苯乙酰氨基)苯甲酸(NIPAB)裂解为结构式(III)的苯乙酸和结构式(V)的5-氨基-2-硝基苯甲酸(参见例如Alkema等人,Anal.1999；275：-53[1999])：

方案2

由于5-氨基-2-硝基-苯甲酸是有色的(chromogenic)，式(IV)的底物提供了方便测量PGA活性的途径。除了上述反应以外，PGA还可以在DL-叔亮氨酸的动态拆分中使用，用于制备光学纯的叔亮氨酸(参见例如Liu等人,Prep.Biochem.Biotechnol.,36：235-41[2006])。

本公开内容的PGA基于从生物体Kluyvera citrophila(K.citrophila)获得的酶。与来自其他生物体的PGA一样，K citrophila的PGA是包括通过前体原PGA多肽的蛋白水解处理产生的α亚基和β亚基的异二聚体酶。去除信号肽和间隔肽产生成熟的异二聚体(参见例如，Barbero等人,Gene49：69-80[1986])。天然存在的K.citrophila的前体原PGA多肽的氨基酸序列是可公开获得的(参见例如，Genbank登录号P07941,[gi：129551])并且在本文中以SEQ ID NO：2提供。天然存在的K citrophila PGA的α-链序列对应于SEQ ID NO：2的残基27至235。天然存在的K citrophila PGA的β-链序列对应于SEQ ID NO：2的残基290至846。SEQ ID NO：2的残基1至26对应于信号肽，且SEQ ID NO：2的残基236-289对应于连接前肽，信号肽和连接前肽二者都被去除以产生天然存在的成熟PGA酶，成熟PGA酶是包含α-链亚基和β-链亚基的异二聚体。

在一些实施方案中，本发明提供与SEQ ID NO：2、4、6、8、10和/或12具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高的序列同一性的氨基酸序列的工程化PGA多肽。

本发明提供了适用于实验室规模制备用途的胰岛素特异性脱酰基生物催化剂。使用定向进化来开发能够完全去除胰岛素上A1/B1/B29-三-乙酸苯酯保护基团并产生>99％游离胰岛素的高效酰化酶。仅在2轮进化后，产生了以0.8g/L酶载量在小于6小时内产生多于99％的游离胰岛素的变体。最终的最佳变体PGA_005相对于初始骨架提高了～8倍。与野生型PGA相比，本文提供的PGA变体能够接受各种各样的酰基基团、表现出增加的溶剂稳定性和提高的热稳定性。本文提供的变体PGA缺少间隔区。因此，不需要自动加工步骤来产生有活性的酶。

本发明还提供编码工程化PGA多肽的多核苷酸。在一些实施方案中，多核苷酸被可操作地连接到控制基因表达的一个或更多个异源调控序列，以产生能够表达该多肽的重组多核苷酸。包含编码工程化PGA多肽的异源多核苷酸的表达构建体可以被导入到适当的宿主细胞以表达相应的PGA多肽。

由于知晓对应各种氨基酸的密码子，蛋白序列的可得性提供了对能够编码目标的所有多核苷酸的描述。遗传密码的简并性(其中相同的氨基酸由可替代的密码子或同义突变密码子编码)允许制备极大数目的核酸，所有这些核酸都编码本文公开的改进的PGA酶。因此，已经鉴定到特定氨基酸序列，本领域技术人员可以通过简单地以不改变蛋白的氨基酸序列的方式改变一个或更多个密码子的序列来制备任何数量的不同核酸。在此方面，本公开内容特别设想了通过选择基于可能的密码子选择的组合可以产生的每个和每一个可能的多核苷酸变体，并且所有这些变化应被认为针对本文描述的任意多肽(包括实施例5和6中的表中呈现的氨基酸序列)具体公开。

在多个实施方案中，优选地选择密码子来匹配在其中产生该蛋白的宿主细胞。例如，优选的在细菌中使用的密码子被用于在细菌中表达基因；优选的在酵母中使用的密码子被用于酵母中的表达；并且优选的在哺乳动物中使用的密码子被用于在哺乳动物细胞中表达。

在某些实施方案中，所有密码子不需要被替换以优化PGA多肽的密码子使用，因为天然序列将包含优选的密码子，并且优选的密码子可能不是所有氨基酸残基都需要的。因此，编码PGA酶的密码子优化的多核苷酸可以在全长编码区的约40％、50％、60％、70％、80％或大于90％的密码子位置包含优选密码子。

在一些实施方案中，多核苷酸包含编码具有与本文描述的任一个参考工程化PGA多肽的α-链和/或β链具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高序列同一性的氨基酸序列的PGA多肽的核苷酸序列。相应地，在一些实施方案中，多核苷酸编码与基于SEQ ID NO：2的参考α-链和β-链序列至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多地相同的氨基酸序列。在一些实施方案中，多核苷酸编码SEQ ID NO：2的α-链和/或β-链氨基酸序列。

在一些实施方案中，多核苷酸包含编码与SEQ ID NO：4、6、8、10和/或12具有至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更高序列同一性的氨基酸序列的PGA多肽的核苷酸序列。相应地，在一些实施方案中，多核苷酸编码与SEQ ID NO：1、3、5、7、9和/或11至少约85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％或更多地相同的氨基酸序列。

在一些实施方案中，编码改进的PGA多肽的分离的多核苷酸可以以多种方式被操作以提供改进的多肽活性和/或表达。取决于表达载体，分离的多核苷酸在其插入载体之前的操作可能是期望的或需要的。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域公知的。

例如，诱变和定向进化方法可以容易地应用于多核苷酸以产生可被表达、筛选和测定的变体文库。突变和定向进化方法是本领域周知的(参见例如美国专利号5,605,793、5,830,721、6,132,970、6,420,175、6,277,638、6,365,408、6,602,986、7,288,375、6,287,861、6,297,053、6,576,467、6,444,468、5,811238、6,117,679、6,165,793、6,180,406、6,291,242、6,995,017、6,395,547、6,506,602、6,519,065、6,506,603、6,413,774、6,573,098、6,323,030、6,344,356、6,372,497、7,868,138、5,834,252、5,928,905、6,489,146、6,096,548、6,387,702、6,391,552、6,358,742、6,482,647、6,335,160、6,653,072、6,355,484、6,03,344、6,319,713、6,613,514、6,455,253、6,579,678、6,586,182、6,406,855、6,946,296、7,534,564、7,776,598、5,837,458、6,391,640、6,309,883、7,105,297、7,795,030、6,326,204、6,251,674、6,716,631、6,528,311、6,287,862、6,335,198、6,352,859、6,379,964、7,148,054、7,629,170、7,620,500、6,365,377、6,358,740、6,406,910、6,413,745、6,436,675、6,961,664、7,430,477、7,873,499、7,702,464、7,783,428、7,747,391、7,747,393、7,751,986、6,376,246、6,426,224、6,423,542、6,479,652、6,319,714、6,521,453、6,368,861、7,421,347、7,058,515、7,024,312、7,620,502、7,853,410、7,957,912、7,904,249和所有相关的非美国的对应申请；Ling等人,Anal.Biochem.,254(2)：157-78[1997]；Dale等人,Meth.Mol.Biol.,57：369-74[1996]；Smith,Ann.Rev.Genet.,19：423-462[1985]；Botstein等人,Science,229：1193-1201[1985]；Carter,Biochem.J.,237：1-7[1986]；Kramer等人,Cell,38：879-887[1984]；Wells等人,Gene,34：315-323[1985]；Minshull等人,Curr.Op.Chem.Biol.,3：284-290[1999]；Christians等人,Nat.Biotechnol.,17：259-264[1999]；Crameri等人,Nature,391：288-291[1998]；Crameri,等人,Nat.Biotechnol.,15：436-438[1997]；Zhang等人,Proc.Nat.Acad.Sci.U.S.A.,94：4504-4509[1997]；Crameri等人,Nat.Biotechnol.,14：315-319[1996]；Stemmer,Nature,370：389-391[1994]；Stemmer,Proc.Nat.Acad.Sci.USA,91：10747-10751[1994]；WO 95/22625；WO 97/0078；WO 97/35966；WO 98/27230；WO 00/42651；WO 01/75767；和WO 2009/152336，其全部通过引用并入本文)。

一些实施方案中，本发明的变体PGA酰化酶还包括不改变酶的编码活性的另外的序列。例如，在一些实施方案中，变体PGA酰化酶被连接到可用于纯化的表位标签或另一个序列。

在一些实施方案中，本发明的变体PGA酰化酶多肽从它们在其中表达的宿主细胞分泌(例如酵母宿主细胞或丝状真菌宿主细胞)，并且被表达为包括信号肽(即连接到多肽的氨基末端并指导所编码的多肽进入细胞分泌途径的氨基酸序列)的前蛋白。

在一些其他实施方案中，信号肽是内源的K.citrophila PGA酰化酶信号肽。在一些实施方案中，使用来自其他K.citrophila分泌蛋白的信号肽。在一些实施方案中，根据宿主细胞和其他因素使用其他信号肽。用于丝状真菌宿主细胞的有效的信号肽编码区包括但不限于从以下获得的信号肽编码区：米曲霉(Aspergillus oryzae)TAKA淀粉酶、黑曲霉(Aspergillus niger)中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶、绵毛状腐质霉(Humicolalanuginosa)脂肪酶和里氏木霉(T.reesei)纤维二糖水解酶II。用于细菌宿主细胞的信号肽编码区包括但不限于从芽孢肝菌(Bacillus)NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)α-淀粉酶、地衣芽孢杆菌(Bacillus licheniformis)枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因获得的信号肽编码区。在一些另外的实施方案中，可以在本发明中使用其他信号肽(参见例如Simonen和Palva,Microbiol.Rev.,57：109-137[1993]，通过引用并入本文)。另外的可用于酵母宿主细胞的信号肽包括来自酿酒酵母(Saccharomyces cerevisiae)α-因子、酿酒酵母SUC2转化酶的基因的那些(参见例如Taussig和Carlson,Nucl.Acids Res.,11：1943-54[1983]；SwissProt登录号P00724和Romanos等人,Yeast 8：423-488[1992])。在一些实施方案中，可以使用这些信号肽和其他信号肽的变体。的确，本发明不意图限于任何具体的信号肽，因为本领域已知的任何合适的信号肽可以在本发明中使用。

在一些实施方案中，本发明提供了编码变体PGA酰化酶多肽的如本文所述的多核苷酸，和/或其生物活性片段。在一些实施方案中，多核苷酸被可操作地连接到控制基因表达的一个或更多个异源调控序列或控制序列，以产生能够表达该多肽的重组多核苷酸。在一些实施方案中，包含编码变体PGA酰化酶的异源多核苷酸的表达构建体被导入到适当的宿主细胞中以表达变体PGA酰化酶。

本领域普通技术人员理解，由于遗传密码的简并性，存在编码本发明的变体PGA多肽的多种核苷酸序列。例如，密码子AGA、AGG、CGA、CGC、CGG和CGU全部编码氨基酸精氨酸。因此，在其中精氨酸被密码子指定的本发明的核酸的每个位置处，该密码子可被更改为上文所描述的相应密码子中的任一个，而不改变所编码的多肽。应理解，RNA序列中的“U”对应DNA序列中的“T”。本发明设想并提供了可以通过选择基于可能的密码子的组合制备的编码本发明的多肽的核酸序列的每种和每一种可能的变异。

如上文所指出的，编码PGA的DNA序列还可以被设计为高密码子使用偏好密码子(在蛋白编码区比编码相同氨基酸的密码子以更高的频率使用的密码子)。优选密码子可根据单个基因、具有共同功能或来源的一组基因、高表达基因、整个生物体的密集蛋白编码区中的密码子频率、相关生物体的密集蛋白编码区域中的密码子频率或其组合来确定。其频率随着基因表达的水平而增加的密码子通常是用于表达的最佳密码子。特别地，DNA序列可以被优化以便在特定宿主生物体中表达。用于确定在特定生物体中的密码子频率(例如密码子使用、相对同义密码子使用)和密码子偏好的多种方法是本领域已知的，包括对基因中使用的密码子的多变量分析(例如使用聚类分析或相应分析)和有效数量。用于获得密码子使用的数据源可依赖能够编码蛋白的任何可获得的核苷酸序列。如本领域众所周知的,这些数据集包括实际已知编码被表达的蛋白(例如完整的蛋白编码序列-CDS)、被表达的序列标签(EST)或基因组序列的预测编码区的核酸序列。编码变体PGA的多核苷酸可以使用本领域已知的任何适当的方法制备。一般地，寡核苷酸被单独地合成，然后连接(通过例如酶连接或化学连接方法或聚合酶介导的方法)，以基本上形成任何期望的连续序列。在一些实施方案中，本发明的多核苷酸使用本领域已知的任何适当的方法通过化学合成制备，包括但不限于自动合成方法。例如，在亚磷酰胺方法中，寡核苷酸(例如在自动DNA合成仪中)合成、纯化、退火、连接并克隆到适当的载体中。在一些实施方案中，双链DNA片段随后通过合成互补链和将链在适当条件下退火到一起，或通过用适当引物序列使用DNA聚合酶添加互补链获得。存在多种常规和标准教科书，提供可在本发明中使用的本领域技术人员众所周知的方法。

如上文所讨论的，可以通过对编码天然存在的PGA的多核苷酸进行诱变和/或定向进化方法来获得工程化PGA。诱变可以根据本领域已知的任何技术进行，包括随机诱变和定点诱变。定向突变可以用本领域已知的任何技术进行(包括重排(shuffling))，以筛选改进的变体。其他可使用的定向进化程序包括但不限于交错延伸程序(StEP)、体外重组、诱变PCR、盒式诱变、通过重叠延伸切割(SOEing)、ProSAR^TM定向进化法等，以及任何其他合适的方法。

筛选在诱变处理后获得的克隆以获得具有期望的改进的酶性质的工程化PGA。可以使用监测产物形成速率的标准生物化学技术进行测量来自表达文库的酶活性。当期望的改进的酶性质是热稳定性时，可以在将酶制品置于特定的温度并测量热处理后剩余的酶活性的量后测量酶活性。然后分离含有编码PGA的多核苷酸的克隆、测序以鉴定核苷酸序列变化(如果有的话)，并将其用于在宿主细胞中表达酶。

当已知工程多肽的序列时，根据已知的合成方法，编码该酶的多核苷酸可以通过标准固相方法制备。在一些实施方案中，高达约100个碱基的片段可以被单独地合成、然后被连接(例如通过酶促或化学连接方法或聚合酶介导的方法)以形成任何期望的连续序列。例如，可以通过化学合成(例如使用Beaucage等人,Tet.Lett.,22：1859-69[1981]描述的经典亚磷酰胺法，或Matthes等人,EMBO J.,3：801-05[1984]描述的方法，因为它通常被实践于自动化合成方法中)制备本发明的多核苷酸和寡核苷酸。根据亚磷酰胺方法，寡核苷酸被合成(例如在自动DNA合成仪中)、纯化、退火、连接并克隆到适当的载体中。此外，基本上任何核酸可以从多种商业来源中的任一个获得(例如The Midland Certified ReagentCompany,Midland,TX,The Great American Gene Company,Ramona,CA,ExpressGenInc.Chicago,IL,Operon Technologies Inc.,Alameda,CA以及许多其他商业来源)。

本发明还提供了包含编码本文提供的至少一种变体PGA的序列的重组构建体。在一些实施方案中，本发明提供了一种表达载体，所述表达载体包含可操作地连接至异源启动子的变体PGA多核苷酸。在一些实施方案中，本发明的表达载体被用于转化适当的宿主细胞以允许该宿主细胞表达变体PGA蛋白。用于在真菌和其他生物体中重组表达蛋白的方法是本领域众所周知的，并且多种表达载体是可获得的或可以使用常规方法构建。在一些实施方案中，本发明的核酸构建体包含本发明的核酸序列插入其中的载体，诸如质粒、黏粒、噬菌体、病毒、细菌人工染色体(BAC)、酵母人工染色体(YAC)等。在一些实施方案中，本发明的多核苷酸被整合到适用于表达变体PGA多肽的多种表达载体的任一种中。合适的载体包括但不限于染色体、非染色体和合成的DNA序列(例如SV40的衍生物)，以及细菌质粒、噬菌体DNA、杆状病毒(baculovirus)、酵母质粒、源自质粒和噬菌体DNA的组合的载体、病毒DNA诸如牛痘、腺病毒、禽痘病毒、假狂犬病、腺病毒、腺病毒伴随病毒、逆转录病毒以及许多其他载体。本发明可以使用将遗传材料转导到细胞内的任何合适的载体，并且如果需要复制，该载体在相关宿主中是可复制并且可生存的。在一些实施方案中，构建体还包括调控序列，包括但不限于可操作地连接到蛋白编码序列的启动子。大量合适的载体和启动子是本领域技术人员已知的。事实上，在一些实施方案中，为了在特定宿主中获得高表达水平，在异源启动子的控制下表达本发明的变体PGA经常是有用的。在一些实施方案中，使用本领域已知的任何合适的方法将启动子序列可操作地连接至变体PGA编码序列的5’区。用于表达变体PGA的有用的启动子的实例包括限于来自真菌的启动子。在一些实施方案中，可使用驱动真菌菌株中除PGA基因以外的基因表达的启动子序列。作为一个非限制性实例，可以使用来自编码内切葡聚糖酶的基因的真菌启动子。在一些实施方案中，可使用驱动PGA基因在除该PGA所来源的真菌菌株以外的真菌菌株中表达的启动子序列。用于指导本发明的核苷酸构建体在丝状真菌宿主细胞中的转录的其他合适的启动子的实例包括但不限于从针对以下的基因获得的启动子：米曲霉TAKA淀粉酶、米黑根毛霉天冬氨酸蛋白酶、黑曲霉中性α-淀粉酶、黑曲霉酸性稳定α-淀粉酶、黑曲霉或泡盛曲霉(Aspergillus awamori)葡糖淀粉酶(glaA)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(Aspergillus nidulans)乙酰胺酶和尖孢镰孢菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(参见例如WO 96/00787，通过引用并入本文)，以及NA2-tpi启动子(来自黑曲霉中性α-淀粉酶和米曲霉磷酸丙糖异构酶的基因的启动子的杂合体)、启动子例如cbh1、cbh2、egl1、egl2、pepA、hfb1、hfb2、xyn1、amy和glaA(参见例如Nunberg等人,Mol.Cell Biol.,4：2306-2315[1984]；Boel等人,EMBO J.,3：1581-85[1984]和欧洲专利申请137280，这些全部通过引用并入本文)，以及它们的突变的、截短的和杂合的启动子。

在酵母宿主细胞中，有用的启动子包括但不限于来自针对以下的基因的那些：酿酒酵母烯醇化酶(eno-1)、酿酒酵母半乳糖激酶(gal1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)和酿酒酵母3-磷酸甘油酸激酶。可用于酵母宿主细胞的另外的有用的启动子是本领域已知的(参见例如Romanos等人,Yeast 8：423-488[1992]，通过引用并入本文)。另外，与真菌中壳多糖酶生产相关的启动子可用于本发明(参见例如Blaiseau和Lafay,Gene 120243-248[1992]；和Limon等人,Curr.Biotech.28：478-83(1995)，其二者都通过引用并入本文)。

对于细菌宿主细胞,用于指导本公开内容的核酸构建体的转录的合适的启动子包括但不限于从以下获得的启动子：大肠杆菌(E.coli)lac操纵子、大肠杆菌trp操纵子、噬菌体λ、天蓝色链霉菌(Streptomyces coelicolor)琼脂糖酶基因(dagA)、枯草芽孢杆菌聚糖蔗糖酶基因(sacB)、地衣芽孢杆菌α-淀粉酶基因(amyL)、嗜热脂肪芽孢杆菌麦芽糖淀粉酶基因(amyM)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)α-淀粉酶基因(amyQ)、地衣芽孢杆菌(Bacillus licheniformis)青霉素酶基因(penP)、枯草芽孢杆菌xylA和xylB基因和原核生物β-内酰胺酶基因(参见例如Villa-Kamaroff等人,Proc.Natl.Acad.Sci.USA75：3727-3731[1978])以及tac启动子(参见例如DeBoer等人,Proc.Natl.Acad.Sci.USA80：21-25[1983])。

在一些实施方案中，本发明的克隆的变体PGA也具有合适的转录终止子序列，由宿主细胞识别以终止转录的序列。终止子序列被可操作地连接到编码多肽的核酸序列的3’末端。在所选择的宿主细胞中起作用的任何终止子可用于本发明中。丝状真菌宿主细胞的示例性转录终止子包括但不限于从针对以下的基因获得的那些：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶和尖孢镰刀菌胰蛋白酶样蛋白酶(还参见美国专利号No.7,399,627，其通过引用并入本文)。在一些实施方案中，用于酵母宿主细胞的示例性终止子包括从针对以下的基因获得的那些：酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶的基因。用于酵母宿主细胞的其它有用的终止子是本领域技术人员熟知的(参见例如Romanos等人,Yeast8：423-88[1992])。

在一些实施方案中，合适的前导序列是克隆的变体PGA序列的一部分，是对于被宿主细胞翻译重要的mRNA非翻译区。前导序列可操作地连接到编码多肽的核酸序列的5’末端。在本发明中可以使用在所选择的宿主细胞中起作用的任何前导序列。丝状真菌宿主细胞的示例性前导区包括但不限于从米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因获得的那些。用于酵母宿主细胞的合适的前导序列包括但不限于从以下基因获得的那些：酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

在一些实施方案中，本发明的序列还包括多腺苷酸化序列，它是可操作地连接到核酸序列的3’末端的序列，并且在转录时，其被宿主细胞作为向转录的mRNA添加多聚腺苷酸残基的信号识别。在本发明中可以使用在所选择的宿主细胞中起作用的任何多聚腺苷酸化序列。用于丝状真菌宿主细胞的示例性多腺苷酸化序列包括但不限于从以下基因获得的那些：米曲霉TAKA淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α-葡糖苷酶。用于酵母宿主细胞的有用的多聚腺苷酸化序列是本领域已知的(参见例如Guo和Sherman,Mol.Cell.Biol.,l5：5983-5990[1995])。

在一些实施方案中，控制序列包括信号肽编码区域，信号肽编码区域编码与多肽的氨基末端连接并指导所编码的多肽进入细胞的分泌途径的氨基酸序列。核酸序列的编码序列的5’末端能固有地含有信号肽编码区，所述信号肽编码区与编码被分泌的多肽的编码区的片段天然地连接在翻译阅读框中。可选择地，编码序列的5’末端可以含有对于编码序列是外源的信号肽编码区。在编码序列不天然包含信号肽编码区的情况下可能需要外源信号肽编码区。

可选择地，外源信号肽编码区可简单地替换天然信号肽编码区以增加多肽的分泌。然而，指导所表达的多肽进入所选择的宿主细胞的分泌途径的任何信号肽编码区可以在本发明中使用。

用于细菌宿主细胞的有效信号肽编码区包括但不限于从以下基因获得的信号肽编码区：芽孢肝菌NClB 11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。另外的信号肽是本领域已知的(参见例如Simonen和Palva,Microbiol.Rev.,57：109-137[1993])。

用于丝状真菌宿主细胞的有效的信号肽编码区包括但不限于从以下的基因获得的信号肽编码区：米曲霉TAKA淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(Humicola insolens)纤维素酶和Humicola lanuginosa脂肪酶。

用于酵母宿主细胞的有用的信号肽包括但不限于酿酒酵母α因子和酿酒酵母转化酶的基因。其它有用的信号肽编码区是本领域已知的(参见例如Romanos等人,[1992],同上)。

在一些实施方案中,控制序列包含前肽编码区，该前肽编码区编码位于多肽的氨基末端的氨基酸序列。所得多肽被称为酶原(proenzyme)或多肽原(在某些情况下称为酶原(zymogen))。多肽原通常无活性并且可以通过前肽从多肽原的催化裂解或自身催化裂解转化成成熟的有活性的PGA多肽。前肽编码区可以从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(Myceliophthora thermophila)乳糖酶的基因获得(参见例如WO 95/33836)。

当信号肽和前肽区都存在于多肽的氨基末端时，前肽区定临靠多肽的氨基末端定位，而信号肽区临靠前肽区的氨基末端定位。

在一些实施方案中，还使用调控序列以允许相对于宿主细胞的生长调控多肽的表达。调控系统的实例是引起基因表达响应于化学或物理刺激(包括调控化合物的存在)而开放或关闭的那些。在原核宿主细胞中，合适的调控序列包括但不限于lac、tac和trp操纵子系统。在酵母宿主细胞中，合适的调控系统包括例如ADH2系统或GAL1系统。在丝状真菌中，合适的调控序列包括TAKAα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子和米曲霉葡糖淀粉酶启动子。

调控序列的其他实例是允许基因扩增的那些。在真核系统中，这些包括在甲氨蝶呤存在下扩增的二氢叶酸还原酶基因以及用重金属扩增的金属硫蛋白基因。在这些情况下，编码本发明的PGA多肽的核酸序列将与调控序列可操作地连接。

因此，在另外的实施方案中，本发明提供了包含编码工程化PGA多肽或其变体和一种或更多种调控区诸如启动子和终止子、复制起点等(根据重组表达载体被引入的宿主的类型)的多核苷酸的重组表达载体。在一些实施方案中，上文描述的各种核酸和控制序列被连接在一起以产生重组表达载体，所述重组表达载体可以包括一个或更多个方便的限制性位点，以允许在此类位点插入或替换编码多肽的核酸序列。可选择地，在一些实施方案中，核酸序列通过将包含该序列的核酸序列或核酸构建体插入到用于表达的合适的载体来表达。在产生表达载体时，编码序列以使得该编码序列与适合用于表达的控制序列可操作地连接的方式位于载体中。

重组表达载体包括任何合适的载体(例如质粒或病毒)，可以方便地进行重组DNA程序并且可以引起多核苷酸序列的表达。载体的选择通常取决于载体与该载体待引入进的宿主细胞的相容性。在一些实施方案中，载体是线性质粒或闭合的环状质粒。

在一些实施方案中，表达载体是自主复制载体(即，作为染色体外实体存在的载体，其复制独立于染色体复制，诸如质粒，一种染色体外元件，微型染色体或人工染色体)。在一些实施方案中，载体包含用于确保自我复制的任何工具(means)。可选择地，在一些其他实施方案中，当被引入进宿主细胞时，载体被整合进基因组中并连同它已被整合进的染色体一起复制。此外，在另外的实施方案中，可以使用单个载体或质粒，或共同包含待被引至宿主细胞的基因组的全部DNA的两个或更多个质粒或载体。

在一些实施方案中，本发明的表达载体含有一个或更多个选择标记，其允许容易地选择转化的细胞。“可选择的标记”是其产物提供杀杀虫剂或病毒抗性、对抗微生物剂或重金属的抗性、原养型到营养缺陷型(prototrophy to auxotrophs)等的基因等。本发明中使用的用于在丝状真菌宿主细胞中使用的任何合适的选择标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(膦丝菌素酰基转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸盐还原酶)、pyrG-5’(乳清酸核苷-5'-磷酸脱羧酶)、sC(硫酸腺苷酸转移酶)和trpC(邻氨基苯甲酸合酶)及其等同物。在宿主细胞诸如曲霉属真菌(Aspergillus)中可用的另外的标记物包括但不限于构巢曲霉或米曲霉的amdS和pyrG基因，和吸水链霉菌(Streptomyces hygroscopicus)的bar基因。酵母宿主细胞的合适的标记包括但不限于ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。细菌选择标记的实例包括但不限于来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因或赋予抗生素抗性(诸如氨苄青霉素、卡那霉素、氯霉素和/或四环素抗性)的标记。

在一些实施方案中，本发明的表达载体包含允许载体整合到宿主细胞的基因组中或允许载体在细胞中独立于基因组自主复制的元件。在一些涉及整合到宿主细胞基因组中的实施方案中，载体依赖于编码多肽的核酸序列或用于通过同源或非同源重组将载体整合到基因组的载体的任何其他元件。

在一些可选择的实施方案中，表达载体包含用于指导通过同源重组整合到宿主细胞的基因组中的另外的核酸序列。另外的核酸序列使载体能够在染色体的准确位置整合到宿主细胞基因组中。为了增加在准确位置整合的可能性，整合元件优选地含有充足数目的核苷酸，诸如100至10000碱基对，优选地400至10000碱基对，且最优选的800至10000碱基对，所述充足数目的核苷酸与相应的靶序列高度同源以增加同源重组的可能性。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，整合元件可以是非编码的或编码的核酸序列。在另一方面，载体可以通过非同源重组整合到宿主细胞的基因组中。

对于自主复制，载体还可以包括能够使载体在所研究的宿主细胞中自主复制的复制起点。细菌复制起点的实例是P15Aori或质粒pBR322、pUC19、pACYCl77的复制起点(这些质粒具有P15A ori)、或允许在大肠杆菌中复制的pACYC184、和允许在芽孢肝菌中复制的pUB110、pE194、pTA1060或pAMβ1。用于在酵母宿主细胞中使用的复制起点的实例是2微米复制起点(2micron origin of replication)ARS1、ARS4、ARS1和CEN3的组合以及ARS4和CEN6的组合。复制起点可以是具有使其在宿主细胞中的功能对温度敏感的突变的复制起点的复制起点(参见例如Ehrlich,Proc.Natl.Acad.Sci.USA 75：1433[1978])。

在一些实施方案中，多于一个拷贝的本发明的核酸序列被插入到宿主细胞中以增加基因产物的产量。核酸序列的拷贝数的增加可以通过将至少一个额外拷贝的序列整合到宿主细胞基因组中，或通过包括具有核酸序列的可扩增选择标记基因获得，其中含有选择标记基因的扩增拷贝并从而含有另外的核酸序列拷贝的细胞通过在适当的可选择剂的存在下培养细胞可被选择。

用于在本发明中使用的许多表达载体是可商购的。合适的商购表达载体包括但不限于p3xFLAGTMTM表达载体(Sigma-Aldrich Chemicals)，其包括CMV启动子和用于在哺乳动物宿主细胞中表达的hGH多聚腺苷酸化位点和用于在大肠杆菌中扩增的pBR322复制起点和氨苄青霉素抗性标志物。其他合适的表达载体包括但不限于pBluescriptII SK(-)和pBK-CMV(Stratagene)，以及源自pBR322(Gibco BRL)、pUC(Gibco BRL)、pREP4、pCEP4(Invitrogen)或pPoly的质粒(参见例如Lathe等人,Gene 57：193-201[1987])。

因此，在一些实施方案中，包含编码至少一种变体PGA的序列的载体被转化到桑主席包中以允许载体繁殖和表达变体PGA。在一些实施方案中，变体PGA被翻译后修饰以去除信号肽，并且在一些情况下在分泌后可以被裂解。在一些实施方案中，上文所述的转化的宿主细胞在允许表达变体PGA的条件下在合适的营养培养基中培养。可以在本发明中使用可用于培养宿主细胞的任何合适的培养基，包括但不限于基本培养基和含有适当补充剂的复合培养基。在一些实施方案中，宿主细胞生长于HTP培养基。合适的培养基可以从各种商业供应商获得，或可以根据已公开的配方(例如，在American Type Culture Collection的目录中)制备。

在另一方面，本发明提供了包含编码本文提供的改进的PGA多肽的多核苷酸的宿主细胞，多核苷酸被可操作地连接到用于在宿主细胞中表达PGA酶的一个或更多个控制序列。用于在表达本发明的表达载体编码的PGA多肽中使用的宿主细胞是本领域众所周知的，包括但不限于细菌细胞诸如大肠杆菌、巨大芽孢肝菌(Bacillus megaterium)、开菲尔乳杆菌(Lactobacillus kefir)、链霉菌属(Streptomyces)和鼠伤寒沙门氏菌(Salmonellatyphimurium)细胞；真菌细胞，诸如酵母细胞(例如酿酒酵母或巴斯德毕赤酵母(Pichiapastoris)(ATCC登录号201178))；昆虫细胞诸如果蝇S2和夜蛾Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑素瘤细胞；以及植物细胞。用于上述宿主细胞的适当的培养基和生长条件是本领域公知的。

用于表达PGA的多核苷酸可以通过本领域已知的各种方法引入细胞。技术包括尤其是，电穿孔、基因枪粒子轰击(biolistic particle bombardment)、脂质体介导的转染、氯化钙转染和原生质体融合。用于将多核苷酸导入细胞的各种方法是本领域技术人员已知的。

在一些实施方案中，宿主细胞是真核细胞。合适的真核宿主细胞包括但不限于真菌细胞、藻类细胞、昆虫细胞和植物细胞。合适的真菌宿主细胞包括但不限于子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、半知菌门(Deuteromycota)、接合菌门(Zygomycota)、半知菌(Fungi imperfecti)。在一些实施方案中，真菌宿主细胞是酵母细胞和丝状真菌细胞。本发明的丝状真菌宿主细胞包括亚门真菌亚门(Eumycotina)和卵菌门(Oomycota)的所有丝状形式。丝状真菌的特征在于具有B包括壳多糖、纤维素和其他复杂多糖的细胞壁的营养菌丝体。本发明的丝状真菌宿主细胞从形态学上可与酵母区分。

在本发明的一些实施方案中，丝状真菌宿主细胞是任何合适的属和种的，包括但不限于绵霉属(Achlya),枝顶孢属(Acremonium),曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、烟管菌属(Bjerkandera)、拟蜡菌属(Ceriporiopsis)、头孢霉属(Cephalosporium)、金孢子菌属(Chrysosporium)、旋孢腔菌属(Cochliobolus)、棒囊壳属(Corynascus)、丛赤壳属(Cryphonectria)、隐球菌属(Cryptococcus)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、色二孢属(Diplodia)、Endothis、镰孢属(Fusarium)、赤霉菌属(Gibberella)、胶枝霉属(Gliocladium)、腐质霉属(Humicola)、肉座菌属(Hypocrea)、毁丝霉属(Myceliophthora)、毛霉属(Mucor)、脉孢菌属(Neurospora)、青霉菌属(Penicillium)、柄孢壳菌属(Podospora)、白腐菌属(Phlebia)、瘤胃壶菌属(Piromyces)、梨形孢属(Pyricularia)、根毛霉属(Rhizomucor)、根霉属(Rhizopus)、裂褶菌属(Schizophyllum)、柱顶孢霉属(Scytalidium)、孢子丝菌属(Sporotrichum)、踝节菌属(Talaromyces)、热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、栓菌属(Trametes)、弯颈霉属(Tolypocladium)、木霉属(Trichoderma)、轮枝孢属(Verticillium)和/或菇属(Volvariella)、和/或它们的有性型或无性型、和同义型(synonyms)、基原异名或分类学等同物f.在本发明的一些实施方案中，宿主细胞是酵母细胞，包括但不限于假丝酵母属(Candida)、汉逊酵母属(Hansenula)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)、毕赤酵母属(Pichia)、克鲁维酵母属(Kluyveromyces)或亚罗酵母属(Yarrowia)。在本发明的一些实施方式中，酵母细胞是多形汉逊酵母(Hansenulapolymorpha)、酿酒酵母、卡氏酵母(Saccharomyces carlsbergensis)、糖化酵母(Saccharomyces diastaticus)、诺地酵母(Saccharomyces norbensis)、克氏酵母(Saccharomyces kluyveri)、粟酒裂殖酵母(Schizosaccharomyces pombe)、巴斯德毕赤酵母(Pichia pastoris)、芬兰毕赤酵母(Pichia finlandica)、Pichia trehalophila、Pichia kodamae、膜醭毕赤氏酵母(Pichia membranaefaciens)、Pichia opuntiae、Pichiathermotolerans、Pichia salictaria、Pichia quercuum、Pichia pijperi、树干毕赤酵母(Pichia stipitis)、甲醇毕赤酵母(Pichia methanolica)、安格斯毕赤酵母(Pichiaangusta)、乳酸克鲁维酵母(Kluyveromyces lactis)、白色念珠菌(Candida albicans)或解脂耶氏酵母(Yarrowia lipolytica)。

在本发明的一些实施方式中，宿主细胞是藻类细胞，诸如衣藻属(Chlamydomonas)(如莱茵哈德衣藻(C.reinhardtii))和席藻属(Phormidium)(P.sp.ATCC29409)。

在一些其他实施方案中，宿主细胞是原核细胞。合适的原核细胞包括但不限于革兰氏阳性、革兰氏阴性和革兰氏不定的细菌细胞。可在本发明中使用的任何合适的细菌生物体包括但不限于农杆菌属(Agrobacterium)、脂环酸芽孢杆菌属(Alicyclobacillus)、鱼腥藻属(Anabaena)、倒囊藻属(Anacystis)、不动杆菌属(Acinetobacter)、嗜酸菌属(Acidothermus)、节杆菌属(Arthrobacter)、定氮菌(Azobacter)、芽孢杆菌属(Bacillus)、双歧杆菌属(Bifidobacterium)、短杆菌属(Brevibacterium)、丁酸弧菌属(Butyrivibrio)、布赫纳氏菌属(Buchnera)、Campestris、弯曲杆菌属(Camplyobacter)、梭菌属(Clostridium)、棒杆菌属(Corynebacterium)、着色菌属(Chromatium)、粪球菌属(Coprococcus)、埃希氏菌属(Escherichia)、肠球菌属(Enterococcus)、肠杆菌属(Enterobacter)、欧文氏菌属(Erwinia)、梭杆菌属(Fusobacterium)、Faecalibacterium、弗朗西斯菌属(Francisella)、黄杆菌属(Flavobacterium)、地芽孢杆菌属(Geobacillus)、嗜血杆菌属(Haemophilus)、螺杆菌属(Helicobacter)、克雷伯菌属(Klebsiella)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泥杆菌属(Ilyobacter)、微球菌属(Micrococcus)、细杆菌属(Microbacterium)、生根瘤菌属(Mesorhizobium)、甲基杆菌属(Methylobacterium)、甲基杆菌属(Methylobacterium)、分枝杆菌属(Mycobacterium)、奈瑟菌属(Neisseria)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、原绿球藻属(Prochlorococcus)、红细菌属(Rhodobacter)、红假单胞菌属(Rhodopseudomonas)、红假单胞菌属(Rhodopseudomonas)、罗氏菌属(Roseburia)、红螺菌属(Rhodospirillum)、红球菌属(Rhodococcus)、栅藻属(Scenedesmus)、链霉菌属(Streptomyces)、链球菌属(Streptococcus)、Synecoccus、糖单孢菌属(Saccharomonospora)、葡萄球菌属(Staphylococcus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、志贺氏菌属(Shigella)、嗜热厌氧杆菌属(Thermoanaerobacterium)、Tropheryma、Tularensis、Temecula、热聚球藻属(Thermosynechococcus)、高温球菌属(Thermococcus)、脲原体属(Ureaplasma)、黄单胞菌属(Xanthomonas)、木杆菌属(Xylella)、耶尔森氏菌属(Yersinia)和发酵单胞菌属(Zymomonas)。在一些实施方式中，宿主细胞是以下物种：农杆菌属(Agrobacterium)、不动杆菌属(Acinetobacter)、固氮菌属(Azobacter)、芽孢杆菌属(Bacillus)、双歧杆菌属(Bifidobacterium)、布赫纳氏菌属(Buchnera)、土芽胞杆菌属(Geobacillus)、弯曲杆菌属(Campylobacter)、梭菌属(Clostridium)、棒杆菌属(Corynebacterium)、埃希氏菌属(Escherichia)、肠球菌属(Enterococcus)、欧文氏菌属(Erwinia)、黄杆菌属(Flavobacterium)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、泛菌属(Pantoea)、假单胞菌属(Pseudomonas)、葡萄球菌属(Staphylococcus)、沙门氏菌属(Salmonella)、链球菌属(Streptococcus)、链霉菌属(Streptomyces)或发酵单胞菌属(Zymomonas)。在一些实施方式中，细菌宿主菌株是对人类非致病性的。在一些实施方式中，细菌宿主菌株是工业菌株。许多细菌工业菌株是已知的，并且在本发明中是合适的。在本发明的一些实施方式中，细菌宿主细胞是土壤杆菌属(Agrobacterium)的种(例如放射型土壤杆菌(A.radiobacter)、发根土壤杆菌(A.rhizogenes)和悬钩土壤杆菌(A.rubi))。在本发明的一些实施方式中，细菌宿主细胞是节杆菌属的种(如金黄节杆菌(A.aurescens)、柠檬色节杆菌(A.citreus)、球形节杆菌(A.globiformis)、裂烃谷氨酸节杆菌(A.hydrocarboglutamicus)、迈索尔节杆菌(A.mysorens)、烟草节杆菌(A.nicotianae)、石蜡节杆菌(A.paraffineus)、A.protophonniae、A.roseoparqffinus、硫磺节杆菌(A.sulfureus)和产脲节杆菌(A.ureafaciens))。在本发明的一些实施方式中，细菌宿主细胞是芽孢杆菌属的种(如苏云金芽孢杆菌(B.thuringensis)、炭疽芽孢杆菌(B.anthracis)、巨大芽胞杆菌(B.megaterium)、枯草芽孢杆菌(B.subtilis)、迟缓芽孢杆菌(B.lentus)、环状芽胞杆菌(B.circulans)、短小芽胞杆菌(B.pumilus)、灿烂芽孢杆菌(B.lautus)、凝结芽孢杆菌(B.coagulans)、短杆菌(B.brevis)、坚强芽孢杆菌(B.firmus)、B.alkaophius、地衣芽孢杆菌(B.licheniformis)、克劳氏芽孢杆菌(B.clausii)、嗜热脂肪芽孢杆菌(B.stearothermophilus)、耐盐芽孢杆菌(B.halodurans)和解淀粉芽孢杆菌(B.amyloliquefaciens))。在一些实施方式中，宿主细胞是工业芽孢杆菌菌株，包括但不限于枯草芽孢杆菌、短小芽胞杆菌、地衣芽孢杆菌、巨大芽胞杆菌、克劳氏芽孢杆菌、嗜热脂肪芽杆菌或解淀粉芽孢杆菌。在一些实施方式中，芽孢杆菌宿主细胞是枯草芽孢杆菌、地衣芽孢杆菌、巨大芽胞杆菌、嗜热脂肪芽孢杆菌和/或解淀粉芽孢杆菌。在一些实施方式中，细菌宿主细胞是梭菌属的种(如丙酮丁醇梭菌(C.acetobutylicum)、破伤风梭菌(C.tetani)E88、C.lituseburense、C.saccharobutylicum、产气荚膜梭菌(C.perfringens)和C.beijerinckii)。在一些实施方式中，细菌宿主细胞是棒杆菌属的种(如谷氨酸棒杆菌(C.glutamicum)和嗜乙酰棒杆菌(C.acetoacidophilum))。在一些实施方式中，细菌宿主细胞是埃希氏菌属的种(如大肠杆菌(E.coli))。在一些实施方式中，细菌宿主细胞是欧文氏菌属的种(如噬夏孢欧文氏菌(E.uredovora)、胡萝卜欧文氏菌(E.carotovora)、菠萝欧文氏菌(E.ananas)、草生欧文氏菌(E.herbicola)、斑点欧文氏菌(E.punctata)和土欧文氏菌(E.terreus))。在一些实施方式中，细菌宿主细胞是泛菌属的种(如柠檬泛菌(P.citrea)和成团泛菌(P.agglomerans))。在一些实施方式中，细菌宿主细胞是假单胞菌属的种(如恶臭假单胞菌(P.putida)、铜绿假单胞菌(P.aeruginosa)、P.mevalonii和假单胞菌属的种(P.sp)D-01 10)。在一些实施方式中，细菌宿主细胞是链球菌属的种(如S.equisimiles、酿脓链球菌(S.pyogenes)和乳链球菌(S.uberis))。在一些实施方式中，细菌宿主细胞是链霉菌属的种(如生二素链霉菌(S.ambofaciens)、不发色链霉菌(S.achromogenes)、阿维链霉菌(S.avermitilis)、天蓝色链霉菌、金黄色链霉菌(S.aureofaciens)、金色链霉菌(S.aureus)、杀真菌素链霉菌(S.fungicidicus)、灰色链霉菌(S.griseus)和变铅青链霉菌(S.lividans))。在一些实施方式中，细菌宿主细胞是发酵单胞菌属的种(如运动发酵单胞菌(Z.mobilis)和Z.lipolytica)。

示例性宿主细胞是大肠杆菌W3110。表达载体通过可操作地将编码改进的PGA的多核苷酸连接到质粒pCK110900构建,所述编码改进的PGA的多核苷酸可操作地连接到在lacI阻遏子的控制下的lac启动子。表达载体还含有P15a复制起点和氯霉素耐受基因。大肠杆菌W3110中含有目标多核苷酸的细胞通过对细胞进行氯霉素选择来分离。

在本发明中使用的许多原核和真核菌株从多个培养物收集被公众容易地获得，例如美国典型培养物保藏中心(ATCC)、德国微生物保藏中心(DSM)、真菌菌种保藏中心(CBS)和农业研究服务专利培养物保藏中心(Agricultural Research Service Patent CultureCollection)、农业研究机构培养物保藏中心(NRRL)。

在一些实施方案中，宿主细胞被遗传修饰以具有改进蛋白分泌、蛋白稳定性和/或其他蛋白表达和/或分泌所需的性质。遗传修饰可以通过遗传工程技术和/或经典微生物技术(例如化学或UV诱变和随后的选择)实现。的确，在一些实施方案中，重组修饰和经典选择技术的组合被用于产生宿主细胞。使用重组技术，核酸分子可以以在宿主细胞中和/或在培养基中产生PGA变体的收率增加的方式被导入、删除、抑制或修饰。例如，敲除Alp1功能导致蛋白酶缺陷型细胞，而敲除pyr5功能导致具有嘧啶缺陷表型的细胞。在一个遗传工程方法中，同源重组被用于通过体内特异性靶向基因导入靶向性基因修饰，来抑制所编码的蛋白的表达。在可选择的方法中，使用siRNA、反义和/或核酶技术用于抑制基因表达。本领域已知的多种方法用于降低蛋白在细胞中的表达，包括但不限于缺失编码该蛋白的全部或部分基因和定点诱变(site-specific mutagenesis)以破坏基因产物的表达或活性。(参见例如Chaveroche等人,Nucl.Acids Res.,28：22e97[2000]；Cho等人,Molec.Plant MicrobeInteract.,19：7-15[2006]；Maruyama和Kitamoto,Biotechnol Lett.,30：1811-1817[2008]；Takahashi等人,Mol.Gen.Genom.,272：344-352[2004]；和You等人,Arch.Micriobiol.,191：615-622[2009]，其全部通过引用并入本文)。也可以使用随机诱变，随后是筛选期望的突变(参见例如Combier等人,FEMS Microbiol.Lett.,220：141–8[2003]；和Firon等人,Eukary.Biotech.2：247-55(2003)，其均通过引用并入)。

将载体或DNA构建体导入宿主细胞可以使用本领域已知的任何合适的方法实现，包括但不限于磷酸钙转染、DEAE-右旋糖酐介导的转染、PEG介导的转化、电穿孔或本领域已知的其他常用技术。

在一些实施方案中，本发明的工程化宿主细胞(即“重组宿主细胞”)在被修改为适于激活启动子、筛选转化体或扩增PGA多核苷酸的常规营养培养基中培养。培养条件，诸如温度、pH等，是之前对所选择的用于表达的宿主细胞使用的那些，并且是本领域技术人员众所周知的。如所述的，许多标准参考文献和教科书可用于培养和产生许多细胞，包括细菌、植物、动物(特别是哺乳动物)和古细菌来源的细胞。

在一些实施方案中，表达本发明的变体PGA多肽的细胞在分批或连续发酵条件下生长。经典的“分批发酵”是封闭的系统，其中培养基的组成在发酵开始时设置并且在发酵期间不进行人工调整。分批系统的变化是也在本发明中使用的“补料-分批发酵”。在此变化中，随着发酵进展增量地增加底物。当降解物阻遏可能抑制细胞的新陈代谢时并且当期望在培养基中具有有限量的底物时，可使用补料-分批系统。分批发酵和补料-分批发酵是在本领域中是常见的和熟知的。“连续发酵”是一个开放系统，其中向生物反应器连续添加限定的发酵培养基，并且同时取出等量的条件培养基用于加工。连续发酵通常保持培养物在恒定的高密度，其中细胞主要在对数期生长。连续发酵系统力求保持稳定状态的生长条件。调节用于连续发酵过程的营养物和生长因子的方法以及用于使产物形成的速率最大化的技术是工业微生物学领域周知的。

在本发明的一些实施方案中，可以使用无细胞转录/翻译系统生产变体PGA。若干系统是可商购的并且方法是本领域技术人员熟知的。

本发明提供了制备变体PGA多肽或其生物活性片段的方法。在一些实施方案中，所述方法包括：提供编码包含与SEQ ID NO：2具有至少约70％(或至少约75％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％)序列同一性的氨基酸序列并包含本文提供的至少一个突变的多核苷酸转化的宿主细胞；在宿主细胞表达编码的变体PGA多肽的条件下在培养基中培养转化的宿主细胞；和任选地回收或分离所表达的变体PGA多肽，和/或回收或分离含有所表达的变体PGA多肽的培养基。在一些实施方案中，方法还提供任选地在表达所编码的PGA多肽后裂解转化的宿主细胞，和任选地从细胞裂解物回收和/或分离所表达的变体PGA多肽。本发明还提供了制备变体PGA多肽的方法，所述方法包括在适于生产变体PGA多肽的条件下培养用变体PGA多肽转化的宿主细胞，和回收变体PGA多肽。通常，PGA多肽的回收或分离来自宿主细胞培养基、宿主细胞或二者,使用本领域周知的，包括本文描述的那些的蛋白回收技术。在一些实施方案中，宿主细胞通过离心收获、用物理或化学手段破坏,且所得粗提取物被保留用于进一步纯化。在蛋白表达中使用的微生物细胞可提供任何常规方法破坏，包括但不限于冻融循环、超声、机械破坏和/或使用细胞裂解剂，以及本领域技术人员熟知的许多其他合适的方法。

在宿主细胞中表达的工程化PGA酶可从细胞和/或培养基回收，使用一种或更多种熟知的用于蛋白纯化的技术，尤其是，包括溶菌酶处理、超声、过滤、盐析、超速离心和色谱法。用于裂解和从细菌诸如大肠杆菌高效提取蛋白的合适的溶液是以商标名CelLytic B^TM(Sigma-Aldrich)商购的。因此，在一些实施方案中，所得多肽被回收/分离，并任选地通过本领域已知的多种方法的任一种纯化。例如，在一些实施方案中，通过常规程序从营养培养基分离多肽，包括但不限于离心、过滤、提取、喷雾干燥、蒸发、色谱法(例如离子交换、亲和性、疏水相互作用、聚焦层析和尺寸排阻)或沉淀。在一些实施方案中，在完成成熟蛋白的离心后，按需要使用蛋白重折叠步骤。此外，在一些实施方案中，在最后纯化步骤中使用高效液相色谱(HPLC)。例如，在一些实施方案中，本发明可使用本领域已知的方法(参见例如Parry等人,Biochem.J.,353：117[2001]；和Hong等人,Appl.Microbiol.Biotechnol.,73：1331[2007]，二者通过引用并入本文)。事实上，本领域已知的任何合适的纯化方法可用于本发明。

用于分离PGA多肽的色谱技术包括但不限于反相色谱法、高效液相色谱法、离子交换色谱法、凝胶电泳和亲和色谱法。用于纯化特定酶的条件将部分取决于诸如净电荷、疏水性、亲水性、分子量、分子形状等本领域技术人员已知的因素。

在一些实施方案中，亲和技术可用于分离改进的PGA酶。对于亲和色谱法纯化，可以使用特异性结合PGA多肽的任何抗体。为了产生抗体，可以通过注射PGA免疫各种宿主动物，包括但不限于兔、小鼠、大鼠等。PGA多肽可以通过侧链官能团或附接至侧链官能团的接头附接到合适的运载体诸如BSA上。取决于宿主物种，多种佐剂可用来增加免疫反应，包括但不限于弗氏佐剂(完全和不完全)、矿物凝胶例如氢氧化铝、表面活性物质例如溶血卵磷脂、pluronic多元醇、聚阴离子、肽、油乳剂、钥孔虫戚血兰素、二硝基酚和可能有用的人类佐剂例如BCG(卡介苗)和短棒杆菌(Corynebacterium parvum)。

在一些实施方案中，PGA变体以细胞表达酶的形式作为粗提取物，或作为分离的或纯化的制品制备和使用。在一些实施方案中，PGA变体以冻干物、以粉末形式(例如丙酮粉末)或制备成酶溶液。在一些实施方案中，PGA变体呈基本纯的制品的形式。

在一些实施方案中，PGA多肽被附接到任何合适的固体基材上。固体基材包括但不限于固相、表面和/或膜。固体支持物包括但不限于有机聚合物如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯(polyethyleneoxy)和聚丙烯酰胺以及它们的共聚物和接枝物。固体支持物还可以是无机的，诸如玻璃、二氧化硅、可控孔隙玻璃(CPG)、反相二氧化硅或金属例如金或铂。基材的形状可以呈珠、球、粒子(particle)、颗粒(granule)、凝胶、膜或表面的形式。表面可以是平面的、基本上平面的或非平面的。固体支持物可以是多孔的或无孔的，并且可以具有溶胀或非溶胀特性。固体支持物可以被配置为孔、凹陷或其他容器、器皿、特征或位置的形式。多个支持物可以被配置在阵列的多个位置上，可用试剂的自动递送或通过检测方法和/或仪器寻址。

在一些实施方案中，使用免疫学方法纯化PGA变体。在一个方法中，使用常规方法将针对变体PGA多肽(例如针对包含SEQ ID NOS：2、4、6、8、10或12的任一个，和/或其免疫原性片段的多肽)的抗体固定在珠上，与在其中变体PGA被结合并沉淀的条件下与细胞培养基混合。在一个相关方法中，使用免疫层析法。

在一些实施方案中，变体PGA作为包括非酶部分的融合蛋白表达。在一些实施方案中，变体PGA序列被融合到辅助纯化结构域。如本文中使用的，“辅助纯化结构域”指介导与其融合的多肽的纯化的结构域。合适的纯化结构域包括但不限于金属螯合肽、允许在固定的金属上纯化的组氨酸-色氨酸模块、结合谷胱甘肽(例如GST)的序列、血球凝集素(HA)标签(对应于源自流感血球凝集素蛋白的表位；参见例如Wilson等人,Cell 37：767[1984])、麦芽糖结合蛋白序列、在FLAGS延伸/亲和纯化系统(例如，可从Immunex Corp获得的系统)中使用的FLAG表位，等等。预期用于在本文描述的组合物和方法中使用的一种表达载体提供表达包含本发明的多肽的融合蛋白，本发明的多肽被融合到多组氨酸区，由肠激酶裂解位点隔开。组氨酸残基有助于在IMIAC(固定化金属离子亲和色谱；参见例如Porath等人,Prot.J.Exp.Purif.,3：263-281[1992])上纯化，同时肠激酶裂解位点提供用于从融合蛋白分离变体PGA多肽的手段。pGEX载体(Promega)还可以被用于以与谷胱甘肽S-转移酶融合的外源多肽表达融合蛋白。一般而言，此类融合蛋白是可溶的并且可以被容易地通过吸附到配体-琼脂糖珠(例如在GST-融合的情况下是谷胱甘肽-琼脂糖)从裂解的细胞中纯化，然后在游离配体的存在下洗脱。

实验

本公开内容的各种特征和实施方案在以下代表性实施例中进行了说明，这些实施例旨在说明而非限制。

在以下实验公开内容中，使用以下缩写：ppm(百万分率)；M(摩尔/升)；mM(毫摩/升)，uM和μM(微摩/升)；nM(纳摩/升)；mol(摩尔)；gm和g(克)；mg(毫克)；ug和μg(微克)；L和l(升)；ml和mL(毫升)；cm(厘米)；mm(毫米)；um和μm(微米)；sec.(秒)；min(分钟)；h和hr(小时)；U(单位)；MW(分子量)；rpm(转每分)；℃(摄氏度)；RT(室温)；CDS(编码序列)；DNA(脱氧核糖核酸)；RNA(核糖核酸)；TB(Terrific肉汤；12g/L细菌-胰蛋白胨、24g/L酵母提取物、4mL/L甘油、65mM磷酸钾，pH 7.0，1mM MgSO₄)；CAM(氯霉素)；PMBS(多粘菌素B硫酸盐)；IPTG(异丙基硫代半乳糖苷)；TFA(三氟乙酸)；HPLC(高效液相色谱)；FIOPC(相对于阳性对照的倍数改进)；HTP(高通量)；LB(Luria肉汤)；Codexis(Codexis，Inc.，Redwood City，CA)；Sigma-Aldrich(Sigma-Aldrich，St.Louis，MO)；Millipore(Millipore，Corp.，BillericaMA)；Difco(Difco Laboratories，BD Diagnostic Systems，Detroit，MI)；Daicel(Daicel，West Chester，PA)；Genetix(Genetix USA，Inc.，Beaverton，OR)；Molecular Devices(Molecular Devices，LLC，SunnyVale，CA)；Applied Biosystems(Applied Biosystems，part of Life Technologies，Corp.，Grand Island，NY)，Agilent(AgilentTechnologies，Inc.，Santa Clara，CA)；Thermo Scientific(Thermo Fisher Scientific的一部分，Waltham，MA)；(Infors；Infors-HT，Bottmingen/Basel，Switzerland)；Corning(Corning，Inc.，Palo Alto，CA)；和Bio-Rad(Bio-Rad Laboratories，Hercules，CA)；Microfluidics(Microfluidics Corp.，Newton，MA，United States of America)。

在本发明中使用以下序列。

SEQ ID NO：1(PGA WT多核苷酸序列)

ATGAAAAATAGAAATCGTATGATCGTGAACGGTATTGTGACTTCCCTGATCTGTTGTTCTAGCCTGTCAGCGCTGGCGGCAAGCCCGCCAACCGAGGTTAAGATCGTTCGCGATGAATACGGCATGCCGCATATTTACGCCGATGATACCTATCGACTGTTTTACGGCTATGGCTACGTGGTGGCGCAGGATCGCCTGTTCCAGATGGAAATGGCGCGCCGCAGTACTCAGGGGACCGTCTCCGAGGTGCTGGGCAAAGCATTCGTCAGTTTTGATAAAGATATTCGCCAGAACTACTGGCCGGATTCTATTCGCGCGCAGATAGCTTCCCTCTCCGCTGAGGATAAATCCATTCTGCAGGGCTATGCCGATGGCATGAATGCGTGGATCGATAAAGTGAACGCCAGCCCCGATAAGCTGTTACCCCAGCAGTTCTCCACCTTTGGTTTTAAACCCAAGCATTGGGAACCGTTTGATGTGGCGATGATTTTTGTCGGCACCATGGCGAACCGGTTTTCTGACAGCACCAGCGAAATTGATAACCTGGCGCTGCTGACGGCGCTAAAAGATAAATACGGCAAGCAGCAGGGCATGGCGGTCTTTAACCAGCTGAAATGGCTGGTTAATCCTTCCGCGCCAACCACCATTGCGGCGCGGGAAAGCGCCTATCCGCTGAAGTTTGATCTGCAAAACACGCAAACGGCGGCGCTGCTGCCGCGCTACGACCAGCCGGCACCGATGCTCGACCGCCCGGCAAAAGGGACCGATGGCGCGCTGCTGGCGCTGACCGCCGATCAGAACCGGGAAACTATCGCCGCGCAGTTCGCGCAAAGCGGCGCTAACGGCCTGGCTGGCTACCCGACCACTAGCAATATGTGGGTGATTGGCAAAAACAAAGCCCAGGATGCGAAGGCCATTATGGTCAATGGGCCGCAGTTTGGTTGGTATGCGCCGGCGTACACCTACGGTATCGGCCTGCACGGCGCGGGCTATGACGTCACCGGCAATACGCCGTTTGCCTATCCGGGCCTCGTTTTTGGTCACAACGGCACCATTTCATGGGGATCCACCGCCGGTTTTGGTGATGATGTCGATATCTTTGCCGAAAAACTTTCCGCCGAGAAGCCGGGCTATTACCAGCATAACGGCGAGTGGGTGAAGATGTTGAGCCGCAAGGAGACTATTGCGGTCAAAGACGGCCAGCCGGAGACCTTTACCGTTTGGCGCACGCTGCACGGCAACGTCATTAAAACCGATACTGCGACGCAGACCGCCTATGCCAAAGCGCGCGCCTGGGATGGCAAAGAGGTGGCGTCCCTGCTGGCGTGGACGCACCAGATGAAGGCCAAAAACTGGCCGGAGTGGACGCAGCAGGCGGCCAAACAGGCGCTGACCATTAACTGGTACTACGCCGATGTGAACGGCAATATCGGCTATGTGCATACCGGCGCCTATCCGGATCGCCAGCCCGGCCACGACCCGCGTTTGCCGGTTCCCGGCACTGGAAAATGGGACTGGAAAGGGTTGCTGTCGTTTGATTTGAATCCGAAAGTGTATAACCCGCAGTCGGGCTATATCGCCAACTGGAACAACTCGCCGCAAAAAGACTACCCGGCCTCTGATCTGTTCGCGTTCCTGTGGGGCGGTGCGGATCGAGTTACTGAGATCGACACGATCCTCGATAAGCAACCGCGCTTCACCGCCGATCAGGCGTGGGATGTGATCCGCCAAACCAGCCGTCGGGATCTCAACCTGCGGTTGTTCTTACCGGCGCTGAAGGACGCCACCGCGAACCTGGCGGAAAACGATCCGCGCCGCCAACTGGTGGATAAACTGGCGAGCTGGGACGGTGAAAACCTTGTCAACGATGACGGAAAAACCTATCAGCAACCGGGATCGGCGATTCTTAACGCCTGGCTGACCAGCATGCTCAAGCGCACGGTGGTTGCCGCGGTCCCAGCGCCGTTTGGCAAGTGGTACAGCGCCAGTGGCTATGAAACCACCCAGGACGGGCCAACCGGCTCGCTGAACATCAGCGTGGGGGCGAAAATCCTCTACGAAGCTCTGCAGGGTGATAAGTCGCCAATCCCGCAGGCGGTCGATCTGTTTGGCGGGAAACCGCAGCAGGAAGTGATACTGGCGGCGCTGGACGACGCTTGGCAGACGCTGTCAAAACGCTACGGTAACGACGTCACCGGCTGGAAAACCCCTGCCATGGCGCTTACCTTCCGGGCCAATAACTTCTTCGGCGTGCCGCAGGCGGCAGCAAAAGAGGCGCGTCATCAGGCGGAGTACCAGAACCGCGGTACGGAAAACGACATGATTGTCTTCTCACCGACGTCGGGTAACCGCCCGGTTCTTGCCTGGGATGTGGTGGCGCCGGGGCAAAGCGGTTTTATCGCGCCGGATGGCAAAGCCGATAAGCACTATGACGATCAGCTGAAAATGTACGAGAGCTTTGGCCGTAAATCGCTGTGGTTAACGCCTCAGGACGTTGACGAGCACAAAGAGTCTCAGGAAGTGCTGCAGGTACAGCGCTAA(SEQ ID NO：1)

SEQ ID NO：2(PGA WT多肽序列)

MKNRNRMIVNGIVTSLICCSSLSALAASPPTEVKIVRDEYGMPHIYADDTYRLFYGYGYVVAQDRLFQMEMARRSTQGTVSEVLGKAFVSFDKDIRQNYWPDSIRAQIASLSAEDKSILQGYADGMNAWIDKVNASPDKLLPQQFSTFGFKPKHWEPFDVAMIFVGTMANRFSDSTSEIDNLALLTALKDKYGKQQGMAVFNQLKWLVNPSAPTTIAARESAYPLKFDLQNTQTAALLPRYDQPAPMLDRPAKGTDGALLALTADQNRETIAAQFAQSGANGLAGYPTTSNMWVIGKNKAQDAKAIMVNGPQFGWYAPAYTYGIGLHGAGYDVTGNTPFAYPGLVFGHNGTISWGSTAGFGDDVDIFAEKLSAEKPGYYQHNGEWVKMLSRKETIAVKDGQPETFTVWRTLHGNVIKTDTATQTAYAKARAWDGKEVASLLAWTHQMKAKNWPEWTQQAAKQALTINWYYADVNGNIGYVHTGAYPDRQPGHDPRLPVPGTGKWDWKGLLSFDLNPKVYNPQSGYIANWNNSPQKDYPASDLFAFLWGGADRVTEIDTILDKQPRFTADQAWDVIRQTSRRDLNLRLFLPALKDATANLAENDPRRQLVDKLASWDGENLVNDDGKTYQQPGSAILNAWLTSMLKRTVVAAVPAPFGKWYSASGYETTQDGPTGSLNISVGAKILYEALQGDKSPIPQAVDLFGGKPQQEVILAALDDAWQTLSKRYGNDVTGWKTPAMALTFRANNFFGVPQAAAKEARHQAEYQNRGTENDMIVFSPTSGNRPVLAWDVVAPGQSGFIAPDGKADKHYDDQLKMYESFGRKSLWLTPQDVDEHKESQEVLQVQR(SEQ ID NO：2)

SEQ ID NO：3(PGA变体1多核苷酸序列)

AGCAATATGTGGGTGATTGGCAAAAACAAAGCCCAGGATGCGAAGGCCATTATGGTCAATGGGCCGCAGTTTGGTTGGTATGTGCCGGCGTACACCTACGGTATCGGCCTGCACGGCGCGGGCTATGACGTCACCGGCAATACGCCGTTTGCCTATCCGGGCCTCGTTTTTGGTCACAACGGCACCATTTCATGGGGATCCACCGCCGGTGGTGGTGATGATGTCGATATCTTTGCCGAAAAACTTTCCGCCGAGAAGCCGGGCTATTACCAGCATAACGGCGAGTGGGTGAAGATGTTGAGCCGCAAGGAGACTATTGCGGTCAAAGACGGCCAGCCGGAGACCTTTACCGTTTGGCGCACGCTGCACGGCAACGTCATTAAAACCGATACTGCGACGCAGACCGCCTATGCCAAAGCGCGCGCCTGGGATGGCAAAGAGGTGGCGTCCCTGCTGGCGTGGACGCACCAGATGAAGGCCAAAAACTGGCCGGAGTGGACGCAGCAGGCGGCCAAACAGGCGCTGACCATTAACTGGTACTACGCCGATGTGAACGGCAATATCGGCTATGTGCATACCGGCGCCTATCCGGATCGCCAGCCCGGCCACGACCCGCGTTTGCCGGTTCCCGGCACTGGAAAATGGGACTGGAAAGGGTTGCTGTCGTTTGATTTGAATCCGAAAGTGTATAACCCGCAGTCGGGCTATATCGCCAACTGGAACAACTCGCCGCAAAAAGACTACCCGGCCTCTGATCTGTTCGCGTTCCCTGTGGGGCGGTGCGGATCGAGTTACTGAGATCGACACGATCCTCGATAAGCAACCGCGCTTCACCGCCGATCAGGCGTGGGATGTGATCCGCCAAACCAGCCGTCGGGATCTCAACCTGCGGTTGTTCTTACCGGCGCTGAAGGACGCCACCGCGAACCTGGCGGAAAACGATCCGCGCCGCCAACTGGTGGATAAACTGGCGAGCTGGGACGGCGAAAACCTTGTCAACGATGACGGAAAAACCTATCAGCAACCGGGATCGGCGATTCTTAACGCCTGGCTGACCAGCATGCTCAAGCGCACGGTGGTTGCCGCGGTCCCAGCGCCGTTTGGTAAGTGGTACAGCGCCAGTGGCTATGAAACCACCCAGGACGGGCCAACCGGCTCGCTGAACATCAGCGTGGGGGCGAAAATCCTCTACGAAGCTCTGCAGGGTGATAAGTCGCCAATCCCGCAGGCGGTCGATCTGTTTGGCGGGAAACCGCAGCAGGAAGTAATACTGGCGGCGCTGGACGACGCTTGGCAGACGCTGTCAAAACGCTACGGTAACGACGTCACCGGCTGGAAAACCCCTGCCATGGCGCTTACCTTCCGGGCCAATAACTTCTTCGGCGTGCCGCAGGCGGCAGCAAAAGAGGCGCGTCATCAGGCGGAGTACCAGAACCGCGGTACGGAAAACGACATGATTGTCTTCTCACCGACGTCGGGTAACCGCCCGGTTCTTGCCTGGGATGTGGTGGCGCCGGGGCAAAGCGGTTTTATCGCGCCGGATGGCAAAGCCGATAAGCACTATGACGATCAGCTGAAAATGTACGAGAGCTTTGGCCGTAAATCGCTGTGGTTAACGCCTCAGGACGTTGACGAGCACCAAGAGTCTCAGGAAGTGCTGCAGGTACAGTTGGATCAGACCGAGGTTAAGATCGTTCGCGATGAATACGGCATGCCGCATATTTACGCCGATGATACCTATCGACTGTTTTACGGCTATGGCTACGTGGTGGCGCAGGATCGCCTGTTCCAGATGGAAATGGCGCGCCGCAGTACTCAGGGGACCGTCTCCGAGGTGCTGGGCAAAGCATTCGTCAGTTTTGATAAAGATATTCGCCAGAACTACTGGCCGGATTCTATTCGCGCCGCAGATAGCTTCCCTCTCCGCTGAGGATAAATCCATTCTGCAGGGCTATGCCGATGGCATGAATGCGTGGATCGATAAAGTGAACGCCAGCCCCGATAAGCTGTTACCCCCAGCAGTTCTCCACCTTTGGTTTTAAACCCAAGCATTGGGAACCGTTTGATGTGGCGATGATTTTTGTCGGCACCATGGCGAACCGTTTCTCTGACAGCACCAGCGAAATTGATAACCTGGCGCTGCTGACGGCGCTAAAAGACAAATACGGCAAGCAGCAGGGCATGGCGGTCTTTAACCAGCTGAAATGGCTGGTTAATCCTTCCGCGCCAACCACCATTGCGGCGCGGGAAAGCGCCTATCCGCTGAAGTTTGATCTGCAAAACACGCAAACGGCGTAA(SEQ ID NO：3)

SEQ ID NO：4(PGA变体1多肽序列)

SNMWVIGKNKAQDAKAIMVNGPQFGWYVPAYTYGIGLHGAGYDVTGNTPFAYPGLVFGHNGTISWGSTAGGGDDVDIFAEKLSAEKPGYYQHNGEWVKMLSRKETIAVKDGQPETFTVWRTLHGNVIKTDTATQTAYAKARAWDGKEVASLLAWTHQMKAKNWPEWTQQAAKQALTINWYYADVNGNIGYVHTGAYPDRQPGHDPRLPVPGTGKWDWKGLLSFDLNPKVYNPQSGYIANWNNSPQKDYPASDLFAFLWGGADRVTEIDTILDKQPRFTADQAWDVIRQTSRRDLNLRLFLPALKDATANLAENDPRRQLVDKLASWDGENLVNDDGKTYQQPGSAILNAWLTSMLKRTVVAAVPAPFGKWYSASGYETTQDGPTGSLNISVGAKILYEALQGDKSPIPQAVDLFGGKPQQEVILAALDDAWQTLSKRYGNDVTGWKTPAMALTFRANNFFGVPQAAAKEARHQAEYQNRGTENDMIVFSPTSGNRPVLAWDVVAPGQSGFIAPDGKADKHYDDQLKMYESFGRKSLWLTPQDVDEHQESQEVLQVQLDQTEVKIVRDEYGMPHIYADDTYRLFYGYGYVVAQDRLFQMEMARRSTQGTVSEVLGKAFVSFDKDIRQNYWPDSIRAQIASLSAEDKSILQGYADGMNAWIDKVNASPDKLLPQQFSTFGFKPKHWEPFDVAMIFVGTMANRFSDSTSEIDNLALLTALKDKYGKQQGMAVFNQLKWLVNPSAPTTIAARESAYPLKFDLQNTQTA(SEQID NO：4)

SEQ ID NO：5(PGA变体6多核苷酸序列)

AGCAATATGTGGGTGATTGGCAAAAACAAAGCCCAGGATGCGAAGGCCATTATGGTCAATGGGCCGCAGTTTGGTTGGTATGTGCCGGCCTATACCTACGGTATCGGCCTGCACGGCGCGGGCTATGACGTCACCGGCAATACGCCGTTTGCCTATCCGGGCCTCGTTTTTGGTCACAACGGCACCATTTCATGGGGATCCACCGCCGGTGGTGGTGATGATGTCGATATCTTTGCCGAAAAACTTTCCGCCGAGAAGCCGGGCTATTACCAGCATAACGGCGAGTGGGTGAAGATGTTGAGCCGCAAGGAGACTATTGCGGTCAAAGACGGCCAGCCGGAGACCTTTACCGTTTGGCGCACGCTGCACGGCAACGTCATTAAAACCGATACTGCGACGCAGACCGCCTATGCCAAAGCGCGCGCCTGGGATGGCAAAGAGGTGGCGTCCCTGCTGGCGTGGACGCACCAGATGAAGGCCAAAAACTGGCCGGAGTGGACGCAGCAGGCGGCCAAACAGGCGCTGACCATCAACTGGTACTACGCCGATGTGAACGGCAATATCGGCTATGTGCATACCGGCGCCTATCCGGATCGCCAGCCCGGCCACGACCCGCGTTTGCCGGTTCCCGGCACTGGAAAATGGGACTGGAAAGGGTTGCTGTCGTTTGATTTGAATCCGAAAGTGTATAACCCGCAGTCGGGCTATATCGCCAACTGGAACAACTCGCCGCAAAAAGACTACCCGGCCTCTGATCTGTTCGCGTTCCTGTGGGGCGGTGCGGATCGAGCGACTGAGATCGACACGATCCTCGATAAGCAACCGCGCTTCACCGCCGATCAGGCGTGGGATGTGATCCGCCAAACCAGCCGTCGGGATCTCAACCTGCGGTTGTTCTTACCGGCGCTGAAGGACGCCACCGCCAACCTGGCGGAAAACGATCCGCGCCGCCAACTGGTGGATAAACTGGCGAGCTGGGACGGCGAAAACCTTGTCAACGATGACGGAAAAACCTATCAGCAACCGGGATCGGCGATTCTTAACGCCTGGCTGACCAGCATGCTCAAGCGCACGGTGGTTGCCGCGGTCCCAGCGCCGTTTGGTAAGTGGTACAGCGCCAGTGGCTATGAAACCACCCAGGACGGGCCAACCGGCTCGCTGAACATCAGCGTGGGGGCGAAAATCCTCTACGAAGCTCTGCAGGGTGATAAGTCGCCAATCCCGCAGGCGGTCGATCTGTTTGGCGGGAAACCGCAGCAGGAAGTAATACTGGCGGCGCTGGACGACGCTTGGCAGACGCTGTCAAAACGCTACGGTAACGACGTCACCGGCTGGAAAACCCCTGCCATGGCGCTTACCTTCCGGGCCAATAACTTCTTCGGCGTGCCGCAGGCGGCAGCAAAAGAGGCGCGTCATCAGGCGGAGTACCAGAACCGCGGTACGGAAAACAACATGATTGTCTTCTCACCGACGTCGGGTAACCGCCCGGTTCTTGCCTGGGATGTGGTGGCGCCGGGGCAAAGCGGTTTTATCGCGCCGGATGGCAAAGCCGATAAGCACTATGACGATCAGCTGAAAATGTACGAGAGCTTTGGCCGTAAATCGCTGTGGTTAACGCCTCAGGACGTTGACGAGCACAAAGAGTCTCAGGAAGTGCTGCAGGTACAGTTGGATCAGACCGAGGTTAAGATCGTTCGCGATGAATACGGCATGCCGCATATTTACGCCGATGATACCTATCGACTGTTTTACGGCTATGGCTACGTGGTGGCGCAGGATCGCCTGTTCCAGATGGAAATGGCGCGCCGCAGTACTCAGGGGACCGTCTCCGAGGTCCTGGGCAAAGCATTCGTCAGTTTTGATAAAGATATTCGCCAGAACTACTGGCCGGATTCTATTCGCGCGCAGATAGCTTCCCTCTCCGCTGAGGATAAATCCATTCTGCAGGGCTATGCCGATGGCATGAATGCGTGGATCGATAAAGTGAACGCCAGCCCCGATAAGCTGTTACCCCAGCAGTTCTCCACCTTTGGTTTTAAACCCAAGCATTGGGAACCGTTTGATGTGGCGATGATTTTTGTCGGCACCATGGCGAACCGTTTTTCTGACAGCACCAGCGAAATTGATAACCTGGCGCTGCTGACGGCGCTAAAAGACAAATACGGCAAGCAGCAGGGCATGGCGGTCTTTAACCAGCTGAAATGGGTGGTTAATCCTTCCGCGCCAACCACCATTGCGGCGCGGGAAAGCGCCTATCCGCTGAAGTTTGATCTGCAAAACACGCAAACGGCGTAA(SEQ ID NO：5)

SEQ ID NO：6(PGA变体6多肽序列)

SNMWVIGKNKAQDAKAIMVNGPQFGWYVPAYTYGIGLHGAGYDVTGNTPFAYPGLVFGHNGTISWGSTAGGGDDVDIFAEKLSAEKPGYYQHNGEWVKMLSRKETIAVKDGQPETFTVWRTLHGNVIKTDTATQTAYAKARAWDGKEVASLLAWTHQMKAKNWPEWTQQAAKQALTINWYYADVNGNIGYVHTGAYPDRQPGHDPRLPVPGTGKWDWKGLLSFDLNPKVYNPQSGYIANWNNSPQKDYPASDLFAFLWGGADRATEIDTILDKQPRFTADQAWDVIRQTSRRDLNLRLFLPALKDATANLAENDPRRQLVDKLASWDGENLVNDDGKTYQQPGSAILNAWLTSMLKRTVVAAVPAPFGKWYSASGYETTQDGPTGSLNISVGAKILYEALQGDKSPIPQAVDLFGGKPQQEVILAALDDAWQTLSKRYGNDVTGWKTPAMALTFRANNFFGVPQAAAKEARHQAEYQNRGTENNMIVFSPTSGNRPVLAWDVVAPGQSGFIAPDGKADKHYDDQLKMYESFGRKSLWLTPQDVDEHKESQEVLQVQLDQTEVKIVRDEYGMPHIYADDTYRLFYGYGYVVAQDRLFQMEMARRSTQGTVSEVLGKAFVSFDKDIRQNYWPDSIRAQIASLSAEDKSILQGYADGMNAWIDKVNASPDKLLPQQFSTFGFKPKHWEPFDVAMIFVGTMANRFSDSTSEIDNLALLTALKDKYGKQQGMAVFNQLKWLVNPSAPTTIAARESAYPLKFDLQNTQTA(SEQID NO：6)

SEQ ID NO：7(PGA变体53多核苷酸序列)

AGCAATATGTGGGTGATTGGCAAAAACAAAGCCCAGGATGCGAAGGCCATTATGGTCAATGGGCCGCAGTTTGGTTGGTTTAATCCGGCGTACACCTACGGTATCGGCCTGCACGGCGCGGGCTATGACGTCACCGGCAATACGCCGTTTGCCTATCCGGGCCTCCTGTTTGGTCACAACGGCACCATTTCATGGGGATCCACCGCCGGTGGTGGTGATGATGTCGATATCTTTGCCGAAAAACTTTCCGCCGAGAAGCCGGGCTATTACCAGCATAACGGCGAGTGGGTGAAGATGTTGAGCCGCAAGGAGACTATTGCGGTCAAAGACGGCCAGCCGGAGACCTTTACCGTTTGGCGCACGCTGCACGGCAACGTCATTAAAACCGATACTGCGACGCAGACCGCCTATGCCAAAGCGCGCGCCTGGGATGGCAAAGAGGTGGCGTCCCTGCTGGCGTGGACGCACCAGATGAAGGCCAAAAACTGGCCGGAGTGGACGCAGCAGGCGGCCAAACAGGCGCTGACCATTAACTGGTACTACGCCGATGTGAACGGCAATATCGGCTATGTGCATACCGGCGCCTATCCGGATCGCCAGCCCGGCCACGACCCGCGTTTGCCGGTTCCCGGCACTGGAAAATGGGACTGGAAAGGGTTGCTGTCGTTTGATTTGAATCCGAAAGTGTATAACCCGCAGTCGGGCTATATCGCCAACTGGAACAACTCGCCGCAAAAAGACTACCCGGCCTCTGATCTGTTCGCGTTCCTGTGGGGCGGTGCGGATCGAGTTACTGAGATCGACACGATCCTCGATAAGCAACCGCGCTTCACCGCCGATCAGGCGTGGGATGTGATCCGCCAAACCAGCCGTCGGGATCTCAACCTGCGGTTGTTCTTACCGGCGCTGAAGGACGCCACCGCGAACCTGGCGGAAAACGATCCGCGCCGCCAACTGGTGGATAAACTGGCGAGCTGGGACGGCGAAAACCTTGTCAACGATGACGGAAAAACCTATCAGCAACCGGGATCGGCGATTCTTAACGCCTGGCTGACCAGCATGCTCAAGCGCACGGTGGTTGCCGCGGTCCCAGCGCCGTTTGGTAAGTGGTACAGCGCCAGTGGCTATGAAACCACCCAGGACGGGCCAACGGCTCGCTGAACATCAGCGTGGGGGCGAAAATCCTCTACGAAGCTCTGCAGGGTGATAAGTCGCCAATCCCGCAGGCGGTCGATCTGTTTGGCGGGAAACCGCAGCAGGAAGTAATACTGGCGGCGCTGGACGACGCTTGGCAGACGCTGTCAAAACGCTACGGTAACGACGTCACCGGCTGGAAAACCCCTGCCATGGCGCTTACCTTCCGGGCCAATAACTTCTTCGGCGTGCCGCAGGCGGCAGCAAAAGAGGCGCGTCATCAGGCGGAGTACCAGAACCGCGGTACGGAAAACGACATGATTGTCTTCTCACCGACGTCGGGTAACCGCCCGGTTCTTGCCTGGGATGTGGTGGCGCCGGGGCAAAGCGGTTTTATCGCGCCGGATGGCAAAGCCGATAAGCACTATGACGATCAGCTGAAAATGTACGAGAGCTTTGGCCGTAAATCGCTGTGGTTAACGCCTCAGGACGTTGACGAGCACCAAGAGTCTCAGGAAGTGCTGCAGGTACAGTTGGATCAGACCGAGGTTAAGATCGTTCGCGATGAATACGGCATGCCGCATATTTACGCCGATGATACCTATCGACTGTTTTACGGCTATGGCTACGTGGTGGCGCAGGATCGCCTGTTCCAGATGGAAATGGCGCGCCGCAGTACTCAGGGGACCGTCTCCGAGGTGCTGGGCAAAGCTTTCGTTTCTTTTGATAAAGATATTCGCCAGAACTACTGGCCGGATTCTATTCGCGCGCAGATAGCTTCCCTCTCCGCTGAGGATAAATCCATTCTGCAGGGCTATGCCGATGGCATGAATGCGTGGATCGATAAAGTGAACGCCAGCCCCGATAAGCTGTTACCCCAGCAGTTCTCCACCTTTGGTTTTAAACCCAAGCATTGGGAACCGTTTGATGTGGCGATGATTTTTGTCGGCACCATGGCGAACCGTTTCTCTGACAGCACCAGCGAAATTGATAACCTGGCGCTGCTGACGGCGCTAAAAGACAAATACGGCAAGCAGCAGGGCATGGCGGTCTTTAACCAGCTGAAATGGCTGGTTAATCCTTCCGCGCCAACCACCATTGCGGCGCGGGAAAGCGCCTATCCGCTGAAGTTTGATCTGCAAAACACGCAAACGGCGTAA(SEQ ID NO：7)

SEQ ID NO：8(PGA变体53多肽序列)

SNMWVIGKNKAQDAKAIMVNGPQFGWFNPAYTYGIGLHGAGYDVTGNTPFAYPGLLFGHNGTISWGSTAGGGDDVDIFAEKLSAEKPGYYQHNGEWVKMLSRKETIAVKDGQPETFTVWRTLHGNVIKTDTATQTAYAKARAWDGKEVASLLAWTHQMKAKNWPEWTQQAAKQALTINWYYADVNGNIGYVHTGAYPDRQPGHDPRLPVPGTGKWDWKGLLSFDLNPKVYNPQSGYIANWNNSPQKDYPASDLFAFLWGGADRVTEIDTILDKQPRFTADQAWDVIRQTSRRDLNLRLFLPALKDATANLAENDPRRQLVDKLASWDGENLVNDDGKTYQQPGSAILNAWLTSMLKRTVVAAVPAPFGKWYSASGYETTQDGPTGSLNISVGAKILYEALQGDKSPIPQAVDLFGGKPQQEVILAALDDAWQTLSKRYGNDVTGWKTPAMALTFRANNFFGVPQAAAKEARHQAEYQNRGTENDMIVFSPTSGNRPVLAWDVVAPGQSGFIAPDGKADKHYDDQLKMYESFGRKSLWLTPQDVDEHQESQEVLQVQLDQTEVKIVRDEYGMPHIYADDTYRLFYGYGYVVAQDRLFQMEMARRSTQGTVSEVLGKAFVSFDKDIRQNYWPDSIRAQIASLSAEDKSILQGYADGMNAWIDKVNASPDKLLPQQFSTFGFKPKHWEPFDVAMIFVGTMANRFSDSTSEIDNLALLTALKDKYGKQQGMAVFNQLKWLVNPSAPTTIAARESAYPLKFDLQNTQTA(SEQID NO：8)

SEQ ID NO：9(PGA变体261多核苷酸序列)

AGGAATATGTGGGTGATTGGCAAAAACAAAGCCCAGGATGCGAAGGCCATTATGGTCAATGGGCCGCAGTTTGGTTGGTATAATCCGGCGTATACCTACGGTATCGGCCTGCACGGCGCGGGCTATGACGTCACCGGCAATACGCCGTTTGCCTATCCGGGCCTCCTTTTTGGTCACAACGGCACCATTTCATGGGGATCCACCGCCGGTGCCGGTGATGTCGTCGATATCTTTGCCGAAAAACTTTCCGCCGAGAAGCCGGGCTATTACCAGCATAACGGCGAGTGGGTGAAGATGTTGAGCCGCAAGGAGACTATTGCGGTCAAAGACGGCCAGCCGGAGACCTTTACCGTTTGGCGCACGCTGCACGGCAACGTCATTAAAACCGATACTGCGACGCAGACCGCCTATGCCAAAGCGCGCGCCTGGGATGGCAAAGAGGTGGCGTCCCTGCTGGCGTGGACGCACCAGATGAAGGCCAAAAACTGGCCGGAGTGGACGCAGCAGGCGGCCAAACAGGCGCTGACCATCAACTGGTACTACGCCGATGTGAACGGCAATATCGGCTATGTGCATACCGGCGCCTATCCGGATCGCCAGCCCGGCCACGACCCGCGTTTGCCGGTTCCCGGCACTGGAAAATGGGACTGGAAAGGGTTGCTGTCGTTTGATTTGAATCCGAAAGTGTATAACCCGCAGTCGGGCTATATCGCCAACTGGAACAACTCGCCGCAAAAAGACTACCCGGCCTCTGATCTGTTCGCGTTCCTGTGGGGCGGTGCGGATCGAGCGACTGAGATCGACACGATCCTCGATAAGCAACCGCGCTTCACCGCCGATCAGGCGTGGGATGTGATCCGCCAAACCAGCCGTCGGGATCTCAACCTGCGGTTGTTCTTACCGGCGCTGAAGGACGCCACCGCCAACCTGGCGGAAAACGATCCGCGCCGCCAACTGGTGGATAAACTGGCGAGCTGGGACGGCGAAAACCTTGTCAACGATGACGGAAAAACCTATCAGCAACCGGGATCGGCGATTCTTAACGCCTGGCTGACCAGCATGCTCAAGCGCACGGTGGTTGCCGCGGTCCCAGCGCCGTTTGGTAAGTGGTACAGCGCCAGTGGCTATGAAACCACCCAGGACGGGCCAACCGGCTCGCTGAACATCAGCGTGGGGGCGAAAATCCTCTACGAAGCTCTGCAGGGTGATAAGTCGCCAATCCCGCAGGCGGTCGATCTGTTTGGCGGGAAACCGCAGCAGGAAGTAATACTGGCGGCGCTGGACGACGCTTGGCAGACGCTGTCAAAACGCTACGGTAACGACGTCACCGGCTGGAAAACCCCTGCCATGGCGCTTACCTTCCGGGCCAATAACTTCTTCGGCGTGCCGCAGGCGGCAGCAAAAGAGGCGCGTCATCAGGCGGAGTACCAGAACCGCGGTACGGAAAACAACATGATTGTCTTCTCACCGACGTCGGGTAACCGCCCGGTTCTTGCCTGGGATGTGGTGGCGCCGGGGCAAAGCGGTTTTATCGCGCCGGATGGCAAAGCCGATAAGCACTATGACGATCAGCTGAAAATGTACGAGAGCTTTGGCCGTAAATCGCTGTGGTTAACGCCTCAGGACGTTGACGAGCACAAAGAGTCTCAGGAAGTGCTGCAGGTACAGTTGGATCAGACCGAGGTTAAGATCGTTCGCGATGAATACGGCATGCCGCATATTTACGCCGATGATACCTATCGACTGTTTTACGGCTATGGCTACGTGGTGGCGCAGGATCGCCTGTTCCAGATGGAAATGGCGCGCCGCAGTACTCAGGGGACCGTCTCCGAGGTGCTGGGCAAAGCATTCGTTTCATTTGATAAAGATATTCGCCAGAACTACTGGCCGGATTCTATTCGCGCGCAGATAGCTTCCCTCTCCGCTGAGGATAAATCCATTCTGCAGGGCTATGCCGATGGCATGAATGCGTGGATCGATAAAGTGAACGCCAGCCCCGATAAGCTGTTACCCCAGCAGTTCTCCACCTTTGGTTTTAAACCCAAGCATTGGGAACCGTTTGATGTGGCGATGATTTTTGTCGGCACCATGGCGAACCGTTTTTCTGACAGCACCAGCGAAATTGATAACCTGGCGCTGCTGACGGCGCTAAAAGACAAATACGGCAAGCAGCAGGGCATGGCGGTCTTTAACCAGCTGAAATGGCTGGTTAATCCTTCCGCGCCAACCACCATTGCGGCGGCGGGAAAGCGCCTATCCGCTGAAGTTTGATCTGCAAAACACGCAAACGGCGTAA(SEQ ID NO：9)

SEQ ID NO：10(PGA变体261多肽序列)

SNMWVIGKNKAQDAKAIMVNGPQFGWYNPAYTYGIGLHGAGYDVTGNTPFAYPGLLFGHNGTISWGSTAGAGDVVDIFAEKLSAEKPGYYQHNGEWVKMLSRKETIAVKDGQPETFTVWRTLHGNVIKTDTATQTAYAKARAWDGKEVASLLAWTHQMKAKNWPEWTQQAAKQALTINWYYADVNGNIGYVHTGAYPDRQPGHDPRLPVPGTGKWDWKGLLSFDLNPKVYNPQSGYIANWNNSPQKDYPASDLFAFLWGGADRATEIDTILDKQPRFTADQAWDVIRQTSRRDLNLRLFLPALKDATANLAENDPRRQLVDKLASWDGENLVNDDGKTYQQPGSAILNAWLTSMLKRTVVAAVPAPFGKWYSASGYETTQDGPTGSLNISVGAKILYEALQGDKSPIPQAVDLFGGKPQQEVILAALDDAWQTLSKRYGNDVTGWKTPAMALTFRANNFFGVPQAAAKEARHQAEYQNRGTENNMIVFSPTSGNRPVLAWDVVAPGQSGFIAPDGKADKHYDDQLKMYESFGRKSLWLTPQDVDEHKESQEVLQVQLDQTEVKIVRDEYGMPHIYADDTYRLFYGYGYVVAQDRLFQMEMARRSTQGTVSEVLGKAFVSFDKDIRQNYWPDSIRAQIASLSAEDKSILQGYADGMNAWIDKVNASPDKLLPQQFSTFGFKPKHWEPFDVAMIFVGTMANRFSDSTSEIDNLALLTALKDKYGKQQGMAVFNQLKWLVNPSAPTTIAARESAYPLKFDLQNTQTA(SFQID NO：10)

SEQ ID NO：11(PGA变体258多核苷酸序列)

AGCAATATGTGGGTGATTGGCAAAAACAAAGCCCAGGATGCGAAGGCCATTATGGTCAATGGGCCGCAGTTTGGTTGGTATAATCCGGCGTATACCTACGGTATCGGCCTGCACGGCGCGGGCTATGACGTCACCGGCAATACGCCGTTTGCCTATCCGGGCCTCCTTTTTGGTCACAACGGCACCATTTCATGGGGATCCACCGCCGGTGCCGGTGATAGCGTCGATATCTTTGCCGAAAAACTTTCCGCCGAGAAGCCGGGCTATTACCAGCATAACGGCGAGTGGGTGAAGATGTTGAGCCGCAAGGAGACTATTGCGGTCAAAGACGGCCAGCCGGAGACCTTTACCGTTTGGCGCACGCTGCACGGCAACGTCATTAAAACCGATACTGCGACGCAGACCGCCTATGCCAAAGCGCGCGCCTGGGATGGCAAAGAGGTGGCGTCCCTGCTGGCGTGGACGCACCAGATGAAGGCCAAAAACTGGCCGGAGTGGACGCAGCAGGCGGCCAAACAGGCGCTGACCATCAACTGGTACTACGCCGATGTGAACGGCAATATCGGCTATGTGCATACCGGCGCCTATCCGGATCGCCAGCCCGGCCACGACCCGCGTTTGCCGGTTCCCGGCACTGGAAAATGGGACTGGAAAGGGTTGCTGTCGTTTGATTTGAATCCGAAAGTGTATAACCCGCAGTCGGGCTATATCGCCAACTGGAACAACTCGCCGCAAAAAGACTACCCGGCCTCTGATCTGTTCGCGTTCCTGTGGGGCGGTGCGGATCGAGCGACTGAGATCGACACGATCCTCGATAAGCAACCGCGCTTCACCGCCGATCAGGCGTGGGATGTGATCCGCCAAACCAGCCGTCGGGATCTCAACCTGCGGTTGTTCTTACCGGCGCTGAAGGACGCCACCGCCAACCTGGCGGAAAACGATCCGCGCCGCCAACTGGTGGATAAACTGGCGAGCTGGGACGGCGAAAACCTTGTCAACGATGACGGAAAAACCTATCAGCAACCGGGATCGGCGATTCTTAACGCCTGGCTGACCAGCATGCTCAAGCGCACGGTGGTTGCCGCGGTCCCAGCGCCGTTTGGTAAGTGGTACAGCGCCAGTGGCTATGAAACCACCCAGGACGGGCCAACCGGCTCGCTGAACATCAGCGTGGGGGCGAAAATCCTCTACGAAGCTCTGCAGGGTGATAAGTCGCCAATCCCGCAGGCGGTCGATCTGTTTGGCGGGAAACCGCAGCAGGAAGTAATACTGGCGGCGCTGGACGACGCTTGGCAGACGCTGTCAAAACGCTACGGTAACGACGTCACCGGCTGGAAAACCCCTGCCATGGCGCTTACCTTCCGGGCCAATAACTTCTTCGGCGTGCCGCAGGCGGCAGCAAAAGAGGCGCGTCATCAGGCGGAGTACCAGAACCGCGGTACGGAAAACAACATGATTGTCTTCTCACCGACGTCGGGTAACCGCCCGGTTC下TGCCTGGGATGTGGTGGCGCCGGGGCAAAGCGGTTTTATCGCGCCGGATGGCAAAGCCGATAAGCACTATGACGATCAGCTGAAAATGTACGAGAGCTTTGGCCGTAAATCGCTGTGGTTAACGCCTCAGGACGTTGACGAGCACAAAGAGTCTCAGGAAGTGCTGCAGGTACAGTTGGATCAGACCGAGGTTAAGATCGTTCGCGATGAATACGGCATGCCGCATATTTACGCCGATGATACCTATCGACTGTTTTACGGCTATGGCTACGTGGTGGCGCAGGATCGCCTGTTCCAGATGGAAATGGCGCGCCGCAGTACTCAGGGGACCGTCTCCGAGGTGCTGGGCAAAGCATTCGTTAAGTTTGATAAAGATATTCGCCAGAACTACTGGCCGGATTCTATTCGCGCGCAGATAGCTTCCCTCTCCGCTGAGGATAAATCCATTCTGCAGGGCTATGCCGATGGCATGAATGCGTGGATCGATAAAGTGAACGCCAGCCCCGATAAGCTGTTACCCCAGCAGTTCTCCACCTTTGGTTTTAAACCCAAGCATTGGGAACCGTTTGATGTGGCGATGATTTTTGTCGGCACCATGGCGAACCGTTTTTCTGACAGCACCAGCGAAATTGATAACCTGGCGCTGCTGACGGCGCTAAAAGACAAATACGGCAAGCAGCAGGGCATGGCGGTCTTTAACCAGCTGAAATGGCTGGTTAATCCTTCCGCGCCAACCACCATTGCGGCGCGGGAAAGCGCCTATCCGCTGAAGTTTGATCTGCAAAACACGCAAACGGCGTAA(SEQ ID NO：11)

SEQ ID NO：12(PGA变体258多肽序列)

SNMWVIGKNKAQDAKAIMVNGPQFGWYNPAYTYGIGLHGAGYDVTGNTPFAYPGLLFGHNGTISWGSTAGAGDSVDIFAEKLSAFKPGYYQHNGEWVKMLSRKETIAVKDGQPETFTVWRTLHGNVIKTDTATQTAYAKARAWDGKEVASLLAWTHQMKAKNWPEWTQQAAKQALTINWYYADVNGNIGYVHTGAYPDRQPGHDPRLPVPGTGKWDWKGLLSFDLNPKVYNPQSGYIANWNNSPQKDYPASDLFAFLWGGADRATEIDTILDKQPRFTADQAWDVIRQTSRRDLNLRLFLPALKDATANLAENDPRRQLVDKLASWDGENLVNDDGKTYQQPGSAILNAWLTSMLKRTVVAAVPAPFGKWYSASGYETTQDGPTGSLNISVGAKILYEALQGDKSPIPQAVDLFGGKPQQEVILAALDDAWQTLSKRYGNDVTGWKTPAMALTFRANNFFGVPQAAAKEARHQAEYQNRGTENNMIVFSPTSGNRPVLAWDVVAPGQSGFIAPDGKADKHYDDQLKMYESFGRKSLWLTPQDVDEHKESQEVLQVQLDQTEVKIVRDEYGMPHIYADDTYRLFYGYGYVVAQDRLFQMEMARRSTQGTVSEVLGKAFVKFDKDIRQNYWPDSIRAQIASLSAEDKSILQGYADGMNAWIDKVNASPDKLLPQQFSTFGFKPKHWEPFDVAMIFVGTMANRFSDSTSEIDNLALLTALKDKYGKQQGMAVFNQLKWLVNPSAPTTIAARESAYPLKFDLQNTQTA(SEQID NO：12)

实施例1

包含重组PGA基因的大肠杆菌表达宿主

用于生产本发明的变体的初始PGA酶从Acylase Panel(Codexis)获得。PGA组平板包括与野生型Khuyvera citophila PGA相比具有改进的性质的工程化PGA多肽的集合。野生型PGA基因是由通过54aa间隔区连接的α亚基(23.8KDa)和β亚基(62.2KDa)组成的异二聚体。由于存在间隔区，需要自动加工步骤(autoprocessing step)以形成活性蛋白。野生型基因被修饰以消除间隔区，从而消除自动加工步骤。Acylase Panel(Codexis)含有缺乏间隔区的PGA变体(参见例如，美国专利申请公开2010/0143968A1)。PGA编码基因被克隆到表达载体pCK110900中(参见，美国专利申请公开第2006/0195947号的图3)，可操作地连接到在lacl阻遏子控制下的lac启动子。表达载体还含有P15a复制起点和氯霉素抗性基因。使用本领域已知的标准方法将所得的质粒转化到大肠杆菌W3110中。如本领域已知的，通过对细胞进行氯霉素选择来分离转化体(参见例如，美国专利第8,383,346号和WO2010/144103)。

实施例2

制备含有HTP PGA的湿细胞沉淀物

将来自单克隆菌落的含有重组PGA编码基因的大肠杆菌细胞接种到96孔浅孔微量滴定板的孔中的含有1％葡萄糖和30μg/mL氯霉素的180μl LB中。在30℃，200rpm和85％湿度的条件下使培养物生长过夜。然后，将10μl每种细胞培养物转移到含有390mL TB和30μg/mL CAM的96孔深孔板的孔中。将深孔板在30℃，250rpm和85％湿度的条件下孵育3小时(OD600 0.6-0.8)。然后用1mM终浓度的IPTG诱导细胞培养物，并在最初使用的相同条件下孵育过夜。然后，使用在4000rpm持续10min的离心使细胞沉淀。弃去上清液并在裂解前将沉淀物冷冻在-80℃。

实施例3

制备和分析含有HTP PGA的细胞裂解物

首先，向如实施例2中所描述的产生的每个孔中的细胞体(cell paste)添加含有20mM Tris-HCl缓冲液(pH 7.5)、1mg/mL溶菌酶和0.5mg/mL PMBS的250μl裂解缓冲液。伴随在台式振荡器(a bench top shaker)上震荡，使细胞室温裂解2小时。然后将平板在4000rpm和4℃离心15min。澄清的上清液被用于生物催化反应以确定它们的活性水平。

基于PGA变体去除化学连接到胰岛素的A1(甘氨酸)、B1(苯丙氨酸)和B29(赖氨酸)残基的三个乙酸苯酯基团的效率来评价所述变体的活性。在96孔深孔板中进行HTP反应。首先，0.3ml反应混合物含有0.1M Tris-HCl(pH 8.0)、5g/L三-保护的胰岛素(tri-protectedinsulin)和25-125μl之间的HTP裂解物(根据线性曲线)。将HTP板在振荡器中孵育(3mm摆幅(throw)，模式#AJI85，Infors，30℃，300rpm)6或22小时。用300μl乙腈猝灭反应并用台式振荡器混合3min。然后将平板在4000rpm离心2min并载入HPLC进行分析。使用Agilent eclipse XDB C18，5μm，21x150mm柱分析HTP样品。流速被设置为0.5ml/min并且温度被设置到50℃。流动相A为水+0.05％TFA，且流动相B为乙腈+0.05％TFA。运行时间为7.2分钟，使能够实现注射重叠(with injection overlap enabled)。梯度为0.2分钟75％流动相A，4.9分钟55％流动相A，5.4分钟5％流动相A，5.9分钟回到75％流动相A。

实施例4

从摇瓶(SF)培养物制备和分析冻干的裂解物

将选择的如上所描述培养的HTP培养物铺板于具有1％葡萄糖和30μg/ml CAM的LB琼脂平板上并在37℃生长过夜。将来自每个培养物的单个菌落转移至具有1％葡萄糖和30μg/ml CAM的50ml LB中。培养物在30℃、250rpm生长18h，并以约1：10传代培养至含30μg/mlCAM的250ml TB中，至最终OD₆₀₀为0.2。使培养物在30℃、250rpm生长135分钟，至OD₆₀₀在0.6-0.8之间，并用1mM IPTG诱导。然后使培养物在30℃、250rpm生长20h。4000rpm x 20min离心培养物。弃去上清液，并在30ml的50mM磷酸钠(pH 7.5)中重悬沉淀物。使细胞沉淀(4000rpmx 20min)并在-80℃冷冻120分钟。将冷冻的沉淀物重悬于30ml的50mM磷酸钠(pH7.5)中，并用Microfluidizer系统(Microfluidics)在18,000psi下裂解。使裂解物沉淀(10,000rpm x60min)并将上清液冷冻并冻干以产生摇瓶(SF)酶。

基于所选择的摇瓶PGA变体去除化学附接到胰岛素的A1(甘氨酸)、B1(苯丙氨酸)和B29(赖氨酸)残基的三个乙酸苯酯基团的效率来评价所述变体的活性。在96孔深孔板中进行摇瓶反应。首先，0.3ml反应混合物含有0.1M Tris-HCl(pH 8.0)、5g/L三-保护的胰岛素、0.1-0.8g/L之间的摇瓶裂解物。将深孔反应板在振荡器中(3mm摆幅，模式#AJI85，Infors)在30℃，300rpm条件下孵育22或6小时(对于第1轮进化孵育22小时，且对于第2轮进化孵育6小时)。用300μl乙腈猝灭反应并用台式振荡器混合3min。然后将平板在4000rpm离心2min并载入HPLC进行分析。使用Agilent eclipse XDB C18，5μm，2.1x150mm柱分析HTP样品。流速被设置为0.6ml/min并且温度被设置到50℃。流动相A为水+0.05％TFA，且流动相B为乙腈+0.05％TFA。运行时间为18.2分钟，使能够实现注射重叠。梯度为0-1分钟80％流动相A，12分钟60％流动相A，15分钟5％流动相A，16分钟回到80％流动相A。

实施例5

第1轮进化骨架选择、构建和筛选

根据以上实施例中描述的HTP方案，使用实施例4中描述的摇瓶方案评价Acylase Panel(Codexis)。来自Acylase Panel的变体中的一个(称为“变体1”)(SEQ ID NO：4)以0.8g/L摇瓶裂解物载量在22小时内产生54％游离胰岛素。使用变体1进行底物抑制研究(参见，图1)。随着三-保护的胰岛素底物浓度升高，由变体1催化的游离胰岛素的产生量显著下降。在5小时内，在0.8g/L的固定的酶载量下，游离胰岛素产生量从82％(1g/L底物载量)降低至2％(10g/L底物载量)。虽然本发明不意图受限于任何特定机制，这些结果表明更高浓度的三-保护的胰岛素底物引起底物抑制。在较低底物浓度时游离胰岛素产生的量增加(参见例如，Wang等人，Biopolymer 25：S109-S114[1986])。因此，本发明提供的优势之一是克服底物抑制的PGA变体生产。选择该变体作为用于第1轮进化的骨架。使用大肠杆菌PGA作为模板建立变体1的同源性模型(大肠杆菌PGA与野生型K.citrophilaPGA具有87％序列同一性)。三-保护的胰岛素被对接到变体1的活性位点以评价其与PGA的相互作用。然后，选择其氨基酸序列的96个位置进行第1轮进化，这96个位置覆盖活性位点和三-保护的胰岛素结合位点的第1层(在内的氨基酸残基)和第2层(在内的氨基酸残基)的一部分。还基于PGA组筛选结果和共有突变的分析设计了2个组合文库。使用如以上所描述的相同方案对在该第1轮进化中获得的变体进行所有HTP筛选，最终反应时间点为22小时。相对于变体1具有相应的总活性倍数改进的活性突变在以下表5.1中示出。在此表中，阳性对照是变体1(SEQ ID NO：4)。

“-”：FIOPC＜0.7

“+”：FIOPC＝0.7至1.3

“++”：FIOPC＝1.4至2.0

“+++”：FIOPC≥2.1

基于这些结果，变体6、19、14、67、88和53按比例放大至摇瓶体积，并使用之前实施例中描述的方案分析它们的活性。结果示于图2中。变体6以0.8g/L酶载量在22小时内产生93％游离胰岛素(参见，图2)并且与变体1相比实现了更佳的表达水平。变体53具有与变体1相似的表达水平，但与变体1产生的54％游离胰岛素相比，变体53产生73％游离胰岛素。基于这些结果，选择变体6(SEQ ID NO：6)作为用于下一轮(第2轮)进化的起始骨架。此变体还被称为“表达击中体(expression hit)”。变体53(SEQ NO ID：8)也被选择作为可选的第2轮骨架并被称为“活性击中体(activity hit)”。

实施例6

第2轮文库构建和筛选

从第1轮进化鉴定到的最有益的突变是D484N、V264A、Q547K、V56I、S750G、V56L、S619K、V28N、V618I和T131N。基于对第1轮结果的分析，使用变体6和变体53作为骨架设计2个组合文库。使用之前描述的方案进行对第2轮变体使用的全部HTP筛选方法，最终反应时间点为6小时。相对于变体6和变体53具有相应的总活性倍数改进的活性突变在以下表6.1和6.2中示出。表6.1提供基于变体6的变体的结果，而表6.2提供基于变体53的变体的结果。

“-”：FIOPC＜0.7

“++”：FIOPC＝0.7至1.3

“++”：FIOPC＝1.4至2.0

“+++”：FIOPC≥2.1

“-”：FIOPC＜0.7

“++”：FIOPC＝0.7至1.3

“++”：FIOPC＝1.4至2.0

“+++”：FIOPC≥2.1

变体6(SEQ ID NO：6)、变体258(SEQ ID NO：12)和变体261(SEQ ID NO：10)在摇瓶中按比例放大，并使用之前实施例中描述的方案分析它们的活性。结果示于图3中。如示出的，变体258以＜0.8g/L摇瓶裂解物载量在6小时内产生＞99％游离胰岛素，从而完全摆脱底物抑制，而变体261以0.8g/L裂解物载量在6小时内产生～90％游离胰岛素。

因此，本发明提供了具有8x总活性倍数改进的PGA变体。还确定了S619K置换极大影响活性，而D484N置换主要影响表达。S619K位于胰岛素结合位点的第1层，而D484N位于活性位点的第2层。

实施例7

DMSO耐受性

对改进的PGA变体(变体编号6、258和261)进行DMSO耐受性研究。按照实施例4中描述的方案，在0-50％v/v DMSO的存在下进行反应。结果(参见，图4)表明，在向测试反应物加入DMSO后所有受试变体失去活性。例如，在30％v/v DMSO下，变体258只产生了30％游离胰岛素。

在本申请中引用的所有公开物、专利、专利申请和其他文件为了所有目的通过引用以其整体并入本文，其程度如同每个单独的公开物、专利、专利申请或其他文件被单独指明为了所有目的通过引用并入。

虽然已经说明和描述多个具体的实施方案，但是将理解可以进行各种变化，而不脱离本发明的精神和范围。

序列表

<110> 科德克希思公司

高塔米·班纳吉

杨劼

张希云

埃里卡·M·米尔泽克

美利莎·安·梅奥

斯蒂芬·詹纳

<120> 青霉素G酰化酶

<130> CX2-149WO1

<150> US 62/158,118

<151> 2015-05-07

<160> 15

<170> PatentIn version 3.5

<210> 1

<211> 2541

<212> DNA

<213> Kluyvera citrophila

<400> 1

atgaaaaata gaaatcgtat gatcgtgaac ggtattgtga cttccctgat ctgttgttct 60

agcctgtcag cgctggcggc aagcccgcca accgaggtta agatcgttcg cgatgaatac 120

ggcatgccgc atatttacgc cgatgatacc tatcgactgt tttacggcta tggctacgtg 180

gtggcgcagg atcgcctgtt ccagatggaa atggcgcgcc gcagtactca ggggaccgtc 240

tccgaggtgc tgggcaaagc attcgtcagt tttgataaag atattcgcca gaactactgg 300

ccggattcta ttcgcgcgca gatagcttcc ctctccgctg aggataaatc cattctgcag 360

ggctatgccg atggcatgaa tgcgtggatc gataaagtga acgccagccc cgataagctg 420

ttaccccagc agttctccac ctttggtttt aaacccaagc attgggaacc gtttgatgtg 480

gcgatgattt ttgtcggcac catggcgaac cggttttctg acagcaccag cgaaattgat 540

aacctggcgc tgctgacggc gctaaaagat aaatacggca agcagcaggg catggcggtc 600

tttaaccagc tgaaatggct ggttaatcct tccgcgccaa ccaccattgc ggcgcgggaa 660

agcgcctatc cgctgaagtt tgatctgcaa aacacgcaaa cggcggcgct gctgccgcgc 720

tacgaccagc cggcaccgat gctcgaccgc ccggcaaaag ggaccgatgg cgcgctgctg 780

gcgctgaccg ccgatcagaa ccgggaaact atcgccgcgc agttcgcgca aagcggcgct 840

aacggcctgg ctggctaccc gaccactagc aatatgtggg tgattggcaa aaacaaagcc 900

caggatgcga aggccattat ggtcaatggg ccgcagtttg gttggtatgc gccggcgtac 960

acctacggta tcggcctgca cggcgcgggc tatgacgtca ccggcaatac gccgtttgcc 1020

tatccgggcc tcgtttttgg tcacaacggc accatttcat ggggatccac cgccggtttt 1080

ggtgatgatg tcgatatctt tgccgaaaaa ctttccgccg agaagccggg ctattaccag 1140

cataacggcg agtgggtgaa gatgttgagc cgcaaggaga ctattgcggt caaagacggc 1200

cagccggaga cctttaccgt ttggcgcacg ctgcacggca acgtcattaa aaccgatact 1260

gcgacgcaga ccgcctatgc caaagcgcgc gcctgggatg gcaaagaggt ggcgtccctg 1320

ctggcgtgga cgcaccagat gaaggccaaa aactggccgg agtggacgca gcaggcggcc 1380

aaacaggcgc tgaccattaa ctggtactac gccgatgtga acggcaatat cggctatgtg 1440

cataccggcg cctatccgga tcgccagccc ggccacgacc cgcgtttgcc ggttcccggc 1500

actggaaaat gggactggaa agggttgctg tcgtttgatt tgaatccgaa agtgtataac 1560

ccgcagtcgg gctatatcgc caactggaac aactcgccgc aaaaagacta cccggcctct 1620

gatctgttcg cgttcctgtg gggcggtgcg gatcgagtta ctgagatcga cacgatcctc 1680

gataagcaac cgcgcttcac cgccgatcag gcgtgggatg tgatccgcca aaccagccgt 1740

cgggatctca acctgcggtt gttcttaccg gcgctgaagg acgccaccgc gaacctggcg 1800

gaaaacgatc cgcgccgcca actggtggat aaactggcga gctgggacgg tgaaaacctt 1860

gtcaacgatg acggaaaaac ctatcagcaa ccgggatcgg cgattcttaa cgcctggctg 1920

accagcatgc tcaagcgcac ggtggttgcc gcggtcccag cgccgtttgg caagtggtac 1980

agcgccagtg gctatgaaac cacccaggac gggccaaccg gctcgctgaa catcagcgtg 2040

ggggcgaaaa tcctctacga agctctgcag ggtgataagt cgccaatccc gcaggcggtc 2100

gatctgtttg gcgggaaacc gcagcaggaa gtgatactgg cggcgctgga cgacgcttgg 2160

cagacgctgt caaaacgcta cggtaacgac gtcaccggct ggaaaacccc tgccatggcg 2220

cttaccttcc gggccaataa cttcttcggc gtgccgcagg cggcagcaaa agaggcgcgt 2280

catcaggcgg agtaccagaa ccgcggtacg gaaaacgaca tgattgtctt ctcaccgacg 2340

tcgggtaacc gcccggttct tgcctgggat gtggtggcgc cggggcaaag cggttttatc 2400

gcgccggatg gcaaagccga taagcactat gacgatcagc tgaaaatgta cgagagcttt 2460

ggccgtaaat cgctgtggtt aacgcctcag gacgttgacg agcacaaaga gtctcaggaa 2520

gtgctgcagg tacagcgcta a 2541

<210> 2

<211> 846

<212> PRT

<213> Kluyvera citrophila

<400> 2

Met Lys Asn Arg Asn Arg Met Ile Val Asn Gly Ile Val Thr Ser Leu

1 5 10 15

Ile Cys Cys Ser Ser Leu Ser Ala Leu Ala Ala Ser Pro Pro Thr Glu

20 25 30

Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala Asp

35 40 45

Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln Asp

50 55 60

Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr Val

65 70 75 80

Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile Arg

85 90 95

Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu Ser

100 105 110

Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn Ala

115 120 125

Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln Gln

130 135 140

Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp Val

145 150 155 160

Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser Thr

165 170 175

Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys Tyr

180 185 190

Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu Val

195 200 205

Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr Pro

210 215 220

Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala Ala Leu Leu Pro Arg

225 230 235 240

Tyr Asp Gln Pro Ala Pro Met Leu Asp Arg Pro Ala Lys Gly Thr Asp

245 250 255

Gly Ala Leu Leu Ala Leu Thr Ala Asp Gln Asn Arg Glu Thr Ile Ala

260 265 270

Ala Gln Phe Ala Gln Ser Gly Ala Asn Gly Leu Ala Gly Tyr Pro Thr

275 280 285

Thr Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys

290 295 300

Ala Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Ala Pro Ala Tyr

305 310 315 320

Thr Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn

325 330 335

Thr Pro Phe Ala Tyr Pro Gly Leu Val Phe Gly His Asn Gly Thr Ile

340 345 350

Ser Trp Gly Ser Thr Ala Gly Phe Gly Asp Asp Val Asp Ile Phe Ala

355 360 365

Glu Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu

370 375 380

Trp Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly

385 390 395 400

Gln Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile

405 410 415

Lys Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp

420 425 430

Asp Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys

435 440 445

Ala Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu

450 455 460

Thr Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val

465 470 475 480

His Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu

485 490 495

Pro Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe

500 505 510

Asp Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn

515 520 525

Trp Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala

530 535 540

Phe Leu Trp Gly Gly Ala Asp Arg Val Thr Glu Ile Asp Thr Ile Leu

545 550 555 560

Asp Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg

565 570 575

Gln Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu

580 585 590

Lys Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu

595 600 605

Val Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp

610 615 620

Gly Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu

625 630 635 640

Thr Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe

645 650 655

Gly Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro

660 665 670

Thr Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala

675 680 685

Leu Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly

690 695 700

Gly Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp

705 710 715 720

Gln Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr

725 730 735

Pro Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro

740 745 750

Gln Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg

755 760 765

Gly Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg

770 775 780

Pro Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile

785 790 795 800

Ala Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met

805 810 815

Tyr Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val

820 825 830

Asp Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Arg

835 840 845

<210> 3

<211> 2295

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体1的合成的PGA核苷酸序列

<400> 3

agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60

gggccgcagt ttggttggta tgtgccggcg tacacctacg gtatcggcct gcacggcgcg 120

ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcgtttt tggtcacaac 180

ggcaccattt catggggatc caccgccggt ggtggtgatg atgtcgatat ctttgccgaa 240

aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300

agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360

acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420

cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480

aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat taactggtac 540

tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600

cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660

ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720

aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780

gcggatcgag ttactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840

caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900

ccggcgctga aggacgccac cgcgaacctg gcggaaaacg atccgcgccg ccaactggtg 960

gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020

caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080

gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140

gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200

cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260

gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320

gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380

ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440

acggaaaacg acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500

gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560

tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620

caggacgttg acgagcacca agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680

gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740

cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800

gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgtcagtttt 1860

gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920

tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980

aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040

cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100

ttctctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160

tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220

gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280

acgcaaacgg cgtaa 2295

<210> 4

<211> 763

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体1的合成的PGA蛋白序列

<400> 4

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Val Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Gly Leu Val Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Gly Gly Asp Asp Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Val Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Gln Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr

755 760

<210> 5

<211> 2295

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体6的合成的PGA核苷酸序列

<400> 5

agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60

gggccgcagt ttggttggta tgtgccggcg tatacctacg gtatcggcct gcacggcgcg 120

ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcgtttt tggtcacaac 180

ggcaccattt catggggatc caccgccggt ggtggtgatg atgtcgatat ctttgccgaa 240

aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300

agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360

acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420

cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480

aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat caactggtac 540

tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600

cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660

ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720

aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780

gcggatcgag cgactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840

caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900

ccggcgctga aggacgccac cgccaacctg gcggaaaacg atccgcgccg ccaactggtg 960

gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020

caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080

gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140

gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200

cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260

gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320

gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380

ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440

acggaaaaca acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500

gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560

tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620

caggacgttg acgagcacaa agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680

gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740

cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800

gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgtcagtttt 1860

gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920

tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980

aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040

cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100

ttttctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160

tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220

gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280

acgcaaacgg cgtaa 2295

<210> 6

<211> 764

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体6的合成的PGA蛋白序列

<400> 6

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Val Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Gly Leu Val Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Gly Gly Asp Asp Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala

755 760

<210> 7

<211> 2295

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体53的合成的PGA核苷酸序列

<400> 7

agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60

gggccgcagt ttggttggtt taatccggcg tacacctacg gtatcggcct gcacggcgcg 120

ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcctgtt tggtcacaac 180

ggcaccattt catggggatc caccgccggt ggtggtgatg atgtcgatat ctttgccgaa 240

aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300

agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360

acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420

cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480

aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat taactggtac 540

tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600

cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660

ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720

aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780

gcggatcgag ttactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840

caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900

ccggcgctga aggacgccac cgcgaacctg gcggaaaacg atccgcgccg ccaactggtg 960

gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020

caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080

gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140

gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200

cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260

gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320

gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380

ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440

acggaaaacg acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500

gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560

tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620

caggacgttg acgagcacca agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680

gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740

cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800

gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcttt cgtttctttt 1860

gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920

tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980

aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040

cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100

ttctctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160

tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220

gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280

acgcaaacgg cgtaa 2295

<210> 8

<211> 764

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体5的合成的PGA蛋白序列

<400> 8

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Phe Asn Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Gly Leu Leu Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Gly Gly Asp Asp Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Val Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Gln Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala

755 760

<210> 9

<211> 2295

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体261的合成的PGA核苷酸序列

<400> 9

agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60

gggccgcagt ttggttggta taatccggcg tatacctacg gtatcggcct gcacggcgcg 120

ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcctttt tggtcacaac 180

ggcaccattt catggggatc caccgccggt gccggtgatg tcgtcgatat ctttgccgaa 240

aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300

agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360

acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420

cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480

aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat caactggtac 540

tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600

cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660

ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720

aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780

gcggatcgag cgactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840

caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900

ccggcgctga aggacgccac cgccaacctg gcggaaaacg atccgcgccg ccaactggtg 960

gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020

caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080

gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140

gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200

cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260

gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320

gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380

ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440

acggaaaaca acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500

gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560

tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620

caggacgttg acgagcacaa agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680

gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740

cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800

gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgtttcattt 1860

gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920

tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980

aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040

cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100

ttttctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160

tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220

gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280

acgcaaacgg cgtaa 2295

<210> 10

<211> 764

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体261的合成的PGA蛋白序列

<400> 10

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Asn Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Gly Leu Leu Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Ala Gly Asp Val Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala

755 760

<210> 11

<211> 2295

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体258的合成的PGA核苷酸序列

<400> 11

agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60

gggccgcagt ttggttggta taatccggcg tatacctacg gtatcggcct gcacggcgcg 120

ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcctttt tggtcacaac 180

ggcaccattt catggggatc caccgccggt gccggtgata gcgtcgatat ctttgccgaa 240

aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300

agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360

acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420

cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480

aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat caactggtac 540

tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600

cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660

ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720

aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780

gcggatcgag cgactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840

caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900

ccggcgctga aggacgccac cgccaacctg gcggaaaacg atccgcgccg ccaactggtg 960

gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020

caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080

gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140

gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200

cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260

gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320

gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380

ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440

acggaaaaca acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500

gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560

tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620

caggacgttg acgagcacaa agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680

gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740

cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800

gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgttaagttt 1860

gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920

tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980

aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040

cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100

ttttctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160

tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220

gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280

acgcaaacgg cgtaa 2295

<210> 12

<211> 764

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体258的合成的PGA蛋白序列

<400> 12

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Asn Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Gly Leu Leu Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Ala Gly Asp Ser Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Val Lys Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala

755 760

<210> 13

<211> 763

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体293-333的合成的PGA蛋白序列

<220>

<221> VARIANT

<222> (26)..(26)

<223> Xaa可以为Trp或Phe

<220>

<221> VARIANT

<222> (27)..(27)

<223> Xaa可以为Tyr、Phe、Gly、His、Thr或Val

<220>

<221> VARIANT

<222> (28)..(28)

<223> Xaa可以为Val或Asn

<220>

<221> VARIANT

<222> (32)..(32)

<223> Xaa可以为Thr或Asp

<220>

<221> VARIANT

<222> (49)..(49)

<223> Xaa可以为Pro或His

<220>

<221> VARIANT

<222> (56)..(56)

<223> Xaa可以为Val、Ile或Leu

<220>

<221> VARIANT

<222> (71)..(71)

<223> Xaa可以为Gly、Phe或Ala

<220>

<221> VARIANT

<222> (74)..(74)

<223> Xaa可以为Asp、Ala、Gly、His、Leu、Asn、Pro、Ser、Thr或Val

<220>

<221> VARIANT

<222> (116)..(116)

<223> Xaa可以为Phe或Ile

<220>

<221> VARIANT

<222> (126)..(126)

<223> Xaa可以为Val或Ile

<220>

<221> VARIANT

<222> (127)..(127)

<223> Xaa可以为Ile或Val

<220>

<221> VARIANT

<222> (129)..(129)

<223> Xaa可以为Thr、Lys或Trp

<220>

<221> VARIANT

<222> (130)..(130)

<223> Xaa可以为Asp或Glu

<220>

<221> VARIANT

<222> (131)..(131)

<223> Xaa可以为Thr、Asp、Asn或Arg

<220>

<221> VARIANT

<222> (132)..(132)

<223> Xaa可以为Ala、Arg或Thr

<220>

<221> VARIANT

<222> (133)..(133)

<223> Xaa可以为Thr、Ala、Cys、Gly、Asn、Gln、Arg或Ser

<220>

<221> VARIANT

<222> (134)..(134)

<223> Xaa可以为Gln、His或Ser

<220>

<221> VARIANT

<222> (156)..(156)

<223> Xaa可以为His或Arg

<220>

<221> VARIANT

<222> (160)..(160)

<223> Xaa可以为Ala或Ser

<220>

<221> VARIANT

<222> (240)..(240)

<223> Xaa可以为Trp或Phe

<220>

<221> VARIANT

<222> (253)..(253)

<223> Xaa可以为Leu、Phe、Ser、Thr、Val或Trp

<220>

<221> VARIANT

<222> (254)..(254)

<223> Xaa可以为Phe或Trp

<220>

<221> VARIANT

<222> (255)..(255)

<223> Xaa可以为Ala、Phe、Gly、Leu、Met、Arg、Ser、Val或Tyr

<220>

<221> VARIANT

<222> (256)..(256)

<223> Xaa可以为Phe或Tyr

<220>

<221> VARIANT

<222> (257)..(257)

<223> Xaa可以为Asn或Arg

<220>

<221> VARIANT

<222> (264)..(264)

<223> Xaa可以为Val或Ala

<220>

<221> VARIANT

<222> (308)..(308)

<223> Xaa可以为Ala或Thr

<220>

<221> VARIANT

<222> (348)..(348)

<223> Xaa可以为Asn、Asp、Glu、His、Lys、Arg或Ser

<220>

<221> VARIANT

<222> (360)..(360)

<223> Xaa可以为Val或Ala

<220>

<221> VARIANT

<222> (365)..(365)

<223> Xaa可以为Ala或Met

<220>

<221> VARIANT

<222> (367)..(367)

<223> Xaa可以为Phe或Ser

<220>

<221> VARIANT

<222> (368)..(368)

<223> Xaa可以为Gly或Asp

<220>

<221> VARIANT

<222> (369)..(369)

<223> Xaa可以为Lys或Cys

<220>

<221> VARIANT

<222> (370)..(370)

<223> Xaa可以为Trp、Phe、Ile或Val

<220>

<221> VARIANT

<222> (372)..(372)

<223> Xaa可以为Ser、Ala或Leu

<220>

<221> VARIANT

<222> (373)..(373)

<223> Xaa可以为Ala、Gln或Tyr

<220>

<221> VARIANT

<222> (373)..(373)

<223> Xaa可以为Ala、Leu、Gln或Tyr

<220>

<221> VARIANT

<222> (378)..(378)

<223> Xaa可以为Thr、Cys或Gln

<220>

<221> VARIANT

<222> (379)..(379)

<223> Xaa可以为Thr、Ala、Cys、Gly、Leu、Arg或Ser

<220>

<221> VARIANT

<222> (380)..(380)

<223> Xaa可以为Gln、Cys、Ile、Lys或Arg

<220>

<221> VARIANT

<222> (381)..(381)

<223> Xaa可以为Asp、Cys、Phe、Gly、Ile、Lys、Leu、Met、Pro、Gln、Arg、Val、Trp或Tyr

<220>

<221> VARIANT

<222> (384)..(384)

<223> Xaa可以为Thr、Ala、Cys、Phe、Gly、His、Asn、Pro或Arg

<220>

<221> VARIANT

<222> (387)..(387)

<223> Xaa可以为Leu、Cys、Glu、Phe、Gly、His、Ile、Met、Gln、Ser或Thr

<220>

<221> VARIANT

<222> (388)..(388)

<223> Xaa可以为Asn、Gly或Ser

<220>

<221> VARIANT

<222> (389)..(389)

<223> Xaa可以为Ile或Pro

<220>

<221> VARIANT

<222> (391)..(391)

<223> Xaa可以为Val、Asn或Pro

<220>

<221> VARIANT

<222> (418)..(418)

<223> Xaa可以为Pro或Gln

<220>

<221> VARIANT

<222> (453)..(453)

<223> Xaa可以为Thr或Arg

<220>

<221> VARIANT

<222> (454)..(454)

<223> Xaa可以为Phe或Tyr

<220>

<221> VARIANT

<222> (456)..(456)

<223> Xaa可以为Ala或Thr

<220>

<221> VARIANT

<222> (484)..(484)

<223> Xaa可以为Asp或Asn

<220>

<221> VARIANT

<222> (547)..(547)

<223> Xaa可以为Gln或Lys

<220>

<221> VARIANT

<222> (557)..(557)

<223> Xaa可以为Leu或Ser

<220>

<221> VARIANT

<222> (596)..(596)

<223> Xaa可以为Phe或Leu

<220>

<221> VARIANT

<222> (616)..(616)

<223> Xaa可以为Ala或Asp

<220>

<221> VARIANT

<222> (618)..(618)

<223> Xaa可以为Val或Ile

<220>

<221> VARIANT

<222> (619)..(619)

<223> Xaa可以为Ser或Lys

<220>

<221> VARIANT

<222> (697)..(697)

<223> Xaa可以为Met或Arg

<220>

<221> VARIANT

<222> (711)..(711)

<223> Xaa可以为Leu或Gln

<220>

<221> VARIANT

<222> (750)..(750)

<223> Xaa可以为Ser或Gly

<220>

<221> VARIANT

<222> (754)..(754)

<223> Xaa可以为Leu或Pro

<400> 13

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Xaa Xaa Xaa Pro Ala Tyr Xaa

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Xaa Phe Ala Tyr Pro Gly Leu Xaa Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Xaa Gly Asp Xaa Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Xaa Thr Val Trp Arg Thr Leu His Gly Asn Xaa Xaa Lys

115 120 125

Xaa Xaa Xaa Xaa Xaa Xaa Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr Xaa Gln Met Lys Xaa

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Xaa

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Xaa Xaa Xaa Xaa

245 250 255

Xaa Trp Gly Gly Ala Asp Arg Xaa Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Xaa Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Xaa Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Xaa Ala Ala Val Pro Xaa Pro Xaa Xaa

355 360 365

Xaa Xaa Tyr Xaa Xaa Ser Gly Tyr Glu Xaa Xaa Xaa Xaa Gly Pro Xaa

370 375 380

Gly Ser Xaa Xaa Xaa Ser Xaa Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Xaa Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Xaa Xaa Arg Xaa Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Xaa Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Xaa Glu Ser Gln Glu Val Leu Gln Val Gln Xaa Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Xaa Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Xaa Phe Xaa Xaa Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Xaa Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Xaa Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Xaa Ala Tyr

740 745 750

Pro Xaa Lys Phe Asp Leu Gln Asn Thr Gln Thr

755 760

<210> 14

<211> 764

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体255-292的合成的PGA蛋白序列

<220>

<221> VARIANT

<222> (28)..(28)

<223> Xaa可以为Val或Asn

<220>

<221> VARIANT

<222> (56)..(56)

<223> Xaa可以为Val或Leu

<220>

<221> VARIANT

<222> (71)..(71)

<223> Xaa可以为Gly或Ala

<220>

<221> VARIANT

<222> (74)..(74)

<223> Xaa可以为Asp、Asn、Ser、Thr或Val

<220>

<221> VARIANT

<222> (139)..(139)

<223> Xaa可以为Lys或Ile

<220>

<221> misc_feature

<222> (445)..(445)

<223> Xaa可以为任何天然存在的氨基酸

<220>

<221> VARIANT

<222> (455)..(455)

<223> Xaa可以为Arg或Trp

<220>

<221> VARIANT

<222> (618)..(618)

<223> Xaa可以为Val或Ile

<220>

<221> VARIANT

<222> (619)..(619)

<223> Xaa可以为Ser或Lys

<400> 14

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Xaa Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Gly Leu Xaa Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Xaa Gly Asp Xaa Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Xaa Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Xaa Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp

530 535 540

Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Xaa Xaa Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala

755 760

<210> 15

<211> 764

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 变体293-333的合成的PGA蛋白序列

<220>

<221> VARIANT

<222> (27)..(27)

<223> Xaa可以为Phe或Tyr

<220>

<221> VARIANT

<222> (28)..(28)

<223> Xaa可以为Asn或Val

<220>

<221> misc_feature

<222> (54)..(54)

<223> Xaa可以为任何天然存在的氨基酸

<220>

<221> VARIANT

<222> (56)..(56)

<223> Xaa可以为Leu或Ile

<220>

<221> VARIANT

<222> (71)..(71)

<223> Xaa可以为Gly或Ala

<220>

<221> VARIANT

<222> (74)..(74)

<223> Xaa可以为Asp、Asn、Ser、Thr或Val

<220>

<221> VARIANT

<222> (264)..(264)

<223> Xaa可以为Val或Ala

<220>

<221> VARIANT

<222> (484)..(484)

<223> Xaa可以为Asp或Asn

<220>

<221> misc_feature

<222> (544)..(544)

<223> Xaa可以为任何天然存在的氨基酸

<220>

<221> VARIANT

<222> (547)..(547)

<223> Xaa可以为Gln或Lys

<220>

<221> VARIANT

<222> (618)..(618)

<223> Xaa可以为Val或Ile

<220>

<221> VARIANT

<222> (619)..(619)

<223> Xaa可以为Ser或Lys

<220>

<221> VARIANT

<222> (741)..(741)

<223> Xaa可以为Ala或Thr

<400> 15

Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala

1 5 10 15

Ile Met Val Asn Gly Pro Gln Phe Gly Trp Xaa Xaa Pro Ala Tyr Thr

20 25 30

Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr

35 40 45

Pro Phe Ala Tyr Pro Xaa Leu Leu Phe Gly His Asn Gly Thr Ile Ser

50 55 60

Trp Gly Ser Thr Ala Gly Xaa Gly Asp Xaa Val Asp Ile Phe Ala Glu

65 70 75 80

Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp

85 90 95

Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln

100 105 110

Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys

115 120 125

Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp

130 135 140

Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala

145 150 155 160

Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr

165 170 175

Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His

180 185 190

Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro

195 200 205

Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp

210 215 220

Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp

225 230 235 240

Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe

245 250 255

Leu Trp Gly Gly Ala Asp Arg Xaa Thr Glu Ile Asp Thr Ile Leu Asp

260 265 270

Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln

275 280 285

Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys

290 295 300

Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val

305 310 315 320

Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly

325 330 335

Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr

340 345 350

Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly

355 360 365

Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr

370 375 380

Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu

385 390 395 400

Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly

405 410 415

Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln

420 425 430

Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro

435 440 445

Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln

450 455 460

Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly

465 470 475 480

Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro

485 490 495

Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala

500 505 510

Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr

515 520 525

Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Xaa

530 535 540

Glu His Xaa Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr

545 550 555 560

Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala

565 570 575

Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln

580 585 590

Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr

595 600 605

Val Ser Glu Val Leu Gly Lys Ala Phe Xaa Xaa Phe Asp Lys Asp Ile

610 615 620

Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu

625 630 635 640

Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn

645 650 655

Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln

660 665 670

Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp

675 680 685

Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser

690 695 700

Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys

705 710 715 720

Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu

725 730 735

Val Asn Pro Ser Xaa Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr

740 745 750

Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala

755 760

Claims

1.一种工程化青霉素G酰化酶，所述工程化青霉素G酰化酶能够从胰岛素去除A1/B1/B29三-乙酸苯酯保护基团以产生游离胰岛素，其中所述青霉素G酰化酶与SEQ ID NO:2、4、6、8、10和/或12至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多地相同。

2.如权利要求1所述的工程化青霉素G酰化酶，其中所述青霉素G酰化酶包含表5.1、表6.2和/或表6.3中提供的至少一个突变。

3.如权利要求1所述的工程化青霉素G酰化酶，其中所述青霉素G酰化酶包含SEQ IDNO:4、6、8、10或12。

4.如权利要求1所述的工程化青霉素G酰化酶，其中所述青霉素G酰化酶由选自SEQ IDNO:3、5、7、9和11的多核苷酸序列编码。

5.一种载体，所述载体包含如权利要求4所述的多核苷酸序列。

6.一种宿主细胞，所述宿主细胞包含如权利要求5所述的载体。

7.一种产生游离胰岛素的方法，所述方法包括：i)提供如权利要求1所述的工程化青霉素G酰化酶，和包含A1/B1/B29三-乙酸苯酯保护基团的胰岛素；和ii)在使得所述工程化青霉素G酰化酶去除A1/B1/B29三-乙酸苯酯保护基团并产生游离胰岛素的条件下，将所述工程化青霉素G酰化酶暴露于所述包含A1/B1/B29三-乙酸苯酯保护基团的胰岛素。

8.如权利要求7所述的方法，其中所述工程化青霉素G酰化酶产生多于90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的游离胰岛素。

9.如权利要求7和/或8所述的方法，其中所述青霉素G酰化酶包含SEQ ID NO:4、6、8、10或12。

10.一种组合物，所述组合物包含根据权利要求7-9中任一项所述的方法产生的游离胰岛素。