CN102741421A

CN102741421A - 用于提高多肽产率的方法

Info

Publication number: CN102741421A
Application number: CN2010800114638A
Authority: CN
Inventors: 简·米特斯卡·拉恩·范德; 吴亮; 约翰尼斯·安德列什·劳博斯; 鲁斯·帕拉尼克瓦; 埃里克·皮特·洛斯; 诺尔·尼克拉斯·玛利亚·伊丽莎白·佩吉·范; 赫尔曼·扬·佩尔
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2009-03-10
Filing date: 2010-03-08
Publication date: 2012-10-17
Anticipated expiration: 2030-03-08
Also published as: JP2012520064A; MX2011009059A; EA201101306A1; AU2010223354A1; MX346700B; CN102741421B; DK2406386T3; EA021205B1; EP2406386B1; BRPI1009189A2; US20110318752A1; CA2754851A1; EP2406386A1; US9181573B2; WO2010102982A1

Abstract

本发明涉及用于提高蛋白质产率的方法。所述方法包括修饰一组相关蛋白质特征的数值，使其落入对真核宿主中一种或多种蛋白质特征而言的最适范围内，或者变得更接近对真核宿主中一种或多种蛋白质特征而言的最适值。

Description

用于提高多肽产率的方法

发明领域

本发明涉及用于提高多肽产率的方法。特别地，本发明涉及通过修饰多肽主链来提高多肽产率的方法。

发明背景

近期在基因组和宏基因组测序方面的迅速发展得到大量基因，它们代表着可能非常令人感兴趣的蛋白质财富。在显著水平下表达这些基因的问题妨碍了对这些基因编码的蛋白质功能性的探索，并因此阻止了以经济上可行的方式对此类蛋白质进行可能的开发。因为在许多情况下所发现的基因源自较不适合大规模生产的生物或者相当难以使用现有基因工程工具的生物，所以高度期望使用已被完善建立的生产宿主，所述生产宿主能够利用基因转移系统和充分开发的基因工程工具。特别地，真核生物例如丝状真菌和酵母在蛋白质生产、特别是细胞外蛋白质生产中被广泛用作细胞工厂。因为利用若干这些物种的长期传统是公认安全(GRAS)的，这使得它们对用于人使用的产品制造而言非常令人感兴趣。然而，尽管取得了大幅进步，但是针对异源基因获得的生产水平通常比针对同源基因所观察到的低得多。通常根本不存在蛋白质表达。

存在用于提高蛋白质生产水平的多种技术。这些包括应用强启动子，提高拷贝数，最适Kozak序列，mRNA稳定化元件，优化的密码子使用(WO2008/000632)和基因。然而这些策略通常不确保蛋白质能够以可检出的水平被生产。迄今为止生产异源蛋白质的最成功的途径是作为与有效分泌的同源蛋白质的翻译融合物来表达它们。然而，生产水平仍然显著落后，并且在许多情况下表达水平低得有问题。一般发酵中的低表达导致回收时的更低产率。即使表达被优化，最终的成熟蛋白质产物仍然可能因为下游加工的大量损失而导致非常低的生产产率。当被表达的蛋白质保持与生物量结合时可能是这种情况。这导致较高的损失，或者要求使用昂贵的、有时不期望地使用去污剂来溶解蛋白质。

附图概述

图1图1展示了K.lactis表达载体pKLPGE-WT(构建描述于实施例1中)的质粒图谱。图1还提供了其它pKLPGE-表达质粒的代表性图谱。示出了相对于PEG编码基因的LAC4启动子和amdS选择标记物盒。可以在转化之前通过用限制性酶SacII消化来去除E.coli DNA。

图2展示了表达载体pANPGE-3(构建描述于实施例1中)的质粒图谱。图2还提供了其它pANPGE-表达质粒的代表性图谱。另外示出了glaA启动子序列和截短的GlaA和PGE编码序列，所述编码序列编码根据本发明方法的变体PGE酶。在转化A.niger菌株之前可以通过用限制性酶NotI消化来去除E.coli DNA。

图3展示了表达载体pGBFINZDU-WT(构建描述于实施例1中)的质粒图谱。图3还提供了其它pGBFINZDU-质粒、pGBFINZTB-质粒和pGBFINZTC-质粒的代表性图谱。示出了相对于amdS选择标记物盒的glaA侧翼区。另外还示出了glaA启动子和编码根据本发明方法的变体酶的ZDU、ZTB和ZTC序列。在转化A.niger菌株之前可以通过用限制性酶NotI消化来去除E.coli DNA。

图4对A.niger WT6和PGE突变体转化体pANPGE12#16(A)和pANPGE13#30(B)的SDS-PAGE和western印迹分析。分析培养物第2天(D2)和第3天(D3)的上清液。处于14kDa和97kDa的水平线用于对SDS-PAGE和Western印迹的校准。左手侧的标记物大小对应于SDS-PAGE染色的标记物，右手侧的标记物对应于Western印迹标记物。

图5展示了发酵3天后表达不同ZDU构建体的A.niger菌株培养液中的几丁质酶活性，所述构建体均位于glaA启动子的控制下。展示了表达下述变体SDU构建体的A.niger菌株培养液中的几丁质酶活性，所述变体SDU构建体中信号序列、N-末端和蛋白质设计被修饰。关于不同构建体的细节可见表6。相对几丁质酶活性被展示为OD590测量值。对指出的所有转化体组而言，分离并独立培养了三种转化体。

图6展示了对A.niger WT6和发酵4天后表达下述变体ZDU构建体的ZDU菌株的培养液的SDS-PAGE分析，所述变体ZDU构建体均位于glaA启动子的控制下。关于不同构建体和表达的ZDU蛋白质的细节可见于表6中。对示出的所有转化体组而言，分离并独立培养了三种转化体。

图7展示了对A.niger WT6和发酵4天后表达下述变体ZTB构建体的ZTB-菌株的培养液的SDS-PAGE分析，所述变体ZTB构建体均处于glaA启动子的控制下。关于不同构建体和表达的ZTB蛋白质的细节可见于表7中。对示出的所有转化体组而言，分离并独立培养了三种转化体。

图8展示了对A.niger WT6和发酵5天后表达下述变体ZTC构建体的ZTC-菌株的培养液的SDS-PAGE分析，所述变体ZTC构建体均处于galA启动子的控制下。关于不同构建体和表达的ZTC蛋白质的细节可见于表8中。对示出的ZTC-WT转化体组而言，分离并独立培养了三种转化体，对其它两种菌株类型而言，分离并独立培养了两种菌株。

图9展示了局部蛋白质特征。

SEQ ID编号说明

SEQ ID NO：1：cDNA密码子对优化的(CPO)前胃酯酶(pregastricesterase，PGE)；经加工的，即无信号序列编码部分

SEQ ID NO：2：蛋白质小牛前胃酯酶(PGE)，包括信号序列

SEQ ID NO：3：DNA PGE蛋白质特征优化的(PFO)变体KL8，添加了1个额外的糖基化位点

SEQ ID NO：4：蛋白质PGE PFO变体KL8，添加了1个额外的糖基化位点

SEQ ID NO：5：DNA PGE PFO变体KL9，添加了5个额外的糖基化位点

SEQ ID NO：6：蛋白质PGE PFO变体KL9，添加了5个额外的糖基化位点

SEQ ID NO：7：DNA PGE PFO变体KL11，pI从6.96迁移至7.74

SEQ ID NO：8：蛋白质PGE PFO变体KL11，pI从6.96迁移至7.74

SEQ ID NO：9：DNA PGE PFO变体KL12，pI从6.96迁移至6.7

SEQ ID NO：10：蛋白质PGE PFO变体KL12，pI从6.96迁移至6.7

SEQ ID NO：11：DNA PGE，具有与α-MAT因子信号前(原-)序列融合的天然信号序列的PGE变体

SEQ ID NO：12：DNA PGE AN3，CPO基因tAG与Kex位点(KR)的融合物

SEQ ID NO：13：DNA PGE变体AN12，pI从6.96迁移至4.6

SEQ ID NO：14：蛋白质PGE变体AN12，pI从6.96迁移至4.6

SEQ ID NO：15：DNA PGE变体AN13，pI从6.96迁移至4.88

SEQ ID NO：16：蛋白质PGE变体AN13，pI从6.96迁移至4.88

SEQ ID NO：17：DNA几丁质酶(ZDU)野生型

SEQ ID NO：18：蛋白质几丁质酶(ZDU)野生型

SEQ ID NO：19：DNA几丁质酶变体ZDU-6

SEQ ID NO：20：蛋白质几丁质酶变体ZDU-6

SEQ ID NO：21：DNA几丁质酶变体ZDU-7

SEQ ID NO：22：蛋白质几丁质酶变体ZDU-7

SEQ ID NO：23：DNAβ-葡糖苷酶野生型ZTB-WT

SEQ ID NO：24：蛋白质β-葡糖苷酶野生型ZTB-WT

SEQ ID NO：25：DNAβ-葡糖苷酶变体ZTB-4

SEQ ID NO：26：蛋白质β-葡糖苷酶变体ZTB-4

SEQ ID NO：27：DNA内切葡聚糖酶野生型ZTC-WT

SEQ ID NO：28：蛋白质内切葡聚糖酶野生型ZTC-WT

SEQ ID NO：29：DNA内切葡聚糖酶变体ZTC-5

SEQ ID NO：30：蛋白质内切葡聚糖酶变体ZTC-5

发明详述

本发明涉及用于提高真核宿主细胞分泌感兴趣的多肽的方法，所述方法通过修饰多肽的氨基酸主链中一组相关蛋白质特征的数值，使其落入对真核宿主中一种或多种蛋白质特征而言的最适范围内或者变得更接近对真核宿主中一种或多种蛋白质特征而言的最适值来实现。

一个优点是之前不被分泌或者仅以商业应用没有吸引力的低量分泌的、具有感兴趣的功能性的蛋白质现在由于被提高的分泌而变得可用于工业过程。另一优点是因为所设计的多肽已与生物量分离，所以多肽的下游加工和回收变得更加容易。

在本文上下文中，蛋白质特征是能够通过计算源自蛋白质氨基酸序列和DNA序列的特性。

多肽的修饰在本文中被定义为导致多肽氨基酸序列改变的任何事件。修饰被理解为一种或多种修饰。修饰可以通过在多肽主链中引入(插入)、取代或去除(缺失)一个或多个氨基酸来实现。

在本文上下文中，术语“分泌”是指细胞外培养基中多肽的出现，所述细胞外培养基典型地是生长培养基或生产培养基。被分泌的多肽不含生物量。可以通过本领域已知的方法，包括活性测定法(活性单位)、比活性(每重量蛋白质的单位)、定量PAGE分析、定量质谱和抗体测定法，来测量分泌水平。

表述“多肽分泌的提高”是指细胞的细胞外培养基中被分泌的多肽量的增加。提高可以通过如下事实反映：通常不被分泌的多肽例如细胞内多肽变得被分泌。提高也可以在于如下事实：(例如因为含有信号序列而)预期要被分泌、但是未被分泌的多肽，变得被分泌。提高当然常常参照相同的宿主遗传背景和相同的培养或发酵条件而被测量。在这些情况下，例如聚丙烯酰胺凝胶中在提高之前无可见条带处蛋白质条带的出现表明提高的分泌。

或者，提高也可以通过下述事实反映：以非常少量分泌的多肽显示出增加的分泌水平。

在一个实施方案中，通过测量细胞外培养基中多肽的活性来测定被分泌的多肽量。与提高之前的状态相比，细胞外培养基中的活性可增加至少5％，至少10％，至少15％或至少20％。优选地，活性增加至少25％，至少30％，至少35％或至少40％。在一个更优选的实施方案中，活性增加至少45％，至少50％，至少60％，至少70％，至少80％，至少90％，至少100％，至少200％，至少500％或至少1000％。活性可从在细胞外培养基中无活性增加至有一些活性。

任何真核细胞可在本发明的方法中使用。优选地，真核细胞是哺乳动物、昆虫、植物、真菌或藻类细胞。优选的哺乳动物细胞包括例如中国仓鼠卵巢(CHO)细胞、COS细胞、293细胞、PerC6细胞和杂交瘤。优选的昆虫细胞包括例如Sf9和Sf21细胞及其衍生物。更优选地，真核细胞是真菌细胞，即酵母细胞，例如Candida、Hansenula、Kluyveromyces、Pichia、Saccharomyces、Schizosaccharomyces或Yarrowia菌株。更优选地来自Kluyveromyces lactis、S.cerevisiae、Hansenula polymorpha、Yarrowialipolytica和Pichia pastoris，或丝状真菌细胞。最优选地，真核细胞是丝状真菌细胞。

“丝状真菌”包括(如Hawksworth et al.，In，Ainsworth and Bisby′sDictionary of The Fungi，8th edition，1995，CAB International，University Press，Cambridge，UK所定义的)Eumycota和Oomycota亚门的所有丝状形式。丝状真菌的特征是由几丁质、纤维素、葡聚糖、壳聚糖、甘露聚糖和其它复合多糖组成的菌丝壁。营养生长通过菌丝伸长进行，并且碳代谢是专性需氧的。丝状真菌菌株包括但不限于Acremonium、Agaricus、Aspergillus、Aureobasidium、Chrysosporium、Coprinus、Cryptococcus、Filibasidium、Fusarium、Humicola、Magnaporthe、Mucor、Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Panerochaete、Pleurotus、Schizophyllum、Talaromyces、Thermoascus、Thielavia、Tolypocladium和Trichoderma的菌株。

优选的丝状真菌细胞属于Aspergillus、Chrysosporium、Penicillium、Talaromyces或Trichoderma属的种，最优选地属于Aspergillus niger、Aspergillus awamori、Aspergillus foetidus、Aspergillus sojae、Aspergillusfumigatus、Talaromyces emersonii、Aspergillus oryzae、Chrysosporiumlucknowense、Trichoderma reesei或Penicillium chrysogenum的种。当根据本发明的宿主细胞是Aspergillus宿主细胞时，宿主细胞优选地是CBS513.88或其衍生物。

丝状真菌的若干菌株是公众能够容易地从大量培养物保藏机构例如American Type Culture Collection(ATCC)、Deutsche Sammlung vonMikroorganismen und Zellkulturen GmbH(DSM)、Centraalbureau VoorSchimmelcultures(CBS)和Agricultural Research Service Patent CultureCollection，Northern Regional Research Center(NRRL)获得的，Aspergillusniger CBS 513.88、Aspergillus oryzae ATCC 20423、IFO 4177、ATCC1011、ATCC 9576、ATCC14488-14491、ATCC 11601、ATCC12892，P.chrysogenum CBS 455.95，Penicillium citrinum ATCC 38065，Penicilliumchrysogenum P2，Talaromyces emersonii CBS 124.902，Acremoniumchrysogenum ATCC 36225或ATCC 48272，Trichoderma reesei ATCC26921或ATCC 56765或ATCC 26921，Aspergillus sojae ATCC11906，Chrysosporium lucknowense ATCC44006及其衍生物。

在本发明的一个实施方案中，使用A.niger或K.lactis。

在一个实施方案中，真核细胞是其中通过重组技术生产多肽的宿主细胞。用于转化或转染宿主细胞的合适方法可见于Sambrook，et al.(Molecular Cloning：A Laboratory Manual，2^nd，ed.Cold Spring HarborLaboratory，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，NY，1989)，Davis et al.，Basic Methods in Molecular Biology(1986)和其它实验室手册。因此，本发明还涉及用于生产感兴趣的多肽的方法，所述方法如下进行：对感兴趣的多肽应用根据本发明的用于提高多肽分泌的方法，并通过重组技术生产根据本发明被修饰的多肽。本发明还涉及所述被重组生产的多肽。本发明还涉及能够通过根据本发明的用于提高多肽分泌的方法而获得的多肽；优选地，所述多肽通过根据本发明的用于提高多肽分泌的方法获得。

根据本发明的方法提高其分泌的感兴趣的多肽可以是具有感兴趣的生物活性的任何多肽。多肽可以是胶原或明胶，或其变体或杂种(hybrid)。多肽可以是任何抗体或其部分，抗原，凝血因子，酶，激素或激素变体，受体或其部分，调节蛋白，结构蛋白，报告蛋白，或转运蛋白例如血清白蛋白，例如牛血清白蛋白和人血清白蛋白，或例如转铁蛋白，例如乳铁蛋白，涉及分泌过程的蛋白质，涉及折叠过程的蛋白质，伴侣蛋白，肽氨基酸转运蛋白，糖基化因子，转录因子，合成肽或寡肽，其天然形式是细胞内蛋白质并且通过本领域已知的方法(例如与信号肽融合和与其天然形式已是分泌型的多肽融合)被分泌的蛋白质。此类细胞内蛋白质可以是酶例如蛋白酶、神经酰胺酶、环氧化物水解酶、氨肽酶、酰基转移酶、醛缩酶、羟化酶、氨肽酶、脂肪酶。多肽可以是以其天然形式被细胞外分泌的酶。此类酶可属于氧化还原酶、转移酶、水解酶、裂合酶、异构酶、连接酶、过氧化氢酶、纤维素酶、几丁质酶、角质酶、脱氧核糖核酸酶、聚糖酶、酯酶的组。酶可以是糖酶，例如纤维素酶如内切葡聚糖酶，β-葡聚糖酶，纤维二糖水解酶或β-葡糖苷酶，半纤维素酶或果胶分解酶如木聚糖酶，木糖苷酶，甘露聚糖酶，半乳聚糖酶，半乳糖苷酶，果胶甲基酯酶，果胶裂合酶，果胶酸裂合酶，内切多聚半乳糖醛酸酶，外切多聚半乳糖醛酸酶，鼠李半乳糖醛酸酶，阿拉伯聚糖酶，阿拉伯呋喃糖苷酶(arabinofuranosidases)，阿拉伯木聚糖水解酶，半乳糖醛酸酶，裂合酶，或淀粉酶；水解酶，异构酶，或连接酶，磷酸酶如植酸酶，酯酶如脂肪酶，蛋白水解酶，氧化还原酶如氧化酶，转移酶，或异构酶。酶可以是植酸酶。酶可以是氨肽酶，天冬酰胺酶，淀粉酶，糖酶，羧肽酶，内切蛋白酶，金属蛋白酶，丝氨酸-蛋白酶接触酶，几丁质酶，角质酶，环糊精糖基转移酶，脱氧核糖核酸酶，酯酶，α-半乳糖苷酶，β-半乳糖苷酶，葡萄糖淀粉酶，α-葡糖苷酶，β-葡糖苷酶，卤素过氧化物酶(haloperoxidase)，蛋白质脱氨酶，转化酶，漆酶，脂肪酶，甘露糖苷酶，变构酶，氧化酶，果胶分解酶，过氧化物酶，磷脂酶，多酚氧化酶，核糖核酸酶，转谷氨酰胺酶，或葡萄糖氧化酶，己糖氧化酶，单加氧酶。提高其分泌的多肽可以对宿主细胞是同源或异源的。同源多肽的一个合适的例子是被克隆进Aspergillus niger中并由Aspergillus niger生产的Aspergillus niger蛋白质。异源表达的合适例子包括例如来自E.coli或Bacillus的、被克隆进丝状真菌或酵母中并由丝状真菌或酵母生产的细菌多肽，或例如来自牛或山羊的、被克隆进丝状真菌或酵母中并由丝状真菌或酵母生产的哺乳动物蛋白质，或被克隆进酵母并由酵母生产的丝状真菌多肽，或被克隆进另一真菌并由另一真菌生产的丝状真菌蛋白质。优选地，针对在相关宿主细胞中的表达，例如通过密码子对优化来优化编码多肽的核酸。密码子对优化是这样一种方法：其中编码多肽的核苷酸序列已经根据其密码子使用(特别是使用的密码子对)而被修饰，以获得编码多肽的核苷酸序列被提高的表达和/或所编码的多肽的提高的生产。密码子对被定义为编码序列中一组两个相继的三联体(密码子)。密码子对优化优选地如WO2008/000632中所述进行。

优选地，被修饰的多肽的特异性与提高分泌之前基本相同。这表示例如底物特异性或结合特异性基本保留。在本文上下文中，术语“基本保留”表示大于60％，大于65％，大于70％或大于75％的特异性被保留。优选地，大于80％、85％或90％的特异性被保留。更优选地，大于95％、96％、97％、98％或99％的特异性被保留。最优选地，大于95％、96％、97％、98％或99％的特异性被保留。

根据本发明的方法，细胞外培养基中的活性水平增加，这是提高的分泌的指征。然而，被修饰的多肽的比活性并非必须增加，只要其不减少即可。因此，比活性优选地与分泌提高之前基本相同或更高。在一个优选的实施方案中，比活性与提高之前基本相同。在本文上下文中，短语“基本相同的活性水平”是指与亲本多肽的活性水平相差小于15％，优选地小于12％或小于10％，更优选地小于8％，小于6％或小于4％的活性水平。

在本文上下文中，术语“多肽”和“蛋白质”可互换使用。任何类型的多肽的分泌都可以通过本发明的方法被提高。在一个优选的实施方案中，多肽是本文之前引用的列表之一。

根据本发明的方法，氨基酸主链中一组相关蛋白质特征的数值被修饰，使其落入对真核宿主中一种或多种蛋白质特征而言的最适范围内，或者变得更接近对真核宿主中一种或多种蛋白质特征而言的最适值。

经修饰的多肽和参照多肽之间蛋白质特征的改变量可以通过两种方式定义：相对提高(RI)和标准化的相对提高(RI_N)。

蛋白质特征的RI通过蛋白质特征与最适值的绝对偏差(D)来定义：

RI＝(D_REF-D_PFO)/D_REF，

其中D＝|F_POI-F_OPT|，F_POI是作为参照或PFO的、感兴趣的蛋白质特征的数值，F_OPT是最适特征数值。

RI_N通过标准化的偏差(D_N)来定义，以表明何种特征是实质上重要的。D_N要考虑特征数值的上界(UB)和下界(LB)(见表1)。

RI_N＝D_N，REF-D_N，PFO，

其中F_POI＞F_OPT时D_N＝(F_POI-F_OPT)/(UB-F_OPT)

F_POI＜F_OPT时D_N＝(F_POI-F_OPT)/(LB-F_OPT)。

根据本发明的方法，对多肽主链进行修饰。在本文上下文中，术语“主链”是指当氨基酸通过肽键连接在一起并形成共价连接的氨基酸序列时形成的规则结构。在本发明中，优选地成熟多肽的主链被修饰。在本发明的上下文中，“成熟多肽”在本文中被定义为在翻译和任何翻译后修饰(例如N-端加工、C-端截短、糖基化、磷酸化等等)之后为最终功能形式的多肽。修饰前的多肽被称作亲本或参照或野生型多肽，以区别于由其产生的经修饰的多肽。术语“亲本多肽”、“野生型多肽”和“参照多肽”在本文中可互换使用。当多肽是嵌合多肽(即与有效分泌的多肽、优选地所述宿主细胞的固有多肽的翻译融合物)时，整个嵌合多肽可以根据本发明被修饰。当嵌合多肽包含有效分泌的多肽作为与感兴趣的多肽融合的前导多肽时，感兴趣的多肽优选地被修饰。

如本领域技术人员所已知的，由于成熟期间的加工错误，有可能成熟多肽的N-端以及成熟多肽的C-端都是异源的。特别地，此类加工错误可在多肽的过表达时发生。另外，外切蛋白酶活性可能得到异质性。异质性发生的程度还取决于使用的宿主和发酵方案。此类N-端和C-端加工的人工制品(artefacts)可能导致与预期的成熟多肽相比更短的多肽或更长的多肽。

在本发明的一个实施方案中，方法包括：

(i)测定对真核宿主中一种或多种蛋白质特征而言的最适范围和最适值，和

(ii)测定所述真核宿主中一组相关蛋白质特征，当多肽的氨基酸主链中一种或多种这些相关特征被修饰时，所述特征会提高所述真核宿主分泌所述多肽，和

(iii)修饰所述相关蛋白质特征的数值，使其落入(i)中测定的所述最适范围内，或者更接近(i)中测定的最适值，其中(i)和(ii)可以按照任何顺序进行。

可以使用任何方法测定一组相关特征。在一个实施方案中，如下测定用于提高多肽分泌的一组相关特征：

(i)收集或创建数据组S，所述数据组S含有某真核宿主中合适量蛋白质的分泌水平，以及这些蛋白质的氨基酸和DNA序列。数据组S可含有分泌型蛋白质(S+)。优选地，数据组S还含有非分泌型蛋白质(S-)。例如，可以在A.niger中表达所有预测的分泌型蛋白质(Tsang et al.，2009，Fungal Genetics and Biology，46：S153-160)。分泌型的蛋白质属于S+组，而非分泌型的蛋白质属于S-组。可以使用任何方法测量分泌水平。或者，S-组可含有文献中已知的真核宿主中的非分泌型蛋白质。S中的蛋白质对真核宿主可以是同源或异源的。

(ii)针对数据组S中的所有蛋白质计算蛋白质特征(F)。F可源自这些蛋白质的DNA序列和氨基酸序列；

(iii)使用统计学分类方法选择在ii)中计算的下述蛋白质特征亚组(Fs)，根据适当定义的分类器性能标准，所述蛋白质特征亚组给出了在S+和S-之间区分的统计学分类器的最佳性能。Fs可源自DNA序列(Fs_DNA)和氨基酸序列(Fs_AA)二者。

Fs_AA中的蛋白质特征是用于修饰从而提高相应真核宿主中蛋白质分泌的相关特征。

因为优选地，成熟多肽的主链根据本发明的方法被修饰，所以蛋白质特征优选地由一组成熟蛋白质计算。

可以使用本领域已知的标准统计学分类方法，例如Linear DiscriminantClassifier(LDC)、Quadratic Discriminant Classifier(QDC)、Nearest MeanClassifier(NMC)、1-/k-Nearest Neighbour分类器、支持载体机器和决策树等等(Webb，Statistical Pattern Recognition，2^nd ed，John Wiley & sons)。应用此类方法时，数据组S可以被分成训练数据组和核实数据组，并可使用本领域公知的核实流程(例如10-倍交叉核实)。

可以使用本领域已知的任何分类器性能度量，例如特异性、灵敏度、准确度、精确度和接受者运行特性(Receiver Operation Characteristics，ROC)曲线下的面积。

可以使用任何合适的方法测定蛋白质特征的最适范围或最适值。

在一个实施方案中，如下测定真核宿主的蛋白质特征的最适范围或最适值：

i)收集或创建数据组S，所述数据组S含有某真核宿主中合适量蛋白质的分泌水平，以及这些蛋白质的氨基酸和DNA序列。数据组S可含有分泌型蛋白质(S+)。优选地，数据组S还含有非分泌型蛋白质(S-)。例如，可以在A.niger中表达所有预测的分泌型蛋白质(Tsang et al.，2009，FungalGenetics and Biology，46：S153-160)。分泌型的蛋白质属于S+组，而非分泌型的蛋白质属于S-组。可以使用任何方法测量分泌水平。或者，S-组可含有文献中已知的真核宿主中的非分泌型蛋白质。S中的蛋白质对真核宿主可以是同源或异源的。

ii)针对数据组S中的所有蛋白质计算蛋白质特征(F)。F可源自这些蛋白质的DNA序列和氨基酸序列；

iii)测定针对相应真核宿主的每种特征的最适值(F_opt)。也可以通过计算由S+计算的每种蛋白质特征集中趋势的度量，来获得最适值。可以使用集中趋势的任何度量，例如几何平均，调和平均，算术平均，修剪平均，最常见值(most frequent value)和中位数。针对集中趋势所计算的度量是相应真核宿主特征的最适值。或者，拟合由S+计算的每种蛋白质特征的概率分布，使得特征数值的分布由所选择的概率分布良好地描述。可以使用任何概率分布，例如可以使用正态分布、指数分布或对数正态分布。概率分布的均值是相应真核宿主特征的最适值。

iv)测定针对相应真核宿主的每种特征的最适范围：考虑仅含分泌型蛋白质的S+组，蛋白质特征最适范围的下界被定义为对应于由S+计算的蛋白质特征的0.3-、0.2-、0.15或优选地0.10-和0.05-分位数。此处数值0.3、0.2、0.15等是指累积概率。对应于某一累积概率的分位数可以通过任何统计学方法计算，例如使用Statistical Toolbox，Matlab R2007a(TheMathworks Inc)的分位数功能计算。蛋白质特征最适范围的上界被定义为对应于由S+计算的蛋白质特征的0.7-、0.8-、0.85或优选地0.90-和0.95-分位数。或者，考虑到整个数据组S既含有分泌型蛋白质又含有非分泌型蛋白质，蛋白质特征最适范围的下界可以被定义为下述蛋白质特征数值：低于所述数值时S中70％、80％、85％、优选地90％或95％的蛋白质是非分泌型的；蛋白质特征的最适范围的上界被定义为下述蛋白质特征数值：高于所述数值时S中70％、80％、85％、优选地90％或95％的蛋白质是非分泌型的。

相关特征的组和最适范围与最适值可在宿主细胞与宿主细胞之间变化。对A.niger而言，将被修饰以提高蛋白质分泌的相关蛋白质特征(Fs_AA)包括但不限于：碱性氨基酸频率，极性氨基酸频率，非极性氨基酸频率，微小氨基酸频率，小氨基酸频率，带电荷氨基酸频率，(pH 7.2下)净电荷，等电点，天冬酰胺、精氨酸、异亮氨酸、半胱氨酸、组氨酸、谷氨酸、缬氨酸、赖氨酸、甘氨酸、苏氨酸和亮氨酸的频率，(通过Garnier计算的)转变，通过EPESTFIND计算的PEST基序，针对pI的局部特征(LF)值，特别是LF1和LF6，针对Gravy评分的LF值，特别是LF2和LF4，针对aroma评分的LF值，特别是LF3、LF4和LF6，原子组成w.r.t.硫(S)和定位特征(例如通过MultiLoc定位预测工具或预测的)。

净电荷具有与质子电荷相同的单位。每段长度的净电荷/净正电荷/净负电荷/总电荷具有与质子电荷相同的单位，但是针对多肽的长度被标准化。

多肽的净电荷在本文中如下估计：假设所有氨基酸均完全暴露于溶液，相邻的肽对任何给定氨基酸的pK没有影响，并且组成的氨基酸以及N-端和C-端未经修饰。可以使用不同的程序计算具体pH(默认pH＝7.2)下多肽的净电荷，例如使用Bioinformatics Toolbox of Matlab(R2008b版)的“isoelectric”功能，或者使用可在http://emboss.sourceforge.net/获得的EMBOSS Explorer的“pepstats”功能。

每段长度的净电荷在本文中被定义为多肽的净电荷除以多肽的长度。

每段长度的净正电荷在本文中被定义为如下计算的多肽净正电荷：将pH 7.2下多肽N-端与所有赖氨酸、精氨酸和组氨酸残基的部分电荷总和在一起。每段长度的净正电荷通过用多肽的净正电荷除以多肽的长度来测定。

每段长度的净负电荷被定义为如下计算的多肽净负电荷：将pH 7.2下多肽C-端与所有天冬氨酸、谷氨酸、半胱氨酸和酪氨酸残基的部分电荷总和在一起。每段长度的净负电荷通过用多肽的净负电荷除以多肽的长度来测定。

每段长度的总电荷在本文中被定义为如下计算的多肽总电荷：从多肽的净正电荷(正数)中减去多肽的净负电荷(负数)。每段长度的总电荷通过用多肽的总电荷除以多肽长度来测定。

Gravy评分在本文中被定义为Kyte and Doolittle(1982)所定义的多肽疏水性指数(hydropathy index)。每种氨基酸具有4.6和-4.6之间的疏水性评分。4.6被指定为最疏水的蛋白质，-4.6被指定为最亲水的蛋白质。多肽的GRAVY评分优选地根据Kyte and Doolittle(1982)测定。Kyte，J.andDoolittle，R.1982A simple method for displaying the hydropathic character of aprotein.J.Mol.Biol.，157：105-132.

多肽的Aroma评分在本文中如下计算：将多肽中三种芳香族氨基酸Phe、Tyr和Trp的频率总和在一起。

脂肪族指数在本文中被定义为被脂肪族侧链占据的相对体积。多肽的脂肪族指数(AI)根据Ikai(1980)：AI＝f_Ala+a f_Val+b(f_Ile+f_Leu)式计算。氨基酸丙氨酸、缬氨酸、异亮氨酸和亮氨酸具有脂肪族侧链。其中a是缬氨酸侧链的相对体积(a＝2.9)，b是亮氨酸和异亮氨酸侧链的相对体积(b＝3.9)。f_Ala、f_Val、f_Ile和f_Leu分别是多肽中丙氨酸、缬氨酸、异亮氨酸和亮氨酸的频率。Ikai，A.J.1980Thermostability and aliphaticindex of globular proteins.J.Biochem.，88：1895-1898

对GRAVY和脂肪族指数而言，也可以参考Protein Identification andAnalysis Tools on the ExPASy Server；Gasteiger E.，Hoogland C.，Gattiker A.，Duvaud S.，Wilkins M.R.，Appel R.D.，Bairoch A.；(In)John M.Walker(ed)： The Proteomics Protocols Handbook，Humana Press(2005).pp.571-607。

基于物理-化学特性的氨基酸种类：

酸性：D，E

脂肪族：A，I，L，V

芳香族：F，W，Y

碱性：H，K，R

带电：D，E，H，K，R

非极性：A，C，F，G，I，L，M，P，V，W，Y

极性：D，E，H，K，N，Q，R，S，T

小(small)：A，C，D，G，N，P，S，T，V

微小(tiny)：A，C，T，S，G

基于序列中单元素(single element)组成的特征由元素i的频率fi计算。频率和分数在本文中可互换使用。频率被定义为序列中存在的次数ni和元素i除以序列中元素的总数。序列中的单元素(例如氨基酸)可与多元素(例如微小、酸性)组合。

多肽中氨基酸残基的表面可达性(surface accessiblity)可以通过本领域中已知的任何方法测定。

如果多肽具有在实验中溶解的结构，则溶剂可达的表面积(ASA)以

为单位给出，并且通过将蛋白质表面的水分子尺寸滚成球形来计算[1]。然后将ASA转化成相对表面积(RSA)，所述相对表面积被计算为相对于侧翼是甘氨酸[2]或丙氨酸[3]的三肽中心残基的最大可能暴露，多肽链中给定氨基酸残基的ASA。RSA大于阈值α的残基(RSA＞＝α，0＜＝α＜＝1)称作被暴露，RSA小于阈值β的残基(RSA＜＝α，0＜＝β＜＝1)称作被掩埋。优选地，α＞＝0.25，更优选地α＝0.25。优选地β＜＝0.25，更优选地β＝0.25。

如果不能获得多肽的结构，也可以从多肽的氨基酸序列预测表面可达性。文献中科获得不同的方法，由多肽的氨基酸序列预测表面可达性，例如[3]、[4]、[5]和[6]中所述。优选地，使用[4]中描述的所谓NetSurfP方法预测RSA，所述方法可以在线访问http://www.cbs.dtu.dk/services/NetSurfP/。在本申请中，由成熟蛋白质的氨基酸序列预测表面可达性。被暴露和掩埋的残基的定义与前文相同。

[1]Connolly M：Analytical molecular surface calculation.Journal ofApplied Crystallography 1983，16(5)：548-558.

[2]Chothia C：The nature of the accessible and buried surfaces in proteins.J Mol Biol 1976，105(1)：1-12.

[3]Ahmad S，Gromiha MM，Sarai A：Real value prediction of solventaccessibility from amino acid sequence.Proteins 2003，50(4)：629-635.

[4]Bent Petersen et al：A generic method for assignment of reliabilityscores applied to solvent accessibility predictions.BMC Structural Biology 2009，9：51.

[5]Dor O，Zhou Y：Real-SPINE：an integrated system of neural networksfor real-value prediction of protein structural properties.Proteins 2007，68(1)：76-81.

[6]Faraggi E，Xue B，Zhou Y：Improving the prediction accuracy ofresidue solvent accessibility and real-value backbone torsion angles of proteinsby guided-learning through a two-layer neural network.Proteins 2009，74(4)：847-856.

对A.niger而言的最适值和范围展示于表1中。

表1A蛋白质特征的下界(LB)，上界(UB)和最适值(F_OPT)

表1B蛋白质特征的下界(LB)、上界(UB)和最适值(F_OPT)

在表1中，由全蛋白质序列计算的所有特征都基于全蛋白质的长度。由成熟蛋白质序列、被暴露的残基和被掩埋的残基计算的所有特征都基于成熟蛋白质的长度。

优选地，最适值和最适范围特征选自表2；这些特征被称作初级特征，其它特征(即存在于表1而不是表2中的特征)是次级特征。

表2初级特征

“Y”：表示特征是“全蛋白质”或“成熟蛋白质”相应列中的初级特征。由全蛋白质序列计算的所有特征均以全蛋白质的长度为基础。由成熟蛋白质序列、被暴露的残基和被掩埋的残基计算的所有特征均以成熟蛋白质的长度为基础。

对K.lactis而言，优选的初级特征展示于表3中。

表3针对K.lactis中成熟蛋白质的初级特征及其数值

在另一实施方案中，通过以下步骤提高多肽的分泌：

i)针对所述多肽计算蛋白质特征，

ii)测定所述多肽的一种或多种蛋白质特征是否处于对所述真核宿主而言的最适范围外，或者大幅偏离对所述真核宿主而言的最适值，其中大幅偏离被定义为与最适值有20％、30％、40％或大于50％的差异，

iii)合理地改变所述多肽的氨基酸序列，使得所述多肽的一种或多种Fs AA的数值落入最适范围内或者朝向最适值迁移合适量，优选地多肽的蛋白质特征和蛋白质特征最适值之间的差异减少10％、15％、20％或大于30％。

优选地，组合修饰2、3、4或5种蛋白质特征，更优选地组合修饰大于10、15或20种蛋白质特征。最优选地，组合修饰大于25或30种蛋白质特征。

优选地，最适范围取自表1，更优选地最适范围取自表2。或者，最适范围取自表3。

在上文步骤iii)中，可以通过本领域已知的任何方法合理地改变多肽的氨基酸序列。例如，这可如下实现：

(i)检索同源序列；

(ii)将同源序列与感兴趣的序列进行比对；

(iii)鉴定对蛋白质功能特性而言至关重要的氨基酸；

(iv)引入想要的氨基酸序列特征，同时保留功能特性；

(vi)使用对给定宿主而言最适的密码子将经修饰的序列翻译回基因；

(vii)在所述宿主中克隆并表达经过再设计的多肽。

优选地，氨基酸主链的至少5％的氨基酸被修饰，更优选地所述氨基酸主链的至少10％、进一步更优选地至少15％、进一步更优选地至少20％的氨基酸被修饰。

优选地，氨基酸主链的至少5个氨基酸被修饰，更优选地氨基酸主链的至少10个氨基酸、进一步更优选地至少15个氨基酸、进一步更优选地至少20个氨基酸、进一步更优选地至少25个氨基酸、进一步更优选地至少30个氨基酸被修饰。

优选地，根据本发明，初级特征被改进而次级特征被保持在某界限内。因此，基于所有n初级特征和所有n次级特征定义了总体最适评分F：

F = {(Σ_{i = 1}^{n} {| D_{N, i} |}^{p} + η Σ_{j = 1}^{m} {| D_{N, j} |}^{p})}^{1 / p}

η是0和1之间并且包括0和1的权重因子(0≤η≤1)。优选地η≤0.5，更优选地η≤0.4，最优选地η＝0.3。p在1和5之间并且包括1和5(1≤p≤5)，优选地p＝2(此时F表示Euclidean距离)。优选地η＝0.3且p＝2。优选地实现相对于野生型参照蛋白质至少5％的F-评分提高，更优选地实现至少10％、进一步更优选地至少15％、进一步更优选地至少20％和进一步更优选地至少30％的提高。

优选地，至少2、3、4或5种特征被修饰，更优选地至少10种、进一步更优选地至少15种、进一步更优选地至少20种、进一步更优选地至少25种、进一步更优选地至少30种特征被修饰。优选地，至少2、3、4或5种特征被改善，更优选地至少10种、进一步更优选地至少15种、进一步更优选地至少20种、进一步更优选地至少25种、进一步更优选地至少30种特征被改善，而优选地少于10种、进一步更优选地少于5种、进一步更优选地少于4种特征被恶化。优选地，所述特征是初级特征。

优选地通过进行适当序列数据库的BLAST搜索来检索同源序列。同源序列优选地与感兴趣的序列具有至少30％，优选地至少40％吗，更优选地至少50％、60％、70％、80％、90％、95％、96％、97％、98％或99％的同一性。最优选地，同源序列优选地与感兴趣的序列具有约50％的同一性。本领域技术人员应当知道下述事实：能够获得若干不同的计算机程序来比对两条序列并测定两条序列之间的同源性(Kruskal，J.B.(1983)Anoverview of sequence comparison In D.Sankoff and J.B.Kruskal，(ed.)，Timewarps，string edits and macromolecules：the theory and practice of sequencecomparison，pp.1-44 Addison Wesley)。本领域中已知的任何方法可被用于比对。两条氨基酸序列之间或两条核苷酸序列之间的同一性百分比可例如使用用于比对两条序列的Needleman and Wunsch算法来测定(Needleman，S.B.and Wunsch，C.D.(1970)J.Mol.Biol.48，443-453)。

鉴定对感兴趣的关键功能特征而言至关重要的氨基酸的方法是本领域已知的。合适的工具包括使用感兴趣的蛋白质的3D结构或3D模型，感兴趣的蛋白质或同源蛋白质的诱变研究，使用位点饱和文库建立功能中性取代与功能取代的比较。

引入氨基酸序列特征时，优选地以下述方式选择取代，所述方式使得给定位置处更满足要求的氨基酸序列特征的氨基酸选自在同源序列中观察到的氨基酸组。可以使用本领域的建模技术鉴定在天然同源物中未观察到的可允许的取代。允许产生采用给定折叠的新序列的建模技术的优选的参考文献是：

Kuhlman B，Dantas G，Ireton GC，Varani G，Stoddard BL，Baker D(2003).Design of a novel globular protein fold with atomic-level accuracy Science 302，1364-8.

Baker D(2006).Prediction and design of macromolecular structures andinteractions.Philos.Trans.R.Soc.Lond.，B.Biol.Sci.361，459-63 DeNovo protein design：towards fully automated sequence selection’Journal ofMolecular Biology，Volume 273，Issue 4，7November 1997，Pages 789-796Bassil I.Dahiyat，Catherine A.Sarisky，Stephen L.Mayo

技术领域的计算方法允许产生可采用给定蛋白质折叠的大量可能的序列。通过向评分功能中引入用于滤出最适序列的特征最优法，可以通过计算的方式选择针对指定生产宿主的最适序列。

可根据本发明的方法修饰的蛋白质特征包括组成特征、生理特征和结构特征。此类特征的合适例子是氨基酸数量，分子量，等电点，特定pH下的净电荷，GRAVY评分，脂肪族指数，不稳定性指数，组成特征，关于C、H、N、O、S原子的原子组成，氨基酸频率，二肽频率，三肽频率，酸性氨基酸频率，脂肪族氨基酸频率，芳香族氨基酸频率，碱性氨基酸频率，糖基化模式和带电荷氨基酸频率和表1中提到的特征。本发明还包括经修饰的特征的组合。优选地，组合修饰2、3、4或5种蛋白质特征。更优选地组合修饰大于10、15、或20种蛋白质特征。最优选地，组合修饰大于25种或30种蛋白质特征。

在本发明的一个实施方案中，引入一个或多个糖基化位点的同时同样修饰其它蛋白质特征。在本发明的另一个实施方案中，修饰带电荷氨基酸频率，同时同样修饰其它蛋白质特征。在本发明的另一个实施方案中，修饰极性氨基酸频率，同时同样修饰其它蛋白质特征。

由整个氨基酸或DNA序列计算的蛋白质特征是整个蛋白质的平均值，其可能并不揭示局部蛋白质特性。例如，蛋白质可以是平均亲水的，但是仍然含有大的内部疏水区。局部蛋白质特性可例如使用Benita et al.提出的方法由氨基酸或DNA序列计算(Benita et al.，2006.Molecular andCellular Proteomics，5：1567-1580)。

为了计算某一蛋白质特征的局部特性，可以在合适数量氨基酸或核苷酸的滑动窗口中局部计算蛋白质特征。然后如图9中所示，沿着蛋白质的氨基酸或DNA序列的长，将获得的值绘制成曲线。

可以定义大量局部特征：

局部特征(LF)	定义
		LF1	曲线以上和下阈值以下的面积
LF2	曲线以下和上阈值以上的面积
		LF3	曲线以上和下阈值以下的最大连续面积
LF4	曲线以下和上阈值以上的最大连续面积
		LF5	下阈值以下的曲线分数
LF6	上阈值以上的曲线分数

例如，LF1对应于图1中深灰色的区域，而LF2对应于图1中浅灰色的区域。面积可以使用梯形方法计算(Benita et al.，2006.Molecular andCellular Proteomics，5：1567-1580)。

为了计算局部特征，可以选择合适的上阈值和下阈值，以及滑动窗口的大小。滑动窗口可以是任何大小。例如，可以使用21个氨基酸或碱基对的滑动窗口大小。可以选择上阈值和下阈值的数值，以反映曲线中的极端峰。例如，更高的上阈值会比更低的上阈值考虑更多的极端峰。优选地，选择上阈值和下阈值，使得对数据组S+和S-而言Fischer标准被最大化。Fischer标准(J_F)被定义为：

J_{F} = \frac{{| μ_{S^{-}} - μ_{S^{+}} |}^{2}}{σ_{S^{-}}^{2} + σ_{S^{+}}^{2}}

其中μ_S-和μ_S+分别代表由S+和S-组计算的局部特征数值，并且σ² _S-和σ² _S+分别代表由由S+和S-组计算的局部特征数值的方差。

可以针对任何蛋白质特征(例如Gravy评分、aroma评分和等电点)来计算上文定义的局部特征。

除了可以源自成功被分泌的蛋白质序列的特征以外，还观察到特别地提高靶蛋白质的溶剂可达表面的亲水性非常成功地增加了由细胞分泌的可溶蛋白质的量。更具体地，不仅表达增加，而且显著更多的蛋白质以不与生物量或其它不溶材料结合的合适形式在发酵液中累积。具有经改进的表面亲水性的给定蛋白质能够以显著更高的分泌被回收。(通过过滤或离心)去除生物量后，生产的蛋白质的主要部分留在滤液或上清液中。

亲水性的提高可以如下完成：

·用更具极性的氨基酸取代非极性氨基酸

·用更具极性的氨基酸取代更不具极性的氨基酸

·用带电荷氨基酸取代极性氨基酸

这样通过提高更具极性的氨基酸或带电荷氨基酸的数量提高亲水性会改变氨基酸组成，并因此可以被认为是组成特征，所述组成特征可以被改造从而提高分泌。

非极性氨基酸选自A、V、L、I、C、M、F的组。氨基酸G、P、Y、W可以在极性环境中被认为是非极性的，并且在非极性环境中被认为是极性的。更具极性的残基选自S、T、N、Q、D、E、H、R、K的组。带电残基选自D、E、H、R、K的组。酸性或带负电的残基选自E、D。碱性或带正电的残基选自H、K、R。使用极性的比较标度：[A，V，L，I，M，F，C]＜[G，P，Y，W]＜[S，T]＜[N，Q，H]＜[D，E，K，R]。

已知高度疏水的表面区域趋向于导致不想要的聚集或不想要的与生物量的粘连，导致生产宿主中较高的生产压力，宿主中蛋白质的累积，和受阻的分泌或完全不分泌。观察到提高总体亲水性的取代能够非常有效地提高分泌，特别是当这些残基包含溶剂可达的残基(＝蛋白质表面残基)时。更具体地观察到，将可达表面区域中的非极性残基取代为更具极性的残基时，极性残基的分数可能甚至超过由组成特征分析的上界设定的极性残基的分数。靶蛋白质序列特征与宿主要求的不相容性可以如下补偿：提高靶蛋白质的亲水性，更具体地引入以下述方式分布的额外电荷，所述方式使得正电荷和负电荷在表面上均匀分布，防止负电荷或正电荷的热点。

尽管能够获得一些预测工具来预测何种氨基酸可能位于给定氨基酸序列的表面上，但是在需要预测溶剂可达的非极性斑块(patches)或疏水斑块时，这些工具的性能非常不佳。因此，为了调控蛋白质可达表面的亲水性，需要3D结构或3D结构模型。蛋白质的3D结构可以通过X-射线晶体学和通过NMR来测定。另外，可以应用比较性建模或基于模板的建模，从而基于同源蛋白质的3D结构针对给定序列构建可靠的3D模型(http://en.wikipedia.org/wiki/Homology_modeling)。用于比较性建模的多种服务器和软件包可在http://en.wikipedia.org/wiki/Protein_structure_prediction_software找到。

最近对于蛋白质结构预测和建模的综述见Yang Zhang，Current Opinionin Structural Biology 2008，18：342-348。

有了3D结构或3D模型的原子坐标后，可以通过本领域已知的方法计算可达表面。一种公知的方法是通过Frederic Richards开发的滚球(rolling-ball)算法来计算(1977，″Areas，volumes，packing and proteinstructure.″Annu Rev Biophys Bioeng，6：151-176)。还见http://en.wikipedia.org/wiki/Accessible_surface_area

为了测定可达(accessible)表面，应当考虑最终成熟蛋白质的四级结构，从而避免取代破坏多聚体(例如二聚体、三聚体、四聚体等等)中个体多肽(单体)之间的相互作用。

表面调控包括：

·绘制其中非极性残基是溶剂可达的区域，得到可能的粘性斑块(sticky patches)，所述粘性斑块可能妨碍适当的分泌和回收

·排除发挥功能性作用的区域，例如一般的活性位点，特别是底物、辅助底物和辅因子的结合袋。

·将非极性残基取代为更具极性的残基，所述更具极性的残基也包括带电残基

·将极性残基取代为更具极性的残基或带电残基

·再分布带电残基，从而避免带有高度负电荷的区域或带有高度正电荷的区域

·通过在接近非极性区域处引入糖基化来隔离疏水表面斑块，而不是替换疏水表面斑块

在一级结构的情况下，提高的亲水性通过比较修饰之前和之后的极性残基数量来表示，例如

考虑可达表面时，多种极性氨基酸的贡献可以被表述为具体氨基酸或具体氨基酸组形成的可达表面相对于总可达表面的分数。例如，可以计算带电残基的总可达表面并与总可达表面积比较。通过采用所有极性残基，可以计算极性可达表面。当以非极性表面为代价提高极性表面的分数时，认为蛋白质表面的亲水性提高。

原则上也可以引入糖基化并估计被糖基化隔离的面积。可以通过任何可以获得的方法(包括视觉检查)完成电荷的分布。

在一个实施方案中，要针对提高的分泌来修饰的特征是表面电荷(再)分布，表面极性-非-极性分布，序列基序，例如糖基化，或这些的组合。技术人员应当理解，一种特征(例如氨基酸)的修饰在许多情况下会影响另一特征(例如关于C、H、N、O、S原子的原子组成)的修饰。

应当理解，根据本发明的方法可便利地与提高蛋白质生产水平的本领域技术组合，或与一种或多种这些技术组合。这些技术包括但不限于应用强启动子，提高拷贝数，最适Kozak序列，mRNA稳定化元件和优化的密码子使用(WO2008/000632)。

实施例

菌株

A.niger菌株：WT 1：该A.niger菌株被用作野生型菌株。该菌株以保藏号CBS 513.88保藏于CBS Institute。

WT 2：该A.niger菌株是包含编码葡糖淀粉酶的基因(glaA)缺失的WT 1菌株。如EP 0 635 574 B1中所述通过使用“MARKER-GENE FREE”途径构建WT 2。在该专利中详尽地描述了如何在CBS 513.88的基因组中缺失glaA特异的DNA序列。所述程序导致MARKER-GENE FREE ΔglaA重组体A.niger CBS 513.88菌株，所述菌株最终完全不具有外来DNA序列。

WT 3：为了破坏WT 2中编码主要细胞外天冬氨酸蛋白酶PepA的pepA基因，如van den Hombergh et al.(van den Hombergh JP，SollewijnGelpke MD，van de Vondervoort PJ，Buxton FP，Visser J.(1997)-Disruption ofthree acid proteases in Aspergillus niger--effects on protease spectrum，intracellular proteolysis，and degradation of target proteins-Eur J Biochem.247(2)：605-13)所述缺失WT 2基因组中pepA特异的DNA序列。所述程序导致MARKER-GENE FREE WT 3菌株，所述菌株在WT 2菌株背景中失活了pepA基因。

WT 4：为了缺失WT 3中的hdfA基因，使用先前在WO05/095624中详述的方法产生Aspergillus niger WT 4(ΔglaA，ΔpepA，ΔhdfA)。

WT 5：该A.niger菌株是包含下述缺失的WT 4菌株，所述缺失导致草酸盐/酯缺陷型A.niger菌株。通过使用EP1157100和US6,936,438中所述的方法构建WT 5，其中通过缺失编码草酰乙酸水解酶的oahA基因获得草酸盐/酯缺陷型菌株，菌株WT 5被选择为在WT 4菌株背景中失活了oahA基因的代表性菌株。

WT 6：该A.niger菌株是包含在三个后续步骤中编码α-淀粉酶的三个基因(amyB、amyBI和amyBII)缺失的WT 5菌株。缺失载体的构建和这三个基因的基因组缺失已详细描述于WO2005095624中。描述于WO2005095624中的载体pDEL-AMYA、pDEL-AMYBI和pDEL-AMYBII已根据EP 0 635 574 B1中所述的“MARKER-GENE FREE”途径使用。上述程序得到WT 6，草酸盐/酯缺陷型的，MARKER-GENE FREE ΔglaA、ΔpepA、ΔhdfA、ΔamyA、ΔamyBI和ΔamyBII淀粉酶阴性重组体A.nigerCBS 513.88菌株，所述菌株最终完全不具有外来DNA序列。这样，菌株WT 6与WT 1相比具有低淀粉酶背景，具有更高的HR/NHR比例从而更有效地靶向序列，并且针对细胞外蛋白质表达和检测更加优化。

K.lactis菌株：为了评价PGE及其变体在K.lactis中的表达，使用两种菌株。GG799(New England Biolabs)和K.lactis CBS 685.97的衍生物，在本文中也称作WT 7，其更详细地描述于专利US 6,265,186 B中。菌株K.lactis WT 7通过诱变(经典菌株改进)和基因工程源自K.lactis WT 7。

几丁质酶活性测定法

反应混合物含有：3mg几丁质-天青(chitin-azure，Sigma)，0.5ml的0.1M磷酸柠檬酸钠缓冲液，pH 5.0和0.1ml待分析的样品(培养物液体)。将反应混合物于37℃下摇动孵育24小时，于12000rpm离心10分钟并测量OD590。

使用pNP-β-吡喃葡萄糖苷作为底物的β-葡糖苷酶活性。

在50mM乙酸钠缓冲液pH＝4.5中制备3mM pNP-β-吡喃葡萄糖苷(Sigma N7006)储存溶液。测定法：将250μl底物-储液(3mM)+250μL经稀释的酶样品于40℃下孵育。在t＝0、10、20和30分钟时通过将100μl孵育物与100μl 1M碳酸钠混合来终止反应。使用MTP读数器在405nm下测定消光系数。活性以释放的μmol pNP/ml/min为单位表述。

使用纤维二糖作为底物的β-葡糖苷酶。

在50mM乙酸钠缓冲液pH＝4.5中制备10mM终浓度的纤维二糖(Sigma C7252)储存溶液。对测定法而言，将2000μl底物-储液(10mM)+100μL经稀释的酶样品混合并于40℃下孵育。在t＝0、10、20和30分钟时通过将100μl孵育物+100μl 50mM氢氧化钠混合来终止反应。对样品进行超滤并使用具有脉冲电流检测(HPAEC-PAD)的高效阴离子交换色谱分析，所述分析在装有ED 40脉冲电流检测器的Dionex DX-500上进行。活性以释放的μmol葡萄糖/ml/min为单位表述。

使用AZO-CM-纤维素的内切葡聚糖酶活性。

该测定法根据Megazyme程序S-ACMC 04/07(Megazyme InternationalIreland Ltd，http://secure.megazyme.com/downloads/en/data/S-ACMC.pdf)进行。于40℃下在100mM乙酸钠缓冲液pH 4.6中2％AZO-CM-纤维素上测量活性。对测定法而言，将250μL底物储液(2％)+250μL经稀释的酶溶液混合。30分钟后添加1250μL沉淀剂溶液。通过添加沉淀剂溶液终止反应：76％乙醇中含有20mM乙酸锌的300mM乙酸钠缓冲液pH＝5。在1000xg离心10分钟后，使用分光光度计测量590nm处上清液的消光系数。活性以释放的μmol染料/ml/min为单位表述。

三丁酸甘油酯平板测定法(Tributyrine plate assay)

用三丁酸甘油酯(C4)作为底物完成罗丹明B脂肪酶平板筛选测定法。罗丹明B平板测定法通常被用于筛选样品中存在的脂肪酶活性，并且由文献中所述的测定法改造而来(G.Kouker，K.E.Jaeger，Appl.and Environ.Microbiol，1987，211-213)。使用的所有化学品都是分析级别。通过将17.9g NaCl和0.41g KH₂PO₄溶于400ml H₂O中并最终添加540ml甘油(87％)，制造阿拉伯胶乳液。缓慢添加六(6.0)g阿拉伯胶，溶解后通过添加H₂O达到1000ml的总体积。

通过将罗丹明B以20mg/ml的浓度溶于乙醇中制备罗丹明B溶液。通过将4g琼脂糖加热溶于100ml缓冲溶液(0.1M乙酸盐pH＝5.5)中制备4％琼脂糖溶液。用于筛选脂肪酶活性的底物是三丁酸甘油酯。

平板测定法程序：将1ml底物和1.5ml阿拉伯胶乳液与5ml缓冲溶液混合，使用具有20微米振幅的Soniprep超声处理2x60秒，或任选地使用设定为绿色的Ultraturax处理2分钟。向溶液中添加7.5ml热的琼脂糖溶液与150μl罗丹明B。将最终的溶液倒入培养皿平板中。将平板储存于冰箱中直至使用。使用之前用复制器(replicator)制造3mm直径的孔。将要检验脂肪酶活性的10μl溶液吸入孔中，之后将平板在37℃下孵育18-24小时。孔周围的荧光光晕指示了脂肪酶活性。

pNP-丁酸酯测定法

于37℃下在1mM终浓度对硝基苯基丁酸酯作为底物时，针对内部酶标准测定前胃酯酶(PGE)活性。通过在乙腈中制造50mM对硝基苯基丁酸酯储存溶液来制备底物溶液，所述底物溶液在含有0.2％BSA核2％TritonX-100的0.1M磷酸钠缓冲液pH 6.7中被稀释5倍。添加含有0.2％BSA、15μl底物溶液的120μl 0.1M磷酸钠缓冲液pH 6.7。预加热至37℃后，添加适当稀释的15μl样品(稀释于含0.2％BSA的0.1M磷酸钠缓冲液pH 6.7中)，之后在405nm下用分光光度计测量37℃下孵育5分钟后的吸光度提高。样品应答针对空白背景(孵育含0.2％BSA的15μl 0.1M磷酸钠缓冲液pH 6.7而不是样品)被校正，并且在空白校正后典型地范围从0.05到0.5dAbs。

在pH 6.0和30℃下针对三丁酸甘油酯进行的滴定分析测定法中对内标进行定标。向30mL预加热的三丁酸甘油酯/阿拉伯胶溶液(分别为水中93和57g/L)中添加5mL PEG样品溶液(在milliQ水中制备)。通过用0.02N NaOH滴定，测量5分钟内的游离脂肪酸释放。

SDS-PAGE电泳

样品预处理：将30μl样品添加至35μl水和25μl NuPAGE^TM LDS样品缓冲液(4x)Invitrogen和10μl NuPAGE^TM样品还原剂(10x)Invitrogen中。在热混合仪中于70℃下将样品加热10分钟。

根据供应商的说明一式两份进行SDS-PAGE(Invitrogen：凝胶：4-12％Bis-Tris凝胶，缓冲液：MES SDS电泳缓冲液，运行时间：35分钟)。使用两种凝胶之一用于印迹，将10μl样品溶液和1μl标记物M12(Invitrogen)应用在凝胶上(NuPAGE^TM BisTris，Invitrogen)。

使用XCELL Surelock在200V下对凝胶进行电泳，外部缓冲液腔中有600ml 20倍稀释的MES-SDS缓冲液，内部缓冲液腔中有200ml含有0.5ml抗氧化剂(NuPAGE^TM Invitrogen)的20倍稀释的MES-SDS缓冲液。电泳后用50％甲醇/7％乙酸(50ml)将凝胶固定1小时，用去矿物质水冲洗两次，并用Sypro Ruby(50ml，Invitrogen)染色过夜。

用去矿物质水将凝胶洗涤10分钟后，使用Typhoon 9200(610 BP 30，Green(532nm)，PMT 600V，100微米)制造图像。

Western印迹

PGE多克隆抗体

使用speedy 28-days程序在Eurogentec(比利时)订购PEG多克隆抗体，并合成两种PEG肽作为抗原。针对商业Piccantase C(DFS)酶制剂验证PEG抗体(数据未显示)。

根据分析S2300的方法进行Western印迹。

膜： NC 0.45μm

运行时间： 25V下90分钟

缓冲液：含甲醇的转移缓冲液

转移至膜厚，进行以下步骤：

将膜在20ml脱脂奶(PBST中1％脱脂奶；10mM PBS+0.05％TWEEN20)中封闭2小时。

抗体1：SY0716，兔；在室温下将40μl抗体在20ml PBST中溶解过夜(1∶500).

用PBS-T冲洗膜，接着用PBST缓冲液3x 20’洗涤。

抗体2：ECL Plex山羊抗兔IgG Cy3(GE Healthcare)；将10μl ECLPlex在25ml PBST中溶解1小时，保持在暗处(1∶2500)。

在PBST中将膜冲洗4次，接着洗涤2x 10’

在PBS中洗涤2x 10’

使用Typhoon 9200(670BP 30，green(532nm)，PMT 450V，100微米)制造膜的图像。

分子生物学技术

在本文的实施例中，使用本领域技术人员已知的分子生物学技术(见Sambrook & Russell，Molecular Cloning：A Laboratory Manual，3rd Ed.，CSHLPress，Cold Spring Harbor，NY，2001)，如下文所述将若干基因过表达，并将其它基因下调。

描述和使用的所有基因替换载体都根据已知原则设计并根据常规克隆程序构建。本质上，这些载体包含各个ORF序列约1-2kb的侧翼区，从而靶向预定的基因组基因座处的同源重组。另外，它们含有用于转化的A.nidulans双向amdS选择标记物——两者之间(in-between)的直接重复。在本文所有实施例中用于基因缺失的方法使用线性DNA，所述线性DNA通过双交换在侧翼序列的同源基因座处整合进基因组中，从而用amdS基因取代要被缺失的基因。转化后，直接重复允许通过(第二)同源重组事件去除选择标记物。amdS标记物的去除可以如下完成：涂布在氟乙酰胺培养基上、导致无标记物-基因菌株的选择。使用该转化策略和随后的反选择(在EP 0 635 574中也被描述为“无标记物-基因”途径)，可以在菌株修饰程序中无定数地使用amdS标记物。用于基因破坏的一般程序展示于WO2006040312的图6中。缺失载体的一般设计先前描述于EP635574B和WO 98/46772中，一般克隆载体pGBDEL用于构建缺失载体的用途和反选择程序a.o.描述于WO06/040312。

表达载体和特定地用于基因过表达、转化的pGBFIN-表达载体的例子，标记物和选择培养基的使用可参见WO199846772、WO199932617、WO2001121779、WO2005095624、EP 635574B和WO2005100573。

摇瓶发酵

如WO 99/32617的实施例“Aspergillus niger shake flaskfermentations”章节中所述，在20ml CSL预培养培养基(100ml烧瓶，带挡板)中预培养A.niger菌株。在34℃和170rpm下培养18-24小时后，将10ml该培养物转移至发酵培养基(FM)。FM中的发酵在34℃和170rpm下，在带有挡板的含100ml发酵液的500ml烧瓶中进行指定天数，一般如WO99/32617中所述。

CSL培养基由以下组成(以每升的量计)：100g玉米浸渍固体(Roquette)、1g NaH₂PO₄*H₂O、0.5g MgSO₄*7H₂O、10g葡萄糖*H₂O和0.25g Basildon(消泡剂)。将所述成分溶于去矿物质水中，用NaOH或H₂SO₄将pH调节至pH 5.8；用20ml发酵培养基填充带有挡板和起泡球的100ml烧瓶，并在120℃下灭菌20分钟。

发酵培养基(FM)由以下组成(以每升的量计)：150g麦芽糖*H₂O、60g Soytone(胨)、1g NaH₂PO₄*H2O、15g MgSO₄*7H2O、0.08g Tween 80、0.02g Basildon(消泡剂)、20g MES、1g L-精氨酸。将所述成分溶于去矿物质水中，用NaOH或H₂SO₄将pH调节至pH 6.2；用100ml发酵液填充带有挡板和起泡球的500ml烧瓶，并在120℃下灭菌20分钟。

对K.lactis摇瓶发酵而言，将K.lactis PGE转化体的单个菌落接种进100ml(摇瓶)YEP(4％)-D/MES培养基中，所述培养基每升含有：10g酵母提取物，20g Bacto胨，40g葡萄糖和100mM MES pH 6.7。发酵于30℃和280rpm下在摇动培养箱中进行。第2天和第3天收集上清液并如下文所述进一步分析。

实施例1

针对野生型酶和根据本发明的酶变体构建K.lactis和A.niger表达载体

在该实施例中，针对本发明酶的变体构建大量表达载体。用于在Kluyveromyces中表达的所有变体均被克隆在于pKLAC2表达载体(NewEngland Biolabs)非常相似的pKLPGE-载体中。所有pKLPGE-载体的一般设计可见图1。用于在Aspergillus中表达的所有变体均被克隆在pGBFIN-5或pGBTOP-表达载体中。这些载体的构建、一般设计和使用在WO199932617中详细描述。

K.lactis构建体

小牛前胃酯酶(PGE)是工业上感兴趣的酶，其全场cDNA序列由Timmermans et.al.(1994，Gene 147：259-262)公开。为了在Kluyveromyceslactis中表达PGE，对该cDNA序列进行密码子对优化(SEQ ID No.1)，并合成制备(例如DNA2.0，USA，GeneArt，Sloning，德国)。制造表达构建体，所述表达构建体含有与K.lactis α-因子前(原-)信号序列和KREAEA Kex前(原-)-序列加工位点的融合物。通过HindIII和NotI限制性位点，将合成基因克隆进K.lactis表达载体中，得到pKLPGE-WT(图1)，其也含有amdS选择标记物。另外，根据本发明的方法设计具有改进的蛋白质特征的若干PGE变体。这些突变体与经密码子对优化的野生型PGE酶(SEQ ID No.2)在糖基化位点数量和/或疏水性方面不同。如上文所述，也对PGE突变体酶编码基因进行密码子对优化并合成制备。基本如前文所述使用XhoI和NotI克隆位点将变体克隆进K.lactis表达载体中。PGE构建体的所有相关的核苷酸和蛋白质细节可见表4。

表4.在K.lactis中表达的PGE酶野生型和突变体的综述

A.niger构建体

为了在A.niger中表达小牛前胃酯酶，对cDNA序列进行密码子对优化(SEQ ID No.12)并合成制备(DNA2.0，USA，GeneArt，Sloning，德国)。经密码子对优化的PGE编码基因被合成制备成与截短的葡糖淀粉酶载体蛋白(tAG)的融合物。融合物片段被插入pGBTOP-A.niger表达载体中，如图2中针对pANPGE-3所示。

在A.niger基因组序列中鉴定编码推定的几丁质酶(ZDU，EC 3.2.1.14，Uniprot A5AB48)的野生型A.niger基因An08g09030(EMBL：AM269948-AM270415；Pel et al.，“Genome sequencing and analysis of the versatile cellfactory Aspergillus niger CBS 513.88”.Nat Biotechnol.2007Feb；25(2)：221-231)。野生型几丁质酶ZDU的cDNA序列可以被鉴定为SEQ ID NO.17，所演绎的野生型几丁质酶ZDU蛋白质序列可以被鉴定为SEQ ID NO.18。对An08g09030的编码序列进行密码子对优化(如WO2008000632中详述)，并在产生的所有表达构建体中将葡糖淀粉酶glaA启动子的翻译起始序列修饰为5’-CACCGTCAAA ATG-3’(也如WO2006/077258中详述)。另外，使用最适的翻译终止序列，因此在所有表达构建体中用5’-TAAA-3’代替野生型5’-TGA-3’翻译终止序列(如WO2006/077258中详述)。经优化的几丁质酶ZDU构建体完全作为PacI-AscI片段被合成，亚克隆并进行序列验证。合成的片段末端的PacI-AscI限制性位点被用于允许在经PacI-AscI消化的pGBFIN-5表达载体的大载体片段中克隆，得到pGBFINZDU-WT表达载体(图3)。

另外，以与ZDU几丁质酶相似的方式，对Talaromyces emersonii β-葡糖苷酶(ZTB，EC 3.2.1.21，Uniprot Q8X214)和Phanerochaetechrysosporium内切葡聚糖酶(ZTC，EC 3.2.1.4，Uniprot Q66NB6)进行密码子对优化(如WO2008000632中详述)，所有适当的控制元件作为PacI-AscI片段被克隆在pGBFIN-5中，分别得到pGBFINZTB-WT和pGBFINZTC-WT。

根据本发明方法的蛋白质特征优化(PFO)被应用于小牛前胃酯酶，A.niger几丁质酶蛋白质序列，T.emersonii β-葡糖苷酶和P.chrysosporium内切葡聚糖酶蛋白质序列。包含所设计的小牛前胃酯酶变体的编码序列完全作为EcoRI-SnaBI片段被合成，并进行序列验证。所合成的片段被克隆进pGBTOP-载体中，产生pANPGE-表达构建体。A.niger PGE构建体的所有相关核苷酸和蛋白质细节可见表5。

表5.针对A.niger的野生型和变体酶表达构建体，参照及其特性

包含所设计的几丁质酶变体、β-葡糖苷酶和内切葡聚糖酶的编码序列完全作为PacI-AscI片段被合成，亚克隆并进行序列验证。合成的片段末端的PacI-AscI限制性位点被用于允许在经PacI-AscI消化的pGBFIN-5表达载体的大载体片段中克隆，得到变体pGBFIN-表达载体。变体表达构建体如下文所述被命名，pGBFINZDU-构建体的各个核苷酸和蛋白质序列的特征和参照可得自表6，pGBFINZTB-构建体的可得自表7，pGBFINZTC-构建体可得自表8。

表6.针对A.niger的野生型和变体酶表达构建体，参照及其特性

表7.针对A.niger的野生型和变体酶表达构建体，参照及其特性

表8.针对A.niger的野生型和变体酶表达构建体，参照及其特性

实施例2

野生型和静蛋白质特征优化的PGE在K.lactis中的表达和分泌分析。

用也含有amdS选择标记物的所有K.lactis pKLPGE-构建体(表4)转化菌株K.lactis GG799或K.lactis WT 7。对每个转化而言，在含有乙酰胺的选择培养基上纯化20个菌落。部分菌落被用于产生DNA模板，用于进行PCR反应，以测定每个菌株中PGE构建体的拷贝数。对每个构建体而言，在含有三丁酸甘油酯作为酶促底物的平板测定法上进一步筛选PCR筛选中为阳性的3个转化体。对wt PGE酶而言，使用三丁酸甘油酯平板测定法不能检测到清楚地活性晕轮。在针对PGE生产的SDS-PAGE上对上清液的分析也未显示阳性结果。令人惊讶的是，对具有经优化的蛋白质特征的5种PGE突变体中的4种而言，使用三丁酸甘油酯平板测定法能够观察到清楚的活性晕轮。在摇瓶中培养针对wt和突变体PGE的大量转化体，并使用pNP-丁酸酯作为底物检查发酵液和上清液的脂肪酶活性。用于PGE突变体的多种活性测定法的概述展示于表9中。

表9.PGE wt和PFO变体的活性测试

对K.lactis pKLPGE-WT(PGE CPO)转化体(多拷贝数)而言，获得0.2U/ml的最大活性。通过PGE的蛋白质特征优化(即如pKLPGE-12中所表达的)，对所述PGE变体而言观察到活性提高至大于50倍。以更大的规模基础发酵PGE-9、PGE-11和PGE-12变体的大量突变体，证实被提高的分泌(数据未显示)。在该实施例中，显示通过修饰糖基化位点的数量和通过改变暴露于表面的疏水酶部分的极性(基于PGE建模来测定)，我们能够可观地提高K.lactis中的PGE酶表达和分泌。另外，还在上清液中发现显著量的活性。

实施例3

野生型和经蛋白质特征优化的PGE在A.niger中的表达和分泌分析。

A.niger WT 6与带有A.nidulans amdS选择标记物的pGBAAS构建体和变体pANPGE-质粒共转化(表5)。对每个转化而言，在含有乙酰胺的选择培养基上纯化20个菌落，随后制备孢子平板，均如WO99/32617中所述。为了选择属于真实的共转化体(例如既含有PGE又含有amdS盒)的A.niger转化体，进行PCR检验(未显示)。结果显示20个所选择的转化体中至少50％含有一个或多个拷贝的PGE表达构建体。用这些含有PGE的转化体继续。收集PGE共转化体的孢子，并在FM培养基中进行摇瓶发酵。第2天收集上清液样品，并使用三丁酸甘油酯平板测定法筛选脂肪酶活性。

在从A.niger pANPGE-3转化体中收集的样品中，能够检测到非常小的活性晕轮(数据未显示)。对pANPGE-12河pANPGE-13转化体而言，能够检测到大活性晕轮(数据未显示)。对每种构建体pANPGE-3、pANPGE-12和pANPGE-13而言，使用pNP-丁酸酯作为底物，针对脂肪酶活性检查在三丁酸甘油酯平板测定法上显示最大晕轮的转化体(1-3)。PGE突变体的多种活性测定法的概述展示于表10中。

表10.在A.niger中表达的野生型和PFO PGE变体

++++、+++、++、+、+/-、-分别对应于三丁酸甘油酯平板测定法中非常大、大、中、小、不清楚和无晕轮。

在SDS-PAGE凝胶(Invitrogen)上和使用PGE多克隆抗体通过western印迹进一步分析WT6和选择的转化体pANPGE-12#16和pANPGE-13#30的上清液样品(见图4)。对pANPGE-12的A.niger PGE PFO变体而言，在SDS-PAGE凝胶上能够检测到对应于成熟PGE的条带。使用PGE多克隆抗体PGE，能够在两种转化体的上清液中均检测到交叉杂交条带。更高的分子量条带(约55kDa)大概对应于成熟的PGE突变体，更低分子量的交叉杂交条带可以是蛋白水解降解的结果。

结论是通过按照蛋白质特征优化的规则改变暴露于表面的酶部分的极性(基于PGE建模来测定)，我们能够可观地提高A.niger中的PGE酶表达。另外，在上清液中也发现了较高的酶活性。

实施例4

A.niger中野生型和经PFO优化的真菌酶的表达

如下文所述，使用A.niger通过转化引入实施例1(上文)中制备的pGBFINZDU-、pGBFINZTB-和pGBFINZTC-表达构建体。为了在WT 6中引入不同的pGBFINZDU-、pGBFINZTB-和pGBFINZTC-载体(分别见表6、7和8)，如WO1998/46772和WO1999/32617中所述进行转化和随后的转化体选择。简言之，将所有pGBFIN-构建体的线性DNA分离并用于转化A.niger WT 6。在乙酰胺培养基上选择转化体，并根据标准程序纯化菌落。使用PCR，针对glaA基因座处的整合和拷贝数诊断菌落。针对每种pGBFINZDU-、pGBFINZTB-和pGBFINZTC-构建体选择具有相似的估计拷贝数(推定的单拷贝)的三个独立转化体，并使用转化质粒的数量来命名，例如分别为ZDU-WT-1、ZDU-WT-2、ZDU-WT-3、ZDU-6-1、ZDU-6-2、ZDU-6-3等等。

使用所选择的ZDU-、ZTB-和ZTC-菌株和A.niger WT6，在如上文所述的100ml FM培养基中，在34℃和170rpm下于培养箱摇床中使用500ml带挡板的摇瓶进行摇瓶实验。在发酵第3天、第4天和第5天后，采取样品，通过凝胶电泳和几丁质酶活性来测定生产的细胞外蛋白质的量。

测量培养物上清液中含有不同构建体的A.niger ZDU-转化体的每种转化体所表达的几丁质酶生产。第3天测量的几丁质酶活性在图5中示出。另外，通过SDS凝胶电泳和染色分析第4天采样的培养物上清液(图6)。从这些结果可以看出，经优化的蛋白质特征对蛋白质分泌具有积极影响，并且导致对几丁质酶而言可检出的和进而提高的蛋白质表达水平和提高的活性水平。结果已概括于表6中。

测量培养物上清液中含有不同构建体的A.niger ZTB-转化体的每种转化体所表达的β-葡糖苷酶生产。通过SDS凝胶电泳和染色分析第4天采样的培养物上清液(图7)。从这些结果可以看出，经优化的蛋白质特征对蛋白质分泌具有积极影响，并且导致对β-糖苷酶而言可检出的和进而提高的蛋白质表达水平。另外，在pH＝4.5和40℃下使用pNP-β-吡喃葡糖苷酶作为底物，测定第3天采样的上清液中的活性。已进行蛋白质特征优化的β-葡糖苷酶上清液显示与经密码子优化的基因所编码的亲本β-葡糖苷酶相比高达20倍的活性提高。针对空宿主测量的背景β-葡糖苷酶活性比经密码子优化的基因所编码的亲本β-葡糖苷酶低两倍到四倍。还使用纤维二糖作为底物，在pH＝4.5和40℃下测量活性。测量到的活性提高与经密码子优化的基因所编码的亲本β-葡糖苷酶相比至少为30倍(空宿主菌株显示与经密码子优化的基因所编码的亲本β-葡糖苷酶相比低三倍到十倍)。结果已概括于表7中。

测量培养物上清液中含有不同构建体的A.niger ZTC-转化体的每种转化体所表达的内切葡聚糖酶生产。通过SDS凝胶电泳和染色分析第4天采样的培养物上清液(图8)。从这些结果可以看出，经优化的蛋白质特征对蛋白质分泌具有积极影响，并且导致对内切葡聚糖酶而言可检出的和进而提高的蛋白质表达水平。使用AZO-CM-纤维素作为底物，在pH＝4.5和40℃下测定第3天采样的上清液中的内切葡聚糖酶活性。已进行蛋白质特征优化的内切葡聚糖酶上清液显示与相同宿主中表达的经密码子优化的基因相比超过350倍的活性提高。应当注意，由于空菌株中非常低的背景活性(通过SDS-PAGE不可检出)，活性的提高以此类高度图(highfigure)表述。对经密码子优化的基因所编码的内切葡聚糖酶而言，所测量的活性约为针对空宿主菌株所观察到的背景活性。结果已概括于表8中。

这些实施例清楚地展示了用于蛋白质特征优化的本发明方法如何被用于提高感兴趣的蛋白质和酶的分泌和生产。另外，这些结果表明本发明的方法可广泛应用以提高宿主中的蛋白质表达，尽管表达构建体和宿主已具有若干其它优化，例如强启动子、经改进的翻译起始序列、经改进的翻译终止序列、经优化的密码子和密码子对使用和/或经改进的用于蛋白质表达的宿主。

申请人或代理人文件参考编号27179-WO-PCT

国际申请号：

与被保藏的微生物相关的说明

(PCT Rule 13bis)

申请人或代理人文件参考编号27179-WO-PCT

国际申请号：

与被保藏的微生物相关的说明

(PCT Rule 13bis)

Claims

1.用于提高真核宿主细胞对感兴趣的多肽的分泌的方法，所述方法包括修饰所述多肽的氨基酸主链中一组相关的蛋白质特征的数值，使其落入对所述真核宿主中一种或多种蛋白质特征而言的最适范围内，或者更接近对所述真核宿主中一种或多种蛋白质特征而言的最适值。

2.根据权利要求1所述的方法，所述方法包括：

(i)测定对所述真核宿主中一种或多种蛋白质特征而言的最适范围和最适值，和

(ii)测定所述真核宿主中一组相关蛋白质特征，当所述多肽的氨基酸主链中这些相关特征中的一种或多种被修饰时，所述特征会提高所述真核宿主分泌所述多肽，和

3.根据权利要求1或2所述的方法，其中，这样来测定一组相关特征：

a.收集或创建数据组S，所述数据组S含有某真核宿主中合适量蛋白质的分泌水平，以及这些蛋白质的氨基酸序列和DNA序列

b.针对数据组S中的所有蛋白质计算蛋白质特征(F)；

c.使用统计学分类方法选择下述蛋白质特征亚组(Fs)，根据适当定义的分类器性能标准，所述蛋白质特征亚组给出了在分泌型蛋白质S+和非分泌型蛋白质S-之间区分的统计学分类器的最佳性能。

4.根据权利要求3所述的方法，其中所述蛋白质特征是从一组成熟蛋白质中计算的。

5.根据权利要求1-4中任一项的方法，其中这样来测定对真核宿主而言多种蛋白质特征的最适范围或最适值：

b.针对数据组S中的所有蛋白质计算蛋白质特征(F)；

c.如下测定针对真核宿主的每种特征的最适值(F_opt)：拟合由S+计算的每种蛋白质特征的概率分布，使得所述特征数值的分布由所选择的概率分布良好地描述，

d.测定针对所述真核宿主的每种特征的最适范围。

6.用于提高真核宿主分泌多肽的方法，所述方法包括：

i)针对所述多肽计算蛋白质特征，

ii)测定所述多肽的一种或多种蛋白质特征是否处于对所述真核宿主而言的最适范围外，或者大幅偏离对所述真核宿主而言的最适值，

iii)合理地改变所述多肽的氨基酸序列，使得所述多肽的一种或多种Fs_AA的数值落入最适范围内或者朝向所述最适值迁移合适的量，所述改变由RI或RI_N定义，其中由RI或RI_N定义的所述改变优选地大于10％、15％、20％，最优选地大于30％。

7.根据权利要求1-6中任一项所述的方法，其中所述多肽的主链在一种或多种以下特征方面被修饰：氨基酸数量，分子量，等电点，特定pH下的净电荷，GRAVY评分，脂肪族指数，不稳定性指数，组成特征，C、H、N、O、S原子的原子组成，氨基酸频率，二肽频率，三肽频率，酸性氨基酸频率，脂肪族氨基酸频率，芳香族氨基酸频率，碱性氨基酸频率，局部特征，定位特征，糖基化模式和带电荷氨基酸频率。

8.根据权利要求1-7中任一项所述的方法，其中所述多肽的主链在一种或多种以下特征方面被修饰：碱性氨基酸频率，极性氨基酸频率，非极性氨基酸频率，微小氨基酸频率，小氨基酸频率，带电荷氨基酸频率，pH7.2下的净电荷，等电点，Asn、Arg、Ile、Cys、His、Gln、Val、Lys、Gly、Thr和Leu各自的频率，定位特征，通过Garnier计算的转变，通过EPESTFIND计算的PEST基序，针对pI的LF值，针对Gravy评分的LF值，针对aroma评分的LF值，硫(S)组成。

9.根据权利要求1-7中任一项所述的方法，其中所述多肽的主链在一种或多种选自下组的特征方面被修饰：pI，净电荷，每段长度的净电荷，每段长度的净正电荷，每段长度的净负电荷，每段长度的总电荷，gravy评分，aroma评分，脂肪族指数，微小氨基酸频率，小氨基酸频率，极性氨基酸频率，非极性氨基酸频率，带电荷氨基酸频率，酸性氨基酸频率，碱性氨基酸频率，脂肪族氨基酸频率，Ala、Arg、Asn、Asp、Cys、Gln、Glu、Gly、His、Ile、Leu、Lys、Met、Phe、Pro、Ser、Thr、Trp、Tyr和Val各自的频率。

10.根据权利要求1-9中任一项所述的方法，其中所述多肽的主链在一种或多种选自下组的特征方面被修饰：pI，净电荷(pH7.2)，每段长度的净电荷(pH7.2)，每段长度的净正电荷(pH7.2)，每段长度的总电荷(pH7.2)，脂肪族指数，小氨基酸频率，极性氨基酸频率，非极性氨基酸频率，带电荷氨基酸频率，氨基酸频率，Arg、Gln、Glu、Lys、Phe和Thr各自的频率。

11.根据权利要求1-9中任一项所述的方法，其中所述多肽的主链在一种或多种选自下组的特征方面被修饰：糖基化位点，gravy评分，极性氨基酸频率，非极性氨基酸频率，带电荷氨基酸频率，酸性氨基酸频率，碱性氨基酸频率，Glu、Lys和Thr各自的频率。

12.根据权利要求1-11中任一项所述的方法，其中所述氨基酸主链的至少5％的氨基酸被修饰，更优选地所述氨基酸主链的至少10％，进一步更优选地至少15％，进一步更优选地至少20％的氨基酸被修饰。

13.根据权利要求1-11中任一项所述的方法，其中所述氨基酸主链的至少5个氨基酸被修饰，更优选地所述氨基酸主链的至少10个氨基酸、进一步更优选地至少15个氨基酸、进一步更优选地至少20个氨基酸、进一步更优选地至少25个氨基酸、进一步更优选地至少30个氨基酸被修饰。

14.根据权利要求1-13中任一项所述的方法，其中实现了相对于野生型参照蛋白质的至少5％的F-评分提高，更优选地实现了至少10％、进一步更优选地至少15％、进一步更优选地至少20％、进一步更优选地至少30％的提高，其中所述F-评分根据下式计算：

F = {(Σ_{i = 1}^{n} {| D_{N, i} |}^{p} + η Σ_{j = 1}^{m} {| D_{N, j} |}^{p})}^{1 / p},

其中η是0和1之间并且包括0和1的权重因子(0≤η≤1)，并且优选地η≤0.5，更优选地η≤0.4，更优选地η＝0.3，并且其中p在1和5之间并且包括1和5(1≤p≤5)，优选地p＝2。

15.根据权利要求1-14中任一项所述的方法，其中至少2、3、4或5种特征被修饰，更优选地至少10种、进一步更优选地至少15种、进一步更优选地至少20种、进一步更优选地至少25种、进一步更优选地至少30种特征被修饰。

16.根据权利要求1-15中任一项所述的方法，其中至少2、3、4或5种特征被改善，更优选地至少10种、进一步更优选地至少15种、进一步更优选地至少20种、进一步更优选地至少25种、进一步更优选地至少30种特征被改善，而优选地少于10种、进一步更优选地少于5种、进一步更优选地少于4种特征被恶化。

17.根据权利要求1-16中任一项所述的方法，其中所述特征是初级特征。

18.根据权利要求1或17所述的方法，其中所述多肽的主链在一种或多种其它蛋白质特征方面而被修饰。

19.根据权利要求1-18中任一项所述的方法，其中所述成熟多肽的主链被修饰。

20.根据权利要求1-19中任一项所述的方法，其中所述真核细胞是酵母细胞或丝状真菌细胞。

21.根据权利要求1-20中任一项所述的方法，其中所述多肽是哺乳动物多肽或细菌多肽。

22.根据权利要求1-21中任一项所述的方法，其中所述经修饰的多肽的特异性基本保持与提高分泌之前相同。

23.根据权利要求1-22中任一项所述的方法，其中所述经修饰的多肽的比活性基本保持与提高分泌之前相同。

24.根据权利要求1-23中任一项所述的方法，其中所述分泌的提高通过活性的提高来测量，并且其中细胞外培养基中的活性被提高至少5％。

25.根据权利要求1-24中任一项所述的方法，其中所述多肽是酶、膜蛋白、激素或受体。

26.用于生产感兴趣的多肽的方法，所述方法包括对所述感兴趣的多肽应用根据权利要求1-25中任一项所述的方法，并且通过重组技术生产经修饰的多肽。

27.通过根据权利要求26所述的方法获得的多肽。

28.能够根据权利要求26所述的方法获得的多肽。

29.根据权利要求1-25中任一项获得的经修饰的多肽。

30.能够根据权利要求1-25中任一项获得的经修饰的多肽。