CN104619853A

CN104619853A - 多肽表达方法

Info

Publication number: CN104619853A
Application number: CN201380021543.5A
Authority: CN
Inventors: 约翰尼斯·安德列什·劳博斯; 简·米特斯卡·范·德·拉恩; 巴斯特安·范·登·伯格; 迪克·德·雷德
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2012-04-23
Filing date: 2013-04-23
Publication date: 2015-05-13
Anticipated expiration: 2033-04-23
Also published as: DK2841589T3; EP2841589B1; EP2841589A1; CN104619853B; WO2013160316A1; US20150064765A1

Abstract

在宿主细胞中生产目标多肽方法，所述方法包括：a.提供载有编码目标多肽的核酸的宿主细胞，其中目标多肽被修饰使得其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外；b.在适合生产多肽的条件下培养宿主细胞；以及任选地，c.回收目标化合物。本发明还涉及被修饰的多肽，其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外。

Description

多肽表达方法

发明领域

本发明涉及在宿主细胞中生产目标多肽的方法，本发明还涉及被修饰的多肽。另外，本发明涉及改进多肽的表达水平的方法，并涉及被修饰的目标多肽用来增加所述多肽在宿主细胞中的表达水平的用途。

发明背景

在细菌宿主细胞、酵母宿主细胞和真菌宿主细胞中生产重组多肽是本领域已知的。当前多肽的生产以多种方式进行。

现有技术的生产重组多肽的方法是通过发酵包含表达构建体的宿主细胞，所述表达构建体尤其包含可操作地连接至编码目标多肽的多核苷酸的启动子。得到的多肽可以在细胞内积聚或者可以通过宿主细胞的分泌途径被进一步分泌。在后一种情况下，目标多肽通常包含信号序列。在Broekhuijsen等人(Journal of Biotechnology,31(1993)135-145,Broekhuijsen等人；Secretion of heterologous proteins by Aspergillusniger:Production ofactive human interleukin-6 in a protease deficient mutant by KEX2-likeprocessing of a glucoamylase-hIL6 fusion protein)中，重组蛋白质在使用了被分泌的多肽葡萄糖淀粉酶的信号序列的Aspergillus niger中表达。

重组的目标多肽的生产产率可以通过增加生产和分泌效率，例如通过使用被修饰的Kozak序列(WO2008000632)，密码子对优化(WO2008000632)，引入改进的分泌信号序列(WO2010/121933)来增强。这些方法不改变成熟多肽的氨基酸组成。

近来，蛋白质特征优化(protein feature optimization，PFO)作为一种新的方法被引入，通过修饰多肽的氨基酸骨架中一组相关蛋白质特征的数值，使其落入对真核宿主中一种或更多种蛋白质特征而言的最适范围内或者变得更接近对真核宿主中一种或更多种蛋白质特征而言的最适值来改进通过真核宿主细胞的目标多肽的分泌。所述蛋白质特征是能够通过计算源自蛋白质氨基酸序列和DNA序列的特性(WO2010/102982)。

在工业背景下，需要所生产的多肽的高产率。因此，为了进一步增强目标多肽生产的产率，需要改进分泌效率。本发明的一个目的是提供生产重组多肽的改进的方法。

发明概要

可以采用影响蛋白质生产的因素的知识来改进工业设置下的酶生产速率。在某些情况下同源基因表达可以获得高的生产产率，但是异源基因表达的产率往往受限制。我们已应用了基于序列的机器学习技术来识别相关的蛋白质序列特征。蛋白质序列的氨基酸组成被发现是最预测性的，并且解释揭示了：对于同源基因表达和异源基因表达二者而言，相同的特征是重要的。特别地，甲硫氨酸(M)和赖氨酸(K)被发现对高水平的生产具有负贡献。

相应地，本发明涉及通过减少成熟多肽氨基酸骨架中的甲硫氨酸或赖氨酸或甲硫氨酸和赖氨酸的数目来改进通过宿主细胞例如真核宿主细胞的目标多肽的分泌的方法。

一个优点是赖氨酸(K)、甲硫氨酸(M)或赖氨酸(L)和甲硫氨酸(M)的含量的减少有助于改进的蛋白质生产，并促使更低成本的方法的开发。

因此根据本发明，提供了在宿主细胞中生产目标多肽的方法，所述方法包括：

a.提供载有编码目标多肽的核酸的宿主细胞，其中目标多肽被修饰使得其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外；

b.在适合生产多肽的条件下培养宿主细胞；以及任选地，

c.回收目标化合物。

通常，可以就编码序列包括或不包括一个或更多个或所有的控制序列(例如信号序列)对所述多肽进行修饰。通常，修饰不包括N-末端氨基酸。

本发明还涉及：

-被修饰的多肽，其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外；

-改进宿主细胞中多肽表达水平的方法，所述方法包括与参考多肽相比减少多肽的甲硫氨酸和/或赖氨酸氨基酸的数目，多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外；

-被修饰的目标多肽用于增加目标多肽在宿主细胞中的表达水平的用途，所述目标多肽被修饰使得其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外；以及

具有SEQ ID NO：16、17、18、19、20、8、9、10、11、12、26、27、43、44、45、28或29示出的氨基酸序列的多肽。

附图概述

图1显示了分类器(classifier)的权重。对每个(负相关)氨基酸(x轴)，条块指示了蛋白质中该氨基酸的出现频率对过表达后获得高产率的重要性/权重。

图2显示了hom分类器和het分类器的比较。从hom分类器和het分类器获得的氨基酸贡献分别是x值和y值。贡献在每个分类器(轴)上归一化：每个贡献除以最大绝对贡献。该图显示了由使用蛋白质氨基酸组成训练的分类器获得的贡献。

图3描述了表达载体pGBFINEBA205(构建描述于实施例1)的质粒图谱。指示了相对于amdS选择标记物盒的glaA侧翼区。此外，指示了glaA启动子的序列和编码根据本发明方法的变体酶的EBA205序列。可以在转化A.niger菌株之前通过用限制酶NotI消化来去除E.coli DNA。

图4描述了表达载体pGBFINFUA(构建描述于实施例1)的质粒图谱。指示了相对于amdS选择标记物盒的glaA侧翼区。此外，指示了glaA启动子的序列和编码根据本发明方法的变体酶的EBA205序列。可以在转化A.niger菌株之前通过用限制酶NotI消化来去除E.coli DNA。

图5示出了被测作上清液的FUA活性的摇瓶发酵中的EBA205蛋白质M-变体表达；归一化至M-含量100％以及100％的蛋白质浓度(mg/ml)WT；数据点为1-3个独立选择的菌株的平均并显示了1×标准差。

图6示出了被测作上清液的FUA活性的摇瓶发酵中的EBA205蛋白质K-变体表达；归一化至K-含量100％以及100％的蛋白质浓度(mg/ml)WT；数据点为1-3个独立选择的菌株的平均并显示了1×标准差。

图7示出了被测作上清液的真菌α-淀粉酶活性的摇瓶发酵中的FUA蛋白质M-变体表达；归一化至M-含量100％以及100％的活性WT；数据点为1-3个独立选择的菌株的平均并显示了1×标准差。

图8示出了被测作上清液的真菌α-淀粉酶活性的摇瓶发酵中的FUA蛋白质K-变体表达；归一化至K-含量100％以及100％的活性WT；数据点为1-3个独立选择的菌株的平均并显示了1×标准差。

序列表描述

SEQ ID NO：1：肽：SS_EBA205信号序列EBA205；18个氨基酸。

SEQ ID NO：2：肽：SS_FUA信号序列FUA；20个氨基酸。

SEQ ID NO：3：肽：SS_PmeA信号序列；17个氨基酸。

SEQ ID NO：4：DNA：SS_PmeA信号序列；51个碱基对：密码子对优化。

SEQ ID NO：5：蛋白质：EBA205野生型序列，包含信号序列(SEQID NO：1)。

SEQ ID NO：6：蛋白质：FUA野生型序列，包含信号序列(SEQ IDNO：2)。

SEQ ID NO：7：蛋白质：FUA野生型序列，其中信号序列(SEQ IDNO：2)被置换为(SEQ ID NO：3)。

SEQ ID NO：8-27：蛋白质：基于SEQ ID NO：5的EBA205变体序列。

SEQ ID NO：28-52：蛋白质：基于SEQ ID NO：7的FUA变体序列。

SEQ ID NO：53：DNA：密码子对优化的(CPO)：SEQ ID NO：5的EBA205序列。

SEQ ID NO：54：DNA：密码子对优化的(CPO)：SEQ ID NO：7的FUA序列。

SEQ ID NO：55-74：DNA，基于模板SEQ ID NO：53的SEQ ID NO：8-27的EBA205序列变体。

SEQ ID NO：75-99：DNA，基于模板SEQ ID NO：54的SEQ ID NO：28-52的FUA序列变体。

发明内容

在本说明书和所附权利要求的全文中，词语“包含”、“包括”和“具有”及它们的变型应作包括性解释。也就是说，这些词语意在表达上下文允许时，可纳入没有具体列举的其他要素或整体。

本文中不使用数量词修饰时是指一个(种)或多于一个(种)(即一个(种)或至少一个(种))的对象。举例来说，“要素”可以表示一个要素或多于一个要素。

在本发明中，应用了多肽的重新设计方法来改变序列特性同时不影响酶的功能。其原理是，相比过表达之后不提供高产率的蛋白质，对过表达之后提供高产率的蛋白质所观察到的氨基酸组成特点；由此指示了该特点的改变可以被用来改进分泌产率。然而，酶的活性应保持与其原活性类似来使得所述方法在酶工业中是有用的。氨基酸组成的特点差异可以通过比较成功的实例与不太成功的实例的单个的氨基酸组成来获得。

使用合理化的和随机化的两种方法，蛋白质改造已被用来例如增加热稳定性，改变副产物谱，使酶在有机溶剂等中工作，避免包涵体或形成包涵体等。近来，一种方法集中于蛋白质特征优化来增加蛋白质的表达(WO2010/102982)。近来，其他人(Goltermann等人(2010)通过氨基酸和密码子消除研究蛋白质进化，并表明可以制备没有苯丙氨酸的GFP。其他人关注了维持生命的氨基酸字母表的减少。自然进化用20种氨基酸字母表产生了复杂蛋白质折叠。但是原始蛋白质的合成被认为只涉及少数的氨基酸。一些研究表明，大大减少的氨基酸字母表可足够来编码天然样的蛋白质(Tanaka等人2011,v6(3),e18034；Walter等人,2005,The Journal ofBiological Chemistry vol.280,no.45,pp.37742–37746)。例如Walter等人，2005(The Journal of Biological Chemistry vol.280,NO.45,pp.37742–37746)由9氨基酸字母表构建了活性酶，基本上针对新的结构和功能。简化的9氨基酸字母表(Asp、Glu、Asn、Lys/Phe、Ile、Leu、Met和Arg)含有甲硫氨酸和赖氨酸。Tanaka等人(Protein Science 2010 Vol.19:786-795)评估了由5、12和20种氨基酸组成的随机序列蛋白质的比较特点。12氨基酸表含有赖氨酸和甲硫氨酸；5氨基酸字母表(Ala、Gly、Val、Asp和Glu)没有产出呈现广泛良好折叠结构的蛋白质。

然而，我们已经观察到，成熟多肽的甲硫氨酸(M)和赖氨酸(K)组成部分与表达性负相关。相应地，本发明涉及多肽和多肽表达方法，其中多肽中甲硫氨酸和/或赖氨酸氨基酸的数目被修饰，特别地相比参考/起始多肽是被减少的。

也就是说，本发明采用修饰特别是减少氨基酸甲硫氨酸或赖氨酸或甲硫氨酸和赖氨酸(一起)的方法来增加蛋白质的表达，并且在催化酶的情况下不会失去其催化活性。这可导致改进的蛋白质生产水平以及随之而来的较低成本的方法。本发明的方法可以被称为蛋白质序列优化(ProteinSequence Optimisation，PSO)。

目标多肽中甲硫氨酸和/或赖氨酸氨基酸的数目减少可以在包括其所有的控制序列(例如信号序列)的多肽的基础上进行，或在不包括一个或更多个或所有的其控制序列(例如信号序列)的多肽的基础上进行。通常N-末端氨基酸除外。

b.在适合生产多肽的条件下培养宿主细胞；以及任选地，

c.回收目标化合物。

因此，在本发明的方法中，多肽被选择并且被修饰使得其在宿主细胞中的表达水平增加。通常，编码多肽的核酸序列被修饰使得得到的多肽被按照所期望的修饰。宿主细胞载有的核酸可以是核酸构建体的形式。

术语“核酸构建体”在本文中是指单链或双链的核酸分子，其与天然存在的基因分离，或者已被修饰为含有下述核酸区段，所述核酸区段以天然不会存在的方式组合和并置。当核酸构建体含有表达编码序列所需的所有控制序列(其中所述控制序列与所述编码序列可操作地连接)时，术语“核酸构建体”与术语“表达盒”同义。

术语“可操作地连接”在本文中被定义为一种构型，其中控制序列相对于DNA序列的编码序列被置于适当的位置上，使得控制序列指导多肽的生产。

术语“控制序列”在本文中被定义为包括对mRNA和/或多肽的体外表达或在宿主细胞中的表达而言必需的或有利的所有组件。每种控制序列对编码多肽的核酸序列而言可以是本源的或外源的。此类控制序列包括，但不限于前导物、Shine-Delgarno序列、最适翻译起始序列(如Kozak,1991,J.Biol.Chem.266:19867-19870中所述)、多聚腺苷酸化序列、原肽序列(pro-peptide sequence)、前原肽序列(pre-pro-peptide sequence)、启动子、信号序列和转录终止子。在最低限度，所述控制序列包括启动子，以及转录终止信号和翻译终止信号。可以针对它们的特定目的优化控制序列。本发明使用的优选的优化的控制序列是如WO2006/077258所描述的那些，其通过引用方式并入本文。

信号序列(有时也被称为信号肽)可以是存在于大多数目的是分泌途径的新合成的蛋白质的N末端的短的(例如约5个至约30个氨基酸长)肽。这些蛋白质包括驻留在某些细胞器(内质网、高尔基体或胞内体)之内的，从细胞中分泌的或者插入到大多数细胞膜的那些。虽然大多数的I型膜结合蛋白质具有信号肽，大多数II型和多次跨膜结合蛋白质通过其第一跨膜结构域靶向分泌途径，其生化上与信号序列相似，不同之处在于它不被切割。

可以向所述控制序列提供接头，目的在于引入便于控制序列与编码多肽的核酸序列的编码区连接的特异性限制位点。

控制序列可以是适当的启动子序列(启动子)。

控制序列也可以是合适的转录终止子(终止子)序列，被丝状真菌细胞辨识来终止转录的序列。所述终止子序列可操作地连接到编码多肽的核酸序列的3'-末端。任何在细胞中是功能性的终止子可以用于本发明。

对于丝状真菌细胞的优选的终止子序列由编码A.oryzaeTAKA淀粉酶、A.niger葡萄糖淀粉酶(glaA)、A.nidulans邻氨基苯甲酸合酶(anthranilatesynthase)、A.nigerα-葡萄糖苷酶，trpC和Fusariumoxysporum胰蛋白酶样蛋白酶的多核苷酸的获得。

控制序列也可以是合适的前导序列(前导物)，对丝状真菌细胞的翻译重要的mRNA的非翻译区。前导序列可操作地连接到编码多肽的核酸序列的5'-末端。任何在细胞中是功能性的前导序列可以用于本发明。

对于丝状真菌细胞优选的前导物是由编码A.oryzae TAKA淀粉酶和A.nidulans磷酸丙糖异构酶和A.niger glaA和植酸酶的多核苷酸获得的。

其他控制序列可以从Penicillium IPNS基因或pcbC基因、β-微管蛋白基因中分离。WO01/21779中引用的所有控制序列通过引用方式并入本文。

控制序列也可以是多聚腺苷酸化序列，所述序列可操作地连接到核酸序列的3'-末端并且所述序列在转录时被丝状真菌细胞辨识为信号来将聚腺苷残基添加至被转录的mRNA。任何在细胞中是功能性的聚腺苷酸化序列可以用于本发明。

对于丝状真菌细胞优选的聚腺苷酸化序列由编码A.oryzae TAKA淀粉酶、A.niger葡萄糖淀粉酶、A.nidulans邻氨基苯甲酸合酶、Fusariumoxysporum胰蛋白酶样蛋白酶和A.niger的α-葡萄糖苷酶的多核苷酸获得。

术语“启动子”在本文中被定义为结合RNA聚合酶并将聚合酶定向到编码生物化合物的核酸序列的正确下游转录起始位点处从而启动转录的DNA序列。RNA聚合酶有效地催化与编码区的适当DNA链互补的信使RNA的装配。术语“启动子”还被理解为包括在转录成mRNA后用于翻译的5'-非编码区(启动子和翻译起点之间)，顺式作用转录控制元件如增强子，和能够与转录因子相互作用的其他核苷酸序列。启动子可以是适用于真核或原核宿主细胞的任何适当的启动子序列，其显示转录活性，包括突变、截短和杂合的启动子，并且可得自编码对细胞而言同源(天然)或异源(外源)的细胞外或细胞内多肽的多核苷酸。启动子可以是组成型或诱导型启动子。

本文中多肽的修饰旨在涵盖导致所述多肽的氨基酸序列变化的任何事件。修饰被理解为一种或更多种修饰。修饰可以通过在多肽骨架中引入(插入)、替换或去除(缺失)一个或更多个氨基酸来实现。显然，所述修饰可以通过修饰编码目标多肽的序列使得所期望的修饰存在来容易地进行。

通常，本发明的修饰是甲硫氨酸残基和/或赖氨酸残基的减少。甲硫氨酸残基或赖氨酸残基或甲硫氨酸和赖氨酸残基(一起)的数目可以被减少。

本发明的修饰可以在目标多肽包括控制序列(例如信号序列)的基础上进行或可以在目标多肽除去一个或更多个或所有的其控制序列(例如信号序列)的基础上进行。

在本发明中的方法中，参考多肽的甲硫氨酸和/或赖氨酸氨基酸可以被非甲硫氨酸和/或非赖氨酸的氨基酸替换和/或被缺失。也就是说，参考多肽的所有的或部分的甲硫氨酸和/或赖氨酸氨基酸可以被替换和/或被缺失。

在本发明中，多肽可以被修饰来增加其在宿主细胞中表达水平。表达水平的增加涵盖所得到的多肽的量可以被增加的任何方式。通常，分泌的增加是优选的。术语“分泌”是指细胞外培养基中多肽的出现，所述培养基典型地是生长培养基或生产培养基。被分泌的多肽不含生物质。可以通过本领域已知的方法包括活性测定法(活性单位)、比活性(每重量蛋白质的单位)、定量PAGE分析、定量质谱和抗体测定法来测量分泌水平。

因此，本发明的方法可以被用来增加/改进多肽的分泌。相应地，在本发明的方法中，目标多肽可以是被分泌的蛋白。

表述“多肽分泌的改进”是指细胞的细胞外培养基中被分泌的多肽量的增加。改进可以通过如下事实反映：在正常情况下不被分泌的多肽例如细胞内多肽变得被分泌。改进也可以在于如下事实：(例如因为含有信号序列而)预期要被分泌但是未被分泌的多肽变得被分泌。改进当然常常参照相同的宿主遗传背景和相同的培养或发酵条件而被测量。在这些情况下，例如聚丙烯酰胺凝胶中在改进之前无可见条带处蛋白质条带的出现可表明改进的分泌。

或者，所述改进可也可以通过下述事实反映：以非常少量分泌的多肽显示出增加的分泌水平。

可以通过测量细胞外培养基中多肽的活性来测定被分泌的多肽的量。与改进之前的状态相比，细胞外培养基中的活性可增加至少5％，至少10％，至少15％或至少20％。优选地，活性增加至少25％，至少30％，至少35％或至少40％。在一个更优选的实施方案中，活性增加至少45％，至少50％，至少60％，至少70％，至少80％，至少90％，至少100％，至少200％，至少500％或至少1000％。活性可从在细胞外培养基中由无活性增加至有一些活性。在上下文中“活性”通常是指被用作蛋白质在细胞外培养基中增加的量的度量的多肽在细胞外培养基中的总活性。“活性”并不旨在度量比活性-也就是说“活性”被用来鉴定比未被修饰的多肽分泌地更好的蛋白质(多肽本身的固有酶活性可以是未受影响的)。

根据本发明的方法，从氨基酸骨架中的甲硫氨酸和/或赖氨酸中选择的一组相关的氨基酸的数目被修饰为被减少至少约1％，至少约2％，至少约5％，至少约10％，至少约15％，至少约20％，至少约25％，至少约30％，至少约40％，至少约50％，至少约60％，至少约70％，至少约80％，至少约90％，至少约95％，至少约99％或更多。这些百分数是指相对于甲硫氨酸残基或赖氨酸残基总量的修饰的量(取决于被修饰的)。如果甲硫氨酸残基和赖氨酸残基被修饰，这些百分比通常是指这两种类型的残基一起的总的修饰。然而，它们可以指对所述残基之一作出的总的修饰。

根据本发明的方法，从氨基酸骨架的甲硫氨酸和/或赖氨酸中选择的一组相关的氨基酸的数目被修饰为被减少至少2个，3个，4个，5个，6个，7个，8个，9个，10个，约15个或约20个或约25个或约30个或更多个。也就是说，本发明的方法中，参考多肽可以通过对2个，3个，4个，5个，6个，7个，8个，9个，10个，约15个或约20个，或约25个或约30个或更多个甲硫氨酸残基进行修饰来被修饰和/或通过对2个，3个，4个，5个，6个，7个，8个，9个，10个，约15个或约20个或约25个，或约30个或更多个赖氨酸残基进行修饰来被修饰。

所述修饰可以是，例如替换、置换(replacement)或缺失。替换通常是用甲硫氨酸或赖氨酸之外的氨基酸。优选的替换可以是用在相关多肽(例如来自参考多肽所源自的另一个物种的相应多肽)的对应位点上出现的甲硫氨酸或赖氨酸之外的氨基酸。

通常，位于多肽序列N-末端的任何起始的甲硫氨酸氨基酸被排除在修饰之外。另外，在一个或更多个控制序列特别是一个或更多个信号序列的任何甲硫氨酸和/或赖氨酸氨基酸可以被排除在修饰之外。

另外，一个或更多个甲硫氨酸残基和/或赖氨酸残基对于目标多肽的功能可能是必不可少的。通常，这样的氨基酸不会在本发明中被修饰。这样的氨基酸可以被如下指示，即如果其在一组相关的多肽(例如来自不同物种的同类(cognate)多肽)之间被共享，即出现在该组多肽内的相同的对应位点。

另一方面，可被优选地修饰的多肽可以是在自然中出现变异的多肽，即不同的氨基酸出现在一组相关的多肽内的相同的对应位点。

修饰的数目相对于参考多肽来被确定。参考多肽可以是期望增加其在宿主细胞中的表达的任何多肽。特别地，参考多肽可以是野生型多肽。在本文中野生型可以指多肽在自然界出现的通常形式。当然，基因位点(gene loci)可以以多种等位基因形式存在。通常，最普遍的等位基因可被认为是野生型。然而，对于本发明的目的而言，任何天然存在的等位基因可以是野生型的。然而，参考多肽可以是任何多肽，例如由两个或更多个野生型序列(例如共有序列)或野生型和非野生型序列的混合物构成的杂合多肽或被修饰的野生型多肽。另外，参考多肽可以是非野生型序列。这样的多肽可以根据本发明被修饰使得其在宿主细胞中的表达水平被增加。

参考多肽可以是已根据本发明被修饰的多肽。也就是说，本发明的方法可以是迭代过程(iterative process)。这样的迭代过程可以通过首先修饰一个或甲硫氨酸或赖氨酸的数目，然后进行以其他的甲硫氨酸或赖氨酸为基础的第二修饰。一轮甲硫氨酸和/或赖氨酸的修饰接下来可以是一或更多轮额外的甲硫氨酸和/或赖氨酸的修饰。

相应地，在本发明中，提供了多肽，即参考多肽。所述多肽然后根据本发明被修饰，也就是说，多肽中甲硫氨酸残基和/或赖氨酸残基的数目被减少。以这种方式可以增加所述多肽的表达水平。

参考多肽可以是与一个或更多个对应的野生型多肽有至少约70％，至少约75％，至少约80％，至少约85％，至少约90％，至少约95％，至少约98％，至少约99％的同一性的多肽序列。

进一步，参考多肽中甲硫氨酸和/或赖氨酸氨基酸的数目可以被确定为两个或更多个参考多肽的甲硫氨酸和/或赖氨酸氨基酸的平均数目。因此，甲硫氨酸残基和/或赖氨酸残基的数目可以在从两个或更多个不同物种获得的两个或更多个对应的野生型序列上进行平均。也就是说，参考多肽可以是共有序列。目标多肽将被修饰以使其将含有比该平均值更少的甲硫氨酸残基和/或赖氨酸残基。

在本发明的方法中，目标多肽的甲硫氨酸和/或赖氨酸氨基酸的减少可以在至少约80个或更多个连续氨基酸的长度上确定。甲硫氨酸和/或赖氨酸氨基酸的减少可以在多肽的一个功能结构域内确定，特别是如果目标多肽是融合蛋白或嵌合蛋白的情况。

通常，目标多肽中甲硫氨酸和/或赖氨酸氨基酸的减少的确定不考虑可在宿主细胞中被处理的信号序列。也就是说，目标多肽中甲硫氨酸和/或赖氨酸氨基酸的减少通常可以参考成熟多肽序列来确定，例如在前和/或原序列(pre-and/or pro-sequence)的处理例如已经发生之后。

本发明还涉及如本文示出的被修饰的多肽。也就是说，本发明涉及被修饰的多肽，其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于所述多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外。参考多肽可以是对应的野生型多肽。

因此，本发明涉及具有SEQ ID NO：16、17、18、19、20、8、9、10、11、12、26、27、43、44、45、28或29示出的氨基酸序列的多肽。

本发明涉及这些多肽的变体，其中赖氨酸残基或甲硫氨酸残基之外的一个或更多个氨基酸被修饰并且其与SEQ ID NO：16、17、18、19、20、8、9、10、11、12、26、27、43、44、45、28或29中任何一个所示出的序列有至少约35％的同一性，更优选地至少40％的同一性，更优选地至少45％的同一性，更优选地至少50％的同一性，甚至更优选地至少55％的同一性，甚至更优选地至少60％的同一性，甚至更优选地至少65％的同一性，甚至更优选地至少70％的同一性，甚至更优选地至少75％同一性，甚至更优选地至少80％的同一性，甚至更优选地至少85％的同一性，甚至更优选地至少90％的同一性，例如至少91％的同一性，例如至少92％的同一性，例如至少93％的同一性，例如至少94％的同一性，例如至少95％的同一性，例如至少96％的同一性，例如至少97％的同一性，例如至少98％的同一性，例如至少99％的同一性，例如至少100％的同一性。

本发明还涉及改进多肽在宿主细胞中的表达水平的方法，所述方法包括减少所述多肽相比参考多肽的甲硫氨酸和/或赖氨酸氨基酸的数目，位于所述多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外。

另外，本发明涉及被修饰的目标多肽增加目标多肽在宿主细胞中的表达水平的用途，所述目标多肽被修饰使得其包含相比参考多肽较少的甲硫氨酸残基和/或赖氨酸残基，通常位于多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外，和/或任选地一个或更多个控制序列(例如)除外。

根据本发明的方法，修饰特别是甲硫氨酸残基和/或赖氨酸残基的数目的减少是在多肽骨架上进行的。在上下文中，术语“骨架”指的是氨基酸通过肽键连接在一起并形成共价连接的氨基酸序列时形成的规则结构。在本发明中，优选地成熟多肽的骨架被修饰。在本发明的上下文中，“成熟多肽”在本文中被定义为在翻译以及任何翻译后修饰例如N-末端加工、C-末端截短、糖基化、磷酸化等之后的最终功能形式的多肽。

修饰前的多肽被称为亲本或参考(例如野生型多肽)以与来源于它的被修饰的多肽(其可以被称为目标多肽)进行区分。术语“亲本多肽”和“参考多肽”在本文可互换使用。当所述多肽是嵌合多肽，即与有效地分泌的多肽优选地对宿主细胞是天然的多肽的翻译融合物，整个嵌合多肽可以根据本发明被修饰。当所述嵌合多肽包含作为被融合到目标多肽的前导多肽的有效分泌的多肽时，目标多肽被优选地修饰。参考多肽可以是不同亲本多肽的变体。

如本领域技术人员已知，由于成熟中的加工错误，成熟多肽的N-末端以及成熟多肽的C-末端可能是异源的。特别地这样的加工错误可能在多肽的过表达时发生。此外，外切蛋白酶活性可能引起异源性。异源性发生的程度还依赖于所使用的宿主和发酵方案。这样的N-末端和C-末端的加工缺陷(artefacts)可能导致相比预期的成熟多肽更短的多肽或更长的多肽。

识别对于必不可少的目标功能特性关键的氨基酸的方法是本领域已知。合适的工具包括使用目标蛋白的3D结构或3D模型、目标蛋白或同源蛋白的诱变研究、使用位点饱和文库建立功能中性替换与功能替换的比较。

当引入氨基酸序列特征时，例如根据本发明的甲硫氨酸和/或赖氨酸替换/缺失，优选地可以以下述方式选择替换：给定位置处要求的氨基酸序列特点(characteristic)选自在同源序列中观察到的氨基酸组。可以应用现有技术的建模技术识别在天然同源物中未观察到的可允许的替换。允许产生采用给定折叠的新序列的建模技术的优选的参考文献是：

Kuhlman B,Dantas G,Ireton GC,Varani G,Stoddard BL,Baker D(2003).Design of a novel globular protein fold with atomic-level accuracyScience 302,1364-8.

Baker D(2006).Prediction and design of macromolecular structures andinteractions.Philos.Trans.R.Soc.Lond.,B,Biol.Sci.361,459-63 De Novoprotein design:towards fully automated sequence selection,Journal ofMolecular Biology,Volume 273,Issue 4,7 November 1997,Pages 789-796Bassil I.Dahiyat,Catherine A.Sarisky,Stephen L.Mayo

现有技术计算方法允许产生可采用给定蛋白质折叠的大量可能的序列。通过向用于滤出最适序列的评分函数中引入蛋白质序列优化(PSO)，可以通过计算的方式选择针对给定生产宿主的最适序列。

由整个多肽或DNA序列计算的氨基酸分数是整个成熟蛋白质的平均值，这可能不会揭示局部的蛋白质特性。例如，蛋白质可以总体上是亲水性的，但仍含有大量的内部疏水区。局部的蛋白质特性可以使用30个，50个，和优选地80个氨基酸或更多个的滑动窗口方法(sliding windowmethod)来计算。

为了调控蛋白质可达(accessible)表面的亲水性，可需要3D结构或3D结构模型。蛋白质的3D结构可以通过X-射线晶体学和通过NMR来测定。此外，可以应用比较性建模或基于模板的建模，从而基于同源蛋白质的3D结构针对给定序列构建可靠的3D模型(http://en.wikipedia.org/wiki/ Homology_modeling)。用于比较性建模的多种服务器和软件包可在http://en.wikipedia.org/wiki/Protein_structure_prediction_software找到。最近对于蛋白质结构预测和建模的综述见Yang Zhang,Current Opinion inStructural Biology 2008,18:342-348。

有了3D结构或3D模型的原子坐标后，可以通过本领域已知的方法计算可达表面。一种公知的方法是通过Frederic Richards开发的滚球(rolling-ball)算法来计算(1977,"Areas,volumes,packing and protein structure."AnnuRev BiophysBioeng,6:151–176)。还见http://en.wikipedia.org/wiki/Accessible _surface_area。

为了测定可达表面，应当考虑最终成熟蛋白质的四级结构，从而避免替换破坏多聚体(例如二聚体、三聚体、四聚体等)中个体多肽(单体)之间的相互作用。

根据本发明，提供了生产目标化合物的方法。所述方法包括培养能够生产目标多肽的细胞，因为它们包含在允许生产目标多肽的条件下在反应培养基中编码目标多肽的多核苷酸。

目标化合物然后可从培养基中回收(或在目标化合物不被分泌的情况下从细胞中回收)。

应当理解的是，本发明的方法可以方便地与现有技术组合来增加蛋白生产的水平或与一种或更多种这些技术的组合组合。这些包括但不限于应用强启动子，增加拷贝数，最适Kozak序列，mRNA稳定元件和优化密码子使用(WO2008/000632)。

在本发明中使用的宿主细胞可以是原核细胞或真核细胞。

适合用于本发明方法的宿主细胞可以是原核细胞。优选地，所述原核宿主细胞是细菌细胞。术语“细菌细胞”包括革兰氏阴性微生物和革兰氏阳性微生物。合适的细菌可以选自例如Escherichia、Anabaena、Caulobactert、Gluconobacter、Rhodobacter、Pseudomonas、Paracoccus、Bacillus,Brevibacterium、Corynebacterium、Rhizobium(Sinorhizobium)、Flavobacterium、Klebsiella、Enterobacter、Lactobacillus、Lactococcus、Methylobacterium、Staphylococcus或Streptomyces。优选地，所述细菌细胞选自B.subtilis、B.amyloliquefaciens、B.licheniformis、B.puntis、B.megaterium、B.halodurans、B.pumilus、G.oxydans、Caulobactertcrescentus CB 15、Methylobacteriumextorquens、Rhodobactersphaeroides、Pseudomonas zeaxanthinifaciens、Paracoccusdenitrificans、E.coli、C.glutamicum、Staphylococcus carnosus、Streptomyces lividans、Sinorhizobiummelioti和Rhizobium radiobacter组成的组。

任何真核细胞可以被用于本发明的方法。优选地，所述真核细胞是哺乳动物细胞、昆虫细胞、植物细胞、真菌细胞或藻类细胞。优选的哺乳动物细胞包括例如中国仓鼠卵巢(CHO)细胞、COS细胞、293细胞、PerC6细胞和杂交瘤。优选的昆虫细胞包括例如Sf9和Sf21细胞和它们的衍生物。更优选地，所述真核细胞是真菌细胞，即酵母细胞，如Candida、Hansenula、Kluyveromyces、Pichia、Saccharomyces、Schizosaccharomyces或Yarrowia的菌株。更优选地来自Kluyveromyces lactis、S.cerevisiae、Hansenula polymorpha、Yarrowia lipolytica和Pichia pastoris，或丝状真菌细胞。最优选地，所述真核细胞是丝状真菌细胞。

“丝状”真菌包括Eumycota和Oomycota亚门(由Hawksworth等人,Ainsworth and Bisby's Dictionary of The Fungi,第8版,1995,CABInternational,University Press,Cambridge,UK定义)的所有丝状形式。丝状真菌的特点在于由几丁质、纤维素、葡聚糖、壳聚糖、甘露聚糖和其它复杂多糖构成的菌丝体壁。营养生长通过菌丝伸长和碳分解代谢是专性需氧的。丝状真菌菌株包括，但不限于Acremonium、Agaricus、Aspergillus、Aureobasidium、Chrysosporium、Coprinus、Cryptococcus、Filibasidium、Fusarium、Geosmithia、Humicola、Magnaporthe、Mucor、Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Phanerochaete、Pleurotus、Rasamsonia、Schizophyllum、Talaromyces、Thermoascus、Thermomyces、Thielavia、Tolypocladium与Trichoderma的菌株。

优选的丝状真菌细胞属于Acremonium、Aspergillus、Chrysosporium、Myceliophthora、Penicillium、Rasamsonia、Talaromyces、Thielavia、Fusarium或Trichoderma属的物种，并且最优选地Aspergillus niger、Acremonium alabamense、Aspergillus awamori、Aspergillus foetidus、Aspergillus sojae、Aspergillus fumigatus、Talaromyces emersonii、Talaromyces thermophilus、Thermomyces lanuginosus、Thermoascusthermophilus、Thermoascus aurantiacus、Thermoascus crustaceus、Rasamsonia emersonii、Rasamsonia byssochlamyoides、Rasamsoniaargillacea、Rasamsonia brevistipitata、Rasamsonia cylindrospora、Aspergillus oryzae、Chrysosporium lucknowense、Fusarium oxysporum、Myceliophthora thermophila、Trichoderma reesei、Thielavia terrestris或Penicillium chrysogenum的物种。更优选的宿主细胞属于Aspergillus属，更优选地宿主细胞属于Aspergillus niger种。当本发明的宿主细胞是Aspergillus niger宿主细胞，所述宿主细胞优选地是CBS513.88、CBS124.903或它们的衍生物。更优选的宿主细胞属于Penicillium属，更优选地宿主细胞属于Penicillium chrysogenum种。当本发明的宿主细胞是Penicillium chrysogenum宿主细胞，所述宿主细胞优选地是Wisconsin54-1255或其衍生物。更优选的宿主细胞属于Rasamsonia属，也被称为Talaromyces，更优选地所述宿主细胞属于Talaromyces emersonii种，也被称为Rasamsonia emersonii。

丝状真菌的几个菌株在许多培养物保藏中心很容易被公众获取，如美国典型培养物保藏中心(ATCC)、德意志微生物保藏中心(DeutscheSammlung von Mikroorganismen und Zellkulturen GmbH)(DSM)、真菌菌种保藏中心(CentraalbureauVoorSchimmelcultures)(CBS)、农业研究机构专利保藏中心北方研究中心(Agricultural Research Service Patent CultureCollection,Northern Regional Research Center，NRRL)以及俄罗斯莫斯科的俄罗斯科学院的俄罗斯微生物保藏中心(俄语缩写-VKM，英语缩写-RCM)。在本发明的上下文中有用的菌株可以是Aspergillus niger CBS513.88、CBS124.903、Aspergillus oryzae ATCC20423、IFO4177、ATCC1011、CBS205.89、ATCC9576、ATCC14488-14491、ATCC11601、ATCC12892、P.chrysogenumCBS455.95、P.chrysogenum Wisconsin54-1255(ATCC28089)、Penicillium citrinum ATCC38065、Penicillium chrysogenum P2、Thielaviaterrestris NRRL8126、Talaromyces emersonii CBS124.902、Acremoniumchrysogenum ATCC36225或ATCC48272、Trichoderma reesei ATCC26921或ATCC56765或ATCC26921、Aspergillus sojae ATCC11906、Myceliophthora thermophila C1、Garg 27K、VKM-F3500 D、Chrysosporiumlucknowense C1、Garg 27K、VKM-F3500 D、ATCC44006和它们的衍生物。

在一个实施方案中，所述真核细胞是其中通过重组技术生产多肽的宿主细胞。用于转化或转染宿主细胞的合适方法可以在Sambrook等人(Molecular Cloning:A Laboratory Manual,2^nd,ed.Cold Spring HarborLaboratory,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY,1989)、Davis等人的Basic Methods in Molecular Biology(1986)和其他实验室手册中找到。相应地，本发明还涉及生产目标多肽的方法，所述方法通过对目标多肽应用本发明方法以改进多肽的表达例如分泌以及通过重组技术生产本发明的被修饰的多肽。本发明还涉及所述重组生产的多肽。本发明还涉及由本发明改进多肽表达例如分泌的方法可获得的多肽；优选地，所述多肽是由本发明改进多肽的分泌的方法获得的多肽。

表达水平待改进根据本发明的方法被改进的目标多肽可以是具有目标生物活性的任何多肽。所述多肽可以是胶原或明胶，或其变体或其杂合体(hybrid)。多肽可以是任何抗体或其部分，抗原，凝血因子，酶，激素或激素变体，受体或其部分，调节蛋白，结构蛋白，报告蛋白，或转运蛋白例如血清白蛋白，例如牛血清白蛋白和人血清白蛋白，或例如转铁蛋白，例如乳铁蛋白，参与分泌过程的蛋白质，参与折叠过程的蛋白质，伴侣蛋白，肽氨基酸转运蛋白，糖基化因子，转录因子，合成肽或寡肽，其天然形式是细胞内蛋白质并且通过本领域已知的方法(例如与信号肽融合和与其天然形式已是分泌型的多肽融合)被分泌的蛋白质。此类细胞内蛋白质可以是酶例如蛋白酶、神经酰胺酶、环氧化物水解酶、氨肽酶、酰基转移酶、醛缩酶、羟化酶、氨肽酶、脂肪酶。多肽可以是以其天然形式被细胞外分泌的酶。此类酶可属于氧化还原酶、转移酶、水解酶、裂合酶、异构酶、连接酶、过氧化氢酶、纤维素酶、几丁质酶、角质酶、脱氧核糖核酸酶、聚糖酶、酯酶的组。酶可以是糖酶，例如纤维素酶如内切葡聚糖酶，β-葡聚糖酶，纤维二糖水解酶或β-葡萄糖苷酶，半纤维素酶或果胶分解酶如木聚糖酶，木糖苷酶，甘露聚糖酶，半乳聚糖酶，半乳糖苷酶，果胶甲基酯酶，果胶裂合酶，果胶酸裂合酶，内切多聚半乳糖醛酸酶，外切多聚半乳糖醛酸酶，鼠李半乳糖醛酸酶，阿拉伯聚糖酶，阿拉伯呋喃糖苷酶(arabinofuranosidases)，阿拉伯木聚糖水解酶，半乳糖醛酸酶，裂合酶，或淀粉酶；水解酶，异构酶，或连接酶，磷酸酶如植酸酶，酯酶如脂肪酶，蛋白水解酶，氧化还原酶如氧化酶，转移酶，或异构酶。酶可以是植酸酶。酶可以是氨肽酶，天冬酰胺酶，淀粉酶，糖酶，羧肽酶，内切蛋白酶，金属蛋白酶，丝氨酸-蛋白酶过氧化氢酶，几丁质酶，角质酶，环糊精糖基转移酶，脱氧核糖核酸酶，酯酶，α-半乳糖苷酶，β-半乳糖苷酶，葡萄糖淀粉酶，α-葡萄糖苷酶，β-葡萄糖苷酶，卤素过氧化物酶(haloperoxidase)，蛋白质脱氨酶，转化酶，漆酶，脂肪酶，甘露糖苷酶，变构酶，氧化酶，果胶分解酶，过氧化物酶，磷脂酶，多酚氧化酶，核糖核酸酶，转谷氨酰胺酶，或葡萄糖氧化酶，己糖氧化酶，单加氧酶。改进其分泌的多肽可以对宿主细胞是同源或异源的。同源多肽的一个合适的例子是被克隆进Aspergillus niger中并由Aspergillus niger生产的Aspergillus niger蛋白质。异源表达的合适例子包括例如来自E.coli或Bacillus的、被克隆进丝状真菌或酵母中并由丝状真菌或酵母生产的细菌多肽，或例如来自牛或山羊的、被克隆进丝状真菌或酵母中并由丝状真菌或酵母生产的哺乳动物蛋白质，或被克隆进酵母并由酵母生产的丝状真菌多肽，或被克隆进另一真菌并由另一真菌生产的丝状真菌蛋白质。优选地，针对在相关宿主细胞中的表达，例如通过密码子对优化来优化编码多肽的核酸。密码子对优化是这样一种方法：其中编码多肽的核苷酸序列已经根据其密码子使用(特别是使用的密码子对)而被修饰，以获得编码多肽的核苷酸序列被改进的表达和/或所编码的多肽的改进的生产。密码子对被定义为编码序列中一组两个相继的三联体(密码子)。密码子对优化优选地如WO2008/000632中所述进行。

优选地，被修饰的多肽的特异性与表达水平改进之前基本相同。这表示例如底物特异性或结合特异性基本保留。在这种情况下，术语“基本保留”表示大于60％，大于65％，大于70％或大于75％的特异性被保留。优选地，大于80％、85％或90％的特异性被保留。最优选地，大于95％、96％、97％、98％或99％的特异性被保留。

根据本发明的方法，细胞外培养基中的活性水平可以增加，这是改进的分泌的指征。然而，被修饰的多肽的比活性并非必须增加，只要其不降低即可。因此，比活性优选地与分泌改进之前基本相同或更高。在一个优选的实施方案中，比活性与改进之前基本相同。在本文上下文中，短语“基本相同的活性水平”是指与亲本多肽的活性水平相差小于15％，优选地小于12％或小于10％，更优选地小于8％，小于6％或小于4％的活性水平。

在本文上下文中，术语“多肽”和“蛋白质”可互换使用。任何类型的多肽的分泌都可以通过本发明的方法被改进。在一个优选的实施方案中，多肽是本文之前引用的列表中的一种。就本发明目的而言，在本文中定义：为了测定两条氨基酸序列或两条核酸序列的百分比同一性，就最适比较的目的比对完整的序列。为了优化两条序列之间的比对，可在被比较的两条序列的任何一条中引入缺口。这种比对可以在被比较的序列的全长上进行或者基于最长的同一性。同一性是在报告的比对区域上的两条序列之间的相同匹配的百分比。

可以使用数学算法完成两个序列之间的序列比较和同一性百分比测定。两条比对的序列之间的同源性或同一性可以如下计算：用在两条序列中显示相同氨基酸的比对中的对应位置数量除以减去比对中的缺口总数量后的比对总长度。技术人员应当明白下述事实：可获得比对两条序列并测定两条序列之间的同源性的若干种不同的计算机程序(Kruskal,J.B.(1983)Anoverview of sequence comparison In D.Sankoffand J.B.Kruskal,(ed.),Timewarps,string edits and macromolecules：the theoryand practice of sequencecomparison,pp.l_44Addison Wesley)。可使用用于比对两条序列的Needleman和Wunsch算法测定两条氨基酸序列之间的百分比同一性(Needleman,S.B.and Wunsch,C.D.(1970)J.Mol.Biol.48，443-453)。算法比对氨基酸序列以及核苷酸序列。Needleman-Wunsch算法已在计算机程序NEEDLE中实施。就本发明目的而言，使用了来自EMBOSS包的NEEDLE程序(版本2.8.0或更高，EMBOSS：The European MolecularBiology Open Software Suite(2000)Rice,P.Longden,I.and Bleasby,A.Trends inGenetics 16,(6)pp276～277,http://emboss,bioinformatics,nl/)。就蛋白序列而言，EBL0SUM62用于替换矩阵，就核苷酸序列而言，使用了EDNAFULL。可指定其他矩阵。就本发明目的而言，无简明(no brief)为是，用于比对氨基酸序列的参数是缺口开放惩罚为10和缺口延伸惩罚为0.5。本领域技术人员会意识到所有这些不同的参数会产生稍不同的结果，但是当使用不同的算法时两条序列的总百分比同一性不显著改变。本文中所定义的同一性可以通过使用NOBRIEF选项由NEEDLE获得并且在程序的输出中被标记为“最长同一性”。就本发明目的而言，两个序列(氨基酸或核苷酸)之间同一性(同源性)的水平可以根据“最长同一性”的定义如可以通过使用程序NEEDLE进行的那样计算。

本文中提到的蛋白序列还可用作“查询序列”以针对序列数据库进行搜索，例如来鉴定其他家族成员或相关序列。可使用BLAST程序进行此类搜索。进行BLAST分析的软件通过National Center for BiotechnologyInformation(http://www.ncbi.nlm.nih.rov)是公众可得到的。BLASTP用于氨基酸序列，BLASTN用于核苷酸序列。在BLAST程序中，可使用下述缺省设置：

-开放缺口的开销：缺省＝5用于核苷酸/11用于蛋白

-延伸缺口的开销：缺省＝2用于核苷酸/1用于蛋白

-核苷酸错配惩罚：缺省＝-3

-核苷酸匹配奖励：缺省＝1

-期望值：缺省＝10

-字长：缺省＝11用于核苷酸/28用于megablast/3用于蛋白。

本文中提到的核酸序列还可用作“查询序列”以针对公用数据库进行搜索，例如，来鉴定其他家族成员或相关的序列。可以使用Altschul，等人.(1990)J.Mol.Biol.215:403-10的NBLAST和XBLAST程序(版本2.0)进行此类搜索。BLAST核苷酸搜索可用NBLAST程序进行，评分＝100，字长＝12以获得与本发明的核酸分子同源的核苷酸序列。

本文提供的序列信息不应被狭隘理解为需要包括错误识别的碱基。本文所公开的特定序列可以被容易地用来从丝状真菌特别是从A.niger分离完整的基因，其又可以容易地进行进一步序列分析从而识别测序错误。

除非特别指明，本文中通过对DNA分子进行测序来测定的所有核苷酸序列都是用自动DNA测序仪测定的，并且，本文测定的DNA分子编码的多肽的所有氨基酸序列都是通过对按照上文所述测定的核酸序列进行翻译来推测的。因此，如本领域所已知的，对由该自动方法所测定的任何DNA序列而言，本文所测定的任何核苷酸序列都可能含有一些错误。典型地，通过自动方法测出的核苷酸序列与被测序的DNA分子的实际核苷酸序列至少大约90％相同，更典型地，至少大约95％至至少大约99.9％相同。通过其他方法，包括本领域内公知的人工DNA测序方法，可对实际序列进行更为精确的测定。也如本领域所已知的，测得的核苷酸序列中较之实际序列的单个插入或缺失将会导致核苷酸序列翻译中的读码框位移，使得：从此类插入或缺失的点开始，测得的核苷酸序列编码的预计氨基酸序列完全不同于被测序的DNA分子实际编码的氨基酸序列。

本领域技术人员能识别出此类被错误鉴定的碱基，并且知道如何改正此类错误。

本文中引用专利文献或其他材料作为现有技术并不意味着承认该文献或其他材料是已知的，或是承认其包含的信息在任何权利要求的优先权日是公知常识的一部分。

每个参考本文所阐述的公开内容以全文引用并入本文。

实施例

应当理解，尽管这些实施例表示本发明的优选的实施方式，但仅仅通过示例的方式给出。从上面的讨论和这些实施例中，本领域技术人员可获知本发明的必不可少的特征，并且在不背离其精神和范围的情况下，可对本发明做出各种改变和修饰以使其适应各种用途和条件。因此，除了本文显示和描述的那些，从前述描述中，本发明的各种修饰对本领域技术人员是明显的。这样的修饰也旨在落在所附权利要求的范围内。

菌株

A.niger菌株：

WT 1：该A.niger菌株被用作野生型菌株。该菌株于1988年8月10日保藏在真菌菌种保藏中心(Centraalbureau voor Schimmelcultures)，Utrecht，荷兰。

WT 2：该A.niger菌株是包含编码葡萄糖淀粉酶(glaA)的基因缺失的WT 1菌株。如EP 0635574 B1中所述通过使用“无标记物基因(MARKER-GENE FREE)”途径构建WT 2。在该专利中详尽地描述了如何在CBS 513.88的基因组中缺失glaA特异的DNA序列。所述程序导致无标记物基因ΔglaA重组体A.niger CBS 513.88菌株，所述菌株最终完全不具有外来DNA序列。

WT 3：为了破坏WT 2中编码主要细胞外天冬氨酸蛋白酶PepA的pepA基因，如van den Hombergh等人(van den Hombergh JP，Sollewijn Gelpke MD，van de Vondervoort PJ，Buxton FP，Visser J.(1997)-Disruption of three acid proteases in Aspergillus niger--effects on protease spectrum，intracellular proteolysis，and degradation of target proteins-Eur J Biochem.247(2)：605-13)所述缺失WT 2基因组中pepA特异的DNA序列。所述程序导致无标记物基因WT 3菌株，所述菌株在WT 2菌株背景中失活了pepA基因。

WT 4：为了缺失WT 3中的hdfA基因，使用先前在WO05/095624中详述的方法产生Aspergillus niger WT 4(ΔglaA，ΔpepA，ΔhdfA)。

WT 5：该A.niger菌株是包含下述缺失的WT 4菌株，所述缺失导致草酸盐/酯(oxalate)缺陷型A.niger菌株。通过使用EP1157100和US6,936,438中所述的方法构建WT 5，其中通过缺失编码草酰乙酸水解酶的oahA基因获得草酸盐/酯缺陷型菌株，菌株WT 5被选择为在WT 4菌株背景中失活了oahA基因的代表性菌株。

WT 6：该A.niger菌株是包含在三个后续步骤中编码α-淀粉酶的三个基因(amyB、amyBI和amyBII)缺失的WT 5菌株。缺失载体的构建和这三个基因的基因组缺失已详细描述于WO2005095624中。描述于WO2005095624中的载体pDEL-AMYA、pDEL-AMYBI和pDEL-AMYBII已根据EP 0635574 B1中所述的“无标记物基因”途径使用。上述程序得到WT 6，草酸盐/酯缺陷型的，无标记物基因ΔglaA、ΔpepA、ΔhdfA、ΔamyA、ΔamyBI和ΔamyBII淀粉酶阴性重组体A.niger CBS 513.88菌株，所述菌株最终完全不具有外来DNA序列。这样，菌株WT 6与WT 1相比具有低淀粉酶背景，具有更高的HR/NHR比例从而更有效地靶向序列，并且针对细胞外蛋白质表达和检测更加优化。

真菌的α-淀粉酶活性测定法(实施例2)

为了在A.niger培养液中测定α-淀粉酶活性，根据供应商的说明使用Megazyme谷物α-淀粉酶试剂盒(Megazyme，CERALPHAα淀粉酶测定试剂盒，产品目录编号K-CERA，2000-2001年)。所测量的活性以存在过量葡萄糖淀粉酶和[α]-葡萄糖苷酶时非还原性末端阻断的对硝基苯基麦芽庚糖苷(p-nitrophenyl maltoheptaoside)的水解为基础。形成的对硝基苯酚的量是样品中存在的α-淀粉酶活性的度量。

真菌的α-淀粉酶活性测定法(实施例3)

在A.niger培养液中测定α-淀粉酶活性是以Megazyme谷物α-淀粉酶试剂盒(Megazyme，CERALPHAα淀粉酶测定试剂盒，产品目录编号K-CERA，2000-2001年)为基础，同时有一些小修改以使其适合在自动分析仪(Konelab Arena 30)上运行。考虑到α-葡萄糖苷酶和淀粉葡萄糖苷酶的最适pH(pH值范围为5-6)，所述测定在pH5.20下执行。所测量的活性以存在过量葡萄糖淀粉酶和[α]-葡萄糖苷酶时非还原性末端阻断的对硝基苯基麦芽庚糖苷的水解为基础。形成的对硝基苯酚的量是样品中存在的α-淀粉酶活性的度量。将时间曲线线性部分中每分钟孵育时间的吸收变化用作酶活性的度量。

纤维二糖水解酶活性测定

在40℃下，pH 4.5的0.2M乙酸钠缓冲液中将25μl酶溶液与10mM对硝基苯酚-β-D-纤维二糖糖苷和10mM葡糖酸内酯一起孵育。以10分钟的时间间隔取样直至30分钟。通过以1∶1的比例加入冷的1M碳酸氢钠溶液来终止反应。在405nm处测量最终溶液的吸光度。将时间曲线线性部分中每分钟孵育时间的吸收变化用作酶活性的度量。

LC-90

LabChip 90系统(Caliper)用来进行上清液(蛋白质)样品的一维电泳分离。样品制备使用DTT作为变性剂根据供应商的手册(HT蛋白质表达试剂盒Catno.760328)进行。根据供应商的手册制备的HT蛋白质表达LabChip(Catno.760499)与LabChip HT蛋白质表达200软件程序组合使用，用于筛选14kDa到200kDa的蛋白质，来分析样品。

SDS-PAGE电泳(实施例2)

样品预处理：将30μl样品添加至35μl水和25μl NuPAGE^TMLDS样品缓冲液(4x)Invitrogen和10μl NuPAGE^TM样品还原剂(10x)Invitrogen中。在热混合仪中于70℃下将样品加热10分钟。

根据供应商的说明一式两份进行SDS-PAGE(Invitrogen:凝胶：4-12％Bis-Tris凝胶，缓冲液：MES SDS运行缓冲液，运行时间：35分钟)。使用两种凝胶之一用于印迹，将10μl样品溶液和1μl标记物Μ12(Invitrogen)应用在凝胶上(NuPAGE^TMBisTris，Invitrogen)。

使用XCELL Surelock在200V下对凝胶进行电泳，外部缓冲液槽中有600ml 20倍稀释的MES-SDS缓冲液，内部缓冲液槽中有200ml含有0.5ml抗氧化剂(NuPAGE^TMInvitrogen)的20倍稀释的MES-SDS缓冲液。电泳后用50％甲醇/7％乙酸(50ml)将凝胶固定1小时，用去矿物质水冲洗两次，并用Sypro Ruby(50ml,Invitrogen)染色过夜。

用去矿物质水将凝胶洗涤10分钟后，使用Typhoon 9200(610 BP 30，Green(532nm),PMT 600V，100微米)制造图像。

定量SDS-PAGE(实施例3)

为了测定特定目标蛋白质在具有不同分子量的一种或更多种其他蛋白质存在下在SDS-PAGE上的浓度，使用了称为定量SDS-PAGE(qPAGE)技术。对于qPAGE，来自Sigma-Aldrich牛血清白蛋白的蛋白标准(P0914，1mg/ml)被用来创建校准曲线。五个校准BSA样品从0.02至最大0.10mg/ml。BSA校准样品与含有目标蛋白质的发酵样品一起应用，所述目标蛋白质的蛋白质浓度将被测定。从校准BSA标准样品中取65μl添加至25μl NuPAGE^TMLDS样品缓冲液(4x)Invitrogen和10μl NuPAGE^TM样品还原剂(10x)Invitrogen中。在热混合仪中于70℃下将混合物加热10分钟。

为了拟合用牛血清白蛋白标准样品产生的校准曲线，目标蛋白质的每个发酵样品被稀释。进行该稀释后，65μl被稀释的样品加入到25μlNuPAGE^TMLDS样品缓冲液(4x)Invitrogen和10μl NuPAGE^TM样品还原剂(10x)Invitrogen中。在热混合仪中于70℃下将混合物加热10分钟。随后，5μl样品溶液；5μl每个BSA标准和3μl标记物M12(Invitrogen)被应用在17孔凝胶(4-12％Bis-Tris NuPAGE^TM，Invitrogen)上。使用XCELL Surelock在200V下对凝胶电泳55分钟，外部缓冲液槽中有600ml 20倍稀释的MOPS SDS缓冲液，内部缓冲液槽中有200ml含有0.5ml抗氧化剂(NuPAGE^TMInvitrogen)的20倍稀释的SDS缓冲液。电泳后用50％甲醇/7％乙酸(50ml)将凝胶固定1小时，用去矿物质水冲洗两次，并用Sypro Ruby(50ml,Invitrogen)染色过夜。用去矿物质水将凝胶洗涤后，使用Typhoon9200(Amersham/GE-Healthcare；610 BP 30，Green(532nm),PMT 530V，100微米)制造图像。

使用带有2003.02版本Image Quant Tools程序的Typhoon(Amersham/GE-Healthcare)，对BSA和对应于目标蛋白质的条带测量灰度值。校准线用五个BSA稀释液(0.02、0.04、0.06、0.08和0.10mg/ml)制作，并从这些校准线来计算目标蛋白质的蛋白质浓度(在相同的凝胶上)。应当注意的是，如果1)校准曲线由至少4个标准组成，2)如果对于每个标准，相对于标称浓度(nominal concentration)的偏差在±15.0％内，则校准曲线被接受。只计算落入被接受的校准曲线的最低和最高标准之间的(被稀释的)样品浓度。

分子生物学技术

在本文的实施例中，使用本领域技术人员已知的分子生物学技术(见Sambrook&Russell，Molecular Cloning：A Laboratory Manual，3rd Ed.，CSHL Press，Cold SpringHarbor,NY,2001)，如下文所述将若干基因过表达，并将另一些基因下调。

描述和使用的所有基因置换载体都根据已知原则设计并根据常规克隆程序构建。基本上，这些载体包含各个ORF序列约l-2kb的侧翼区，从而靶向预定的基因组位点处的同源重组。另外，它们在直接重复之间含有用于转化的A.nidulans双向amdS选择标记物。在本文所有实施例中用于基因缺失的方法使用线性DNA，所述线性DNA通过双交换在侧翼序列的同源位点处整合进基因组中，从而用amdS基因替换要被缺失的基因。转化后，直接重复允许通过(第二)同源重组事件去除选择标记物。amdS标记物的去除可以如下完成：涂布在氟乙酰胺培养基上，导致无标记物基因菌株的选择。使用该转化策略和随后的反选择(在EP O 635 574中也被描述为“无标记物基因”途径)，可以在菌株修饰程序中无限地使用amdS标记物。用于基因破坏的一般程序展示于WO2006040312的图6中。缺失载体的一般设计先前描述于EP635574B和WO 98/46772中，一般克隆载体pGBDEL用于构建缺失载体的用途和反选择程序同样描述于WO06/040312。

表达载体和特别地用于基因过表达的pGBFIN-表达载体的一般设计的例子，转化，标记物和选择培养基的使用可参见WO199846772、WO199932617、WO2001121779、WO2005095624、EP635574B和WO2005100573。

摇瓶发酵(实施例2)

如WO 99/32617的实施例“Aspergillus niger摇瓶发酵”章节中所述，在20ml CSL预培养培养基(100ml烧瓶，带挡板)中预培养A.niger菌株。在34℃和170rpm下培养18-24小时后，将10ml该培养物转移至发酵培养基(FM)。FM中的发酵在34℃和170rpm下，在带有挡板的含100ml发酵液的500ml烧瓶中进行指定天数，一般如WO99/32617中所述。

CSL培养基由以下组成(以每升的量计)：100g玉米浸溃固体(Roquette)、1g NaH₂PO₄·H₂O、0.5g MgSO₄·7H₂O、10g葡萄糖·H₂O和0.25g Basildon(消泡剂)。将所述成分溶于去矿物质水中，用NaOH或H₂SO₄将pH调节至pH 5.8；用20ml发酵培养基填充带有挡板和起泡球的100ml烧瓶，并在120℃下灭菌20分钟。

发酵培养基(FM)由以下组成(以每升的量计)：150g麦芽糖·H₂O、60g大豆蛋白胨(蛋白胨)、1g NaH₂PO₄·H₂O、15g MgSO₄·7H₂O、0.08g吐温80、0.02g Basildon(消泡剂)、20g MES、1g L-精氨酸。将所述成分溶于去矿物质水中，用NaOH或H₂SO₄将pH调节至pH 6.2；用100ml发酵液填充带有挡板和起泡球的500 ml烧瓶，并在120℃下灭菌20分钟。

摇瓶发酵(实施例3)

如WO 99/32617的实施例“Aspergillus niger摇瓶发酵”章节中所述，在20ml START预培养培养基(100ml烧瓶，带挡板)中预培养A.niger菌株。在34℃和170rpm下培养18-24小时后，将10ml该培养物转移至发酵培养基(FM)。FM中的发酵在34℃和170rpm下，在带有挡板的含100ml发酵液的500ml烧瓶中进行指定天数，一般如WO99/32617中所述。

START培养基由以下组成(以每升的量计)：30g麦芽糖、10g蛋白胨aus酪蛋白(pepton aus casein)(Merk 2239)、5g酵母提取物、0.5gMgSO₄·7H₂O、1g KH₂PO₄、30mg ZnCl₂、20mg CaCl、10mgMnSO₄·4H2O、0.3g FeSO₄·7H₂O、3g吐温80。将所述成分溶于去矿物质水中，用H₂SO₄将pH调节至pH 5.5；用20ml发酵培养基填充带有挡板和起泡球的100 ml烧瓶，并在110℃下灭菌15分钟。

发酵培养基(FM)由以下组成(以每升的量计)：60g葡萄糖·H₂O、10g麦芽糖、1g KH₂PO₄、12.5g酵母提取物(Difco)、25g蛋白胨aus酪蛋白(Merk 2239)、2g K₂SO₄、0.5g MgSO₄·7H₂O、3ml ZnCl₂(10mg/ml)、8gCaCl₂、0.9ml MnSO₄·1H₂O(10mg/ml)、0.3ml FeSO₄·7H₂O(10mg/ml)、48.8g MES。将所述成分溶于去矿物质水中，用6N KOH/H₂SO₄将pH调节至pH 5.6；用100ml发酵培养基填充带有挡板和起泡球的500ml烧瓶，并在110℃下灭菌15分钟。预培养是在START培养基中进行的

或者，为了生产EBA205纤维二糖水解酶，用CSL培养基预培养A.niger菌株。CSL培养基由以下组成(以每升的量计)：100g玉米浸溃固体(Roquette)、1g NaH₂PO₄·H₂O、0.5g MgSO₄·7H₂O、10g葡萄糖·H₂O和0.25g Basildon(消泡剂)。将所述成分溶于去矿物质水中，用NaOH或H₂SO₄将pH调节至pH 5.8；用20ml发酵培养基填充带有挡板和起泡球的100ml烧瓶，并在120℃下灭菌20分钟。

在CSM/MES培养基中进行发酵。CSM/MES培养基由以下组成(以每升的量计)：150g麦芽糖·H₂O、60g大豆蛋白胨、1g NaH₂PO₄·H₂O、15g(NH₄)₂SO₄·H₂O、1g MgSO₄·7H₂O、0.08g吐温80、0.02g Basildon、20g MES、1g L-精氨酸。将所述成分溶于去矿物质水中，用NaOH/H2SO4将pH调节至pH 6.2；用100ml发酵培养基填充带有挡板和起泡球的500ml烧瓶，并在110℃下灭菌15分钟。

实施例1：将Aspergillus niger中高水平蛋白质生产与序列特点(sequence characteristics)相关联

可以采用影响蛋白质生产的因素的知识来改进工业设置下的酶生产速率。同源基因表达可以获得高的生产产率，但是异源基因表达的产率往往受限制。为了了解可能影响生产速率的序列特性，我们已应用了基于序列的机器学习技术来识别相关的蛋白质序列特征。蛋白质序列的组成被发现是最预测性的，并且解释揭示了：对于同源基因表达和异源基因表达二者而言，相同的特征是重要的。甲硫氨酸(M)和赖氨酸(K)被发现对高水平的生产具有负贡献。

数据

两个蛋白质数据集进行了高水平生产和分泌的试验性测试，一个用于同源基因表达，一个用于异源基因表达。通过基因的过表达获得二进制(Binary)的成功得分，所述基因在强组成型葡萄糖淀粉酶启动子之后被随机引入A.niger基因组。在摇瓶中生长后，被过滤的培养液被放在凝胶上。存在清晰可见的条带则给正成功得分，否则为负。异源数据集的蛋白质来自14个不同真菌供体生物(见表1)。来自同源(hom)数据集和异源(het)数据集的得到的数据列于表2。

表1.14个真菌供体生物的名称和缩写，其有异源数据集(het)的蛋白质

缩写	生物
		Apul	Aureobasidium pullulans
Ares	Amorphotheca resinae
		Ccin	Coprinus cinereus
Cele	Cunninghamella elegans
		Clau	Cryptococcus laurentii
Gpan	Geomycespannorum
		Gtra	Gloeophyllum trabeum
Ledo	Lentinula edodes
		Lsco	Leucosporidium scottii
Opil	Ophiostoma piliferum
		Pchr	Phaberochaete chrysosporium
Sthe	Sporotrichum thermophile
		Tlan	Thermomyces(Humicola)lanuginosa
Tver	Trametes versicolor

表S2.蛋白质的总数以及在hom和het和het中的每个生物中成功(正)和不成功(负)高水平生产的蛋白质的数量

所有的蛋白质具有如SignalP 3.0[J,Nielsen H,vonHeijne G,Brunak S(2004)Improved prediction of signal peptides:SignalP 3.0.Journal of molecular biology 340:783–795]预示的信号肽(长度>10个氨基酸)，并且总的序列长度大于100个氨基酸。含ER滞留信号(C末端KDEL)的蛋白质和被TMHMM[Krogh A,Larsson B,Von Heijne G,Sonnhammer E(2001)Predicting transmembrane protein topology with ahidden markov model:application to complete genomes.Journal of molecularbiology 305:567–580]和Phobius[.K¨all L,Krogh A,Sonnhammer E(2004)Acombined transmembrane topology and signal peptide prediction method.Journal of molecular biology 338:1027–1036]预测为跨膜的蛋白质被滤出该数据集。

为了避免偏颇的后续分析，用BLASTCLUST[DondoshanskyI(2002)Blastclust，(NCBI软件开发工具包)NCBI,Bethesda,Md]减少序列冗余。当被比对的序列在至少一个序列的最小90％的长度上共享>40％的同一性时，两个序列被认为是冗余的。从所获得的蛋白质组中，我们选择了具有代表性的蛋白质，所述蛋白质对组中所有的其他蛋白质具有最短平均距离，并除去余者。如果组中同时含有具有正标签和负标签的蛋白质，选择一个正的蛋白质和一个负的蛋白质。这产生了数据集hom和het，分别含有345个蛋白质(187个正的，167个负的)和991个蛋白质(163个正的，828个负的)。

为了在hom上训练分类器，在het上对其进行测试，数据集het_hom被构建，所述数据集含有het数据集，所述het数据没有与hom中的任何蛋白质共享>40％的同一性的蛋白质。该数据集含有906(128个正的，778个负的)个蛋白质。

分类

线性支持矢量机(linear support vector machine)(LIBSVM[Chang C,Lin C(2011)LIBSVM:a library for support vector machines.ACMTransactions on Intelligent Systems and Technology(TIST)2:27])被用于分类[Ben-Hur A,Ong C,Sonnenburg S,Sch¨olkopf B,R¨atsch G(2008)Supportvector machines and kernels for computational biology.PLoS computationalbiology 4:e1000173]。用简单网格搜索(simple grid search)对参数C进行优化。如果多个内核(multiple kernels)，C和内核权重均使用协方差矩阵自适应进化算法(CMA)来优化[Hulsman M,Reinders M,de Ridder D(2009)Evolutionary optimization of kernel weights improves protein complexcomembership prediction.IEEE/ACM Transactions on Computational Biologyand Bioinformatics(TCBB)6:427–437；以及Hansen N(2006)The CMAevolution strategy:a comparing review.Towards a new evolutionarycomputation:75–102]。通过运行双10倍交叉校验(CV)环路获得数据集上分类器的性能，其中C和内核权重在训练集上在内部CV-环路中被优化。我们用接受者操作特征曲线下区域(auroc)作为性能度量[Fawcett T(2006)Anintroduction to ROC analysis.Pattern recognition letters 27:861–874]。分类器性能被定义为在CV-环路上的平均auroc。当使用单独的训练和测试集时，分类器在第一数据集上被训练，在10倍CV-环路中优化C和内核权重，并在第二数据集上被测试，再次使用auroc作为性能度量。

结果

我们研究了蛋白质的数据集来预测成功的高水平的分泌，显示有限数目的氨基酸的出现频率对高产率的分泌是最有预测力的(见图1)。赖氨酸和甲硫氨酸显示最高的负相关关系。

图2显示het和hom分类器的权重之间的相关关系。所述相关关系表明两种分类器确实相似。对于hom和het，发现甲硫氨酸(M)和赖氨酸(K)的显著负的负贡献。考虑到氨基酸特性，观察到碱性的和含硫的氨基酸具有负贡献。

氨基酸组成的预测性能得分(AUROC)非常良好。基于hom训练和hom评估，het训练和het评估，成熟蛋白质AA组成的得分分别为0.83和0.70。

如基于组成的分类器的ROC-曲线所得出的，相似的特点对两个数据集均是重要的。显著地，het上被训练的分类器得出相似的权重，表明同源分类器很好地被泛化来预测het的高水平生产。良好的泛化(generalization)表明hom和het上训练的分类器是相似的，即以相同序列特点为基础执行它们的预测。

实施例2：构建野生型酶和根据本发明方法的酶变体的A.niger表达载体

在本实施例中，对本发明的酶的变体构建了若干表达载体。所有用于在Aspergillus中表达的变体在pGBFIN-5或pGBTOP-表达载体中被克隆。所述构建，总体布局和这些载体的使用详细描述于WO1999/32617。

A.niger构建体

对于A.niger中EBA205和FUA(SEQ ID NO.5和7)的表达，cDNA序列是使用了WO2008/000632所述方法的密码子对优化的(SEQ ID NO.54和55)并且被合成地制备(例如DNA2.0,USA,GeneArt,德国)。

编码α-淀粉酶蛋白质(FUA)的amyB基因的DNA序列在J.Biochem.MoI.Biol.37(4):429-438(2004)(Matsubara T.,Ammar Y.B.,Anindyawati T.,Yamamoto S.,Ito K.,Iizuka M.,Minamiura N."Molecular cloning anddetermination of the nucleotide sequence of raw starch digesting alpha-amylasefrom Aspergillusawamori KT-I l.")中公开并且还可以从EMBL核苷酸序列数据库(http://www.ebi.ac.uk/embl/index.html)以登录号AB083159获取。A.niger WT6是其中天然的2个拷贝amyBI和amyBII从基因组中被除去[An12g06930和An05g02100]的菌株(A.niger基因组序列(EMBL:AM269948-AM270415；Pel等人.,“Genome sequencing and analysis of theversatile cell factory Aspergillusniger CBS 513.88”).Nat Biotechnol.2007 Feb；25(2):221-231)。

T.emersonii EBA205，纤维二糖水解酶1与Genbank[AAL33603]中的相同。在FUA的情况下，用于分泌的信号序列(SEQ ID NO：2)被最适信号序列(SEQ ID NO：3)置换(详述于WO2010121933)。

对于两种蛋白质，包含信号序列的cDNA序列通过对直接来自氨基酸序列的密码子对优化进行设计(详述于WO2008000632)。在产生的所有表达构建体中，葡萄糖淀粉酶glaA启动子的翻译起始序列被修饰到5'-CACCGTCAAA ATG-3'中(还详述于WO2006/077258)。此外，在所有的表达构建体中使用了最适翻译终止序列：5'-TAAA-3'(详述于WO2006/077258)。

Talaromyces emersonii EBA205是密码子对优化的(详述于WO2008000632)并且所有适当的控制元件被完全合成为PacI-AscI片段、被亚克隆并且进行了序列验证。合成片段的端点的PacI-AscI限制性位点被用来允许在大载体中克隆被PacI-AscI消化的pGBFIN-5表达载体的片段，产生表达载体pGBFINEBA205(见图3)。此外，并且以与EBA205类似的方式，优化的FUA构建体是密码子对优化的(详述于WO2008000632)并且所有适当的控制元件在pGBFIN-5中被克隆为PacI-AscI片段，产生pGBFINFUA(图4)。

蛋白质序列优化(PSO)被应用到FUA，A.niger真菌淀粉酶蛋白质序列[An12g06930；An05g02100]和T.emersonii EBA205，纤维二糖水解酶1[GenBank：AAL33603]。所有设计的蛋白质都通过基因合成供应商获得(例如DNA2.0,USA,GeneArt,德国)。获得的片段在pGBFIN载体中使用基本如上所述的方法被克隆，产生多种pGBFIN-表达构建体。A.niger FUA和EBA205构建体的所有相关蛋白质修饰细节可以在表3-10中找到。成熟蛋白质的甲硫氨酸和赖氨酸含量的降低/增加的完整总览列于表11和12。

试验设计以这样一种方式被建立：M-残基或K残基的其中一个，或M残基和K残基两者被置换来研究这些氨基酸的组成百分比减少的一般效果。为了提供M或K的特定效果的额外证据，使用了具有增加的M或K含量的额外的构建体。

表3：EBA205：降低的M含量

基因

164

228

252

283

374

378

382

386

396

M

EBA205

M

减少

成熟

146

210

234

265

356

360

364

368

378

替换

L

R

L

H

L

A

％

EBA205-M01

R

L

33％

EBA205-M02

R

I

L

44％

EBA205-M03

R

L

I

L

44％

EBA205-M04

R

L

I

L

56％

EBA205-M05

L

R

L

V

L

67％

表4：EBA205：增加的M含量

基因

32

123

126

134

148

170

195

201

236

293

EBA205wt

L

I

V

L

E

I

K

成熟

14

105

108

116

130

152

177

183

218

275

替换

M

EBA205-M06

M

EBA205-M07

M

EBA205-M08

M

基因	301	371	M
				EBA205wt	F	L	增加
成熟	283	353
				替换	M	M	％
EBA205-M06		M	44％
				EBA205-M07			56％
EBA205-M08		M	78％

表5：EBA205：降低的K含量

基因

136

172

177

181

196

293

322

330

356

373

444

EBA205

K

％

成熟

118

154

159

163

178

275

304

312

338

355

426

替换

N

R

T

Q

L

R

N

G

R

EBA205-K01

N

R

N

G

36％

EBA205-K02

N

R

N

G

R

55％

EBA205-K03

N

L

R

N

G

45％

EBA205-K04

N

R

T

Q

R

N

G

R

73％

EBA205-K05

N

R

T

Q

L

R

N

G

R

82％

表6：EBA205：增加的K含量

基因

36

49

83

112

117

131

140

208

286

298

299

EBA205wt

E

A

V

R

N

S

T

R

Q

T

Q

成熟

18

31

65

92

94

99

113

122

190

268

280

281

替换

K

EBA205-K06

K

EBA205-K07

K

EBA205-K08

K

EBA205-K09

K

EBA205-K10

K

基因

300

319

338

357

367

368

376

380

407

411

EBA205wt

P

S

D

Q

H

A

Q

A

T

成熟

282

301

320

339

349

350

358

362

389

393

替换

K

EBA205-K06

36％

EBA205-K07

K

55％

EBA205-K08

45％

EBA205-K09

K

64％

EBA205-K10

K

82％

表7：FUA：降低的M含量

基因

75

132

135

143

266

289

295

416

475

wt

M

减少

成熟

55

112

115

123

246

269

275

396

455

M

替换

L

I

L

F

L

I

E

L

％

FUA-M01

x

33％

FUA-M02

x

33％

FUA-M03

x

33％

FUA-M04

x

56％

FUA-M05

x

56％

FUA-M06

x

56％

FUA-M07

x

56％

FUA-M08

x

100％

表8：FUA：增加的M含量

基因

180

206

214

247

274

299

313

328

455

wt

Q

E

L

C

I

V

I

T

增加

成熟

160

186

194

227

254

279

293

308

435

M

替换

M

％

FUA-M09

x

33％

FUA-M10

x

33％

FUA-M11

x

67％

FUA-M12

x

100％

表9：FUA：降低的K含量

基因

56

68

121

158

200

204

229

233

241

283

300

wt

K

成熟

36

48

101

138

180

184

209

213

221

263

280

替换

I

H

R

N

S

R

P

D

S

Q

A

FUA-K01

x

FUA-K02

x

FUA-K03

x

FUA-K04

x

FUA-K05

x

FUA-K06

x

FUA-K07

x

FUA-K08

x

基因

332

380

395

403

409

418

432

488

493

wt

K

减少

成熟

312

360

375

383

389

398

412

468

473

K

替换

Q

A

Q

R

L

R

G

％

FUA-K01

x

30％

FUA-K02

x

30％

FUA-K03

x

30％

FUA-K04

x

50％

FUA-K05

x

50％

FUA-K06

x

65％

FUA-K07

x

75％

FUA-K08

x

100％

表10：FUA：增加的K含量

基因

27

63

87

212

304

384

387

390

417

453

wt

R

Q

A

G

P

S

A

N

R

Q

成熟

7

43

67

192

284

364

367

370

397

433

替换

K

FUA-K09

x

FUA-K10

x

FUA-K11

x

基因	470	481
				wt	N	R	增加
成熟	450	461	K
				替换	K	K	％
FUA-K09			25％
				FUA-K10		x	35％
FUA-K11	x	x	60％

表11：EBA205试验总览(21个构建体)

蛋白质	M-	M+	K-	K+	KM-
						EBA-205
EBA205-M01	33％
						EBA205-M02	44％
EBA205-M03	44％
						EBA205-M04	56％
EBA205-M05	67％
						EBA205-M06		44％
EBA205-M07		56％
						EBA205-M08		78％
EBA205-K01			33％
						EBA205-K02			44％
EBA205-K03			44％
						EBA205-K04			56％
EBA205-K05			67％
						EBA205-K06				36％
EBA205-K07				55％
						EBA205-K08				45％
EBA205-K09				64％
						EBA205-K10				82％
EBA205-KM01	33％		45％		35％
						E BA205-KM02	44％		64％		60％

表12：FUA试验总览(26个构建体)

蛋白质	M-	M+	K-	K+	KM-
						FUA
FUA-M01	33％
						FUA-M02	33％
FUA-M03	33％
						FUA-M04	56％
FUA-M05	56％
						FUA-M06	56％
FUA-M07	56％
						FUA-M08	100％
FUA-M09		33％
						FUA-M10		33％
FUA-M11		67％
						FUA-M12		100％
FUA-K01			30％
						FUA-K02			30％
FUA-K03			30％
						FUA-K04			50％
FUA-K05			50％
						FUA-K06			65％
FUA-K07			75％
						FUA-K08			100％
FUA-K09				25％
						FUA-K10				35％
FUA-K11				60％
						FUA-KM01	33％		56％		31％
FUA-KM02	30％		60％		62％

野生型真菌酶和PSO优化的真菌酶在A.niger中的表达

用A.niger通过转化引入pGBFINFUA-和pGBFINEBA205表达构建体。为了在WT6中引入不同的pGBFINFUA-载体和pGBFINEBA205-载体(见表3至10)，转化和转化体的后续选择如WO1998/46772和WO1999/32617所述进行。简单地说，所有pGBFIN-构建体的线性DNA被分离并被用来转化A.niger WT6。按照标准流程，在乙酰胺培养基上对转化体进行选择，并对菌落加以纯化。针对在glaA位点上的整合和拷贝数，用PCR对菌落加以诊断。选出具有相似评估拷贝数(推定的单拷贝)的pGBFINFUA-构建体和pGBFINEBA205-构建体的各自的三个独立的转化体并使用转化质粒的编号命名，例如分别是FUA-M01-1，FUA-M01-2，FUA-M01-3，EBA205-M01-1，EBA205-M01-2，EBA205-M01-3，等等。

EBA-205构建体和表达

选取含有不同构建体的A.niger EBA205-转化体的转化体(产生约80％的成功过表达菌株)，包括野生型EA205(野生型蛋白质)。对于子集，含有不同构建体的A.niger EBA205-转化体的每个转化体表达的CBHI的生产在第3天在培养物上清液中被测量。此外，对第4天取样的培养物上清液进行SDS凝胶电泳和染色分析。

通过减少M、K或M和K两种氨基酸的蛋白质序列优化对蛋白质的分泌具有正影响，并导致增加的蛋白表达水平以及增加的纤维二糖水解酶I的活性水平。当从左至右绘出相对表达水平甲硫氨酸的百分比{增加-野生型-百分比降低}可以看出明显的正趋势，并且对于活性方式相似。对于赖氨酸可以看出同样的效果。

FUA构建体和表达

选取含有不同构建体的A.niger FUA-转化体的转化体(产生约80％的成功过表达菌株)，包括野生型FUA(野生型蛋白质)。对于子集，含有不同构建体的A.niger FUA-转化体的每个转化体表达的α-淀粉酶的生产在第3天在培养物上清液中被测量。此外，对第4天取样的培养物上清液进行SDS凝胶电泳和染色分析。

通过减少M、K或M和K两种氨基酸的蛋白质序列优化对蛋白质的分泌具有正影响，并导致可检测的以及因此增加的蛋白表达水平以及增加的α-淀粉酶的活性水平。当从左至右绘出的相对表达水平甲硫氨酸的百分比{增加-野生型-百分比降低可以看出明显的正趋势，并且对于活性方式相似。对于赖氨酸可以看出同样的效果。

实施例3：构建野生型酶和根据本发明方法的酶变体的A.niger表达载体

A.niger构建体

试验设计以这样一种方式被建立：M-残基或K残基的其中一个，或M残基和K残基二者被置换来研究这些氨基酸的组成百分比减少的一般效果。为了提供M或K的特定效果的额外证据，使用了具有增加的M或K含量的额外的构建体。

野生型真菌酶和PSO优化的真菌酶在A.niger中的表达

EBA-205构建体和表达

选取含有不同构建体的A.niger EBA205-转化体的转化体(产生约80％的成功过表达菌株)，包括野生型EA205(野生型蛋白质)。对于子集，含有不同构建体的A.niger EBA205-转化体的每个转化体表达的CBHI的生产在第5天在培养物上清液中被测量。此外，对第5天取样的培养物上清液通过定量SDS PAGE进行分析。

表13.甲硫氨酸变体相对于WT；WT的表达水平％；斜体度量值略去，对应图5。

表14.甲硫氨酸变体相对于WT；WT的表达水平％；斜体度量值略去，对应图6。

表15.组合的甲硫氨酸和赖氨酸变体相对于WT；WT的表达水平％；

从表和图中，很明显看出通过减少M、K或M和K两种氨基酸的蛋白质序列优化(PSO)对蛋白质分泌具有正影响，并且导致纤维二糖水解酶I的增加的蛋白质表达水平。尽管并非所有的构建体导致一式三份的生产菌株和表达数据，当从左至右绘出相对表达水平的甲硫氨酸的百分比{降低-野生型-百分比增加}时可以看出清晰的相关关系。

赖氨酸的减少相对于表达水平显示相似的效果。

FUA构建体和表达

选取含有不同构建体的A.niger FUA-转化体的转化体(产生约80％的成功过表达菌株)，包括野生型FUA(野生型蛋白质)。对于子集，含有不同构建体的A.niger FUA-转化体的每个转化体表达的α-淀粉酶的生产在第4天在培养物上清液中使用真菌α-淀粉酶活性测定法测量。活性是表达水平的度量。

表16.甲硫氨酸变体相对于WT；WT的活性水平％；斜体的度量值略去，对应图7。

表17.甲硫氨酸变体相对于WT；WT的活性水平％；斜体度量值略去，对应图8。

表18.组合的甲硫氨酸和赖氨酸变体相对于WT；WT的活性水平％；

注意到一些具有减少的M-含量的PSO改造的变体没有显示出活性水平或者显示了减少的活性水平。通常，那些蛋白质的折叠很可能被过多地影响并不再正确地折叠或良好表达。此外，第4天取样的培养物上清液通过LC90分析，其显示出所选取的菌株的表达对不表达的相似的趋势，虽然表达水平不是定量的。表18显示了进行大改造的组合的M/K变体，其在改造方法中没能存活并不再具有活性。

对于大多数所显示的FUA实例，通过减少M或KK氨基酸的蛋白质序列优化对蛋白质分泌具有正影响，并且导致可检测的以及因此增加的蛋白质表达水平以及增加的α-淀粉酶的活性水平。当从左至右绘出相对活性水平的甲硫氨酸的百分比{降低-野生型-百分比增加时可以观察到清晰的正趋势，并且对于表达方式相似，推测那些变体的比活性基本没有被改变。对于赖氨酸可以观察到明显的相关关系，尽管菌株更少并且因此可用的数据点更少。

Claims

1.一种在宿主细胞生产目标多肽的方法，所述方法包括：

a.提供载有编码目标多肽的核酸的宿主细胞，其中目标多肽被修饰使得其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于所述多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外；

b.在适合生产多肽的条件下培养宿主细胞；以及任选地，

c.回收目标化合物。

2.根据权利要求1的方法，其中所述参考多肽是对应的野生型多肽。

3.根据权利要求1或2的方法，其中所述参考多肽是与一个或更多个对应的野生型多肽有至少约70％同一性的多肽序列。

4.根据前述权利要求中任一项的方法，其中所述参考多肽中甲硫氨酸和/或赖氨酸氨基酸数目被确定为两个或更多个参考多肽中甲硫氨酸和/或赖氨酸氨基酸的平均数目。

5.根据前述权利要求中任一项的方法，其中所述目标多肽中甲硫氨酸和/或赖氨酸氨基酸的减少在至少约80个或更多个连续氨基酸的长度上被确定。

6.根据前述权利要求中任一项的方法，其中所述目标多肽中甲硫氨酸和/或赖氨酸氨基酸的数目相比参考多肽减少至少约25％。

7.根据前述权利要求中任一项的方法，其中所述目标多肽中甲硫氨酸和/或赖氨酸氨基酸的数目相比参考多肽减少两个或更多个。

8.根据前述权利要求中任一项的方法，其中所述参考多肽中的甲硫氨酸和/或赖氨酸氨基酸已被非甲硫氨酸和/或非赖氨酸的氨基酸替换或已被缺失。

9.根据前述权利要求中任一项的方法，其中所述目标多肽中甲硫氨酸和/或赖氨酸氨基酸的减少的确定不考虑可在宿主细胞中被加工的信号序列。

10.根据前述权利要求中任一项的方法，其中所述目标多肽是被分泌的蛋白质。

11.根据前述权利要求中任一项的方法，其中所述宿主细胞是真核宿主细胞或原核细胞。

12.根据权利要求11的方法，其中所述宿主细胞是酵母细胞或丝状真菌细胞。

13.被修饰的多肽，其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于所述多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外。

14.根据权利要求13的被修饰的多肽，其中所述参考多肽是对应的野生型多肽。

15.根据权利要求13或14的被修饰的多肽，其中所述参考多肽是与一个或更多个对应的野生型多肽有至少约70％的同一性的多肽序列。

16.根据权利要求13至15中任一项的被修饰的多肽，其中所述参考多肽中甲硫氨酸和/或赖氨酸氨基酸的数目被确定为两个或更多个参考多肽中甲硫氨酸和/或赖氨酸氨基酸的平均数目。

17.根据权利要求13至16中任一项的被修饰的多肽，其中所述目标多肽中甲硫氨酸和/或赖氨酸氨基酸的减少在至少约80个或更多个连续氨基酸的长度上被确定。

18.根据权利要求13至17中任一项的被修饰的多肽，其中所述甲硫氨酸和/或赖氨酸氨基酸的数目相比参考多肽被减少至少约30％。

19.根据权利要求13至18中任一项的被修饰的多肽，其中所述参考多肽中的甲硫氨酸和/或赖氨酸氨基酸已被非甲硫氨酸和/或非赖氨酸的氨基酸替换或已被缺失。

20.根据权利要求13至19中任一项的被修饰的多肽，其中所述被修饰的多肽中甲硫氨酸和/或赖氨酸氨基酸的减少的确定不考虑可在宿主细胞中被加工的信号序列。

21.根据权利要求13至20中任一项的被修饰的多肽，其是被分泌的蛋白质。

22.一种改进多肽在宿主细胞中的表达水平的方法，所述方法包括相比参考多肽减少所述多肽的甲硫氨酸和/或赖氨酸氨基酸的数目，位于所述多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外。

23.被修饰的目标多肽用于增加目标多肽在宿主细胞中的表达水平的用途，所述目标多肽被修饰使得其相比参考多肽包含较少的甲硫氨酸残基和/或赖氨酸残基，位于所述多肽序列的N-末端的任何起始甲硫氨酸氨基酸除外。

24.多肽，其具有SEQ ID NO：16、17、18、19、20、8、9、10、11、12、26、27、43、44、45、28或29示出的氨基酸序列。