CN111315763A

CN111315763A - 用于生产重组丝的经修饰菌株

Info

Publication number: CN111315763A
Application number: CN201780095487.8A
Authority: CN
Inventors: M·S·甘博亚; J·T·基托森
Original assignee: Bolt Threads Inc
Current assignee: Bolt Threads Inc
Priority date: 2017-10-03
Filing date: 2017-10-03
Publication date: 2020-06-19
Also published as: KR102558303B1; MX2020003362A; KR20200058482A; EP3692054A1; WO2019070246A1; EP3692054A4; JP7246102B2; AU2017434920B2; JP2021503275A; AU2022202534A1; AU2017434920A1

Abstract

本文公开了用于降低宿主生物体分泌的重组表达产物的降解的经修饰菌株以及使用所述经修饰菌株的方法。

Description

用于生产重组丝的经修饰菌株

技术领域

本公开涉及用于从细胞生产蛋白质或代谢产物或提高它们的产量的菌株优化方法。本公开还涉及由那些方法得到的组合物。特别地，本公开涉及经选择或经基因工程改造用于减少由酵母细胞表达的重组蛋白的降解的酵母细胞，以及培养用于生产有用化合物的酵母细胞的方法。

发明背景

甲基营养型酵母毕氏酵母(Pichia pastoris)被广泛用于重组蛋白的生产。毕氏酵母生长至高细胞密度，提供受严格控制的甲醇可诱导的转基因表达，并在限定成分培养基中有效地分泌异源蛋白质。

但是，在毕氏酵母菌株的培养过程中，重组表达蛋白可能在其被收集之前发生降解，导致形成包含重组表达的蛋白质片段的蛋白质混合物并且导致全长重组蛋白质的收率降低。因此，需要用于减轻毕氏酵母中蛋白质降解的工具和工程化菌株。

发明内容

在一些实施方案中，本文提供了其中YPS1-1蛋白酶和YPS1-2蛋白酶的活性已被减弱或消除的毕氏酵母微生物，其中所述微生物表达重组多肽。

在一些实施方案中，YPS1-1蛋白酶包含与SEQ ID NO：67至少95％相同的多肽序列。在一些实施方案中，YPS1-1蛋白酶包含SEQ ID NO：67。在一些实施方案中，YPS1-1蛋白酶由YPS1-1基因编码。在一些实施方案中，YPS1-1基因包含与SEQ ID NO：1至少95％相同的多核苷酸序列。在一些实施方案中，YPS1-1基因包含SEQ ID NO：1的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，YPS1-1基因包含SEQ ID NO：1。在一些实施方案中，YPS1-1基因在所述微生物的基因座PAS_chr4_0584处。

在一些实施方案中，YPS1-2蛋白酶包含与SEQ ID NO：68至少95％相同的多肽序列。在一些实施方案中，YPS1-2蛋白酶包含SEQ ID NO：68。在一些实施方案中，YPS1-2蛋白酶由YPS1-2基因编码。在一些实施方案中，YPS1-2基因包含与SEQ ID NO：2至少95％相同的多核苷酸序列。在一些实施方案中，YPS1-2基因包含SEQ ID NO：2的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，YPS1-2基因包含SEQ ID NO：2。在一些实施方案中，YPS1-2基因在所述微生物的基因座PAS_chr3_1157处。

在一些实施方案中，YPS1-1基因或所述YPS1-2基因或两者已突变或已被敲除。

在一些实施方案中，所述微生物表达重组蛋白。在一些实施方案中，所述重组蛋白包含来自丝蛋白的至少一个封闭多肽序列。在一些实施方案中，所述重组蛋白包含丝状多肽。在一些实施方案中，丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3，其中X₁＝SGGQQ或GAGQQ或GQGPY或AGQQ或SQ；n1是4至8；n2是6至20；n3是2至20。在一些实施方案中，丝状多肽包含由SEQ ID NO：462编码的多肽序列。

在一些实施方案中，微生物中一种或多种另外的蛋白酶的活性已被减弱或消除。在一些实施方案中，所述一种或多种另外的蛋白酶包含YPS1-5、MCK7或YPS1-3。

在一些实施方案中，YPS1-5基因在所述微生物的基因座PAS_chr3_0688处。

在一些实施方案中，MCK7蛋白酶由包含与SEQ ID NO：7至少95％相同的多核苷酸序列的MCK7基因编码。在一些实施方案中，MCK7基因包含SEQ ID NO：7的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，MCK7基因包含SEQ ID NO：7。在一些实施方案中，MCK7基因在所述微生物的基因座PAS_chr1-1_0379处。

在一些实施方案中，YPS1-3蛋白酶由包含与SEQ ID NO：3至少95％相同的多核苷酸序列的YPS1-3基因编码。在一些实施方案中，YPS1-3基因包含SEQ ID NO：3的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，YPS1-3基因包含SEQ ID NO：3。在一些实施方案中，YPS1-3基因在所述微生物的基因座PAS_chr3_0299处。

在一些实施方案中，所述一种或多种另外的蛋白酶包含与选自由SEQ ID NO：68-130组成的组的多肽序列至少95％相同的多肽序列。在一些实施方案中，所述一种或多种另外的蛋白酶包含选自由SEQ ID NO：68-130组成的组的多肽序列。在一些实施方案中，所述一种或多种另外的蛋白酶由与选自由SEQ ID NO：3-66组成的组的多核苷酸序列至少95％相同的多核苷酸序列编码。在一些实施方案中，所述一种或多种另外的蛋白酶由包含选自由SEQ ID NO：3-66组成的组的多核苷酸序列的至少15、20、25、30、40或50个连续核苷酸的多核苷酸序列编码。

在一些实施方案中，所述微生物包含3X、4X或5X蛋白酶敲除。

根据本发明的一些实施方案，本文还提供了毕氏酵母工程化微生物，所述微生物包含因包含SEQ ID NO：1的YPS1-1基因和包含SEQ ID NO：2的YPS1-2基因的突变或删除而降低的YPS1-1和YPS1-2活性，其中所述微生物进一步包含重组表达蛋白，所述重组表达蛋白包含由SEQ ID NO：462编码的多肽序列。

在一些实施方案中，本文还提供了包含如本文所述的蛋白酶减少的微生物的细胞培养物。

根据一些实施方案，本文还提供了包含其中的YPS1-1和YPS1-2活性已如本文所述的那样减弱或消除的微生物的细胞培养物，其中该微生物重组表达蛋白，其中所述重组表达的蛋白的降解与包含其中的YPS1-1和YPS1-2活性未被减弱或消除的其他方面相同的毕氏酵母微生物的细胞培养物相比较少。

在一些实施方案中，本文提供了生产具有降低的降解的重组蛋白的方法，该方法包括：在适合于重组表达的蛋白表达的条件下，在培养基中培养其YPS1-1和YPS1-2活性已如本文所述的那样减弱或消除的微生物；以及从微生物或培养基中分离重组蛋白。

在一些实施方案中，所述重组蛋白是从所述微生物分泌的，并且其中分离所述重组蛋白包括收集包含所述分泌的重组蛋白的培养基。在一些实施方案中，所述重组蛋白的降解水平与由其中所述YPS1-1和所述YPS1-2蛋白酶活性未被减弱或消除的其他方面相同的微生物产生的所述重组蛋白相比降低。

本文还提供了修饰毕氏酵母以降低重组表达的蛋白的降解的方法，其包括敲除编码YPS1-1蛋白和YPS1-2蛋白的基因或使其突变。在一些实施方案中，修饰毕氏酵母以降低重组表达的蛋白的降解的方法还包括敲除编码YPS1-3蛋白、YPS1-5蛋白或MCK7蛋白的一个或多个另外的基因或使其突变。在一些实施方案中，修饰毕氏酵母以降低重组表达的蛋白的降解的方法还包括敲除编码包含选自由SEQ ID NO：68-130组成的组的多肽的蛋白质的一个或多个基因。

在一些实施方案中，重组表达的蛋白包含聚A序列，该序列包含至少2、3、4、5、6、7、8、9或10个连续丙氨酸残基。在一些实施方案中，重组表达的蛋白包含丝状多肽。在一些实施方案中，丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3，其中X₁＝SGGQQ或GAGQQ或GQGPY或AGQQ或SQ；n1是4至8；n2是6至20；并且n3是2至20。在一些实施方案中，重组表达的蛋白包含由SEQ ID NO：462编码的多肽序列。

附图说明

前述和其他目标、特征以及优点根据如附图中所举例说明的本发明特定实施方案的以下描述将变得明显，在附图中，类似的标记字符在不同视图中指代相同部分。该附图未必按比例绘制，而是将重点放在举例说明本发明的各个实施方案的原理上。

图1是具有博来霉素(zeocin)抗性标记物的针对KU 70删除的质粒图谱。

图2是质粒的质粒图谱，该质粒包含与针对靶点的蛋白酶基因删除的同源臂一起使用的诺尔斯菌素(nourseothricin)标记物。

图3A和图3B是用于蛋白酶敲除的盒，其具有靶向侧接诺尔斯菌素抗性标记物的期望蛋白酶基因的同源臂。

图4是从单个KO菌株分离的蛋白质的代表性蛋白质印迹，以示出来自这些菌株的蛋白质降解。

图5是从双重KO菌株分离的蛋白质的代表性蛋白质印迹，以示出来自这些菌株的蛋白质降解。

图6是从在BMGY或YPD中传代培养的2X、3X、4X和5X蛋白酶KO菌株中分离的蛋白质的代表性蛋白质印迹，以示出这些菌株中的蛋白质降解。

具体实施方式

在下面的描述中阐述了本发明的多个实施方案的详情。本发明的其他特征、目标和优点，从描述和附图以及从权利要求书来看将是显而易见的。

定义

除非本文中另有定义，与本发明相关的科学和技术术语应具有本领域普通技术人员通常所理解的含义。进一步地，除非上下文另有要求，否则单数术语应包括复数，并且复数术语应包括单数。术语“一个/种(a)”和“一个/种(an)”包括复数引用，上下文另有规定的除外。通常，与以下结合使用的命名法及以下的技术是本领域众所周知的和常用的那些：本文所述的生物化学、酶学、分子与细胞生物学、微生物学、遗传学和蛋白质与核酸化学以及杂交。

以下术语，除非另有规定，否则应被理解为具有以下含义：

术语“多核苷酸”或“核酸分子”是指长度为至少10个碱基的核苷酸的聚合形式。该术语包括DNA分子(例如，cDNA或基因组DNA或合成DNA)和RNA分子(例如，mRNA或合成RNA)，以及含有非天然核苷酸类似物、非原始核苷间键或两者的DNA或RNA的类似物。核酸可以呈任何拓扑构象。例如，核酸可以是单链、双链、三链、四链、部分双链、具支链、发夹型、环状或呈挂锁(padlocked)构象。

除非另有规定，并且作为本文中以通用格式“SEQ ID NO：”描述的所有序列的实例，“包含SEQ ID NO：1的核酸”是指这样的核酸，其至少一部分具有以下序列：(i)SEQ IDNO：1的序列，或者(ii)与SEQ ID NO：1互补的序列。两者之间的选择由上下文决定。例如，如果核酸被用作探针，则两者之间的选择取决于探针与所需靶标互补的要求。

“分离的”RNA、DNA或混合聚合物是这样的RNA、DNA或混合聚合物，其和与其天然宿主细胞中原始多核苷酸自然伴随的其他细胞成分，例如与其天然相关联的核糖体、聚合酶和基因组序列基本分离。

“分离的”有机分子(例如丝蛋白)是这样的有机分子，其与其起源的宿主细胞的细胞成分(膜脂、染色体、蛋白质)或培养所述宿主细胞的培养基基本分离。该术语不要求生物分子与所有其他化学物质分离，尽管某些分离的生物分子可以被纯化至接近均质性。

术语“重组体”是指这样的生物分子(例如基因或蛋白质)，其：(1)已从其天然存在的环境中移出，(2)与在自然界中发现该基因的多核苷酸的全部或部分不相关联，(3)与在自然界中未和其连接的多核苷酸可操作地连接，或者(4)在自然界中不存在。术语“重组体”可以针对克隆的DNA分离物、化学合成的多核苷酸类似物或由异源系统生物合成的多核苷酸类似物以及由此类核酸编码的蛋白质和/或mRNA使用。

在本文中，如果异源序列与内源核酸序列相邻放置，使得该内源核酸序列的表达发生改变，则将生物体基因组中的该内源核酸序列(或该序列的编码蛋白产物)视为“重组体”。在这种背景下，异源序列是与内源核酸序列天然不相邻的序列，无论该异源序列本身是内源的(源自同一宿主细胞或其后代)还是外源的(源自不同宿主细胞或其后代)。举例来说，对于宿主细胞的基因组中基因的原始启动子而言，启动子序列可以被取代(例如，通过同源重组)，使得该基因具有改变的表达模式。该基因现在将变成为“重组体”，因为它和与其自然侧接的序列中的至少一些序列分离。

如果核酸含有基因组中的相应核酸中不会自然存在的任何修饰，则该核酸也被视为“重组体”。例如，如果内源编码序列含有人工引入，例如通过人为干预引入的插入、删除或点突变，则该内源编码序列被视为“重组体”。“重组核酸”还包括在异源位点整合到宿主细胞染色体中的核酸和作为附如体存在的核酸构建体。

如本文所用，参考核酸序列的短语“简并变体”包括可以根据标准遗传密码翻译以提供与从参考核酸序列翻译的氨基酸序列相同的氨基酸序列的核酸序列。术语“简并寡核苷酸”或“简并引物”被用于表示能够与在序列上不一定相同，但在一个或多个特定节段内彼此同源的靶核酸序列杂交的寡核苷酸。

在核酸序列的背景下，术语“序列同一性百分比”或“相同”是指两个序列中的残基，当进行最大对应比对时是相同的。序列同一性比较的长度可能在一段至少约9个核苷酸，通常至少约20个核苷酸，更通常至少约24个核苷酸，通常至少约28个核苷酸，更通常至少约32个核苷酸，并且优选至少约36个或更多个核苷酸上。本领域已知有许多不同的算法可用于测量核苷酸序列同一性。例如，多核苷酸序列可以使用FASTA、Gap或Bestfit进行比较，它们是Genetics Computer Group(GCG)，Madison，Wis的Wisconsin Package第10.0版中的程序。FASTA提供在查询序列和搜索序列之间最佳重叠的区域的比对和序列同一性百分比。Pearson，Methods Enzymol.183：63-98(1990)(在此通过引用的方式整体并入)。例如，核酸序列之间的序列同一性百分比可以使用FASTA以其默认参数(字长为6以及评分矩阵为NOPAM因子)或使用如GCG第6.1版(通过引用的方式并入本文)中提供的Gap以其默认参数来确定。或者，可以使用计算机程序BLAST(Altschul等人，J.Mol.Biol.215：403-410(1990)；Gish和States，Nature Genet.3：266-272(1993)；Madden等人，Meth.Enzymol.266：131-141(1996)；Altschul等人，Nucleic Acids Res.25：3389-3402(1997)；Zhang和Madden，Genome Res.7：649-656(1997))，尤其是blastp或tblasm(Altschul等人，NucleicAcids Res.25：3389-3402(1997))对序列进行比较。

当涉及核酸或其片段时，术语“实质同源性”或“实质相似性”表示，当与另一种核酸(或其互补链)的适当核苷酸插入或删除作最佳比对时，根据任何公认的序列同一性算法如前面讨论的FASTA、BLAST或Gap所测量，在至少约75％、80％、85％，优选至少约90％，并且更优选至少约95％、96％、97％、98％或99％的核苷酸碱基上存在核苷酸序列同一性。

或者，当核酸或其片段在严格的杂交条件下与另一核酸、与另一核酸的链或与其互补链杂交时，存在实质同源性或相似性。“严格杂交条件”和“严格洗涤条件”在核酸杂交实验的背景中取决于许多不同的物理参数。正如本领域的技术人员将容易理解的那样，核酸杂交将受到诸如盐浓度、温度、溶剂、杂交物质的碱基组成、互补区域的长度以及杂交核酸之间核苷酸碱基错配数之类的条件的影响。具有本领域普通技能的人员都知道如何改变这些参数以获得特定的杂交严格性。

一般而言，“严格杂交”是在特定的一组条件下，在比特定DNA杂交的热解链温度(T_m)低约25℃的温度下进行。“严格洗涤”是在特定的一组的条件下，在比特定DNA杂交的T_m低约5℃的温度下进行。T_m是50％的靶序列与完全匹配的探针杂交时的温度。参见Sambrook等人，Molecular Cloning：A Laboratory Manual，第2版，Cold Spring HarborLaboratory Press，Cold Spring Harbor，N.Y.(1989)第9.51页，其据此以引用的方式并入。就本文中的目的而言，将溶液相杂交的“严格条件”定义为在6xSSC(其中20xSSC含有3.OM NaCl和0.3M枸橼酸钠)、1％SDS中在65℃下的持续8-12小时的水性杂交(即，不含甲酰胺)，然后是在0.2xSSC、0.1％SDS中在65℃下的持续20分钟的两次洗涤。技术熟练的工作人员将理解，在65℃下的杂交将以不同速率进行，这取决于各种因素，包括正在杂交的序列的长度和同一性百分比。

本发明的核酸(也称为多核苷酸)可包括RNA、cDNA、基因组DNA和前述的合成形式以及混合聚合物的有义链与反义链。如本领域技术人员将容易理解的，它们可被化学或生物化学修饰或可含有非天然或衍生的核苷酸碱基。此类修饰包括例如标记，甲基化，一个或多个天然存在的核苷酸被类似物置换，核苷酸间修饰如不带电荷的连接键(例如，甲基膦酸酯类、磷酸三酯类、氨基磷酸酯类、氨基甲酸酯类等)、带电荷的连接键(例如，硫代磷酸酯类、二硫代磷酸酯类等)、悬垂部分(例如，多肽类)、嵌入剂(例如，吖啶、补骨脂素等)、螯合剂、烷基化剂和经修饰的连接键(例如，α异头核酸等)。还包括了通过氢键和其他化学相互作用模拟多核苷酸结合至指定序列的能力的合成分子。此类分子是本领域已知的，并且包括例如其中肽连接键替代分子主链中的磷酸酯连接键的那些。其他修饰可以包括，例如，其中核糖环含有桥联部分或其他结构的类似物，诸如在“锁定”核酸中发现的修饰。

术语“突变的”，当被应用于核酸序列时，是指核酸序列中的核苷酸与参考核酸序列相比可能被插入、删除或改变。可以在基因座进行单一改变(点突变)，或者可以在单个基因座处插入、删除或改变多个核苷酸。此外，可以在核酸序列内任何数量的基因座处进行一个或多个改变。核酸序列可以通过本领域已知的任何方法进行突变，包括但不限于诱变技术，例如“易错PCR”(一种在DNA聚合酶的复制保真度较低的条件下进行PCR，从而在PCR产物的整个长度上获得高点突变率的过程；参见例如Leung等人，Technique，1：11-15(1989)和Caldwell&Joyce，PCR Methods Applic.2：28-33(1992))；以及“寡核苷酸定向诱变”(一种使得位点特异性突变能够在任何感兴趣的克隆DNA节段中产生的过程；参见例如，Reidhaar-Olson and Sauer，Science 241：53-57(1988))。

如本文所用，术语“减弱”通常是指功能性删除，包括对基因序列或控制基因序列转录的序列实施的突变、部分或完全删除、插入或其他改变，其减少或抑制基因产物的产生或使基因产物失去功能。在一些例子中，功能性删除被描述为敲除突变。减弱还包括通过改变核酸序列，将基因置于活性较低的启动子的控制下，向下调节，表达靶向感兴趣的基因的干扰RNA、核酶或反义序列，或通过本领域已知的任何其他技术来实现的氨基酸序列变化。在一个实例中，降低了特定酶对反馈抑制或由并非产物或反应物(非途径特异性反馈)的组成引起的抑制的灵敏度，使得酶活性不受化合物的存在影响。在其他例子中，已被改变成具有较低的活性的酶可以称为减毒酶。

如本文所用，术语“删除”是指从核酸分子中去除一个或多个核苷酸或从蛋白质中去除一个或多个氨基酸，两侧的区域接合在一起。

如本文所用，术语“敲除”意指其表达或活性水平已被降低至零的基因。在一些实例中，基因的敲除是通过删除其编码序列的部分或全部而实现的。在其他实例中，基因的敲除是通过将一个或多个核苷酸引入至其开放阅读框中，从而导致无义或其他方式失去功能的蛋白质产物的翻译而实现的。

如本文所用，术语“载体”意指这样的核酸分子，其能够运输已与其连接的另一个核酸。一类载体是“质粒”，其通常是指额外的DNA节段可连接到其中的环状双链DNA环，但也包括线性双链分子，例如通过聚合酶链反应(PCR)扩增或用限制酶处理环状质粒而得到的那些。其他载体包括粘粒、细菌人工染色体(BAC)和酵母人工染色体(YAC)。另一类载体是病毒载体，其中额外的DNA节段可被连接到病毒基因组中(在下文中更详细地讨论)。某些载体能够在引入它们的宿主细胞中自主复制(例如具有在宿主细胞中起作用的复制起点的载体)。其他载体在引入到宿主细胞后可以被整合到宿主细胞的基因组中，从而与宿主基因组一起被复制。此外，某些优选的载体能够指导与它们可操作地连接的基因的表达。此类载体在本文中被称为“重组表达载体”(或简称为“表达载体”)。

“操作性地连接的(Operatively linked)”或“可操作地连接的(operablylinked)”表达控制序列是指其中表达控制序列与感兴趣的基因紧邻以控制感兴趣的基因的连接，以及以反式或在一定距离内作用来控制感兴趣的基因的表达控制序列。

术语“表达控制序列”是指影响与它们可操作地连接的编码序列的表达所必需的多核苷酸序列。表达控制序列是控制核酸序列的转录、转录后事件和翻译的序列。表达控制序列包括适当的转录起始、终止、启动子和增强子序列；有效的RNA处理信号，例如剪接和聚腺苷酸化信号；稳定细胞质mRNA的序列；提高翻译效率的序列(例如，核糖体结合位点)；提高蛋白质稳定性的序列；以及在需要时，提高蛋白质分泌的序列。此类控制序列的性质根据宿主生物体的不同而不同；在原核生物中，此类控制序列通常包括启动子、核糖体结合位点和转录终止序列。术语“控制序列”旨在至少包括其存在对于表达是必不可少的所有组分，并且还可以包括其存在是有利的另外的组分，例如前导序列和融合伴侣序列。

术语“调节元件”是指影响核酸分子的转录或翻译的任何元件。这些包括，举例来说，但不限于：调节蛋白(例如转录因子)、伴侣蛋白、信号蛋白、RNAi分子、反义RNA分子、微小RNA和RNA适体。调节元件对于宿主生物可以是内源的。调节元件对于宿主生物也可以是外源的。调节元件可以是合成产生的调节元件。

如本文所用，术语“启动子”、“启动子元件”或“启动子序列”是指当与感兴趣的核苷酸序列连接时能够控制感兴趣的核苷酸序列转录成mRNA的DNA序列。启动子通常(但不一定)位于由该启动子控制转录为mRNA的感兴趣的核苷酸序列的5′(即，上游)，并且提供RNA聚合酶和用于启动转录的其他转录因子特异性结合的位点。启动子对于宿主生物可以是内源的。启动子对于宿主生物也可以是外源的。启动子可以是合成产生的调节元件。

可用于表达本文所述重组基因的启动子包括组成型和诱导型/阻遏型启动子。在本发明的工程化生物体中表达多个重组基因时，不同的基因可以由不同的启动子或不同操纵子中的相同启动子控制，或者两个或更多个基因的表达可以由作为操纵子的一部分的单个启动子控制。

如本文所用，术语“重组宿主细胞”(或简称为“宿主细胞”)旨在指已将重组载体引入其中的细胞。应当理解，此类术语旨在不仅指代特定的主题细胞，而且还指代此类细胞的后代。因为某些修饰可能因突变或环境影响出现在后续代中，所以此类后代实际上可能与亲本细胞不相同，但仍然包括在如本文所用的术语“宿主细胞”的范围内。重组宿主细胞可以是在培养物中生长的分离的细胞或细胞系或者可以是驻留在活组织或生物体中的细胞。

如本文所用，术语“肽”是指短多肽，例如，长度通常短于约50个氨基酸，长度更通常短于约30个氨基酸的短多肽。如本文所用的术语包括模拟结构并因此模拟生物功能的类似物和模拟物。

术语“多肽”涵盖天然存在和非天然存在的蛋白质及其片段、突变体、衍生物和类似物。多肽可以是单体的或聚合的。进一步地，多肽可以包含多个不同的结构域，每个结构域均具有一种或多种不同的活性。

术语“分离的蛋白质”或“分离的多肽”是这样的蛋白质或多肽，其由于其来源或衍生来源而：(1)与在其原始状态伴随其的天然相关成分不相关联，(2)以自然界中未发现的纯度存在，其中纯度可以根据其他细胞物质的存在进行判断(例如，不含来自相同物种的其他蛋白质)，(3)由来自不同物种的细胞表达，或者(4)在自然界中不存在(例如，其是自然界中发现的多肽的片段，或者其包括自然界中未发现的氨基酸类似物或衍生物或除标准肽键以外的连接键)。因此，将把化学合成的多肽或在不同于其天然来源的细胞的细胞系统中合成的多肽与其天然相关成分“分离”。使用本领域众所周知的蛋白质纯化技术，也可以使多肽或蛋白质基本不含天然相关成分。如所定义的，“分离的”不一定要求如此描述的蛋白质、多肽、肽或寡肽已从其原始环境中物理地移出。

术语“多肽片段”是指与全长多肽相比具有缺失，例如氨基端和/或羧基端缺失的多肽。在优选的实施方案中，多肽片段是连续序列，其中该片段的氨基酸序列与天然存在的序列中的相应位置相同。片段的长度通常为至少5、6、7、8、9或10个氨基酸，优选至少12、14、16或18个氨基酸，更优选至少20个氨基酸，更优选至少25、30、35、40或45个氨基酸，甚至更优选至少50或60个氨基酸，并且甚至更优选至少70个氨基酸。

如果编码某种蛋白质的核酸序列与编码第二蛋白质的核酸序列具有相似的序列，则所述的蛋白质与第二蛋白质具有“同源性”或与第二蛋白质“同源”。或者，如果某种蛋白质与第二蛋白质具有“相似的”氨基酸序列，则这种蛋白质与第二蛋白质具有同源性。(因此，术语“同源蛋白质”被定义为表示两种蛋白质具有相似的氨基酸序列。)如本文所用，氨基酸序列的两个区域之间的同源性(特别是关于预测的结构相似性)被解释为暗示功能上的相似性。

当针对蛋白质或肽使用“同源的”时，应认识到不相同的残基位置常常因保守的氨基酸取代而不同。“保守性氨基酸取代”是其中氨基酸残基被带有具有相似化学性质(例如，电荷或疏水性)的侧链(R基)的另一个氨基酸残基取代的保守性氨基酸取代。一般而言，保守性氨基酸取代将基本上不改变蛋白质的功能特性。在两个或更多个氨基酸序列因保守性取代而彼此不同的情况下，可以向上调整序列同一性百分比或同源性程度以校正取代的保守性质。作出这种调整的方式是本领域技术人员众所周知的。参见例如，Pearson，1994，Methods Mol.Biol.24：307-31和25：365-89(以引用的方式并入本文)。

二十种常规氨基酸及其缩写遵循常规用法。参见Immunology-ASynthesis(Golub和Gren编著，Sinauer Associates，Sunderland，Mass.，第2版，1991)，其通过引用的方式并入本文。二十种常规氨基酸、非天然氨基酸(例如α-，α-二取代的氨基酸、N-烷基氨基酸)和其他非常规氨基酸的立体异构体(例如，D-氨基酸)也可能是本发明多肽的合适组分。非常规氨基酸的实例包括：4-羟基脯氨酸、γ-羧基谷氨酸盐、ε-N，N，N-三甲基赖氨酸、ε-N-乙酰赖氨酸，O-磷酸丝氨酸、N-乙酰丝氨酸、N-甲酰基甲硫氨酸、3-甲基组氨酸、5-羟基赖氨酸、N-甲基精氨酸和其他类似氨基酸和亚氨基酸(例如，4-羟脯氨酸)。在本文使用的多肽符号中，根据标准用法和惯例，左手端对应于氨基末端，右手端对应于羧基末端。

以下六个基团各自含有互为保守取代的氨基酸：1)丙氨酸(S)、苏氨酸(T)；2)门冬氨酸(D)、谷氨酸(E)；3)门冬酰胺(N)、谷氨酰胺(Q)；4)精氨酸(R)、赖氨酸(K)；5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、丙氨酸(A)、缬氨酸(V)；以及6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)。

多肽的序列同源性，有时也被称为序列同一性百分比，通常使用序列分析软件测量。参见例如，the Sequence Analysis Software Package of the Genetics ComputerGroup(GCG)，University of Wisconsin Biotechnology Center，910University Avenue，Madison，Wis.53705。蛋白质分析软件使用分配给各种取代、删除和其他修饰(包括保守的氨基酸取代)的同源性度量来匹配相似的序列。例如，GCG含有诸如“Gap”和“Bestfit”等程序，它们可以按默认参数使用以确定紧密相关的多肽(例如来自于生物体的不同物种的同源多肽)之间或野生型蛋白与其突变蛋白之间的序列同源性或序列同一性。参见例如，GCG第6.1版。

当将特定多肽序列与含有来自不同生物体的大量序列的数据库进行比较时，一种有用的算法是计算机程序BLAST(Altschul等人，J.Mol.Biol.215：403-410(1990)；Gish和States，Nature Genet.3：266-272(1993)；Madden等人，Meth.Enzymol.266：131-141(1996)；Altschul等人，Nucleic Acids Res.25：3389-3402(1997)；Zhang和Madden，GenomeRes.7：649-656(1997))，尤其是blastp或tblasm(Altschul等人，Nucleic Acids Res.25：3389-3402(1997))。

BLASTp的优选参数为：期望值：10(默认)；过滤器：seg(默认)；空位开口成本：11(默认)；空位延伸成本：1(默认)；最高比对：100(默认)；字长：11(默认)；描述数：100(默认)；罚分矩阵：BLOWSUM62。

BLASTp的优选参数为：期望值：10(默认)；过滤器：seg(默认)；空位开口成本：11(默认)；空位延伸成本：1(默认)；最高比对：100(默认)；字长：11(默认)；描述数：100(默认)；罚分矩阵：BLOWSUM62。针对同源性进行比较的多肽序列长度通常将是至少约16个氨基酸残基，通常至少约20个残基，更通常至少约24个残基，通常至少约28个残基，并且优选多于约35个残基。当搜索含有来自大量不同生物体的序列的数据库时，优选比较氨基酸序列。使用氨基酸序列的数据库检索可以通过本领域已知的除blastp以外的算法进行测量。例如，可以使用FASTA(GCG第6.1版中的一种程序)对多肽序列进行比较。FASTA提供在查询序列和搜索序列之间最佳重叠的区域的比对和序列同一性百分比。Pearson，MethodsEnzymol.183：63-98(1990)(通过引用的方式并入本文)。例如，氨基酸序列之间的序列同一性百分比可以使用如GCG第6.1版(通过引入的方式并入本文)中提供的FASTA以其默认参数(字长为2，PAM250评分矩阵)来确定。

在整个说明书和权利要求书中，词语“包含(comprise)”或变型诸如“包含(comprises)”或“包含(comprising)”将被理解为暗示包括所陈述的整数或整数的组，但不排除任何其它整数或整数的组。

虽然下面描述了示例性方法和材料，但是与本文描述的方法和材料类似或等同的方法和材料也可以在本发明的实践中使用，并且对于本领域技术人员而言将是显而易见的。本文提及的所有出版物和其他参考文献均通过引用的方式整体并入本文。在出现冲突的情况下，将以包括定义在内的本说明书为准。材料、方法和实施例仅具有说明性而非意图具有限制性。

概述

本文提供了重组菌株和生产重组菌株的方法，以例如通过降低蛋白酶降解来提高靶细胞中全长的期望产物的产量。

在一些实施方案中，为了减弱毕氏酵母中的蛋白酶活性，使编码这些酶的基因失活或突变以降低或消除活性。这可以通过对所述基因本身进行突变或插入或者通过对基因调节元件进行修饰来完成。这可以通过标准酵母遗传学技术来实现。此类技术的实例包括通过双重同源重组进行的基因替代，在双重同源重组中，将侧接待失活基因的同源区域克隆在侧接可选择标记基因(例如抗生素抗性基因或补充酵母菌株的营养缺陷体的基因)的载体中。

或者，可以对同源区域进行PCR扩增，并将其通过重叠PCR连接至可选择的标记基因。随后，通过本领域已知的方法例如电穿孔，将此类DNA片段转化为毕氏酵母。然后通过标准技术(例如在基因组DNA上的PCR或Southern印迹)，对在选择性条件下生长的转化子进行基因破坏事件分析。在替代实验中，基因失活可以通过单一同源重组来实现，在这种情况下，例如，将所述基因的ORF的5′末端克隆在还含有可选择的标记基因的无启动子载体上。在通过用仅切割靶基因同源片段中载体的限制酶消化来将此类载体线性化后，此类载体被转化为毕氏酵母。通过在基因组DNA上的PCR或Southern印迹，确认了靶基因位点处的整合。通过这种方式，在基因组中实现载体上克隆的基因片段的复制，生成靶基因基因座的两个拷贝：第一个拷贝，其中ORF不完整，从而导致了缩短的无活性蛋白质的表达(如果有表达的话)；以及第二个拷贝，其没有用于驱动转录的启动子。

或者，使用转座子诱变来使靶基因失活。可以通过PCR针对靶基因中的插入事件来对此类突变体的文库进行筛选。

工程化/敲除菌株的功能性表型(即缺陷)可以使用本领域已知的技术进行评估。例如，工程化菌株的蛋白酶活性的缺陷可以使用本领域已知的多种方法中的任一种，例如生色蛋白酶底物的水解活性的测定、所选蛋白酶的底物蛋白的谱带位移等来探知。

本文所述的蛋白酶活性的减弱可以通过敲除突变以外的机制来实现。例如，所需蛋白酶可通过如下方式经由氨基酸序列变化来减弱：改变核酸序列，将基因置于活性较低的启动子的控制下，向下调节，表达靶向感兴趣的基因的干扰RNA、核酶或反义序列，或本领域已知的任何其他技术。在优选的菌株中，在PAS_chr4_0584(YPS1-1)和PAS_chr3_1157(YPS1-2)处编码的蛋白酶(例如，包含SEQ ID NO：66和67的多肽)的蛋白酶活性通过上述方法中的任一种方法减弱。在一些方面中，本发明涉及甲基营养型酵母菌株，尤其是毕氏酵母菌株，其中YPS1-1和YPS1-2基因(例如，如SEQ ID NO：1和SEQ ID NO：2所示)已失活。在一些实施方案中，另外的蛋白酶编码基因也可以按照本文中提供的方法敲除，以进一步降低该菌株表达的期望蛋白质产物的蛋白酶活性。

重组菌株的生产

本文提供了转化菌株以降低活性的方法，例如，根据需要使用载体递送重组基因或敲除或以其他方式减弱内源基因。这些载体可以采取载体骨架的形式，该载体骨架含有复制起点和选择标记(通常为抗生素抗性，但很多其他方法是可能的)，或者允许向靶细胞染色体中并入的线性片段。载体应对应于所选的生物体和插入方法。

一旦选择了载体的元件，可以采用很多不同的方式执行载体的构建。在一个实施方案中，可以使用DNA合成服务或单独制备每种载体的方法。

一旦获得了每个载体的DNA(包括插入和操作所需的另外的元件)，就必须将其组装。存在许多可能的组装方法，包括(但不限于)限制酶克隆、平端连接和重叠组装[参见，例如，Gibson，D.G.等人，Enzymatic assembly of DNA molecules up to several hundredkilobases.Nature methods，6(5)，343-345(2009)和GeneArt Kit(http：//tools.invitrogen.com/content/sfs/manuals/geneart_seamless_clonin g_and_assembly_man.pdf)]。重叠组装提供了一种确保所有元件在正确位置组装且不会引入任何不期望的序列的方法。

可以使用标准分子生物学技术，例如分子克隆，将上面产生的载体插入到靶细胞中。在一个实施方案中，靶细胞已经被工程化或选择为使得它们已经含有制备期望产物所需的基因，尽管这也可以在进一步的载体插入期间或之后进行。

根据生物体和文库元件类型(质粒或基因组插入)，可以使用几种已知的将包含待掺入DNA的载体插入到细胞中的方法。这些可包括，例如能够从本地环境吸收并复制DNA的微生物的转化、通过电穿孔或化学手段进行的转化、用病毒或噬菌体的转导、两个或更多个细胞的交配，或来自不同细胞的缀合。

本领域已知几种将重组DNA引入到细菌细胞中的方法，包括但不限于转化、转导和电穿孔，参见Sambrook等人，Molecular Cloning：A Laboratory Manual(1989)，第二版，Cold Spring Harbor Press，Plainview，N.Y.。用于转化的商业试剂盒和细菌宿主细胞的非限制性实例包括NovaBlue Singles^TM(EMD Chemicals Inc.，NJ，USA)、Max

DH5α^TM、One

BL21(DE3)大肠埃希菌细胞、One

BL21(DE3)pLys大肠埃希菌细胞(Invitrogen Corp.，Carlsbad，Calif.，USA)、XL1-Blue感受态细胞(Stratagene，CA，USA)。用于电穿孔的商业试剂盒和细菌宿主细胞的非限制性实例包括Zappers^TM电感受态细胞(EMD Chemicals Inc.，NJ，USA)、XL1-Blue电穿孔-感受态细胞(Stratagene，CA，USA)、ElectroMAX^TM根癌农杆菌LBA4404细胞(Invitrogen Corp.，Carlsbad，Calif.，USA)。

本领域中已知几种将重组核酸引入到真核细胞中的方法。示例性方法包括转染、电穿孔、脂质体介导的核酸递送、微量注射至宿主细胞，参见Sambrook等人，MolecularCloning：A Laboratory Manual(1989)，Second Edition，Cold Spring Harbor Press，Plainview，N.Y.。用于将重组核酸转染到真核细胞中的商业试剂盒和试剂的非限制性实例包括Lipofectamine^TM 2000、Optifect^TM试剂、磷酸钙转染试剂盒(Invitrogen Corp.，Carlsbad，Calif.，USA)、

转染试剂、

转染试剂(Stratagene，CA，USA)。或者，可以通过使用杆状病毒载体将重组核酸引入到昆虫细胞(例如sf9、sf21、High Five^TM)中。

将转化的细胞分离，以便可以单独地测试每个克隆。在一个实施方案中，这是通过将培养物铺展在一个或多个含有选择剂(或缺乏选择剂)的培养基的平板上来完成，该选择剂将确保只有转化的细胞存活和繁殖。该特异性剂可以是抗生素(如果文库含有抗生素抗性标记物)、缺失的代谢产物(用于营养缺陷体补充)或其他选择方式。细胞生长成单个菌落，每个菌落包含单一克隆。

针对期望的蛋白质、代谢产物或其他产物的生产或者针对蛋白酶活性的降低对菌落进行筛选。在一个实施方案中，筛选鉴定具有最高的(或足够高的)产物生产效价或效率的重组细胞。这包括降解产物的比例减少或从细胞培养物中收集的全长的期望多肽的总量增加。

可以通过使各个克隆物(每孔一个)在多孔培养板中生长来进行此测定。一旦细胞已经达到合适的生物量密度，就用甲醇诱导它们。在一段时间(通常为诱导的24-72小时)后，通过在离心机中旋转以沉淀细胞并除去上清液来收获培养物。然后，可以针对蛋白酶活性和/或蛋白质降解测试来自每种培养物的上清液。

丝序列

在一些实施方案中，本文所述的具有降低的蛋白酶活性的经修饰菌株重组表达丝状多肽序列。在一些实施方案中，丝状多肽序列是1)通过混合和匹配来源于丝多肽序列的重复结构域产生的嵌段共聚物多肽组合物，和/或2)具有足够大尺寸(约40kDa)以通过由工业可放大的微生物分泌来形成有用的纤维的嵌段共聚物多肽的重组表达。由丝重复结构域片段工程改造的大(约40kDa至约100kDa)嵌段共聚物多肽(包括来自蜘蛛丝多肽的几乎所有公布的氨基酸序列的序列)可以在本文所述的经修饰的微生物中表达。在一些实施方案中，丝多肽序列被匹配并设计用于生产能够形成纤维的高度表达和分泌的多肽。在一些实施方案中，宿主修饰菌株中蛋白酶基因的敲除或蛋白酶活性的降低减少了丝状多肽的降解。

本文在几个实施方案中提供了用于嵌段共聚物的表达和分泌的组合物，所述嵌段共聚物是从跨越丝多肽序列空间的丝多肽结构域的组合混合物工程改造的，其中所述嵌段共聚物具有最小的降解。在一些实施方案中，本文提供了在可扩展微生物(例如，酵母、真菌和革兰氏阳性细菌)中以最低的降解分泌嵌段共聚物的方法。在一些实施方案中，嵌段共聚物多肽包含0个或更多个N-末端结构域(NTD)、1个或更多个重复结构域(REP)和0个或更多个C-末端结构域(CTD)。在实施方案的一些方面中，嵌段共聚物多肽是单一多肽链的>100个氨基酸。在一些实施方案中，嵌段共聚物多肽包含与国际公布第WO/2015/042164号，“Methods and Compositions for Synthesizing Improved Silk Fibers”(通过引用的方式整体并入)中公开的嵌段共聚物多肽序列至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％相同的结构域。

已经鉴定了几种类型的原始蜘蛛丝。据信，每种天然纺丝类型的机械性能与该丝的分子组成紧密相关。参见例如，Garb，J.E.等人，Untangling spider silk evolutionwith spidroin terminal domains，BMC Evol.Biol.，10：243(2010)；Bittencourt，D.等人，Protein families，natural history and biotechnological aspects of spidersilk，Genet.Mol.Res.，11：3(2012)；Rising，A.等人，Spider silk proteins：recentadvances in recombinant production，structure-function relationships andbiomedical applications，Cell.Mol.Life Sci.，68：2，pg.169-184(2011)；以及Humenik，M.等人，Spider silk：understanding the structure-function relationship of anatural fiber，Prog.Mol.Biol.Transl.Sci.，103，pg.131-85(2011)。例如：

葡萄状腺(AcSp)丝趋于具有高韧性，这是适当高的强度与适当高的延展性结合的结果。AcSp丝的特征在于大嵌段(“整体重复”)尺寸，其常常掺有聚丝氨酸和GPX的基序。管状腺(TuSp或圆柱形)丝趋于具有大直径，具有适度的强度和高延展性。TuSp丝的特征在于它们的聚丝氨酸和聚苏氨酸含量，以及短束的聚丙氨酸。大壶状腺(MaSp)丝趋于具有高强度和适度的延展性。MaSp丝可以是两个亚型：MaSp1和MaSp2中的一种。MaSp1丝的延展性通常比MaSp2丝小，并且特征在于聚丙氨酸、GX和GGX基序。MaSp2丝的特征在于聚丙氨酸、GGX和GPX基序。小壶状腺(MiSp)丝趋于具有适度的强度和适度的延展性。MiSp丝的特征在于GGX、GA和聚A基序，且常常含有约100个氨基酸的间隔元件。鞭毛腺(Flag)丝趋于具有很高的延展性和适度的强度。Flag丝的特征通常在于GPG、GGX和短间隔基序。

每个丝类型的特性可以因物种的不同而不同，并且具有不同生活方式(例如，定居纺足目(sedentary web spinner)与漫游猎蛛(vagabond hunter))或进化上更古老的蜘蛛可产生性质与前文描述不同的丝(关于蜘蛛多样性和分类的描述，参见Hormiga，G.和Griswold，C.E.，Systematics，phylogeny，and evolution of orb-weaving spiders，Annu.Rev.Entomol.59，pg.487-512(2014)；以及Blackedge，T.A.等人，Reconstructingweb evolution and spider diversification in the molecular era，Proc.Natl.Acad.Sci.U.S.A.，106：13，pg.5229-5234(2009))。然而，与原始丝蛋白的重复结构域具有序列相似性和/或氨基酸组成相似性的合成嵌段共聚物多肽，可以用于按商业规模生产重现了相应天然丝纤维的性能的一致的丝状纤维。

在一些实施方案中，可以通过在GenBank中检索相关术语，例如“蛛丝蛋白(spidroin)”、“丝心蛋白(fibroin)”、“MaSp”来汇编假定丝序列的列表，并且可以将那些序列与通过独立测序工作获得的另外的序列汇集在一起。然后将序列翻译成氨基酸，过滤重复的条目，并手动拆分成结构域(NTD、REP、CTD)。在一些实施方案中，候选氨基酸序列被反向翻译成经优化用于在毕氏(Komagataella)酵母中表达的DNA序列。将DNA序列各自克隆到表达载体中，并转化为毕氏(Komagataella)酵母。在一些实施方案中，随后以组合方式组装显示出成功表达与分泌的各种丝结构域，以构建能够形成纤维的丝分子。

丝多肽特征性地由侧接于非重复区域(例如，C-末端和N-末端结构域)的重复结构域(REP)组成。在实施方案中，C-末端和N-末端结构域的长度介于75至350个氨基酸之间。重复结构域显示出层次架构，如图1所示。重复结构域包含一系列嵌段(也称为重复单元)。嵌段在整个丝重复结构域中是重复的，有时完美重复，有时不完美重复(构成一个准重复结构域)。嵌段的长度和组成在不同的丝类型之间以及不同的物种之间有所不同。表1列出了来自所选物种和丝类型的嵌段序列的实例，以下文献中给出了进一步的实例：Rising，A.等人，Spider silk proteins：recent advances in recombinant production，structure-function relationships and biomedical applications，Cell Mol.Life Sci.，68：2，pg169-184(2011)，以及Gatesy，J.等人，Extreme diversity，conservation，andconvergence of spider silk fibroin sequences，Science，291：5513，pg.2603-2605(2001)。在一些情况下，嵌段可以按规则模式排列，形成在丝序列的重复结构域中出现多次(通常2至8次)的较大宏观重复体(macro-repeat)。重复结构域或宏观重复体内的重复嵌段，以及重复结构域内重复的宏观重复体，可以由间隔元件分开。在一些实施方案中，嵌段序列包含富含甘氨酸的区域，随后是聚A区域。在一些实施方案中，短(约1至10)个氨基酸基序在嵌段内多次出现。就本发明的目的而言，可以在不参考环状排列的情况下选择来自不同天然丝多肽的嵌段(即，丝多肽之间的鉴定出的其他方面相似的嵌段可能因环状排列而不能对准)。因此，例如，就本发明的目的而言，SGAGG(SEQ ID NO：494)的“嵌段”与GSGAG(SEQ ID NO：495)相同，并且与GGGSA(SEQ ID NO：496)相同；它们全部都是彼此的环状排列。针对给定丝序列选择的特定排列可能尤其由方便性(通常以G开始)决定。从NCBI数据库获得的丝序列可以划分为嵌段和非重复区域。

表1：嵌段序列的样本

根据本发明某些实施方案的来自嵌段和/或宏观重复结构域的成纤嵌段共聚物多肽在国际公布第WO/2015/042164号(通过引用的方式并入)中有描述。按照结构域(N-末端结构域、重复结构域和C-末端结构域)对从蛋白质数据库(例如GenBank)或通过从头测序得到的天然丝序列进行分解。选择用于合成并且组装成纤维的N-末端结构域和C-末端结构域序列包括天然氨基酸序列信息和本文所述的其他修饰。重复结构域被分解成重复序列，该重复序列含有代表性的嵌段，该嵌段根据丝的类型，通常为1至8个，该嵌段捕获关键的氨基酸信息，同时将编码氨基酸的DNA的尺寸减小成容易合成的片段。在一些实施方案中，适当形成的嵌段共聚物多肽包含至少一个含有至少1个重复序列的重复结构域，并且任选地侧接N-末端结构域和/或C-末端结构域。

在一些实施方案中，重复结构域包含至少一个重复序列。在一些实施方案中，重复序列是150至300个氨基酸残基。在一些实施方案中，重复序列包含多个嵌段。在一些实施方案中，重复序列包含多个宏观重复体。在一些实施方案中，嵌段或宏观重复体被分割到多个重复序列中。

在一些实施方案中，重复序列以甘氨酸开始，并且不能以苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)、半胱氨酸(C)、组氨酸(H)、门冬酰胺(N)、甲硫氨酸(M)或门冬氨酸(D)结束，以满足DNA组装要求。在一些实施方案中，重复序列中的一些与原始序列相比可以改变。在一些实施方案中，可以例如通过向多肽的C-末端添加丝氨酸(以避免终止于F、Y、W、C、H、N、M或D)来改变重复序列。在一些实施方案中，可通过在不完全嵌段中填充自另一个嵌段的同源序列来修饰重复序列。在一些实施方案中，可通过重排嵌段或宏观重复体的顺序来修饰重复序列。

在一些实施方案中，可以选择非重复的N-和C-末端结构域选择用于合成。在一些实施方案中，N-末端结构域可以通过去除，例如，如通过SignalP(Peterson，T.N.等人，SignalP 4.0：discriminating signal peptides from transmembrane regions，Nat.Methods，8：10，pg.785-786(2011)所鉴定的前导信号序列。

在一些实施方案中，N-末端结构域、重复序列或C-末端结构域序列可以来自漏斗网蜘蛛(Agelenopsis aperta)、Aliatypus gulosus、哥斯大黎加斑马脚(Aphonopelmaseemanni)、短牙蛛某些种(Aptostichus sp.AS217)、短牙蛛某些种(Aptostichussp.AS220)、十字园蛛(Araneus diadematus)、猫脸蜘蛛(Araneus gemmoides)、大腹圆蛛(Araneus ventricosus)、悦目金蛛(Argiope amoena)、银色金蛛(Argiope argentata)、横纹金蛛(Argiope bruennichi)、三带金蛛(Argiope trifasciata)、Atypoides riversi、巴西黄斑粉趾(Avicularia juruensis)、加州陷门蛛(Bothriocyrtum californicum)、巨眼蛛(DeinopisSpinosa)、灰色迪格蛛(Diguetia canities)、黑捕鱼蛛(Dolomedestenebrosus)、Euagrus chisoseus、苗圃网络蜘蛛(Euprosthenops australis)、乳突棘旗蛛(Gasteracantha mammosa)、Hypochilus thorelli、Kukulcania hibernalis、黑寡妇蜘蛛(Latrodectus hesperus)、Megahexura fulva、Metepeira grandiosa、金圆网蛛(Nephila antipodiana)、棒络新妇(Nephila clavata)、络新妇蛛(Nephila clavipes)、马达加斯加新妇(Nephila madagascariensis)、斑络新妇(Nephila pilipes)、Nephilengyscruentata、帕拉威夏双条纹蛛(Parawixia bistriata)、绿色猞猁蜘蛛(Peucetiaviridans)、原始肉食蛛(Plectreurys tristis)、印度华丽雨林蛛(Poecilotheriaregalis)、长爪绿色突光蝴蛛(Tetragnatha kauaiensis)或全异妩蛛(Uloborusdiversus)。

在一些实施方案中，丝多肽核苷酸编码序列可以与α交配因子核苷酸编码序列操作性地连接。在一些实施方案中，丝多肽核苷酸编码序列可以与另一种内源或异源分泌信号编码序列操作性地连接。在一些实施方案中，丝多肽核苷酸编码序列可以与3X FLAG核苷酸编码序列操作性地连接。在一些实施方案中，丝多肽核苷酸编码序列与其他亲和标记诸如6至8个His残基操作性地连接。

丝状多肽

在某些实施方案中，本文公开的毕氏酵母菌株已被修饰以表达丝状多肽。WO2015/042164，尤其是第114至134段(通过引用并入本文)，提供了生产丝状多肽的优选实施方案的方法。本文公开了基于源自例如来自于物种横纹金蛛(Argiope bruennichi)的MaSp2的重组蛛丝蛋白片段序列的合成蛋白质类共聚物。描述了丝状多肽，其包括两个至二十个重复单元，其中每个重复单元的分子量大于约20kDa。在共聚物的每个重复单元内有超过约60个被组织成许多“准重复单元”的氨基酸残基。在一些实施方案中，本公开中描述的多肽的重复单元与MaSp2拖丝蛋白序列具有至少95％的序列同一性。

在一些实施方案中，丝状多肽的每个“重复单元”包含两个至二十个“准重复”单元(即，n₃是2至20)。准重复体不一定是精确的重复体。每个重复体可以由串联的准重复体组成。方程式1示出了根据本公开的重复单元的组成以及通过引用的方式从WO 2015/042164并入的重复单元的组成。每个丝状多肽可以具有一个或多个如通过方程式1限定的重复单元。

{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3(方程式1)

可变组成元件X₁(称为“基序”)是根据方程式2中所示以下氨基酸序列中的任一序列，并且X₁在每个准重复单元中随机变化。

X₁＝SGGQQ或GAGQQ或GQGPY或AGQQ或SQ(方程式2)

再次参考方程式1，方程式1中用“GGY-[GPG-X₁]_n1-GPS”表示的准重复单元的组成元件被称为“第一区域”。准重复单元部分地通过使准重复单元中第一区域重复4至8次来形成。也就是说，n₁的值表示在单个准重复单元内重复的第一区域单元的数量，n₁的值为4、5、6、7或8中的任何一个。用“(A)_n2”(即，聚A序列)表示的组成元件被称为“第二区域”，并且是通过使氨基酸序列“A”在每个准重复单元内重复n₂次而形成的。也就是说，n₂的值表示在单个准重复单元内重复的第二区域单元的数量，n₂值为6、7、8、9、10、11、12、13、14、15、16、17、18、19或20中的任何一个。在一些实施方案中，本公开的多肽的重复单元与包含方程式1和2所述准重复单元的序列具有至少95％的序列同一性。在一些实施方案中，本公开的多肽的重复单元与含有方程式1和2所述准重复单元的序列具有至少80％，或至少90％，或至少95％，或至少99％的序列同一性。

在另外的实施方案中，3个“长”准重复单元之后是3个“短”准重复单元。短准重复单元是其中n₁＝4或5的准重复单元。长准重复单元被定义为其中n₁＝6、7或8的准重复单元。在一些实施方案中，所有短准重复体在重复单元的每个准重复单元内的相同位置处具有相同的X₁基序。在一些实施方案中，6个准重复单元中不超过3个具有相同的X₁基序。

在另外的实施方案中，重复单元由准重复单元组成，该准重复单元在重复单元内的行中使用相同的X₁不超过两次。在另外的实施方案中，重复单元由准重复单元组成，其中至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个准重复单元在重复单元的单个准重复单元中使用相同的X₁不超过2次。

因此，在一些实施方案中，本文提供了酵母的菌株，其重组表达具有降低的降解的丝状多肽以提高来自细胞培养物的经分离产物中存在的全长多肽的量。在一些实施方案中，表达丝状多肽的菌株是毕氏酵母菌株，其包含PAS_chr4_0584敲除和PAS_chr3_1157敲除。

等价物和范围

本领域技术人员将认识到，或者仅仅使用常规实验就能够确定根据本文所述的本发明的具体实施方案的很多等价物。本发明的范围并非旨在限于以上描述，而是如所附权利要求书中所阐述。

在权利要求书中，冠词诸如“一个/种(a)”、“一个/种(an)”和“该/所述(the)”可以表示一个/种或多于一个/种，另有相反说明或从上下文中另有明示的除外。除非相反指示或另外根据上下文显而易知，否则如果一个、超过一个或所有群组成员存在于给定产品或过程中、被给定产品或过程所采用，或者以另外的方式与给定产品或过程相关，那么在群组的一个或多个成员之间包括“或”的权利要求或描述被视为是符合的。本发明包括其中恰好有一个群组成员存在于给定产品或过程中、被给定产品或过程所采用，或者以另外的方式与给定产品或过程相关的实施方案。本发明包括其中超过一个或所有群组成员存在于给定产品或过程中、被给定产品或过程所采用，或者以另外的方式与给定产品或过程相关的实施方案。

还应注意，术语“包含(comprising)”旨在是开放的，并且允许但不要求包括另外的元件或步骤。当在本文中使用术语“包含(comprising)”时，因此也涵盖和公开了术语“由...组成”。

如果给出的是范围，则包括端点值。此外，需要理解的是，除非另外指出或从上下文和本领域普通技术人员的理解来看显而易见，否则作为范围表达的值可以采用在本发明的不同实施方案中所陈述范围内的任何特定值或子范围，直至该范围下限的单位的十分之一，除非上下文另有明确的规定。

所有引用的来源，例如本文引用的参考文献、出版物、数据库、数据库条目和技术，都通过引用的方式并入本申请中，即使在引用中未明确陈述。如果所引用来源中的陈述与本申请中的陈述冲突，则以本申请中的陈述为准。

章节标题和表格标题并非旨在进行限制。

实施例

下文是执行本发明的具体实施方案的实施例。这些实施例的提供仅为了进行示意性的说明，不旨在以任何方式限制本发明的范围。对于所使用的数字(例如，量、温度等)，已尽力确保精确度，但是当然应该允许一些实验误差和偏差。

除非另外指明，否则本发明的实施将利用本领域的技术范围内的蛋白质化学、生物化学、重组DNA技术和药理学的常规方法。此类技术在文献中有充分解释。参见例如，T.E.Creighton，Proteins：Structures and Molecular Properties(W.H.Freeman andCompany，1993)；A.L.Lehninger，Biochemistry(Worth Publishers，Inc.，最新增补)；Sambrook等，Molecular Cloning：A Laboratory Manual(第2版，1989)；Methods InEnzymology(S.Colowick和N.Kaplan编，Academic Press，Inc.)；Remington′sPharmaceutical Sciences，第18版(Easton，Pennsylvania：Mack Publishing Company，1990)；Carey和Sundberg，Advanced Organic Chemistry，第3版(Plenum Press)，第A和B卷(1992)。

实施例1：表达18B的重组酵母的生产

首先，我们转化毕氏酵母的菌株以使KU70功能丧失，以方便进一步的编辑和工程化。用由侧接博来霉素抗性标记物并且靶向KU70基因座的同源臂组成的DNA盒HIS，将毕氏酵母(Komagataella phaffii)菌株GS 115(NRRL Y15851)的HIS+衍生物电穿孔。该盒的图谱如图1所示，序列在表10中给出。将转化子接种在补加有博来霉素的YPD琼脂板上。这导致KU70功能丧失。

然后，我们修饰该菌株以使其表达编码丝状多肽的重组基因。用重组载体(SEQ IDNO：462)转化毕氏酵母(Komagataella phaffii)菌株GS1l5(NRRL Y15851)的HIS+衍生物，以使丝状多肽(“18B”)(SEQ ID NO：463)得以表达与分泌。通过如PMID 15679083(通过引用的方式并入本文)中所述的电穿孔完成转化。

每个载体均包括18B表达盒，该表达盒含有在侧接启动子(pGCW14)和终止子(tAOX1 pA信号)的重组载体中编码丝状蛋白的多核苷酸序列。重组载体还包含用于选择细菌和酵母转化子的主要抗性标记以及细菌复制起点。第一重组载体包括靶向区域，其指导18B多核苷酸序列直接在毕氏酵母基因组中AOX2基因座的3′端整合。第一载体中的抗性标记赋予对G418(又名遗传霉素)的抗性。第二重组载体包括靶向区域，其指导18B多核苷酸序列直接在毕氏酵母基因组中TEF1基因座的3′端整合。第二载体中的抗性标记赋予对潮霉素B的抗性。

实施例2：生成单个蛋白酶KO突变体的文库

在18B在重组毕氏酵母菌株中成功转化和分泌后，以65个编码蛋白酶的开放阅读框(ORF)为靶点进行删除(表2)。用包含具有侧接诺尔丝菌素抗性标记的约1150bp同源臂的DNA盒的载体转化细胞。图2中示出了包含诺尔丝菌素抗性标记的质粒图谱，表11中给出了序列。

通过表7中给出的引物扩增针对每个靶标使用的同源臂，并将其插入到诺尔丝菌素抗性质粒中。将同源臂插入到诺尔丝菌素质粒中，以产生包含侧接针对靶蛋白酶的3′和5′同源臂的诺尔丝菌素抗性标记的盒，如图3A和图3B所示。在图3A中，示出抗性盒(NourResistance Cassette)侧接同源臂(HA1和HA2)。在图3B中，示出了诺尔丝菌素标记的详细信息，包括来自酿酒酵母(pILV5)的ILV5基因的启动子、来自诺丝链霉菌(Streptomycesrtoursei)(nat)的诺尔丝菌素乙酰基转移酶基因，以及来自酿酒酵母的CYC1基因的聚A信号。

每个载体中的同源臂均靶向如表2中所给出的65个期望蛋白酶基因座之一。将转化子接种于补加有诺尔丝菌素的YPD琼脂板上，并在30℃下培育48小时。

表2-毕氏酵母菌株中作为靶点进行删除的蛋白酶

实施例3：针对蛋白质降解的降低测试单个蛋白酶敲除克隆物

将所得克隆物接种到96孔盘中的400μL缓冲性甘油复合培养基(BMGY)中，并在30℃、1,000rpm搅拌下培育48小时。培育48小时后，利用4μL的每种培养物将400μL BMGY接种于96孔盘中，然后在30℃下培育48小时。向细胞培养物中添加硫氰酸胍至终浓度2.5M以提取重组蛋白。培育5分钟后，将溶液离心，对上清液取样并通过蛋白质印迹进行分析。

图3中示出了每种蛋白酶敲除的代表性克隆的蛋白质印迹数据。单个蛋白酶删除没有表现出对通过蛋白质印迹检测的丝片段分布的明显影响。

实施例4：产生蛋白酶双重敲除的文库

除单个KO外，还敲除了不同的蛋白酶的成对组合。选择这些蛋白酶，部分因为它们是彼此之间可能具有补偿功能的旁系同源物。

为了产生双重敲除，从实施例2中产生的单蛋白酶敲除菌株中消除诺尔丝菌素抗性，并且通过用如实施例2中提供的第二个诺尔丝菌素抗性盒转化来删除第二蛋白酶。将转化子接种于补加有诺尔丝菌素的YPD琼脂板上，并在30℃下培育48小时。表3中给出了测试的双重蛋白酶敲除。

表3-表达丝状多肽的毕氏酵母的蛋白酶双重KO菌株

实施例5：针对蛋白质降解的降低测试双重蛋白酶敲除克隆物

图4示出了来自不同蛋白酶双重敲除菌株的代表性结果。正如所示，尽管在测试的所有单一敲除菌株中均存在蛋白质降解，但PAS_chr4_0584+PAS_chr3_1157蛋白酶敲除的组合(来自表3的菌株3)导致降解产物几乎完全消除。其他的蛋白酶组合均未导致降解产物的消除。

实施例6：另外的蛋白酶敲除菌株

如实施例4和5中所示，对能够产生所需蛋白质(例如18B)的经修饰的毕氏酵母细胞进行转化以删除PAS_chr4_0584和PAS_chr3_1157处的蛋白酶，以减轻所需蛋白质的降解。我们进一步敲除一种或多种另外的蛋白酶，以提高全长产物的产量并使降解降至最低。

对于每种另外的敲除，通过用实施例2中所提供的具有靶向所需基因的同源臂的诺尔丝菌素进行转化，从单一蛋白酶KO(1X KO)、双重蛋白酶KO(2X KO)、三重蛋白酶KO(3XKO)或四重蛋白酶KO(4X KO)中删除另外的蛋白酶基因。表4中示出了每种菌株中敲除的蛋白酶基因：

表4：2X至5X KO菌株

将所得细胞在选择性培养基平板上进行分离(通过营养缺陷体或抗生素抗性标记)，并分离出单个克隆用于进一步测试。在生产产物蛋白的条件下通过液体培养测定如下所述地测试单个克隆：将经分离的每个菌株的菌落接种到96孔盘中的400μL缓冲性甘油复合培养基(BMGY)中，并在30℃、1000rpm搅拌下培育48小时。培育48小时后，使用4μL的每种培养物将400μL BMGY或400μL YPD(酵母浸出粉蛋白胨右旋糖培养基)接种于96孔盘中，然后在30℃、1,000rpm下培育48小时。

分离细胞表达的蛋白质，并如下所述地对降解进行分析：向细胞培养物中添加硫氰酸胍至终浓度2.5M，以提取重组蛋白质。培育5分钟后，将溶液离心，对上清液取样并通过蛋白质印迹进行分析。

图5示出了来自接种于BMGY或YPD中的2X KO、3X KO、4X KO和5X KO菌株的纯化蛋白的蛋白质印迹的结果。正如所示，从具有PAS_chr4_0584+PAS_chr3_1157蛋白酶敲除的菌株(来自表3的菌株3)中删除另外的蛋白酶基因，导致降解产物的进一步消除。

其它实施方案

应当理解，已经使用的词语是描述性而不是限制性词语，并且可以在随附权利要求书的范围内作出改变，而不偏离本发明在其更广泛的方面的真实范围与精神。

虽然本发明已在一定长度上进行了描述，并且从几个所述的实施方案来看具有一些特殊性，但并不旨在将其限于任何此类细节或实施方案或任何特定实施方案，但应当参照随附权利要求书来进行解读，以便根据现有技术对此类权利要求进行尽可能广泛的解释，从而有效地涵盖发明的预期范围。

本文提到的所有公布、专利申请、专利和其他参考文献通过引用整体并入。在出现冲突的情况下，将以包括定义在内的本说明书为准。此外，章节标题、材料、方法和实施例仅具有说明性，并非意图具有限制性。

表8：用于扩增修饰序列的正向和反向引物

Claims

1.一种毕氏酵母微生物，其中YPS1-1蛋白酶和YPS1-2蛋白酶的活性已被减弱或消除，其中所述微生物表达重组多肽。

2.如权利要求1所述的微生物，.其中所述YPS1-1蛋白酶包含与SEQ ID NO:67至少95％相同的多肽序列。

3.如权利要求1所述的微生物，其中所述YPS1-1蛋白酶包含SEQ ID NO:67。

4.如权利要求1或权利要求2所述的微生物，其中所述YPS1-1蛋白酶是由YPS1-1基因编码的。

5.如权利要求4所述的微生物，其中所述YPS1-1基因包含与SEQ ID NO:1至少95％相同的多核苷酸序列。

6.如权利要求4所述的微生物，其中所述YPS1-1基因包含SEQ ID NO:1的至少15、20、25、30、40或50个连续核苷酸。

7.如权利要求4所述的微生物，其中所述YPS1-1基因包含SEQ ID NO:1。

8.如权利要求4所述的微生物，其中所述YPS1-1基因位于所述微生物的基因座PAS_chr4_0584处。

9.如上述权利要求中任一项所述的微生物，其中所述YPS1-2蛋白酶包含与SEQ ID NO:68至少95％相同的多肽序列。

10.如权利要求9所述的微生物，其中所述YPS1-2蛋白酶包含SEQ ID NO:68。

11.如上述权利要求中任一项所述的微生物，其中所述YPS1-2蛋白酶是由YPS1-2基因编码的。

12.如权利要求11所述的微生物，其中所述YPS1-2基因包含与SEQ ID NO:2至少95％相同的多核苷酸序列。

13.如权利要求11所述的微生物，其中所述YPS1-2基因包含SEQ ID NO:2的至少15、20、25、30、40或50个连续核苷酸。

14.如权利要求11所述的微生物，其中所述YPS1-2基因包含SEQ ID NO:2。

15.如权利要求11所述的微生物，其中所述YPS1-2基因位于所述微生物的基因座PAS_chr3_1157处。

16.如上述权利要求中任一项所述的微生物，其中所述YPS1-1基因或所述YPS1-2基因或两者均已突变或被敲除。

17.如上述权利要求中任一项所述的微生物，其中所述微生物表达重组蛋白。

18.如权利要求17所述的微生物，其中所述重组蛋白包含来自丝蛋白的至少一个嵌段多肽序列。

19.如权利要求17所述的微生物，其中所述重组蛋白包含丝状多肽。

20.如权利要求19所述的微生物，其中所述丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3，其中

X1＝SGGQQ或GAGQQ或GQGPY或AGQQ或SQ；

n1是4至8；

n2是6至20；并且

n3是2至20。

21.如权利要求19所述的微生物，其中所述丝状多肽包含由SEQ ID NO:462编码的多肽序列。

22.如上述权利要求中任一项所述的微生物，其中一种或多种另外的蛋白酶的活性已被减弱或消除。

23.如权利要求22所述的微生物，其中所述一种或多种另外的蛋白酶包括YPS1-5、MCK7或YPS1-3。

24.如权利要求23所述的微生物，其中所述YPS1-5基因位于所述微生物的基因座PAS_chr3_0688处。

25.如权利要求23所述的微生物，其中所述MCK7蛋白酶是由包含与SEQ ID NO:7至少95％相同的多核苷酸序列的MCK7基因编码的。

26.如权利要求23所述的微生物，其中所述MCK7基因包含SEQ ID NO:7的至少15、20、25、30、40或50个连续核苷酸。

27.如权利要求23所述的微生物，其中所述MCK7基因包含SEQ ID NO:7。

28.如权利要求23所述的微生物，其中所述MCK7基因位于所述微生物的基因座PAS_chr1-1_0379处。

29.如权利要求23所述的微生物，其中所述YPS1-3蛋白酶是由包含与SEQ ID NO:3至少95％相同的多核苷酸序列的YPS1-3基因编码的。

30.如权利要求23所述的微生物，其中所述YPS1-3基因包含SEQ ID NO:3的至少15、20、25、30、40或50个连续核苷酸。

31.如权利要求23所述的微生物，其中所述YPS1-3基因包含SEQ ID NO:3。

32.如权利要求23所述的微生物，其中所述YPS1-3基因位于所述微生物的基因座PAS_chr3_0299处。

33.如权利要求22所述的微生物，其中所述一种或多种另外的蛋白酶包含与选自由SEQID NO:68至130组成的组的多肽序列至少95％相同的多肽序列。

34.如权利要求22所述的微生物，其中所述一种或多种另外的蛋白酶包含选自由SEQID NO:68至130组成的组的多肽序列。

35.如权利要求22所述的微生物，其中所述一种或多种另外的蛋白酶是由与选自由SEQID NO:3至66组成的组的多核苷酸序列至少95％相同的多核苷酸序列编码的。

36.如权利要求22所述的微生物，其中所述一种或多种另外的蛋白酶是由包含选自由SEQ ID NO:3至66组成的组的多核苷酸序列的至少15、20、25、30、40或50个连续核苷酸的多核苷酸序列编码的。

37.如权利要求22至36中任一项所述的微生物，其中所述微生物包含3X、4X或5X蛋白酶敲除。

38.一种毕氏酵母工程化的微生物，其包含因包含SEQ ID NO:1的YPS1-1基因和包含SEQ ID NO:2的YPS1-2基因的突变或删除而降低的YPS1-1和YPS1-2活性，其中所述微生物进一步包含重组表达的蛋白，所述重组表达的蛋白包含由SEQ ID NO:462编码的多肽序列。

39.一种包含权利要求1至38中任一项所述的微生物的细胞培养物。

40.一种包含权利要求17至38中任一项所述的微生物的细胞培养物，其中所述重组表达的蛋白的降解与包含其中的YPS1-1和YPS1-2活性未被减弱或消除的其他方面相同的毕氏酵母微生物的细胞培养物相比较低。

41.一种生产具有降低的降解的重组蛋白的方法，其包括：

在适合于所述重组表达的蛋白表达的条件下，在培养基中培养如权利要求17至37中任一项所述的微生物；以及

从所述微生物或所述培养基中分离所述重组蛋白。

42.如权利要求41所述的方法，其中所述重组蛋白是由所述微生物分泌的，并且其中分离所述重组蛋白包括收集包含所述分泌的重组蛋白的培养基。

43.如权利要求41所述的方法，其中所述重组蛋白的降解水平与由其中所述YPS1-1和所述YPS1-2蛋白酶活性未被减弱或消除的其他方面相同的微生物产生的所述重组蛋白相比降低。

44.一种修饰毕氏酵母以降低重组表达的蛋白的降解的方法，其包括敲除编码YPS1-1蛋白和YPS1-2蛋白的基因或使其突变。

45.如权利要求44所述的方法，其进一步包括敲除编码YPS1-3蛋白、YPS1-5蛋白或MCK7蛋白的一个或多个另外的基因或使其突变。

46.如权利要求44所述的方法，其进一步包括敲除编码包含选自由SEQ ID NO:68至130组成的组的多肽的蛋白质的一个或多个基因。

47.如权利要求44所述的方法，其中所述重组表达的蛋白包含聚A序列，所述聚A序列包含至少2、3、4、5、6、7、8、9或10个连续的丙氨酸残基。

48.如权利要求44所述的方法，其中所述重组表达的蛋白包含丝状多肽。

49.如权利要求48所述的方法，其中所述丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3，其中

X₁＝SGGQQ或GAGQQ或GQGPY或AGQQ或SQ；

n1是4至8；

n2是6至20；并且

n3是2至20。

50.如权利要求44所述的方法，其中所述重组表达的蛋白包含由SEQ ID NO:462编码的多肽序列。