CN118028130A

CN118028130A - 用于改善重组蛋白分泌的sec经修饰菌株

Info

Publication number: CN118028130A
Application number: CN202410242258.6A
Authority: CN
Inventors: 托马斯·史蒂文斯
Original assignee: Bolt Threads Inc
Current assignee: Bolt Threads Inc
Priority date: 2018-05-17
Filing date: 2019-05-17
Publication date: 2024-05-14
Also published as: AU2019269666A1; CN112166181B; CN112166181A; EP3794151A1; US11634729B2; EP3794151A4; US20230407340A1; JP2021524227A; KR20210010484A; MX2020012243A; US20190390228A1; WO2019222633A1

Abstract

本文公开了用于改善从宿主生物体分泌的重组表达产物的分泌的具有改善的生长与生产率特性的经修饰菌株，以及使用所述经修饰菌株的方法。

Description

用于改善重组蛋白分泌的SEC经修饰菌株

本申请为申请号201980033184.2，申请日为2019年5月17日，发明名称为“用于改善重组蛋白分泌的SEC经修饰菌株”的分案申请。

相关申请的交叉引用

本申请要求于2018年5月17日提交的美国临时申请号62/673,001的权益，所述申请的内容通过引用的方式整体并入。

序列表

本申请包含序列表，该序列表已经以ASCII格式电子提交，并且通过引用的方式整体并入本文。所述ASCII副本创建于2019年6月25日，命名为BTT-019WO_SL.txt，大小为261205字节。

技术领域

本公开涉及用于促进细胞分泌蛋白质或代谢产物的菌株优化方法。本公开还涉及由那些方法得到的组合物。特别地，本公开涉及经选择或经基因工程改造用于促进由酵母细胞表达的重组蛋白的分泌，同时最小化或改善生长收率的酵母细胞，以及培养用于生产有用化合物的酵母细胞的方法。

发明背景

甲基营养型酵母毕氏酵母(Pichiapastoris)被广泛用于重组蛋白的生产。毕氏酵母生长至高细胞密度，提供受严格控制的甲醇可诱导的转基因表达，并能够分泌重组蛋白至限定成分培养基中。

然而，许多表达的重组蛋白仍位于细胞内，这使收集变得困难，并会对细胞生长和寿命产生不良影响。此外，重组表达蛋白可能在其被分泌之前在细胞中发生降解，导致形成包含重组表达的蛋白质片段的蛋白质混合物并且导致全长重组蛋白质的收率降低。因此，需要工具和工程化菌株以促进毕氏酵母中的分泌，同时减轻重组蛋白生产率的任何损失或改善重组蛋白生产率(包括维持生长特性)，因为许多修饰可对细胞的自然功能产生不良影响。

因此，需要的是经修饰的生物体以及使用这些生物体生产和分泌重组蛋白，同时将对细胞生长和生产率的任何不良影响降至最低的方法。

发明内容

在一些实施方案中，本文提供了这样的毕氏酵母微生物，其中SEC72的活性已被消除或sec72基因已被删除并且其中所述微生物表达重组蛋白。在一些实施方案中，该微生物还包含重组表达的SSH1易位子复合体。

在一些实施方案中，SEC72包含与SEQ ID NO:1至少95％同一的多肽序列。在一些实施方案中，SEC72包含SEQ ID NO:1。在一些实施方案中，SEC72由sec72基因编码。在一些实施方案中，sec72基因包含与SEQ ID NO:2至少95％同一的多核苷酸序列。在一些实施方案中，sec72基因包含SEQ ID NO:2的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，sec72基因包含SEQ ID NO:2。在一些实施方案中，sec72基因在所述微生物的基因座PAS_chr2-1_0448处。

在一些实施方案中，SSH1易位子复合体包含与SEQ ID NO:4至少95％同一的第一多肽序列、与SEQ ID NO:6至少95％同一的第二多肽序列以及与SEQ ID NO:8至少95％同一的第三多肽序列。在一些实施方案中，SSH1易位子复合体包含包含SEQ ID NO:4的第一多肽、包含SEQ ID NO:6的第二多肽以及包含SEQ ID NO:8的第三多肽。

在一些实施方案中，该微生物还包含重组表达的易位子复合体。在一些实施方案中，易位子复合体是从重组SSH1基因、重组SSS1基因以及重组SBH2基因表达的。

在一些实施方案中，SSH1基因包含SEQ ID NO:3。在一些实施方案中，SSH1基因包含与SEQ ID NO:3至少95％同一的多核苷酸序列。在一些实施方案中，SSH1基因包含SEQ IDNO:3的至少15、20、25、30、40或50个连续核苷酸。

在一些实施方案中，SSS1基因包含SEQ ID NO:5。在一些实施方案中，SSS1基因包含与SEQ ID NO:5至少95％同一的多核苷酸序列。在一些实施方案中，SSS1基因包含SEQ IDNO:5的至少15、20、25、30、40或50个连续核苷酸。

在一些实施方案中，SBH2基因包含SEQ ID NO:7。在一些实施方案中，SBH2基因包含与SEQ ID NO:7至少95％同一的多核苷酸序列。在一些实施方案中，SBH2基因包含SEQ IDNO:7的至少15、20、25、30、40或50个连续核苷酸。

在一些实施方案中，所述重组SSH1基因的表达使所述微生物中所述SSH1易位子的水平升高至高于原始生物体表达的水平，从而改善了所述微生物的生长速率和/或发酵性能。

在一些实施方案中，易位子复合体包含SSH1蛋白、SSS1蛋白和SBH2蛋白。在一些实施方案中，SSH1蛋白包含与SEQ ID NO:4至少95％同一的多肽序列。在一些实施方案中，SSH1蛋白质包含SEQ ID NO:4。在一些实施方案中，SSS1蛋白包含与SEQ ID NO:6至少95％同一的多肽序列。在一些实施方案中，SSS1蛋白质包含SEQ ID NO:6。在一些实施方案中，SBH2蛋白包含与SEQ ID NO:8至少95％同一的多肽序列。在一些实施方案中，SBH2蛋白质包含SEQ ID NO:8。

在一些实施方案中，所述微生物中YPS1-1蛋白酶和YPS1-2蛋白酶的活性已被减弱或消除。

在一些实施方案中，YPS1-1蛋白酶包含与SEQ ID NO:10至少95％同一的多肽序列。在一些实施方案中，YPS1-1蛋白酶包含SEQ ID NO:10。在一些实施方案中，YPS1-1蛋白酶由YPS1-1基因编码。在一些实施方案中，YPS1-1基因包含与SEQ ID NO:9至少95％同一的多核苷酸序列。在一些实施方案中，YPS1-1基因包含SEQ ID NO:9的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，YPS1-1基因包含SEQ ID NO:9。在一些实施方案中，YPS1-1基因在所述微生物的基因座PAS_chr4_0584处。

在一些实施方案中，YPS1-2蛋白酶包含与SEQ ID NO:12至少95％同一的多肽序列。在一些实施方案中，YPS1-2蛋白酶包含SEQ ID NO:12。在一些实施方案中，YPS1-2蛋白酶由YPS1-2基因编码。在一些实施方案中，YPS1-2基因包含与SEQ ID NO:11至少95％同一的多核苷酸序列。在一些实施方案中，YPS1-2基因包含SEQ ID NO:11的至少15、20、25、30、40或50个连续核苷酸。在一些实施方案中，YPS1-2基因包含SEQ ID NO:11。在一些实施方案中，YPS1-2基因在所述微生物的基因座PAS_chr3_1157处。

在一些实施方案中，所述微生物的YPS1-1基因或所述YPS1-2基因或两者已突变或被敲除。在一些实施方案中，所述微生物中一种或多种另外的蛋白酶的活性已被减弱或消除。

在一些实施方案中，所述微生物表达的重组蛋白包含来自丝蛋白的至少一个嵌段多肽序列。在一些实施方案中，所述重组蛋白包含丝状多肽。在一些实施方案中，丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3(SEQ ID NO:13)，其中X1＝SGGQQ(SEQ ID NO:14)或GAGQQ(SEQ ID NO:15)或GQGPY(SEQ ID NO:16)或AGQQ(SEQ ID NO:17)或SQ；n1是4至8；n2是6至20；n3是2至20。在一些实施方案中，丝状多肽包含由SEQ ID NO:21编码的多肽序列。

在一些实施方案中，重组蛋白包含分泌信号肽。在一些实施方案中，分泌信号肽选自由以下组成的组：PEP4信号序列、CPY+4信号序列、DAP2信号序列以及MFα1信号序列。在一些实施方案中，分泌信号肽选自由以下组成的组：SEQ ID NO:84、SEQ ID NO:86、SEQ IDNO:88以及SEQ ID NO:90。

根据一些实施方案，本文还提供了这样的毕氏酵母微生物，其中所述微生物的SEC72的活性已被消除，或者包含SEQ ID NO:1的sec72基因已被敲除，其中该微生物包含包含SEQ ID NO:3的重组表达SSH1基因、包含SEQ ID NO:5的重组表达SSS1基因，以及包含SEQID NO:7的重组表达SBH2基因，并且其中所述微生物包含丝状多肽，所述丝状多肽包含SEQID NO:21编码的多肽序列。

根据一些实施方案，本文还提供了包含本文所述重组微生物的细胞培养物。

根据一些实施方案，本文还提供了包含如本文所述的重组微生物的细胞培养物，其中所述细胞培养物与不包含重组表达SSH1易位子复合体的细胞培养物相比在标准细胞培养条件下具有改善的菌株生长速率和发酵性能。

根据一些实施方案，本文还提供了包含如本文所述的重组微生物的细胞培养物，其中所述细胞培养物与包含功能性sec72基因但不包含重组表达SSH1易位子复合体的其他方面同一的微生物的细胞培养物相比，在标准细胞培养条件下具有改善的所述重组蛋白收率或比生产率，其中每个微生物具有相同数量的拷贝的重组丝多肽基因。

根据一些实施方案，本文还提供了生产重组蛋白的方法，该方法包括：在适合于使所述重组表达蛋白表达的条件下在培养基中培养本文所述的重组微生物；以及从该微生物或培养基中分离重组蛋白。

在一些实施方案中，所述重组蛋白是由所述微生物分泌的，并且分离所述重组蛋白包括收集包含所述分泌的重组蛋白的培养基。

在一些实施方案中，所述微生物与其中所述sec72基因未被删除的其他方面同一的微生物相比，具有升高的所述重组蛋白收率或比生产率。

在一些实施方案中，所述微生物与不包含所述重组表达SSH1易位子复合体并且其中所述sec72基因未被删除的其他方面同一的微生物相比，具有升高的所述重组蛋白收率或比生产率。

根据一些实施方案，本文还提供了修饰毕氏酵母以改善重组表达蛋白分泌的方法，所述方法包括敲除编码SEC72蛋白的基因。在一些实施方案中，修饰毕氏酵母以改善重组表达蛋白分泌的方法还包括用包含编码重组表达SSH1易位子复合体的基因的载体转化所述毕氏酵母。

在一些实施方案中，该重组表达蛋白包含丝状多肽。在一些实施方案中，丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3(SEQ ID NO:13)，其中X₁＝SGGQQ(SEQ ID NO:14)或GAGQQ(SEQ ID NO:15)或GQGPY(SEQ ID NO:16)或AGQQ(SEQ ID NO:17)或SQ；n1是4至8；n2是6至20；n3是2至20。在一些实施方案中，该重组表达蛋白包含由SEQ IDNO:21编码的多肽序列。

附图说明

前述和其他目标、特征以及优点根据如附图中所举例说明的本发明特定实施方案的以下描述将变得明显，在附图中，类似的标记字符在不同视图中指代相同部分。该附图未必按比例绘制，而是将重点放在举例说明本发明的各个实施方案的原理上。

图1示出了分泌复合体SEC、SEC61、SEC63以及SSH1中基因的分组。还示出了酿酒酵母和毕氏酵母易位子复合蛋白间的同源性数值。

图2是用于SEC72删除的载体的质粒图谱，该载体包含侧接SEC72同源臂的酵母选择标记物。

图3是用于过表达基因编码蛋白的载体的质粒图谱，该载体包含SSH1复合体。它包括针对SBH2、SSS1和SSH1的启动子、可译框架(ORF)和终止子，以及酵母选择标记物。

图4A是载体的质粒图谱，该载体包含与用于靶蛋白酶基因删除的同源臂一起使用的诺尔斯菌素(nourseothricin)标记物。图4B和图4C是用于蛋白酶敲除的盒，其具有靶向侧接诺尔斯菌素抗性标记物的期望蛋白酶基因的同源臂。

图5是载体的质粒图谱，该载体包含用于表达包含分泌信号和FLAG标签的丝状多肽的可译框架(ORF)。该ORF可操作地连接于pGCW14启动子和tAOX1终止子。该载体还包含用于选择成功转化的细胞的选择标记物。

图6示出了如通过酶联免疫吸附测定法(即，ELISA)所测量的由表达2X、4X或6X拷贝的18B的野生型(WT)和Δsec72(Δ)菌株表达的重组18B丝状多肽的分泌。

图7示出了由野生型(WT)和Δsec72(Δ)菌株表达并通过ELISA测量的包含PEP4(sc)、CPY+4(sc)、DAP2(sc)或MFα1(sc)信号肽的重组蛋白的分泌。(sc)指示源自酿酒酵母的信号肽。

图8示出了由野生型(WT)和Δsec72(Δ)菌株表达并通过ELISA测量的长丝多肽横纹金蛛(Argiope bruennichi)大壶腹蛛丝蛋白2(即，Ab MaSp2)(106kDa)和黑寡妇蜘蛛(Latrodectus hesperus)大壶腹蛛丝蛋白1(即，Lh MaSp1(55kDa))的分泌。

图9A示出了如通过ELISA所测量的由野生型(WT)、Δsec72(Δ)菌株、在pTHI11控制下过表达sec72的菌株，以及其中SEC72已通过DAmP(mRNA干扰所致丰度降低)敲低的菌株表达的重组18B丝状多肽的分泌。图9B示出了如通过ELISA所测量的由野生型(WT)、过表达来自SEC63复合体(即，sec62、sec63和sec66)的非SEC72蛋白的菌株，以及过表达sec72的菌株表达的重组18B丝状多肽的分泌。

图10A示出了作为与WT菌株相比的倍数变化的Δsec72菌株的参考归一化的表达。阴影表示范围，中心棒表示n＝3个生物复制物(Δsec72的n＝2除外)的中值。图10B示出了中心化、对数尺度、参考归一化的表达数据在主成分空间上的投影，左＝PC1 vs.3，右＝PC2vs.3。复制物均按菌株基因型着色，在基因型间比较差异时显示出低的基因型内差异。

图11示出了所观察到的WT菌株和Δsec72菌株的生长速率，以及它们中的每一者与被修饰成过表达SSH1易位子复合体或SEC61的菌株的生长速率的比较。

图12A示出了表达4(4x)或6(4+2x)拷贝的18B的野生型(WT)菌株与Δsec72菌株(4x，Δsec72)和过表达SSH1易位子复合体的Δsec72菌株(4x，Δsec72，2N SSH1)的18B产量随葡萄糖(收率)的变化的比较。图12B示出了每个菌株的比生产率(单位生物质的产物)。

具体实施方式

在下面的描述中阐述了本发明的多个实施方案的详情。本发明的其他特征、目标和优点，从描述和附图以及从权利要求书来看将是显而易见的。

定义

除非本文中另有定义，与本发明相关的科学和技术术语应具有本领域普通技术人员通常所理解的含义。进一步地，除非上下文另有要求，否则单数术语应包括复数，并且复数术语应包括单数。术语“一个/种(a)”和“一个/种(an)”包括复数引用，上下文另有规定的除外。通常，与以下结合使用的命名法及以下的技术是本领域众所周知的和常用的那些：本文所述的生物化学、酶学、分子与细胞生物学、微生物学、遗传学和蛋白质与核酸化学以及杂交。

以下术语，除非另有规定，否则应被理解为具有以下含义：

术语“多核苷酸”或“核酸分子”是指长度为至少10个碱基的核苷酸的聚合形式。该术语包括DNA分子(例如，cDNA或基因组DNA或合成DNA)和RNA分子(例如，mRNA或合成RNA)，以及含有非天然核苷酸类似物、非原始核苷间键或两者的DNA或RNA的类似物。核酸可以呈任何拓扑构象。例如，核酸可以是单链、双链、三链、四链、部分双链、具支链、发夹型、环状或呈挂锁(padlocked)构象。

除非另有规定，并且作为本文中以通用格式“SEQ ID NO:”描述的所有序列的实例，“包含SEQ ID NO:1的核酸”是指这样的核酸，其至少一部分具有以下序列：(i)SEQ IDNO:1的序列，或者(ii)与SEQ ID NO:1互补的序列。两者之间的选择由上下文决定。例如，如果核酸被用作探针，则两者之间的选择取决于探针与所需靶标互补的要求。

术语“重组体”是指这样的生物分子(例如基因或蛋白质)，其：(1)已从其天然存在的环境中移出，(2)与在自然界中发现该基因的多核苷酸的全部或部分不相关联，(3)与在自然界中未和其连接的多核苷酸可操作地连接，或者(4)在自然界中不存在。术语“重组体”可以针对克隆的DNA分离物、化学合成的多核苷酸类似物或由异源系统生物合成的多核苷酸类似物以及由此类核酸编码的蛋白质和/或mRNA使用。

在本文中，如果异源序列与内源核酸序列相邻放置，使得该内源核酸序列的表达发生改变，则将生物体基因组中的该内源核酸序列(或该序列的编码蛋白产物)视为“重组体”。在这种背景下，异源序列是与内源核酸序列天然不相邻的序列，无论该异源序列本身是内源的(源自同一宿主细胞或其后代)还是外源的(源自不同宿主细胞或其后代)。举例来说，对于宿主细胞的基因组中基因的原始启动子而言，启动子序列可以被取代(例如，通过同源重组)，使得该基因具有改变的表达模式。该基因现在将变成为“重组体”，因为它和与其自然侧接的序列中的至少一些序列分离。

如果核酸含有基因组中的相应核酸中不会自然存在的任何修饰，则该核酸也被视为“重组体”。例如，如果内源编码序列含有人工引入，例如通过人为干预引入的插入、删除或点突变，则该内源编码序列被视为“重组体”。“重组核酸”还包括在异源位点整合到宿主细胞染色体中的核酸和作为附加体存在的核酸构建体。

如本文所用，参考核酸序列的短语“简并变体”包括可以根据标准遗传密码翻译以提供与从参考核酸序列翻译的氨基酸序列同一的氨基酸序列的核酸序列。术语“简并寡核苷酸”或“简并引物”被用于表示能够与在序列上不一定同一，但在一个或多个特定节段内彼此同源的靶核酸序列杂交的寡核苷酸。

在核酸序列的背景下，术语“序列同一性百分比”或“同一”是指当进行最大对应比对时，两个序列中相同的残基。序列同一性比较的长度可能在一段至少约9个核苷酸，通常至少约20个核苷酸，更通常至少约24个核苷酸，通常至少约28个核苷酸，更通常至少约32个核苷酸，并且优选至少约36个或更多个核苷酸上。本领域已知有许多不同的算法可用于测量核苷酸序列同一性。例如，多核苷酸序列可以使用FASTA、Gap或Bestfit进行比较，它们是Genetics Computer Group(GCG),Madison,Wis的Wisconsin Package第10.0版中的程序。FASTA提供在查询序列和搜索序列之间最佳重叠的区域的比对和序列同一性百分比。Pearson,Methods Enzymol.183:63-98(1990)(在此通过引用的方式整体并入)。例如，核酸序列之间的序列同一性百分比可以使用FASTA以其默认参数(字长为6以及评分矩阵为NOPAM因子)或使用如GCG第6.1版(通过引用的方式并入本文)中提供的Gap以其默认参数来确定。替代地，可以使用计算机程序BLAST(Altschul等人,J.Mol.Biol.215:403-410(1990)；Gish和States,Nature Genet.3:266-272(1993)；Madden等人,Meth.Enzymol.266:131-141(1996)；Altschul等人,Nucleic Acids Res.25:3389-3402(1997)；Zhang和Madden,Genome Res.7:649-656(1997))，尤其是blastp或tblastn(Altschul等人,NucleicAcids Res.25:3389-3402(1997))对序列进行比较。

当涉及核酸或其片段时，术语“实质同源性”或“实质相似性”表示，当与另一种核酸(或其互补链)的适当核苷酸插入或删除作最佳比对时，根据任何公认的序列同一性算法如前面讨论的FASTA、BLAST或Gap所测量，在至少约75％、80％、85％，优选至少约90％，并且更优选至少约95％、96％、97％、98％或99％的核苷酸碱基上存在核苷酸序列同一性。

本发明的核酸(也称为多核苷酸)可包括RNA、cDNA、基因组DNA和前述的合成形式以及混合聚合物的有义链与反义链。如本领域技术人员将容易理解的，它们可被化学或生物化学修饰或可含有非天然或衍生的核苷酸碱基。此类修饰包括例如标记，甲基化，一个或多个天然存在的核苷酸被类似物置换，核苷酸间修饰如不带电荷的连接键(例如，甲基膦酸酯类、磷酸三酯类、氨基磷酸酯类、氨基甲酸酯类等)、带电荷的连接键(例如，硫代磷酸酯类、二硫代磷酸酯类等)、悬垂部分(例如，多肽类)、嵌入剂(例如，吖啶、补骨脂素等)、螯合剂、烷基化剂和经修饰的连接键(例如，α异头核酸等)。还包括了通过氢键和其他化学相互作用模拟多核苷酸结合至指定序列的能力的合成分子。此类分子是本领域已知的，并且包括例如其中肽连接键替代分子主链中的磷酸酯连接键的那些。其他修饰可以包括，例如，其中核糖环含有桥联部分或其他结构的类似物，诸如在“锁定”核酸中发现的修饰。

术语“突变的”，当被应用于核酸序列时，是指核酸序列中的核苷酸与参考核酸序列相比可能被插入、删除或改变。可以在基因座进行单一改变(点突变)，或者可以在单个基因座处插入、删除或改变多个核苷酸。此外，可以在核酸序列内任何数量的基因座处进行一个或多个改变。核酸序列可以通过本领域已知的任何方法进行突变，包括但不限于诱变技术，例如“易错PCR”(一种在DNA聚合酶的复制保真度较低的条件下进行PCR，从而在PCR产物的整个长度上获得高点突变率的过程；参见例如Leung等人,Technique,1:11-15(1989)和Caldwell&Joyce,PCR Methods Applic.2:28-33(1992))；以及“寡核苷酸定向诱变”(一种使得位点特异性突变能够在任何感兴趣的克隆DNA节段中产生的过程；参见例如,Reidhaar-Olson and Sauer,Science241:53-57(1988))。

如本文所用，术语“减弱”通常是指功能性删除，包括对基因序列或控制基因序列转录的序列实施的突变、部分或完全删除、插入或其他改变，其减少或抑制基因产物的产生或使基因产物失去功能。在一些例子中，功能性删除被描述为敲除突变。减弱还包括通过改变核酸序列，将基因置于活性较低的启动子的控制下，向下调节，表达靶向感兴趣的基因的干扰RNA、核酶或反义序列，或通过本领域已知的任何其他技术来实现的氨基酸序列变化。在一个实例中，降低了特定酶对反馈抑制或由并非产物或反应物(非途径特异性反馈)的组成引起的抑制的灵敏度，使得酶活性不受化合物的存在影响。在其他例子中，已被改变成具有较低的活性的酶可以称为减毒酶。

如本文所用，术语“删除”是指从核酸分子中去除一个或多个核苷酸或从蛋白质中去除一个或多个氨基酸，两侧的区域接合在一起。

如本文所用，术语“敲除”意指其表达或活性水平已被降低至零的基因。在一些实例中，基因的敲除是通过删除其编码序列的部分或全部而实现的。在其他实例中，基因的敲除是通过将一个或多个核苷酸引入至其可译框架中，从而导致无义或其他方式失去功能的蛋白质产物的翻译而实现的。

如本文所用，术语“载体”意指这样的核酸分子，其能够运输已与其连接的另一个核酸。一类载体是“质粒”，其通常是指额外的DNA节段可连接到其中的环状双链DNA环，但也包括线性双链分子，例如通过聚合酶链反应(PCR)扩增或用限制酶处理环状质粒而得到的那些。其他载体包括粘粒、细菌人工染色体(BAC)和酵母人工染色体(YAC)。另一类载体是病毒载体，其中额外的DNA节段可被连接到病毒基因组中(在下文中更详细地讨论)。某些载体能够在引入它们的宿主细胞中自主复制(例如具有在宿主细胞中起作用的复制起点的载体)。其他载体在引入到宿主细胞后可以被整合到宿主细胞的基因组中，从而与宿主基因组一起被复制。此外，某些优选的载体能够指导与它们可操作地连接的基因的表达。此类载体在本文中被称为“重组表达载体”(或简称为“表达载体”)。

“操作性地连接的(Operatively linked)”或“可操作地连接的(operablylinked)”表达控制序列是指其中表达控制序列与感兴趣的基因紧邻以控制感兴趣的基因的连接，以及以反式或在一定距离内作用来控制感兴趣的基因的表达控制序列。

术语“表达控制序列”是指影响与它们可操作地连接的编码序列的表达所必需的多核苷酸序列。表达控制序列是控制核酸序列的转录、转录后事件和翻译的序列。表达控制序列包括适当的转录起始、终止、启动子和增强子序列；有效的RNA处理信号，例如剪接和聚腺苷酸化信号；稳定细胞质mRNA的序列；提高翻译效率的序列(例如，核糖体结合位点)；提高蛋白质稳定性的序列；以及在需要时，提高蛋白质分泌的序列。此类控制序列的性质根据宿主生物体的不同而不同；在原核生物中，此类控制序列通常包括启动子、核糖体结合位点和转录终止序列。术语“控制序列”旨在至少包括其存在对于表达是必不可少的所有组分，并且还可以包括其存在是有利的另外的组分，例如前导序列和融合伴侣序列。

术语“调节元件”是指影响核酸分子的转录或翻译的任何元件。这些包括，举例来说，但不限于：调节蛋白(例如转录因子)、伴侣蛋白、信号蛋白、RNAi分子、反义RNA分子、微小RNA和RNA适体。调节元件对于宿主生物体可以是内源的。调节元件对于宿主生物体也可以是外源的。调节元件可以是合成产生的调节元件。

如本文所用，术语“启动子”、“启动子元件”或“启动子序列”是指当与感兴趣的核苷酸序列连接时能够控制感兴趣的核苷酸序列转录成mRNA的DNA序列。启动子通常(但不一定)位于由该启动子控制转录为mRNA的感兴趣的核苷酸序列的5'(即，上游)，并且提供RNA聚合酶和用于启动转录的其他转录因子特异性结合的位点。启动子对于宿主生物体可以是内源的。启动子对于宿主生物体也可以是外源的。启动子可以是合成产生的调节元件。

可用于表达本文所述重组基因的启动子包括组成型和诱导型/阻遏型启动子。在本发明的工程化生物体中表达多个重组基因时，不同的基因可以由不同的启动子或不同操纵子中的同一启动子控制，或者两个或更多个基因的表达可以由作为操纵子的一部分的单个启动子控制。

如本文所用，术语“重组宿主细胞”(或简称为“宿主细胞”)旨在指已将重组载体引入其中的细胞。应当理解，此类术语旨在不仅指代特定的主题细胞，而且还指代此类细胞的后代。因为某些修饰可能因突变或环境影响出现在后续代中，所以此类后代实际上可能与亲本细胞不同一，但仍然包括在如本文所用的术语“宿主细胞”的范围内。重组宿主细胞可以是在培养物中生长的分离的细胞或细胞系或者可以是驻留在活组织或生物体中的细胞。

如本文所用，术语“野生型”(即，“WT”)是指缺失正在讨论的修饰的比较菌株。它并非是指原始的未经修饰的菌株，而是指缺失所选修饰的菌株。例如，当比较被修饰成表达重组丝多肽的两种形式的重组菌株时，其中一种形式是sec72 KO，该KO菌株可以称之为Δsec72菌株，而另一种形式则称为“WT”。

如本文所用，术语“肽”是指短多肽，例如，长度通常短于约50个氨基酸，长度更通常短于约30个氨基酸的短多肽。如本文所用的术语包括模拟结构并因此模拟生物功能的类似物和模拟物。

术语“多肽”涵盖天然存在和非天然存在的蛋白质及其片段、突变体、衍生物和类似物。多肽可以是单体的或聚合的。进一步地，多肽可以包含多个不同的结构域，每个结构域均具有一种或多种不同的活性。

术语“分离的蛋白质”或“分离的多肽”是这样的蛋白质或多肽，其由于其来源或衍生来源而：(1)与在其原始状态伴随其的天然相关成分不相关联，(2)以自然界中未发现的纯度存在，其中纯度可以根据其他细胞物质的存在进行判断(例如，不含来自相同物种的其他蛋白质)，(3)由来自不同物种的细胞表达，或者(4)在自然界中不存在(例如，其是自然界中发现的多肽的片段，或者其包括自然界中未发现的氨基酸类似物或衍生物或除标准肽键以外的连接键)。因此，将把化学合成的多肽或在不同于其天然来源的细胞的细胞系统中合成的多肽与其天然相关成分“分离”。使用本领域众所周知的蛋白质纯化技术，也可以使多肽或蛋白质基本不含天然相关成分。如所定义的，“分离的”不一定要求如此描述的蛋白质、多肽、肽或寡肽已从其原始环境中物理地移出。

术语“多肽片段”是指与全长多肽相比具有缺失，例如氨基端和/或羧基端缺失的多肽。在优选的实施方案中，多肽片段是连续序列，其中该片段的氨基酸序列与天然存在的序列中的相应位置同一。片段的长度通常为至少5、6、7、8、9或10个氨基酸，优选至少12、14、16或18个氨基酸，更优选至少20个氨基酸，更优选至少25、30、35、40或45个氨基酸，甚至更优选至少50或60个氨基酸，并且甚至更优选至少70个氨基酸。

如果编码某种蛋白质的核酸序列与编码第二蛋白质的核酸序列具有相似的序列，则所述的蛋白质与第二蛋白质具有“同源性”或与第二蛋白质“同源”。替代地，如果某种蛋白质与第二蛋白质具有“相似的”氨基酸序列，则这种蛋白质与第二蛋白质具有同源性。(因此，术语“同源蛋白质”被定义为表示两种蛋白质具有相似的氨基酸序列。)如本文所用，氨基酸序列的两个区域之间的同源性(特别是关于预测的结构相似性)被解释为暗示功能上的相似性。

当针对蛋白质或肽使用“同源的”时，应认识到不同一的残基位置常常因保守的氨基酸取代而不同。“保守性氨基酸取代”是其中氨基酸残基被带有具有相似化学性质(例如，电荷或疏水性)的侧链(R基)的另一个氨基酸残基取代的保守性氨基酸取代。一般而言，保守性氨基酸取代将基本上不改变蛋白质的功能特性。在两个或更多个氨基酸序列因保守性取代而彼此不同的情况下，可以向上调整序列同一性百分比或同源性程度以校正取代的保守性质。作出这种调整的方式是本领域技术人员众所周知的。参见例如,Pearson,1994,Methods Mol.Biol.24:307-31和25:365-89(以引用的方式并入本文)。

二十种常规氨基酸及其缩写遵循常规用法。参见Immunology-ASynthesis(Golub和Gren编著,Sinauer Associates,Sunderland,Mass.,第2版，1991)，其通过引用的方式并入本文。二十种常规氨基酸、非天然氨基酸(例如α-,α-二取代的氨基酸、N-烷基氨基酸)和其他非常规氨基酸的立体异构体(例如，D-氨基酸)也可能是本发明多肽的合适组分。非常规氨基酸的实例包括：4-羟基脯氨酸、γ-羧基谷氨酸盐、ε-N,N,N-三甲基赖氨酸、ε-N-乙酰赖氨酸，O-磷酸丝氨酸、N-乙酰丝氨酸、N-甲酰基甲硫氨酸、3-甲基组氨酸、5-羟基赖氨酸、N-甲基精氨酸和其他类似氨基酸和亚氨基酸(例如，4-羟脯氨酸)。在本文使用的多肽符号中，根据标准用法和惯例，左手端对应于氨基末端，右手端对应于羧基末端。

以下六个基团各自含有互为保守取代的氨基酸：1)丙氨酸(S)、苏氨酸(T)；2)门冬氨酸(D)、谷氨酸(E)；3)门冬酰胺(N)、谷氨酰胺(Q)；4)精氨酸(R)、赖氨酸(K)；5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、丙氨酸(A)、缬氨酸(V)；以及6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)。

多肽的序列同源性，有时也被称为序列同一性百分比，通常使用序列分析软件测量。参见例如，the Sequence Analysis Software Package of the Genetics ComputerGroup(GCG),University of Wisconsin Biotechnology Center,910University Avenue,Madison,Wis.53705。蛋白质分析软件使用分配给各种取代、删除和其他修饰(包括保守的氨基酸取代)的同源性度量来匹配相似的序列。例如，GCG含有诸如“Gap”和“Bestfit”等程序，它们可以按默认参数使用以确定紧密相关的多肽(例如来自于生物体的不同物种的同源多肽)之间或野生型蛋白与其突变蛋白之间的序列同源性或序列同一性。参见例如，GCG第6.1版。

当将特定多肽序列与含有来自不同生物体的大量序列的数据库进行比较时，一种有用的算法是计算机程序BLAST(Altschul等人,J.Mol.Biol.215:403-410(1990)；Gish和States,Nature Genet.3:266-272(1993)；Madden等人,Meth.Enzymol.266:131-141(1996)；Altschul等人,Nucleic Acids Res.25:3389-3402(1997)；Zhang和Madden,GenomeRes.7:649-656(1997))，尤其是blastp或tblastn(Altschul等人,Nucleic Acids Res.25:3389-3402(1997))。

BLASTp的优选参数为：期望值：10(默认)；过滤器：seg(默认)；空位开口成本：11(默认)；空位延伸成本：1(默认)；最高比对：100(默认)；字长：11(默认)；描述数：100(默认)；罚分矩阵：BLOWSUM62。

BLASTp的优选参数为：期望值：10(默认)；过滤器：seg(默认)；空位开口成本：11(默认)；空位延伸成本：1(默认)；最高比对：100(默认)；字长：11(默认)；描述数：100(默认)；罚分矩阵：BLOWSUM62。针对同源性进行比较的多肽序列长度通常将是至少约16个氨基酸残基，通常至少约20个残基，更通常至少约24个残基，通常至少约28个残基，并且优选多于约35个残基。当搜索含有来自大量不同生物体的序列的数据库时，优选比较氨基酸序列。使用氨基酸序列的数据库检索可以通过本领域已知的除blastp以外的算法进行测量。例如，可以使用FASTA(GCG第6.1版中的一种程序)对多肽序列进行比较。FASTA提供在查询序列和搜索序列之间最佳重叠的区域的比对和序列同一性百分比。Pearson,MethodsEnzymol.183:63-98(1990)(通过引用的方式并入本文)。例如，氨基酸序列之间的序列同一性百分比可以使用如GCG第6.1版(通过引入的方式并入本文)中提供的FASTA以其默认参数(字长为2，PAM250评分矩阵)来确定。

在整个说明书和权利要求书中，词语“包含(comprise)”或变型诸如“包含(comprises)”或“包含(comprising)”将被理解为暗示包括所陈述的整数或整数的组，但不排除任何其它整数或整数的组。

虽然下面描述了示例性方法和材料，但是与本文描述的方法和材料类似或等同的方法和材料也可以在本发明的实践中使用，并且对于本领域技术人员而言将是显而易见的。本文提及的所有出版物和其他参考文献均通过引用的方式整体并入本文。在出现冲突的情况下，将以包括定义在内的本说明书为准。材料、方法和实施例仅具有说明性而非意图具有限制性。

概述

本文提供了重组菌株和改善酵母菌株(例如，毕氏酵母)中重组表达蛋白的分泌与生产率的方法。

指定用于分泌的蛋白质必须首先穿过内质网的膜(ER移位)。多种靶向途径可将伸长的核糖体或完全翻译的蛋白质募集到ER膜，其多肽链则通过称为易位子的成孔蛋白复合体进入。包括酿酒酵母和毕氏酵母在内的酵母表达两种易位子：SEC61和SSH1复合体。每种均由核心三聚复合体构成，但SEC61易位子也与四聚SEC63复合体相关联。图1示出了这些易位子复合体中每个复合体内包含的蛋白质亚基。

SEC72编码SEC63复合体的非必需成员，但是SEC72的删除(Δsec72)导致一些分泌前体蓄积。令人惊讶地是，在本文中我们证明了Δsec72菌株具有改善的重组丝多肽分泌。

在一些实施方案中，对该菌株进行修饰以删除sec72基因(SEQ ID NO:1)。如我们在本文中所述和所示，表达SEC72(SEQ ID NO:2)(用于移位蛋白质至ER供分泌的辅助因子)的sec72在小型嵌段模型试验中意外地帮助丝分泌(达+75％)。这在各表达水平、信号序列和不同的丝间仍如此。

在一些实施方案中，sec72的删除是使用如图2中所示的质粒实现的，该质粒具有侧接酵母选择标记物的sec72的5′同源臂和sec72的3′同源臂。Δsec72删除引发可间接帮助分泌的转录适应(transcriptional adaptation)。表1中提供了sec72基因和SEC72蛋白的序列。

表1：sec72可译框架和SEC72蛋白序列

在一些观察到的情形中，sec72删除减慢了菌株生长，Δsec72菌株的发酵生产筛选遭遇葡萄糖蓄积的难题。因此，根据一些实施方案，本文还提供了重组过表达包含SSH1易位子复合体的蛋白质的菌株。如本文所示，Δsec72菌株中SSH1易位子复合体的过表达改善了菌株生长速率和发酵性能，同时维持改善的分泌。这种仅具有4个拷贝的重组丝状嵌段多肽表达基因(即，18B)的组合删除-过表达菌株的运行，相对于具有6个拷贝的丝状嵌段多肽表达基因(即，18B)的菌株显示出相似的滴度和改善的比生产率(+18％)。

在一些实施方案中，通过插入包含编码重组SBH2、SSS1和SSH1的基因的质粒，SSH1易位子复合体在宿主细胞中过表达(图3)。这些基因和所表达的蛋白质的序列可参见表2。

表2：SSH1易位子复合体的亚基的可译框架和蛋白序列。

/>

蛋白酶敲除

在一些实施方案中，为了减弱毕氏酵母中的蛋白酶活性，使编码这些酶的基因失活或突变以降低或消除活性。这可以通过对所述基因本身进行突变或插入或者通过对基因调节元件进行修饰来完成。这可以通过标准酵母遗传学技术来实现。此类技术的实例包括通过双重同源重组进行的基因替代，在双重同源重组中，侧接待失活基因的同源区域被克隆在侧接可选择标记基因(例如抗生素抗性基因或补充酵母菌株的营养缺陷体的基因)的载体中。在一些实施方案中，可用图4A中所示的诺尔丝菌素选择质粒作为基础质粒，并且可以使用侧接抗性盒的同源臂(HA)(图4B和图4C)，其中同源臂特异性地靶向需敲除的期望蛋白酶。美国申请号15/724,196和PCT申请号PCT/US2017/054997提供了蛋白酶敲除和修饰宿主细胞以抑制重组蛋白降解的方法的描述，其中每一个申请均通过引用的方式整体并入本文。

替代地，可以对同源区域进行PCR扩增，并将其通过重叠PCR连接至可选择的标记基因。随后，通过本领域已知的方法例如电穿孔，将此类DNA片段转化为毕氏酵母。通过标准技术(例如在基因组DNA上的PCR或Southern印迹)，分析然后在选择性条件下生长的转化子以进行基因破坏事件。在替代实验中，基因失活可以通过单一同源重组来实现，在这种情况下，例如，将所述基因的ORF的5'末端克隆在还含有可选择的标记基因的无启动子载体上。在通过用仅切割靶基因同源片段中的载体的限制酶消化来将此类载体线性化后，此类载体被转化为毕氏酵母。通过在基因组DNA上的PCR或Southern印迹，确认了靶基因位点处的整合。通过这种方式，在基因组中实现载体上克隆的基因片段的复制，生成靶基因基因座的两个拷贝：第一个拷贝，其中ORF不完整，从而导致了缩短的无活性蛋白质的表达(如果有表达的话)；以及第二个拷贝，其没有用于驱动转录的启动子。

替代地，使用转座子诱变来使靶基因失活。可以通过PCR针对靶基因中的插入事件来对此类突变体的文库进行筛选。

工程化/敲除菌株的功能性表型(即缺陷)可以使用本领域已知的技术进行评估。例如，工程化菌株在蛋白酶活性方面的缺陷可以使用本领域已知的多种方法中的任一种，例如生色蛋白酶底物的水解活性的测定、所选蛋白酶的底物蛋白的谱带位移等来探知。

本文所述的蛋白酶活性的减弱可以通过敲除突变以外的机制来实现。例如，所需蛋白酶可通过如下方式经由氨基酸序列变化来减弱：改变核酸序列，将基因置于活性较低的启动子的控制下，向下调节，表达靶向感兴趣的基因的干扰RNA、核酶或反义序列，或本领域已知的任何其他技术。在优选的菌株中，在PAS_chr4_0584(YPS1-1)和PAS_chr3_1157(YPS1-2)处编码的蛋白酶(例如，包含SEQ ID NO:10和12的多肽)的蛋白酶活性通过上述方法中的任一种方法减弱。在一些方面中，本发明涉及甲基营养型酵母菌株，尤其是毕氏酵母菌株，其中YPS1-1和YPS1-2基因(例如，如SEQ ID NO:9和SEQ ID NO:11所示)已失活。在一些实施方案中，另外的蛋白酶编码基因也可以按照本文中提供的方法敲除，以进一步降低该菌株表达的期望蛋白质产物的蛋白酶活性。

表3：毕氏酵母中的作为删除靶标的蛋白酶的可译框架核苷酸序列和多肽序列

/>

重组菌株的生产

本文提供了转化菌株以降低活性的方法，例如，根据需要使用载体递送重组基因或敲除或以其他方式减弱内源基因。这些载体可以采取载体骨架的形式，该载体骨架含有复制起点和选择标记物(通常为抗生素抗性，但很多其他方法是可能的)，或者允许向靶细胞染色体中并入的线性片段。载体应对应于所选的生物体和插入方法。

一旦选择了载体的元件，可以采用很多不同的方式执行载体的构建。在一个实施方案中，可以使用DNA合成服务或单独制备每种载体的方法。

一旦获得了每个载体的DNA(包括插入和操作所需的另外的元件)，就必须将其组装。存在许多可能的组装方法，包括(但不限于)限制酶克隆、平端连接和重叠组装[参见，例如，Gibson,D.G.等人,Enzymatic assembly ofDNA molecules up to several hundredkilobases.Nature methods,6(5),343–345(2009)和GeneArt Kit(http://tools.invitrogen.com/content/sfs/manuals/geneart_seamless_cloning_and_assembly_man.pdf)]。重叠组装提供了一种确保所有元件在正确位置组装且不会引入任何不期望的序列的方法。

可以使用标准分子生物学技术，例如分子克隆，将上面产生的载体插入到靶细胞中。在一个实施方案中，靶细胞已经被工程化或选择为使得它们已经含有制备期望产物所需的基因，尽管这也可以在进一步的载体插入期间或之后进行。

根据生物体和文库元件类型(质粒或基因组插入)，可以使用几种已知的将包含待掺入DNA的载体插入到细胞中的方法。这些可包括，例如能够从本地环境吸收并复制DNA的微生物的转化、通过电穿孔或化学手段进行的转化、用病毒或噬菌体的转导、两个或更多个细胞的交配，或来自不同细胞的缀合。

本领域已知几种将重组DNA引入到细菌细胞中的方法，包括但不限于转化、转导和电穿孔，参见Sambrook等人，Molecular Cloning:ALaboratoryManual(1989),第二版，ColdSpring HarborPress,Plainview,N.Y.。用于转化的商业试剂盒和细菌宿主细胞的非限制性实例包括NovaBlue Singles^TM(EMD Chemicals Inc.,NJ,USA)、MaxDH5α^TM、One/>BL21(DE3)大肠埃希菌细胞、One/>BL21(DE3)pLys大肠埃希菌细胞(Invitrogen Corp.,Carlsbad,Calif.,USA)、XL1-Blue感受态细胞(Stratagene,CA,USA)。用于电穿孔的商业试剂盒和细菌宿主细胞的非限制性实例包括Zappers^TM电感受态细胞(EMD Chemicals Inc.,NJ,USA)、XL1-Blue电穿孔-感受态细胞(Stratagene,CA,USA)、ElectroMAX^TM根癌农杆菌LBA4404细胞(Invitrogen Corp.,Carlsbad,Calif.,USA)。

本领域中已知几种将重组核酸引入到真核细胞中的方法。示例性方法包括转染、电穿孔、脂质体介导的核酸递送、微量注射至宿主细胞，参见Sambrook等人，MolecularCloning:A Laboratory Manual(1989),第二版，Cold Spring HarborPress,Plainview,N.Y.。用于将重组核酸转染到真核细胞中的商业试剂盒和试剂的非限制性实例包括Lipofectamine^TM2000、Optifect^TM试剂、磷酸钙转染试剂盒(Invitrogen Corp.,Carlsbad,Calif.,USA)、转染试剂、/>转染试剂(Stratagene,CA,USA)。替代地，可以通过使用杆状病毒载体将重组核酸引入到昆虫细胞(例如sf9、sf21、HighFive^TM)中。

将转化的细胞分离，以便可以单独地测试每个克隆。在一个实施方案中，这是通过将培养物铺展在一个或多个含有选择剂(或缺乏选择剂)的培养基的平板上来完成，该选择剂将确保只有转化的细胞存活和繁殖。该特异性剂可以是抗生素(如果文库含有抗生素抗性标记物)、缺失的代谢产物(用于营养缺陷体补充)或其他选择方式。细胞生长成单个菌落，每个菌落包含单一克隆。

筛选菌落用于期望的蛋白质、代谢产物或其他产物的生产，用于降低蛋白酶活性，用于生长或用于增加分泌活性。在一个实施方案中，筛选鉴定具有最高的(或足够高的)产物生产效价或效率的重组细胞。这包括降解产物的比例减少或从细胞分泌并从细胞培养物中收集的期望多肽的总量增加。

可以通过使各个克隆物(每孔一个)在多孔培养板中生长来进行此测定。一旦细胞已经达到合适的生物量密度，就用甲醇诱导它们。在一段时间(通常为诱导的24-72小时)后，通过在离心机中旋转以沉淀细胞并除去上清液来收获培养物。然后，可以测试来自每种培养物的上清液以确定是否已达到所需分泌量。

丝序列

在一些实施方案中，本文所述的经修饰菌株重组表达丝状多肽序列。在一些实施方案中，丝状多肽序列是1)通过混合和匹配来源于丝多肽序列的重复结构域产生的嵌段共聚物多肽组合物，和/或2)具有足够大尺寸(约40kDa)以通过由工业可放大的微生物分泌来形成有用的纤维的嵌段共聚物多肽的重组表达。由丝重复结构域片段工程改造的大(约40kDa至约100kDa)嵌段共聚物多肽(包括来自蜘蛛丝多肽的几乎所有公布的氨基酸序列的序列)可以在本文所述的经修饰的微生物中表达。在一些实施方案中，丝多肽序列被匹配并设计用于生产能够形成纤维的高度表达和分泌的多肽。在一些实施方案中，宿主修饰菌株中蛋白酶基因的敲除或蛋白酶活性的降低减少了丝状多肽的降解。在一些实施方案中，sec72的敲除和SSH1易位子复合体的过表达改善了分泌，同时减少了生长缺陷，维持或改善了菌株的生长。

本文在几个实施方案中提供了用于嵌段共聚物的表达和分泌的组合物，所述嵌段共聚物是从跨越丝多肽序列空间的丝多肽结构域的组合混合物工程改造的，其中所述嵌段共聚物具有最小的降解。在一些实施方案中，本文提供了在可扩展生物体(例如，酵母、真菌和革兰氏阳性细菌)中分泌具有最低的降解的嵌段共聚物的方法。在一些实施方案中，嵌段共聚物多肽包含0个或更多个N-末端结构域(NTD)、1个或更多个重复结构域(REP)和0个或更多个C-末端结构域(CTD)。在实施方案的一些方面中，嵌段共聚物多肽是单一多肽链的>100个氨基酸。在一些实施方案中，嵌段共聚物多肽包含与国际公布第WO/2015/042164号，“Methods and Compositions for Synthesizing Improved SilkFibers”(通过引用的方式整体并入)中公开的嵌段共聚物多肽序列至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％同一的结构域。

已经鉴定了几种类型的原始蜘蛛丝。据信，每种原始纺丝类型的机械性能与该丝的分子组成紧密相关。参见，例如，Garb,J.E.等人,Untangling spider silk evolutionwith spidroin terminal domains,BMC Evol.Biol.,10:243(2010)；Bittencourt,D.等人,Protein families,natural history and biotechnological aspects ofspidersilk,Genet.Mol.Res.,11:3(2012)；Rising,A.等人,Spider silk proteins:recentadvances in recombinant production,structure-function relationships andbiomedical applications,Cell.Mol.Life Sci.,68:2,pg.169-184(2011)；以及Humenik,M.等人,Spider silk:understanding the structure-function relationship of anatural fiber,Prog.Mol.Biol.Transl.Sci.,103,pg.131-85(2011)。例如：

葡萄状腺(AcSp)丝趋于具有高韧性，这是适当高的强度与适当高的延展性结合的结果。AcSp丝的特征在于大嵌段(“整体重复”)尺寸，其常常掺有聚丝氨酸和GPX的基序。管状腺(TuSp或圆柱形)丝趋于具有大直径，具有适度的强度和高延展性。TuSp丝的特征在于它们的聚丝氨酸和聚苏氨酸含量，以及短束的聚丙氨酸。大壶状腺(MaSp)丝趋于具有高强度和适度的延展性。MaSp丝可以是两个亚型：MaSp1和MaSp2中的一种。MaSp1丝的延展性通常比MaSp2丝小，并且特征在于聚丙氨酸、GX和GGX基序。MaSp2丝的特征在于聚丙氨酸、GGX和GPX基序。小壶状腺(MiSp)丝趋于具有适度的强度和适度的延展性。MiSp丝的特征在于GGX、GA和聚A基序，且常常含有约100个氨基酸的间隔元件。鞭毛腺(Flag)丝趋于具有很高的延展性和适度的强度。Flag丝的特征通常在于GPG、GGX和短间隔基序。

每个丝类型的特性可以因物种的不同而不同，并且具有不同生活方式(例如，定居纺足目(sedentary web spinner)与漫游猎蛛(vagabond hunter))或进化上更古老的蜘蛛可产生性质与前文描述不同的丝(关于蜘蛛多样性和分类的描述，参见Hormiga,G.和Griswold,C.E.,Systematics,phylogeny,and evolution oforb-weaving spiders,Annu.Rev.Entomol.59,pg.487-512(2014)；以及Blackedge,T.A.等人,Reconstructingweb evolution and spider diversification in the molecular era,Proc.Natl.Acad.Sci.U.S.A.,106:13,pg.5229-5234(2009))。然而，与原始丝蛋白的重复结构域具有序列相似性和/或氨基酸组成相似性的合成嵌段共聚物多肽，可以用于按商业规模生产重现了相应天然丝纤维的性能的一致的丝状纤维。

在一些实施方案中，可以通过在GenBank中检索相关术语，例如“蛛丝蛋白(spidroin)”、“丝心蛋白(fibroin)”、“MaSp”来汇编假定丝序列的列表，并且可以将那些序列与通过独立测序工作获得的另外的序列汇集在一起。然后将序列翻译成氨基酸，过滤重复的条目，并手动拆分成结构域(NTD、REP、CTD)。在一些实施方案中，候选氨基酸序列被反向翻译成经优化用于在毕氏(Komagataella)酵母中表达的DNA序列。将DNA序列各自克隆到表达载体中，并转化为毕氏(Komagataella)酵母。在一些实施方案中，随后以组合方式组装显示出成功表达与分泌的各种丝结构域，以构建能够形成纤维的丝分子。

丝多肽特征性地由侧接于非重复区域(例如，C-末端和N-末端结构域)的重复结构域(REP)组成。在实施方案中，C-末端和N-末端结构域的长度都介于75至350个氨基酸之间。重复结构域显示出层次架构。重复结构域包含一系列嵌段(也称为重复单元)。嵌段在整个丝重复结构域中是重复的，有时完美重复，有时不完美重复(构成一个准重复结构域)。嵌段的长度和组成在不同的丝类型之间以及不同的物种之间有所不同。表1列出了来自所选物种和丝类型的嵌段序列的实例，以下文献中给出了进一步的实例：Rising,A.等人,Spidersilk proteins:recent advances in recombinant production,structure-functionrelationships and biomedical applications,Cell Mol.Life Sci.,68:2,pg169-184(2011)，以及Gatesy,J.等人,Extreme diversity,conservation,and convergence ofspider silk fibroin sequences,Science,291:5513,pg.2603-2605(2001)。在一些情况下，嵌段可以按规则模式排列，形成在丝序列的重复结构域中出现多次(通常2至8次)的较大宏观重复体(macro-repeat)。重复结构域或宏观重复体内的重复嵌段，以及重复结构域内重复的宏观重复体，可以由间隔元件分开。在一些实施方案中，嵌段序列包含富含甘氨酸的区域，随后是聚A区域。在一些实施方案中，短(约1至10)个氨基酸基序在嵌段内多次出现。就本发明的目的而言，可以在不参考环状排列的情况下选择来自不同天然丝多肽的嵌段(即，丝多肽之间的鉴定出的其他方面相似的嵌段可能因环状排列而不能对准)。因此，例如，就本发明的目的而言，SGAGG(SEQ ID NO:23)的“嵌段”与GSGAG(SEQ ID NO:24)相同，并且与GGGSA(SEQ ID NO:25)相同；它们全部都是彼此的环状排列。针对给定丝序列选择的特定排列可能尤其由方便性(通常以G开始)决定。从NCBI数据库获得的丝序列可以划分为嵌段和非重复区域。

表4：嵌段序列的样本

/>

根据本发明某些实施方案的来自嵌段和/或宏观重复结构域的成纤嵌段共聚物多肽在国际公布第WO/2015/042164号(通过引用的方式并入)中有描述。按照结构域(N-末端结构域、重复结构域和C-末端结构域)对从蛋白质数据库(例如GenBank)或通过从头测序得到的天然丝序列进行分解。选择用于合成并且组装成纤维的N-末端结构域和C-末端结构域序列包括天然氨基酸序列信息和本文所述的其他修饰。重复结构域被分解成重复序列，该重复序列含有代表性的嵌段，该嵌段根据丝的类型，通常为1至8个，该嵌段捕获关键的氨基酸信息，同时将编码氨基酸的DNA的尺寸减小成容易合成的片段。在一些实施方案中，适当形成的嵌段共聚物多肽包含至少一个含有至少1个重复序列的重复结构域，并且任选地侧接N-末端结构域和/或C-末端结构域。

在一些实施方案中，重复结构域包含至少一个重复序列。在一些实施方案中，重复序列是150至300个氨基酸残基。在一些实施方案中，重复序列包含多个嵌段。在一些实施方案中，重复序列包含多个宏观重复体。在一些实施方案中，嵌段或宏观重复体被分割到多个重复序列中。

在一些实施方案中，重复序列以甘氨酸开始，并且不能以苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)、半胱氨酸(C)、组氨酸(H)、门冬酰胺(N)、甲硫氨酸(M)或门冬氨酸(D)结束，以满足DNA组装要求。在一些实施方案中，重复序列中的一些与原始序列相比可以改变。在一些实施方案中，可以例如通过向多肽的C-末端添加丝氨酸(以避免终止于F、Y、W、C、H、N、M或D)来改变重复序列。在一些实施方案中，可通过在不完全嵌段中填充自另一个嵌段的同源序列来修饰重复序列。在一些实施方案中，可通过重排嵌段或宏观重复体的顺序来修饰重复序列。

在一些实施方案中，可以选择非重复的N-和C-末端结构域选择用于合成。在一些实施方案中，N-末端结构域可以通过去除，例如，如通过SignalP(Peterson,T.N.等人,SignalP 4.0:discriminating signal peptides from transmembrane regions,Nat.Methods,8:10,pg.785-786(2011)所鉴定的前导信号序列。

在一些实施方案中，N-末端结构域、重复序列或C-末端结构域序列可以来自漏斗网蜘蛛(Agelenopsis aperta)、Aliatypus gulosus、哥斯大黎加斑马脚(Aphonopelmaseemanni)、短牙蛛某些种(Aptostichussp.AS217)、短牙蛛某些种(Aptostichussp.AS220)、十字园蛛(Araneus diadematus)、猫脸蜘蛛(Araneus gemmoides)、大腹圆蛛(Araneus ventricosus)、悦目金蛛(Argiope amoena)、银色金蛛(Argiope argentata)、横纹金蛛(Argiope bruennichi)、三带金蛛(Argiope trifasciata)、Atypoides riversi、巴西黄斑粉趾(Aviculariajuruensis)、加州陷门蛛(Bothriocyrtum californicum)、巨眼蛛(Deinopis Spinosa)、灰色迪格蛛(Diguetia canities)、黑捕鱼蛛(Dolomedestenebrosus)、Euagrus chisoseus、苗圃网络蜘蛛(Euprosthenops australis)、乳突棘旗蛛(Gasteracantha mammosa)、Hypochilus thorelli、Kukulcania hibernalis、黑寡妇蜘蛛(Latrodectus hesperus)、Megahexura fulva、Metepeira grandiosa、金圆网蛛(Nephila antipodiana)、棒络新妇(Nephila clavata)、络新妇蛛(Nephila clavipes)、马达加斯加新妇(Nephilamadagascariensis)、斑络新妇(Nephila pilipes)、Nephilengyscruentata、帕拉威夏双条纹蛛(Parawixia bistriata)、绿色猞猁蜘蛛(Peucetiaviridans)、原始肉食蛛(Plectreurys tristis)、印度华丽雨林蛛(Poecilotheriaregalis)、长爪绿色突光蝴蛛(Tetragnathakauaiensis)或全异妩蛛(Uloborus diversus)。

在一些实施方案中，丝多肽核苷酸编码序列可以与α交配因子核苷酸编码序列操作性地连接。在一些实施方案中，丝多肽核苷酸编码序列可以与另一种内源或异源分泌信号编码序列操作性地连接。在一些实施方案中，丝多肽核苷酸编码序列可以与3X FLAG核苷酸编码序列操作性地连接。在一些实施方案中，丝多肽核苷酸编码序列与其他亲和标签诸如6至8个His残基(SEQ ID NO:107)操作性地连接。用于向宿主细胞输送丝多肽核苷酸编码序列的载体的实例示于图5中，该图示出了包含用于表达丝状多肽的可译框架(ORF)的载体的质粒图谱，所述丝状多肽包含分泌信号和FLAG标签。该ORF可操作地连接于pGCW14启动子和tAOX1终止子。该载体还包含用于选择成功转化的细胞的选择标记物。

在一些实施方案中，该丝多肽核苷酸包含全长的蛛丝多肽。在一些实施方案中，该全长的蛛丝多肽是大壶腹蛛丝蛋白1(MaSp1)或大壶腹蛛丝蛋白2(MaSp2)。

丝状多肽

在某些实施方案中，本文公开的毕氏酵母菌株已被修饰成表达丝状多肽。WO2015/042164，尤其是第114至134段(通过引用并入本文)，提供了生产丝状多肽的优选实施方案的方法。本文公开了基于源自例如来自于物种横纹金蛛(Argiope bruennichi)的MaSp2的重组蛛丝蛋白片段序列的合成蛋白质类共聚物。描述了丝状多肽，其包括两个至二十个重复单元，其中每个重复单元的分子量大于约20kDa。在共聚物的每个重复单元内有超过约60个被组织成许多“准重复单元”的氨基酸残基。在一些实施方案中，本公开中描述的多肽的重复单元与MaSp2拖丝蛋白序列具有至少95％的序列同一性。

在一些实施方案中，丝状多肽的每个“重复单元”包含两个至二十个“准重复”单元(即，n₃是2至20)。准重复体不一定是精确的重复体。每个重复体可以由串联的准重复体组成。方程式1示出了根据本公开的重复单元的组成以及通过引用的方式从WO 2015/042164并入的重复单元的组成。每个丝状多肽可以具有一个或多个如通过方程式1限定的重复单元。

{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3.(SEQ ID NO:13)(方程式1)

可变组成元件X₁(称为“基序”)是根据方程式2中所示以下氨基酸序列中的任一序列，并且X₁在每个准重复单元中随机变化。

X₁＝SGGQQ(SEQ ID NO:14)或GAGQQ(SEQ ID NO:15)或GQGPY(SEQ ID NO:16)或AGQQ(SEQ ID NO:17)或SQ(方程式2)

再次参考方程式1，方程式1中用“GGY-[GPG-X₁]_n1-GPS”(SEQ ID NO:18)表示的准重复单元的组成元件被称为“第一区域”。准重复单元部分地通过使准重复单元中第一区域重复4至8次来形成。也就是说，n₁的值表示在单个准重复单元内重复的第一区域单元的数量，n₁的值为4、5、6、7或8中的任何一个。用“(A)_n2”(SEQ ID NO:19)(即，聚A序列)表示的组成元件被称为“第二区域”，并且是通过使氨基酸序列“A”在每个准重复单元内重复n₂次(SEQ ID NO:19)而形成的。也就是说，n₂的值表示在单个准重复单元内重复的第二区域单元的数量，n₂值为6、7、8、9、10、11、12、13、14、15、16、17、18、19或20中的任何一个。在一些实施方案中，本公开的多肽的重复单元与包含方程式1和2所述准重复单元的序列具有至少95％的序列同一性。在一些实施方案中，本公开的多肽的重复单元与含有方程式1和2所述准重复单元的序列具有至少80％，或至少90％，或至少95％，或至少99％的序列同一性。

在另外的实施方案中，3个“长”准重复单元之后是3个“短”准重复单元。短准重复单元是其中n₁＝4或5的准重复单元。长准重复单元被定义为其中n₁＝6、7或8的准重复单元。在一些实施方案中，所有短准重复体在重复单元的每个准重复单元内的相同位置处具有相同的X₁基序。在一些实施方案中，6个准重复单元中不超过3个具有相同的X₁基序。

在另外的实施方案中，重复单元由准重复单元组成，该准重复单元在重复单元内的行中使用相同的X₁不超过两次。在另外的实施方案中，重复单元由准重复单元组成，其中至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个准重复单元在重复单元的单个准重复单元中使用相同的X₁不超过2次。

因此，在一些实施方案中，本文提供了酵母的菌株，其重组表达具有降低的降解的丝状多肽以提高来自细胞培养物的经分离产物中存在的全长多肽的量。在一些实施方案中，表达丝状多肽的菌株是毕氏酵母菌株，其包含PAS_chr4_0584敲除和PAS_chr3_1157敲除。在一些实施方案中，表达丝状多肽的菌株是毕氏酵母菌株，其包含sec72敲除和/或过表达的SSH1易位子复合体。

/>

项

1.一种毕氏酵母(Pichiapastoris)微生物，其中SEC72的活性已被消除或所述sec72基因已被删除，并且其中所述微生物表达重组蛋白。

2.如项1所述的微生物，其中所述SEC72包含与SEQ ID NO:1至少95％同一的多肽序列。

3.如项1所述的微生物，其中所述SEC72包含SEQ ID NO:1。

4.如项1所述的微生物，其中所述SEC72是由sec72基因编码的。

5.如项1所述的微生物，其中所述sec72基因包含与SEQ ID NO:2至少95％同一的多核苷酸序列。

6.如项1所述的微生物，其中所述sec72基因包含SEQ ID NO:2的至少15、20、25、30、40或50个连续核苷酸。

7.如项1所述的微生物，其中所述sec72基因包含SEQ ID NO:2。

8.如项1所述的微生物，其中所述sec72基因位于所述微生物的基因座PAS_chr2-1_0448处。

9.如上述项中任一项所述的微生物，其还包含重组表达的SSH1易位子复合体。

10.如项9所述的微生物，其中所述SSH1易位子复合体包含与SEQ ID NO:4至少95％同一的第一多肽序列、与SEQ ID NO:6至少95％同一的第二多肽序列以及与SEQ IDNO:8至少95％同一的第三多肽序列。

11.如项9所述的微生物，其中所述SSH1易位子复合体包含包含SEQ ID NO:4的第一多肽、包含SEQ ID NO:6的第二多肽以及包含SEQ ID NO:8的第三多肽。

12.如上述项中任一项所述的微生物，其还包含重组表达的易位子复合体。

13.如项12所述的微生物，其中所述易位子复合体是由重组SSH1基因、重组SSS1基因以及重组SBH2基因表达的。

14.如项13所述的微生物，其中所述SSH1基因包含SEQ ID NO:3。

15.如项13所述的微生物，其中所述SSH1基因包含与SEQ ID NO:3至少95％同一的多核苷酸序列。

16.如项13所述的微生物，其中所述SSH1基因包含SEQ ID NO:3的至少15、20、25、30、40或50个连续核苷酸。

17.如项13所述的微生物，其中所述SSS1基因包含SEQ ID NO:5。

18.如项13所述的微生物，其中所述SSS1基因包含与SEQ ID NO:5至少95％同一的多核苷酸序列。

19.如项13所述的微生物，其中所述SSS1基因包含SEQ ID NO:5的至少15、20、25、30、40或50个连续核苷酸。

20.如项13所述的微生物，其中所述SBH2基因包含SEQ ID NO:7。

21.如项13所述的微生物，其中所述SBH2基因包含与SEQ ID NO:7至少95％同一的多核苷酸序列。

22.如项13所述的微生物，其中所述SBH2基因包含SEQ ID NO:7的至少15、20、25、30、40或50个连续核苷酸。

23.如项13所述的微生物，其中所述重组SSH1基因的表达使所述微生物中所述SSH1易位子的水平升高至高于原始生物体表达的水平，从而改善了所述微生物的生长速率和/或发酵性能。

24.如项12所述的微生物，其中所述易位子复合体包含SSH1蛋白、SSS1蛋白和SBH2蛋白。

25.如项24所述的微生物，其中所述SSH1蛋白包含与SEQ ID NO:4至少95％同一的多肽序列。

26.如项24所述的微生物，其中所述SSH1蛋白包含SEQ ID NO:4。

27.如项24所述的微生物，其中所述SSS1蛋白包含与SEQ ID NO:6至少95％同一的多肽序列。

28.如项24所述的微生物，其中所述SSS1蛋白包含SEQ ID NO:6。

29.如项24所述的微生物，其中所述SBH2蛋白包含与SEQ ID NO:8至少95％同一的多肽序列。

30.如项24所述的微生物，其中所述SBH2蛋白包含SEQ ID NO:8。

31.如上述项中任一项所述的微生物，其中YPS1-1蛋白酶和YPS1-2蛋白酶的活性已被减弱或消除。

32.如项31所述的微生物，其中所述YPS1-1蛋白酶包含与SEQ ID NO:10至少95％同一的多肽序列。

33.如项31所述的微生物，其中所述YPS1-1蛋白酶包含SEQ IDNO:10。

34.如项31所述的微生物，其中所述YPS1-1蛋白酶是由YPS1-1基因编码的。

35.如项34所述的微生物，其中所述YPS1-1基因包含与SEQ ID NO:9至少95％同一的多核苷酸序列。

36.如项34所述的微生物，其中所述YPS1-1基因包含SEQ ID NO:9的至少15、20、25、30、40或50个连续核苷酸。

37.如项34所述的微生物，其中所述YPS1-1基因包含SEQ ID NO:9。

38.如项34所述的微生物，其中所述YPS1-1基因位于所述微生物的基因座PAS_chr4_0584处。

39.如上述项中任一项所述的微生物，其中所述YPS1-2蛋白酶包含与SEQ ID NO:12至少95％同一的多肽序列。

40.如项31所述的微生物，其中所述YPS1-2蛋白酶包含SEQ ID NO:12。

41.如项31所述的微生物，其中所述YPS1-2蛋白酶是由YPS1-2基因编码的。

42.如项41所述的微生物，其中所述YPS1-2基因包含与SEQ ID NO:11至少95％同一的多核苷酸序列。

43.如项41所述的微生物，其中所述YPS1-2基因包含SEQ ID NO:11的至少15、20、25、30、40或50个连续核苷酸。

44.如项41所述的微生物，其中所述YPS1-2基因包含SEQ ID NO:11。

45.如项41所述的微生物，其中所述YPS1-2基因位于所述微生物的基因座PAS_chr3_1157处。

46.如项31至45中任一项所述的微生物，其中所述YPS1-1基因或所述YPS1-2基因或两者均已突变或被敲除。

47.如项31至46中任一项所述的微生物，其中一种或多种额外蛋白酶的活性已被减弱或消除。

48.如上述项中任一项所述的微生物，其中所述重组蛋白包含来自丝蛋白的至少一个嵌段多肽序列。

49.如上述项中任一项所述的微生物，其中所述重组蛋白包含丝状多肽。

50.如项49所述的微生物，其中所述丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3(SEQ ID NO:13)，其中

X1＝SGGQQ(SEQ ID NO:14)或GAGQQ(SEQ ID NO:15)或GQGPY(SEQ ID NO:16)或AGQQ(SEQ ID NO:17)或SQ；

n1是4至8；

n2是6至20；并且

n3是2至20。

51.如项49所述的微生物，其中所述丝状多肽包含由SEQ ID NO:21编码的多肽序列。

52.如上述项中任一项所述的微生物，其中所述重组蛋白包含分泌信号肽。

53.如项52所述的微生物，其中所述分泌信号肽选自由以下组成的组：PEP4信号序列、CPY+4信号序列、DAP2信号序列以及MFα1信号序列。

54.如项52所述的微生物，其中所述分泌信号肽选自由以下组成的组：SEQ ID NO:84、SEQ ID NO:86、SEQ ID NO:88以及SEQ ID NO:90。

55.一种毕氏酵母微生物，其中所述微生物的SEC72的活性已被消除或者包含SEQID NO:1的sec72基因已被敲除，其中所述微生物包含包含SEQ ID NO:3的重组表达SSH1基因、包含SEQ ID NO:5的重组表达SSS1基因，以及包含SEQ ID NO:7的重组表达SBH2基因，并且其中所述微生物包含丝状多肽，所述丝状多肽包含由SEQ ID NO:21编码的多肽序列。

56.一种包含项1至55中任一项所述的微生物的细胞培养物。

57.一种包含项9至55中任一项所述的微生物的细胞培养物，其中所述细胞培养物与不包含重组表达的SSH1易位子复合体的细胞培养物相比，在标准细胞培养条件下具有改善的菌株生长速率和发酵性能。

58.一种包含项9至55中任一项所述的微生物的细胞培养物，其中所述细胞培养物与包含功能性sec72基因但不包含重组表达的SSH1易位子复合体的其它方面同一的微生物的细胞培养物相比，在标准细胞培养条件下具有改善的所述重组蛋白收率或比生产率，其中每种微生物具有相同数量的拷贝的重组丝多肽基因。

59.一种生产重组蛋白的方法，其包括：

在适合于使所述重组表达的蛋白表达的条件下，在培养基中培养如项1至55中任一项所述的微生物；以及

从所述微生物或所述培养基中分离所述重组蛋白。

60.如项59所述的方法，其中所述重组蛋白是由所述微生物分泌的，并且其中分离所述重组蛋白包括收集包含所述分泌的重组蛋白的培养基。

61.如项59所述的方法，其中所述微生物与其中所述sec72基因未被删除的其它方面同一的微生物相比，具有增加的所述重组蛋白收率或比生产率。

62.如项59所述的方法，其中所述微生物与不包含所述重组表达的SSH1易位子复合体并且其中所述sec72基因未被删除的其他方面同一的微生物相比，具有增加的所述重组蛋白收率或比生产率。

63.一种修饰毕氏酵母以改善重组表达蛋白的分泌的方法，所述方法包括敲除编码SEC72蛋白的基因。

64.如项63所述的方法，其进一步包括用包含编码重组表达的SSH1易位子复合体的基因的载体转化所述毕氏酵母。

65.如项63所述的方法，其中所述重组表达蛋白包含丝状多肽。

66.如项63所述的方法，其中所述丝状多肽包含一个或多个重复序列{GGY-[GPG-X₁]_n1-GPS-(A)_n2}_n3(SEQ ID NO:13)，其中

X₁＝SGGQQ(SEQ ID NO:14)或GAGQQ(SEQ ID NO:15)或

GQGPY(SEQ ID NO:16)或AGQQ(SEQ ID NO:17)或SQ；

n1是4至8；

n2是6至20；并且

n3是2至20。

67.如项63所述的方法，其中所述重组表达蛋白包含由SEQ ID NO:21编码的多肽序列。

等价物和范围

本领域技术人员将认识到，或者仅仅使用常规实验就能够确定根据本文所述的本发明的具体实施方案的很多等价物。本发明的范围并非旨在限于以上描述，而是如所附权利要求书中所阐述。

在权利要求书中，冠词诸如“一个/种(a)”、“一个/种(an)”和“该/所述(the)”可以表示一个/种或多于一个/种，另有相反说明或从上下文中另有明示的除外。除非相反指示或另外根据上下文显而易知，否则如果一个、超过一个或所有群组成员存在于给定产品或过程中、被给定产品或过程所采用，或者以另外的方式与给定产品或过程相关，那么在群组的一个或多个成员之间包括“或”的权利要求或描述被视为是符合的。本发明包括其中恰好有一个群组成员存在于给定产品或过程中、被给定产品或过程所采用，或者以另外的方式与给定产品或过程相关的实施方案。本发明包括其中超过一个或所有群组成员存在于给定产品或过程中、被给定产品或过程所采用，或者以另外的方式与给定产品或过程相关的实施方案。

还应注意，术语“包含(comprising)”旨在是开放的，并且允许但不要求包括另外的元件或步骤。当在本文中使用术语“包含(comprising)”时，因此也涵盖和公开了术语“由...组成”。

如果给出的是范围，则包括端点值。此外，需要理解的是，除非另外指出或从上下文和本领域普通技术人员的理解来看显而易见，否则作为范围表达的值可以采用在本发明的不同实施方案中所陈述范围内的任何特定值或子范围，直至该范围下限的单位的十分之一，除非上下文另有明确的规定。

所有引用的来源，例如本文引用的参考文献、出版物、数据库、数据库条目和技术，都通过引用的方式并入本申请中，即使在引用中未明确陈述。如果所引用来源中的陈述与本申请中的陈述冲突，则以本申请中的陈述为准。

章节标题和表格标题并非旨在进行限制。

实施例

下文是执行本发明的具体实施方案的实施例。这些实施例的提供仅为了进行示意性的说明，不旨在以任何方式限制本发明的范围。对于所使用的数字(例如，量、温度等)，已尽力确保精确度，但是当然应该允许一些实验误差和偏差。

除非另外指明，否则本发明的实施将利用本领域的技术范围内的蛋白质化学、生物化学、重组DNA技术和药理学的常规方法。此类技术在文献中有充分解释。参见例如，T.E.Creighton，Proteins:Structures and Molecular Properties(W.H.Freeman andCompany，1993)；A.L.Lehninger，Biochemistry(Worth Publishers,Inc.,最新增补)；Sambrook等，Molecular Cloning:A Laboratory Manual(第2版，1989)；Methods InEnzymology(S.Colowick和N.Kaplan编，Academic Press,Inc.)；Remington'sPharmaceutical Sciences，第18版(Easton,Pennsylvania:Mack Publishing Company,1990)；Carey和Sundberg，Advanced Organic Chemistry，第3版(Plenum Press)，第A和B卷(1992)。

实施例1：表达18B的重组酵母的生产

如下所示的那样将毕氏酵母菌株修饰成重组表达18B丝状多肽：

首先，我们转化毕氏酵母的菌株以使KU70功能丧失，以方便进一步的编辑和工程化。用由侧接博来霉素抗性标记物并且靶向KU70基因座的同源臂组成的DNA盒，将毕氏酵母(Komagataella phaffii)菌株GS115(NRRL Y15851)的HIS+衍生物电穿孔。序列提供在表12中。将转化子接种在补加有博来霉素的YPD琼脂板上。这导致KU70功能丧失。

然后，我们修饰该菌株以使其表达编码丝状多肽的重组基因。用重组载体(SEQ IDNO:20)转化毕氏酵母(Komagataella phaffii)菌株GS115(NRRL Y15851)的HIS+衍生物，以使丝状多肽(“18B”)(SEQ ID NO:21)得以表达与分泌。通过如PMID 15679083(通过引用的方式并入本文)中所述的电穿孔完成转化。

每个载体均包括18B表达盒，该表达盒含有在侧接启动子(pGCW14)和终止子(tAOX1 pA信号)的重组载体中编码丝状蛋白的多核苷酸序列。重组载体还包含用于选择细菌和酵母转化子的主要抗性标记物以及细菌复制起点。第一重组载体包括靶向区域，其指导18B多核苷酸序列直接在毕氏酵母基因组中AOX2基因座的3′端整合。第一载体中的抗性标记物赋予对G418(又名遗传霉素)的抗性。第二重组载体包括靶向区域，其指导18B多核苷酸序列直接在毕氏酵母基因组中TEF1基因座的3′端整合。第二载体中的抗性标记物赋予对潮霉素B的抗性。

实施例2：重组Δsec72菌株的生产

用包含具有靶向sec72(SEQ ID NO:1)的5′和3′同源臂的DNA盒的载体转化被修饰成表达18B的细胞。该同源臂侧接酵母选择标记物，如图2中的质粒图谱中所示，该酵母选择标记物在插入到sec72基因中时敲除了sec72基因。将转化子接种于补加有酵母选择培养基的YPD琼脂板上，并在30℃下培育48小时。

实施例3：过表达SSH1易位子复合体的重组Δsec72菌株的生产。

将被修饰成表达18B(SEQ ID NO:21)的毕氏酵母(Δsec72)细胞用用于过表达SSH1易位子复合体的载体转化。该载体的质粒图谱示于图3中。该载体包含用于SSH1(SEQID NO:3)、SSS1(SEQ ID NO:5)和SBH2(SEQ ID NO:7)的可译框架。每个可译框架可操作地连接于启动子和终止子。将转化子接种于补加有酵母选择培养基的YPD琼脂板上，并在30℃下培育48小时。

实施例4：蛋白酶双重敲除菌株的生产

为产生ΔΔ蛋白酶菌株(即，双重蛋白酶敲除)，用包含具有侧接诺尔丝菌素抗性标记物的约1150bp同源臂的DNA盒的载体转化选择的酵母菌株。图4A中示出了包含诺尔丝菌素抗性标记物的质粒图谱，表13中给出了序列。通过表8中给出的引物扩增针对每个靶标使用的同源臂，并将其插入到诺尔丝菌素抗性质粒中。将同源臂插入到诺尔丝菌素质粒中，以产生包含侧接针对靶蛋白酶的3'和5'同源臂的诺尔丝菌素抗性标记物的盒，如图4B和图4C所示。在图4B中，示出抗性盒(Nour Resistance Cassette)侧接同源臂(HA1和HA2)。在图4C中，示出了诺尔丝菌素标记的详细信息，包括来自酿酒酵母的ILV5基因的启动子(pILV5)、来自诺丝链霉菌(Streptomyces noursei)的诺尔丝菌素乙酰基转移酶基因(nat)，以及来自酿酒酵母的CYC1基因的聚A信号。

使用具有靶向YPS1-1(SEQ ID NO:77)的同源臂的载体转化经修饰的酵母菌株。将转化子接种于补加有诺尔丝菌素的YPD琼脂板上，并在30℃下培育48小时。

表6-毕氏酵母菌株中作为删除靶标的蛋白酶。

为了产生双重敲除，从上面产生的单蛋白酶敲除菌株中消除诺尔丝菌素抗性。使用具有靶向YPS1-2(SEQ ID NO:80)的同源臂的载体转化单蛋白酶敲除菌株。将转化子接种于补加有诺尔丝菌素的YPD琼脂板上，并在30℃下培育48小时。

实施例5：Δsec72改善整个整合拷贝数的MFα-18B分泌

使用实施例1中描述的技术制备被修饰成表达二、四或六个拷贝的包含MFα1(sc)前置前导序列(pre-pro leader sequence)的18B(Ab MaSp2 79kDa)的毕氏酵母菌株。

使用实施例2中描述的技术，制备了上面中的每一种的Δsec72菌株。制备针对2X、4X和6X 18B表达菌株中的每一种的Δsec72菌株和WT菌株。通过ELISA测量针对2X、4X和6X18B表达菌株中的每一种的WT菌株和Δsec72菌株(即SEC72 KO菌株)的MFα-18B分泌，结果示于图6中。

参考图6，“丝拷贝”是在每个菌株中使用MFα1(sc)前置前导序列的18B(Ab MaSp279kDa)表达盒的数目。使用3xFLAG表位在C-端标记18B以进行ELISA检测。误差棒显示n≥4个生物复制物中的均值的标准误差。结果显示sec72基因的删除改善了整个整合拷贝数(即，2X、4X和6X丝拷贝)的MFα-18B分泌。

实施例6：Δsec72改善了来自非MFα信号的分泌

根据实施例1将毕氏酵母菌株修饰成表达4种不同的丝多肽，每种丝多肽包含不同的分泌信号：PEP4(sc)、CPY+4(sc)、DAP2(sc)和MFα1(sc)。每种完整的前导序列均是由指定信号肽与MFα1(sc)前肽(酿酒酵母直系同源物系统名称：YPL187W)构成的杂合体。(sc)指示源自酿酒酵母的信号肽。重组表达具有PEP4(sc)、CPY+4(sc)以及DAP2(sc)的多肽的菌株各自包含单表达盒(即，1个丝拷贝)。重组表达MFα1(sc)的菌株包含2个表达盒(即，2个丝拷贝)。使用实施例2中描述的技术制备上面中的每一种的Δsec72菌株以比较来自WT菌株和Δsec72菌株的分泌。对于包含DAP2(sc)的Δsec72菌株，额外地如实施例4中所述的那样对该菌株进行修饰以敲除YPS1-1和YPS1-2蛋白酶。通过ELISA测量WT菌株和Δsec72菌株中具有每个分泌信号的多肽分泌，结果示于图7中。

结果表明sec72基因的删除改善了包含非MFα1(sc)信号肽的多肽的分泌。误差棒显示n≥4个生物复制物中的均值的标准误差。

表7A：MFα1(sc)前肽序列

表7B：丝分泌信号

/>

实施例7：Δsec72改善了较长的丝和不同的丝序列的分泌。

根据实施例1将毕氏酵母菌株修饰成表达长丝多肽横纹金蛛(Argioppebruennichi)(Ab)MaSp2(106kDa)(SEQ ID NO:43)、黑寡妇蜘蛛(Latrodectus hesperus)(Lh)MaSp1(55kDa)(SEQ ID NO:44)。Ab MaSp2 106kDa(又名24B)是较长的Ab MaSp2 79kDa(18B)多联体。Lh MaSp1 55kDa是与另一类蛛丝蛋白不同的序列。

使用实施例2中描述的技术，制备每一种的Δsec72菌株以比较来自WT菌株和Δsec72菌株的分泌。额外地如实施例4中所述的那样对包含Lh MaSp1(55kDa)的菌株进行修饰以敲除YPS1-1和YPS1-2蛋白酶。通过ELISA测量WT菌株和Δsec72菌株中的长丝多肽的分泌，结果示于图8中。误差棒显示n≥4个生物复制物中的均值的标准误差。

横纹金蛛(Argioppe bruennichi)MaSp2蛋白质氨基酸序列(SEQ ID NO:43):

/>

黑寡妇蜘蛛(Latrodectus hesperus)MaSp1蛋白质氨基酸序列(SEQ ID NO:44):

实施例8：分泌随着SEC72删除而改善，但并未随着敲低或过表达而改善。

根据实施例1将毕氏酵母菌株修饰成包含4个拷贝的DNA盒，所述DNA盒包含表达18B丝状多肽的重组基因。使用实施例2中描述的技术，制备了Δsec72菌株。额外地如实施例4中所述的那样对菌株进行修饰以敲除YPS1-1和YPS1-2蛋白酶。

从该菌株，通过用包含与THI11启动子(pTHI11)可操作地连接的重组sec72基因的载体转化来制备过表达sec72的菌株。在缺乏维生素硫胺素的最低培养基中，pTHI11受到的抑制被解除。根据先前的RNAseq和启动子融合研究，pTHI11在缺乏硫胺素的嵌段和槽型最低培养基中是最强的启动子。

此外，从被修饰成表达4个拷贝的表达18B丝状多肽的重组基因而不是敲除了sec72的毕氏酵母菌株，使用DAmP(mRNA干扰所致丰度降低)敲低SEC72的表达，DAmP是一种用标记盒破坏基因的3'UTR的转录敲低策略。

通过ELISA测量WT、Δsec72、具有重组过表达的sec72(可操作地连接于pTHI11)的Δsec72，和sec72敲低菌株中18B丝状多肽的分泌，结果示于图9A中。

Δsec72表型在与sec72的可诱导等位基因互补后恢复。类似地，SEC72的敲低与WT相比并未可测量地影响丝分泌。因此，分泌随sec72删除而改善，但并未随着sec72的敲低或过表达而改善。

实施例9：SEC63复合体化学计量的其他干扰不影响丝分泌

根据实施例1将毕氏酵母菌株修饰成包含4个拷贝的DNA盒，所述DNA盒包含表达18B丝状多肽的重组基因。使用实施例2中描述的技术，制备了Δsec72菌株。

为了测试Δsec72表型是否是删除SEC72的直接影响或干扰SEC63复合体化学计量的间接影响，使用pTHI11同时过表达3个非SEC72复合体成员(SEC62、SEC63和SEC66)(通过用包含3个具有sec62、sec63和sec66的多联表达盒的载体转化该菌株来进行)。此外，使用pTHI11过表达SEC72。使用ELISA测量每个菌株的18B分泌，并与Δsec72菌株比较，结果示于图9B中。

化学计量变化(SEC62、SEC63和SEC66的过表达，或SEC72的过表达)对丝分泌均无可测量的影响。误差棒显示n≥3个生物复制物中的均值的标准误差。

实施例10：RTqPCR显示出对Δsec72(包括易位子水平)的转录适应。

使用实施例2中描述的技术制备Δsec72菌株。生长后分离mRNA，并对所选标记物执行RTqPCR以分析对Δsec72的转录适应。

作为与在最低培养基中的“WT”菌株RMs71相比的倍数变化的参考归一化的表达(ALG9或ACT1)示于图10A中。阴影表示范围，中心棒表示n＝3个生物复制物(Δsec72的n＝2除外)的中值。SSH1转录水平在全部3种干扰中均增加4-8倍。Δsec72导致SEC61易位子组分表达降低2-4倍。

图10B示出了中心化、对数尺度、参考归一化的表达数据在主成分空间上的投影，左＝PC1 vs.3，右＝PC2 vs.3。复制物均按菌株基因型着色，在基因型间比较差异时显示出低的基因型内差异。负载系数检查发现，沿PC1发生的最大变化受强SSA3抑制驱动，沿PC3发生的最大变化则受SEC61易位子复合体抑制驱动。这三个PC重构了与原20个尺寸的99％差异。

实施例11：SSH1的过表达改善了Δsec72丝分泌菌株的生长速率。

虽然SSH1在ER易位中也发挥作用，但它与SEC61的不同之处在于它对酿酒酵母生长的可省略性(dispensability)以及缺少与SEC63复合体的相互作用。SSH1可能显示出易位底物偏好性，但它们与SEC61的易位底物广泛重叠。

为测试SSH1的过表达是否能够帮助Δsec72菌株生长，使用实施例2中描述的技术制备毕氏酵母Δsec72菌株。通过PCR将SEC61和SSH1复合体(SSS1、SBH2，以及SEC61或SSH1之一)的调节和编码序列组装到整合质粒上。由此产生的整合复制了SEC61或SSH1复合体之一的基因拷贝数。如实施例3中所述的那样使用用于过表达SSH1易位子复合体的载体转化毕氏酵母(Δsec72)细胞。类似地，使用用于过表达SEC61的载体转化毕氏酵母(Δsec72)细胞。额外地如实施例4中所述的那样对所选菌株(在图11中用“ΔΔ”标示)进行修饰，以敲除YPS1-1和YPS1-2蛋白酶。

将在YPD中的预培养物按1:1600稀释到最低培养基(RMm17)中。从稀释后19小时开始，在跨越8小时指数生长的6个时间点记录OD600。用线性模型拟合log(OD600)与时间的关系，以估计n＝6个生物复制物的倍增速率和斜率标准误差。实测的每个菌株的生长示于图11中。倍增时间是以倍增速率的倒数表示。误差棒因估计值的倒数转化而不对称。

SEC61和SSH1复制促进了更快的SEC72丝生产菌株倍增(图11，左)。该影响可能是由于减小了胞内蓄积的丝的负荷所致。然而，Δsec72导致显著的生长缺陷，该生长缺陷可通过SSH1复制而部分恢复，但不能通过SEC61复制而部分恢复(图11，右)。

实施例12：SSH1复制改善了Δsec72菌株的发酵性能。

根据实施例1将毕氏酵母菌株修饰成包含4个拷贝或6个拷贝的DNA盒，所述DNA盒包含表达18B丝状多肽的重组基因。使用实施例2中描述的技术，从表达4个拷贝的DNA盒的重组细胞制备Δsec72菌株。也如实施例3中所述的那样用用于过表达SSH1易位子复合体的载体转化产生的毕氏酵母(Δsec72)细胞中的一些。使用ELISA测量每个菌株中的18B分泌，结果示于图12A和图12B中。

在图12A中，每条轨迹代表独立的分批加料发酵(batch-fed fermentation)。标记点是取出用于分析的样品，包括肉汤中分泌丝蛋白的浓度(“18B滴度”，y轴)。由于加料程序随时间变化，因此x轴是累积葡萄糖加料量。阴影表示同一菌株的所有运行的范围。Δsec72删除菌株显示了高度变化的性能。当SSH1在该菌株中复制时(“2N SSH1”)，性能改善，变化性减小。具有仅4个丝表达盒的Δsec72 2N SSH1菌株分泌接近具有6个丝表达盒的参考株的范围。

测量每个菌株培养物的比生产率(产物与生物质的比率)，结果示于图12B中。Δsec72背景生长较慢并产生较少的生物质，从而使其指标升高至高于具有较高表达、最高滴度的菌株的指标。由于Δsec72菌株的高变化性，总结的数据仅示出最高的n＝2次运行。误差棒是均值的标准误差。

其它实施方案

应当理解，已经使用的词语是描述性而不是限制性词语，并且可以在随附权利要求书的范围内作出改变，而不偏离本发明在其更广泛的方面的真实范围与精神。

虽然本发明已在一定长度上进行了描述，并且从几个所述的实施方案来看具有一些特殊性，但并不旨在将其限于任何此类细节或实施方案或任何特定实施方案，但应当参照随附权利要求书来进行解读，以便根据现有技术对此类权利要求进行尽可能广泛的解释，从而有效地涵盖发明的预期范围。

本文提到的所有公布、专利申请、专利和其他参考文献通过引用整体并入。在出现冲突的情况下，将以包括定义在内的本说明书为准。此外，章节标题、材料、方法和实施例仅具有说明性，并非意图具有限制性。

序列

表8：靶向蛋白酶ORF的5′和3′同源臂(HA)的正向(F)和反向(R)引物

表9：用于扩增修饰序列的正向和反向引物

/>

表15：本文公开的基因和序列的信息

表16：针对SSH1复合体基因的启动子和终止子的信息

/>

Claims

2.如权利要求1所述的微生物，其中所述SEC72包含与SEQ ID NO:1至少95％同一的多肽序列。

3.如权利要求1所述的微生物，其中所述SEC72包含SEQ ID NO:1。

4.如权利要求1所述的微生物，其中所述SEC72是由sec72基因编码的。

5.如权利要求1所述的微生物，其中所述sec72基因包含与SEQ ID NO:2至少95％同一的多核苷酸序列。

6.如权利要求1所述的微生物，其中所述sec72基因包含SEQ ID NO:2的至少15、20、25、30、40或50个连续核苷酸。

7.如权利要求1所述的微生物，其中所述sec72基因包含SEQ ID NO:2。

8.如权利要求1所述的微生物，其中所述sec72基因位于所述微生物的基因座PAS_chr2-1_0448处。

9.如上述权利要求中任一项所述的微生物，其还包含重组表达的SSH1易位子复合体。

10.如权利要求9所述的微生物，其中所述SSH1易位子复合体包含与SEQ ID NO:4至少95％同一的第一多肽序列、与SEQ ID NO:6至少95％同一的第二多肽序列以及与SEQ IDNO:8至少95％同一的第三多肽序列。