CN110268057B

CN110268057B - 用于鉴定和表达基因簇的系统和方法

Info

Publication number: CN110268057B
Application number: CN201780083068.2A
Authority: CN
Inventors: B·T·纳古藤; C·哈维; U·施乐驰; M·E·海伦梅耶; J·霍雷卡
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2016-11-16
Filing date: 2017-11-16
Publication date: 2024-03-29
Anticipated expiration: 2037-11-16
Also published as: CN118064425A; CA3042726A1; EP3541936A2; AU2017363141A1; CN110268057A; US20210230611A1; US20200040347A1; WO2018094110A3; MX2019005701A; EP3541936A4; MX2023006229A; WO2018094110A2; AU2017363141B2; US20230215512A1; US20240120023A1

Abstract

公开了用于鉴定生物合成基因簇的方法，所述生物合成基因簇包括用于产生与特定靶蛋白质相互作用的化合物的基因。一些方法涉及用于鉴定和/或按优先顺序排列生物合成基因簇的生物信息学方法。还公开了用于鉴定和表达此类基因簇的相关的系统、组分和工具。

Description

用于鉴定和表达基因簇的系统和方法

交叉引用

本申请要求2016年11月16日提交的美国临时申请号60/243,196、2017年4月4日提交的美国临时申请号62/481,601和2017年3月24日提交的美国系列号15/469,452的权益，这些申请通过提及而合并入本文。

对于通过EFS-WEB电子提交的序列表的引用

本申请包含序列表，其已经以ASCII格式电子提交并且特此通过提及而以其整体合并。创建于2017年11月9日的所述ASCII复本被命名为52592-702_601_SL.txt并且大小为1,208,543个字节。

关于联邦政府资助研究的声明

本发明是在由国立卫生研究院(National Institutes of Health)授予的U01GM110706下在政府支持之下完成的。政府对于本发明具有一定权利。

技术领域

总的而言，本公开内容涉及将基因簇引入到宿主生物中以用于制备小分子。在一些情况下，所述小分子是由在其中鉴定出所述基因簇的生物产生的并且调节特定蛋白质的产物的类似物。更特别地，本公开内容还涉及鉴定可能产生靶向特定靶蛋白质的产物的基因簇以及在宿主细胞中表达基因簇的方法。另外，提供了各种基因簇的序列，以及从这些基因簇产生的化合物的结构。

发明背景

在本文中所使用的“次生代谢物”是可以通过一个或多个基因簇的表达而产生的小分子。经常地，次生代谢物对于在其中天然地发现该基因簇的生物的生存来说不是关键性的。次生代谢物可以是在临床上有价值的小分子。例子包括：抗细菌产物，例如青霉素和达托霉素；抗真菌产物，例如两性霉素；降胆固醇产物，例如洛伐他汀；抗癌产物，例如紫杉醇和艾日布林(eribulin)；和免疫调节产物，包括雷帕霉素和环孢菌素。尽管在药物发现历史中存在次生代谢物的巨大成功，但是在药物发现和开发中次生代谢物的挑战可以包括：(i)极低的产量，(ii)有限的供应，(iii)对结构修饰造成困难的复杂结构，和(iv)阻碍了实际合成的复杂结构。这些困难已促使制药业在过去几十年中拥抱新技术，特别是组合化学(combinatorial chemistry)，作为对天然产物发现的备选方案。因此，由于更大地依赖于可以在高通量筛选中使用的合成文库，自20世纪40年代以来，被测试用于在人类医学治疗中使用的新的次生代谢物的百分比稳步下降。尽管制药业偏爱合成文库，但是次生代谢物拥有合成文库无法超越的巨大的结构和化学多样性。最重要地，次生代谢物经常在进化上被优化为药物样分子以靶向特定蛋白质和/或途径。

现在已对数千细菌和真菌基因组进行了测序。已知这些生物是次生代谢物的丰富来源。这些次生代谢物通过一个或多个基因(其经常集群为基因簇)的产物以酶促方式生物合成。新的基因组序列已揭示，传统的方法仅利用了这些生物的生物合成潜力的一小部分，因为平均而言，在任何单一培养条件下在微生物基因组中少于10％的生物合成基因簇(BGC)被表达。进一步地，数百万的真菌物种被认为存在于自然界中，但是还未在实验室中进行培养。因此，可以通过将在次生代谢物的合成中所使用的基因引入到可以超量产生所希望的次生代谢物或其类似物的微生物中来减少关于次生代谢物的供应瓶颈。以这种方式，微生物的巨大的、未开发利用的生态生物多样性为发现在一种或多种情景(例如疾病治疗)中有用的新型次生代谢物带来了重建的前景。

发明概述

在一些实施方案中，本公开内容涉及用于筛选多种化合物的方法，所述方法包括：鉴定包括编码与第一靶蛋白质相同或同源的蛋白质的区域或在该区域的20kb之内的基因簇，其中所述基因簇包含编码从由下列各项组成的组中选择的蛋白质的区域：(1)聚酮化合物合酶，(2)非核糖体肽合成酶，(3)萜烯合成酶，(4)UbiA-型萜烯环化酶，和(5)二甲基烯丙基转移酶；将来自所述基因簇的多个基因引入到载体中；将所述载体引入到宿主细胞中；在所述宿主细胞中表达由所述多个基因所编码的蛋白质；和测定通过所表达的蛋白质而形成或修饰的化合物是否调节所述第一靶蛋白质。在一些情况下，所述宿主细胞为酵母细胞。在一些情况下，所述酵母细胞为已被修饰从而具有增加的孢子形成频率和增加的线粒体稳定性的酵母细胞。在一些情况下，所述多个基因中的每个基因处于不同启动子的控制之下。在一些情况下，所述启动子被设计成当所述宿主细胞在不可发酵碳源存在下时增加表达。在一些情况下，通过同源重组将所述多个基因引入到所述载体中。在一些情况下，通过同源重组将所述多个基因引入到所述载体中包括：将第一多个核苷酸与第二多个核苷酸相组合，其中：所述第一多个DNA多核苷酸中的每个多核苷酸编码启动子和终止子，其中每个启动子和终止子不同于所述第一多个核苷酸中的其他多核苷酸的启动子和终止子；和所述第二多个核苷酸中的每个多核苷酸包括编码序列、在所述多核苷酸的5’侧处的第一侧翼区域和在所述多核苷酸的3’侧处的第二侧翼区域；和将所述多核苷酸引入到包括用于同源重组的机器的宿主细胞中，其中所述宿主细胞通过发生在所述第二多个多核苷酸的侧翼区域中的同源重组来装配所述表达载体；其中所述表达载体被配置成有助于由所述第二多个核苷酸编码的多个蛋白质的同时产生。在一些情况下，所述第一侧翼区域和所述第二侧翼区域的长度各自为15至75个碱基对。在一些情况下，所述第一侧翼区域和所述第二侧翼区域的长度各自为40至60个碱基对。

在一些实施方案中，本公开内容提供了用于鉴定能够产生用于调节第一靶蛋白质的小分子的基因簇的方法，所述方法包括：从包含生物合成基因簇列表的数据库中选择一个或多个基因簇，其包括或位置邻近编码与所述第一靶蛋白质相同或同源的蛋白质的区域。在一些情况下，所述一个或多个基因簇选自由下列各项组成的组：(1)包含一个或多个聚酮化合物合酶的簇，(2)包含一个或多个非核糖体肽合成酶的簇，(3)包含一个或多个萜烯合成酶的簇，(4)包含一个或多个UbiA-型萜烯环化酶的簇，和(5)包含一个或多个二甲基烯丙基转移酶的簇。在一些情况下，由被包括在所述生物合成基因簇中或位置邻近所述生物合成基因簇的区域所编码的蛋白质与所述第一靶蛋白质相同或具有大于30％同源性。在一些情况下，所述编码与所述第一靶蛋白质相同或同源的蛋白质的区域在编码聚酮化合物合酶、非核糖体肽合成酶、萜烯合成酶、UbiA-型萜烯环化酶或二甲基烯丙基转移酶的基因簇的一部分的区域的20,000个碱基对之内。在一些情况下，所述第一靶蛋白质为BRSK1。在一些情况下，选择所述一个或多个基因簇包括操作计算机，其中所述计算机的操作包括运行算法，该算法考虑了关于所述第一靶蛋白质的输入序列和来自包括来自多个物种的序列信息的数据库的序列信息这两者，从而使得所述计算机返回相应于一个或多个基因簇的信息。在一些情况下，所述算法考虑了在所述数据库中在基因簇之间的系统发生关系。在一些情况下，所述一个或多个基因簇包括关于蛋白质的编码序列，所述蛋白质为细胞外蛋白质、膜束缚蛋白质、在转运或分泌途径中所牵涉的蛋白质、与在转运或分泌途径中所涉及的蛋白质同源的蛋白质、具有肽靶向信号的蛋白质、具有与靶向信号具有同源性的末端序列的蛋白质、降解小分子的酶或者与降解小分子的酶具有同源性的蛋白质。

在一些实施方案中，本公开内容提供了用于产生调节所述第一靶蛋白质的化合物的方法，所述方法包括：鉴定基因簇(例如通过在本文中所公开的方法)；在宿主细胞中表达所述基因簇或来自所述基因簇的多个基因；和分离由所述基因簇产生的化合物。在一些情况下，所述方法进一步包括就所述第一靶蛋白质的活性的调节来筛选分离出的化合物。在一些情况下，当与所述第一靶蛋白质的调节相比较时，由簇所编码的与所述第一靶蛋白质同源的蛋白质对于由分离出的化合物进行的调节具有抗性。在一些情况下，所述化合物由于下列中的一项或多项而对于所述簇所源自的物种是不具有毒性的：(1)在靶蛋白质和由簇所编码的蛋白质之间的序列差异，(2)所述化合物与由簇所编码的蛋白质的空间隔离，和(3)关于由簇所编码的蛋白质的高表达水平。

在一些实施方案中，本发明提供了用于制备DNA载体的方法，所述方法包括：鉴定包含多个能够产生用于调节第一靶蛋白质的小分子的基因的基因簇；将所述多个基因中的两个或更多个基因引入到载体中，其中所述载体被配置成有助于所述两个或更多个基因在宿主生物中的表达；其中(1)所述基因簇编码一种或多种从由下列各项组成的组中选择的蛋白质：聚酮化合物合酶、非核糖体肽合成酶、萜烯合成酶、UbiA-型萜烯环化酶和二甲基烯丙基转移酶；和(2)所述基因簇包括或位置邻近编码与所述第一靶蛋白质相同或同源的蛋白质的区域。在一些情况下，所述DNA载体为环形质粒。在一些情况下，所述DNA载体包含多个启动子，其中所述多个启动子中的每个启动子被配置成当将所述载体引入到酿酒糖酵母(Saccharomyces cerevisiae)细胞中时，在当所述细胞展现出主要厌氧的能量代谢时推动比在当所述细胞展现出需氧能量代谢时更低水平的异源表达。在一些情况下，所述多个启动子中的每个启动子在序列上彼此不同。在一些情况下，所述多个启动子中的每个启动子具有从由SEQ ID NO:1-66组成的组中选择的序列。在一些情况下，所述多个启动子中的每个启动子具有从由SEQ ID NO:20-35和SEQ ID NO:41-50组成的组中选择的序列。在一些情况下，当所述酿酒糖酵母细胞正在展现出厌氧能量代谢时，所述细胞正在分解代谢选自葡萄糖或右旋糖的可发酵碳源；和当所述酿酒糖酵母细胞正在展现出需氧能量代谢时，所述细胞正在分解代谢选自乙醇或甘油的不可发酵碳源。

在一些实施方案中，本公开内容提供了用于在酵母菌株中异源表达多个基因的方法，所述方法包括：获得酵母菌株，其包括用于表达来自非酵母生物的单个基因簇的多个基因的载体；和诱导所述多个基因的表达；其中在所述非酵母生物中的所述基因簇包括或位置邻近编码与靶蛋白质至少30％同源的蛋白质的区域。在一些情况下，所述方法进一步包括将来自所述单个基因簇的所述多个基因引入到载体中。在一些情况下，所述方法进一步包括将所述载体引入到所述酵母菌株中。在一些情况下，所述多个基因的表达导致小分子的形成，其中所述小分子调节所述靶蛋白质的活性。在一些情况下，所述基因簇为非酵母真菌的基因簇。在一些情况下，所述酵母菌株来自酿酒糖酵母。在一些情况下，所述靶蛋白质为人蛋白质。

在一些实施方案中，本公开内容提供了用于鉴定基因簇以便用于将来自所述基因簇的多个基因引入到宿主生物中的系统，所述系统包含：处理器；包含指令的非暂时性计算机可读介质，所述指令在当被所述处理器执行时引起所述处理器实施操作，所述操作包括：将第一靶蛋白质的身份或序列加载到存储器中；将多个生物合成基因簇的身份或序列加载到存储器中；从所述多个生物合成基因簇中鉴定一个或多个编码或位置邻近这样的区域的基因簇，所述区域编码与所述第一靶蛋白质相同或同源的蛋白质；和基于每个基因簇能够用于产生调节所述第一靶蛋白质的小分子的可能性来对所述一个或多个基因簇进行评分。在一些情况下，对所述一个或多个基因簇进行评分包括比较所述第一靶蛋白质的序列(或编码所述第一靶蛋白质的DNA序列)与在所述基因簇中或邻近所述基因簇的所编码的蛋白质的序列(或编码所述在所述基因簇中或邻近所述基因簇的蛋白质的DNA序列)。

在一些实施方案中，本公开内容提供了用于鉴定一个或多个生物合成基因簇以便用于引入到宿主生物中从而产生一种或多种调节特定靶蛋白质的化合物的系统，所述系统包含：处理器；包含基因簇鉴定应用程序的存储器；其中所述基因簇鉴定应用程序指导所述处理器：将描述至少一种靶蛋白质的数据加载到所述存储器中；将描述多个生物合成基因簇的数据加载到所述存储器中；基于下列来对所述多个生物合成基因簇中的每个进行评分：对每个生物合成基因簇进行同源性搜索以确定在所述生物合成基因簇之内或与之相邻处靶蛋白质的至少一种同源物的存在；所述至少一种靶蛋白质与在生物合成基因簇中的至少一个基因的同源性的置信度；满足同一性阈值的同源基因的分数；在生物的整个基因组中存在的与所述至少一种靶蛋白质同源的基因的总数目；在所述生物合成基因簇之内或与之相邻处的至少一种靶蛋白质的所述至少一种同源物与在所述靶蛋白质的基因组中的基因的同源性；所述至少一种靶蛋白质与在簇中的基因的系统发生关系；在生物合成簇中或与之相邻处的所述至少一种靶蛋白质的同源物的预期数目；和至少一种靶蛋白质对于在天然环境中的细胞过程来说是必不可少的可能性；和输出报告，该报告鉴定了最可能产生调节所述至少一种靶蛋白质的化合物的一个或多个生物合成基因簇。

在一些实施方案中，本公开内容提供了用于选择产生次生代谢物的生物合成基因簇的方法，所述方法包括：获得基因簇列表；实施相比于来自已知生物合成基因簇的已知基因而言的在所述簇之内的基因的系统发生分析；和基于其与所述已知基因的系统发生关系来选择所述生物合成基因簇。在一些情况下，选择具有最远的与所述已知基因的系统发生关系的生物合成基因簇。

在一些实施方案中，本公开内容提供了用于鉴定产生结合目的蛋白质的化合物的基因簇的方法，所述方法包括：获得关于多个连续序列的序列信息，其中每个连续序列包括生物合成基因簇和侧翼的基因组序列；就编码与所述目的蛋白质具有同源性的蛋白质的基因的存在来分析所述连续序列；和选择包括或邻近编码与所述目的蛋白质同源的蛋白质的基因的生物合成基因簇。在一些情况下，所述连续核苷酸序列的长度小于40,000个碱基对。

在一些实施方案中，本公开内容提供了具有BY背景的经修饰的酵母细胞，其中相对于未修饰的BY4741和BY4742而言，所述经修饰的酵母细胞具有(1)增加的孢子形成频率和(2)增加的线粒体稳定性这两者。在一些情况下，所述经修饰的酵母细胞在不可发酵碳源上比未修饰的BY4741和BY4742生长得更快。在一些情况下，所述酵母细胞包含下列基因型中的一种或多种：MKT1(30G)、RME1(INS-308A)和TAO3(1493Q)。在一些情况下，所述酵母细胞包含下列基因型中的一种或多种：CAT5(91M)、MIP1(661T)、SAL1+和HAP1+。

在一些实施方案中，本公开内容提供了形成表达载体的方法，所述方法包括：将第一多个DNA多核苷酸与第二多个多核苷酸相组合，其中：所述第一多个DNA多核苷酸中的每个多核苷酸编码启动子和终止子，其中每个启动子和终止子不同于所述第一多个核苷酸中的其他多核苷酸的启动子和终止子；和所述第二多个核苷酸中的每个多核苷酸包括编码序列、在所述多核苷酸的5’侧处的第一侧翼区域和在所述多核苷酸的3’侧处的第二侧翼区域，其中每个侧翼区域的长度为15至75个碱基对；和将所述多核苷酸引入到包括用于同源重组的机器的宿主细胞中，其中所述宿主细胞通过发生在所述第二多个多核苷酸的侧翼区域中的同源重组来装配所述表达载体；其中所述表达载体被配置成有助于由所述第二多个核苷酸编码的多个蛋白质的同时产生。在一些情况下，所述宿主细胞为酵母细胞。在一些情况下，每个侧翼区域的长度为40至60个碱基对。在一些情况下，所述第一多个核苷酸中的至少一个多核苷酸编码选择标记。

在一些实施方案中，本公开内容提供了用于通过同源重组来产生合成基因簇的系统，所述系统包含1至N个独特的启动子序列、1至N个独特的终止子序列和1至N个独特的编码序列，其中：将编码序列1在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子1的最后30-70个碱基对相同并且第二末端部分与终止子1的前30-70个碱基对相同；将编码序列2在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子2的最后30-70个碱基对相同并且第二末端部分与终止子2的前30-70个碱基对相同；和将编码序列N在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子N的最后30-70个碱基对相同并且第二末端部分与终止子N的前30-70个碱基对相同。在一些情况下，终止子1和启动子2是相同的双链寡核苷酸的一部分。

在一些实施方案中，本公开内容提供了用于装配合成基因簇的方法，所述方法包括：获得1至N个独特的启动子、1至N个独特的终止子和1至N个独特的编码序列，其中：将编码序列1在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子1的最后30-70个碱基对相同并且第二末端部分与终止子1的前30-70个碱基对相同；将编码序列2在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子2的最后30-70个碱基对相同并且第二末端部分与终止子2的前30-70个碱基对相同；和将编码序列N在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子N的最后30-70个碱基对相同并且第二末端部分与终止子N的前30-70个碱基对相同；将所述1至N个启动子、终止子和编码序列转化到酵母细胞中；从所述酵母细胞中分离包含所述1至N个启动子、终止子和编码序列的质粒。在一些情况下，所述方法进一步包括关于选择标记的编码序列。在一些情况下，所述选择标记为营养缺陷型标记。在一些情况下，所述酵母细胞在DNA连接酶基因中具有缺陷。

在一些实施方案中，本公开内容提供了酵母菌株，其允许(1)同源DNA装配和(2)在相同菌株中产生异源基因这两者。在一些情况下，所述酵母菌株为DHY菌株。在一些情况下，所述菌株允许以相比于在BY中的DNA装配而言至少80％的效率通过同源重组进行DNA装配。在一些情况下，在所述菌株中异源化合物的产生以相比于在BJ5464中的异源化合物产生而言至少80％的效率来完成。在一些情况下，所述菌株允许以相比于在BJ5464中的异源蛋白质产生而言至少80％的效率来产生异源蛋白质。

在一些实施方案中，本公开内容提供了从酵母细胞中分离质粒的方法，所述方法包括：从包含质粒的酵母细胞中分离总DNA；将所述DNA与外切核酸酶一起进行温育，从而使得所述外切核酸酶降解基本上所有的在来自所述酵母细胞的分离的总DNA中的线性DNA；任选地使所述外切核酸酶失活；和收回质粒DNA。在一些情况下，所述分离的质粒DNA对于在测序反应中使用来说具有足够的纯度。在一些情况下，将所述质粒DNA进一步进行制备以用于测序反应。

在一些实施方案中，本公开内容提供了包含化合物6和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物7和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物8和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物9和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物10和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物11和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物12和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物13和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物14和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物15和在药学上可接受的赋形剂的药用组合物。在一些实施方案中，本公开内容提供了包含化合物16和在药学上可接受的赋形剂的药用组合物。

在一些实施方案中，本公开内容提供了产生化合物3的方法，所述方法包括：提供包含SEQ ID NO:200-206的编码序列的一个或多个载体；用所述一个或多个载体转化宿主细胞；在适合于表达所述编码序列的条件下在培养基中温育所述宿主细胞；和分离由所述宿主细胞产生的化合物。

通过提及的合并

在本说明书中所提及的所有出版物、专利和专利申请通过提及而合并入本文，其程度就如同明确和单独地指明每一单独的出版物、专利或专利申请通过提及而合并。

附图简述

在本文中所书写的公开内容描述了举例说明性的实施方案，其是非限制性的和非穷尽的。参考在附图中所描绘的某些此类举例说明性的实施方案，其中：

图1A图解说明了可以用于从真菌菌株获得次生代谢物的策略，鉴于所述真菌菌株的不同特性。

图1B图解说明了产生已知化学品的经表征的基因簇和具有产物的新型基因簇的例子。

图2图解说明了产生次生代谢物的酶的系统发生分析。

图3图解说明了对于潜在地有毒的次生代谢物的自我抗性机制。

图4图解说明了产生洛伐他汀的基因簇。

图5A图解说明了提取和使用化合物产物的示例性过程，依照本发明的实施方案。

图5B图解说明了产生和提取异源的生物合成化合物产物的示例性过程，依照本发明的实施方案。

图5C图解说明了用于从基因簇产生次生代谢物的示例性产生管线。

图5D图解说明了用于从基因簇产生次生代谢物的示例性工作流程。

图6A图解说明了展示出相关于时间的酵母细胞浓度的酵母时期图，以为本公开内容的各种实施方案提供参考。

图6B图解说明了展示出相关于时间的葡萄糖或右旋糖浓度的酵母时期图，以为本公开内容的各种实施方案提供参考。

图6C图解说明了展示出相关于时间的乙醇或甘油浓度的酵母时期图，以为本公开内容的各种实施方案提供参考。

图7A图解说明了具有一个生产期启动子的DNA载体，依照本公开内容的一个实施方案。

图7B图解说明了具有多个生产期启动子的DNA载体，依照本公开内容的一个实施方案。

图8A图解说明了在表达盒内具有一个生产期启动子的DNA表达载体，依照本公开内容的一个实施方案。

图8B图解说明了具有多个生产期启动子(每个在表达盒内)的DNA表达载体，依照本公开内容的一个实施方案。

图9图解说明了用于构建和使用生产期启动子DNA载体的方法，依照本公开内容的各种实施方案。

图10A图解说明了涉及酵母同源重组装配的方法的概览。

图10B图解说明了在来自图10A的那些部分的酵母中的同源重组。

图10C图解说明了由于图10A的那些部分而产生的质粒，其如在图10B中那样进行同源重组。

图10D图解说明了通过所公开的方法而获得的经改善的测序结果。

图10E图解说明了从直至14个独个片段开始进行的质粒DNA的装配。

图11A图解说明了在缺乏DNL4连接酶的背景下的经改善的装配效率。

图11B图解说明了对于四个测试装配，使用从菌落(红色)和液体培养物(蓝色)这两者制备的DNA的等价的测序效率。

图11C图解说明了通过使用标准的和经改进的NexteraXT文库制备方法这两者而观察到的测序效率。

图11D图解说明了关于通过将质粒转化到大肠杆菌(E.coli)中的步骤对来自酵母的质粒进行测序的工作流程。

图11E图解说明了关于依照在本文中所描述的方法对来自酵母的质粒进行测序的工作流程。

图12图解说明了相对于BY4741而言在酵母菌株DHY674中的经修复的SNP。

图13图解说明了在葡萄糖(发酵)和乙醇/甘油(呼吸)培养基上生长的DHY213、BJ5464和X303(W303衍生物)。

图14A图解说明了在YPD培养基中在此所描述的菌株的相对生长速率。虚线指明了双峰生长转换(培养物耗尽所有葡萄糖并且从发酵过渡至呼吸时所处的点)。源自菌株JHY692的DHY显示出显著地经改善的在培养的呼吸阶段中的生长。

图14B图解说明了在来自图14A的菌株中由PADH2启动子驱动的eGFP表达。

图14C图解说明了在来自图14A的菌株中由PPCK1启动子驱动的eGFP表达。

图15A图解说明了基因簇的例子。

图15B图解说明了由5-基因基因簇产生的聚酮化合物。

图16是依照本公开内容的各种实施方案所产生的热图图形，具有由各种酿酒糖酵母启动子驱动的增强型绿色荧光蛋白的表达数据。

图17是由各种酿酒糖酵母启动子驱动的增强型绿色荧光蛋白表达的数据图。

图18图解说明了10⁵个表达由各种启动子驱动的增强型绿色荧光蛋白的细胞的荧光强度。

图19图解说明了狭义糖酵母(Saccharomyces sensu stricto)亚属的系统发生树。

图20图解说明了在ADH2启动子中各种狭义糖酵母物种的上游激活序列的多序列比对。

图21图解说明了在各种狭义糖酵母物种的ADH2启动子之间的同源性。

图22是依照本公开内容的各种实施方案所产生的热图图形，具有由各种狭义糖酵母ADH2启动子驱动的增强型绿色荧光蛋白的表达数据。

图23是由各种狭义糖酵母ADH2启动子驱动的增强型绿色荧光蛋白表达的数据图。

图24图解说明了四种多基因表达载体构建体和所得的化合物产生的数据图，依照本发明的一个实施方案。

图25图解说明了通过真菌4-基因簇产生化合物依米吲哚(emindole)SB的生物合成过程。

图26是所产生的两种产物化合物的产生结果的数据图。

图27A图解说明了两种质粒载体构建体，依照本公开内容的一个实施方案。

图27B图解说明了在酵母细胞中的另一载体构建体，依照本公开内容的一个实施方案。

图28A图解说明了另一些基因簇的系统发生分析。所使用的缩写可以包括腺苷酸化结构域(A)、a,b-水解酶(a,b-h)、ATP-结合盒转运蛋白(ABC)、酰基载体蛋白(ACP)、醇脱氢酶(ADH)、醛酮还原酶(AK-red)、氨基氧化酶(AmOx)、氨基转移酶(AmT)、芳基磺基转移酶(ArST)、酰基转移酶结构域(AT)、C-甲基转移酶(cMT)、萜烯环化酶(Cyc)、脱水酶(DH)、功能未知结构域4246(DUF4246)、黄素腺嘌呤二核苷酸(FAD)结合蛋白(FAD)、铁依赖性醇脱氢酶(Fe-ADH)、黄素依赖性单加氧酶(FMO)、牻牛儿基牻牛儿基焦磷酸合酶(GGPPS)、糖苷酶(glycos.)、葡萄糖-甲醇-胆碱氧化还原酶(GMC)、卤化酶(Halo)、高度还原性聚酮化合物合酶(HR-PKS)、假定的蛋白质(Hyp)、吲哚-3-乙酸-氨基合成酶(IAS)、酮合酶结构域(KS)、金属-β-内酰胺酶(mBla)、线粒体磷酸载体蛋白(MCP)、主要易化子超家族转运蛋白(MFS)、金属水解酶(MH)、甲基转移酶(MT)、烟碱腺嘌呤二核苷酸依赖性脱氢酶(NAD-DH)、烟碱腺嘌呤二核苷酸磷酸(NADP)依赖性还原酶(NADP-R)、N-甲基转移酶(nMT)、非还原性聚酮化合物合酶(NR-PKS)、O-琥珀酰高丝氨酸硫化氢解酶(O-suc-SH)、O-甲基转移酶(oMT)、氧化还原酶(OxR)、细胞色素p450(p450)、二肽基肽酶(Pep)、异戊二烯基转移酶(PrT)、产物模板结构域(PT)、核黄素生物合成蛋白RibD(RibD)、RNA螺旋酶(RNAh)、起始子单元:ACP转酰基酶结构域(SAT)、短链脱氢酶(SDH)、短链脱氢酶/还原酶(SDR)、丝氨酸水解酶(SH)、糖转运蛋白(ST)、硫醇化结构域(T)、末端结构域(TD)、硫酯酶结构域(TE)、转录因子(TF)和UbiA-型萜烯环化酶(UTC)。

图28B图解说明了各种基因簇和生物合成化合物产物，依照本发明的各种实施方案。

图28C图解说明了各种基因簇和生物合成化合物产物，依照本发明的各种实施方案。

图28D图解说明了各种基因簇和生物合成化合物产物，依照本发明的各种实施方案。

图28E图解说明了各种基因簇和生物合成化合物产物，依照本发明的各种实施方案。

图28F图解说明了各种基因簇和生物合成化合物产物，依照本发明的各种实施方案。

图29A图解说明了基因簇的系统发生分析。

图29B图解说明了基因簇的校正。

图30A图解说明了在此所检查的包含PKS酶的BGC的示意图。

图30B图解说明了在此所检查的包含UTC的BGC的示意图。

图31图解说明了在表达包含PKS的BGC的菌株的自动化分析中所鉴定的所有光谱特征的火山图(volcano plot)。所有被确定为特异于表达BGC的菌株的特征通过与阴性载体对照的比较来进行鉴定。

图32图解说明了由BGC PKS1产生的特征。

图33图解说明了由BGC PKS2产生的特征。

图34图解说明了由BGC PKS4产生的特征。

图35图解说明了由BGC PKS6产生的特征。

图36图解说明了由BGC PKS8产生的特征。

图37图解说明了由BGC PKS10产生的特征。

图38图解说明了由BGC PKS13产生的特征。

图39图解说明了由BGC PKS14产生的特征。

图40图解说明了由BGC PKS15产生的特征。

图41图解说明了由BGC PKS16产生的特征。

图42图解说明了由BGC PKS17产生的特征。

图43图解说明了由BGC PKS18产生的特征。

图44图解说明了由BGC PKS20产生的特征。

图45图解说明了由BGC PKS22产生的特征。

图46图解说明了由BGC PKS23产生的特征。

图47图解说明了由BGC PKS24产生的特征。

图48图解说明了由BGC PKS28产生的特征。

图49图解说明了化合物6的NMR数据和结构。

图50图解说明了化合物7的NMR数据和结构。

图51图解说明了化合物8的NMR数据和结构。

图52图解说明了化合物9的NMR数据和结构。

图53图解说明了化合物10的NMR数据和结构。

图54图解说明了化合物11的NMR数据和结构。

图55图解说明了化合物12的NMR数据和结构。

图56图解说明了化合物13的NMR数据和结构。

图57图解说明了化合物14的NMR数据和结构。

图58图解说明了化合物15的NMR数据和结构。

图59图解说明了化合物16的NMR数据和结构。

发明详述

依照本公开内容的各种实施方案的系统和方法鉴定、重新解构(refactor)和在宿主生物中表达生物合成基因簇以产生次生代谢物。依照本公开内容的各种实施方案的系统和方法利用宿主生物来产生次生代谢物。使用宿主生物允许从生物合成基因簇产生次生代谢物，不论是否可以培养天然宿主细胞，或者所述簇是否在天然宿主中表达，参见图1A。在一些情况下，所述次生代谢物可以与一种或多种特定蛋白质相结合。在一些实施方案中，所述宿主生物通常不产生所述次生代谢物。所述宿主生物由于引入了通过使用依照本公开内容的一个实施方案进行的簇鉴定过程而鉴定出的生物合成基因簇而获得产生所述次生代谢物的能力。在一个实施方案中，簇鉴定过程鉴定出具有暗示它对产生具有新型化学的次生代谢物负责的特征的生物合成基因簇。在另一个实施方案中，簇鉴定过程(下面进一步讨论)鉴定出具有暗示它对产生与特定目的蛋白质相结合的次生代谢物负责的特征的生物合成基因簇。在一些实施方案中，本公开内容提供了在宿主生物内包括依照本公开内容的各种实施方案通过使用簇鉴定过程鉴定出的生物合成基因簇，从而使得所述宿主生物能够表达次生代谢物。在一些情况下，在所述宿主细胞中产生的次生代谢物可以与由在其中最初鉴定出所述生物合成基因簇的生物天然地产生的次生代谢物相同。在一些情况下，由所述宿主细胞产生的次生代谢物是由从其中鉴定出所述簇的生物产生的次生代谢物的类似物。在其他情况下，在所述宿主细胞中产生的次生代谢物可以在结构上不同于在起源物种中由所述簇产生的次生代谢物。在所产生的产物中的差异可能起因于来自所述簇的编码序列的表达和定位的差异。另外，来自所述簇的编码序列或其表达产物可以与在所述簇中不包含的其他编码序列或其表达产物相互作用。可以将由宿主细胞产生的次生代谢物(其不同于在所述簇的起源物种中产生的那些)称为非天然出现的次生代谢物或非天然次生代谢物。由所述宿主生物产生的次生代谢物可以进行分离，然后可以在例如治疗中使用。在一些情况下，所述次生代谢物可以在牵涉特定蛋白质的异常活性的疾病或病症的治疗中使用。本公开内容还描述了一组倍半萜类化合物和聚酮化合物产物。

簇鉴定

依照本公开内容的许多实施方案，簇鉴定过程利用生物合成基因簇的特别特性来从序列数据中鉴定目的基因簇。与本公开内容的方法一起使用的序列数据可以包括基因组序列数据、转录物组序列数据或其他序列数据。在一些情况下，序列数据可以通过对从环境样品获得的DNA样品进行测序来产生。在其他情况下，序列数据可以从公众可得的基因组序列文库获得，或者可以购买。基因组序列可以源自任何生物。在一些情况下，基因组序列可以源自真菌、细菌、古细菌或植物物种。

在一些情况下，所述基因组序列可以源自真菌。在一些情况下，所述基因组序列可以源自未充分表征或难以培养的真菌。在一些情况下，所述基因组序列可以源自经充分表征或部分表征的真菌。序列所可以源自的真菌类型的例子包括来自下列门之一的真菌：担子菌门(Basidiomycota)、子囊菌门(Ascomycota)、新丽鞭毛菌门(Neocallimastigomycota)、芽枝霉门(Blastocladiomycota)、球囊菌门(Glomeromycota)、壶菌门(Chytridiomycota)和微孢子菌门(Microsporidia)。可以为序列数据来源的真菌物种的例子包括但不限于：塔宾曲霉(Aspergillus tubingensis)、菌丝层状菌寄生(Hypomyces subiculosus)、Coniothyrium sporulosum、枝顶孢属物种(Acremonium Sp.)KY4917、黑曲霉(Aspergillus niger)、土梭孢壳(Thielavia terrestris)、变绿木霉(Trichoderma virens)、Pseudogymnoascus pannorum、尖端丝孢菌(Scedosporiumapiospermum)、金龟子绿僵菌(Metarhizium anisopliae)、异旋孢腔菌(Cochliobolusheterostrophus)、Verruconis gallopava、Moniliophthora roreri、环纹射脉菌(Punctularia strigosozonata)、Hydnomerulius pinastri、石膏样节皮菌(Arthrodermagypseum)、土耳其刚毛球壳菌(Setosphaeria turcica)、圆核腔菌(Pyrenophora teres)、Cladophialophora yegresit、解纤维踝节菌(Talaromyces cellulolyticus)、石果衣(Endocarpon pusillum)、砖红垂幕菇(Hypholoma sublateritium)、虫拟蜡菌(Ceriporiopsis subvermispora)、Botryotonia cinerea、Formitiporia mediterranea、多年异担子菌(Heterobasidion annosum)、Gelatoporia subvermispora、污叉丝孔菌(Dichomitus squalens)、糙皮侧耳(Pleurotus ostreatus)、普通裂褶菌(Schizophyllumcommune)、毛韧革菌(Stereum hirsutum)、Sternum hirsutum和长子假花耳(Dacryopinaxprimogenitus)。

在图1B中提供了流程图，其显示了可以通过使用计算机系统来执行以用于鉴定可能产生能够用于人为用途(例如，医学的)的次生代谢物的BSG和对其进行评级的过程实施方案。如所显示的，过程1000可以通过从生物学来源或序列数据库获得基因序列数据(1001)来开始。在一些情况下，所述序列数据可以源自未知物种的真菌细胞的单细胞测序。例如，环境样品可以包含许多可以被分开和测序的不同细胞。在一些情况下，所述序列数据获得自公众可得的基因数据文库，或者可以购买。经常地，所述基因序列数据是生物的基因组序列，但是可以使用任何的基因数据序列，包括部分基因组序列数据。

过程1000还鉴定生物合成基因簇(1003)。可以通过使用生物信息学方法去扫描基因组序列来鉴定簇。基因簇的特征可以包括两个或更多个基因在相互大约5kb、10kb、15kb、20kb、25kb、30kb、35kb、40kb或45kb之内的集群。可以通过已知的启动子序列、转录起始序列或与已知基因或基因特征的同源性的存在以生物信息学方法来鉴定基因。如本文中所使用的术语“同源性”是指具有高的序列同一性，例如至少大约50％、60％、70％、80％、90％、95％、97％、98％、99％或大于99％的序列同一性的序列。序列同一性可以通过使用比对工具例如经由国立生物技术信息中心(National Center for Biotechnology Information；NCBI)可得的基本局部比对搜索工具(Basic Local Alignment Search Tool；BLAST)去测定保守序列的区域来进行测定。生物合成基因簇可以通过使用生物信息学工具例如ClustScan、SMURF、CLUSEAN和/或antiSMASH来进行鉴定。生物合成基因簇典型地包含一个或多个核心生物合成基因和一个或多个剪裁基因(tailoring gene)。包含相同或高度相似的核心酶以及不同的剪裁基因的簇可以产生相当不同的化合物，如在图1C中所看到的。表达来自簇的一亚组基因也可以导致产生相比于通过表达在该簇中的所有基因而产生的化合物而言不同的化合物。

过程1000还通过利用各种因素来对基因簇进行评分和/或评级(1005)。在一些情况下，得分和等级基于待产生的次生代谢物的类型。在其他情况下，得分和等级基于在所述簇内存在的蛋白质或结构域。在更多的情况下，考虑在所述簇内的特定蛋白质与目的蛋白质的同源性水平。应当理解的是，可以使用许多不同的因素，如通过应用和使用生物合成基因簇数据所确定的。

在图1D中提供了用于通过使用计算机系统来鉴定生物合成基因簇的过程的一个实施方案。过程2000可以以获得具有基因簇的生物的基因序列数据(2001)来开始。在许多情况下，所述基因序列数据为生物的基因组序列。在其他情况下，所述基因序列数据为部分基因组序列数据。除了基因序列数据外，过程2000还获得对于目的生物合成基因簇来说是关键因素的靶序列数据(2003)。所述靶序列是使用者希望定义和鉴定簇的任何序列。在一些情况下，所述靶序列是特定的目的蛋白质结构域。在其他情况下，所述靶序列是特定的蛋白质、蛋白质同源物或蛋白质类别。

在一些实施方案中，就编码已知被牵涉在生物合成途径中的蛋白质的基因的存在来扫描簇。在生物合成途径中所牵涉的关键蛋白质包括萜烯合酶、聚酮化合物合酶(PKS，高度还原性的和非还原性的两者)、非核糖体肽合成酶、UbiA-型萜烯环化酶(UTC)、聚酮化合物合酶非核糖体肽合成酶杂合物和二甲基烯丙基转移酶(参见图2)。

过程2000还通过使用同源比对得分来在基因序列数据内鉴定靶序列(2005)。通过使用合适的应用程序，将所述靶标的序列用于与所述基因序列数据进行比对，寻找同源性的阈值。在一些情况下，当所述靶序列与所述基因序列的一部分进行比对而具有至少大约50％、60％、70％、80％、90％、95％、97％、98％、99％或大于99％的同源性时，阳性同源事件发生。序列同源性可以通过使用任何比对工具例如BLAST来进行测定。

通过使用同源比对得分，可以在围绕同源事件的区域中鉴定候选生物合成基因簇(2007)。在许多情况下，检查邻近的上游和下游基因以确定和定义基因簇。在这些情况中的一些之中，检查在任一个方向上的5、6、7、8、9、10或多个邻近基因。另外或备选地，可以通过同源事件的遗传距离来定义基因簇。也可以通过使用生物信息学工具例如ClustScan、SMURF、CLUSEAN和/或antiSMASH来定义基因簇。一旦被鉴定和定义，簇就可以储存为数据和/或通过输出界面进行报告(2009)。

在图1E中提供了用于通过使用计算机系统来对生物合成基因簇进行评级的一个实施方案。如所显示的，过程3000可以以获得多个生物合成基因簇的基因序列数据来开始。在该过程中，每个所获得的基因簇具有目的同源物蛋白质。所述目的同源物取决于使用者所希望的结果。在许多情况下，所述目的同源物具有已知被牵涉在人状况、病症或疾病中的人直向同源物。在这些情况中的一些之中，所述人直向同源物已知具有导致状况、病症或疾病的突变(先天的或体细胞的)。在这些情况中的另一些之中，所述人直向同源物被牵涉在在状况、病症或疾病中所牵涉的生物学途径之中。在其他情况下，所述目的同源物在感染性物种(包括但不限于细菌、真菌、原生动物物种)中具有直向同源物。在这些情况中的许多之中，在所述感染性物种中的直向同源物对于所述物种的生物的生活力来说是必不可少的。在这些情况中的另一些之中，在所述感染性物种中的直向同源物被牵涉在产生毒素中。此外，在许多情况下，使用者具有所希望的结果来按优先顺序排列将会产生可以靶向人或感染性物种直向同源物的次生代谢物的簇。

鉴定可以产生结合靶蛋白质的次生代谢物的基因簇可以牵涉多个不同的步骤。在一些情况下，这样的基因簇可以通过在所述簇之内或或与之相邻处一个或多个编码靶蛋白质的同源物的基因的存在来进行鉴定，如通过同源性搜索(例如，使用tblastn算法，其中当发现一个同源物时授予最大得分)所测定的。在一些情况下，基因簇可以通过所述靶标与在簇中的一个或多个基因的同源性的置信度来进行鉴定。例如，根据tblastn算法，可以选择包含具有小于大约10^-10、10^-20、10^-30、10^-35或10^-40的e值的基因的基因簇。也可以通过下述方式来选择基因簇：使用蛋白质blast方法例如blastp来将经预测的蛋白质序列针对任一已知的蛋白质序列或其他经预测的蛋白质序列进行比较。对于使用已知或经预测的蛋白质序列的blast搜索，可以选择包含具有小于大约10^-10、10^-20、10^-30、10^-35或10^-40的e值的基因的基因簇。可以按优先顺序排列所选择的基因簇，其中对于更低的e-值具有渐增的优先级得分。在一些情况下，基因簇可以通过满足某一同一性阈值的同源基因的分数来进行鉴定(例如，对于更多的同一性具有渐增的得分，和至少大约99％、95％、80％、85％、75％、70％、65％、60％、50％、45％、40％、35％、30％、25％、20％或15％覆盖范围的下限阈值)。在一些情况下，如果它包含产生与所述靶蛋白质具有至少大约20％、30％、40％、50％、60％、70％、80％、90％、95％、97％、98％、99％或100％同源性的蛋白质的基因，那么可以选择基因簇。在一些情况下，由被包括在BGC中或位置接近BGC的区域所编码的蛋白质可以与靶蛋白质相同，或者具有至少大约30％、40％、50％、60％、70％、80％、90％、95％、99％或100％同源性。在一些情况下，基因簇可以通过在所述生物的整个基因组中存在的与所述靶蛋白质同源的基因的总数目来进行鉴定(例如，对具有2-4种同源物/基因组的情况授予最大得分)。在一些情况下，基因簇可以通过在所述簇中或与之相邻处的基因与所述靶蛋白质的同源性来进行鉴定(例如，使用blastx算法，其中当在所述生物合成基因簇中的基因在所述靶蛋白质的基因组中的最近同源物是所述靶蛋白质本身时授予最大得分)。在一些情况下，基因簇可以通过所述靶蛋白质与在所述簇中的基因的系统发生关系来进行鉴定(例如，对于与所述靶蛋白质处于同一进化枝的在所述基因簇中的同源物具有渐增的得分，通过系统发生的自引检验或贝叶斯推断而分配的置信度，和在系统发生情景下被定义为同源物(其在具有0.7的自引值或0.8的贝叶斯后验概率的进化枝中出现)的下限阈值)。在一些情况下，基因簇可以通过在所述生物合成簇中或与之相邻处的所述靶标的同源物的预期数目来进行鉴定(例如，得分越大，所述靶标的同源物在具有某一大小的生物合成簇中或与之相邻处存在的概率就越低，鉴于在所述基因组中全部同源物的数目，如通过变换测试所测定的)。在一些情况下，基因簇可以通过所述靶蛋白质对于在天然环境中的生活力、生长或其他细胞过程来说是必不可少的(例如，通过在相关生物(例如酿酒糖酵母)中同源物的缺失使得所述生物不能存活的证明)可能性来进行鉴定。在一些情况下，基因簇可以通过上述方法中的一种或多种，或者通过上述方法中的任何两种或更多种来进行鉴定。

通过使用鉴定步骤，过程3000还基于指示与所述目的同源物相关的次生代谢物合成的因素来对每个生物合成基因簇进行评分(3003)。因此，基于下列中的一项或多项来对每个生物合成簇构建得分：

(a)在所述簇之内或与之相邻处靶直向同源物的一种或多种同源物的存在，如通过同源性搜索(例如，BLAST算法)所测定的；

(b)一种或多种靶直向同源物与在簇中的基因的同源性程度(例如，如通过e-值所定义的)；

(c)满足某一阈值(例如，同源蛋白质结构域的数目)的同源基因的分数；

(d)在所述生物的整个基因组中存在的与所述靶直向同源物同源的基因的总数目；

(e)在所述簇中或与之相邻处的基因与所述靶直向同源物的同源性程度；

(f)在所述基因家族中同源物的数目(例如，在人基因组中人靶基因的同源物的数目)；和/或

(g)在生物合成簇中或与之邻接处的所述靶直向同源物的同源物的预期数目(例如，所述靶标的同源物在具有某一大小的生物合成簇中或与之相邻处存在的概率，鉴于在所述基因组中全部同源物的数目，如从变换测试中所测定的)；

(h)所述基因簇与相关物种的同线性(例如，基因簇的保守性)；

(i)所述靶直向同源物的功能类别；

(j)与在所述基因簇之内的同源物相邻的特异性启动子的存在(例如，在所述同源物和生物合成基因上游的双向启动子的鉴定)；

(k)在所述生物合成簇中特异性调控元件的存在(例如，在靶直向同源物和在所述簇中的同源物/生物合成基因之中共享的转录因子结合位点的数目)；

(l)在所述簇之外的与在所述生物合成簇之内的一些或所有基因一起共调控的同源物的存在；

(m)已成功地显示出产生次生代谢物的在所述簇之内的源自蛋白质序列或DNA序列的特征的存在。

应当理解，特定的使用者可以希望使用一个、一些或所有在此所列出的因素和/或未列出的其他因素。所采用的因素取决于使用者的应用和所希望的结果。

过程3000还具有通过参考一套“真阳性”(即，在产生靶向靶标的小分子的生物合成簇例如洛伐他汀BGC中或与之相邻处存在一个或多个已知靶标的情况)来校准得分的选项(3005)。该过程的输出可以是经评级和/或评分的生物合成簇列表，其可以用于鉴定将会产生靶向疾病相关基因的产物的治疗性小分子的簇(3007)。所述经评级和/或评分的簇列表可以储存为数据或通过输出界面进行报告(3009)。

现在转向图1F，可以依照本发明的一些实施方案在单台或多台计算装置上执行计算机系统(4001)。计算机系统(4001)可以是个人计算机、便携式计算机和/或任何其他对于在本文中所描述的过程具有足够的处理能力的计算装置。所述计算机系统(401)包括处理器(403)，其可以是指可以被配置成通过储存在所述计算机系统(4001)的存储器(4007)内的机器可读指令来实施计算的在所述计算装置内的一个或多个装置。所述处理器可以包括一个或多个微处理器(CPU)、一个或多个图形处理单元(GPU)和/或一个或多个数字信号处理器(DSP)。根据本发明的其他实施方案，所述计算机系统可以在多台计算机上执行。

在本发明的许多实施方案中，所述存储器(4007)可以包含基因簇鉴定和/或评分应用程序(4009)，其实施根据贯穿本申请所描述的本发明的不同实施方案的各种方法的全部或一部分。作为例子，处理器(4003)可以实施与在上面关于图1D和1E所描述的过程中的任一个相似的基因簇鉴定和/或评分方法，在此期间存储器(4007)可以用于储存各种中间处理数据例如基因序列比对数据(例如，BLASTn)(4009a)、基因簇内关键靶序列的鉴定(4009b)、与目的蛋白质的同源物的鉴定(4009c)、同源物的表征(4009d)、基因簇的得分和/或等级(4009e)和基因簇得分的校准(4009f)。

在本发明的一些实施方案中，计算机系统(4001)可以包括输入/输出界面(4005)，其可以用于与各种各样的装置(包括但不限于其他计算系统、投影仪和/或其他显示装置)相联通。如可以容易地意识到的，各种各样的软件架构可以用于执行计算机系统，以适合于依照本发明的各种实施方案的特定应用的要求。

虽然在上面关于图1F描述了用于嵌合序列揭示和基于其的实施动作的计算机系统和过程，但是依照本发明的许多实施方案，可以使用适合于特定应用的要求的各种各样的用于与簇鉴定和/或评分相关的数据的装置和过程中的任一种。

在一些实施方案中，可以将在一个新簇或一组新簇之内的基因序列与来自已知的和经表征的生物合成基因簇的基因序列进行比较。在一些情况下，可以在新簇中的基因序列和来自经表征的基因簇的基因序列之间进行系统发生比较。如在图2中所显示的，在已经从序列数据中鉴定出的许多生物合成酶之中，仅表征了一小部分，这暗示了关于许多新型化学的潜力。系统发生分析可以在核心生物合成基因上，或者在新簇的一个或多个剪裁基因上进行。优选的簇可以是包含一个或多个与来自经表征的基因簇的序列不共享近的系统发生关系的基因序列的基因簇。在一些情况下，基因簇可以根据它们与经表征的基因簇的系统发生关系来进行排序，具有最远关系的簇对于进一步的分析来说可能是优选的。

在数个实施方案中，特定的次生代谢物被用作针对另一种生物的武器(即，对于特定类型的生物来说是有毒的或者抑制特定类型的生物的生长)。在许多情况下，有毒的次生代谢物也可以对于产生所述次生代谢物的生物来说是有毒的。因此，产生性生物可以以许多方式来抵御自我伤害，包括(但不限于)将所述次生代谢物泵出细胞，以酶促方式使所述次生代谢物不起作用，或者产生对于所述次生代谢物不太敏感或不敏感的另外版本的由所述次生代谢物所靶向的蛋白质(参见图3)。在生物产生另外版本的靶蛋白质的情况下，编码对于所述次生代谢物不太敏感的另外版本的靶蛋白质的基因的“保护性”版本经常与生物合成基因簇共定位，例如在图4中所显示的在洛伐他汀簇中的HMGR基因。虽然不同于产生靶蛋白质的基因，但是该基因的保护性版本应当产生保持可检测的与靶蛋白质的同源性的蛋白质。在数个实施方案中，所述簇鉴定过程利用该同源性来鉴定包含编码靶蛋白质的保护性同源物的基因或与之相邻的那些生物合成基因簇。在本公开内容的许多实施方案中，分析了多种生物的基因序列以检测具有该特征的生物合成基因簇。

靶蛋白质可以是在从其获得了所述基因簇的基因组序列中具有同源物的任何目的蛋白质。在一些情况下，所述靶蛋白质为酶。在一些情况下，所述靶蛋白质为信号传导蛋白质。在一些情况下，所述靶蛋白质为被起源物种所需要的蛋白质。例如，所述靶蛋白质可以是对细胞的生活力或生长做出贡献的蛋白质，并且将所述靶蛋白质从细胞中缺失或失活可以对细胞的生活力或生长具有有害效应。在一些情况下，所述靶蛋白质可以具有脊椎动物或哺乳动物同源物。在一些情况下，所述靶蛋白质具有人同源物。所述人同源物可以是在疾病中失调的蛋白质。通过使用在本文中所公开的方法而鉴定出的并且包含BRSK1基因的同源物的基因簇的例子显示在图15A中。

在一些实施方案中，产生与靶蛋白质相互作用的次生代谢物的目的生物合成簇也可以产生用于使所述次生代谢物失活或用于从在其中产生它的细胞中分泌所述次生代谢物的蛋白质。当设计表达构建体来在宿主细胞中表达该簇时，可以省略使所述次生代谢物失活的蛋白质。当设计表达构建体来在宿主细胞中表达该簇时，可以包括或省略在分泌所述次生代谢物中所牵涉的蛋白质。为了鉴定此类簇，可以使用数种方法。例如，可以从基因组数据种鉴定一组生物合成基因簇，并且可以就具有对于次生代谢物的降解来说可能有用的活性的酶的存在来分析所鉴定出的簇。在另一个例子中，可以就在转运或分泌途径中所牵涉的蛋白质的存在来分析一组生物合成基因簇。在另一个例子中，可以横跨一个或多个基因组序列进行同源性搜索以发现编码与已知降解毒性化合物的酶同源的蛋白质的基因。一旦已经鉴定出此类基因，就可以就与生物合成基因簇邻近来分析它们。与基因簇邻近可以被定义为在大约50kb、40kb、30kb、20kb、10kb、5kb、1kb或小于1kb之内。

在一些实施方案中，产生对于宿主细胞来说可能有毒的次生代谢物的基因簇也可以包含将所述次生代谢物的产生引导至特定细胞位置的信号。在一些情况下，所述酶可以膜束缚至细胞膜的细胞内或细胞外侧，或者可以分泌通过膜至细胞内或细胞外侧(包括细胞器和液泡的里面)。例如，所述簇的酶可以包含将所述酶靶向细胞外膜或靶向细胞内细胞器或液泡的膜靶向信号。在一些情况下，所述酶可以以导致所述酶的活性区域在细胞器或液泡里面的方向被靶向细胞外膜。在一些情况下，所述酶可以以导致所述酶的活性区域在细胞外面的方向被靶向细胞外膜。此类簇可以通过下述方式来进行鉴定：就肽靶向信号或与靶向信号具有同源性的末端序列的存在来分析所述簇的经预测的蛋白质。

在一些情况下，可以就基因簇来搜索基因组，并且可以就与靶基因同源的或产生与靶蛋白质同源的蛋白质的基因来搜索所鉴定出的基因簇的组。在其他情况下，可以就与靶基因同源的基因来搜索基因组，并且可以就与基因簇的联系来分析所鉴定出的基因。在其他情况下，可以就基因簇来搜索基因组，并且从系统发生上分析所鉴定出的基因簇的组以确定在所鉴定出的基因簇与已知的经表征的基因簇之间的关系。在另外其他情况下，可以就与已知的生物合成酶远距离地同源的序列来搜索新的基因组，并且可以就与基因簇的联系来分析所鉴定出的基因。

在本文中描述了通过使用依照本公开内容的许多实施方案的方法而合成的特定次生代谢物以及用于鉴定用于合成所述次生代谢物的生物合成基因簇并被所述次生代谢物所靶向的蛋白质。可以用于产生次生代谢物的方法的例子显示在图5中。如在图5A中的例示的实施方案过程中所显示的，过程100产生和提取异源化合物以用于使用。示例性的过程100可以通过就产生化合物产物的途径或BGC搜索各种生物物种的基因数据来开始(101)。在该步骤中所使用的生物物种可以是任何物种。例如，真菌和细菌物种经常包含多个在其DNA中所编码的BGC途径。同样地，待搜索的基因数据可以是任何由使用者可得的或可测定的基因数据。因此，在该谱系的一端，所述基因数据可以是经充分研究的物种(例如，特异青霉(Penicillium notatum))的经完全注释的、公众可得的基因组。在该谱系的另一端，所述基因数据可以是不能人为培养的新发现的物种的公众不可得的部分基因组序列，其中所述部分序列被发现具有可以产生化合物的基因簇。

示例性的实施方案过程100可以通过使用所述基因数据来在可接受的基因表达系统中重新构建所述化合物产物途径而继续(103)。经常地，为了重新构建所述化合物途径，将所述基因数据用于产生核酸分子(例如，DNA)，其包含足以在所述可接受的基因表达系统中产生所述产物的途径基因的编码序列。将所述核酸序列转移到所述表达系统中。表达系统是任何可以通过所述途径基因的异源表达来产生所述异源化合物的生物。典型的表达系统包括(但不限于)大肠杆菌和酿酒糖酵母。

一旦所述化合物产物途径得到重新构建并被转移在表达系统内，所述表达系统就在示例性的过程100中产生化合物(105)。典型地，所述化合物的产生是由于在所述表达系统中所述途径基因的协同表达而引起的。所述途径基因的协同表达导致主要负责构建所述异源化合物产物的酶的产生。

图5B描绘了另一个示例性的实施方案过程。示例性的过程200产生、提取和表征源自基因簇的异源表达的生物合成化合物。该过程可以以鉴定和选择具有指示化合物产生的可鉴定的性状的基因簇来开始(201)。存在数个用于选择基因簇的指示性过程，包括数个计算机执行的程序。一个这样的程序为antiSMASH2.0，其为用于挖掘用于产生次生代谢物的BGC簇的平台，其搜索核心结构以鉴定推定的BGC(K.Blin等人,Nucleic Acids Res.41:W204-12,2013，其公开内容通过提及而以其整体合并入本文)。在本文中描述了另一种这样的方法，其利用在基因组中的邻近区域内的同源物序列来鉴定推定的BGC。应当注意的是，许多其他的方法学可以用于选择BGC。

一旦已经选择出了基因簇，过程200就通过调用具有在所述簇内的各种基因的编码序列的核酸分子来继续(图5B中的203)。典型地，所述核酸分子为DNA，但是其他核酸分子(例如，RNA)可以用于某些应用。当从宿主生物中提取基因序列数据时，通常从基因中去除非翻译部分(例如，UTR、内含子)，仅留下编码序列，但是也可以使用非翻译部分，尤其是如果它们提供了有益的特征。所述核酸分子的调用可以通过许多不同的方法来进行，包括(但不限于)从宿主中直接提取、化学合成和/或cDNA产生方法(例如，宿主RNA的反转录)。不论所使用的方法为何，所得的核酸分子都可用于建造到用于异源表达的表达载体中。

示例性的过程200利用所调用的核酸分子来装配表达载体，以用于在合适的生物表达系统(例如，大肠杆菌、酿酒糖酵母)中进行表达。表达载体为具有用于在表达系统中表达异源基因的必需组分的核酸分子。常用的表达载体为质粒DNA和病毒载体，但也包括可以通过重组方法学(例如，酵母同源重组(YHR))而连在一起从而形成更长的DNA分子的成套DNA分子。

为了从表达载体中表达异源基因，可以使用表达盒，其包含合适的启动子和合适的终止子的序列，与所述异源基因序列一起。所述启动子典型地位于所述异源基因的上游并且可以调控基因的表达。可以使用许多不同类型的启动子。合适的启动子的选择取决于所希望的应用和表达特性谱。例如，在酿酒糖酵母表达系统中，生产期启动子可以仅在酵母培养物的生活周期的生产期中表达异源基因，其可以具有希望的特性。关于生产期启动子的更多描述，请参考相关的美国专利申请号15/469,452("Inducible Production-PhasePromoters For Coordinated Heterologous Expression in Yeast")，其公开通过提及而以其整体合并入本文。但是，应当理解的是，可以在所述系统内使用组成型启动子和其他应答驱动型启动子。

待在表达载体中使用的启动子的序列可以源自各种来源。大肠杆菌表达系统经常使用源自T7噬菌体的T7启动子，因为该启动子在大肠杆菌中可靠地产生高表达。内源启动子序列(例如，在大肠杆菌中的lac操纵子)被预期在生物表达系统内表现良好。

除了表达盒外，表达载体经常还具有有益于所述载体在所述生物表达系统内的复制、选择和稳定性的其他序列。在数种情况下，这些序列中的一些对于在表达系统中的维持来说是必需的。例如，在大肠杆菌或酿酒糖酵母宿主内的质粒载体需要宿主复制起点和可选择标记。所述复制起点向宿主表达系统发信号以复制所述质粒载体，以便在当宿主细胞复制和分裂时产生更多拷贝的质粒。所述可选择标记确保，只有包含所述载体的宿主细胞继续存活和繁殖。因此，这些序列对于有生活力的异源表达来说可以是必需的。

一旦装配了表达载体，就使用所述生物表达系统来表达所述异源BGC基因(207)。因此，所述表达载体将会存在于生物宿主内，从而使得所述宿主将会表达所述异源BGC基因从而产生所编码的酶。这些酶产生生物合成化合物。从所述表达系统中提取该化合物(209)。

可以对所提取的异源生物合成化合物进行表征以测定其各种结构和构象。一些所得的产物可以具有唯一的结构和构象，而其他产物将会具有有着多种构象的数种不同的结构。各种结构和构象可以通过使用质谱法、色谱法和/或其他方法来进行测定。

存在许多类别的生物合成化合物。例如，聚酮化合物和萜烯是一类源自各种生物物种的化合物。许多新的生物合成化合物可能具有有益的特性，因为已经发现众多的生物合成化合物在数个行业中是有用的。

在图5C中图解说明了用于产生异源的生物合成化合物的示例性管线。示例性的管线300利用酵母表达系统来再现真菌BGC，以便产生异源化合物产物。

管线300以选择生物合成基因簇来开始(301)。作为例子而描述了许多真菌BGC的系统发生树。使用系统发生数据，选择出具有所希望的性状的BGC。然后，将各种BGC基因的编码序列用于以化学方式合成DNA分子(303)。然后，将所合成的BGC DNA分子装配到异源表达构建体中(305)。在该例子中，通过酵母同源重组来装配所述DNA分子。因此，所合成的DNA分子具有重叠的同源序列，酵母将会使用其来将各种DNA分子重组到质粒DNA载体中。

然后，管线300利用经装配的表达载体来在酵母中维持和表达所述BGC(307)。各种异源基因的表达导致许多异源酶的表达，这些异源酶然后可以产生所述异源生物合成化合物。一旦产生了足够滴度的化合物，就可以对它进行表征以测定其结构和特性(309)。

简而言之，所述方法包括如在本文中所讨论的基因簇选择，编码序列、启动子和终止子的合成，簇编码序列的装配，在真菌宿主中的表达，和所产生的化合物的分离和表征。通过使用本文中的方法而鉴定出的基因簇以及通过在酵母中表达所鉴定出的基因而产生的化合物的例子显示在图15B中。

簇改造

一旦根据在本文中所描述的方法鉴定出了基因簇，就可以制备所述簇以用于在异源宿主细胞中进行表达。推定的基因簇的编辑可以牵涉诸如下列的步骤：内含子的除去、启动子的替换、终止子的替换、基因改组和密码子优化。例如，如果待在酿酒糖酵母中表达基因簇，那么可以将来自所述基因簇的编码序列为了酿酒糖酵母进行密码子优化，并且与酿酒糖酵母启动子和终止子可操作地相连接。

所述基因簇编辑可以依赖于所表达的序列、内含子和外显子的自动注释，或者可以依赖于所述簇的手工检查。所述基因簇编辑可以通过使用序列数据在计算机上进行，或可以通过使用DNA序列在合适载体例如克隆载体中在体外或在体内进行。在一些情况下，最初的经编辑的基因簇可能不产生产物，并且经预测的编码序列及其内含子的重新分析可以揭示出在经预测的转录起始位点、转录终止位点和/或剪接位点中的错误。

在一个实施方案中，本公开内容提供了编码各种产物的隐蔽BGC的序列(SEQ IDNO:67-483)。也可以重新改造这些BGC以提供没有内源调控序列的编码序列。可以分离来自这些簇的编码序列并且克隆到一个或多个表达载体中以用于在模型宿主系统中进行表达。所述表达载体可以为质粒、病毒、线性DNA、细菌人工染色体或酵母人工染色体。所述表达载体可以被设计成整合到宿主基因组中或者不整合。在一些情况下，所述表达载体可以为高拷贝数质粒。

启动子

经重新解构的基因簇在宿主生物中的表达可能需要几个不同编码序列的协同表达。在一些情况下，多个不同编码序列在宿主生物中的表达可能需要使用多个不同的适合于那种生物的启动子。本公开内容提供了用于发现多个具有相似的活性和表达模式但具有相异的DNA序列的启动子的方法。此类方法可以牵涉使用紧密相关的物种，例如糖酵母属(Saccharomyces)的不同物种。糖酵母属是由不同的酵母物种组成的一个真菌属。该属可以被划分为两个进一步的亚属：狭义糖酵母亚属(S.sensu stricto)和广义糖酵母亚属(S.sensu lato)。前者具有相对相似的特征，包括品种间杂交的能力，展现出十六条染色体的一致的核型，和其在发酵工业中的用途。后者是更多样的和异质的。特别重要的是在狭义糖酵母亚属内的酿酒糖酵母，其是用于遗传研究的普遍模型生物。

酿酒糖酵母这种酵母是用于异源表达生物合成系统(包括生物燃料、日用化学品和小分子药物的生产)的强有力的宿主。酵母的遗传易处理性、小规模和大规模培养的容易性以及一套经充分表征的遗传工具使得它成为用于异源表达的所希望的系统。有时候，生产系统需要两个或更多个异源基因的协同表达。在细菌(例如，大肠杆菌)中的协同表达系统长久以来采用细菌基因簇的操纵子结构(例如，lac操纵子)，从而允许单个启动子控制多个基因的表达。

因此，合成操纵子的构建允许单个诱导型启动子控制整个合成系统的表达的时机和强度。在酵母中，许多异源表达系统不依赖于操纵子系统，而是依赖于一启动子、一基因样式。因此，多基因异源表达通常通过使用多个具有经充分表征的启动子和终止子的表达盒来进行，所述表达盒每个在单个表达载体(例如，质粒DNA)上(参见D.Mumberg,R.Muller和M.Funk,Gene 156:119-22,1995)。用传统的限制-连接克隆法，也可能通过多个基因的系列克隆而在单个质粒上重新利用启动子(M.C.Tang等人,J Am Chem Soc 137:13724-27,1995)。

现在转向附图和数据，所公开的实施方案通常旨在在酵母的生产期期间的异源表达的系统和构建体。在这些实施方案中的许多之中，所述表达系统牵涉多个异源基因的协同表达。更多的实施方案旨在生产期启动子系统，其具有在酵母生长中的事件之后或者通过提供给酵母的营养物和补充物可诱导的启动子。特别地，许多实施方案旨在能够在葡萄糖和/或右旋糖存在下被阻遏的启动子。在更多的实施方案中，所述启动子为能够在甘油和/或乙醇存在下被诱导的启动子。在另外的实施方案中，在外源DNA载体(例如(但不限于)，例如穿梭载体、克隆载体和/或表达载体)内存在至少一个生产期启动子。实施方案还旨在使用表达载体来在酵母表达系统中表达异源基因。

受控的基因表达在异源表达系统中是所希望的。例如，将会希望在更长的稳定期期间表达异源基因以进行生产。因此，将培养物的厌氧生长期和需氧生产期拆开允许酵母在引入非天然地表达高数量的异源蛋白质的代谢应激之前生长至高密度。依照许多实施方案，所述厌氧生长期通过其中酵母细胞主要地分解代谢可发酵碳源(例如，葡萄糖和/或右旋糖)的酵母培养物的能量代谢和高的生长速率(即，短的倍增时间)来定义。相反地，并且依照数个实施方案，所述需氧生产期通过其中酵母细胞主要地分解代谢不可发酵碳源(例如，乙醇和/或甘油)的酵母培养物的能量代谢和稳定的生长速率(即，长的倍增时间)来定义。因此，每个酵母细胞的能量代谢可以主要地处于需氧或非需氧期中，并且取决于碳源的局部浓度。

图6A描绘了酵母培养物的时期，当提供以大约2-4％的浓度的可发酵糖例如葡萄糖或右旋糖作为其主要碳源时。最初，酵母培养物将会主要地分解代谢所述可发酵糖，其与具有非常高的倍增速率的指数生长相关。典型地，生长期持续大约4-10小时。在该时期期间，可发酵源的分解代谢导致乙醇和甘油的产生。

一旦葡萄糖变得稀少，酵母培养物的生长经过双峰生长转换并且开始主要地代谢分解不可发酵碳源(例如，乙醇和/或甘油)(图6B)。不可发酵碳源的占主要的分解代谢与更长且更稳定的生产期(其可以持续数天，或甚至在工业样情形下数周)相关(图6A)。在生产期期间，酵母培养物达到并保持高浓度，但具有低得多的倍增时间(图6A)。由于倍增速率的降低，酵母培养物不再在快速生长上耗费大量的能量和资源，并因此可以将那个能量和那些资源重新分配给其他生物学活动，包括异源表达。因此，据猜测，将异源基因的转录限制在生产期将会允许酵母培养物达到高的、健康的汇合，其反过来将会允许更好的异源蛋白质表达和生物合成生产。

在酵母中，转录调控可以以几种方式来实现，包括通过化学底物(例如，铜或甲硫氨酸)的诱导、tetON/OFF系统和被改造成结合非天然的杂合转录因子的启动子。也许，最经常采用的诱导型启动子是由内源GAL4转录因子控制的启动子。GAL4启动子在葡萄糖中被强烈地阻遏，而在转变至半乳糖作为碳源后，观察到强的转录诱导(M.Johnston和R.W.Davis,Mol.Cell Biol.4:1440-48,1984)。虽然该系统导致高水平的转录，但是仅知道四种半乳糖响应启动子，并且半乳糖相比于葡萄糖而言是更加昂贵和更低效的碳源(S.Ostergaard等人,Biotechnol.Bioeng.68:252-59,2000)。其他碳源依赖型启动子也已经用于进行异源基因表达。酿酒糖酵母ADH2基因展现出在葡萄糖耗尽后的显著的去阻遏以及被甘油或乙醇的强烈诱导(K.M.Lee&N.A.DeSilva Yeast.22:431-40,2005)。一旦被诱导，由ADH2启动子(pADH2)驱动的基因就展示出与由高度表达的组成型对应物所驱动的那些等价的表达水平。该诱导特性谱被发现在异源表达研究中工作，因为在细胞已经经历了双峰生长转换之后在发酵生长的晚期阶段中在葡萄糖耗尽后该系统自诱导。ADH2启动子已被广泛用于酵母异源表达研究，这导致了数种异源生物合成蛋白质的高水平表达(例如，参见C.D.Reeves等人,Appl.Environ.Microbiol.74:5121-29,2008)。

如在图6C中所显示的，随着葡萄糖和右旋糖减少，乙醇和甘油的浓度增加，这是由于厌氧糖酵解(即，分解可发酵糖)和随后的发酵(例如，将经分解的葡萄糖转化为醇)和甘油生物合成(即，将经分解的葡萄糖转化为甘油)。在可发酵糖耗尽后，酵母培养物经历双峰生长转换并且开始使用乙醇和甘油(代替葡萄糖)作为碳源。如本领域中所理解的，双峰生长转换被定义为当生物从主要消耗一种源用于能量转变到主要消耗另一种源时所处的时间点。典型地，该转换引发酵母培养物的基因表达模式的显著变化。因此，据猜测，较高浓度的乙醇(例如，～2-4％)和/或甘油(例如，～2％)可以用于刺激直接地或间接地对于这些浓度作出应答的启动子(参见图6A和6C)。

各种所公开的实施方案基于发现了可以用于在糖酵母属酵母中多个基因(例如，基因簇途径)的协同表达的诱导型启动子。下面描述了来自酿酒糖酵母和相关物种的诱导型启动子的组，它们在厌氧生长期间是无活性的，仅当葡萄糖接近耗尽并且酵母细胞正在呼吸(即，生产期)时在双峰生长转换后才激活转录。如在各种实施方案中所描绘的，各种生产期启动子是自诱导性的，并且允许培养物的生长期和生产期的自动拆开并因此发动异源表达而无需外源诱导物。但是，应当注意的是，许多实施方案包括在提供给酵母的不可发酵碳源(例如，乙醇和/或甘油)的存在下也是可诱导的生产期启动子。如此，多个实施方案采用重组生产期启动子，其在当宿主酵母培养物被持续地维持在包含乙醇和/或甘油的培养基中时表现得非常像组成型启动子。

一旦被激活，各种生产期启动子的强度可以变化多达50倍。最强的生产期启动子比从强的组成型启动子所观察到的更大地刺激异源表达。在其中多个基因的高表达是有益的许多不同应用中可以采用生产期启动子。因此，所述启动子可以例如用在多亚基蛋白质产生中或者用于产生由在一个途径内的多种蛋白质所产生的生物合成化合物。如在下面的一个示例性实施方案中所讨论的，一些实施方案用于表达在吲哚二萜化合物产物的产生中所牵涉的多种蛋白质。当与组成型启动子相比较时，生产期启动子在示例性二萜化合物的滴度方面产生大于2倍增加。在其他示例性实施方案中，发现生产期启动子系统在性能上胜过组成型启动子超过80倍。因此，这些启动子可以使得在酵母中生物合成系统的异源表达成为可能。

除非另有说明，数个实施方案的实践将会采用在本领域技术范围内的常规的化学、生物化学和分子生物学的方法以及重组DNA技术。此类技术在文献中已作了完全解释。参见例如A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,30current addition)；Sambrook等人,Molecular Cloning:A Laboratory Manual(第3版,2001)；Methods InEnzymology(S.Colowick和N.Kaplan编辑,Academic Press,Inc.).

用于在酵母中进行异源表达的诱导型生产期启动子

依照数个实施方案，可以将诱导型生产期启动子构建到外源表达载体中以用于在酵母属酵母中产生至少一种蛋白质。在许多实施方案中，所构建的表达载体具有多个诱导型生产期启动子以便表达多个异源基因。数个实施方案旨在生产期启动子和掺入了这些启动子的DNA载体。启动子通常被定义为紧接地位于基因的上游以便调控和促进其表达的DNA序列的非编码部分。典型地，在酿酒糖酵母和相似物种中，基因的启动子可以在基因的翻译起始密码的500-bp上游内找到。在一些情况下，启动子可以在基因的转录起始位点上游大约500bp、600bp、700bp、800bp、900bp、1kb、1.5kb、2kb或多于2kb。

依照数个实施方案，生产期启动子具有两个明确的特征。第一，生产期启动子能够阻遏基因在酿酒糖酵母和相似物种中的异源表达，当所述酵母正在展现出厌氧能量代谢时。如前面所描述的，酵母在并非微不足道的浓度的可发酵碳源例如葡萄糖或右旋糖存在下展现出厌氧代谢。另外，生产期启动子还能够诱导基因在酿酒糖酵母和相似物种中的异源表达，当所述酵母正在展现出需氧能量代谢时。如前面所描述的，酵母在当可发酵碳源接近耗尽和酵母细胞转变至不可发酵碳源例如甘油或乙醇的分解代谢时展现出需氧代谢。这些特征相应于在图6A-6C中的时期图。表1和2提供了依照数个实施方案的生产期启动子的数个例子。

生产期启动子可以基于它们相对于彼此和相对于组成型启动子而言的转基因表达水平来进行表征。如在下面的示例性实施方案中所描述的，发现酿酒糖酵母基因ADH2、PCK1、MLS1和ICL1的内源启动子的序列展现出高水平的表达，并因此可以被表征为强的生产期启动子(表1)。酿酒糖酵母基因YLR307C-A、ORF-YGR067C IDP2、ADY2、CACI、ECM13和FAT3的内源启动子的序列展现出中等水平的表达，并因此可以被表征为半强的生产期启动子(表1)。另外，酿酒糖酵母基因PUT1、NQM1、SFC1、JEN1、SIP18、ATO2、YIG1和FBP1的内源启动子的序列展现出低水平的表达，并因此可以被表征为弱的生产期启动子(表1)。

表1.生产期启动子表达表型

基因名称	系统名称	表达表型	序列ID号
				ADH2	YMR303C	强	1
PCK1	YKR097W	强	2
				MLS1	YNL117W	强	3
ICL1	YER065C	强	4
				YLR307C-A	YLR307C-A	半强	5
YGR067C	YGR067C	半强	6
				IDP2	YLR174W	半强	7
ADY2	YCR010C	半强	8
				GAC1	YOR178C	半强	9
ECM13	YBL043W	半强	10
				FAT3	YKL187C	半强	11
PUT1	YLR142W	弱	12
				NQM1	YGRO43C	弱	13
SFC1	YJR095W	弱	14
				JEN1	YKL217W	弱	15
SIP18	YMR175W	弱	16
				ATO2	YNR002C	弱	17
YIG1	YPL201C	弱	18
				FBP1	YLR377C	弱	19

紧密相关的狭义糖酵母物种具有相似的遗传学和生长特征。因此，在图6A-6C中所提供的时期图通常适用于狭义糖酵母物种。表2提供了相似地相关的物种的强的生产期外源启动子的列表，依照本公开内容的许多实施方案。

表2.狭义糖酵母物种的强的生产期启动子

应当注意的是，与所述生产启动子序列基本上相似的序列被预期调控在酿酒糖酵母中的异源表达并取得相似的结果。因此，依照许多实施方案，生产期启动子的基本上相似的序列为任何具有高的功能等价性的序列，从而使得当调控在酿酒糖酵母中的异源表达时，它取得基本上相似的结果。例如，在下面的示例性实施方案中，发现巴扬氏糖酵母的ADH2启动子是仅61％同源的，但还是在酿酒糖酵母中取得了强的异源表达，与内源ADH2启动子相似。在一些情况下，基本上相似的序列可以与在本文中所鉴定的启动子序列同源(例如，具有小于或等于10^-10、10^-20、10^-30、10^-35或10^-40的核苷酸BLAST e值)。

在图7A中显示了具有嵌入其中的一个生产期启动子序列的外源DNA载体(例如，克隆载体、表达载体和/或穿梭载体)的一个节段的示例性示意图。载体能够将核酸序列转移至靶细胞(例如，酵母)中。典型的DNA载体包括但不限于质粒或病毒构建体。DNA载体也意指包括一套各种线性DNA片段，其待进行重组以形成质粒或其他功能构建体，如在酵母同源重组方法中常见的那样(参见例如，Z.Shao,H.Zhao&H.Zhao,2009,Nucleic Acids Research37:e16,2009，其公开内容通过提及而合并入本文)。经常地，克隆载体的实施方案将会掺入除了生产期启动子外的其他序列。如在图7A中所描绘的，示例性克隆载体除了生产期启动子外还具有终止子序列和克隆/重组序列，其中每一个可以帮助表达载体构建。此外，可以将其他对于生长和扩增来说必需的序列掺入到启动子载体中。这些序列的实施方案可以包括例如，至少一个合适的复制起点、至少一个可选择标记和/或至少一个营养缺陷型标记。但是，应当注意的是，本公开内容的各种实施方案并不需要包含克隆序列、终止子序列或其他序列。例如，典型的穿梭载体的实施方案可以仅包含生产期启动子序列，连同用于在生物学系统中进行扩增的必需序列。

为了本申请的目的，外源DNA载体为任何外源地(至少部分地)进行构建的DNA载体。因此，使用酵母自己的细胞机器(例如，酵母同源重组)进行装配的DNA载体仍然将会被认为是外源的，如果被转导到用于重组的酵母内的DNA分子中的任何一个包含外源序列或者通过非宿主方法学(例如化学合成、PCR扩增或细菌扩增)来产生。

如在图7B中所显示的，本公开内容的各种实施方案旨在具有多个生产期启动子的DNA载体。在这些各种实施方案中，掺入多个不同的生产期启动子，优选地每个具有独特的序列并且源自不同的基因和/或狭义糖酵母物种。具有独特的启动子序列可以防止可以在酵母中的产物产生期间发生的复杂情况，例如，在与启动子序列相似的位点处的不想要的DNA重组，其使得DNA载体构建体变得是不希望的。在许多实施方案中，所述DNA载体具有至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或多于20个生产期启动子。随着DNA载体的大小增加，实用性可能降低，因为对于所意欲的生物来说，较大的载体可能变得难以处理。例如，用于在大肠杆菌中进行扩增的质粒经常在2,000和10,000个碱基对(bp)之间的某处，但可以处理高达20,000bp左右。同样地，用于在酵母中进行扩增和生长的质粒可以从大约10,000至30,000bp变化。另一方面，病毒载体经常具有有限的构建体大小，并因此可能需要更精确的载体大小。因此，取决于载体和所意欲的用途，在DNA载体内的生产期启动子的数目将会变化。

虽然图7B描绘了重组位点、克隆位点和终止子序列，但是应当注意的是，在具有多个生产期启动子的DNA载体的各种实施方案中，可以包括或不包括这些序列。这些序列或其他各种序列的掺入经常取决于DNA载体的目的。例如，克隆载体可以不包括终止子序列，如果那个序列待在装配的另一个阶段被掺入到表达构建体中。

图8A描绘了用于在酵母中进行表达的具有一个生产期启动子的示例性异源表达载体，依照本公开内容的各种实施方案。表达构建体包含表达盒，其具有启动子、异源基因和终止子序列以便在合适的宿主中产生RNA分子。依照许多实施方案，表达盒将会具有紧接地位于异源基因的上游的生产期启动子，所述启动子将要调控所述异源基因的表达。应当理解的是，在异源基因上游的生产期启动子的精确位置可以变化，但是启动子通常在一定的邻近近程内以充分地发挥功能。

在本公开内容的许多实施方案中，异源基因是任何由生产期启动子驱动的基因，其中所述异源基因不同于所述启动子在其内源基因组内所调控的内源基因。因此，酿酒糖酵母生产期启动子可以调控另一个酿酒糖酵母基因，条件是待被调控的基因不是内源地被调控的基因。例如，酿酒糖酵母ADH2启动子不应当调控酿酒糖酵母ADH2基因；但是，酿酒糖酵母ADH2启动子可以调控任何其他酿酒糖酵母基因或来自任何其他物种的ADH2基因。经常地，依照许多实施方案，所述异源基因来自与从其中获得所述生产启动子序列的物种不同的物种。

虽然未描绘，但是表达盒的各种实施方案可以包括其他序列，例如内含子序列、Kozak-样序列和/或蛋白质标签序列(例如，6×-His)，其可能改善或不改善表达、产生和/或纯化。在酵母中，表达载体的各种实施方案还将会最低限度地具有酵母复制起点(例如，2-μ)和营养缺陷型标记(例如，URA3)，除了表达盒外。还可以包括其他非必需序列，例如细菌复制起点和/或细菌选择标记，其将会使得表达载体能够在细菌宿主(除了酵母宿主外)中进行扩增。因此，表达载体的各种实施方案将会包括用于在酵母中进行异源表达的必需序列，和其他各种实施方案将会包括另外的非必需序列。

依照各种实施方案，可以将具有生产期启动子表达盒的DNA载体转化到酵母细胞中。或者备选地，和依照许多实施方案，可以通过使用同源重组技术在酵母内装配具有生产期启动子表达盒的DNA载体。一旦存在于酵母细胞内，生产期启动子就可以按照酵母细胞的能量代谢来调控异源基因的表达。如前面所描述的，和依照许多实施方案，当酵母处于厌氧能量代谢状态时，生产期启动子阻遏异源表达。备选地，和依照许多实施方案，当酵母细胞处于需氧能量代谢状态时，生产期启动子诱导异源表达。

在图8B中描绘了用于在酵母中表达多个基因的具有多个生产期启动子的备选的示例性异源表达载体，依照许多实施方案。在一些实施方案中，所述表达载体将会包括至少两个表达盒，每个具有独特的启动子、基因和终止子序列以便防止不想要的重组。表达盒的数目将会基于载体构建体设计和应用而变化。对于在酿酒糖酵母中的异源表达，已发现大约30,000bp的质粒表达载体仍然是被耐受的。因此，包含多达七个生产期启动子表达盒的载体可以被掺入到表达载体中并且已被发现能够维持足够的基因表达和蛋白质产生。具有更多表达盒的更大的载体可以被耐受。

虽然图8B描绘了以相同方向(5’至3’)顺次排列的多个表达盒，但是应当理解的是，两个或更多个表达盒的组合并不局限于以相同方向的顺次线性组织架构。依照许多实施方案，表达盒以任何方向和以任何顺序存在于表达载体内。此外，应当理解的是，表达载体的其他序列元件(例如，营养缺陷型标记)可以在所述多个表达盒之中和/或之间。最佳的载体设计可能依赖于各种因素，例如优化营养缺陷型标记的位置以使得最终的表达载体能够包括每个待掺入的表达盒。

DNA异源表达载体是一类DNA载体，并且因此上面的一般性DNA载体的描述也适用于表达载体。因此，将表达载体的许多实施方案配制成质粒载体、病毒载体、环状载体或一套待通过酵母同源重组而重组到质粒中的线性DNA片段。在这些实施方案中的数个之中，终产物载体包含至少一个具有生产期启动子的表达盒。应当理解的是，除了所述至少一个生产期启动子外，一些载体实施方案还掺入包括其他启动子(例如(但不限于)在生长期和生产期期间维持高表达的组成型启动子)的表达盒。

具有至少一个生产期启动子的异源表达载体的各种实施方案可以用在许多应用中。例如，在生产期中的高表达可以导致相比于组成型启动子而言更好的、延长的表达。在许多应用中，终产物为待从培养物中纯化的来自单个基因的蛋白质或多个基因的蛋白质复合物。对于这些应用，通过使用生产期启动子的高的、延长的表达可以导致更好的蛋白质产量。此外，当异源蛋白质对于宿主酵母细胞来说有毒时，生产期启动子的使用防止了该有毒蛋白质在生长期期间的表达，这允许酵母在大量蛋白质产生之前达到健康的汇合。

生产期启动子载体还可以有益于从基因簇产生生物合成化合物。许多源自各种天然物种的产物从具有顺次酶促活性的基因簇产生。例如，抗生素依米吲哚SB从在塔宾曲霉中表达的具有四个基因的簇产生。为了在酵母生产模型中再现该基因簇，具有四个不同表达盒的生产启动子载体系统可以进行工作。该系统将会允许酵母在四种异源蛋白质的能量耗竭性表达开始之前达到健康的汇合，这导致该抗生素产物的更好的总产量。事实上，在下面的实施例1中所描述的示例性实施方案中所提供的实验结果证明，生产期启动子载体在性能上胜过组成型启动子载体大约2倍来产生依米吲哚SB产物。

图9描绘了用于执行生产期启动子的各种实施方案的示例性过程(过程400)。开始，过程400鉴定和选择至少一个基因用于在酵母中进行异源表达(401)。用于表达的基因的选择将会取决于所希望的结果。例如，为了产生生物合成化合物，将会可能选择表达在特定生物的生物合成基因簇内的基因的全部或一亚组。一旦选择了基因，那么过程400就调用具有所选择的基因的编码序列的DNA分子(403)。如在本领域中所熟知的，存在许多用于调用DNA分子的方式，其包括化学合成，直接从生物学来源提取，或通过聚合酶链反应(PCR)来扩增基因。

然后，过程400使用所调用的DNA分子来将这些分子装配到具有生产期启动子的表达载体中(405)。存在许多本领域中熟知的用于装配DNA表达载体的方式，其包括流行的方法学例如同源重组和限制性酶切消化(具有随后的连接)。在装配后，可以在糖酵母属酵母中表达所得的表达载体以获得所希望的结果(407)。

用于质粒构建和直接质粒测序的酵母同源重组

所述一个或多个表达载体中的每一个可以包含一个或多个适合于在模型宿主系统中表达异源基因的启动子。每个表达载体可以包含单个编码序列或多个编码序列。可以将多个编码序列功能性地连接至单个启动子，例如通过内部核糖体进入位点，或者可以连接至多个启动子。所述表达载体还可以包含另外的元件，例如增强子、polyA序列、内含子和转录后稳定性元件，以调控或增加转录活性。所述表达载体还可以包含一个或多个可选择标记。

为了改善孤儿生物合成系统或其他系统的高通量装配和表征，开发了自动化DNA装配管线，其使用酵母同源重组(YHR)作为其核心技术。用于装配用于该管线的DNA部分的设计策略的例子图解说明在图10A中。在一个实施方案中，为装配具有异源调控的合成基因簇提供了方法。可以大批量获得编码一系列不同的启动子和终止子的DNA多核苷酸，并用于各种各样的不同的合成基因簇。一旦鉴定出了目的基因簇，就测定编码序列，然后合成所有编码序列，其在每一侧上具有侧翼序列(装配突出物)。所述装配突出物编码侧翼的启动子和终止子，如果该基因足够小以致于被安排为单个部件，或者编码相邻的基因片段，对于较长的序列。所述侧翼序列的长度可以变化。在一些情况下，所述侧翼序列的长度可以为大约30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、30-100bp、30-70bp、40-60bp、40-80bp或45-55bp。将装配突出物专门放置在独特的编码序列片段上允许大批量产生并储备所有调控盒，因为在所有装配中使用相同的片段。例如，在牵涉三个或更多个基因的装配中，可以将营养缺陷型标记放置在第二终止子和第三终止子之间，而在载体上不存在标记。通过在分开的片段上提供营养缺陷型标记和复制起点，显著地降低了反应背景。当装配宿主缺乏DNA连接酶(例如DNL4DNA连接酶)时，观察到效率的另外的适度增加。

在一些实施方案中，本公开内容提供了用于通过同源重组来产生合成基因簇的系统。所述系统包含1至N个独特的启动子序列、1至N个独特的终止子序列和1至N个独特的编码序列。可以将每个终止子序列连接至随后的启动子序列，例如终止子1连接至启动子2，终止子2连接至启动子3，以此类推直至终止子N-1，其被连接至启动子N。在一些情况下，可以将启动子1和终止子N附着至线性质粒骨架。将编码序列1在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子1的最后30-70个碱基对相同或同源并且第二末端部分与终止子1的前30-70个碱基对相同或同源。将编码序列2在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子2的最后30-70个碱基对相同或同源并且第二末端部分与终止子2的前30-70个碱基对相同或同源。将编码序列N在每个末端处附着至另外的30-70个碱基对的序列，从而使得第一末端部分与启动子N的最后30-70个碱基对相同或同源并且第二末端部分与终止子N的前30-70个碱基对相同或同源。可以通过下述方式来装配这些DNA片段：将所述1至N个启动子、终止子和编码序列转化到酵母细胞中，在那里它们通过酵母同源重组而被组合，然后从酵母细胞中分离包含所述1至N个启动子、终止子和编码序列的质粒。

该系统的一个例子显示在图10A中。在该例子中，N等于4。所述系统包含四个独特的启动子(110、120、130和140)、四个独特的终止子序列(210、220、230和240)和四个独特的编码序列(310、320、330和340)。产生所述编码序列中的每一个，其具有与前一个启动子的序列同源或相同的另外的30–70个碱基对的序列，和与后一个终止子的序列同源或相同的另外的30–70个碱基对的序列。因此，编码序列310的侧翼是与序列110的至少一部分相同或同源的序列111，和与序列210的至少一部分相同或同源的序列211。编码序列320的侧翼是与序列120的至少一部分相同或同源的序列121，和与序列220的至少一部分相同或同源的序列221。编码序列330的侧翼是与序列130的至少一部分相同或同源的序列131，和与序列230的至少一部分相同或同源的序列231。编码序列340的侧翼是与序列140的至少一部分相同或同源的序列141，和与序列240的至少一部分相同或同源的序列241。在该例子中，将启动子序列110和终止子序列240附着至线性化质粒骨架的末端，并且包含终止子210和启动子120的DNA片段进一步包含营养缺陷型标记(400)。将终止子210连接至启动子120，将终止子220连接至启动子130，和将终止子230连接至启动子140。

如在图10B中所显示的，一旦将来自图10A的DNA序列转染到酵母细胞中，同源序列就进行配对并且所述片段通过酵母同源重组而连接在一起。所得的DNA质粒图解说明在图10C中。

传统上，对于酵母同源重组质粒装配，从装配克隆中分离质粒DNA并转化到大肠杆菌中，以便获得足够纯的DNA以使得能够进行测序。该步骤的必要性起因于相对低的从酵母中的质粒产量和在每个样品中大量的污染性基因组DNA。本公开内容提供了这样的方法，通过所述方法可以直接从酵母中对质粒DNA进行测序。这可以通过经改进的质粒prep来实现，其中通过用外切核酸酶进行处理来去除大多数的污染性DNA。在该步骤中可以使用任何具有外切核酸酶活性而没有内切核酸酶活性的酶。外切核酸酶的例子包括但不限于：λ外切核酸酶，RecJf，外切核酸酶III(大肠杆菌)，外切核酸酶I(大肠杆菌)，外切核酸酶T，外切核酸酶V(RecBCD)，外切核酸酶VIII，截短的，外切核酸酶VII，T5外切核酸酶，和T7外切核酸酶。在一些情况下，所述外切核酸酶为V。如果待使用具有对于单链DNA(ssDNA)而不是双链DNA(dsDNA)的活性的外切核酸酶，那么可以首先加热DNA以使dsDNA变性。在一些情况下，可以用拓扑异构酶处理DNA以使超螺旋质粒松弛。在一些情况下，可以不用拓扑异构酶处理DNA。一旦已经通过该方法纯化了质粒DNA，就可以制备测序文库。图10D证明了用外切核酸酶处理所观察到的纯度的增加。总之，已将该管线应用于>1000个克隆的测序。可以以高的效率实现多达10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或多于30个独特的DNA片段的装配。图10E显示了2、3、4、5、6、8、10、12或14个DNA片段的有效装配。在一些情况下，在本文中所描述的菌株允许以相比于在BY中的DNA装配而言至少60％、70％、80％、90％、100％、110％、120％、130％、140％、150％或大于150％的效率进行通过同源重组的DNA装配。

为了增加通过酵母同源修复的装配的效率，测试了BY4743和BY4743ΔDNL4(其中已缺失了在非同源末端连接中所牵涉的DNL4连接酶的菌株)的相对效率。图11A图解说明了在这两个菌株中进行的数个质粒装配的效率，证明了DNL4DNA连接酶的缺失的确始终如一地充当更有效的装配背景。

如在图11E中的直接从酵母中对质粒DNA进行测序(例如，没有转化到另一宿主例如大肠杆菌中，如在图11D中)是在本文中所描述的方法的一个优点。在建立这些方法中，测试了用于质粒DNA和下一代测序(NGS)文库prep的多种制备手段。在图11B中显示了使用由从平板挑取的菌落和从1ml液体培养物收集的细胞粒状沉淀两者制备的DNA的测序效率的比较。这些数据显示，这些方法产生具有等价的纯度的样品。

最初，该平台使用NGS文库制备物，其中对经纯化的、经外切核酸酶处理的质粒DNA以超声波处理方式进行剪切，随后为末端修复、A-加尾和衔接头连接。为了减少劳动和增加通量，进行Illumina NexeraXT基于转座酶的prep的一项最近发表的改进(M.Baym等人,PLoS One 10:e01280367,2015)。超声波剪切需要多个克隆平板的串行加工，而tagmentation允许多个平板的平行加工。图11C证明，该经改进的Nextera制备物提供了相比于标准方法而言等价的效率。

该方法可以适合于在多菌株背景下的多种DNA制备方法。另外，显示该方法与用于在Illumina平台上进行测序的各种文库制备物是相容的。预期该方法可以容易地进行改进以在使用备选的测序平台例如由Pacific Bioscience和Oxford Nanopore technologies所提供的那些的测序工作流程中发挥作用。

宿主细胞

可以将表达载体转染到宿主细胞中以产生次生代谢物。所述宿主细胞可以为任何能够从表达载体表达编码序列的细胞。所述宿主细胞可以为可以以高密度进行生长和维持的细胞。例如，所述宿主细胞可以为可以在生物反应器或发酵罐中进行生长和维持的细胞。所述宿主细胞可以为真菌细胞、酵母细胞、植物细胞、昆虫细胞或哺乳动物细胞。

在一些情况下，所述宿主细胞为细菌细胞。所述细菌可以为变形菌门(Proteobacteria)例如柄杆菌(Caulobacteria)、光养细菌、冷适应细菌、假单胞菌(Pseudomonads)或嗜盐细菌；放线菌门(Actinobacteria)例如链霉菌(Streptomycetes)、诺卡氏菌(Norcardia)、分支杆菌(Mycobacteria)或棒杆菌(Coryneform)；厚壁菌门(Firmicutes)细菌例如芽孢杆菌(Bacilli)或乳酸细菌。可以使用的细菌的例子包括但不限于：新月柄杆菌(Caulobacter crescentus)、类球红细菌(Rhodobacter sphaeroides)、盐浮假交替单胞菌(Pseudoalteromonas haloplanktis)、希瓦氏菌属物种(Shewanellasp.)菌株Ac10、荧光假单胞菌(Pseudomonas fluorescens)、恶臭假单胞菌(Pseudomonasputida)、铜绿假单胞菌(Pseudomonas aeruginosa)、伸长盐单胞菌(Halomonaselongata)、需盐色盐杆菌(Chromohalobacter salexigens)、浅青紫链霉菌(Streptomyceslividans)、灰色链霉菌(Streptomyces griseus)、耐内酰胺诺卡氏菌(Nocardialactamdurans)、耻垢分枝杆菌(Mycobacterium smegmatis)、谷氨酸棒杆菌(Corynebacterium glutamicum)、产氨棒杆菌(Corynebacterium ammoniagenes)、乳发酵短杆菌(Brevibacterium lactofermentum)、枯草芽孢杆菌(Bacillus subtilis)、短芽孢杆菌(Bacillus brevis)、巨大芽孢杆菌(Bacillus megaterium)、地衣芽孢杆菌(Bacilluslicheniformis)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、乳酸乳球菌(Lactococcus lactis)、植物乳杆菌(Lactobacillus plantarum)、干酪乳杆菌(Lactobacillus casei)、路氏乳杆菌(Lactobacillus reuteri)和加氏乳杆菌(Lactobacillus gasseri)。

在一些情况下，所述宿主细胞为真菌细胞。在一些情况下，所述宿主细胞为酵母细胞。酵母细胞的例子包括但不限于：酿酒糖酵母、粟酒糖酵母(Saccharomyces pombe)、白色假丝酵母(Candida albicans)和新型隐球酵母(Cryptococus neoformans)。在一些情况下，所述宿主细胞可以为丝状真菌，例如霉菌。霉菌的例子包括但不限于：枝顶孢属(Acremonium)、链格孢属(Alternaria)、曲霉属(Aspergillus)、枝孢属(Cladosporium)、镰孢属(Fusarium)、毛霉属(Mucor)、青霉属(Penicillium)和根霉属(Rhizopus)。在一些情况下，所述宿主细胞可以为枝顶孢属细胞。在一些情况下，所述宿主细胞可以为链格孢属细胞。在一些情况下，所述宿主细胞可以为曲霉属细胞。在一些情况下，所述宿主细胞可以为枝孢属细胞。在一些情况下，所述宿主细胞可以为镰孢属细胞。在一些情况下，所述宿主细胞可以为毛霉属细胞。在一些情况下，所述宿主细胞可以为青霉属细胞。在一些情况下，所述宿主细胞可以为根霉属细胞。

在一些情况下，所述宿主细胞可以为昆虫细胞。在一些情况下，所述宿主细胞可以为哺乳动物细胞。哺乳动物细胞系的例子包括HeLa细胞、HEK293细胞、B16黑素瘤细胞、中国仓鼠卵巢细胞或HT1080。在一些情况下，所述宿主细胞为植物细胞。在一些情况下，所述宿主细胞可以为多细胞宿主生物的一部分。

在一些情况下，所述宿主细胞为经基因工程改造的细胞。酵母菌株BJ5464在历史上已经是用于表达异源蛋白质的重负荷的菌株。BJ5464缺乏两个液泡蛋白酶基因(PEP4和PRB1)，这使得该菌株对于生物化学研究来说是有用的，这归因于减少的蛋白质降解。但是，BJ5464具有几个限制其实用性的问题。它具有高的小细胞形成率，其导致不能呼吸(在作为碳源的乙醇上生长)和不能表达在该计划中所使用的由呼吸诱导的启动子的子代。它不是在遗传上易处理的，因为它不能形成孢子，并且它的非缺失营养缺陷型标记阻止容易的基因组编辑。最后，BJ5464是缓慢生长的。

本公开内容包括一种新的基于BY背景的酵母超级宿主。BY是酵母基因组序列参考菌株的直接后代，并且包含营养缺陷型标记的完全缺失，这有助于基因组编辑。它是带条形码的缺失集合的基础，其已导致丰富的基因和化学基因组数据。但是，它也具有限制其实用性的主要问题。特别地，它具有在所有常用实验室菌株中最差的孢子形成频率和最高的小菌落频率。

小菌落表型由于在需氧呼吸方面的缺陷而发生。小菌落酵母不能在不可发酵碳源(例如甘油或乙醇)上生长，并且当在可发酵碳源(例如葡萄糖)存在下生长时形成小的厌氧大小的菌落。所述表型由于在线粒体基因组中的突变、线粒体的丧失或在宿主细胞基因组中的突变而引起。

已鉴定出了对孢子形成和呼吸缺陷负责的基因和单核苷酸多态性(SNP)(图12)。孢子形成缺陷可以通过与以前经修复的菌株的一系列遗传杂交来进行修复。由线粒体基因组不稳定性引起的呼吸问题也可以通过使用基因组编辑来进行校正。基因组编辑可以用本领域中已知的任何方法来进行，例如50:50方法(J.Horecka和R.W.Davis.Yeast 31:103-12,2014)。在一些情况下，可以使用Mega 50:50的经改进的版本，其中将双链断裂引入到待修饰的基因组座位中，从而将效率增加几个数量级(J.D.Smith等人,Mol.Syst.Biol.13:913,2017)。

在一些实施方案中，所述宿主细胞可以为已被改造成修复了孢子形成缺陷的细胞。例如，所述宿主细胞可以为具有经修复的孢子形成缺陷的真菌细胞。在一些情况下，所述宿主细胞可以为具有经修复的孢子形成缺陷的酵母细胞。在一些情况下，所述宿主细胞为其中孢子形成缺陷已被修复的BY酵母细胞，如在图12中那样。

在一些情况下，所述宿主细胞可以为已被改造成修复了呼吸缺陷或线粒体基因组不稳定性缺陷的细胞。例如，所述宿主细胞可以为具有经修复的线粒体稳定性缺陷的真菌细胞。在一些情况下，所述宿主细胞为具有经修复的线粒体稳定性缺陷的酵母细胞。在一些情况下，所述宿主细胞为其中线粒体基因组不稳定性缺陷已被修复的BY酵母细胞，如在图12中那样。在一些情况下，所述宿主细胞可以为其中孢子形成缺陷和线粒体基因组不稳定性缺陷两者均已被修复的细胞。通过使用上面所讨论的遗传杂交和基因组改造方法以及在图12中所概述的基因组修复，BY菌株被改造成修复了线粒体基因组不稳定性。修复线粒体基因组不稳定性缺陷的一个出人意料的益处为，所述菌株在不可发酵碳源例如乙醇上生长得更快(参见图13和14A)。这通常是用于表达经常连接至通过在不可发酵碳源上生长来激活的生产期启动子的异源基因的所选择的生长条件。

在一些情况下，所述宿主细胞可以经基因工程改造以缺乏在非同源末端连接中所牵涉的基因。这样的基因的缺乏可以增加在这样的经改造的细胞中同源重组的效能。在每种宿主中合适的待缺失的基因可以变化。作为例子，经改造的酵母宿主细胞可以缺乏连接酶例如DNL4DNA连接酶。经改造的细菌宿主细胞可以缺乏Ku同二聚体和多功能连接酶/聚合酶/核酸酶LigD中的一种或两者。取决于物种，其他可能在非同源双链断裂修复中所牵涉的基因包括：Mre11、Rad50、Xrs2、Nbs1、DNA-PKcs、Ku70、Ku80、DNA连接酶IV、XLF、Artemis、XRCC4、Dnl4、Lif1、XLF(也称为Cernunnos)、Nej1和Sir2。

DHY菌株具有关于表达异源基因以用于异源化合物产生的实用性，以及进行同源重组和DNA装配的能力。这种在一种菌株中的能力组合允许在相同菌株中进行DNA装配和异源化合物产生，而以前这两个步骤在以前的酵母类型中是分开的(BY用于DNA装配，和BJ5464用于表达和小分子产生)。

这些改善可以提供具有许多超过以前的菌株(特别是BY菌株)的优点的DHY菌株集合：DHY可以是更快生长的，导致更少的小菌落(呼吸缺陷型)，是在遗传上易处理的，允许更好的从ADH2-样启动子的表达，并且允许在相同菌株中进行DNA装配和异源产物产生这两者(图14B和14C)。

在一些实施方案中，经基因工程改造的宿主细胞缺乏一个或多个在一定条件下必需的基因，其可以通过质粒或其他DNA载体来提供。这允许选择正在表达DNA载体的细胞。可以用于此的基因的例子为对于某些代谢物的生物合成来说所需要的营养缺陷型基因或者关于对毒素的抗性的基因。仅当在培养基中不存在它们所需要的特殊代谢物时才需要营养缺陷型基因。仅当它们提供保护作用所针对的毒素存在时才需要抗性基因。

经基因工程改造的酵母宿主细胞的例子包括经基因工程改造的DHY超级宿主菌株。在一些情况下，菌株基于BY4741/BY4742背景(C.B.Brachmann等人,Yeast,14:115-32,1998)。菌株还可以包含下列从BY背景开始的遗传变化中的任一个：孢子形成修复(MKT1(30G)RME1(INS-308A)TAO3(1493Q))，和线粒体基因组稳定性和功能修复(CAT5(91M)MIP1(661T)SAL1+HAP1+)(参见图12)。如本领域普通技术人员将会理解的，应当注意的是，这些遗传变化中的任一个或全部可以孤立地、部分地或全体地来进行。例如，预期MKT1(30G)、RME1(INS-308A)或TAO3(1493Q)的单个遗传变化将会导致孢子形成活性的至少一些修复。同样地，CAT5(91M)或MIP1(661T)的单个遗传变化或者SAL1(SAL1+)或HAP1(HAP1+)的功能的恢复将会导致线粒体基因组稳定性的至少一些增加。

在一些情况下，菌株可以是原养型。例如，一些菌株可以在培养基中需要甲硫氨酸、精氨酸或赖氨酸。在一些情况下，菌株可以是关于数个标记(从其可以通过四分体剖开来制作任何标记组合)而言的完全的杂合子。例如，关于对于合成组氨酸、亮氨酸、尿嘧啶、赖氨酸和甲硫氨酸来说所需要的基因而言是杂合的，或者关于对于合成组氨酸、亮氨酸、尿嘧啶、赖氨酸和精氨酸来说所需要的基因而言是杂合的。在表3中列出了菌株的一些例子。

在一些情况下，在本文中所描述的菌株的使用允许更大地表达BGC蛋白质和/或更多地从BGC产生化合物。在一些情况下，在本文中所描述的菌株之中的异源蛋白质的表达以相比于在BJ5464中的异源蛋白质表达而言至少70％、80％、90％、100％、110％、120％、130％、140％或150％的效率来完成。在一些情况下，在本文中所描述的菌株之中的异源化合物的产生以相比于在BJ5464中的异源化合物产生而言至少70％、80％、90％、100％、110％、120％、130％、140％或150％的效率来完成。

表3：菌株基因型的描述

新型分子的检测和表征

一旦宿主细胞正在表达所鉴定出的基因簇的编码序列，就可以在所述宿主细胞中合成次生代谢物。所述次生代谢物可以通过本领域中已知的任何方法来进行鉴定。在一些情况下，所述次生代谢物通过比较表达所述簇的宿主细胞与不表达所述簇的细胞来进行鉴定。该比较可以采用色谱法来分开在细胞中所产生的不同的小分子。例如，柱色谱法、平面色谱法、薄层色谱法、气相色谱法、液相色谱法、超临界流体色谱法、离子交换色谱法、大小排阻色谱法(通过高效液相色谱法(HPLC)来进行)、质谱法(MS)或质谱法-高效液相色谱法(MS-HPLC)。任何关于表达簇的宿主细胞而出现的而不是来自对照宿主细胞的峰指示了新型化学品的存在。在表达簇的宿主细胞和对照宿主细胞之间的比较可以包括细胞提取物、培养基或所提取的细胞裂解物的比较。

所鉴定出的化合物

本公开内容还提供了43个BGC的序列，和由这些BGC中的一亚组所产生的新型产物的结构。

在一个实施方案中，本公开内容提供了编码各种产物的隐蔽BGC的序列，SEQ IDNO:67-483。也可以重新改造这些BGC以提供没有内源调控序列的编码序列。在一些实施例中，所述编码序列可以通过使用已知的生物信息学方法、实验数据来预测，或者从数据库例如保存在GenBank中的缺省的经预测的基因坐标(起始、终止和内含子)中获得。一旦已经鉴定出了编码序列，就可以分离所述序列并且克隆到一个或多个表达载体中以用于在模型宿主系统例如酿酒糖酵母中进行表达。

所述表达载体可以为质粒、病毒、线性DNA、细菌人工染色体或酵母人工染色体。所述一个或多个表达载体中的每一个可以包含一个或多个适合于在模型宿主系统中表达异源基因的启动子。每个表达载体可以包含单个编码序列或多个编码序列。可以将多个编码序列功能性地连接至单个启动子，例如通过内部核糖体进入位点，或者可以连接至多个启动子。所述表达载体还可以包含另外的元件，例如增强子、polyA序列、内含子和转录后稳定性元件，以调控或增加转录活性。所述表达载体还可以包含一个或多个可选择标记。

可以将所述表达载体转染或者引入到宿主细胞中。宿主细胞的例子包括但不限于酵母和细菌细胞。例如，宿主细胞可以为酿酒糖酵母细胞或大肠杆菌细胞。在宿主细胞中温育所述表达载体允许编码序列的转录和翻译，从而重新产生所述基因簇的蛋白质。然后，这些蛋白质可以产生次生代谢物，其可以从细胞中或者从其中生长着细胞的培养基中分离。

在另一个实施方案中，本公开内容提供了包含非宿主细胞衍生产物的宿主细胞提取物。在一些情况下，这些提取物可以通过培养表达来自下列组之一的序列中的一个或多个或者所有序列的宿主细胞来产生：SEQ ID NO:67-76、77-81、82-91、92-97、98-106、107-111、112-118、119-127、128-135、136-153、154-157、158-162、163-172、173-181、182-186、187-191、192-199、200-206、207-211、212-224、225-228、229-235、236-240、241-244、245-255、256-267、268-276、277-285、286-289、290-293、294-307、308-313、314-318、319-324、325-329、330-334、335-341、342-350、351-357、358-367、368-372、373-380、381-388、389-395、396-400、401-406、407-413、414-423、424-427、428-439、440-447、448-453、454-462、463-471、472-480或481-483。在一些情况下，宿主细胞可以表达所有来自下列组之一的序列：SEQ ID NO:67-76、77-81、82-91、92-97、98-106、107-111、112-118、119-127、128-135、136-153、154-157、158-162、163-172、173-181、182-186、187-191、192-199、200-206、207-211、212-224、225-228、229-235、236-240、241-244、245-255、256-267、268-276、277-285、286-289、290-293、294-307、308-313、314-318、319-324、325-329、330-334、335-341、342-350、351-357、358-367、368-372、373-380、381-388、389-395、396-400、401-406、407-413、414-423、424-427、428-439、440-447、448-453、454-462、463-471、472-480或481-483。在一些情况下，所述宿主细胞可以表达一个或多个选自SEQ ID NO:67-483的序列。在培养细胞后，可以收集、裂解它们，并且可以从包含核酸、蛋白质、复合碳水化合物和脂质的级分中纯化小分子。所产生的次生代谢物也可以被分泌到细胞培养基中。在该情况下，本公开内容还提供了包含次生代谢物的细胞培养基。

本公开内容还提供了从宿主细胞提取物或培养基中分离的化合物。本公开内容的化合物可以为

化合物1：

化合物2：

化合物3：

化合物4：

化合物5：

化合物6：

化合物7：

化合物8：

化合物9：

化合物10：

化合物11：

化合物12：

化合物13：

化合物14：

化合物15：

和

化合物16：

本公开内容的化合物可以具有有用的治疗应用，例如在治疗或预防疾病或病症中。本公开内容的化合物可以用于治疗感染，例如细菌、真菌或寄生虫感染。本公开内容的化合物可以具有抗生和/或抗真菌活性。化合物8和化合物9可以具有抗微生物、抗真菌和/或抗细菌活性。本公开内容的化合物可以具有非医学应用。

在一些实施方案中，本公开内容提供了包含本公开内容的化合物的药用组合物。在一些情况下，药用组合物包含化合物6、7、8、9、10、11、12、13、14、15和16中的至少一种。在本文中所描述的组合物可以包含液体制剂、固体制剂或其组合。制剂的非限制性例子包括片剂、胶囊剂、凝胶剂、糊剂、液体溶液和霜剂。本公开内容的组合物可以进一步包含任何数目的赋形剂。赋形剂可以包括任何和所有溶剂、包衣剂、矫味剂、着色剂、润滑剂、崩解剂、防腐剂、甜味剂、粘合剂、稀释剂和载料(承载体)。一般而言，所述赋形剂与本公开内容的治疗性组合物是相容的。一般而言，所述赋形剂是在药学上可接受的赋形剂。所述药用组合物还可以包含少量的非毒性辅助物质例如润湿剂或乳化剂、pH缓冲试剂和其他物质例如乙酸钠和油酸三乙醇胺。

在一些实施方案中，本公开内容提供了合成在本文中所描述的化合物的方法。所述方法包括在合适的载体中提供SEQ ID NO:67-483中的一个或多个编码序列，与将会驱动所述编码序列在宿主细胞中表达的调控序列一起。然后，将所述载体提供给宿主细胞例如酵母细胞，并且使所述细胞在允许所述编码序列表达的条件下进行生长。在一些情况下，可以给宿主细胞提供1、2、3、4、5、6或多于6种不同的质粒。所合成的化合物可以通过下述方式来从细胞培养物中纯化出来：离心细胞以产生细胞粒状沉淀和上清液。所述上清液和细胞粒状沉淀可以通过使用乙酸乙酯或丙酮，或者其他合适的有机溶剂来进行提取。对于包含羧酸基团的化合物，在提取之前可以用酸例如HCl将上清液的pH调整至4或更低(例如，3)的pH。在提取之后，合并两个有机相并蒸发至干。然后，可以将化合物溶解在所希望的溶剂中并通过使用标准纯化方法来进一步进行纯化。

虽然已在某些具体的方面描述了本公开内容，但是许多另外的修改和变动对于本领域技术人员来说将会是明显的。特别地，上面所描述的各种过程中的任一个可以以备选的顺序来进行，以便以对于特定应用的要求来说更合适的方式来取得相似的结果。因此，应当理解的是，本公开内容的实施方案可以以特别描述的以外的其他方式来进行实践，而不背离本公开内容的范围和精神。因此，本公开内容的实施方案应当在所有方面被认为是举例说明性的而不是限制性的。

实施例1：生产期启动子的鉴定

生物学数据支持生产期启动子DNA载体的系统和构建体以及其应用。下面提供了将生产期启动子掺入到DNA载体中的几个例子。这些载体中的一些用于从源自各种真菌物种的多基因簇产生生物合成产物。相比于组成型启动子系统而言，依照各种实施方案的生产期启动子系统产生多至数倍的产物。

生产期启动子表达分析

因为ADH2启动子(SEQ ID NO:1)具有生产期启动子的特性，所以将一组启动子序列与ADH2启动子进行比较以鉴定其他生产期启动子。开始，鉴定出了在以前的基因组范围的转录研究(Z.Xu.等人,Nature 457:1033-37,2009，其公开内容通过提及而合并入本文)中看起来与ADH2一起共调控的内源酿酒糖酵母基因。在该研究中，在数种类型的生长培养基中在中间指数生长期间对酵母基因的转录进行定量。在所检查的5171个ORF中，35个看起来与ADH2一起共调控，其中共调控被定义为相比于可发酵碳源(在酵母-蛋白胨-右旋糖(YPD)培养基中的右旋糖)而言在用不可发酵碳源(在酵母-蛋白胨-乙醇(YPE)培养基中的乙醇)进行的表达方面具有大于两倍的增加。因为这些数据在单个时间点采集并且在其天然情景下评估基因的转录，所以它们在生产期启动子系统中共调控异源基因的能力需要进一步的确证和表征。

进行了34个所选择的启动子控制异源基因表达的能力的详细表征。为了该特定目的，将启动子定义为(a)起始密码子上游500bp或(b)整个5’基因间区域中的较短者。将每个启动子克隆在关于单体增强型GFP(eGFP)的基因的上游，并且将所得的盒中的每一个以单个拷贝整合在独个菌株的ho座位处。包括了对照菌株，其中将强的组成型FBA1和TDH3启动子以相同的方式克隆在eGFP的上游。所述35个启动子序列可以在SEQ ID NO:2-35中找到。

为了比较所述35个推定的生产期启动子，在具有可发酵碳源(YPD)和不可发酵碳源(YPE)的培养基中通过流式细胞术在每个菌株中在72小时内评估eGFP蛋白质的表达(图16和17)。所有培养均在YPD培养基中开始，并且当细胞处于指数发酵生长的中间时(OD₆₀₀＝0.4，0小时)开始eGFP表达的分析。在该点，要么让细胞在YPD中继续生长，要么将细胞旋转沉降并重悬浮在YPE中。与以前的工作相一致，pADH2在实验开始时的那个点(在指数发酵生长期间，0小时)被完全阻遏，不像组成型启动子pTDH3和pFBA1，它们以接近最大水平被表达，无论哪个时期。在YPD培养中进一步6小时之后或者在生长培养基转变为YPE之后，观察到来自pADH2的中等表达。在24小时内，表达达到超过在强的组成型系统中所观察到的那些的水平。流式细胞术直方图和荧光显微术证明，在48小时内，>95％的所有具有由pADH2和pPCK1驱动的表达的细胞在背景之上发荧光(图18)。蛋白质表达水平横跨15-50倍，其中大部分显示很少表达或没有表达，直到进入培养24小时为止(图16和17)。由PCK1、MLS1和ICL1启动子(SEQ ID NO:2-4)驱动的转基因表达不仅显示了与pADH2相同的表达时机，而且以同等高的水平进行表达。基因YLR307C-A、YGR067C、IDP2、ADY2、GAC1、ECM13和FAT3(SEQ IDNO:5-11)的启动子展示出半强的转基因表达(图16)。另外，基因PUT1、NQM1、SFC1、JEN1、SIP18、ATO2、YIG1和FBP1(SEQ ID NO:12-19)的启动子展示出弱的转基因表达(图16和17)。启动子PHO89(SEQ ID NO:20)在生长期期间未展现出强的阻遏(图16，0和6小时)。在图16中还描绘了其他序列的结果(SEQ ID NO:22-36)。组成型启动子pTDH3和pFBA1(SEQ ID NO:50和52)用作对照(图16-18)。

上面的分析鉴定出了跨越宽范围的表达水平的一大组共调控的启动子，其中的三个与pADH2一样强。但是，更广泛的一组强的生产期启动子对于装配具有多基因途径(尤其是具有多于四个基因的途径)的构建体来说是所希望的。为了鉴定其他生产期启动子候选物，检查了在狭义糖酵母复合体内的五个紧密相关的物种的基因组(图19)。对于在巴扬氏糖酵母(Saccharomyces bayanus)、奇异糖酵母(Saccharomyces paradoxus)、米基塔氏糖酵母(Saccharomyces mikitae)、库德齐维氏糖酵母(Saccharomyces kudriavzevii)和卡斯泰利氏糖酵母(Saccharomyces castellii)的基因组中的最近的ADH2基因同源物鉴定了启动子区域。上游激活序列(UAS)的多序列比对揭示，几乎所有序列(除了来自卡斯泰利氏糖酵母的序列)在整个该区域上是高度保守的，这暗示了关于与酿酒糖酵母ADH2的那种相似的调控的潜力(图20，SEQ ID NO:36-40)。为了用于单步骤途径装配，所有启动子序列必须足够独特以防止不希望的相互之间的重组。因此，分析了关于狭义糖酵母ADH2启动子对中的每一个的成对同一性(图21)。与酿酒糖酵母ADH2启动子最相似的启动子是来自奇异糖酵母的启动子，具有83％同一性，包括位于启动子的中心附近的单个40bp序列段。该同源性显著地低于典型地用于通过酵母同源重组进行的装配的50-100bp，并且在具有该同一性水平的序列之间的重组事件以非常低的频率发生，这暗示这些启动子应当与上面所描述的采用酵母同源重组的多基因装配技术是相容的。

如用内源酵母启动子候选物一样，这些其他推定的糖酵母属启动子需要诱导特性谱的详细表征。通过商业合成获得了编码这些启动子序列中的每一个的DNA，并且以与内源酵母启动子相同的方式表征了来自每个启动子的eGFP表达(图22和23)。在所测试的五个狭义糖酵母pADH2(SEQ ID NO:36-40)中，源自奇异糖酵母、库德齐维氏糖酵母和巴扬氏糖酵母的启动子显示出与酿酒糖酵母pADH2的那种等价的表达的时机和强度。与内源酵母启动子相组合，这三种另外的糖酵母属pADH2扩大了具有所希望的诱导特性谱的强启动子的数目。

使用生产期启动子系统来表达化合物产物途径

为了研究该新的启动子组用于异源表达生物合成系统的实用性，检查了真菌衍生的脱氢玉米赤霉烯醇(1)和吲哚二萜(2)的产生(图24，化合物1和2)。所述吲哚二萜化合物的生物合成是由于塔宾曲霉基因中的四个基因的协同表达而引起的(图25，SEQ ID NO:59-62)。构建了两个版本的每个途径：一个具有所有生产期启动子，而另一个具有所有组成型启动子(图24)。生产期启动子系统采用来自酿酒糖酵母的pADH2(SEQ ID NO:1)、来自巴扬氏糖酵母的pADH2(SEQ ID NO:38)以及来自酿酒糖酵母的pPCK1(SEQ ID NO:2)和pMLS1(SEQ ID NO:3)。在组成型系统中，由四个经常使用的强的组成型启动子来驱动转录：pTEF1、pFBA1、pPCK1和pTPI1(SEQ ID NO:51-54)。在拥有四个表达盒的单个质粒上构建每个吲哚二萜系统：启动子::GGPPS::tADH2；启动子::PT::tPGI1；启动子::FMO::tENO2；和启动子::Cyc::tTEF1；其中，所述启动子序列相应于生产期启动子或组成型启动子(图24)。对于脱氢玉米赤霉烯醇用两个基因HR-PKS和NR-PKS(SEQ ID NO:63和64)建造相似的构建体。所有质粒均通过使用酵母同源重组来构建。应当注意的是，来自酿酒糖酵母和巴扬氏糖酵母的pADH2序列(61％同一性)对于该类型的装配来说是足够独特的。在YPD分批培养物中在72小时内测量由用这些质粒中的每一个转化的酿酒糖酵母BJ5464/npgA/pRS424所产生的化合物1和2的产量(图26)。相比于组成型系统而言，对于使用生产期启动子的系统观察到化合物1和2的滴度的80倍和4.5倍的增加。

支持生产期启动子实验的材料和方法

一般性的技术、试剂和菌株信息。限制酶购自New England Biolabs(NEB,Ipswich,25MA)。克隆在大肠杆菌DH5α中进行。PCR步骤通过使用高保真聚合酶(NEB)来进行。酵母撤除成分培养基(yeast dropout media)购自MP Biomedicals(Santa Ana,CA)并且根据制造商的说明书进行制备。启动子表征实验在BY4741(MATα,his3Δ1 leu2Δ.0 met15Δ.0 ura3Δ0)中进行，而所有涉及1的产生的实验在BJ5464-npgA中进行，所述BJ5464-npgA是具有两个拷贝的整合在δ元件处的pADH2-npgA的BJ5464(MATαura3-52 his3Δ200 leu2Δ.1 trpl pep4::HIS3 prb1.Δ.1.6R can1 GAL)。所有Gibson装配通过使用30bp装配突出物如先前所描述的那样来进行。

启动子-eGFP报道分子菌株的构建和表征。将所有启动子定义为基因的起始密码子上游500个碱基对或整个5’基因间区域中的较短者。所有来自酿酒糖酵母的启动子从基因组DNA进行扩增，而来自所有狭义糖酵母的ADH2启动子作为gBlocks订购自IntegratedDNA Technologies(IDT,Coralville,Iowa)。对来自库德齐维氏糖酵母和米基塔氏糖酵母的启动子进行最小的改变以便满足合成规范。在所有构建体中，将eGFP直接克隆在来自CYC1基因的终止子(tCYC1)上游。用Sacl和Sall消化pRS415，并且通过Gibson装配插入Notl-eGFP-tCYC1盒，从而产生pCH600。用Accl和Pmll对pCH600进行的消化去除了CEN/ARS起点，其通过使用Gibson装配而被位于ho座位侧翼的500bp序列替换，从而产生质粒pCH600-HOint。以合适的装配突出物来扩增待分析的启动子中的每一个，并且插入到用Notl消化的pCH600-HOint中，从而产生pCH601质粒系列。用Ascl对pCH601质粒系列进行的消化产生线性整合盒，其通过LiAc/PEG方法被转化到酿酒糖酵母BY4741中。通过启动子的PCR扩增和Sanger测序来确认正确的整合。

对于表征，所有菌株最初在100μl的YPD培养基中过夜生长至饱和。然后，将这些细胞以0.1的OD₆₀₀重新接种到1ml的新鲜YPD中并且允许其生长至OD₆₀₀＝0.4以达到中间对数期生长(大约6小时)。通过离心来使500μl的每种培养物形成粒状沉淀并且重悬浮在YPE肉汤中以用于YPE数据，而将剩余的500μl用于YPD数据。在重悬浮后立即采集0小时时间点。对于每个时间点，将10μl的培养物稀释在2ml的DI水中并且在Branson Sonifier上以35％输出进行超声处理3个短脉冲。使用具有FL1检测器的FACSCalibur流式细胞仪(BDBioscience)来对于10,000个细胞采集表达数据。使用flowCore软件包以R来分析数据。

构建质粒以在酿酒糖酵母中产生化合物。关于在IDT产生质粒上装配的基因的序列包含在支持信息中。通过使用重叠延伸PCR来融合启动子和终止子的调控盒。通过PCR来扩增所有基因和调控盒，其中确保在所有相邻片段之间的60个碱基的同源性。将500ng的每种经纯化的片段与100ng的用Not1进行线性化的pRS425相组合，并且转化到酿酒糖酵母BJ5464/npgA中。从每个装配平板中挑取16个克隆并且使其在5ml CSM-Leu培养基中生长至饱和。分离出质粒，转化到大肠杆菌中，并且在使用Illumina MiSeq平台进行序列确认之前进行纯化。关于pCHIDT-2.1和pCHIDT-2c的详细质粒图谱显示在图27A中，其图解说明了所使用的引物和装配策略(SEQ ID NO:65和66)。

检查吲哚二萜产生系统的生产力。将质粒pCHIDT-2.1和pCHIDT-2c转化到具有pRS424(作为色氨酸超量产生的来源)的BJ5464/npgA中(参见例如，图27B)。将每种菌株的三份重复接种到CSM-Leu/-Trp培养基中并且使其生长过夜(OD₆₀₀＝2.5-3.0)。每种培养物用于将20ml培养物以OD₆₀₀＝0.2接种在YPD培养基中，并且在30℃下摇动温育3天。每24小时，从每个培养物中取样2ml。上清液通过离心来进行澄清，并且用2ml乙酸乙酯(EtOAc)进行提取。用2ml的在丙酮中的50％EtOAc来对细胞粒状沉淀进行提取。将各500μl的粒状沉淀和上清液提取物合并，并且在真空下进行干燥。将样品重悬浮在100μl HPLC级甲醇中，并且在具有Phenomenex Kinetex C18反相柱(1.7μm,100mm x 2.1mm)的Shimadzu LC-MS-2020液相色谱法质谱仪上进行LC-MS分析，其中在10分钟内采用在水(0.1％甲酸)中的15％至95％乙腈(v/v)的线性梯度，随后为95％乙腈持续7分钟，以0.3mL/分钟的流速。

实施例2：鉴定产生与靶蛋白质相互作用的化合物的基因簇

归功于下一代测序，数千的细菌和真菌基因组已被测序。已知这些物种是次生代谢物(例如青霉素、雷帕霉素和他汀类)的丰富来源。这些次生代谢物是通过常常在“生物合成基因簇”中连续排列的一个或多个基因的产物酶促合成的小分子。

本公开内容描述了用于鉴定特定的生物合成基因簇(其中次生代谢物的靶标为特定蛋白质)和在宿主生物中表达该次生代谢物的方法。

在某些情况下，例如当将次生代谢物用作针对其他生物的武器时，所述次生代谢物对于产生它的生物来说也可能是有毒的。在这些情况下，产生性生物可以以许多方式来保卫自身免受自我伤害：通过将所述次生代谢物泵出细胞；通过以酶促方式使所述次生代谢物不起作用；或者通过产生对于所述次生代谢物不太敏感或不敏感的另外版本的靶蛋白质。

在所述生物产生另外版本的靶蛋白质的那些情况下，所述基因的该“保护性”版本经常与所述生物合成基因簇共定位。虽然与产生靶蛋白质的基因不同，但是所述保护性版本应当保持与靶蛋白质的可检测的同源性。该方法利用了该同源性来鉴定包含靶蛋白质的保护性同源物或与之相邻的那些生物合成基因簇。

该方法所需要的输入数据是生物合成基因簇(例如，聚酮化合物合酶簇、非核糖体肽合成酶簇)的列表和靶蛋白质(即，其活性待用次生代谢物进行调节的蛋白质)的列表。生物合成簇可以基于某些蛋白质结构域的存在来进行鉴定，例如通过软件程序antiSMASH。靶蛋白质可以基于其作为药物靶标的定量可能性来进行选择。

该方法的输出为关于每个生物合成簇的得分，其中具有较高得分的簇表示更可能产生靶向特定目的蛋白质的次生代谢物的那些。

基于下列因素来对每个生物合成簇构建得分：

1.在所述簇之内或与之相邻处靶蛋白质的一种或多种同源物的存在，如通过同源性搜索(例如，使用tblastn算法，其中当发现一个同源物时授予最大得分)所测定的；

2.所述靶标与在簇中的基因的同源性的置信度(例如，根据tblastn算法，其中对于更低的e-值具有渐增的得分，和1e-30的上限阈值)；

3.满足某一同一性阈值的同源基因的分数(例如，对于更多的同一性具有渐增的得分，和25％同一性的下限阈值)；

4.在所述生物的整个基因组中存在的与所述靶蛋白质同源的基因的总数目(例如，对具有2-4种同源物/基因组的情况授予最大得分)；

5.在所述簇中或与之相邻处的基因与所述靶蛋白质的同源性(例如，使用blastx算法，其中当在所述生物合成基因簇中的基因在所述靶蛋白质的基因组中的最近同源物是所述靶蛋白质本身时授予最大得分)；

6.所述靶蛋白质与在所述簇中的基因的系统发生关系(例如，对于与所述靶蛋白质处于同一进化枝的在所述基因簇中的同源物具有渐增的得分，通过系统发生的自引检验或贝叶斯推断而分配的置信度，和在系统发生情景下被定义为同源物(其在具有0.7的自引值或0.8的贝叶斯后验概率的进化枝中出现)的下限阈值)；

7.在所述生物合成簇中或与之相邻处的所述靶标的同源物的预期数目(例如，得分越大，所述靶标的同源物在具有某一大小的生物合成簇中或与之相邻处存在的概率就越低，鉴于在所述基因组中全部同源物的数目，如通过变换测试所测定的)；

8.所述靶蛋白质对于在天然环境中的生活力、生长或其他细胞过程来说是必不可少的(例如，通过在相关生物(例如酿酒糖酵母)中同源物的缺失使得所述生物不能存活的证明)可能性；

9.所述基因簇与相关物种的同线性(例如，如果整个簇(包括靶同源物)在数个物种上是保守的，那么具有最大得分)；

10.所述靶同源物的功能类别(例如，如果所述基因在已经知道被次生代谢物靶向的蛋白质复合物中，那么具有更大的得分)；

11.与所述靶同源物相邻的特异性启动子的存在(例如，当在所述靶同源物和生物合成基因上游存在双向启动子时，具有更大的得分)；

12.在所述生物合成基因簇中特异性调控元件的存在(例如，当存在在靶基因和/或在所述簇中的生物合成基因之间共享的转录因子结合位点时，具有更大的得分)；

13.在所述簇之外(包括在其他染色体上)的与在所述生物合成簇之中的基因中的一些或所有一起共调控的靶同源物的存在(例如，当生物合成基因簇与推定的靶同源物共调控时，具有更大的得分)；

14.已成功地显示出产生次生代谢物的在所述簇之内的源自蛋白质序列或DNA序列的特征的存在(例如，当在簇中的基因与在宿主生物之一中已产生次生代谢物的簇共享结构域(如通过掩蔽马尔科夫模型(Hidden Markov Model；HMM)所测定的)时，具有更大的得分)。

参考一组“真阳性”(即，在产生已知靶向那种蛋白质的小分子的生物合成基因簇之中或与之相邻处存在一个或多个已知靶标的情况)，对上面的得分进行校准。

该算法已经以Python编程语言进行了编程，并且已经应用于一组多于1,000个真菌基因组(和多于10,000个生物合成基因簇)，从而产生潜在相关的生物合成簇的列表。

在宿主生物中表达生物合成簇

鉴于通过上面的算法所定义的最高得分生物合成簇，对在那些簇中的基因中的每一个合成DNA。将所述DNA克隆到宿主生物(例如，酿酒糖酵母，也称为面包酵母)中以进行表达。所述宿主生物从产生次生代谢物的基因簇合成蛋白质。使用HPLC和质谱法，可以将表达次生代谢物的菌株与未修饰的菌株进行比较，并且确认新的次生代谢物的存在。

该方法已经成功应用于数种次生代谢物的产生，其中基于上面的方法，存在关于次生代谢物的靶蛋白质应当是什么的证据：

·源自包含人基因SOS1的同源物的生物合成基因簇的次生代谢物；

·源自包含人基因BRSK1的同源物的生物合成基因簇的次生代谢物；和

·源自包含人基因DDX41的同源物的生物合成基因簇的次生代谢物。

产生产物(关于其存在暗示靶标的证据)的基因簇的进一步例子显示在图15A中。

实施例3：通过系统发生分析来按优先顺序排列新型生物合成基因簇

选择两种类别的真菌BGC(具有聚酮化合物合酶(PKS)或UbiA-型倍半萜环化酶(UTC)作为其核心酶的那些)用于进行分析。

开发了计算管线来按优先顺序排列用于异源表达的包含PKS和UTC的BGC。从公众可得的国立生物技术信息中心的GenBank数据库(NCBI，截至2015年7月)中分析了581个经测序的真菌基因组。使用antiSMASH2就BGC分析了每个基因组，其中鉴定出了3512个拥有重复的1型PKS(iPKS)的BGC和326个拥有UTC同源物的BGC。用所鉴定出的经表征的来自MIBiG数据库20的同源物来产生这些酶类型中的每一个的系统发生树。主要从具有很少的经表征的成员的进化枝中选择BGC(图28A、图29A)。所选择出的BGC被发现在子囊菌(ascomycetes)和担子菌(basidiomycetes)两者的基因组中。担子菌通常更难以培养，相比于子囊菌而言具有更少的可用的用于遗传操作的工具。因此，来自担子菌的BGC是研究不足的，具有很少的保存在MIBig中的包含PKS的簇，这暗示这些生物代表了能够产生具有令人感兴趣的新结构的化合物的BGC的储库。

根据保存在GenBank中的缺省的经预测的基因坐标(起始、终止和内含子)，作为合成构建体订购了所有BGC的编码序列，并且在表4中描述了簇。

在图28A中显示了在该研究中所鉴定出的3512个iPKS序列的酮合酶序列的支序图(cladogram)。在这些之中，选择了28个并且通过使用异源表达来分析包含所选择的iPKS的相关联的BGC。所选择的BGC满足下列标准：(a)基因结构在3个或更多个物种上是保守的，(b)展现出规范的结构域构造，和(c)包含能够从PKS的载体蛋白中释放聚酮化合物的顺式或近反式蛋白质(图30A)。这些簇中的七个源自完全地由来自担子菌的序列组成的不同进化枝(图28A)。

根据在此所描述的方法编辑28个所选择的PKS簇，以形成适合于在酵母细胞中表达簇编码序列的表达载体。温育宿主细胞，并且通过HPLC就新型化学化合物的存在进行分析，如在下面的方法部分中所描述的。在从子囊菌中选择出的PKS簇中，13个产生化合物。最值得注意的是PKS1簇，其仅包含一个iPKS、一个水解酶和关于三个剪裁酶的基因：细胞色素p450(P450)、黄素依赖性单加氧酶(FMO)和短链脱氢酶/还原酶(SDR)。

对于真菌UTC的研究，基于来自烟曲霉素生物合成途径的UbiA-型倍半萜环化酶(Fma-TC)构建了在图29A中所显示的系统发生树。此外，显示来自相同途径的P450(Fma-P450)是一种强有力的酶，其催化香柠檬烯的8e氧化从而产生高度氧化产物。在图29A中选择了横跨整个支序图的UTC BGC，其中细胞色素P450邻近UTC基因(图30B)。最后，选择了来自子囊菌和担子菌两者的13个UTC BGC以用于分析。

通过LC/HRMS来进行的表达这些簇的菌株的筛选揭示了与经氧化的由五个簇所产生的倍半萜类化合物相一致的新型波谱特征(图29A)。这些结果证明，膜结合的UTC代表了一个一般性类别的由多种多样的真菌的基因组所编码的萜烯环化酶。数个簇和所产生的化合物显示在图28B、28C、28D、28E和28F中。

通过包括PKS和UTC BGC两者，41个簇中的24个产生了可测量的化合物，关于所述簇的类型、起源物种和生产力的概要，参见表4。由不正确的内含子预测而引入的基因注释错误可能对该失败率做出了贡献。一个在最初就不产生产物的UTC(TC5)的手工检查暗示了在基因的5’末端处的不正确的内含子预测。该内含子的校正导致与已知的功能性UTC很好地对齐的C-末端蛋白质序列。当通过在宿主细胞中的异源表达进行测试时，具有经校正的内含子的版本产生化合物，这确认不正确的内含子预测在依赖于公众可得的基因注释的方法中是一种失败方式(图29B)。这些结果举例说明了仔细的基因治愈(gene curation)的重要性和对于经改善的真核生物基因预测的需要，特别是用来自具有很少的经充分研究的成员的分类单元的序列。

总结在表4中的结果证明了本文中的方法用于选择隐蔽真菌BGC的实用性。用在此所开发的工具，建造了表达41个此类簇的菌株，其中22个(54％)产生可检测水平的对于酿酒糖酵母来说不是天然的产物。虽然已知担子菌和子囊菌都是生物活性化合物的多产的生产者，但是迄今为止，大量的关于真菌天然产物的生物合成的研究是在子囊菌中进行的。在该研究中，异源表达允许来自子囊菌和担子菌(更少被研究且更难以培养的真菌门类，其具有更少的用于遗传操作的工具)两者的隐蔽真菌BGC的大规模调查。通过使用该平台，鉴定出了一组由所选择的PKS和UTC簇产生的新的产物。

方法

将antiSMASH2软件应用于581个保存在国立生物技术信息中心(NCBI)的Genbank数据库中的公开的真菌基因组，以便搜索1型PKS和UbiA-样萜烯环化酶基因簇。该分析在538个真菌基因组中鉴定出了3,512个1型PKS基因簇和326个UbiA-样萜烯基因簇。

这两个序列组的系统发生分析通过下述方式来进行：使用MAFFT来建立所有蛋白质序列的多序列比对和使用FastTree 2来建立在图28A和图29A中所显示的系统发生树。

选择3,512个经测序的1型PKS基因簇中的28个和326个萜类基因簇中的13个以如上面所描述的那样在酵母中进行表达。

生产菌株的构建和培养：

通过下述方式来构建生产菌株：使用Frozen-EZ Yeast Transformation II试剂盒(Zymo Research T2001)来将从大肠杆菌中分离出的DNA质粒(Qiagen miniprep 27106)转化到合适的表达宿主(JHY692，对于包含PKS的质粒；JHY705，对于所有其他)中，随后为在合适的SDC撤除成分培养基(CSM-Leu，对于包含PKS的质粒；CSM-Ura，对于所有其他)上进行铺板。对于在至少两个质粒上编码的BGC，将关于每个单倍体转化体的三个生物学复制品在YPD平皿上进行接合，并且在30℃下温育4-16小时，然后在CSM-Ura/-Leu上为了单个菌落进行划线并在30℃下进行温育。

通过与空载体对照一起挑取每个生产菌株的三个生物学复制品到处于1ml深孔块件(block)中的500μL的合适的SDC撤除成分培养基中来开始用于分析的小规模培养，并且使其在30℃下生长大约24小时。使用50μL的过夜培养物来接种处于1ml深孔块件中的500μL的待在该实验中进行测试的生产培养基中的每一种(通常YPD和YPEG两者)。将所有块件用透气的平板密封物(Thermo Scientific AB-0718)覆盖，并且在30℃下温育72小时，伴随以1000rpm的摇动。上清液通过以2800g离心20分钟来进行澄清，并且储存最少100μl的经澄清的上清液用于未来的分析。丢弃其余的上清液，并且通过与400μL的1:1乙酸乙酯:丙酮相混合来对细胞粒状沉淀进行提取。细胞碎片通过以2800g离心20分钟来进行沉淀，并且将200μL的提取溶剂移液至新鲜的块件并在speedvac中进行蒸发。

在分析之前，使所有上清液通过0.2μm过滤板，而在过滤之前将所有细胞粒状沉淀提取物重悬浮在200μl的HPLC级甲醇中。

小规模培养物的分析：

在通过接口联接至Agilent 1290HPLC系统的Agilent 6545定量飞行时间质谱仪上进行LC-MS分析。用于大多数分析的离子源为73电喷雾电离源(双入口Agilent JetStream或“双AJS”)。在一些分析中，也使用Agilent多方式离子源用于大气压化学电离。用于这两种电离源的参数概述在表5中。

用于所有分析的HPLC柱为具有1.8μm珠粒的50mm×2.1mm Zorbax RRHD EclipseC18柱(Agilent，959757-902)。不使用保护柱。

梯度条件是从0至0.2分钟以95％A恒溶剂，从0.2至4.2分钟95％A至5％A的梯度，随后为从4.2至5.2分钟以5％A的恒溶剂条件，随后为从5.2至5.2分钟5％A至95％A的梯度，随后为从5.2至6分钟以95％A的恒溶剂再平衡。对于电喷雾分析，A为在水中的0.1％v/v甲酸，和B为在乙腈中的0.1％v/v甲酸。对于APCI分析，B由在甲醇中的0.1％v/v甲酸替代。

通过未靶向的代谢物组学进行的数据分析用xcms来进行，其中使用通过IPO25测定的最佳参数。对于包含PKS的簇，设置自动化分析来对于前50个波谱特征(如通过倍数变化和p-值两者所定义的)产生提取型离子色谱图(extracted ion chromatogram；EIC)。然后，手工检查这些EIC以鉴定经自动鉴定的特征的亚组，其看起来对于所表达的BGC来说是特异的，如通过在生产菌株的三个生物学复制品中的每一个之中存在和从阴性对照菌株的三个生物学复制品中不存在所定义的(图31)。在图32-49中图解说明了所有BGC特异性特征的EIC。

实施例4：酵母菌株的构建

在目前的实施例中，酵母菌株基于BY4741/BY4742背景，其反过来基于S288c(C.B.Brachmann等人,1998，上面引用的)。所述菌株以两个阶段来进行制备：1)产生具有经恢复的孢子形成和线粒体基因组稳定性的核心DHY组，和2)产生为了其他益处(其可以包括蛋白质产生)而进行修饰的JHY衍生物。通过诊断性PCR和测序来确认在本研究中所引入的所有变化。

孢子形成得到恢复的菌株组通过下述方式来建造：使BY4710(C.B.Brachmann等人,1998，上面引用的)与YAD373(A.M.Deutschbauer和R.W.Davis,Nat.Genet.37:133-40,2005)的单倍体衍生物进行杂交，所述YAD373为包含三个恢复孢子形成的QTL的基于BY的二倍体：MKT1(30G)、RME1(INS-308A)和TAO3(1493Q)。就HAP1(其编码定位于线粒体和细胞核的锌指转录因子)对来自所得的二倍体的孢子克隆进行修复。HAP1对于线粒体基因组稳定性来说是重要的(参见J.R.Matoon,E.Caravajal,和D.Gurthrie Curr.Genet.17:179-83,1990)并且对于孢子形成来说可能也是重要的。S288c和衍生物包含在HAP1的3’末端中的Ty1插入，其使功能失活。使用Delitto Perfetto方法切除转座子(F.Storici和M.A.Resnick,Methods Enzymol.409:329-45,2006)，并且基于CYC1p-lacZ报道分子的转录来确认经修复的HAP1功能(M.Gaisne等人,Curr.Genet.36:195-200,1999)。然后，将孢子形成得到恢复的、HAP1得到修复的菌株以及其营养缺陷型和原养型衍生物用于产生菌株的DHY组，其另外还就线粒体基因组稳定性得到了恢复。

将上面的孢子形成得到恢复的菌株用于修复差的线粒体基因组稳定性，其已知对于S288c和BY衍生物来说是一个问题。线粒体基因组稳定性可能改善在呼吸条件下的生长和ADH2p-样基因表达，并且用于降低小细胞(缓慢生长的、呼吸有缺陷的细胞，其不能在不可发酵碳源上生长)的频率。关于“线粒体修复(mito-repair)”方法的详细描述，参见JHY650的构建(J.D.Smith,2017，上面引用的)。简而言之，使用50:50基因组编辑方法来引入通过QTL分析而显示出对于线粒体基因组稳定性来说重要的三个基因的野生型等位基因³¹。所修复的QTL为：SAL1⁺(移码的修复)、CAT5(91M)和MIP1(661T)。与原养型和营养缺陷型菌株的杂交完成了具有大约一打的孢子形成和线粒体基因组稳定性得到恢复的菌株(其可以按需要进一步进行修饰)的DHY核心组。DHY213(参见表3)是一个这样的菌株：它包含七个上面所描述的所希望的改变，除此以外它与BY4741是同类系的，并且在本研究中被用于产生用于HEx平台的衍生物(参见表3)。

完全的PRB1和PEP4ORF的无标记的、无缝的缺失通过使用50:50方法(J.Horecka和R.W.Davis,2014，上面引用的)来进行。在染色体上1609bp ADH2p-npgA-ACS1t表达盒的整合通过使用相似的用于以REDI方法整合DNA区段的方法(J.D.Smith等人,2017，上面引用的)来进行，除了使用URA3而不是FCY1作为反向可选择标记。对于整合位点，替换在染色体II上位于YBR209W的着丝粒远端的三个转座子LTR的1166bp簇(缺失chrII 643438至644603)。将两个DNA区段通过同源重组同时插入到已用SceI进行切割的整合位点处，从而产生双链断裂。一个所插入的区段为ADH2p-npgA(1448bp)，其是从BJ5464/npgA表达菌株(来自构巢曲霉(A.nidulans)的npgA)中经PCR扩增出的(K.K.M.Lee,N.A.Da Silva,和J.T.Kealey,Anal.Biochem.,394:75-80,2009)。使用反向PCR引物(其用野生型npgA 3’序列替换先前所包括的npgA内含子)将npgA 3’末端修复至野生型。为了杜绝表达盒与天然ADH2座位的重组，使用161bp ACS1终止子作为第二DNA区段(不是ADH2t)并且将其从BY4741中经PCR扩增出来。将所得的菌株(JHY692)以相似的方式用于用CPR ORF(细胞色素P450还原酶，来自土曲霉(A.terreus)的ATEG_05064)替换仅npgA。最后，通过使JHY692和JHY705接合来产生具有npgA和CPR表达盒两者的菌株(JHY702)。

实施例5：化学结构的测定

对于化合物分离，用实施例3的菌株和簇进行大规模发酵。首先取出酵母菌株到合适的SDC撤除成分琼脂平板上，并且在30℃下温育48小时。然后，将一个菌落接种到40mLSDC撤除成分培养基中并且在28℃下温育两天，伴随以250rpm的摇动。将该种子培养物用于接种4L的YPD培养基(1.5％葡萄糖)并且在28℃和250rpm下培养3天。然后，上清液通过离心来进行澄清，并且用相等体积的乙酸乙酯进行提取。细胞粒状沉淀用1L的丙酮进行提取。对于包含羧酸基团的化合物，在提取之前通过添加HCl来将上清液的pH值调整至3。将有机相合并并且蒸发至干。将残留物通过具有己烷和丙酮的梯度的ISCO-Rf 200(Teledyne Isco,Inc)来进行纯化。在通过LC-MS进行分析后，将包含靶化合物的级分合并，并且通过使用C18反相柱的半制备型HPLC来进一步进行纯化。每种化合物的纯度通过LC-MS来进行确认，并且通过NMR来解析结构(图49-59)。

所有NMR谱(包括¹H、¹³C、COSY、HSQC、HMBC和NOESY谱)都在UCLA分子仪器中心在具有5mm双冷冻探针(cryoprobe)的Bruker AV500光谱仪上获得。用于这些实验的NMR溶剂购自Cambridge Isotope Laboratories,Inc.。

表4：在本研究中的对照和所检查的隐蔽真菌BGC的概要

表5：在本研究中所使用的离子源参数

离子源参数	双AJS	MMI
			气体温度	250℃	350℃
干燥气体	12L/分钟	7.5L/分钟
			雾化器	10psig	20psig
鞘气体温度	400℃	-
			鞘气体流量	12L/分钟	-
气化室	-	250℃
			毛细管电压(Vcap)	3500V	1500V
喷嘴电压	1400V	-
			电晕放电	-	4μA
裂解器(fragmentor)	100V	120V
			取样锥孔(skimmer)	50V	50V
八极1RF Vpp	750V	750V
			充电电压	-	1000V

表6：启动子序列的描述

表7：基因序列的描述

虽然已在本文中显示和描述了本公开内容的优选实施方案，但是本领域技术人员将会理解，这样的实施方案仅作为实例来提供。现在，本领域技术人员将会想到许多变动、变化和替代，而不背离本公开内容。

Claims

1.用于筛选多种化合物的方法，所述方法包括：

鉴定包括编码与第一靶蛋白质相同或同源的蛋白质的区域或在该区域的20kb之内的基因簇，其中所述基因簇包含编码从由下列各项组成的组中选择的蛋白质的区域：(1)聚酮化合物合酶，(2)非核糖体肽合成酶，3)萜烯合成酶，(4)UbiA-型萜烯环化酶，和(5)二甲基烯丙基转移酶；

将来自所述基因簇的多个基因引入到载体中；

将所述载体引入到宿主细胞中；

在所述宿主细胞中表达由所述多个基因所编码的蛋白质；

测定通过所表达的蛋白质而形成或修饰的化合物是否调节所述第一靶蛋白质。

2.权利要求1的方法，其中所述宿主细胞为酵母细胞。

3.权利要求2的方法，其中所述酵母细胞为已被修饰从而具有增加的孢子形成频率和增加的线粒体稳定性的酵母细胞。

4.权利要求1-3中任一项的方法，其中所述多个基因中的每个基因处于不同启动子的控制之下。

5.权利要求4的方法，其中所述启动子被设计成当所述宿主细胞在不可发酵碳源存在下时增加表达。

6.权利要求1的方法，其中通过同源重组将所述多个基因引入到所述载体中。

7.权利要求6的方法，其中通过同源重组将所述多个基因引入到所述载体中包括

将第一多个核苷酸与第二多个核苷酸相组合，其中：

所述第一多个多核苷酸中的每个多核苷酸编码启动子和终止子，其中每个启动子和终止子不同于所述第一多个核苷酸中的其他多核苷酸的启动子和终止子；和

所述第二多个核苷酸中的每个多核苷酸包括编码序列、在所述多核苷酸的5’侧处的第一侧翼区域和在所述多核苷酸的3’侧处的第二侧翼区域；和

将所述多核苷酸引入到包括用于同源重组的机器的宿主细胞中，其中所述宿主细胞通过发生在所述第二多个多核苷酸的侧翼区域中的同源重组来装配表达载体；

其中所述表达载体被配置成有助于由所述第二多个核苷酸编码的多个蛋白质的同时产生。

8.权利要求7的方法，其中所述第一侧翼区域和所述第二侧翼区域的长度各自为15至75个碱基对。

9.权利要求8的方法，其中所述第一侧翼区域和所述第二侧翼区域的长度各自为40至60个碱基对。

10.权利要求1的方法，其中第一靶蛋白质不是来自所述基因簇所源自的物种。

11.权利要求1的方法，其中所述基因簇是真菌的基因簇。

12.权利要求1的方法，其中所述基因簇为非酵母真菌的基因簇。

13.权利要求11的方法，其中将所述基因簇引入酵母。

14.权利要求13的方法，其中所述酵母是酿酒糖酵母。

15.权利要求1或10-14任一项的方法，其中靶蛋白质是哺乳动物蛋白质。

16.权利要求15的方法，其中靶蛋白质是人蛋白质。