CN102066563A

CN102066563A - 多物种多核苷酸控制序列

Info

Publication number: CN102066563A
Application number: CN200980122194XA
Authority: CN
Inventors: 马可·亚历山大·伯格·范德恩
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2008-06-11
Filing date: 2009-06-11
Publication date: 2011-05-18
Also published as: WO2009150195A1; US10577611B2; US20110165585A1; US20150232860A1; DK2285966T3; EP2285966A1; WO2009150195A9; EP2285966B1

Abstract

本发明涉及使得多核苷酸控制序列(例如启动子)能够在大范围工业相关的物种(原核生物以及真核生物两者)中指导表达的多核苷酸序列。本发明的多核苷酸序列与选择标记物基因组合应用时，可在实验室宿主中进行可选择的克隆，并在最终宿主中使用相同的构建体。

Description

多物种多核苷酸控制序列

发明领域

本发明涉及能够在若干工业相关物种中驱动基因表达的新颖的核酸序列。

发明背景

为了优化多种感兴趣的化合物的生产，重组DNA技术提供了非常相关的工具箱(toolbox)。这些工具允许以可能进行多种改变的方式高效修饰基因组DNA。所述工具包括：同源基因的过表达、异源基因的过表达、同源基因的缺失、通向不想要的副产物的代谢通路的阻断、代谢通路的转换。尽管相当高效，但是所有这些方法中均存在一个共同的缺陷：它们使用物种特异性的调节系统。如果想测试由某基因编码的酶的特性，最通常在一个物种——实验室最偏好的物种中完成。如果这样的基因得自不同的供体物种，常常需要密码子优化来允许所述酶在新的宿主中表达(见例如Sinclair & Choy.2002.Protein Expr Purif.26：96-105)。随着合成DNA的成本越来越低，对已知基因而言这变成可行的途径，但是平均成本仍在每个基因1000美元左右(假设平均基因长度为1.5-2.0kb)。然而，存在这一途径仍然没用的情况：(i)基因序列未知时，即在宏基因组筛选(metagenomic screening)项目中；(ii)蛋白质需要供体特异性陪伴分子(chaperones)或辅助酶如P450酶时；(iii)DNA、RNA中间产物和/或酶对新宿主有毒时；(iv)酶的折叠对于活性而言是必需的，但是新宿主不可能进行折叠；(v)想要制备许多已知酶时，合成DNA的总体成本又会变得非常高，即1000个合成基因花费1百万美元。

提高成功概率而不提高合成DNA的一种解决方案是在若干不同的物种中测试酶表达，这提高了每种酶至少在所述宿主之一中成功表达的概率。然而目前技术水平的工具仅允许物种特异性表达盒。对每种宿主而言使用物种特异性启动子，并且当想要在多种生物中评价相同的酶时这导致过多的克隆工作。

新技术可能使得后一问题的负担更小；通过使用有效的现代重组系统(例如Invitrogen的Gateway系统)，应当相对容易地将感兴趣的基因从一种质粒转移至均具有物种特异性启动子系统的大范围多种质粒中。然而在实践中这仍然涉及大量实验室程序，特别是想要测试数百到数千个感兴趣的基因时。随着许多基因组序列的迅速可用以及对具有最适动力学的新颖酶的工业生物催化的持续需要，能够测试数百到数千个感兴趣的基因是至关重要的。另外，如Gateway的技术在启动子和感兴趣的基因之间插入一串核苷酸(20-30bp)，这能够严重妨碍所述基因的转录和/或翻译。

因此，对允许在多种不同宿主中评价和/或应用酶的新颖、低成本和高通量的技术存在需要。

一种解决方案可以是能够在大范围物种中发挥功能的启动子。通过使用这类系统能够制造一种表达盒(或一种宏基因组文库)，将其转移至大范围的物种中并测试所述酶的活性。易于使用的例子是(a)高效的酶筛选，即在启动子后克隆感兴趣的基因；首先在E.coli中测试，然后转移至多种工业宿主以分离最佳表达宿主，并直接观察所述酶在后者工业细胞环境中如何发挥功能；(b)功能基因组学。随着全基因组序列的可用性，对高通量基因功能研究存在递增的需要。这些用途均依赖于两个至关重要的步骤：劳动力(workhorse)(如生产敲除盒的E.coli)中有效克隆的步骤，和引入宿主细胞。然而，由于跨物种的屏障，两种物种使用不同的选择标记物；常用的选择标记物盒将是非常便利的。

给出的两种例子均只有在启动子系统能够在大范围宿主中发挥功能时成功。然而，物种之间，例如真核生物和原核生物之间的启动子机构之间似乎存在一些至关重要的差异。后一组最通常依赖于所谓的-10/-35序列和转录起点，而前一组尽管具有大量变化，但是具有对功能性TATA-盒的最小要求。但是在这两组内也存在许多差异。在真核生物组中，可能存在或不存在其它序列，如所谓的CAAT-盒、GC-盒和Kozak-序列。这在例如真菌和哺乳动物启动子序列之间造成大量差异。例如E.coli是非常“随便的”物种；其对不同的启动子结构和启动子与基因之间变化的距离具有非常不严格的接受度，使其成为成为广受喜爱的筛选劳动力。但是物种如Bacillus要严格得多，而Streptomyces宽泛的代谢多样性可能涉及极度广泛的启动子结构，使得不可能在这一组中选取共有(和可预测)的特征。因此，每种物种具有其自身特异性的，有时是特有的调节系统。这些基本元素通常决定了启动子下游的基因是否实际上被转录或阻抑，取决于细胞从环境获得的真实信息。因此，在实践中启动子中可能存在不被一种宿主中任何细胞机器识别的序列，而在另一宿主中这些序列可能是非常强和不想要的转录调节的基础。

在文献中存在在两种或三种不同物种中发挥功能的启动子系统的例子，但是这局限于极少且相关的物种。例如，Asturias et al.，1990，FEMS Microbiol Lett 56：65-68，Alvarez et al，1994，FEMS Microbiol Lett.115：119-124和Patek et al.，2003，J Biotechnol 104：325-334描述了仅在原核生物中有活性的启动子。Hamer et al.，2001，Proc Natl Acad Sci USA 98：5110-5115公开了在一种真核生物和一种原核生物如Magneportha grisea和E.coli中有活性的启动子。因此在大部分情况下，例子仅限于原核生物、仅限于两种物种(即实验室“劳动力”和最终宿主)或仅限于非常特异性的经分离的启动子区域，或者需要特定的培养条件。一些经改造的启动子通过融合制造：简单地将真核生物和原核生物启动子背靠背地克隆，因此保持它们特有的供体特异性调节系统，所述系统在其它宿主中可能具有负面影响。

还报道了非相容性的例子，甚至是原核生物之间的非相容性。例子可见E.coli和Brevicompactum(Azza et al.，1994，FEMS Microbial Lett 122：129-136)，S.lividans和E.coli(Asturias et al.，1990)。这显示即便在相关的原核生物纲内仍然存在差异，例如在革兰氏阳性和革兰氏阴性的原核生物之间。

因此，尽管多物种启动子的例子是已知的，但是不能获得在大范围具有工业相关性的物种中发挥功能(即在多种原核生物和多种真核生物中有活性)的启动子，尽管这是高度期望的。另外，在将这类启动子与选择标记物组合的特定应用中，文献中的实施例仅用于显性(即抗生素)选择标记物，但是对于(a)非抗生素标记物和(b)能够进行正向和反向选择(即针对标记物基因存在或不存在的选择)的标记物存在持续增长的需要，以允许在感兴趣的基因被稳定整合进宿主基因组中后有效地去除标记物。

发明详述

本说明书和权利要求书中使用的若干术语如下文定义。

术语“感兴趣的基因”或“基因”在本文中被定义为编码多肽的多核苷酸序列，无论所述DNA序列是cDNA、基因组DNA或是合成DNA序列，所述多核苷酸序列可含有一个或多个内含子。

术语“具有启动子活性的多核苷酸序列”在本文中被定义为驱动下游感兴趣的基因转录的多核苷酸序列。

术语“选择标记物基因”(或可选择的标记物基因)在本文中被定义为编码下述多肽的感兴趣的基因，所述多肽为含有所述基因的细胞提供了表型，使得所述表型允许对含有所述选择标记物基因的细胞进行阳性或阴性选择。选择标记物基因可被用于在经转化和未经转化的细胞之间区分，或可被用于鉴定经历过重组或其它类遗传修饰的细胞。

“乙酰胺酶”在本文中被定义为能够催化乙酰胺水解成为乙酸和铵，和/或能够催化相关的酰胺化合物如丙烯酰胺水解的酶。

“amdS基因”在本文中被定义为下述感兴趣的基因，其优选地可得自微生物起源或者通过合成DNA获得，并且编码属于上文定义的乙酰胺酶的多肽。优选地，amdS基因与本领域已知的一种或多种丝状真菌amdS基因，即来自A.nidulans、A.oryzae、A.niger、P.chrysogenum的amdS基因或来自S.cerevisiae的amdS样基因显示序列相似性。amdS基因优选地编码约500到600个氨基酸的蛋白质。因此amdS基因通常包含在约2.0kb的DNA片段中。基因组amdS基因中内含子的存在能够将所述长度提高至例如约2.5kb或更多。“amdS基因”是“选择标记物基因”的一个例子。

“ble基因”在本文中被定义为下述感兴趣的基因，其优选地可从微生物起源或通过合成DNA获得，并且编码属于博来霉素(bleomycin)或腐草霉素结合蛋白质的多肽，所述多肽提供了针对这些毒性分子的抗性。优选地，ble基因显示与一种或多种本领域已知的ble基因，即来自转座子Tn5、Streptomyces verticillus、Staphylococcus aureus或Streptoalloteichus hindustanus的ble基因的序列相似性。ble基因优选地编码约100到150个氨基酸的蛋白质。因此ble基因通常包含在约0.4kb的DNA片段中。“ble基因”是“选择标记物基因”的一个例子。

术语“Gateway重组”或“Gateway反应”在本文中被用于表示Invitrogen的

重组克隆技术。

术语“STABY克隆”或“STABY反应”在本文中被用于表示Eurogentec的STABy^TM克隆技术。

本发明的多核苷酸序列

本发明在第一方面中提供了通式T-T-G-A-C-W-N(o)-Y₁-A-Y₂-A-A-T-H₁-H₂-N(p)-S₁-S₂-W-K₁-K₂-N(q)-H₃-M₁-M₂-H₄-A-T-G(式I)的多核苷酸序列，

其中

N是核苷酸A、C、G和T中的任何，N(o)长度为16、17或18个核苷酸；N(p)长度为21、22或23个核苷酸；N(q)长度为2、3、4、5或6个核苷酸；并且N(o)、N(p)和N(q)中每个个体N相同或不同；

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

H是核苷酸A、C和T中的任何，并且H₁、H₂、H₃和H₄相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于50％

N(o)的A含量低于35％

N(o)中每个6核苷酸串中的AG含量低于66％

N(p)的AG含量低于60％

N(p)中每个6核苷酸串中的AG含量低于83％

N(o)和N(p)不含有两个连续的G

N(q)的G含量低于50％。

本发明的这些多核苷酸序列具有最大的优点：当存在于多核苷酸控制序列例如启动子中时，所述控制序列会在大范围工业相关物种中，在原核生物和真核生物二者中指导表达。另外，与选择标记物基因组合应用时，可以在实验室宿主中进行可选择的克隆(例如在E.coli中制造缺失构建体)，并使用与最终宿主中相同的构建体。最后，对编码能够进行正向和反向两种选择(即针对所述酶的存在和不存在来选择)的酶如乙酰胺酶的基因(例如Aspergillus nidulans amdS基因)而言，本发明的多核苷酸控制序列提供了非常有效的选择标记物盒，所述选择标记物盒可以在大范围工业相关物种中使用。

在一个实施方案中，本发明的多核苷酸序列具有式I，其中

N是核苷酸A、C、G和T中的任何，N(o)长度可以为16、17或18个核苷酸；N(p)长度可以为21、22或23个核苷酸；N(q)长度可以为2、3、4、5或6个核苷酸；并且N(o)、N(p)和N(q)中每个个体N相同或不同；

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于40％；

N(o)的A含量低于25％；

N(o)中每个6核苷酸串中的AG含量低于50％；

N(p)的AG含量低于50％；

N(p)中每个6核苷酸串中的AG含量低于70％；

N(o)和N(p)不含有两个连续的G；

N(q)的G含量低于50％。

在另一实施方案中，本发明的多核苷酸序列具有式I，其中

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于25％；

N(o)中每个6核苷酸串中的AG含量低于50％；

N(p)的AG含量低于25％；

N(p)中每个6核苷酸串中的AG含量低于50％；

N(o)和N(p)不含有两个连续的G；

N(q)的G含量低于50％。

还在另一个实施方案中，本发明的多核苷酸序列具有式I，其中

N是核苷酸A、C、G和T中的任何，N(o)长度可以为16、17或18个核苷酸；N(p)长度可以为21、22或23个核苷酸；N(q)长度可以为2、3或4个核苷酸；并且N(o)、N(p)和N(q)中每个个体N相同或不同；

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于50％；

N(o)的A含量低于35％；

N(o)中每个6核苷酸串中的AG含量低于66％；

N(p)的AG含量低于60％；

N(p)中每个6核苷酸串中的AG含量低于83％；

N(o)和N(p)不含有两个连续的G；

N(q)的G含量低于50％。

N是核苷酸A、C、G和T中的任何，N(o)长度为16、17或18个核苷酸；N(p)长度为21、22或23个核苷酸；N(q)长度为2、3或4个核苷酸；并且N(o)、N(p)和N(q)中每个个体N相同或不同；

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于25％；

N(o)中每个6核苷酸串中的AG含量低于50％；

N(p)的AG含量低于25％；

N(p)中每个6核苷酸串中的AG含量低于50％；

N(o)和N(p)不含有两个连续的G；

N(q)的G含量低于50％。

优选地，本发明的多核苷酸序列具有式I，其中

N是核苷酸A、C、G和T中的任何，N(o)长度为17个核苷酸；N(p)长度为23个核苷酸；N(q)长度可以为3或4个核苷酸；并且N(o)、N(p)和N(q)中每个个体N相同或不同；

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于50％；

N(o)的A含量低于35％；

N(o)中每个6核苷酸串中的AG含量低于66％；

N(p)的AG含量低于60％；

N(p)中每个6核苷酸串中的AG含量低于83％；

N(o)和N(p)不含有两个连续的G；

N(q)的G含量低于50％。

更优选地，本发明的多核苷酸序列具有式I，

其中

N是核苷酸A、C、G和T中的任何，N(o)长度为17个核苷酸；N(p)长度为23个核苷酸；N(q)长度为3或4个核苷酸；并且N(o)、N(p)和N(q)中每个个体N相同或不同；

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于50％；

N(o)的A含量低于35％；

N(o)中每个6核苷酸串中的AG含量低于66％；

N(p)的AG含量低于60％；

N(p)中每个6核苷酸串中的AG含量低于83％；

N(o)和N(p)不含有两个连续的G；

N(q)的G含量低于50％；

没有精确匹配SYGGRG的6核苷酸串，其中R可以是核苷酸A和G中的任何。

在一个优选的实施方案中，本发明的多核苷酸序列选自由SEQ ID No.1至51、76和77组成的组。更优选地，所述多核苷酸序列选自由SEQ IDNo.46-51、76和77组成的组。最优选地，本发明的多核苷酸序列具有SEQ ID No.48所示的序列。具有与本发明多核苷酸序列基本同源的序列的多核苷酸也包括在本发明中。具有与本发明的多核苷酸序列“基本同源”的多核苷酸序列的多核苷酸序列被定义为具有下述多核苷酸序列的多核苷酸，所述多核苷酸序列与本发明的多核苷酸序列具有至少30％、优选地至少35％，更优选地至少40％，至少45％，至少50％，或至少55％的同一性程度。仍然更优选至少60％，至少65％，至少70％，至少75％，至少80％，至少85％或至少90％的同一性程度。甚至仍然更优选至少95％，至少96％，或至少97％的同一性程度。最优选至少98％或至少99％的同一性程度，其中所述基本同源的多核苷酸序列展示启动子活性。

基本同源的多核苷酸序列可包括多态性，所述多态性可存在于来自不同种群的细胞中，或者由于天然等位基因变异或株系内变异而存在于种群内。基本同源的多核苷酸序列也可源自天然来源，或者可以是人工设计及合成的。

就本发明的目的而言，两条多核苷酸序列之间的同一性程度是指两条序列之间相同的核苷酸的百分比。同一性程度使用Altschul et al.1990.J.Mol.Biol.215：403-410中描述的BLAST算法测定。公众可以通过NationalCenter for Biotechnology Information(http://www.ncbi.nlm.nih.gov/)获得用于进行BLAST分析的软件。BLAST算法参数W、T和X决定了比对的灵敏度和速度。BLAST算法使用以下作为默认值：11的字长(W)、BLOSUM62评分矩阵(见Henikoff & Henikoff.1989.Proc.Natl.Acad.Sci.USA 89：10915)，50的比对(B)，10的预期(E)、M＝5、N＝-4并且两条链均比较。优选地，使用用于比较短DNA片段的特定软件完成比较；例如使用可通过The European Molecular Biology Open Software Suite网站(通过http://emboss.bioinformatics.nl/)获得的程序Fuzznuc。

与本发明的多核苷酸序列相关并且通过小核苷酸串的插入、添加和/或缺失获得的多核苷酸序列也是本发明的部分。这类插入、添加和/或缺失的长度可以变化，例如为从1-1000个核苷酸，优选地1-100个核苷酸，更优选地1-20个核苷酸，进一步更优选地1-10个核苷酸，仍然更优选地1-6个核苷酸且最优选地1-3个核苷酸，但是仍然导致具有启动子活性的具有生物活性的多核苷酸序列。特定多核苷酸序列的功能性部分也是本发明的部分。这类功能性部分可以从本发明多核苷酸序列的任一端缩短例如1-50个核苷酸，优选地1-30个核苷酸，更优选地1-25个核苷酸，进一步更优选地1-20个核苷酸，仍然更优选地1-15个核苷酸，仍然更优选地1-10个核苷酸，最优选地1-5个核苷酸。

在一个实施方案中，本发明的多核苷酸序列是更长的多核苷酸构建体如多核苷酸控制序列的部分，其中例如添加了5’延伸或例如3’延伸。这些将在下文中讨论。

本发明一个特定的实施方案描述了具有“改进的功能性”的多核苷酸控制序列。“改进的功能性”覆盖了大范围典型的启动子方面。这些包括但不限于：反式或顺式作用转录因子识别的序列；稳定化元件；染色质重塑元件；富含AT的元件。这类元件可以有目的地引入(通过定向克隆，与其它启动子或合成DNA设计融合)或随机引入(通过诱变、易错PCR和/或定向进化)，之后进行适当的筛选实验来分离具有“改进的功能性”的多核苷酸控制序列。尤其有用的是活性启动子变体的全合成文库。

本发明的多核苷酸或核酸序列可以是经分离的基因组、cDNA、RNA、半合成、合成来源的多核苷酸或其任何组合。术语“经分离的多核苷酸或核酸序列”在本文中使用时表示基本不含其它核酸序列的多核苷酸或核酸序列，例如通过琼脂糖电泳测定为至少约20％纯净，优选地至少约40％纯净，更优选地至少约60％纯净，进一步更优选地至少约80％纯净，最优选地至少约90％纯净。例如，可通过遗传工程中使用的标准克隆步骤获得经分离的核酸序列，从而将核酸序列从其天然位点再定位于其会被再生产的不同位点。

根据本发明的多核苷酸控制序列和核酸构建体

在另一方面中，本发明提供了包含本发明的多核苷酸序列或多核苷酸构建体的多核苷酸控制序列。术语“控制序列”在本文中被定义为包括对多肽的表达来说必需的或有利的所有组件。“表达”应当被理解为包括涉及多肽生产的任何步骤，其可包括转录、转录后修饰、翻译、翻译后修饰、融合、多聚化、成熟和分泌。根据本发明的多核苷酸控制序列对编码多肽的核酸序列而言可以是内源的(native)或外源的(foreign)。控制序列的例子包括，但不限于启动子序列、前导序列、最适翻译起始序列(如Kozak，1991，J.Biol.Chem.266：19867-19870中所述)、分泌信号序列、原肽序列、多聚腺苷酸化序列、转录终止子。

在一个优选的实施方案中，本发明的控制序列是核酸构建体的部分。根据本发明的核酸构建体含有与本发明的多核苷酸控制序列可操作地连接的感兴趣的基因，所述多核苷酸控制序列指导所述感兴趣的基因编码的多肽在合适的(表达)宿主中表达。

当核酸构建体含有编码序列在具体宿主生物中表达所需的所有控制序列时，术语“核酸构建体”与术语“表达载体”或“表达盒”同义。表达载体可以是可便利地进行重组DNA步骤并可导致编码多肽的核酸序列的表达的任何载体(例如质粒或病毒)。对载体的选择应典型地取决于载体与要引入载体的细胞的相容性。载体可以是线性的或闭合环状质粒。

载体可以是自主复制的载体，即作为染色体外实体存在的载体，其复制不依赖于染色体的复制，例如质粒、染色体外元件、小染色体或人工染色体。

或者，载体可以是下述载体，当其被引入细胞时整合进基因组中，并与其中整合了所述载体的染色体一起复制。整合型克隆载体可以随机或在预先确定的靶基因座上整合进宿主细胞的染色体中。在本发明的一个优选的实施方案中，整合型克隆载体包含与宿主细胞基因组中预先确定的靶基因座中的DNA序列同源的DNA片段，用于将克隆载体的整合靶向该预先确定的基因座上。为了促进定向整合，克隆载体优选地在转化宿主细胞前被线性化。优选地进行线性化使得克隆载体的至少一端(但是优选任一端)侧翼是与靶基因座同源的序列。靶基因座侧翼的同源序列的长度优选地至少0.1kb，进一步优选地至少0.2kb，还更优选地至少0.5kb，进一步更优选地至少1kb，进一步优选地至少0.2kb，更优选地至少0.5kb，进一步更优选地至少1kb，最优选地至少2kb。

术语“可操作地连接”在本文中被定义为下述构型，其中控制序列被适当地置于与感兴趣的基因序列的编码序列相关的位置，使得控制序列能指导多肽的生产。本领域技术人员应当明白转录和翻译终止信号不总是非常确定的，并且不需要被特异性地添加至感兴趣的基因序列，尽管特异性添加能够提高多肽生产的总体效率。多核苷酸控制序列优选地含有本发明的多核苷酸序列的部分或全部。多核苷酸控制序列可以是任何核酸序列，所述核酸序列在包括突变体、截短和杂种启动子的细胞中显示转录调节活性，并且可以得自任何来源，包括但不限于基因组DNA、合成DNA、拷贝DNA。多核苷酸控制序列对细胞或感兴趣的基因而言可以是同源或异源的。

控制序列还可以包括合适的转录终止子序列，这是被多种宿主细胞识别为终止转录的序列。终止子序列与编码多肽的感兴趣的基因的3’末端可操作地连接。在细胞中有功能的任何终止子都可用于本发明中。

控制序列也可以包括合适的信号序列，这是对细胞内运输而言重要的被翻译区。信号序列与编码多肽的感兴趣基因的5’端可操作地连接。在多种宿主细胞中有功能的任何信号序列都可用于本发明中。

控制序列还可以包括合适的切割序列，这是对翻译后修饰而言重要的被翻译区。取决于活性模式，信号序列与编码多肽的感兴趣的基因的5’或3’端可操作地连接。在多种宿主细胞中或体外有功能的任何信号序列都可用于本发明中。

控制序列还可以包括合适的标签序列，这是对体外纯化而言重要的被翻译区。标签序列与编码多肽的感兴趣的基因的5’或3’可操作地连接。或者，标签序列可以被插入多肽序列内。在多种宿主细胞中有功能的任何标签序列都可用于本发明中。

控制序列也可以包括多聚腺苷酸化序列——与感兴趣的基因的3’端可操作地连接，并且在转录后被宿主细胞识别为对经转录的mRNA添加多聚腺苷残基的信号。在细胞中有功能的任何多聚腺苷酸化序列都可用于本发明中。

本发明的多核苷酸控制序列在至少三种不同的物种中驱动表达。优选地，它们在至少四种不同的物种中驱动表达。更优选地，本发明的多核苷酸控制序列在至少五种不同的物种中驱动表达。进一步更优选地，本发明的多核苷酸控制序列在至少六种不同的物种中驱动表达。仍然更优选地，本发明的多核苷酸控制序列在至少八种不同的物种中驱动表达。最优选地，本发明的多核苷酸控制序列在至少十种不同的物种中驱动表达。

优选的多核苷酸控制序列是在以下组中的至少三种中驱动多肽表达的多核苷酸控制序列：哺乳动物、植物、藻类、真菌、酵母、革兰氏阳性细菌、革兰氏阴性细菌或古细菌。更优选地是在四种或更多这些组中驱动表达的多核苷酸序列。进一步更优选地是在五种或更多这些组中驱动表达的多核苷酸序列。仍然更优选地是在六种或更多这些组中驱动表达的多核苷酸序列。最优选地是在所有七组中驱动表达的多核苷酸序列。

在另一个优选的实施方案中，根据本发明的多核苷酸控制序列指导多肽在以下属中的至少四种中表达：Escherichia、Streptomyces、Bacillus、Gluconobacter、Pseudomonas、Clostridium、Saccharomyces、Kluyveromyces、Pichia、Penicillium、Aspergillus、Mortierella、Chrysosporium、Acremonium、Trichoderma、Cricetulus、Homo。

根据本发明的核酸构建体中具体的感兴趣的基因

根据本发明的核酸构建体中感兴趣的基因可以是编码相关多肽的任何基因。

在一个实施方案中，感兴趣的基因是选择标记物基因。优选地使用以下的选择标记物基因中的一个或多个：ble、nptII、bla、amdS、URA3、TRP1、LEU2和pyrG，包括所述已知基因的所有基本同源和有功能的类似变体，包括合成和密码子适应的变体。更优选地，感兴趣的基因是ble基因或乙酰胺酶基因。ble基因是一种非常便利的选择标记物基因，因为所述基因较小，乙酰胺酶基因的优点是可能进行正向以及反向选择。这表示除了使用乙酰胺作为唯一碳源或氮源针对amdS基因的存在进行的正选择以外，还使用氟乙酰胺针对amdS基因的存在进行反选择(counter selection)；(见例如WO 97/06261)。

在一个实施方案中，感兴趣的基因是Aspergillus nidulans amdS基因，但是编码具有类似酶活性的任何其它基因会是合适的。这不仅限于与A.nidulans amdS的序列“基本同源”的氨基酸序列，而且包括“功能类似物”。

在本文上下文中，“功能类似物”被定义为具有下述氨基酸序列的多肽，所述氨基酸序列具有水解乙酰胺或氟乙酰胺的能力。能够水解类似物质如丙烯酰胺、己二酰二胺或甲酰胺的多肽也应该被认为包括在该定义中。“基本同源的”被定义为具有下述氨基酸序列的多肽，所述氨基酸序列与特定的氨基酸序列具有至少30％、更优选地至少40％、更优选地至少50％、仍然更优选地至少60％、仍然优选地至少70％、仍然更优选地至少80％、仍然更优选地至少90％、仍然更优选地至少95％和最优选地至少99％的同一性程度，该基本同源的肽展示乙酰胺酶活性并且提供了在氟乙酰胺上的反向选择。基本同源的多肽可包括多态现象，其可能由于天然的等位变异或菌株内变异而存在于来自不同种群的细胞或种群内的细胞中。基本同源的多肽还可源于除特定氨基酸和/或DNA序列起源的物种以外的物种，或可由人工设计和合成的DNA序列编码。与特定的DNA序列相关并通过遗传密码子的简并获得的DNA序列也是本发明的部分。同源物也可包括全长序列的生物活性片段。当然，本发明的范围不限于实施例中使用的特定选择标记物基因。本领域技术人员应当理解，原则上可以使用任何选择标记物基因，包括但不限于显性、隐性、抗生素、代谢和荧光标记物基因。

在另一实施方案中，感兴趣的基因是编码代谢酶、转录因子、细胞周期蛋白、蛋白酶、纤维素酶或抗体的基因。

还在另一实施方案中，感兴趣的基因是编码药物蛋白质或者涉及药物生产的酶的基因。

本发明的多核苷酸序列或控制序列可与感兴趣的基因融合。这在转染实验中尤其便利。

在一个实施方案中，本发明的多核苷酸控制序列与选择标记物基因融合。选择标记物基因可以是任何选择标记物基因，但是优选地是amdS基因或ble基因。

用于获得根据本发明的多核苷酸或多核苷酸控制序列的方法

还在另一方面中，本发明提供了获得本发明的多核苷酸序列的方法。根据本发明的多核苷酸序列可以得自任何物种。

本发明的多核苷酸可以通过杂交获得。对应于本发明多核苷酸的变体(例如天然等位基因变体)和同源物的核酸分子可以基于它们与本文公开的核酸的同源性，使用本文公开的核酸或其合适片段作为杂交探针，根据标准杂交技术，优选地在高严格度杂交条件下获得。或者可以通过可以获得的基因组数据库应用芯片筛选。

杂交反应的“严格度”可容易地由本领域常规技术人员测定。杂交反应严格度的其它细节和解释见Ausubel et al.1995.Current Protocols in Molecular Biology，Wiley Interscience Publishers。

可以通过例如筛选所述微生物的基因组文库来分离核酸序列。一旦使用例如源于SEQ ID NO 1或51的探针检测到编码具有本发明活性的多肽的核酸序列，则可以通过利用本领域常规技术人员已知的技术来分离或克隆所述序列(见Sambrook et al.1989，Molecular Cloning，A Laboratory Manual，2d edition，Cold Spring Harbor，New York)。

也可以如下实现从这类(基因组)DNA中克隆本发明的核酸序列：例如使用基于聚合酶链式反应(PCR)的方法或对表达文库的抗体筛选来检测具有共享结构特征的被克隆的DNA片段(见Innis et al.1990.PCR：A Guide to Methods and Application，Academic Press，New York.)。

本文提供的序列信息不应被狭义地认为需要包括被错误识别的碱基。本文公开的特定序列可被容易地用于分离完整的多核苷酸或核酸序列，这随后可被容易地用于进一步的序列分析，从而鉴定测序错误。

除非另有说明，使用自动化DNA测序仪测定本文中通过对DNA分子测序所测定的所有核苷酸序列，并且通过翻译如上测定的DNA序列预测本文中测定的DNA分子编码的所有多肽的氨基酸序列。因此，如本领域所已知的，对通过该途径测定的任何DNA序列而言，本文中测定的任何核苷酸序列可含有错误。通过自动化测定的核苷酸序列与被测序的DNA分子的真实核苷酸序列典型地至少约90％相同，更典型地至少与95％到至少约99.9％相同。可通过其它途径(包括本领域公知的手动DNA测序方法)更精确地测定真实的序列。还如本领域已知的，与真实序列相比，被测定的核苷酸序列中的单个插入或缺失会引起核苷酸序列翻译中的移码，从而由被测定的核苷酸序列编码的预测氨基酸序列与被测序的核苷酸分子实际编码的氨基酸序列会从这样的插入或缺失点开始完全不同。本领域技术人员能够鉴定这些被错误识别的碱基，并知道如何纠正这类错误。

在一个实施方案中，以下述方式通过计算机来设计本发明的合适的多核苷酸序列，所述方式使得它们具有某一长度并且与合适的控制序列组合。这类多核苷酸序列可以合成制造并克隆在任何感兴趣的基因前。

在一个优选的实施方案中，多核苷酸序列可以来自在某些物种中高水平表达(特征是具有至少0.5％(w/w)的总细胞mRNA的mRNA浓度)的天然基因。在另一优选的实施方案中，启动子可以来自中度水平表达(特征是具有至少0.01％直到0.5％(w/w)的总细胞mRNA的mRNA浓度)的天然基因。在另一个优选的实施方案中，启动子可以来自低水平表达(特征是低于0.01％(w/w)总细胞mRNA的mRNA浓度)的天然基因。

在一个进一步更优选的实施方案中，使用微阵列数据来选择基因，从而选择具有某转录水平和调节的这些基因的多核苷酸控制序列。藉此，可以将基因表达盒改造为最适合其要发挥功能的条件。

或者可以在可选择标记物基因例如抗生素抗性基因如ble基因前克隆随机DNA片段，所述抗生素抗性基因编码提供针对化合物如硫酸博来霉素(zeocin)、博来霉素(bleomycin)和腐草霉素(phleomycin)的抗性。这是在若干物种(真菌、酵母、细菌)中使用的选择标记物基因，尽管具有物种特异性的启动子。使用选择性生长条件可以容易地选择活性多核苷酸控制序列，因为这会促进在以下述浓度含有硫酸博来霉素(或腐草霉素或博来霉素或任何合适的替代性化合物)上的生长，所述浓度使其能够抑制亲本细胞或具有非功能性启动子的细胞的生长。这些DNA片段可源于任何来源，即不同的物种，经PCR扩增，合成等等。

通过多种方法获得的本发明的多核苷酸序列可以被用作多核苷酸控制序列并在若干物种中测试。这可以同时进行，但是在使用高数量和良好的选择体系时，这优选地以系列模式完成。在第一物种中选择本发明的活性多核苷酸控制序列后，可以分离DNA并用于转染第二物种。使用正确的选择压力时，仅会获得第一被选启动子的子集，但是这些会驱动第一和第二物种中的转录。所述步骤能够继续，直至分离出在所有被选宿主中驱动表达的本发明的多核苷酸控制序列为止。

根据本发明的宿主细胞

在第一方面中，本发明涉及包含根据本发明的多核苷酸序列、多核苷酸构建体、多核苷酸控制序列、表达盒或载体并且适用于生产感兴趣的化合物的宿主细胞。宿主可以是作为原核生物或真核生物的任何宿主。优选地，宿主是E.coli、B.subtilis、S.cerevisiae或P.chrysogenum。在一个优选的实施方案中，针对定向整合优化宿主；合适的宿主的例子是本领域公知的，例如来自WO05/095624，所述文献通过引用并入本文。

宿主细胞可以被用于生产合适的感兴趣的化合物，包括例如多肽、抗体或初级或次级代谢产物，如药物化合物。

本发明的多核苷酸序列的用途

还在本发明的另一方面，在克隆反应、限制性酶消化、重组反应、分子生物学试剂盒和试剂、酶促筛选、生物催化反应、生物化学反应或发酵工艺中，使用根据本发明的多核苷酸序列、多核苷酸构建体、多核苷酸控制序列、表达盒或载体，通称为本发明的多核苷酸分子。

本发明的多核苷酸分子和宿主细胞可有利地在用于体外或体内克隆实验的方法中使用。由与选择标记物基因融合的多核苷酸控制序列组成的表达盒的组合具有许多优点。其显著增强经典的限制性酶和连接克隆的成功率，增强单片段和多片段Gateway重组反应的成功率，使得能够进行有效的多片段STABY克隆反应。

本发明的范围不限于实施例中所述的特定克隆方法，而是也包括其它克隆(商业)方法如TOPO克隆、RED/ET重组、In Fusion克隆和Yeast Recombination克隆。

本发明的多核苷酸控制序列与选择标记物基因之间的融合构建体尤其适用于构建感兴趣的基因的过表达或缺失构建体。例如，使用与最终宿主中靶基因真实缺失中要使用的相同的选择标记物基因表达盒，通过所谓的双交换方法(Rothstein.1983.Meth.Enzymol.101：202-211)可以容易地在合适的实验室劳动力如E.coli中创建基因缺失(细节见实施例13)。优点是已经能够在E.coli中选择正确的构建体，使得能够得到更快的通量和更高的成功率。如果选择标记物基因表达盒被直接重复或重组位点如LOX位点或类似物(见http://en.wikipedia.org/wiki/Cre-Lox recombination)包围，则可能在获得正确整合时迅速去除选择标记物基因表达盒。用于这一目的的高度优选的选择标记物基因是编码下述多肽的双相选择标记物基因，例如乙酰胺酶基因，所述多肽使得能够进行正向以及反向选择。用于这类正向和反向选择的优选的方法描述于WO97/06261中，所述文献通过引用并入本文。优选的乙酰胺酶基因是具有改进的选择特性的乙酰胺酶基因。这些是本领域已知的，例如来自WO2007/118836，所述文献通过引用并入本文。优选地使用改进的选择性培养基，因为如果存在背景的话这会显著降低任何背景。

还在本发明的另一方面中，在用于筛选新酶活性的方法中使用了本发明的多核苷酸控制序列或核酸盒。

在驱动多肽在多种宿主中表达的方法中，特定的感兴趣的基因可以被克隆至处于本发明多核苷酸序列、多核苷酸控制序列或核酸盒的控制下。因为一些多肽在一些宿主中不被正确表达，所以不必须针对每个宿主优化表达盒而是仅生产能够在多种宿主中测试的一种表达盒是有利的。感兴趣的基因的数量和来源根据定义是不受限制的。其可以是能够PCR扩增或通过合成DNA获得的已知基因(如1-1000个基因)的选择；其可以是宏基因组文库(由10.000-10.000.000个未知的多核苷酸序列组成)；其可以是来自单个基因的变体文库(例如通过易错PCR、定向进化或基因改组获得的200-20.000个变体)；其可以是非转录基因的文库(尽管经测序的基因组的许多基因在所研究的条件下不转录，但是它们仍然可具有高度有趣的酶活性，从而将它们置于功能性启动子之后会使其能够被筛选)。

例如，可以从处于第一或第二方面的多核苷酸控制下的多种来源中克隆1000个蛋白酶基因。为了提高被成功表达的基因的百分比从而允许适当的筛选过程，可以转化所述文库，针对蛋白酶选择合适的宿主即B.subtilis、E.coli、S.cerevisiae和A.niger，并且所述启动子会驱动所有1000个基因在所有这些物种中转录。

在一个特定的实施方案中，筛选针对细胞内多肽。

在另一个特定的实施方案中，筛选针对分泌型多肽。对要被分泌的多肽而言，控制序列也可以包括信号肽编码区，所述信号肽编码区编码与多肽的氨基端连接的氨基酸序列，所述氨基酸序列可以指导被编码的多肽进入细胞的分泌通路。基因编码序列的5’端可固有地含有按照翻译读码框与编码区的区段天然连接的信号肽编码区，所述信号肽编码区编码分泌型多肽。或者，基因的5’端可含有对编码序列而言外源的信号肽编码区。在基因通常不含有信号肽编码区时，外源信号肽编码区可以是需要的。或者，外源信号肽编码区可简单地代替天然信号肽基因，从而获得增强的多肽分泌。

附图概述

图1展示了从Penicillium chrysogenum pcbC启动子中去除葡萄糖阻抑的效果。(A)pcbC启动子的相关的756个碱基。推定的creA位点加有下划线，下划线下是用大写标注的碱基对改变(分别从EcoRI改变为MunI位点)。用于克隆的相关引入的限制性位点(NdeI和ClaI)也在原始序列下标注。ATG以大写和粗体标注。另外，标注了ATG之前引入的HpaI位点。(B)对来自带有野生型启动子构建体的菌株的样品进行的rtPCR；(C)对来自带有creA突变体启动子构建体的菌株的样品进行的rtPCR。

图例：G＝葡萄糖；L＝乳糖

图2展示了真菌启动子和细菌启动子插入物的相关部分。(A)A.nidulans gpdA启动子的3’部分，其中在ATG之前插入CAT核苷酸，获得NdeI位点。(B)B.subtilis PE4启动子的关键部分，其中细菌共有元件加有下划线。(C)P.chrysogenum pcbC creAIII启动子的3’部分，其中在ATG之前插入CAT核苷酸，获得NdeI位点。垂直线阐述了为了获得真菌-细菌融合启动子而插入的序列。

图3展示了能够在原核生物中驱动表达的经修饰的真菌启动子的相关部分。(A)B.subtilis PE4启动子的关键部分，其中细菌共有元件加有下划线。(B)三种PpcbC变体的相关部分：野生型(WT)和经修饰的(INS和EXC)，其中包括的细菌元件加有下划线，相对于WT序列的所有修饰为大写。(C)三种PgpdA变体的相对部分：野生型(WT)和经修饰的(INS和EXC)，其中包括的细菌元件加有下划线，相对于WT序列的所有修饰为大写。

图4展示了PgpdA-INS和PgpdA-EXC启动子在E.coli中发挥功能。(A)展示了E.coli细胞在含有硫酸博来霉素的琼脂平板上的生长。(B)图例Pwt＝WT gpdA启动子，Pins＝gpdA-INS启动子，Pexc＝gpdA-EXC启动子，neg＝“空”E.coli细胞。

图5展示了式I共有序列后的Penicillium chrysogenum多核苷酸控制序列，Pc12g14840启动子。(A)wt＝野生型多核苷酸控制序列，关键元件加有下划线；CD1＝Pc12g14840的变体多核苷酸控制序列，其中插入CAT创建NdeI位点；CD2＝Pc12g14840的变体多核苷酸控制序列，其中引入了额外的核糖体结合位点(加有下划线)。引用的碱基对为大写。(B)展示了带有驱动ble基因转录的CD1或CD2多核苷酸控制序列任一的E.coli细胞在含有硫酸博来霉素的琼脂平板上的生长。

图6展示了带有pAnamdScA(空心符号)或pUC19(实心符号)的RV308的生长曲线。方块(A和D)＝2xYT；三角(B)＝AFM+氯化铵；圆形(C和E)＝AFM+乙酰胺。

图7展示了用pBHA-3310amdS转化后Bacillus subtilis 1A747的生长。(A)pBHA12-DEST的质粒图谱。(B)pBHA-3310amdS的质粒图谱。(C)在无氮源(平板1，见图D)、乙酰胺(平板2，见图D)、谷氨酰胺(平板3，见图D)、谷氨酰胺+乙酰胺(平板4，见图D)上对转化体再划线。(D)图C中平板的图例。

图8展示了用pYDEST-3310amdS和pYDEST-3311amdS转化的Saccharomyces cerevisiae CEN.PK113-5D(Δura3)的生长。图例H20，用水转化的CEN.PK113-5D；3310，用pYDEST-3310amdS转化的CEN.PK113-5D；3310，用pYDEST-3311amdS转化的CEN.PK113-5D。

实施例

一般方法

除非另有说明，在实施例中按照文献(Sambrook et al.，1989，Molecular cloning：a laboratory manual”，CSHL press，Cold Spring Harbour，NY)中所述使用标准分子技术。

比较实施例1

Streptomyces griseus saf启动子在Escherichia coli中没有功能

为了测试细菌saf启动子作为可能的一般启动子的有用性，作为控制ble基因表达的合成DNA(Codon Devices，Cambridge，MA，USA)生产序列，所述序列编码介导针对硫酸博来霉素、博来霉素和腐草霉素的抗性的蛋白质。将SEQ ID NO.52克隆在pUC19的EcoRI和BamHI位点中，转染至E.coli菌株DH5α(Invitrogen)中，并在2xYT+100μg/ml氨苄西林中，在存在作为载体主链一部分的bla基因时选择。

将氨苄西林抗性克隆在2xYT+20μg/ml硫酸博来霉素和2xYT+100μg/ml氨苄西林(对照)上再划线。仅在氨苄西林平板上生长是可见的，显示与Asturias et al.，1990的报道相反，saf启动子在具有ble基因的E.coli中没有功能，因此不适用于我们的目的。

比较实施例2

真菌gpdA和pcbC启动子在Escherichia coli中没有功能

为了测试真菌gpdA和pcbC启动子作为可能的一般启动子的有用性，作为控制ble基因表达的合成DNA(Codon Devices，Cambridge，MA，USA)生产序列，所述序列编码介导针对硫酸博来霉素、博来霉素和腐草霉素的抗性的蛋白质。

制备Penicillium chrysogenum pcbC启动子的葡萄糖阻抑不敏感变体

Penicillium chrysogenum的pcbC基因是强表达的基因，但是遭受葡萄糖阻抑(Gutiérrez et al.，Microbiology 1999，145：317-324)。可以通过缺失一个或多个creA位点来缺失阻抑。因此构建第一启动子变体，其中缺失了三个推定的creA位点(细节见图1A)。为此首先制造对照报告子构建体：pEGPT12。其中编码绿色荧光蛋白的eGFP基因处于pcbC启动子的控制下。为此在标准扩增程序中，使用校正酶(HiFi聚合酶，Boehringer Mannheim)，从质粒pEGFP-C1(Clontech)中使用SEQ ID NO 53和54的寡核苷酸PCR扩增eGFP基因。在30个PCR循环后立即向反应混合物中添加1个单位的AmpliTaq聚合酶(PerkinElmer)，并在37℃下孵育30分钟。这在pCR2.1TOPO T/A载体(Invitrogen)中引入了用于有效克隆的3’-腺嘌呤。通过测序验证正确的序列。将eGFP克隆进pCR2.1中，得到质粒pEGFP7。pcbC基因的启动子(SEQ ID NO 65)和终止子区域在使用寡核苷酸SEQ ID NO 55加56扩增得到810bp的片段，使用寡核苷酸SEQID NO 57加58扩增时得到807bp的片段。二者均如上文所述被扩增并克隆进pCR2.1TOPO T/A载体中。藉此引入了若干限制性位点，以便于进一步的克隆步骤：NarI、HpaI、EcoRV和ClaI(在ATG附近)和NotI、ClaI、SalI和XbaI(在终止子区域中)。启动子片段作为NarI-ClaI片段被分离，并被克隆在终止子克隆的ClaI位点中。用ClaI消化得到的启动子终止子盒以确保eGFP ORF(作为ClaI-NarI片段被分离)的连接，得到最终质粒pEGPT12，其中eGFP位于P.chrysogenum pcbC启动子的控制下。得到的eGFP表达盒可以作为2.6kb NotI片段从pEGPT12中分离，用于转化Penicillium chrysogenum。

为了缺失第一个creA位点，进行融合PCR。首先进行两个单独的PCR反应，来扩增启动子的左侧和右侧部分，在最上游的推定的creA结合位点的位点处引入EcoRI位点(GAATTC)(见图1A)。这使用寡核苷酸SEQ ID NO 55加59(扩增creA位点上游的启动子的部分)和使用寡核苷酸SEQ ID NO 60加56(扩增creA位点下游的启动子的部分)完成。将所述片段在琼脂糖凝胶上分离，从凝胶中提取(QiaQuick Extraction kit，Qiagen)并一起用作使用寡核苷酸SEQ ID NO 55加56的融合PCR反应的模板。将该片段克隆在pCR2.1TOPO T/A中，在序列验证后分离NdeI-ClaI片段，并用于代替pEGPT12的WT启动子，得到带有位于PpcbC-creAI启动子(SEQ ID NO 66)控制下的eGFP。

为了缺失第二和第三个推定的creA位点，首先使用PpcbC-creAI作为模板进行两个单独的PCR反应，来扩增启动子的左侧和右侧部分，在与ATG最接近的两个推定的creA结合位点的位点处引入MunI位点(CAATTG)。这使用寡核苷酸SEQ ID NO 55加61(扩增第2和第3个creA位点上游的启动子的部分)和使用寡核苷酸SEQ ID NO 62加56(扩增第2和第3个creA位点下游的启动子的部分)完成。将两个片段单独地克隆在pCR2.1TOPO T/A中，并且在序列验证后均通过NdeI-MunI(5’部分)和MunI-ClaI(3’部分)分离。与经NdeI-ClaI消化的pEGPT12连接后，获得了所有三个creA位点均已缺失的最终质粒：带有位于PpcbC-creAIII启动子(SEQ ID NO 67)控制下的eGFP的质粒。

通过NotI消化从质粒主链中分离WT和ΔcreAIII启动子变体eGFP表达构建体二者，并用于转化P.chrysogenum。涉及将DNA转移至Penicillium chrysogenum原生质体的技术是本领域公知的，并且描述于许多参考文献中，所述参考文献包括Finkelstein and Ball(eds.)，Biotechnology offilamentous fungi，technology and products，Butterworth-Heinemann(1992)；Bennett and Lasure(eds.)More Gene Manipulations in fungi，Academic Press(1991)；Turner，在Pühler(ed)，Biotechnology，2^nd completely revised edition，VHC(1992)中。Ca-PEG介导的原生质体转化如EP 635,574中所述使用。来自pHELY-A1的amdS表达构建体(描述于WO04/106347中)被用于共转化。将2μg PpcbC-WT-EGFP和PpcbC-ΔcreAIII-EGFP转化至P.chrysogenum(使用0.25μg的amdS表达构建体)。在含有乙酰胺作为唯一氮源的培养基上选择转化体。为了保证获得稳定的转化体，在新鲜的乙酰胺平板上对第一轮阳性菌落进行菌落纯化，随后转移至非选择性丰富培养基(rich media)(YEPD)以诱导孢子形成。之后在乙酰胺培养基上再次测试所有菌落。

使用稳定的amdS转化体的孢子接种液体培养基。所述培养基之一基本与De Laat et al.(US 2002/0039758)所述相同。在另一培养基中，用葡萄糖代替所有乳糖作为唯一碳源。(25℃和280rpm下)生长4天后采样。使用StrataPrep Total RNA MicroPrep Kit(Stratagene)从约106个细胞中分离总RNA。使用十分之一的总RNA进行寡聚-dT指导的cDNA合成(Thermoscript RT-PCR，Life Technologies)，所述cDNA被用作使用特异性寡核苷酸SEQ ID NO 63和64的PCR(SuperTaq by Enzyme Technologies，UK)的30个循环的模板。通过比较图1B和1C可以看出，creA位点的缺失完全消除了pcbC启动子的葡萄糖阻抑。

在Escherichia coli中测试真菌gpdA和pcbC启动子的功能性

针对在E.coli中驱动表达，测试如上文述Penicillium chrysogenum的pcbC启动子(pcbCΔcreAIII，SEQ ID NO 67)和Aspergillus nidulans的gpdA启动子的葡萄糖阻抑不敏感的变体。然而，为了进一步克隆的便利，在pcbC启动子的葡萄糖阻抑不敏感的变体中，省略HpaI位点，并在ATG前直接引入NdeI位点。两种构建体均在ble基因前合成制造(DNA2.0，Menlo Park，CA 94025，USA)并带有真菌终止子序列。通过Gateway反应(手册见：www.invitrogen.com)将SEQ ID NO 68和70的两条多核苷酸(启动子-ble基因-终止子)克隆在Invitrogen的pDONR221载体中，并在卡那霉素选择后获得正确的克隆(分别为p3305ble和p3309ble)。

将卡那霉素抗性克隆在2xYT+20μg/ml硫酸博来霉素和2xYT+50μg/ml卡那霉素(对照)上再划线。仅在卡那霉素平板上生长是可见的，显示Hamer et al.(2001，Proc Natl Acad Sci USA 98：5110-5115)的观察结果不是普遍适用的，所述观察结果描述了带有hph基因(针对潮霉素C的抗性)的真菌启动子trpC在E.coli中的用途。我们的结果表明文献中的例子对描述的案例而言是非常特异性的，并且所述方法不是普遍适用的。

为了验证在真菌中的功能，如上文所述将两种ble表达盒均转化至P.chrysogenum原生质体中，并在含有50μg/ml腐草霉素的琼脂平板(YEPD+1.0M蔗糖)上涂布。因为两种实验均得到腐草霉素抗性转化体，显然合成的性质没有改变它们作为真菌启动子发挥功能。

比较实施例3

真菌-细菌融合启动子在Escherichia coli中没有活性

在设计在真核生物和原核生物中均有活性的启动子的下一个尝试中，适用融合方法。在所述方法中，原核生物启动子被插入完整的真核生物启动子和真核生物起始密码子ATG之间。我们使用两种广泛使用的强真菌启动子，即Penicillium chrysogenum的pcbC启动子和Aspergillus nidulans的gpdA启动子。

在融合方法中测试了如实施例2中制备的Penicillium chrysogenum pcbC启动子的葡萄糖阻抑不敏感的变体(pcbCΔcreAIII，SEQ ID NO 67)和Aspergillus nidulans的gpdA启动子。

选择Bacillus subtilis的PE4启动子(Stewart et al.，1998，Virology 246：329-340)作为具有原核生物启动子的所有已知共有元件的强原核生物启动子。将含有所有必需启动子元件的所述启动子最后84个碱基插入真菌启动子和ATG起始密码子之间(细节见图2)。两种构建体均在ble基因前合成制造(DNA2.0，Menlo Park，CA 94025，USA)并带有真菌终止子序列。通过Gateway反应(手册见：www.invitrogen.com)将SEQ ID NO 69和71的两条多核苷酸(启动子-ble基因-终止子)克隆在Invitrogen的pDONR221载体中，并在卡那霉素选择后获得正确的克隆(分别为p3308ble和p3312ble)。

将卡那霉素抗性克隆在2xYT+20μg/ml硫酸博来霉素和2xYT+50μg/ml卡那霉素(对照)上再划线。仅在卡那霉素平板上生长是可见的，显示应用于真菌启动子如pcbC和gpdA(SEQ ID NO 69和71)时，简单地融合真核生物和原核生物启动子不会得到功能性E.coli启动子。

为了验证在真菌中的功能，如实施例2中所述将两种ble表达盒均转化至P.chrysogenum原生质体中，并在含有50μg/ml腐草霉素的琼脂平板(YEPD+1.0M蔗糖)上涂布。因为两种实验均得到腐草霉素抗性转化体，显然合成的性质没有改变它们作为真菌启动子发挥功能。另外，细菌启动子的插入没有破坏真菌启动子的活性。

实施例4

细菌序列在真菌启动子中的多位点插入驱动在Escherichia coli中的高效基因表达

在寻找在真核生物和原核生物中均有活性的启动子的又一次尝试中，将Bacillus subtilis的PE4启动子(Stewart et al.，1998)最后84个碱基对中的共有序列插入Penicillium chrysogenum(SEQ ID NO 67)的葡萄糖阻抑不敏感的pcbC启动子中和Aspergillus的gpdA启动子(SEQ ID NO 70)中的若干位置处。这得到分别包埋于多核苷酸控制序列SEQ ID No 72和74中的多核苷酸序列SEQ ID NO 46和48。所有构建体均在ble基因前合成制造(DNA2.0，Menlo Park，CA 94025，USA)，之后带有真菌终止子(分别得到质粒p3306ble和p3310ble)。在一些情况下细菌序列在插入位点处代替真菌序列。这得到分别嵌于多核苷酸控制序列SEQ ID No 73和75中的多核苷酸序列SEQ ID No 47和49(即序列交换分别得到质粒p3307ble和p3311ble)。

通过Gateway反应(手册见：www.invitrogen.com)将多核苷酸克隆进Invitrogen的pDONR221载体中，并在卡那霉素选择后获得正确的克隆。将卡那霉素抗性克隆在2xYT+20μg/ml硫酸博来霉素和2xYT+50μg/ml卡那霉素(对照)上再划线。使用未改造的真菌启动子作为对照(见实施例2，p3305ble和p3309ble，SED ID NO 68和70)。在具有源自两种真菌启动子的变体的两种选择平板上均可看到良好的生长(见例如图4)，与之相反，未经修饰的真菌启动子仅在卡那霉素平板上适当地生长。

测序显示只有启动子中包含以下共有序列的克隆获得了阳性的结果(图3和SEQ ID NO.1到45)：

T-T-G-A-C-W-N(o)-Y₁-A-Y₂-A-A-T-H₁-H₂-N(p)-S₁-S₂-W-K₁-K₂-N(q)-H₃-M₁-M₂-H₄-A-T-G，(式I)

其中，

N可以是核苷酸A、C、G和T中的任何，N(o)在16和18个核苷酸长度之间；N(p)在21和23个核苷酸长度之间；N(q)在2和6个核苷酸长度之间，所有的N可以相同或不同；

W可以是核苷酸A和T中的任何，并且所有的W可以相同或不同；

Y可以是核苷酸C和T中的任何，并且所有的Y可以相同或不同；

H可以是核苷酸A、C和T中的任何，并且所有的H可以相同或不同；

S可以是核苷酸G和C中的任何，并且所有的S可以相同或不同；

K可以是核苷酸G和T中的任何，并且所有的K可以相同或不同；

M可以是核苷酸A和C中的任何，并且所有的M可以相同或不同；

N(o)的AG含量低于50％

N(o)的A含量低于35％

N(o)中每个6核苷酸串中的AG含量低于66％

N(p)的AG含量低于60％

N(p)中每个6核苷酸串中的AG含量低于83％

N(o)和N(p)不含有两个连续的G。N(q)的G含量低于50％。

为了验证在真菌中的功能，如实施例2中所述将在E.coli中活性转录的多种ble表达盒转化至P.chrysogenum原生质体中，并在含有50μg/ml腐草霉素的琼脂平板(YEPD+1.0M蔗糖)上涂布。所有实验均得到腐草霉素抗性转化体，显然合成的性质没有改变它们作为真菌启动子发挥功能。另外，细菌启动子的插入没有破坏真菌启动子的活性。

因此，我们惊讶地发现在真核生物和原核生物中均为活性启动子的若干多核苷酸控制序列。亲本启动子来自于不同的真菌起源并具有不同的代谢通路(即分别为初级代谢和次级代谢)，显示通常使用的真菌启动子可被改造为在E.coli中发挥功能。

实施例5

真菌甾醇转甲基酶样启动子在E.coli中驱动表达

为了验证共有序列的普遍适用性，针对下述启动子区域筛选Aspergillus niger和Penicillium chrysogenum的基因组序列，所述启动子区域在实施例4中共有序列之后并且可以在E.coli中使用。

例如，鉴定了一种Penicillium chrysogenum启动子，所述启动子在标准生长条件下被活性转录(通过Affymetrix MicroArrays验证)并且跟随在共有序列后(见图5A)。启动子位于与Candida albicans的甾醇转甲基酶ERG6具有强相似性的基因前。两种构建体在ble基因前合成制造(DNA2.0，Menlo Park，CA 94025，USA)并且之后是终止序列。一种合成构建体在启动子序列中含有一种修饰：起始密码子前的CAT，用于引入NdeI位点(包埋于多核苷酸控制序列SEQ ID NO 76中的多核苷酸序列SEQ ID NO 50)。其它合成构建体除了所述CAT以外还在启动子序列中含有第二修饰：插入的核糖体结合位点(RBS；包埋于多核苷酸控制序列SEQ ID NO 77中的多核苷酸序列SEQ ID NO 51)。SEQ ID NO 76和77的两种多核苷酸序列被克隆在PU19的EcoRI和BamHI位点之间，并且在氨苄西林选择后获得正确的克隆。

将氨苄西林抗性克隆在2xYT+20μg/ml硫酸博来霉素和2xYT+100μg/ml氨苄西林(对照)上再划线。硫酸博来霉素上两种构建体的生长均是可见的(图5B)，证明共有序列后的多核苷酸控制序列在真菌和E.coli中均有活性。

该多核苷酸控制序列仅仅是一个例子；因为能够获得多种基因组序列，所以能够使用芯片筛选来迅速鉴定基本上同源的多核苷酸控制序列并在合适的物种中对它们进行测试。

实施例6

在Escherichia coli中使用amdS基因和的乙酰胺选择

因为编码乙酰胺酶的amdS基因(例如Aspergillus nidulans amdS基因)是酵母和真菌中一种有用的可选择标记物基因，可以针对其存在或不存在容易地选择转化体，所以如果这样的标记物能够在原核生物中发挥作用会是非常有用的，因为它们常常不能够在乙酰胺上生长(见例如下文的结果)并且所述基因不是一般代谢的一部分。为此，从分离自实施例2的amdS positive Penicillium转化体的mRNA中PCR扩增Aspergillus nidulans amdS基因的cDNA。使用StrataPrep Total RNA MicroPrep Kit(Stratagene)从约106个细胞中分离总RNA。使用十分之一的总RNA进行寡聚-dT指导的cDNA合成(Thermoscript RT-PCR，Life Technologies)，所述cDNA被用作使用特异性寡核苷酸SEQ ID NO 78和79的PCR(使用校正酶)的30个循环的模板。在30个PCR循环后立即向反应混合物中添加1个单位的AmpliTaq聚合酶(PerkinElmer)，并在37℃下孵育30分钟。这在pCR2.1TOPO T/A载体(Invitrogen)中引入了用于有效克隆的3’-腺嘌呤。通过测序验证正确的序列。之后将NdeI-NsiI片段再克隆进质粒pISEWAn(WO04/106347)中的相同位点中。接着将在E.coli中不驱动正确表达(见实施例3)的真菌PpcbC启动子替换为市售质粒中存在的介导氨苄西林抗性的bla基因的启动子。为此使用特异性寡核苷酸SEQ ID NO 80和81从质粒主链PCR扩增启动子。克隆在pCR2.1TOPO T/A载体(Invitrogen)中之后，分离EcoRI-NdeI片段并用于替换为PpcbC，得到pAnamdScA(即处于bla启动子控制下的Aspergillus nidulans amdS基因)。将构建体转化至RV308(ATCC31608)，并在2xYT+100μg/ml氨苄西林上获得转化体。将pUC19转化至相同的菌株作为对照。将转化体接种于液体丰富培养基(2xYT)或液体矿物质培养基(AFM：50mM K₂HPO₄，4mM柠檬酸，1mMMgSO₄，3mM FeCl₃，1mM MnCl₂，1mM CaCl₂，2g/1蔗糖，含有20mMNH₄Cl或1g/l乙酰胺任一作为氮源)中，并在25℃和280rpm下培养。从图6中可以看出，带有pAnamdScA的RV308可以容易地在乙酰胺上生长；甚至比在铵上更好。能够获得这些结果以后，尝试了在乙酰胺上直接选择。用pAnamdScA电穿孔后，在1ml AFM+1g/1乙酰胺中再生RV308，并在25℃下孵育1小时，随后涂布在AFM+1g/1乙酰胺琼脂平板上。3天后出现菌落，并将7个菌落在2xYT+100μg/ml氨苄西林上再划线。从这些平板中将所述菌落接种于液体AFM+乙酰胺中，并在25℃和280rpm下培养2天后分离质粒。所有质粒的限制性消化模式与pAnamdScA精确匹配，这表明在乙酰胺上对E.coli中的真菌amdS基因进行直接选择是可能的。

实施例7

合成的多核苷酸控制序列在Escherichia coli中驱动高效的乙酰胺选择

如实施例6中所示，处于典型的原核生物启动子控制下的amdS基因可以被用于在E.coli中选择容易生长的转化体。如果使用amdS基因的基于乙酰胺的选择能够与显示在真菌和E.coli二者中均发挥功能的经修饰的合成多核苷酸控制序列组合在一起发挥作用，会是极为有用的(见实施例4)。在这种情况下，具有正向和反向两种选择(分别在乙酰胺和氟乙酰胺上)的相同表达盒可在多种物种中使用，减少了克隆步骤，同时从多个物种切换到多个物种。为此通过NdeI-NsiI消化从质粒p3310ble和p3311ble(见实施例4)中去除ble基因，并用作为pAnamdScA的NdeI-NsiI片段被分离的amdS的cDNA代替(见实施例6)，分别得到p3310amdS和p3311amdS。将转化混合物(通过将连接混合物转化至RV308)直接涂布在AFM+1g/1乙酰胺上。25℃三天后在琼脂平板上获得菌落，而在对照平板上无菌落出现。

因此，令人惊讶地，本发明的多核苷酸控制序列与选择标记物基因如amdS的组合提供了非常有效的选择标记物盒，所述选择标记物盒可在大范围的工业相关物种中使用。

实施例8

合成的多核苷酸控制序列在Penicillium chrysogenum中驱动高效的基因表达

为了测试实施例3和4的合成多核苷酸控制序列是否在真菌中驱动转录，将所有构建体(p3305ble、p3306ble、p3307ble、p3308ble、p3309ble、p3310ble、p3311ble和p3312ble)转化至Penicillium chrysogenum原生质体。涉及将DNA转移至Penicillium chrysogenum原生质体的技术是本领域公知的，并且描述于许多参考文献中，所述参考文献包括Finkelstein and Ball(eds.)，Biotechnology of filamentous fungi，technology and products，Butterworth-Heinemann(1992)；Bennett and Lasure(eds.)More Gene Manipulations in fungi，Academic Press(1991)；Turner，in：Pühler(ed)，Biotechnology，2^nd completely revised edition，VHC(1992)。Ca-PEG介导的原生质体转化如EP 635,574中所述使用。将1μg每种质粒转化至P.chrysogenum，并在含有1.0M蔗糖和50μg/ml腐草霉素的0.5xYEPD上选择转化体。使用每个构建体可以获得许多转化体(20到1000个之间)，而在用水转化后没有获得腐草霉素抗性菌落。因此，在E.coli中有活性的合成多核苷酸控制序列在P.chrysogenum中也有活性。

实施例9

合成多核苷酸控制序列在Bacillus subtilis中驱动高效的基因表达

为了测试实施例3和4的合成多核苷酸控制序列是否在杆菌(bacilli)中驱动转录，通过Gateway反应将所选择的构建体(p3310amdS和p3311amdS，见实施例7)转移至Bacillus载体(pBHA12-DEST)。通过在pBHA12载体(WO2008/000632)中插入attR1-cat/ccdB-attR2盒获得pBHA12-DEST。为了获得pBHA12-DEST，使用SEQ ID NO 82和83的寡核苷酸，从pDEST15(Invitrogen)中PCR扩增attR1-cat/ccdB-attR2盒，并在BpiI消化后克隆进pNHA12的BamHI-NotI位点中，得到pBHA12-DEST。培养在Gateway反应后获得的TOP10(Invitrogen)的氨苄西林抗性菌落，分离质粒并通过限制性分析验证。对两种克隆而言均获得Bacillus-变体载体(分别称作pBHA-3310amdS和pBHA-3311amdS)。将两种质粒转化至JM110，来分离可用于B.subtilis转化的dam-甲基酶阴性DNA。

选择B.subtilis 1A747(Bacillus Genetic Stock Center，The Ohio State University，Columbus，Ohio 43210USA)作为转化实验的宿主菌株。基本培养基是不含有N源或含有谷氨酰胺(0.2％)和/或乙酰胺(0.1％)的BFA-N。BFA-N(每升)含有K₂SO₄，11.5mM；K₂HPO₄·5H₂O，62mM；KH₂PO₄，44mM；柠檬酸钠·7H₂O，3.4mM；硫酸镁·7H₂O，0.8mM；葡萄糖，4g；FeCl₃，4mg；MnSO₄，0.2mg；CaCl₂，5.5mg；ZnCl₂，1.7mg；CuCl₂·2H₂O，0.43mg；CoCl₂·6H₂O，0.6mg；Na₂MoO₄·2H₂O，0.6mg。在乙酰胺版本的培养基上，B.subtilis 1A747不能生长(见图7)。将1μg的pBHA-3310amdS和pBHA-3311amdS转化至B.subtilis1A747。在含有12.5μg/ml卡那霉素的LB平板上选择转化体：17个转化体带有pBHA-3310amdS，190个转化体带有pBHA-3311amdS。将17个pBHA-3310amdS转化体在不含有N源，或含有谷氨酰胺(0.2％)或乙酰胺(0.1％)或谷氨酰胺(0.2％)与乙酰胺(0.1％)的BFA-N琼脂平板上再划线。从图7中可以看出，带有pBHA-3310amdS的B.subtilis 1A747能够在乙酰胺上非常良好地生长，而B.subtilis 1A747则不能够。对pBHA-3311amdS而言获得了类似的结果，虽然生长速率更加缓慢。

接着尝试了转化后直接进行乙酰胺选择。这仅适用于同时进行的卡那霉素选择。

总而言之，测试的所有启动子非常令人惊讶地在B.subtilis中没有功能。因此，在革兰氏阴性物种如E.coli和真菌如P.chrysogenum中有活性的合成的多核苷酸控制序列在革兰氏阳性物种如B.subtilis中也有活性。

实施例10

合成的多核苷酸控制序列在Saccharomyces cerevisiae中驱动高效的基因表达

为了测试实施例3和4的合成多核苷酸控制序列是否在酵母中驱动转录，通过Gateway反应将所选择的构建体(p3305ble、p3306ble、p3307ble、p3309ble、p3310ble、p3311ble、p3310amdS和p3311amdS；见实施例3、4和7)转移至酵母载体(pYES-DEST52)。培养氨苄西林抗性菌落，分离质粒并通过限制性消化来验证。对所有克隆而言获得酵母变体载体(分别为pYDEST-3305ble、pYDEST-3306ble、pYDEST-3310ble、pYDEST-3311ble、pYDEST-3310amdS和pYDEST-3311amdS)。

将Saccharomyces cerevisiae CEN.PK113-5D(Δura3)在液体YEPD中、30℃和280rpm下预培养过夜。将培养物10倍稀释至0.4的OD₆₀₀(约1x10⁶个细胞/ml)。使用Genotech的Fast-Yeast转化试剂盒使得细胞成为感受态。离心20ml培养物；将沉淀物用20ml洗涤缓冲液洗涤，最后重悬于2ml感受态缓冲液中。向50μl所述细胞悬浮液中添加5μl DNA(～1μg)或水，和500μl转化溶液。在30℃下孵育45分钟后涂布用于在矿物质培养基上选择的细胞，同时向其它混合物中添加1ml YEPD进行3小时的延长孵育，来诱导ble基因的表达，之后涂布在腐草霉素平板上(细节见表1)。

令人惊讶地，如可从表1中看到的，带有ble基因的所有质粒导致产生了腐草霉素抗性的酵母菌落，带有amdS基因的所有质粒导致产生了消耗乙酰胺的酵母菌落(也见图8)，其中表达由合成的多核苷酸控制序列驱动。作为对照，使用来自MM选择平板的菌落制造稀释液，所述稀释液被点涂在腐草霉素或乙酰胺选择性平板上。在所有情况下，证实了直接选择的结果。

表1.Saccharomyces cerevisiae转化的细节

转化	YF^*	MM^*	FA^#
				水	0	0	0
pYDEST-3305ble	1	～200	n.t.
				pYDEST-3306ble	3	～150	n.t.

pYDEST-3310ble	4	～200	n.t.
				pYDEST-3311ble	1	～200	n.t.
pYDEST-3310amdS	0	～100	～100
				pYDEST-3311amdS	0	～200	～50

YF＝YEPD+20μg/ml腐草霉素；MM＝以g/l为单位：琼脂，15；酵母氮源，6.7；葡萄糖，20；FA＝根据WO97/06261的乙酰胺选择培养基；n.t.＝未测试；^*＝4天后的转化体；^#＝11天后的转化体

因此，令人惊讶地，测试的所有合成多核苷酸控制序列都在S.cerevisiae中有功能。因此，在革兰氏阴性物种如E.coli中、在真菌如P.chrysogenum中和在革兰氏阳性物种如B.subtilis中有活性的合成多核苷酸控制序列在酵母如S.cerevisiae中也有活性。

实施例11

在P.chrysogenum中使用Aspergillus nidulans amdS基因作为新的多核苷酸控制序列的陷阱。

为了鉴定新的多核苷酸控制序列，设置具有多功能A.nidulans amdS cDNA(见实施例6、7和10)的“陷阱”。为此如实施例6中所述PCR扩增A.nidulans amdS cDNA，但是使用寡核苷酸SEQ ID NO 84和85来引入NdeI、BstBI和NsiI位点用于随后的再克隆步骤。将PCR片段克隆进pCR2.1 TOPO T/A中，随后验证序列。之后将NdeI-NsiI片段再克隆在质粒pISEWAn(WO04106347)中相同的位点中，获得pIAnamdScA。接着用推定的多核苷酸控制序列代替所述载体的真菌pcbC启动子。为此使用P.chrysogenum染色体DNA作为模板，使用寡核苷酸SEQ ID NO 86和87对推定的多核苷酸控制序列进行PCR扩增。所述SEQ ID NO 87横跨amdS ATG起始密码子，之前是如SEQ ID NO.1到45中的四个A或C，之后是ClaI限制性位点，使得能够在amdS基因中的BstBI位点上进行按照读码框的克隆。合并这些PCR反应的片段，并克隆进pCR2.1TOPO T/A载体中。通过限制性分析将所述片段引入载体中：用ClaI和SmaI限制性消化得到条带的集合，指示了大范围的片段。通过EcoRI(源自pCR2.1载体)和ClaI消化分离推定的多核苷酸控制序列的混合物，并克隆进pIAnamdScA的EcoRI-BstBI位点中，得到标记为pXAnamdScA的质粒文库。将所述文库转化至P.chrysogenum原生质体，并如实施例2中所述选择amdS阳性转化体。在新鲜的乙酰胺平板上对三十七个菌落再划线，随后转移至YEPD平板以诱导孢子形成。从中使用单个菌落接种液体乙酰胺培养基(25ml中，25℃和280rpm下)，并选择生长良好的培养物来分离染色体DNA。这些染色体DNA被用作使用Supertaq聚合酶的PCR反应的模板，所述反应使用寡核苷酸SEQ ID NO 88和89(分别为amdS的M13反向引物和内部引物)。将获得的片段在pCR2.1TOPO T/A中克隆并转化至TOP10F E.coli细胞(Invitrogen)。选择122个菌落进行质粒分离，并(基于限制性分析)选择其中33个进行测序。这导致鉴定了10个特有的多核苷酸控制序列(SEQ ID NO 90到99)，所述控制序列驱动P.chrysogenum中的转录。这些可以在其它(即第二宿主)物种中测试，以进一步选择在多物种中有活性的特定多核苷酸控制序列。这一实施例仅旨在阐述。本领域技术人员应当理解，通过选择更多的初始突变体，使用其它供体DNA用于第一PCR反应，或使用其它第一宿主物种，能够鉴定其它多核苷酸控制序列。

实施例12

使用ble基因作为具有多物种启动子活性的核酸序列的陷阱

为了鉴定新的多核苷酸控制序列，设置具有多功能ble基因(见实施例4、8、9和10)的“陷阱”。使用标准苯酚：氯仿方法，从6个不同的物种：Taxus baccata、Streptomyces coelicolor、Penicillium chrysogenum、Acremonium chrysogenum、Penicillium nalgiovense和Neurospora crassa中分离染色体DNA。

使用在E.coli(SEQ ID NO 70，p3309ble，见实施例3)中不适当发挥功能的Aspergillus nidulans的野生型gpdA多核苷酸控制序列构建体作为克隆载体。为此通过用SphI和NdeI消化精确地缺失启动子，得到线性片段。还用NdeI和SphI消化所有基因组DNA样品。消化后纯化所有样品(Qiagen PCR纯化柱)。使用30ng经消化的载体和300-1000ng经消化的染色体DNA完成连接。转化至DH10α electromax细胞(Invitrogen)后，获得9到400之间个克隆(取决于染色体DNA供体)，同时针对硫酸博来霉素抗性直接选择。出现的所有菌落肯定具有作为启动子发挥功能的DNA序列。

经分离的质粒可以被用于转化第二物种例如P.chrysogenum。选择给出腐草霉素抗性Penicillium转化体的质粒在Saccharomyces cerevisiae中进行测试。为此进行DEST反应(如实施例10中所述)。得到的DEST克隆可以被转化至酵母(描述于实施例10中)。所有的尿嘧啶阳性克隆在腐草霉素选择性平板上再划线。所有腐草霉素抗性菌落被用于分离质粒DNA和再转化E.coli。所有质粒从E.coli转化体中分离，并且测定了新的多物种启动子序列。(需要时)还可以通过核酸杂交鉴定来源宿主。

实施例13

使用多物种活性多核苷酸控制序列，增强多位点Gateway DEST反应的选择性

Gateway DEST反应旨在将多于一条片段重组在新的载体中(典型地为2-5个片段，见Invitrogen.com)而不使用限制性酶消化和连接。然而这些反应不是100％有效的，并且可以获得假阳性。一些条件(例如长片段、高GC含量、重复的存在)可导致正确克隆的数量低；甚至导致低至22％的比率(见下文)。毫无疑问，这是不想要的。特别是在高通量项目中如全基因组敲除文库中，所述文库使用具有典型的构造如：g.o.i.左侧翼-选择标记物-g.o.i.右侧翼的线性DNA片段用于双重同源重组(＝DHR)。在这样的项目中，克隆步骤在下述实验室劳动力(workhorses)如E.coli或S.cerevisiae中进行，所述实验室菌株能够高通量和相对有效地构建转化最终宿主所需要的DNA片段。为此需要高度有效的技术，所述技术是强效的，与例如底物DNA的长度或底物DNA的GC含量无关。具有50％效率时已经需要对每个反应分析2-4个克隆来鉴定正确的克隆，增加了200-400％的成本和时间。理想的情况是，用于DHR的片段中使用的选择标记物的表达盒在用于克隆的劳动力(酵母或E.coli)和最终的宿主(其中需要发生DHR)中均可工作。我们惊讶地发现，将p3310ble与两组片段(一组具有50％GC，一组具有57％GC加启动子特征)重组时，本发明的多核苷酸控制序列与选择标记物组合使得在所谓的多位点(MS)Gateway重组反应中能够有100％的效率。

使用50％GC片段的多位点Gateway反应

使用寡核苷酸SEQ ID NO 100加101对Penicillium chrysogenum niaD基因的左侧翼进行PCR扩增，并重组在pDONRP4-P1R Gateway ENTRY载体中，得到pDONR：niaDL。使用寡核苷酸SEQ ID NO 102加103对Penicillium chrysogenum niaD基因的右侧翼进行PCR扩增，并重组在pDONRP2R-P3Gateway ENTRY载体中，得到pDONR：niaDR。使用Phusion聚合酶(Finnzymes)，使用标准M13正向和反向引物(见Invitrogen.com)，从DONR质粒中PCR扩增用于多位点反应的所有三个片段(pDONR：niaDL，p3310ble和pDONR：niaDR)。纯化(Qiagen，QiaQuick试剂盒)所述片段，并根据供应商(Invitrogen)的说明书，在使用标准Destination载体pDESTR4-R3和LR克隆酶Plus的多位点反应中使用。在16℃下孵育过夜后，用部分混合物转化DH10α细胞，并涂布于2xYT+100μg/ml氨苄西林和2xYT+100μg/ml氨苄西林+20μg/ml硫酸博来霉素上。针对抗生素抗性检验出现的所有菌落，并分离质粒进行限制性

酶分析。表2中展示的结果显示，本发明的多核苷酸控制序列施加的选择压力将多位点gateway反应的效率从76％提高至100％。

表2.使用50％GC的多位点Gateway反应

n.p.＝未涂布

使用57％GC片段的多位点Gateway反应

使用分别编码Streptomyces p450酶和p450还原酶的两种合成的DNA片段作为MS反应的左侧和右侧配偶体。两种合成的DNA片段均不仅具有比上文测试的niaD片段更高的GC含量，也含有具有一些更小重复的启动子区域。将合成的DNA片段(SEQ ID No 104和105)分别直接克隆在Gateway ENTRY载体pDONRP4-P1R和pDONRP2R-P3中。根据供应商(Invitrogen)的说明书，在使用标准Destination载体pDESTR4-R3和LR克隆酶Plus的多位点反应中使用用于多位点反应的所有三种质粒。在16℃下孵育过夜后，用部分混合物转化DH10α细胞，并涂布于2xYT+100μg/ml氨苄西林上。在2xYT+100μg/ml氨苄西林+20μg/ml硫酸博来霉素上针对抗生素抗性检验出现的所有菌落，并分离质粒进行限制性酶分析。表3中展示的结果显示，本发明的多核苷酸控制序列施加的选择压力将多位点gateway反应的效率从22％提高至100％。

表3.使用57％GC的多位点Gateway反应

实施例14

使用多物种活性的多核苷酸控制序列，以使得多片段STABY克隆能够进行。

STABY克隆(Eurogentec)以有毒的ccdB-基因产物的ccdA拮抗剂的互补作用为基础。尽管是一种非常有效的技术，但是其局限于单个片段的克隆，因为只有一种失活的ccdA-用于互补。我们惊讶地发现，本发明的多核苷酸控制序列与选择标记物基因组合使得能够在一个使用STABY技术的反应中100％有效地克隆三个片段。

我们再次尝试制造用于典型的双重同源重组(＝DHR)的，具有如：g.o.i.左侧翼-选择标记物-g.o.i.右侧翼的构造的片段。使用寡核苷酸SEQID NO 106加107对Penicillium chrysogenum niaD进行PCR扩增并用NcoI消化，作为左侧翼。使用寡核苷酸SEQ ID NO 108加109对Penicillium chrysogenum niaD基因进行PCR扩增并用SalI消化作为右侧翼。用NcoI和SalI消化p3310ble。通过凝胶电泳分开所有片段，并分离正确的片段。将三个片段与经EcoRV消化的STABY载体与T4连接酶和连接缓冲液混合。在16℃下孵育过夜后，将所有混合物转化至CYS21感受态细胞(Eurogentec)并涂布在2xYT+100μg/ml氨苄西林+20μg/ml硫酸博来霉素(50∶50v/v)上。

表4.STABY反应

***＝14bp ccdA互补片段

从表4由可以看出，STABY反应还趋向于生产假阳性克隆(见涂布于2xYT+氨苄西林上之后的反应1-4)，这会破坏真实的三片段反应(反应5)。此处，硫酸博来霉素选择的添加值清楚地减少了克隆数量；即排除了假阳性。通过限制性酶分析来分析所选择的氨苄西林和硫酸博来霉素双阳性克隆，并显示是正确的。

Claims

1.通式T-T-G-A-C-W-N(o)-Y₁-A-Y₂-A-A-T-H₁-H₂-N(p)-S₁-S₂-W-K₁-K₂-N(q)-H₃-M₁-M₂-H₄-A-T-G(式I)的多核苷酸序列，

其中

W是核苷酸A和T中的任何；

Y是核苷酸C和T中的任何，并且Y₁和Y₂相同或不同；

S是核苷酸G和C中的任何，并且S₁和S₂相同或不同；

K是核苷酸G和T中的任何，并且K₁和K₂相同或不同；

M是核苷酸A和C中的任何，并且M₁和M₂相同或不同；

N(o)的AG含量低于50％

N(o)的A含量低于35％

N(o)中每个6核苷酸串中的AG含量低于66％

N(p)的AG含量低于60％

N(p)中每个6核苷酸串中的AG含量低于83％

N(o)和N(p)不含有两个连续的G

N(q)的G含量低于50％，

所述序列存在于多核苷酸控制序列中时允许所述多核苷酸控制序列在大范围工业相关的原核生物和真核生物中指导多肽的表达。

2.根据权利要求1所述的多核苷酸，其中N(o)长度为17个核苷酸；N(p)长度为23个核苷酸；N(q)长度为3或4个核苷酸。

3.根据权利要求1或2所述的多核苷酸，所述多核苷酸选自SEQ IDNO.46至51构成的组。

4.包含根据权利要求1-3中任一项所述的多核苷酸序列的多核苷酸构建体。

5.在下组中的至少三个中指导多肽表达的多核苷酸控制序列：哺乳动物、植物、藻类、真菌、酵母、革兰氏阳性细菌、革兰氏阴性细菌或古细菌。

6.在下述的属中的至少四个中指导多肽表达的多核苷酸控制序列：Escherichia、Streptomyces、Bacillus、Gluconobacter、Pseudomonas、Clostridium、Saccharomyces、Kluyveromyces、Pichia、Penicillium、Aspergillus、Mortierella、Chrysosporium、Acremonium、Trichoderma、Cricetulus、Homo。

7.多核苷酸控制序列，其包含根据权利要求1-3中任一项所述的多核苷酸序列或根据权利要求4的多核苷酸构建体。

8.表达盒，其包含根据权利要求1-3中任一项所述的多核苷酸序列或根据权利要求5-7中任一项所述的多核苷酸控制序列。

9.载体，其包含根据权利要求1-3中任一项所述的多核苷酸序列、根据权利要求4所述的多核苷酸构建体、根据权利要求5-7中任一项所述的多核苷酸控制序列或根据权利要求8所述的表达盒。

10.宿主细胞，其包含根据权利要求1-3中任一项所述的多核苷酸序列、根据权利要求4所述的多核苷酸构建体、根据权利要求5-7中任一项所述的多核苷酸控制序列、根据权利要求8所述的表达盒或根据权利要求9所述的载体。

11.根据权利要求1-3中任一项所述的多核苷酸序列、根据权利要求4所述的多核苷酸构建体、根据权利要求5-7中任一项所述的多核苷酸控制序列、根据权利要求8所述的表达盒或根据权利要求9所述的载体或根据权利要求10所述的宿主细胞在克隆反应、限制性酶消化、重组反应、分子生物学试剂盒和试剂、酶筛选、生物催化反应、生物化学反应或发酵工艺中的用途。

12.根据权利要求10的宿主细胞用于生产多肽、初级代谢产物或次级代谢产物、抗体或药物的用途。

13.生产多肽、初级代谢产物或次级代谢产物、抗体或药物的方法，所述方法通过在克隆宿主中克隆感兴趣的基因并在生产宿主中生产多肽、初级代谢产物或次级代谢产物、抗体或药物来进行，所述方法包括在克隆宿主和生产宿主二者中均使用相同的多核苷酸控制序列。

14.根据权利要求13所述的方法，其中所述多核苷酸控制序列是根据权利要求5所述的控制序列或根据权利要求9所述的载体。

15.根据权利要求13或14所述的方法，其中所述生产宿主是与所述克隆宿主不同的物种。

16.根据权利要求13-15中任一项的方法，其中所述感兴趣的基因编码多肽、抗体的部分、涉及初级代谢产物或次级代谢产物或药物生产的一种或多种酶。

17.克隆根据权利要求1-3中任一项所述的多核苷酸序列或根据权利要求5-7中任一项所述多核苷酸控制序列的方法，所述方法包括：

(a)在根据本发明的载体上，在可选择标记物基因前克隆多核苷酸序列；

(b)用来自步骤(a)的所述载体转染第一物种；

(c)针对所述可选择标记物基因的活性转录进行选择后获得克隆；

(d)从这些克隆中分离DNA；

(e)用经分离的DNA转染另一物种，其中步骤(c)到(e)最少重复2次。