CN103180443A

CN103180443A - 用于增强基因表达的来自核糖体蛋白启动子的核酸片段

Info

Publication number: CN103180443A
Application number: CN2011800503359A
Authority: CN
Inventors: A·P·奥特; F·霍克萨马; J·A·沃赫斯; H·J·M·范布洛克兰德
Original assignee: CellaGenics BV
Current assignee: CellaGenics BV
Priority date: 2010-09-01
Filing date: 2011-08-31
Publication date: 2013-06-26
Anticipated expiration: 2031-08-31
Also published as: EP2611915B1; US20130236956A1; US9650630B2; WO2012030218A1; EP2611915A1; IL225013A; CN103180443B; DK2611915T3; ZA201301600B

Abstract

本发明涉及含有来自60S核糖体蛋白L32基因（RPL32）的启动子区的基因组核苷酸序列的核酸片段和构建体，用于在真核宿主细胞，优选哺乳动物宿主细胞中在严格可筛选标记存在的条件下生产目的基因产物。本发明进一步涉及含有核酸构建体的宿主细胞，生产所述宿主细胞的方法和使用所述宿主细胞生产目的基因产物的方法。

Description

用于增强基因表达的来自核糖体蛋白启动子的核酸片段

技术领域

本发明涉及分子生物学和生物技术领域。更具体地，本发明涉及用于改进筛选具有高表达水平的宿主细胞的手段和方法。

背景技术

生物活性蛋白在各种宿主细胞中产生，从细菌和酵母菌到哺乳动物细胞。当蛋白质需要某种翻译后修饰如糖基化以发挥适当功能时，优选以哺乳动物细胞作为宿主细胞。通常，在哺乳动物细胞中产生的蛋白质由编码目的蛋白的所谓的“转基因”表达。为确保筛选出正确的产生蛋白质的细胞，将编码目的基因的转基因和编码可筛选标记的第二转基因相偶联，通常它们位于相同的载体上。常见的问题是筛选的严格性很低，这就意味着为了在毒性筛选条件下存活，细胞不得不只产生很少量的选定蛋白。如果细胞的筛选仅需要可筛选标记蛋白的有限表达，那么这也指示了转基因蛋白的表达水平。转基因蛋白的低表达通常伴随着可筛选标记蛋白的低表达水平。这显然是低筛选严格性带来的不良负面影响。

使用博莱霉素筛选标记能够看到筛选严格性的改善。这是因为博莱霉素筛选蛋白不是以酶的形式发挥作用，而是按化学计量与两个博莱霉素筛选分子结合，但不对它们进行进一步加工的形式发挥作用。因此，与单个分子就能够催化许多筛选剂分子失活的酶促可筛选标记蛋白相比，细胞必须产生更多的化学计量上的可筛选标记（例如，博莱霉素筛选蛋白）的分子。当与目的基因偶联时，化学计量上的可筛选标记的较高严格性通常导致较高水平的mRNA和/或目的基因产物的表达。

由于在筛选稳定转染的克隆时仅能针对用于可筛选标记的表达进行筛选，而不能针对目的基因的表达水平进行筛选，因此，优选的是，目的基因的表达和可筛选标记的表达水平有直接的联系。实现该目的的一种方法是通过将IRES（内部核糖体进入位点，Internal Ribosome Entry Site）序列置于目的基因和编码可筛选标记的基因之间。这就产生了单个双顺反子mRNA，双顺反子mRNA翻译目的基因产物和筛选蛋白（Rees et al.,1996,Biotechniques20:102-110）。因此，筛选标记的高水平表达（例如，通过使用高严格性标记）能够和目的基因产物的高水平表达直接耦合。这是一种公认的且常用的用于筛选表达相对高水平目的基因产物的克隆的方法（参见例如WO03/106684、WO2006/005718和WO2007/096399）。

通过使用具有能够减弱但不会完全破坏筛选标记活性的突变的可筛选标记，可以使筛选严格性进一步加强。在相同的筛选条件下，较高水平的受损筛选蛋白需要与野生型筛选蛋白进行比较。当通过IRES序列与目的基因相偶联时，受损筛选标记的较高mRNA水平确保了存在更多能用于翻译的目的基因的mRNA（参见例如WO01/32901和WO2006/048459）。

在另一个高筛选严格性体系的实例中，通过使用可筛选标记蛋白的非优选的、非ATG翻译起始密码子，筛选标记蛋白的翻译起始严重受损。这些筛选体系被称为“STAR-Select”（Otte et al.(2007)Biotechnol.Progr.23(4):801-807;WO2006/048459and WO2007/096399）。

最近，本发明的发明人开发了一种新的严格的筛选原则，通过将短肽的编码序列直接置于筛选标记的上游，从而使筛选标记蛋白的翻译起始严重受损，因此，需要核糖体在筛选标记蛋白的翻译起始密码子处重新起始翻译（尚未授权的申请PCT/NL2010/050367）。在这个体系中，筛选的严格性可以通过增加短肽的长度进行微调：当短肽变长时，翻译机制在可筛选标记蛋白的翻译起始密码子处重新起始的难度将会增加。与博莱霉素可筛选标记蛋白结合时，这种严格筛选体系被称为“ppZeo筛选体系”（pp=小肽（petitepeptides））。

然而，高严格性筛选体系的一个问题是：转化后获得的克隆数量显著降低了，甚至低至几乎不能获得克隆的水平。该问题已经通过在表达载体中插入表达增强序列（例如，位点控制区（Locus Control Regions））（LCR;Needhamet al.,1995.Protein Expr Purif6:124-131）或STARs（WO03/004704、WO03/106674、WO03/106684、WO2006/005718、WO2006/048459和WO2007/096399）得以解决。WO2006/123097公开了来自编码核糖体蛋白S3和S11（分别为RPS3和RPS11）基因的启动子区的DNA片段，当与含有异源启动子的表达盒相连时，能够通过表达盒中的异源启动子增强转录。

然而，本领域仍需要用于哺乳动物细胞的高严格性筛选的改进的手段和方法，以实现克隆的高产和/或目的基因产物的高表达水平。具体地，仍需要进一步改善的能够增强含有高严格可筛选标记的表达盒的表达的DNA片段。

发明内容

定义

本文中的“核酸构建体”指的是使用重组DNA技术人工制造的核酸分子。核酸构建体是单链或双链的核酸分子，它已经被修饰并包括以一定方式组合和并列的核酸片段，它们在自然界中并不存在。核酸构建体通常是一个“载体”，也就是用于将创建的外源DNA送递至宿主细胞中的核酸分子。常见的载体类型来源于天然存在的质粒、噬菌体和病毒。通常载体进一步包括遗传元件例如在一种或多种宿主细胞等中有功能的可筛选标记、多克隆位点和复制起点，以促进它们在分子克隆中的应用。

术语“表达”通常用于指在细胞内特定的核酸产物（优选特定的RNA产物）或特定的蛋白或蛋白质的产生。如果涉及RNA产物，它指的是转录过程。如果涉及蛋白质，它指的是转录、翻译和任选的翻译后修饰过程。如果涉及分泌蛋白，它指的是转录、翻译和任选的翻译后修饰（例如糖基化、二硫键的形成等）、随之分泌的过程。如果涉及多聚体蛋白，它任选地包括多肽单体的多聚体结构的组装。

一种类型的核酸构建体是“表达构建体”或“表达盒”或“表达载体”。这些术语指的是能够影响宿主细胞或与该种序列相容的宿主生物体中的基因的表达的核苷酸序列。表达构建体、表达盒或表达载体通常至少包括适当的转录调控序列和任选的3’转录终止信号。也可以存在必要的或有利于实现表达的附加因子，例如表达增强子元件。

术语“单顺反子基因”被定义为能够提供编码一个基因产物的RNA分子的基因。“多顺反子转录单元”（也被称为多顺反子基因）被定义为能够提供编码至少两个基因产物的RNA分子的基因。术语“双顺反子基因（bicistronic gene）”（也被称为“双顺反子基因”）被定义为能够提供编码两个基因产物的RNA分子的基因。因此双顺反子基因包括在多顺反子基因的定义内。

本文中的术语“肽”指的是包括由肽键连接的氨基酸链的任何分子。因此术语“肽”包括寡肽、多肽和蛋白质，所述蛋白质包括多聚体蛋白，不限于特定的作用方式、大小、三维结构或来源。本文使用的“多肽”通常包括至少五个由肽键连接的氨基酸。术语“蛋白质”或“多肽”可以互换使用。因此，蛋白质的“片段”或“部分”仍然可被称为“蛋白质”。所使用的术语“分离蛋白质”指的是不再处于其天然环境中的蛋白质，例如在试管内（invitro）或在重组（真菌或植物）宿主细胞内的蛋白质。术语“肽”也包括经翻译后修饰（例如糖基化、乙酰化、磷酸化等）的肽。本发明使用的目的“基因产物”或“转录单元”包括染色体DNA、cDNA、人造DNA、它们的组合等。“目的基因产物”可以是任何基因产物，例如蛋白质、RNAi、shRNA等。目的蛋白的非限制性实例是酶、免疫球蛋白链、治疗性蛋白例如抗癌蛋白质或诊断蛋白质。含有几个顺反子的转录单元被转录为单个mRNA。

本文中使用的术语“可操作地连接”指的是将多核苷酸（或多肽）元件以有功能的方式连接。当核酸和其他核酸序列以有功能的方式连接时，它是“可操作地连接”。例如，如果转录调控序列能够影响编码序列的转录，它就是与编码序列可操作地连接。可操作地连接意味着被连接的DNA序列通常是连续的，且当必须连接两个蛋白编码区时，应当连续并处于读码框内。

“表达控制序列”指的是能够调控与其可操作地连接的核苷酸序列的表达的核酸序列。当表达控制序列能够控制和调控核苷酸序列的转录和/或翻译时，所述表达控制序列与所述核苷酸之间就是“可操作地连接”的。因此，表达控制序列可以包括启动子、增强子、内部核糖体进入位点（IRES）、转录终止子、位于编码蛋白质基因之前的起始密码子、内含子的剪接信号和终止密码子。术语“表达控制序列”意指至少包括被设计用于影响表达的序列，也包括附加的有利组件。例如，前导序列和融合伴侣序列都是表达控制序列。该术语也包括经设计从而从序列中移除框内外的非必需的潜在起始密码子的核酸序列。它也包括经设计从而移除非必需的潜在剪接位点的核酸序列。它包括序列或聚腺苷酸化序列（pA），所述聚腺苷酸化序列指导附加的polyA尾部，也就是位于mRNA的3'-端的一串腺嘌呤残基（这一序列被称为polyA序列）。也可以通过设计来增强mRNA的稳定性。影响转录和翻译稳定性的表达控制序列例如启动子，以及影响翻译的序列例如Kozak序列，已知存在于真核（宿主）细胞中。

本文所使用的术语“启动子”或“转录调控序列”指的是用来控制一种或多种编码序列的转录的核酸片段，相对于编码序列的转录起始位点的转录方向而言它位于上游，其结构特征是存在依赖DNA的RNA聚合酶的结合位点、转录起始位点和任何其他DNA序列，所述其他DNA序列包括但并不限于转录因子结合位点、阻抑蛋白和激活蛋白结合位点、以及本领域技术人员所熟知的直接或间接地调控由启动子开始的转录量的任何其他核苷酸序列。“组成型”启动子是在大多数生理和发育条件下在大多数组织中具有活性的启动子。“可诱导型”启动子是受生理或发育例如应用化学诱导剂调控的启动子。“组织特异性”启动子仅在特定类型的组织或细胞中具有活性。

本文中使用的“内部核糖体进入位点”或“IRES”指的是这样的元件：它促使内部核糖体直接进入顺反子（蛋白质编码区域）的翻译起始密码子（也称作起始密码子），从而引起不依赖于帽结构（cap-independent）的基因翻译。参见，例如Jackson R J,Howe11M T,Kaminski A(1990)Trends Biochem Sci15(12):477-83)和Jackson R J and Kaminski,A.(1995)RNA1(10):985-1000。本发明包括使用任何不依赖于帽结构的翻译起始序列，尤其是任何能够促使内核糖体直接进入顺反子起始密码子的IRES元件。本文所使用的“在IRES翻译控制下”指的是翻译和IRES相联系并以不依赖于帽结构的方式进行。本文中使用的术语“IRES”包括IRES序列的功能性变体，只要该变体能够促使内核糖体直接进入顺反子的起始密码子即可。

本文中使用的“顺反子”指的是多核苷酸序列（DNA）区段，包括产生单多肽链的所有信息。

本文中“序列同一性”被定义为两个或多个氨基酸（多肽或蛋白质）序列或两个或多个核酸（多核苷酸）序列之间的关系，这种关系是通过比较序列来确定的。本领域中，“同一性”也指的是氨基酸或核酸序列之间的序列相关性的程度，这种情况下可以通过匹配成串的序列来确定同一性。通过将氨基酸序列和一个多肽的保守氨基酸置换与另一多肽序列比较来确定两个氨基酸序列之间的“相似性”。“同一性”和“相似性”很容易通过已知的方法计算出来。术语“序列同一性”或“序列相似性”指的是：在最佳比对条件下，优选在序列全长（比较时至少是最短序列）上，使匹配的数量最大化，使间隙的数量最小化时，例如在默认参数下使用ClustalW(1.83)、GAP或BESTFIT软件进行比对时，两个（多）肽或两个核苷酸序列之间具有至少一定百分比的序列同一性（如本文所定义）。GAP使用了Needleman和Wunsch全局比对算法来比对整条链上的两个序列，使匹配的数量最大化，使间隙的数量最小化。通常，使用GAP默认参数，空格创造罚分（gap creation penalty）=50（核苷酸）/8（蛋白质），空格延伸罚分=3（核苷酸）/2（蛋白质）。对于核苷酸使用的默认记分矩阵是nwsgapdna，对于蛋白质使用的默认记分矩阵是Blosum62(Henikoff & Henikoff,1992,PNAS89,915-919)。优选用于比对本发明的蛋白质序列的多重比对软件是ClustalW(1.83)，该软件使用的是blosum矩阵和默认设置（空格开放罚分：10，空格延伸罚分：0.05）。序列同一性百分比的序列比对和记分可以通过使用计算机程序来确定，例如GCGWisconsin Package，10.3版本，可从Accelrys有限公司，9685斯克兰顿大道，圣地亚哥，CA92121-3752美国获得，或使用开放源代码软件来确定，例如“needle”软件（使用全局Needleman Wunsch算法）或EmbossWIN2.10.0版本的“water”软件（使用局部Smith Waterman算法），使用和上述GAP相同的参数，或使用默认设置（对于“needle”和“water”以及用于蛋白质和DNA比对的默认空格开放罚分是10.0，默认空格延伸罚分是0.5；用于蛋白质的默认记分矩阵是Blossum62，用于DNA的默认记分矩阵是DNAFull）。当序列的总长度相差很多时，优选使用局部对比例如使用Smith Waterman算法。可以使用例如FASTA、BLAST等算法通过检索公共数据库，来确定相似性或同一性的百分比。

本发明的编码核酸序列的核苷酸序列也可以由它们和本文公开的或部分公开的特定核苷酸序列杂交（在温和、优选在严格杂交条件下）的能力来确定。本文所述的严格杂交条件被定义为允许核酸序列的至少约25，优选约50、75或100个核苷酸，最优选约200个以上的核苷酸在约65℃的溶液中发生杂交，所述溶液含有大约1M盐，优选6×SSC或任何其他含有类似离子强度的溶液，并在约65℃的溶液中进行洗涤，洗涤溶液含有约0.1M以下的盐，优选0.2×SSC或任何其他含有类似离子强度的溶液。优选杂交过夜，也就是至少进行10小时，优选至少洗涤一小时，其间洗涤溶液至少更换两次。这些条件通常使得具有约90％以上的序列同一性的序列发生特异性杂交。

本文中的温和杂交条件被定义为允许核酸序列的至少约50个核苷酸，优选约200个以上的核苷酸在约45℃的溶液中发生杂交，所述溶液含有约1M盐，优选6×SSC或任何其他含有类似离子强度的溶液，在室温的溶液中进行洗涤，洗涤溶液含有约1M盐，优选6×SSC或任何其他含有类似离子强度的溶液。优选杂交过夜，也就是至少进行10小时，优选至少洗涤一小时，其间洗涤溶液至少更换两次。这些条件通常使得具有约50％序列同一性的序列发生特异性杂交。本领域技术人员能够改变所述杂交条件以特异性识别同一性在50％至90％之间变化的序列。

编码目的基因产物的核苷酸序列对于宿主细胞中的密码子使用的适应性由密码子适应指数（CAI）表达。本文中的密码子适应指数被定义为在特定宿主细胞或有机体内的基因的密码子使用相对于高表达基因的密码子使用的相对适应性的量度。各个密码子的相对适应性（w）是各个密码子的使用和对于相同氨基酸的最常用的密码子的使用之间的比值。CAI指数被定义为相对适应性值的几何平均值。非同义密码子和终止密码子（依赖于遗传编码）不计算在内。CAI值的范围从0至1，具有较高的CAI值说明具有较高比例的最常用的密码子（参见Sharp and Li,1987,Nucleic Acids Research15:1281-1295;还可参见Jansen et al.,2003,Nucleic Acids Res.31(8):2242-51）。

根据本发明优选的核酸是核酸构建体，其中编码目的基因产物的核苷酸序列可以与启动子以及任选地其他调控元件（例如终止子、增强子、聚腺苷酸化信号、分泌信号序列等）可操作地连接。这样的核酸构建体对于使用重组技术生产本发明的目的基因产物尤其有用，其中，编码目的基因产物的核苷酸序列在合适的宿主细胞中表达，如Ausubel et al."Current Protocols inMolecular Biology",Greene Publishing and Wiley-Interscience,New York(1987)和Sambrook and Russell(2001)"Molecular Cloning:A Laboratory Manual(3^rdedition),Cold Spring Harbor Laboratory,Cold Spring Harbor Laboratory Press,New York中所述。本文中使用的术语“可操作地连接”指的是将多核苷酸元件以有功能的方式连接。当核酸和其他核酸序列以有功能的方式连接时，它是“可操作地连接”。例如，如果启动子或增强子能够影响编码序列的转录，它就是与编码序列可操作地连接。可操作地连接意味着被连接的DNA序列通常是连续的，且当必须连接两个蛋白编码区时，应当连续并处于读码框内。

本发明的发明人发现，当将核糖体蛋白L32基因的启动子区（还称为60S核糖体蛋白L32、RPL32、RPL32）（SEQ ID NO:1）和如本文中进一步定义的部分的特定序列置于表达载体（包括可操作地连接启动子、在真核宿主细胞中起作用的编码可筛选标记的核苷酸序列以及编码目的基因产物的可选的开放读码框）中时，能够增加在筛选条件下优选严格筛选条件下形成的克隆的数量（与在严格筛选条件下没有该特定序列的相同表达载体相比，并且还优选与在严格筛选条件下没有RPL32序列的相同表达载体相比，但该载体的两侧与如WO2006/048459和WO2007/096399中描述的STAR6/67/7元件相连）。

RPL32编码的核糖体蛋白为60S亚基的组分。所述蛋白属于核糖体蛋白的L32E家族，并位于细胞质中。RPL32基因本身及其启动子区在黑猩猩、犬、牛、小鼠、大鼠、斑马鱼、果蝇（Drosophila）、蚊、秀丽隐杆线虫（Caenorhabditis elegans）、酿酒酵母（Saccharomyce cerevisiae）、阿拉伯芥（Arabidobsis thaliana）、稻和恶性疟原虫（Plasmodium falciparum）中是非常保守的。

根据本发明的核酸构建体，即，含有来自RPL32启动子区的序列的表达构建体，可用来筛选细胞，优选真核细胞，更优选植物细胞或哺乳动物细胞，通过对可筛选标记的表达进行筛选，可以筛选具有目的基因产物高表达水平的细胞（与不具有本发明核苷酸序列的对照相比）和/或产生大量稳定克隆的细胞（与不具有本发明核苷酸序列的对照相比）。随后或同时，可以识别一种或多种筛选出的细胞，并进一步用于表达高水平的目的基因产物。

本发明基于可筛选标记的受损表达效率（impaired efficiency ofexpression）。可使用本领域技术人员已知的常规方法来检测可筛选标记的表达，例如通过测定在正常的筛选期后存活的克隆的数量来检测可筛选标记的表达。本领域技术人员公知的是，有许多参数可以表示筛选标记多肽的表达水平，例如细胞耐筛选剂的最大浓度、给定浓度下存活的克隆的数量、筛选剂存在时细胞的生长速度（倍增时间）、上述参数的组合等。通过使用本发明，可以识别具有高水平表达的可筛选标记的细胞和/或提供大量的细胞克隆。

第一方面，本发明涉及一种核酸片段，该核酸片段包括或由与以下核苷酸序列具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的序列同一性（优选地，在它的全长上）的核苷酸序列组成：i)含有来自SEQ ID NO:1的至少1001、1187、1195、1250、1500、1750、2000、2500、3000或全部的连续核苷酸；和ii)含有SEQ ID NO:1的1782-1921位核苷酸残基（SEQ ID NO:1中1921位为转录起始位点）。优选地，在实施例1的条件下测试，当所述核酸片段与具有SEQ ID NO:2的核苷酸序列的表达盒直接在表达盒的上游侧面相连时，与在表达盒的上游侧面连接STARs 7和67和在表达盒的下游侧面连接STAR 7的相同表达盒（SEQ ID NO:3）相比，产生至少50、75、90、100、101、110、125或150%的克隆数。

优选地，所述核酸片段为包括或由与以下核苷酸序列具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的序列同一性（优选地，在它的全长上）的核苷酸序列组成的片段：i)含有来自SEQ ID NO:1的至少1187、1195、1250、1500、1750、2000、2500、3000或全部的连续核苷酸；和ii)含有SEQ ID NO:1的1236-2423位核苷酸残基，否则，片段如上定义。更优选地，所述该核酸片段为包括或由与以下核苷酸序列具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的序列同一性（优选地，在它的全长上）的核苷酸序列组成的片段：i)含有来自SEQ ID NO:1的至少1750、2000、2500、3000或全部的连续核苷酸；和ii)含有SEQ ID NO:1的1236-3220位核苷酸残基或1-2423位核苷酸残基；否则，片段如上定义。最优选地，所述核酸片段为选自由与以下核苷酸序列具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的序列同一性（优选地，在它的全长上）的核酸片段所组成的组中的片段：包括或由SEQ ID NO:1的1236-2423、1782-3220、1236-3220、1-2013、1-2423或1-3220位核苷酸残基组成。

优选地，所述核酸片段是分离的核酸片段，这应当理解为是从自然环境中分离或纯化的片段。优选地，所述核酸片段来自哺乳动物的基因组，更优选来自灵长类动物或啮齿类动物的基因组，最优选地，所述核酸片段来自人、小鼠、大鼠、仓鼠、牛、鸡、犬、豚鼠、猪或兔的基因组。优选的核酸片段来自SEQ ID NO:1。在优选的实施方式中，所述核酸片段具有不超过30,000个核苷酸残基的长度，更优选地，不超过20,000、10,000、5000、4500、3750、3600、3500、3000、2750、2500、2000、1750或1500个核苷酸残基。

本发明的第二方面涉及含有以上定义的核酸片段的核酸构建体，其中，片段至少和一个核苷酸连接，所述核苷酸在片段来源的基因组中不直接与片段发生天然连接。优选地，所述核酸构建体包括一个以上的与片段连接的非天然状态的核苷酸，例如包括一个或多个限制性位点或与PCR引物互补的接头序列（adapter sequences）的一段核苷酸。

更优选地，在所述核酸构建体中包括以上定义的核酸片段，片段和表达盒相连接。优选地，所述表达盒至少含有与编码目的基因产物的核苷酸序列可操作地连接的启动子。该启动子可以是如下定义的启动子。所述表达盒可以进一步含有例如如下所述的在真核宿主细胞中具有功能的编码可筛选标记的核苷酸序列。

根据本发明的核酸片段以“顺式（in cis）”的方式发挥作用。因此，优选地，在核酸构建体中，本发明的核酸片段与所述表达盒或更优选地与所述表达盒的最上游启动子（优选地，当位于盒上游时）之间的距离在5kb以内，更优选2kb以内，更优选1kb以内，最优选500bp以内。如果本发明的核酸片段位于构建体中表达盒的下游，本发明的核酸片段与所述表达盒或更优选地与所述表达盒的最下游的转录终止序列和/或聚腺苷酸化位点之间的距离在5kb以内，更优选2kb以内，更优选1kb以内，最优选500bp以内。因此，核酸构建体可以含有位于表达盒下游或上游的本发明的核酸片段。可选择地，核酸构建体可以含有位于表达盒上游和下游的本发明的核酸片段。在核酸构建体中，位于表达盒上游和下游的本发明的核酸片段可以独立选自如上定义的核酸片段。因此，在核酸构建体中，表达盒上游的核酸片段和表达盒下游的核酸片段可以不同。或者，在核酸构建体中，表达盒上游和下游的核酸片段可以（基本上）相同。

此外，优选地，在核酸构建体中，根据本发明的一个或多个核酸片段与所述表达盒的连接方向使得片段中的启动子的转录与所述表达盒中的启动子的转录在同一方向上。

本文使用的“表达盒”是一种核苷酸序列，该核苷酸序列至少包括与编码目的基因产物的核苷酸序列功能性连接的表达所需的启动子。优选地，所述表达盒进一步包括转录终止和聚腺苷酸化序列。表达盒中还可以包括其他调控序列例如增强子。除了编码目的基因产物的核苷酸序列以外，优选地，所述表达盒还包括用于筛选含有表达盒的宿主细胞的编码可筛选标记的核苷酸序列。在优选的实施方式中，编码目的基因产物的核苷酸序列和编码可筛选标记的核苷酸序列在表达盒中具有部分相同的（多顺反子）转录单元。因此，本发明提供了一种表达盒，优选地，所述表达盒在5′至3′方向上包括，并可操作地连接：a)5′-启动子-编码可筛选标记的核苷酸序列-编码目的基因产物的开放读码框-任选的转录终止和/或聚腺苷酸化序列-3′，或b)5′-启动子-编码目的基因产物的开放读码框-编码可筛选标记的核苷酸序列-任选的转录终止和/或聚腺苷酸化序列-3′。启动子和其他调控序列必须能够在目的真核宿主细胞中发挥作用，也就是它们必须能够驱动目的基因产物和可筛选标记的转录。因此，启动子和转录单元可操作地连接，该转录单元包括可筛选标记和编码目的基因产物的开放读码框。表达盒可以进一步任选地包括本领域已知的其他因子，例如含有内含子的剪接位点等。在一些实施方式中，内含子位于启动子之后，编码开放读码框的序列之前。

在其他实施方式中，IRES可以位于转录单元中，该转录单元包括可筛选标记密码子序列和编码目的基因产物的序列，IRES可以位于可筛选标记的开放读码框和目的基因产物之间。在病毒和哺乳动物基因中内部核糖体结合位点（IRES）元件是已知的(Martinez-Salas,1999,Curr Opin Biotechnol10:458-464)，且已通过筛选小的合成寡核苷酸而被识别(Venkatesan & Dasgupta,2001Mol Cell Biol21:2826-2837)。来自脑心肌炎病毒的IRES已经被详细地分析(Mizuguchi et al.,2000,Mol Ther1:376-382)。IRES是在DNA中编码的元件，在转录RNA中它产生了真核核糖体能够结合和起始翻译的结构。IRES促使从单个RNA分子上产生两种或多种蛋白质（在它的5′端的帽结构上与RNA结合的核糖体翻译了第一个蛋白质，(Martinez-Salas,1999，见上文)。因此，本发明提供了这样一种表达盒，优选地，该表达盒在5′至3′方向上包括：5′-启动子-编码目的基因产物的开放读码框-IRES-可筛选标记-任选的转录终止和/或聚腺苷酸化序列-3′或5′-启动子-可筛选标记-IRES-编码目的基因产物的开放读码框-任选的转录终止和/或聚腺苷酸化序列-3′。优选地，本发明核酸构建体所含有的应用于表达盒的启动子在真核宿主细胞中起作用；更优选地，所述启动子在植物或动物宿主细胞中起作用；更优选地，所述启动子在脊椎动物宿主细胞中起作用，最优选地，所述启动子在哺乳动物宿主细胞中起作用，均用于转录单元的起始转录。启动子可以是组成型的或是受控的，也可以从各种来源中获得，包括病毒、原核或真核来源，或是人工设计的。目的核酸的表达可以来自天然的启动子或它的衍生物或完全来自异源启动子(Kaufman,2000,Mol.Biotechnol16:151-160)。根据本发明，在选定的真核细胞中提供高转录水平的强启动子是优选的。熟知的经常用于真核细胞表达的强启动子包括来自病毒例如腺病毒的启动子，例如EIA启动子；来自巨细胞病毒（CMV）的启动子例如CMV立即早期（IE）启动子（本文称为CMV启动子）（例如从pcDNA，Invitrogen获得）；来自猿猴病毒40（SV40）（Das et al,1985,Prog Nucleic Acid Res Mol Biol.32:217-36）的启动子等。适当的强启动子也可以来自真核细胞，例如金属硫蛋白（MT）启动子、延长因子（EF-lα）启动子、泛素C或UB6启动子(Gill et al.,2001,Gene Therapy8:1539-1546;Schorpp et al,1996,Nucleic Acids Res24:1787-8)、肌动蛋白启动子例如β-肌动蛋白启动子，例如仓鼠或人β-肌动蛋白启动子（SEQ IDNO:10）、免疫球蛋白启动子、热激启动子等。测试启动子的功能和启动子的强度是本领域技术人员的常规工作，通常包括例如在启动子序列之后克隆报告基因例如半乳糖苷酶（lacZ）、荧光素酶、GFP等，并测试报告基因的表达。当然，可以通过序列的删除、增加和突变来改变启动子，并测试它的功能以找到新的、减弱的或增强的启动子序列。本发明使用的启动子优选为人β-肌动蛋白启动子、CMV启动子、SV40启动子、泛素C启动子或EFl-α启动子。

本文中的开放读码框应被理解为核苷酸序列，它从5′至3′方向上包括：1）翻译起始密码子，2）用于编码目的基因产物（优选为蛋白质）的一个或多个密码子，和3）翻译终止密码子，应当理解的是1）、2）和3）在框中是可操作地连接的。因此，开放读码框由3重核苷酸（三联体）组成。

根据本发明的目的基因产物可以是任何基因产物，例如蛋白质。目的基因产物可以是单体蛋白质或（部分）多聚体蛋白。多聚体蛋白至少包括两个多肽链。本发明的目的蛋白的非限制性实例是本领域技术人员已知的酶、激素、免疫球蛋白或它们的链或片段、治疗性蛋白质例如抗癌蛋白质、凝血蛋白质例如因子VIII、多功能蛋白质例如红细胞生成素、诊断蛋白质、或用于疫苗接种目的的蛋白质或片段。

目的基因产物可以来自任何来源，在某些实施方式中来自哺乳动物蛋白质、人造蛋白质（例如融合蛋白质或突变蛋白质），优选来自人蛋白质。

在优选的实施方式中，利用宿主细胞的密码子适应指数针对表达目的肽的宿主细胞，对编码基因产物的核苷酸序列进行了密码子优化。编码酶的核苷酸序列相对于宿主细胞中密码子使用的适应性可以用密码子适应指数（CAI）来表达。本文中的密码子适应指数被定义为在特定宿主细胞或有机体内的基因的密码子使用相对于高表达基因的密码子使用的相对适应性的量度。各个密码子的相对适应性（w）是各个密码子的使用和对于相同氨基酸的最常用的密码子的使用之间的比值。CAI指数被定义为相对适应性值的几何平均值。非同义密码子和终止密码子（依赖于遗传编码）不计算在内。CAI值的范围从0至1，具有较高的CAI值说明具有较高比例的最常用的密码子（参见Sharp and Li,1987,Nucleic Acids Research15:1281-1295;还可参见Kim et al.,Gene.1997,199:293-301;zur Megede et al.,Journal of Virology,2000,74:2628-2635）。优选地，编码目的基因产物的核苷酸序列的CAI至少是0.5、0.6、0.7、0.8、0.9或0.95。

在一种实施方式中，当最终目标不是生产目的多肽，而是RNA分子例如用表达盒生产更大量的RNA时，可以使用本发明的核酸构建体，所述RNA可以用于调控其他基因（例如RNAi，反义RNA）、基因治疗、在体外生产蛋白质等。

为了生产多聚体蛋白，可以使用两个或多个本发明的核酸构建体。例如两个表达盒可以均是多顺反子核酸构建体，各自用于编码不同的可筛选标记蛋白，从而有可能筛选两个表达盒。例如该实施方式对于表达轻链或重链免疫球蛋白例如抗体是有利的。显而易见的是，在两个核酸构建体被引入宿主细胞之前，它们可以位于一个核酸分子中或位于单独的核酸分子中。当两个核酸构建体被引入宿主细胞时，将它们置于一个核酸分子上的优势是两个核酸构建体以单一的预定比率（例如1:1）存在。另一方面，当两个核酸构建体被置于两个不同的核酸分子上，它们被引入宿主细胞时就有可能改变它们的摩尔比，如果优选的摩尔比不是1:1或预先不知道优选的摩尔比是多少时，这是有利的，从而本领域的技术人员能够容易的找到它们的变化并凭经验找到最佳摩尔比。根据本发明，优选至少一个核酸构建体，更优选每个核酸构建体至少包括一个优选包括两个本发明的核酸片段。

在另一种实施方式中，单一表达构建体中含有不同的亚基或部分多聚体蛋白。WO2006/048459（例如第40页）已经描述了和表达构建体相结合的有用的抗抑制因子的构型，通过引用的方式将其纳入本文。

在优选的实施方式中，目的基因产物是凝血因子例如因子VIII或因子VII、干扰素和白介素，例如人干扰素-γ或治疗性的抗癌单克隆抗体例如赫赛汀（抗EGF受体）或阿瓦斯丁（抗血管内皮生长因子（VEGF））或EPO。

本发明的核酸构建体可以以双链DNA的形式存在，对于可筛选标记和编码目的基因产物的开放读码框具有编码链和非编码链，编码链与被翻译的RNA具有相同的序列，除了存在的T代替了U。因此，AUG起始密码子在编码链中被ATG序列编码，含有与RNA中的AUG起始密码子相应的ATG序列的链被称为DNA的编码链。对本领域技术人员而言显而易见的是，起始密码子或翻译起始序列事实上存在于RNA分子中，但也可以认为它们同样存在于编码该RNA分子的DNA分子中；因此，无论本发明指的是起始密码子还是翻译起始序列，均包括相应的DNA分子，该DNA分子具有和RNA序列相同的序列但在所述DNA分子的编码链中T替代了U，反之亦然，除非明确指明。换句话说，例如起始密码子是RNA中的AUG序列，而在DNA的编码链中相应的ATG序列也指的是本发明的起始密码子。同样可以借鉴到‘框内’编码序列，指的是RNA分子中的三联体（3个碱基）被翻译为氨基酸，但也认为是DNA分子的编码链中的相应的三核苷酸序列。

优选地，本发明的核酸构建体所包括的在表达盒中应用的可筛选标记在真核宿主细胞中起作用，更优选地该标记在植物或动物宿主细胞中起作用，更优选地在脊椎动物宿主细胞中起作用，最优选地在哺乳动物宿主细胞中起作用。

术语“可筛选标记”是本领域普通技术人员熟悉的术语，在本文中用于描述在表达时可用来筛选含有（和/或表达）可筛选标记的细胞的任何基因实体。可筛选标记可以是显性的或隐性的或双向的。可筛选标记可以是编码产物的基因，它使得细胞表达耐筛选剂例如抗生素或除草剂的基因。可筛选标记可以编码例如筛选蛋白质，该蛋白质能够中和毒性筛选剂或使毒性筛选剂失活，并保护宿主细胞免受制剂致死效应或生长抑制的影响。在特定条件下其他可筛选标记能够补足细胞的生长抑制性缺陷。这种基因的实例包括使原养型转变为营养缺陷型菌株的基因。使用的术语“报告物”主要指的是可见标记，例如绿色荧光蛋白（GFP）、d2EGFP、荧光素酶、GUS等，以及nptII标记等。这种报告物被用来筛选表达可见标记的细胞（通过主动将表达标记的细胞和不表达标记的细胞分类），例如使用荧光激活细胞分选仪（FACS）筛选表达荧光标记蛋白的细胞。优选地，本发明的可筛选标记能够提供对筛选剂的致死和/或生长抑制影响的抗性。

本发明使用的编码可筛选标记的核苷酸序列编码被用于筛选真核宿主细胞的蛋白质，例如相比于没有蛋白质表达的宿主细胞，由于宿主细胞中蛋白质的表达，为表达可筛选标记蛋白质的宿主细胞提供了生长优势。基于宿主细胞中被编码的可筛选标记蛋白质的表达，优选编码可筛选标记的核苷酸序列能够提供对筛选剂（例如抗生素）的抗性，而筛选剂能够引起不表达可筛选标记蛋白的宿主细胞的致死效应和/或生长抑制。因此，本发明的可筛选标记必须在真核宿主细胞中起作用，因而能够在真核宿主细胞中被筛选出来。满足这一标准的任何可筛选标记多肽基本上都可以在本发明中使用。当用于在真核宿主细胞中获得克隆时，这种可筛选标记在本领域中是已知的并是常规使用的，本文还提供了一些实例。

为了方便并通常被技术人员接受，在许多出版物以及本文中，通常编码可筛选标记的基因和引起耐筛选剂的可筛选标记分别被称为“（耐）筛选剂基因”或“（耐）筛选剂蛋白”，尽管官方名称不同，例如编码耐新霉素（以及G418和卡那霉素）的蛋白质的基因通常被称为（耐）新霉素（或neo^r）基因，然而官方名称是氨基糖苷3′-磷酸转移酶基因。

在本发明的优选实施方式中，可筛选标记能够提供对筛选剂的致死效应或生长抑制效应的抗性，所述筛选剂选自以下组成的组中：博莱霉素抗生素家族、嘌呤霉素、杀稻瘟素、潮霉素（hygromycin）、氨基糖苷抗生素、氨甲蝶呤和氨基亚砜蛋氨酸（methionine sulphoximine）。

编码提供耐博莱霉素抗生素家族的可筛选标记的核苷酸序列是例如编码野生型“ble”基因的核苷酸序列，包括但不限于Sh ble、Tn5ble和Sa ble或它们的变体。SEQ ID NO:8记载了其实例。通常被ble基因编码的基因产物使得它们的宿主可以耐博莱霉素家族的铜螯合的糖肽类抗生素，它是切割DNA的糖肽类。本发明中作为筛选剂使用的博莱霉素家族抗生素的实例包括但不限于：博莱霉素、腐草霉素、他利霉素、培洛霉素和Zeocin^TM。博莱霉素（Zeocin）作为筛选剂是特别有优势的，因为耐博莱霉素蛋白（博莱霉素-R）通过与药物相结合起作用从而使其变得无害。因此很容易通过滴定确定杀死具有低水平博莱霉素-R表达的细胞而使高表达子存活的药物的用量。大多数（即使不是全部）常用的其他耐抗生素可筛选标记都是酶，因此它们都是以催化的方式起作用（也就是说酶和筛选剂的化学计量不是特定的，例如为1:1）。因此，抗生素博莱霉素是优选的可筛选标记。

编码提供耐氨基糖苷类抗生素的可筛选标记的核苷酸序列是例如编码野生型氨基糖苷类3′-磷酸转移酶的核苷酸序列或其变体。本发明的氨基糖苷类是通常已知的氨基糖苷类抗生素（Mingeot-Leclercq,M.et al.,1999,Chemother.43:727-737），它至少包括一个通过糖苷键和其他半数分子相结合的氨基-吡喃糖或氨基-呋喃糖部分。它们的抗生素的影响基于抑制蛋白质的合成。本发明作为筛选剂使用的氨基糖苷类抗生素的实例包括但不限于卡那霉素、链霉素、庆大霉素、妥布霉素、G418（遗传霉素）、新霉素B（弗氏菌丝素）、紫苏霉素、丁胺卡那霉素、异帕米星等。

本发明中可以使用的可筛选标记的其他实例是DHFR、胱硫醚γ-裂解酶和谷氨酸合成酶（GS）基因。使用这些类型的代谢酶作为可筛选标记多肽的潜在优势是能够将它们用于使宿主细胞保持连续的筛选，这在特定环境下是有利的。

通过氨甲蝶呤，尤其是通过增加氨甲蝶呤细胞的浓度来筛选DHFR基因，可以筛选DHFR基因以增加DHFR基因的拷贝数。DHFR基因也可以被用来弥补DHFR缺陷，例如具有DHFR^-表型的CHO细胞中，含有叶酸而缺乏甘氨酸、次黄嘌呤和胸腺嘧啶核苷的培养基中。如果可筛选标记是DHFR，在有利的实施方式中，用含有叶酸的培养基培养宿主细胞，该培养基基本上缺乏次黄嘌呤和胸腺嘧啶核苷，优选还缺乏甘氨酸。通常，本文中的术语“培养基基本上缺乏”指的是在培养基中维持细胞生长的指定组分的不足，从而，当指定酶的遗传信息在细胞中被表达，且指定前体组分在培养基中存在时，进行好的筛选是可能的。优选培养基中不含指定组分。缺乏指定组分的培养基可以根据标准方法由本领域技术人员制备，或从培养基供应商处获得。

通过不含谷氨酰胺的培养基培养的缺乏GS（例如NS-O细胞）的细胞中，或通过添加GS抑制剂、氨基亚砜蛋氨酸（MSX）而缺乏GS（例如CHO细胞）的细胞中，筛选谷氨酰胺合成酶（GS）基因例如野生型人或小鼠谷氨酰胺合成酶基因是可能的。

胱硫醚γ-裂解酶（EC4.4.1.1）是合成氨基酸L-半胱氨酸重要的酶。CHO细胞是用于将胱硫醚转化为半胱氨酸的天然的营养缺陷体。因此，可以利用例如来自小鼠或人的胱硫醚γ-裂解酶（cys-裂解酶）基因通过在不含L-半胱氨酸和L-胱氨酸的培养基中培养细胞借助互补作用来筛选细胞。基于cys-裂解酶标记的筛选可能需要培养基中存在无毒性前体L-胱硫醚。在一些脊椎动物细胞系中作为可筛选标记使用的cys-裂解酶可能首先需要内源性胱硫醚γ-裂解酶基因的失活（敲除）。可选择地，基于cys-裂解酶标记的筛选还可能需要培养基中存在胱硫醚γ-裂解酶活性抑制剂。用于该目的的合适的胱硫醚γ-裂解酶活性抑制剂包括，例如，炔丙基甘氨酸、三氟丙氨酸甲酯（trifluoroalanine）、氨基乙氧基乙烯甘氨酸和L-β-草酰-氨基-L-丙氨酸（L-beta-oxalyl-amino-L-alanine）。

可以在本发明的内容中使用的其他可筛选标记和它们的筛选剂如US5,561,053的表1中所描述的，通过引用将其并入本文；Kaufman,Methods inEnzymology,185:537-566(1990)也总结了这些可筛选标记和它们的筛选剂。

在优选的实施方式中，本发明的核酸构建体中的表达盒包括是严格可筛选标记的可筛选标记。本文的严格可筛选标记应被理解为需要在表达标记的待筛选的宿主细胞（即希望从筛选中存活的宿主细胞）中被高水平地转录（和/或表达）的可筛选标记。在本发明中，优选地，可筛选标记的严格性至少能够被下列因素之一增强：a）降低可筛选标记的翻译（起始）效率，和b）降低可筛选标记多肽的活性和/或效率。因此，本发明的核酸构建体中的表达盒优选含有编码可筛选标记的核苷酸序列，该核苷酸序列至少是下列核苷酸序列其中之一：

a)在起始密码子中具有突变的核苷酸序列，该突变能够降低可筛选标记多肽在真核宿主细胞中的翻译起始效率；

b)作为多顺反子转录单元一部分的核苷酸序列，所述多顺反子转录单元含有：i）编码可筛选标记的核苷酸序列；和ii）含有在5′至3′方向上的翻译起始密码子、至少一个氨基酸密码子和翻译终止密码子的功能性开放读码框；其中所述功能性开放读码框的终止密码子位于编码可筛选标记的核苷酸序列的独立翻译起始密码子的上游的0-250个核苷酸处，其中分隔功能性开放读码框的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的序列缺乏翻译起始密码子；以及

c)含有突变的编码可筛选标记多肽的核苷酸序列，该突变编码至少一个氨基酸置换（amino acid change），与其相应的野生型相比，可筛选标记多肽的活性降低。

在（翻译）起始密码子（次优的非AUG起始密码子）中具有突变的编码可筛选标记的核苷酸序列降低了真核宿主细胞中的可筛选标记多肽的翻译起始效率，这是本领域已知的（参见例如WO2007/096399）。本文中的非ATG（非AUG）起始密码子应当理解是在起始密码子中具有突变的翻译起始密码子，这降低了真核宿主细胞中可筛选标记多肽的翻译起始效率。本发明可用于编码可筛选标记序列的非ATG起始密码子的实例包括例如GTG、TTG、CTG、ATT和ACG。在优选的实施方式中，ATG起始密码子突变为GTG起始密码子。更优选地，ATG起始密码子突变为TTG起始密码子，它提供了比GTG起始密码子更低表达水平的可筛选标记多肽。当使用非ATG起始密码子时，优选非ATG起始密码子存在于最有利于翻译起始密码子的环境中，例如下文定义的Kozak共有序列。当将非ATG起始密码子应用到可筛选标记时，编码可筛选标记的核苷酸序列可以发生突变而缺乏内在ATG密码子，尤其缺乏非ATG起始密码子框内的内在ATG密码子。优选在构建体中可筛选标记位于编码目的基因产物的核苷酸序列的上游，并且在编码目的基因产物的序列和标记之间没有使用IRES。WO2006/048459公开了如何实现（例如通过置换、插入或缺失，优选置换）和如何测试获得的可筛选标记多肽的功能性。

以上b）所述的降低翻译起始效率的第二项，在可筛选标记的翻译起始密码子之前直接使用了（短的）功能性开放读码框（pp^x，其中pp^x是x个氨基酸残基的小肽）。功能性开放读码框（pp^x）的长度是可以变化的，目的是微调低水平的可筛选标记多肽的翻译效率，从而获得理想的精确的严格筛选水平。因此，功能性开放读码框可以编码至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、70、80或90个氨基酸残基（在5′端具有起始密码子，在3′端具有终止密码子），优选编码至多200、180、160、150、140、130、120、110、100、99、98、97、96、95、94、93、92、91或90个氨基酸残基（在5′端具有起始密码子，在3′端具有终止密码子）。因此，通过改变功能性开放读码框（pp^x）的长度，转录过程中直接在编码可筛选标记的序列之前，提供了可筛选标记的翻译效率的连续变化范围。功能性开放读码框（pp^x）可以直接位于独立的可筛选标记的起始密码子的上游，在这种情况下，功能性开放读码框的起始密码子直接与编码可筛选标记的序列的起始密码子相邻。另外，功能性开放读码框（pp^x）的上游终止密码子和编码可筛选标记的序列的起始密码子可以相隔1、2、3、4、5、6、7、8、9、10、12、14、16、18、19、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、250个以上的核苷酸。分隔功能性开放读码框（pp^x）的上游终止密码子和编码可筛选标记的序列的起始密码子的间隔序列的长度的变化进一步增加了可筛选标记的翻译效率的微调水平。分隔功能性开放读码框（pp^x）的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的间隔序列缺乏翻译起始密码子。因此优选所述间隔序列缺乏ATG密码子。更优选所述间隔序列还缺乏次优非ATG密码子例如嵌入在Kozak序列（如下所述）中的GTG、TTG、CTG、ATT和ACG（如下所述）。最优选所述间隔序列缺乏任一的ATG、GTG、TTG、CTG、ATT和ACG密码子。在另一个优选的实施方式中，分隔功能性开放读码框（pp^x）的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的间隔序列缺乏终止密码子，也就是缺乏TAA、TAG和TGA密码子。

在优选的实施方式中，编码可筛选标记的核苷酸序列和功能性开放读码框（pp^x）的翻译起始密码子中的至少一个是ATG密码子。更优选地，至少编码功能性开放读码框（pp^x）的核苷酸序列的起始密码子是ATG密码子，在这种情况下，编码可筛选标记的核苷酸序列的起始密码子可以是非ATG起始密码子（也被称为次优或不太有利的翻译起始密码子），目的是允许更加严格的筛选（如上所述）。最优选地，编码可筛选标记的核苷酸序列和功能性开放读码框（pp^x）的翻译起始密码子都是ATG密码子。然而，本发明不排除编码功能性开放读码框（pp^x）的核苷酸序列的起始密码子是非ATG起始密码子。

在一种实施方式中，编码可筛选标记的核苷酸序列和功能性开放读码框（pp^x）的起始密码子中的至少一个被嵌入到Kozak共有序列中。本文中将Kozak共有序列（脊椎动物宿主细胞）定义为ANN（AUG）N（SEQ IDNO:4）和GNN（AUG）G(SEQ ID NO:5)，其中（AUG）代表了相关编码序列的起始密码子。优选在（AUG）之前的N’s是C’s。更优选的Kozak共有序列是GCCRCC(AUG)G(SEQ ID NO:6)，其中R是嘌呤。在另一个优选的实施方式中，Kozak共有序列之前还可以存在另一个GCC三联体。

优选的上游带有功能性开放读码框（pp^x）的可筛选标记为例如pp⁹⁰ZEO（编码新霉素抗性蛋白前面的90个氨基酸的pp^x开放读码框；pp⁹⁰编码序列如SEQ ID NO:7所示）。

在一种实施方式中，择一实施或组合使用以上a)或b)所述的降低翻译起始效率的方法，也可以有利于提供可筛选标记多肽的降低的翻译延伸效率。例如可以通过改变编码可筛选标记多肽的序列，从而降低所讨论宿主细胞中密码子使用的适应性来实现。这就再次提供了进一步控制本发明核酸构建体的筛选严格性水平。因此，编码可筛选标记蛋白的核苷酸序列优选能够适应所讨论宿主细胞中的次优密码子使用。优选地，适应本发明的核苷酸序列的密码子具有不超过0.7、0.6、0.5、0.4、0.3或0.2的CAI（见以上有关CAI的定义）。

在一种实施方式中，择一实施或组合实施以上a)或b)所述的具有降低的翻译起始效率的可筛选标记的实施方式，根据本发明，可以使用适当的可筛选标记的突变体或衍生物，因此只要可筛选标记仍然起作用，它们便在术语“可筛选标记”的范围内。优选地，可筛选标记的突变体或衍生物与它相应的野生型相比，可筛选标记的活性降低，从而使得可以进一步微调本发明核酸构建体筛选严格性的控制水平。择一实施或组合实施一个或多个其他实施方式，在优选的实施方式中，编码可筛选标记的核苷酸序列编码可筛选标记多肽，该可筛选标记多肽包括一个或多个（共同地）能够降低可筛选标记多肽活性（与它相应的野生型相比）的突变。突变的可筛选标记多肽的活性可以为其相应的野生型活性的90、80、70、60、50、40、30、20、10、5或1%以上。

作为非限制性的实例，博莱霉素抗性多肽中第9位的脯氨酸可能突变为例如Thr或Phe（参见例如WO2006/048459的实施例14，通过引用将其引入本文），对于新霉素抗性多肽，第182或261位的氨基酸残基或第182和261位的氨基酸残基可发生突变（参见例如WO01/32901）。优选的具有降低活性的可筛选标记多肽是具有由SEQ ID NO:8编码的氨基酸序列的博莱霉素抗性多肽，其中第21位的谷氨酸变为甘氨酸，第76位的丙氨酸变为苏氨酸（Zeo^EPP5）。

特别优选的严格可筛选标记是pp⁸ZEO^EPP5，它结合了8个氨基酸的开放读码框pp^x和具有降低的活性的Zeo^EPP5博莱霉素抗性蛋白。pp⁸ZEO^EPP5的序列如SEQ ID NO:9所示。

本发明的核酸构建体优选被包括在质粒中或所述表达构建体可以是质粒。使用本领域技术人员已知的方法能够容易地操作质粒，例如被设计为能够在原核和/或真核细胞中复制。或者，核酸构建体可以是载体。许多载体可以直接或以所需的分离片段的形式用于真核细胞的转化，并可整体或部分地整合到这些细胞的基因组中，从而获得在其基因组中含有所需核酸的稳定的宿主细胞。

常规的表达体系是重组质粒或重组病毒基因组形式的DNA分子。通过本领域已知的方法将质粒或病毒基因组引入（真核宿主）细胞中，优选地整合到它们的基因组中，WO2006/048459（例如第30-31页）中已经描述了一些有关的方面，通过引用将其纳入本文。

公知的是，染色质结构和其它表观遗传控制机制可能会影响真核细胞中转基因的表达（例如，Whitelaw et al,2001,Methods Mol Biol158:351-68）。为了增加在严格筛选体制中筛选存活的宿主细胞的克隆的几率，以及尽可能增加获得的克隆的表达稳定性，将通常优选增加转录的可预测性。因此，优选地，根据本发明的核酸构建体和载体除含有如上定义的本发明的核酸片段（即，含有来自RPL32启动子区的序列或与之相似的序列）外，还含有至少一个或多个连接到表达盒上的其他“表达增强核酸片段”。这种其他“表达增强核酸片段”可以包括下文描述的“染色质控制元件”、“反阻遏序列”和“基因表达增强元件”。

本文中所用的“染色质控制元件”为DNA序列的集合术语（collectiveterm），所述DNA序列在真核细胞中可以以某种方式影响染色质结构以及随后影响转基因附近的表达水平和/或表达稳定性（他们以“顺式”的方式发挥作用，因此，优选地，被置于与转基因相距5kb以内，更优选2kb以内，更优选1kb以内）。有时使用这种元件来增加具有所需转基因表达水平的克隆的数量。WO2006/048459已描述了按照本发明使用的几种类型的这种元件（例如，32-34页），通过引用将其并入本文，并且，为了本发明的目的，染色质控制元件选自由基质或支架附着区（scaffold attachment regions）（MARs/SARs）、绝缘子（例如，β-球蛋白绝缘子元件（鸡β-球蛋白位点的5'HS4））、scs、scs'等、常染色质开放元件（ubiquitous chromatin openingelement）（UCOE）以及反阻遏序列（还被称为“STAR”序列）所组成的组中。

优选地，所述染色质控制元件为反阻遏序列，优选选自由WO2007/096399中公开的SEQ.ID.NO.1到SEQ.ID.NO.66所组成的组中。更优选地，所述染色质控制元件选自由WO2007/096399中公开的STAR67、STAR7、STAR9、STAR17、STAR27、STAR29、STAR43、STAR44、STAR45、STAR47、STAR61或所述STAR序列的功能片段或衍生物所组成的组中。在最优选的实施方式中，使用STAR7和STAR67组合，或STAR7和STAR67的功能片段或衍生物。在某些优选的实施方式中，将STAR7和STAR67或它们的功能片段或衍生物的至少一种置于驱动多顺反子转录单元表达的启动子的上游。在其它优选的实施方式中，根据本发明的表达盒的两侧均与如上描述的反阻遏序列的至少一种相连。在某些实施方式中，按照5'到3'的顺序，根据本发明提供的表达盒包括反阻遏序列A-反阻遏序列B-[启动子-根据本发明的多顺反子转录单元（编码目的基因产物并且其下游为有功能的可筛选标记蛋白）-转录终止序列]-反阻遏序列C，其中，A、B和C可以相同或不同。在优选的实施方式中，A和C为STAR7，且B为STAR67。WO2006/048459中已经描述了对本发明有用的具有反阻遏活性（反阻遏序列）及其特性的序列，以及它们的功能片段或衍生物，它们的结构和功能的定义，以及获得并使用它们的方法（例如，34-38页），通过引用将其并入本文。

另一种优选的用于本发明的基因表达增强元件（可以使用其替代或插入上述染色质控制元件或反阻遏序列）为作用为基因间转录源的核酸片段。优选地，作用为基因间转录源的核酸片段含有基因组区域的至少1,000、1,500、2,000、3,500或7,000个连续核苷酸，所述基因组区域位于脊椎动物Rb1或P15基因的翻译起始位点的上游，且作用为基因间转录源。优选的，所述核酸片段含有SEQ ID NO:11（人Rb1F和E）的至少1,000、1,500、2,000、3,500或7,000个连续核苷酸，SEQ ID NO:11由位于人Rb1基因的翻译起始位点上游的约7kb的核苷酸组成。更优选地，所述核酸片段含有SEQ ID NO:12（人Rb1E）的至少1,000、1,500、2,000、2,500、3,000或3,498个连续核苷酸（另参见本文的实施例）。可选择优选地，所述核酸片段含有SEQ ID NO:13（人P15C）的至少1,000、1,500、2,000、2,500、3,000或3,352个连续核苷酸。在某些实施例中，按照5'到3'的顺序，根据本发明提供的表达盒包括作用为基因间转录源的核酸片段A-[启动子-根据本发明的多顺反子转录单元（编码目的基因产物和CLase可筛选标记）-转录终止序列]-作用为基因间转录源的核酸片段B，其中，A和B可以相同或不同。在优选的实施方式中，A和B为SEQ ID NO:12，或A和B为SEQ ID NO:13，或A和B为如上所述的SEQ ID NO’s:12和13中的一个的子片段。

在一种实施方式中，本发明的核酸构建体含有附加的可筛选标记，例如如前所述的DHFR代谢可筛选标记。这种核酸构建体的优势是通过使用与IRES可操作地连接的可筛选标记例如博莱霉素、新霉素等，能够实现对具有高表达的宿主细胞的筛选，从而在筛选出具有高表达的宿主细胞后，停止抗生素的筛选，再使用附加的可筛选标记进行连续的或间歇的筛选。本实施方式中的多顺反子转录单元至少是三顺反子。

优选使用分离的核酸构建体来表达不同的目的基因产物，当需要这些产物来形成多聚体蛋白的各部分时也是如此（参见例如WO2006/048459的实施例13，通过引用将其纳入本文）：抗体的每个重链和轻链由本发明分离的转录单元所编码。根据本发明，当本发明的两个转录单元在单个的宿主细胞中被筛选出来时，优选每个转录单元含有用于不同可筛选标记的编码序列，促使两个转录单元的筛选。当然，两个转录单元可以都存在于单个核酸分子中或每一转录单元可以存在于分离的核酸分子中。

第三方面，本发明涉及一种含有本发明的核酸构建体的表达载体或表达构建体。

第四方面，本发明涉及一种含有本发明的核酸构建体或本发明的表达载体的宿主细胞，优选真核宿主细胞。

术语“细胞”或“宿主细胞”和“细胞系”或“宿主细胞系”分别被定义为细胞或它们的同源群体，可以通过本领域已知的方法将它们在培养基中培养，并具有表达异源或同源蛋白质的能力。宿主是真核宿主细胞，例如真菌、植物或动物来源的细胞。优选地，宿主细胞是昆虫或脊椎动物来源的动物细胞。更优选地，宿主细胞是哺乳动物细胞。优选地，宿主细胞是细胞系的细胞。WO2006/048459（例如第41-42页）已经描述了可以使用的宿主细胞的一些示例，通过引用将其纳入本文，这样的细胞包括例如哺乳动物细胞，包括但不限于CHO细胞，例如CHO-Kl、CHO-S、CHO-DG44、CHO-DG44-S、CHO-DP12、CHO-DUKXBI l，包括具有dhfr^-表型的CHO细胞，以及骨髓瘤细胞（例如Sp2/0、NSO）、HEK293细胞、HEK 294细胞和PER.C6细胞。可以使用的宿主细胞的其他实例是U-2 OS骨肉瘤、HuNS-1骨髓瘤、WERI-Rb-1视网膜母细胞瘤、BHK、Vero、非分泌性小鼠骨髓瘤Sp2/0-Ag14、非分泌性小鼠骨髓瘤NSO和NCI-H295R肾上腺癌细胞系。

这样的真核宿主细胞能够表达所需的基因产物，并经常被用于上述目的。优选以本发明的表达构建体、表达盒或表达载体的形式将本发明的核酸构建体引入细胞中可以获得这样的真核宿主细胞。优选将核酸构建体整合到宿主细胞的基因组中，可以整合到各种宿主细胞的不同位置，筛选将提供克隆，在其中转基因被整合到适当的位置，依据表达水平、稳定性、生长特性等方面性质得到具有所需属性的宿主细胞克隆。

或者，不含启动子的核酸构建体可以被定向或随机选择地整合到具有转录活性的染色体区域，例如基因组中存在的启动子之后。可以使用本领域技术人员已知的常规方法，通过筛选可筛选标记多肽来进行含有本发明的DNA的细胞的筛选。当将这种不含启动子的核酸构建体整合到基因组的启动子之后时，本发明的核酸构建体能够在原位产生，也就是在宿主细胞的基因组内产生。

优选地，宿主细胞来自稳定的克隆，可以根据本领域技术人员已知的标准流程来筛选和繁殖该克隆。如果细胞含有本发明的多顺反子转录单元，这种克隆的培养物能够生产目的基因产物。

可以通过几种方法之一来引入将要在细胞中表达的核酸，这些方法是本领域技术人员已知的，也依赖于待引入的核酸的形式。所述方法包括但不限于转染、感染、注射、转化等。可以通过筛选来获得适当的表达目的基因产物的宿主细胞。

在优选的实施方式中，本发明的核酸构建体被整合到本发明的真核宿主细胞的基因组中。这将赋予核酸构建体稳定的遗传性。

第五方面，本发明涉及一种生产用于表达目的基因产物的宿主细胞的方法，其中，该方法包括以下步骤：a）将本发明的核酸构建体或本发明的表达载体引入多个宿主细胞中；b）在能够筛选表达可筛选标记多肽的条件下培养从a）中获得的多个宿主细胞；和c）筛选至少一个表达可筛选标记多肽的宿主细胞，用于表达目的基因产物。

这一方法的优势和WO2006/048459（例如第46-47页）中公开描述的方法的优势相似，通过引用将其纳入本文。当能够获得具有相对低拷贝数的核酸构建体和高表达水平的克隆时，可以将本发明的筛选体系与扩增方法结合从而进一步改进表达水平。例如这可以通过使用氨甲蝶呤扩增共-整合的DHFR基因来实现，例如将DHFR置于与本发明的多顺反子转录单元相同的核酸分子上，或当DHFR在分离的DNA分子上时使用共转染。DHFR基因也可以是本发明核酸构建体的一部分或是本发明表达载体的一部分。

筛选存在的可筛选标记多肽并用于表达的过程可以在最初获得宿主细胞的过程中进行。在某个实施方式中，筛选剂至少在培养过程的部分时间中存在于培养基中，可以以足够的浓度或以较低的浓度来筛选表达可筛选标记的细胞。

第六方面，本发明涉及一种表达目的基因产物的方法，该方法包括培养含有本发明核酸构建体或本发明载体的宿主细胞、本发明的宿主细胞或根据本发明的方法获得的宿主细胞，以及从核酸构建体中表达目的基因产物。在优选的实施方式中，在生产目的基因产物的最后阶段过程中，筛选剂不再存在于培养基中，从而能够避免可能存在的微量毒性筛选剂污染基因产物的任何风险。

在某些实施方式中，本发明的表达载体编码免疫球蛋白重链或轻链或抗原结合部分，以及它们的衍生物和/或类似物。在优选的实施方式中，提供了根据本发明的蛋白表达单元，其中所述目的蛋白是免疫球蛋白重链。在另一个优选的实施方式中，提供了根据本发明的蛋白表达单元，其中所述目的基因产物是免疫球蛋白轻链。当这两个蛋白表达单元存在于相同的（宿主）细胞中时，可组装成多聚体蛋白特别是免疫球蛋白。因此，在某个实施方式中，目的蛋白是免疫球蛋白例如抗体，它是多聚体蛋白。优选地，这种抗体是人或人源化抗体。在某个实施方式中，它是IgG、IgA或IgM抗体。免疫球蛋白可以在不同的表达载体上或在单一表达载体上编码重链和轻链。因此，各个重链和轻链可以存在于分离的表达载体上，各自都具有它自己的启动子（两个表达载体可以相同或不同），各自都含有根据本发明的转录单元，重链和轻链是目的基因产物，优选各自编码不同的可筛选标记蛋白，以使得当表达载体被引入和/或存在于真核宿主细胞时，能够进行重链和轻链表达载体的筛选。或者，编码重链和轻链的序列可以存在于根据本发明的含有多顺反子转录单元的单一表达载体上，由单个启动子驱动，其中轻链和重链是它们各自的编码序列之间具有IRES的目的基因产物。

对细胞进行培养，以使得它能够代谢和/或生长和/或分裂和/或产生目的基因产物。这可以通过本领域技术人员已知的方法来实现，包括但不限于给细胞提供营养。所述方法包括表面粘附生长、悬浮生长或它们的组合。使用批量（batch）、分批补料（fed-batch）、连续系统例如灌注系统等，例如可以在培养皿、摇瓶或生物反应器中完成培养。为了通过细胞培养大规模（连续）生产重组基因产物，本领域优选细胞能够悬浮生长，优选地，细胞能够在缺乏动物或源自人的血清或缺乏动物或源自人的血清组分的条件下进行培养。

生长或增殖细胞的条件（如Tissue Culture,Academic Press,Kruse andPaterson,editors(1973)所述）和表达重组产物的条件是本领域技术人员所公知的。总体而言，使哺乳动物细胞培养的生产能力达到最大化的原理、方案和实用技巧在Mammalian Cell Biotechnology:a Practical Approach(M.Butler,ed.,IRL Press,1991)中有记载。

在优选的实施方式中，根据本发明的表达目的基因产物的方法进一步包括收获目的基因产物。可以收获、从细胞或从培养基、或从细胞和培养基中收集或分离表达的基因产物例如蛋白质。然后使用已知的方法将其纯化，例如过滤、柱色谱法等，通常使用本领域技术人员已知的方法。

除非另外说明，本发明的操作使用的是免疫学、分子生物学、微生物学、细胞生物学和重组DNA的常规技术，这些是本领域的常规技术。例如参见Sambrook,Fritsch and Maniatis,Molecular Cloning：A Laboratory Manual,2^nd edition,1989;Current Protocols in Molecular Biology,Ausubel FM,et al,eds,1987;the series Methods in Enzymology(Academic Press,Inc.);PCR2:APractical Approach,MacPherson MJ,Hams BD,Taylor GR,eds,1995;Antibodies:A Laboratory Manual,Harlow and Lane,eds,1988.[0088]。下面的实施例进一步解释了本发明。实施例不以任何方式限制本发明，它们仅仅用来说明本发明。

在本说明书和它的权利要求中，使用动词“含有”和它的词形变化形式非限制性指的是包括以下所述的项目，但没有特别提到的项目并不排除在外。另外，涉及被不定冠词“一”或“一个”修饰的要素，并不排除一个以上要素存在的可能性，除非上下文明显另有所指是一个或只有一个要素。因此不定冠词“一”或“一个”通常指的是“至少一个”。

通过引用将本说明书中引用的所有专利和参考文献将其整体纳入本文。

下面的实施例仅以说明为目的，并不意图以任何方式限制本发明的范围。

附图说明

图1：在严格筛选体系环境下，用于与人β-肌动蛋白启动子结合的启动子对克隆形成的影响。

图2：在严格筛选体系环境下，用于与人β-肌动蛋白启动子结合的启动子对蛋白表达的影响。

图3：在另一种严格筛选体系下，用于与人β-肌动蛋白启动子结合的启动子对克隆形成的影响。

图4：在另一种严格筛选体系下，用于与人β-肌动蛋白启动子结合的启动子对蛋白表达的影响。

图5：RPL32启动子对EPO蛋白表达的影响。

图6：不同的RPL32启动子结构对克隆形成和蛋白表达的影响。

图7：与不同启动子结合的RPL32启动子对克隆形成的影响。

图8：影响克隆形成和蛋白表达的RPL32启动子的特征。

图9：在悬浮生长的细胞中，RPL32结合对蛋白表达的影响。

图10：在悬浮生长的细胞中，RPL32结合对蛋白表达的影响。

具体实施方式

实施例

1.实施例1：在严格筛选体系环境下，测试置于人β-肌动蛋白启动子上游的异源启动子对克隆形成和蛋白表达的影响

当CHO-DG44被含有严格筛选标记的质粒转染时，仅出现少量克隆或没有克隆出现。这种严格筛选标记可以为博莱霉素抗性标记，所述博莱霉素抗性标记已发生突变且其前面有一小肽，并且位于目的基因的下游，IRES之后（内部核糖体进入位点）（见图1）。然而，当整个表达盒两侧均连接有STAR元件时，就会出现更多的克隆，当将400μg/ml博莱霉素添加到CHO-DG44培养基中时，克隆数通常在50-100/转染的范围内（图1）。一般地，产生的克隆表现出高蛋白表达水平。本文中，我们测试了于相同筛选条件下，在人β-肌动蛋白启动子的上游插入异源启动子是否会诱导至少和STAR元件一样多的CHO-DG44克隆。因此，我们使用的博莱霉素抗性标记和STAR元件所使用的博莱霉素抗性标记相同，即pp8Zeo^EPP5。表达盒置于人β-肌动蛋白启动子的控制下（图1）。SEQ ID NO:2中给出了整个表达盒的序列。SEQ ID NO:3中给出了参照构建体的序列，其中，SEQ ID NO:2的表达盒的两侧与STAR元件连接（图1）。

1.1结果

选择了12个启动子用于测试：病毒CMV（viral CMV）和SV40启动子、人β-肌动蛋白启动子本身、人γ-肌动蛋白启动子、人UBC、EF1-α、GAPDH基因的启动子、以及人核糖体基因RPL32、RPLP1、RPS21、RPL8和RPL42的启动子。启动子通过以人基因组DNA为模板的PCR进行分离（序列表中关于引物参见SEQ ID NO’s:14-47；F:正向，R：反向）。通过DNA测序对启动子的序列（identity）进行验证。启动子被克隆到紧邻（immediately）人β-肌动蛋白启动子的上游。选择具有STAR6/67/7组合的构建体作为对照。另一对照为具有驱动d2EGFP IRES pp8Zeo^EPP5表达单元的人β-肌动蛋白启动子，但不具有任何其它元件或异源启动子的构建体（图1）。

我们用质粒转染CHO-DG44细胞。用脂质体2000（Invitrogen）将所有构建体相同数量的DNA（3μg）转染至CHO-DG44细胞中。在含有400μg/ml博莱霉素的培养基中进行筛选，转染24小时后添加博莱霉素。培养基由HAMF12:DMEM=1:1+4.6%的胎牛血清组成。大约两周后，计算稳定的已产生的克隆数。如图1所示，含有STAR7/67/7的构建体的转染产生了112个稳定的克隆。不含有元件或启动子（阴性对照）的构建体未产生克隆。使用的十种异源启动子获得了同样的结果，人β-肌动蛋白启动子的上游含有RPL8的构建体（55个克隆），特别是含有RPL32启动子的构建体（＞250个克隆）除外（图1）。

分离了由指定的构建体诱导的多达24个的独立的克隆。转染～6周后，繁殖克隆，然后用流式细胞仪分析(EPICS-XLM,Beckman-Coulter)。源自d2EGFP的荧光信号（非稳定的）与细胞中存在的d2EGFP蛋白的量呈线性关系，因此它是细胞中d2EGFP表达水平的可靠的指标。在单个FACS分析中，分析了来自含有多达4000个细胞的样品的荧光信号。这种细胞样品其中之一取自独立的、稳定的转染的细胞克隆。由于信号在克隆中的单个细胞之间不同，样品中～4000个细胞的平均荧光水平被作为稳定的转染的细胞克隆中d2EGFP表达水平的量度。

如图2所示，将异源启动子置于人β-肌动蛋白启动子的上游产生了不同的d2EGFP表达值。在谱的下端，置于人β-肌动蛋白启动子上游的CMV、EF1-α和RPL21启动子诱导了非常低的d2EGFP值（图2），也几乎没有任何克隆（图1）。但重要的是，在含有RPL32-β-肌动蛋白启动子组合的构建体中d2EGFP表达水平和在STAR7/67/7中诱导的d2EGFP值同样高（图2）。加上中间d2EGFP值（图2），仅RPL18启动子还产生了一些克隆（图1）。

我们推断，在CHO-DG44细胞中，将RPL32置于人β-肌动蛋白启动子的上游，与d2EGFP IRES pp8Zeo^EPP5表达单元组合，诱导了比与STAR7/67/7组合更多的克隆。另外，在这些克隆中的d2EGFP表达值和STAR7/67/7诱导的克隆的表达水平相同。

2.实施例2：在另一种严格筛选体系环境下，测试置于人β-肌动蛋白启动子上游的异源启动子对克隆形成和蛋白表达的影响

通过修饰博来霉素筛选标记的翻译起始密码子构建了另一种非常严格的博来霉素筛选标记。这是特殊的具有TTG翻译起始密码子的博来霉素抗性标记的情况，并被置于人β-肌动蛋白启动子的控制下（见图3）。在这种严格筛选标记环境下，几乎没有克隆出现。然而，和d2EGFP IRES pp8Zeo^EPP5博来霉素标记的情况相同，当TTG Zeo d2EGFP表达盒两侧均连接有STAR元件时，就会出现更多的克隆，当将400μg/ml博莱霉素添加到CHO-DG44培养基中时，克隆数通常在50-100/转染的范围内（图3）。当具有TTG Zeo、两侧连接有STAR的质粒时也如此，产生的克隆显示了高蛋白表达水平。本文中，我们测试了于相同筛选条件下，在人β-肌动蛋白启动子的上游插入异源启动子是否会诱导至少和STAR元件一样多的CHO-DG44克隆。因此，我们使用的博莱霉素抗性标记和STAR元件，TTG Zeo所使用的博莱霉素抗性标记相同。将表达盒置于人β-肌动蛋白启动子的控制之下（图3）。

2.1．结果

选用与实施例1中相同的12种启动子用于测试：病毒CMV和SV40启动子、人β-肌动蛋白异启动子本身、人γ-肌动蛋白启动子、人UBC、EF1-α、GAPDH基因的启动子、以及人核糖体基因RPL32、RPLP1、RPS21、RPL8和RPL42的启动子。启动子被克隆到紧邻人β-肌动蛋白异源启动子的上游。选择具有STAR6/67/7组合的构建体作为对照。另一对照为具有驱动TTGZeo d2EGFP表达单元的人β-肌动蛋白启动子，但不具有任何其它元件或异源启动子的构建体（图3）。

按照实施例1中的描述，我们用质粒转染CHO-DG44细胞。如图3所示，含有STAR7/67/7的构建体的转染产生了135个稳定的克隆。不含有元件或启动子（阴性对照）的构建体产生＜10个克隆。使用的十种异源启动子获得了同样的结果，人β-肌动蛋白启动子的上游含有RPL8的构建体（50个克隆），特别是含有RPL32启动子的构建体（＞350个克隆）除外（图3）。整体上，在TTG Zeo标记的环境下比在IRES pp8Zeo^EPP5结构的环境下诱导的稳定的克隆数稍高（比较图1和3）。

按照实施例1中的描述，分离了由指定的构建体诱导的多达24个的独立的克隆并确定了d2EGFP值。如图4所示，将异源启动子置于人β-肌动蛋白启动子的上游产生了不同的d2EGFP表达值。在谱的下端，置于人β-肌动蛋白启动子上游的EF1-α启动子诱导了非常低的d2EGFP值（图4），和较少的克隆数（图3）。相反地，置于人β-肌动蛋白启动子上游的人γ-肌动蛋白启动子诱导了少量的克隆（图3），但在这些克隆中的d2EGFP表达水平较高（图4）。重要的是，在含有RPL32-人β-肌动蛋白启动子组合的构建体中d2EGFP表达水平和在STAR7/67/7中诱导的d2EGFP值同样高（图4）。

在本次最后的实验设置中，我们还利用TTG Zeo作为筛选标记测试了另一种报告蛋白。如图5所示，置于人β-肌动蛋白启动子上游的RPL32比STAR7/67/7组合诱导了更多的克隆。在这些克隆中，EPO表达值与STAR元件和RPL32启动子的非常相似（图5）。

我们推断，在CHO-DG44细胞中，将RPL32置于人β-肌动蛋白启动子的上游，与TTG Zeo筛选标记组合，诱导了比与STAR7/67/7组合更多的克隆。另外，在这些克隆中的d2EGFP表达值以及EPO蛋白表达水平与STAR7/67/7诱导的克隆中的表达水平相同。结合实施例1，这些结果显示，在两种不同的严格筛选体系和多种报告基因的环境中，RPL32启动子发挥了其积极的作用。

3.实施例3：将RPL32置于表达构建体中的结构的影响和RPL32启动子对其它启动子的影响

我们测试了构建体中RPL32启动子的位置是否会对诱导的克隆的数量和d2EGFP表达值产生影响。我们还测试了是否是RPL32，而不是人β-肌动蛋白启动子对其它启动子具有有益影响。

3.1结果

我们构建了将RPL32置于人β-肌动蛋白启动子上游、整个表达盒下游或人β-肌动蛋白启动子和报告基因之间的构建体（图6）。另外，我们在表达盒的上游和下游均插入了RPL32。用质粒转染CHO-DG44细胞，按照如上描述的对克隆计数，并确定这些克隆中的d2EGFP表达值。如图6所示，在本实验中，当将RPL32启动子置于整个表达盒下游时产生了大部分克隆。将单一RPL32启动子置于人β-肌动蛋白启动子上游的构建体诱导了稍少的克隆，但几乎为使用两个RPL32启动子与整个表达盒两侧连接时的两倍（图6）。当将RPL32启动子置于β-肌动蛋白启动子上游时没有克隆形成，但在这种结构中，RPL32启动子的转录方向不受β-肌动蛋白启动子的影响（图6）。这表明源于RPL32启动子的转录必须通过β-肌动蛋白启动子进行。当确定了各个克隆中的d2EGFP值时，我们观察到“单个”RPL32-β-肌动蛋白启动子结构诱导了最高的平均d2EGFP表达水平（图6）。由使用两个RPL32启动子的质粒或由单个RPL32启动子置于β-肌动蛋白启动子下游的质粒诱导的d2EGFP值大大降低（图6）。

接下来，我们测试了将RPL32置于启动子但不是β-肌动蛋白启动子的上游是否也会导致大量克隆的形成和d2EGFP表达值。我们将RPL32启动子置于CMV和SV40启动子的上游（图7），作为对照，我们在CMV和SV40驱动的构建体的两侧连接了STAR7/67/7组合。如图7所示，我们发现将RPL32启动子置于CMV启动子的上游与STAR7/67/7组合相比，诱导了＞3倍的克隆。使用SV40启动子，RPL32诱导了与STAR7/67/7组合数量相等的克隆（图7）。当确定了这些各个克隆中的d2EGFP表达水平时，我们发现RPL32-β-肌动蛋白启动子组合诱导了与STAR7/67/7组合相同的d2EGFP表达水平（图7），这也在以上实施例1和2中观察到了。然而，使用CMV和SV40启动子，RPL32启动子与STAR7/67/7组合相比，诱导了高得多的d2EGFP表达水平（图7）。

因此，我们推断，置于不同启动子上游的RPL32启动子在诱导克隆数量和蛋白表达水平方面对这些启动子均具有有益的影响。

4.实施例4：RPL32启动子的方向和功能元件对于它对人β-肌动蛋白启动子的影响是重要的。

我们测试了哪些要素决定了RPL32对人β-肌动蛋白启动子的积极作用。

4.1结论

RPL32启动子缺乏典型的TATA盒，RPL32启动子的β结合位点包括DNA序列元件（CGGAAC）并结合Ets-相关蛋白GA-结合蛋白（GABP）（Thompson et al.,1991,Science253:762-8;Macleod et al.,1992,TrendsBiochem Sci17:251-6;Yoganathan et al.,1992a,Biochem J287:349-53;Genuario et al.,1993,Gene Expr3:279-88）。尽管在RPL32基因启动子中缺乏典型的TATA元件，但不在其它因子的帮助下，TATA-结合蛋白（TBP）能够与加帽位点（cap site）上游30个碱基对的区域相互作用（Yoganathan et al.,1992b,Biochem J285:721-3）。该区域包括γ因子的结合位点，表明在RPL32基因的转录中，γ因子可以与TBP起到相似的作用。

如图8A中所示，我们敲除了最初分离的3220bp的RPL32启动子区的5'和3'的几个部分。另外，我们敲除了紧邻含有上述认为重要的结合位点的转录起始位点上游的100bp（图8A）。我们称该构建体为-1918-Δ-1302（图8B）。我们用各个构建体转染CHO-DG44细胞。如图8A所示，我们发现，RPL32的转录起始位点上游的100bp对于它对人β-肌动蛋白启动子的影响是重要的。含有-1918-Δ-1302启动子构建体的构建体没有形成克隆。出人意料的是，5'或3'位点的敲除（分别为-1918-504和-691-1302，分别对应SEQ IDNO:1的1-2423和1236-3220的位置），与RPL32启动子片段全长（-1918-1302，即，整个SEQ ID NO:1）相比，导致了克隆数量的增加。任何一种情况下，平均d2EGFP值非常相似。然而，进一步缩短（分别为-1918-94和-137-1302，分别对应SEQ ID NO:1的1-2013和1782-3220的位置）导致了克隆数量的急剧下降（图8B）。在这些克隆中，d2EGFP值也急剧降低。根据这些结果会认为敲除5'或3'位点的大部分并没有影响，但事实并非如此。使用这种构建体（-691-504，对应SEQ ID NO:1的1236-2423的位置），克隆数量和d2EGFP值均降低了（图8B），表明为获得完全有益的效果，需要RPL32启动子区的大部分区域。

我们推断，功能性RPL32启动子对于它对人β-肌动蛋白启动子的有益影响是重要的，并且，RPL32启动子的方向必须为RPL32的转录和人β-肌动蛋白启动子的转录在相同的方向上。最后，在克隆形成和基因表达水平方面，对启动子起有益作用的RPL32启动子内的确切区域的精确定位是复杂的。

5.实施例5：在无血清悬浮转染和培养条件下RPL32启动子的作用

以上描述的实验均在贴壁细胞培养基中进行。但是，启动子和基因活性增强元件在无血清培养条件下作用可能不同。因此，我们在无血清条件下，用对照和含有构建体的RPL32转染悬浮的CHO-DG44-S悬浮细胞（Gibco/Invitrogen Catalogue No.12609-012;www.invitrogen.com），同样地，在无血清悬浮条件下培养它们。

5.1结果

在补加有200mM谷氨酰胺、普朗克尼酸（pluronic acid）和抗凝结剂（anti-clumping agent）的无血清CD-DG44培养基中于摇床（130rpm）上37℃/8%CO₂下培养野生型CHO-DG44-S悬浮细胞。每2-3天对细胞进行传代。使用核转染试剂盒V（Nucleofection-kit Amaxa V），按照说明书的描述，通过Amaxa Nucleofector转染（核转染）细胞。简言之，在培养基中添加ITS，并在培养箱中平衡所述培养基，以调整pH。对于每次核转染，将生长至密度在7×10⁵和1×10⁶之间，并且存活率（viability）>90%的1×10⁶的野生型DG44-S细胞，在外摆式离心机中进行离心（900rpm，5min）。将细胞沉淀溶于100μl核转染溶液中，并加入5μg的DNA（于5μl体积中）。将样品转移至透明小容器中，并在Amaxa Nucleofector中进行电转染（使用U-30程序），之后将样品转移至均衡培养基中（在6-孔培养板中）。5-6小时后，将总体积5ml的细胞转移至T25（悬浮液）培养瓶。48小时后，通过在培养基中添加50μg/ml的博来霉素开始筛选。每2-3天更换一次培养基。在接下来的3周，检测细胞的存活率，如果可以，确定d2EGFP表达水平。

核转染3周后，将5000-10000个活细胞/ml倒入半固体培养基中（Genetix）中以形成亚克隆。10天后，分离克隆并转移至含有100μl培养基的96-孔培养板中。又过一周后，可以将细胞转移至24-孔板（含有0.5ml培养基）。此时，FACS或ELISA试验确定d2EGFP、EPO或抗体的表达水平。在T25培养瓶中（含有5ml培养基）培养以使筛选的亚克隆增殖。另过2-3周后，第二次测量d2EGFP、EPO或抗体的表达水平。

通过以下元件驱动下列构建体

1单独的CMV启动子，两侧没有连接任何元件，

2CMV启动子，但两侧连接有STARs7/67/7，

3单独的RPL32启动子，两侧没有连接任何元件，

4CMV启动子，具有置于上游的RPL32启动子

作为筛选标记，使用pp8Zeo^EPP5突变（图9）。核转染2周后，作为不同构建体效果的量度，我们确定了悬浮群中的绿色荧光细胞的百分率。如图9所示，2周后，提供单独的CMV启动子仅显示了7%的绿色细胞，作为单独启动子的RPL32也如此（8%）。只有将元件添加到构建体上时，核转染2周后，绿色细胞的百分率才有显著的增加。侧面连接STAR元件时，百分率上升至15%，将RPL32启动子置于CMV启动子上游时，上升至35%（图9）。

当确定了d2EGFP，核转染3周后，我们注意到平均d2EGFP表达值与2周后绿色细胞的百分率非常接近。具有单独CMV或RPL32启动子的d2EGFP表达值较低（图9），侧面连接STAR元件的有所增加，且连接RPL32启动子的最高。这些结果显示了在悬浮生长的CHO-DG44-S细胞中，RPL32启动子也是增加基因表达细胞数量以及d2EGFP表达值的有效工具。

我们还确定了在类似的构建体中RPL32启动子的效果，但使用EPO作为报告基因，而不是d2EGFP基因。因此，我们用EPO基因替换了d2EGFP基因。在这种情况下，我们不能使用产生细胞的%作为核转染效果的量度，因此，我们直接确定了从半固体培养基中分离的6个克隆中每个构建体的EPO体积产量（μg/ml/天）。如图10所示，我们发现EPO表达和d2EGFP表达的趋势相同。单独的CMV和RPL32是很没有效果的。使用STAR元件EPO表达水平有所增加，但在CMV启动子上游具有RPL32启动子的最高。我们推断，例如EPO的分泌蛋白，置于另一启动子上游的RPL32启动子也是增强这种第二启动子活性的有效工具。

Claims

1.一种核酸构建体，该核酸构建体包括：

a）与含有至少1187个来自SEQ ID NO:1的连续核苷酸的核苷酸序列具有至少80%的序列同一性并含有SEQ ID NO:1的1782-1921位核苷酸残基的核酸片段；以及，

b）含有与编码目的基因产物的核苷酸序列可操作地连接的启动子的表达盒，

其中，片段与表达盒的连接方向使得片段中的启动子的转录与表达盒中的启动子的转录在同一方向上，

并且，其中，在实施例1的条件下进行测试，当片段与具有SEQ ID NO:2的核苷酸序列的表达盒直接在表达盒的上游侧面连接且连接方向使片段中的启动子的转录与SEQ ID NO:2中的启动子的转录在同一方向上时，与在表达盒的上游侧面连接STARs7和67和在表达盒的下游侧面连接STAR 7的相同表达盒（SEQ ID NO:3）相比，产生至少50%的克隆数。

2.根据权利要求1所述的核酸构建体，其中，所述含有至少1187个来自SEQ ID NO:1的连续核苷酸的核苷酸序列含有SEQ ID NO:1的1236-2423位核苷酸残基。

3.根据权利要求2所述的核酸构建体，其中，所述含有至少1187个来自SEQ ID NO:1的连续核苷酸的核苷酸序列含有SEQ ID NO:1的1236-3220位核苷酸残基或1-2423位核苷酸残基。

4.根据权利要求1所述的核酸构建体，其中，所述核酸片段选自由以下核酸片段所组成的组中：与含有SEQ ID NO:1的1236-2423、1782-3220、1236-3220、1-2013、1-2423或1-3220位核苷酸残基（或由SEQ ID NO:1的1236-2423、1782-3220、1236-3220、1-2013、1-2423或1-3220位核苷酸残基组成）的核苷酸序列具有至少80%的序列同一性的核酸片段。

5.根据前述权利要求中任意一项所述的核酸构建体，其中，所述核酸片段位于所述表达盒的上游和下游的至少一处（位于所述表达盒的上游、下游、或上游和下游）。

6.根据权利要求5所述的核酸构建体，其中，表达盒上游的核酸片段和表达盒下游的核酸片段不同。

7.根据前述权利要求中任意一项所述的核酸构建体，其中，所述表达盒进一步含有在真核宿主细胞中具有功能的编码可筛选标记的核苷酸序列。

8.根据权利要求7所述的核酸构建体，其中，所述可筛选标记提供对筛选剂的致死效应或生长抑制效应的抗性，所述筛选剂选自以下组成的组中：博莱霉素、嘌呤霉素、杀稻瘟素、潮霉素、新霉素、氨甲蝶呤、氨基亚砜蛋氨酸和卡那霉素。

9.根据权利要求7或8所述的核酸构建体，其中，所述编码可筛选标记的核苷酸序列至少是下列核苷酸序列其中之一：

a）在起始密码子中具有突变的核苷酸序列，该突变能够降低可筛选标记多肽在真核宿主细胞中的翻译起始效率；

b）作为多顺反子转录单元一部分的核苷酸序列，所述多顺反子转录单元含有：i）编码可筛选标记的核苷酸序列；和ii）含有在5′至3′方向上的翻译起始密码子、至少一个氨基酸密码子和翻译终止密码子的功能性开放读码框；其中所述功能性开放读码框的终止密码子位于编码可筛选标记的核苷酸序列的独立翻译起始密码子的上游的0-250个核苷酸处，其中分隔功能性开放读码框的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的序列缺乏翻译起始密码子；以及

c）含有突变的编码可筛选标记多肽的核苷酸序列，该突变编码至少一个氨基酸置换，与其相应的野生型相比，可筛选标记多肽的活性降低。

10.根据权利要求7-9中任意一项所述的核酸构建体，其中，编码可筛选标记的核苷酸序列和编码目的基因产物的核苷酸序列存在于单个多顺反子转录单元中，其中所述多顺反子转录单元与启动子和位于多顺反子转录单元下游的转录终止序列可操作地连接。

11.根据前述权利要求中任意一项所述的核酸构建体，其中，所述表达盒中的启动子是β-肌动蛋白启动子、CMV启动子、SV40启动子、泛素C启动子或EFl-α启动子。

12.一种表达载体，该表达载体含有权利要求1-4中任意一项定义的核酸片段或根据权利要求1-11中任意一项所述的核酸构建体。

13.一种宿主细胞，该宿主细胞含有根据权利要求1-11中任意一项所述的核酸构建体或根据权利要求12所述的表达载体。

14.根据权利要求13所述的宿主细胞，其中，所述宿主细胞是植物细胞或哺乳动物细胞。

15.根据权利要求13或14所述的宿主细胞，其中，所述宿主细胞是细胞系的细胞。

16.根据权利要求15所述的宿主细胞，其中，所述细胞系选自以下组成的组中：U-2OS骨肉瘤、CHO、CHO-K1、CHO-DG44、CHO-DG44-S、CHO-DP12、CHO-DUKXBI l、PER.C6、HEK293、HuNS-1骨髓瘤、WERI-Rb-1视网膜母细胞瘤、BHK、Vero、非分泌性小鼠骨髓瘤Sp2/0-Ag14、非分泌性小鼠骨髓瘤NSO和NCI-H295R肾上腺癌细胞系。

17.一种生产用于表达目的基因产物的宿主细胞的方法，其中，该方法包括以下步骤：

a）将根据权利要求1-11中任意一项所述的核酸构建体或根据权利要求12所述的表达载体引入多个宿主细胞中；

b）在筛选表达可筛选标记多肽的条件下培养从a）中获得的多个宿主细胞；和

c）筛选至少一个表达可筛选标记多肽的宿主细胞，用于表达目的基因产物。

18.一种表达目的基因产物的方法，该方法包括培养根据权利要求13-16中任意一项所述的宿主细胞或根据权利要求17所述的方法获得的宿主细胞，以及从核酸构建体中表达目的基因产物。

19.根据权利要求18所述的方法，所述方法还包括收获所述目的基因产物。

20.一种核酸片段，该核酸片段与含有至少1187个来自SEQ ID NO:1的连续核苷酸的核苷酸序列具有至少80%的序列同一性并含有SEQ ID NO:1的1782-1921位核苷酸残基，其中，在实施例1的条件下进行测试，当片段与具有SEQ ID NO:2的核苷酸序列的表达盒直接在表达盒的上游侧面连接且连接方向使片段中的启动子的转录与SEQ ID NO:2中的启动子的转录在同一方向上时，与在表达盒的上游侧面连接STARs 7和67和在表达盒的下游侧面连接STAR 7的相同表达盒（SEQ ID NO:3）相比，产生至少50%的克隆数。

21.根据权利要求20所述的核酸片段，其中，所述含有至少1187个来自SEQ ID NO:1的连续核苷酸的核苷酸序列含有SEQ ID NO:1的1236-2423位核苷酸残基。

22.根据权利要求21所述的核酸片段，其中，所述含有至少1187个来自SEQ ID NO:1的连续核苷酸的核苷酸序列含有SEQ ID NO:1的1236-3220位核苷酸残基或1-2423位核苷酸残基。

23.根据权利要求20所述的核酸片段，其中，所述核酸片段选自由以下核酸片段所组成的组中：与含有SEQ ID NO:1的1236-2423、1782-3220、1236-3220、1-2013、1-2423或1-3220位核苷酸残基（或由SEQ ID NO:1的1236-2423、1782-3220、1236-3220、1-2013、1-2423或1-3220位核苷酸残基组成）的核苷酸序列具有至少80%的序列同一性的核酸片段。

24.一种核酸构建体，该核酸构建体含有根据权利要求20-23中任意一项所述的核酸片段，其中，片段至少和一个核苷酸连接，所述核苷酸在片段来源的基因组中不直接与片段发生天然连接。