CN103038352A

CN103038352A - 用于增强基因表达的新型基因间元件

Info

Publication number: CN103038352A
Application number: CN2011800297830A
Authority: CN
Inventors: A·P·奥特; M·西普; J·A·沃赫斯; F·霍克萨马; H·J·M·范布洛克兰德
Original assignee: CellaGenics BV
Current assignee: CellaGenics BV
Priority date: 2010-06-15
Filing date: 2011-06-15
Publication date: 2013-04-10
Anticipated expiration: 2031-06-15
Also published as: CN103038352B; EP2582816B1; IL223642A; US9790517B2; US10563223B2; US20180030476A1; US20130157312A1; EP2582816A1; BR112012031694A2; WO2011159157A1; ZA201209260B

Abstract

本发明涉及含有基因组核苷酸序列的核酸片段和构建体，所述基因组核苷酸序列位于与基因间转录有关的Rb1和p15C的上游，用于在真核宿主细胞，优选哺乳动物宿主细胞中在严格可筛选标记存在的条件下生产目的基因产物。本发明进一步涉及含有所述核酸构建体的宿主细胞，生产所述宿主细胞的方法和使用所述宿主细胞生产目的基因产物的方法。

Description

用于增强基因表达的新型基因间元件

技术领域

本发明涉及分子生物学和生物技术领域。更具体而言，本发明涉及一种改进筛选具有高表达水平的宿主细胞的手段和方法。

背景技术

生物活性蛋白在各种宿主细胞中产生，从细菌和酵母菌到哺乳动物细胞。当蛋白质需要某种翻译后修饰如糖基化以发挥适当功能时，优选以哺乳动物细胞作为宿主细胞。通常，在哺乳动物细胞中产生的蛋白质由编码目的蛋白的所谓的“转基因”表达。为确保筛选出正确的产生蛋白质的细胞，将编码目的基因的转基因和编码可筛选标记的第二转基因相偶联，通常它们位于相同的载体上。当将筛选试剂添加到已经含有转基因的质粒转染的细胞培养物中时，只有那些含有可筛选标记的细胞能够存活下来。常见的问题是筛选的严格性很低。这就意味着该细胞不得不仅产生很少量的选定蛋白以保证能够在存在毒性筛选剂的条件下存活。尤其当可筛选标记是用来中和毒性筛选剂的酶时，就会发生这些问题。一个酶分子在一段时间内能够中和许多分子的筛选剂。这种组合的实例是新霉素和氨基糖苷磷酸转移酶（新霉素）可筛选标记。可筛选标记蛋白的限制性需求还限制了转基因蛋白质的表达水平。例如，可筛选标记的低表达水平可以通过仅引入几个拷贝的质粒来实现。然而，这也意味着仅有几个基因拷贝能够用于表达转基因蛋白，因而导致转基因蛋白的表达水平很低。因此，低筛选严格性通常伴随着目的蛋白的低表达水平。这显然是低筛选严格性带来的不良负面影响。

当使用博莱霉素和博莱霉素可筛选标记时，能够看到筛选严格性的改善。博莱霉素筛选蛋白质是一种以非酶方式起作用的可筛选标记蛋白。按化学计量它与两个博莱霉素筛选分子结合，但不进一步加工这些分子。因此，可用的博莱霉素筛选蛋白仅具有有限的能力来中和一定量的添加到培养基中的博莱霉素分子。因此，该细胞必须产生比（例如）新霉素可筛选标记mRNA多得多的博莱霉素可筛选标记，以便产生足够的筛选蛋白来分别中和博莱霉素或新霉素。当与目的基因偶联时，通常还产生较高水平的编码目的基因产物的mRNA。这些较高水平的mRNA意味着目的基因产物的较高表达。

在筛选稳定转染的克隆时仅能针对用于可筛选标记的表达进行筛选，而不能针对目的基因的表达进行筛选。鉴于此，优选的是目的基因的表达和可筛选标记的表达水平有直接的联系。有多种方法使得目的基因和编码可筛选标记基因的基因以物理的方式相偶联。可以将内部核糖体进入位点（InternalRibosome Entry Site，IRES）序列置于目的基因和编码可筛选标记的基因之间。这就产生了双顺反子mRNA，从双顺反子mRNA上目的基因产物和筛选蛋白均被翻译（Rees et al.,1996,Biotechniques 20:102-110）。当需要大量的筛选蛋白例如博莱霉素筛选蛋白使得细胞存活下来时，需要高水平的双顺反子mRNA。这就意味着编码目的基因产物的高水平的mRNA能够随时用于翻译，因而获得了目的基因产物相对高的表达水平。与目的基因和编码可筛选标记的基因未通过IRES序列相结合时相比，这个原理提供了较高的筛选严格性。这一筛选相对高水平表达目的基因产物细胞克隆的过程是已被接受和经常使用的方法（参见例如WO 03/106684、WO 2006/005718和WO2007/096399）。

使筛选严格性达到较高水平的其他方法是使用具有能够减弱但不会完全破坏可筛选标记活性的突变的可筛选标记。为了中和培养基中的相似量的毒性筛选分子，必须产生比野生型筛选蛋白更加突变和更加受损的筛选蛋白。当通过IRES序列与目的基因相偶联时，较高受损的筛选标记mRNA水平确保了存在更多可用于翻译的目的基因的mRNA（参见例如WO 01/32901和WO 2006/048459）。

在另一个高筛选严格性体系的实例中，可筛选标记蛋白的翻译是严重受损的。在该实例中，经修饰的可筛选标记基因位于目的基因的上游，并未被IRES序列所分隔。本质上，可筛选标记的最佳翻译起始密码子ATG被一些不利的翻译起始密码子例如GTG或TTG所替代。任何情况下，翻译机制将不会在GTG上开始翻译，更不用说在TTG上翻译了，但将会继续阅读mRNA。假如在筛选基因中不存在ATG（这些已经被移除），遇到的第一个ATG将是目的基因的ATG。在这种情况下，必须产生高水平的mRNA来获得足够的筛选蛋白，反过来这对于细胞的存活是必需的。然而，这些高水平的mRNA也能够确保同时具有高水平的偶联的目的基因的翻译。通过这种原理，获得了高筛选严格性体系，并导致：a）仅少数克隆在筛选过程中存活，和b）该克隆表现出相对高的目的基因产物的表达水平。特别地，将TTG博莱霉素筛选标记和目的基因相偶联的情况提供了极高的筛选压力。这些筛选体系被统称为STAR-筛选（WO 2006/048459和WO 2007/096399）。

本发明进一步公开了用于哺乳动物细胞的高度严格筛选的改进手段和方法，以便获得具有高表达水平的目的基因产物。

发明内容

定义

本文中的“核酸构建体”指的是使用重组DNA技术人工制造的核酸分子。核酸构建体是单链或双链的核酸分子，它已经被修饰并包括以一定方式组合和并列的核酸片段，它们在自然界中并不存在。核酸构建体通常是一个“载体”，也就是用于将创建的外源DNA送递至宿主细胞中的核酸分子。常见的载体类型来源于天然存在的质粒、噬菌体和病毒。通常载体进一步包括遗传元件例如在一种或多种宿主细胞等中有功能的可筛选标记、多克隆位点和复制起点，以促进它们在分子克隆中的应用。

术语“表达”通常用于指在细胞内特定的核酸产物（优选特定的RNA产物）或特定的蛋白或蛋白质的产生。如果是涉及RNA产物，它指的是转录过程。如果是涉及蛋白质，它指的是转录、翻译和任选的翻译后修饰过程。如果是涉及分泌蛋白，它指的是转录、翻译和任选的翻译后修饰（例如糖基化、二硫键的形成等）、随之分泌的过程。如果是涉及多聚体蛋白，它任选地包括多肽单体的多聚体结构的组装。

一种类型的核酸构建体是“表达构建体”或“表达盒”或“表达载体”。这些术语指的是能够影响宿主细胞或与该种序列相容的宿主生物体中的基因的表达的核苷酸序列。表达构建体、表达盒或表达载体通常至少包括适当的转录调控序列和任选的3’转录终止信号。也可以存在必要的或有利于实现表达的附加因子，例如表达增强子元件。

术语“单顺反子基因”被定义为能够提供编码一个基因产物的RNA分子的基因。“多顺反子转录单元”（也被称为多顺反子基因）被定义为能够提供编码至少两个基因产物的RNA分子的基因。术语“双顺反子基因（bicistronicgene）”（也被称为“双顺反子基因”）被定义为能够提供编码两个基因产物的RNA分子的基因。因此双顺反子基因包括在多顺反子基因的定义内。

本文中的术语“肽”指的是包括由肽键连接的氨基酸链的任何分子。因此术语“肽”包括寡肽、多肽和蛋白质，所述蛋白质包括多聚体蛋白，不限于特定的作用方式、大小、三维结构或来源。本文使用的“多肽”通常包括至少五个由肽键连接的氨基酸。术语“蛋白质”或“多肽”可以互换使用。因此，蛋白质的“片段”或“部分”仍然可被称为“蛋白质”。所使用的术语“分离蛋白质”指的是不再处于其天然环境中的蛋白质，例如在试管内（in vitro）或在重组（真菌或植物）宿主细胞内的蛋白质。术语“肽”也包括经翻译后修饰（例如糖基化、乙酰化、磷酸化等）的肽。

本发明使用的目的“基因产物”或“转录单元”包括染色体DNA、cDNA、人造DNA、它们的组合等。“目的基因产物”可以是任何基因产物，例如蛋白质、RNAi、shRNA等。目的蛋白的非限制性实例是酶、免疫球蛋白链、治疗性蛋白例如抗癌蛋白质或诊断蛋白质。含有几个顺反子的转录单元被转录为单个mRNA。

本文中使用的术语“可操作地连接”指的是将多核苷酸（或多肽）元件以有功能的方式连接。当核酸和其他核酸序列以有功能的方式连接时，它是“可操作地连接”。例如，如果转录调控序列能够影响编码序列的转录，它就是与编码序列可操作地连接。可操作地连接意味着被连接的DNA序列通常是连续的，且当必须连接两个蛋白编码区域时，应当连续并处于读码框内。

“表达控制序列”指的是能够调控与其可操作地连接的核苷酸序列的表达的核酸序列。当表达控制序列能够控制和调控核苷酸序列的转录和/或翻译时，所述表达控制序列与所述核苷酸之间就是“可操作地连接”的。因此，表达控制序列可以包括启动子、增强子、内部核糖体进入位点（IRES）、转录终止子、位于编码蛋白质基因之前的起始密码子、内含子的剪接信号和终止密码子。术语“表达控制序列”意指至少包括被设计用于影响表达的序列，也包括附加的有利组件。例如，前导序列和融合伴侣序列都是表达控制序列。该术语也包括经设计从而从序列中移除框内外的非必需的潜在起始密码子的核酸序列。它也包括经设计从而移除非必需的潜在剪接位点的核酸序列。它包括序列或聚腺苷酸化序列（pA），所述聚腺苷酸化序列指导附加的polyA尾部，也就是位于mRNA的3'-端的一串腺嘌呤残基（这一序列被称为polyA序列）。也可以通过设计来增强mRNA的稳定性。影响转录和翻译稳定性的表达控制序列例如启动子，以及影响翻译的序列例如Kozak序列，已知存在于真核（宿主）细胞中。

本文所使用的术语“启动子”或“转录调控序列”指的是用来控制一种或多种编码序列的转录的核酸片段，相对于编码序列的转录起始位点的转录方向而言它位于上游，其结构特征是存在依赖DNA的RNA聚合酶的结合位点、转录起始位点和任何其他DNA序列，所述其他DNA序列包括但并不限于转录因子结合位点、阻抑蛋白和激活蛋白结合位点、以及本领域技术人员所熟知的直接或间接地调控由启动子开始的转录量的任何其他核苷酸序列。“组成型”启动子是在大多数生理和发育条件下在大多数组织中具有活性的启动子。“可诱导型”启动子是受生理或发育例如应用化学诱导剂调控的启动子。“组织特异性”启动子仅在特定类型的组织或细胞中具有活性。

本文中使用的“内部核糖体进入位点”或“IRES”指的是这样的元件：它促使内部核糖体直接进入顺反子（蛋白质编码区域）的翻译起始密码子（也称作起始密码子），从而引起不依赖于帽结构（cap-independent）的基因翻译。参见，例如Jackson R J,Howe 11 M T,Kaminski A(1990)Trends Biochem Sci15(12):477-83)和Jackson R J and Kaminski,A.(1995)RNA 1(10):985-1000。本发明包括使用任何不依赖于帽结构的翻译起始序列，尤其是任何能够促使内核糖体直接进入顺反子起始密码子的IRES元件。本文所使用的“在IRES翻译控制下”指的是翻译和IRES相联系并以不依赖于帽结构的方式进行。本文中使用的术语“IRES”包括IRES序列的功能性变体，只要该变体能够促使内核糖体直接进入顺反子的起始密码子即可。

本文中使用的“顺反子”指的是多核苷酸序列（DNA）区段，包括产生单多肽链的所有信息。

本文中“序列同一性”被定义为两个或多个氨基酸（多肽或蛋白质）序列或两个或多个核酸（多核苷酸）序列之间的关系，这种关系是通过比较序列来确定的。本领域中，“同一性”也指的是氨基酸或核酸序列之间的序列相关性的程度，这种情况下可以通过匹配成串的序列来确定同一性。通过将氨基酸序列和一个多肽的保守氨基酸置换与另一多肽序列比较来确定两个氨基酸序列之间的“相似性”。“同一性”和“相似性”很容易通过已知的方法计算出来。术语“序列同一性”或“序列相似性”指的是：在最佳比对条件下，优选在序列全长（比较时至少是最短序列）上，使匹配的数量最大化，使间隙的数量最小化时，例如在默认参数下使用ClustalW (1.83)、GAP或BESTFIT软件进行比对时，两个（多）肽或两个核苷酸序列之间具有至少一定百分比的序列同一性（如本文所定义）。GAP使用了Needleman和Wunsch全局比对算法来比对整条链上的两个序列，使匹配的数量最大化，使间隙的数量最小化。通常，使用GAP默认参数，空格创造罚分（gap creation penalty）=50（核苷酸）/8（蛋白质），空格延伸罚分=3（核苷酸）/2（蛋白质）。对于核苷酸使用的默认记分矩阵是nwsgapdna，对于蛋白质使用的默认记分矩阵是Blosum62(Henikoff & Henikoff，1992,PNAS 89,915-919)。优选用于比对本发明的蛋白质序列的多重比对软件是ClustalW (1.83)，该软件使用的是blosum矩阵和默认设置（空格开放罚分：10，空格延伸罚分：0.05）。序列同一性百分比的序列比对和记分可以通过使用计算机程序来确定，例如GCGWisconsin Package，10.3版本，可从Accelrys有限公司，9685斯克兰顿大道，圣地亚哥，CA 92121-3752美国获得，或使用开放源代码软件来确定，例如“needle”软件（使用全局Needleman Wunsch算法）或EmbossWIN 2.10.0版本的“water”软件（使用局部Smith Waterman算法），使用和上述GAP相同的参数，或使用默认设置（对于“needle”和“water”以及用于蛋白质和DNA比对的默认空格开放罚分是10.0，默认空格延伸罚分是0.5；用于蛋白质的默认记分矩阵是Blossum62，用于DNA的默认记分矩阵是DNAFull）。当序列的总长度相差很多时，优选使用局部对比例如使用Smith Waterman算法。可以使用例如FASTA、BLAST等算法通过检索公共数据库，来确定相似性或同一性的百分比。

本发明的核苷酸序列也可以由它们和本文公开的或部分公开的特定核苷酸序列杂交（在温和、优选在严格杂交条件下）的能力来确定。本文所述的严格杂交条件被定义为允许核酸序列的至少约25，优选约50、75或100个核苷酸，最优选约200个以上的核苷酸在约65℃的溶液中发生杂交，所述溶液含有大约1M盐，优选6×SSC或任何其他含有类似离子强度的溶液，并在约65℃的溶液中进行洗涤，洗涤溶液含有约0.1M以下的盐，优选0.2×SSC或任何其他含有类似离子强度的溶液。优选杂交过夜，也就是至少进行10小时，优选至少洗涤一小时，其间洗涤溶液至少更换两次。这些条件通常使得具有约90％以上的序列同一性的序列发生特异性杂交。

本文中的温和杂交条件被定义为允许核酸序列的至少约50个核苷酸，优选约200个以上的核苷酸在约45℃的溶液中发生杂交，所述溶液含有约1M盐，优选6×SSC或任何其他含有类似离子强度的溶液，在室温的溶液中进行洗涤，洗涤溶液含有约1M盐，优选6×SSC或任何其他含有类似离子强度的溶液。优选杂交过夜，也就是至少进行10小时，优选至少洗涤一小时，其间洗涤溶液至少更换两次。这些条件通常使得具有约50％序列同一性的序列发生特异性杂交。本领域技术人员能够改变所述杂交条件以特异性识别同一性在50％至90％之间变化的序列。

编码目的基因产物的核苷酸序列对于宿主细胞中的密码子使用的适应性由密码子适应指数（CAI）表达。本文中的密码子适应指数被定义为在特定宿主细胞或有机体内的基因的密码子使用相对于高表达基因的密码子使用的相对适应性的量度。各个密码子的相对适应性（w）是各个密码子的使用和对于相同氨基酸的最常用的密码子的使用之间的比值。CAI指数被定义为相对适应性值的几何平均值。非同义密码子和终止密码子（依赖于遗传编码）不计算在内。CAI值的范围从0至1，具有较高的CAI值说明具有较高比例的最常用的密码子（参见Sharp and Li,1987,Nucleic Acids Research 15:1281-1295;还可参见Jansen et al.,2003,Nucleic Acids Res.31(8):2242-51）。

根据本发明优选的核酸是核酸构建体，其中编码抗原结合蛋白的核苷酸序列可以与启动子以及任选地其他调控元件（例如终止子、增强子、聚腺苷酸化信号、分泌信号序列等）可操作地连接。这样的核酸构建体对于使用重组技术生产本发明的抗原结合蛋白尤其有用，其中，编码目的抗原结合蛋白的核苷酸序列在合适的宿主细胞中表达，如Ausubel et al."Current Protocolsin Molecular Biology",Greene Publishing and Wiley-Interscience,New York(1987)和Sambrook and Russell(2001)"Molecular Cloning:A LaboratoryManual(3rd edition),Cold Spring Harbor Laboratory,Cold Spring HarborLaboratory Press,New York中所述。本文中使用的术语“可操作地连接”指的是将多核苷酸元件以有功能的方式连接。当核酸和其他核酸序列以有功能的方式连接时，它是“可操作地连接”。例如，如果启动子或增强子能够影响编码序列的转录，它就是与编码序列可操作地连接。可操作地连接意味着被连接的DNA序列通常是连续的，且当必须连接两个蛋白编码区域时，应当连续并处于读码框内。

本发明的发明人发现，当将特定的核苷酸序列置于表达载体（包括可操作地连接启动子、在真核宿主细胞中起作用的编码可筛选标记的核苷酸序列以及编码目的基因产物的可选的开放读码框）时，能够增加在筛选条件下优选严格筛选条件下形成的克隆的数量（与在严格筛选条件下没有该特定序列的相同表达载体相比），所述特定的核苷酸序列存在于视网膜母细胞瘤1（Rb1）编码序列（例如SEQ ID NO’s:1-4和如本文中进一步定义的部分）上游（也就是5’至）的几千碱基处和周期素依赖性蛋白激酶4抑制剂B编码序列（也称为p15、CDKN2B、INK4B、MTS2、TP15）（例如SEQ ID NO:8和如以下进一步定义的部分）上游（也就是5’至）的几千碱基处。未发现本发明的核酸序列具有任何启动子活性，也未发现其具有增强子活性，它们也不会反式影响内源性Rb1和p15启动子的转录。本发明的核酸序列也不具有STAR活性。但是，发现本发明的核酸序列是基因间转录的来源。已经在例如β-球蛋白基因座控制基因座（LCR）中发现基因间转录的现象（Ashe et al(1997)Genes Dev.11:2494-2509）。例如，在裂殖酵母中，发现fbp+基因座上游的非编码RNA的转录对于fbp+的表达是必需的（Hirota et al.(2008)Nature456:130-134）。本文中，通过fbp+基因的转录产生了逐渐更加开放的染色质构型。基因间的转录通常和启动子的活性有关系，然而，还不清楚它是起因还是结果(Preker et al.(2008)Science 322:1851-1854)。不希望拘囿于理论，认为基因间转录物（低水平且经常不很稳定的基因间转录物）参与打开基因座或使得该基因座的染色质保持打开状态以进行转录。尽管不知道基因间转录是打开染色质结构的原因还是已经打开的并转录的基因座产生的结果，但是认为这种现象是重要的发生转录的开放染色质区域的表观遗传特征。

根据本发明的核酸构建体可用来筛选真核细胞，优选植物细胞或哺乳动物细胞，通过对可筛选标记的表达进行筛选，可以得到目的基因产物具有高表达水平的真核细胞。随后或同时，可以识别一种或多种筛选出的细胞，并进一步用来表达高水平的目的基因产物。

本发明基于可筛选标记的受损表达效率（impaired efficiency ofexpression）。可使用本领域技术人员已知的常规方法来检测可筛选标记的表达，例如通过测定在正常的筛选期后存活的克隆的数量来检测可筛选标记的表达。本领域技术人员公知的是，有许多参数可以表示可筛选标记多肽的表达水平，例如细胞耐筛选剂的最大浓度、给定浓度下存活的克隆的数量、筛选剂存在时细胞的生长速度（倍增时间）、上述参数的组合以及等。通过使用本发明，可以识别具有高水平表达的可筛选标记的细胞。

第一方面，本发明涉及一种核酸片段，该核酸片段包括或由以下连续核苷酸组成：a）位于脊椎动物Rb1基因的翻译起始位点上游的基因组区域的1000至15000个连续核苷酸；或b）位于脊椎动物p15基因的翻译起始位点上游10.5至7千碱基位置的基因组区域的至少1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2250、2500、2750、3000或3500个连续核苷酸；其中，在实施例1的条件下进行测试，所述片段当与具有SEQ ID NO:9的核苷酸序列的表达盒直接在表达盒的上游位置和下游位置侧面连接时，与在表达盒的上游侧面连接STAR 7和STAR 67且在表达盒的下游侧面连接STAR 7的相同表达盒（SEQ ID NO:10）相比，至少产生50、75、90、100、101、110、125或150%的克隆数。优选地，所述片段的全长与SEQ ID NO:1-4或8中的至少一个的至少1000、1500、2000、3000、4000、5000、6000个或全部的连续核苷酸具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的核苷酸序列同一性。在优选的实施方式中，所述核酸片段的全长与SEQ ID NO:1-4或8的至少1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2250、2500、2750、3000或3500个连续核苷酸具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的核苷酸序列同一性。

优选地，所述核酸片段是分离的核酸片段，这应当理解为是从自然环境中分离或纯化的片段。优选地，所述核酸片段来自哺乳动物的基因组，更优选来自灵长类动物或啮齿类动物的基因组，最优选地，所述核酸片段来自人、小鼠、大鼠、仓鼠、牛、鸡、犬、豚鼠、猪或兔的基因组。优选的核酸片段来自SEQ ID NO:1或8(人)、SEQ ID NO:2(小鼠)、SEQ ID NO:3(牛)或SEQ ID NO:4(豚鼠)。

在另一个优选的实施方式中，所述核酸片段选自以下片段组成的组中：全长与包括或由SEQ ID NO:5的1-1019、1-1482、1-2018、1-3498、479-2018或479-1482的核苷酸残基、SEQ ID NO:6的1-2448、1-3424或2425-3424的核苷酸残基、SEQ ID NO:7的1-3064、1-2500或1-2000的核苷酸残基和SEQ ID NO:8的1-1500、822-3352或1-3352的核苷酸残基组成的片段具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的核苷酸序列同一性的片段。更优选地，所述核酸片段选自以下片段组成的组中：全长与包括或由SEQ ID NO:5的1-3498、1-2018或1-1482的核苷酸残基、SEQID NO:6的1-3424或2425-3424的核苷酸残基、SEQ ID NO:8的1-2500或1-3064的核苷酸残基和SEQ ID NO:8的822-3352或1-3352的核苷酸残基组成的片段具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的核苷酸序列同一性的片段。再更优选地，所述核酸片段选自以下片段组成的组中：全长与包括或由SEQ ID NO:5的1-2000的核苷酸残基、SEQID NO:6的2500-3424的核苷酸残基、SEQ ID NO:7的1-3064的核苷酸残基和SEQ ID NO:8的850-3352的核苷酸残基组成的片段具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的核苷酸序列同一性的片段。最优选地，所述核酸片段选自以下片段组成的组中：全长与包括或由SEQ ID NO:7的核苷酸残基或SEQ ID NO:8的850-3352残基组成的片段具有至少80、85、87、90、91、92、93、94、95、96、97、98或99%的核苷酸序列同一性的片段。应当理解的是，上述定义的参照标准是所指SEQ IDNO的连续核苷酸残基。

本发明的第二方面涉及含有以上定义的核酸片段的核酸构建体，其中，所述片段至少和一个核苷酸连接，所述核苷酸在所述片段来源的基因组中不直接与所述片段发生天然连接。优选地，所述核酸构建体包括一个以上的与所述片段连接的非天然状态的核苷酸，例如包括一个或多个限制性位点或与PCR引物互补的接头序列（adapter sequences）的一段核苷酸。

更优选地，所述核酸构建体包括以上定义的核酸片段，其中，所述片段和表达盒相连接。优选地，所述表达盒至少含有与编码目的基因产物的核苷酸序列可操作地连接的启动子。该启动子可以是如下定义的启动子。所述表达盒可以进一步含有在真核宿主细胞中具有功能的编码可筛选标记的核苷酸序列，如下所述。

根据本发明的核酸片段以“顺式（in cis）”的方式发挥作用。因此，优选地，在核酸构建体中，本发明的核酸片段与所述表达盒或更优选地与所述表达盒的最上游启动子之间的距离在5kb以内，更优选2kb以内，更优选1kb以内，最优选500bp以内。如果本发明的核酸片段位于构建体中表达盒的下游，本发明的核酸片段与所述表达盒或更优选地与所述表达盒的最下游的转录终止序列和/或聚腺苷酸化位点之间的距离在5kb以内，更优选2kb以内，更优选1kb以内，最优选500bp以内。因此，核酸构建体可以含有位于表达盒下游或上游的本发明的核酸片段。如果在核酸构建体序列中，本发明的核酸片段位于表达盒的下游，优选核酸片段是如上定义的Rb1上游的核酸片段，这是因为在严格条件下与以上定义的基于SEQ ID NO:8，也就是P15上游序列的序列相比，该位置的该片段能够产生更多的克隆。

然而，在优选的实施方式中，本发明的核酸构建体含有位于表达盒上游和下游的核酸片段。在核酸构建体中，位于表达盒上游和下游的本发明的核酸片段可以独立选自如上定义的核酸片段。因此，在核酸构建体中，表达盒上游的核酸片段和表达盒下游的核酸片段可以不同。或者，在核酸构建体中，表达盒上游和下游的核酸片段可以（基本上）相同。优选地，核酸构建体的构型是线性形式并从5’至3’端依次包括下列序列元件：本发明的第一核酸片段、表达盒和本发明的第二核酸片段，其中所述表达盒包括转录单元，所述转录单元包括与编码目的基因产物的核苷酸序列可操作地连接的启动子和任选的可筛选标记。两侧分别连接有本发明的两个核酸片段的表达盒的优势是：与仅具有一个本发明核酸片段的核酸构建体相比，当在严格条件下培养细胞时，能够获得较多数量的克隆，因此可筛选标记的表达和目的基因产物的表达也较高。

本文使用的“表达盒”是一种核苷酸序列，该核苷酸序列至少包括与编码目的基因产物的核苷酸序列功能性连接的表达所需的启动子。优选地，所述表达盒进一步包括转录终止和聚腺苷酸化序列。表达盒中还可以包括其他调控序列例如增强子。除了编码目的基因产物的核苷酸序列以外，优选地，所述表达盒还包括用于筛选含有表达盒的宿主细胞的编码可筛选标记的核苷酸序列。在优选的实施方式中，编码目的基因产物的核苷酸序列和编码可筛选标记的核苷酸序列在表达盒中具有部分相同的（多顺反子）转录单元。因此，本发明提供了一种表达盒，优选地，所述表达盒在5′至3′方向上包括，并可操作地连接：a)5′-启动子-编码可筛选标记的核苷酸序列-编码目的基因产物的开放读码框-任选的转录终止和/或聚腺苷酸化序列-3′，或b)5′-启动子-编码目的基因产物的开放读码框-编码可筛选标记的核苷酸序列-任选的转录终止和/或聚腺苷酸化序列-3′。启动子和其他调控序列必须能够在目的真核宿主细胞中发挥作用，也就是它们必须能够驱动目的基因产物和可筛选标记的转录。因此，启动子和转录单元可操作地连接，该转录单元包括可筛选标记和编码目的基因产物的开放读码框。表达盒可以进一步任选地包括本领域已知的其他因子，例如含有内含子的剪接位点等。在一些实施方式中，内含子位于启动子之后，编码开放读码框的序列之前。

在另外的实施方式中，IRES位于转录单元中，该转录单元包括可筛选标记密码子序列和编码目的基因产物的序列，IRES可以位于可筛选标记的开放读码框和目的基因产物之间。在病毒和哺乳动物基因中内部核糖体结合位点（IRES）因子是已知的(Martinez-Salas,1999,Curr Opin Biotechnol 10:458-464)，已通过筛选小的合成寡核苷酸而被识别(Venkatesan & Dasgupta,2001 Mol Cell Biol 21:2826-2837)。来自脑心肌炎病毒的IRES已经被详细地分析(Mizuguchi et al.,2000,Mol Ther 1:376-382)。IRES是在DNA中编码的因子，在转录RNA中它产生了真核核糖体能够结合和起始翻译的结构。IRES促使从单个RNA分子上产生两种或多种蛋白质（在它的5′端的帽结构上与RNA结合的核糖体翻译了第一个蛋白质，(Martinez-Salas,1999，见上文)。因此，本发明提供了这样一种表达盒，优选地，该表达盒在5′至3′方向上包括：5′-启动子-编码目的基因产物的开放读码框-IRES-可筛选标记-任选的转录终止和/或聚腺苷酸化序列-3′或5′-启动子-可筛选标记-IRES-编码目的基因产物的开放读码框-任选的转录终止和/或聚腺苷酸化序列-3′。优选地，本发明核酸构建体所含有的应用于表达盒的启动子在真核宿主细胞中起作用；更优选地，所述启动子在植物或动物宿主细胞中起作用；更优选地，所述启动子在脊椎动物宿主细胞中起作用，最优选地，所述启动子在哺乳动物宿主细胞中起作用，均用于转录单元的起始转录。启动子可以是组成型的或是受控的，也可以从各种来源中获得，包括病毒、原核或真核来源，或是人工设计的。目的核酸的表达可以来自天然的启动子或它的衍生物或完全来自异源启动子(Kaufman,2000,Mol.Biotechnol 16:151-160)。根据本发明，在选定的真核细胞中提供高转录水平的强启动子是优选的。熟知的经常用于真核细胞表达的强启动子包括来自病毒例如腺病毒的启动子，例如EIA启动子；来自巨细胞病毒（CMV）的启动子例如CMV立即早期（IE）启动子（本文称为CMV启动子）（例如从pcDNA，Invitrogen获得）；来自猿猴病毒40（SV40）（Das et al,1985,Prog Nucleic Acid Res Mol Biol.32:217-36）的启动子等。适当的强启动子也可以来自真核细胞，例如金属硫蛋白（MT）启动子、延长因子（EF-lα）启动子、泛素C或UB6启动子(Gill et al.,2001,Gene Therapy8:1539-1546;Schorpp et al,1996,Nucleic Acids Res 24:1787-8)、肌动蛋白启动子例如β-肌动蛋白启动子，例如仓鼠或人β-肌动蛋白启动子（SEQ IDNO:11）、免疫球蛋白启动子、热激启动子等。测试启动子的功能和启动子的强度是本领域技术人员的常规工作，通常包括例如在启动子序列的之后克隆报告基因例如半乳糖苷酶（lacZ）、荧光素酶、GFP等，并测试报告基因的表达。当然，可以通过序列的删除、增加和突变来改变启动子，并测试它的功能性来找到新的、减弱的或增强的启动子序列。本发明使用的启动子优选为人β-肌动蛋白启动子、CMV启动子、SV40启动子、泛素C启动子或EFl-α启动子。

本文中的开放读码框应被理解为核苷酸序列，它从5′至3′方向上包括：1）翻译起始密码子，2）用于编码目的基因产物（优选为蛋白质）的一个或多个密码子，和3)翻译终止密码子，应当理解的是1）、2）和3）在框中是可操作地连接的。因此，开放读码框由3重核苷酸（三联体）组成。

根据本发明的目的基因产物可以是任何基因产物，例如蛋白质。目的基因产物可以是单体蛋白质或（部分）多聚体蛋白。多聚体蛋白至少包括两个多肽链。本发明的目的蛋白的非限制性实例是本领域技术人员已知的酶、激素、免疫球蛋白或它们的链或片段、治疗性蛋白质例如抗癌蛋白质、凝血蛋白质例如因子VIII、多功能蛋白质例如红细胞生成素、诊断蛋白质、或用于疫苗接种目的的它们的蛋白质或片段。

目的基因产物可以来自任何来源，在某些实施方式中来自哺乳动物蛋白质、人造蛋白质（例如融合蛋白质或突变蛋白质），优选来自人蛋白质。

在优选的实施方式中，利用宿主细胞的密码子适应指数针对表达目的肽的宿主细胞，对编码基因产物的核苷酸序列进行了密码子优化。编码酶的核苷酸序列相对于宿主细胞中密码子使用的适应性可以用密码子适应指数（CAI）来表达。本文中的密码子适应指数被定义为在特定宿主细胞或有机体内的基因的密码子使用相对于高表达基因的密码子使用的相对适应性的量度。各个密码子的相对适应性（w）是各个密码子的使用和对于相同氨基酸的最常用的密码子的使用之间的比值。CAI指数被定义为相对适应性值的几何平均值。非同义密码子和终止密码子（依赖于遗传编码）不计算在内。CAI值的范围从0至1，具有较高的CAI值说明具有较高比例的最常用的密码子（参见Sharp and Li,1987,Nucleic Acids Research 15:1281-1295;还可参见Kim et al.,Gene.1997,199:293-301;zur Megede et al.,Journal of Virology,2000,74:2628-2635）。优选地，编码目的基因产物的核苷酸序列的CAI至少是0.5、0.6、0.7、0.8、0.9或0.95。

在一种实施方式中，当最终目标不是生产目的多肽，而是RNA分子例如用表达盒生产更大量的RNA时，可以使用本发明的核酸构建体，所述RNA可以用于调控其他基因（例如RNAi，反义RNA）、基因治疗、在体外生产蛋白质等。

为了生产多聚体蛋白，可以使用两个或多个本发明的核酸构建体。例如两个表达盒可以均是多顺反子核酸构建体，各自用于编码不同的可筛选标记蛋白，从而有可能筛选两个表达盒。例如该实施方式对于表达轻链或重链免疫球蛋白例如抗体是有利的。显而易见的是，在两个核酸构建体被引入宿主细胞之前，它们可以位于一个核酸分子中或位于分离的核酸分子中。当两个核酸构建体被引入宿主细胞时，将它们置于一个核酸分子上的优势是两个核酸构建体以单一的预定比率（例如1:1）存在。另一方面，当两个核酸构建体被置于两个不同的核酸分子上，它们被引入宿主细胞时就有可能改变它们的摩尔比，如果优选的摩尔比不是1:1或预先不知道优选的摩尔比是多少时，这是有利的，从而本领域的技术人员能够容易的找到它们的变化并凭经验找到最佳摩尔比。根据本发明，优选至少一个核酸构建体，更优选每个核酸构建体至少包括一个优选包括两个本发明的核酸片段。

在另一种实施方式中，单一表达构建体中含有不同的亚基或部分多聚体蛋白。WO 2006/048459（例如第40页）已经描述了和表达构建体相结合的有用的抗抑制因子的构型，通过引用的方式将其纳入本文。

在优选的实施方式中，目的基因产物是凝血因子例如因子VIII或因子VII、干扰素和白介素，例如人干扰素-γ或治疗性的抗癌单克隆抗体例如赫赛汀（抗EGF受体）或阿瓦斯丁（抗血管内皮生长因子（VEGF））或EPO。

本发明的核酸构建体可以以双链DNA的形式存在，对于可筛选标记和编码目的基因产物的开放读码框具有编码链和非编码链，编码链与被翻译的RNA具有相同的序列，除了存在的T代替了U。因此，AUG起始密码子在编码链中被ATG序列编码，含有与RNA中的AUG起始密码子相应的ATG序列的链被称为DNA的编码链。对本领域技术人员而言显而易见的是，起始密码子或翻译起始序列事实上存在于RNA分子中，但也可以认为它们同样存在于编码该RNA分子的DNA分子中；因此，无论本发明指的是起始密码子还是翻译起始序列，均包括相应的DNA分子，该DNA分子具有和RNA序列相同的序列但在所述DNA分子的编码链中T替代了U，反之亦然，除非明确指明。换句话说，例如起始密码子是RNA中的AUG序列，而在DNA的编码链中相应的ATG序列也指的是本发明的起始密码子。同样可以借鉴到‵框内′编码序列，指的是RNA分子中的三联体（3个碱基）被翻译为氨基酸，但也认为是DNA分子的编码链中的相应的三核苷酸序列。

优选地，本发明的核酸构建体所包括的在表达盒中应用的可筛选标记在真核宿主细胞中起作用，更优选地该标记在植物或动物宿主细胞中起作用，更优选地在脊椎动物宿主细胞中起作用，最优选地在哺乳动物宿主细胞中起作用。

术语“可筛选标记”是本领域普通技术人员熟悉的术语，在本文中用于描述在表达时可用来筛选含有（和/或表达）可筛选标记的细胞的任何基因实体。可筛选标记可以是显性的或隐性的或双向的。可筛选标记可以是编码产物的基因，它使得细胞表达耐筛选剂例如抗生素或除草剂的基因。可筛选标记可以编码例如筛选蛋白质，该蛋白质能够中和毒性筛选剂或使毒性筛选剂失活，并保护宿主细胞免受制剂致死效应或生长抑制的影响。在特定条件下其他可筛选标记能够补足细胞的生长抑制性缺陷。这种基因的实例包括使原养型转变为营养缺陷型菌株的基因。使用的术语“报告物”主要指的是可见标记，例如绿色荧光蛋白（GFP）、eGFP、荧光素酶、GUS等，以及nptII标记等。这种报告物被用来筛选表达可见标记的细胞（通过主动将表达标记的细胞和不表达标记的细胞分类），例如使用荧光激活细胞分选仪（FACS）筛选表达荧光标记蛋白的细胞。优选地，本发明的可筛选标记能够提供对筛选剂的致死和/或生长抑制影响的抗性。

本发明使用的编码可筛选标记的核苷酸序列编码被用于筛选真核宿主细胞的蛋白质，例如相比于没有蛋白质表达的宿主细胞，由于宿主细胞中蛋白质的表达，为表达可筛选标记蛋白质的宿主细胞提供了生长优势。基于宿主细胞中被编码的可筛选标记蛋白质的表达，优选编码可筛选标记的核苷酸序列能够提供对筛选剂（例如抗生素）的抗性，而筛选剂能够引起不表达可筛选标记蛋白的宿主细胞的致死效应和/或生长抑制。因此，本发明的可筛选标记必须在真核宿主细胞中起作用，因而能够在真核宿主细胞中被筛选出来。满足这一标准的任何可筛选标记多肽基本上都可以在本发明中使用。当用于在真核宿主细胞中获得克隆时，这种可筛选标记在本领域中是已知的并是常规使用的，本文还提供一些实例。

为了方便并通常被技术人员接受，在许多出版物以及本文中，通常编码可筛选标记的基因和引起耐筛选剂的可筛选标记分别被称为“（耐）筛选剂基因”或“（耐）筛选剂蛋白”，尽管官方名称不同，例如编码耐新霉素（以及G418和卡那霉素）的蛋白质的基因通常被称为（耐）新霉素（或neo′）基因，然而官方名称是氨基糖苷3′-磷酸转移酶基因。

在本发明的优选实施方式中，可筛选标记能够提供对筛选剂的致死效应或生长抑制效应的抗性，所述筛选剂选自以下组成的组中：博莱霉素抗生素家族、嘌呤霉素、杀稻瘟素、潮霉素（hygromycin）、氨基糖苷抗生素、氨甲蝶呤和氨基亚砜蛋氨酸（methionine sulphoximine）。

编码提供耐博莱霉素抗生素家族的可筛选标记的核苷酸序列是例如编码野生型“ble”基因的核苷酸序列，包括但不限于Sh ble、Tn5 ble和Sa ble或它们的变体。SEQ ID NO:14记载了其实例。通常被ble基因编码的基因产物使得它们的宿主可以耐博莱霉素家族的铜螯合的糖肽类抗生素，它是切割DNA的糖肽类。本发明中作为筛选剂使用的博莱霉素家族抗生素的实例包括但不限于：博莱霉素、腐草霉素、他利霉素、培洛霉素和ZeocinTM。博莱霉素（Zeocin）作为筛选剂是特别有优势的，因为耐博莱霉素蛋白（博莱霉素-R）通过与药物相结合起作用从而使其变得无害。因此很容易通过滴定确定杀死具有低水平博莱霉素-R表达的细胞而使高表达子存活的药物的用量。大多数（即使不是全部）常用的其他耐抗生素可筛选标记都是酶，因此它们都是以催化的方式起作用（也就是说酶和筛选剂的化学计量不是特定的，例如为1:1）。因此，抗生素博莱霉素是优选的可筛选标记。

编码提供耐氨基糖苷类抗生素的可筛选标记的核苷酸序列是例如编码野生型氨基糖苷类3′-磷酸转移酶的核苷酸序列或其变体。本发明的氨基糖苷类是通常已知的氨基糖苷类抗生素（Mingeot-Leclercq,M.et al.,1999,Chemother.43:727-737），它至少包括一个通过糖苷键和其他半数分子相结合的氨基-吡喃糖或氨基-呋喃糖部分。它们的抗生素的影响基于抑制蛋白质的合成。本发明作为筛选剂使用的氨基糖苷类抗生素的实例包括但不限于卡那霉素、链霉素、庆大霉素、妥布霉素、G418（遗传霉素）、新霉素B（弗氏菌丝素）、紫苏霉素、丁胺卡那霉素、异帕米星等。

本发明中可以使用的可筛选标记的其他实施例是DHFR、胱硫醚γ-裂解酶和谷氨酸合成酶（GS）基因。使用这些类型的代谢酶作为可筛选标记多肽的潜在优势是能够将它们用于使宿主细胞保持连续的筛选，这在特定环境下是有利的。

通过氨甲蝶呤，尤其是通过增加氨甲蝶呤细胞的浓度来筛选DHFR基因，可以筛选DHFR基因以增加DHFR基因的拷贝数。DHFR基因也可以被用来弥补DHFR缺陷，例如具有DHFR-表型的CHO细胞中，含有叶酸而缺乏甘氨酸、次黄嘌呤和胸腺嘧啶核苷的培养基中。如果可筛选标记是DHFR，在有利的实施方式中，用含有叶酸的培养基培养宿主细胞，该培养基基本上缺乏次黄嘌呤和胸腺嘧啶核苷，优选还缺乏甘氨酸。通常，本文中的术语“培养基基本上缺乏”指的是在培养基中维持细胞生长的指定组分的不足，从而，当指定酶的遗传信息在细胞中被表达，且指定前体组分在培养基中存在时，进行好的筛选是可能的。优选培养基中不含指定组分。缺乏指定组分的培养基可以根据标准方法由本领域技术人员制备，或从培养基供应商处获得。

通过不含谷氨酰胺的培养基培养的缺乏GS（例如NS-O细胞）的细胞中，或通过添加GS抑制剂、氨基亚砜蛋氨酸（MSX）而缺乏GS（例如CHO细胞）的细胞中，筛选谷氨酰胺合成酶（GS）基因例如野生型人或小鼠谷氨酰胺合成酶基因是可能的。

胱硫醚γ-裂解酶（EC 4.4.1.1）是合成氨基酸L-半胱氨酸重要的酶。CHO细胞是用于将胱硫醚转化为半胱氨酸的天然的营养缺陷体。因此，可以利用例如来自小鼠或人的胱硫醚γ-裂解酶（cys-裂解酶）基因通过在不含L-半胱氨酸和L-胱氨酸的培养基中培养细胞借助互补作用来筛选细胞。基于cys-裂解酶标记的筛选可能需要培养基中存在无毒性前体L-胱硫醚。在一些脊椎动物细胞系中作为可筛选标记使用的cys-裂解酶可能首先需要内源性胱硫醚γ-裂解酶基因的失活（敲除）。

可以在本发明的内容中使用的其他可筛选标记和它们的筛选剂如US5,561,053的表1中所描述，通过引用将其并入本文；Kaufman,Methods inEnzymology,185:537-566(1990)也总结了这些可筛选标记和它们的筛选剂。

在优选的实施方式中，本发明的核酸构建体中的表达盒包括是严格可筛选标记的可筛选标记。本文的严格可筛选标记应被理解为是需要在表达标记的待筛选的宿主细胞（即希望从筛选中存活的宿主细胞）中被高水平地转录（和/或表达）的可筛选标记。在本发明中，优选地，可筛选标记的严格性至少能够被下列因素之一增强：a）降低可筛选标记的翻译（起始）效率，和b）降低可筛选标记多肽的活性和/或效率。因此，本发明的核酸构建体中的表达盒优选含有编码可筛选标记的核苷酸序列，该核苷酸序列至少是下列核苷酸序列其中之一：

a)在起始密码子中具有突变的核苷酸序列，该突变能够降低可筛选标记多肽在真核宿主细胞中的翻译起始效率；

b)作为多顺反子转录单元一部分的核苷酸序列，所述多顺反子转录单元含有：i）编码可筛选标记的核苷酸序列；和ii）含有在5′至3′方向上的翻译起始密码子、至少一个氨基酸密码子和翻译终止密码子的功能性开放读码框；其中所述功能性开放读码框的终止密码子位于编码可筛选标记的核苷酸序列的独立翻译起始密码子的上游的0-250个核苷酸处，其中分隔功能性开放读码框的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的序列缺乏翻译起始密码子；以及

c)含有突变的编码可筛选标记多肽的核苷酸序列，该突变编码至少一个氨基酸置换（amino acid change），与其相应的野生型相比，可筛选标记多肽的活性降低。

在（翻译）起始密码子（次优的非AUG起始密码子）中具有突变的编码可筛选标记的核苷酸序列降低了真核宿主细胞中的可筛选标记多肽的翻译起始效率，这是本领域已知的（参见例如WO 2007/096399）。本文中的非ATG（非AUG）起始密码子应当理解是在起始密码子中具有突变的翻译起始密码子，这降低了真核宿主细胞中可筛选标记多肽的翻译起始效率。本发明可用于编码可筛选标记序列的非ATG起始密码子的实例包括例如GTG、TTG、CTG、ATT和ACG。在优选的实施方式中，ATG起始密码子突变为GTG起始密码子。更优选地，ATG起始密码子突变为TTG起始密码子，它提供了比GTG起始密码子更低表达水平的可筛选标记多肽。当使用非ATG起始密码子时，优选非ATG起始密码子存在于最有利于翻译起始密码子的环境中，例如下文定义的Kozak共有序列。当将非ATG起始密码子应用到可筛选标记时，编码可筛选标记的核苷酸序列可以发生突变而缺乏内在ATG密码子，尤其缺乏非ATG起始密码子框内的内在ATG密码子。优选在构建体中可筛选标记位于编码目的基因产物的核苷酸序列的上游，并且在编码目的基因产物的序列和标记之间没有使用IRES。WO2006/048459公开了如何实现（例如通过置换、插入或缺失，优选置换）和如何测试获得的可筛选标记多肽的功能性。

以上b）所述的降低翻译起始效率的第二项，在可筛选标记的翻译起始密码子之前直接使用了（短的）功能性开放读码框（pp^x，其中pp^x是x个氨基酸残基的小肽）。功能性开放读码框（pp^x）的长度是可以变化的，目的是微调低水平的可筛选标记多肽的翻译效率，从而获得理想的精确的严格筛选水平。因此，功能性开放读码框可以编码至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、70、80或90个氨基酸残基（在5′端具有起始密码子，在3′端具有终止密码子），优选编码至多200、180、160、150、140、130、120、110、100、99、98、97、96、95、94、93、92、91或90个氨基酸残基（在5′端具有起始密码子，在3′端具有终止密码子）。因此，通过改变功能性开放读码框（pp^x）的长度，转录过程中直接在编码可筛选标记的序列之前，提供了可筛选标记的翻译效率的连续变化范围。功能性开放读码框（pp^x）可以直接位于独立的可筛选标记的起始密码子的上游，在这种情况下，功能性开放读码框的起始密码子直接与编码可筛选标记的序列的起始密码子相邻。另外，功能性开放读码框（pp^x）的上游终止密码子和编码可筛选标记的序列的起始密码子可以相隔1、2、3、4、5、6、7、8、9、10、12、14、16、18、19、20、25、30、35、40、45、50、60、70、80、90、100、120、140、160、180、200、250个以上的核苷酸。分隔功能性开放读码框（pp^x）的上游终止密码子和编码可筛选标记的序列的起始密码子的间隔序列的长度的变化进一步增加了可筛选标记的翻译效率的微调水平。分隔功能性开放读码框（pp^x）的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的间隔序列缺乏翻译起始密码子。因此优选所述间隔序列缺乏ATG密码子。更优选所述间隔序列还缺乏次优非ATG密码子例如嵌入在Kozak序列（如下所述）中的GTG、TTG、CTG、ATT和ACG（如下所述）。最优选所述间隔序列缺乏任一的ATG、GTG、TTG、CTG、ATT和ACG密码子。在另一个优选的实施方式中，分隔功能性开放读码框（pp^x）的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的间隔序列缺乏终止密码子，也就是缺乏TAA、TAG和TGA密码子。

在优选的实施方式中，编码可筛选标记的核苷酸序列和功能性开放读码框（pp^x）的翻译起始密码子中的至少一个是ATG密码子。更优选地，至少编码功能性开放读码框（pp^x）的核苷酸序列的起始密码子是ATG密码子，在这种情况下，编码可筛选标记的核苷酸序列的起始密码子可以是非ATG起始密码子（也被称为次优或不太有利的翻译起始密码子），目的是允许更加严格的筛选（如上所述）。最优选地，编码可筛选标记的核苷酸序列和功能性开放读码框（pp^x）的翻译起始密码子都是ATG密码子。然而，本发明不排除编码功能性开放读码框（pp^x）的核苷酸序列的起始密码子是非ATG起始密码子。

在一种实施方式中，编码可筛选标记的核苷酸序列和功能性开放读码框（pp^x）的起始密码子中的至少一个被嵌入到Kozak共有序列中。本文中将Kozak共有序列（脊椎动物宿主细胞）定义为ANN（AUG）N（SEQ IDNO:11）和GNN（AUG）G(SEQ ID NO:12)，其中（AUG）代表了相关编码序列的起始密码子。优选在（AUG）之前的N’s是C’s。更优选的Kozak共有序列是GCCRCC(AUG)G(SEQ ID NO:13)，其中R是嘌呤。在另一个优选的实施方式中，Kozak共有序列之前还可以存在另一个GCC三联体。

优选的上游带有功能性开放读码框（pp^x）的可筛选标记为例如pp⁹⁰ZEO（编码新霉素抗性蛋白前面的90个氨基酸的pp^x开放读码框；pp⁹⁰编码序列如SEQ ID NO:15所示）。

在一种实施方式中，择一实施或组合使用以上a)或b)所述的降低翻译起始效率的方法，也可以有利于提供可筛选标记多肽的降低的翻译延伸效率。例如可以通过改变编码可筛选标记多肽的序列，从而降低所讨论宿主细胞中密码子使用的适应性来实现。这就再次提供了进一步控制本发明核酸构建体的筛选严格性水平。因此，编码可筛选标记蛋白的核苷酸序列优选能够适应所讨论宿主细胞中的次优密码子使用。优选地，适应本发明的核苷酸序列的密码子具有不超过0.7、0.6、0.5、0.4、0.3或0.2的CAI（见以上有关CAI的定义）。

在一种实施方式中，择一实施或组合实施以上a)或b)所述的具有降低的翻译起始效率的可筛选标记的实施方式，根据本发明，可以使用适当的可筛选标记的突变体或衍生物，因此只要可筛选标记仍然起作用，它们便在术语“可筛选标记”的范围内。优选地，可筛选标记的突变体或衍生物与它相应的野生型相比，可筛选标记的活性降低，从而使得可以进一步微调本发明核酸构建体筛选严格性的控制水平。择一实施或组合实施一个或多个其他实施方式，在优选的实施方式中，编码可筛选标记的核苷酸序列编码可筛选标记多肽，该可筛选标记多肽包括一个或多个（共同地）能够降低可筛选标记多肽活性（与它相应的野生型相比）的突变。突变的可筛选标记多肽的活性可以为其相应的野生型活性的90、80、70、60、50、40、30、20、10、5或1%以上。

作为非限制性的实例，博莱霉素抗性多肽中第9位的脯氨酸可能突变为例如Thr或Phe（参见例如WO 2006/048459的实施例14，通过引用将其引入本文），对于新霉素抗性多肽，第182或261位的氨基酸残基或第182和261位的氨基酸残基可发生突变（参见例如WO 01/32901）。优选的具有降低活性的可筛选标记多肽是具有SEQ ID NO:14的氨基酸序列的博莱霉素抗性多肽，其中第21位的谷氨酸变为甘氨酸，第76位的丙氨酸变为苏氨酸（Zeo^EPP5）。

特别优选的严格可筛选标记是pp⁸ZEO^EPP5，它结合了8个氨基酸的开放读码框pp^x和具有降低的活性的Zeo^EPP5博莱霉素抗性蛋白。pp⁸ZEO^EPP5的序列如SEQ ID NO:16所示。

本发明的核酸构建体优选被包括在质粒中或所述表达构建体可以是质粒。使用本领域技术人员已知的方法能够容易地操作质粒，例如被设计为能够在原核和/或真核细胞中复制。或者，核酸构建体可以是载体。许多载体可以直接或以所需的分离片段的形式用于真核细胞的转化，并可整体或部分地整合到这些细胞的基因组中，从而获得在其基因组中含有所需核酸的稳定的宿主细胞。

常规的表达体系是重组质粒或重组病毒基因组形式的DNA分子。通过本领域已知的方法将质粒或病毒基因组引入（真核宿主）细胞中，优选地整合到它们的基因组中，WO 2006/048459（例如第30-31页）中已经描述了一些有关的方面，通过引用将其纳入本文。

在一种实施方式中，本发明的核酸构建体含有附加的可筛选标记，例如如前所述的DHFR代谢可筛选标记。这种核酸构建体的优势是通过使用与IRES可操作地连接的可筛选标记例如博莱霉素、新霉素等，能够实现对具有高表达的宿主细胞的筛选，从而在筛选出具有高表达的宿主细胞后，停止抗生素的筛选，再使用附加的可筛选标记进行连续的或间歇的筛选。本实施方式中的多顺反子转录单元至少是三顺反子。

优选使用分离的核酸构建体来表达不同的目的基因产物，当需要这些产物来形成多聚体蛋白的各部分时也是如此（参见例如WO 2006/048459的实施例13，通过引用将其纳入本文）：抗体的每个重链和轻链由本发明分离的转录单元所编码。根据本发明，当本发明的两个转录单元在单个的宿主细胞中被筛选出来时，优选每个转录单元含有用于不同可筛选标记的编码序列，促使两个转录单元的筛选。当然，两个转录单元可以都存在于单个核酸分子中或每一转录单元可以存在于分离的核酸分子中。

第三方面，本发明涉及一种含有本发明的核酸构建体的表达载体或表达构建体。

第四方面，本发明涉及一种含有本发明的核酸构建体或本发明的表达载体的宿主细胞，优选真核宿主细胞。

术语“细胞”或“宿主细胞”和“细胞系”或“宿主细胞系”分别被定义为细胞或它们的同源群体，可以通过本领域已知的方法将它们在培养基中培养，并具有表达异源或同源蛋白质的能力。宿主是真核宿主细胞，例如真菌、植物或动物来源的细胞。优选地，宿主细胞是昆虫或脊椎动物来源的动物细胞。更优选地，宿主细胞是哺乳动物细胞。优选地，宿主细胞是细胞系的细胞。WO 2006/048459（例如第41-42页）已经描述了可以使用的宿主细胞的一些示例，通过引用将其纳入本文，这样的细胞包括例如哺乳动物细胞，包括但不限于CHO细胞，例如CHO-Kl、CHO-S、CHO-DG44、CHO-DG44-S、CHO-DUKXBI l，包括具有dhfr-表型的CHO细胞，以及骨髓瘤细胞（例如Sp2/0,NSO）、HEK293细胞、HEK294细胞和PER.C6细胞。可以使用的宿主细胞的其他实例是U-2 OS骨肉瘤、HuNS-1骨髓瘤、WERI-Rb-1视网膜母细胞瘤、BHK、Vero、非分泌性小鼠骨髓瘤Sp2/0-Ag 14、非分泌性小鼠骨髓瘤NSO和NCI-H295R肾上腺癌细胞系。

这样的真核宿主细胞能够表达所需的基因产物，并经常被用于上述目的。优选以本发明的表达构建体、表达盒或表达载体的形式将本发明的核酸构建体引入细胞中可以获得这样的真核宿主细胞。优选将核酸构建体整合到宿主细胞的基因组中，可以整合到各种宿主细胞的不同位置，筛选将提供克隆，在其中转基因被整合到适当的位置，依据表达水平、稳定性、生长特性等方面性质得到具有所需属性的宿主细胞克隆。

或者，不含启动子的核酸构建体可以被定向或随机选择地整合到具有转录活性的染色体区域，例如基因组中存在的启动子之后。可以使用本领域技术人员已知的常规方法，通过筛选可筛选标记多肽来进行含有本发明的DNA的细胞的筛选。当将这种不含启动子的核酸构建体整合到基因组的启动子之后时，本发明的核酸构建体能够在原位产生，也就是在宿主细胞的基因组内产生。

优选地，宿主细胞来自稳定的克隆，可以根据本领域技术人员已知的标准流程来筛选和繁殖该克隆。如果细胞含有本发明的多顺反子转录单元，这种克隆的培养物能够生产目的基因产物。

可以通过几种方法之一来引入将要在细胞中表达的核酸，这些方法是本领域技术人员已知的，也依赖于待引入的核酸的形式。所述方法包括但不限于转染、感染、注射、转化等。可以通过筛选来获得适当的表达目的基因产物的宿主细胞。

在优选的实施方式中，本发明的核酸构建体被整合到本发明的真核宿主细胞的基因组中。这将赋予核酸构建体稳定的遗传性。

第五方面，本发明涉及一种生产用于表达目的基因产物的宿主细胞的方法，其中，该方法包括以下步骤：a）将本发明的核酸构建体或本发明的表达载体引入多个宿主细胞中；b）在能够筛选表达可筛选标记多肽的条件下培养从a）中获得的多个宿主细胞；和c）筛选至少一个表达可筛选标记多肽的宿主细胞，用于表达目的基因产物。

这一方法的优势和WO 2006/048459（例如第46-47页）中公开描述的方法的优势相似，通过引用将其纳入本文。当能够获得具有相对低拷贝数的核酸构建体和高表达水平的克隆时，可以将本发明的筛选体系与扩增方法结合从而进一步改进表达水平。例如这可以通过使用氨甲蝶呤扩增共-整合的DHFR基因来实现，例如将DHFR置于与本发明的多顺反子转录单元相同的核酸分子上，或当DHFR在分离的DNA分子上时使用共转染。DHFR基因也可以是本发明核酸构建体的一部分或是本发明表达载体的一部分。

筛选存在的可筛选标记多肽并用于表达的过程可以在最初获得宿主细胞的过程中进行。在某个实施方式中，筛选剂至少在培养过程的部分时间中存在于培养基中，可以以足够的浓度或以较低的浓度来筛选表达可筛选标记的细胞。

第六方面，本发明涉及一种表达目的基因产物的方法，该方法包括培养含有本发明核酸构建体或本发明载体的宿主细胞、本发明的宿主细胞或根据本发明的方法获得的宿主细胞，以及从核酸构建体中表达目的基因产物。在优选的实施方式中，在生产目的基因产物的最后阶段过程中，筛选剂不再存在于培养基中，从而能够避免可能存在的微量毒性筛选剂污染基因产物的任何风险。

在某些实施方式中，本发明的表达载体编码免疫球蛋白重链或轻链或抗原结合部分，以及它们的衍生物和/或类似物。在优选的实施方式中，提供了根据本发明的蛋白表达单元，其中所述目的蛋白是免疫球蛋白重链。在另一个优选的实施方式中，提供了根据本发明的蛋白表达单元，其中所述目的基因产物是免疫球蛋白轻链。当这两个蛋白表达单元存在于相同的（宿主）细胞中时，可组装成多聚体蛋白特别是免疫球蛋白。因此，在某个实施方式中，目的蛋白是免疫球蛋白例如抗体，它是多聚体蛋白。优选地，这种抗体是人或人源化抗体。在某个实施方式中，它是IgG、IgA或IgM抗体。免疫球蛋白可以在不同的表达载体上或在单一表达载体上编码重链和轻链。因此，各个重链和轻链可以存在于分离的表达载体上，各自都具有它自己的启动子（两个表达载体可以相同或不同），各自都含有根据本发明的转录单元，重链和轻链是目的基因产物，优选各自编码不同的可筛选标记蛋白，以使得当表达载体被引入和/或存在于真核宿主细胞时，能够进行重链和轻链表达载体的筛选。或者，编码重链和轻链的序列可以存在于根据本发明的含有多顺反子转录单元的单一表达载体上，由单个启动子驱动，其中轻链和重链是它们各自的编码序列之间具有IRES的目的基因产物。

对细胞进行培养，以使得它能够代谢和/或生长和/或分裂和/或产生目的基因产物。这可以通过本领域技术人员已知的方法来实现，包括但不限于给细胞提供营养。所述方法包括表面粘附生长、悬浮生长或它们的组合。使用批量（batch）、分批补料（fed-batch）、连续系统例如灌注系统等，例如可以在培养皿、摇瓶或生物反应器中完成培养。为了通过细胞培养大规模（连续）生产重组基因产物，本领域优选细胞能够悬浮生长，优选地，细胞能够在缺乏动物或源自人的血清或缺乏动物或源自人的血清组分的条件下进行培养。

生长或增殖细胞的条件（如Tissue Culture,Academic Press,Kruse andPaterson,editors(1973)所述）和表达重组产物的条件是本领域技术人员所公知的。总体而言，使哺乳动物细胞培养的生产能力达到最大化的原理、方案和实用技巧在Mammalian Cell Biotechnology:a Practical Approach(M.Butler,ed.,IRL Press,1991)中有记载。

在优选的实施方式中，根据本发明的表达目的基因产物的方法进一步包括收获目的基因产物。可以收获、从细胞或从培养基、或从细胞和培养基中收集或分离表达的基因产物例如蛋白质。然后使用已知的方法将其纯化，例如过滤、柱色谱法等，通常使用本领域技术人员已知的方法。

除非另外说明，本发明的操作使用的是免疫学、分子生物学、微生物学、细胞生物学和重组DNA的常规技术，这些是本领域的常规技术。例如参见Sambrook,Fritsch and Maniatis,Molecular Cloning：A Laboratory Manual,2nd edition,1989;Current Protocols in Molecular Biology,Ausubel FM,et al,eds,1987;the series Methods in Enzymology(Academic Press,Inc.);PCR2:APractical Approach,MacPherson MJ,Hams BD,Taylor GR,eds,1995;Antibodies:A Laboratory Manual,Harlow and Lane,eds,1988.[0088]。下面的实施例进一步解释了本发明。实施例不以任何方式限制本发明，它们仅仅用来说明本发明。

在本说明书和它的权利要求中，使用动词“含有”和它的词形变化形式非限制性指的是包括以下所述的项目，但没有特别提到的项目并不排除在外。另外，涉及被不定冠词“一”或“一个”修饰的要素，并不排除一个以上要素存在的可能性，除非上下文明显另有所指是一个或只有一个要素。因此不定冠词“一”或“一个”通常指的是“至少一个”。

通过引用将本说明书中引用的所有专利和参考文献将其整体纳入本文。

下面的实施例仅以说明为目的，并不意图以任何方式限制本发明的范围。

附图说明

图1.筛选在严格筛选体系中能够增加克隆形成的片段的基因的基因组结构。

图1显示了起始转录位点上游的6个~3500bp DNA延伸，以及基因编码区域的~3500bp的DNA延伸，覆盖了用于每个基因座的在相应mRNA（被称为Z）中的起始翻译位点。仅包括非编码DNA的6个上游DNA延伸被称为A到F。

图2.在严格筛选体系中，能够诱导出比STAR元件更多的克隆的基因组序列。

CHO-DG44细胞被3μg DNA构建体转染，使用TTG-Zeo(如图2A所示)或pp8-Zeo-EPP5(如图2B所示)作为可筛选标记。对于阴性对照，没有序列被引入作为元件X。对于阳性对照，使用STAR 7/67作为5′端的元件X，使用STAR 7作为3′端的元件X。图1中不同DNA的延伸被用作如本文所述的元件X。在含有400μg/ml博莱霉素的培养基中进行筛选，转染24小时后添加博莱霉素。培养基由HAMF 12:DMEM=1:1+4.6%的胎牛血清组成。大约两周后可以计算稳定产生了的克隆数。

图3.Rb1E、Rb1F和p15C诱导出与STAR元件相等的或比STAR元件高的GFP表达水平。

在含有如图2所述的DNA构建体的稳定克隆中测定d2EGFP的表达水平。相对荧光水平的结果用任意单位表示。用直线表示每个构建体的d2EGFP的平均表达水平。用粗线表示本文中TTG Zeo筛选体系的STARs7/67/7诱导的615的d2EGFP的平均表达水平。

图4.Rb1E和p15C元件不具有启动子活性。

通过用Rb1E或p15C元件代替β-肌动蛋白启动子，修饰了含有STARs7/67/7和β-肌动蛋白启动子的构建体。这就产生了含有Rb1E和p15C元件的构建体，其中所述元件被直接置于TTG Zeo d2EGFP表达盒的上游。作为对照，使用如图2所示的含有β-肌动蛋白启动子构建体。我们将构建体转染到CHO-DG44细胞上并测定d2EGFP瞬时值（transient d2EGFP values）。图4A显示了d2EGFP相对瞬时值。图4B显示了稳定的博莱霉素抗性克隆数。

图5.Rb1E和p15C元件不是增强子。

制备了如图5所示的构建体。Rb1E或p15C元件被置于结合有TTGZeo-d2EGFP基因SV40最小启动子的上游。作为对照，β-肌动蛋白启动子被置于TTG Zeo-d2EGFP基因的上游。在另一个对照中，SV40最小启动子被置于TTG Zeo-d2EGFP基因的上游。图5显示了不同构建体的d2EGFP相对瞬时值。

图6.Rb1E和p15C元件不反式（in trans）影响内源性Rb1和p15启动子的转录。

图6显示了与野生型CHO-DG44相比的Rb1/肌动蛋白相对信号和p15/肌动蛋白相对信号。β-肌动蛋白和Rb1 mRNA水平的比率或β-肌动蛋白和p15 mRNA水平的比率由实时PCR测定。对每个元件的4个独立的克隆进行了比较。

图7.Rb1E和p15C元件不具有STAR活性。

图7A显示了如果元件具有或不具有STAR活性时会发生什么情况的示意图。简而言之，所述元件被置于靶向LexA-HP1抑制因子和博莱霉素筛选基因之间。当元件不具有STAR活性时，HP1介导的基因抑制将使得博莱霉素可筛选标记基因沉默。随后在培养基中添加博莱霉素将导致细胞死亡。另一方面，当元件具有STAR活性时，HP1介导的基因抑制没有强大到足以使博莱霉素可筛选标记沉默。随后在培养基中添加博莱霉素将导致这些细胞能够存活下来。图7B显示了人细胞系的U2-OS细胞存活的结果(HumanOsteosarcoma Cell line,ATCC HTB-96;described in Heldin,CH,et al.1986,Nature 319:4511-514)。

图8和9.Rb1E元件和p15C元件是基因间转录的来源。

为了测定基因间的转录是否和Rb1E和p15C元件有关，针对Rb1E和p15C基因组元件设计了4个引物对。使用随机六聚体，从U2-OS细胞中分离的总RNA制备cDNA。使用实时PCR在整个转录测试区域内测定RNA的水平是否提高。实时PCR反应针对由U2-OS细胞制得的cDNA进行。作为对照，使用总RNA(cDNA根据其制得)作为实时PCR反应的样品。RNA或cDNA样品的各自信号水平的差别被用作基因间转录的水平的量度。图8显示了Rb1E引物的结果。图9显示了p15C引物的结果。

图10.含有Rb1E或STAR元件的克隆的拷贝数。

图11.Rb1E和p15C针对不同的启动子起作用。

图11显示了在被构建体转染后的博莱霉素抗性克隆中的d2EGFP的平均荧光水平，如图11的示意图所示，该构建体含有CMV启动子。图上方示出了被诱导产生的克隆的数量。

图12.Rb1E和p15C特定组合能够诱导最佳克隆数和蛋白质表达水平。

图12显示了稳定的博莱霉素抗性克隆的数量，其中克隆被图12示意图所示的构建体转染，X轴表示元件X和元件Y。

图13.Rb1E和p15C特定组合能够诱导最佳克隆数和蛋白质表达水平。

图13显示了图12所示细胞的d2EGFP的平均荧光水平。

图14.对Rb1E和p15C区域内的最高活性的测试。

图14显示了被图14示意图所示的构建体转染后的稳定的博莱霉素抗性克隆的数量，其中元件X是完整的Rb1E或p15C元件或是它们的一部分。

图15.对Rb1E和p15C区域内的最高活性的测试。

图15显示了图14所示细胞的d2EGFP的平均荧光水平。

图16.对Rb1E和Rb1F区域内及其组合的稳定的克隆数的测试。下面的片段被用来测试它们产生的稳定的克隆数：Rb1E:1-3498、1-2018、1-1482、1-1019、1-479、479-2018、1019-2018、1482-2018、479-1482；Rb1F:1-3424、1-2425、2425-3424；Rb1E/Rb1F:2425-3424(Rb1F)-1-2018(Rb1E)。

图17.对Rb1E和Rb1F区域内及其组合的活性的测试。下面的片段被用来测试它们产生的稳定的克隆数：Rb1E:1-3498、1-2018、1-1482、1-1019、1-479、479-2018、1019-2018、1482-2018、479-1482；Rb1F:1-3424、1-2425、2425-3424；Rb1E/Rb1F:2425-3424(Rb1F)-1-2018(Rb1E)。

图18.Rb1E和p15C诱导高EPO蛋白质表达水平。

显示了在被如示意图所示的构建体转染的细胞中实现的EPO生产水平。EPO报告基因由β-肌动蛋白启动子控制。使用pp⁸Zeo^EPP5变体作为可筛选标记。图18A显示了特异性EPO活性（pg/细胞/天）。图18B显示了EPO的体积产量（pg EPO/天）。

具体实施方式

实施例

1.实施例1：筛选特定的基因组基因座，以找到能够产生与STAR元件相等的稳定转染克隆或能够产生比STAR元件更多的稳定转染克隆的序列。

当CHO-DG44被含有严格可筛选标记（例如在它的翻译起始密码子处被修饰的博莱霉素抗性标记）的质粒转染时，仅出现少量克隆或没有克隆出现。特别是当博莱霉素抗性标记含有TTG翻译起始密码子和在人β-肌动蛋白启动子(SEQ ID NO:17)（如图2A所示）控制下时更是如此。然而，当整个表达盒两侧均连接有STAR元件时，就会出现多得多的克隆，当将400μg/ml博莱霉素添加到CHO-DG44培养基中时，克隆数的范围是50-100/转染（例如图2A所示）。通常，产生的克隆能够产生高蛋白表达水平。本文试图识别这样的基因组序列：在相同筛选条件下，所述基因组序列能够产生至少和STAR元件一样多的CHO-DG44克隆。因此，我们使用的博莱霉素抗性标记和STAR元件所使用的博莱霉素抗性标记相同，即TTG Zeo。将表达盒置于人β-肌动蛋白启动子（图2A所示）的控制之下。选择三个人基因的基因组基因座：Rb1、p15和p13。使用BAC克隆作为模板通过PCR分离基本上相同长度的DNA的延伸（~3500bp）。对于Rb1、p15和p73，这些BAC克隆的数量分别为RP11-136N2、RP11-478M20和RP5-1092A11（从BacPAC来源中心-BPRC获得）。对每一个基因座，我们分离和分析了6个~3500bp的转录起始位点的上游DNA延伸，以及基因编码区域的~3500bp的DNA延伸，涵盖了相应的mRNA（被称为Z）的翻译起始。仅含有非编码DNA的6个上游DNA延伸被称为A至F（图1所示）。表1中给出了特异性引物系列。克隆了特定的DNA延伸以使其处于含有人β-肌动蛋白启动子、TTG Zeo抗性基因和d2EGFP报告基因的构建体的两侧。在分离的DNA序列上进行短DNA测序（run）以证实分离到了目的序列。这已经被证实了。作为对照构建体，我们使用了不含任何侧翼DNA元件的相同构建体和表达盒上游含有STARs 7和67（WO 2007/096399公开）以及表达盒下游含有STAR 7（WO 2007/096399公开）的相同构建体（图2A所示）。

表1 用于分离基因组元件的引物系列（5'----->3'方向）

1.1 结果

我们用含有从Rb1、p15和p73基因座分离的DNA的质粒转染CHO-DG44细胞。用脂质体2000(Invitrogen)将所有构建体相同数量的DNA（3μg）转染至CHO-DG44细胞中。在含有400μg/ml博莱霉素的培养基中进行筛选，转染24小时后添加博莱霉素。培养基由HAMF12:DMEM=1:1+4.6%的胎牛血清组成。大约两周后，计算稳定的已产生的克隆数。如图2A所示，含有STAR7/67/7的构建体的转染产生了105个稳定的克隆。含有来自p73的DNA序列的7个构建体的转染几乎没产生任何克隆（如图2A所示）。相反，含有来自Rb1或p15基因座的DNA序列的构建体的转染产生了显著数量的克隆。特别地，Rb1E、p15C和Rb1F序列分别产生了247、125和113个克隆（如图2所示）。因为Rb1E和p15C序列分别产生了是STAR 7/67/7元件的~2.5倍和~1.25倍的克隆，我们决定继续研究这些序列。从数据库（例如blast）中对序列进行分析发现序列基序、启动子区域或重复序列并非已知的。在人基因组中也没有发现该序列的副本。

用TTG Zeo筛选体系进行实验，该体系已经针对STAR元件进行了修饰。最近，我们开发了新的筛选原理，其中短肽被置于可筛选标记例如博莱霉素抗性可筛选标记的上游。实质上，当这些小肽变长时，在博莱霉素mRNA的翻译起始密码子上，翻译机制重新开始将会越来越困难。结果不得不产生较高水平的mRNA以确保足够的翻译的、功能性博莱霉素抗性蛋白。这就创造了被称为ppZeo筛选体系的严格可筛选标记体系。本发明中，当将Rb1A至F元件以及p15C元件用于本文中的ppZeo筛选体系时，我们测试了它们是否也能够诱导更多的具有d2EGFP高表达水平的克隆。

我们使用pp⁸Zeo^EPP5变体（SEQ ID NO:16）作为可筛选标记。该变体含有8个氨基酸的小肽，被置于博莱霉素可筛选标记突变体（比野生型的博莱霉素标记更加严格）的上游。该突变体由易错PCR(Error Prone PCR，EPP)产生。pp⁸Zeo^EPP5变体提供了比TTG Zeo可筛选标记略高的筛选严格度。

我们用Rb1A-F和p15C序列连接在表达盒(SEQ ID NO:9)两侧，也使用了STARs 7/67/7(SEQ ID NO:10)（如图2b所示）。如图2B所示，STAR7/67/7组合产生了76个克隆，比用TTG Zeo标记（如图2A所示）产生的克隆数略少。这与pp8Zeo^EPP5标记比TTG Zeo标记具有略高的严格度的预期是吻合的。重要的是当构建体中根本不含有元件时，几乎没有任何克隆出现。与TTG Zeo标记相比，在pp8Zeo^EPP5标记的情况下，含有Rb1E、Rb1F和p15C的构建体产生最多的克隆。Rb1E产生163个克隆，Rb1F产生124个克隆和p15C产生69个克隆（如图2B所示）。

我们的结论是在两个不同的高严格筛选体系条件下，我们筛选的一些基因组DNA基因座含有能够产生与STAR元件数量相等的克隆或比STAR元件数量更多的克隆的序列。

2.实施例2：在严格筛选体系的条件下，Rb1E、Rb1F和p15C序列产生了与STAR元件相等的蛋白质表达水平或比STAR元件高的蛋白质表达水平。

因为含有Rb1E和p15C序列的构建体也含有d2EGFP报告基因，所以我们能够分析Rb1E和p15C DNA序列对d2EGFP表达水平的影响。

2.1 结果

分离了由指定的构建体诱导的12和24个的独立的克隆。转染3至4周后，繁殖克隆，然后用流式细胞仪分析(EPICS-XLM,Beckman-Coulter)。源自d2EGFP的荧光信号（非稳定的）与细胞中存在的d2EGFP蛋白的量呈线性关系，因此它是细胞中d2EGFP表达水平的可靠的指标。在单个FACS分析中，分析了来自含有多达4000个细胞的样品的荧光信号。这种细胞样品其中之一取自独立的、稳定的转染的细胞克隆。由于信号在克隆中的单个细胞之间不同，样品中~4000个细胞的平均荧光水平被作为稳定的转染的细胞克隆中的d2EGFP表达水平的量度。

如图3所示，与具有STAR 7/67/7元件的对照构建体相比，Rb1E、Rb1F和p15C序列的结合产生了相等或略高的d2EGFP表达水平。这种情况是在TTG Zeo和pp8Zeo^EPP5标记的条件下下发生的。总体而言，具有Rb1E序列和具有可筛选标记时的d2EGFP表达值都是最高的。

我们的结论是含有Rb1E、Rb1F或p15C序列时不仅产生更多的克隆，而且这些克隆也显示了较高的d2EGFP表达水平。这一结论是在通常用于STAR元件的严格筛选体系条件下测试得出的。

3.实施例3：Rb1E和p15C序列不具有启动子或增强子活性，也不是 STAR元件，但是为基因间转录的来源。

Rb1E和p15C元件能够产生大量的具有高蛋白质表达水平的克隆的可能的原因是这些元件本身是启动子。或者，这些元件可能是STAR元件。我们用实验测试了这些可能性。

3.1 结果

通过用Rb1E或p15C元件取代β-肌动蛋白启动子的方式修饰了含有STARs 7/67/7和β-肌动蛋白启动子的构建体。这就产生了含有直接置于TTGZeo d2EGFP表达盒上游的Rb1E和p15C元件的构建体。我们将这些构建体与实施例2中描述的确实含有β-肌动蛋白启动子的构建体进行比较（如图4所示）。我们将该构建体转染到CHO-DG44细胞并测量了d2EGFP瞬时值。如图4A所示，含有Rb1E或p15C元件但不含β-肌动蛋白启动子的构建体根本没有给出d2EGFP信号。这就表明该元件不是功能性启动子。为了进一步证实这个观点，我们使转染的细胞处于博莱霉素筛选压力下。如图4B所示，含有STAR元件的构建体、具有β-肌动蛋白启动子的Rb1E或p15C分别产生了112、275和154个克隆。相反，含有Rb1E和p15C元件但不含β-肌动蛋白启动子的构建体根本没有产生克隆。下一步，我们测试了Rb1E或p15C元件是否可能是增强子元件。我们通过将元件置于结合有TTG Zeo-d2EGFP基因的SV40最小启动子的上游以进行测试。作为对照构建体，我们使用了位于TTG Zeo-d2EGFP基因上游的β-肌动蛋白启动子。我们也将SV40最小启动子置于TTG Zeo-d2EGFP基因的上游。最后，我们将SV40增强子置于SV40最小启动子的上游。这是天然存在的SV40增强子/启动子构型。如图5所示，仅仅置于报告基因上游的β-肌动蛋白启动子或‘完整的’SV40增强子/启动子组合的构建体给出了显著的d2EGFP信号（任意估计为100）。具有SV40最小启动子的构建体没有给出任何信号，表明Rb1E或p15C元件不是增强子。综合这些数据表明Rb1E和p15C元件不是功能性启动子或增强子。

下一步我们测试了含有Rb1E和p15C元件的稳定的转染构建体是否会反式影响内源性CHO Rb1或p15表达。我们设计了给出正mRNA信号的引物系列，与内源性CHO Rb1和p15基因相对应。使用了以下引物对：

P15正向:GGAGCAGAACCCAACTGCGC(SEQ ID NO:80)

P15反向:CCAGGCGTCACACACATCCAG(SEQ ID NO:81)

RB1正向:GTGACAGAGTGCTCAAAAGAAGTGCTG(SEQ ID NO:82)

RB1反向:GGACTCCGCTGGGAGATGTTTACTC(SEQ ID NO:83)

随后，我们使用实时PCR测量了β-肌动蛋白和Rb1 mRNA水平的比值或β-肌动蛋白和p15 mRNA水平的比值。在CHO-DG44和Rb1E或p15C转染的克隆中比较了这些比值。我们比较了每个元件的4个独立的克隆。图6显示了一个克隆的结果。我们发现含有Rb1E或p15C元件的构建体的转染没有影响β-肌动蛋白和各自内源性Rb1或p15基因之间的比值。在所有4个独立的克隆中都是这种情况。

我们的结论是Rb1E或p15C元件的转染对各自的内源性基因的表达不具有正面或负面的影响。

我们还测试了Rb1E或p15C元件是否具有STAR活性。这个可以通过将元件置于目标LexA-HP1抑制因子和博莱霉素筛选基因之间而直接进行测试。当元件不具有STAR活性时，HP1介导的基因抑制将使得博莱霉素可筛选标记基因沉默。随后在培养基中添加博莱霉素将导致细胞死亡。另一方面，当元件具有STAR活性时，HP1介导的基因抑制没有强大到足以使博莱霉素可筛选标记沉默。随后在培养基中添加博莱霉素将导致这些细胞能够存活下来。这些实验在U2-OS细胞中进行，以原始筛选的方式来识别和分离STAR元件(Kwaks et al.,2003,Nature Biotech.21:553-558)。如图7所示，将STAR 7置于LexA-HP1结合位点和博莱霉素筛选基因之间确实导致细胞能够存活，并促使克隆快速生长。如图7所示，全长Rb1E、Rb1F和p15C元件或较短的片段的测试没有导致克隆的出现。还测试了与片段相应的较小片段产生大量的具有高蛋白表达水平的克隆的能力（见实施例5；图14和15）。我们还测试了Rb1E/Rb1F组合(2425-3224(Rb1F)-1-2018(Rb1E))的STAR活性，发现不具有这种活性（图7）。从这些结果中我们认为Rb1E、Rb1F和p15C都不具有STAR活性。

最后，我们测试了Rb1E或p15C元件作为基因间转录的来源的可能性。在严格筛选体系的条件下，Rb1E和p15C具有产生许多具有高蛋白表达水平的克隆的惊人能力。如上所述，它们不含STAR活性的启动子、增强子。因此我们测试它们是否是基因间转录发生的区域。

为了确定基因间转录是否与Rb1E和p15C元件有关系，我们为Rb1E和p15C基因组元件设计了5个引物对。

表2.用于进行实时PCR和监测基因间转录的引物对(5’→3’方向)。

引物	序列	SEQ ID NO
			P15C 50F	GATACACACTCCTCCCTGAGCTCTAGAC	60
P15C 232R	AATGAGAGAGGTTGGGATCATGGTC	61
			P15C 537F	GTCCTAACATGGCCTATACAGCTCTACAAC	62
P15C 691R	CAGAAGAAACTGCATGTGGCAAGC	63
			P15C 1468F	TCAACCTCTGCCTCCTGGGTTC	64
P15C 1613R	TTCAAGACCAGCCTGACCAACATG	65
			P15C 2317F	TTGTGTGAAACGGGTAGGTTGAGC	66
P15C 2497R	GCCAATATGGTGAAACCCCATCTC	67
			P15C 3133F	CTCTGTTTTGGTACCAGTACCATGCTG	68
P15C 3274R	ATATGGAACCAAAAAGGAGCCCG	69
			RB1 E 134-F	AAGCTTCCTGACTTCAGCCTAAAGATTC	70
RB1 E 292-R	CTTACCTGACATTTCTGTCATCTTCCTCTTC	71
			RB1 E 941-F	CTCATACGCATATCATGTGGACAAAGTG	72

RB1 E 1112-R	GGCAACAGAGCGAGACTCAGTCTC	73
			RB1 E 1714-F	ATCCCACTGAATTACTGAGAGGATTGATC	74
RB1 E 1886-R	CCATGTCCTTGTGTTGAGCTCTCTG	75
			RB1 E 2561-F	ATAGCTAAACTGTCTTCTCAGGAGAGGAGC	76
RB1 E 2677-R	CTCTGCTTGGCATCTACCTCCAAAC	77
			RB1 E 3374-F	GAACTTGCACTTGTCCCACATCCAG	78
RB1 E 3508-R	CAGGAACAGAATCAGTGCTTTTTCCTC	79

F表示正向引物；R表示反向引物

使用随机六聚体，从分离自U2-OS细胞的总RNA制备cDNA。我们选择这种人细胞系来评估是否存在与指定的基因组基因座有关系的内源性基因间转录。使用实时PCR在整个转录测试区域内测定RNA的水平是否提高。实时PCR反应在由U2-OS细胞制得的cDNA上进行。作为对照，使用总RNA(cDNA根据其制得)作为实时PCR反应的样品。被基因组DNA污染的RNA样品也可能给出背景信号。RNA或cDNA样品的各自信号水平的差别被用做基因间转录的水平的量度。如图8和9所示，当使用从U2-OS细胞分离的cDNA和RNA时（分别如图8和9中第一列所示），我们发现3/5的引物给出了Rb1E阳性信号和4/5的引物给出了p15C信号。在cDNA样品和RNA样品中，指定因子的信号水平不同。这些数据表明基因间转录与Rb1E和p15C基因座有关系。

下一步我们测试了这种阳性信号是否也能够在由含有人Rb1E或p15C元件的构建体产生的CHO-DG44克隆中检测到。作为RNA/cDNA的来源，我们使用了4个相同的克隆，在该克隆中我们测试元件是否反式影响内源性CHO Rb1或p15启动子的表达（如图5所示）。作为阴性对照，包括来自4个被其他构建体转染的克隆的RNA或cDNA。因此，在测试中来自被p15C元件转染的细胞的RNA/cDNA作为基因间Rb1E转录的阴性对照（图8所示），反之亦然（如图9所示）。如图8所示，在Rb1E元件之内的3/5的不同位置处存在大量的基因间转录，和U2-OS细胞中的相同（如图8第二列所示）。重要的是，当p15C转染克隆作为RNA/cDNA样品的来源时，没有检测到这种阳性信号（如图8第三列所示）。需要注意的是，在Rb1E转染细胞中检测到的绝对量比在U2-OS细胞中检测到的绝对量要高，可能因为转染了多个含有Rb1E元件的拷贝，而U2-OS细胞仅仅具有两个内源性拷贝。然而，cDNA和RNA信号之间的比值相同，这些如图8和9所示。

如图9所示，在p15C元件之内的4/5的不同位置处存在大量的基因间转录，和U2-OS细胞中的相同（如图9第二列所示）。重要的是，当Rb1E转染克隆作为RNA/cDNA样品的来源时，没有检测到这种阳性信号（如图9第三列所示）。

作为本实施例的总体结论，我们认为Rb1E和p15C元件产生大量的具有高蛋白表达水平的克隆的能力不是由于内源性启动子、增强子活性或STAR活性。相反，它们似乎含有与基因间转录有关的区域。可能是由于基因间转录，基因座呈现出开放的染色质结构，这是使下游启动子具备高转录水平的关键。

4.实施例4：Rb1E诱导的高克隆数和d2EGFP值不是由增加的质粒拷贝数引起的。

Rb1E元件比STAR元件诱导出的克隆多，具有至少相同的高d2EGFP值。可能是含有Rb1E元件可以产生具有更多质粒拷贝数的稳定克隆。在7个独立分离的稳定克隆中，可以通过直接测定各自的质粒拷贝数来进行测试。

4.1 结果

我们从被STAR 7/67/7或Rb1E元件转染的7个克隆中分离DNA。7个STAR诱导的克隆的d2EGFP平均值是156，7个Rb1E诱导的克隆的d2EGFP平均值是299。如图10所示，STAR诱导的克隆的平均拷贝数是79，而Rb1E诱导的克隆的平均拷贝数是17。如此看来由Rb1E诱导的高d2EGFP值不是由增加的拷贝数引起的，相反地，每个拷贝能够产生更多的d2EGFP。

我们也将Rb1E和p15C序列置于表达盒的周围，该表达盒含有CMV启动子、TTG Zeo可筛选标记和d2EGFP报告基因。与由STAR 7/67/7组合产生的152个克隆相比，含有Rb1E或p15C的构建体产生了176和107个克隆（如图11所示）。多达24个独立的克隆被分离，繁殖，并对d2EGFP进行分析。如图4所示，与由STARs 7/67/7产生的862的d2EGFP平均表达水平相比，Rb1E和p15C序列分别产生了957和825的d2EGFP平均表达水平（如图11所示）。

5.实施例5：在DNA延伸之内具有最高活性的Rb1E和p15C序列的特定组合和定位。

我们测试了使用不同Rb1E和p15C序列组合的效果。我们还测试了元件的不同部分以分析在这些序列之内是否存在被定位的活性。

5.1 结果

如图12所示，我们制备了构建体，在该构建体中Rb1E或p15C元件仅被置于整个表达盒的上游或下游以及两侧。另外，我们制备了构建体，在该构建体中Rb1E元件被置于表达盒的上游，p15C元件被置于表达盒的下游。反之，我们还将p15C元件置于表达盒的上游，Rb1E元件置于表达盒的下游。图12显示了将单个Rb1E元件置于表达盒下游时的克隆数显著高于将单个Rb1E元件置于表达盒上游时的克隆数。然而，当两个Rb1E元件被置于整个表达盒两侧时能够产生最多数量的克隆。相反，p15C元件不存在这种区别（如图12所示）。最后，当将Rb1E元件置于表达盒的下游，p15C置于表达盒的上游时，比两个元件以相反的顺序放置时产生的克隆数更多（如图12所示）。这进一步显示了在构建体中下游位置为Rb1E元件的优势。

当我们分析各自克隆中的d2EGFP表达水平时，发现d2EGFP平均表达水平没有明显差别（如图13所示）。尽管差别不大，但还是发现了在两边均有Rb1E元件和p15C-Rb1E组合时表现最高的d2EGFP水平。从这些数据我们得出结论，根据产生的大量的克隆和高蛋白质表达水平，同时使用两个元件比只使用一个元件更有优势。

下面我们分析了Rb1E和p15C元件的不同部分。如图14所示，将Rb1E元件的1-3498长bp与Rb1E的1-2018bp和1482-3498bp区域进行比较。同样地，将p15C元件的1-3352长bp与p15C的1-1500bp和822-3352bp区域进行比较。最明显的结果是，与全长序列和1-2018bp区域相比，Rb1E的1450-3500bp区域没有诱导出显著数量的克隆（如图14所示）。事实上，在CHO-DG44中，1-2018bp区域似乎具备了Rb1E产生大量克隆的大部分能力。相反，没有发现p15C元件有这种显著的结果。尽管1-1482区域比850-3350bp区域给出的克隆少，这种差别不如Rb1E元件的（如图14所示）那么明显。当我们分析上述克隆的d2EGFP表达水平时，注意到在全长元件和特定部分之间没有显著的差别（如图15所示）。从这些数据中我们的结论是Rb1E和p15C元件的最佳构型是作为同源对用于表达盒两侧时的构型。仅Rb1E元件可以描述为特定部分，特别是考虑到其产生大量克隆的能力。

我们进一步测试了Rb1E（1-2018bp）元件来确定给出最大克隆数和最高d2EGFP值的最小序列。如图16所示，将Rb1 E 1-2018片段减少至1-1482bp显著降低了克隆数。而且，1-1019bp片段给出少量克隆，1-479片段几乎没有给出克隆。来自另一侧（479-2018bp）的1-2018片段的轻微降低对产生的克隆有着重大的影响。这样看来对于最佳克隆的形成，整个1-2018bp区域是必须的；从任何一端进一步缩短该片段会直接使得该片段对诱导大量克隆的效果不佳。下一步我们考虑Rb1F片段。如实施例1所述（图2），尽管比Rb1E片段产生的克隆少，Rb1F片段也产生了显著数量的稳定克隆。然而，起初，仅根据这些片段在Rb1的基因组位点中的相继顺序来进行选择。简单而言，分离和测试延伸至基因组Rb1 DNA的3424bp。Rb1E片段中确定的一些活性很可能和连接片段Rb1F片段重合。因此，我们测试了Rb1F的哪些部分具有最高活性，以及这是否与Rb1E片段相邻。我们将Rb1F片段分为两个片段，1-2425和最后与Rb1E片段相邻的2425-3424片段。如图16所示，2425-3424bp片段产生了最高数量的克隆，几乎和整个1-3424bp片段一样多。因此，我们组合了这两个片段，Rb1F（2425-3424）和Rb1E（1-2018），并测试了该组合的活性。如图16所示，该组合产生了最高数量的克隆，甚至略高于Rb1E（1-3498）片段产生的克隆数。我们的结论是该特定的组合具有被测试的Rb1基因座用来产生大量稳定的克隆的最高活性。

当我们分析上述片段的d2EGFP值时，获得了以下图片（图17）。如上所述，对于Rb1E，整个Rb1E（1-3498）和Rb1E（1-2018）片段给出了最高d2EGFP值。对于Rb1F，整个Rb1F（1-3424）和Rb1F（2425-3424）片段给出了最高d2EGFP值（图17）。然而，使用组合的Rb1F（2425-3424）／Rb1E（1-2018）片段能够获得最高的d2EGFP值。从产生的克隆数看，显然所组合的元件是最佳组合，这也用于诱导高蛋白表达水平。

6.实施例6：Rb1E和p15C元件诱导高EPO蛋白表达水平。

6.1 结果

如图18所示，我们将Rb1E或p15C元件置于驱动人红细胞生成素（EPO）报告基因的β-肌动蛋白启动子的上游。我们使用pp⁸Zeo^EPP5变体（SEQ ID NO:16）作为可筛选标记。该变体含有8个氨基酸的小肽，被置于博莱霉素可筛选标记突变体的上游，它比野生型的博莱霉素标记更加严格。该突变体由易错PCR（EPP）产生，已被前人描述（美国临时申请61/187,022）。pp⁸Zeo^EPP5变体提供了比TTG Zeo可筛选标记略高的筛选严格性。

我们发现与由STAR 7/67/7组合诱导的22个克隆相比，Rb1E和p15C元件都能够诱导大量稳定的产生EPO的克隆（分别为50和46个）。当分析克隆中特定的EPO的生产水平时，我们发现Rb1E和p15C元件诱导了与STAR 7/67/7组合相似的EPO表达水平（如图18A所示）。当还考虑到细胞生长这一因素时，可以评估EPO体积产量，我们发现Rb1E元件比STAR7/67/7或p15C组合给出了略高的值（如图18B所示）。我们的结论是Rb1E和p15C元件能够诱导较高数量的产生EPO的克隆，并具有相似的EPO表达。这和d2EFP作为报告基因的结论是相同的。

Claims

1.一种核酸片段，该核酸片段包括：

a）位于脊椎动物Rb1基因的翻译起始位点上游的基因组区域的1000至15000个连续核苷酸；或，

b）位于脊椎动物p15基因的翻译起始位点上游10.5至7千碱基位置的基因组区域的至少1500个连续核苷酸；

其中，在实施例1的条件下进行测试，所述片段当与具有SEQ ID NO:9的核苷酸序列的表达盒直接在表达盒的上游位置和下游位置侧面连接时，与在表达盒的上游侧面连接STAR 7和STAR 67且在表达盒的下游侧面连接STAR 7的相同表达盒（SEQ ID NO:10）相比，至少产生50%的克隆数。

2.根据权利要求1所述的核酸片段，其中，所述片段的全长与SEQ IDNO:1-4或8中的至少一个的至少1000个连续核苷酸具有至少80%的核苷酸序列同一性。

3.根据权利要求1或2所述的核酸片段，其中，所述片段来自人、小鼠、大鼠、仓鼠、牛、鸡、犬、豚鼠、猪或兔的基因组。

4.根据权利要求1-3中任意一项所述的核酸片段，其中，所述核酸片段的全长与含有下列核苷酸残基的片段具有至少80%的核苷酸序列同一性：

a）SEQ ID NO:5的1-1019、1-1482、1-2018、1-3498、479-2018或479-1482的核苷酸残基；

b）SEQ ID NO:6的1-2448、1-3424或2425-3424的核苷酸残基；

c）SEQ ID NO:7的1-3064、1-2500或1-2000的核苷酸残基；和

d）SEQ ID NO:8的1-1500、822-3352或1-3352的核苷酸残基。

5.一种核酸构建体，该核酸构建体含有根据权利要求1-4中任意一项所述的核酸片段，其中，所述片段至少和一个核苷酸连接，所述核苷酸在所述片段来源的基因组中不直接与所述片段发生天然连接。

6.根据权利要求5所述的核酸构建体，其中，所述核酸片段连接有表达盒，所述表达盒含有与编码目的基因产物的核苷酸序列可操作地连接的启动子。

7.根据权利要求6所述的核酸构建体，其中，所述构建体含有位于所述表达盒上游和下游的根据权利要求1-4中任意一所述的核酸片段。

8.根据权利要求7所述的核酸构建体，其中，表达盒上游的核酸片段和表达盒下游的核酸片段不同。

9.根据权利要求6-8中任意一项所述的核酸构建体，其中，所述表达盒进一步含有在真核宿主细胞中具有功能的编码可筛选标记的核苷酸序列。

10.根据权利要求9所述的核酸构建体，其中，所述可筛选标记能够提供对筛选剂的致死效应或生长抑制效应的抗性，所述筛选剂选自以下组成的组中：博莱霉素、嘌呤霉素、杀稻瘟素、潮霉素、新霉素、氨甲蝶呤、氨基亚砜蛋氨酸和卡那霉素。

11.根据权利要求9或10所述的核酸构建体，其中，所述编码可筛选标记的核苷酸序列至少是下列核苷酸序列其中之一：

a）在起始密码子中具有突变的核苷酸序列，该突变能够降低可筛选标记多肽在真核宿主细胞中的翻译起始效率；

b）作为多顺反子转录单元一部分的核苷酸序列，所述多顺反子转录单元含有：i）编码可筛选标记的核苷酸序列；和ii）含有在5′至3′方向上的翻译起始密码子、至少一个氨基酸密码子和翻译终止密码子的功能性开放读码框；其中所述功能性开放读码框的终止密码子位于编码可筛选标记的核苷酸序列的独立翻译起始密码子的上游的0-250个核苷酸处，其中分隔功能性开放读码框的终止密码子和编码可筛选标记的核苷酸序列的独立翻译起始密码子的序列缺乏翻译起始密码子；以及

c）含有突变的编码可筛选标记多肽的核苷酸序列，该突变编码至少一个氨基酸置换，与其相应的野生型相比，可筛选标记多肽的活性降低。

12.根据权利要求9-11中任意一项所述的核酸构建体，其中，编码可筛选标记的核苷酸序列和编码目的基因产物的核苷酸序列存在于单个多顺反子转录单元中，其中所述多顺反子转录单元与启动子和位于多顺反子转录单元下游的转录终止序列可操作地连接。

13.根据权利要求6-12中任意一项所述的核酸构建体，其中，所述启动子是β-肌动蛋白启动子、CMV启动子、SV40启动子、泛素C启动子或EFl-α启动子。

14.一种表达载体，该表达载体含有根据权利要求1-4中任意一项所述的核酸片段或根据权利要求5-13中任意一项所述的核酸构建体。

15.一种宿主细胞，该宿主细胞含有根据权利要求5-13中任意一项所述的核酸构建体或根据权利要求14所述的表达载体。

16.根据权利要求15所述的宿主细胞，其中，所述宿主细胞是植物细胞或哺乳动物细胞。

17.根据权利要求15或16所述的宿主细胞，其中，所述宿主细胞是细胞系的细胞。

18.根据权利要求16所述的宿主细胞，其中，所述细胞系选自以下组成的组中：U-2OS骨肉瘤、CHO、CHO-K1、CHO-DG44、CHO-DG44-S、PER.C6、HEK 293、HuNS-1骨髓瘤、WERI-Rb-1视网膜母细胞瘤、BHK、Vero、非分泌性小鼠骨髓瘤Sp2/0-Ag 14、非分泌性小鼠骨髓瘤NSO和NCI-H295R肾上腺癌细胞系。

19.一种生产用于表达目的基因产物的宿主细胞的方法，其中，该方法包括以下步骤：

a）将根据权利要求5-13中任意一项所述的核酸构建体或根据权利要求14所述的表达载体引入多个宿主细胞中；

b）在能够筛选表达可筛选标记多肽的条件下培养从a）中获得的多个宿主细胞；和

c）筛选至少一个表达可筛选标记多肽的宿主细胞，用于表达目的基因产物。

20.一种表达目的基因产物的方法，该方法包括培养根据权利要求15-18中任意一项所述的宿主细胞或根据权利要求19所述的方法获得的宿主细胞，以及从核酸构建体中表达目的基因产物。

21.根据权利要求20所述的方法，所述方法还包括收获所述目的基因产物。