CN101541959A

CN101541959A - 用于增加转录的基质附着区（mar）及其应用

Info

Publication number: CN101541959A
Application number: CN 200780029732
Authority: CN
Inventors: 尼古拉斯·梅尔莫; 皮埃尔·阿兰·吉罗德; 戴维·卡拉布雷塞; 亚历山大·雷加梅; 萨里内·多尼内利-阿罗佩
Original assignee: Selexis SA
Current assignee: Selexis SA
Priority date: 2006-08-23
Filing date: 2007-08-22
Publication date: 2009-09-23
Also published as: ZA200902011B

Abstract

本发明披露了人类以及非人类动物来源的分离且纯化的MAR序列以及对应于或基于它们的核苷酸序列。特别地，本发明披露了具有较高转录和/或蛋白质生成增强活性的MAR以及MAR构建体以及用于鉴定这些MAR的方法、设计这些MAR构建体的方法以及将其用于例如高产率的蛋白质生产的方法。

Description

用于增加转录的基质附着区(MAR)及其应用

本申请要求于2006年8月23日提交的美国临时申请60/823,319号以及于2007年8月3日提交的临时申请60/953,910号的优先权，其全部内容以引用的方式结合于此。

技术领域

本发明涉及包含对应于或基于已分离和纯化的人类和非人类动物来源MAR序列的核苷酸序列的核酸。这些核酸通常具有增强转录和/或蛋白质生成的活性。本发明还涉及用于鉴定这些序列的方法以及应用这些方法的系统，例如用于提高蛋白质产量。

背景技术

为了阐释本发明特别是提供与其实施相关的额外细节，将本文采用的公开文件和其他材料包括专利均通过引用的方式结合于此。为了方便，这些公开文件，如果在正文中未详细陈述，则在所附的参考文献部分按字母顺序列出。EMBL登录号AC102666以及位于EMBL登录号BH101870和BH101901侧翼的序列以及EMBL登录号(同物异名)126658，23119391，22981746也全部结合于此供参考。

现在，真核染色体形成约50至100kb的染色质环形结构域的模型已被广泛公认[Bodnar JW，Breyene P，Van Montagu M andGheyseu G，Razin SV]。可认为这些环的外端对应于附着于核基质(一种由RNP(核糖核蛋白)和其它非组氨酸蛋白质构成的蛋白质质网状系统)的特异DNA序列[Bode J，Benham C，Knopp A andMielke C]。连接于核基质的染色体DNA序列在支架(分裂中期)或基质(分裂间期)附着区分别称为SAR或MAR。S/MAR、MAR元件或MAR序列或者简称MAR通常为长度为300至3000bp的多态区域。据估计哺乳动物细胞核内存在约100000个MAR[Bode J，Stengert-Iber M，Kay V，Schlake T and Dietz-Pfeilstetter A]。

通过结构性和功能性地将染色质分成环形结构域，可认为MAR在复制和基因表达的调节中发挥重要作用，例如促进哺乳动物核内转录座位(foci)的序列组合和解离。现已得到大量间接证据可支持这种观念；例如在各种真核基因组内，DNA复制起始点位于MAR元件内部[Amati B and Gasser SM(1988)，Amati B and GasserSM(1990)]。还发现MAR几乎总是存在于非编码基因间区、内含子内部[Girod PA，Zahn-Zabal M and Mermod N]或转录单位的边缘[Gasser SM and Laemmli UK；National Center for BiotechnologyInformation]，其中MAR可结合普遍性和/或组织特异性转录因子。总体说来，在植物和动物细胞系的转基因试验中，MAR元件已成功用来增加转基因的表达和稳定性[Allen GC，Spiker S，ThompsonWF，Bode J，Schlake T，Rios-Ramirez M，Mielke C，Stengart M，Kay Vand Klehr-Wirth D，Girod PA，Zahn-Zabal M and Mermod N]。例如，MAR已经用来增加各种与生物技术和治疗性应用相关的重组蛋白质在细胞例如CHO(中国仓鼠卵巢)细胞内的产量[Girod PA，Zahn-Zabal M and Mermod N，Kim JM，Kim JS，Park DH，Kang HS，Yoon J，B aek K and Yoon Y，Zahn-Zabal M，Kobr M，Girod PA，ImhofM，Chatellard P，de Jesus M，Wurm F and Mermod N](Mermod et al.，“Development of stable cell lines for production or regulatedexpression using matrix attachment regions，”WO 02074969，以及美国专利公开文件20030087342)。

已将MAR的功能活性与其结构特性而非其一级DNA序列相关联。实际上，MAR的A和T含量较高[Boulikas T(1993)]，且已经观察到一些特殊的构象和理化性质，例如分子的固有曲率、狭窄的小沟、高解旋/解链潜在可能性或变性敏感性[Bode J，Schlake T，Rios-Ramirez M，Mielke C，Stengart M，Kay V and Klehr-Wirth D，Boulikas T(1993)，Boulikas T(1995)]。事实上，正是通过称为SMAR扫描(SMAR Scan)的方法，利用这些性质鉴定MAR。此外，MAR活性还可由DNA结合蛋白质介导，例如可识别MAR元件特异结构特征例如单链和/或弯曲DNA的染色质重塑酶和/或转录因子[Bode J，Stengert-Iber M，Kay V，Schlake T andDietz-Pfeilstetter A]。尚未发现明确的蛋白质结合位点或MAR共有序列[Boulikas T(1993)]，这使得难以从基因组序列预测MAR。

尽管已经描述了MAR的某些功能和结构性质，但由于其一级结构几乎无共有序列，因此其鉴定是困难的。真核基因组内MAR元件可能在功能上较为保守，一个假设可由动物MAR可结合于植物核支架并且反之亦然这个事实而得到支持[Breyne P，Van MontaguM，Depicker A and Gheysen G，Mielke C，Kohwi Y，Kohwi-ShigematsuT and Bode J]，但关于是什么特征使得MAR序列成为如有效的蛋白质生成序列则知之甚少。此外，根据所采用的分析不同，可得到不同的结果[Razin SV，Boulikas T(1995)，Kay V and Bode J]。考虑到真核生物内预期MAR的巨大数量以及基因组计划发布的序列数量，已开发了工具/程序用来检测MAR DNA序列的结构特征(SMAR Scan I)或者功能序列例如作为调节蛋白质或转录因子的特殊蛋白质的结合位点(SMAR Scan II)[2007年8月3日提交的美国临时专利申请60/953,910，Mermod et al的美国专利公开文件20070178469.]。设计这些程序是为了通过检测对应于DNA弯曲、大沟深度和小沟宽度潜在可能性，以及用于特异转录调节蛋白质的结合位点的多种DNA序列特征簇，来鉴定新的潜在MAR序列。这些程序已用来扫描人类基因组，以鉴定公认的MAR DNA序列，已证实其中几种公认的MAR DNA序列当导入被转染入CHO细胞内的表达质粒内时可增加转基因的表达，(Girod et al.，“Identification of S/MAR from genomic sequences withbioinformatics and use to increase protein production in industrial andtherapeutic processes，”Mermod et al.的美国专利公开文件20070178469]。这表明SMAR Scan程序可有效地鉴定人类遗传元件，其依次可用来增加蛋白质合成。尽管到目前为止所开展的功能筛查限于人类基因组，但在大规模生产中，感兴趣的蛋白质常常在非人类哺乳动物细胞中进行表达。

已通过SMAR Scan在人类基因组中鉴定了大约1600种MAR，且已证实八分之六当置于增强子/启动子上游时，可导致CHO细胞内基因(例如用于绿色荧光蛋白质(GFP)、抗体和受体的基因)表达增加。已证实具有异位MAR活性的DNA长度在2.5kb至6kb的范围内。然而，缺乏对MAR结构的表征现在已经限制了“设计者”MAR的生产。因此，需要对MAR特别是MAR的功能和/或结构区域进行表征，以实现MAR改造和设计。

到目前为止开展的功能筛查限于人类基因组。因为在大规模生产中，感兴趣蛋白质常常在哺乳动物细胞中进行表达，因此还需要鉴定更多有效的天然发生的MAR，其可促进人类和/或非人类哺乳动物细胞内的转录和/或基因表达和/或有效的蛋白质生成细胞。

总的来说，存在例如通过鉴定另外天然发生的MAR、通过改造已鉴定MAR和/或通过生产合成的MAR来鉴定和/或生成具有有利性质的MAR的需求。有利性质本身包括但不限于转录和/或蛋白质生成/基因表达的性质增强；相对于天然发生的MAR长度减小从而使得例如在遗传改造中具有更多用途；组织、细胞或器官特异性和/或加入外来刺激物例如药物时的可诱导性。

为了实现一种或多种这些需求以及在下文的披露内容中将变得明显的其他需求，可采用几种途径包括对小鼠基因组进行大规模生物信息分析，以鉴定公认的MAR DNA序列。利用MAR预测软件SMAR Scan I对小鼠基因组加以分析。评估新鉴定的啮齿动物序列介导改善从培养细胞生成药物感兴趣重组蛋白质的能力。为此，可在转基因的转染分析中对新鉴定MAR的转录活性加以评估。

此外，对MAR如人类1_68MAR和小鼠MAR S4进行研究。鉴定了模块特别是包含MAR某些结构的模块/序列特异性模块的模块，并利用这些模块改造具有有利性质的MAR，例如通过序列的重组、缺失和/或复制。模块还可与其他元件例如包含某些结合位点特别是转录因子结合位点(TFBS)的合成核苷酸序列结合。

发明内容

在一个实施方式中，本发明是针对至少一种基因的高水平表达的表达系统，包括：

用于可操作性地连接编码感兴趣基因的核苷酸序列的启动子，以及至少一种非人类哺乳动物MAR核苷酸序列，用于促进所述基因在转染了所述表达系统的细胞内表达，其中用所述构建体转染所述细胞时，所述非人类哺乳动物MAR核苷酸序列使所述基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。

所述非人类哺乳动物MAR核苷酸序列可包括，主要由以下序列或由以下序列组成：

(i)SEQ ID No.3、SEQ ID No.10或其功能片段；或者

(ii)与(i)中任何一个序列具有约80％、约90％、约95％或约98％的序列一致性的核苷酸序列。

本发明还针对分离并纯化的核酸分子，包括，主要由以下序列或由以下序列组成：

(a)SEQ ID No.3或SEQ ID No.10或者其功能片段的核苷酸序列；或者

(b)与(a)中序列具有至少约80％、约90％、约95％或约98％的序列一致性且具有MAR活性的核苷酸序列。

本发明进一步针对一种用于鉴定非人类哺乳动物MAR序列的方法，包括：

提供至少一种非人类哺乳动物核酸分子，优选非人类哺乳动物基因组或其一部分。

令所述核酸分子经受针对MAR序列的一个扫描过程，包括：

设定用于待评估核酸分子的窗口大小，

选择至少1个或至少2个，优选3个，更优选4个或更多个MAR相关特征，

设定用于表现这个/这些特征的序列的阈值，以及

选择超过这些阈值的MAR候选核苷酸序列，

确定通过包含所述非人类哺乳动物MAR核苷酸序列的表达系统转化人和/或非人类哺乳动物细胞时，所述非人类哺乳动物MAR核苷酸序列使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。

因此，该特征可以为DNA弯曲角度，其值乘以窗口值得到在约320和1320之间的乘积值，例如约420和约1220、约520和约1120、约620和约1020、约720和约920；因此，该特征可以为大沟深度值，其乘以窗口值得到在约900和约4000之间、例如约1200和3700、约1500和约3400、约1800和约3100、约2100和约2800的乘积值以及/或者因此，该特征可以为小沟深度值，其乘以窗口值得到在约500和约2500、例如约750和约2250、约1000和约2000、约1250和1750的乘积值。

本发明还针对MAR构建体，包括：

(a)(i)分离的核苷酸序列，包括已鉴定MAR末端区域的至少一部分，以及

(ii)另外分离的核苷酸序列，包括所述已鉴定MAR或另一已鉴定MAR的约10％、约15％、约20％、约25％、约30％或者更多；或者

(b)(i)一个核苷酸序列，具有与(a)(i)中核苷酸序列约90％、约95％、约96％、约97％、约98％、约99％的序列一致性，以及

(ii)一个核苷酸序列，具有与(b)(i)中核苷酸序列约70％、约80％、优选约90％、约95％、约96％、约97％、约98％、约99％的序列一致性。

根据本发明所述的其他MAR构建体包括：

连续排列的已鉴定MAR序列区域或其一部分，其中顺序和/或方向不同于已鉴定MAR序列。

此外，根据本发明所述的其他MAR构建体还包括：

(a)一个核心核苷酸序列，包括

(i)至少一个分离的或合成的已鉴定MAR序列的富含AT区；或

(ii)至少一个与(a)(i)中富含AT区具有至少80％、85％、90％、95％、98％或99％序列一致性的富含AT区，

(b)一个核苷酸序列，包括至少一个与(a)中所述核苷酸序列相邻的DNA蛋白质结合位点，其中所述结合位点是

(i)另外已鉴定MAR序列的DNA蛋白质结合位点，

(ii)(a)中已鉴定MAR序列的DNA蛋白质结合位点，其中在该已鉴定MAR序列中，所述DNA蛋白质结合位点位于(a)的核心核苷酸序列外部，或者

(iii)存在于(a)的核心内但与至少一个另外DNA蛋白质结合位点相邻的第一DNA蛋白质结合位点，其中在(a)的核心内，该第一和至少一个所述另外DNA蛋白质结合位点中不相邻，或者

(iv)非MAR序列的DNA蛋白质结合位点。

本发明还针对包括任何列举的MAR构建体的表达系统、包括列举的表达系统的试剂盒以及任何该MAR构建体、表达系统、细胞、转基因的非人类动物、本文所提到的试剂盒和/或方法在(1)生成蛋白质例如识别人病原体蛋白质或人细胞表面蛋白质的抗体，以及蛋白质诸如促红细胞生成素、干扰素或其他治疗性或诊断性蛋白质的应用以及/或者(2)在体外、体内基因治疗、细胞治疗或组织再生治疗中的应用。

附图说明

图1示出了各种MAR对重组绿色荧光蛋白(GFP)生成的影响。

图2示出了各种人类和小鼠MAR元件对CHO细胞中重组绿色荧光蛋白(GFP)的极高生产者(％M3)的百分位数的影响。

图3示出了各种人类1_68和小鼠S4 MAR元件对重组绿色荧光蛋白(GFP)表达的影响。

图4示出了小鼠MAR元件对重组单克隆抗体生成的影响。

图5示出了稳定的多克隆种群可从用促使IgG重链和轻链表达的载体转染的CHO细胞群中产生，该载体无MAR(没有MAR)或以顺式加入MAR S4。

图6(A)和(B)示出了稳定的单个克隆可通过限制性稀释来自促使IgG重链和轻链表达的载体转染的CHO细胞群中生成，在(B)中无MAR(没有MAR)或以顺式加入MAR S4和MAR 1_68。

图7(A)和(B)示出了在(A)中无MAR和在(B)中有MAR时基因(GFP)随时间的表达情况(2周和26周)。

图8(A)和(B)示出了人类1_68MAR的弯曲(A)和序列(B)特征。

图9(A)至(C)：(A)示出了通过已鉴定区域组合得到的不同MAR构建体及所获得转录增强；(B)示出了MAR构建体6的的弯曲模式；(C)提供了结构参数的细节例如MAR构建体6的结合位点。

图10示出了各种MAR S4构建体对重组绿色荧光蛋白(GFP)表达的影响，如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。

图11示出了重组绿色荧光蛋白(GFP)表达所衍生的各种MARS4构建体，如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。

图12示出了人类1_68MAR的可能转录因子结合位点图谱，如通过MATInspector软件所预测的。

图13是用来测试合成MAR活性的质粒的图谱，该合成MAR是用富含AT的核心(MAR 1429-2880)和用于转录因子(置于启动子和绿色荧光蛋白质(GFP)上游)的化学合成DNA结合位点组合而构建成的。

图14图示了通过如图13中所述而构建的合成MAR的增强转录。

图15图示了通过包含表5中所列出的DNA结合位点的合成MAR的增强转录。

具体实施方式

本发明涉及来自非人类动物的分离并纯化的MAR序列、鉴定这些序列的方法以及采用这些序列用于在人类细胞以及非人类细胞如啮齿动物细胞中生产高产量蛋白质的系统。

本发明还针对MAR构建体特别是增强的MAR构建体、表达系统以及采用这些MAR构建体的试剂盒及其在蛋白质生产特别是大规模生产和治疗中的应用。

除非另外声明，本文采用的所有技术和科学术语均具有与本发明所涉及技术领域中普通技术人员通常理解的相同意思。尽管不同于本文所述的方法和材料可用于实施本发明，下文描述了示例性的适当方法和材料。

根据本发明所述的表达盒是包括至少一个基因以及该基因转录所需元件的核酸。

根据本发明所述的启动子是DNA的调节区域，当其位于基因上游时，促进该基因的转录。

细胞内表达例如在非人类哺乳动物细胞中的表达在本文中指的是体外和体内表达。体外表达包括例如在细胞系如HeLa细胞系或CHO细胞系以及体外基因治疗中使用的细胞内表达。体内表达包括在转基因的非人类动物中表达以及在体内基因治疗或体外基因治疗中使用的将该细胞重新导入人类基因治疗受体后在人类细胞内的表达。

根据本发明所述的哺乳动物细胞，例如非人类哺乳动物细胞，能够在细胞培养条件下保存。该类型细胞的一个非限制性实例是中国仓鼠卵巢(CHO)细胞。

根据本发明所述的MAR构建体、MAR元件、MAR序列、S/MAR或仅仅MAR是与天然发生的“SAR”或“MAR”共有一个或多个(例如2个、3个或4个)特征且具有至少一个促进任何受所述MAR影响的基因的蛋白质表达的特性的核苷酸序列。MAR构建体还具有一个特征，即为具有MAR活性特别地具有转录调节优选增强活性的分离和/或纯化的核酸，但还具有例如表达稳定活性和/或其他以“增强的MAR构建体”阐述的活性。MAR构建体还可根据其主要基于的已鉴定MAR加以定义：因此，MAR S4构建体即一种大部分核苷酸(＞50％)基于MAR S4的MAR构建体。根据一种广泛接受的模型，天然发生的SAR或MAR介导特异DNA序列与核基质的锚定，所产生的染色质环状结构域从异染色质的核心向外延伸。尽管SAR或MAR不包含任何明显的共有序列或可识别序列，但看来其最一致的特征是高的总体A和T含量，且碱基C主要位于一条链上。通常MAR倾向于形成弯曲的二级结构，其可能易于发生链分离。SAR和/或MAR内部常常存在几个A和T含量高的简单基序，但对于其大部分而言，尚未明确其功能重要性和可能的作用方式。这些包括A盒、T盒、DNA解链基序、SATB1结合位点(H-box、A/T/C25)以及用于脊椎动物或果蝇属的共有拓扑异构酶II位点。

根据本发明所述的MAR候选物或MAR候选序列，是与天然发生的SAR或MAR共有1个或多个特征例如2个、3个或4个特征的序列。

根据本发明所述的已鉴定MAR或已鉴定MAR序列是已分离的核苷酸序列，且相当于天然发生的MAR序列，因为它包括实现充分促进其天然对应物蛋白质/基因表达的所有区域(“模块”或“元件”)。

一个已鉴定的MAR的这些模块(本文中也称之为“区域”、“DNA区域”、“部分”、“结构域”)就是允许对天然发生的MAR的能力实现蛋白质/基因表达的增强所必需的全部条件。这些模块通常均不能单独获得该MAR的全部活性。这些区域中一部分是序列特异的，例如下文所述富含AT二核苷酸的弯曲区域以及转录因子结合位点(TFBS)区域。其他“区域”由其定位而表征，例如已鉴定MAR序列的5’和3’末端区域。

富含AT/TA二核苷酸的弯曲DNA区(下文称为“富含AT区”)是包含大量A和T特别是二核苷酸AT和TA形式的弯曲DNA区。在一个优选的实施方式中，在一段100个相邻碱基对中，其包含至少10％的二核苷酸TA和/或至少12％的二核苷酸AT，优选在一段100个相邻碱基对中(或者，如果富含AT区长度更短，则分别位于一条更短链上)，其包含至少33％的二核苷酸TA和/或至少33％的二核苷酸AT，同时具有弯曲的二级结构。然而，该“富含AT区”可以短至约30个核苷酸或更少，但优选长约50个核苷酸、约75个核苷酸、约100个核苷酸、约150个、约200个、约250个、约300个、约350个或约400个核苷酸或更长。

如下文将讨论的，富含AT区可通过例如其相对较高的弯曲角度而与邻近区域如结合位点区相区别。某些结合位点还常常具有相对较高的A和T含量如SATB1结合位点(H-box，A/T/C25)以及用于脊椎动物和果蝇属的共有拓扑异构酶II结合位点。然而，一个结合位点区(模块)，特别是包括一簇结合位点的一个TFBS区，可通过比较这些区域的弯曲模式将A和T含量高的结合位点与富含AT和TA二核苷酸的区域(“富含AT区”)容易地区别开。例如，对于人类MAR 1_68，后者可具有超过约3.8或约4.0的平均曲率度，而TFBS区则可具有低于约3.5或约3.3的平均曲率度。已鉴定MAR区域如本文其他部分所述，可通过可替代方式例如但不限于解链温度确定。然而，这些值是种属特异性的，并因此可随种属而不同，并例如可以更低。因此，各个富含AT和TA二核苷酸区域可具有更低的曲率度例如从约3.2至约3.4，或从约3.4至约3.6，或从约3.6至约3.8，且TFBS区可具有按比例更低的曲率度，例如低于约2.7、低于约2.9、低于约3.1、低于约3.3。在SMAR Scan II中，将由熟练技术人员选择各自更低的窗口值。

根据本发明所述已鉴定MAR/MAR序列的末端区域包括已鉴定MAR的至少约5％、约6％、约7％、约8％、约9％或约10％。

结合位点或DNA蛋白质结合位点是任何可以结合DNA结合蛋白质的核苷酸序列。用于DNA结合蛋白质的结合位点通常是TFBS。TFBS是可以结合转录因子的任何序列。TFBS可以为任何来源例如但不限于人类或小鼠。TFBS还可以为改造的或合成的。然而，在某些实施方式中，该TFBS在MAR序列例如相同生物、相同种或相同属的MAR序列中具有对应物。然而，TFBS可以来自不同种或不同属的MAR序列。此外，MAR序列中不含有目前已知对应物的TFBS也在本发明的范围之内。这种TFBS可包括但不限于用于USF1(上游刺激因子1)或锌指蛋白质CTCF的结合位点。TFBS可由1、2、3、4、5或更多个取代、添加和/或缺失而修饰，且可全部或部分合成。优化的TFBS，即具有对各个DNA结合蛋白质的最优结合亲和性且常常不具有已知的天然对应物，也在本发明的范围之内。那些优化的TFBS可通过对天然发生的TFBS进行上述修饰或者通过合成特别是化学合成而得到。在本发明的某些实施方式中，通过例如结合于组织特异性天然的、改造的或合成的调节蛋白质或者其他例如可对特定药物和分子起反应的天然的、改造的或合成蛋白质，结合位点或TFBS赋予MAR组织特异性。基因和/或细胞疗法是从组织特异性以及MAR对某些药物发生特异性反应(即，其可由药物诱导)的能力受益的典型例子。前者，该例如感兴趣基因将仅在特异器官或组织中表达，后者，表达则可例如仅在对某药物起反应时而启动。转录因子(其可能包含TFBS)的其他非限制性实例为例如SATB1、NMP4、MEF2、S8、DLX1、FREAC7、BRN2、GATA 1/3、TATA、Bright、MSX、AP1、C/EBP、CREBP1、FOX、Freac7、HFH1、HNF3α、Nkx25、POU3F2、Pit1、TTF1、XFD1、AR、C/EBPγ、Cdc5、FOXD3、HFH3、HNF3β、MRF2、Oct1、POU6F1、SRF、V$MTATA B、XFD2、Bach2、CDP CR3、Cdx2、FOXJ2、HFL、HP1、Myc、PBX、Pax3、TEF、VBP、XFD3、Brn2、COMP1、Evil、FOXP3、GATA4、HFN1、Lhx3、NKX3A、POU1F1、Pax6和/或TFIIA。

如果该核心核苷酸序列与该结合位点由不超过约200个优选不超过约100个核苷酸，甚至更优选不超过约50个核苷酸，甚至更优选不超过约25个、不超过约15个、不超过约5个或无核苷酸而隔开，则称结合位点如TFBS与核心核苷酸序列相邻。在一个优选的实施方式中，结合位点特别是TFBS本身在TFBS每一侧面上均包括更短的接头或适配子(可达25个核苷酸)。在一个甚至更优选实施方式中，TFBS是可达约50个核苷酸、约40个核苷酸或约30个核苷酸的寡聚物的一部分。一系列结合位点，例如根据本发明所述TFBS，是一列彼此按顺序排列的TFBS。如果该系列中与核心邻近的TFBS具有上文指定的距离，则称该系列TFBS与核心核苷酸序列相邻。如果该结合位点是核心核苷酸序列的一部分且在天然发生的MAR中相同位置具有对应物，则称该结合位点位于“富含AT区”侧翼。

结合位点可由1、2、3、4、5或更多个取代、添加和/或缺失而修饰。优选地，导入这些取代、添加和/或缺失，从而使得该结合位点与各个结合位点的共有序列匹配。

多种增强的MAR构建体都是本发明的一部分，且具有构成相对天然发生的和/或已鉴定MAR增强的性质，其中根据本发明所述MAR构建体可基于天然发生的和/或已鉴定MAR，特别是天然发生的MAR(核心核酸序列基于此)。这种性质包括但不限于相对于天然发生的和/或已鉴定MAR全长的长度减少、基因表达/转录增强、表达稳定性增强、组织特异性、可诱导性或它们的组合。因此，增强的MAR构建体可例如包括少于已鉴定MAR中核苷酸数量的约90％、优选少于约80％、甚至更优选少于约70％、少于约60％或少于约50％。用所述构建体转染适当细胞时，MAR构建体可促进基因表达和/或基因转录。在本发明正文中，如果提到MAR构建体/MAR(核苷酸)序列“促进表达”、具有“基因表达增强活性”、“促进蛋白质表达”或类似的，该“促进”是相对于例如基因在其他同等条件但无该序列时的表达而言的。该促进可为例如约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍或约15倍、约20倍或约25倍或更多。

MAR构建体还可增加极高生成细胞的平均百分位数达约5倍、约10倍、约15倍或更多。因此，除了更高的平均基因表达，极高表达细胞百分位数的增加以及稳定(“抗性”)克隆(约100％、约200％、约300％或约400％或更高的增加)形成，以及/或者更低的表达变异性(cv(变异系数)下降约30％、约40％、约50％或更多))也在本发明的范围之内。

MAR构建体或类似物可“增强表达稳定性”。该“增强”是相对于例如基因在其他同等条件但无该MAR构建体/MAR序列时的表达而言的。稳定性增强可例如在达到约5、10、20、25、30、35、40、45或50周之后仍保持100％增加。MAR构建体可对例如肌肉、肝脏、中枢神经系统或其他组织是特异的和/或可在给予诸如抗体、激素和/或代谢中间物时而诱导。

MAR构建体/MAR序列优选可插入启动子区的上游，而感兴趣基因是或者可以可操作性连接于该启动子区。然而，在某些实施方式中，将MAR构建体定位于感兴趣基因/核苷酸序列的上游以及下游或者仅下游则是有好处的。其他多种顺式和/或反式MAR排列也在本发明的范围之内。

MAR构建体或MAR的一个区域可称为基于例如已鉴定MAR或已鉴定MAR的一个区域，如果其与天然发生的“SAR”或“MAR”或者其各自的区域共有一个或多个(例如2、3或4个)特征且具有至少一个可促进任何受所述MAR影响的基因的蛋白质表达的性质。按照本文提供的术语定义，这些MAR构建体或MAR区域通常与其所基于的已鉴定MAR具有“大体一致性”。尽管存在这些和/或其核苷酸序列的修饰，其仍将保持该已鉴定基础MAR的至少一种功能性/特征。

本发明还涉及MAR构建体包括增强的MAR构建体的应用，在这些应用中，MAR构建体还可与一种或多种非MAR表观遗传学的基因调节工具例如但不限于组蛋白调节物比如组蛋白脱乙酰基酶(HDAC)、其他DNA元件如基因座控制区(LCR)、隔离子如cHS4或抗阻遏物元件例如稳定剂和抗阻遏物元件(STAR或UCOE元件)或者热点(突变)(Kwaks THJ and Otte AP)。

合成的，当用于述及MAR/MAR构建体时，指MAR的设计不仅仅涉及到已鉴定MAR或其所基于的MAR序列/区域或局部区域的简单重组、复制和/或缺失。特别地，合成MAR/MAR构建体通常包括已鉴定MAR的一个或多个优选一个区域，然而，在某些实施方式中，其可为合成的或修饰的以及特别设计、良好表征的元件，如单个或一系列TFBS，在一个优选实施方式中其通过合成而得到。在多种实施方式中，这些设计元件都相对较短，特别地，其通常不长于约300bp，优选不长于约100、约50、约40、约30、约20或约10bp。在某些实施方式中，这些元件可被多聚化(multimerized)。

根据本发明所述的非人类哺乳动物MAR是至少部分通过非人类哺乳动物生物的基因组或者部分基因组而确定的MAR/MAR序列。这包括例如通过分析啮齿动物类基因组例如但不限于小鼠基因组而鉴定的MAR/MAR序列。

根据本发明所述的载体是能够转运另一种已与其连接的核酸分子的核酸分子。例如，质粒是一种载体，逆转录病毒或慢病毒是另一种载体。

根据本发明所述的转染是将核酸导入受体真核细胞内，例如但不限于通过病毒载体或通过化学方法进行电穿孔、脂质转染。

本文中使用的转化指的是通过加入核酸而修饰真核细胞。例如转化细胞可包括例如通过电穿孔将DNA载体导入细胞内而用核酸转染该细胞。然而，在本发明的多种实施方式中，将本发明所述的增强MAR导入细胞内的方式，不限于任何特定的方法。

转录指从DNA模板合成RNA。

顺式指两个或多个元件(如染色质元件)在同一核酸分子例如但不限于在同一载体或染色体上排列。

反式指两个或多个元件(如染色质元件)在两个或多个核酸分子例如但不限于两个或多个载体或染色体上排列。

一个序列如果表现出顺式/反式定位的活性，则称其在例如基因上顺式和/或反式发挥作用。

根据本发明所述的窗口描述了在SMAR Scan过程中用于评估MAR的碱基对数量。该数量通常为约50bp、约100bp、约200bp、约300bp。然而，400、500、600或更多bp的窗口也在本发明的范围内。

如果与另一个核苷酸序列(或其互补链)具有最佳排列(具有恰当的核苷酸插入或缺失)时，在核苷酸碱基的至少约60％、通常至少约70％、更通常至少约80％、优选至少约90％、且更优选至少约95-98％存在核苷酸序列一致性，则核苷酸序列或其片段与另一序列具有大体一致性。

一致性指的是两个核苷酸序列之间的序列相关程度，如通过两串这种序列如全长且完整序列之间的匹配一致性所确定的。一致性可易于计算。尽管存在多种方法测定两个核苷酸序列之间的一致性，术语“一致性”是熟练技术人员所熟知的(ComputationalMolecular Biology，Lesk，A.M.，ed.，Oxford University Press，NewYork，1988；Biocomputing：Informatics and Genome Projects，Smith，D.W.，ed.，Academic Press，New York，1993；Computer Analysis ofSequence Data，Part I，Griffin，A.M.，and Griffin，H.G.，eds.，HumanaPress，New Jersey，1994；Sequence Analysis in Molecular Biology，vonHeinje，G.，Academic Press，1987；and Sequence Analysis Primer，Gribskov，M.and Devereux，J.，eds.，M Stockton Press，New York，1991)。通常用来测定两个序列之间一致性的方法包括但不限于Guide to Huge Computers，Martin J.Bishop，ed.，Academic Press，SanDiego，1994，和Carillo，H.，and Lipman，D.，SIAM J Applied Math.48：1073(1988)中披露的那些方法。优选的测定一致性的方法经设计可给出两个待测序列之间的最大匹配。这些方法在计算机程序中进行编纂。优选用来测定两个序列之间一致性的计算机程序方法包括但不限于GCG(Genetics Computer Group，Madison Wis.)软件包(Devereux，J.，et al.，Nucleic Acids Research 12(1).387(1984))，BLASTP，BLASTN，FASTA(Altschul et al.(1990)；Altschul et al.(1997))。人们熟知的Smith Waterman算法也可用来测定一致性。

例如，核酸所包含的核苷酸序列与参照核苷酸序列具有例如95％的“一致性”，意思为该核酸的核苷酸序列等同于参照序列，只是该核苷酸序列可包括每100个参照核苷酸序列的核苷酸有达5个点突变。也就是说，为了获得其核苷酸序列至少95％等同于参照核苷酸序列的核苷酸，该参照序列中核苷酸的达到5％可缺失或被另一核苷酸取代，或者占参照序列总体核苷酸达5％的核苷酸数量可插入该参照序列中。参照序列的这些突变可发生于该参照序列的5’或3’末端位置或者这些末端位置之间的任何位置，在该参照序列的核苷酸之间单个散开或者在参照序列内以一个或多个相邻基团而散开。

核苷酸序列的功能片段也是本发明的一部分。只要它们具有天然发生的对应序列的预期功能，特别是增加受其影响的基因的表达，则认为片段是功能性的。如果其缺失降低了MAR/区域增强转录的活性但未彻底将其灭活，则仍认为MAR/MAR区域的片段是功能片段。“完全功能片段”是这样一个片段，即当该片段(没有其他MAR序列)应用时，其中活性的任何降低，只要可观察到，均不能用统计学验证。此外，按照本文所提供的定义，与例如天然发生的MAR、已鉴定MAR、MAR区域或者这些中任何一种的片段具有大体一致性的功能片段也包括在本发明的范围之内。

在本文中将详细阐述的，在某些实施方式中，其模块或部分可被重组、复制和/或经受缺失。本领域熟练技术人员将认为，区域的这种重组和/或复制可形成例如新的酶切位点，其随后可形成如此所得构建体的新酶切方式，且可引起序列长度的调整。那些调整可影响但不限于1、2、3、4、5、6、7、8、9、10、10至15、15至20、20至25、25至30、30至35、35至40个核苷酸。这些调整以及其他修饰也在本发明的范围之内。该重排的MAR特别是重组和/或复制的MAR的序列，按照本文提供的定义与其各个元件(或者区域/模块)和/或片段具有大体一致性，也在本发明的范围之内。

MAR序列可从植物转移到哺乳动物细胞，反之亦然，且在异源宿主细胞内将保持核基质附着活性[Breyne P，Van Montagu M，Depicker A and Gheysen G，Mielke C，Kohwi Y，Kohwi-Shigematsu Tand Bode J]。考虑到MAR功能在所有高级真核生物中的这种保守性，人们将预期来自一个属的MAR序列在其所来源的属内与另一属内均可发挥作用。

然而，推断啮齿动物来源的MAR序列可以某种方式有利于生成重组蛋白质，可利用SMAR Scan I筛查整个小鼠基因组以鉴定MAR候选序列，如下文所述，SMAR Scan I是一种检测DNA序列结构特征(例如DNA弯曲)的计算机程序。

如下文将讨论的，意外地发现非人类特别是啮齿动物(这里是小鼠)MAR序列在例如CHO细胞以及人类细胞如HeLA细胞中的表达增强更加有效。甚至更意外的是，发现某些非人类MAR序列在非人类细胞例如CHO细胞以及人类细胞例如HeLa细胞中基本上均比人类MAR序列工作得更好。

已证实，新鉴定的小鼠源S/MAR DNA序列中有几种可增加转基因的表达，从而提供了证据即MAR Scan I(一种设计用于人类MAR序列并用其测试的程序)是一种用于鉴定来自例如除人类之外小鼠来源的大量基因组来源的S/MAR元件的有效工具。然而，重要的是，发现通过筛查啮齿动物(例如小鼠)基因组比筛查人类基因组可鉴定更加有效的MAR元件。特别地，本发明证实了来自小鼠基因组的高活性S/MAR元件可增加多种细胞特别是小鼠和人类细胞中重组蛋白质例如具有药学用途的重组蛋白质的生产。已证实小鼠S/MAR S4是新分离的小鼠MAR以及之前克隆的人类MAR中最有效的。因此本发明针对具有增强的蛋白质生成的非人类MAR和/或增强随时间蛋白质表达稳定的MAR。

SMAR Scan I是一种软件工具，其基于这些序列的结构和理化特征鉴定MAR候选序列。其他地方已经提供了对该方法的详细论述(Mermod et al的美国专利公开文件20070178469)。基本上“SMAR Scan”阐述的生物信息学工具，包括可识别图谱的算法，其可根据二核苷酸质量-基质来计算DNA构象和理化性质的理论值。优选地，SMAR Scan利用大小不同的扫描窗口以多种不同组合来评估对应于DNA弯曲、大沟深度和小沟宽度潜在可能性、解链温度的DNA序列特征。对于每一个特征，已经设定了截断值或阈值。每一次当给定区域计算出的分数高于设定的截断/阈值时，程序记录一次。

现在有两种数据输出模式可处理这些采样数，第一种(称“图谱样”)简单返回查询序列上的所有采样位置及对所选不同标准其相应的值。第二种(称“连续采样”)仅返回几个连续采样的位置及其对应序列。对于该模式，连续采样的最低数量是可设定的另一个截断/阈值且具有可调的窗口大小。为了调节用于例如四种理论结构标准的默认截断/阈值，可采用例如来自SMARt DB经实验验证的MAR。在该方式中，例如，来自数据库的全部人类MAR序列通过SMAR Scan利用“图谱样”模式进行检索分析，该模式具有4种标准，且未设定截断/阈值。这将允许设定每一个用于序列每个位置的函数。随后根据这些数据计算每种标准的分布(见Mermod etal的美国专利公开文件20070178469的图1和图3)。

尽管优选应用SMAR Scan技术用于MAR序列的鉴定，本领域的普通技术人员将认识到其他可用于鉴定选择性类似或甚至稍微更低的S/MAR模序的生物信息学工具也可用于本发明中。优选地，这些工具可设定，使得仅那些表现出这些高于某个值(即设定的阈值或截断值)的特征的MAR相关特征可得到或经设定可得到阳性采样。然而，许多用来鉴定MAR的生物信息学工具被设计用来鉴定基质结合活性。该活性并非必须与增加基因表达的能力相关[Phi-Van，L.& Stratling，W.H.]。

SMAR Scan I已被开发用来鉴定人类MAR，因此，其利用从已知人类MAR收集的结构数据而开发。一个人类经“调节”的SMAR Scan I程序用于本发明中评估小鼠基因组的MAR序列。然而，小鼠和人基因组碱基组成的差异妨碍应用具有的前定义设置(用来扫描人基因组)的SMAR Scan程序(Mermod et al的美国专利公开文件20070178469)。因此必须通过反复实验确定独特的窗口大小和结构参数阈值，直到该程序将能够鉴定易处理的候选小鼠MAR序列集合。测试时，发现那些序列中有几种是“超级MAR序列”，例如当置于含有编码各个蛋白质的基因的载体上并导入啮齿动物细胞系内时，这些MAR序列可使蛋白质生成的大大提高。

小鼠MAR S4和小鼠MAR S46是本发明范围内的啮齿动物MAR序列实例。这些MAR序列在所附的序列列表中以SEQ ID No.3和SEQ ID No.10示出。然而，本领域的普通技术人员将理解，碱基对插入、缺失、取代特别是本身可能包含碱基对插入、缺失或取代的这些以及其他非人类MAR片段只要其保持野生型序列的预期功能特别是增加受其影响的基因的表达，即属于发明的范围之内。例如，一个降低MAR序列的转录/基因表达增强活性但未彻底使其灭活的插入被认为基本未干扰MAR的预期功能，这里为促进基因表达。类似地，例如一个已鉴定MAR的片段相对于该已鉴定MAR具有的转录增强活性稍微降低但并未完全丢失转录增强活性，可认为其是功能片段。“完全功能片段”是这样的片段，即其中活性的任何降低，如果可观察到，也不能通过统计学而证实。如本文中其他部分详细描述的，与天然发生的MAR或其片段的核苷酸序列具有“大体一致性”的序列也包括在本发明的范围之内。

MAR的模块性

对已鉴定MAR进行分析，以确定其是否包含模块(或区域)特别是序列特异性模块，其可用于改造已鉴定MAR或生成合成的MAR，包括包含合成区域的MAR。实际上，可确定已鉴定MAR的几种序列特异性模块。意外地，发现某些模块或其部分的组合和/或全部或部分复制甚至缺失得到增强的MAR，如上文所述。人类1_68MAR和小鼠S4MAR将用作通过区域组合、缺失和/或复制而产生MAR构建体的模型。然而，正如本领域熟练技术人员所易于理解的，本发明是针对操作任何已鉴定MAR以及从其得到的MAR构建体。对于调节不同MAR包括不同来源的MAR可能必需的恰当调整，已为普通技术人员所掌握。实例包括但不限于真核生物优选哺乳动物，特别是诸如小鼠的模型生物，以及具有经济重要性的种属例如牛、猪、羊以及人类。

人类MAR的模块性

人类1_68MAR用作通过区域组合和/或复制而产生MAR构建体的模型。利用如下文所述确定的模块或其部分，可基于已鉴定MAR如人类1_68MAR产生MAR构建体。特别地，该MAR构建体利用区域(模块)或其部分的组合和/或复制而产生。

该1_68MAR的实例证明，一个已鉴定MAR的模块(本文中也称为区域或元件)就是允许对天然发生的MAR的能力实现基因表达的增强所必需的全部条件。已鉴定模块中没有一个能够独自获得MAR其自身的全部活性。意外的是，发现某些模块的组合以及全部或部分复制可引起基因表达的进一步增强。

已鉴定了几种非重复(non-redundant)的序列特异性模块(区域)。这些模块协同影响局部染色质结构。MAR的该构造有点类似于多细胞动物转录的控制：模块的不同组合，其从起始位点分散达几kb，共同控制转录起始位点。

已鉴定的序列特异性模块特别是(1)A和T含量高的区域如对称的富含A-T区(A和T交替)特别是“富含AT区”以及(2)富含结合位点特别是但不限于由富含A-T区隔开的TFBS的区域。

已有文献报道，A和T含量较高的弯曲DNA通常存在于启动子区、MAR和复制子中[Aladjem and Fanning 2004])。之前认为A和T含量高的序列(如上文所述的“对称”序列以及“非对称”序列，后者序列的一条链上主要是A，另一条链上主要是T)主要有利于双链体打开。然而，这些区域可能具有广泛的功能。例如，核纤层蛋白质B2复制区中A和T含量较高的序列结合复制起点识别复合体(ORC)[Abdurashidova，Danailov et al.2003；Stefanovic，Stanojcic et al.2003]，并可促进Mcm4/6/7解螺旋酶的加载以及体外双链DNA的解链[You，Ishimi et al.2003]。还认为A和T含量较高的固有弯曲DNA具有构造作用。裂殖酵母ORC4的“AT钩状DNA结合基序”类似于高活动性蛋白质HMG-I/Y的那些序列，可能具有构造作用[Strick and Laemmli 1995；Bell 2002]。还可形成蛋白质介导的弯曲，类似于HMG-I/Y介导的促进V(D)J重组的DNA弯曲，以及真核生物中增强子和启动子处转录复合体的装配和稳定[Levine and Tjian 2003]。并非所有A和T含量高的区域均对应弯曲DNA。然而，那些弯曲DNA可作为“组蛋白质磁体”吸引组蛋白质，在该弯曲DNA正上方形成核小体，使邻近区域留出空间作为复制/转录前蛋白质的着陆区。

如上文所述，MAR还包括用于其他蛋白质的结合位点特别是在“富含结合位点区”或仅“结合位点区”(见上文(2))。那些其他蛋白质可包括但不限于DNA解旋元件结合蛋白质(DUE-B)以及转录因子例如Hox蛋白质、SATBI、CEBP等，如在1_68MAR中发生的。突变分析表明这些结合位点促进MAR的功能。

人类1_68MAR可通过反转其方向以及通过移去弯曲DNA以增大启动子区上游转录因子的结合位点区而得以改良。如在图9中可以看到的，大量这种重排MAR(例如构建体6)大大增强相对于无MAR构建体(10倍)甚至相对于包含天然发生的MAR构建体(构建体1和16；约2倍)的转录。所示出数据还强烈表明远端转录控制元件本身限制下游染色质中的转录起始。在天然发生的MAR中以正向阴影线框示出的位于该区域3’末端的223bp片段，相比构建体11，在构建体7中可保留该区域的全部活性。这表明，在这种情况下，该重要部分必须与该弯曲区域以及构建体6中该元件其余部分(核苷酸1-1425)的5’末端一起发挥作用。已发现两个HMG-I/Y位点位于该末端附近。构建体2示出，将两个已鉴定MAR序列连接在一起，也可增加表达。

小鼠MAR的模块性和长度减小

基于S4MAR(表3)构建了几种MAR，并对其加以表征(图10)。如在图10中可以看到的，内部缺失一个长于1600bp长的片段并未引起MAR活性的大幅度丢失(S4-1-703_2328-5457)。然而，缺失启动子附近795bp的片段，或用类似长度的荧光素酶基因片段取代该序列(S4_1-4661；S4_1-4661-Luc5489)，则引起该活性的完全丢失。

非序列特异性模块：3’末端MAR序列的活性

对人类1_68MAR(图9)进行的实验已经证明了人类1_68MAR的3’端HoxF和SATBI结合位点区域的重要性。该区域的重要性进一步通过图10中示出的以小鼠MAR S4进行的实验证明。如图11中所示出的，为了进一步分析MAR S43’末端序列的活性，通过去除或复制此部分进一步分解MAR该部分。图11也示出了不同MAR S4衍生物对基因表达的影响。有趣的是，一种具有截短3’末端的这种衍生物(原始MAR S4的4658-5054vs.4658-5457)，相比于更长的原始MAR S4序列，平均表现出轻微更高的转基因表达(104％vs 100％)。这表明可获得更加有效且更短的MAR元件衍生物。

因此，本发明包括长度大大短于其天然对应物且活性高的MAR构建体，因此其长度更方便用于例如载体设计和转移。

特别地，包括少于已鉴定MAR序列核苷酸数量约90％、优选少于约80％、甚至更优选少于约70％、少于约60％或少于约50％的MAR构建体属于本发明的范围之内。那些构建体优选包含已鉴定MAR的3’末端区域，甚至更优选已鉴定MAR/MAR序列3’末端区域的至少约5％、约6％、约7％、约8％、约9％或约10％。然而，包含已鉴定MAR的5’末端区域的MAR构建体也在本发明的范围之内。

合成的MAR

人类1_68MAR的重排证明，在某些实施方式中，一个位于已分离MAR正向阴影线部分3’末端富含Hox区域的223bp片段保留了全长区域的活性。这表明在本发明的某些实施方式中该部分可在与其他元件协同作用时比较重要。图12示出了MAR 1_68中一组可能的转录因子结合位点，如通过MATInspector软件预测的。C/EBP、NMP4、FAST1、SATB1和HoxF结合位点的位置作为实例示出，说明了其在5’(正向阴影线)侧翼序列中的富集。

发现富含AT的弯曲DNA区与人类MAR 1_68中转录因子结合位点之间可能的协同作用，促进了构建包含MAR 1-68中富含AT区(邻近一个或几个转录因子结合位点)的MAR/MAR构建体。图13描绘了用来测试合成MAR活性的质粒的图谱，该合成MAR从包括富含AT区以及位于该富含AT区每一个末端的已鉴定MAR的TFBS的核心(MAR 1429-2880)与转录因子的化学合成DNA结合位点(置于绿色荧光蛋白质(GFP)启动子上游)的组装而构建。图13特别示出了转录因子结合位点插入富含AT的结构域与促使GFP转基因表达的SV40启动子之间，模拟图9中存在的情形，其中，在最有用的情形(构建体6)中，包含结合位点的MAR部分插入启动子与弯曲DNA区之间。表4示出了所采用化学合成寡核苷酸的DNA序列。

从MAR 1-68序列(图12)中鉴定出了用于C/EBP、NMP4、FAST1、SATB1和HoxF(也称为Gsh)转录因子的结合位点。这些结合位点如其在MAR 1-68中存在的一样而应用，未作任何改变(FAST1、C/EBP、HOXF/Gsh)，或者如果与共有(即正确的)序列(HoxF，SatB1，NMP4)相比其含有一个或两个错配，则加以校正。

如从图14可以看出的，添加该(这里是)合成的结合位点在几乎所有的情形中一些(在某些情形中)提供显著的转录增强，可与包括富含AT区的核心MAR序列相比拟。C/EBP和Hox或Gsh2是最有效的，然后是SatB1和Fast1，而NMP4位点则不具有可检测的效应。

图14示出了一个意外的结果，即插入核心序列(侧翼是富含AT区所基于的已鉴定MAR的结合位点)，这里为基于MAR 1_68的MAR 1429-2880，未引起显著的表达增加，但另外包含一个或多个结合位点的MAR构建体，特别是当插入富含AT核心的下游但位于启动子上游时，则引起处于启动子控制之下基因的蛋白质表达/产量的显著增加(这里利用M3细胞的百分比而鉴定)。

尽管在优选的实施方式中，在富含AT核心的下游但位于启动子上游，还存在额外结合位点，但其他结构例如但不限于该核心的富含AT区上游、富含AT区内部、邻近富含AT区或者该基因下游的位点，也在本发明的范围之内。

在一个优选的实施方式中，蛋白质结合位点(合成的或分离的)的某些组合也在考虑之中，例如两种不同蛋白质结合位点的组合、3种不同蛋白质结合位点的组合、4、5、6、7、8、9、10或更多种蛋白质结合位点的组合。这些组合可全部或部分多聚化。在一个优选实施方式中，该组合包含Hox/Gsh和SATB1。在例如核心与适宜启动子之间插入这些组合或多聚化组合，相对于在其他同等条件下采用包含MAR构建体/MAR序列的载体时高表达克隆的形成，可使高表达子克隆形成增加约2倍或更多倍例如但不限于约3、4、5、6、7、8、9倍或更多倍，优选约10倍或更多倍，甚至更优选约11、12、13、14、15、16、17、18、19倍或更多倍或者约20或甚至约25倍或约30倍或更多倍。

简单而言，MAR构建体可从组成部件组装而成。这些组成部件可包括或基于已鉴定MAR或其部分的区域如特殊区域的序列、合成的组成部件(包括用来优化其功能的修饰)如一系列化学合成的转录因子结合位点(TFBS)、来自或基于非MAR序列的组成部件或者来自或基于不同种或属的MAR序列的组成部件。在一个优选实施方式中，这种MAR包括偶联于TFBS区的富含AT区或特殊的转录因子DNA结合位点组合，如表5中示出的那些组合。本领域中的熟练技术人员将理解，这些原则不限于本文披露的特殊序列或结合位点，并且其他衍生物、同系物或序列组合也在本发明的范围之内。

如上所述，本发明所述MAR构建体、表达系统和/或试剂盒可用于蛋白质生产。这里，可将MAR构建体包括入处于启动子控制之下已包含感兴趣蛋白质例如胰岛素的基因的载体中。将该载体导入细胞内并培养该细胞。随后将该过程按比例放大而用于胰岛素的大批量生产。高胰岛素生产例如比无MAR构建体时高3至5倍，可维持3周。

如上所述，本发明所述MAR构建体、表达系统和/或试剂盒可用于体外和/或体内基因治疗以及用于细胞和组织替代治疗，例如，在体外基因治疗中，可将MAR构建体包括入处于启动子控制下的已包含患者(需要体外基因治疗)缺乏的基因的载体中。随后，将MAR构建体导入细胞内例如患者的骨髓细胞。用MAR构建体转化后，将骨髓细胞导入患者体内，与无MAR构建体相比，感兴趣基因表达将高5倍的水平。这样，即可表达有效量蛋白质。

在体内基因治疗中，包含MAR构建体的载体可通过例如注射直接导入需要其的患者细胞内。

类似地，可将本发明的表达系统导入干细胞内用于组织再生的移植物，或者用于例如神经细胞疗法而治疗神经退行性疾病。可用于本发明该实例中的干细胞的非限制性实例，是从任何年龄个体的骨髓组织或新生儿脐带血中获得的造血干细胞(HSC)和间充质干细胞(MSC)。用根据本发明所述的表达系统转染干细胞，并将成功的转化体移植或重新导入需要细胞治疗或组织再生治疗的患者体内。现在存在几种方法用于获得转化的干细胞例如

(Cell Line Solution V(VCA-1003)、amaxa GmbH，Germany)。

转基因动物，其可产生大量蛋白质包括结合人类抗原的抗体，可利用已知方法生成(例如但不限于Lonberg et al提交的美国专利号5,770,428、5,569,825、5,545,806、5,625,126、5,625,825、5,633,425、5,661,016和5,789,650)。该表达系统和MAR构建体可用于蛋白质生产中，通过例如转基因牛、绵羊、山羊或猪，通常通过将蛋白质分泌入体液(例如奶)中。参见例如Meade et al的美国专利号5,750,172。关于转基因动物的生成还可参见Lubon et al.的美国专利6,518,482。

实例

本发明将在下面的实例中进一步阐述，而该实例不限制权利要求、本发明发明内容或本文其他部分中列出的发明范围。该材料、方法和实例仅为了举例说明而非出于限制的目的。在本文提供的指导下，本领域中的普通技术人员能够进行修改、添加和改进，这些均在本发明的范围之内。

小鼠基因组的S/MAR预测：SMAR Scan I

通过SMAR Scan I汇集并分析对应于NCBI m34小鼠组件的全部小鼠染色体序列。低严谨性和高严谨性筛查分别利用DNA弯曲标准阈值3.6度和最低窗口大小300bp或者阈值4.2度和最低窗口大小100bp而实施。

通过SMAR Scan I低严谨性分析小鼠全基因组，共得到1496个公认的S/MAR(候选MAR)，共占622,410bp(小鼠全基因组的0.024％)。表1示出了每一个染色体的大小、基因数量、所预测MAR的数量(候选MAR)、每个基因的MAR密度以及S/MAR之间的平均距离(kb)。该表表明，在不同染色体上，每一个预测S/MAR(候选MAR)存在各种的基因密度(标准差占每个MAR基因密度的约50％)。每个MAR较高与较低基因密度之间的倍数差是6，未考虑染色体Y，相对于其大小和其基因数量而言，染色体Y富含预测MAR(候选MAR)，表明这些MAR的分布存在强烈且意外的偏差。表1还示出了S/MAR之间的平均距离(kb/S/MAR)是可变的(标准差占每个S/MAR kb的平均值的38％，且每个S/MAR较高与较低kb密度之间的倍数差是8.3)。染色体10、11、X和Y明显使这些密度的标准差升高。

最初，SMAR Scan I设计用于人类序列，因而当利用最严谨参数时从小鼠基因组序列得到少量MAR：因此，对于高严谨性筛查(DNA弯曲标准的阈值4.2度)，将默认截断值调整至利用100bp而非300bp的窗口值时可认为MAR的最小连续采样数。利用大于4.2度的值的DNA弯曲标准，通过SMAR Scan I分析小鼠基因组预测出49个“超级”MAR。

表1：每一个小鼠染色体预测的S/MAR和“超级”S/MAR数量。

染色体	每个染色体的基因数量	染色体大小(百万bp)	所预测的S/MAR数量	所预测的超级S/MAR数量	每个S/MAR的基因密度	每个S/MAR的Kb
染色体	每个染色体的基因数量	染色体大小(百万bp)	所预测的S/MAR数量	所预测的超级S/MAR数量	每个S/MAR的基因密度	每个S/MAR的Kb	12345678910111213141516171819XY	1′3671′6131′1191′4391′4231′3411′9941′1691′2931′1071′7628249789848777521′1035767871′18622	195183160155151150142128124130122118115119104989391611642	92818869947082107571674461578057696235274750	433237334513114101000	14.919.912.720.915.119.224.310.922.76.640.013.517.212.315.410.917.816.529.125.20.4	2′1202′2591′8182′2461′6062′1431′7321′1962′1757782′7731′9342′0181′4881′8251′4201′5002′6002′2593′48940
SumMeanSd	23′7161′129430	2′60512443	1′4967130	4922	366178	39′4201′877716	12345678910111213141516171819XY		195183160155151150142128124130122118115119104989391611642	92818869947082107571674461578057696235274750	433237334513114101000

每一个染色体的基因数量对应于NCBI m34组件(assembly)(国家生物技术信息中心)。染色体大小是相应小鼠参考序列重叠群长度的总和。

利用新鉴定小鼠MAR增加重组蛋白质的产量

从利用SMAR Scan高严谨性筛查小鼠全基因组得到的公认MAR(候选MAR)中选择5个MAR元件。将它们从小鼠基因组DNA细菌人工染色体(购自儿童医院Oakland研究所(CHORI，http://bacpac.chori.org/))克隆入质粒载体中。

这些新鉴定的小鼠MAR被命名为S4、S8、S15、S32和S46(按照利用SMAR Scan I鉴定的顺序，“超级”MAR S1至S49)。之前已经鉴定了人类MAR 1_3、1_6、1_9、1_42、1_68、3_S5和X_S29，MAR 1_68和X_S29是最有效的人类元件(Mermod et al..“Highefficiency gene transfer and expression in mammalian cells by amultiple transfection procedure of MAR sequences，”WO2005/040377，还可参见Mermod et al的美国专利公开文件20070178469)。将这些MAR插入pGEGFP对照载体促进绿色荧光蛋白质表达的SV40启动子和增强子上游，并将这些质粒转染入培养的CHO细胞中，如之前曾描述的[Girod PA，Zahn-Zabel M and Mermod N]。然后利用荧光细胞分选器(FACS)分析整个稳定转染的细胞群中该转基因的表达。图1示出了各种S/MAR对重组绿色荧光蛋白质(GFP)生成的影响。示出了用包含或不包含MAR的GFP表达载体pGEGFP转染的CHO细胞群(如通过荧光激活细胞分选器(所示))和典型的图谱。该图中仅示出了最有效的人类MAR 1_68和X_S29。图谱显示了作为GFP荧光水平的函数而计算的细胞数量。示出了代表相对光单位荧光值小于2(M1)或大于10²(M2)或10³(M3)的细胞亚群M1，M2和M3的水平棒。

如从图1可以看出的，与仅由GFP而无MAR促进的表达相比，所有新鉴定的小鼠MAR均显著增加转基因的表达，其中“超级”小鼠MAR S4是所有示出MAR中最有效的。

表2：具体分析来自多克隆CHO细胞群的GFP荧光

用抗生素选择质粒和pGEGFP报告基因构建体或包含人类MAR 1_68和X_S29或者所指出小鼠S4、S8、S15、S32或S46MAR的pGEGFP衍生物共同转染CHO细胞。在2周内选择稳定转染的多克隆细胞群的抗生素抗性，并通过FACS分析测试GFP荧光，如图1中示出的。该表格示出了平均荧光值、其变异系数以及表现出的荧光值相对光单位小于2(M1)或大于10²(M2)或10³(M3)的细胞百分位数。这些结果是平均值，且平均值的标准差(SEM)从3次独立实验获得。

将最有效的人类MAR 1_68和X_S29的转录活性与通过新鉴定小鼠MAR获得的转录活性加以比较。最初用GFP表达分析测试5种小鼠MAR，并发现其均增加GFP的表达至不同的水平。小鼠MAR S15和S32是转录活性相对最低的MAR(与仅GFP相比，增加2倍)，S8和S46表现出中度活性(增加3至4倍)，且MAR S4表现出极高的转录活性(增加7倍)。而且，小鼠MAR S4是该研究所测试全部MAR中最有效的。比较人类MAR 1-68与小鼠MARS4之间的转录活性，表明全种群(Gmean MO)和高GFP生成细胞(M2)的平均荧光增加50％，而利用小鼠MAR S4的极高GFP生成细胞(M3)的百分位数高出175％。就GFP荧光来说，全种群的均质性(CV M0)总比用小鼠MAR S4时低1％至2％，这是有利的，因为其表现出更高的细胞生产稳定性。

第一轮克隆后，需要确定高活性MAR元件是否可始终从小鼠基因组获得。因而，对另外两个小鼠MAR(S6和S10)进行克隆和表征。将这些新鉴定的小鼠MAR插入pGEGFP对照载体中，并如上文利用FACS进行分析。在用FACS分析的全部不同参数中，小鼠MAR S10也表现出比最好的人类MAR更有效，且几乎与MARS4具有一样的转录活性，以增加整体表达。

为了评价极高生成细胞，将M3细胞的百分比标准化为人类MAR 1_68得到的百分位数。结果在图2中给出。图2示出了各种人类和小鼠S/MAR元件对极高重组绿色荧光蛋白质(GFP)生成细胞百分位数(％M3)的影响。通过荧光激活的细胞分选器(

)对通过如所示出的包含或不包含MAR元件的GFP表达载体转染的CHO细胞群加以分析。将极高生成细胞的百分位数标准化为对于这个标准最好的人类MAR(MAR 1_68)，将它的值设为100。

平均来说，小鼠MAR S10和S4分别比人类MAR 1_68多提供80％和180％的极高生成细胞。总体上，从7种小鼠MAR与7种人类MAR进行的比较，可以推断利用啮齿动物MAR可从CHO细胞获得较高的表达。

新鉴定的小鼠MAR在不同细胞类型中效果的评价

在CHO细胞中评价S4MAR的效应。此外，包含人类MAR1-68，小鼠MAR S4或不包含MAR的EGFP表达载体在人类HeLa细胞中稳定转染，并分析EGFP荧光。图3示出了各种人类1-68和小鼠S4 MAR元件对重组绿色荧光蛋白(GFP)表达的影响。HeLa细胞群如表2所述进行转染和分析。比较S4和1-68MAR在HeLa细胞中的效果，发现S4在几个方面胜过了1-68：S4产生更高的平均GFP荧光(平均Gmean M0)以及更多的中和高水平表达范围内的细胞(分别是M1和M2)和更低的表达变异(平均CV M0)。利用HeLa细胞未发现处于极高表达范围(M3)的细胞。

利用小鼠MAR增强单克隆抗体表达

为了确定小鼠MAR特别是最有效的MAR是否可用来增加药学应用的蛋白质生成，将其插入编码恒河猴-D识别的免疫球蛋白重链和轻链的pMZ37和pMZ59载体中[Miescher S，Zahn-Zabal M，DeJesus，M，Moudry，R，Fisch，I，Vogel，M，Kobr，M，Imboden，MA，Kragten，E，Bichler，J，Mermod，N，Stadler，BC，Amstutz，H.，Wurm，F]。将这些质粒转染入CHO细胞中，如前所述实施选择和免疫球蛋白分析[Girod PA，Zahn-Zabal M and Mermod N]。图4示出了S/MAR元件对重组单克隆抗体生成的影响。这里，CHO细胞用上述促进IgG重链和轻链表达的载体转染，其中该载体不包含MAR(没有MAR)，或包含顺式加入的MAR S4。24、48和72小时后，测定上清中的IgG滴度。此外，如图5中所示，从用上文提到的促进IgG重链和轻链表达的载体转染的CHO细胞群中产生稳定克隆，其中该载体不包含MAR(没有MAR)，或包含顺式加入的MAR S4。选择后，测定培养基中所分泌IgG的滴度，并利用细胞计数分析比生产率。图6(A)示出了通过限制性稀释从用促进IgG重链和轻链表达的载体转染的CHO细胞群产生稳定的单个克隆后获得的结果，其中该载体不包含MAR(没有MAR)，或包含顺式加入的MARS4。选择后，测定培养基中的分泌IgG滴度，并利用细胞计数分析比生产率。通过MAR 1_68获得的相当结果以及(B)中通过不含MAR的克隆获得的结果也包括在内。图3至6获得并描述的结果表明，新鉴定的小鼠MAR特别是MAR S4可用来提高药用蛋白质如单克隆抗体在瞬时转染子(图4)和稳定转染子(图5和6)中的产量。当利用MAR S4时，比生产率为约5pg/细胞/天(pcd)或以上的稳定克隆可易于通过分析几个候选克隆而鉴定(图6(A))。实际上，有或无MAR S4的情况下，21个最佳克隆的平均生产率分别为7.28±0.78pcd(图6(A))和2.61±1.09pcd。这些结果与通过已知鸡溶菌酶MAR(低于1.5mg/L)或无MAR时(低于0.5mg/L)获得的滴度水平形成对比。特别地，这些结果表明，新鉴定小鼠MAR可用来提高药用蛋白质例如但不限于单克隆抗体的产量，使得小鼠MAR如MAR S4对于重组蛋白质的生成特别有利。

利用人类MAR 1_68的表达稳定性

利用MAR 1_68证实，由不包含MAR的克隆产生的基因表达被逐步沉默，而包含MAR的等效克隆，不仅随时间保持高水平表达，且沉默细胞也恢复了表达。

图7示出了将包含MAR 1-68的pEGFP表达质粒与G418抗生素抗性基因共转染入CHO细胞内，且在G418存在时，选择稳定表达的细胞达3周，如Girod et al.，2005中所述。通过限制性稀释获得细胞克隆，并分析9个独立克隆的GFP荧光。两个种群中的每一个选择表达GFP的典型克隆用于进一步分析，并在抗生素选择存在或不存在的情况下继续培养达26周。左侧图谱表示培养2周后的GFP荧光水平(x轴)和细胞计数的值(Y轴)，而右侧图谱则从培养26周的细胞而获得。如可以看出的，缺乏MAR的克隆示出了在不存在抗生素的情况下，相对于2周后水平，26周后的GFP荧光水平有所降低，而包含MAR的克隆可在抗生素选择存在与否的情况下，保持26周时的GFP荧光水平，使得包含表达系统的MAR对于感兴趣基因的稳定表达非常有用。

MAR的模块性以及基因表达增强的相关性

MAR的结构分析揭示了每一个促进基因表达增强的DNA序列区/模块。图8描绘了通过1_68MAR结构分析获得的结果。在图8(A)中表明，中心富含AT区描绘了MAR 1_68基因座中的弯曲DNA。图8(B)表明，该富含AT区由富含转录因子结合位点的区域包围，如利用MatInspector鉴定的(Cartharius，Frech et al.2005)。利用MatInspector沿着MAR序列检测到精确的729个潜在的TFBS。图8(B)的下面部分示出了已鉴定区域的性质。

图9(A)示出了1_68MAR以及左侧的不同MAR，其整合了1_68MAR区域或部分且改变了该区域或其部分的顺序和/或方向以及/或者复制这些区域或它们的部分。右侧示出了由构建体1至16获得的转录增强程度以及由1_68MAR或无MAR时获得的转录增强。所示出的全部MAR序列均插入驱动eGFP基因标志物的启动子上游。箭头描绘了该区域或其部分相对于图8中所述野生型MAR序列的方向。富含AT区域周围的序列以带箭头(向左)的反向阴影线框和以带箭头(不成比例；向右)的正向阴影线框表示。弯曲区域以画有阴影交叉线的框示出。

图9(B)示出了MAR的弯曲模式，其对应于图9A中的构建体6。这些弯曲模式通过SMARScan I而确定。

图9(C)示出了MatInspector[Cartharius，Frech et al.2005]分析的结果。利用MatInspector[Cartharius，Frech et al.2005]鉴定潜在的转录因子结合位点(TFBS)。利用MatInspector沿着MAR序列检测到731个潜在的TFBS。在图9(C)的下部，利用对应于图8(B)和图9(A)的编码示出构建体6。该图下部的编码对应图9(A)中示出并讨论的编码。

图9中描述的实验表明该区域中没有一个可独立显示完全的MAR活性。例如，将来自天然发生的人类1_68MAR的DNA完全地增强转录需要3个独特序列(图8)：一个1189bp的节段，其包含用于多个转录因子的结合位点(即CEBP)(图9A顶部)，以带箭头的反向阴影线框示出，一个固有的弯曲DNA，其由一个763bp的对称富含AT区(A和T交替)描述(图9A顶部，画有阴影交叉线的框)以及额外的1648bp的节段，其包括多个HoxF和SATBI结合位点(图9A顶部，以带箭头的正向阴影线框示出)。

图9表明，通过移去该弯曲DNA以增加启动子区域上游转录因子结合位点区域的尺寸，可改善人类1_68MAR。为了实现该增加，将邻近富含AT区(SEQ ID.No.18)的转录因子结合位点(TFBS)区，这里是富含Hox的区域(SEQ ID No.19)(下文为带箭头的正向阴影线框)连接于富含CEBP的区域(SEQ ID No.17)(下文也为带箭头的反向阴影线框(图9))。比较如图9A中右侧描绘的所得不同MAR构建体的转录增强活性，表明带箭头的正向阴影线框的方向对于转录增强比较重要(比较构建体5和6)。所示出数据还强烈表明，远端转录控制元件本身限制下游染色质的转录起始。如果位于带箭头的正向阴影线框的3’末端的223bp片段(SEQ IDNO.20)保留构建体7中区域的全部活性，提示在该情形中，该重要部分必须与弯曲区域及构建体6中元件剩余部分(核苷酸1-1425)的5’末端协同作用。发现两个HMG-I/Y位点定位于该末端。

小鼠MAR的模块性和长度减少

根据人类1_68MAR的观察结果，也分析了S4MAR的模块特别是那些成就其转录活性的模块。实施该分析的目的是降低S4MAR的长度，而S4MAR相对较长。因而，从S4MAR构建了几种MAR(表3)并对其进行表征(图10)。图10左侧示出了特殊的MAR S4构建体，且右侧示出了各种MAR S4对重组绿色荧光蛋白(GFP)表达的影响，如通过分析全种群的平均荧光而揭示的(Avg GmeanM0)。转染了包含或不包含如所示出MAR构建体的GFP表达载体的CHO细胞群，通过利用FACScalibur细胞计数器(BectonDickinson)的流式细胞计数术加以分析。通过人类MAR 1_68获得的荧光(其值设为100)对全种群的平均荧光进行标准化，而GFP表示不存在MAR时的表达。其他MAR构建体按照其相对全长1547bp S4MAR的碱基含量而命名(见表3)。斑点框表示MAR S4中富含AT的弯曲区域，S_41-4662-Luc5489表示一个构建体，其中末端(3’)795个碱基对被去除并用荧光素酶基因的一部分(黑框)取代。有趣地是，从图10中可以看到的，发现1624-bpEcoRI片段可从S4MAR(S4-1-703_2328-5457)中缺失而未显著丢失其MAR活性。然而，缺失启动子近端795bp片段或用类似长度的荧光素酶基因片段取代该序列(S4_1-4661；S4_1-4661-Luc5489)，则引起该活性的彻底丢失。这表明小鼠S4MAR的某些变异体可表现出高活性，虽然长度更短，从而使得其更方便用于例如载体设计和转移。

表3：pGEGFP载体中的MAR S4构建体

S4构建体	描述
S4构建体	描述	S4(SEQ ID No.3)	来自杆粒RP23-444A8的5457bp AvaI插入片段
S4_1-703_2328-5457(SEQ ID No.4)	内部缺失1624-bp EcoRI片段	S4(SEQ ID No.3)	来自杆粒RP23-444A8的5457bp AvaI插入片段
S4_1-703_2328-5457(SEQ ID No.4)	内部缺失1624-bp EcoRI片段	S4_1-2395_4121-5457(SEQ ID No.5)	内部缺失1724-bp HindIII片段
S4_1-4661(SEQ IDNo.8)	内部缺失795-bp BglII片段，载体的MCS中存在BglII位点	S4_1-2395_4121-5457(SEQ ID No.5)	内部缺失1724-bp HindIII片段
S4_1-4661(SEQ IDNo.8)	内部缺失795-bp BglII片段，载体的MCS中存在BglII位点	S4_1-4661-Luc5489	S4_1-4661构建体，含有来自luc基因用BglII消化的828-bp PCR产物
S4_4662-5457(SEQID No.9)	795-bp BglII片段，载体的MCS中存在BglII位点	S4_1-4661-Luc5489	S4_1-4661构建体，含有来自luc基因用BglII消化的828-bp PCR产物
S4_4662-5457(SEQID No.9)	795-bp BglII片段，载体的MCS中存在BglII位点	S4_2328-4661(SEQID No.7)	S4的2333-bp EcoRI-BglII片段
S4_2328-5457(SEQID No.6)	S4的3129-bp EcoRI-AvaI片段	S4_2328-4661(SEQID No.7)	S4的2333-bp EcoRI-BglII片段

3’末端MAR序列的活性

为了进一步分析MAR S43’末端序列的活性，通过去除或复制其部分进一步分解MAR该部分。图11也示出了各种MAR S4衍生物对重组绿色荧光蛋白质(GFP)表达的影响，如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。CHO细胞群如上所述生成并测定。有趣的是，一种具有截短3’末端的这种衍生物(原始MAR S4的4658-5054 vs.4658-5457)，相比于更长的原始MARS4序列，平均表现出轻微更高的转基因表达(104％vs 100％)。这表明，可获得更加有效且更短的MAR元件衍生物。

合成的MAR

图12示出了[1_68MAR的]潜在的转录因子结合位点图谱，如通过MATInspector软件预测的。C/EBP、NMP4、FAST1、SATB1和HoxF(也称Gsh)结合位点的位置作为实例示出，说明了其在5’正向阴影线侧翼序列中的富集。这些结合位点如其在MAR 1-68中发生的一样而应用，未作任何改变(FAST1、C/EBP、HOXF/Gsh)，或者如果与共有(即正确的)序列(HoxF、SatB1、NMP4)相比其含有一个或两个错配，则加以校正。

发现富含AT的弯曲DNA区与人类MAR 1_68中转录因子结合位点之间可能的协同作用，促进了构建包含MAR 1-68中富含AT区(邻近一个或几个转录因子结合位点)的合成MAR。图13描绘了用来测试合成MAR活性的质粒的图谱，该合成MAR从包括富含AT区的核心(MAR 1429-2880)与转录因子的化学合成DNA结合位点(置于启动子和绿色荧光蛋白(GFP)上游)的组装而构建。图13示出了转录因子结合位点插入富含AT的核心与促进GFP转基因表达的SV40启动子之间，模拟图9中存在的情形，其中，在最有用的情形中，包含结合位点的MAR部分插入启动子与弯曲DNA区之间。表4示出了所采用化学合成寡核苷酸的DNA序列。

表4.来自人类MAR 1_68的公认转录因子结合位点

将具有粘性末端的成对30-mer寡聚体克隆入包含MAR 1_68中富含AT的核心区的载体中。斜体碱基对是转录因子结合位点(下划线是最保守的碱基)的序列及来自MAR 1_68的侧翼序列。常规字体的序列是不与MAR 1_68序列对应的接头或适配子序列。在这些接头序列上，修改来自MAR 1_68且含有1个或2个错配的寡聚体，使其与通用序列匹配。

图14示出了通过如图13中所述合成MAR构建体的转录增强。除核心外，所插入元件还包含1个或几个蛋白质DNA结合位点，如所示出的。转染除核心序列(包括富含AT区，即富含AT核心)外还包含1个或几个结合位点的质粒，表明相比于仅富含AT核心，包含结合位点促进转录增强，且C/EBP和Hox或Gsh2是最有效的，然后是SatB1和Fast1，而NMP4位点则不具有可检测的效果。

还测试了有效结合位点的不同混合物以确定能否观察到协同效应。为此，将包含不同转录因子结合位点的寡核苷酸的各种组合混合于DNA连接反应中，并通过DNA测序来确定结合位点的精确顺序和排列。表5中示出了所得到的组合。

克隆号转录因子位点位点总数

1 Gsh，2(SATB1) 3

2 SATB1，Hox 2

3 SATB1，Fast1 2

4 2(Hox)，SATB1，Hox 4

6 Gsh，2(SATB1)，CEBP，Hox 5

7 2(Fast1)，2(Gsh)，SATB1 5

8 Hox，SATB1，Hox，Gsh，SATB1，Hox 6

9 Gsh，2(Fast1) 3

10 3(CEBP)，SATB1，Hox，Fast1 6

11 Hox，Fast，Hox，Fast 4

12 Hox，SATB1，Hox，Gsh，Hox，Hox 6

13 2(Hox)，3(SATB1)，Fast，CEBP，Hox，CEBP 9

14 Gsh，Gsh 2

15 CEBP，Hox，Hox 3

表5包含各种转录因子结合位点异源多聚体的合成MAR构建体如上文，通过转染测试得到的质粒。图15示出了利用表5中示出的DNA结合位点组合构建的合成MAR引起的转录增强。最有效的组合用星号表示，并指出了HoxF/Gsh2或SatB1的存在。图15中示出的结果表明，在该情形中，合成MAR的活性不依赖于所插入结合位点的数量，但结合位点的特殊组合表现出高促进活性，而其他组合则缺乏活性或甚至抑制基因表达。该情形中，具有较高活性的构建体包括Hox/Gsh2与SATB1蛋白质的组合，且最有效的构建体则仅由这些元件组成。与缺乏任何MAR序列的pEGFP对照载体相比，插入该合成MAR增加了高表达克隆的形成约10倍。

参考文献

Abdurashidova G，Danailov B，et al.，″Localization of proteins bound toa replication origin of human DNA along the cell cycle.″EMBO J_22：4294 4303，2003.

Aladjem，MI and Fanning E.，″The replicon revisited：an old modellearns new tricks in metazoan chromosomes.″EMBO Rep 5(7)：686-91，2004.

Allen GC，Spiker S，Thompson WF，Use of matrix attachment regions(MARs)to minimize transgene silencing，Plant Mol Biol.，43(2-3)：361-376，2000.

Amati B and Gasser SM，Chromosomal ARS and CEN elements bindspecifically to the yeast nuclear scaffold，Cell，54：967-978，1988.Amati B and Gasser SM，Drosophilia scaffold-attached regions bindnuclear scaffolds and can function as ARS elements in both buddingand fission yeasts，Mol.Cell.Biol.，10：5442-5454，1990.

Bell SP，″The origin recognition complex：from simple origins tocomplex functions.″Genes Dev 16：659 672，2002.

Bode J，Schlake T，Rios-Ramirez M，Mielke C，Stengart M，Kay V andKlehrWirth D，Scaffold/matrix-attached regions：structural propertiescreating transcriptionally active loci，Structural and FunctionalOrganization of the Nuclear Matrix：International Review of Cytology，162A：389-453，1995.

Bode J，Benham C，Knopp A and Mielke C，Transcriptionalaugmentation：modulation of gene expression byscaffold/matrix-attached regions(S/MAR elements)，Crit RevEukaryot Gene Expr，10(1)：73-90，2000.

Bode J，Stengert-Iber M，Kay V，Schlake T and Dietz-Pfeilstetter A，Scaffold/matrix-attached regions：topological switches with multipleregulatory functions，Crit.Rev.Euk.Gene Exp.，6：115-138，1996.

Bodnar JW，A domain model for eukaryotic DNA organization：amolecular basis for cell differentiation and chromosome evolution，J.Ther.Biol.，Vol.132：479-507，1988.

Boulikas T，Nature of DNA sequences at the attachment regions ofgenes to the nuclear matrix，J.Cell Biochem.，52：14-22，1993.

Boulikas T，Chromatin domains and prediction of MAR sequences.InStructural and Functional Organization of the Nuclear Matrix：International Review of Cytology，Academic Press，Orlando，162A：279-388，1995.

Breyene P，Van Montagu M and Gheyseu G，The role of scaffoldattachment regions in the structural and functional organization of plantchromatin，Transgenic Res.，Transgenic Res.，3：195-202，1994.

Breyne P，Van Montagu M，Depicker A and Gheysen G，Characterization of a plant scaffold attachment region in a DNAfragment that normalizes transgene expression in tobacco，Plant Cell，4：463-471，1992.

Cartharius，K.，K.Frech，et al.，MatInspector and beyond：promoteranalysis based on transcription factor binding sites，Bioinformatics 21：2933-42，2005.

Gasser SM and Laemmli UK，Cohabitation of scaffold binding regionswith upstream/enhancer elements of three developmentally regulatedgenes of D.Melanogaster，Cell，46：521-530，1986.

Girod PA，Zahn-Zabal M and Mermod N，Use of the chicken lysozyme5′matrix attachment region to generate high producer CHO cell lines，Biotechnol.Bioeng.，91(1)：1-11，2005.

Kas E and Chaslin LA，Anchorage of the Chinese hamsterdihydrofolate reductase gene to the nuclear scaffold occurs in anintragenic region，J.Mol.Biol.，198：677-692，1987.

Kay V and Bode J，Detection of scaffold-attached regions(SARs)byin vitro techniques；activities of these elements in vivo.In Methods inMolecular and Cellular Biology：Methods for studying DNA proteininteractions：an overview，WileyLiss，NewYork，5：186-194，1995.

Kim JM，Kim JS，Park DH，Kang HS，Yoon J，Baek K and Yoon Y，Improved recombinant gene expression in CHO cells using matrixattachment regions，J.Biotechnol.，107(2)：95-105，2004.

Kwaks TH，Otte AP，Employing epigenetics to augment the expressionof therapeutic proteins in mammalian cells.Trends Biotechnol.24：13742，2006.

Labrador，M.and V.G.Corces，Setting the boundaries of chromatindomains and nuclear organization，Cell 111：151-54，2002.

Levine，M.and R.Tjian，Transcriptional regulation and animal diversity，Nature 424：147-151，2003.

Mielke C，Kohwi Y，KohwiShigematsu T and Bode J，Hierarchicalbinding of DNA fragments derived from scaffold-attached regions：correlation of properties in vitro and function in vivo，Biochemistry，29：7475-7485，1990.

Miescher S，Zahn-Zabal M，De Jesus M，Moudry R，Fisch I，Vogel M，Kobr M，Imboden MA，Kragten E，Bichler J，Mermod N，Stadler BC，Amstutz H，Wurm F，CHO，Expression of a Novel Human Recombinant IgG1 anti-Rh D Antibody Isolated by Phage Display，BritJ.Haematol.，111，157-166，2000.

National Center for Biotechnology Information(http://www.ncbi.nih.gov).

PhiVan L and Stratling WH，Dissection of the ability of the chickenlysozyme gene 5’matrix attachment region to stimulate transgeneexpression and to dampen position effects，Biochemistry，35：10735-10742，1996.

Razin SV，Functional architecture of chromosomal DNA domains，CritRev EukaryotGene Expr，6：247-269，1996.

Stefanovic D，Stanoj cic S et al.，In vitro protein DNA interactions atthe human lamin B2 replication origin，J Biol Chem 278：4273742743，2003.

Strick R and Laemmli UK，SARs are cis DNA elements of chromosomedynamics：synthesis of a SAR repressor protein，Cell 83(7)：1137-48，2005.

Vogelstein B，Pardoll D and Coffey D，Supercoiled loops andeukaryotic DNA replication，Cell，22：79-85，1980.

You Z，Ishimi Y，et al.，Thymine-rich single-stranded DNA activatesMcm4/6/7 helicase on Y-fork and bubble-like substrates，EMBO J 22：6148 6160(2003).

Zahn-Zabal M，Kobr M，Girod PA，Imhof M，Chatellard P，de Jesus M，Wurm F and Mermod N，Development of stable cell lines forproduction or regulated expression using matrix attachment regions.JBiotechnol，87(1)：29-42，2001.

序列表

<110>思兰克斯有限公司(Selexis S.A.)

<120>用于增加转录的基质附着区(MAR)及其应用

<130>P23763RWS-2

<140>PCT/IB2007/002404

<150>US60823319

<151>2006-08-23

<150>US60953910

<151>2007-08-03

<160>20

<170>PatentIn version 3.3

<210>1

<211>3606

<212>DNA

<213>人类

<220>

<221>misc_feature

<223>MAR 1_68序列

<220>

<221>misc_feature

<222>(1)..(5)

<223>XbaI片段的第一部分

<220>

<221>misc_feature

<222>(3606)..(3606)

<223>XbaI片段的第二部分

<400>1

ctagattata ccaacctcat aaaataagag catatataaa agcaaatgct cttatcttgc 60

agatccctga actgaggagg caagatcagt ttggcagttg aagcagctgg aatctgcaat 120

tcagagaatc taagaaaaga caaccctgaa gagagagacc cagaaaccta gcaggagttt 180

ctccaaacat tcaaggctga gggataaatg ttacatgcac agggtgagcc tccagaggct 240

tgtccattag caactgctac agtttcatta tctcagggat cacagattgt gctacctatt 300

gcctaccatc tgaaaacagt tgcttcctat atttcatcca gtttaatatt tatttaaacc 360

aagaaggtta atctggcacc agctattccg ttgtgagtgg atgtgaaagt accaattcca 420

ttctgtttta ctattaacta tcctttgcct taatatgtat cagtaggtgg cttgttgcta 480

ggaaatatta aatgaatggc atgtttcata ggttgtgttt aaagttgttt tttgagttaa 540

atctttcttt aataatactt tctgatgtca aaaacactta gaagtcatgg tgttgaacat 600

ctatataggg ttggatctaa aatagcttct taacctttcc taaccactgt ttttgtttgt 660

ttgtttttaa ctaagcatcc agtttgggaa attctgaatt aggggaatca taaaaggttt 720

cattttagct gggccacata aggaaagtaa gatatcaaat tgtaaaaatc gttaagaact 780

tctatcccat ctgaagtgtg ggttaggtgc ctcttctctg tgctccctta acatcctatt 840

ttatctgtat atatatatat tcttccaaat atccatgcat gggaaaaaaa atctgatcat 900

aaaaatattt taggctggga gtggtggctc acgcctgtaa tcccagcact ttgggaggct 960

gaggtgggcg gatcatgagg tcaagagatc gagaccatcc tgaccaatat ggtgaaaccc 1020

catctctact aaagatacaa aactattagc tggacgtggt ggcacgtgcc tgtagtccca 1080

gctactcggg aggctgaggc aggagaacgg cttgaaccca ggaggtggag gttgcagtga 1140

gctgagatcg cgccactgca ctccagcctg ggcgacagag cgagactctg tctcaaaaaa 1200

aaaatatata tatatatata tatacacata tatatataaa atatatatat atacacacat 1260

atatatataa aatatatata tatacacaca tatatataaa atatatatat atacacacat 1320

atatataaaa tatatatata cacacatata tataaaatat atatatacac acatatatat 1380

aaaatatata tatacacaca tatatataaa atatatatat acacacatat atataaaata 1440

tatatataca cacatatata taaaatatat atatacacac atatatataa aatatatata 1500

tacacacata tatataaaat atatatatac acacatatat ataaaatata tatatacaca 1560

catatatata aaatatatat atacacacat atataaaata tatatataca cacatatata 1620

aaatatatat atacacatat atataaaata tatatataca catatatata aaatatatat 1680

acacacatat atataaaata tatatataca cacatatata taaaatatat atatacacat 1740

atatataaaa tatatatata cacatatata taaaatatat atatatacac atatatataa 1800

aatatatata cacacatata tataaagtat atatatacac acatatatat aaaatatata 1860

tatacacata tatataaaat atatatatac acatatatat aaaatatata tatacacata 1920

tatataaaaa tatatatata tattttttaa aatattccaa ttgtctcact ttgtggatga 1980

gaaaaagaag tagttagagg tcaagtaact tggcctacat cttttctcaa gattgtaaac 2040

tcctagtgag caataaccac atcttcattt tctttgtata aaacaagaaa gtttagcatg 2100

aaaaaggtac tcaattacaa atgtgttgga ttgaattgaa gacccttgga aggggatttt 2160

gtacctgagg atctctttct tttggccata ttgttcaatg gacaaaattt agccttcgaa 2220

ggcaggccga tttgaggtta atactacctt taccacttga tagctatgtg accttggcca 2280

tgtggtttca acagtctgaa cctcattttc tctgtgtatg tgtggtcctc cttacaagtt 2340

tgtgaaaaat gtgaagtcct tagccatgat agcccaatat aacaggctaa atgataatag 2400

gtttatgttc ttttccttta tattctcaga taagcactgt ccaagtttga ggtgttttga 2460

ggtctcgcct gatttggatt gtttgagttt atgctattct ttgaattctt tgagctgttc 2520

tgaagcagtg tatcatgaac aaaaacatcc ccagttcagt ccaaacccct ggttacatat 2580

cattcttatg ccatgttata accagtttga gagtgttccc tctgttattg catttaagtt 2640

tcagcctcac acagaaattc agcagccaat ttctaagccc taagcataaa atctggggtg 2700

gggggggggg atggcctgaa gagcagcatt atgaatagca ccattataat taatgatctc 2760

tcaggaagat ttacaatcac aggtagcaga taaaacaaat agtactgctt ctgcacttcc 2820

cctcctttta ttcgctatga aattttatgg gaaatcagtc cagtgaaaaa tgtaagctct 2880

taatctttcc cagaaatcct acctcatttg atgaatactt tgagggaatg aattagagca 2940

tttttttctt ttatagtcta cttcgcattt acgaagtgag gacggtagct taggctgcct 3000

ggccaactga tgagaaggtc agaggcattt ttagagacct ctgttgtctt tcattcatgt 3060

tcattttcca caaggcaagt aatttccaac aaatcagtgt cttcattagt aataagatta 3120

ttaacaacaa taatagtcat agtaactatt cagtgagagt ccattatata tcaggcattc 3180

tacaaggtac tttatataca tctgagtaaa cctcacacaa ttctacaggg aggtatttct 3240

atccccattt aacaaataag gaaacgaagt ccaagtaaat taacttgccc aaggtcacac 3300

agatagtacc tggcagaaca ggaatttaaa cctaaatttg tccaactcca aaagcagcct 3360

tctatttgtt ataaatgctg cctctcatta tcacatattt tattattaac aacaacaaac 3420

ataccaatta gcttaagata caatacaacc agataatcat gatgacaaca gtaattgtta 3480

tactattata ataaaataga tgttttgtat gttactataa tcttgaattt gaatagaaat 3540

ttgcatttct gaaagcatgt tcctgtcatc taatatgatt ctgtatctat taaaatagta 3600

ctacat 3606

<210>2

<211>3638

<212>DNA

<213>人类

<220>

<221>misc_feature

<223>MAR 1_68构建体

<220>

<221>misc_feature

<222>(1)..(5)

<223>Asp718-SmaI片段的第一部分

<220>

<221>misc_feature

<222>(6)..(11)

<223>添加的核苷酸

<220>

<221>misc_feature

<222>(3631)..(3635)

<223>添加的核苷酸

<220>

<221>misc_feature

<222>(3636)..(3638)

<223>Asp718-SmaI片段的第二部分

<400>2

gtacccccaa aagaaagaga tcctcaggta caaaatcccc ttccaagggt cttcaattca 60

atccaacaca tttgtaattg agtacctttt tcatgctaaa ctttcttgtt ttatacaaag 120

aaaatgaaga tgtggttatt gctcactagg agtttacaat cttgagaaaa gatgtaggcc 180

aagttacttg acctctaact acttcttttt ctcatccaca aagtgagaca attggaatat 240

tttaaaaaat atatatatat atttttatat atatgtgtat atatatattt tatatatatg 300

tgtatatata tattttatat atatgtgtat atatatattt tatatatatg tgtgtatata 360

tatactttat atatatgtgt gtatatatat tttatatata tgtgtatata tatatatttt 420

atatatatgt gtatatatat attttatata tatgtgtata tatatatttt atatatatgt 480

gtgtatatat atattttata tatatgtgtg tatatatatt ttatatatat gtgtatatat 540

atattttata tatatgtgta tatatatatt ttatatatgt gtgtatatat atattttata 600

tatgtgtgta tatatatatt ttatatatat gtgtgtatat atatatttta tatatatgtg 660

tgtatatata tattttatat atatgtgtgt atatatatat tttatatata tgtgtgtata 720

tatatatttt atatatatgt gtgtatatat atattttata tatatgtgtg tatatatata 780

ttttatatat atgtgtgtat atatatattt tatatatatg tgtgtatata tatattttat 840

atatatgtgt gtatatatat attttatata tatgtgtgta tatatatata ttttatatat 900

atgtgtgtat atatatatat tttatatata tatgtgtgta tatatatata ttttatatat 960

atatgtgtat atatatatat atatatattt tttttttgag acagagtctc gctctgtcgc 1020

ccaggctgga gtgcagtggc gcgatctcag ctcactgcaa cctccacctc ctgggttcaa 1080

gccgttctcc tgcctcagcc tcccgagtag ctgggactac aggcacgtgc caccacgtcc 1140

agctaatagt tttgtatctt tagtagagat ggggtttcac catattggtc aggatggtct 1200

cgatctcttg acctcatgat ccgcccacct cagcctccca aagtgctggg attacaggcg 1260

tgagccacca ctcccagcct aaaatatttt tatgatcaga ttttttttcc catgcatgga 1320

tatttggaag aatatatata tatacagata aaataggatg ttaagggagc acagagaaga 1380

ggcacctaac ccacacttca gatgggatag aagttcttaa cgatttttac aatttgatat 1440

cttactttcc ttatgtggcc cagctaaaat gaaacctttt atgattcccc taattcagaa 1500

tttcccaaac tggatgctta gttaaaaaca aacaaacaaa aacagtggtt aggaaaggtt 1560

aagaagctat tttagatcca accctatata gatgttcaac accatgactt ctaagtgttt 1620

ttgacatcag aaagtattat taaagaaaga tttaactcaa aaaacaactt taaacacaac 1680

ctatgaaaca tgccattcat ttaatatttc ctagcaacaa gccacctact gatacatatt 1740

aaggcaaagg atagttaata gtaaaacaga atggaattgg tactttcaca tccactcaca 1800

acggaatagc tggtgccaga ttaaccttct tggtttaaat aaatattaaa ctggatgaaa 1860

tataggaagc aactgttttc agatggtagg caataggtag cacaatctgt gatccctgag 1920

ataatgaaac tgtagcagtt gctaatggac aagcctctgg aggctcaccc tgtgcatgta 1980

acatttatcc ctcagccttg aatgtttgga gaaactcctg ctaggtttct gggtctctct 2040

cttcagggtt gtcttttctt agattctctg aattgcagat tccagctgct tcaactgcca 2100

aactgatctt gcctcctcag ttcagggatc tgcaagataa gagcatttgc ttttatatat 2160

gctcttattt tatgaggttg gtataatcta gctagagtcg agatctttgg ccatattgtt 2220

caatggacaa aatttagcct tcgaaggcag gccgatttga ggttaatact acctttacca 2280

cttgatagct atgtgacctt ggccatgtgg tttcaacagt ctgaacctca ttttctctgt 2340

gtatgtgtgg tcctccttac aagtttgtga aaaatgtgaa gtccttagcc atgatagccc 2400

aatataacag gctaaatgat aataggttta tgttcttttc ctttatattc tcagataagc 2460

actgtccaag tttgaggtgt tttgaggtct cgcctgattt ggattgtttg agtttatgct 2520

attctttgaa ttctttgagc tgttctgaag cagtgtatca tgaacaaaaa catccccagt 2580

tcagtccaaa cccctggtta catatcattc ttatgccatg ttataaccag tttgagagtg 2640

ttccctctgt tattgcattt aagtttcagc ctcacacaga aattcagcag ccaatttcta 2700

agccctaagc ataaaatctg gggtgggggg gggggatggc ctgaagagca gcattatgaa 2760

tagcaccatt ataattaatg atctctcagg aagatttaca atcacaggta gcagataaaa 2820

caaatagtac tgcttctgca cttcccctcc ttttattcgc tatgaaattt tatgggaaat 2880

cagtccagtg aaaaatgtaa gctcttaatc tttcccagaa atcctacctc atttgatgaa 2940

tactttgagg gaatgaatta gagcattttt ttcttttata gtctacttcg catttacgaa 3000

gtgaggacgg tagcttaggc tgcctggcca actgatgaga aggtcagagg catttttaga 3060

gacctctgtt gtctttcatt catgttcatt ttccacaagg caagtaattt ccaacaaatc 3120

agtgtcttca ttagtaataa gattattaac aacaataata gtcatagtaa ctattcagtg 3180

agagtccatt atatatcagg cattctacaa ggtactttat atacatctga gtaaacctca 3240

cacaattcta cagggaggta tttctatccc catttaacaa ataaggaaac gaagtccaag 3300

taaattaact tgcccaaggt cacacagata gtacctggca gaacaggaat ttaaacctaa 3360

atttgtccaa ctccaaaagc agccttctat ttgttataaa tgctgcctct cattatcaca 3420

tattttatta ttaacaacaa caaacatacc aattagctta agatacaata caaccagata 3480

atcatgatga caacagtaat tgttatacta ttataataaa atagatgttt tgtatgttac 3540

tataatcttg aatttgaata gaaatttgca tttctgaaag catgttcctg tcatctaata 3600

tgattctgta tctattaaaa tagtactaca tctagccc 3638

<210>3

<211>5463

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval位点的MAR S4序列

<400>3

ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60

agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120

tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180

aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240

cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300

cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360

ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420

tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480

agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540

gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600

ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660

ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720

ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780

agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840

tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900

ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960

ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020

ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080

tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140

ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200

aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260

ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320

agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380

ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat 1440

cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac 1500

tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata 1560

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1620

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 1680

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1740

tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata 1800

tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1860

tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg 1920

tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg 1980

tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg 2040

tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata 2100

tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat 2160

gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc 2220

agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc 2280

tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa 2340

atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat 2400

ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt 2460

gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc 2520

tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga 2580

cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt 2640

cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac 2700

caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg 2760

cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt 2820

tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga 2880

aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta 2940

gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac 3000

tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt 3060

ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt 3120

tttcctttga gaattctatg taaagtactt tgaacatatt tgccttcaac tcctccctca 3180

ctttcaccct ctcttcattc ctccctttcc tttccactca aagttgagat tcctttattt 3240

atttatttat ccttcaaata tcactggtac tatccacatg atctcaggat tgaggtctgc 3300

tctgacgtgt catcctgctt tcatgcaatg gccttatagg tggaacaaca ttatgaacta 3360

accagtaccc cggagctctt gactctagct gcatatatat caaaagatgg cctagtcggc 3420

catcactgga aagagaggct cattggactt gcaaacttta tatgccccag tacaggggaa 3480

caccagggcc aaaaaggggg agtgggtggg caggggagtg ggggtgggtg gatatggggg 3540

acttttggta tagcattgga aatgtaaatg agttaaatac ctaataaaaa atggaaaaaa 3600

aaagtttcta atgtgtgttt ctagaaactt cctctcttaa agcaacaaca tgtccatgag 3660

caatatagaa ttgaagatca ccatcaaatc ctctttattc ctcattgttt ccatcatgta 3720

ctaccagacc tctttaaagt gtagtacagt gtgttaggaa atgagcagat tatcctgggt 3780

atgtgctaaa ttagctactg agtcaaaata cattttttgc tgaacattaa gtgtttggtc 3840

atttctgggc aaaagaaaga aagaaagaaa gaaaagaaag aaagaaagga aggaaggaag 3900

gaaggaagga aggaaggaag gaaagaagga aggaaagaaa aaatggatgt aaattgttct 3960

gacagcatct gtctgagtca ggcagtggaa tgaaggagga atcctagaga atgcacagga 4020

aagcagccca aggagagtgt gggctgaaag gcatcatgtt agaaacatgc actcgatgac 4080

agaaccttga gaaaaaggaa ctcaagcaaa agcacttatt taaaattgta aaacgcactt 4140

tattcatagc catgggggat gtcaatattc caagcataag aatgatcagt ttccaatcac 4200

tgtgaacccc caaaacacaa agtgaaaacc cactacttta tttgatgaga tttggggttg 4260

ctctattaat ttataaaatc agagtaagac acgatataaa tgaaacgatt gtagttctaa 4320

agcagcggca cttccctgaa cagtgtcatt ttgacaagta actgctaaca tcttcaggtc 4380

acagcgactg aagaaaaagt agggaaagaa ggctggctgt gctgtttgac attttctttt 4440

cttatctggt gacatgaaga gaagctctgg gtccccctac tcttgttcat atatctgttg 4500

cttttatgct gcatcctgag gtttgaagaa atgcatttgg cactgagaaa agatgaggag 4560

agaatgcctt ggacatggtc ctaacatgct ttggtactga gaaaagagag cagaggagat 4620

gacatagaat aggagagata atttggccta ttttggcctt catctgagtg atagatttta 4680

cttaacaaat agaaacaaag ttttacttat aaacagaacc aatgacctgt gtcatctctg 4740

atatattgag ctttgaattc agtgaaatta tgaactaaat atatcactcc ataattttct 4800

aagagggcta tttgtatagt ttcagtgata gtgtgacaaa gtgtaatcta aatttctaaa 4860

aagtaaaata agtagataaa atagtaggta gaatagtata ataatagaat aagtataggt 4920

atggactaga ataaatagac aaaatagtag ataaaatgct aatgattttg ttgacagggt 4980

aatcatgaat atttttatta tttagctaaa gaaccaatgt tcatgtactc aagaagtgta 5040

ttgaggaact taggaaatta gtctgaacag gtgagagggt gcgccagaga acctgacagc 5100

ttctggaaca ggcggaagca cagaggcact gaggcagcac cctgtgtggg ccggggacag 5160

ccggccacct tccggaccgg aggacaggtg cccgcccggc tggggaggcg acctaagcca 5220

cagcagcagc ggtcgccatc ttggtccggg acccgccgaa cttaggaaat tagtctgaac 5280

aggtgagagg gtgcgccaga gaacctgaca gcttctggaa caggcagaag cacagaggcg 5340

ctgaggcagc accctgtgtg ggccggggac agccggccac cttccggacc ggaggacagg 5400

tgcccacccg gctggggagg cggcctaagc cacagcagca gcggtcgcca tcttggtccc 5460

ggg 5463

<210>4

<211>3839

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval位点的S4_1-703_2328-5457构建体

<400>4

ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60

agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120

tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180

aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240

cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300

cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360

ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420

tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480

agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540

gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600

ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660

ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720

ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780

agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840

tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900

ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960

ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020

ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080

tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140

ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200

aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260

ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320

agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380

ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat 1440

cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac 1500

tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata 1560

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1620

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 1680

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1740

tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata 1800

tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1860

tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg 1920

tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg 1980

tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg 2040

tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata 2100

tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat 2160

gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc 2220

agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc 2280

tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa 2340

atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat 2400

ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt 2460

gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc 2520

tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga 2580

cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt 2640

cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac 2700

caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg 2760

cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt 2820

tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga 2880

aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta 2940

gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac 3000

tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt 3060

ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt 3120

tttcctttga gaattcagtg aaattatgaa ctaaatatat cactccataa ttttctaaga 3180

gggctatttg tatagtttca gtgatagtgt gacaaagtgt aatctaaatt tctaaaaagt 3240

aaaataagta gataaaatag taggtagaat agtataataa tagaataagt ataggtatgg 3300

actagaataa atagacaaaa tagtagataa aatgctaatg attttgttga cagggtaatc 3360

atgaatattt ttattattta gctaaagaac caatgttcat gtactcaaga agtgtattga 3420

ggaacttagg aaattagtct gaacaggtga gagggtgcgc cagagaacct gacagcttct 3480

ggaacaggcg gaagcacaga ggcactgagg cagcaccctg tgtgggccgg ggacagccgg 3540

ccaccttccg gaccggagga caggtgcccg cccggctggg gaggcgacct aagccacagc 3600

agcagcggtc gccatcttgg tccgggaccc gccgaactta ggaaattagt ctgaacaggt 3660

gagagggtgc gccagagaac ctgacagctt ctggaacagg cagaagcaca gaggcgctga 3720

ggcagcaccc tgtgtgggcc ggggacagcc ggccaccttc cggaccggag gacaggtgcc 3780

cacccggctg gggaggcggc ctaagccaca gcagcagcgg tcgccatctt ggtcccggg 3839

<210>5

<211>3738

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval位点的S4_1-2395_4121-5457构建体

<400>5

ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60

agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120

tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180

aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240

cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300

cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360

ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420

tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480

agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540

gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600

ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660

ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720

ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780

agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840

tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900

ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960

ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020

ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080

tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140

ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200

aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260

ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320

agctctttcc tttagttaag cttcagaaat aaggataagt ttgaaatatt cattgtttta 1380

ttttttacag tattttttcc tttgagaatt ctatgtaaag tactttgaac atatttgcct 1440

tcaactcctc cctcactttc accctctctt cattcctccc tttcctttcc actcaaagtt 1500

gagattcctt tatttattta tttatccttc aaatatcact ggtactatcc acatgatctc 1560

aggattgagg tctgctctga cgtgtcatcc tgctttcatg caatggcctt ataggtggaa 1620

caacattatg aactaaccag taccccggag ctcttgactc tagctgcata tatatcaaaa 1680

gatggcctag tcggccatca ctggaaagag aggctcattg gacttgcaaa ctttatatgc 1740

cccagtacag gggaacacca gggccaaaaa gggggagtgg gtgggcaggg gagtgggggt 1800

gggtggatat gggggacttt tggtatagca ttggaaatgt aaatgagtta aatacctaat 1860

aaaaaatgga aaaaaaaagt ttctaatgtg tgtttctaga aacttcctct cttaaagcaa 1920

caacatgtcc atgagcaata tagaattgaa gatcaccatc aaatcctctt tattcctcat 1980

tgtttccatc atgtactacc agacctcttt aaagtgtagt acagtgtgtt aggaaatgag 2040

cagattatcc tgggtatgtg ctaaattagc tactgagtca aaatacattt tttgctgaac 2100

attaagtgtt tggtcatttc tgggcaaaag aaagaaagaa agaaagaaaa gaaagaaaga 2160

aaggaaggaa ggaaggaagg aaggaaggaa ggaaggaaag aaggaaggaa agaaaaaatg 2220

gatgtaaatt gttctgacag catctgtctg agtcaggcag tggaatgaag gaggaatcct 2280

agagaatgca caggaaagca gcccaaggag agtgtgggct gaaaggcatc atgttagaaa 2340

catgcactcg atgacagaac cttgagaaaa aggaactcaa gcaaaagcac ttatttaaaa 2400

ttgtaaaacg cactttattc atagccatgg gggatgtcaa tattccaagc ataagaatga 2460

tcagtttcca atcactgtga acccccaaaa cacaaagtga aaacccacta ctttatttga 2520

tgagatttgg ggttgctcta ttaatttata aaatcagagt aagacacgat ataaatgaaa 2580

cgattgtagt tctaaagcag cggcacttcc ctgaacagtg tcattttgac aagtaactgc 2640

taacatcttc aggtcacagc gactgaagaa aaagtaggga aagaaggctg gctgtgctgt 2700

ttgacatttt cttttcttat ctggtgacat gaagagaagc tctgggtccc cctactcttg 2760

ttcatatatc tgttgctttt atgctgcatc ctgaggtttg aagaaatgca tttggcactg 2820

agaaaagatg aggagagaat gccttggaca tggtcctaac atgctttggt actgagaaaa 2880

gagagcagag gagatgacat agaataggag agataatttg gcctattttg gccttcatct 2940

gagtgataga ttttacttaa caaatagaaa caaagtttta cttataaaca gaaccaatga 3000

cctgtgtcat ctctgatata ttgagctttg aattcagtga aattatgaac taaatatatc 3060

actccataat tttctaagag ggctatttgt atagtttcag tgatagtgtg acaaagtgta 3120

atctaaattt ctaaaaagta aaataagtag ataaaatagt aggtagaata gtataataat 3180

agaataagta taggtatgga ctagaataaa tagacaaaat agtagataaa atgctaatga 3240

ttttgttgac agggtaatca tgaatatttt tattatttag ctaaagaacc aatgttcatg 3300

tactcaagaa gtgtattgag gaacttagga aattagtctg aacaggtgag agggtgcgcc 3360

agagaacctg acagcttctg gaacaggcgg aagcacagag gcactgaggc agcaccctgt 3420

gtgggccggg gacagccggc caccttccgg accggaggac aggtgcccgc ccggctgggg 3480

aggcgaccta agccacagca gcagcggtcg ccatcttggt ccgggacccg ccgaacttag 3540

gaaattagtc tgaacaggtg agagggtgcg ccagagaacc tgacagcttc tggaacaggc 3600

agaagcacag aggcgctgag gcagcaccct gtgtgggccg gggacagccg gccaccttcc 3660

ggaccggagg acaggtgccc acccggctgg ggaggcggcc taagccacag cagcagcggt 3720

cgccatcttg gtcccggg 3738

<210>6

<211>3136

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval和EcoRI位点的S4_2328-5457构建体

<400>6

ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60

agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120

tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180

aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240

cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300

cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360

ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420

tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480

agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540

gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600

ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660

ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720

ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780

agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840

tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900

ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960

ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020

ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080

tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140

ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200

aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260

ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320

agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380

ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat 1440

cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac 1500

tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata 1560

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1620

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 1680

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1740

tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata 1800

tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1860

tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg 1920

tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg 1980

tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg 2040

tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata 2100

tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat 2160

gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc 2220

agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc 2280

tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa 2340

atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat 2400

ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt 2460

gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc 2520

tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga 2580

cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt 2640

cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac 2700

caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg 2760

cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt 2820

tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga 2880

aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta 2940

gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac 3000

tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt 3060

ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt 3120

tttcctttga gaattc 3136

<210>7

<211>2340

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval和BgIII位点的S4_2328-4661构建体

<400>7

agatctttgt tgttatctgt tgcaaacact ccatttttct gttgtagcaa aaaaaaaaaa 60

aaagacatcc atagttgtca atgagaatgc aagatacata cattctgcac ctgtgtgcta 120

acataagtgg ctgccctgtg actcagagat tgcttgtcct tctcctaagc ctatcctttt 180

ttgttacttt ggatactttt gttcaatgaa tccagaaaaa gtgtttttca gattcaccat 240

gtgaccctca tttaaaacct gtaatccccc tatggttaag ttcctgcttt tgtttctgtt 300

ttctttcttt cagtaaaagg aattgaaccc agtccttcca cttactatct gagcatatgg 360

ctcttttaga ttatgatgtt ggtggtgttc attggtctca ccaaaatgct aaagaagcct 420

tcatcttcta cttgtgggta gtctttacat tcattactgc aagtttagtt tatgtggtag 480

taccagatcc tttgcttctt ttgacttcat gcctacctaa cagcagctct ttcctttagt 540

taagcttatg aaatagtgtt tctctcatgt ttcctctata ttctctcttt tgccttcctg 600

tttcttcctg ttgattccat cccattggag tgaaatctta tgatcttttg gcatcaacaa 660

agtgatctgc atccaaataa ttccacatct cattccatgt tgactgtgga tctatatata 720

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 780

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 840

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 900

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 960

tatatatgta tatatgtata tatgtatata cgtatatatg catatacgta tatatgtata 1020

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1080

tatgtatgta tgtatgtatg tatatatgta tatatgtatg tatgtatgta tgtatgtatg 1140

tatgtatata tgtatatata tatgtatgta tgtatgtatg tatgtatgta tatgtgtata 1200

tgtgtatatg tgtatatgtg tatatgtgta tatatgtata tatgtatata tgtatatatg 1260

tatatgtgta tatgtgtata tgtgtatata tgtatatatg tatatatgta tatatgtata 1320

tatataacat agtattaaat tatatataca tatataagtg aaatgtcaca atcttctaga 1380

acttgctctg tatgtccact taacatggta gagtgagcta tgtcagcatt ttctatttcc 1440

tgtgaatcat tctgtgtgtt gccaagaaga aatatgatat attctgaggt tatgaaatga 1500

tattttggtc atcatgtttc tcatcctatt ttcatattac ctaaatactt ttgcttttaa 1560

aattattatt attaataata atataattat ttatacaata atatttaaat aatatattta 1620

tttaatataa ttattatatt tcacataaaa gcaatagttc cagtgttaca aattgtaggc 1680

aactgggctg ttctgattat ctaagttggg cccaggatat gtgctgaata gttaaagcac 1740

atgcccagca tgtatgaggg taaaaggatg ggtggatgta gtgacccatt tgtaatttaa 1800

gccttagcag gcagaggtgt gacccatagt gcaaagtaca tagtcattat aaggtcatct 1860

atatcacaat ctctggatta gattgattga acctgctcag tgaccaatgt gttagcaata 1920

tacaggagga tgataacatc aacgtcagaa gacacattga agggcttaca aatagtgccc 1980

atttacttta atacagaaaa attcaatgta ccctctaggc aatttcaact tttagtctct 2040

tggtaggata gtctacattt agaatggcta attcataaat tagaaagctt cttcaccccc 2100

tacttttctg gttatttctc tatgaatgtg gtaggcatga gttagtacac atgtttccat 2160

gtacatgtgt ttctatgtgt ctgcatgcat atggtagaat gtactcatat tctatgtaca 2220

gttagaacaa tatttatatt gtcaaagaaa tcaaaaggag tattataagc ttcagaaata 2280

aggataagtt tgaaatattc attgttttat tttttacagt attttttcct ttgagaattc 2340

<210>8

<211>4667

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval和BgIII位点的S4_1-4661构建体

<400>8

agatctttgt tgttatctgt tgcaaacact ccatttttct gttgtagcaa aaaaaaaaaa 60

aaagacatcc atagttgtca atgagaatgc aagatacata cattctgcac ctgtgtgcta 120

acataagtgg ctgccctgtg actcagagat tgcttgtcct tctcctaagc ctatcctttt 180

ttgttacttt ggatactttt gttcaatgaa tccagaaaaa gtgtttttca gattcaccat 240

gtgaccctca tttaaaacct gtaatccccc tatggttaag ttcctgcttt tgtttctgtt 300

ttctttcttt cagtaaaagg aattgaaccc agtccttcca cttactatct gagcatatgg 360

ctcttttaga ttatgatgtt ggtggtgttc attggtctca ccaaaatgct aaagaagcct 420

tcatcttcta cttgtgggta gtctttacat tcattactgc aagtttagtt tatgtggtag 480

taccagatcc tttgcttctt ttgacttcat gcctacctaa cagcagctct ttcctttagt 540

taagcttatg aaatagtgtt tctctcatgt ttcctctata ttctctcttt tgccttcctg 600

tttcttcctg ttgattccat cccattggag tgaaatctta tgatcttttg gcatcaacaa 660

agtgatctgc atccaaataa ttccacatct cattccatgt tgactgtgga tctatatata 720

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 780

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 840

tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 900

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 960

tatatatgta tatatgtata tatgtatata cgtatatatg catatacgta tatatgtata 1020

tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1080

tatgtatgta tgtatgtatg tatatatgta tatatgtatg tatgtatgta tgtatgtatg 1140

tatgtatata tgtatatata tatgtatgta tgtatgtatg tatgtatgta tatgtgtata 1200

tgtgtatatg tgtatatgtg tatatgtgta tatatgtata tatgtatata tgtatatatg 1260

tatatgtgta tatgtgtata tgtgtatata tgtatatatg tatatatgta tatatgtata 1320

tatataacat agtattaaat tatatataca tatataagtg aaatgtcaca atcttctaga 1380

acttgctctg tatgtccact taacatggta gagtgagcta tgtcagcatt ttctatttcc 1440

tgtgaatcat tctgtgtgtt gccaagaaga aatatgatat attctgaggt tatgaaatga 1500

tattttggtc atcatgtttc tcatcctatt ttcatattac ctaaatactt ttgcttttaa 1560

aattattatt attaataata atataattat ttatacaata atatttaaat aatatattta 1620

tttaatataa ttattatatt tcacataaaa gcaatagttc cagtgttaca aattgtaggc 1680

aactgggctg ttctgattat ctaagttggg cccaggatat gtgctgaata gttaaagcac 1740

atgcccagca tgtatgaggg taaaaggatg ggtggatgta gtgacccatt tgtaatttaa 1800

gccttagcag gcagaggtgt gacccatagt gcaaagtaca tagtcattat aaggtcatct 1860

atatcacaat ctctggatta gattgattga acctgctcag tgaccaatgt gttagcaata 1920

tacaggagga tgataacatc aacgtcagaa gacacattga agggcttaca aatagtgccc 1980

atttacttta atacagaaaa attcaatgta ccctctaggc aatttcaact tttagtctct 2040

tggtaggata gtctacattt agaatggcta attcataaat tagaaagctt cttcaccccc 2100

tacttttctg gttatttctc tatgaatgtg gtaggcatga gttagtacac atgtttccat 2160

gtacatgtgt ttctatgtgt ctgcatgcat atggtagaat gtactcatat tctatgtaca 2220

gttagaacaa tatttatatt gtcaaagaaa tcaaaaggag tattataagc ttcagaaata 2280

aggataagtt tgaaatattc attgttttat tttttacagt attttttcct ttgagaattc 2340

tatgtaaagt actttgaaca tatttgcctt caactcctcc ctcactttca ccctctcttc 2400

attcctccct ttcctttcca ctcaaagttg agattccttt atttatttat ttatccttca 2460

aatatcactg gtactatcca catgatctca ggattgaggt ctgctctgac gtgtcatcct 2520

gctttcatgc aatggcctta taggtggaac aacattatga actaaccagt accccggagc 2580

tcttgactct agctgcatat atatcaaaag atggcctagt cggccatcac tggaaagaga 2640

ggctcattgg acttgcaaac tttatatgcc ccagtacagg ggaacaccag ggccaaaaag 2700

ggggagtggg tgggcagggg agtgggggtg ggtggatatg ggggactttt ggtatagcat 2760

tggaaatgta aatgagttaa atacctaata aaaaatggaa aaaaaaagtt tctaatgtgt 2820

gtttctagaa acttcctctc ttaaagcaac aacatgtcca tgagcaatat agaattgaag 2880

atcaccatca aatcctcttt attcctcatt gtttccatca tgtactacca gacctcttta 2940

aagtgtagta cagtgtgtta ggaaatgagc agattatcct gggtatgtgc taaattagct 3000

actgagtcaa aatacatttt ttgctgaaca ttaagtgttt ggtcatttct gggcaaaaga 3060

aagaaagaaa gaaagaaaag aaagaaagaa aggaaggaag gaaggaagga aggaaggaag 3120

gaaggaaaga aggaaggaaa gaaaaaatgg atgtaaattg ttctgacagc atctgtctga 3180

gtcaggcagt ggaatgaagg aggaatccta gagaatgcac aggaaagcag cccaaggaga 3240

gtgtgggctg aaaggcatca tgttagaaac atgcactcga tgacagaacc ttgagaaaaa 3300

ggaactcaag caaaagcact tatttaaaat tgtaaaacgc actttattca tagccatggg 3360

ggatgtcaat attccaagca taagaatgat cagtttccaa tcactgtgaa cccccaaaac 3420

acaaagtgaa aacccactac tttatttgat gagatttggg gttgctctat taatttataa 3480

aatcagagta agacacgata taaatgaaac gattgtagtt ctaaagcagc ggcacttccc 3540

tgaacagtgt cattttgaca agtaactgct aacatcttca ggtcacagcg actgaagaaa 3600

aagtagggaa agaaggctgg ctgtgctgtt tgacattttc ttttcttatc tggtgacatg 3660

aagagaagct ctgggtcccc ctactcttgt tcatatatct gttgctttta tgctgcatcc 3720

tgaggtttga agaaatgcat ttggcactga gaaaagatga ggagagaatg ccttggacat 3780

ggtcctaaca tgctttggta ctgagaaaag agagcagagg agatgacata gaataggaga 3840

gataatttgg cctattttgg ccttcatctg agtgatagat tttacttaac aaatagaaac 3900

aaagttttac ttataaacag aaccaatgac ctgtgtcatc tctgatatat tgagctttga 3960

attcagtgaa attatgaact aaatatatca ctccataatt ttctaagagg gctatttgta 4020

tagtttcagt gatagtgtga caaagtgtaa tctaaatttc taaaaagtaa aataagtaga 4080

taaaatagta ggtagaatag tataataata gaataagtat aggtatggac tagaataaat 4140

agacaaaata gtagataaaa tgctaatgat tttgttgaca gggtaatcat gaatattttt 4200

attatttagc taaagaacca atgttcatgt actcaagaag tgtattgagg aacttaggaa 4260

attagtctga acaggtgaga gggtgcgcca gagaacctga cagcttctgg aacaggcgga 4320

agcacagagg cactgaggca gcaccctgtg tgggccgggg acagccggcc accttccgga 4380

ccggaggaca ggtgcccgcc cggctgggga ggcgacctaa gccacagcag cagcggtcgc 4440

catcttggtc cgggacccgc cgaacttagg aaattagtct gaacaggtga gagggtgcgc 4500

cagagaacct gacagcttct ggaacaggca gaagcacaga ggcgctgagg cagcaccctg 4560

tgtgggccgg ggacagccgg ccaccttccg gaccggagga caggtgccca cccggctggg 4620

gaggcggcct aagccacagc agcagcggtc gccatcttgg tcccggg 4667

<210>9

<211>802

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全Aval和BgIII位点的S4_4662-5457构建体

<400>9

ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60

agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120

tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180

aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240

cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300

cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360

ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420

tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480

agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540

gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600

ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660

ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720

ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780

agcttgaaag aacttcagat ct 802

<210>10

<211>3970

<212>DNA

<213>小鼠

<220>

<221>misc_feature

<223>具有完全BamHI位点的MAR S46序列

<400>10

ggatccagag cagatgacac atacatattt ctcttagatg atattatctg agtgttaagt 60

actaaaatgt tgtgtgttgc cttatttaca ttaaacacat ttcccttttc actttttttt 120

tttcaaactc acttaaaaat gagaggataa taaaacggaa actcttcaaa gcattttctg 180

gtagagatgc agaggaaaaa aaatggtatt tcatcaactg atgaaattac ttagatctaa 240

gtgcatcacc atctaaaact acctacctct ttaaagcttc agtatagaaa tatttcaaac 300

tattttttga ggtatgcttt taaaatgggt ttatttacta gtatatatac atgcatttaa 360

gagtgtttgt ggagattagc tagaggttga attgggacac tctgttctca ccttctacca 420

catgagtccc agaggttgct taggttgaga agttctgcag caaacacatt tacacacgga 480

gcaatcccag tagccctcac actttgcaat gagcttgaga gttagagccc agcgtgagct 540

gactcatgcc tttccattat gtctaaattc caatggcgtt ttaaaacatt tttttatata 600

gcaaaaccac atatgattgg gattaaaact gtcaagcaga aatatgaata acttttttca 660

cttaaatttc gtattttatc tgaaattttg accttagaaa tacttgacat tatatctcaa 720

taaaactggc aatgaggaaa aatgaattat tggtttagag gttggtctta ttattgcttg 780

atacattaac aggagacact tactagggct tatcactgaa gtcacccggt acaaatgtac 840

ctaagtgacc gagtctagaa aacaggcact cagatactgg aggttgaaga agcagcttgc 900

ccaatcaatg ctctaattcc aattttatat tcttcctgcc tatattagtt ttccttaagc 960

atagcgagct gaaaaaatga ctgtggcctt atacatatcc tacaggtcaa catgatgaat 1020

ggctgagttg gagttttgaa aaggtgtgaa tcacaagact gcgtctggct ggatgttgat 1080

acctccccaa tcccatgact ttgtggggac gtggcattca tctctcacag agtaatgtgc 1140

agttctcagt tcatgggtgg ctacgaactg aactcccaca gtttatcaca tacattcttg 1200

tgatgtcttg caatttgttt tcgttgtttg ttgagtgtgg gtatttgagg gacaccatgt 1260

gtgtagtcag cacatgcatg tgcttctatc tggagttggt attcattgtg tgtcctctct 1320

ctctctttct ctctctctct ctctctctct ctctctctct ctctctctct ctctctctct 1380

ctctctcttt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt cttacctgcc actggcctca 1440

ataatagtag cttagttggg tagtgtgacc cagacatcag tctgttttgt ctctggtgat 1500

ggaatcatgc tattttgcac tgtcaagtga ttagtcattt ctgagggtca gactcaggtc 1560

cccatacttc caatataaat tgctccccaa tggcaaattt ctacataaca tgaggtcctt 1620

tctgtagaac tgcacaggaa atgacaccca ttctttctgg caattagtaa tgcaagatgg 1680

aatatgcaaa agcagggaac aagcccagaa gtcaatacta cttttaagga ttttgaaaga 1740

aaattgtcat taacgtgcct tctcttttat aaaagtaaga aaactaaggc ccattcttag 1800

ggacaaggat taattgtcca ttatcttaag aggagaatta taatcatata tgaatttgtg 1860

attttattat cacgaagaaa ctacacacaa atacttctgt ttttcattga ttccttattg 1920

aaccaatatt gagttgtgtt tctttggact ctgtacatac acttacagaa gaaatagaat 1980

agaagtgaca ctgaaaattt actgtgcatg tttttcattg gaaagcatta caatcattta 2040

agggaacaat gcatttgata gaaacttcag atatcataca catgttctga tacagaggaa 2100

ttaagtatgc atttcattaa aatagtgttc cttgcatata atcattcatt aggtcttaaa 2160

taagatattg ttattaacat ttaacaaaca ataaggttac ctaatccaga actgcatgat 2220

gataatgacc tgaggacaca acaaagtaga tggttgaagg ttcacaagcc caacccctag 2280

atggctaggg agagaaggag aatcttgttc tccagggatg cggtgcctga taggttgtcc 2340

agatttagcc tgaataaaac atatataata ataactctaa atgcattcag taagttctca 2400

atatgtatat atgtatatat gtatatatat acatatatac atatatacat atatacatat 2460

atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2520

atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2580

atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2640

atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2700

atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2760

atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2820

atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2880

atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2940

atacatatat atatgcactt atatgtgata atagcaatta taagaaaaga tatctgactt 3000

taaaagagat tttatgagag gagttggagg gataatagga agatggaaat actgaaacta 3060

tagtgtgaag tatatgtata aatatatata tatgttatac atgtaaatat atatgatatg 3120

atatatagat caagatcata tcagattata atattgtgtc ttttaaattt ccatgagatg 3180

aggatttcaa ggctgagtaa actctttttt ttaatatttt ttattataac gtattttcct 3240

caattacatt tagaatgcta tcccaaaagt cccccatacc ctccccccaa cttccctacc 3300

cacccattcc cattttttgg ccctggcatt cccctgtact gggacatata aagtttgcgt 3360

gtccaatggg tctctgtttc cagcaatggc cgactaggcc atcttttgat acatatgcag 3420

ctagagtcaa gagctccggg gtactggtta gttcataatg ttgttgcacc tacagggttg 3480

cagatctctt aagtccttgg atactttctc tagctcctcc gttgggggca ctatgcacca 3540

tccaatagct gactgtgagc atctacttat gtgtttgcta ggcctggcct agtctcacaa 3600

gagacagcta tatcagggtc ctttcagcaa aatcttgcta gtgtatgcaa tggtttcatc 3660

gtttggaggc taattatggg atggatctct ggatatggca gtctctagat ggtccatcct 3720

tttgtctcgg ctccaaactt tgctcagcat ccttattcat cagagaaatg caaatcaaaa 3780

ccctgagata ccatctcaca ccagtcagaa tagctaagat caaaaattca ggtgacagca 3840

gatgttggcg aggatgtgga gaaagaggaa cactcctcca ttgttggtgg gattgcaagc 3900

ttgtacaacc actctggaaa tcagtctggc ggttcctcag aaaattggac atagtactac 3960

tggaggatcc 3970

<210>11

<211>30

<212>DNA

<213>人工的

<220>

<223>合成的最佳转录因子结合位点

<400>11

gatccagtac tcatgttcat tttctctaga 30

<210>12

<211>30

<212>DNA

<213>人工的

<220>

<223>合成的最佳转录因子结合位点

<400>12

gatccagtac tgtttgggaa attccatgga 30

<210>13

<211>30

<212>DNA

<213>人工的

<220>

<223>合成的最佳转录因子结合位点

<400>13

gatccagtac tcccctaatt cagacatgca 30

<210>14

<211>30

<212>DNA

<213>人工的

<220>

<223>合成的最佳转录因子结合位点

<400>14

gatccagtac taataataaa atacccggga 30

<210>15

<211>30

<212>DNA

<213>人工的

<220>

<223>合成的最佳转录因子结合位点

<400>15

gatccagtac tttattataa tatgttaaca 30

<210>16

<211>30

<212>DNA

<213>人工的

<220>

<223>合成的最佳转录因子结合位点

<400>16

gatccagtac tgggaaaaaa atcgtcgaca 30

<210>17

<211>1189

<212>DNA

<213>人类

<220>

<221>misc_feature

<223>MAR 1_68的CEBP富集转录因子结合位点区域

<400>17

ttataccaac ctcataaaat aagagcatat ataaaagcaa atgctcttat cttgcagatc 60

cctgaactga ggaggcaaga tcagtttggc agttgaagca gctggaatct gcaattcaga 120

gaatctaaga aaagacaacc ctgaagagag agacccagaa acctagcagg agtttctcca 180

aacattcaag gctgagggat aaatgttaca tgcacagggt gagcctccag aggcttgtcc 240

attagcaact gctacagttt cattatctca gggatcacag attgtgctac ctattgccta 300

ccatctgaaa acagttgctt cctatatttc atccagttta atatttattt aaaccaagaa 360

ggttaatctg gcaccagcta ttccgttgtg agtggatgtg aaagtaccaa ttccattctg 420

ttttactatt aactatcctt tgccttaata tgtatcagta ggtggcttgt tgctaggaaa 480

tattaaatga atggcatgtt tcataggttg tgtttaaagt tgttttttga gttaaatctt 540

tctttaataa tactttctga tgtcaaaaac acttagaagt catggtgttg aacatctata 600

tagggttgga tctaaaatag cttcttaacc tttcctaacc actgtttttg tttgtttgtt 660

tttaactaag catccagttt gggaaattct gaattagggg aatcataaaa ggtttcattt 720

tagctgggcc acataaggaa agtaagatat caaattgtaa aaatcgttaa gaacttctat 780

cccatctgaa gtgtgggtta ggtgcctctt ctctgtgctc ccttaacatc ctattttatc 840

tgtatatata tatattcttc caaatatcca tgcatgggaa aaaaaatctg atcataaaaa 900

tattttaggc tgggagtggt ggctcacgcc tgtaatccca gcactttggg aggctgaggt 960

gggcggatca tgaggtcaag agatcgagac catcctgacc aatatggtga aaccccatct 1020

ctactaaaga tacaaaacta ttagctggac gtggtggcac gtgcctgtag tcccagctac 1080

tcgggaggct gaggcaggag aacggcttga acccaggagg tggaggttgc agtgagctga 1140

gatcgcgcca ctgcactcca gcctgggcga cagagcgaga ctctgtctc 1189

<210>18

<211>763

<212>DNA

<213>人类

<220>

<221>misc_feature

<223>MAR 1_68的弯曲AT/TA二核苷酸富集区

<400>18

aaaaaaaaaa tatatatata tatatatata cacatatata tataaaatat atatatatac 60

acacatatat atataaaata tatatatata cacacatata tataaaatat atatatatac 120

acacatatat ataaaatata tatatacaca catatatata aaatatatat atacacacat 180

atatataaaa tatatatata cacacatata tataaaatat atatatacac acatatatat 240

aaaatatata tatacacaca tatatataaa atatatatat acacacatat atataaaata 300

tatatataca cacatatata taaaatatat atatacacac atatatataa aatatatata 360

tacacacata tatataaaat atatatatac acacatatat aaaatatata tatacacaca 420

tatataaaat atatatatac acatatatat aaaatatata tatacacata tatataaaat 480

atatatacac acatatatat aaaatatata tatacacaca tatatataaa atatatatat 540

acacatatat ataaaatata tatatacaca tatatataaa atatatatat atacacatat 600

atataaaata tatatacaca catatatata aagtatatat atacacacat atatataaaa 660

tatatatata cacatatata taaaatatat atatacacat atatataaaa tatatatata 720

cacatatata taaaaatata tatatatatt ttttaaaata ttc 763

<210>19

<211>1648

<212>DNA

<213>人类

<220>

<221>misc_feature

<223>MAR 1_68的Hox-富集转录因子结合位点区

<400>19

caattgtctc actttgtgga tgagaaaaag aagtagttag aggtcaagta acttggccta 60

catcttttct caagattgta aactcctagt gagcaataac cacatcttca ttttctttgt 120

ataaaacaag aaagtttagc atgaaaaagg tactcaatta caaatgtgtt ggattgaatt 180

gaagaccctt ggaaggggat tttgtacctg aggatctctt tcttttggcc atattgttca 240

atggacaaaa tttagccttc gaaggcaggc cgatttgagg ttaatactac ctttaccact 300

tgatagctat gtgaccttgg ccatgtggtt tcaacagtct gaacctcatt ttctctgtgt 360

atgtgtggtc ctccttacaa gtttgtgaaa aatgtgaagt ccttagccat gatagcccaa 420

tataacaggc taaatgataa taggtttatg ttcttttcct ttatattctc agataagcac 480

tgtccaagtt tgaggtgttt tgaggtctcg cctgatttgg attgtttgag tttatgctat 540

tctttgaatt ctttgagctg ttctgaagca gtgtatcatg aacaaaaaca tccccagttc 600

agtccaaacc cctggttaca tatcattctt atgccatgtt ataaccagtt tgagagtgtt 660

ccctctgtta ttgcatttaa gtttcagcct cacacagaaa ttcagcagcc aatttctaag 720

ccctaagcat aaaatctggg gtgggggggg gggatggcct gaagagcagc attatgaata 780

gcaccattat aattaatgat ctctcaggaa gatttacaat cacaggtagc agataaaaca 840

aatagtactg cttctgcact tcccctcctt ttattcgcta tgaaatttta tgggaaatca 900

gtccagtgaa aaatgtaagc tcttaatctt tcccagaaat cctacctcat ttgatgaata 960

ctttgaggga atgaattaga gcattttttt cttttatagt ctacttcgca tttacgaagt 1020

gaggacggta gcttaggctg cctggccaac tgatgagaag gtcagaggca tttttagaga 1080

cctctgttgt ctttcattca tgttcatttt ccacaaggca agtaatttcc aacaaatcag 1140

tgtcttcatt agtaataaga ttattaacaa caataatagt catagtaact attcagtgag 1200

agtccattat atatcaggca ttctacaagg tactttatat acatctgagt aaacctcaca 1260

caattctaca gggaggtatt tctatcccca tttaacaaat aaggaaacga agtccaagta 1320

aattaacttg cccaaggtca cacagatagt acctggcaga acaggaattt aaacctaaat 1380

ttgtccaact ccaaaagcag ccttctattt gttataaatg ctgcctctca ttatcacata 1440

ttttattatt aacaacaaca aacataccaa ttagcttaag atacaataca accagataat 1500

catgatgaca acagtaattg ttatactatt ataataaaat agatgttttg tatgttacta 1560

taatcttgaa tttgaataga aatttgcatt tctgaaagca tgttcctgtc atctaatatg 1620

attctgtatc tattaaaata gtactaca 1648

<210>20

<211>223

<212>DNA

<213>人类

<220>

<221>misc_feature

<223>MAR 1_68的Hox-富集转录因子结合位点区的3′末端

<400>20

agaaagagat cctcaggtac aaaatcccct tccaagggtc ttcaattcaa tccaacacat 60

ttgtaattga gtaccttttt catgctaaac tttcttgttt tatacaaaga aaatgaagat 120

gtggttattg ctcactagga gtttacaatc ttgagaaaag atgtaggcca agttacttga 180

cctctaacta cttctttttc tcatccacaa agtgagacaa ttg 223

Claims

1.用于高水平表达至少一种基因的一种表达系统，包括：

用于可操作地连接编码一种感兴趣基因的一种核苷酸序列的一种启动子，以及在一种用所述表达系统转化的细胞内用于增强一种所述基因表达的至少一种非人类哺乳动物MAR核苷酸序列，其中用所述构建体转化所述细胞时，所述非人类哺乳动物MAR核苷酸序列使所述基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。

2.根据权利要求1所述的表达系统，其中包括所述启动子和编码一种感兴趣基因的所述核苷酸序列的一种表达盒可操作地连接于该启动子。

3.根据以上权利要求中任一项所述的表达系统，其中所述至少一种非人类哺乳动物MAR核苷酸序列是一种啮齿动物MAR核苷酸序列，例如一种小鼠或仓鼠MAR核苷酸序列。

4.根据以上权利要求中任一项所述的表达系统，其中所述非人类哺乳动物MAR核苷酸序列包括：

(i)SEQ ID No.3、SEQ ID No.10或它的一个功能片段；或者

(ii)与(i)中任何一个序列具有约80％，约90％，约95％或约98％的序列一致性的一种核苷酸序列。

5.根据以上权利要求中任一项所述的表达系统，其中所述基因在一种非人类哺乳动物细胞例如一种啮齿动物细胞特别是一种小鼠或仓鼠细胞或者在一种人类细胞如一种HeLa细胞内表达。

6.根据以上权利要求中任一项所述的表达系统，其中所述至少一种非人类哺乳动物MAR核苷酸序列在所述基因上以顺式或反式发挥作用。

7.用于增加在一种细胞内蛋白质产量的一种方法，包括提供一种人类或非人类哺乳动物细胞，

将以上权利要求中任一项所述的表达系统导入所述细胞内，使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多。

8.一种分离并纯化的核酸分子，包括：

(a)SEQ ID No.3或SEQ ID No.10或它的一个功能片段的核苷酸序列，或者

(b)与(a)中的序列具有至少约80％、约90％、约95％或约98％的序列一致性且具有MAR活性的一种核苷酸序列。

9.用于鉴定非人类哺乳动物MAR序列的一种方法，包括：

提供至少一种非人类哺乳动物核酸分子，优选一种非人类哺乳动物基因组或其一部分，

令所述核酸分子经受针对MAR序列的一个扫描过程，包括：

设定待评估的核酸分子的窗口大小，

选择至少1个或至少2个，优选3个，更优选4个或更多个与MAR相关的特征，

为表现这个/这些特征的序列设定多个阈值，以及

选择超过这些阈值的MAR候选核苷酸序列，

确定通过包含所述非人类哺乳动物MAR核苷酸序列的一种表达系统转化一种人和/或非人类哺乳动物细胞时，所述非人类哺乳动物MAR核苷酸序列使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。

10.根据权利要求9所述的一种方法，其中所述至少一个特征可以是一个DNA弯曲角度、大沟深度、小沟宽度、解链温度或它们的组合。

11.根据权利要求10所述的方法，其中DNA弯曲角度值包括在约3和约5度(基团的角度(radical degree))之间，优选在3.8和约4.4度之间，包括约3.9、约4.0、约4.1、约4.2和约4.3度。

12.根据权利要求10或11所述的方法，其中大沟深度值在约8.9至约之间并且小沟宽度值在约5.2至约之间，优选地，该大沟深度值在约9.0至约

之间包括约

并且该小沟宽度值可在约5.4至约

之间包括约

和约

13.根据权利要求10至12所述的方法，其中该解链温度在约55和约75℃之间，特别在约55和约62℃之间，包括约56、约57、约58、约59、约60和约61℃。

14.根据权利要求10所述的方法，其中DNA弯曲角度值在约4.0至约5.0度之间，包括约4.1、约4.2、约4.3、约4.4、约4.5、约4.6、约4.7、约4.8和约4.9度。

15.根据权利要求14所述的方法，其中所述DNA弯曲角度值是与范围从约50bp至约150bp，包括例如约80bp、约100bp和约120bp的窗口值相结合。

16.根据权利要求10所述的方法，其中该DNA弯曲角度值乘以一个窗口值是在约320和约1320之间，例如在约420和约1220、约520和约1120、约620和约1020、约720和约920之间，该大沟深度值乘以该窗口值是在约900和约4000之间、例如在约1200和3700、约1500和约3400、约1800和约3100、约2100和约2800之间，和/或小沟深度值乘以该窗口值是在约500和约2500之间，例如在约750和约2250、约1000和约2000、约1250和1750之间。

17.根据权利要求9至16所述的方法，进一步包括：

提供经实验证实的人类或非人类来源的MAR；

利用所述经实验证实的人类或非人类来源的MAR确定所述阈值。

18.一种MAR构建体，包括：

(a)(i)一种分离的核苷酸序列，包括一个已鉴定MAR的一个末端区域的至少一部分，以及

(ii)另一个分离的核苷酸序列，包括所述已鉴定MAR或另一种已鉴定MAR的约10％、约15％、约20％、约25％、约30％或者更多；或者

(b)(i)一种核苷酸序列，具有与(a)(i)的核苷酸序列约90％、约95％、约96％、约97％、约98％、约99％的序列一致性，以及

(ii)一种核苷酸序列，具有与(b)(i)的核苷酸序列约70％、约80％、优选约90％、约95％、约96％、约97％、约98％、约99％的序列一致性。

19.根据权利要求18所述的MAR构建体，其中(a)(ii)中所述核苷酸序列包括一个富含AT区。

20.根据权利要求18或19所述的一种MAR构建体，其中所述MAR构建体包括一种已鉴定MAR序列的核苷酸数量的少于约90％、优选少于约80％、甚至更优选少于约70％、少于约60％或少于约50％。

21.根据权利要求18至20中任一项所述的一种MAR构建体，其中所述MAR构建体包括与已鉴定MAR序列的核苷酸数量的约相同值或至少约110％

22.一种MAR构建体，包括：

连续排列的一种已鉴定的MAR序列的多个区域，其中一种顺序和/或一种方向不同于一种已鉴定MAR序列的顺序和/或方向。

23.根据权利要求22所述的MAR构建体，其中所述区域包括至少一个富含AT区域和至少一个结合位点区域。

24.根据权利要求22至23所述的MAR构建体，其中所述MAR构建体进一步包括至少一个结合位点区域的至少一部分，并且任选地，其中所述至少一个结合位点区域的所述至少一部分来自所述已鉴定MAR序列。

25.根据权利要求22至24所述的MAR构建体，其中所述已鉴定MAR序列是一种人MAR或一种小鼠MAR。

26.根据权利要求22至25所述的MAR构建体，其中所述已鉴定MAR序列的所述区域或其部分与该天然发生的人1_68MAR或小鼠MAR S4区域或者它们的部分具有约70％的序列一致性、约80％的序列一致性、约90％的序列一致性、约95％的序列一致性、或约98％的序列一致性。

27.根据权利要求22至26所述的MAR构建体，其中所述区域分别对应于一种天然发生的人1_68MAR的bp 1至1189、1190至1952以及1953至3600。

28.根据权利要求22至27所述的MAR构建体，其中这些区域是序列特异性区域。

29.一种MAR构建体，包括：

(a)一个核心核苷酸序列，包括

(i)一个已鉴定MAR序列的至少一个分离的或合成的富含AT区；或

(ii)与(a)(i)中富含AT区具有至少80％、85％、90％、95％、98％或99％的序列一致性的至少一个富含AT区，

(b)一个核苷酸序列，包括

与(a)中所述核苷酸序列相邻的至少一个DNA蛋白质结合位点，其中所述结合位点是

(i)另一个已鉴定MAR序列的一个DNA蛋白质结合位点，

(ii)(a)中该已鉴定MAR序列的一个DNA蛋白质结合位点，其中在该已鉴定MAR序列中，所述DNA蛋白质结合位点位于(a)的该核心核苷酸序列外部，或者

(iii)存在于(a)的核心内但与至少一个另外的DNA蛋白质结合位点相邻的一个第一DNA蛋白质结合位点，其中在(a)的核心内，该第一和至少一个所述另外的DNA蛋白质结合位点不相邻，或者

(iv)一种非MAR序列的一个DNA蛋白质结合位点。

30.根据权利要求29所述的MAR构建体，其中在将所述MAR构建体导入一种细胞内时，所述构建体使可操作性地连接于一种启动子的一种基因的表达增强约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。

31.根据权利要求29或30所述的MAR构建体，其中所述MAR构建体长度少于500个核苷酸，优选少于约250个核苷酸，甚至更优选少于约200个、约150个或约100个核苷酸。

32.根据权利要求29至31所述的MAR构建体，其中(a)中所述核心核酸序列包括所述已鉴定MAR的至少一个TFBS，其中在该已鉴定MAR内，所述至少一个TFBS位于所述富含AT区的一侧或两侧。

33.根据权利要求29至32所述的MAR构建体，其中(b)中所述至少一个DNA蛋白质结合位点是一个TFBS，并且由1个、2个、3个、4个、5个或更多的取代、添加和/或缺失加以修饰，并且/或者是全部或部分合成的。

34.根据权利要求29至33所述的MAR构建体，其中位于所述富含AT区侧翼的所述TFBS被1个、2个、3个、4个、5个或更多的取代、添加和/或缺失修饰。

35.根据权利要求33或34所述的MAR构建体，其中所述TFBS是无已知天然对应物的一种优化的TFBS。

36.根据权利要求29至35所述的MAR构建体，其中所述结合位点选自下组，其组成为：SATB1、NMP4、HOX、HOXF、Gsh、CEBP、Fast1和SATB1或者这些转录因子中的两种或多种的一个组合。

37.根据权利要求29至36所述的MAR构建体，其中(b)的所述DNA蛋白结合位点的一个系列是与(a)的所述核酸序列相邻。

38.根据权利要求29至37所述的MAR构建体，其中所述MAR构建体是一个增强的MAR构建体。

39.一种表达系统，包括

以上权利要求中任一项所述的至少一个MAR构建体，并且，任选地，

一个启动子和至少一个限制性内切酶结合位点，用于在所述启动子控制下导入一个感兴趣的核苷酸序列。

40.一种细胞，包含以上权利要求中任一项所述的一个表达系统。

41.一种转基因非人类动物，包含以上权利要求中任一项所述的一个表达系统。

42.一个试剂盒，包括：

以上权利要求中任一项所述的表达系统，以及

如何使用所述表达系统的说明。

43.用于增强一种基因的表达的一种方法，包括

在一种启动子以及以上权利要求中任一项所述的一种MAR构建体的控制下提供包含所述基因的一种表达系统；

用所述表达系统转染一种细胞，以增强所述基因的表达。

44.根据权利要求43所述的一种方法，其中所述表达系统进一步增强所述基因表达的稳定性。

45.以上权利要求中任一项所述的MAR构建体、表达系统、转基因非人类动物、试剂盒和/或方法在生产蛋白质例如识别人病原体蛋白质或人细胞表面蛋白质的抗体，以及蛋白质诸如促红细胞生成素、干扰素或其他治疗性或诊断性蛋白质中的应用。

46.以上权利要求中任一项所述的MAR构建体、表达系统、细胞、试剂盒和/或方法在体外和/或体内基因治疗和/或在细胞或组织替代疗法中的应用。