CN101541959A - 用于增加转录的基质附着区(mar)及其应用 - Google Patents

用于增加转录的基质附着区(mar)及其应用 Download PDF

Info

Publication number
CN101541959A
CN101541959A CN 200780029732 CN200780029732A CN101541959A CN 101541959 A CN101541959 A CN 101541959A CN 200780029732 CN200780029732 CN 200780029732 CN 200780029732 A CN200780029732 A CN 200780029732A CN 101541959 A CN101541959 A CN 101541959A
Authority
CN
China
Prior art keywords
mar
sequence
construct
nucleotide sequence
binding site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200780029732
Other languages
English (en)
Inventor
尼古拉斯·梅尔莫
皮埃尔·阿兰·吉罗德
戴维·卡拉布雷塞
亚历山大·雷加梅
萨里内·多尼内利-阿罗佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Selexis SA
Original Assignee
Selexis SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Selexis SA filed Critical Selexis SA
Publication of CN101541959A publication Critical patent/CN101541959A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明披露了人类以及非人类动物来源的分离且纯化的MAR序列以及对应于或基于它们的核苷酸序列。特别地,本发明披露了具有较高转录和/或蛋白质生成增强活性的MAR以及MAR构建体以及用于鉴定这些MAR的方法、设计这些MAR构建体的方法以及将其用于例如高产率的蛋白质生产的方法。

Description

用于增加转录的基质附着区(MAR)及其应用
本申请要求于2006年8月23日提交的美国临时申请60/823,319号以及于2007年8月3日提交的临时申请60/953,910号的优先权,其全部内容以引用的方式结合于此。
技术领域
本发明涉及包含对应于或基于已分离和纯化的人类和非人类动物来源MAR序列的核苷酸序列的核酸。这些核酸通常具有增强转录和/或蛋白质生成的活性。本发明还涉及用于鉴定这些序列的方法以及应用这些方法的系统,例如用于提高蛋白质产量。
背景技术
为了阐释本发明特别是提供与其实施相关的额外细节,将本文采用的公开文件和其他材料包括专利均通过引用的方式结合于此。为了方便,这些公开文件,如果在正文中未详细陈述,则在所附的参考文献部分按字母顺序列出。EMBL登录号AC102666以及位于EMBL登录号BH101870和BH101901侧翼的序列以及EMBL登录号(同物异名)126658,23119391,22981746也全部结合于此供参考。
现在,真核染色体形成约50至100kb的染色质环形结构域的模型已被广泛公认[Bodnar JW,Breyene P,Van Montagu M andGheyseu G,Razin SV]。可认为这些环的外端对应于附着于核基质(一种由RNP(核糖核蛋白)和其它非组氨酸蛋白质构成的蛋白质质网状系统)的特异DNA序列[Bode J,Benham C,Knopp A andMielke C]。连接于核基质的染色体DNA序列在支架(分裂中期)或基质(分裂间期)附着区分别称为SAR或MAR。S/MAR、MAR元件或MAR序列或者简称MAR通常为长度为300至3000bp的多态区域。据估计哺乳动物细胞核内存在约100000个MAR[Bode J,Stengert-Iber M,Kay V,Schlake T and Dietz-Pfeilstetter A]。
通过结构性和功能性地将染色质分成环形结构域,可认为MAR在复制和基因表达的调节中发挥重要作用,例如促进哺乳动物核内转录座位(foci)的序列组合和解离。现已得到大量间接证据可支持这种观念;例如在各种真核基因组内,DNA复制起始点位于MAR元件内部[Amati B and Gasser SM(1988),Amati B and GasserSM(1990)]。还发现MAR几乎总是存在于非编码基因间区、内含子内部[Girod PA,Zahn-Zabal M and Mermod N]或转录单位的边缘[Gasser SM and Laemmli UK;National Center for BiotechnologyInformation],其中MAR可结合普遍性和/或组织特异性转录因子。总体说来,在植物和动物细胞系的转基因试验中,MAR元件已成功用来增加转基因的表达和稳定性[Allen GC,Spiker S,ThompsonWF,Bode J,Schlake T,Rios-Ramirez M,Mielke C,Stengart M,Kay Vand Klehr-Wirth D,Girod PA,Zahn-Zabal M and Mermod N]。例如,MAR已经用来增加各种与生物技术和治疗性应用相关的重组蛋白质在细胞例如CHO(中国仓鼠卵巢)细胞内的产量[Girod PA,Zahn-Zabal M and Mermod N,Kim JM,Kim JS,Park DH,Kang HS,Yoon J,B aek K and Yoon Y,Zahn-Zabal M,Kobr M,Girod PA,ImhofM,Chatellard P,de Jesus M,Wurm F and Mermod N](Mermod et al.,“Development of stable cell lines for production or regulatedexpression using matrix attachment regions,”WO 02074969,以及美国专利公开文件20030087342)。
已将MAR的功能活性与其结构特性而非其一级DNA序列相关联。实际上,MAR的A和T含量较高[Boulikas T(1993)],且已经观察到一些特殊的构象和理化性质,例如分子的固有曲率、狭窄的小沟、高解旋/解链潜在可能性或变性敏感性[Bode J,Schlake T,Rios-Ramirez M,Mielke C,Stengart M,Kay V and Klehr-Wirth D,Boulikas T(1993),Boulikas T(1995)]。事实上,正是通过称为SMAR扫描(SMAR Scan)的方法,利用这些性质鉴定MAR。此外,MAR活性还可由DNA结合蛋白质介导,例如可识别MAR元件特异结构特征例如单链和/或弯曲DNA的染色质重塑酶和/或转录因子[Bode  J,Stengert-Iber  M,Kay V,Schlake T andDietz-Pfeilstetter A]。尚未发现明确的蛋白质结合位点或MAR共有序列[Boulikas T(1993)],这使得难以从基因组序列预测MAR。
尽管已经描述了MAR的某些功能和结构性质,但由于其一级结构几乎无共有序列,因此其鉴定是困难的。真核基因组内MAR元件可能在功能上较为保守,一个假设可由动物MAR可结合于植物核支架并且反之亦然这个事实而得到支持[Breyne P,Van MontaguM,Depicker A and Gheysen G,Mielke C,Kohwi Y,Kohwi-ShigematsuT and Bode J],但关于是什么特征使得MAR序列成为如有效的蛋白质生成序列则知之甚少。此外,根据所采用的分析不同,可得到不同的结果[Razin SV,Boulikas T(1995),Kay V and Bode J]。考虑到真核生物内预期MAR的巨大数量以及基因组计划发布的序列数量,已开发了工具/程序用来检测MAR DNA序列的结构特征(SMAR Scan I)或者功能序列例如作为调节蛋白质或转录因子的特殊蛋白质的结合位点(SMAR Scan II)[2007年8月3日提交的美国临时专利申请60/953,910,Mermod et al的美国专利公开文件20070178469.]。设计这些程序是为了通过检测对应于DNA弯曲、大沟深度和小沟宽度潜在可能性,以及用于特异转录调节蛋白质的结合位点的多种DNA序列特征簇,来鉴定新的潜在MAR序列。这些程序已用来扫描人类基因组,以鉴定公认的MAR DNA序列,已证实其中几种公认的MAR DNA序列当导入被转染入CHO细胞内的表达质粒内时可增加转基因的表达,(Girod et al.,“Identification of S/MAR from genomic sequences withbioinformatics and use to increase protein production in industrial andtherapeutic processes,”Mermod et al.的美国专利公开文件20070178469]。这表明SMAR Scan程序可有效地鉴定人类遗传元件,其依次可用来增加蛋白质合成。尽管到目前为止所开展的功能筛查限于人类基因组,但在大规模生产中,感兴趣的蛋白质常常在非人类哺乳动物细胞中进行表达。
已通过SMAR Scan在人类基因组中鉴定了大约1600种MAR,且已证实八分之六当置于增强子/启动子上游时,可导致CHO细胞内基因(例如用于绿色荧光蛋白质(GFP)、抗体和受体的基因)表达增加。已证实具有异位MAR活性的DNA长度在2.5kb至6kb的范围内。然而,缺乏对MAR结构的表征现在已经限制了“设计者”MAR的生产。因此,需要对MAR特别是MAR的功能和/或结构区域进行表征,以实现MAR改造和设计。
到目前为止开展的功能筛查限于人类基因组。因为在大规模生产中,感兴趣蛋白质常常在哺乳动物细胞中进行表达,因此还需要鉴定更多有效的天然发生的MAR,其可促进人类和/或非人类哺乳动物细胞内的转录和/或基因表达和/或有效的蛋白质生成细胞。
总的来说,存在例如通过鉴定另外天然发生的MAR、通过改造已鉴定MAR和/或通过生产合成的MAR来鉴定和/或生成具有有利性质的MAR的需求。有利性质本身包括但不限于转录和/或蛋白质生成/基因表达的性质增强;相对于天然发生的MAR长度减小从而使得例如在遗传改造中具有更多用途;组织、细胞或器官特异性和/或加入外来刺激物例如药物时的可诱导性。
为了实现一种或多种这些需求以及在下文的披露内容中将变得明显的其他需求,可采用几种途径包括对小鼠基因组进行大规模生物信息分析,以鉴定公认的MAR DNA序列。利用MAR预测软件SMAR Scan I对小鼠基因组加以分析。评估新鉴定的啮齿动物序列介导改善从培养细胞生成药物感兴趣重组蛋白质的能力。为此,可在转基因的转染分析中对新鉴定MAR的转录活性加以评估。
此外,对MAR如人类1_68MAR和小鼠MAR S4进行研究。鉴定了模块特别是包含MAR某些结构的模块/序列特异性模块的模块,并利用这些模块改造具有有利性质的MAR,例如通过序列的重组、缺失和/或复制。模块还可与其他元件例如包含某些结合位点特别是转录因子结合位点(TFBS)的合成核苷酸序列结合。
发明内容
在一个实施方式中,本发明是针对至少一种基因的高水平表达的表达系统,包括:
用于可操作性地连接编码感兴趣基因的核苷酸序列的启动子,以及至少一种非人类哺乳动物MAR核苷酸序列,用于促进所述基因在转染了所述表达系统的细胞内表达,其中用所述构建体转染所述细胞时,所述非人类哺乳动物MAR核苷酸序列使所述基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
所述非人类哺乳动物MAR核苷酸序列可包括,主要由以下序列或由以下序列组成:
(i)SEQ ID No.3、SEQ ID No.10或其功能片段;或者
(ii)与(i)中任何一个序列具有约80%、约90%、约95%或约98%的序列一致性的核苷酸序列。
本发明还针对分离并纯化的核酸分子,包括,主要由以下序列或由以下序列组成:
(a)SEQ ID No.3或SEQ ID No.10或者其功能片段的核苷酸序列;或者
(b)与(a)中序列具有至少约80%、约90%、约95%或约98%的序列一致性且具有MAR活性的核苷酸序列。
本发明进一步针对一种用于鉴定非人类哺乳动物MAR序列的方法,包括:
提供至少一种非人类哺乳动物核酸分子,优选非人类哺乳动物基因组或其一部分。
令所述核酸分子经受针对MAR序列的一个扫描过程,包括:
设定用于待评估核酸分子的窗口大小,
选择至少1个或至少2个,优选3个,更优选4个或更多个MAR相关特征,
设定用于表现这个/这些特征的序列的阈值,以及
选择超过这些阈值的MAR候选核苷酸序列,
确定通过包含所述非人类哺乳动物MAR核苷酸序列的表达系统转化人和/或非人类哺乳动物细胞时,所述非人类哺乳动物MAR核苷酸序列使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
因此,该特征可以为DNA弯曲角度,其值乘以窗口值得到在约320和1320之间的乘积值,例如约420和约1220、约520和约1120、约620和约1020、约720和约920;因此,该特征可以为大沟深度值,其乘以窗口值得到在约900和约4000之间、例如约1200和3700、约1500和约3400、约1800和约3100、约2100和约2800的乘积值以及/或者因此,该特征可以为小沟深度值,其乘以窗口值得到在约500和约2500、例如约750和约2250、约1000和约2000、约1250和1750的乘积值。
本发明还针对MAR构建体,包括:
(a)(i)分离的核苷酸序列,包括已鉴定MAR末端区域的至少一部分,以及
(ii)另外分离的核苷酸序列,包括所述已鉴定MAR或另一已鉴定MAR的约10%、约15%、约20%、约25%、约30%或者更多;或者
(b)(i)一个核苷酸序列,具有与(a)(i)中核苷酸序列约90%、约95%、约96%、约97%、约98%、约99%的序列一致性,以及
(ii)一个核苷酸序列,具有与(b)(i)中核苷酸序列约70%、约80%、优选约90%、约95%、约96%、约97%、约98%、约99%的序列一致性。
根据本发明所述的其他MAR构建体包括:
连续排列的已鉴定MAR序列区域或其一部分,其中顺序和/或方向不同于已鉴定MAR序列。
此外,根据本发明所述的其他MAR构建体还包括:
(a)一个核心核苷酸序列,包括
(i)至少一个分离的或合成的已鉴定MAR序列的富含AT区;或
(ii)至少一个与(a)(i)中富含AT区具有至少80%、85%、90%、95%、98%或99%序列一致性的富含AT区,
(b)一个核苷酸序列,包括至少一个与(a)中所述核苷酸序列相邻的DNA蛋白质结合位点,其中所述结合位点是
(i)另外已鉴定MAR序列的DNA蛋白质结合位点,
(ii)(a)中已鉴定MAR序列的DNA蛋白质结合位点,其中在该已鉴定MAR序列中,所述DNA蛋白质结合位点位于(a)的核心核苷酸序列外部,或者
(iii)存在于(a)的核心内但与至少一个另外DNA蛋白质结合位点相邻的第一DNA蛋白质结合位点,其中在(a)的核心内,该第一和至少一个所述另外DNA蛋白质结合位点中不相邻,或者
(iv)非MAR序列的DNA蛋白质结合位点。
本发明还针对包括任何列举的MAR构建体的表达系统、包括列举的表达系统的试剂盒以及任何该MAR构建体、表达系统、细胞、转基因的非人类动物、本文所提到的试剂盒和/或方法在(1)生成蛋白质例如识别人病原体蛋白质或人细胞表面蛋白质的抗体,以及蛋白质诸如促红细胞生成素、干扰素或其他治疗性或诊断性蛋白质的应用以及/或者(2)在体外、体内基因治疗、细胞治疗或组织再生治疗中的应用。
附图说明
图1示出了各种MAR对重组绿色荧光蛋白(GFP)生成的影响。
图2示出了各种人类和小鼠MAR元件对CHO细胞中重组绿色荧光蛋白(GFP)的极高生产者(%M3)的百分位数的影响。
图3示出了各种人类1_68和小鼠S4 MAR元件对重组绿色荧光蛋白(GFP)表达的影响。
图4示出了小鼠MAR元件对重组单克隆抗体生成的影响。
图5示出了稳定的多克隆种群可从用促使IgG重链和轻链表达的载体转染的CHO细胞群中产生,该载体无MAR(没有MAR)或以顺式加入MAR S4。
图6(A)和(B)示出了稳定的单个克隆可通过限制性稀释来自促使IgG重链和轻链表达的载体转染的CHO细胞群中生成,在(B)中无MAR(没有MAR)或以顺式加入MAR S4和MAR 1_68。
图7(A)和(B)示出了在(A)中无MAR和在(B)中有MAR时基因(GFP)随时间的表达情况(2周和26周)。
图8(A)和(B)示出了人类1_68MAR的弯曲(A)和序列(B)特征。
图9(A)至(C):(A)示出了通过已鉴定区域组合得到的不同MAR构建体及所获得转录增强;(B)示出了MAR构建体6的的弯曲模式;(C)提供了结构参数的细节例如MAR构建体6的结合位点。
图10示出了各种MAR S4构建体对重组绿色荧光蛋白(GFP)表达的影响,如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。
图11示出了重组绿色荧光蛋白(GFP)表达所衍生的各种MARS4构建体,如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。
图12示出了人类1_68MAR的可能转录因子结合位点图谱,如通过MATInspector软件所预测的。
图13是用来测试合成MAR活性的质粒的图谱,该合成MAR是用富含AT的核心(MAR 1429-2880)和用于转录因子(置于启动子和绿色荧光蛋白质(GFP)上游)的化学合成DNA结合位点组合而构建成的。
图14图示了通过如图13中所述而构建的合成MAR的增强转录。
图15图示了通过包含表5中所列出的DNA结合位点的合成MAR的增强转录。
具体实施方式
本发明涉及来自非人类动物的分离并纯化的MAR序列、鉴定这些序列的方法以及采用这些序列用于在人类细胞以及非人类细胞如啮齿动物细胞中生产高产量蛋白质的系统。
本发明还针对MAR构建体特别是增强的MAR构建体、表达系统以及采用这些MAR构建体的试剂盒及其在蛋白质生产特别是大规模生产和治疗中的应用。
除非另外声明,本文采用的所有技术和科学术语均具有与本发明所涉及技术领域中普通技术人员通常理解的相同意思。尽管不同于本文所述的方法和材料可用于实施本发明,下文描述了示例性的适当方法和材料。
根据本发明所述的表达盒是包括至少一个基因以及该基因转录所需元件的核酸。
根据本发明所述的启动子是DNA的调节区域,当其位于基因上游时,促进该基因的转录。
细胞内表达例如在非人类哺乳动物细胞中的表达在本文中指的是体外和体内表达。体外表达包括例如在细胞系如HeLa细胞系或CHO细胞系以及体外基因治疗中使用的细胞内表达。体内表达包括在转基因的非人类动物中表达以及在体内基因治疗或体外基因治疗中使用的将该细胞重新导入人类基因治疗受体后在人类细胞内的表达。
根据本发明所述的哺乳动物细胞,例如非人类哺乳动物细胞,能够在细胞培养条件下保存。该类型细胞的一个非限制性实例是中国仓鼠卵巢(CHO)细胞。
根据本发明所述的MAR构建体、MAR元件、MAR序列、S/MAR或仅仅MAR是与天然发生的“SAR”或“MAR”共有一个或多个(例如2个、3个或4个)特征且具有至少一个促进任何受所述MAR影响的基因的蛋白质表达的特性的核苷酸序列。MAR构建体还具有一个特征,即为具有MAR活性特别地具有转录调节优选增强活性的分离和/或纯化的核酸,但还具有例如表达稳定活性和/或其他以“增强的MAR构建体”阐述的活性。MAR构建体还可根据其主要基于的已鉴定MAR加以定义:因此,MAR S4构建体即一种大部分核苷酸(>50%)基于MAR S4的MAR构建体。根据一种广泛接受的模型,天然发生的SAR或MAR介导特异DNA序列与核基质的锚定,所产生的染色质环状结构域从异染色质的核心向外延伸。尽管SAR或MAR不包含任何明显的共有序列或可识别序列,但看来其最一致的特征是高的总体A和T含量,且碱基C主要位于一条链上。通常MAR倾向于形成弯曲的二级结构,其可能易于发生链分离。SAR和/或MAR内部常常存在几个A和T含量高的简单基序,但对于其大部分而言,尚未明确其功能重要性和可能的作用方式。这些包括A盒、T盒、DNA解链基序、SATB1结合位点(H-box、A/T/C25)以及用于脊椎动物或果蝇属的共有拓扑异构酶II位点。
根据本发明所述的MAR候选物或MAR候选序列,是与天然发生的SAR或MAR共有1个或多个特征例如2个、3个或4个特征的序列。
根据本发明所述的已鉴定MAR或已鉴定MAR序列是已分离的核苷酸序列,且相当于天然发生的MAR序列,因为它包括实现充分促进其天然对应物蛋白质/基因表达的所有区域(“模块”或“元件”)。
一个已鉴定的MAR的这些模块(本文中也称之为“区域”、“DNA区域”、“部分”、“结构域”)就是允许对天然发生的MAR的能力实现蛋白质/基因表达的增强所必需的全部条件。这些模块通常均不能单独获得该MAR的全部活性。这些区域中一部分是序列特异的,例如下文所述富含AT二核苷酸的弯曲区域以及转录因子结合位点(TFBS)区域。其他“区域”由其定位而表征,例如已鉴定MAR序列的5’和3’末端区域。
富含AT/TA二核苷酸的弯曲DNA区(下文称为“富含AT区”)是包含大量A和T特别是二核苷酸AT和TA形式的弯曲DNA区。在一个优选的实施方式中,在一段100个相邻碱基对中,其包含至少10%的二核苷酸TA和/或至少12%的二核苷酸AT,优选在一段100个相邻碱基对中(或者,如果富含AT区长度更短,则分别位于一条更短链上),其包含至少33%的二核苷酸TA和/或至少33%的二核苷酸AT,同时具有弯曲的二级结构。然而,该“富含AT区”可以短至约30个核苷酸或更少,但优选长约50个核苷酸、约75个核苷酸、约100个核苷酸、约150个、约200个、约250个、约300个、约350个或约400个核苷酸或更长。
如下文将讨论的,富含AT区可通过例如其相对较高的弯曲角度而与邻近区域如结合位点区相区别。某些结合位点还常常具有相对较高的A和T含量如SATB1结合位点(H-box,A/T/C25)以及用于脊椎动物和果蝇属的共有拓扑异构酶II结合位点。然而,一个结合位点区(模块),特别是包括一簇结合位点的一个TFBS区,可通过比较这些区域的弯曲模式将A和T含量高的结合位点与富含AT和TA二核苷酸的区域(“富含AT区”)容易地区别开。例如,对于人类MAR 1_68,后者可具有超过约3.8或约4.0的平均曲率度,而TFBS区则可具有低于约3.5或约3.3的平均曲率度。已鉴定MAR区域如本文其他部分所述,可通过可替代方式例如但不限于解链温度确定。然而,这些值是种属特异性的,并因此可随种属而不同,并例如可以更低。因此,各个富含AT和TA二核苷酸区域可具有更低的曲率度例如从约3.2至约3.4,或从约3.4至约3.6,或从约3.6至约3.8,且TFBS区可具有按比例更低的曲率度,例如低于约2.7、低于约2.9、低于约3.1、低于约3.3。在SMAR Scan II中,将由熟练技术人员选择各自更低的窗口值。
根据本发明所述已鉴定MAR/MAR序列的末端区域包括已鉴定MAR的至少约5%、约6%、约7%、约8%、约9%或约10%。
结合位点或DNA蛋白质结合位点是任何可以结合DNA结合蛋白质的核苷酸序列。用于DNA结合蛋白质的结合位点通常是TFBS。TFBS是可以结合转录因子的任何序列。TFBS可以为任何来源例如但不限于人类或小鼠。TFBS还可以为改造的或合成的。然而,在某些实施方式中,该TFBS在MAR序列例如相同生物、相同种或相同属的MAR序列中具有对应物。然而,TFBS可以来自不同种或不同属的MAR序列。此外,MAR序列中不含有目前已知对应物的TFBS也在本发明的范围之内。这种TFBS可包括但不限于用于USF1(上游刺激因子1)或锌指蛋白质CTCF的结合位点。TFBS可由1、2、3、4、5或更多个取代、添加和/或缺失而修饰,且可全部或部分合成。优化的TFBS,即具有对各个DNA结合蛋白质的最优结合亲和性且常常不具有已知的天然对应物,也在本发明的范围之内。那些优化的TFBS可通过对天然发生的TFBS进行上述修饰或者通过合成特别是化学合成而得到。在本发明的某些实施方式中,通过例如结合于组织特异性天然的、改造的或合成的调节蛋白质或者其他例如可对特定药物和分子起反应的天然的、改造的或合成蛋白质,结合位点或TFBS赋予MAR组织特异性。基因和/或细胞疗法是从组织特异性以及MAR对某些药物发生特异性反应(即,其可由药物诱导)的能力受益的典型例子。前者,该例如感兴趣基因将仅在特异器官或组织中表达,后者,表达则可例如仅在对某药物起反应时而启动。转录因子(其可能包含TFBS)的其他非限制性实例为例如SATB1、NMP4、MEF2、S8、DLX1、FREAC7、BRN2、GATA 1/3、TATA、Bright、MSX、AP1、C/EBP、CREBP1、FOX、Freac7、HFH1、HNF3α、Nkx25、POU3F2、Pit1、TTF1、XFD1、AR、C/EBPγ、Cdc5、FOXD3、HFH3、HNF3β、MRF2、Oct1、POU6F1、SRF、V$MTATA B、XFD2、Bach2、CDP CR3、Cdx2、FOXJ2、HFL、HP1、Myc、PBX、Pax3、TEF、VBP、XFD3、Brn2、COMP1、Evil、FOXP3、GATA4、HFN1、Lhx3、NKX3A、POU1F1、Pax6和/或TFIIA。
如果该核心核苷酸序列与该结合位点由不超过约200个优选不超过约100个核苷酸,甚至更优选不超过约50个核苷酸,甚至更优选不超过约25个、不超过约15个、不超过约5个或无核苷酸而隔开,则称结合位点如TFBS与核心核苷酸序列相邻。在一个优选的实施方式中,结合位点特别是TFBS本身在TFBS每一侧面上均包括更短的接头或适配子(可达25个核苷酸)。在一个甚至更优选实施方式中,TFBS是可达约50个核苷酸、约40个核苷酸或约30个核苷酸的寡聚物的一部分。一系列结合位点,例如根据本发明所述TFBS,是一列彼此按顺序排列的TFBS。如果该系列中与核心邻近的TFBS具有上文指定的距离,则称该系列TFBS与核心核苷酸序列相邻。如果该结合位点是核心核苷酸序列的一部分且在天然发生的MAR中相同位置具有对应物,则称该结合位点位于“富含AT区”侧翼。
结合位点可由1、2、3、4、5或更多个取代、添加和/或缺失而修饰。优选地,导入这些取代、添加和/或缺失,从而使得该结合位点与各个结合位点的共有序列匹配。
多种增强的MAR构建体都是本发明的一部分,且具有构成相对天然发生的和/或已鉴定MAR增强的性质,其中根据本发明所述MAR构建体可基于天然发生的和/或已鉴定MAR,特别是天然发生的MAR(核心核酸序列基于此)。这种性质包括但不限于相对于天然发生的和/或已鉴定MAR全长的长度减少、基因表达/转录增强、表达稳定性增强、组织特异性、可诱导性或它们的组合。因此,增强的MAR构建体可例如包括少于已鉴定MAR中核苷酸数量的约90%、优选少于约80%、甚至更优选少于约70%、少于约60%或少于约50%。用所述构建体转染适当细胞时,MAR构建体可促进基因表达和/或基因转录。在本发明正文中,如果提到MAR构建体/MAR(核苷酸)序列“促进表达”、具有“基因表达增强活性”、“促进蛋白质表达”或类似的,该“促进”是相对于例如基因在其他同等条件但无该序列时的表达而言的。该促进可为例如约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍或约15倍、约20倍或约25倍或更多。
MAR构建体还可增加极高生成细胞的平均百分位数达约5倍、约10倍、约15倍或更多。因此,除了更高的平均基因表达,极高表达细胞百分位数的增加以及稳定(“抗性”)克隆(约100%、约200%、约300%或约400%或更高的增加)形成,以及/或者更低的表达变异性(cv(变异系数)下降约30%、约40%、约50%或更多))也在本发明的范围之内。
MAR构建体或类似物可“增强表达稳定性”。该“增强”是相对于例如基因在其他同等条件但无该MAR构建体/MAR序列时的表达而言的。稳定性增强可例如在达到约5、10、20、25、30、35、40、45或50周之后仍保持100%增加。MAR构建体可对例如肌肉、肝脏、中枢神经系统或其他组织是特异的和/或可在给予诸如抗体、激素和/或代谢中间物时而诱导。
MAR构建体/MAR序列优选可插入启动子区的上游,而感兴趣基因是或者可以可操作性连接于该启动子区。然而,在某些实施方式中,将MAR构建体定位于感兴趣基因/核苷酸序列的上游以及下游或者仅下游则是有好处的。其他多种顺式和/或反式MAR排列也在本发明的范围之内。
MAR构建体或MAR的一个区域可称为基于例如已鉴定MAR或已鉴定MAR的一个区域,如果其与天然发生的“SAR”或“MAR”或者其各自的区域共有一个或多个(例如2、3或4个)特征且具有至少一个可促进任何受所述MAR影响的基因的蛋白质表达的性质。按照本文提供的术语定义,这些MAR构建体或MAR区域通常与其所基于的已鉴定MAR具有“大体一致性”。尽管存在这些和/或其核苷酸序列的修饰,其仍将保持该已鉴定基础MAR的至少一种功能性/特征。
本发明还涉及MAR构建体包括增强的MAR构建体的应用,在这些应用中,MAR构建体还可与一种或多种非MAR表观遗传学的基因调节工具例如但不限于组蛋白调节物比如组蛋白脱乙酰基酶(HDAC)、其他DNA元件如基因座控制区(LCR)、隔离子如cHS4或抗阻遏物元件例如稳定剂和抗阻遏物元件(STAR或UCOE元件)或者热点(突变)(Kwaks THJ and Otte AP)。
合成的,当用于述及MAR/MAR构建体时,指MAR的设计不仅仅涉及到已鉴定MAR或其所基于的MAR序列/区域或局部区域的简单重组、复制和/或缺失。特别地,合成MAR/MAR构建体通常包括已鉴定MAR的一个或多个优选一个区域,然而,在某些实施方式中,其可为合成的或修饰的以及特别设计、良好表征的元件,如单个或一系列TFBS,在一个优选实施方式中其通过合成而得到。在多种实施方式中,这些设计元件都相对较短,特别地,其通常不长于约300bp,优选不长于约100、约50、约40、约30、约20或约10bp。在某些实施方式中,这些元件可被多聚化(multimerized)。
根据本发明所述的非人类哺乳动物MAR是至少部分通过非人类哺乳动物生物的基因组或者部分基因组而确定的MAR/MAR序列。这包括例如通过分析啮齿动物类基因组例如但不限于小鼠基因组而鉴定的MAR/MAR序列。
根据本发明所述的载体是能够转运另一种已与其连接的核酸分子的核酸分子。例如,质粒是一种载体,逆转录病毒或慢病毒是另一种载体。
根据本发明所述的转染是将核酸导入受体真核细胞内,例如但不限于通过病毒载体或通过化学方法进行电穿孔、脂质转染。
本文中使用的转化指的是通过加入核酸而修饰真核细胞。例如转化细胞可包括例如通过电穿孔将DNA载体导入细胞内而用核酸转染该细胞。然而,在本发明的多种实施方式中,将本发明所述的增强MAR导入细胞内的方式,不限于任何特定的方法。
转录指从DNA模板合成RNA。
顺式指两个或多个元件(如染色质元件)在同一核酸分子例如但不限于在同一载体或染色体上排列。
反式指两个或多个元件(如染色质元件)在两个或多个核酸分子例如但不限于两个或多个载体或染色体上排列。
一个序列如果表现出顺式/反式定位的活性,则称其在例如基因上顺式和/或反式发挥作用。
根据本发明所述的窗口描述了在SMAR Scan过程中用于评估MAR的碱基对数量。该数量通常为约50bp、约100bp、约200bp、约300bp。然而,400、500、600或更多bp的窗口也在本发明的范围内。
如果与另一个核苷酸序列(或其互补链)具有最佳排列(具有恰当的核苷酸插入或缺失)时,在核苷酸碱基的至少约60%、通常至少约70%、更通常至少约80%、优选至少约90%、且更优选至少约95-98%存在核苷酸序列一致性,则核苷酸序列或其片段与另一序列具有大体一致性。
一致性指的是两个核苷酸序列之间的序列相关程度,如通过两串这种序列如全长且完整序列之间的匹配一致性所确定的。一致性可易于计算。尽管存在多种方法测定两个核苷酸序列之间的一致性,术语“一致性”是熟练技术人员所熟知的(ComputationalMolecular Biology,Lesk,A.M.,ed.,Oxford University Press,NewYork,1988;Biocomputing:Informatics and Genome Projects,Smith,D.W.,ed.,Academic Press,New York,1993;Computer Analysis ofSequence Data,Part I,Griffin,A.M.,and Griffin,H.G.,eds.,HumanaPress,New Jersey,1994;Sequence Analysis in Molecular Biology,vonHeinje,G.,Academic Press,1987;and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,M Stockton Press,New York,1991)。通常用来测定两个序列之间一致性的方法包括但不限于Guide to Huge Computers,Martin J.Bishop,ed.,Academic Press,SanDiego,1994,和Carillo,H.,and Lipman,D.,SIAM J Applied Math.48:1073(1988)中披露的那些方法。优选的测定一致性的方法经设计可给出两个待测序列之间的最大匹配。这些方法在计算机程序中进行编纂。优选用来测定两个序列之间一致性的计算机程序方法包括但不限于GCG(Genetics Computer Group,Madison Wis.)软件包(Devereux,J.,et al.,Nucleic Acids Research 12(1).387(1984)),BLASTP,BLASTN,FASTA(Altschul et al.(1990);Altschul et al.(1997))。人们熟知的Smith Waterman算法也可用来测定一致性。
例如,核酸所包含的核苷酸序列与参照核苷酸序列具有例如95%的“一致性”,意思为该核酸的核苷酸序列等同于参照序列,只是该核苷酸序列可包括每100个参照核苷酸序列的核苷酸有达5个点突变。也就是说,为了获得其核苷酸序列至少95%等同于参照核苷酸序列的核苷酸,该参照序列中核苷酸的达到5%可缺失或被另一核苷酸取代,或者占参照序列总体核苷酸达5%的核苷酸数量可插入该参照序列中。参照序列的这些突变可发生于该参照序列的5’或3’末端位置或者这些末端位置之间的任何位置,在该参照序列的核苷酸之间单个散开或者在参照序列内以一个或多个相邻基团而散开。
核苷酸序列的功能片段也是本发明的一部分。只要它们具有天然发生的对应序列的预期功能,特别是增加受其影响的基因的表达,则认为片段是功能性的。如果其缺失降低了MAR/区域增强转录的活性但未彻底将其灭活,则仍认为MAR/MAR区域的片段是功能片段。“完全功能片段”是这样一个片段,即当该片段(没有其他MAR序列)应用时,其中活性的任何降低,只要可观察到,均不能用统计学验证。此外,按照本文所提供的定义,与例如天然发生的MAR、已鉴定MAR、MAR区域或者这些中任何一种的片段具有大体一致性的功能片段也包括在本发明的范围之内。
在本文中将详细阐述的,在某些实施方式中,其模块或部分可被重组、复制和/或经受缺失。本领域熟练技术人员将认为,区域的这种重组和/或复制可形成例如新的酶切位点,其随后可形成如此所得构建体的新酶切方式,且可引起序列长度的调整。那些调整可影响但不限于1、2、3、4、5、6、7、8、9、10、10至15、15至20、20至25、25至30、30至35、35至40个核苷酸。这些调整以及其他修饰也在本发明的范围之内。该重排的MAR特别是重组和/或复制的MAR的序列,按照本文提供的定义与其各个元件(或者区域/模块)和/或片段具有大体一致性,也在本发明的范围之内。
MAR序列可从植物转移到哺乳动物细胞,反之亦然,且在异源宿主细胞内将保持核基质附着活性[Breyne P,Van Montagu M,Depicker A and Gheysen G,Mielke C,Kohwi Y,Kohwi-Shigematsu Tand Bode J]。考虑到MAR功能在所有高级真核生物中的这种保守性,人们将预期来自一个属的MAR序列在其所来源的属内与另一属内均可发挥作用。
然而,推断啮齿动物来源的MAR序列可以某种方式有利于生成重组蛋白质,可利用SMAR Scan I筛查整个小鼠基因组以鉴定MAR候选序列,如下文所述,SMAR Scan I是一种检测DNA序列结构特征(例如DNA弯曲)的计算机程序。
如下文将讨论的,意外地发现非人类特别是啮齿动物(这里是小鼠)MAR序列在例如CHO细胞以及人类细胞如HeLA细胞中的表达增强更加有效。甚至更意外的是,发现某些非人类MAR序列在非人类细胞例如CHO细胞以及人类细胞例如HeLa细胞中基本上均比人类MAR序列工作得更好。
已证实,新鉴定的小鼠源S/MAR DNA序列中有几种可增加转基因的表达,从而提供了证据即MAR Scan I(一种设计用于人类MAR序列并用其测试的程序)是一种用于鉴定来自例如除人类之外小鼠来源的大量基因组来源的S/MAR元件的有效工具。然而,重要的是,发现通过筛查啮齿动物(例如小鼠)基因组比筛查人类基因组可鉴定更加有效的MAR元件。特别地,本发明证实了来自小鼠基因组的高活性S/MAR元件可增加多种细胞特别是小鼠和人类细胞中重组蛋白质例如具有药学用途的重组蛋白质的生产。已证实小鼠S/MAR S4是新分离的小鼠MAR以及之前克隆的人类MAR中最有效的。因此本发明针对具有增强的蛋白质生成的非人类MAR和/或增强随时间蛋白质表达稳定的MAR。
SMAR Scan I是一种软件工具,其基于这些序列的结构和理化特征鉴定MAR候选序列。其他地方已经提供了对该方法的详细论述(Mermod et al的美国专利公开文件20070178469)。基本上“SMAR Scan”阐述的生物信息学工具,包括可识别图谱的算法,其可根据二核苷酸质量-基质来计算DNA构象和理化性质的理论值。优选地,SMAR Scan利用大小不同的扫描窗口以多种不同组合来评估对应于DNA弯曲、大沟深度和小沟宽度潜在可能性、解链温度的DNA序列特征。对于每一个特征,已经设定了截断值或阈值。每一次当给定区域计算出的分数高于设定的截断/阈值时,程序记录一次。
现在有两种数据输出模式可处理这些采样数,第一种(称“图谱样”)简单返回查询序列上的所有采样位置及对所选不同标准其相应的值。第二种(称“连续采样”)仅返回几个连续采样的位置及其对应序列。对于该模式,连续采样的最低数量是可设定的另一个截断/阈值且具有可调的窗口大小。为了调节用于例如四种理论结构标准的默认截断/阈值,可采用例如来自SMARt DB经实验验证的MAR。在该方式中,例如,来自数据库的全部人类MAR序列通过SMAR Scan利用“图谱样”模式进行检索分析,该模式具有4种标准,且未设定截断/阈值。这将允许设定每一个用于序列每个位置的函数。随后根据这些数据计算每种标准的分布(见Mermod etal的美国专利公开文件20070178469的图1和图3)。
尽管优选应用SMAR Scan技术用于MAR序列的鉴定,本领域的普通技术人员将认识到其他可用于鉴定选择性类似或甚至稍微更低的S/MAR模序的生物信息学工具也可用于本发明中。优选地,这些工具可设定,使得仅那些表现出这些高于某个值(即设定的阈值或截断值)的特征的MAR相关特征可得到或经设定可得到阳性采样。然而,许多用来鉴定MAR的生物信息学工具被设计用来鉴定基质结合活性。该活性并非必须与增加基因表达的能力相关[Phi-Van,L.& Stratling,W.H.]。
SMAR Scan I已被开发用来鉴定人类MAR,因此,其利用从已知人类MAR收集的结构数据而开发。一个人类经“调节”的SMAR Scan I程序用于本发明中评估小鼠基因组的MAR序列。然而,小鼠和人基因组碱基组成的差异妨碍应用具有的前定义设置(用来扫描人基因组)的SMAR Scan程序(Mermod et al的美国专利公开文件20070178469)。因此必须通过反复实验确定独特的窗口大小和结构参数阈值,直到该程序将能够鉴定易处理的候选小鼠MAR序列集合。测试时,发现那些序列中有几种是“超级MAR序列”,例如当置于含有编码各个蛋白质的基因的载体上并导入啮齿动物细胞系内时,这些MAR序列可使蛋白质生成的大大提高。
小鼠MAR S4和小鼠MAR S46是本发明范围内的啮齿动物MAR序列实例。这些MAR序列在所附的序列列表中以SEQ ID No.3和SEQ ID No.10示出。然而,本领域的普通技术人员将理解,碱基对插入、缺失、取代特别是本身可能包含碱基对插入、缺失或取代的这些以及其他非人类MAR片段只要其保持野生型序列的预期功能特别是增加受其影响的基因的表达,即属于发明的范围之内。例如,一个降低MAR序列的转录/基因表达增强活性但未彻底使其灭活的插入被认为基本未干扰MAR的预期功能,这里为促进基因表达。类似地,例如一个已鉴定MAR的片段相对于该已鉴定MAR具有的转录增强活性稍微降低但并未完全丢失转录增强活性,可认为其是功能片段。“完全功能片段”是这样的片段,即其中活性的任何降低,如果可观察到,也不能通过统计学而证实。如本文中其他部分详细描述的,与天然发生的MAR或其片段的核苷酸序列具有“大体一致性”的序列也包括在本发明的范围之内。
MAR的模块性
对已鉴定MAR进行分析,以确定其是否包含模块(或区域)特别是序列特异性模块,其可用于改造已鉴定MAR或生成合成的MAR,包括包含合成区域的MAR。实际上,可确定已鉴定MAR的几种序列特异性模块。意外地,发现某些模块或其部分的组合和/或全部或部分复制甚至缺失得到增强的MAR,如上文所述。人类1_68MAR和小鼠S4MAR将用作通过区域组合、缺失和/或复制而产生MAR构建体的模型。然而,正如本领域熟练技术人员所易于理解的,本发明是针对操作任何已鉴定MAR以及从其得到的MAR构建体。对于调节不同MAR包括不同来源的MAR可能必需的恰当调整,已为普通技术人员所掌握。实例包括但不限于真核生物优选哺乳动物,特别是诸如小鼠的模型生物,以及具有经济重要性的种属例如牛、猪、羊以及人类。
人类MAR的模块性
人类1_68MAR用作通过区域组合和/或复制而产生MAR构建体的模型。利用如下文所述确定的模块或其部分,可基于已鉴定MAR如人类1_68MAR产生MAR构建体。特别地,该MAR构建体利用区域(模块)或其部分的组合和/或复制而产生。
该1_68MAR的实例证明,一个已鉴定MAR的模块(本文中也称为区域或元件)就是允许对天然发生的MAR的能力实现基因表达的增强所必需的全部条件。已鉴定模块中没有一个能够独自获得MAR其自身的全部活性。意外的是,发现某些模块的组合以及全部或部分复制可引起基因表达的进一步增强。
已鉴定了几种非重复(non-redundant)的序列特异性模块(区域)。这些模块协同影响局部染色质结构。MAR的该构造有点类似于多细胞动物转录的控制:模块的不同组合,其从起始位点分散达几kb,共同控制转录起始位点。
已鉴定的序列特异性模块特别是(1)A和T含量高的区域如对称的富含A-T区(A和T交替)特别是“富含AT区”以及(2)富含结合位点特别是但不限于由富含A-T区隔开的TFBS的区域。
已有文献报道,A和T含量较高的弯曲DNA通常存在于启动子区、MAR和复制子中[Aladjem and Fanning 2004])。之前认为A和T含量高的序列(如上文所述的“对称”序列以及“非对称”序列,后者序列的一条链上主要是A,另一条链上主要是T)主要有利于双链体打开。然而,这些区域可能具有广泛的功能。例如,核纤层蛋白质B2复制区中A和T含量较高的序列结合复制起点识别复合体(ORC)[Abdurashidova,Danailov et al.2003;Stefanovic,Stanojcic et al.2003],并可促进Mcm4/6/7解螺旋酶的加载以及体外双链DNA的解链[You,Ishimi et al.2003]。还认为A和T含量较高的固有弯曲DNA具有构造作用。裂殖酵母ORC4的“AT钩状DNA结合基序”类似于高活动性蛋白质HMG-I/Y的那些序列,可能具有构造作用[Strick and Laemmli 1995;Bell 2002]。还可形成蛋白质介导的弯曲,类似于HMG-I/Y介导的促进V(D)J重组的DNA弯曲,以及真核生物中增强子和启动子处转录复合体的装配和稳定[Levine and Tjian 2003]。并非所有A和T含量高的区域均对应弯曲DNA。然而,那些弯曲DNA可作为“组蛋白质磁体”吸引组蛋白质,在该弯曲DNA正上方形成核小体,使邻近区域留出空间作为复制/转录前蛋白质的着陆区。
如上文所述,MAR还包括用于其他蛋白质的结合位点特别是在“富含结合位点区”或仅“结合位点区”(见上文(2))。那些其他蛋白质可包括但不限于DNA解旋元件结合蛋白质(DUE-B)以及转录因子例如Hox蛋白质、SATBI、CEBP等,如在1_68MAR中发生的。突变分析表明这些结合位点促进MAR的功能。
人类1_68MAR可通过反转其方向以及通过移去弯曲DNA以增大启动子区上游转录因子的结合位点区而得以改良。如在图9中可以看到的,大量这种重排MAR(例如构建体6)大大增强相对于无MAR构建体(10倍)甚至相对于包含天然发生的MAR构建体(构建体1和16;约2倍)的转录。所示出数据还强烈表明远端转录控制元件本身限制下游染色质中的转录起始。在天然发生的MAR中以正向阴影线框示出的位于该区域3’末端的223bp片段,相比构建体11,在构建体7中可保留该区域的全部活性。这表明,在这种情况下,该重要部分必须与该弯曲区域以及构建体6中该元件其余部分(核苷酸1-1425)的5’末端一起发挥作用。已发现两个HMG-I/Y位点位于该末端附近。构建体2示出,将两个已鉴定MAR序列连接在一起,也可增加表达。
小鼠MAR的模块性和长度减小
基于S4MAR(表3)构建了几种MAR,并对其加以表征(图10)。如在图10中可以看到的,内部缺失一个长于1600bp长的片段并未引起MAR活性的大幅度丢失(S4-1-703_2328-5457)。然而,缺失启动子附近795bp的片段,或用类似长度的荧光素酶基因片段取代该序列(S4_1-4661;S4_1-4661-Luc5489),则引起该活性的完全丢失。
非序列特异性模块:3’末端MAR序列的活性
对人类1_68MAR(图9)进行的实验已经证明了人类1_68MAR的3’端HoxF和SATBI结合位点区域的重要性。该区域的重要性进一步通过图10中示出的以小鼠MAR S4进行的实验证明。如图11中所示出的,为了进一步分析MAR S43’末端序列的活性,通过去除或复制此部分进一步分解MAR该部分。图11也示出了不同MAR S4衍生物对基因表达的影响。有趣的是,一种具有截短3’末端的这种衍生物(原始MAR S4的4658-5054vs.4658-5457),相比于更长的原始MAR S4序列,平均表现出轻微更高的转基因表达(104%vs 100%)。这表明可获得更加有效且更短的MAR元件衍生物。
因此,本发明包括长度大大短于其天然对应物且活性高的MAR构建体,因此其长度更方便用于例如载体设计和转移。
特别地,包括少于已鉴定MAR序列核苷酸数量约90%、优选少于约80%、甚至更优选少于约70%、少于约60%或少于约50%的MAR构建体属于本发明的范围之内。那些构建体优选包含已鉴定MAR的3’末端区域,甚至更优选已鉴定MAR/MAR序列3’末端区域的至少约5%、约6%、约7%、约8%、约9%或约10%。然而,包含已鉴定MAR的5’末端区域的MAR构建体也在本发明的范围之内。
合成的MAR
人类1_68MAR的重排证明,在某些实施方式中,一个位于已分离MAR正向阴影线部分3’末端富含Hox区域的223bp片段保留了全长区域的活性。这表明在本发明的某些实施方式中该部分可在与其他元件协同作用时比较重要。图12示出了MAR 1_68中一组可能的转录因子结合位点,如通过MATInspector软件预测的。C/EBP、NMP4、FAST1、SATB1和HoxF结合位点的位置作为实例示出,说明了其在5’(正向阴影线)侧翼序列中的富集。
发现富含AT的弯曲DNA区与人类MAR 1_68中转录因子结合位点之间可能的协同作用,促进了构建包含MAR 1-68中富含AT区(邻近一个或几个转录因子结合位点)的MAR/MAR构建体。图13描绘了用来测试合成MAR活性的质粒的图谱,该合成MAR从包括富含AT区以及位于该富含AT区每一个末端的已鉴定MAR的TFBS的核心(MAR 1429-2880)与转录因子的化学合成DNA结合位点(置于绿色荧光蛋白质(GFP)启动子上游)的组装而构建。图13特别示出了转录因子结合位点插入富含AT的结构域与促使GFP转基因表达的SV40启动子之间,模拟图9中存在的情形,其中,在最有用的情形(构建体6)中,包含结合位点的MAR部分插入启动子与弯曲DNA区之间。表4示出了所采用化学合成寡核苷酸的DNA序列。
从MAR 1-68序列(图12)中鉴定出了用于C/EBP、NMP4、FAST1、SATB1和HoxF(也称为Gsh)转录因子的结合位点。这些结合位点如其在MAR 1-68中存在的一样而应用,未作任何改变(FAST1、C/EBP、HOXF/Gsh),或者如果与共有(即正确的)序列(HoxF,SatB1,NMP4)相比其含有一个或两个错配,则加以校正。
如从图14可以看出的,添加该(这里是)合成的结合位点在几乎所有的情形中一些(在某些情形中)提供显著的转录增强,可与包括富含AT区的核心MAR序列相比拟。C/EBP和Hox或Gsh2是最有效的,然后是SatB1和Fast1,而NMP4位点则不具有可检测的效应。
图14示出了一个意外的结果,即插入核心序列(侧翼是富含AT区所基于的已鉴定MAR的结合位点),这里为基于MAR 1_68的MAR 1429-2880,未引起显著的表达增加,但另外包含一个或多个结合位点的MAR构建体,特别是当插入富含AT核心的下游但位于启动子上游时,则引起处于启动子控制之下基因的蛋白质表达/产量的显著增加(这里利用M3细胞的百分比而鉴定)。
尽管在优选的实施方式中,在富含AT核心的下游但位于启动子上游,还存在额外结合位点,但其他结构例如但不限于该核心的富含AT区上游、富含AT区内部、邻近富含AT区或者该基因下游的位点,也在本发明的范围之内。
在一个优选的实施方式中,蛋白质结合位点(合成的或分离的)的某些组合也在考虑之中,例如两种不同蛋白质结合位点的组合、3种不同蛋白质结合位点的组合、4、5、6、7、8、9、10或更多种蛋白质结合位点的组合。这些组合可全部或部分多聚化。在一个优选实施方式中,该组合包含Hox/Gsh和SATB1。在例如核心与适宜启动子之间插入这些组合或多聚化组合,相对于在其他同等条件下采用包含MAR构建体/MAR序列的载体时高表达克隆的形成,可使高表达子克隆形成增加约2倍或更多倍例如但不限于约3、4、5、6、7、8、9倍或更多倍,优选约10倍或更多倍,甚至更优选约11、12、13、14、15、16、17、18、19倍或更多倍或者约20或甚至约25倍或约30倍或更多倍。
简单而言,MAR构建体可从组成部件组装而成。这些组成部件可包括或基于已鉴定MAR或其部分的区域如特殊区域的序列、合成的组成部件(包括用来优化其功能的修饰)如一系列化学合成的转录因子结合位点(TFBS)、来自或基于非MAR序列的组成部件或者来自或基于不同种或属的MAR序列的组成部件。在一个优选实施方式中,这种MAR包括偶联于TFBS区的富含AT区或特殊的转录因子DNA结合位点组合,如表5中示出的那些组合。本领域中的熟练技术人员将理解,这些原则不限于本文披露的特殊序列或结合位点,并且其他衍生物、同系物或序列组合也在本发明的范围之内。
如上所述,本发明所述MAR构建体、表达系统和/或试剂盒可用于蛋白质生产。这里,可将MAR构建体包括入处于启动子控制之下已包含感兴趣蛋白质例如胰岛素的基因的载体中。将该载体导入细胞内并培养该细胞。随后将该过程按比例放大而用于胰岛素的大批量生产。高胰岛素生产例如比无MAR构建体时高3至5倍,可维持3周。
如上所述,本发明所述MAR构建体、表达系统和/或试剂盒可用于体外和/或体内基因治疗以及用于细胞和组织替代治疗,例如,在体外基因治疗中,可将MAR构建体包括入处于启动子控制下的已包含患者(需要体外基因治疗)缺乏的基因的载体中。随后,将MAR构建体导入细胞内例如患者的骨髓细胞。用MAR构建体转化后,将骨髓细胞导入患者体内,与无MAR构建体相比,感兴趣基因表达将高5倍的水平。这样,即可表达有效量蛋白质。
在体内基因治疗中,包含MAR构建体的载体可通过例如注射直接导入需要其的患者细胞内。
类似地,可将本发明的表达系统导入干细胞内用于组织再生的移植物,或者用于例如神经细胞疗法而治疗神经退行性疾病。可用于本发明该实例中的干细胞的非限制性实例,是从任何年龄个体的骨髓组织或新生儿脐带血中获得的造血干细胞(HSC)和间充质干细胞(MSC)。用根据本发明所述的表达系统转染干细胞,并将成功的转化体移植或重新导入需要细胞治疗或组织再生治疗的患者体内。现在存在几种方法用于获得转化的干细胞例如
Figure A20078002973200401
(Cell Line Solution V(VCA-1003)、amaxa GmbH,Germany)。
转基因动物,其可产生大量蛋白质包括结合人类抗原的抗体,可利用已知方法生成(例如但不限于Lonberg et al提交的美国专利号5,770,428、5,569,825、5,545,806、5,625,126、5,625,825、5,633,425、5,661,016和5,789,650)。该表达系统和MAR构建体可用于蛋白质生产中,通过例如转基因牛、绵羊、山羊或猪,通常通过将蛋白质分泌入体液(例如奶)中。参见例如Meade et al的美国专利号5,750,172。关于转基因动物的生成还可参见Lubon et al.的美国专利6,518,482。
实例
本发明将在下面的实例中进一步阐述,而该实例不限制权利要求、本发明发明内容或本文其他部分中列出的发明范围。该材料、方法和实例仅为了举例说明而非出于限制的目的。在本文提供的指导下,本领域中的普通技术人员能够进行修改、添加和改进,这些均在本发明的范围之内。
小鼠基因组的S/MAR预测:SMAR Scan I
通过SMAR Scan I汇集并分析对应于NCBI m34小鼠组件的全部小鼠染色体序列。低严谨性和高严谨性筛查分别利用DNA弯曲标准阈值3.6度和最低窗口大小300bp或者阈值4.2度和最低窗口大小100bp而实施。
通过SMAR Scan I低严谨性分析小鼠全基因组,共得到1496个公认的S/MAR(候选MAR),共占622,410bp(小鼠全基因组的0.024%)。表1示出了每一个染色体的大小、基因数量、所预测MAR的数量(候选MAR)、每个基因的MAR密度以及S/MAR之间的平均距离(kb)。该表表明,在不同染色体上,每一个预测S/MAR(候选MAR)存在各种的基因密度(标准差占每个MAR基因密度的约50%)。每个MAR较高与较低基因密度之间的倍数差是6,未考虑染色体Y,相对于其大小和其基因数量而言,染色体Y富含预测MAR(候选MAR),表明这些MAR的分布存在强烈且意外的偏差。表1还示出了S/MAR之间的平均距离(kb/S/MAR)是可变的(标准差占每个S/MAR kb的平均值的38%,且每个S/MAR较高与较低kb密度之间的倍数差是8.3)。染色体10、11、X和Y明显使这些密度的标准差升高。
最初,SMAR Scan I设计用于人类序列,因而当利用最严谨参数时从小鼠基因组序列得到少量MAR:因此,对于高严谨性筛查(DNA弯曲标准的阈值4.2度),将默认截断值调整至利用100bp而非300bp的窗口值时可认为MAR的最小连续采样数。利用大于4.2度的值的DNA弯曲标准,通过SMAR Scan I分析小鼠基因组预测出49个“超级”MAR。
表1:每一个小鼠染色体预测的S/MAR和“超级”S/MAR数量。
染色体   每个染色体的基因数量   染色体大小(百万bp)   所预测的S/MAR数量   所预测的超级S/MAR数量   每个S/MAR的基因密度   每个S/MAR的Kb
  12345678910111213141516171819XY   1′3671′6131′1191′4391′4231′3411′9941′1691′2931′1071′7628249789848777521′1035767871′18622   195183160155151150142128124130122118115119104989391611642   92818869947082107571674461578057696235274750   433237334513114101000   14.919.912.720.915.119.224.310.922.76.640.013.517.212.315.410.917.816.529.125.20.4   2′1202′2591′8182′2461′6062′1431′7321′1962′1757782′7731′9342′0181′4881′8251′4201′5002′6002′2593′48940
  SumMeanSd   23′7161′129430   2′60512443   1′4967130   4922   366178   39′4201′877716
每一个染色体的基因数量对应于NCBI m34组件(assembly)(国家生物技术信息中心)。染色体大小是相应小鼠参考序列重叠群长度的总和。
利用新鉴定小鼠MAR增加重组蛋白质的产量
从利用SMAR Scan高严谨性筛查小鼠全基因组得到的公认MAR(候选MAR)中选择5个MAR元件。将它们从小鼠基因组DNA细菌人工染色体(购自儿童医院Oakland研究所(CHORI,http://bacpac.chori.org/))克隆入质粒载体中。
这些新鉴定的小鼠MAR被命名为S4、S8、S15、S32和S46(按照利用SMAR Scan I鉴定的顺序,“超级”MAR S1至S49)。之前已经鉴定了人类MAR 1_3、1_6、1_9、1_42、1_68、3_S5和X_S29,MAR 1_68和X_S29是最有效的人类元件(Mermod et al..“Highefficiency gene transfer and expression in mammalian cells by amultiple transfection procedure of MAR sequences,”WO2005/040377,还可参见Mermod et al的美国专利公开文件20070178469)。将这些MAR插入pGEGFP对照载体促进绿色荧光蛋白质表达的SV40启动子和增强子上游,并将这些质粒转染入培养的CHO细胞中,如之前曾描述的[Girod PA,Zahn-Zabel M and Mermod N]。然后利用荧光细胞分选器(FACS)分析整个稳定转染的细胞群中该转基因的表达。图1示出了各种S/MAR对重组绿色荧光蛋白质(GFP)生成的影响。示出了用包含或不包含MAR的GFP表达载体pGEGFP转染的CHO细胞群(如通过荧光激活细胞分选器(所示))和典型的图谱。该图中仅示出了最有效的人类MAR 1_68和X_S29。图谱显示了作为GFP荧光水平的函数而计算的细胞数量。示出了代表相对光单位荧光值小于2(M1)或大于102(M2)或103(M3)的细胞亚群M1,M2和M3的水平棒。
如从图1可以看出的,与仅由GFP而无MAR促进的表达相比,所有新鉴定的小鼠MAR均显著增加转基因的表达,其中“超级”小鼠MAR S4是所有示出MAR中最有效的。
表2:具体分析来自多克隆CHO细胞群的GFP荧光
Figure A20078002973200441
用抗生素选择质粒和pGEGFP报告基因构建体或包含人类MAR 1_68和X_S29或者所指出小鼠S4、S8、S15、S32或S46MAR的pGEGFP衍生物共同转染CHO细胞。在2周内选择稳定转染的多克隆细胞群的抗生素抗性,并通过FACS分析测试GFP荧光,如图1中示出的。该表格示出了平均荧光值、其变异系数以及表现出的荧光值相对光单位小于2(M1)或大于102(M2)或103(M3)的细胞百分位数。这些结果是平均值,且平均值的标准差(SEM)从3次独立实验获得。
将最有效的人类MAR 1_68和X_S29的转录活性与通过新鉴定小鼠MAR获得的转录活性加以比较。最初用GFP表达分析测试5种小鼠MAR,并发现其均增加GFP的表达至不同的水平。小鼠MAR S15和S32是转录活性相对最低的MAR(与仅GFP相比,增加2倍),S8和S46表现出中度活性(增加3至4倍),且MAR S4表现出极高的转录活性(增加7倍)。而且,小鼠MAR S4是该研究所测试全部MAR中最有效的。比较人类MAR 1-68与小鼠MARS4之间的转录活性,表明全种群(Gmean MO)和高GFP生成细胞(M2)的平均荧光增加50%,而利用小鼠MAR S4的极高GFP生成细胞(M3)的百分位数高出175%。就GFP荧光来说,全种群的均质性(CV M0)总比用小鼠MAR S4时低1%至2%,这是有利的,因为其表现出更高的细胞生产稳定性。
第一轮克隆后,需要确定高活性MAR元件是否可始终从小鼠基因组获得。因而,对另外两个小鼠MAR(S6和S10)进行克隆和表征。将这些新鉴定的小鼠MAR插入pGEGFP对照载体中,并如上文利用FACS进行分析。在用FACS分析的全部不同参数中,小鼠MAR S10也表现出比最好的人类MAR更有效,且几乎与MARS4具有一样的转录活性,以增加整体表达。
为了评价极高生成细胞,将M3细胞的百分比标准化为人类MAR 1_68得到的百分位数。结果在图2中给出。图2示出了各种人类和小鼠S/MAR元件对极高重组绿色荧光蛋白质(GFP)生成细胞百分位数(%M3)的影响。通过荧光激活的细胞分选器(
Figure A20078002973200451
)对通过如所示出的包含或不包含MAR元件的GFP表达载体转染的CHO细胞群加以分析。将极高生成细胞的百分位数标准化为对于这个标准最好的人类MAR(MAR 1_68),将它的值设为100。
平均来说,小鼠MAR S10和S4分别比人类MAR 1_68多提供80%和180%的极高生成细胞。总体上,从7种小鼠MAR与7种人类MAR进行的比较,可以推断利用啮齿动物MAR可从CHO细胞获得较高的表达。
新鉴定的小鼠MAR在不同细胞类型中效果的评价
在CHO细胞中评价S4MAR的效应。此外,包含人类MAR1-68,小鼠MAR S4或不包含MAR的EGFP表达载体在人类HeLa细胞中稳定转染,并分析EGFP荧光。图3示出了各种人类1-68和小鼠S4 MAR元件对重组绿色荧光蛋白(GFP)表达的影响。HeLa细胞群如表2所述进行转染和分析。比较S4和1-68MAR在HeLa细胞中的效果,发现S4在几个方面胜过了1-68:S4产生更高的平均GFP荧光(平均Gmean M0)以及更多的中和高水平表达范围内的细胞(分别是M1和M2)和更低的表达变异(平均CV M0)。利用HeLa细胞未发现处于极高表达范围(M3)的细胞。
利用小鼠MAR增强单克隆抗体表达
为了确定小鼠MAR特别是最有效的MAR是否可用来增加药学应用的蛋白质生成,将其插入编码恒河猴-D识别的免疫球蛋白重链和轻链的pMZ37和pMZ59载体中[Miescher S,Zahn-Zabal M,DeJesus,M,Moudry,R,Fisch,I,Vogel,M,Kobr,M,Imboden,MA,Kragten,E,Bichler,J,Mermod,N,Stadler,BC,Amstutz,H.,Wurm,F]。将这些质粒转染入CHO细胞中,如前所述实施选择和免疫球蛋白分析[Girod PA,Zahn-Zabal M and Mermod N]。图4示出了S/MAR元件对重组单克隆抗体生成的影响。这里,CHO细胞用上述促进IgG重链和轻链表达的载体转染,其中该载体不包含MAR(没有MAR),或包含顺式加入的MAR S4。24、48和72小时后,测定上清中的IgG滴度。此外,如图5中所示,从用上文提到的促进IgG重链和轻链表达的载体转染的CHO细胞群中产生稳定克隆,其中该载体不包含MAR(没有MAR),或包含顺式加入的MAR S4。选择后,测定培养基中所分泌IgG的滴度,并利用细胞计数分析比生产率。图6(A)示出了通过限制性稀释从用促进IgG重链和轻链表达的载体转染的CHO细胞群产生稳定的单个克隆后获得的结果,其中该载体不包含MAR(没有MAR),或包含顺式加入的MARS4。选择后,测定培养基中的分泌IgG滴度,并利用细胞计数分析比生产率。通过MAR 1_68获得的相当结果以及(B)中通过不含MAR的克隆获得的结果也包括在内。图3至6获得并描述的结果表明,新鉴定的小鼠MAR特别是MAR S4可用来提高药用蛋白质如单克隆抗体在瞬时转染子(图4)和稳定转染子(图5和6)中的产量。当利用MAR S4时,比生产率为约5pg/细胞/天(pcd)或以上的稳定克隆可易于通过分析几个候选克隆而鉴定(图6(A))。实际上,有或无MAR S4的情况下,21个最佳克隆的平均生产率分别为7.28±0.78pcd(图6(A))和2.61±1.09pcd。这些结果与通过已知鸡溶菌酶MAR(低于1.5mg/L)或无MAR时(低于0.5mg/L)获得的滴度水平形成对比。特别地,这些结果表明,新鉴定小鼠MAR可用来提高药用蛋白质例如但不限于单克隆抗体的产量,使得小鼠MAR如MAR S4对于重组蛋白质的生成特别有利。
利用人类MAR 1_68的表达稳定性
利用MAR 1_68证实,由不包含MAR的克隆产生的基因表达被逐步沉默,而包含MAR的等效克隆,不仅随时间保持高水平表达,且沉默细胞也恢复了表达。
图7示出了将包含MAR 1-68的pEGFP表达质粒与G418抗生素抗性基因共转染入CHO细胞内,且在G418存在时,选择稳定表达的细胞达3周,如Girod et al.,2005中所述。通过限制性稀释获得细胞克隆,并分析9个独立克隆的GFP荧光。两个种群中的每一个选择表达GFP的典型克隆用于进一步分析,并在抗生素选择存在或不存在的情况下继续培养达26周。左侧图谱表示培养2周后的GFP荧光水平(x轴)和细胞计数的值(Y轴),而右侧图谱则从培养26周的细胞而获得。如可以看出的,缺乏MAR的克隆示出了在不存在抗生素的情况下,相对于2周后水平,26周后的GFP荧光水平有所降低,而包含MAR的克隆可在抗生素选择存在与否的情况下,保持26周时的GFP荧光水平,使得包含表达系统的MAR对于感兴趣基因的稳定表达非常有用。
MAR的模块性以及基因表达增强的相关性
MAR的结构分析揭示了每一个促进基因表达增强的DNA序列区/模块。图8描绘了通过1_68MAR结构分析获得的结果。在图8(A)中表明,中心富含AT区描绘了MAR 1_68基因座中的弯曲DNA。图8(B)表明,该富含AT区由富含转录因子结合位点的区域包围,如利用MatInspector鉴定的(Cartharius,Frech et al.2005)。利用MatInspector沿着MAR序列检测到精确的729个潜在的TFBS。图8(B)的下面部分示出了已鉴定区域的性质。
图9(A)示出了1_68MAR以及左侧的不同MAR,其整合了1_68MAR区域或部分且改变了该区域或其部分的顺序和/或方向以及/或者复制这些区域或它们的部分。右侧示出了由构建体1至16获得的转录增强程度以及由1_68MAR或无MAR时获得的转录增强。所示出的全部MAR序列均插入驱动eGFP基因标志物的启动子上游。箭头描绘了该区域或其部分相对于图8中所述野生型MAR序列的方向。富含AT区域周围的序列以带箭头(向左)的反向阴影线框和以带箭头(不成比例;向右)的正向阴影线框表示。弯曲区域以画有阴影交叉线的框示出。
图9(B)示出了MAR的弯曲模式,其对应于图9A中的构建体6。这些弯曲模式通过SMARScan I而确定。
图9(C)示出了MatInspector[Cartharius,Frech et al.2005]分析的结果。利用MatInspector[Cartharius,Frech et al.2005]鉴定潜在的转录因子结合位点(TFBS)。利用MatInspector沿着MAR序列检测到731个潜在的TFBS。在图9(C)的下部,利用对应于图8(B)和图9(A)的编码示出构建体6。该图下部的编码对应图9(A)中示出并讨论的编码。
图9中描述的实验表明该区域中没有一个可独立显示完全的MAR活性。例如,将来自天然发生的人类1_68MAR的DNA完全地增强转录需要3个独特序列(图8):一个1189bp的节段,其包含用于多个转录因子的结合位点(即CEBP)(图9A顶部),以带箭头的反向阴影线框示出,一个固有的弯曲DNA,其由一个763bp的对称富含AT区(A和T交替)描述(图9A顶部,画有阴影交叉线的框)以及额外的1648bp的节段,其包括多个HoxF和SATBI结合位点(图9A顶部,以带箭头的正向阴影线框示出)。
图9表明,通过移去该弯曲DNA以增加启动子区域上游转录因子结合位点区域的尺寸,可改善人类1_68MAR。为了实现该增加,将邻近富含AT区(SEQ ID.No.18)的转录因子结合位点(TFBS)区,这里是富含Hox的区域(SEQ ID No.19)(下文为带箭头的正向阴影线框)连接于富含CEBP的区域(SEQ ID No.17)(下文也为带箭头的反向阴影线框(图9))。比较如图9A中右侧描绘的所得不同MAR构建体的转录增强活性,表明带箭头的正向阴影线框的方向对于转录增强比较重要(比较构建体5和6)。所示出数据还强烈表明,远端转录控制元件本身限制下游染色质的转录起始。如果位于带箭头的正向阴影线框的3’末端的223bp片段(SEQ IDNO.20)保留构建体7中区域的全部活性,提示在该情形中,该重要部分必须与弯曲区域及构建体6中元件剩余部分(核苷酸1-1425)的5’末端协同作用。发现两个HMG-I/Y位点定位于该末端。
小鼠MAR的模块性和长度减少
根据人类1_68MAR的观察结果,也分析了S4MAR的模块特别是那些成就其转录活性的模块。实施该分析的目的是降低S4MAR的长度,而S4MAR相对较长。因而,从S4MAR构建了几种MAR(表3)并对其进行表征(图10)。图10左侧示出了特殊的MAR S4构建体,且右侧示出了各种MAR S4对重组绿色荧光蛋白(GFP)表达的影响,如通过分析全种群的平均荧光而揭示的(Avg GmeanM0)。转染了包含或不包含如所示出MAR构建体的GFP表达载体的CHO细胞群,通过利用FACScalibur细胞计数器(BectonDickinson)的流式细胞计数术加以分析。通过人类MAR 1_68获得的荧光(其值设为100)对全种群的平均荧光进行标准化,而GFP表示不存在MAR时的表达。其他MAR构建体按照其相对全长1547bp S4MAR的碱基含量而命名(见表3)。斑点框表示MAR S4中富含AT的弯曲区域,S_41-4662-Luc5489表示一个构建体,其中末端(3’)795个碱基对被去除并用荧光素酶基因的一部分(黑框)取代。有趣地是,从图10中可以看到的,发现1624-bpEcoRI片段可从S4MAR(S4-1-703_2328-5457)中缺失而未显著丢失其MAR活性。然而,缺失启动子近端795bp片段或用类似长度的荧光素酶基因片段取代该序列(S4_1-4661;S4_1-4661-Luc5489),则引起该活性的彻底丢失。这表明小鼠S4MAR的某些变异体可表现出高活性,虽然长度更短,从而使得其更方便用于例如载体设计和转移。
表3:pGEGFP载体中的MAR S4构建体
  S4构建体 描述
  S4(SEQ ID No.3) 来自杆粒RP23-444A8的5457bp AvaI插入片段
  S4_1-703_2328-5457(SEQ ID No.4) 内部缺失1624-bp EcoRI片段
  S4_1-2395_4121-5457(SEQ ID No.5) 内部缺失1724-bp HindIII片段
  S4_1-4661(SEQ IDNo.8) 内部缺失795-bp BglII片段,载体的MCS中存在BglII位点
S4_1-4661-Luc5489 S4_1-4661构建体,含有来自luc基因用BglII消化的828-bp PCR产物
  S4_4662-5457(SEQID No.9) 795-bp BglII片段,载体的MCS中存在BglII位点
  S4_2328-4661(SEQID No.7) S4的2333-bp EcoRI-BglII片段
  S4_2328-5457(SEQID No.6) S4的3129-bp EcoRI-AvaI片段
3’末端MAR序列的活性
为了进一步分析MAR S43’末端序列的活性,通过去除或复制其部分进一步分解MAR该部分。图11也示出了各种MAR S4衍生物对重组绿色荧光蛋白质(GFP)表达的影响,如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。CHO细胞群如上所述生成并测定。有趣的是,一种具有截短3’末端的这种衍生物(原始MAR S4的4658-5054 vs.4658-5457),相比于更长的原始MARS4序列,平均表现出轻微更高的转基因表达(104%vs 100%)。这表明,可获得更加有效且更短的MAR元件衍生物。
合成的MAR
图12示出了[1_68MAR的]潜在的转录因子结合位点图谱,如通过MATInspector软件预测的。C/EBP、NMP4、FAST1、SATB1和HoxF(也称Gsh)结合位点的位置作为实例示出,说明了其在5’正向阴影线侧翼序列中的富集。这些结合位点如其在MAR 1-68中发生的一样而应用,未作任何改变(FAST1、C/EBP、HOXF/Gsh),或者如果与共有(即正确的)序列(HoxF、SatB1、NMP4)相比其含有一个或两个错配,则加以校正。
发现富含AT的弯曲DNA区与人类MAR 1_68中转录因子结合位点之间可能的协同作用,促进了构建包含MAR 1-68中富含AT区(邻近一个或几个转录因子结合位点)的合成MAR。图13描绘了用来测试合成MAR活性的质粒的图谱,该合成MAR从包括富含AT区的核心(MAR 1429-2880)与转录因子的化学合成DNA结合位点(置于启动子和绿色荧光蛋白(GFP)上游)的组装而构建。图13示出了转录因子结合位点插入富含AT的核心与促进GFP转基因表达的SV40启动子之间,模拟图9中存在的情形,其中,在最有用的情形中,包含结合位点的MAR部分插入启动子与弯曲DNA区之间。表4示出了所采用化学合成寡核苷酸的DNA序列。
表4.来自人类MAR 1_68的公认转录因子结合位点
将具有粘性末端的成对30-mer寡聚体克隆入包含MAR 1_68中富含AT的核心区的载体中。斜体碱基对是转录因子结合位点(下划线是最保守的碱基)的序列及来自MAR 1_68的侧翼序列。常规字体的序列是不与MAR 1_68序列对应的接头或适配子序列。在这些接头序列上,修改来自MAR 1_68且含有1个或2个错配的寡聚体,使其与通用序列匹配。
图14示出了通过如图13中所述合成MAR构建体的转录增强。除核心外,所插入元件还包含1个或几个蛋白质DNA结合位点,如所示出的。转染除核心序列(包括富含AT区,即富含AT核心)外还包含1个或几个结合位点的质粒,表明相比于仅富含AT核心,包含结合位点促进转录增强,且C/EBP和Hox或Gsh2是最有效的,然后是SatB1和Fast1,而NMP4位点则不具有可检测的效果。
还测试了有效结合位点的不同混合物以确定能否观察到协同效应。为此,将包含不同转录因子结合位点的寡核苷酸的各种组合混合于DNA连接反应中,并通过DNA测序来确定结合位点的精确顺序和排列。表5中示出了所得到的组合。
克隆号  转录因子位点                               位点总数
1       Gsh,2(SATB1)                              3
2       SATB1,Hox                                 2
3       SATB1,Fast1                               2
4       2(Hox),SATB1,Hox                         4
6       Gsh,2(SATB1),CEBP,Hox                   5
7       2(Fast1),2(Gsh),SATB1                    5
8       Hox,SATB1,Hox,Gsh,SATB1,Hox           6
9       Gsh,2(Fast1)                              3
10      3(CEBP),SATB1,Hox,Fast1                 6
11      Hox,Fast,Hox,Fast                       4
12      Hox,SATB1,Hox,Gsh,Hox,Hox             6
13      2(Hox),3(SATB1),Fast,CEBP,Hox,CEBP    9
14      Gsh,Gsh                                   2
15      CEBP,Hox,Hox                             3
表5包含各种转录因子结合位点异源多聚体的合成MAR构建体如上文,通过转染测试得到的质粒。图15示出了利用表5中示出的DNA结合位点组合构建的合成MAR引起的转录增强。最有效的组合用星号表示,并指出了HoxF/Gsh2或SatB1的存在。图15中示出的结果表明,在该情形中,合成MAR的活性不依赖于所插入结合位点的数量,但结合位点的特殊组合表现出高促进活性,而其他组合则缺乏活性或甚至抑制基因表达。该情形中,具有较高活性的构建体包括Hox/Gsh2与SATB1蛋白质的组合,且最有效的构建体则仅由这些元件组成。与缺乏任何MAR序列的pEGFP对照载体相比,插入该合成MAR增加了高表达克隆的形成约10倍。
参考文献
Abdurashidova G,Danailov B,et al.,″Localization of proteins bound toa replication origin of human DNA along the cell cycle.″EMBO J_22:4294 4303,2003.
Aladjem,MI and Fanning E.,″The replicon revisited:an old modellearns new tricks in metazoan chromosomes.″EMBO Rep 5(7):686-91,2004.
Allen GC,Spiker S,Thompson WF,Use of matrix attachment regions(MARs)to minimize transgene silencing,Plant Mol Biol.,43(2-3):361-376,2000.
Amati B and Gasser SM,Chromosomal ARS and CEN elements bindspecifically to the yeast nuclear scaffold,Cell,54:967-978,1988.Amati B and Gasser SM,Drosophilia scaffold-attached regions bindnuclear scaffolds and can function as ARS elements in both buddingand fission yeasts,Mol.Cell.Biol.,10:5442-5454,1990.
Bell SP,″The origin recognition complex:from simple origins tocomplex functions.″Genes Dev 16:659 672,2002.
Bode J,Schlake T,Rios-Ramirez M,Mielke C,Stengart M,Kay V andKlehrWirth D,Scaffold/matrix-attached regions:structural propertiescreating transcriptionally active loci,Structural and FunctionalOrganization of the Nuclear Matrix:International Review of Cytology,162A:389-453,1995.
Bode J,Benham C,Knopp A and Mielke C,Transcriptionalaugmentation:modulation of gene expression byscaffold/matrix-attached regions(S/MAR elements),Crit RevEukaryot Gene Expr,10(1):73-90,2000.
Bode J,Stengert-Iber M,Kay V,Schlake T and Dietz-Pfeilstetter A,Scaffold/matrix-attached regions:topological  switches with multipleregulatory functions,Crit.Rev.Euk.Gene Exp.,6:115-138,1996.
Bodnar JW,A domain model for eukaryotic DNA organization:amolecular basis for cell differentiation and chromosome evolution,J.Ther.Biol.,Vol.132:479-507,1988.
Boulikas T,Nature of DNA sequences at the attachment regions ofgenes to the nuclear matrix,J.Cell Biochem.,52:14-22,1993.
Boulikas T,Chromatin domains and prediction of MAR sequences.InStructural and Functional Organization of the Nuclear Matrix:International Review of Cytology,Academic Press,Orlando,162A:279-388,1995.
Breyene P,Van Montagu M and Gheyseu G,The role of scaffoldattachment regions in the structural and functional organization of plantchromatin,Transgenic Res.,Transgenic Res.,3:195-202,1994.
Breyne P,Van Montagu M,Depicker A and Gheysen G,Characterization of a plant scaffold attachment region in a DNAfragment that normalizes transgene expression in tobacco,Plant Cell,4:463-471,1992.
Cartharius,K.,K.Frech,et al.,MatInspector and beyond:promoteranalysis based on transcription factor binding sites,Bioinformatics 21:2933-42,2005.
Gasser SM and Laemmli UK,Cohabitation of scaffold binding regionswith upstream/enhancer elements of three developmentally regulatedgenes of D.Melanogaster,Cell,46:521-530,1986.
Girod PA,Zahn-Zabal M and Mermod N,Use of the chicken lysozyme5′matrix attachment region to generate high producer CHO cell lines,Biotechnol.Bioeng.,91(1):1-11,2005.
Kas E and Chaslin LA,Anchorage of the Chinese hamsterdihydrofolate reductase gene to the nuclear scaffold occurs in anintragenic region,J.Mol.Biol.,198:677-692,1987.
Kay V and Bode J,Detection of scaffold-attached regions(SARs)byin vitro techniques;activities of these elements in vivo.In Methods inMolecular and Cellular Biology:Methods for studying DNA proteininteractions:an overview,WileyLiss,NewYork,5:186-194,1995.
Kim JM,Kim JS,Park DH,Kang HS,Yoon J,Baek K and Yoon Y,Improved recombinant gene expression in CHO cells using matrixattachment regions,J.Biotechnol.,107(2):95-105,2004.
Kwaks TH,Otte AP,Employing epigenetics to augment the expressionof therapeutic proteins in mammalian cells.Trends Biotechnol.24:13742,2006.
Labrador,M.and V.G.Corces,Setting the boundaries of chromatindomains and nuclear organization,Cell 111:151-54,2002.
Levine,M.and R.Tjian,Transcriptional regulation and animal diversity,Nature 424:147-151,2003.
Mielke C,Kohwi Y,KohwiShigematsu T and Bode J,Hierarchicalbinding of DNA fragments derived from scaffold-attached regions:correlation of properties in vitro and function in vivo,Biochemistry,29:7475-7485,1990.
Miescher S,Zahn-Zabal M,De Jesus M,Moudry R,Fisch I,Vogel M,Kobr M,Imboden MA,Kragten E,Bichler J,Mermod N,Stadler BC,Amstutz H,Wurm  F,CHO,Expression of a Novel Human Recombinant IgG1 anti-Rh D Antibody Isolated by Phage Display,BritJ.Haematol.,111,157-166,2000.
National Center for Biotechnology Information(http://www.ncbi.nih.gov).
PhiVan L and Stratling WH,Dissection of the ability of the chickenlysozyme gene 5’matrix attachment region to stimulate transgeneexpression and to dampen position effects,Biochemistry,35:10735-10742,1996.
Razin SV,Functional architecture of chromosomal DNA domains,CritRev EukaryotGene Expr,6:247-269,1996.
Stefanovic D,Stanoj cic S et al.,In vitro protein  DNA interactions atthe human lamin B2 replication origin,J Biol Chem 278:4273742743,2003.
Strick R and Laemmli UK,SARs are cis DNA elements of chromosomedynamics:synthesis of a SAR repressor protein,Cell 83(7):1137-48,2005.
Vogelstein B,Pardoll D and Coffey D,Supercoiled loops andeukaryotic DNA replication,Cell,22:79-85,1980.
You Z,Ishimi Y,et al.,Thymine-rich single-stranded DNA activatesMcm4/6/7 helicase on Y-fork and bubble-like substrates,EMBO J 22:6148 6160(2003).
Zahn-Zabal M,Kobr M,Girod PA,Imhof M,Chatellard P,de Jesus M,Wurm F and Mermod N,Development of stable cell lines forproduction or regulated expression using matrix attachment regions.JBiotechnol,87(1):29-42,2001.
序列表
<110>思兰克斯有限公司(Selexis S.A.)
<120>用于增加转录的基质附着区(MAR)及其应用
<130>P23763RWS-2
<140>PCT/IB2007/002404
<150>US60823319
<151>2006-08-23
<150>US60953910
<151>2007-08-03
<160>20
<170>PatentIn version 3.3
<210>1
<211>3606
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68序列
<220>
<221>misc_feature
<222>(1)..(5)
<223>XbaI片段的第一部分
<220>
<221>misc_feature
<222>(3606)..(3606)
<223>XbaI片段的第二部分
<400>1
ctagattata ccaacctcat aaaataagag catatataaa agcaaatgct cttatcttgc   60
agatccctga actgaggagg caagatcagt ttggcagttg aagcagctgg aatctgcaat  120
tcagagaatc taagaaaaga caaccctgaa gagagagacc cagaaaccta gcaggagttt  180
ctccaaacat tcaaggctga gggataaatg ttacatgcac agggtgagcc tccagaggct  240
tgtccattag caactgctac agtttcatta tctcagggat cacagattgt gctacctatt  300
gcctaccatc tgaaaacagt tgcttcctat atttcatcca gtttaatatt tatttaaacc  360
aagaaggtta atctggcacc agctattccg ttgtgagtgg atgtgaaagt accaattcca  420
ttctgtttta ctattaacta tcctttgcct taatatgtat cagtaggtgg cttgttgcta  480
ggaaatatta aatgaatggc atgtttcata ggttgtgttt aaagttgttt tttgagttaa  540
atctttcttt aataatactt tctgatgtca aaaacactta gaagtcatgg tgttgaacat  600
ctatataggg ttggatctaa aatagcttct taacctttcc taaccactgt ttttgtttgt  660
ttgtttttaa ctaagcatcc agtttgggaa attctgaatt aggggaatca taaaaggttt  720
cattttagct gggccacata aggaaagtaa gatatcaaat tgtaaaaatc gttaagaact  780
tctatcccat ctgaagtgtg ggttaggtgc ctcttctctg tgctccctta acatcctatt  840
ttatctgtat atatatatat tcttccaaat atccatgcat gggaaaaaaa atctgatcat  900
aaaaatattt taggctggga gtggtggctc acgcctgtaa tcccagcact ttgggaggct  960
gaggtgggcg gatcatgagg tcaagagatc gagaccatcc tgaccaatat ggtgaaaccc 1020
catctctact aaagatacaa aactattagc tggacgtggt ggcacgtgcc tgtagtccca    1080
gctactcggg aggctgaggc aggagaacgg cttgaaccca ggaggtggag gttgcagtga    1140
gctgagatcg cgccactgca ctccagcctg ggcgacagag cgagactctg tctcaaaaaa    1200
aaaatatata tatatatata tatacacata tatatataaa atatatatat atacacacat    1260
atatatataa aatatatata tatacacaca tatatataaa atatatatat atacacacat    1320
atatataaaa tatatatata cacacatata tataaaatat atatatacac acatatatat    1380
aaaatatata tatacacaca tatatataaa atatatatat acacacatat atataaaata    1440
tatatataca cacatatata taaaatatat atatacacac atatatataa aatatatata    1500
tacacacata tatataaaat atatatatac acacatatat ataaaatata tatatacaca    1560
catatatata aaatatatat atacacacat atataaaata tatatataca cacatatata    1620
aaatatatat atacacatat atataaaata tatatataca catatatata aaatatatat    1680
acacacatat atataaaata tatatataca cacatatata taaaatatat atatacacat    1740
atatataaaa tatatatata cacatatata taaaatatat atatatacac atatatataa    1800
aatatatata cacacatata tataaagtat atatatacac acatatatat aaaatatata    1860
tatacacata tatataaaat atatatatac acatatatat aaaatatata tatacacata    1920
tatataaaaa tatatatata tattttttaa aatattccaa ttgtctcact ttgtggatga    1980
gaaaaagaag tagttagagg tcaagtaact tggcctacat cttttctcaa gattgtaaac    2040
tcctagtgag caataaccac atcttcattt tctttgtata aaacaagaaa gtttagcatg    2100
aaaaaggtac tcaattacaa atgtgttgga ttgaattgaa gacccttgga aggggatttt    2160
gtacctgagg atctctttct tttggccata ttgttcaatg gacaaaattt agccttcgaa    2220
ggcaggccga tttgaggtta atactacctt taccacttga tagctatgtg accttggcca    2280
tgtggtttca acagtctgaa cctcattttc tctgtgtatg tgtggtcctc cttacaagtt    2340
tgtgaaaaat gtgaagtcct tagccatgat agcccaatat aacaggctaa atgataatag    2400
gtttatgttc ttttccttta tattctcaga taagcactgt ccaagtttga ggtgttttga    2460
ggtctcgcct gatttggatt gtttgagttt atgctattct ttgaattctt tgagctgttc    2520
tgaagcagtg tatcatgaac aaaaacatcc ccagttcagt ccaaacccct ggttacatat    2580
cattcttatg ccatgttata accagtttga gagtgttccc tctgttattg catttaagtt    2640
tcagcctcac acagaaattc agcagccaat ttctaagccc taagcataaa atctggggtg    2700
gggggggggg atggcctgaa gagcagcatt atgaatagca ccattataat taatgatctc    2760
tcaggaagat ttacaatcac aggtagcaga taaaacaaat agtactgctt ctgcacttcc    2820
cctcctttta ttcgctatga aattttatgg gaaatcagtc cagtgaaaaa tgtaagctct    2880
taatctttcc cagaaatcct acctcatttg atgaatactt tgagggaatg aattagagca    2940
tttttttctt ttatagtcta cttcgcattt acgaagtgag gacggtagct taggctgcct    3000
ggccaactga tgagaaggtc agaggcattt ttagagacct ctgttgtctt tcattcatgt    3060
tcattttcca caaggcaagt aatttccaac aaatcagtgt cttcattagt aataagatta    3120
ttaacaacaa taatagtcat agtaactatt cagtgagagt ccattatata tcaggcattc    3180
tacaaggtac tttatataca tctgagtaaa cctcacacaa ttctacaggg aggtatttct    3240
atccccattt aacaaataag gaaacgaagt ccaagtaaat taacttgccc aaggtcacac    3300
agatagtacc tggcagaaca ggaatttaaa cctaaatttg tccaactcca aaagcagcct  3360
tctatttgtt ataaatgctg cctctcatta tcacatattt tattattaac aacaacaaac  3420
ataccaatta gcttaagata caatacaacc agataatcat gatgacaaca gtaattgtta  3480
tactattata ataaaataga tgttttgtat gttactataa tcttgaattt gaatagaaat  3540
ttgcatttct gaaagcatgt tcctgtcatc taatatgatt ctgtatctat taaaatagta  3600
ctacat                                                             3606
<210>2
<211>3638
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68构建体
<220>
<221>misc_feature
<222>(1)..(5)
<223>Asp718-SmaI片段的第一部分
<220>
<221>misc_feature
<222>(6)..(11)
<223>添加的核苷酸
<220>
<221>misc_feature
<222>(3631)..(3635)
<223>添加的核苷酸
<220>
<221>misc_feature
<222>(3636)..(3638)
<223>Asp718-SmaI片段的第二部分
<400>2
gtacccccaa aagaaagaga tcctcaggta caaaatcccc ttccaagggt cttcaattca   60
atccaacaca tttgtaattg agtacctttt tcatgctaaa ctttcttgtt ttatacaaag  120
aaaatgaaga tgtggttatt gctcactagg agtttacaat cttgagaaaa gatgtaggcc  180
aagttacttg acctctaact acttcttttt ctcatccaca aagtgagaca attggaatat  240
tttaaaaaat atatatatat atttttatat atatgtgtat atatatattt tatatatatg  300
tgtatatata tattttatat atatgtgtat atatatattt tatatatatg tgtgtatata  360
tatactttat atatatgtgt gtatatatat tttatatata tgtgtatata tatatatttt  420
atatatatgt gtatatatat attttatata tatgtgtata tatatatttt atatatatgt  480
gtgtatatat atattttata tatatgtgtg tatatatatt ttatatatat gtgtatatat  540
atattttata tatatgtgta tatatatatt ttatatatgt gtgtatatat atattttata  600
tatgtgtgta tatatatatt ttatatatat gtgtgtatat atatatttta tatatatgtg  660
tgtatatata tattttatat atatgtgtgt atatatatat tttatatata tgtgtgtata  720
tatatatttt atatatatgt gtgtatatat atattttata tatatgtgtg tatatatata  780
ttttatatat atgtgtgtat atatatattt tatatatatg tgtgtatata tatattttat  840
atatatgtgt gtatatatat attttatata tatgtgtgta tatatatata ttttatatat  900
atgtgtgtat atatatatat tttatatata tatgtgtgta tatatatata ttttatatat     960
atatgtgtat atatatatat atatatattt tttttttgag acagagtctc gctctgtcgc    1020
ccaggctgga gtgcagtggc gcgatctcag ctcactgcaa cctccacctc ctgggttcaa    1080
gccgttctcc tgcctcagcc tcccgagtag ctgggactac aggcacgtgc caccacgtcc    1140
agctaatagt tttgtatctt tagtagagat ggggtttcac catattggtc aggatggtct    1200
cgatctcttg acctcatgat ccgcccacct cagcctccca aagtgctggg attacaggcg    1260
tgagccacca ctcccagcct aaaatatttt tatgatcaga ttttttttcc catgcatgga    1320
tatttggaag aatatatata tatacagata aaataggatg ttaagggagc acagagaaga    1380
ggcacctaac ccacacttca gatgggatag aagttcttaa cgatttttac aatttgatat    1440
cttactttcc ttatgtggcc cagctaaaat gaaacctttt atgattcccc taattcagaa    1500
tttcccaaac tggatgctta gttaaaaaca aacaaacaaa aacagtggtt aggaaaggtt    1560
aagaagctat tttagatcca accctatata gatgttcaac accatgactt ctaagtgttt    1620
ttgacatcag aaagtattat taaagaaaga tttaactcaa aaaacaactt taaacacaac    1680
ctatgaaaca tgccattcat ttaatatttc ctagcaacaa gccacctact gatacatatt    1740
aaggcaaagg atagttaata gtaaaacaga atggaattgg tactttcaca tccactcaca    1800
acggaatagc tggtgccaga ttaaccttct tggtttaaat aaatattaaa ctggatgaaa    1860
tataggaagc aactgttttc agatggtagg caataggtag cacaatctgt gatccctgag    1920
ataatgaaac tgtagcagtt gctaatggac aagcctctgg aggctcaccc tgtgcatgta    1980
acatttatcc ctcagccttg aatgtttgga gaaactcctg ctaggtttct gggtctctct    2040
cttcagggtt gtcttttctt agattctctg aattgcagat tccagctgct tcaactgcca    2100
aactgatctt gcctcctcag ttcagggatc tgcaagataa gagcatttgc ttttatatat    2160
gctcttattt tatgaggttg gtataatcta gctagagtcg agatctttgg ccatattgtt    2220
caatggacaa aatttagcct tcgaaggcag gccgatttga ggttaatact acctttacca    2280
cttgatagct atgtgacctt ggccatgtgg tttcaacagt ctgaacctca ttttctctgt    2340
gtatgtgtgg tcctccttac aagtttgtga aaaatgtgaa gtccttagcc atgatagccc    2400
aatataacag gctaaatgat aataggttta tgttcttttc ctttatattc tcagataagc    2460
actgtccaag tttgaggtgt tttgaggtct cgcctgattt ggattgtttg agtttatgct    2520
attctttgaa ttctttgagc tgttctgaag cagtgtatca tgaacaaaaa catccccagt    2580
tcagtccaaa cccctggtta catatcattc ttatgccatg ttataaccag tttgagagtg    2640
ttccctctgt tattgcattt aagtttcagc ctcacacaga aattcagcag ccaatttcta    2700
agccctaagc ataaaatctg gggtgggggg gggggatggc ctgaagagca gcattatgaa    2760
tagcaccatt ataattaatg atctctcagg aagatttaca atcacaggta gcagataaaa    2820
caaatagtac tgcttctgca cttcccctcc ttttattcgc tatgaaattt tatgggaaat    2880
cagtccagtg aaaaatgtaa gctcttaatc tttcccagaa atcctacctc atttgatgaa    2940
tactttgagg gaatgaatta gagcattttt ttcttttata gtctacttcg catttacgaa    3000
gtgaggacgg tagcttaggc tgcctggcca actgatgaga aggtcagagg catttttaga    3060
gacctctgtt gtctttcatt catgttcatt ttccacaagg caagtaattt ccaacaaatc    3120
agtgtcttca ttagtaataa gattattaac aacaataata gtcatagtaa ctattcagtg    3180
agagtccatt atatatcagg cattctacaa ggtactttat atacatctga gtaaacctca  3240
cacaattcta cagggaggta tttctatccc catttaacaa ataaggaaac gaagtccaag  3300
taaattaact tgcccaaggt cacacagata gtacctggca gaacaggaat ttaaacctaa  3360
atttgtccaa ctccaaaagc agccttctat ttgttataaa tgctgcctct cattatcaca  3420
tattttatta ttaacaacaa caaacatacc aattagctta agatacaata caaccagata  3480
atcatgatga caacagtaat tgttatacta ttataataaa atagatgttt tgtatgttac  3540
tataatcttg aatttgaata gaaatttgca tttctgaaag catgttcctg tcatctaata  3600
tgattctgta tctattaaaa tagtactaca tctagccc                          3638
<210>3
<211>5463
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval位点的MAR S4序列
<400>3
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt   60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag  120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag  180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat  240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac  300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat  360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac  420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt  480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt  540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct  600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt  660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac  720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt  780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg  840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt  900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc  960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320
agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380
ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat    1440
cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac    1500
tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata    1560
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1620
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata    1680
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1740
tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata    1800
tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1860
tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg    1920
tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg    1980
tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg    2040
tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata    2100
tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat    2160
gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc    2220
agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc    2280
tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa    2340
atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat    2400
ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt    2460
gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc    2520
tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga    2580
cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt    2640
cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac    2700
caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg    2760
cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt    2820
tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga    2880
aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta    2940
gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac    3000
tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt    3060
ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt    3120
tttcctttga gaattctatg taaagtactt tgaacatatt tgccttcaac tcctccctca    3180
ctttcaccct ctcttcattc ctccctttcc tttccactca aagttgagat tcctttattt    3240
atttatttat ccttcaaata tcactggtac tatccacatg atctcaggat tgaggtctgc    3300
tctgacgtgt catcctgctt tcatgcaatg gccttatagg tggaacaaca ttatgaacta    3360
accagtaccc cggagctctt gactctagct gcatatatat caaaagatgg cctagtcggc    3420
catcactgga aagagaggct cattggactt gcaaacttta tatgccccag tacaggggaa    3480
caccagggcc aaaaaggggg agtgggtggg caggggagtg ggggtgggtg gatatggggg    3540
acttttggta tagcattgga aatgtaaatg agttaaatac ctaataaaaa atggaaaaaa    3600
aaagtttcta atgtgtgttt ctagaaactt cctctcttaa agcaacaaca tgtccatgag    3660
caatatagaa ttgaagatca ccatcaaatc ctctttattc ctcattgttt ccatcatgta  3720
ctaccagacc tctttaaagt gtagtacagt gtgttaggaa atgagcagat tatcctgggt  3780
atgtgctaaa ttagctactg agtcaaaata cattttttgc tgaacattaa gtgtttggtc  3840
atttctgggc aaaagaaaga aagaaagaaa gaaaagaaag aaagaaagga aggaaggaag  3900
gaaggaagga aggaaggaag gaaagaagga aggaaagaaa aaatggatgt aaattgttct  3960
gacagcatct gtctgagtca ggcagtggaa tgaaggagga atcctagaga atgcacagga  4020
aagcagccca aggagagtgt gggctgaaag gcatcatgtt agaaacatgc actcgatgac  4080
agaaccttga gaaaaaggaa ctcaagcaaa agcacttatt taaaattgta aaacgcactt  4140
tattcatagc catgggggat gtcaatattc caagcataag aatgatcagt ttccaatcac  4200
tgtgaacccc caaaacacaa agtgaaaacc cactacttta tttgatgaga tttggggttg  4260
ctctattaat ttataaaatc agagtaagac acgatataaa tgaaacgatt gtagttctaa  4320
agcagcggca cttccctgaa cagtgtcatt ttgacaagta actgctaaca tcttcaggtc  4380
acagcgactg aagaaaaagt agggaaagaa ggctggctgt gctgtttgac attttctttt  4440
cttatctggt gacatgaaga gaagctctgg gtccccctac tcttgttcat atatctgttg  4500
cttttatgct gcatcctgag gtttgaagaa atgcatttgg cactgagaaa agatgaggag  4560
agaatgcctt ggacatggtc ctaacatgct ttggtactga gaaaagagag cagaggagat  4620
gacatagaat aggagagata atttggccta ttttggcctt catctgagtg atagatttta  4680
cttaacaaat agaaacaaag ttttacttat aaacagaacc aatgacctgt gtcatctctg  4740
atatattgag ctttgaattc agtgaaatta tgaactaaat atatcactcc ataattttct  4800
aagagggcta tttgtatagt ttcagtgata gtgtgacaaa gtgtaatcta aatttctaaa  4860
aagtaaaata agtagataaa atagtaggta gaatagtata ataatagaat aagtataggt  4920
atggactaga ataaatagac aaaatagtag ataaaatgct aatgattttg ttgacagggt  4980
aatcatgaat atttttatta tttagctaaa gaaccaatgt tcatgtactc aagaagtgta  5040
ttgaggaact taggaaatta gtctgaacag gtgagagggt gcgccagaga acctgacagc  5100
ttctggaaca ggcggaagca cagaggcact gaggcagcac cctgtgtggg ccggggacag  5160
ccggccacct tccggaccgg aggacaggtg cccgcccggc tggggaggcg acctaagcca  5220
cagcagcagc ggtcgccatc ttggtccggg acccgccgaa cttaggaaat tagtctgaac  5280
aggtgagagg gtgcgccaga gaacctgaca gcttctggaa caggcagaag cacagaggcg  5340
ctgaggcagc accctgtgtg ggccggggac agccggccac cttccggacc ggaggacagg  5400
tgcccacccg gctggggagg cggcctaagc cacagcagca gcggtcgcca tcttggtccc  5460
ggg                                                                5463
<210>4
<211>3839
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval位点的S4_1-703_2328-5457构建体
<400>4
ctcgaggtct caagataaga atgactgctg taactcaaat  ccaccaaagc tatttgtgtt     60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag     120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag     180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat     240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac     300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat     360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac     420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt     480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt     540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct     600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt     660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac     720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt     780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg     840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt     900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc     960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt    1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc    1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta    1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa    1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt    1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc    1320
agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct    1380
ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat    1440
cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac    1500
tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata    1560
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1620
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata    1680
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1740
tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata    1800
tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1860
tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg    1920
tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg    1980
tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg    2040
tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata    2100
tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat    2160
gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc    2220
agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc    2280
tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa  2340
atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat  2400
ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt  2460
gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc  2520
tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga  2580
cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt  2640
cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac  2700
caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg  2760
cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt  2820
tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga  2880
aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta  2940
gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac  3000
tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt  3060
ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt  3120
tttcctttga gaattcagtg aaattatgaa ctaaatatat cactccataa ttttctaaga  3180
gggctatttg tatagtttca gtgatagtgt gacaaagtgt aatctaaatt tctaaaaagt  3240
aaaataagta gataaaatag taggtagaat agtataataa tagaataagt ataggtatgg  3300
actagaataa atagacaaaa tagtagataa aatgctaatg attttgttga cagggtaatc  3360
atgaatattt ttattattta gctaaagaac caatgttcat gtactcaaga agtgtattga  3420
ggaacttagg aaattagtct gaacaggtga gagggtgcgc cagagaacct gacagcttct  3480
ggaacaggcg gaagcacaga ggcactgagg cagcaccctg tgtgggccgg ggacagccgg  3540
ccaccttccg gaccggagga caggtgcccg cccggctggg gaggcgacct aagccacagc  3600
agcagcggtc gccatcttgg tccgggaccc gccgaactta ggaaattagt ctgaacaggt  3660
gagagggtgc gccagagaac ctgacagctt ctggaacagg cagaagcaca gaggcgctga  3720
ggcagcaccc tgtgtgggcc ggggacagcc ggccaccttc cggaccggag gacaggtgcc  3780
cacccggctg gggaggcggc ctaagccaca gcagcagcgg tcgccatctt ggtcccggg   3839
<210>5
<211>3738
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval位点的S4_1-2395_4121-5457构建体
<400>5
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt   60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag  120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag  180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat  240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac  300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat     360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac     420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt     480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt     540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct     600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt     660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac     720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt     780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg     840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt     900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc     960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt    1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc    1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta    1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa    1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt    1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc    1320
agctctttcc tttagttaag cttcagaaat aaggataagt ttgaaatatt cattgtttta    1380
ttttttacag tattttttcc tttgagaatt ctatgtaaag tactttgaac atatttgcct    1440
tcaactcctc cctcactttc accctctctt cattcctccc tttcctttcc actcaaagtt    1500
gagattcctt tatttattta tttatccttc aaatatcact ggtactatcc acatgatctc    1560
aggattgagg tctgctctga cgtgtcatcc tgctttcatg caatggcctt ataggtggaa    1620
caacattatg aactaaccag taccccggag ctcttgactc tagctgcata tatatcaaaa    1680
gatggcctag tcggccatca ctggaaagag aggctcattg gacttgcaaa ctttatatgc    1740
cccagtacag gggaacacca gggccaaaaa gggggagtgg gtgggcaggg gagtgggggt    1800
gggtggatat gggggacttt tggtatagca ttggaaatgt aaatgagtta aatacctaat    1860
aaaaaatgga aaaaaaaagt ttctaatgtg tgtttctaga aacttcctct cttaaagcaa    1920
caacatgtcc atgagcaata tagaattgaa gatcaccatc aaatcctctt tattcctcat    1980
tgtttccatc atgtactacc agacctcttt aaagtgtagt acagtgtgtt aggaaatgag    2040
cagattatcc tgggtatgtg ctaaattagc tactgagtca aaatacattt tttgctgaac    2100
attaagtgtt tggtcatttc tgggcaaaag aaagaaagaa agaaagaaaa gaaagaaaga    2160
aaggaaggaa ggaaggaagg aaggaaggaa ggaaggaaag aaggaaggaa agaaaaaatg    2220
gatgtaaatt gttctgacag catctgtctg agtcaggcag tggaatgaag gaggaatcct    2280
agagaatgca caggaaagca gcccaaggag agtgtgggct gaaaggcatc atgttagaaa    2340
catgcactcg atgacagaac cttgagaaaa aggaactcaa gcaaaagcac ttatttaaaa    2400
ttgtaaaacg cactttattc atagccatgg gggatgtcaa tattccaagc ataagaatga    2460
tcagtttcca atcactgtga acccccaaaa cacaaagtga aaacccacta ctttatttga    2520
tgagatttgg ggttgctcta ttaatttata aaatcagagt aagacacgat ataaatgaaa    2580
cgattgtagt tctaaagcag cggcacttcc ctgaacagtg tcattttgac aagtaactgc  2640
taacatcttc aggtcacagc gactgaagaa aaagtaggga aagaaggctg gctgtgctgt  2700
ttgacatttt cttttcttat ctggtgacat gaagagaagc tctgggtccc cctactcttg  2760
ttcatatatc tgttgctttt atgctgcatc ctgaggtttg aagaaatgca tttggcactg  2820
agaaaagatg aggagagaat gccttggaca tggtcctaac atgctttggt actgagaaaa  2880
gagagcagag gagatgacat agaataggag agataatttg gcctattttg gccttcatct  2940
gagtgataga ttttacttaa caaatagaaa caaagtttta cttataaaca gaaccaatga  3000
cctgtgtcat ctctgatata ttgagctttg aattcagtga aattatgaac taaatatatc  3060
actccataat tttctaagag ggctatttgt atagtttcag tgatagtgtg acaaagtgta  3120
atctaaattt ctaaaaagta aaataagtag ataaaatagt aggtagaata gtataataat  3180
agaataagta taggtatgga ctagaataaa tagacaaaat agtagataaa atgctaatga  3240
ttttgttgac agggtaatca tgaatatttt tattatttag ctaaagaacc aatgttcatg  3300
tactcaagaa gtgtattgag gaacttagga aattagtctg aacaggtgag agggtgcgcc  3360
agagaacctg acagcttctg gaacaggcgg aagcacagag gcactgaggc agcaccctgt  3420
gtgggccggg gacagccggc caccttccgg accggaggac aggtgcccgc ccggctgggg  3480
aggcgaccta agccacagca gcagcggtcg ccatcttggt ccgggacccg ccgaacttag  3540
gaaattagtc tgaacaggtg agagggtgcg ccagagaacc tgacagcttc tggaacaggc  3600
agaagcacag aggcgctgag gcagcaccct gtgtgggccg gggacagccg gccaccttcc  3660
ggaccggagg acaggtgccc acccggctgg ggaggcggcc taagccacag cagcagcggt  3720
cgccatcttg gtcccggg                                                3738
<210>6
<211>3136
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和EcoRI位点的S4_2328-5457构建体
<400>6
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt    60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag   120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag   180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat   240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac   300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat   360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac   420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt   480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt   540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct   600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt   660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac     720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt     780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg     840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt     900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc     960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt    1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc    1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta    1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa    1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt    1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc    1320
agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct    1380
ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat    1440
cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac    1500
tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata    1560
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1620
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata    1680
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1740
tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata    1800
tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg    1860
tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg    1920
tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg    1980
tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg    2040
tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata    2100
tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat    2160
gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc    2220
agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc    2280
tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa    2340
atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat    2400
ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt    2460
gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc    2520
tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga    2580
cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt    2640
cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac    2700
caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg    2760
cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt    2820
tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga    2880
aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta    2940
gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac  3000
tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt  3060
ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt  3120
tttcctttga gaattc                                                  3136
<210>7
<211>2340
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和BgIII位点的S4_2328-4661构建体
<400>7
agatctttgt tgttatctgt tgcaaacact ccatttttct gttgtagcaa aaaaaaaaaa    60
aaagacatcc atagttgtca atgagaatgc aagatacata cattctgcac ctgtgtgcta   120
acataagtgg ctgccctgtg actcagagat tgcttgtcct tctcctaagc ctatcctttt   180
ttgttacttt ggatactttt gttcaatgaa tccagaaaaa gtgtttttca gattcaccat   240
gtgaccctca tttaaaacct gtaatccccc tatggttaag ttcctgcttt tgtttctgtt   300
ttctttcttt cagtaaaagg aattgaaccc agtccttcca cttactatct gagcatatgg   360
ctcttttaga ttatgatgtt ggtggtgttc attggtctca ccaaaatgct aaagaagcct   420
tcatcttcta cttgtgggta gtctttacat tcattactgc aagtttagtt tatgtggtag   480
taccagatcc tttgcttctt ttgacttcat gcctacctaa cagcagctct ttcctttagt   540
taagcttatg aaatagtgtt tctctcatgt ttcctctata ttctctcttt tgccttcctg   600
tttcttcctg ttgattccat cccattggag tgaaatctta tgatcttttg gcatcaacaa   660
agtgatctgc atccaaataa ttccacatct cattccatgt tgactgtgga tctatatata   720
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata   780
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg   840
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata   900
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg   960
tatatatgta tatatgtata tatgtatata cgtatatatg catatacgta tatatgtata  1020
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg  1080
tatgtatgta tgtatgtatg tatatatgta tatatgtatg tatgtatgta tgtatgtatg  1140
tatgtatata tgtatatata tatgtatgta tgtatgtatg tatgtatgta tatgtgtata  1200
tgtgtatatg tgtatatgtg tatatgtgta tatatgtata tatgtatata tgtatatatg  1260
tatatgtgta tatgtgtata tgtgtatata tgtatatatg tatatatgta tatatgtata  1320
tatataacat agtattaaat tatatataca tatataagtg aaatgtcaca atcttctaga  1380
acttgctctg tatgtccact taacatggta gagtgagcta tgtcagcatt ttctatttcc  1440
tgtgaatcat tctgtgtgtt gccaagaaga aatatgatat attctgaggt tatgaaatga  1500
tattttggtc atcatgtttc tcatcctatt ttcatattac ctaaatactt ttgcttttaa  1560
aattattatt attaataata atataattat ttatacaata atatttaaat aatatattta  1620
tttaatataa ttattatatt tcacataaaa gcaatagttc cagtgttaca aattgtaggc  1680
aactgggctg ttctgattat ctaagttggg cccaggatat gtgctgaata gttaaagcac  1740
atgcccagca tgtatgaggg taaaaggatg ggtggatgta gtgacccatt tgtaatttaa  1800
gccttagcag gcagaggtgt gacccatagt gcaaagtaca tagtcattat aaggtcatct  1860
atatcacaat ctctggatta gattgattga acctgctcag tgaccaatgt gttagcaata  1920
tacaggagga tgataacatc aacgtcagaa gacacattga agggcttaca aatagtgccc  1980
atttacttta atacagaaaa attcaatgta ccctctaggc aatttcaact tttagtctct  2040
tggtaggata gtctacattt agaatggcta attcataaat tagaaagctt cttcaccccc  2100
tacttttctg gttatttctc tatgaatgtg gtaggcatga gttagtacac atgtttccat  2160
gtacatgtgt ttctatgtgt ctgcatgcat atggtagaat gtactcatat tctatgtaca  2220
gttagaacaa tatttatatt gtcaaagaaa tcaaaaggag tattataagc ttcagaaata  2280
aggataagtt tgaaatattc attgttttat tttttacagt attttttcct ttgagaattc  2340
<210>8
<211>4667
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和BgIII位点的S4_1-4661构建体
<400>8
agatctttgt tgttatctgt tgcaaacact ccatttttct gttgtagcaa aaaaaaaaaa    60
aaagacatcc atagttgtca atgagaatgc aagatacata cattctgcac ctgtgtgcta   120
acataagtgg ctgccctgtg actcagagat tgcttgtcct tctcctaagc ctatcctttt   180
ttgttacttt ggatactttt gttcaatgaa tccagaaaaa gtgtttttca gattcaccat   240
gtgaccctca tttaaaacct gtaatccccc tatggttaag ttcctgcttt tgtttctgtt   300
ttctttcttt cagtaaaagg aattgaaccc agtccttcca cttactatct gagcatatgg   360
ctcttttaga ttatgatgtt ggtggtgttc attggtctca ccaaaatgct aaagaagcct   420
tcatcttcta cttgtgggta gtctttacat tcattactgc aagtttagtt tatgtggtag   480
taccagatcc tttgcttctt ttgacttcat gcctacctaa cagcagctct ttcctttagt   540
taagcttatg aaatagtgtt tctctcatgt ttcctctata ttctctcttt tgccttcctg   600
tttcttcctg ttgattccat cccattggag tgaaatctta tgatcttttg gcatcaacaa   660
agtgatctgc atccaaataa ttccacatct cattccatgt tgactgtgga tctatatata   720
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata   780
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg   840
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata   900
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg   960
tatatatgta tatatgtata tatgtatata cgtatatatg catatacgta tatatgtata  1020
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg  1080
tatgtatgta tgtatgtatg tatatatgta tatatgtatg tatgtatgta tgtatgtatg  1140
tatgtatata tgtatatata tatgtatgta tgtatgtatg tatgtatgta tatgtgtata  1200
tgtgtatatg tgtatatgtg tatatgtgta tatatgtata tatgtatata tgtatatatg    1260
tatatgtgta tatgtgtata tgtgtatata tgtatatatg tatatatgta tatatgtata    1320
tatataacat agtattaaat tatatataca tatataagtg aaatgtcaca atcttctaga    1380
acttgctctg tatgtccact taacatggta gagtgagcta tgtcagcatt ttctatttcc    1440
tgtgaatcat tctgtgtgtt gccaagaaga aatatgatat attctgaggt tatgaaatga    1500
tattttggtc atcatgtttc tcatcctatt ttcatattac ctaaatactt ttgcttttaa    1560
aattattatt attaataata atataattat ttatacaata atatttaaat aatatattta    1620
tttaatataa ttattatatt tcacataaaa gcaatagttc cagtgttaca aattgtaggc    1680
aactgggctg ttctgattat ctaagttggg cccaggatat gtgctgaata gttaaagcac    1740
atgcccagca tgtatgaggg taaaaggatg ggtggatgta gtgacccatt tgtaatttaa    1800
gccttagcag gcagaggtgt gacccatagt gcaaagtaca tagtcattat aaggtcatct    1860
atatcacaat ctctggatta gattgattga acctgctcag tgaccaatgt gttagcaata    1920
tacaggagga tgataacatc aacgtcagaa gacacattga agggcttaca aatagtgccc    1980
atttacttta atacagaaaa attcaatgta ccctctaggc aatttcaact tttagtctct    2040
tggtaggata gtctacattt agaatggcta attcataaat tagaaagctt cttcaccccc    2100
tacttttctg gttatttctc tatgaatgtg gtaggcatga gttagtacac atgtttccat    2160
gtacatgtgt ttctatgtgt ctgcatgcat atggtagaat gtactcatat tctatgtaca    2220
gttagaacaa tatttatatt gtcaaagaaa tcaaaaggag tattataagc ttcagaaata    2280
aggataagtt tgaaatattc attgttttat tttttacagt attttttcct ttgagaattc    2340
tatgtaaagt actttgaaca tatttgcctt caactcctcc ctcactttca ccctctcttc    2400
attcctccct ttcctttcca ctcaaagttg agattccttt atttatttat ttatccttca    2460
aatatcactg gtactatcca catgatctca ggattgaggt ctgctctgac gtgtcatcct    2520
gctttcatgc aatggcctta taggtggaac aacattatga actaaccagt accccggagc    2580
tcttgactct agctgcatat atatcaaaag atggcctagt cggccatcac tggaaagaga    2640
ggctcattgg acttgcaaac tttatatgcc ccagtacagg ggaacaccag ggccaaaaag    2700
ggggagtggg tgggcagggg agtgggggtg ggtggatatg ggggactttt ggtatagcat    2760
tggaaatgta aatgagttaa atacctaata aaaaatggaa aaaaaaagtt tctaatgtgt    2820
gtttctagaa acttcctctc ttaaagcaac aacatgtcca tgagcaatat agaattgaag    2880
atcaccatca aatcctcttt attcctcatt gtttccatca tgtactacca gacctcttta    2940
aagtgtagta cagtgtgtta ggaaatgagc agattatcct gggtatgtgc taaattagct    3000
actgagtcaa aatacatttt ttgctgaaca ttaagtgttt ggtcatttct gggcaaaaga    3060
aagaaagaaa gaaagaaaag aaagaaagaa aggaaggaag gaaggaagga aggaaggaag    3120
gaaggaaaga aggaaggaaa gaaaaaatgg atgtaaattg ttctgacagc atctgtctga    3180
gtcaggcagt ggaatgaagg aggaatccta gagaatgcac aggaaagcag cccaaggaga    3240
gtgtgggctg aaaggcatca tgttagaaac atgcactcga tgacagaacc ttgagaaaaa    3300
ggaactcaag caaaagcact tatttaaaat tgtaaaacgc actttattca tagccatggg    3360
ggatgtcaat attccaagca taagaatgat cagtttccaa tcactgtgaa cccccaaaac    3420
acaaagtgaa aacccactac tttatttgat gagatttggg gttgctctat taatttataa  3480
aatcagagta agacacgata taaatgaaac gattgtagtt ctaaagcagc ggcacttccc  3540
tgaacagtgt cattttgaca agtaactgct aacatcttca ggtcacagcg actgaagaaa  3600
aagtagggaa agaaggctgg ctgtgctgtt tgacattttc ttttcttatc tggtgacatg  3660
aagagaagct ctgggtcccc ctactcttgt tcatatatct gttgctttta tgctgcatcc  3720
tgaggtttga agaaatgcat ttggcactga gaaaagatga ggagagaatg ccttggacat  3780
ggtcctaaca tgctttggta ctgagaaaag agagcagagg agatgacata gaataggaga  3840
gataatttgg cctattttgg ccttcatctg agtgatagat tttacttaac aaatagaaac  3900
aaagttttac ttataaacag aaccaatgac ctgtgtcatc tctgatatat tgagctttga  3960
attcagtgaa attatgaact aaatatatca ctccataatt ttctaagagg gctatttgta  4020
tagtttcagt gatagtgtga caaagtgtaa tctaaatttc taaaaagtaa aataagtaga  4080
taaaatagta ggtagaatag tataataata gaataagtat aggtatggac tagaataaat  4140
agacaaaata gtagataaaa tgctaatgat tttgttgaca gggtaatcat gaatattttt  4200
attatttagc taaagaacca atgttcatgt actcaagaag tgtattgagg aacttaggaa  4260
attagtctga acaggtgaga gggtgcgcca gagaacctga cagcttctgg aacaggcgga  4320
agcacagagg cactgaggca gcaccctgtg tgggccgggg acagccggcc accttccgga  4380
ccggaggaca ggtgcccgcc cggctgggga ggcgacctaa gccacagcag cagcggtcgc  4440
catcttggtc cgggacccgc cgaacttagg aaattagtct gaacaggtga gagggtgcgc  4500
cagagaacct gacagcttct ggaacaggca gaagcacaga ggcgctgagg cagcaccctg  4560
tgtgggccgg ggacagccgg ccaccttccg gaccggagga caggtgccca cccggctggg  4620
gaggcggcct aagccacagc agcagcggtc gccatcttgg tcccggg                4667
<210>9
<211>802
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和BgIII位点的S4_4662-5457构建体
<400>9
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt   60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag  120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag  180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat  240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac  300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat  360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac  420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt  480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt  540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct  600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt  660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac    720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt    780
agcttgaaag aacttcagat ct                                             802
<210>10
<211>3970
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全BamHI位点的MAR S46序列
<400>10
ggatccagag cagatgacac atacatattt ctcttagatg atattatctg agtgttaagt    60
actaaaatgt tgtgtgttgc cttatttaca ttaaacacat ttcccttttc actttttttt   120
tttcaaactc acttaaaaat gagaggataa taaaacggaa actcttcaaa gcattttctg   180
gtagagatgc agaggaaaaa aaatggtatt tcatcaactg atgaaattac ttagatctaa   240
gtgcatcacc atctaaaact acctacctct ttaaagcttc agtatagaaa tatttcaaac   300
tattttttga ggtatgcttt taaaatgggt ttatttacta gtatatatac atgcatttaa   360
gagtgtttgt ggagattagc tagaggttga attgggacac tctgttctca ccttctacca   420
catgagtccc agaggttgct taggttgaga agttctgcag caaacacatt tacacacgga   480
gcaatcccag tagccctcac actttgcaat gagcttgaga gttagagccc agcgtgagct   540
gactcatgcc tttccattat gtctaaattc caatggcgtt ttaaaacatt tttttatata   600
gcaaaaccac atatgattgg gattaaaact gtcaagcaga aatatgaata acttttttca   660
cttaaatttc gtattttatc tgaaattttg accttagaaa tacttgacat tatatctcaa   720
taaaactggc aatgaggaaa aatgaattat tggtttagag gttggtctta ttattgcttg   780
atacattaac aggagacact tactagggct tatcactgaa gtcacccggt acaaatgtac   840
ctaagtgacc gagtctagaa aacaggcact cagatactgg aggttgaaga agcagcttgc   900
ccaatcaatg ctctaattcc aattttatat tcttcctgcc tatattagtt ttccttaagc   960
atagcgagct gaaaaaatga ctgtggcctt atacatatcc tacaggtcaa catgatgaat  1020
ggctgagttg gagttttgaa aaggtgtgaa tcacaagact gcgtctggct ggatgttgat  1080
acctccccaa tcccatgact ttgtggggac gtggcattca tctctcacag agtaatgtgc  1140
agttctcagt tcatgggtgg ctacgaactg aactcccaca gtttatcaca tacattcttg  1200
tgatgtcttg caatttgttt tcgttgtttg ttgagtgtgg gtatttgagg gacaccatgt  1260
gtgtagtcag cacatgcatg tgcttctatc tggagttggt attcattgtg tgtcctctct  1320
ctctctttct ctctctctct ctctctctct ctctctctct ctctctctct ctctctctct  1380
ctctctcttt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt cttacctgcc actggcctca  1440
ataatagtag cttagttggg tagtgtgacc cagacatcag tctgttttgt ctctggtgat  1500
ggaatcatgc tattttgcac tgtcaagtga ttagtcattt ctgagggtca gactcaggtc  1560
cccatacttc caatataaat tgctccccaa tggcaaattt ctacataaca tgaggtcctt  1620
tctgtagaac tgcacaggaa atgacaccca ttctttctgg caattagtaa tgcaagatgg  1680
aatatgcaaa agcagggaac aagcccagaa gtcaatacta cttttaagga ttttgaaaga    1740
aaattgtcat taacgtgcct tctcttttat aaaagtaaga aaactaaggc ccattcttag    1800
ggacaaggat taattgtcca ttatcttaag aggagaatta taatcatata tgaatttgtg    1860
attttattat cacgaagaaa ctacacacaa atacttctgt ttttcattga ttccttattg    1920
aaccaatatt gagttgtgtt tctttggact ctgtacatac acttacagaa gaaatagaat    1980
agaagtgaca ctgaaaattt actgtgcatg tttttcattg gaaagcatta caatcattta    2040
agggaacaat gcatttgata gaaacttcag atatcataca catgttctga tacagaggaa    2100
ttaagtatgc atttcattaa aatagtgttc cttgcatata atcattcatt aggtcttaaa    2160
taagatattg ttattaacat ttaacaaaca ataaggttac ctaatccaga actgcatgat    2220
gataatgacc tgaggacaca acaaagtaga tggttgaagg ttcacaagcc caacccctag    2280
atggctaggg agagaaggag aatcttgttc tccagggatg cggtgcctga taggttgtcc    2340
agatttagcc tgaataaaac atatataata ataactctaa atgcattcag taagttctca    2400
atatgtatat atgtatatat gtatatatat acatatatac atatatacat atatacatat    2460
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac    2520
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat    2580
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac    2640
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat    2700
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac    2760
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat    2820
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac    2880
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat    2940
atacatatat atatgcactt atatgtgata atagcaatta taagaaaaga tatctgactt    3000
taaaagagat tttatgagag gagttggagg gataatagga agatggaaat actgaaacta    3060
tagtgtgaag tatatgtata aatatatata tatgttatac atgtaaatat atatgatatg    3120
atatatagat caagatcata tcagattata atattgtgtc ttttaaattt ccatgagatg    3180
aggatttcaa ggctgagtaa actctttttt ttaatatttt ttattataac gtattttcct    3240
caattacatt tagaatgcta tcccaaaagt cccccatacc ctccccccaa cttccctacc    3300
cacccattcc cattttttgg ccctggcatt cccctgtact gggacatata aagtttgcgt    3360
gtccaatggg tctctgtttc cagcaatggc cgactaggcc atcttttgat acatatgcag    3420
ctagagtcaa gagctccggg gtactggtta gttcataatg ttgttgcacc tacagggttg    3480
cagatctctt aagtccttgg atactttctc tagctcctcc gttgggggca ctatgcacca    3540
tccaatagct gactgtgagc atctacttat gtgtttgcta ggcctggcct agtctcacaa    3600
gagacagcta tatcagggtc ctttcagcaa aatcttgcta gtgtatgcaa tggtttcatc    3660
gtttggaggc taattatggg atggatctct ggatatggca gtctctagat ggtccatcct    3720
tttgtctcgg ctccaaactt tgctcagcat ccttattcat cagagaaatg caaatcaaaa    3780
ccctgagata ccatctcaca ccagtcagaa tagctaagat caaaaattca ggtgacagca    3840
gatgttggcg aggatgtgga gaaagaggaa cactcctcca ttgttggtgg gattgcaagc    3900
ttgtacaacc actctggaaa tcagtctggc ggttcctcag aaaattggac atagtactac    3960
tggaggatcc                          3970
<210>11
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>11
gatccagtac tcatgttcat tttctctaga    30
<210>12
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>12
gatccagtac tgtttgggaa attccatgga    30
<210>13
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>13
gatccagtac tcccctaatt cagacatgca    30
<210>14
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>14
gatccagtac taataataaa atacccggga    30
<210>15
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>15
gatccagtac tttattataa tatgttaaca    30
<210>16
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>16
gatccagtac tgggaaaaaa atcgtcgaca    30
<210>17
<211>1189
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的CEBP富集转录因子结合位点区域
<400>17
ttataccaac ctcataaaat aagagcatat ataaaagcaa atgctcttat cttgcagatc    60
cctgaactga ggaggcaaga tcagtttggc agttgaagca gctggaatct gcaattcaga   120
gaatctaaga aaagacaacc ctgaagagag agacccagaa acctagcagg agtttctcca   180
aacattcaag gctgagggat aaatgttaca tgcacagggt gagcctccag aggcttgtcc   240
attagcaact gctacagttt cattatctca gggatcacag attgtgctac ctattgccta   300
ccatctgaaa acagttgctt cctatatttc atccagttta atatttattt aaaccaagaa   360
ggttaatctg gcaccagcta ttccgttgtg agtggatgtg aaagtaccaa ttccattctg   420
ttttactatt aactatcctt tgccttaata tgtatcagta ggtggcttgt tgctaggaaa   480
tattaaatga atggcatgtt tcataggttg tgtttaaagt tgttttttga gttaaatctt   540
tctttaataa tactttctga tgtcaaaaac acttagaagt catggtgttg aacatctata   600
tagggttgga tctaaaatag cttcttaacc tttcctaacc actgtttttg tttgtttgtt   660
tttaactaag catccagttt gggaaattct gaattagggg aatcataaaa ggtttcattt   720
tagctgggcc acataaggaa agtaagatat caaattgtaa aaatcgttaa gaacttctat   780
cccatctgaa gtgtgggtta ggtgcctctt ctctgtgctc ccttaacatc ctattttatc   840
tgtatatata tatattcttc caaatatcca tgcatgggaa aaaaaatctg atcataaaaa   900
tattttaggc tgggagtggt ggctcacgcc tgtaatccca gcactttggg aggctgaggt   960
gggcggatca tgaggtcaag agatcgagac catcctgacc aatatggtga aaccccatct  1020
ctactaaaga tacaaaacta ttagctggac gtggtggcac gtgcctgtag tcccagctac  1080
tcgggaggct gaggcaggag aacggcttga acccaggagg tggaggttgc agtgagctga  1140
gatcgcgcca ctgcactcca gcctgggcga cagagcgaga ctctgtctc              1189
<210>18
<211>763
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的弯曲AT/TA二核苷酸富集区
<400>18
aaaaaaaaaa tatatatata tatatatata cacatatata tataaaatat atatatatac     60
acacatatat atataaaata tatatatata cacacatata tataaaatat atatatatac    120
acacatatat ataaaatata tatatacaca catatatata aaatatatat atacacacat    180
atatataaaa tatatatata cacacatata tataaaatat atatatacac acatatatat    240
aaaatatata tatacacaca tatatataaa atatatatat acacacatat atataaaata    300
tatatataca cacatatata taaaatatat atatacacac atatatataa aatatatata    360
tacacacata tatataaaat atatatatac acacatatat aaaatatata tatacacaca    420
tatataaaat atatatatac acatatatat aaaatatata tatacacata tatataaaat    480
atatatacac acatatatat aaaatatata tatacacaca tatatataaa atatatatat    540
acacatatat ataaaatata tatatacaca tatatataaa atatatatat atacacatat    600
atataaaata tatatacaca catatatata aagtatatat atacacacat atatataaaa    660
tatatatata cacatatata taaaatatat atatacacat atatataaaa tatatatata    720
cacatatata taaaaatata tatatatatt ttttaaaata ttc                      763
<210>19
<211>1648
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的Hox-富集转录因子结合位点区
<400>19
caattgtctc actttgtgga tgagaaaaag aagtagttag aggtcaagta acttggccta    60
catcttttct caagattgta aactcctagt gagcaataac cacatcttca ttttctttgt   120
ataaaacaag aaagtttagc atgaaaaagg tactcaatta caaatgtgtt ggattgaatt   180
gaagaccctt ggaaggggat tttgtacctg aggatctctt tcttttggcc atattgttca   240
atggacaaaa tttagccttc gaaggcaggc cgatttgagg ttaatactac ctttaccact   300
tgatagctat gtgaccttgg ccatgtggtt tcaacagtct gaacctcatt ttctctgtgt   360
atgtgtggtc ctccttacaa gtttgtgaaa aatgtgaagt ccttagccat gatagcccaa   420
tataacaggc taaatgataa taggtttatg ttcttttcct ttatattctc agataagcac   480
tgtccaagtt tgaggtgttt tgaggtctcg cctgatttgg attgtttgag tttatgctat   540
tctttgaatt ctttgagctg ttctgaagca gtgtatcatg aacaaaaaca tccccagttc   600
agtccaaacc cctggttaca tatcattctt atgccatgtt ataaccagtt tgagagtgtt   660
ccctctgtta ttgcatttaa gtttcagcct cacacagaaa ttcagcagcc aatttctaag   720
ccctaagcat aaaatctggg gtgggggggg gggatggcct gaagagcagc attatgaata   780
gcaccattat aattaatgat ctctcaggaa gatttacaat cacaggtagc agataaaaca   840
aatagtactg cttctgcact tcccctcctt ttattcgcta tgaaatttta tgggaaatca   900
gtccagtgaa aaatgtaagc tcttaatctt tcccagaaat cctacctcat ttgatgaata   960
ctttgaggga atgaattaga gcattttttt cttttatagt ctacttcgca tttacgaagt  1020
gaggacggta gcttaggctg cctggccaac tgatgagaag gtcagaggca tttttagaga  1080
cctctgttgt ctttcattca tgttcatttt ccacaaggca agtaatttcc aacaaatcag  1140
tgtcttcatt agtaataaga ttattaacaa caataatagt catagtaact attcagtgag  1200
agtccattat atatcaggca ttctacaagg tactttatat acatctgagt aaacctcaca  1260
caattctaca gggaggtatt tctatcccca tttaacaaat aaggaaacga agtccaagta  1320
aattaacttg cccaaggtca cacagatagt acctggcaga acaggaattt aaacctaaat  1380
ttgtccaact ccaaaagcag ccttctattt gttataaatg ctgcctctca ttatcacata  1440
ttttattatt aacaacaaca aacataccaa ttagcttaag atacaataca accagataat  1500
catgatgaca acagtaattg ttatactatt ataataaaat agatgttttg tatgttacta  1560
taatcttgaa tttgaataga aatttgcatt tctgaaagca tgttcctgtc atctaatatg  1620
attctgtatc tattaaaata gtactaca                                     1648
<210>20
<211>223
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的Hox-富集转录因子结合位点区的3′末端
<400>20
agaaagagat cctcaggtac aaaatcccct tccaagggtc ttcaattcaa tccaacacat     60
ttgtaattga gtaccttttt catgctaaac tttcttgttt tatacaaaga aaatgaagat    120
gtggttattg ctcactagga gtttacaatc ttgagaaaag atgtaggcca agttacttga    180
cctctaacta cttctttttc tcatccacaa agtgagacaa ttg                      223

Claims (46)

1.用于高水平表达至少一种基因的一种表达系统,包括:
用于可操作地连接编码一种感兴趣基因的一种核苷酸序列的一种启动子,以及在一种用所述表达系统转化的细胞内用于增强一种所述基因表达的至少一种非人类哺乳动物MAR核苷酸序列,其中用所述构建体转化所述细胞时,所述非人类哺乳动物MAR核苷酸序列使所述基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
2.根据权利要求1所述的表达系统,其中包括所述启动子和编码一种感兴趣基因的所述核苷酸序列的一种表达盒可操作地连接于该启动子。
3.根据以上权利要求中任一项所述的表达系统,其中所述至少一种非人类哺乳动物MAR核苷酸序列是一种啮齿动物MAR核苷酸序列,例如一种小鼠或仓鼠MAR核苷酸序列。
4.根据以上权利要求中任一项所述的表达系统,其中所述非人类哺乳动物MAR核苷酸序列包括:
(i)SEQ ID No.3、SEQ ID No.10或它的一个功能片段;或者
(ii)与(i)中任何一个序列具有约80%,约90%,约95%或约98%的序列一致性的一种核苷酸序列。
5.根据以上权利要求中任一项所述的表达系统,其中所述基因在一种非人类哺乳动物细胞例如一种啮齿动物细胞特别是一种小鼠或仓鼠细胞或者在一种人类细胞如一种HeLa细胞内表达。
6.根据以上权利要求中任一项所述的表达系统,其中所述至少一种非人类哺乳动物MAR核苷酸序列在所述基因上以顺式或反式发挥作用。
7.用于增加在一种细胞内蛋白质产量的一种方法,包括提供一种人类或非人类哺乳动物细胞,
将以上权利要求中任一项所述的表达系统导入所述细胞内,使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多。
8.一种分离并纯化的核酸分子,包括:
(a)SEQ ID No.3或SEQ ID No.10或它的一个功能片段的核苷酸序列,或者
(b)与(a)中的序列具有至少约80%、约90%、约95%或约98%的序列一致性且具有MAR活性的一种核苷酸序列。
9.用于鉴定非人类哺乳动物MAR序列的一种方法,包括:
提供至少一种非人类哺乳动物核酸分子,优选一种非人类哺乳动物基因组或其一部分,
令所述核酸分子经受针对MAR序列的一个扫描过程,包括:
设定待评估的核酸分子的窗口大小,
选择至少1个或至少2个,优选3个,更优选4个或更多个与MAR相关的特征,
为表现这个/这些特征的序列设定多个阈值,以及
选择超过这些阈值的MAR候选核苷酸序列,
确定通过包含所述非人类哺乳动物MAR核苷酸序列的一种表达系统转化一种人和/或非人类哺乳动物细胞时,所述非人类哺乳动物MAR核苷酸序列使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
10.根据权利要求9所述的一种方法,其中所述至少一个特征可以是一个DNA弯曲角度、大沟深度、小沟宽度、解链温度或它们的组合。
11.根据权利要求10所述的方法,其中DNA弯曲角度值包括在约3和约5度(基团的角度(radical degree))之间,优选在3.8和约4.4度之间,包括约3.9、约4.0、约4.1、约4.2和约4.3度。
12.根据权利要求10或11所述的方法,其中大沟深度值在约8.9至约之间并且小沟宽度值在约5.2至约之间,优选地,该大沟深度值在约9.0至约
Figure A2007800297320004C3
之间包括约
Figure A2007800297320004C4
并且该小沟宽度值可在约5.4至约
Figure A2007800297320004C5
之间包括约
Figure A2007800297320004C6
和约
Figure A2007800297320004C7
13.根据权利要求10至12所述的方法,其中该解链温度在约55和约75℃之间,特别在约55和约62℃之间,包括约56、约57、约58、约59、约60和约61℃。
14.根据权利要求10所述的方法,其中DNA弯曲角度值在约4.0至约5.0度之间,包括约4.1、约4.2、约4.3、约4.4、约4.5、约4.6、约4.7、约4.8和约4.9度。
15.根据权利要求14所述的方法,其中所述DNA弯曲角度值是与范围从约50bp至约150bp,包括例如约80bp、约100bp和约120bp的窗口值相结合。
16.根据权利要求10所述的方法,其中该DNA弯曲角度值乘以一个窗口值是在约320和约1320之间,例如在约420和约1220、约520和约1120、约620和约1020、约720和约920之间,该大沟深度值乘以该窗口值是在约900和约4000之间、例如在约1200和3700、约1500和约3400、约1800和约3100、约2100和约2800之间,和/或小沟深度值乘以该窗口值是在约500和约2500之间,例如在约750和约2250、约1000和约2000、约1250和1750之间。
17.根据权利要求9至16所述的方法,进一步包括:
提供经实验证实的人类或非人类来源的MAR;
利用所述经实验证实的人类或非人类来源的MAR确定所述阈值。
18.一种MAR构建体,包括:
(a)(i)一种分离的核苷酸序列,包括一个已鉴定MAR的一个末端区域的至少一部分,以及
(ii)另一个分离的核苷酸序列,包括所述已鉴定MAR或另一种已鉴定MAR的约10%、约15%、约20%、约25%、约30%或者更多;或者
(b)(i)一种核苷酸序列,具有与(a)(i)的核苷酸序列约90%、约95%、约96%、约97%、约98%、约99%的序列一致性,以及
(ii)一种核苷酸序列,具有与(b)(i)的核苷酸序列约70%、约80%、优选约90%、约95%、约96%、约97%、约98%、约99%的序列一致性。
19.根据权利要求18所述的MAR构建体,其中(a)(ii)中所述核苷酸序列包括一个富含AT区。
20.根据权利要求18或19所述的一种MAR构建体,其中所述MAR构建体包括一种已鉴定MAR序列的核苷酸数量的少于约90%、优选少于约80%、甚至更优选少于约70%、少于约60%或少于约50%。
21.根据权利要求18至20中任一项所述的一种MAR构建体,其中所述MAR构建体包括与已鉴定MAR序列的核苷酸数量的约相同值或至少约110%
22.一种MAR构建体,包括:
连续排列的一种已鉴定的MAR序列的多个区域,其中一种顺序和/或一种方向不同于一种已鉴定MAR序列的顺序和/或方向。
23.根据权利要求22所述的MAR构建体,其中所述区域包括至少一个富含AT区域和至少一个结合位点区域。
24.根据权利要求22至23所述的MAR构建体,其中所述MAR构建体进一步包括至少一个结合位点区域的至少一部分,并且任选地,其中所述至少一个结合位点区域的所述至少一部分来自所述已鉴定MAR序列。
25.根据权利要求22至24所述的MAR构建体,其中所述已鉴定MAR序列是一种人MAR或一种小鼠MAR。
26.根据权利要求22至25所述的MAR构建体,其中所述已鉴定MAR序列的所述区域或其部分与该天然发生的人1_68MAR或小鼠MAR S4区域或者它们的部分具有约70%的序列一致性、约80%的序列一致性、约90%的序列一致性、约95%的序列一致性、或约98%的序列一致性。
27.根据权利要求22至26所述的MAR构建体,其中所述区域分别对应于一种天然发生的人1_68MAR的bp 1至1189、1190至1952以及1953至3600。
28.根据权利要求22至27所述的MAR构建体,其中这些区域是序列特异性区域。
29.一种MAR构建体,包括:
(a)一个核心核苷酸序列,包括
(i)一个已鉴定MAR序列的至少一个分离的或合成的富含AT区;或
(ii)与(a)(i)中富含AT区具有至少80%、85%、90%、95%、98%或99%的序列一致性的至少一个富含AT区,
(b)一个核苷酸序列,包括
与(a)中所述核苷酸序列相邻的至少一个DNA蛋白质结合位点,其中所述结合位点是
(i)另一个已鉴定MAR序列的一个DNA蛋白质结合位点,
(ii)(a)中该已鉴定MAR序列的一个DNA蛋白质结合位点,其中在该已鉴定MAR序列中,所述DNA蛋白质结合位点位于(a)的该核心核苷酸序列外部,或者
(iii)存在于(a)的核心内但与至少一个另外的DNA蛋白质结合位点相邻的一个第一DNA蛋白质结合位点,其中在(a)的核心内,该第一和至少一个所述另外的DNA蛋白质结合位点不相邻,或者
(iv)一种非MAR序列的一个DNA蛋白质结合位点。
30.根据权利要求29所述的MAR构建体,其中在将所述MAR构建体导入一种细胞内时,所述构建体使可操作性地连接于一种启动子的一种基因的表达增强约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
31.根据权利要求29或30所述的MAR构建体,其中所述MAR构建体长度少于500个核苷酸,优选少于约250个核苷酸,甚至更优选少于约200个、约150个或约100个核苷酸。
32.根据权利要求29至31所述的MAR构建体,其中(a)中所述核心核酸序列包括所述已鉴定MAR的至少一个TFBS,其中在该已鉴定MAR内,所述至少一个TFBS位于所述富含AT区的一侧或两侧。
33.根据权利要求29至32所述的MAR构建体,其中(b)中所述至少一个DNA蛋白质结合位点是一个TFBS,并且由1个、2个、3个、4个、5个或更多的取代、添加和/或缺失加以修饰,并且/或者是全部或部分合成的。
34.根据权利要求29至33所述的MAR构建体,其中位于所述富含AT区侧翼的所述TFBS被1个、2个、3个、4个、5个或更多的取代、添加和/或缺失修饰。
35.根据权利要求33或34所述的MAR构建体,其中所述TFBS是无已知天然对应物的一种优化的TFBS。
36.根据权利要求29至35所述的MAR构建体,其中所述结合位点选自下组,其组成为:SATB1、NMP4、HOX、HOXF、Gsh、CEBP、Fast1和SATB1或者这些转录因子中的两种或多种的一个组合。
37.根据权利要求29至36所述的MAR构建体,其中(b)的所述DNA蛋白结合位点的一个系列是与(a)的所述核酸序列相邻。
38.根据权利要求29至37所述的MAR构建体,其中所述MAR构建体是一个增强的MAR构建体。
39.一种表达系统,包括
以上权利要求中任一项所述的至少一个MAR构建体,并且,任选地,
一个启动子和至少一个限制性内切酶结合位点,用于在所述启动子控制下导入一个感兴趣的核苷酸序列。
40.一种细胞,包含以上权利要求中任一项所述的一个表达系统。
41.一种转基因非人类动物,包含以上权利要求中任一项所述的一个表达系统。
42.一个试剂盒,包括:
以上权利要求中任一项所述的表达系统,以及
如何使用所述表达系统的说明。
43.用于增强一种基因的表达的一种方法,包括
在一种启动子以及以上权利要求中任一项所述的一种MAR构建体的控制下提供包含所述基因的一种表达系统;
用所述表达系统转染一种细胞,以增强所述基因的表达。
44.根据权利要求43所述的一种方法,其中所述表达系统进一步增强所述基因表达的稳定性。
45.以上权利要求中任一项所述的MAR构建体、表达系统、转基因非人类动物、试剂盒和/或方法在生产蛋白质例如识别人病原体蛋白质或人细胞表面蛋白质的抗体,以及蛋白质诸如促红细胞生成素、干扰素或其他治疗性或诊断性蛋白质中的应用。
46.以上权利要求中任一项所述的MAR构建体、表达系统、细胞、试剂盒和/或方法在体外和/或体内基因治疗和/或在细胞或组织替代疗法中的应用。
CN 200780029732 2006-08-23 2007-08-22 用于增加转录的基质附着区(mar)及其应用 Pending CN101541959A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US82331906P 2006-08-23 2006-08-23
US60/823,319 2006-08-23
US60/953,910 2007-08-03

Publications (1)

Publication Number Publication Date
CN101541959A true CN101541959A (zh) 2009-09-23

Family

ID=41124116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200780029732 Pending CN101541959A (zh) 2006-08-23 2007-08-22 用于增加转录的基质附着区(mar)及其应用

Country Status (2)

Country Link
CN (1) CN101541959A (zh)
ZA (1) ZA200902011B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102911936A (zh) * 2012-11-22 2013-02-06 福建省农业科学院生物技术研究所 两条水稻mar序列及其应用
CN104975009A (zh) * 2014-04-01 2015-10-14 上海中信国健药业股份有限公司 一种新型的含mar核心片段的动物细胞表达载体
CN113383081A (zh) * 2018-12-07 2021-09-10 赛尔希恩公司 基质附着区和促进基因表达的用途
CN114891829A (zh) * 2022-05-24 2022-08-12 新乡医学院 一种肝特异性游离型表达载体和基因治疗载体及其应用

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102911936A (zh) * 2012-11-22 2013-02-06 福建省农业科学院生物技术研究所 两条水稻mar序列及其应用
CN102911936B (zh) * 2012-11-22 2014-08-27 福建省农业科学院生物技术研究所 两条水稻mar序列及其应用
CN104975009A (zh) * 2014-04-01 2015-10-14 上海中信国健药业股份有限公司 一种新型的含mar核心片段的动物细胞表达载体
CN109576265A (zh) * 2014-04-01 2019-04-05 三生国健药业(上海)股份有限公司 一种新型的含mar核心片段的动物细胞表达载体
CN104975009B (zh) * 2014-04-01 2019-10-18 三生国健药业(上海)股份有限公司 一种新型的含mar核心片段的动物细胞表达载体
CN109576265B (zh) * 2014-04-01 2020-08-28 三生国健药业(上海)股份有限公司 一种含mar核心片段的动物细胞表达载体
CN113383081A (zh) * 2018-12-07 2021-09-10 赛尔希恩公司 基质附着区和促进基因表达的用途
CN114891829A (zh) * 2022-05-24 2022-08-12 新乡医学院 一种肝特异性游离型表达载体和基因治疗载体及其应用
CN114891829B (zh) * 2022-05-24 2023-09-26 新乡医学院 一种肝特异性游离型表达载体和基因治疗载体及其应用

Also Published As

Publication number Publication date
ZA200902011B (en) 2010-05-26

Similar Documents

Publication Publication Date Title
AU2019250224B2 (en) Enhanced transgene expression and processing
KR20090053893A (ko) 전사를 증가시키기 위한 기질부착부위(mars) 및 그의 용도
CN104364380B (zh) 核酸酶介导的使用大靶向载体的靶向
de Freitas Nascimento et al. Codon choice directs constitutive mRNA levels in trypanosomes
JP5396653B2 (ja) Mar配列の多トランスフェクション手順による高効率の遺伝子導入および哺乳動物細胞における発現
Wuest et al. Genomics in mammalian cell culture bioprocessing
US11976308B2 (en) CRISPR DNA targeting enzymes and systems
US20020132290A1 (en) Coordinate cytokine regulatory sequences
MX2014015612A (es) Integracion especifica de sitio.
KR20120099376A (ko) 강화된 전이 유전자 발현과 공정 방법 및 그 산물
CN104884467A (zh) 在遗传修饰的哺乳动物细胞中生产治疗性蛋白质
KR20120034715A (ko) 고생산성 세포의 수립을 위한 발현 벡터 및 고생산성 세포
KR20210042130A (ko) Acidaminococcus sp. cpf1의 dna 절단 활성을 향상시키는 신규한 돌연변이
Sun et al. Molecular characterization of a human matrix attachment region that improves transgene expression in CHO cells
CN109312329A (zh) 提高基因组序列修饰技术中的突变导入效率的方法、及其使用的分子复合体
CN103834686A (zh) 高效克隆筛选表达载体、其制备方法及用途
CN101541959A (zh) 用于增加转录的基质附着区(mar)及其应用
KR102553990B1 (ko) Hspa5 유전자의 프로모터
CA3153005A1 (en) Novel crispr dna targeting enzymes and systems
CA3236802A1 (en) Serine recombinases
CN104975018B (zh) 一种新型增强子及其应用
CN112048522A (zh) Tmem173基因人源化改造的动物模型的构建方法及其应用
CN115698301A (zh) 活性dna转座子系统及其使用方法
CN108690833A (zh) 重组哺乳动物细胞及目的物质的生产方法
US20110262902A1 (en) Cis-acting diversification activator and method for selective diversification of nucleic acids

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1134687

Country of ref document: HK

AD01 Patent right deemed abandoned

Effective date of abandoning: 20090923

C20 Patent right or utility model deemed to be abandoned or is abandoned
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1134687

Country of ref document: HK