CN101541959A - 用于增加转录的基质附着区(mar)及其应用 - Google Patents
用于增加转录的基质附着区(mar)及其应用 Download PDFInfo
- Publication number
- CN101541959A CN101541959A CN 200780029732 CN200780029732A CN101541959A CN 101541959 A CN101541959 A CN 101541959A CN 200780029732 CN200780029732 CN 200780029732 CN 200780029732 A CN200780029732 A CN 200780029732A CN 101541959 A CN101541959 A CN 101541959A
- Authority
- CN
- China
- Prior art keywords
- mar
- sequence
- construct
- nucleotide sequence
- binding site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明披露了人类以及非人类动物来源的分离且纯化的MAR序列以及对应于或基于它们的核苷酸序列。特别地,本发明披露了具有较高转录和/或蛋白质生成增强活性的MAR以及MAR构建体以及用于鉴定这些MAR的方法、设计这些MAR构建体的方法以及将其用于例如高产率的蛋白质生产的方法。
Description
本申请要求于2006年8月23日提交的美国临时申请60/823,319号以及于2007年8月3日提交的临时申请60/953,910号的优先权,其全部内容以引用的方式结合于此。
技术领域
本发明涉及包含对应于或基于已分离和纯化的人类和非人类动物来源MAR序列的核苷酸序列的核酸。这些核酸通常具有增强转录和/或蛋白质生成的活性。本发明还涉及用于鉴定这些序列的方法以及应用这些方法的系统,例如用于提高蛋白质产量。
背景技术
为了阐释本发明特别是提供与其实施相关的额外细节,将本文采用的公开文件和其他材料包括专利均通过引用的方式结合于此。为了方便,这些公开文件,如果在正文中未详细陈述,则在所附的参考文献部分按字母顺序列出。EMBL登录号AC102666以及位于EMBL登录号BH101870和BH101901侧翼的序列以及EMBL登录号(同物异名)126658,23119391,22981746也全部结合于此供参考。
现在,真核染色体形成约50至100kb的染色质环形结构域的模型已被广泛公认[Bodnar JW,Breyene P,Van Montagu M andGheyseu G,Razin SV]。可认为这些环的外端对应于附着于核基质(一种由RNP(核糖核蛋白)和其它非组氨酸蛋白质构成的蛋白质质网状系统)的特异DNA序列[Bode J,Benham C,Knopp A andMielke C]。连接于核基质的染色体DNA序列在支架(分裂中期)或基质(分裂间期)附着区分别称为SAR或MAR。S/MAR、MAR元件或MAR序列或者简称MAR通常为长度为300至3000bp的多态区域。据估计哺乳动物细胞核内存在约100000个MAR[Bode J,Stengert-Iber M,Kay V,Schlake T and Dietz-Pfeilstetter A]。
通过结构性和功能性地将染色质分成环形结构域,可认为MAR在复制和基因表达的调节中发挥重要作用,例如促进哺乳动物核内转录座位(foci)的序列组合和解离。现已得到大量间接证据可支持这种观念;例如在各种真核基因组内,DNA复制起始点位于MAR元件内部[Amati B and Gasser SM(1988),Amati B and GasserSM(1990)]。还发现MAR几乎总是存在于非编码基因间区、内含子内部[Girod PA,Zahn-Zabal M and Mermod N]或转录单位的边缘[Gasser SM and Laemmli UK;National Center for BiotechnologyInformation],其中MAR可结合普遍性和/或组织特异性转录因子。总体说来,在植物和动物细胞系的转基因试验中,MAR元件已成功用来增加转基因的表达和稳定性[Allen GC,Spiker S,ThompsonWF,Bode J,Schlake T,Rios-Ramirez M,Mielke C,Stengart M,Kay Vand Klehr-Wirth D,Girod PA,Zahn-Zabal M and Mermod N]。例如,MAR已经用来增加各种与生物技术和治疗性应用相关的重组蛋白质在细胞例如CHO(中国仓鼠卵巢)细胞内的产量[Girod PA,Zahn-Zabal M and Mermod N,Kim JM,Kim JS,Park DH,Kang HS,Yoon J,B aek K and Yoon Y,Zahn-Zabal M,Kobr M,Girod PA,ImhofM,Chatellard P,de Jesus M,Wurm F and Mermod N](Mermod et al.,“Development of stable cell lines for production or regulatedexpression using matrix attachment regions,”WO 02074969,以及美国专利公开文件20030087342)。
已将MAR的功能活性与其结构特性而非其一级DNA序列相关联。实际上,MAR的A和T含量较高[Boulikas T(1993)],且已经观察到一些特殊的构象和理化性质,例如分子的固有曲率、狭窄的小沟、高解旋/解链潜在可能性或变性敏感性[Bode J,Schlake T,Rios-Ramirez M,Mielke C,Stengart M,Kay V and Klehr-Wirth D,Boulikas T(1993),Boulikas T(1995)]。事实上,正是通过称为SMAR扫描(SMAR Scan)的方法,利用这些性质鉴定MAR。此外,MAR活性还可由DNA结合蛋白质介导,例如可识别MAR元件特异结构特征例如单链和/或弯曲DNA的染色质重塑酶和/或转录因子[Bode J,Stengert-Iber M,Kay V,Schlake T andDietz-Pfeilstetter A]。尚未发现明确的蛋白质结合位点或MAR共有序列[Boulikas T(1993)],这使得难以从基因组序列预测MAR。
尽管已经描述了MAR的某些功能和结构性质,但由于其一级结构几乎无共有序列,因此其鉴定是困难的。真核基因组内MAR元件可能在功能上较为保守,一个假设可由动物MAR可结合于植物核支架并且反之亦然这个事实而得到支持[Breyne P,Van MontaguM,Depicker A and Gheysen G,Mielke C,Kohwi Y,Kohwi-ShigematsuT and Bode J],但关于是什么特征使得MAR序列成为如有效的蛋白质生成序列则知之甚少。此外,根据所采用的分析不同,可得到不同的结果[Razin SV,Boulikas T(1995),Kay V and Bode J]。考虑到真核生物内预期MAR的巨大数量以及基因组计划发布的序列数量,已开发了工具/程序用来检测MAR DNA序列的结构特征(SMAR Scan I)或者功能序列例如作为调节蛋白质或转录因子的特殊蛋白质的结合位点(SMAR Scan II)[2007年8月3日提交的美国临时专利申请60/953,910,Mermod et al的美国专利公开文件20070178469.]。设计这些程序是为了通过检测对应于DNA弯曲、大沟深度和小沟宽度潜在可能性,以及用于特异转录调节蛋白质的结合位点的多种DNA序列特征簇,来鉴定新的潜在MAR序列。这些程序已用来扫描人类基因组,以鉴定公认的MAR DNA序列,已证实其中几种公认的MAR DNA序列当导入被转染入CHO细胞内的表达质粒内时可增加转基因的表达,(Girod et al.,“Identification of S/MAR from genomic sequences withbioinformatics and use to increase protein production in industrial andtherapeutic processes,”Mermod et al.的美国专利公开文件20070178469]。这表明SMAR Scan程序可有效地鉴定人类遗传元件,其依次可用来增加蛋白质合成。尽管到目前为止所开展的功能筛查限于人类基因组,但在大规模生产中,感兴趣的蛋白质常常在非人类哺乳动物细胞中进行表达。
已通过SMAR Scan在人类基因组中鉴定了大约1600种MAR,且已证实八分之六当置于增强子/启动子上游时,可导致CHO细胞内基因(例如用于绿色荧光蛋白质(GFP)、抗体和受体的基因)表达增加。已证实具有异位MAR活性的DNA长度在2.5kb至6kb的范围内。然而,缺乏对MAR结构的表征现在已经限制了“设计者”MAR的生产。因此,需要对MAR特别是MAR的功能和/或结构区域进行表征,以实现MAR改造和设计。
到目前为止开展的功能筛查限于人类基因组。因为在大规模生产中,感兴趣蛋白质常常在哺乳动物细胞中进行表达,因此还需要鉴定更多有效的天然发生的MAR,其可促进人类和/或非人类哺乳动物细胞内的转录和/或基因表达和/或有效的蛋白质生成细胞。
总的来说,存在例如通过鉴定另外天然发生的MAR、通过改造已鉴定MAR和/或通过生产合成的MAR来鉴定和/或生成具有有利性质的MAR的需求。有利性质本身包括但不限于转录和/或蛋白质生成/基因表达的性质增强;相对于天然发生的MAR长度减小从而使得例如在遗传改造中具有更多用途;组织、细胞或器官特异性和/或加入外来刺激物例如药物时的可诱导性。
为了实现一种或多种这些需求以及在下文的披露内容中将变得明显的其他需求,可采用几种途径包括对小鼠基因组进行大规模生物信息分析,以鉴定公认的MAR DNA序列。利用MAR预测软件SMAR Scan I对小鼠基因组加以分析。评估新鉴定的啮齿动物序列介导改善从培养细胞生成药物感兴趣重组蛋白质的能力。为此,可在转基因的转染分析中对新鉴定MAR的转录活性加以评估。
此外,对MAR如人类1_68MAR和小鼠MAR S4进行研究。鉴定了模块特别是包含MAR某些结构的模块/序列特异性模块的模块,并利用这些模块改造具有有利性质的MAR,例如通过序列的重组、缺失和/或复制。模块还可与其他元件例如包含某些结合位点特别是转录因子结合位点(TFBS)的合成核苷酸序列结合。
发明内容
在一个实施方式中,本发明是针对至少一种基因的高水平表达的表达系统,包括:
用于可操作性地连接编码感兴趣基因的核苷酸序列的启动子,以及至少一种非人类哺乳动物MAR核苷酸序列,用于促进所述基因在转染了所述表达系统的细胞内表达,其中用所述构建体转染所述细胞时,所述非人类哺乳动物MAR核苷酸序列使所述基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
所述非人类哺乳动物MAR核苷酸序列可包括,主要由以下序列或由以下序列组成:
(i)SEQ ID No.3、SEQ ID No.10或其功能片段;或者
(ii)与(i)中任何一个序列具有约80%、约90%、约95%或约98%的序列一致性的核苷酸序列。
本发明还针对分离并纯化的核酸分子,包括,主要由以下序列或由以下序列组成:
(a)SEQ ID No.3或SEQ ID No.10或者其功能片段的核苷酸序列;或者
(b)与(a)中序列具有至少约80%、约90%、约95%或约98%的序列一致性且具有MAR活性的核苷酸序列。
本发明进一步针对一种用于鉴定非人类哺乳动物MAR序列的方法,包括:
提供至少一种非人类哺乳动物核酸分子,优选非人类哺乳动物基因组或其一部分。
令所述核酸分子经受针对MAR序列的一个扫描过程,包括:
设定用于待评估核酸分子的窗口大小,
选择至少1个或至少2个,优选3个,更优选4个或更多个MAR相关特征,
设定用于表现这个/这些特征的序列的阈值,以及
选择超过这些阈值的MAR候选核苷酸序列,
确定通过包含所述非人类哺乳动物MAR核苷酸序列的表达系统转化人和/或非人类哺乳动物细胞时,所述非人类哺乳动物MAR核苷酸序列使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
因此,该特征可以为DNA弯曲角度,其值乘以窗口值得到在约320和1320之间的乘积值,例如约420和约1220、约520和约1120、约620和约1020、约720和约920;因此,该特征可以为大沟深度值,其乘以窗口值得到在约900和约4000之间、例如约1200和3700、约1500和约3400、约1800和约3100、约2100和约2800的乘积值以及/或者因此,该特征可以为小沟深度值,其乘以窗口值得到在约500和约2500、例如约750和约2250、约1000和约2000、约1250和1750的乘积值。
本发明还针对MAR构建体,包括:
(a)(i)分离的核苷酸序列,包括已鉴定MAR末端区域的至少一部分,以及
(ii)另外分离的核苷酸序列,包括所述已鉴定MAR或另一已鉴定MAR的约10%、约15%、约20%、约25%、约30%或者更多;或者
(b)(i)一个核苷酸序列,具有与(a)(i)中核苷酸序列约90%、约95%、约96%、约97%、约98%、约99%的序列一致性,以及
(ii)一个核苷酸序列,具有与(b)(i)中核苷酸序列约70%、约80%、优选约90%、约95%、约96%、约97%、约98%、约99%的序列一致性。
根据本发明所述的其他MAR构建体包括:
连续排列的已鉴定MAR序列区域或其一部分,其中顺序和/或方向不同于已鉴定MAR序列。
此外,根据本发明所述的其他MAR构建体还包括:
(a)一个核心核苷酸序列,包括
(i)至少一个分离的或合成的已鉴定MAR序列的富含AT区;或
(ii)至少一个与(a)(i)中富含AT区具有至少80%、85%、90%、95%、98%或99%序列一致性的富含AT区,
(b)一个核苷酸序列,包括至少一个与(a)中所述核苷酸序列相邻的DNA蛋白质结合位点,其中所述结合位点是
(i)另外已鉴定MAR序列的DNA蛋白质结合位点,
(ii)(a)中已鉴定MAR序列的DNA蛋白质结合位点,其中在该已鉴定MAR序列中,所述DNA蛋白质结合位点位于(a)的核心核苷酸序列外部,或者
(iii)存在于(a)的核心内但与至少一个另外DNA蛋白质结合位点相邻的第一DNA蛋白质结合位点,其中在(a)的核心内,该第一和至少一个所述另外DNA蛋白质结合位点中不相邻,或者
(iv)非MAR序列的DNA蛋白质结合位点。
本发明还针对包括任何列举的MAR构建体的表达系统、包括列举的表达系统的试剂盒以及任何该MAR构建体、表达系统、细胞、转基因的非人类动物、本文所提到的试剂盒和/或方法在(1)生成蛋白质例如识别人病原体蛋白质或人细胞表面蛋白质的抗体,以及蛋白质诸如促红细胞生成素、干扰素或其他治疗性或诊断性蛋白质的应用以及/或者(2)在体外、体内基因治疗、细胞治疗或组织再生治疗中的应用。
附图说明
图1示出了各种MAR对重组绿色荧光蛋白(GFP)生成的影响。
图2示出了各种人类和小鼠MAR元件对CHO细胞中重组绿色荧光蛋白(GFP)的极高生产者(%M3)的百分位数的影响。
图3示出了各种人类1_68和小鼠S4 MAR元件对重组绿色荧光蛋白(GFP)表达的影响。
图4示出了小鼠MAR元件对重组单克隆抗体生成的影响。
图5示出了稳定的多克隆种群可从用促使IgG重链和轻链表达的载体转染的CHO细胞群中产生,该载体无MAR(没有MAR)或以顺式加入MAR S4。
图6(A)和(B)示出了稳定的单个克隆可通过限制性稀释来自促使IgG重链和轻链表达的载体转染的CHO细胞群中生成,在(B)中无MAR(没有MAR)或以顺式加入MAR S4和MAR 1_68。
图7(A)和(B)示出了在(A)中无MAR和在(B)中有MAR时基因(GFP)随时间的表达情况(2周和26周)。
图8(A)和(B)示出了人类1_68MAR的弯曲(A)和序列(B)特征。
图9(A)至(C):(A)示出了通过已鉴定区域组合得到的不同MAR构建体及所获得转录增强;(B)示出了MAR构建体6的的弯曲模式;(C)提供了结构参数的细节例如MAR构建体6的结合位点。
图10示出了各种MAR S4构建体对重组绿色荧光蛋白(GFP)表达的影响,如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。
图11示出了重组绿色荧光蛋白(GFP)表达所衍生的各种MARS4构建体,如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。
图12示出了人类1_68MAR的可能转录因子结合位点图谱,如通过MATInspector软件所预测的。
图13是用来测试合成MAR活性的质粒的图谱,该合成MAR是用富含AT的核心(MAR 1429-2880)和用于转录因子(置于启动子和绿色荧光蛋白质(GFP)上游)的化学合成DNA结合位点组合而构建成的。
图14图示了通过如图13中所述而构建的合成MAR的增强转录。
图15图示了通过包含表5中所列出的DNA结合位点的合成MAR的增强转录。
具体实施方式
本发明涉及来自非人类动物的分离并纯化的MAR序列、鉴定这些序列的方法以及采用这些序列用于在人类细胞以及非人类细胞如啮齿动物细胞中生产高产量蛋白质的系统。
本发明还针对MAR构建体特别是增强的MAR构建体、表达系统以及采用这些MAR构建体的试剂盒及其在蛋白质生产特别是大规模生产和治疗中的应用。
除非另外声明,本文采用的所有技术和科学术语均具有与本发明所涉及技术领域中普通技术人员通常理解的相同意思。尽管不同于本文所述的方法和材料可用于实施本发明,下文描述了示例性的适当方法和材料。
根据本发明所述的表达盒是包括至少一个基因以及该基因转录所需元件的核酸。
根据本发明所述的启动子是DNA的调节区域,当其位于基因上游时,促进该基因的转录。
细胞内表达例如在非人类哺乳动物细胞中的表达在本文中指的是体外和体内表达。体外表达包括例如在细胞系如HeLa细胞系或CHO细胞系以及体外基因治疗中使用的细胞内表达。体内表达包括在转基因的非人类动物中表达以及在体内基因治疗或体外基因治疗中使用的将该细胞重新导入人类基因治疗受体后在人类细胞内的表达。
根据本发明所述的哺乳动物细胞,例如非人类哺乳动物细胞,能够在细胞培养条件下保存。该类型细胞的一个非限制性实例是中国仓鼠卵巢(CHO)细胞。
根据本发明所述的MAR构建体、MAR元件、MAR序列、S/MAR或仅仅MAR是与天然发生的“SAR”或“MAR”共有一个或多个(例如2个、3个或4个)特征且具有至少一个促进任何受所述MAR影响的基因的蛋白质表达的特性的核苷酸序列。MAR构建体还具有一个特征,即为具有MAR活性特别地具有转录调节优选增强活性的分离和/或纯化的核酸,但还具有例如表达稳定活性和/或其他以“增强的MAR构建体”阐述的活性。MAR构建体还可根据其主要基于的已鉴定MAR加以定义:因此,MAR S4构建体即一种大部分核苷酸(>50%)基于MAR S4的MAR构建体。根据一种广泛接受的模型,天然发生的SAR或MAR介导特异DNA序列与核基质的锚定,所产生的染色质环状结构域从异染色质的核心向外延伸。尽管SAR或MAR不包含任何明显的共有序列或可识别序列,但看来其最一致的特征是高的总体A和T含量,且碱基C主要位于一条链上。通常MAR倾向于形成弯曲的二级结构,其可能易于发生链分离。SAR和/或MAR内部常常存在几个A和T含量高的简单基序,但对于其大部分而言,尚未明确其功能重要性和可能的作用方式。这些包括A盒、T盒、DNA解链基序、SATB1结合位点(H-box、A/T/C25)以及用于脊椎动物或果蝇属的共有拓扑异构酶II位点。
根据本发明所述的MAR候选物或MAR候选序列,是与天然发生的SAR或MAR共有1个或多个特征例如2个、3个或4个特征的序列。
根据本发明所述的已鉴定MAR或已鉴定MAR序列是已分离的核苷酸序列,且相当于天然发生的MAR序列,因为它包括实现充分促进其天然对应物蛋白质/基因表达的所有区域(“模块”或“元件”)。
一个已鉴定的MAR的这些模块(本文中也称之为“区域”、“DNA区域”、“部分”、“结构域”)就是允许对天然发生的MAR的能力实现蛋白质/基因表达的增强所必需的全部条件。这些模块通常均不能单独获得该MAR的全部活性。这些区域中一部分是序列特异的,例如下文所述富含AT二核苷酸的弯曲区域以及转录因子结合位点(TFBS)区域。其他“区域”由其定位而表征,例如已鉴定MAR序列的5’和3’末端区域。
富含AT/TA二核苷酸的弯曲DNA区(下文称为“富含AT区”)是包含大量A和T特别是二核苷酸AT和TA形式的弯曲DNA区。在一个优选的实施方式中,在一段100个相邻碱基对中,其包含至少10%的二核苷酸TA和/或至少12%的二核苷酸AT,优选在一段100个相邻碱基对中(或者,如果富含AT区长度更短,则分别位于一条更短链上),其包含至少33%的二核苷酸TA和/或至少33%的二核苷酸AT,同时具有弯曲的二级结构。然而,该“富含AT区”可以短至约30个核苷酸或更少,但优选长约50个核苷酸、约75个核苷酸、约100个核苷酸、约150个、约200个、约250个、约300个、约350个或约400个核苷酸或更长。
如下文将讨论的,富含AT区可通过例如其相对较高的弯曲角度而与邻近区域如结合位点区相区别。某些结合位点还常常具有相对较高的A和T含量如SATB1结合位点(H-box,A/T/C25)以及用于脊椎动物和果蝇属的共有拓扑异构酶II结合位点。然而,一个结合位点区(模块),特别是包括一簇结合位点的一个TFBS区,可通过比较这些区域的弯曲模式将A和T含量高的结合位点与富含AT和TA二核苷酸的区域(“富含AT区”)容易地区别开。例如,对于人类MAR 1_68,后者可具有超过约3.8或约4.0的平均曲率度,而TFBS区则可具有低于约3.5或约3.3的平均曲率度。已鉴定MAR区域如本文其他部分所述,可通过可替代方式例如但不限于解链温度确定。然而,这些值是种属特异性的,并因此可随种属而不同,并例如可以更低。因此,各个富含AT和TA二核苷酸区域可具有更低的曲率度例如从约3.2至约3.4,或从约3.4至约3.6,或从约3.6至约3.8,且TFBS区可具有按比例更低的曲率度,例如低于约2.7、低于约2.9、低于约3.1、低于约3.3。在SMAR Scan II中,将由熟练技术人员选择各自更低的窗口值。
根据本发明所述已鉴定MAR/MAR序列的末端区域包括已鉴定MAR的至少约5%、约6%、约7%、约8%、约9%或约10%。
结合位点或DNA蛋白质结合位点是任何可以结合DNA结合蛋白质的核苷酸序列。用于DNA结合蛋白质的结合位点通常是TFBS。TFBS是可以结合转录因子的任何序列。TFBS可以为任何来源例如但不限于人类或小鼠。TFBS还可以为改造的或合成的。然而,在某些实施方式中,该TFBS在MAR序列例如相同生物、相同种或相同属的MAR序列中具有对应物。然而,TFBS可以来自不同种或不同属的MAR序列。此外,MAR序列中不含有目前已知对应物的TFBS也在本发明的范围之内。这种TFBS可包括但不限于用于USF1(上游刺激因子1)或锌指蛋白质CTCF的结合位点。TFBS可由1、2、3、4、5或更多个取代、添加和/或缺失而修饰,且可全部或部分合成。优化的TFBS,即具有对各个DNA结合蛋白质的最优结合亲和性且常常不具有已知的天然对应物,也在本发明的范围之内。那些优化的TFBS可通过对天然发生的TFBS进行上述修饰或者通过合成特别是化学合成而得到。在本发明的某些实施方式中,通过例如结合于组织特异性天然的、改造的或合成的调节蛋白质或者其他例如可对特定药物和分子起反应的天然的、改造的或合成蛋白质,结合位点或TFBS赋予MAR组织特异性。基因和/或细胞疗法是从组织特异性以及MAR对某些药物发生特异性反应(即,其可由药物诱导)的能力受益的典型例子。前者,该例如感兴趣基因将仅在特异器官或组织中表达,后者,表达则可例如仅在对某药物起反应时而启动。转录因子(其可能包含TFBS)的其他非限制性实例为例如SATB1、NMP4、MEF2、S8、DLX1、FREAC7、BRN2、GATA 1/3、TATA、Bright、MSX、AP1、C/EBP、CREBP1、FOX、Freac7、HFH1、HNF3α、Nkx25、POU3F2、Pit1、TTF1、XFD1、AR、C/EBPγ、Cdc5、FOXD3、HFH3、HNF3β、MRF2、Oct1、POU6F1、SRF、V$MTATA B、XFD2、Bach2、CDP CR3、Cdx2、FOXJ2、HFL、HP1、Myc、PBX、Pax3、TEF、VBP、XFD3、Brn2、COMP1、Evil、FOXP3、GATA4、HFN1、Lhx3、NKX3A、POU1F1、Pax6和/或TFIIA。
如果该核心核苷酸序列与该结合位点由不超过约200个优选不超过约100个核苷酸,甚至更优选不超过约50个核苷酸,甚至更优选不超过约25个、不超过约15个、不超过约5个或无核苷酸而隔开,则称结合位点如TFBS与核心核苷酸序列相邻。在一个优选的实施方式中,结合位点特别是TFBS本身在TFBS每一侧面上均包括更短的接头或适配子(可达25个核苷酸)。在一个甚至更优选实施方式中,TFBS是可达约50个核苷酸、约40个核苷酸或约30个核苷酸的寡聚物的一部分。一系列结合位点,例如根据本发明所述TFBS,是一列彼此按顺序排列的TFBS。如果该系列中与核心邻近的TFBS具有上文指定的距离,则称该系列TFBS与核心核苷酸序列相邻。如果该结合位点是核心核苷酸序列的一部分且在天然发生的MAR中相同位置具有对应物,则称该结合位点位于“富含AT区”侧翼。
结合位点可由1、2、3、4、5或更多个取代、添加和/或缺失而修饰。优选地,导入这些取代、添加和/或缺失,从而使得该结合位点与各个结合位点的共有序列匹配。
多种增强的MAR构建体都是本发明的一部分,且具有构成相对天然发生的和/或已鉴定MAR增强的性质,其中根据本发明所述MAR构建体可基于天然发生的和/或已鉴定MAR,特别是天然发生的MAR(核心核酸序列基于此)。这种性质包括但不限于相对于天然发生的和/或已鉴定MAR全长的长度减少、基因表达/转录增强、表达稳定性增强、组织特异性、可诱导性或它们的组合。因此,增强的MAR构建体可例如包括少于已鉴定MAR中核苷酸数量的约90%、优选少于约80%、甚至更优选少于约70%、少于约60%或少于约50%。用所述构建体转染适当细胞时,MAR构建体可促进基因表达和/或基因转录。在本发明正文中,如果提到MAR构建体/MAR(核苷酸)序列“促进表达”、具有“基因表达增强活性”、“促进蛋白质表达”或类似的,该“促进”是相对于例如基因在其他同等条件但无该序列时的表达而言的。该促进可为例如约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍或约15倍、约20倍或约25倍或更多。
MAR构建体还可增加极高生成细胞的平均百分位数达约5倍、约10倍、约15倍或更多。因此,除了更高的平均基因表达,极高表达细胞百分位数的增加以及稳定(“抗性”)克隆(约100%、约200%、约300%或约400%或更高的增加)形成,以及/或者更低的表达变异性(cv(变异系数)下降约30%、约40%、约50%或更多))也在本发明的范围之内。
MAR构建体或类似物可“增强表达稳定性”。该“增强”是相对于例如基因在其他同等条件但无该MAR构建体/MAR序列时的表达而言的。稳定性增强可例如在达到约5、10、20、25、30、35、40、45或50周之后仍保持100%增加。MAR构建体可对例如肌肉、肝脏、中枢神经系统或其他组织是特异的和/或可在给予诸如抗体、激素和/或代谢中间物时而诱导。
MAR构建体/MAR序列优选可插入启动子区的上游,而感兴趣基因是或者可以可操作性连接于该启动子区。然而,在某些实施方式中,将MAR构建体定位于感兴趣基因/核苷酸序列的上游以及下游或者仅下游则是有好处的。其他多种顺式和/或反式MAR排列也在本发明的范围之内。
MAR构建体或MAR的一个区域可称为基于例如已鉴定MAR或已鉴定MAR的一个区域,如果其与天然发生的“SAR”或“MAR”或者其各自的区域共有一个或多个(例如2、3或4个)特征且具有至少一个可促进任何受所述MAR影响的基因的蛋白质表达的性质。按照本文提供的术语定义,这些MAR构建体或MAR区域通常与其所基于的已鉴定MAR具有“大体一致性”。尽管存在这些和/或其核苷酸序列的修饰,其仍将保持该已鉴定基础MAR的至少一种功能性/特征。
本发明还涉及MAR构建体包括增强的MAR构建体的应用,在这些应用中,MAR构建体还可与一种或多种非MAR表观遗传学的基因调节工具例如但不限于组蛋白调节物比如组蛋白脱乙酰基酶(HDAC)、其他DNA元件如基因座控制区(LCR)、隔离子如cHS4或抗阻遏物元件例如稳定剂和抗阻遏物元件(STAR或UCOE元件)或者热点(突变)(Kwaks THJ and Otte AP)。
合成的,当用于述及MAR/MAR构建体时,指MAR的设计不仅仅涉及到已鉴定MAR或其所基于的MAR序列/区域或局部区域的简单重组、复制和/或缺失。特别地,合成MAR/MAR构建体通常包括已鉴定MAR的一个或多个优选一个区域,然而,在某些实施方式中,其可为合成的或修饰的以及特别设计、良好表征的元件,如单个或一系列TFBS,在一个优选实施方式中其通过合成而得到。在多种实施方式中,这些设计元件都相对较短,特别地,其通常不长于约300bp,优选不长于约100、约50、约40、约30、约20或约10bp。在某些实施方式中,这些元件可被多聚化(multimerized)。
根据本发明所述的非人类哺乳动物MAR是至少部分通过非人类哺乳动物生物的基因组或者部分基因组而确定的MAR/MAR序列。这包括例如通过分析啮齿动物类基因组例如但不限于小鼠基因组而鉴定的MAR/MAR序列。
根据本发明所述的载体是能够转运另一种已与其连接的核酸分子的核酸分子。例如,质粒是一种载体,逆转录病毒或慢病毒是另一种载体。
根据本发明所述的转染是将核酸导入受体真核细胞内,例如但不限于通过病毒载体或通过化学方法进行电穿孔、脂质转染。
本文中使用的转化指的是通过加入核酸而修饰真核细胞。例如转化细胞可包括例如通过电穿孔将DNA载体导入细胞内而用核酸转染该细胞。然而,在本发明的多种实施方式中,将本发明所述的增强MAR导入细胞内的方式,不限于任何特定的方法。
转录指从DNA模板合成RNA。
顺式指两个或多个元件(如染色质元件)在同一核酸分子例如但不限于在同一载体或染色体上排列。
反式指两个或多个元件(如染色质元件)在两个或多个核酸分子例如但不限于两个或多个载体或染色体上排列。
一个序列如果表现出顺式/反式定位的活性,则称其在例如基因上顺式和/或反式发挥作用。
根据本发明所述的窗口描述了在SMAR Scan过程中用于评估MAR的碱基对数量。该数量通常为约50bp、约100bp、约200bp、约300bp。然而,400、500、600或更多bp的窗口也在本发明的范围内。
如果与另一个核苷酸序列(或其互补链)具有最佳排列(具有恰当的核苷酸插入或缺失)时,在核苷酸碱基的至少约60%、通常至少约70%、更通常至少约80%、优选至少约90%、且更优选至少约95-98%存在核苷酸序列一致性,则核苷酸序列或其片段与另一序列具有大体一致性。
一致性指的是两个核苷酸序列之间的序列相关程度,如通过两串这种序列如全长且完整序列之间的匹配一致性所确定的。一致性可易于计算。尽管存在多种方法测定两个核苷酸序列之间的一致性,术语“一致性”是熟练技术人员所熟知的(ComputationalMolecular Biology,Lesk,A.M.,ed.,Oxford University Press,NewYork,1988;Biocomputing:Informatics and Genome Projects,Smith,D.W.,ed.,Academic Press,New York,1993;Computer Analysis ofSequence Data,Part I,Griffin,A.M.,and Griffin,H.G.,eds.,HumanaPress,New Jersey,1994;Sequence Analysis in Molecular Biology,vonHeinje,G.,Academic Press,1987;and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,M Stockton Press,New York,1991)。通常用来测定两个序列之间一致性的方法包括但不限于Guide to Huge Computers,Martin J.Bishop,ed.,Academic Press,SanDiego,1994,和Carillo,H.,and Lipman,D.,SIAM J Applied Math.48:1073(1988)中披露的那些方法。优选的测定一致性的方法经设计可给出两个待测序列之间的最大匹配。这些方法在计算机程序中进行编纂。优选用来测定两个序列之间一致性的计算机程序方法包括但不限于GCG(Genetics Computer Group,Madison Wis.)软件包(Devereux,J.,et al.,Nucleic Acids Research 12(1).387(1984)),BLASTP,BLASTN,FASTA(Altschul et al.(1990);Altschul et al.(1997))。人们熟知的Smith Waterman算法也可用来测定一致性。
例如,核酸所包含的核苷酸序列与参照核苷酸序列具有例如95%的“一致性”,意思为该核酸的核苷酸序列等同于参照序列,只是该核苷酸序列可包括每100个参照核苷酸序列的核苷酸有达5个点突变。也就是说,为了获得其核苷酸序列至少95%等同于参照核苷酸序列的核苷酸,该参照序列中核苷酸的达到5%可缺失或被另一核苷酸取代,或者占参照序列总体核苷酸达5%的核苷酸数量可插入该参照序列中。参照序列的这些突变可发生于该参照序列的5’或3’末端位置或者这些末端位置之间的任何位置,在该参照序列的核苷酸之间单个散开或者在参照序列内以一个或多个相邻基团而散开。
核苷酸序列的功能片段也是本发明的一部分。只要它们具有天然发生的对应序列的预期功能,特别是增加受其影响的基因的表达,则认为片段是功能性的。如果其缺失降低了MAR/区域增强转录的活性但未彻底将其灭活,则仍认为MAR/MAR区域的片段是功能片段。“完全功能片段”是这样一个片段,即当该片段(没有其他MAR序列)应用时,其中活性的任何降低,只要可观察到,均不能用统计学验证。此外,按照本文所提供的定义,与例如天然发生的MAR、已鉴定MAR、MAR区域或者这些中任何一种的片段具有大体一致性的功能片段也包括在本发明的范围之内。
在本文中将详细阐述的,在某些实施方式中,其模块或部分可被重组、复制和/或经受缺失。本领域熟练技术人员将认为,区域的这种重组和/或复制可形成例如新的酶切位点,其随后可形成如此所得构建体的新酶切方式,且可引起序列长度的调整。那些调整可影响但不限于1、2、3、4、5、6、7、8、9、10、10至15、15至20、20至25、25至30、30至35、35至40个核苷酸。这些调整以及其他修饰也在本发明的范围之内。该重排的MAR特别是重组和/或复制的MAR的序列,按照本文提供的定义与其各个元件(或者区域/模块)和/或片段具有大体一致性,也在本发明的范围之内。
MAR序列可从植物转移到哺乳动物细胞,反之亦然,且在异源宿主细胞内将保持核基质附着活性[Breyne P,Van Montagu M,Depicker A and Gheysen G,Mielke C,Kohwi Y,Kohwi-Shigematsu Tand Bode J]。考虑到MAR功能在所有高级真核生物中的这种保守性,人们将预期来自一个属的MAR序列在其所来源的属内与另一属内均可发挥作用。
然而,推断啮齿动物来源的MAR序列可以某种方式有利于生成重组蛋白质,可利用SMAR Scan I筛查整个小鼠基因组以鉴定MAR候选序列,如下文所述,SMAR Scan I是一种检测DNA序列结构特征(例如DNA弯曲)的计算机程序。
如下文将讨论的,意外地发现非人类特别是啮齿动物(这里是小鼠)MAR序列在例如CHO细胞以及人类细胞如HeLA细胞中的表达增强更加有效。甚至更意外的是,发现某些非人类MAR序列在非人类细胞例如CHO细胞以及人类细胞例如HeLa细胞中基本上均比人类MAR序列工作得更好。
已证实,新鉴定的小鼠源S/MAR DNA序列中有几种可增加转基因的表达,从而提供了证据即MAR Scan I(一种设计用于人类MAR序列并用其测试的程序)是一种用于鉴定来自例如除人类之外小鼠来源的大量基因组来源的S/MAR元件的有效工具。然而,重要的是,发现通过筛查啮齿动物(例如小鼠)基因组比筛查人类基因组可鉴定更加有效的MAR元件。特别地,本发明证实了来自小鼠基因组的高活性S/MAR元件可增加多种细胞特别是小鼠和人类细胞中重组蛋白质例如具有药学用途的重组蛋白质的生产。已证实小鼠S/MAR S4是新分离的小鼠MAR以及之前克隆的人类MAR中最有效的。因此本发明针对具有增强的蛋白质生成的非人类MAR和/或增强随时间蛋白质表达稳定的MAR。
SMAR Scan I是一种软件工具,其基于这些序列的结构和理化特征鉴定MAR候选序列。其他地方已经提供了对该方法的详细论述(Mermod et al的美国专利公开文件20070178469)。基本上“SMAR Scan”阐述的生物信息学工具,包括可识别图谱的算法,其可根据二核苷酸质量-基质来计算DNA构象和理化性质的理论值。优选地,SMAR Scan利用大小不同的扫描窗口以多种不同组合来评估对应于DNA弯曲、大沟深度和小沟宽度潜在可能性、解链温度的DNA序列特征。对于每一个特征,已经设定了截断值或阈值。每一次当给定区域计算出的分数高于设定的截断/阈值时,程序记录一次。
现在有两种数据输出模式可处理这些采样数,第一种(称“图谱样”)简单返回查询序列上的所有采样位置及对所选不同标准其相应的值。第二种(称“连续采样”)仅返回几个连续采样的位置及其对应序列。对于该模式,连续采样的最低数量是可设定的另一个截断/阈值且具有可调的窗口大小。为了调节用于例如四种理论结构标准的默认截断/阈值,可采用例如来自SMARt DB经实验验证的MAR。在该方式中,例如,来自数据库的全部人类MAR序列通过SMAR Scan利用“图谱样”模式进行检索分析,该模式具有4种标准,且未设定截断/阈值。这将允许设定每一个用于序列每个位置的函数。随后根据这些数据计算每种标准的分布(见Mermod etal的美国专利公开文件20070178469的图1和图3)。
尽管优选应用SMAR Scan技术用于MAR序列的鉴定,本领域的普通技术人员将认识到其他可用于鉴定选择性类似或甚至稍微更低的S/MAR模序的生物信息学工具也可用于本发明中。优选地,这些工具可设定,使得仅那些表现出这些高于某个值(即设定的阈值或截断值)的特征的MAR相关特征可得到或经设定可得到阳性采样。然而,许多用来鉴定MAR的生物信息学工具被设计用来鉴定基质结合活性。该活性并非必须与增加基因表达的能力相关[Phi-Van,L.& Stratling,W.H.]。
SMAR Scan I已被开发用来鉴定人类MAR,因此,其利用从已知人类MAR收集的结构数据而开发。一个人类经“调节”的SMAR Scan I程序用于本发明中评估小鼠基因组的MAR序列。然而,小鼠和人基因组碱基组成的差异妨碍应用具有的前定义设置(用来扫描人基因组)的SMAR Scan程序(Mermod et al的美国专利公开文件20070178469)。因此必须通过反复实验确定独特的窗口大小和结构参数阈值,直到该程序将能够鉴定易处理的候选小鼠MAR序列集合。测试时,发现那些序列中有几种是“超级MAR序列”,例如当置于含有编码各个蛋白质的基因的载体上并导入啮齿动物细胞系内时,这些MAR序列可使蛋白质生成的大大提高。
小鼠MAR S4和小鼠MAR S46是本发明范围内的啮齿动物MAR序列实例。这些MAR序列在所附的序列列表中以SEQ ID No.3和SEQ ID No.10示出。然而,本领域的普通技术人员将理解,碱基对插入、缺失、取代特别是本身可能包含碱基对插入、缺失或取代的这些以及其他非人类MAR片段只要其保持野生型序列的预期功能特别是增加受其影响的基因的表达,即属于发明的范围之内。例如,一个降低MAR序列的转录/基因表达增强活性但未彻底使其灭活的插入被认为基本未干扰MAR的预期功能,这里为促进基因表达。类似地,例如一个已鉴定MAR的片段相对于该已鉴定MAR具有的转录增强活性稍微降低但并未完全丢失转录增强活性,可认为其是功能片段。“完全功能片段”是这样的片段,即其中活性的任何降低,如果可观察到,也不能通过统计学而证实。如本文中其他部分详细描述的,与天然发生的MAR或其片段的核苷酸序列具有“大体一致性”的序列也包括在本发明的范围之内。
MAR的模块性
对已鉴定MAR进行分析,以确定其是否包含模块(或区域)特别是序列特异性模块,其可用于改造已鉴定MAR或生成合成的MAR,包括包含合成区域的MAR。实际上,可确定已鉴定MAR的几种序列特异性模块。意外地,发现某些模块或其部分的组合和/或全部或部分复制甚至缺失得到增强的MAR,如上文所述。人类1_68MAR和小鼠S4MAR将用作通过区域组合、缺失和/或复制而产生MAR构建体的模型。然而,正如本领域熟练技术人员所易于理解的,本发明是针对操作任何已鉴定MAR以及从其得到的MAR构建体。对于调节不同MAR包括不同来源的MAR可能必需的恰当调整,已为普通技术人员所掌握。实例包括但不限于真核生物优选哺乳动物,特别是诸如小鼠的模型生物,以及具有经济重要性的种属例如牛、猪、羊以及人类。
人类MAR的模块性
人类1_68MAR用作通过区域组合和/或复制而产生MAR构建体的模型。利用如下文所述确定的模块或其部分,可基于已鉴定MAR如人类1_68MAR产生MAR构建体。特别地,该MAR构建体利用区域(模块)或其部分的组合和/或复制而产生。
该1_68MAR的实例证明,一个已鉴定MAR的模块(本文中也称为区域或元件)就是允许对天然发生的MAR的能力实现基因表达的增强所必需的全部条件。已鉴定模块中没有一个能够独自获得MAR其自身的全部活性。意外的是,发现某些模块的组合以及全部或部分复制可引起基因表达的进一步增强。
已鉴定了几种非重复(non-redundant)的序列特异性模块(区域)。这些模块协同影响局部染色质结构。MAR的该构造有点类似于多细胞动物转录的控制:模块的不同组合,其从起始位点分散达几kb,共同控制转录起始位点。
已鉴定的序列特异性模块特别是(1)A和T含量高的区域如对称的富含A-T区(A和T交替)特别是“富含AT区”以及(2)富含结合位点特别是但不限于由富含A-T区隔开的TFBS的区域。
已有文献报道,A和T含量较高的弯曲DNA通常存在于启动子区、MAR和复制子中[Aladjem and Fanning 2004])。之前认为A和T含量高的序列(如上文所述的“对称”序列以及“非对称”序列,后者序列的一条链上主要是A,另一条链上主要是T)主要有利于双链体打开。然而,这些区域可能具有广泛的功能。例如,核纤层蛋白质B2复制区中A和T含量较高的序列结合复制起点识别复合体(ORC)[Abdurashidova,Danailov et al.2003;Stefanovic,Stanojcic et al.2003],并可促进Mcm4/6/7解螺旋酶的加载以及体外双链DNA的解链[You,Ishimi et al.2003]。还认为A和T含量较高的固有弯曲DNA具有构造作用。裂殖酵母ORC4的“AT钩状DNA结合基序”类似于高活动性蛋白质HMG-I/Y的那些序列,可能具有构造作用[Strick and Laemmli 1995;Bell 2002]。还可形成蛋白质介导的弯曲,类似于HMG-I/Y介导的促进V(D)J重组的DNA弯曲,以及真核生物中增强子和启动子处转录复合体的装配和稳定[Levine and Tjian 2003]。并非所有A和T含量高的区域均对应弯曲DNA。然而,那些弯曲DNA可作为“组蛋白质磁体”吸引组蛋白质,在该弯曲DNA正上方形成核小体,使邻近区域留出空间作为复制/转录前蛋白质的着陆区。
如上文所述,MAR还包括用于其他蛋白质的结合位点特别是在“富含结合位点区”或仅“结合位点区”(见上文(2))。那些其他蛋白质可包括但不限于DNA解旋元件结合蛋白质(DUE-B)以及转录因子例如Hox蛋白质、SATBI、CEBP等,如在1_68MAR中发生的。突变分析表明这些结合位点促进MAR的功能。
人类1_68MAR可通过反转其方向以及通过移去弯曲DNA以增大启动子区上游转录因子的结合位点区而得以改良。如在图9中可以看到的,大量这种重排MAR(例如构建体6)大大增强相对于无MAR构建体(10倍)甚至相对于包含天然发生的MAR构建体(构建体1和16;约2倍)的转录。所示出数据还强烈表明远端转录控制元件本身限制下游染色质中的转录起始。在天然发生的MAR中以正向阴影线框示出的位于该区域3’末端的223bp片段,相比构建体11,在构建体7中可保留该区域的全部活性。这表明,在这种情况下,该重要部分必须与该弯曲区域以及构建体6中该元件其余部分(核苷酸1-1425)的5’末端一起发挥作用。已发现两个HMG-I/Y位点位于该末端附近。构建体2示出,将两个已鉴定MAR序列连接在一起,也可增加表达。
小鼠MAR的模块性和长度减小
基于S4MAR(表3)构建了几种MAR,并对其加以表征(图10)。如在图10中可以看到的,内部缺失一个长于1600bp长的片段并未引起MAR活性的大幅度丢失(S4-1-703_2328-5457)。然而,缺失启动子附近795bp的片段,或用类似长度的荧光素酶基因片段取代该序列(S4_1-4661;S4_1-4661-Luc5489),则引起该活性的完全丢失。
非序列特异性模块:3’末端MAR序列的活性
对人类1_68MAR(图9)进行的实验已经证明了人类1_68MAR的3’端HoxF和SATBI结合位点区域的重要性。该区域的重要性进一步通过图10中示出的以小鼠MAR S4进行的实验证明。如图11中所示出的,为了进一步分析MAR S43’末端序列的活性,通过去除或复制此部分进一步分解MAR该部分。图11也示出了不同MAR S4衍生物对基因表达的影响。有趣的是,一种具有截短3’末端的这种衍生物(原始MAR S4的4658-5054vs.4658-5457),相比于更长的原始MAR S4序列,平均表现出轻微更高的转基因表达(104%vs 100%)。这表明可获得更加有效且更短的MAR元件衍生物。
因此,本发明包括长度大大短于其天然对应物且活性高的MAR构建体,因此其长度更方便用于例如载体设计和转移。
特别地,包括少于已鉴定MAR序列核苷酸数量约90%、优选少于约80%、甚至更优选少于约70%、少于约60%或少于约50%的MAR构建体属于本发明的范围之内。那些构建体优选包含已鉴定MAR的3’末端区域,甚至更优选已鉴定MAR/MAR序列3’末端区域的至少约5%、约6%、约7%、约8%、约9%或约10%。然而,包含已鉴定MAR的5’末端区域的MAR构建体也在本发明的范围之内。
合成的MAR
人类1_68MAR的重排证明,在某些实施方式中,一个位于已分离MAR正向阴影线部分3’末端富含Hox区域的223bp片段保留了全长区域的活性。这表明在本发明的某些实施方式中该部分可在与其他元件协同作用时比较重要。图12示出了MAR 1_68中一组可能的转录因子结合位点,如通过MATInspector软件预测的。C/EBP、NMP4、FAST1、SATB1和HoxF结合位点的位置作为实例示出,说明了其在5’(正向阴影线)侧翼序列中的富集。
发现富含AT的弯曲DNA区与人类MAR 1_68中转录因子结合位点之间可能的协同作用,促进了构建包含MAR 1-68中富含AT区(邻近一个或几个转录因子结合位点)的MAR/MAR构建体。图13描绘了用来测试合成MAR活性的质粒的图谱,该合成MAR从包括富含AT区以及位于该富含AT区每一个末端的已鉴定MAR的TFBS的核心(MAR 1429-2880)与转录因子的化学合成DNA结合位点(置于绿色荧光蛋白质(GFP)启动子上游)的组装而构建。图13特别示出了转录因子结合位点插入富含AT的结构域与促使GFP转基因表达的SV40启动子之间,模拟图9中存在的情形,其中,在最有用的情形(构建体6)中,包含结合位点的MAR部分插入启动子与弯曲DNA区之间。表4示出了所采用化学合成寡核苷酸的DNA序列。
从MAR 1-68序列(图12)中鉴定出了用于C/EBP、NMP4、FAST1、SATB1和HoxF(也称为Gsh)转录因子的结合位点。这些结合位点如其在MAR 1-68中存在的一样而应用,未作任何改变(FAST1、C/EBP、HOXF/Gsh),或者如果与共有(即正确的)序列(HoxF,SatB1,NMP4)相比其含有一个或两个错配,则加以校正。
如从图14可以看出的,添加该(这里是)合成的结合位点在几乎所有的情形中一些(在某些情形中)提供显著的转录增强,可与包括富含AT区的核心MAR序列相比拟。C/EBP和Hox或Gsh2是最有效的,然后是SatB1和Fast1,而NMP4位点则不具有可检测的效应。
图14示出了一个意外的结果,即插入核心序列(侧翼是富含AT区所基于的已鉴定MAR的结合位点),这里为基于MAR 1_68的MAR 1429-2880,未引起显著的表达增加,但另外包含一个或多个结合位点的MAR构建体,特别是当插入富含AT核心的下游但位于启动子上游时,则引起处于启动子控制之下基因的蛋白质表达/产量的显著增加(这里利用M3细胞的百分比而鉴定)。
尽管在优选的实施方式中,在富含AT核心的下游但位于启动子上游,还存在额外结合位点,但其他结构例如但不限于该核心的富含AT区上游、富含AT区内部、邻近富含AT区或者该基因下游的位点,也在本发明的范围之内。
在一个优选的实施方式中,蛋白质结合位点(合成的或分离的)的某些组合也在考虑之中,例如两种不同蛋白质结合位点的组合、3种不同蛋白质结合位点的组合、4、5、6、7、8、9、10或更多种蛋白质结合位点的组合。这些组合可全部或部分多聚化。在一个优选实施方式中,该组合包含Hox/Gsh和SATB1。在例如核心与适宜启动子之间插入这些组合或多聚化组合,相对于在其他同等条件下采用包含MAR构建体/MAR序列的载体时高表达克隆的形成,可使高表达子克隆形成增加约2倍或更多倍例如但不限于约3、4、5、6、7、8、9倍或更多倍,优选约10倍或更多倍,甚至更优选约11、12、13、14、15、16、17、18、19倍或更多倍或者约20或甚至约25倍或约30倍或更多倍。
简单而言,MAR构建体可从组成部件组装而成。这些组成部件可包括或基于已鉴定MAR或其部分的区域如特殊区域的序列、合成的组成部件(包括用来优化其功能的修饰)如一系列化学合成的转录因子结合位点(TFBS)、来自或基于非MAR序列的组成部件或者来自或基于不同种或属的MAR序列的组成部件。在一个优选实施方式中,这种MAR包括偶联于TFBS区的富含AT区或特殊的转录因子DNA结合位点组合,如表5中示出的那些组合。本领域中的熟练技术人员将理解,这些原则不限于本文披露的特殊序列或结合位点,并且其他衍生物、同系物或序列组合也在本发明的范围之内。
如上所述,本发明所述MAR构建体、表达系统和/或试剂盒可用于蛋白质生产。这里,可将MAR构建体包括入处于启动子控制之下已包含感兴趣蛋白质例如胰岛素的基因的载体中。将该载体导入细胞内并培养该细胞。随后将该过程按比例放大而用于胰岛素的大批量生产。高胰岛素生产例如比无MAR构建体时高3至5倍,可维持3周。
如上所述,本发明所述MAR构建体、表达系统和/或试剂盒可用于体外和/或体内基因治疗以及用于细胞和组织替代治疗,例如,在体外基因治疗中,可将MAR构建体包括入处于启动子控制下的已包含患者(需要体外基因治疗)缺乏的基因的载体中。随后,将MAR构建体导入细胞内例如患者的骨髓细胞。用MAR构建体转化后,将骨髓细胞导入患者体内,与无MAR构建体相比,感兴趣基因表达将高5倍的水平。这样,即可表达有效量蛋白质。
在体内基因治疗中,包含MAR构建体的载体可通过例如注射直接导入需要其的患者细胞内。
类似地,可将本发明的表达系统导入干细胞内用于组织再生的移植物,或者用于例如神经细胞疗法而治疗神经退行性疾病。可用于本发明该实例中的干细胞的非限制性实例,是从任何年龄个体的骨髓组织或新生儿脐带血中获得的造血干细胞(HSC)和间充质干细胞(MSC)。用根据本发明所述的表达系统转染干细胞,并将成功的转化体移植或重新导入需要细胞治疗或组织再生治疗的患者体内。现在存在几种方法用于获得转化的干细胞例如(Cell Line Solution V(VCA-1003)、amaxa GmbH,Germany)。
转基因动物,其可产生大量蛋白质包括结合人类抗原的抗体,可利用已知方法生成(例如但不限于Lonberg et al提交的美国专利号5,770,428、5,569,825、5,545,806、5,625,126、5,625,825、5,633,425、5,661,016和5,789,650)。该表达系统和MAR构建体可用于蛋白质生产中,通过例如转基因牛、绵羊、山羊或猪,通常通过将蛋白质分泌入体液(例如奶)中。参见例如Meade et al的美国专利号5,750,172。关于转基因动物的生成还可参见Lubon et al.的美国专利6,518,482。
实例
本发明将在下面的实例中进一步阐述,而该实例不限制权利要求、本发明发明内容或本文其他部分中列出的发明范围。该材料、方法和实例仅为了举例说明而非出于限制的目的。在本文提供的指导下,本领域中的普通技术人员能够进行修改、添加和改进,这些均在本发明的范围之内。
小鼠基因组的S/MAR预测:SMAR Scan I
通过SMAR Scan I汇集并分析对应于NCBI m34小鼠组件的全部小鼠染色体序列。低严谨性和高严谨性筛查分别利用DNA弯曲标准阈值3.6度和最低窗口大小300bp或者阈值4.2度和最低窗口大小100bp而实施。
通过SMAR Scan I低严谨性分析小鼠全基因组,共得到1496个公认的S/MAR(候选MAR),共占622,410bp(小鼠全基因组的0.024%)。表1示出了每一个染色体的大小、基因数量、所预测MAR的数量(候选MAR)、每个基因的MAR密度以及S/MAR之间的平均距离(kb)。该表表明,在不同染色体上,每一个预测S/MAR(候选MAR)存在各种的基因密度(标准差占每个MAR基因密度的约50%)。每个MAR较高与较低基因密度之间的倍数差是6,未考虑染色体Y,相对于其大小和其基因数量而言,染色体Y富含预测MAR(候选MAR),表明这些MAR的分布存在强烈且意外的偏差。表1还示出了S/MAR之间的平均距离(kb/S/MAR)是可变的(标准差占每个S/MAR kb的平均值的38%,且每个S/MAR较高与较低kb密度之间的倍数差是8.3)。染色体10、11、X和Y明显使这些密度的标准差升高。
最初,SMAR Scan I设计用于人类序列,因而当利用最严谨参数时从小鼠基因组序列得到少量MAR:因此,对于高严谨性筛查(DNA弯曲标准的阈值4.2度),将默认截断值调整至利用100bp而非300bp的窗口值时可认为MAR的最小连续采样数。利用大于4.2度的值的DNA弯曲标准,通过SMAR Scan I分析小鼠基因组预测出49个“超级”MAR。
表1:每一个小鼠染色体预测的S/MAR和“超级”S/MAR数量。
染色体 | 每个染色体的基因数量 | 染色体大小(百万bp) | 所预测的S/MAR数量 | 所预测的超级S/MAR数量 | 每个S/MAR的基因密度 | 每个S/MAR的Kb |
12345678910111213141516171819XY | 1′3671′6131′1191′4391′4231′3411′9941′1691′2931′1071′7628249789848777521′1035767871′18622 | 195183160155151150142128124130122118115119104989391611642 | 92818869947082107571674461578057696235274750 | 433237334513114101000 | 14.919.912.720.915.119.224.310.922.76.640.013.517.212.315.410.917.816.529.125.20.4 | 2′1202′2591′8182′2461′6062′1431′7321′1962′1757782′7731′9342′0181′4881′8251′4201′5002′6002′2593′48940 |
SumMeanSd | 23′7161′129430 | 2′60512443 | 1′4967130 | 4922 | 366178 | 39′4201′877716 |
每一个染色体的基因数量对应于NCBI m34组件(assembly)(国家生物技术信息中心)。染色体大小是相应小鼠参考序列重叠群长度的总和。
利用新鉴定小鼠MAR增加重组蛋白质的产量
从利用SMAR Scan高严谨性筛查小鼠全基因组得到的公认MAR(候选MAR)中选择5个MAR元件。将它们从小鼠基因组DNA细菌人工染色体(购自儿童医院Oakland研究所(CHORI,http://bacpac.chori.org/))克隆入质粒载体中。
这些新鉴定的小鼠MAR被命名为S4、S8、S15、S32和S46(按照利用SMAR Scan I鉴定的顺序,“超级”MAR S1至S49)。之前已经鉴定了人类MAR 1_3、1_6、1_9、1_42、1_68、3_S5和X_S29,MAR 1_68和X_S29是最有效的人类元件(Mermod et al..“Highefficiency gene transfer and expression in mammalian cells by amultiple transfection procedure of MAR sequences,”WO2005/040377,还可参见Mermod et al的美国专利公开文件20070178469)。将这些MAR插入pGEGFP对照载体促进绿色荧光蛋白质表达的SV40启动子和增强子上游,并将这些质粒转染入培养的CHO细胞中,如之前曾描述的[Girod PA,Zahn-Zabel M and Mermod N]。然后利用荧光细胞分选器(FACS)分析整个稳定转染的细胞群中该转基因的表达。图1示出了各种S/MAR对重组绿色荧光蛋白质(GFP)生成的影响。示出了用包含或不包含MAR的GFP表达载体pGEGFP转染的CHO细胞群(如通过荧光激活细胞分选器(所示))和典型的图谱。该图中仅示出了最有效的人类MAR 1_68和X_S29。图谱显示了作为GFP荧光水平的函数而计算的细胞数量。示出了代表相对光单位荧光值小于2(M1)或大于102(M2)或103(M3)的细胞亚群M1,M2和M3的水平棒。
如从图1可以看出的,与仅由GFP而无MAR促进的表达相比,所有新鉴定的小鼠MAR均显著增加转基因的表达,其中“超级”小鼠MAR S4是所有示出MAR中最有效的。
表2:具体分析来自多克隆CHO细胞群的GFP荧光
用抗生素选择质粒和pGEGFP报告基因构建体或包含人类MAR 1_68和X_S29或者所指出小鼠S4、S8、S15、S32或S46MAR的pGEGFP衍生物共同转染CHO细胞。在2周内选择稳定转染的多克隆细胞群的抗生素抗性,并通过FACS分析测试GFP荧光,如图1中示出的。该表格示出了平均荧光值、其变异系数以及表现出的荧光值相对光单位小于2(M1)或大于102(M2)或103(M3)的细胞百分位数。这些结果是平均值,且平均值的标准差(SEM)从3次独立实验获得。
将最有效的人类MAR 1_68和X_S29的转录活性与通过新鉴定小鼠MAR获得的转录活性加以比较。最初用GFP表达分析测试5种小鼠MAR,并发现其均增加GFP的表达至不同的水平。小鼠MAR S15和S32是转录活性相对最低的MAR(与仅GFP相比,增加2倍),S8和S46表现出中度活性(增加3至4倍),且MAR S4表现出极高的转录活性(增加7倍)。而且,小鼠MAR S4是该研究所测试全部MAR中最有效的。比较人类MAR 1-68与小鼠MARS4之间的转录活性,表明全种群(Gmean MO)和高GFP生成细胞(M2)的平均荧光增加50%,而利用小鼠MAR S4的极高GFP生成细胞(M3)的百分位数高出175%。就GFP荧光来说,全种群的均质性(CV M0)总比用小鼠MAR S4时低1%至2%,这是有利的,因为其表现出更高的细胞生产稳定性。
第一轮克隆后,需要确定高活性MAR元件是否可始终从小鼠基因组获得。因而,对另外两个小鼠MAR(S6和S10)进行克隆和表征。将这些新鉴定的小鼠MAR插入pGEGFP对照载体中,并如上文利用FACS进行分析。在用FACS分析的全部不同参数中,小鼠MAR S10也表现出比最好的人类MAR更有效,且几乎与MARS4具有一样的转录活性,以增加整体表达。
为了评价极高生成细胞,将M3细胞的百分比标准化为人类MAR 1_68得到的百分位数。结果在图2中给出。图2示出了各种人类和小鼠S/MAR元件对极高重组绿色荧光蛋白质(GFP)生成细胞百分位数(%M3)的影响。通过荧光激活的细胞分选器()对通过如所示出的包含或不包含MAR元件的GFP表达载体转染的CHO细胞群加以分析。将极高生成细胞的百分位数标准化为对于这个标准最好的人类MAR(MAR 1_68),将它的值设为100。
平均来说,小鼠MAR S10和S4分别比人类MAR 1_68多提供80%和180%的极高生成细胞。总体上,从7种小鼠MAR与7种人类MAR进行的比较,可以推断利用啮齿动物MAR可从CHO细胞获得较高的表达。
新鉴定的小鼠MAR在不同细胞类型中效果的评价
在CHO细胞中评价S4MAR的效应。此外,包含人类MAR1-68,小鼠MAR S4或不包含MAR的EGFP表达载体在人类HeLa细胞中稳定转染,并分析EGFP荧光。图3示出了各种人类1-68和小鼠S4 MAR元件对重组绿色荧光蛋白(GFP)表达的影响。HeLa细胞群如表2所述进行转染和分析。比较S4和1-68MAR在HeLa细胞中的效果,发现S4在几个方面胜过了1-68:S4产生更高的平均GFP荧光(平均Gmean M0)以及更多的中和高水平表达范围内的细胞(分别是M1和M2)和更低的表达变异(平均CV M0)。利用HeLa细胞未发现处于极高表达范围(M3)的细胞。
利用小鼠MAR增强单克隆抗体表达
为了确定小鼠MAR特别是最有效的MAR是否可用来增加药学应用的蛋白质生成,将其插入编码恒河猴-D识别的免疫球蛋白重链和轻链的pMZ37和pMZ59载体中[Miescher S,Zahn-Zabal M,DeJesus,M,Moudry,R,Fisch,I,Vogel,M,Kobr,M,Imboden,MA,Kragten,E,Bichler,J,Mermod,N,Stadler,BC,Amstutz,H.,Wurm,F]。将这些质粒转染入CHO细胞中,如前所述实施选择和免疫球蛋白分析[Girod PA,Zahn-Zabal M and Mermod N]。图4示出了S/MAR元件对重组单克隆抗体生成的影响。这里,CHO细胞用上述促进IgG重链和轻链表达的载体转染,其中该载体不包含MAR(没有MAR),或包含顺式加入的MAR S4。24、48和72小时后,测定上清中的IgG滴度。此外,如图5中所示,从用上文提到的促进IgG重链和轻链表达的载体转染的CHO细胞群中产生稳定克隆,其中该载体不包含MAR(没有MAR),或包含顺式加入的MAR S4。选择后,测定培养基中所分泌IgG的滴度,并利用细胞计数分析比生产率。图6(A)示出了通过限制性稀释从用促进IgG重链和轻链表达的载体转染的CHO细胞群产生稳定的单个克隆后获得的结果,其中该载体不包含MAR(没有MAR),或包含顺式加入的MARS4。选择后,测定培养基中的分泌IgG滴度,并利用细胞计数分析比生产率。通过MAR 1_68获得的相当结果以及(B)中通过不含MAR的克隆获得的结果也包括在内。图3至6获得并描述的结果表明,新鉴定的小鼠MAR特别是MAR S4可用来提高药用蛋白质如单克隆抗体在瞬时转染子(图4)和稳定转染子(图5和6)中的产量。当利用MAR S4时,比生产率为约5pg/细胞/天(pcd)或以上的稳定克隆可易于通过分析几个候选克隆而鉴定(图6(A))。实际上,有或无MAR S4的情况下,21个最佳克隆的平均生产率分别为7.28±0.78pcd(图6(A))和2.61±1.09pcd。这些结果与通过已知鸡溶菌酶MAR(低于1.5mg/L)或无MAR时(低于0.5mg/L)获得的滴度水平形成对比。特别地,这些结果表明,新鉴定小鼠MAR可用来提高药用蛋白质例如但不限于单克隆抗体的产量,使得小鼠MAR如MAR S4对于重组蛋白质的生成特别有利。
利用人类MAR 1_68的表达稳定性
利用MAR 1_68证实,由不包含MAR的克隆产生的基因表达被逐步沉默,而包含MAR的等效克隆,不仅随时间保持高水平表达,且沉默细胞也恢复了表达。
图7示出了将包含MAR 1-68的pEGFP表达质粒与G418抗生素抗性基因共转染入CHO细胞内,且在G418存在时,选择稳定表达的细胞达3周,如Girod et al.,2005中所述。通过限制性稀释获得细胞克隆,并分析9个独立克隆的GFP荧光。两个种群中的每一个选择表达GFP的典型克隆用于进一步分析,并在抗生素选择存在或不存在的情况下继续培养达26周。左侧图谱表示培养2周后的GFP荧光水平(x轴)和细胞计数的值(Y轴),而右侧图谱则从培养26周的细胞而获得。如可以看出的,缺乏MAR的克隆示出了在不存在抗生素的情况下,相对于2周后水平,26周后的GFP荧光水平有所降低,而包含MAR的克隆可在抗生素选择存在与否的情况下,保持26周时的GFP荧光水平,使得包含表达系统的MAR对于感兴趣基因的稳定表达非常有用。
MAR的模块性以及基因表达增强的相关性
MAR的结构分析揭示了每一个促进基因表达增强的DNA序列区/模块。图8描绘了通过1_68MAR结构分析获得的结果。在图8(A)中表明,中心富含AT区描绘了MAR 1_68基因座中的弯曲DNA。图8(B)表明,该富含AT区由富含转录因子结合位点的区域包围,如利用MatInspector鉴定的(Cartharius,Frech et al.2005)。利用MatInspector沿着MAR序列检测到精确的729个潜在的TFBS。图8(B)的下面部分示出了已鉴定区域的性质。
图9(A)示出了1_68MAR以及左侧的不同MAR,其整合了1_68MAR区域或部分且改变了该区域或其部分的顺序和/或方向以及/或者复制这些区域或它们的部分。右侧示出了由构建体1至16获得的转录增强程度以及由1_68MAR或无MAR时获得的转录增强。所示出的全部MAR序列均插入驱动eGFP基因标志物的启动子上游。箭头描绘了该区域或其部分相对于图8中所述野生型MAR序列的方向。富含AT区域周围的序列以带箭头(向左)的反向阴影线框和以带箭头(不成比例;向右)的正向阴影线框表示。弯曲区域以画有阴影交叉线的框示出。
图9(B)示出了MAR的弯曲模式,其对应于图9A中的构建体6。这些弯曲模式通过SMARScan I而确定。
图9(C)示出了MatInspector[Cartharius,Frech et al.2005]分析的结果。利用MatInspector[Cartharius,Frech et al.2005]鉴定潜在的转录因子结合位点(TFBS)。利用MatInspector沿着MAR序列检测到731个潜在的TFBS。在图9(C)的下部,利用对应于图8(B)和图9(A)的编码示出构建体6。该图下部的编码对应图9(A)中示出并讨论的编码。
图9中描述的实验表明该区域中没有一个可独立显示完全的MAR活性。例如,将来自天然发生的人类1_68MAR的DNA完全地增强转录需要3个独特序列(图8):一个1189bp的节段,其包含用于多个转录因子的结合位点(即CEBP)(图9A顶部),以带箭头的反向阴影线框示出,一个固有的弯曲DNA,其由一个763bp的对称富含AT区(A和T交替)描述(图9A顶部,画有阴影交叉线的框)以及额外的1648bp的节段,其包括多个HoxF和SATBI结合位点(图9A顶部,以带箭头的正向阴影线框示出)。
图9表明,通过移去该弯曲DNA以增加启动子区域上游转录因子结合位点区域的尺寸,可改善人类1_68MAR。为了实现该增加,将邻近富含AT区(SEQ ID.No.18)的转录因子结合位点(TFBS)区,这里是富含Hox的区域(SEQ ID No.19)(下文为带箭头的正向阴影线框)连接于富含CEBP的区域(SEQ ID No.17)(下文也为带箭头的反向阴影线框(图9))。比较如图9A中右侧描绘的所得不同MAR构建体的转录增强活性,表明带箭头的正向阴影线框的方向对于转录增强比较重要(比较构建体5和6)。所示出数据还强烈表明,远端转录控制元件本身限制下游染色质的转录起始。如果位于带箭头的正向阴影线框的3’末端的223bp片段(SEQ IDNO.20)保留构建体7中区域的全部活性,提示在该情形中,该重要部分必须与弯曲区域及构建体6中元件剩余部分(核苷酸1-1425)的5’末端协同作用。发现两个HMG-I/Y位点定位于该末端。
小鼠MAR的模块性和长度减少
根据人类1_68MAR的观察结果,也分析了S4MAR的模块特别是那些成就其转录活性的模块。实施该分析的目的是降低S4MAR的长度,而S4MAR相对较长。因而,从S4MAR构建了几种MAR(表3)并对其进行表征(图10)。图10左侧示出了特殊的MAR S4构建体,且右侧示出了各种MAR S4对重组绿色荧光蛋白(GFP)表达的影响,如通过分析全种群的平均荧光而揭示的(Avg GmeanM0)。转染了包含或不包含如所示出MAR构建体的GFP表达载体的CHO细胞群,通过利用FACScalibur细胞计数器(BectonDickinson)的流式细胞计数术加以分析。通过人类MAR 1_68获得的荧光(其值设为100)对全种群的平均荧光进行标准化,而GFP表示不存在MAR时的表达。其他MAR构建体按照其相对全长1547bp S4MAR的碱基含量而命名(见表3)。斑点框表示MAR S4中富含AT的弯曲区域,S_41-4662-Luc5489表示一个构建体,其中末端(3’)795个碱基对被去除并用荧光素酶基因的一部分(黑框)取代。有趣地是,从图10中可以看到的,发现1624-bpEcoRI片段可从S4MAR(S4-1-703_2328-5457)中缺失而未显著丢失其MAR活性。然而,缺失启动子近端795bp片段或用类似长度的荧光素酶基因片段取代该序列(S4_1-4661;S4_1-4661-Luc5489),则引起该活性的彻底丢失。这表明小鼠S4MAR的某些变异体可表现出高活性,虽然长度更短,从而使得其更方便用于例如载体设计和转移。
表3:pGEGFP载体中的MAR S4构建体
S4构建体 | 描述 |
S4(SEQ ID No.3) | 来自杆粒RP23-444A8的5457bp AvaI插入片段 |
S4_1-703_2328-5457(SEQ ID No.4) | 内部缺失1624-bp EcoRI片段 |
S4_1-2395_4121-5457(SEQ ID No.5) | 内部缺失1724-bp HindIII片段 |
S4_1-4661(SEQ IDNo.8) | 内部缺失795-bp BglII片段,载体的MCS中存在BglII位点 |
S4_1-4661-Luc5489 | S4_1-4661构建体,含有来自luc基因用BglII消化的828-bp PCR产物 |
S4_4662-5457(SEQID No.9) | 795-bp BglII片段,载体的MCS中存在BglII位点 |
S4_2328-4661(SEQID No.7) | S4的2333-bp EcoRI-BglII片段 |
S4_2328-5457(SEQID No.6) | S4的3129-bp EcoRI-AvaI片段 |
3’末端MAR序列的活性
为了进一步分析MAR S43’末端序列的活性,通过去除或复制其部分进一步分解MAR该部分。图11也示出了各种MAR S4衍生物对重组绿色荧光蛋白质(GFP)表达的影响,如通过分析全种群平均荧光(Avg Gmean M0)所揭示的。CHO细胞群如上所述生成并测定。有趣的是,一种具有截短3’末端的这种衍生物(原始MAR S4的4658-5054 vs.4658-5457),相比于更长的原始MARS4序列,平均表现出轻微更高的转基因表达(104%vs 100%)。这表明,可获得更加有效且更短的MAR元件衍生物。
合成的MAR
图12示出了[1_68MAR的]潜在的转录因子结合位点图谱,如通过MATInspector软件预测的。C/EBP、NMP4、FAST1、SATB1和HoxF(也称Gsh)结合位点的位置作为实例示出,说明了其在5’正向阴影线侧翼序列中的富集。这些结合位点如其在MAR 1-68中发生的一样而应用,未作任何改变(FAST1、C/EBP、HOXF/Gsh),或者如果与共有(即正确的)序列(HoxF、SatB1、NMP4)相比其含有一个或两个错配,则加以校正。
发现富含AT的弯曲DNA区与人类MAR 1_68中转录因子结合位点之间可能的协同作用,促进了构建包含MAR 1-68中富含AT区(邻近一个或几个转录因子结合位点)的合成MAR。图13描绘了用来测试合成MAR活性的质粒的图谱,该合成MAR从包括富含AT区的核心(MAR 1429-2880)与转录因子的化学合成DNA结合位点(置于启动子和绿色荧光蛋白(GFP)上游)的组装而构建。图13示出了转录因子结合位点插入富含AT的核心与促进GFP转基因表达的SV40启动子之间,模拟图9中存在的情形,其中,在最有用的情形中,包含结合位点的MAR部分插入启动子与弯曲DNA区之间。表4示出了所采用化学合成寡核苷酸的DNA序列。
表4.来自人类MAR 1_68的公认转录因子结合位点
将具有粘性末端的成对30-mer寡聚体克隆入包含MAR 1_68中富含AT的核心区的载体中。斜体碱基对是转录因子结合位点(下划线是最保守的碱基)的序列及来自MAR 1_68的侧翼序列。常规字体的序列是不与MAR 1_68序列对应的接头或适配子序列。在这些接头序列上,修改来自MAR 1_68且含有1个或2个错配的寡聚体,使其与通用序列匹配。
图14示出了通过如图13中所述合成MAR构建体的转录增强。除核心外,所插入元件还包含1个或几个蛋白质DNA结合位点,如所示出的。转染除核心序列(包括富含AT区,即富含AT核心)外还包含1个或几个结合位点的质粒,表明相比于仅富含AT核心,包含结合位点促进转录增强,且C/EBP和Hox或Gsh2是最有效的,然后是SatB1和Fast1,而NMP4位点则不具有可检测的效果。
还测试了有效结合位点的不同混合物以确定能否观察到协同效应。为此,将包含不同转录因子结合位点的寡核苷酸的各种组合混合于DNA连接反应中,并通过DNA测序来确定结合位点的精确顺序和排列。表5中示出了所得到的组合。
克隆号 转录因子位点 位点总数
1 Gsh,2(SATB1) 3
2 SATB1,Hox 2
3 SATB1,Fast1 2
4 2(Hox),SATB1,Hox 4
6 Gsh,2(SATB1),CEBP,Hox 5
7 2(Fast1),2(Gsh),SATB1 5
8 Hox,SATB1,Hox,Gsh,SATB1,Hox 6
9 Gsh,2(Fast1) 3
10 3(CEBP),SATB1,Hox,Fast1 6
11 Hox,Fast,Hox,Fast 4
12 Hox,SATB1,Hox,Gsh,Hox,Hox 6
13 2(Hox),3(SATB1),Fast,CEBP,Hox,CEBP 9
14 Gsh,Gsh 2
15 CEBP,Hox,Hox 3
表5包含各种转录因子结合位点异源多聚体的合成MAR构建体如上文,通过转染测试得到的质粒。图15示出了利用表5中示出的DNA结合位点组合构建的合成MAR引起的转录增强。最有效的组合用星号表示,并指出了HoxF/Gsh2或SatB1的存在。图15中示出的结果表明,在该情形中,合成MAR的活性不依赖于所插入结合位点的数量,但结合位点的特殊组合表现出高促进活性,而其他组合则缺乏活性或甚至抑制基因表达。该情形中,具有较高活性的构建体包括Hox/Gsh2与SATB1蛋白质的组合,且最有效的构建体则仅由这些元件组成。与缺乏任何MAR序列的pEGFP对照载体相比,插入该合成MAR增加了高表达克隆的形成约10倍。
参考文献
Abdurashidova G,Danailov B,et al.,″Localization of proteins bound toa replication origin of human DNA along the cell cycle.″EMBO J_22:4294 4303,2003.
Aladjem,MI and Fanning E.,″The replicon revisited:an old modellearns new tricks in metazoan chromosomes.″EMBO Rep 5(7):686-91,2004.
Allen GC,Spiker S,Thompson WF,Use of matrix attachment regions(MARs)to minimize transgene silencing,Plant Mol Biol.,43(2-3):361-376,2000.
Amati B and Gasser SM,Chromosomal ARS and CEN elements bindspecifically to the yeast nuclear scaffold,Cell,54:967-978,1988.Amati B and Gasser SM,Drosophilia scaffold-attached regions bindnuclear scaffolds and can function as ARS elements in both buddingand fission yeasts,Mol.Cell.Biol.,10:5442-5454,1990.
Bell SP,″The origin recognition complex:from simple origins tocomplex functions.″Genes Dev 16:659 672,2002.
Bode J,Schlake T,Rios-Ramirez M,Mielke C,Stengart M,Kay V andKlehrWirth D,Scaffold/matrix-attached regions:structural propertiescreating transcriptionally active loci,Structural and FunctionalOrganization of the Nuclear Matrix:International Review of Cytology,162A:389-453,1995.
Bode J,Benham C,Knopp A and Mielke C,Transcriptionalaugmentation:modulation of gene expression byscaffold/matrix-attached regions(S/MAR elements),Crit RevEukaryot Gene Expr,10(1):73-90,2000.
Bode J,Stengert-Iber M,Kay V,Schlake T and Dietz-Pfeilstetter A,Scaffold/matrix-attached regions:topological switches with multipleregulatory functions,Crit.Rev.Euk.Gene Exp.,6:115-138,1996.
Bodnar JW,A domain model for eukaryotic DNA organization:amolecular basis for cell differentiation and chromosome evolution,J.Ther.Biol.,Vol.132:479-507,1988.
Boulikas T,Nature of DNA sequences at the attachment regions ofgenes to the nuclear matrix,J.Cell Biochem.,52:14-22,1993.
Boulikas T,Chromatin domains and prediction of MAR sequences.InStructural and Functional Organization of the Nuclear Matrix:International Review of Cytology,Academic Press,Orlando,162A:279-388,1995.
Breyene P,Van Montagu M and Gheyseu G,The role of scaffoldattachment regions in the structural and functional organization of plantchromatin,Transgenic Res.,Transgenic Res.,3:195-202,1994.
Breyne P,Van Montagu M,Depicker A and Gheysen G,Characterization of a plant scaffold attachment region in a DNAfragment that normalizes transgene expression in tobacco,Plant Cell,4:463-471,1992.
Cartharius,K.,K.Frech,et al.,MatInspector and beyond:promoteranalysis based on transcription factor binding sites,Bioinformatics 21:2933-42,2005.
Gasser SM and Laemmli UK,Cohabitation of scaffold binding regionswith upstream/enhancer elements of three developmentally regulatedgenes of D.Melanogaster,Cell,46:521-530,1986.
Girod PA,Zahn-Zabal M and Mermod N,Use of the chicken lysozyme5′matrix attachment region to generate high producer CHO cell lines,Biotechnol.Bioeng.,91(1):1-11,2005.
Kas E and Chaslin LA,Anchorage of the Chinese hamsterdihydrofolate reductase gene to the nuclear scaffold occurs in anintragenic region,J.Mol.Biol.,198:677-692,1987.
Kay V and Bode J,Detection of scaffold-attached regions(SARs)byin vitro techniques;activities of these elements in vivo.In Methods inMolecular and Cellular Biology:Methods for studying DNA proteininteractions:an overview,WileyLiss,NewYork,5:186-194,1995.
Kim JM,Kim JS,Park DH,Kang HS,Yoon J,Baek K and Yoon Y,Improved recombinant gene expression in CHO cells using matrixattachment regions,J.Biotechnol.,107(2):95-105,2004.
Kwaks TH,Otte AP,Employing epigenetics to augment the expressionof therapeutic proteins in mammalian cells.Trends Biotechnol.24:13742,2006.
Labrador,M.and V.G.Corces,Setting the boundaries of chromatindomains and nuclear organization,Cell 111:151-54,2002.
Levine,M.and R.Tjian,Transcriptional regulation and animal diversity,Nature 424:147-151,2003.
Mielke C,Kohwi Y,KohwiShigematsu T and Bode J,Hierarchicalbinding of DNA fragments derived from scaffold-attached regions:correlation of properties in vitro and function in vivo,Biochemistry,29:7475-7485,1990.
Miescher S,Zahn-Zabal M,De Jesus M,Moudry R,Fisch I,Vogel M,Kobr M,Imboden MA,Kragten E,Bichler J,Mermod N,Stadler BC,Amstutz H,Wurm F,CHO,Expression of a Novel Human Recombinant IgG1 anti-Rh D Antibody Isolated by Phage Display,BritJ.Haematol.,111,157-166,2000.
National Center for Biotechnology Information(http://www.ncbi.nih.gov).
PhiVan L and Stratling WH,Dissection of the ability of the chickenlysozyme gene 5’matrix attachment region to stimulate transgeneexpression and to dampen position effects,Biochemistry,35:10735-10742,1996.
Razin SV,Functional architecture of chromosomal DNA domains,CritRev EukaryotGene Expr,6:247-269,1996.
Stefanovic D,Stanoj cic S et al.,In vitro protein DNA interactions atthe human lamin B2 replication origin,J Biol Chem 278:4273742743,2003.
Strick R and Laemmli UK,SARs are cis DNA elements of chromosomedynamics:synthesis of a SAR repressor protein,Cell 83(7):1137-48,2005.
Vogelstein B,Pardoll D and Coffey D,Supercoiled loops andeukaryotic DNA replication,Cell,22:79-85,1980.
You Z,Ishimi Y,et al.,Thymine-rich single-stranded DNA activatesMcm4/6/7 helicase on Y-fork and bubble-like substrates,EMBO J 22:6148 6160(2003).
Zahn-Zabal M,Kobr M,Girod PA,Imhof M,Chatellard P,de Jesus M,Wurm F and Mermod N,Development of stable cell lines forproduction or regulated expression using matrix attachment regions.JBiotechnol,87(1):29-42,2001.
序列表
<110>思兰克斯有限公司(Selexis S.A.)
<120>用于增加转录的基质附着区(MAR)及其应用
<130>P23763RWS-2
<140>PCT/IB2007/002404
<150>US60823319
<151>2006-08-23
<150>US60953910
<151>2007-08-03
<160>20
<170>PatentIn version 3.3
<210>1
<211>3606
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68序列
<220>
<221>misc_feature
<222>(1)..(5)
<223>XbaI片段的第一部分
<220>
<221>misc_feature
<222>(3606)..(3606)
<223>XbaI片段的第二部分
<400>1
ctagattata ccaacctcat aaaataagag catatataaa agcaaatgct cttatcttgc 60
agatccctga actgaggagg caagatcagt ttggcagttg aagcagctgg aatctgcaat 120
tcagagaatc taagaaaaga caaccctgaa gagagagacc cagaaaccta gcaggagttt 180
ctccaaacat tcaaggctga gggataaatg ttacatgcac agggtgagcc tccagaggct 240
tgtccattag caactgctac agtttcatta tctcagggat cacagattgt gctacctatt 300
gcctaccatc tgaaaacagt tgcttcctat atttcatcca gtttaatatt tatttaaacc 360
aagaaggtta atctggcacc agctattccg ttgtgagtgg atgtgaaagt accaattcca 420
ttctgtttta ctattaacta tcctttgcct taatatgtat cagtaggtgg cttgttgcta 480
ggaaatatta aatgaatggc atgtttcata ggttgtgttt aaagttgttt tttgagttaa 540
atctttcttt aataatactt tctgatgtca aaaacactta gaagtcatgg tgttgaacat 600
ctatataggg ttggatctaa aatagcttct taacctttcc taaccactgt ttttgtttgt 660
ttgtttttaa ctaagcatcc agtttgggaa attctgaatt aggggaatca taaaaggttt 720
cattttagct gggccacata aggaaagtaa gatatcaaat tgtaaaaatc gttaagaact 780
tctatcccat ctgaagtgtg ggttaggtgc ctcttctctg tgctccctta acatcctatt 840
ttatctgtat atatatatat tcttccaaat atccatgcat gggaaaaaaa atctgatcat 900
aaaaatattt taggctggga gtggtggctc acgcctgtaa tcccagcact ttgggaggct 960
gaggtgggcg gatcatgagg tcaagagatc gagaccatcc tgaccaatat ggtgaaaccc 1020
catctctact aaagatacaa aactattagc tggacgtggt ggcacgtgcc tgtagtccca 1080
gctactcggg aggctgaggc aggagaacgg cttgaaccca ggaggtggag gttgcagtga 1140
gctgagatcg cgccactgca ctccagcctg ggcgacagag cgagactctg tctcaaaaaa 1200
aaaatatata tatatatata tatacacata tatatataaa atatatatat atacacacat 1260
atatatataa aatatatata tatacacaca tatatataaa atatatatat atacacacat 1320
atatataaaa tatatatata cacacatata tataaaatat atatatacac acatatatat 1380
aaaatatata tatacacaca tatatataaa atatatatat acacacatat atataaaata 1440
tatatataca cacatatata taaaatatat atatacacac atatatataa aatatatata 1500
tacacacata tatataaaat atatatatac acacatatat ataaaatata tatatacaca 1560
catatatata aaatatatat atacacacat atataaaata tatatataca cacatatata 1620
aaatatatat atacacatat atataaaata tatatataca catatatata aaatatatat 1680
acacacatat atataaaata tatatataca cacatatata taaaatatat atatacacat 1740
atatataaaa tatatatata cacatatata taaaatatat atatatacac atatatataa 1800
aatatatata cacacatata tataaagtat atatatacac acatatatat aaaatatata 1860
tatacacata tatataaaat atatatatac acatatatat aaaatatata tatacacata 1920
tatataaaaa tatatatata tattttttaa aatattccaa ttgtctcact ttgtggatga 1980
gaaaaagaag tagttagagg tcaagtaact tggcctacat cttttctcaa gattgtaaac 2040
tcctagtgag caataaccac atcttcattt tctttgtata aaacaagaaa gtttagcatg 2100
aaaaaggtac tcaattacaa atgtgttgga ttgaattgaa gacccttgga aggggatttt 2160
gtacctgagg atctctttct tttggccata ttgttcaatg gacaaaattt agccttcgaa 2220
ggcaggccga tttgaggtta atactacctt taccacttga tagctatgtg accttggcca 2280
tgtggtttca acagtctgaa cctcattttc tctgtgtatg tgtggtcctc cttacaagtt 2340
tgtgaaaaat gtgaagtcct tagccatgat agcccaatat aacaggctaa atgataatag 2400
gtttatgttc ttttccttta tattctcaga taagcactgt ccaagtttga ggtgttttga 2460
ggtctcgcct gatttggatt gtttgagttt atgctattct ttgaattctt tgagctgttc 2520
tgaagcagtg tatcatgaac aaaaacatcc ccagttcagt ccaaacccct ggttacatat 2580
cattcttatg ccatgttata accagtttga gagtgttccc tctgttattg catttaagtt 2640
tcagcctcac acagaaattc agcagccaat ttctaagccc taagcataaa atctggggtg 2700
gggggggggg atggcctgaa gagcagcatt atgaatagca ccattataat taatgatctc 2760
tcaggaagat ttacaatcac aggtagcaga taaaacaaat agtactgctt ctgcacttcc 2820
cctcctttta ttcgctatga aattttatgg gaaatcagtc cagtgaaaaa tgtaagctct 2880
taatctttcc cagaaatcct acctcatttg atgaatactt tgagggaatg aattagagca 2940
tttttttctt ttatagtcta cttcgcattt acgaagtgag gacggtagct taggctgcct 3000
ggccaactga tgagaaggtc agaggcattt ttagagacct ctgttgtctt tcattcatgt 3060
tcattttcca caaggcaagt aatttccaac aaatcagtgt cttcattagt aataagatta 3120
ttaacaacaa taatagtcat agtaactatt cagtgagagt ccattatata tcaggcattc 3180
tacaaggtac tttatataca tctgagtaaa cctcacacaa ttctacaggg aggtatttct 3240
atccccattt aacaaataag gaaacgaagt ccaagtaaat taacttgccc aaggtcacac 3300
agatagtacc tggcagaaca ggaatttaaa cctaaatttg tccaactcca aaagcagcct 3360
tctatttgtt ataaatgctg cctctcatta tcacatattt tattattaac aacaacaaac 3420
ataccaatta gcttaagata caatacaacc agataatcat gatgacaaca gtaattgtta 3480
tactattata ataaaataga tgttttgtat gttactataa tcttgaattt gaatagaaat 3540
ttgcatttct gaaagcatgt tcctgtcatc taatatgatt ctgtatctat taaaatagta 3600
ctacat 3606
<210>2
<211>3638
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68构建体
<220>
<221>misc_feature
<222>(1)..(5)
<223>Asp718-SmaI片段的第一部分
<220>
<221>misc_feature
<222>(6)..(11)
<223>添加的核苷酸
<220>
<221>misc_feature
<222>(3631)..(3635)
<223>添加的核苷酸
<220>
<221>misc_feature
<222>(3636)..(3638)
<223>Asp718-SmaI片段的第二部分
<400>2
gtacccccaa aagaaagaga tcctcaggta caaaatcccc ttccaagggt cttcaattca 60
atccaacaca tttgtaattg agtacctttt tcatgctaaa ctttcttgtt ttatacaaag 120
aaaatgaaga tgtggttatt gctcactagg agtttacaat cttgagaaaa gatgtaggcc 180
aagttacttg acctctaact acttcttttt ctcatccaca aagtgagaca attggaatat 240
tttaaaaaat atatatatat atttttatat atatgtgtat atatatattt tatatatatg 300
tgtatatata tattttatat atatgtgtat atatatattt tatatatatg tgtgtatata 360
tatactttat atatatgtgt gtatatatat tttatatata tgtgtatata tatatatttt 420
atatatatgt gtatatatat attttatata tatgtgtata tatatatttt atatatatgt 480
gtgtatatat atattttata tatatgtgtg tatatatatt ttatatatat gtgtatatat 540
atattttata tatatgtgta tatatatatt ttatatatgt gtgtatatat atattttata 600
tatgtgtgta tatatatatt ttatatatat gtgtgtatat atatatttta tatatatgtg 660
tgtatatata tattttatat atatgtgtgt atatatatat tttatatata tgtgtgtata 720
tatatatttt atatatatgt gtgtatatat atattttata tatatgtgtg tatatatata 780
ttttatatat atgtgtgtat atatatattt tatatatatg tgtgtatata tatattttat 840
atatatgtgt gtatatatat attttatata tatgtgtgta tatatatata ttttatatat 900
atgtgtgtat atatatatat tttatatata tatgtgtgta tatatatata ttttatatat 960
atatgtgtat atatatatat atatatattt tttttttgag acagagtctc gctctgtcgc 1020
ccaggctgga gtgcagtggc gcgatctcag ctcactgcaa cctccacctc ctgggttcaa 1080
gccgttctcc tgcctcagcc tcccgagtag ctgggactac aggcacgtgc caccacgtcc 1140
agctaatagt tttgtatctt tagtagagat ggggtttcac catattggtc aggatggtct 1200
cgatctcttg acctcatgat ccgcccacct cagcctccca aagtgctggg attacaggcg 1260
tgagccacca ctcccagcct aaaatatttt tatgatcaga ttttttttcc catgcatgga 1320
tatttggaag aatatatata tatacagata aaataggatg ttaagggagc acagagaaga 1380
ggcacctaac ccacacttca gatgggatag aagttcttaa cgatttttac aatttgatat 1440
cttactttcc ttatgtggcc cagctaaaat gaaacctttt atgattcccc taattcagaa 1500
tttcccaaac tggatgctta gttaaaaaca aacaaacaaa aacagtggtt aggaaaggtt 1560
aagaagctat tttagatcca accctatata gatgttcaac accatgactt ctaagtgttt 1620
ttgacatcag aaagtattat taaagaaaga tttaactcaa aaaacaactt taaacacaac 1680
ctatgaaaca tgccattcat ttaatatttc ctagcaacaa gccacctact gatacatatt 1740
aaggcaaagg atagttaata gtaaaacaga atggaattgg tactttcaca tccactcaca 1800
acggaatagc tggtgccaga ttaaccttct tggtttaaat aaatattaaa ctggatgaaa 1860
tataggaagc aactgttttc agatggtagg caataggtag cacaatctgt gatccctgag 1920
ataatgaaac tgtagcagtt gctaatggac aagcctctgg aggctcaccc tgtgcatgta 1980
acatttatcc ctcagccttg aatgtttgga gaaactcctg ctaggtttct gggtctctct 2040
cttcagggtt gtcttttctt agattctctg aattgcagat tccagctgct tcaactgcca 2100
aactgatctt gcctcctcag ttcagggatc tgcaagataa gagcatttgc ttttatatat 2160
gctcttattt tatgaggttg gtataatcta gctagagtcg agatctttgg ccatattgtt 2220
caatggacaa aatttagcct tcgaaggcag gccgatttga ggttaatact acctttacca 2280
cttgatagct atgtgacctt ggccatgtgg tttcaacagt ctgaacctca ttttctctgt 2340
gtatgtgtgg tcctccttac aagtttgtga aaaatgtgaa gtccttagcc atgatagccc 2400
aatataacag gctaaatgat aataggttta tgttcttttc ctttatattc tcagataagc 2460
actgtccaag tttgaggtgt tttgaggtct cgcctgattt ggattgtttg agtttatgct 2520
attctttgaa ttctttgagc tgttctgaag cagtgtatca tgaacaaaaa catccccagt 2580
tcagtccaaa cccctggtta catatcattc ttatgccatg ttataaccag tttgagagtg 2640
ttccctctgt tattgcattt aagtttcagc ctcacacaga aattcagcag ccaatttcta 2700
agccctaagc ataaaatctg gggtgggggg gggggatggc ctgaagagca gcattatgaa 2760
tagcaccatt ataattaatg atctctcagg aagatttaca atcacaggta gcagataaaa 2820
caaatagtac tgcttctgca cttcccctcc ttttattcgc tatgaaattt tatgggaaat 2880
cagtccagtg aaaaatgtaa gctcttaatc tttcccagaa atcctacctc atttgatgaa 2940
tactttgagg gaatgaatta gagcattttt ttcttttata gtctacttcg catttacgaa 3000
gtgaggacgg tagcttaggc tgcctggcca actgatgaga aggtcagagg catttttaga 3060
gacctctgtt gtctttcatt catgttcatt ttccacaagg caagtaattt ccaacaaatc 3120
agtgtcttca ttagtaataa gattattaac aacaataata gtcatagtaa ctattcagtg 3180
agagtccatt atatatcagg cattctacaa ggtactttat atacatctga gtaaacctca 3240
cacaattcta cagggaggta tttctatccc catttaacaa ataaggaaac gaagtccaag 3300
taaattaact tgcccaaggt cacacagata gtacctggca gaacaggaat ttaaacctaa 3360
atttgtccaa ctccaaaagc agccttctat ttgttataaa tgctgcctct cattatcaca 3420
tattttatta ttaacaacaa caaacatacc aattagctta agatacaata caaccagata 3480
atcatgatga caacagtaat tgttatacta ttataataaa atagatgttt tgtatgttac 3540
tataatcttg aatttgaata gaaatttgca tttctgaaag catgttcctg tcatctaata 3600
tgattctgta tctattaaaa tagtactaca tctagccc 3638
<210>3
<211>5463
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval位点的MAR S4序列
<400>3
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320
agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380
ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat 1440
cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac 1500
tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata 1560
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1620
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 1680
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1740
tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata 1800
tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1860
tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg 1920
tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg 1980
tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg 2040
tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata 2100
tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat 2160
gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc 2220
agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc 2280
tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa 2340
atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat 2400
ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt 2460
gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc 2520
tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga 2580
cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt 2640
cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac 2700
caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg 2760
cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt 2820
tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga 2880
aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta 2940
gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac 3000
tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt 3060
ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt 3120
tttcctttga gaattctatg taaagtactt tgaacatatt tgccttcaac tcctccctca 3180
ctttcaccct ctcttcattc ctccctttcc tttccactca aagttgagat tcctttattt 3240
atttatttat ccttcaaata tcactggtac tatccacatg atctcaggat tgaggtctgc 3300
tctgacgtgt catcctgctt tcatgcaatg gccttatagg tggaacaaca ttatgaacta 3360
accagtaccc cggagctctt gactctagct gcatatatat caaaagatgg cctagtcggc 3420
catcactgga aagagaggct cattggactt gcaaacttta tatgccccag tacaggggaa 3480
caccagggcc aaaaaggggg agtgggtggg caggggagtg ggggtgggtg gatatggggg 3540
acttttggta tagcattgga aatgtaaatg agttaaatac ctaataaaaa atggaaaaaa 3600
aaagtttcta atgtgtgttt ctagaaactt cctctcttaa agcaacaaca tgtccatgag 3660
caatatagaa ttgaagatca ccatcaaatc ctctttattc ctcattgttt ccatcatgta 3720
ctaccagacc tctttaaagt gtagtacagt gtgttaggaa atgagcagat tatcctgggt 3780
atgtgctaaa ttagctactg agtcaaaata cattttttgc tgaacattaa gtgtttggtc 3840
atttctgggc aaaagaaaga aagaaagaaa gaaaagaaag aaagaaagga aggaaggaag 3900
gaaggaagga aggaaggaag gaaagaagga aggaaagaaa aaatggatgt aaattgttct 3960
gacagcatct gtctgagtca ggcagtggaa tgaaggagga atcctagaga atgcacagga 4020
aagcagccca aggagagtgt gggctgaaag gcatcatgtt agaaacatgc actcgatgac 4080
agaaccttga gaaaaaggaa ctcaagcaaa agcacttatt taaaattgta aaacgcactt 4140
tattcatagc catgggggat gtcaatattc caagcataag aatgatcagt ttccaatcac 4200
tgtgaacccc caaaacacaa agtgaaaacc cactacttta tttgatgaga tttggggttg 4260
ctctattaat ttataaaatc agagtaagac acgatataaa tgaaacgatt gtagttctaa 4320
agcagcggca cttccctgaa cagtgtcatt ttgacaagta actgctaaca tcttcaggtc 4380
acagcgactg aagaaaaagt agggaaagaa ggctggctgt gctgtttgac attttctttt 4440
cttatctggt gacatgaaga gaagctctgg gtccccctac tcttgttcat atatctgttg 4500
cttttatgct gcatcctgag gtttgaagaa atgcatttgg cactgagaaa agatgaggag 4560
agaatgcctt ggacatggtc ctaacatgct ttggtactga gaaaagagag cagaggagat 4620
gacatagaat aggagagata atttggccta ttttggcctt catctgagtg atagatttta 4680
cttaacaaat agaaacaaag ttttacttat aaacagaacc aatgacctgt gtcatctctg 4740
atatattgag ctttgaattc agtgaaatta tgaactaaat atatcactcc ataattttct 4800
aagagggcta tttgtatagt ttcagtgata gtgtgacaaa gtgtaatcta aatttctaaa 4860
aagtaaaata agtagataaa atagtaggta gaatagtata ataatagaat aagtataggt 4920
atggactaga ataaatagac aaaatagtag ataaaatgct aatgattttg ttgacagggt 4980
aatcatgaat atttttatta tttagctaaa gaaccaatgt tcatgtactc aagaagtgta 5040
ttgaggaact taggaaatta gtctgaacag gtgagagggt gcgccagaga acctgacagc 5100
ttctggaaca ggcggaagca cagaggcact gaggcagcac cctgtgtggg ccggggacag 5160
ccggccacct tccggaccgg aggacaggtg cccgcccggc tggggaggcg acctaagcca 5220
cagcagcagc ggtcgccatc ttggtccggg acccgccgaa cttaggaaat tagtctgaac 5280
aggtgagagg gtgcgccaga gaacctgaca gcttctggaa caggcagaag cacagaggcg 5340
ctgaggcagc accctgtgtg ggccggggac agccggccac cttccggacc ggaggacagg 5400
tgcccacccg gctggggagg cggcctaagc cacagcagca gcggtcgcca tcttggtccc 5460
ggg 5463
<210>4
<211>3839
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval位点的S4_1-703_2328-5457构建体
<400>4
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320
agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380
ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat 1440
cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac 1500
tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata 1560
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1620
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 1680
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1740
tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata 1800
tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1860
tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg 1920
tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg 1980
tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg 2040
tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata 2100
tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat 2160
gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc 2220
agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc 2280
tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa 2340
atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat 2400
ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt 2460
gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc 2520
tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga 2580
cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt 2640
cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac 2700
caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg 2760
cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt 2820
tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga 2880
aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta 2940
gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac 3000
tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt 3060
ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt 3120
tttcctttga gaattcagtg aaattatgaa ctaaatatat cactccataa ttttctaaga 3180
gggctatttg tatagtttca gtgatagtgt gacaaagtgt aatctaaatt tctaaaaagt 3240
aaaataagta gataaaatag taggtagaat agtataataa tagaataagt ataggtatgg 3300
actagaataa atagacaaaa tagtagataa aatgctaatg attttgttga cagggtaatc 3360
atgaatattt ttattattta gctaaagaac caatgttcat gtactcaaga agtgtattga 3420
ggaacttagg aaattagtct gaacaggtga gagggtgcgc cagagaacct gacagcttct 3480
ggaacaggcg gaagcacaga ggcactgagg cagcaccctg tgtgggccgg ggacagccgg 3540
ccaccttccg gaccggagga caggtgcccg cccggctggg gaggcgacct aagccacagc 3600
agcagcggtc gccatcttgg tccgggaccc gccgaactta ggaaattagt ctgaacaggt 3660
gagagggtgc gccagagaac ctgacagctt ctggaacagg cagaagcaca gaggcgctga 3720
ggcagcaccc tgtgtgggcc ggggacagcc ggccaccttc cggaccggag gacaggtgcc 3780
cacccggctg gggaggcggc ctaagccaca gcagcagcgg tcgccatctt ggtcccggg 3839
<210>5
<211>3738
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval位点的S4_1-2395_4121-5457构建体
<400>5
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320
agctctttcc tttagttaag cttcagaaat aaggataagt ttgaaatatt cattgtttta 1380
ttttttacag tattttttcc tttgagaatt ctatgtaaag tactttgaac atatttgcct 1440
tcaactcctc cctcactttc accctctctt cattcctccc tttcctttcc actcaaagtt 1500
gagattcctt tatttattta tttatccttc aaatatcact ggtactatcc acatgatctc 1560
aggattgagg tctgctctga cgtgtcatcc tgctttcatg caatggcctt ataggtggaa 1620
caacattatg aactaaccag taccccggag ctcttgactc tagctgcata tatatcaaaa 1680
gatggcctag tcggccatca ctggaaagag aggctcattg gacttgcaaa ctttatatgc 1740
cccagtacag gggaacacca gggccaaaaa gggggagtgg gtgggcaggg gagtgggggt 1800
gggtggatat gggggacttt tggtatagca ttggaaatgt aaatgagtta aatacctaat 1860
aaaaaatgga aaaaaaaagt ttctaatgtg tgtttctaga aacttcctct cttaaagcaa 1920
caacatgtcc atgagcaata tagaattgaa gatcaccatc aaatcctctt tattcctcat 1980
tgtttccatc atgtactacc agacctcttt aaagtgtagt acagtgtgtt aggaaatgag 2040
cagattatcc tgggtatgtg ctaaattagc tactgagtca aaatacattt tttgctgaac 2100
attaagtgtt tggtcatttc tgggcaaaag aaagaaagaa agaaagaaaa gaaagaaaga 2160
aaggaaggaa ggaaggaagg aaggaaggaa ggaaggaaag aaggaaggaa agaaaaaatg 2220
gatgtaaatt gttctgacag catctgtctg agtcaggcag tggaatgaag gaggaatcct 2280
agagaatgca caggaaagca gcccaaggag agtgtgggct gaaaggcatc atgttagaaa 2340
catgcactcg atgacagaac cttgagaaaa aggaactcaa gcaaaagcac ttatttaaaa 2400
ttgtaaaacg cactttattc atagccatgg gggatgtcaa tattccaagc ataagaatga 2460
tcagtttcca atcactgtga acccccaaaa cacaaagtga aaacccacta ctttatttga 2520
tgagatttgg ggttgctcta ttaatttata aaatcagagt aagacacgat ataaatgaaa 2580
cgattgtagt tctaaagcag cggcacttcc ctgaacagtg tcattttgac aagtaactgc 2640
taacatcttc aggtcacagc gactgaagaa aaagtaggga aagaaggctg gctgtgctgt 2700
ttgacatttt cttttcttat ctggtgacat gaagagaagc tctgggtccc cctactcttg 2760
ttcatatatc tgttgctttt atgctgcatc ctgaggtttg aagaaatgca tttggcactg 2820
agaaaagatg aggagagaat gccttggaca tggtcctaac atgctttggt actgagaaaa 2880
gagagcagag gagatgacat agaataggag agataatttg gcctattttg gccttcatct 2940
gagtgataga ttttacttaa caaatagaaa caaagtttta cttataaaca gaaccaatga 3000
cctgtgtcat ctctgatata ttgagctttg aattcagtga aattatgaac taaatatatc 3060
actccataat tttctaagag ggctatttgt atagtttcag tgatagtgtg acaaagtgta 3120
atctaaattt ctaaaaagta aaataagtag ataaaatagt aggtagaata gtataataat 3180
agaataagta taggtatgga ctagaataaa tagacaaaat agtagataaa atgctaatga 3240
ttttgttgac agggtaatca tgaatatttt tattatttag ctaaagaacc aatgttcatg 3300
tactcaagaa gtgtattgag gaacttagga aattagtctg aacaggtgag agggtgcgcc 3360
agagaacctg acagcttctg gaacaggcgg aagcacagag gcactgaggc agcaccctgt 3420
gtgggccggg gacagccggc caccttccgg accggaggac aggtgcccgc ccggctgggg 3480
aggcgaccta agccacagca gcagcggtcg ccatcttggt ccgggacccg ccgaacttag 3540
gaaattagtc tgaacaggtg agagggtgcg ccagagaacc tgacagcttc tggaacaggc 3600
agaagcacag aggcgctgag gcagcaccct gtgtgggccg gggacagccg gccaccttcc 3660
ggaccggagg acaggtgccc acccggctgg ggaggcggcc taagccacag cagcagcggt 3720
cgccatcttg gtcccggg 3738
<210>6
<211>3136
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和EcoRI位点的S4_2328-5457构建体
<400>6
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780
agcttgaaag aacttcagat ctttgttgtt atctgttgca aacactccat ttttctgttg 840
tagcaaaaaa aaaaaaaaag acatccatag ttgtcaatga gaatgcaaga tacatacatt 900
ctgcacctgt gtgctaacat aagtggctgc cctgtgactc agagattgct tgtccttctc 960
ctaagcctat ccttttttgt tactttggat acttttgttc aatgaatcca gaaaaagtgt 1020
ttttcagatt caccatgtga ccctcattta aaacctgtaa tccccctatg gttaagttcc 1080
tgcttttgtt tctgttttct ttctttcagt aaaaggaatt gaacccagtc cttccactta 1140
ctatctgagc atatggctct tttagattat gatgttggtg gtgttcattg gtctcaccaa 1200
aatgctaaag aagccttcat cttctacttg tgggtagtct ttacattcat tactgcaagt 1260
ttagtttatg tggtagtacc agatcctttg cttcttttga cttcatgcct acctaacagc 1320
agctctttcc tttagttaag cttatgaaat agtgtttctc tcatgtttcc tctatattct 1380
ctcttttgcc ttcctgtttc ttcctgttga ttccatccca ttggagtgaa atcttatgat 1440
cttttggcat caacaaagtg atctgcatcc aaataattcc acatctcatt ccatgttgac 1500
tgtggatcta tatatatata tatgtatata tgtatatatg tatatatgta tatatgtata 1560
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1620
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 1680
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1740
tatatatgta tatatgtata tatgtatata tgtatatatg tatatacgta tatatgcata 1800
tacgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1860
tatatatgta tatatgtatg tatgtatgta tgtatgtata tatgtatata tgtatgtatg 1920
tatgtatgta tgtatgtatg tatatatgta tatatatatg tatgtatgta tgtatgtatg 1980
tatgtatatg tgtatatgtg tatatgtgta tatgtgtata tgtgtatata tgtatatatg 2040
tatatatgta tatatgtata tgtgtatatg tgtatatgtg tatatatgta tatatgtata 2100
tatgtatata tgtatatata taacatagta ttaaattata tatacatata taagtgaaat 2160
gtcacaatct tctagaactt gctctgtatg tccacttaac atggtagagt gagctatgtc 2220
agcattttct atttcctgtg aatcattctg tgtgttgcca agaagaaata tgatatattc 2280
tgaggttatg aaatgatatt ttggtcatca tgtttctcat cctattttca tattacctaa 2340
atacttttgc ttttaaaatt attattatta ataataatat aattatttat acaataatat 2400
ttaaataata tatttattta atataattat tatatttcac ataaaagcaa tagttccagt 2460
gttacaaatt gtaggcaact gggctgttct gattatctaa gttgggccca ggatatgtgc 2520
tgaatagtta aagcacatgc ccagcatgta tgagggtaaa aggatgggtg gatgtagtga 2580
cccatttgta atttaagcct tagcaggcag aggtgtgacc catagtgcaa agtacatagt 2640
cattataagg tcatctatat cacaatctct ggattagatt gattgaacct gctcagtgac 2700
caatgtgtta gcaatataca ggaggatgat aacatcaacg tcagaagaca cattgaaggg 2760
cttacaaata gtgcccattt actttaatac agaaaaattc aatgtaccct ctaggcaatt 2820
tcaactttta gtctcttggt aggatagtct acatttagaa tggctaattc ataaattaga 2880
aagcttcttc accccctact tttctggtta tttctctatg aatgtggtag gcatgagtta 2940
gtacacatgt ttccatgtac atgtgtttct atgtgtctgc atgcatatgg tagaatgtac 3000
tcatattcta tgtacagtta gaacaatatt tatattgtca aagaaatcaa aaggagtatt 3060
ataagcttca gaaataagga taagtttgaa atattcattg ttttattttt tacagtattt 3120
tttcctttga gaattc 3136
<210>7
<211>2340
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和BgIII位点的S4_2328-4661构建体
<400>7
agatctttgt tgttatctgt tgcaaacact ccatttttct gttgtagcaa aaaaaaaaaa 60
aaagacatcc atagttgtca atgagaatgc aagatacata cattctgcac ctgtgtgcta 120
acataagtgg ctgccctgtg actcagagat tgcttgtcct tctcctaagc ctatcctttt 180
ttgttacttt ggatactttt gttcaatgaa tccagaaaaa gtgtttttca gattcaccat 240
gtgaccctca tttaaaacct gtaatccccc tatggttaag ttcctgcttt tgtttctgtt 300
ttctttcttt cagtaaaagg aattgaaccc agtccttcca cttactatct gagcatatgg 360
ctcttttaga ttatgatgtt ggtggtgttc attggtctca ccaaaatgct aaagaagcct 420
tcatcttcta cttgtgggta gtctttacat tcattactgc aagtttagtt tatgtggtag 480
taccagatcc tttgcttctt ttgacttcat gcctacctaa cagcagctct ttcctttagt 540
taagcttatg aaatagtgtt tctctcatgt ttcctctata ttctctcttt tgccttcctg 600
tttcttcctg ttgattccat cccattggag tgaaatctta tgatcttttg gcatcaacaa 660
agtgatctgc atccaaataa ttccacatct cattccatgt tgactgtgga tctatatata 720
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 780
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 840
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 900
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 960
tatatatgta tatatgtata tatgtatata cgtatatatg catatacgta tatatgtata 1020
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1080
tatgtatgta tgtatgtatg tatatatgta tatatgtatg tatgtatgta tgtatgtatg 1140
tatgtatata tgtatatata tatgtatgta tgtatgtatg tatgtatgta tatgtgtata 1200
tgtgtatatg tgtatatgtg tatatgtgta tatatgtata tatgtatata tgtatatatg 1260
tatatgtgta tatgtgtata tgtgtatata tgtatatatg tatatatgta tatatgtata 1320
tatataacat agtattaaat tatatataca tatataagtg aaatgtcaca atcttctaga 1380
acttgctctg tatgtccact taacatggta gagtgagcta tgtcagcatt ttctatttcc 1440
tgtgaatcat tctgtgtgtt gccaagaaga aatatgatat attctgaggt tatgaaatga 1500
tattttggtc atcatgtttc tcatcctatt ttcatattac ctaaatactt ttgcttttaa 1560
aattattatt attaataata atataattat ttatacaata atatttaaat aatatattta 1620
tttaatataa ttattatatt tcacataaaa gcaatagttc cagtgttaca aattgtaggc 1680
aactgggctg ttctgattat ctaagttggg cccaggatat gtgctgaata gttaaagcac 1740
atgcccagca tgtatgaggg taaaaggatg ggtggatgta gtgacccatt tgtaatttaa 1800
gccttagcag gcagaggtgt gacccatagt gcaaagtaca tagtcattat aaggtcatct 1860
atatcacaat ctctggatta gattgattga acctgctcag tgaccaatgt gttagcaata 1920
tacaggagga tgataacatc aacgtcagaa gacacattga agggcttaca aatagtgccc 1980
atttacttta atacagaaaa attcaatgta ccctctaggc aatttcaact tttagtctct 2040
tggtaggata gtctacattt agaatggcta attcataaat tagaaagctt cttcaccccc 2100
tacttttctg gttatttctc tatgaatgtg gtaggcatga gttagtacac atgtttccat 2160
gtacatgtgt ttctatgtgt ctgcatgcat atggtagaat gtactcatat tctatgtaca 2220
gttagaacaa tatttatatt gtcaaagaaa tcaaaaggag tattataagc ttcagaaata 2280
aggataagtt tgaaatattc attgttttat tttttacagt attttttcct ttgagaattc 2340
<210>8
<211>4667
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和BgIII位点的S4_1-4661构建体
<400>8
agatctttgt tgttatctgt tgcaaacact ccatttttct gttgtagcaa aaaaaaaaaa 60
aaagacatcc atagttgtca atgagaatgc aagatacata cattctgcac ctgtgtgcta 120
acataagtgg ctgccctgtg actcagagat tgcttgtcct tctcctaagc ctatcctttt 180
ttgttacttt ggatactttt gttcaatgaa tccagaaaaa gtgtttttca gattcaccat 240
gtgaccctca tttaaaacct gtaatccccc tatggttaag ttcctgcttt tgtttctgtt 300
ttctttcttt cagtaaaagg aattgaaccc agtccttcca cttactatct gagcatatgg 360
ctcttttaga ttatgatgtt ggtggtgttc attggtctca ccaaaatgct aaagaagcct 420
tcatcttcta cttgtgggta gtctttacat tcattactgc aagtttagtt tatgtggtag 480
taccagatcc tttgcttctt ttgacttcat gcctacctaa cagcagctct ttcctttagt 540
taagcttatg aaatagtgtt tctctcatgt ttcctctata ttctctcttt tgccttcctg 600
tttcttcctg ttgattccat cccattggag tgaaatctta tgatcttttg gcatcaacaa 660
agtgatctgc atccaaataa ttccacatct cattccatgt tgactgtgga tctatatata 720
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 780
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 840
tatatatgta tatatgtata tatgtatata tgtatatatg tatatatgta tatatgtata 900
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 960
tatatatgta tatatgtata tatgtatata cgtatatatg catatacgta tatatgtata 1020
tatgtatata tgtatatatg tatatatgta tatatgtata tatgtatata tgtatatatg 1080
tatgtatgta tgtatgtatg tatatatgta tatatgtatg tatgtatgta tgtatgtatg 1140
tatgtatata tgtatatata tatgtatgta tgtatgtatg tatgtatgta tatgtgtata 1200
tgtgtatatg tgtatatgtg tatatgtgta tatatgtata tatgtatata tgtatatatg 1260
tatatgtgta tatgtgtata tgtgtatata tgtatatatg tatatatgta tatatgtata 1320
tatataacat agtattaaat tatatataca tatataagtg aaatgtcaca atcttctaga 1380
acttgctctg tatgtccact taacatggta gagtgagcta tgtcagcatt ttctatttcc 1440
tgtgaatcat tctgtgtgtt gccaagaaga aatatgatat attctgaggt tatgaaatga 1500
tattttggtc atcatgtttc tcatcctatt ttcatattac ctaaatactt ttgcttttaa 1560
aattattatt attaataata atataattat ttatacaata atatttaaat aatatattta 1620
tttaatataa ttattatatt tcacataaaa gcaatagttc cagtgttaca aattgtaggc 1680
aactgggctg ttctgattat ctaagttggg cccaggatat gtgctgaata gttaaagcac 1740
atgcccagca tgtatgaggg taaaaggatg ggtggatgta gtgacccatt tgtaatttaa 1800
gccttagcag gcagaggtgt gacccatagt gcaaagtaca tagtcattat aaggtcatct 1860
atatcacaat ctctggatta gattgattga acctgctcag tgaccaatgt gttagcaata 1920
tacaggagga tgataacatc aacgtcagaa gacacattga agggcttaca aatagtgccc 1980
atttacttta atacagaaaa attcaatgta ccctctaggc aatttcaact tttagtctct 2040
tggtaggata gtctacattt agaatggcta attcataaat tagaaagctt cttcaccccc 2100
tacttttctg gttatttctc tatgaatgtg gtaggcatga gttagtacac atgtttccat 2160
gtacatgtgt ttctatgtgt ctgcatgcat atggtagaat gtactcatat tctatgtaca 2220
gttagaacaa tatttatatt gtcaaagaaa tcaaaaggag tattataagc ttcagaaata 2280
aggataagtt tgaaatattc attgttttat tttttacagt attttttcct ttgagaattc 2340
tatgtaaagt actttgaaca tatttgcctt caactcctcc ctcactttca ccctctcttc 2400
attcctccct ttcctttcca ctcaaagttg agattccttt atttatttat ttatccttca 2460
aatatcactg gtactatcca catgatctca ggattgaggt ctgctctgac gtgtcatcct 2520
gctttcatgc aatggcctta taggtggaac aacattatga actaaccagt accccggagc 2580
tcttgactct agctgcatat atatcaaaag atggcctagt cggccatcac tggaaagaga 2640
ggctcattgg acttgcaaac tttatatgcc ccagtacagg ggaacaccag ggccaaaaag 2700
ggggagtggg tgggcagggg agtgggggtg ggtggatatg ggggactttt ggtatagcat 2760
tggaaatgta aatgagttaa atacctaata aaaaatggaa aaaaaaagtt tctaatgtgt 2820
gtttctagaa acttcctctc ttaaagcaac aacatgtcca tgagcaatat agaattgaag 2880
atcaccatca aatcctcttt attcctcatt gtttccatca tgtactacca gacctcttta 2940
aagtgtagta cagtgtgtta ggaaatgagc agattatcct gggtatgtgc taaattagct 3000
actgagtcaa aatacatttt ttgctgaaca ttaagtgttt ggtcatttct gggcaaaaga 3060
aagaaagaaa gaaagaaaag aaagaaagaa aggaaggaag gaaggaagga aggaaggaag 3120
gaaggaaaga aggaaggaaa gaaaaaatgg atgtaaattg ttctgacagc atctgtctga 3180
gtcaggcagt ggaatgaagg aggaatccta gagaatgcac aggaaagcag cccaaggaga 3240
gtgtgggctg aaaggcatca tgttagaaac atgcactcga tgacagaacc ttgagaaaaa 3300
ggaactcaag caaaagcact tatttaaaat tgtaaaacgc actttattca tagccatggg 3360
ggatgtcaat attccaagca taagaatgat cagtttccaa tcactgtgaa cccccaaaac 3420
acaaagtgaa aacccactac tttatttgat gagatttggg gttgctctat taatttataa 3480
aatcagagta agacacgata taaatgaaac gattgtagtt ctaaagcagc ggcacttccc 3540
tgaacagtgt cattttgaca agtaactgct aacatcttca ggtcacagcg actgaagaaa 3600
aagtagggaa agaaggctgg ctgtgctgtt tgacattttc ttttcttatc tggtgacatg 3660
aagagaagct ctgggtcccc ctactcttgt tcatatatct gttgctttta tgctgcatcc 3720
tgaggtttga agaaatgcat ttggcactga gaaaagatga ggagagaatg ccttggacat 3780
ggtcctaaca tgctttggta ctgagaaaag agagcagagg agatgacata gaataggaga 3840
gataatttgg cctattttgg ccttcatctg agtgatagat tttacttaac aaatagaaac 3900
aaagttttac ttataaacag aaccaatgac ctgtgtcatc tctgatatat tgagctttga 3960
attcagtgaa attatgaact aaatatatca ctccataatt ttctaagagg gctatttgta 4020
tagtttcagt gatagtgtga caaagtgtaa tctaaatttc taaaaagtaa aataagtaga 4080
taaaatagta ggtagaatag tataataata gaataagtat aggtatggac tagaataaat 4140
agacaaaata gtagataaaa tgctaatgat tttgttgaca gggtaatcat gaatattttt 4200
attatttagc taaagaacca atgttcatgt actcaagaag tgtattgagg aacttaggaa 4260
attagtctga acaggtgaga gggtgcgcca gagaacctga cagcttctgg aacaggcgga 4320
agcacagagg cactgaggca gcaccctgtg tgggccgggg acagccggcc accttccgga 4380
ccggaggaca ggtgcccgcc cggctgggga ggcgacctaa gccacagcag cagcggtcgc 4440
catcttggtc cgggacccgc cgaacttagg aaattagtct gaacaggtga gagggtgcgc 4500
cagagaacct gacagcttct ggaacaggca gaagcacaga ggcgctgagg cagcaccctg 4560
tgtgggccgg ggacagccgg ccaccttccg gaccggagga caggtgccca cccggctggg 4620
gaggcggcct aagccacagc agcagcggtc gccatcttgg tcccggg 4667
<210>9
<211>802
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全Aval和BgIII位点的S4_4662-5457构建体
<400>9
ctcgaggtct caagataaga atgactgctg taactcaaat ccaccaaagc tatttgtgtt 60
agaatgcttt cctttggtaa taacataata ccacagagtg agtgaatgta tcaagcaaag 120
tactcactca taatctctcc acccaaatga ctttgtcttc taaaattaaa cccttcccag 180
aggcctctcc ccttaatacc atattgggct cttcacactt cttccaacat cgccttccat 240
cctggccctt ccaacctccc ttctgtttgt gctaggaaca gctcaaggcc tcctatctac 300
cacagagtta catggcttgc cccttgccaa ccccccagta ccacacagtg agtgcaaaat 360
ctcaccacat tcagaaccca gtcactattc aaatcatatt ttaacctttg cagtactgac 420
tacttttgat tcatctaaac attactgaac tttattctag aaaacattta agaaatttgt 480
agttaggttc atcctttgag accttacatt taatttcttt ctatgtaaac ggaaagcatt 540
gttcagtccc acgctcatta tggcaaccca cttccaagta cttcgtttac tacgtgggct 600
ggaatcatac agttttctgt tgtgcttgtg ggagcagatc cccctaacct ctgctgattt 660
ttctcaccac ttatcataca tttattacat gcatgcactg ctgtgtgagt ttctaaatac 720
ttgggtagca attctctact attactttaa ttttcctact tgtctgcaaa tacgaaaagt 780
agcttgaaag aacttcagat ct 802
<210>10
<211>3970
<212>DNA
<213>小鼠
<220>
<221>misc_feature
<223>具有完全BamHI位点的MAR S46序列
<400>10
ggatccagag cagatgacac atacatattt ctcttagatg atattatctg agtgttaagt 60
actaaaatgt tgtgtgttgc cttatttaca ttaaacacat ttcccttttc actttttttt 120
tttcaaactc acttaaaaat gagaggataa taaaacggaa actcttcaaa gcattttctg 180
gtagagatgc agaggaaaaa aaatggtatt tcatcaactg atgaaattac ttagatctaa 240
gtgcatcacc atctaaaact acctacctct ttaaagcttc agtatagaaa tatttcaaac 300
tattttttga ggtatgcttt taaaatgggt ttatttacta gtatatatac atgcatttaa 360
gagtgtttgt ggagattagc tagaggttga attgggacac tctgttctca ccttctacca 420
catgagtccc agaggttgct taggttgaga agttctgcag caaacacatt tacacacgga 480
gcaatcccag tagccctcac actttgcaat gagcttgaga gttagagccc agcgtgagct 540
gactcatgcc tttccattat gtctaaattc caatggcgtt ttaaaacatt tttttatata 600
gcaaaaccac atatgattgg gattaaaact gtcaagcaga aatatgaata acttttttca 660
cttaaatttc gtattttatc tgaaattttg accttagaaa tacttgacat tatatctcaa 720
taaaactggc aatgaggaaa aatgaattat tggtttagag gttggtctta ttattgcttg 780
atacattaac aggagacact tactagggct tatcactgaa gtcacccggt acaaatgtac 840
ctaagtgacc gagtctagaa aacaggcact cagatactgg aggttgaaga agcagcttgc 900
ccaatcaatg ctctaattcc aattttatat tcttcctgcc tatattagtt ttccttaagc 960
atagcgagct gaaaaaatga ctgtggcctt atacatatcc tacaggtcaa catgatgaat 1020
ggctgagttg gagttttgaa aaggtgtgaa tcacaagact gcgtctggct ggatgttgat 1080
acctccccaa tcccatgact ttgtggggac gtggcattca tctctcacag agtaatgtgc 1140
agttctcagt tcatgggtgg ctacgaactg aactcccaca gtttatcaca tacattcttg 1200
tgatgtcttg caatttgttt tcgttgtttg ttgagtgtgg gtatttgagg gacaccatgt 1260
gtgtagtcag cacatgcatg tgcttctatc tggagttggt attcattgtg tgtcctctct 1320
ctctctttct ctctctctct ctctctctct ctctctctct ctctctctct ctctctctct 1380
ctctctcttt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt cttacctgcc actggcctca 1440
ataatagtag cttagttggg tagtgtgacc cagacatcag tctgttttgt ctctggtgat 1500
ggaatcatgc tattttgcac tgtcaagtga ttagtcattt ctgagggtca gactcaggtc 1560
cccatacttc caatataaat tgctccccaa tggcaaattt ctacataaca tgaggtcctt 1620
tctgtagaac tgcacaggaa atgacaccca ttctttctgg caattagtaa tgcaagatgg 1680
aatatgcaaa agcagggaac aagcccagaa gtcaatacta cttttaagga ttttgaaaga 1740
aaattgtcat taacgtgcct tctcttttat aaaagtaaga aaactaaggc ccattcttag 1800
ggacaaggat taattgtcca ttatcttaag aggagaatta taatcatata tgaatttgtg 1860
attttattat cacgaagaaa ctacacacaa atacttctgt ttttcattga ttccttattg 1920
aaccaatatt gagttgtgtt tctttggact ctgtacatac acttacagaa gaaatagaat 1980
agaagtgaca ctgaaaattt actgtgcatg tttttcattg gaaagcatta caatcattta 2040
agggaacaat gcatttgata gaaacttcag atatcataca catgttctga tacagaggaa 2100
ttaagtatgc atttcattaa aatagtgttc cttgcatata atcattcatt aggtcttaaa 2160
taagatattg ttattaacat ttaacaaaca ataaggttac ctaatccaga actgcatgat 2220
gataatgacc tgaggacaca acaaagtaga tggttgaagg ttcacaagcc caacccctag 2280
atggctaggg agagaaggag aatcttgttc tccagggatg cggtgcctga taggttgtcc 2340
agatttagcc tgaataaaac atatataata ataactctaa atgcattcag taagttctca 2400
atatgtatat atgtatatat gtatatatat acatatatac atatatacat atatacatat 2460
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2520
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2580
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2640
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2700
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2760
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2820
atacatatat acatatatac atatatacat atatacatat atacatatat acatatatac 2880
atatatacat atatacatat atacatatat acatatatac atatatacat atatacatat 2940
atacatatat atatgcactt atatgtgata atagcaatta taagaaaaga tatctgactt 3000
taaaagagat tttatgagag gagttggagg gataatagga agatggaaat actgaaacta 3060
tagtgtgaag tatatgtata aatatatata tatgttatac atgtaaatat atatgatatg 3120
atatatagat caagatcata tcagattata atattgtgtc ttttaaattt ccatgagatg 3180
aggatttcaa ggctgagtaa actctttttt ttaatatttt ttattataac gtattttcct 3240
caattacatt tagaatgcta tcccaaaagt cccccatacc ctccccccaa cttccctacc 3300
cacccattcc cattttttgg ccctggcatt cccctgtact gggacatata aagtttgcgt 3360
gtccaatggg tctctgtttc cagcaatggc cgactaggcc atcttttgat acatatgcag 3420
ctagagtcaa gagctccggg gtactggtta gttcataatg ttgttgcacc tacagggttg 3480
cagatctctt aagtccttgg atactttctc tagctcctcc gttgggggca ctatgcacca 3540
tccaatagct gactgtgagc atctacttat gtgtttgcta ggcctggcct agtctcacaa 3600
gagacagcta tatcagggtc ctttcagcaa aatcttgcta gtgtatgcaa tggtttcatc 3660
gtttggaggc taattatggg atggatctct ggatatggca gtctctagat ggtccatcct 3720
tttgtctcgg ctccaaactt tgctcagcat ccttattcat cagagaaatg caaatcaaaa 3780
ccctgagata ccatctcaca ccagtcagaa tagctaagat caaaaattca ggtgacagca 3840
gatgttggcg aggatgtgga gaaagaggaa cactcctcca ttgttggtgg gattgcaagc 3900
ttgtacaacc actctggaaa tcagtctggc ggttcctcag aaaattggac atagtactac 3960
tggaggatcc 3970
<210>11
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>11
gatccagtac tcatgttcat tttctctaga 30
<210>12
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>12
gatccagtac tgtttgggaa attccatgga 30
<210>13
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>13
gatccagtac tcccctaatt cagacatgca 30
<210>14
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>14
gatccagtac taataataaa atacccggga 30
<210>15
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>15
gatccagtac tttattataa tatgttaaca 30
<210>16
<211>30
<212>DNA
<213>人工的
<220>
<223>合成的最佳转录因子结合位点
<400>16
gatccagtac tgggaaaaaa atcgtcgaca 30
<210>17
<211>1189
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的CEBP富集转录因子结合位点区域
<400>17
ttataccaac ctcataaaat aagagcatat ataaaagcaa atgctcttat cttgcagatc 60
cctgaactga ggaggcaaga tcagtttggc agttgaagca gctggaatct gcaattcaga 120
gaatctaaga aaagacaacc ctgaagagag agacccagaa acctagcagg agtttctcca 180
aacattcaag gctgagggat aaatgttaca tgcacagggt gagcctccag aggcttgtcc 240
attagcaact gctacagttt cattatctca gggatcacag attgtgctac ctattgccta 300
ccatctgaaa acagttgctt cctatatttc atccagttta atatttattt aaaccaagaa 360
ggttaatctg gcaccagcta ttccgttgtg agtggatgtg aaagtaccaa ttccattctg 420
ttttactatt aactatcctt tgccttaata tgtatcagta ggtggcttgt tgctaggaaa 480
tattaaatga atggcatgtt tcataggttg tgtttaaagt tgttttttga gttaaatctt 540
tctttaataa tactttctga tgtcaaaaac acttagaagt catggtgttg aacatctata 600
tagggttgga tctaaaatag cttcttaacc tttcctaacc actgtttttg tttgtttgtt 660
tttaactaag catccagttt gggaaattct gaattagggg aatcataaaa ggtttcattt 720
tagctgggcc acataaggaa agtaagatat caaattgtaa aaatcgttaa gaacttctat 780
cccatctgaa gtgtgggtta ggtgcctctt ctctgtgctc ccttaacatc ctattttatc 840
tgtatatata tatattcttc caaatatcca tgcatgggaa aaaaaatctg atcataaaaa 900
tattttaggc tgggagtggt ggctcacgcc tgtaatccca gcactttggg aggctgaggt 960
gggcggatca tgaggtcaag agatcgagac catcctgacc aatatggtga aaccccatct 1020
ctactaaaga tacaaaacta ttagctggac gtggtggcac gtgcctgtag tcccagctac 1080
tcgggaggct gaggcaggag aacggcttga acccaggagg tggaggttgc agtgagctga 1140
gatcgcgcca ctgcactcca gcctgggcga cagagcgaga ctctgtctc 1189
<210>18
<211>763
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的弯曲AT/TA二核苷酸富集区
<400>18
aaaaaaaaaa tatatatata tatatatata cacatatata tataaaatat atatatatac 60
acacatatat atataaaata tatatatata cacacatata tataaaatat atatatatac 120
acacatatat ataaaatata tatatacaca catatatata aaatatatat atacacacat 180
atatataaaa tatatatata cacacatata tataaaatat atatatacac acatatatat 240
aaaatatata tatacacaca tatatataaa atatatatat acacacatat atataaaata 300
tatatataca cacatatata taaaatatat atatacacac atatatataa aatatatata 360
tacacacata tatataaaat atatatatac acacatatat aaaatatata tatacacaca 420
tatataaaat atatatatac acatatatat aaaatatata tatacacata tatataaaat 480
atatatacac acatatatat aaaatatata tatacacaca tatatataaa atatatatat 540
acacatatat ataaaatata tatatacaca tatatataaa atatatatat atacacatat 600
atataaaata tatatacaca catatatata aagtatatat atacacacat atatataaaa 660
tatatatata cacatatata taaaatatat atatacacat atatataaaa tatatatata 720
cacatatata taaaaatata tatatatatt ttttaaaata ttc 763
<210>19
<211>1648
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的Hox-富集转录因子结合位点区
<400>19
caattgtctc actttgtgga tgagaaaaag aagtagttag aggtcaagta acttggccta 60
catcttttct caagattgta aactcctagt gagcaataac cacatcttca ttttctttgt 120
ataaaacaag aaagtttagc atgaaaaagg tactcaatta caaatgtgtt ggattgaatt 180
gaagaccctt ggaaggggat tttgtacctg aggatctctt tcttttggcc atattgttca 240
atggacaaaa tttagccttc gaaggcaggc cgatttgagg ttaatactac ctttaccact 300
tgatagctat gtgaccttgg ccatgtggtt tcaacagtct gaacctcatt ttctctgtgt 360
atgtgtggtc ctccttacaa gtttgtgaaa aatgtgaagt ccttagccat gatagcccaa 420
tataacaggc taaatgataa taggtttatg ttcttttcct ttatattctc agataagcac 480
tgtccaagtt tgaggtgttt tgaggtctcg cctgatttgg attgtttgag tttatgctat 540
tctttgaatt ctttgagctg ttctgaagca gtgtatcatg aacaaaaaca tccccagttc 600
agtccaaacc cctggttaca tatcattctt atgccatgtt ataaccagtt tgagagtgtt 660
ccctctgtta ttgcatttaa gtttcagcct cacacagaaa ttcagcagcc aatttctaag 720
ccctaagcat aaaatctggg gtgggggggg gggatggcct gaagagcagc attatgaata 780
gcaccattat aattaatgat ctctcaggaa gatttacaat cacaggtagc agataaaaca 840
aatagtactg cttctgcact tcccctcctt ttattcgcta tgaaatttta tgggaaatca 900
gtccagtgaa aaatgtaagc tcttaatctt tcccagaaat cctacctcat ttgatgaata 960
ctttgaggga atgaattaga gcattttttt cttttatagt ctacttcgca tttacgaagt 1020
gaggacggta gcttaggctg cctggccaac tgatgagaag gtcagaggca tttttagaga 1080
cctctgttgt ctttcattca tgttcatttt ccacaaggca agtaatttcc aacaaatcag 1140
tgtcttcatt agtaataaga ttattaacaa caataatagt catagtaact attcagtgag 1200
agtccattat atatcaggca ttctacaagg tactttatat acatctgagt aaacctcaca 1260
caattctaca gggaggtatt tctatcccca tttaacaaat aaggaaacga agtccaagta 1320
aattaacttg cccaaggtca cacagatagt acctggcaga acaggaattt aaacctaaat 1380
ttgtccaact ccaaaagcag ccttctattt gttataaatg ctgcctctca ttatcacata 1440
ttttattatt aacaacaaca aacataccaa ttagcttaag atacaataca accagataat 1500
catgatgaca acagtaattg ttatactatt ataataaaat agatgttttg tatgttacta 1560
taatcttgaa tttgaataga aatttgcatt tctgaaagca tgttcctgtc atctaatatg 1620
attctgtatc tattaaaata gtactaca 1648
<210>20
<211>223
<212>DNA
<213>人类
<220>
<221>misc_feature
<223>MAR 1_68的Hox-富集转录因子结合位点区的3′末端
<400>20
agaaagagat cctcaggtac aaaatcccct tccaagggtc ttcaattcaa tccaacacat 60
ttgtaattga gtaccttttt catgctaaac tttcttgttt tatacaaaga aaatgaagat 120
gtggttattg ctcactagga gtttacaatc ttgagaaaag atgtaggcca agttacttga 180
cctctaacta cttctttttc tcatccacaa agtgagacaa ttg 223
Claims (46)
1.用于高水平表达至少一种基因的一种表达系统,包括:
用于可操作地连接编码一种感兴趣基因的一种核苷酸序列的一种启动子,以及在一种用所述表达系统转化的细胞内用于增强一种所述基因表达的至少一种非人类哺乳动物MAR核苷酸序列,其中用所述构建体转化所述细胞时,所述非人类哺乳动物MAR核苷酸序列使所述基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
2.根据权利要求1所述的表达系统,其中包括所述启动子和编码一种感兴趣基因的所述核苷酸序列的一种表达盒可操作地连接于该启动子。
3.根据以上权利要求中任一项所述的表达系统,其中所述至少一种非人类哺乳动物MAR核苷酸序列是一种啮齿动物MAR核苷酸序列,例如一种小鼠或仓鼠MAR核苷酸序列。
4.根据以上权利要求中任一项所述的表达系统,其中所述非人类哺乳动物MAR核苷酸序列包括:
(i)SEQ ID No.3、SEQ ID No.10或它的一个功能片段;或者
(ii)与(i)中任何一个序列具有约80%,约90%,约95%或约98%的序列一致性的一种核苷酸序列。
5.根据以上权利要求中任一项所述的表达系统,其中所述基因在一种非人类哺乳动物细胞例如一种啮齿动物细胞特别是一种小鼠或仓鼠细胞或者在一种人类细胞如一种HeLa细胞内表达。
6.根据以上权利要求中任一项所述的表达系统,其中所述至少一种非人类哺乳动物MAR核苷酸序列在所述基因上以顺式或反式发挥作用。
7.用于增加在一种细胞内蛋白质产量的一种方法,包括提供一种人类或非人类哺乳动物细胞,
将以上权利要求中任一项所述的表达系统导入所述细胞内,使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多。
8.一种分离并纯化的核酸分子,包括:
(a)SEQ ID No.3或SEQ ID No.10或它的一个功能片段的核苷酸序列,或者
(b)与(a)中的序列具有至少约80%、约90%、约95%或约98%的序列一致性且具有MAR活性的一种核苷酸序列。
9.用于鉴定非人类哺乳动物MAR序列的一种方法,包括:
提供至少一种非人类哺乳动物核酸分子,优选一种非人类哺乳动物基因组或其一部分,
令所述核酸分子经受针对MAR序列的一个扫描过程,包括:
设定待评估的核酸分子的窗口大小,
选择至少1个或至少2个,优选3个,更优选4个或更多个与MAR相关的特征,
为表现这个/这些特征的序列设定多个阈值,以及
选择超过这些阈值的MAR候选核苷酸序列,
确定通过包含所述非人类哺乳动物MAR核苷酸序列的一种表达系统转化一种人和/或非人类哺乳动物细胞时,所述非人类哺乳动物MAR核苷酸序列使基因表达增加约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
10.根据权利要求9所述的一种方法,其中所述至少一个特征可以是一个DNA弯曲角度、大沟深度、小沟宽度、解链温度或它们的组合。
11.根据权利要求10所述的方法,其中DNA弯曲角度值包括在约3和约5度(基团的角度(radical degree))之间,优选在3.8和约4.4度之间,包括约3.9、约4.0、约4.1、约4.2和约4.3度。
13.根据权利要求10至12所述的方法,其中该解链温度在约55和约75℃之间,特别在约55和约62℃之间,包括约56、约57、约58、约59、约60和约61℃。
14.根据权利要求10所述的方法,其中DNA弯曲角度值在约4.0至约5.0度之间,包括约4.1、约4.2、约4.3、约4.4、约4.5、约4.6、约4.7、约4.8和约4.9度。
15.根据权利要求14所述的方法,其中所述DNA弯曲角度值是与范围从约50bp至约150bp,包括例如约80bp、约100bp和约120bp的窗口值相结合。
16.根据权利要求10所述的方法,其中该DNA弯曲角度值乘以一个窗口值是在约320和约1320之间,例如在约420和约1220、约520和约1120、约620和约1020、约720和约920之间,该大沟深度值乘以该窗口值是在约900和约4000之间、例如在约1200和3700、约1500和约3400、约1800和约3100、约2100和约2800之间,和/或小沟深度值乘以该窗口值是在约500和约2500之间,例如在约750和约2250、约1000和约2000、约1250和1750之间。
17.根据权利要求9至16所述的方法,进一步包括:
提供经实验证实的人类或非人类来源的MAR;
利用所述经实验证实的人类或非人类来源的MAR确定所述阈值。
18.一种MAR构建体,包括:
(a)(i)一种分离的核苷酸序列,包括一个已鉴定MAR的一个末端区域的至少一部分,以及
(ii)另一个分离的核苷酸序列,包括所述已鉴定MAR或另一种已鉴定MAR的约10%、约15%、约20%、约25%、约30%或者更多;或者
(b)(i)一种核苷酸序列,具有与(a)(i)的核苷酸序列约90%、约95%、约96%、约97%、约98%、约99%的序列一致性,以及
(ii)一种核苷酸序列,具有与(b)(i)的核苷酸序列约70%、约80%、优选约90%、约95%、约96%、约97%、约98%、约99%的序列一致性。
19.根据权利要求18所述的MAR构建体,其中(a)(ii)中所述核苷酸序列包括一个富含AT区。
20.根据权利要求18或19所述的一种MAR构建体,其中所述MAR构建体包括一种已鉴定MAR序列的核苷酸数量的少于约90%、优选少于约80%、甚至更优选少于约70%、少于约60%或少于约50%。
21.根据权利要求18至20中任一项所述的一种MAR构建体,其中所述MAR构建体包括与已鉴定MAR序列的核苷酸数量的约相同值或至少约110%
22.一种MAR构建体,包括:
连续排列的一种已鉴定的MAR序列的多个区域,其中一种顺序和/或一种方向不同于一种已鉴定MAR序列的顺序和/或方向。
23.根据权利要求22所述的MAR构建体,其中所述区域包括至少一个富含AT区域和至少一个结合位点区域。
24.根据权利要求22至23所述的MAR构建体,其中所述MAR构建体进一步包括至少一个结合位点区域的至少一部分,并且任选地,其中所述至少一个结合位点区域的所述至少一部分来自所述已鉴定MAR序列。
25.根据权利要求22至24所述的MAR构建体,其中所述已鉴定MAR序列是一种人MAR或一种小鼠MAR。
26.根据权利要求22至25所述的MAR构建体,其中所述已鉴定MAR序列的所述区域或其部分与该天然发生的人1_68MAR或小鼠MAR S4区域或者它们的部分具有约70%的序列一致性、约80%的序列一致性、约90%的序列一致性、约95%的序列一致性、或约98%的序列一致性。
27.根据权利要求22至26所述的MAR构建体,其中所述区域分别对应于一种天然发生的人1_68MAR的bp 1至1189、1190至1952以及1953至3600。
28.根据权利要求22至27所述的MAR构建体,其中这些区域是序列特异性区域。
29.一种MAR构建体,包括:
(a)一个核心核苷酸序列,包括
(i)一个已鉴定MAR序列的至少一个分离的或合成的富含AT区;或
(ii)与(a)(i)中富含AT区具有至少80%、85%、90%、95%、98%或99%的序列一致性的至少一个富含AT区,
(b)一个核苷酸序列,包括
与(a)中所述核苷酸序列相邻的至少一个DNA蛋白质结合位点,其中所述结合位点是
(i)另一个已鉴定MAR序列的一个DNA蛋白质结合位点,
(ii)(a)中该已鉴定MAR序列的一个DNA蛋白质结合位点,其中在该已鉴定MAR序列中,所述DNA蛋白质结合位点位于(a)的该核心核苷酸序列外部,或者
(iii)存在于(a)的核心内但与至少一个另外的DNA蛋白质结合位点相邻的一个第一DNA蛋白质结合位点,其中在(a)的核心内,该第一和至少一个所述另外的DNA蛋白质结合位点不相邻,或者
(iv)一种非MAR序列的一个DNA蛋白质结合位点。
30.根据权利要求29所述的MAR构建体,其中在将所述MAR构建体导入一种细胞内时,所述构建体使可操作性地连接于一种启动子的一种基因的表达增强约2、约3、约4、约5、约6、约7、约8、约9、约10倍或更多倍。
31.根据权利要求29或30所述的MAR构建体,其中所述MAR构建体长度少于500个核苷酸,优选少于约250个核苷酸,甚至更优选少于约200个、约150个或约100个核苷酸。
32.根据权利要求29至31所述的MAR构建体,其中(a)中所述核心核酸序列包括所述已鉴定MAR的至少一个TFBS,其中在该已鉴定MAR内,所述至少一个TFBS位于所述富含AT区的一侧或两侧。
33.根据权利要求29至32所述的MAR构建体,其中(b)中所述至少一个DNA蛋白质结合位点是一个TFBS,并且由1个、2个、3个、4个、5个或更多的取代、添加和/或缺失加以修饰,并且/或者是全部或部分合成的。
34.根据权利要求29至33所述的MAR构建体,其中位于所述富含AT区侧翼的所述TFBS被1个、2个、3个、4个、5个或更多的取代、添加和/或缺失修饰。
35.根据权利要求33或34所述的MAR构建体,其中所述TFBS是无已知天然对应物的一种优化的TFBS。
36.根据权利要求29至35所述的MAR构建体,其中所述结合位点选自下组,其组成为:SATB1、NMP4、HOX、HOXF、Gsh、CEBP、Fast1和SATB1或者这些转录因子中的两种或多种的一个组合。
37.根据权利要求29至36所述的MAR构建体,其中(b)的所述DNA蛋白结合位点的一个系列是与(a)的所述核酸序列相邻。
38.根据权利要求29至37所述的MAR构建体,其中所述MAR构建体是一个增强的MAR构建体。
39.一种表达系统,包括
以上权利要求中任一项所述的至少一个MAR构建体,并且,任选地,
一个启动子和至少一个限制性内切酶结合位点,用于在所述启动子控制下导入一个感兴趣的核苷酸序列。
40.一种细胞,包含以上权利要求中任一项所述的一个表达系统。
41.一种转基因非人类动物,包含以上权利要求中任一项所述的一个表达系统。
42.一个试剂盒,包括:
以上权利要求中任一项所述的表达系统,以及
如何使用所述表达系统的说明。
43.用于增强一种基因的表达的一种方法,包括
在一种启动子以及以上权利要求中任一项所述的一种MAR构建体的控制下提供包含所述基因的一种表达系统;
用所述表达系统转染一种细胞,以增强所述基因的表达。
44.根据权利要求43所述的一种方法,其中所述表达系统进一步增强所述基因表达的稳定性。
45.以上权利要求中任一项所述的MAR构建体、表达系统、转基因非人类动物、试剂盒和/或方法在生产蛋白质例如识别人病原体蛋白质或人细胞表面蛋白质的抗体,以及蛋白质诸如促红细胞生成素、干扰素或其他治疗性或诊断性蛋白质中的应用。
46.以上权利要求中任一项所述的MAR构建体、表达系统、细胞、试剂盒和/或方法在体外和/或体内基因治疗和/或在细胞或组织替代疗法中的应用。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82331906P | 2006-08-23 | 2006-08-23 | |
US60/823,319 | 2006-08-23 | ||
US60/953,910 | 2007-08-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101541959A true CN101541959A (zh) | 2009-09-23 |
Family
ID=41124116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200780029732 Pending CN101541959A (zh) | 2006-08-23 | 2007-08-22 | 用于增加转录的基质附着区(mar)及其应用 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101541959A (zh) |
ZA (1) | ZA200902011B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102911936A (zh) * | 2012-11-22 | 2013-02-06 | 福建省农业科学院生物技术研究所 | 两条水稻mar序列及其应用 |
CN104975009A (zh) * | 2014-04-01 | 2015-10-14 | 上海中信国健药业股份有限公司 | 一种新型的含mar核心片段的动物细胞表达载体 |
CN113383081A (zh) * | 2018-12-07 | 2021-09-10 | 赛尔希恩公司 | 基质附着区和促进基因表达的用途 |
CN114891829A (zh) * | 2022-05-24 | 2022-08-12 | 新乡医学院 | 一种肝特异性游离型表达载体和基因治疗载体及其应用 |
-
2007
- 2007-08-22 CN CN 200780029732 patent/CN101541959A/zh active Pending
-
2009
- 2009-03-20 ZA ZA200902011A patent/ZA200902011B/xx unknown
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102911936A (zh) * | 2012-11-22 | 2013-02-06 | 福建省农业科学院生物技术研究所 | 两条水稻mar序列及其应用 |
CN102911936B (zh) * | 2012-11-22 | 2014-08-27 | 福建省农业科学院生物技术研究所 | 两条水稻mar序列及其应用 |
CN104975009A (zh) * | 2014-04-01 | 2015-10-14 | 上海中信国健药业股份有限公司 | 一种新型的含mar核心片段的动物细胞表达载体 |
CN109576265A (zh) * | 2014-04-01 | 2019-04-05 | 三生国健药业(上海)股份有限公司 | 一种新型的含mar核心片段的动物细胞表达载体 |
CN104975009B (zh) * | 2014-04-01 | 2019-10-18 | 三生国健药业(上海)股份有限公司 | 一种新型的含mar核心片段的动物细胞表达载体 |
CN109576265B (zh) * | 2014-04-01 | 2020-08-28 | 三生国健药业(上海)股份有限公司 | 一种含mar核心片段的动物细胞表达载体 |
CN113383081A (zh) * | 2018-12-07 | 2021-09-10 | 赛尔希恩公司 | 基质附着区和促进基因表达的用途 |
CN114891829A (zh) * | 2022-05-24 | 2022-08-12 | 新乡医学院 | 一种肝特异性游离型表达载体和基因治疗载体及其应用 |
CN114891829B (zh) * | 2022-05-24 | 2023-09-26 | 新乡医学院 | 一种肝特异性游离型表达载体和基因治疗载体及其应用 |
Also Published As
Publication number | Publication date |
---|---|
ZA200902011B (en) | 2010-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019250224B2 (en) | Enhanced transgene expression and processing | |
KR20090053893A (ko) | 전사를 증가시키기 위한 기질부착부위(mars) 및 그의 용도 | |
CN104364380B (zh) | 核酸酶介导的使用大靶向载体的靶向 | |
de Freitas Nascimento et al. | Codon choice directs constitutive mRNA levels in trypanosomes | |
JP5396653B2 (ja) | Mar配列の多トランスフェクション手順による高効率の遺伝子導入および哺乳動物細胞における発現 | |
Wuest et al. | Genomics in mammalian cell culture bioprocessing | |
US11976308B2 (en) | CRISPR DNA targeting enzymes and systems | |
US20020132290A1 (en) | Coordinate cytokine regulatory sequences | |
MX2014015612A (es) | Integracion especifica de sitio. | |
KR20120099376A (ko) | 강화된 전이 유전자 발현과 공정 방법 및 그 산물 | |
CN104884467A (zh) | 在遗传修饰的哺乳动物细胞中生产治疗性蛋白质 | |
KR20120034715A (ko) | 고생산성 세포의 수립을 위한 발현 벡터 및 고생산성 세포 | |
KR20210042130A (ko) | Acidaminococcus sp. cpf1의 dna 절단 활성을 향상시키는 신규한 돌연변이 | |
Sun et al. | Molecular characterization of a human matrix attachment region that improves transgene expression in CHO cells | |
CN109312329A (zh) | 提高基因组序列修饰技术中的突变导入效率的方法、及其使用的分子复合体 | |
CN103834686A (zh) | 高效克隆筛选表达载体、其制备方法及用途 | |
CN101541959A (zh) | 用于增加转录的基质附着区(mar)及其应用 | |
KR102553990B1 (ko) | Hspa5 유전자의 프로모터 | |
CA3153005A1 (en) | Novel crispr dna targeting enzymes and systems | |
CA3236802A1 (en) | Serine recombinases | |
CN104975018B (zh) | 一种新型增强子及其应用 | |
CN112048522A (zh) | Tmem173基因人源化改造的动物模型的构建方法及其应用 | |
CN115698301A (zh) | 活性dna转座子系统及其使用方法 | |
CN108690833A (zh) | 重组哺乳动物细胞及目的物质的生产方法 | |
US20110262902A1 (en) | Cis-acting diversification activator and method for selective diversification of nucleic acids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1134687 Country of ref document: HK |
|
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20090923 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1134687 Country of ref document: HK |