CN1266282C - 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 - Google Patents

包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 Download PDF

Info

Publication number
CN1266282C
CN1266282C CNB028135717A CN02813571A CN1266282C CN 1266282 C CN1266282 C CN 1266282C CN B028135717 A CNB028135717 A CN B028135717A CN 02813571 A CN02813571 A CN 02813571A CN 1266282 C CN1266282 C CN 1266282C
Authority
CN
China
Prior art keywords
sequence
star
dna
gene
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB028135717A
Other languages
English (en)
Other versions
CN1524128A (zh
Inventor
阿里·彼得·奥特
阿图尔·莱奥·克鲁克贝格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chromagenics BV
Original Assignee
Chromagenics BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP01202581A external-priority patent/EP1273666A1/en
Application filed by Chromagenics BV filed Critical Chromagenics BV
Publication of CN1524128A publication Critical patent/CN1524128A/zh
Application granted granted Critical
Publication of CN1266282C publication Critical patent/CN1266282C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6897Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids involving reporter genes operably linked to promoters
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4702Regulators; Modulating activity
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4702Regulators; Modulating activity
    • C07K14/4705Regulators; Modulating activity stimulating, promoting or activating activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/635Externally inducible repressor mediated regulation of gene expression, e.g. tetR inducible by tetracyline
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8216Methods for controlling, regulating or enhancing expression of transgenes in plant cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8216Methods for controlling, regulating or enhancing expression of transgenes in plant cells
    • C12N15/8218Antisense, co-suppression, viral induced gene silencing [VIGS], post-transcriptional induced gene silencing [PTGS]

Abstract

本发明涉及调节序列的系统说明及鉴别。本发明提供了可以鉴别调节序列的筛选和检测方法。本发明还提供了调节序列及其在各种领域中的应用,例如但不限于蛋白质生产、诊断、转基因植物及动物,及治疗领域。

Description

包含基因转录调节特性的DNA序列及检测和 应用这些DNA序列的方法
本发明涉及医药和细胞生物学领域。本发明特别涉及调节基因转录的方式和方法。本发明还涉及确定一种DNA序列是否包含基因转录调节特性(gene transcription modulating quality)和/或基因转录阻抑特性(gene transcription repressing quality)的方式和方法。
随着各种基因组计划的进展,已经可以获得完整生物体基因组的序列。数据的涌现引起许多研究人员的兴趣。更值得注意的发现之一是观测到与简单生物体如果蝇基因组相比,人基因组不编码明显更多的基因。现在许多研究人员的注意力从基因的鉴别转变为确定基因表达和基因功能。这种技术的例子是DNA微阵列(microarrays),功能基因组学应用及蛋白质组学。这些技术的共同之处是围绕编码序列的功能和表达这个中心。然而,尽管我们对基因的了解急剧地增加,但对基因表达是如何被调节的了解限制了应用这种快速增加的知识的能力。例如在转基因植物和动物的产生和人体基因治疗的情况中。在这些应用中,外源核酸典型地被导入细胞中以获得编码序列的表达。通常外源核酸整合入细胞的基因组中是导入的序列功能延伸所必需的。然而,序列导入基因组中导致不可预测的表达,因为周围的DNA影响整合的序列的转录。这种不可预测性部分是由于至今仍不能提供具有足够遗传信息的导入序列以从周围DNA的影响转录作用中功能性分离整合的序列。另一方面是由于对周围DNA影响转录作用的了解不足。
本发明涉及具有顺式(in cis)影响基因转录能力的DNA序列。典型地,尽管不是必需地,所研究的序列本身不编码一种功能蛋白。已经鉴别了多种具有顺式影响基因转录能力的序列元件。这些元件的范围从启动子,增强子和沉默子到边界元件和基质附着区。
已经发现如此众多不同类型的调节序列这个事实给人以设计有效表达盒非常容易这一印象。然而,事实正相反。表达盒的设计仍常常通过反复试验而进行。获得外源基因在靶细胞或其子代中表达是十分可能的,然而,通常难以精确预测表达盒在靶细胞中展示的表达水平或表达持续性。
本发明提供了检测及分离新的转录调节元件的方式和方法。本发明提供了一种检测及任选地选择具有基因转录调节特性的DNA序列的方法,包括将多种包含片段的载体提供给一种转录系统,所述载体包含i)具有基因转录阻抑特性的一个元件,及ii)指导报道基因转录的一个启动子,所述方法还包括在所述转录系统中进行一个选择步骤,以鉴别具有所述基因转录调节特性的所述DNA序列。在一个优选的实施方案中,所述片段位于i)具有基因转录阻抑特性的所述元件和ii)指导所述报道基因转录的启动子之间。RNA聚合酶在与一个称为启动子的特异序列结合后引发转录过程,该序列代表RNA合成开始的位置。一种调节特性可以在给定的细胞类型和/或给定的启动子中增强从所述启动子的顺式转录。相同的DNA序列可以包含在一种细胞类型中或用一种启动子类型的增强特性,其也可以包含在另一种细胞类型中或用另一种类型启动子的另一种基因转录调节特性或没有这种基因转录调节特性。转录可以通过调节元件(或与其结合的一或多个蛋白质)对特定启动子的转录的直接作用而影响。然而,转录也可以通过间接作用而影响,例如因为调节元件影响一或多个其它调节元件的功能而间接影响转录。基因转录调节特性也可以包括一种稳定的基因转录性质。稳定是指观测的转录水平在经过至少30次细胞分裂后不明显改变。稳定特性在经过多次细胞分裂后表达特征应可预测的情况中有用。典型的实例是用外源基因转染的细胞系。其它实例是转基因动物和植物及基因治疗。通常,导入的表达盒功能在细胞分裂或植物或动物传代次数增加之后发生变化。在一个优选的实施方案中,稳定特性包括在转基因植物或动物的随后代次中保持基因转录的能力。当然在表达是可诱导的情况中,所述特性包括在转基因植物或动物的随后代次中保持可诱导性的特性。表达水平通常随着细胞分裂次数增加而急剧降低。用本发明的方法可以检测及任选地选择一种DNA序列,该序列能至少部分阻止转录水平随着细胞分裂数目增加而急剧降低。因此,在一个优选的实施方案中,所述基因转录调节特性包括一种稳定的基因转录特性。引人注目地,尽管所述方法不必测定转录的长期稳定性,但使用本发明的方法可以检测及任选地选择包含具有所述稳定的基因转录特性的DNA序列的片段。在本发明的一个优选实施方案中,所述基因转录调节特性包括一种稳定的基因转录增强特性。已经观测到在一具有感兴趣基因的表达载体中掺入具有基因转录调节特性的一个DNA序列,在表达载体整合入细胞基因组时导致所述感兴趣基因以更高水平转录,另外所述更高的基因表达水平也比不存在所述具有基因转录调节特性的DNA序列时更稳定。
在设计将感兴趣基因导入细胞基因组中及获得所述感兴趣基因表达的实验中,观测到以下结果。如果与所述感兴趣基因一起导入具有基因转录调节特性的一个DNA序列,可以检测到更多的克隆,所述克隆与所述DNA序列未与所述感兴趣基因一起导入的情况相比表达多于一定量的所述感兴趣基因的产物。因此,本发明还提供了一种在将所述感兴趣基因提供给所述细胞基因组时,增加表达多于一定水平的感兴趣基因的产物的细胞数目的方法,所述方法包括将包含基因转录调节特性的一个DNA序列与所述感兴趣基因一起提供给所述细胞。
检测具有基因转录调节特性的片段的可能性随着衍生片段的来源而变化。典型地,现有技术中没有关于具有所述特性的片段存在或不存在的认识。在那些情况中,许多片段不包含具有基因转录调节特性的DNA序列。在这些情况中,导入一个正规选择步骤,选择具有所述特性的DNA序列。这通过基于所述报道基因产物的可以正面或反面选择的特征而选择包含所述序列的载体而进行。例如,所述基因产物可以诱导荧光或颜色沉积(例如绿色荧光蛋白及衍生物,萤光素酶,或碱性磷酸酶)或者赋予抗生素抗性或诱导细胞程序死亡及细胞死亡。
本发明的方法特别适于检测及任选地选择一种DNA序列,所述DNA序列包含一种基因转录增强特性。已经观测到当至少一些所选择的DNA序列被掺入到包含感兴趣基因的表达载体中时,它们可以明显增加所述感兴趣基因在宿主细胞中的基因转录水平,甚至当载体不包含具有基因转录阻抑特性的一种元件时也是如此。这种基因转录增强特性在用外源基因转染的细胞系中或在转基因动物和植物中非常有用。
所述转录系统可以是一种无细胞体外转录系统。使用当前的自动化专业技术,这种无细胞系统可以是精确及快速的。然而就本发明而言,所述转录系统优选包含宿主细胞。使用宿主细胞可以保证检测及任选地选择的片段在细胞中是活性的。
在本发明的一种方法中,具有基因转录阻抑特性的一种元件在所使用的转录系统中阻抑从启动子的转录。所述阻抑作用不一定导致不可检测的表达水平。重要的是在存在或不存在阻抑的情况中表达水平的不同是可检测的及任选地可选择的。在一个优选的实施方案中,所述载体中的基因转录阻抑产生基因转录阻抑染色质。在这个优选的实施方案中,可以检测及任选地选择能至少部分抵消基因转录阻抑染色质形成的DNA序列。一方面,能至少部分抵消基因转录阻抑染色质形成的DNA序列包括一种稳定的基因转录特性。在一个优选的实施方案中,参与基因转录阻抑的DNA序列是由一种蛋白质复合物识别的一种DNA序列,其中所述转录系统包含所述复合物。优选所述复合物包含一种异染色质结合蛋白(包括HP1),一种Polycomb-group(Pc-G)蛋白,一种组蛋白脱乙酰酶活性或MeCP2(甲基-CpG-结合蛋白)。许多生物体包含一或多种这些蛋白质。这些蛋白质在其它物种中也常呈现活性。所述复合物因此也可以包含来自两或多个物种的蛋白质。所述的已知染色质相关蛋白复合物能在许多碱基对上传达远程的阻抑。所述复合物也参与在细胞分裂时将基因的受阻抑状态稳定移至子细胞。以此方式选择的序列能在许多碱基对上传达远程的抗阻抑(van der Vlag等,2000)。
所使用的载体可以是适于克隆DNA及可用于转录系统中的任何载体。当使用宿主细胞时,优选所述载体是一种附加型复制载体。以这种方式,避免了不同的载体整合位点的影响。在载体整合位点两侧的DNA元件可对启动子的转录水平有作用,从而模拟包含具有基因转录调节特性的DNA序列的片段的作用。在一个优选的实施方案中,所述载体包含一个来自Epstein-Barr病毒(EBV)的复制起点OriP,及一个核抗原(EBNA-1)。这种载体在合适条件下能在许多类型的真核细胞中复制,并装配成染色质。
本发明的另一方面提供了一种DNA序列,其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物;或者ii)一种合成的DNA序列或者通过基因工程构建的DNA序列,该DNA序列是可以通过本发明方法检测、选择及任选地克隆的一种阻抑抑制序列。本发明的另一方面提供了一种DNA序列,其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物;或者ii)一种合成的DNA序列或者通过基因工程构建的DNA序列,该DNA序列通过本发明方法检测、选择及任选地克隆。优选地,所述DNA序列包括表4A所示序列或其功能同系物。表4所示的一个序列的功能同系物是用表4(表4A或4B)所提供的信息衍生的一个序列。例如,一个序列可以通过在表4所示序列中或从其缺失,修饰和/或插入碱基而衍生自表4的序列,其中所述衍生的序列包含与表4所示序列性质相同的活性,但非必需在数量上相同。功能同系物还可以是一种序列,其包含来自表4所示两或多个序列的一部分。合成的DNA序列是一种不是直接或间接衍生自生物体中存在的一种序列的序列。例如,包含果蝇scs或scs′序列的一种序列不是合成序列,即使当所述scs或scs’序列是人工产生时也是如此。
在一个方面中,本发明涉及更高级基因调节的更多知识,及利用这些知识的方式和方法。尽管已经鉴定了一些指导及调节单个基因转录的元件如传统的启动子及增强子,但对控制完整染色体区域的基因转录能力的更高级调节元件还未给予更多关注。关于这种更高级元件的大多数知识来自对胚胎发生的研究。在胚胎发生期间,细胞变为定向至不同的发育途径。一旦定向,细胞几乎很少改变其命运,即使在多次细胞分裂之后也是如此。
越来越认识到细胞类型特异性基因转录模式的稳定传递不依赖于启动子,而是通过DNA及相关蛋白(称为染色质)结构的变化介导。在染色体水平的基因调节包括DNA修饰(例如甲基化),组蛋白(例如乙酰化和/或甲基化),及远缘染色体元件之间的远程相互作用。
染色质模板是DNA,组蛋白及非组蛋白蛋白质的一种高度浓缩的复合物,其能将全部基因组包装入细胞核中,同时使特异基因合适地转录。真核染色体不是激活基因转录的统一模板。不同类型的染色质和染色质区域可以区分开,其有差异地影响基因转录。所谓的异染色质区域据认为是“闭合的”染色质结构,而常染色质与一种更扩散及“开放的”染色质结构相关。常染色质区域可以进行结构改变,产生浓缩性更大或更小的结构,称作兼性异染色质及常染色质。兼性常染色质或异染色质的形成据信代表染色质介导的基因调节的根本机制,其以细胞类型特异性方式保持基因处于激活或阻抑状态。
在所有真核细胞中,已经鉴别出若干染色质相关蛋白复合物参与保持细胞类型特异性,其中之一是Polycomb group(PcG)复合物。PcG复合物参与基因的稳定阻抑,其中染色质结构的变化据信起重要作用。相似地,称为trithorax group(TrG)的另一类蛋白质已经鉴别为能抵消PcG蛋白的作用。TrG蛋白参与保持基因转录。基于它们各自的作用模式,PcG和TrG蛋白因此代表一种细胞记忆系统,其对基因转录模式的可遗传传递很重要。
PcG及TrG复合物怎样与其靶基因相关联仍未知。遗传研究已经鉴定了保持基因处于转录失活状态的顺式作用调节序列。由这些顺式作用调节序列介导的沉默依赖于存在功能性PcG蛋白,因此这些序列称为PcG效应元件(PRE)。经鉴别这些序列参与PcG介导的染色质阻抑。然而迄今为止,(在脊椎动物和植物中)还未发现包含介导染色质阻抑所需的全部序列信息的完整PRE。
另外,迄今为止还未能以相干方式研究具有远程阻抑能力的序列。这很大程度上是由于不能系统筛选这类远程作用序列所致。一方面,本发明提供了系统检测DNA中的这类序列的方式和方法。在一个实施方案中,本发明提供了一种鉴别具有基因转录阻抑特性的DNA序列的方法,包括:
—提供测试核酸的集合;
—产生表达载体的集合,所述表达载体包含测试核酸和在一启动子转录控制下的第一种报道基因;
—将所述表达载体集合提供给细胞;
—选择一种细胞或其含有载体的子代,其中所述第一种报道基因的转录被阻抑;及
—在所述细胞中鉴别所述测试核酸。
所述鉴别的测试核酸包含阻抑所述启动子功能的能力,并因此包含一种基因转录阻抑特性。优选地,所述鉴别的测试核酸也被回收及克隆。所述特性至少部分包括当与所述启动子物理连接时,与不存在具有所述特性的DNA序列时的水平相比能降低从所述启动子的转录水平的能力。在一个优选的实施方案中,所述基因转录阻抑特性包含一种基因转录阻抑染色质特性,即其中所述转录水平降低是具有基因转录阻抑构型的染色质所致。这种构型优选包含所述启动子。然而,所述构型还可以包含一种增强子或类似物从而至少部分失活所述增强子对所述启动子的转录增强作用。在一个特别优选的实施方案中,具有基因转录阻抑染色质特性的所述DNA序列包含一个类polycombgroup效应元件(polycomb-group-like responsive element)。
使用上述方法可以回收一些核酸序列,所述核酸序列具有降低启动子的转录水平的能力,因此这些核酸序列包括基因转录阻抑特性。具有相似功能的序列可以相互对比序列相似性,由此可以推导出具有基因转录阻抑特性元件的一或多个共有序列,如类polycomb group效应元件。另外,考虑到已知生物体基因组的全部序列而且不久将更加了解,因此可以筛选这些基因组或其部分,并预测这些序列在基因组中的出现。对具有基因转录调节特性和/或基因转录阻抑特性的DNA序列在基因组中的出现和位置的认知将极大地增加对基因组中更高级(higher order)基因转录调节的认知。
Polycomb-group效应元件是能通过应答一或多个Polycomb group蛋白与所述元件直接和/或间接相互作用而阻抑启动子转录的一种元件。类Polycomb-group效应元件是一种Polycomb-group效应元件,或者是能通过一或多种蛋白质与所述元件的直接和/或间接相互作用而阻抑启动子转录的一种元件,其中所述一或多种蛋白质不属于Polycomb-group,但其中作为所述相互作用的结果形成了基因转录阻抑染色质。这类蛋白质的例子是染色质相关蛋白如异染色质蛋白(HP1)(Eisenberg等,1990)。阻抑基因活性的另一种染色质相关蛋白是甲基-CpG-结合蛋白,MeCP2(Nan等,1997)。在一个优选的实施方案中,本发明的类Polycomb-group效应元件包括长距离阻抑启动子转录的能力,优选在超过2000个碱基对的距离内(Vlag等,2000)。
测试核酸的集合可以通过许多方式产生。使用人工序列作为测试核酸,可以获得具有基因转录阻抑特性的共有序列。不同的特性可以包含不同的共有序列。优选地,所述集合产生自染色体DNA。以此方式,可发现包含在染色体中天然存在的序列的一种基因转录阻抑特性。这样的优势是这些特性在染色体中的位置可以确定,因此可以确定其对更高级基因转录的影响。
报道基因是编码一种表达产物的一种基因,所述表达产物的存在可以在细胞中直接或间接地检测到。在检测基因转录阻抑特性的方法中,表达载体转移至细胞中会导致所述报道基因的表达。然而,在测试核酸包含一种基因转录阻抑特性如类Polycomb-group效应元件时,在所述细胞中的表达将会被抑制,从而导致所述报道基因的表达至少部分降低。能阻抑所述启动子转录的核酸的存在与否因此可通过在所述细胞中检测所述表达产物而检测,从而检测量降低或未检测到表示存在基因转录阻抑特性。报道基因可以编码一种荧光报道蛋白,因此通过荧光测定方法例如在流式细胞计量仪中可以检测降低的表达。显示没有荧光或低荧光的细胞可以使用荧光活性细胞分选仪分选,表达载体和/或测试核酸例如通过扩增反应而从中分离。优选地,所述第一种报道基因包含一种可选择的报道基因,其表达直接或间接为所述细胞提供与不表达或低水平表达所述第一种报道基因的细胞相比的一种生长劣势。在筛选具有基因转录阻抑特性的DNA序列时,优选地,所述第一种报道基因的表达对所述细胞有直接或间接毒性。这种毒性表达产物的非限制性实例是蓖麻毒蛋白或其毒性变体。在另一个实例中,所述第一种报道基因编码一种诱导细胞程序死亡的基因产物。优选地,所述诱导细胞程序死亡的基因产物包含腺病毒13S E1A或其功能等价物(Breckenridge和Shore,2000)。在另一个实施方案中,所述诱导细胞程序死亡的基因产物包括细胞凋亡素(apoptin)或其功能等价物(Pietersen和Noteborn,2000)。
另一个实例是编码所谓自杀产物如单纯疱疹病毒胸苷激酶(HSV-tk)的一种基因。将丙氧鸟苷(gancyclovir)加入表达HSV-tk的细胞培养物中会导致在这些细胞中形成一种毒性物质并因此杀死这些细胞。在一个特别优选的实施方案中,所述自杀基因包含胞嘧啶脱氨酶。胞嘧啶脱氨酶将胞嘧啶转变为尿嘧啶。这种酶活性在原核生物及低等真核生物中发现,但在高等真核生物中不存在。该基因与前体药物5-氟胞嘧啶(5-FC)联合用作代谢自杀基因。胞嘧啶脱氨酶能将非毒性5-FC转变为5-氟尿嘧啶,后者通过破坏DNA合成而杀死细胞,从而引发细胞程序死亡(Mullen等,1992;Wei和Huber,1996)。
控制所述第一种报道基因转录的启动子可以是在所述细胞中是活性的或者可以被激活的任何启动子。通过选择一种特定的启动子,可以选择一种基因转录阻抑特性如能阻抑所述特定启动子转录的一种类Polycomb-group效应元件。以这种方式可以选择特异性阻抑所述启动子所归属的那类启动子的特性。在一个优选的实施方案中,所述启动子包括这样的启动子,其活性可以在提供一种信号给包含所述启动子的细胞时而被诱导。这种诱导型启动子优选包含一种四环素应答启动子。所述信号是四环素,强力霉素及等价化合物。这种启动子也可以适应在真核细胞中的四环素应答(Yin等,1996)。当加入四环素或其等价物时诱导或阻抑基因表达的启动子和反式作用分子是可获得的。
用本发明的表达载体转染的细胞可以,以典型低频率而且由于一些与具有基因转录阻抑特性的DNA序列的存在不相关的原因,而不表达可检测数量的所述第一种报道基因的表达产物。这可以例如是由于重组事件破坏了所述第一种报道基因的编码序列所致。在本发明的一个优选实施方案中,所述表达载体的集合还包含第二种报道基因。所述第二种报道基因的表达优选地在第二种启动子的控制下。检测所述第二种报道基因的表达产物表达的方法可以用于证实所述测试核酸的表达阻抑活性,从而至少部分降低错误地不表达所述第一种报道基因的细胞数。在一个优选的实施方案中,所述第二种报道基因用于选择包含一种表达盒的细胞。以这种方式,不包含所述表达盒的细胞可以容易地被去掉。为此,所述第二种报道基因的所述表达产物优选包含一种阳性显性可选择的报道基因。优选地,所述阳性显性可选择的报道基因编码一种表达产物,所述表达产物能赋予对毒性化合物的抗性。非限制性实例是G418抗性和潮霉素抗性。
鉴于基因转录阻抑特性可以抑制转录,优选在这个实施方案中,表达载体还包含能抵消具有基因转录阻抑特性的DNA序列的转录阻抑作用的至少一个具有基因转录调节特性的DNA序列。优选地,表达载体中所述转录抵消元件的放置使得其有效干扰所述基因转录阻抑特性对所述第二种报道基因转录水平的降低作用。在一个优选的实施方案中,具有基因转录调节特性的所述DNA序列功能性地分离包含所述第一种和第二种报道基因的表达盒。优选地,所述第二种报道基因(及控制所述第二种报道基因转录的启动子)的两侧为具有基因转录调节特性的DNA序列。具有基因转录调节特性的DNA序列例如是表1和表2中列出的所谓STAR元件。
本发明的方法导致克隆及鉴别了包含基因转录调节和/或基因转录阻抑特性的许多元件。这种元件可含有不相关核酸,其在进行所述特性中无帮助,例如不参与基因转录阻抑染色质的形成。这种元件中的功能序列可以通过本领域已知的各种方法描绘。在一个实施方案中,在具有基因转录调节或基因转录阻抑特性的DNA序列中产生缺失和/或取代。在本发明的方法中测试以这种方式修饰的DNA的活性,这可以使用单一的修饰的核酸进行,或者通过产生包含所述修饰的核酸的测试核酸的集合进行。本发明的DNA序列内的功能序列的阐明使得能够阐明具有基因转录调节和/或基因转录阻抑特性的元件的共有序列。鉴于有一些类polycomb group复合物均包含不同的功能性和表达模式,因此预期使用本发明方法可以发现一种以上类型的共有序列。相似地,预期对包含基因调节特性的元件也可发现一种以上类型的共有序列。本发明因此还提供了分离的和/或重组的核酸的文库,所述核酸包含基因转录调节和/或基因转录阻抑特性如类Polycomb-group效应元件。在一个实施方案中,所述文库包含分离的和/或重组的核酸,所述核酸包含相同的共有序列。在一个优选的实施方案中,所述文库包含一种以上类型的共有序列。所述文库可以用于例如确定一种给定的DNA分子是否包含DNA调节特性。在一个优选的实施方案中,所述文库包含一个染色体的基本上所有的具有基因转录增强功能的元件、包含稳定的基因转录特性的元件和/或具有基因转录阻抑特性的元件如类Polycomb-group效应元件。结合对这些元件在染色体上位置的认知,使本领域技术人员可以预测对天然存在于所述染色体上的基因的基因表达的更高级调节,及预测通过重组方式导入到所述染色体中的基因(外源核酸)。这种预测可以用于例如选择所述染色体上用于插入外源DNA的合适候选位置。合适位置可以是一种预期在某一细胞、细胞类型和/或组织中特异性表达的位置。优选地,所述染色体包括21号染色体或22号染色体。在一个特别优选的实施方案中,细胞中包含基因转录调节或基因转录阻抑特性的所有DNA序列均在文库内。在这个实施方案中,可以使用完整基因组预测合适的候选位置。在一个实施方案中,所述文库已经在从植物至人的不同物种细胞系中产生。在不同的细胞系和/或物种中,能与具有基因转录阻抑特性的DNA序列相互作用的不同蛋白质(或蛋白质复合物)被表达,产生具有基因转录阻抑特性的不同DNA元件。相似地,与包含基因转录调节特性的DNA序列直接或间接相互作用的不同蛋白质被表达。因此,文库的组成是细胞类型依赖性的,并依赖于相关蛋白的存在。在类polycomb group效应元件的情况中也是这样。如果HP1在细胞类型1中表达,则依赖于HP1的元件可通过本发明的方法检测。如果HP1不在细胞类型2中表达,则用本发明的方法不能检测已经从细胞类型1中回收的元件。
在本发明的一个方面中,所述文库包含至少一个能至少部分抵消基因转录阻抑染色质形成的元件。结合关于具有基因转录阻抑特性的DNA序列在染色体或基因组上的位置的认知,对这种抵消元件位置的认知可以更精确地预测对所述染色体或基因组中(插入的)基因的基因转录的更高级调节。优选地,所述文库还包含其它转录调节元件如增强子和沉默子。尽管这些序列对更高级的基因调节的影响有限,但这些其它序列的位置信息进一步增加了对基因组中的表达导入的外源序列的适当位置的预测的精确性。优选地,所述文库包含一个染色体的基本上所有的具有基因转录调节特性的DNA序列和/或所有的其它调节序列。
鉴于一个染色体典型地由几千万个碱基组成,优选地,将所述文库可以提供的更高级基因调节的信息掺入一个至少部分自动化的系统中。
本发明文库的另一种应用是在定向修饰一个染色体上的序列时预测基因转录,由此突变“更高级”的调节序列。例如,本发明的一或多个类polycomb-group效应元件和/或所述染色体上的其它调节元件可以被突变。这预期会改变在所述类polycomb-group效应元件和/或其它表达调节元件邻近的基因的转录水平。
本发明的文库或系统的再一个应用是预测得自基因组突变的基因表达。在突变导致基因转录改变的情况中,检测到这种改变的基因转录可以表明存在所述天然发生的突变。这种方法在例如诊断分析中待测的序列或蛋白质数目有限的情况中是有用的。这在微阵列方法中尤为重要,因为在这些方法中待测的表达序列的数目受一个阵列最大可以持有的序列数目的限制。使用本发明的方式和方法,可以限制在微阵列方法中待测序列的数目。
本发明的系统或文库的另一个应用是揭示药物靶点。调节元件,不管它们是否是“更高级的”元件,均通过可以与其结合的蛋白质(复合物)而发挥功能。本发明的系统可以用于确定药物的干扰特定蛋白质(复合物)的结合或功能的定向是否有把握改变特定基因的表达。
本发明还提供了通过本发明方法可获得的一种DNA序列,其具有一种基因转录阻抑特性。在一个优选的实施方案中,具有基因转录阻抑特性的所述DNA序列衍生自脊椎动物或植物。更优选地,具有基因转录阻抑特性的所述DNA序列包含表4B所示序列或其功能同系物。也可以提供具有本发明DNA序列的一种DNA构建体,或者修饰这种DNA序列。在一个优选的实施方案中,提供了一种DNA构建体,其包含一个可操纵地与一感兴趣核酸相连的启动子。优选地,具有基因转录调节和/或阻抑特性的所述DNA序列的一种特性的活性量依赖于所述DNA序列在所述构建体中相应于所述启动子的方向。优选地,所述基因转录调节和/或阻抑特性依赖于一个信号的存在。优选地,所述信号包含一种DNA结合蛋白。优选地,所述信号包含一种人类免疫缺陷病毒TAT蛋白。
具有基因转录调节或基因转录阻抑特性的DNA序列的应用之一当然是调节感兴趣基因的转录。感兴趣基因的转录可以通过改变所述基因邻近的序列而改变,由此提供或除去具有所述特性的DNA序列。特异性表达特征可以通过将(部分)DNA序列与基因转录调节和/或基因转录阻抑特性组合而设计。例如,当将所述载体导入所述靶细胞时,在表达载体中具有稳定基因转录特性的序列的复制会改善在靶细胞或子代中表达的稳定性。通过组合具有基因转录调节特性的DNA序列,可以产生在种类或数量或这两方面均改变的基因转录调节特性。
也可以设计具有所需基因转录调节和/或基因转录阻抑特性的DNA序列。DNA结合蛋白与其它蛋白及DNA序列决定了DNA序列的特性。可以将一或多种结合其它蛋白质的DNA序列插入具有一种特性的一种DNA序列中。通过使结合蛋白发生结合,可以干扰或指导所述特性,因此产生具有所需特性的DNA序列。当然也可以从具有特定基因转录调节和/或基因转录阻抑特性的DNA序列中除去蛋白质结合位点,从而改变所得DNA序列的特性。也可以组合添加及去除措施。可以通过本发明所述的检测方法选择特定的基因转录调节和/或基因转录阻抑特性。例如可以合成具有可诱导基因转录调节和/或基因转录阻抑特性的DNA序列。通过例如在具有基因转录阻抑特性的DNA序列中包括TAT结合元件,可以在包含TAT的细胞中至少部分失活基因转录阻抑特性。相似地,可获得在有或无信号存在的情况下只结合其靶序列的DNA结合蛋白。这种蛋白质的非限制性实例是TET阻抑物及其各种突变体,lac阻抑物,类固醇激素受体,视黄酸受体及衍生物。可以例如设计具有细胞类型特异性基因转录调节和/或基因转录阻抑特性的DNA序列。例如,在上述TAT实施例的情况中。可以使所述的DNA序列特异于表达TAT的HIV感染的细胞。或者,可以产生特异于以细胞类型特异性方式表达的蛋白质复合物的DNA序列。
包含具有基因转录调节和/或基因转录阻抑特性的DNA序列的表达构建体,适于在包含一个以上拷贝的所述表达构建体的细胞中获得所述构建体的表达。当表达构建体存在于所述细胞的基因组中时,及当表达盒以一个以上拷贝存在于所述细胞中时也是这样。另外,即使当它们以一个以上拷贝整合入相同位置中时也起作用。
在本发明的一个优选实施方案中,具有基因转录调节特性的所述DNA序列包含一种所谓的STAR(稳定抗阻抑作用,StabilizingAnti-Repression)序列。本文所用STAR序列是指一种包含一或多种所提及的基因转录调节特性的DNA序列。
可以利用本领域的一些方法从共享某一共同特征的DNA序列家族中提取序列标识符(identifier)。这些序列标识符随后可以用于鉴别共享一或多个标识符的序列。共享这种一或多个标识符的序列很可能是同一序列家族的成员,即可能共享该家族的共同特征。在本申请中,使用大量具有STAR活性的序列(称为STAR列)以获得序列标识符(模式),其是具有STAR活性的序列的特征。这些模式可以用于确定一个测试序列是否可能含有STAR活性。一方面,本发明提供了一种检测在一大约50-5000碱基对的核酸序列中STAR序列存在情况的方法,包括测定所述序列中至少一种序列模式的出现频率,并确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率。原则上,任何方法均适于确定一种序列模式是否是STAR序列的代表。本领域中存在许多不同的方法。在本发明的一个优选实施方案中,确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率的步骤,包括确定所述至少一种序列模式的出现频率在所述至少一个STAR序列和至少一个对照序列之间显著不同。原则上,任何显著性差异均可判别存在STAR序列。然而,在一个特别优选的实施方案中,所述至少一种序列模式的出现频率在所述至少一个包含STAR序列的序列中明显高于在所述至少一个对照序列中。本发明中已经鉴别了相当多的包含STAR序列的序列。可以使用这些序列测试一种模式在判别对照序列和包含STAR序列的序列时是否有效。使用所谓的判别分析,可以基于一个物种中的任何STAR序列集确定最佳的判别性序列模式或其组合。因此,优选地,基于所述至少一个包含STAR序列的序列和一个对照序列之间的一种希望的及优选最佳的判别而选择至少一种所述模式。一种希望的判别可以是通过生物信息学获得的与所述模式相关的某一显著性因子。
在一个优选的实施方案中,将一种序列模式在测试核酸中的出现频率与其在一种已知含有STAR序列的序列中的出现频率相比较。在这种情况中,如果出现频率相似,则认为该模式代表包含STAR序列的序列。在一个优选的实施方案中,使用另一种标准。将一种模式在一种包含STAR序列的序列中的出现频率与所述模式在一种对照序列中的出现频率相比较。通过比较这两种频率,可以确定针对所分析的每种模式,其在包含STAR序列的序列中的频率是否显著不同于其在对照序列中的频率。在这个实施方案中,如果所述模式在至少一个包含STAR序列的序列中的出现频率明显不同于相同模式在一对照序列中的出现频率,则认为该序列模式代表一个包含STAR序列的序列。通过使用大量包含STAR序列的序列,增加了可以确定有统计学差异的模式的数目,因此扩大了其出现频率代表包含STAR序列的序列的模式的数目。优选地,所述出现频率代表所述至少一种序列模式在至少2个包含STAR序列的序列、优选至少5个包含STAR序列的序列、更优选至少10个包含STAR序列的序列中的出现频率。更优选地,所述出现频率代表所述至少一种序列模式在至少20个包含STAR序列的序列中的出现频率。在一个特别优选的实施方案中,所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。
代表包含STAR序列的序列的模式也依赖于所用对照核酸的类型。所用对照序列的类型优选地基于待检测其中存在STAR序列的序列而选择。在一个优选的实施方案中,所述对照序列包含一个随机序列,其包含与所述至少一个包含STAR序列的序列相似的AT/CG含量。在另一个优选的实施方案中,所述对照序列衍生自与包含所述STAR序列的所述序列相同的物种。例如,如果需检查一种测试序列是否存在在植物细胞中是活性的STAR序列,则优选地所述对照序列也衍生自一种植物细胞。相似地,为测试在人体细胞中的STAR活性,对照序列优选也衍生自人体基因组。在一个优选的实施方案中,所述对照序列包含50%-150%的所述至少一个包含STAR序列的序列的碱基。在一个特别优选的实施方案中,所述对照序列包含90%-110%的所述至少一个包含STAR序列的序列的碱基。更优选包含95%-105%的碱基。
一种模式可以包含多于2个的任何数目的碱基。优选地,至少一种序列模式包含至少5个,更优选至少6个碱基。在另一个实施方案中,至少一种序列模式包含至少8个碱基。在一个优选的实施方案中,所述至少一种序列模式包含表9和/或表10所示模式。一种模式可由一系列连续碱基组成。然而,所述模式也可以包含由一些不具判别性或仅具部分判别性的碱基中断一或多次的碱基。部分判别性的碱基例如是嘌呤。
优选地,使用一种功能分析检验STAR活性的存在。本发明提出了若干确定一种序列是否具有STAR活性的方法。如果所述序列能进行至少一种以下功能,则证实其具有STAR活性:(i)至少部分抑制包含本发明基因转录阻抑元件的序列的作用,(ii)至少部分阻断染色质相关的阻抑,(iii)至少部分阻断增强子活性,(iv)与单独的相同核酸相比,赋予可操纵连接的编码转录单位的核酸以(iv-a)一种更高的转录可预测性,(iv-b)一种更高的转录,和/或(iv-c)一种在一段时间内更高的转录稳定性。
在本发明中鉴别的包含STAR活性的大量序列,展现出可以产生和鉴别包含相同种类而非必需相同量的活性的序列的各种可能性。例如,本领域技术人员可以改变本发明鉴别的序列并测试改变的序列的STAR活性。这种改变的序列因此也是本发明的一部分。改变可以包括在序列中缺失,插入及突变一或多个碱基。
在长度为400个碱基的序列段中鉴别出包含STAR活性的序列。然而,预期要保留STAR活性这400个碱基不是全部需要的。本领域熟知赋予400-5000个碱基之间的一个片段以某一特性的序列的划界方法。包含STAR活性的片段的最小长度为大约50个碱基。
表9和表10列出了已发现在包含STAR活性的核酸分子中过量存在(over represented)的6个碱基的序列模式。这种过量存在被认为是STAR序列的代表。这些表是从一个65个STAR序列的家族中产生的。从不同系列的STAR序列中或从较小或较大系列的STAR序列中可以产生相似的表。一种模式如果在所述STAR序列中与在不包含STAR元件的序列中相比过量存在,则代表一种STAR序列。这可以是一个随机序列。然而,为排除不相关的偏差,包含STAR序列的序列优选地与一个基因组或其显著部分相比较,优选脊椎动物或植物基因组,更优选人类基因组。基因组的一个显著部分是例如一个染色体。优选地,包含STAR序列的序列及所述对照序列衍生自相同物种。
越多的STAR序列用于确定序列模式的出现频率,则过量存在或存在量不足的所述模式越多地代表STAR。鉴于可以由核酸表达的许多功能特征是通过与其结合的蛋白质分子介导的,优选的是所述代表模式在STAR序列中是过量存在的。这种过量存在的模式可以是这种蛋白质分子的结合位点的一部分。优选地,所述出现频率代表所述至少一种序列模式在至少2个、优选至少5个、更优选至少10个包含STAR序列的序列中的出现频率。更优选地,所述出现频率代表所述至少一种序列模式在至少20个包含STAR序列的序列中的出现频率。在一个特别优选的实施方案中,所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。优选地,所述包含STAR序列的序列包含至少一个图26所示序列。
STAR活性是图26所示序列共有的特征。然而,这并不意味着它们必需全部共享相同标识符的序列。非常可能存在不同的标识符。标识符可以将这一共同特征赋予含有其的片段,但这不是必需的。通过使用更多的包含STAR活性的序列来确定一种序列模式的出现频率,可以选择比其它序列在这种STAR序列中更通常存在或不存在的模式。以这种方式可以发现在STAR序列中非常过量存在或存在量不足(less represented)的模式。通常过量存在或存在量不足的模式更合适鉴别测试集中的候选STAR序列。使用一系列过量存在或存在量不足的模式的另一种方式是确定哪一种模式或模式组合最适合鉴别一个序列中的STAR。使用所谓的判别统计学,我们已经鉴别了一系列模式,其在鉴别包含STAR元件的序列中表现最佳。在一个优选的实施方案中,用于检测STAR序列的至少一种所述序列模式包含序列模式GGACCC,CCCTGC,AAGCCC,CCCCCA和/或AGCACC。在另一个实施方案中,用于检测STAR序列的至少一种所述序列模式包含序列模式CCCN{16}AGC,GGCN{9}GAC,CACN{13}AGG,CTGN{4}GCC。
STAR序列列表也可以用于确定其中的一或多个共有序列。本发明因此还提供了针对STAR元件的共有序列。这个共有序列当然可以用于鉴别一个测试序列中的候选STAR元件。
另外,一旦在一种脊椎动物中鉴别出一种包含STAR元件的序列,可以使用该序列通过序列同源性以在属于脊椎动物的其它物种中鉴别包含STAR元件的序列。优选地,使用一种哺乳动物STAR序列筛选其它哺乳动物物种中的STAR序列。相似地,一旦在一种植物物种中鉴别出一种STAR序列,可以使用该序列在其它植物物种中筛选具有相似功能的同源序列。本发明一方面提供了可通过本发明方法获得的一种STAR序列。本发明进一步提供了一个STAR序列集合。优选地,所述STAR序列是脊椎动物或植物STAR序列。更优选地,所述STAR序列是一种哺乳动物STAR序列或被子植物(单子叶植物如水稻,或双子叶植物如Arabidopsis)序列。更优选地,所述STAR序列是一种灵长类动物和/或人类STAR序列。
可以使用包含STAR活性的一系列序列确定一个测试序列是否包含STAR元件。如上所述,有许多不同的方法可以为此目的使用这一系列序列。在一个优选的实施方案中,本发明提供了确定一个大约50-5000碱基对的核酸序列是否包含STAR序列的一种方法,所述方法包括产生第一个序列模式表,其包含所述模式在本发明的STAR序列集合中的出现频率;产生所述模式第二个表,其包含所述模式在至少一种参比序列中的出现频率;选择出现频率在这两个表之间不同的至少一种模式;确定至少一种所述选择的模式在所述大约50-5000碱基对的核酸序列内的出现频率;及确定在所述测试核酸内的出现是否代表所述选择的模式在所述STAR序列集合的出现。或者,所述确定包括确定在所述测试核酸中的出现频率是否代表所述选择的模式在所述STAR序列集合中的出现频率。优选地,所述方法还包括使用本发明方法确定所述候选STAR是否包含一种基因转录调节特性。优选地,所述STAR集合包含图26所示序列。
另一方面,本发明提供了通过本发明方法获得的一种包含一种STAR序列的分离的和/或重组的核酸序列。
如上所述,STAR序列可以通过定向方式发挥其作用,即更多地针对含有其的片段的一侧而非另一侧。另外,STAR活性可以通过增加STAR元件的数量而增强。后者提示一个STAR元件可能包含一或多个具有STAR活性的元件。鉴别能将STAR活性赋予含有其的片段的序列的另一种方式包括从脊椎动物或植物序列中选择一种具有STAR活性的序列,并鉴别在选择的序列两侧的序列在另一个物种中是否是保守的。这种保守的侧翼序列很可能是一种功能序列。因此本发明一方面提供了鉴别包含STAR元件的序列的一种方法,包括从脊椎动物或植物物种中选择一个包含STAR元件的大约50-5000碱基对的序列,并鉴别在所述物种中所述选择的序列两侧的序列在至少一种其它物种中是否是保守的。本发明因此进一步提供了检测在一个大约50-5000碱基对的核酸序列中STAR序列存在情况的一种方法,包括在一种物种细胞的染色体的一部分中鉴别包含STAR序列的一种序列,并检测所述序列与一个不同物种染色体的序列之间的显著同源性。优选地,所述物种包括植物或脊椎动物物种,优选为哺乳动物物种。本发明还提供了检测一种脊椎动物或植物物种的一大约50-5000碱基对的核酸序列中STAR元件的存在情况的一种方法,包括鉴别所述核酸序列的侧翼序列在至少一种其它物种中是否是保守的。
重要的是要注意到使用生物信息学信息检测包含STAR序列的序列的存在的本发明方法性质上是可重复的。使用本发明的方法鉴别的包含STAR序列的序列越多,则会发现越多的可判别包含STAR序列的序列和对照序列的模式。使用这些新近发现的判别模式,可以鉴别更多的包含STAR序列的序列,进而扩大了可以判别的模式集,等等。这种重复是本发明提供的方法中的一个重要方面。
述及序列时的术语“特性(quality)”是指所述序列的活性。本文所用术语STAR,STAR序列或STAR元件是指一种DNA序列,其包含一或多种所述基因转录调节特性。下述的一些术语SINC或SINC元件是指一种DNA序列,其包含一或多种所述基因转录阻抑特性。本文所用术语“DNA序列”除非特别指明,不是指碱基的特异顺序排列,而是指DNA的一种物理片段。DNA序列的转录特性是指所述DNA序列对感兴趣基因转录的一种作用。本文所用术语“特性”是指转录系统中核酸或蛋白质的可检测的性质或特征。
实施例
实施例1:分离STAR和SINC元件的方法
材料和方法
质粒和菌株:STAR元件的选择载体pSelect-SV40-zeo(“pSelect”,图1)如下构建:将pREP4载体(Invitrogen V004-50)用作质粒骨架,其提供了:Epstein Barr oriP复制起点和EBNA-1核抗原以便在灵长类动物细胞系中高拷贝附加型复制;具有胸苷激酶启动子和聚腺苷酸化位点的潮霉素抗性基因以便在哺乳动物细胞中进行选择;及氨苄青霉素抗性基因和colEl复制起点以在大肠杆菌中保持。该载体含有4个连续的LexA操纵子位点,位于XbaI和NheI限制位点之间(Bunker和Kingston,1994)。位于LexA操纵子与NheI位点之间的是一个多接头,其由以下限制位点组成:HindIII-AscI-BamHI-AscI-HindIII。在NheI位点和SalI位点之间是具有SV40启动子和聚腺苷酸化位点的zeocin抗性基因,其衍生自pSV40/Zeo(Invitrogen V502-20);这是用于STAR筛选的选择标记。
pSDH载体(图2)如下构建:将来自pGL3-Control(PromegaE1741)的萤光素酶报道基因通过PCR扩增,并插入SacII/BamHI消化的pUHDlO-3(Gossen and Bujard,1992)中。这样将萤光素酶置于Tet-Off启动子的控制下,并位于SV40聚腺苷酸化信号的上游。通过PCR在Tet-Off启动子上游(MCSI,XhoI-NotI-EcoRI-SaII)和聚腺苷酸化信号下游(MCSII,NheI-BglII-EcoRV-HindIII)导入多克隆位点。基因文库通过用Sau3AI消化人基因组DNA而构建,所述人DNA基因组纯化自胎盘(Clontech 6550-1)或载于细菌/P1(BAC/PAC)人工染色体中。BAC/PAC克隆含有得自lq12细胞遗传学区域(克隆RP1154H19和RP3328E19)或得自HOX同源异型基因簇(克隆RP1167F23,RP1170019和RP11387A1)的基因组DNA。将这些DNA按大小分级分离,并将0.5-2kb大小的级分通过标准方法(Sambrook等,1989)连接在BamHI消化的pSelect载体中。
宿主菌株的构建已有描述(van der Vlag等,2000),简而言之,其基于U-2 OS人骨肉瘤细胞系(美国典型培养物保藏中心HTB-96)构建。将U-2 OS用pTet-Off质粒(Clontech K1620-A)稳定转染,该质粒编码由Tet-阻抑物DNA结合结构域和VP16反式激活域组成的一种蛋白质嵌合体。随后将该细胞系用融合蛋白基因稳定转染,所述融合蛋白基因含有LexA DNA结合结构域及HP1或HPC2(两种果蝇Polycomb group蛋白,当粘附于DNA时阻抑基因表达)的编码区。LexA-阻抑物基因在Tet-Off转录调节系统的控制下(Gossen和Bujard,1992)。
文库筛选和STAR元件鉴定:将pSelect中的基因文库通过磷酶钙沉淀(Graham和van der Eb,1973;Wigler等,1978)转染进U-2OS/Tet-Off/LexA-阻抑物细胞系中,使用转染试剂供应商推荐的方法(Life Technologies)。转染的细胞在潮霉素选择(25μg/ml)及四环素阻抑(强力霉素,10ng/ml)下培养1周(50%铺满)。然后将强力霉素浓度降低至0.1ng/ml,以诱导LexA-阻抑物基因,并在2天后加入zeocin至250μg/ml。将细胞进一步培养4-5周,直至对照培养物(用空pSelect转染)被zeocin杀死。
通过标准方法繁殖得自文库转染的Zeocin-抗性集落,并通过标准技术分离质粒DNA及在大肠杆菌中拯救(Sambrook等,1989)。拯救的DNA中的候选STAR元件通过限制性内切酶作图分析(Sambrook等,1989),DNA序列分析(Sanger等,1977),并在再转染进U-2OS/Tet-Off/LexA-阻抑物细胞系中及降低强力霉素浓度后分析STAR活性(zeocin抗性)。
具有相应于人基因组中已知序列的DNA序列的候选STAR元件通过对人基因组数据库
(http://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html 20 June 2001)进行BLAST检索(Altschul等,1990)而鉴别。记录这些元件的染色体位置及重复DNA的比例和相邻基因的身份。
在再转染时示出STAR活性的那些候选物通过将STAR片段亚克隆入pSDH质粒中并在U-2 OS染色体DNA中稳定整合而进一步鉴定。将pSDH质粒与pBABE-puro(Morgenstem和Land,1990)共转染进U-2 OS细胞中,并选择嘌呤霉素抗性集落。针对每个STAR元件,分离大约30个单独克隆的群体并培养。将这些克隆根据厂商指导(Roche1669893)定期分析萤光素酶活性。
结果
STAR元件功能鉴定:筛选人基因组DNA及HOX和lql2基因座产生17个真实STAR元件。标准是(1)在将基于pSelect的克隆再转染进宿主U-2OS人骨肉瘤细胞系时这些元件展示STAR活性(表明在初始筛选中表现的抗阻抑物活性是质粒特异性的,而且不是由于宿主细胞中的赝象变化所致);(2)这些元件含有与人基因组序列数据库中的序列匹配的DNA序列(表明所述克隆不含有来自例如细菌或载体的污染DNA序列)。
将这些STAR元件亚克隆入pSDH质粒中并整合进宿主细胞基因组中。在稳定转染子群体中分析报道基因的表达,以证实在随机整合进基因组后STAR元件保护报道基因免于沉默的能力。这提供了这样的信息:(1)高度表达的克隆的比例,及(2)STAR元件激发的过表达程度。
由一个克隆对萤光素酶报道基因的表达如果高于不含有STAR元件的质粒的平均表达水平(参比水平)的两倍,则认为其是显著的。就所有质粒而言,在这些克隆中观测到如下的表达水平分布情况:从无表达至明显超过参比水平的表达,从很少过表达克隆至许多过表达克隆。优异的STAR活性是由产生许多过表达克隆(包括一些高度过表达的克隆)的质粒体现的。
一个代表性实验的结果示于表1和图3-5:
结果表明与未被保护的报道基因或由果蝇SCS元件保护的报道基因(Kellum和Schedl,1992)相比,所测试的人STAR元件产生高得多的比例的过表达克隆。另外,这些质粒对STAR保护的报道基因的的过表达程度比未保护的或SCS保护的报道基因高得多。
STAR元件序列及基因组位置数据:表2列出了17个STAR元件中每个元件的染色体位置,以及邻近基因的身份和该元件的重复DNA含量。这些STAR元件分布于许多染色体中。它们的实际DNA序列和重复DNA含量各不相同,并表现出与相邻基因各种程度的关联。
SINC元件筛选
材料和方法
用于SINC筛选的质粒pSINC-Select(“pSS”,图6)如下构建:pREP4载体(Invitrogen V004-50)用作质粒骨架,其提供了:Epstein BarroriP复制起点和EBNA-1核抗原以在灵长类动物细胞系中高拷贝附加型复制;具有胸苷激酶启动子和聚腺苷酸化位点的潮霉素抗性基因以在哺乳动物细胞中进行选择;及氨苄青霉素抗性基因和colE1复制起点以在大肠杆菌中保持。该载体含有由来自质粒pUDH10-3(Gossen和Bujard,1992)的串联Tet效应元件(TRE)组成的一个Tet-Off启动子,以便通过转录调节系统进行调节。TRE调节编码一种融合蛋白(胞嘧啶脱氨酶/尿嘧啶磷酸核糖基转移酶;Invivogen porfcodaupp)的codA∷upp基因的表达。这是一种所谓的“自杀基因”;codA∷upp酶的活性将一种前体药物5-氟胞嘧啶(5-FC)转变为毒性药物5-氟尿嘧啶(5-FU),从而导致细胞程序死亡及细胞死亡(Mullen等,1992;Tiraby等,1998;Wei和Huber,1996)。Tet-Off启动子的上游是一BglII限制位点用于克隆Sau3AI消化的基因组DNA以进行筛选。pREP4 DNA通过STAR元件与基因组DNA及自杀基因分离,以防止由克隆的SINC元件导致的pREP4组分中基本的质粒元件沉默。
将来自包含人22号染色体的BAC克隆文库的基因组DNA(Invitrogen/Research Genetics 96010-22)用Sau3AI部分消化并连接进BglII-消化的pSS(Sambrook等,1989)中。使用转染试剂供应商推荐的方法(Life Technoloes),将重组质粒的文库通过磷酸钙沉淀(Graham和van der Eb,1973;Wigler等,1978)转染进U-2 OS/Tet-Off细胞系中。将转染的细胞在潮霉素选择(25μg/ml)和四环素阻抑(强力霉素,10ng/ml)下培养3周。然后加入5-FC至浓度为1μg/ml,将细胞进一步培养3周以选择SINC元件。
收获候选的含有SINC的集落,并使用引物PCR1和PCR2进行聚合酶链反应(图6),将PCR产物用HindIII和XhoI限制性内切酶消化,并通过常规方法(Sambrook等,1989)克隆入pBluescript II SK(+)(Stratagene 212207)中。确定候选SINC元件的DNA序列(Sanger等,1977),通过对人基因组数据库进行BLAST检索(Altschul等,1990)鉴别人基因组中的相应序列
(http://www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html 20 June 2001)。记录这些元件的染色体位置以及重复DNA的比例及邻近基因的身份。
结果
在选择期末,在对照培养物(空pSS)中未见集落,在含有具有基因组DNA的pSS的培养物中可见许多集落。这些存活的克隆含有候选SINC元件。通过PCR回收这些元件并亚克隆入标准克隆载体pBluescript中。确定这些元件的DNA序列,并与人基因组序列对比(表3)。在所有情况中,正如所预期的,在22号染色体上发现这些测序的元件。
实施例2:由于STAR,SINC或组合的STAR/SINC所致的转基因的表达特征
背景:使用位点特异性重组从染色体位置中精确除去异源DNA。这通常通过两个系统之一进行:噬菌体P1的cre重组酶及loxP靶(Feng等,1999),或者酵母的FLP重组酶及FRT(FLP重组酶的靶位)(Wigley等,1994)。在这些系统中,一个DNA区域(通常含有报道基因和/或选择标记)在染色体中的侧翼为loxP或FRT靶位。重组酶活性然后催化该DNA区域从染色体中精确切除。该重组酶将其两个识别序列解离为一个单一位点,缺失它们之间的序列。因此,一段DNA的侧翼必须是靶位点,以便随后当导入或激活重组酶时可以体内缺失(Schwenk等,1995;Dymecki,1996)。Cre和Flp重组酶催化由最少6个(loxP)或8个(FRT)碱基对的间隔区分隔的两个13个碱基对反向重复之间的重组(Senecoff等,1985)。LoxP序列为ATAACTTCGTATA,FRT序列为GAAGTTCCTATAC。
方案:使用常规DNA克隆方法(Sambrook等,1989),将一种报道基因(编码一种报道蛋白,例如绿色荧光蛋白(GFP)(Bierhuizen等,1997)或萤光素酶(Himes和Shannon,2000))构建在质粒中,使其侧翼为一对STAR元件,一对SINC元件或一对STAR/SINC重组元件。在每种情况中,这些元件自身的两侧为重组酶靶位点。一个元件的两侧为一对loxP位点,另一个元件的两侧为一对FRT位点(图1)。转染后该质粒在少部分细胞中整合进宿主染色体中,通过抗生素抗性选择整合子。针对三种测试元件(STAR,SINC,STAR/SINC)的每一种产生相似的构建体。
使用常规技术(“SuperFect转染试剂手册”Qiagen,1997年11月),将这些质粒转染进U-2 OS人骨肉瘤细胞系中,并针对潮霉素抗性进行选择。潮霉素抗性分离株具有稳定整合入细胞系基因组中的质粒。将各个分离株在细胞培养基中繁殖,并通过例如流式细胞计量术分析转基因报道基因的表达(Stull等,2000)。
然后使用常规技术(转染或激素刺激),处理上述稳定的分离株以导入或激活重组酶活性。这是相继进行的,以便例如cre重组酶活性催化STAR1的切除,随后FLP重组酶活性催化STAR2的切除。分析这些细胞中报道基因的表达水平,并将数值与母本含有STAR的分离株的参考值进行对比。
实施例3:STAR序列分析;确定元件功能的基本必需序列;元件之间的序列保守性;及串联的多个元件的性质
背景:含有STAR或SINC元件的DNA片段分别使用pSelect(图1)或pSS(图6)质粒通过遗传选择而分离。本部分描述了在具有STAR或SINC活性的那些片段内鉴定DNA序列的方法。
方案:
DNA序列:基于pSelect和pSS选择质粒的序列设计寡核苷酸以对DNA片段测序。使用双脱氧链终止法对片段测序(Sanger等,1977)。然后使用公布的人基因组序列数据库将DNA序列定位于染色体位置(http://www.ncbi.nlm.nih.gov:80/cgibin/Entrez/hum_srch?chr=hum_chr.inf&query)。从基因组序列注解中记录该片段序列邻近的基因和基因密度。那些基因的转录活性从公布的DNA微阵列数据库(http://arrays.rockefeller.edu/xenopus/links.html)和SAGE数据(基因表达的系列分析;http://bioinfo.amc.uva.nl/HTM-bin/index.cgi)中确定。一旦汇编了STAR和SINC序列的位置信息,分析这些数据的潜在的共有序列。使用相似性检索算法如clustalw(Higgins等,1996)及blosum相似性评分(Altschul and Gish,1996),检测共有序列或趋势(由此得知的是富含特定的核苷酸组合中的局部区域,例如富含C和G碱基)。然后将发现的任何潜在的共有序列或趋势用于通过进行BLAST检索(Altschul等,1990)而鉴别基因组范围的其它潜在的STAR。先前的研究已经鉴别了结合已知绝缘体(insulator)和边界元件的转录调节蛋白(Gaszner等,1999;Gerasimova和Corces,1998)。在所述的实施例中,这些蛋白质结合位点与绝缘或边界功能所必需的DNase I超敏位点相符。STAR元件也由已知调节蛋白结合这一假说通过检索转录因子的TRANSFAC数据库(http://transfac.gbf.de/TRANSFAC/)中的在STAR元件中存在的序列基序而检验。STAR或SINC集合的各成员中共同的序列基序是相应转录元件结合那个元件的指征。
基本必需序列(Minimal essential sequence):使用这种序列知识,将STAR(或SINC)元件截短并测试功能。这是通过标准技术使用聚合酶链反应(PCR)将含有STAR或SINC的片段的亚片段克隆入pSelect或pSS中(Sambrook等,1989)进行。将含有这些亚片段的质粒转染进U-2 OS细胞中,并通过分析抗生素抗性(STAR元件)或前体药物抗性(SINC元件)测试功能。
定向性(Directionality):分别使用pSelect和pSS质粒测试STAR和SINC元件的定向性。例如,通过pSelect筛选分离的STAR元件的方向称为5′3′方向。该元件的方向通过常规重组DNA技术变成相反方向(Sambrook等,1989)。将所得质粒转染进U-2 OS细胞系中,并分析报道基因的表达(Bierhuizen等,1997;Himes和Shannon,2000)。将具有反方向元件的质粒的表达水平与具有5’3’方向的水平相对比。如果反方向质粒具有相似表达水平,则STAR元件不表现出定向性。
元件的组合及倍增:为确定STAR元件是否能以混合配对而起作用,组合不同的元件并测试。在pSDH质粒中通过重组DNA技术(Sambrook等,1989)将一种STAR元件插入MCSI中及将一个不同的STAR插入MCSII中,随后进行分析。转染所得质粒,并分析报道基因的表达(Bierhuizen等,1997;Himes和Shannon,2000);将结果与在MCSI和MCSII中含有相同元件的质粒的表达相对比;如果这两种类型的质粒的表达相似,则不同的STAR元件互不干扰。
单STAR或SINC元件的强度与串联重复的元件相对比:这通过用DNA连接酶将感兴趣的STAR或SINC多联化,并通过重组DNA技术(Sambrook等,1989)将连接产物插入pSDH或pSS质粒中而进行。所得质粒转染进U-2 OS细胞中,并分析报道基因的表达(Bierhuizen等,1997;Himes和Shannon,2000);将结果与含有单STAR或SINC元件的质粒表达相对比。
实施例4:确定STAR,SINC或其组合发挥作用的距离
背景:用STAR元件优化单个转基因和多个转基因的表达。为确定一对STAR元件是否能保护大的转基因或多个转基因免于沉默,有必要确定STAR的作用范围。相似地确定SINC元件和STAR/SINC组合的信息。
方案:如下所述,使用分别基于pSelect或pSS的衍生质粒测试STAR和SINC元件在一段距离上的功能性。通过标准DNA克隆技术(Sambrook等,1989)装配大小为500bp-10kb的随机DNA片段文库。通过如上述在pSelect和pSS质粒中进行测试,从该文库中选择不具有STAR或SINC活性的片段。针对STAR元件和STAR/SINC组合,将这些片段插入适当的pSelect质粒中的克隆位点和报道基因的启动子之间(图1)。将该系列质粒转染进U-2 OS细胞系中,并如上所述测定表达。将报道基因表达的强度与将STAR元件与启动子分开的随机DNA片段的长度相关联。SINC元件以类似方式评定:将随机DNA片段插入适当pSS质粒的SINC元件和启动子之间,将报道基因的阻抑程度与随机DNA片段的长度相关联。
实施例5(a):天然存在的SINC元件在遗传选择STAR元件中的应用
背景:目前筛选STAR元件使用的是嵌合的lexA-PcG蛋白以提供对选择质粒中的选择标记的阻抑。使用天然存在的SINC元件重复所述的选择,鉴别特异于由于这些天然存在的SINC元件所致阻抑活性的STAR元件。
SINC元件筛选是基于遗传选择从而鉴别随机产生的能沉默“tet-off”启动子并阻断codA∷upp自杀基因的表达的基因组DNA片段的能力。从这个选择中回收的SINC元件代表基因组沉默元件的随机取样,并回收了不同类别的元件。针对这个方案,这些不同的SINC元件用于回收与在上述基于lexA-PcG的选择中回收的那些STAR元件不同类别的STAR元件。
方案:对得自当前选择的SINC元件进行鉴定并基于功能特征和DNA序列特征进行分类(功能特征包括阻抑强度;序列特征包括可鉴别的保守基序;见实施例3)。通过标准DNA克隆技术(Sambrook等,1989)将每一类别的代表性元件用于置换pSelect中的lexA结合位点。用这些新质粒的每一种产生基因库,并如前所述(van der Vlag等,2000)用于鉴别新的SINC-特异性STAR元件。这使用完整基因组DNA进行,及使用也含有所用的SINC元件的BAC克隆的DNA进行。
实施例5(b):确定STAR和SINC元件的最大长度
背景:使用pSelect质粒将STAR元件作为回收的DNA片段而克隆,这是用少于2kb的基因组DNA片段进行。然而,这些可能是更长的STAR元件的一部分。延长的STAR活性通过以下实验检测。
方案:将克隆入pSelect中的STAR元件作图在人基因组序列上。为确定它们是否是更长的STAR元件的一部分,将涵盖该克隆的4kb的区域通过PCR扩增,并通过标准重组DNA技术克隆入pSelect和/或pSDH质粒中(Sambrook等,1989)。将所得质粒转染进U-2 OS细胞中,并如上所述分析报道基因的表达;含有原始2kb STAR元件的质粒作为对照。可以预期获得三种结果:(1)对照和延长的STAR分离物的表达相似,表明STAR元件限于原始的2kb片段;(2)延长的STAR分离物的表达较低,提示STAR元件包含于2kb的片段内,而且在一段距离上不能有效发挥作用,或者延长的片段含有SINC元件;(3)延长的STAR分离物表达较高,提示延长的区域含有更完整的STAR元件。在结果(3)的情况中,用6kb的更大的PCR片段重复试验。
STAR元件也可以是各种蛋白质所结合的位点的组合。因此具有STAR活性的大DNA片段可以分为一些具有STAR活性的较小片段(见实施例3)。大于2kb的元件如果在截短为小于2kb之后(包括内部缺失)仍展示STAR活性,则认为其是STAR元件。
实施例6:STAR元件、SINC元件或其组合及相邻转基因的甲基化和组蛋白乙酰化状态
背景:STAR和SINC元件的调节性质与局部染色质结构相关,这是通过DNA自身及通过DNA相关蛋白质确定的。与基因表达改变相关的染色质变化通常由高分子的二级修饰、尤其是DNA的甲基化或组蛋白的乙酰化而产生。鉴别在STAR和SINC元件及在相邻转基因中存在的二级修饰提供了这些元件的特点。
方案:DNA甲基化:通过标准技术(Sambrook等,1989),将STAR或SINC元件或其组合克隆入pSelect质粒中。用这些质粒稳定转染U-2 OS细胞,并用没有STAR或SINC元件的pSelect作对照,以确定报道基因的基础DNA甲基化。收获细胞并通过标准技术(Thomas,1998)纯化染色质。在单独的反应中分别用HpaII和Mspl限制性内切酶消化DNA(Sambrook等,1989)。这些限制酶均能切断未甲基化的序列CCGG。当外侧的C甲基化时,MspI和HpaII不能裂解该序列。然而,与HpaII不同的是,当内部的C甲基化时,MspI能裂解该序列。将该DNA进行Southern印迹,并通过间接的末端标记分析该印迹(Pazin和Kadonaga,1998)。作为对照,作为裸露的未甲基化DNA的相应pSelect质粒也用所述的酶切割,并进行Southern印迹。对比DNA片段的不同大小揭示该DNA是否在体内甲基化。
组蛋白乙酰化:将与用于DNA甲基化分析的相同转染的细胞系用于这些实验。下述方法产生了在STAR和SINC元件及报道基因上组蛋白乙酰化模式的高分辨图(Litt等,2001)。在蔗糖梯度上分级分离微球菌核酸酶消化的细胞核,并浓缩纯化的核小体单体和二聚体,以通过用抗乙酰组蛋白抗体进行免疫沉淀而获得乙酰化组蛋白。将核小体级分和免疫沉淀物例如通过实时PCR进行分析(Jung等,2000),使用与报道基因或STAR或SINC元件退火的引物和Taqman探针,产生0.2kb产物,移动窗口为0.1kb。然后测定在PCR期间Taqman探针荧光信号的增加率(这与样品中模板DNA的丰度成比例)。核小体级分与免疫沉淀物中模板DNA的丰度比率提供了在每0.1kb报道基因和STAR或SINC元件上(或者在无元件时的报道基因上)的组蛋白乙酰化模式的精细图。
实施例7:体内核小体定位及DNAse I超敏位点
背景:染色质由DNA、组蛋白和非组蛋白蛋白质组成。组蛋白形成核心颗粒,其由约150bp的DNA包绕形成核小体,核小体由50-75bp的接头DNA分隔。染色体DNA上稳定定位的核小体阻抑基因表达,排除核小体或重塑染色质的因子可以克服这种阻抑。核小体在染色体区域中的定位通过微球菌核酸酶(MNase)分析加以分析;MNase优先在接头DNA处切割染色质。相似地,DNA的一些区域组成型暴露于非组蛋白蛋白质,这些通常是调节区域,即顺式作用调节因子结合的位点。经实验表明,这些位点对DNase I消化超敏。
方案:为确定报道基因上及STAR或SINC元件上核小体的位置,使用MNase(Saluz和Jost,1993)。从培养的U-2 OS细胞中纯化细胞核,并用MNase如上所述消化(组蛋白乙酰化)。为检索STAR和SINC元件或报道基因中DNase I超敏位点,将纯化的细胞核用DNase I在合适浓度处理(例如100μg/ml基因组DNA和20-100U/ml DNaseI)(Wallrath等,1998)。将裸DNA用DNase I消化作为对照。针对这两种技术,报道基因和STAR或SINC元件均使用引物扩展或间接末端标记和Southern印迹精细作图(Tanaka等,1996;van der Vlag等,2000)。MNase分析示出一放射自显影图上的不连续条带梯,其相应于核小体在STAR或SINC元件或报道基因上的位置。DNase I超敏位点在所得放射自显影图中显现为不连续条带,在裸DNA对照中没有或不明显。
实施例8:STAR和SINC元件的细胞类型、组织依赖性及启动子依赖性
背景:已经有报道一些绝缘体或边界元件可以显示组织特异性(Takada等,2000)。STAR元件具有许多与绝缘体和边界元件共有的特点。混栖的和组织特异性STAR和SINC元件在转基因应用中均具有生物技术学价值。进行以下分析以评定细胞类型依赖性。所述元件的细胞和组织特异性通过检测人基因组中所述元件邻近基因的表达而进一步检测,使用公布的DNA微阵列数据库(http://arrays.rockefeller.edu/xenopus/links.html)及SAGE(基因表达的连续分析;http://bioinfo.amc.uva.nl/HTM-bin/index.cgi)数据。
方案:在pSDH质粒中测试STAR元件,在pSS质粒中测试SINC元件。使用标准方案转染三种细胞系:人U-2 OS骨肉瘤细胞系(Heldin等,1986),来自非洲绿猴肾的Vero细胞系(Simizu等,1967),及来自中国仓鼠卵巢的CHO细胞系(Kao和Puck,1968)。能在所有这三种细胞系中起作用的元件被分类为混栖的。仅在一或两种所述细胞系中显示活性的那些元件被分类为限于细胞类型的功能性。
启动子特异性:目前相对于两种启动子选择STAR和SINC元件并测试功能,即完整的巨细胞病毒(CMV)启动子或四环素效应元件及最小CMV启动子(与tTA转录激活子组合)。为评定启动子特异性,用其它常用的病毒启动子测试STAR和SINC功能,所述启动子即猿猴病毒40(SV40)早期和晚期启动子,腺病毒ElA和主要晚期启动子,及Rous肉瘤病毒(RSV)长末端重复(Doll等,1996;Smith等,2000;Weaver及Kadan,2000;Xu等,1995)。通过标准技术(Sambrook等,1989),将这些启动子的每一种与STAR或SINC元件一起分别克隆入pSelect和pSS质粒中。将所得质粒转染进人U-2 OS细胞系中并如上所述分析报道基因表达。SINC元件沉默这些启动子的能力,或者STAR元件保护抗沉默的能力,通过与没有STAR或SINC元件的质粒对比而确定。
实施例9:改良STAR和SINC元件的方法
背景:开发改良的STAR和SINC元件。改良使元件的抗阻抑或阻抑活性强度增强,而且使元件具有可诱导性及组织特异性。这些改良通过组合技术产生。
方案
强制进化:使用易错PCR(Cberry等1999;Henke和Bornscheuer,1999)在每个元件中平均导入一至两个点突变。使用含有报道基因选择标记融合蛋白的pSelect(或pSS)质粒筛选诱变的元件,通过例如荧光激活细胞淘选及抗生素抗性而筛选(Bennett等,1998)。接着进行若干轮易错PCR和选择,以衍生活性得以进一步改良的元件。
串联和异源组合:如上所述,测试串联和异源组合的元件活性,与单一元件相对比(实施例3)。
逐个测试STAR和SINC元件的相对显性。这用于测试元件的强度;例如如果一种新的STAR元件相对于一种已知的强SINC元件是显性的,则将该STAR分类为极强的元件。还考虑了STAR和SINC之间的显性关系是细胞类型、组织或启动子特异性的这一可能性(实施例8)。显性测试利用pSelect质粒,通过标准重组DNA技术(Sambrook等,1989),各个SINC元件置于各个STAR元件的上游。用该质粒转染U-2 OS细胞,并分析报道基因表达。SINC显性通过与只具有STAR元件的质粒相比表达较低而体现,而STAR显性通过与只具有SINC元件的质粒相比表达较高而体现。
在STAR和SINC元件中导入结合其它DNA结合蛋白的结合位点以增加新的特征(例如可诱导性,组织特异性)。
背景:可调节的STAR和SINC元件通过将其与用于结合信号依赖性DNA结合蛋白的结合位点组合而产生。在一个实施例中,这包括将STAR或SINC或STAR/SINC组合与一种糖皮质激素效应元件(GRE)并列。在没有糖皮质激素刺激的情况下,STAR或SINC元件如所描述那样起作用。在糖皮质激素刺激时,天然存在的糖皮质激素受体结合GRE并干扰STAR或SINC功能。
方案:使用常规DNA克隆(Sambrook等,1989),将GRE分别导入pSelect或pSS载体中与STAR或SINC元件相邻。将该质粒如上所述转染进U-2 OS细胞中。将细胞分为两组培养物;一组用糖皮质激素处理(10μM)。测定报道基因的表达并在两组培养物之间进行对比。表达水平的不同表明通过信号依赖性DNA结合蛋白的作用调节STAR和SINC功能的能力。
混栖的STAR和SINC元件:测试或增强这些特征包括在不同细胞系中培养,及不用抗生素选择而长期培养(实施例8和10)。
实施例10:STAR和SINC元件使得转基因保持不需要持续选择
背景:在转基因技术中,依赖选择标记有两个缺点:选择试剂通常较昂贵并需要细胞代谢成本,而且在转基因应用中包括选择标记存在及法律上和伦理上的反对意见,尤其如果转基因自身存在于产物中时(例如农作物,基因治疗载体)。STAR和SINC元件在确定转基因分离株后降低或消除了维持选择的需要。因此,抗性基因可以通过位点特异性重组从转基因基因组中除去,同时避免转基因表达丧失。
方案:含有染色体整合的在报道基因两侧的STAR元件的稳定转染的U-2 OS细胞系通过用pSDH质粒和如上所述反式作用抗生素抗性质粒共转染而产生。这个实验包括测试在无选择的延长的(3-6个月)培养期间,在这些细胞系中报道基因表达水平的稳定性。这是在pSDH质粒中用在萤光素酶或GFP报道基因两侧的STAR元件测试的。抗生素抗性基因通过构建一种表达质粒(基于pSDH)除去,其中抗生素选择标记两侧为重组酶靶位点。选择标记随后通过重组酶活性切除,如上所述(实施例2)。
实施例11:通过在表达系统中应用STAR元件改善可预测性(predictability)及产量
STAR元件的作用是阻断对转基因表达单位的转录阻抑影响的作用。这些阻抑影响可以是由于异染色质(“位置作用”,(Boivin &Dura,1998))或转基因的相邻拷贝(“重复诱导的基因沉默”,(Garrick等,1998))所致。STAR元件对异源蛋白质产生的两个益处是提高了发现高表达原代重组宿主细胞的可预测性,及在生产周期期间增加了产量。这些益处在这个实施例中得以证明。
材料和方法
构建pSDH载体和含有STAR的衍生物:pSDH-Tet载体如下构建:从质粒pREP4-HSF-Luc经聚合酶链反应(PCR)扩增萤光素酶开放读框(van der Vlag等,2000),使用引物C67和C68(所有PCR引物和诱变寡核苷酸均示于表5),并将这一SacII/BamHI片段插入SacII/BamHI消化的pUHD10-3(Gossen & Bujard,1992)中。将萤光素酶表达单位用引物C65和C66再扩增,并再插入pUHD10-3中以使其两侧为两个多克隆位点(MCSI和MCSII)。然后通过用EcoRI消化及插入一个接头(由退火的寡核苷酸D93和D94组成),将一个AscI位点导入MCSI中。用引物D90和D91从质粒pCMV-Bsd(InvitrogenK510-01)中扩增CMV启动子,并用于通过SalI/SacII消化及连接置换pSDH-Tet中的Tet-Off启动子,产生载体pSDH-CMV。这个载体中的萤光素酶开放读框如下由SEAP(分泌型碱性磷酸酶)置换:将载体pSDH-CMV用SacII和BamHI消化并平端化;通过EcoRI/SalI消化从pSEAP-basic(Clontech 6037-1)中分离SEAP开放读框,平端化并连接于进pSDH-CMV中产生载体pSDH-CS。使用引物C81和C82通过PCR从质粒pBabe-Puro(Morgenstern & Land,1990)中分离在SV40启动子控制下的嘌呤霉素抗性基因,将其连接进用NcoI/XbaI消化的载体pGL3-control(BamHI位点已除去)(Promega E1741)中,产生pGL3-puro。将pGL3-puro用BglII/SalI消化以分离SV40-puro抗性基因,将其平端化并连接进NheI消化的平端化pSDH-CS中。所得载体pSDH-CSP示于图7。所有克隆步骤均参照试剂生产商的指导,根据本领域已知方法进行(Sambrook等,1989)。
用合适的限制酶消化STAR元件和pSDH-CSP载体,随后连接而经过两个步骤将STAR元件插入MCSI和MCSII中。重组pSDH载体中STAR元件的方向通过限制性作图确定。插入序列的身份和方向通过DNA序列分析证实。使用Beckman CEQ2000自动DNA测序仪根据厂商指导通过双脱氧方法(Sanger等,1977)进行测序。简而言之,使用QIAprep Spin Miniprep及Plasmid Midi试剂盒(分别为QIAGEN27106和12145),从大肠杆菌中纯化DNA。使用通用寡核苷酸C85,E25和E42(表5),在染料终止子的存在下(CEQ染料终止循环测序试剂盒,Beckman 608000)进行循环测序。
用pSDH质粒转染和培养CHO细胞:将中国仓鼠卵巢细胞系CHO-K1(ATCC CCL-61)在含有2mM谷氨酰胺,100U/ml青霉素和100μg/ml链霉素的HAMS-F12培养基+10%胎牛血清中,在37℃/5%CO2中培养。使用SuperFect(QIAGEN),如厂商所述将细胞用pSDH-CSP载体及其在在MCSI和MCSII中含有STAR6或STAR49的衍生物转染。简而言之,将细胞种植于培养瓶中并生长过夜至70-90%铺满。将SuperFect试剂与质粒DNA(在此实施例中通过PvuI消化而线性化)以6μl/1μg的比率组合(例如对于10cm Petri培养皿,20μg DNA/120μl SuperFect),并加入细胞中。在温育过夜后,将转染混合物更换新鲜培养基并进一步温育转染的细胞。在过夜温育后,加入5μg/ml嘌呤霉素。嘌呤霉素选择在2周内完成,之后随机分离各个嘌呤霉素抗性CHO/pSDH-CSP克隆并进一步培养。
分泌型碱性磷酸酶(SEAP)分析:如厂商指导所述(Clontech GreatEscAPe试剂盒#K2041),确定CHO/pSDH-CSP克隆的培养基中SEAP活性(Berger等,1988,Henthorn等,1988,Kain,1997,Yang等,1997)。简而言之,将一份培养基在65℃加热失活,然后与分析缓冲液和CSPD化学发光底物组合,在室温温育10分钟。然后在发光计(Turner20/20TD)中测定底物转换率。细胞密度在Coulter ACT10细胞计数仪中通过计数胰蛋白酶化细胞而确定。
用pSDH质粒转染和培养U-2 OS细胞:将人骨肉瘤细胞系U-2OS(ATCC #HTB-96)在含有谷氨酰胺,青霉素和链霉素(如前)的Dulbecco′s修改的Eagle培养基+10%胎牛血清中,在37℃/5%CO2培养。使用SuperFect(QIAGEN),如厂商所述将细胞用pSDH-CMV载体及其在MCSI和MCSII中含有STAR6或STAR8的衍生物共转染。嘌呤霉素选择在2周内完成,之后随机分离各个嘌呤霉素抗性U-2OS/pSDH-CMV克隆并进一步培养。
萤光素酶分析:在重悬的细胞中,根据分析试剂盒的厂商指导(Roche 1669893),使用已知发光计(Turner 20/20TD)分析萤光素酶活性(Himes & Shannon,2000)。总细胞蛋白浓度通过双金鸡宁酸方法,根据厂商指导(Sigma B-9643)测定,并用于校正萤光素酶数据。
结果:
将含有pSDH-CSP载体的重组CHO细胞克隆或含有含STAR6或STAR49(表6)的pSDH-CSP质粒的重组CHO细胞克隆培养3周。然后测定培养上清中SEAP活性,并基于细胞数目表示(图8)。可以看出,分离到了在表达单位中具有STAR元件的克隆,其比表达单位中不包括STAR元件的克隆的SEAP活性表达水平高2-3倍。另外,以不含STAR的克隆(STAR-less clone)的最大活性或高于此活性表达SEAP活性的含STAR的克隆数非常高:25%-40%的STAR克隆群超过了pSDH-CSP克隆的SEAP最高表达水平。
将含有pSDH-CMV载体的重组U-2 OS细胞克隆或者含有含STAR6或STAR8(表6)的pSDH-CMV质粒的重组U-2 OS细胞克隆培养3周。然后测定宿主细胞中的萤光素酶活性,并以校正至总细胞蛋白的相对萤光素酶单位表示(图9)。在表达单位两侧具有STAR元件的重组U-2 OS克隆比不含STAR的克隆具有更高的产量:在STAR8克隆中观测到的最高表达比不含STAR的克隆高2-3倍。STAR6克隆的最大表达水平比不含STAR的克隆高5倍。STAR元件还赋予更高的可预测性:针对两种STAR元件,15-20%的克隆表现的萤光素酶表达水平与具有最高表达水平的不含STAR的克隆相当或更高。
这些结果表明当与强CMV启动子一起使用时,STAR元件能提高异源蛋白质(萤光素酶和SEAP)的产量。在这个实施例中导入的所有三种STAR元件均使产量增加。由STAR元件赋予的可预测性增加体现在存在大比例的产量等于或高于不含STAR的克隆所展现的最高产量的克隆。
实施例12:STAR元件改善转基因表达的稳定性
在重组宿主细胞的培养期间,一般要维持抗生素选择,目的在于防止转基因的转录沉默,或者防止由于诸如重组等过程而导致的从基因组中丧失转基因。然而,这对于异源蛋白生产是不希望的,原因有很多。首先,使用的抗生素非常昂贵并使产品的单位成本显著增加。其次,对于生物制药应用,蛋白质必需是确实纯的,在产物中无任何抗生素痕迹。STAR元件对于异源蛋白生产的一个优势是在延长的培养期间,即使在无抗生素选择的情况下,其也赋予转基因稳定表达,这种性质在这个实施例中加以证实。
材料和方法
将U-2OS细胞系用质粒pSDH-Tet-STAR6转染并如实施例11所述培养。分离各个嘌呤霉素抗性克隆并在无强力霉素存在下进一步培养。每隔一周将细胞以1∶20的稀释度移至新鲜培养瓶中。如实施例11所述定期测定萤光素酶活性。15周后,将培养物分为两份,一份继续给予嘌呤霉素,另一份不给予抗生素进行其余的实验(共25周)。
结果
表7示出在有或无抗生素的长期培养期间,由两侧具有STAR6的表达单位表达的萤光素酶表达数据。可以看出,报道转基因萤光素酶的表达在实验期间在U-2 OS宿主细胞中均保持稳定。在将培养物分成两组处理后(加抗生素及无抗生素),萤光素酶的表达在无抗生素选择的情况下仍基本稳定。这表明了STAR元件在长期培养期间保护转基因免于沉默或丢失的能力。还表明这种性质不依赖于抗生素选择。
因此,异源蛋白质生产可以不用消耗抗生素及不必进行困难的下游加工。
实施例13:STAR元件的最小基本序列(minimal essential sequence)
STAR元件分离自实施例1所述的遗传筛选。该筛选使用用人基因组DNA构建的文库,其经大小分级分离为大约0.5-2kb(如前)。STAR元件的范围是500-2361碱基对(表6)。对于许多已经分离的STAR元件,STAR活性很可能由比初始分离的克隆更小的DNA片段赋予。有必要测定STAR活性所必需的这些最小片段大小有两个原因。首先,较小的功能性STAR元件在设计小型(compact)表达载体中更有优势,因为较小的载体转染宿主细胞效力较高。其次,测定最小的基本STAR序列可以修饰那些序列以增强功能性。已经对两种STAR元件进行精细作图以确定其最小基本序列。
材料和方法:
对STAR10(1167碱基对)和STAR27(1520碱基对)进行精细作图。将它们通过PCR扩增以产生几乎等长的亚片段(图10)。初始测试中,将这些亚片段克隆入pSelect载体中的BamHI位点,并转染进U-2OS/Tet-Off/LexA-HP1细胞中,如实施例1所述。在潮霉素抗性选择后,通过降低强力霉素浓度诱导LexA-HP1。然后将转染的细胞与zeocin温育以测试所述STAR片段保护SV40-Zeo表达单位免于因LexA-HP1结合所致的阻抑。
结果
在这个实验中,正如所预期的,STAR10和STAR27赋予良好的抗基因沉默的保护作用(图10)。这通过在存在zeocin的情况中下的旺盛生长而证明。
在三个STAR10亚片段中,10A(~400碱基对)赋予转染的细胞在zeocin存在下的旺盛生长,超过全长STAR元件的程度。用含有其它两个亚片段的pSelect构建体转染的细胞在存在zeocin时不生长。这些结果表明所述约400碱基对的10A片段包含了负责STAR10的抗阻抑活性的DNA序列。
在这个实验中,STAR27赋予转染的细胞在zeocin中以中等程度生长(图10)。这个STAR的一个亚片段27B(~500碱基对)使宿主细胞在含有zeocin的培养基中微弱生长。这提示这种STAR的抗阻抑活性部分位于亚片段27B上,但全部活性也要求来自27A和/或27C(均约500碱基对)的序列。
实施例14:STAR元件在不同株的培养的哺乳动物细胞中均起作用选择宿主细胞进行异源蛋白表达对该蛋白质的特性、产量和单位成本是一个重要参数。对这种翻译后修饰,分泌途径能力及细胞系的无限增殖性的考虑确定了针对特定生物制药生产系统的合适细胞系。为此,由STAR元件提供的在产量,可预测性和稳定性方面的优势应在不同细胞系中均可获得。这通过对比STAR6在其最初克隆进的人U-2 OS细胞系中的功能及其在广泛应用于生物技术中的CHO细胞中的功能而测试。
材料和方法:
参见实施例11所述实验。
结果
SEAP报道基因在CHO细胞中的表达示于图8,萤光素酶报道基因在U-2 OS细胞中的表达示于图9。通过对比这两个实验的结果,很明显STAR6元件在这两个细胞系中均发挥功能:当报道基因被STAR6保护而免受位置作用时,报道基因表达在这二者中更可预测,每个细胞系的克隆均展示更高的产量。这两个细胞系衍生自不同物种(人和仓鼠)及不同的组织类型(骨和卵巢),反映出可利用这种STAR元件改良异源蛋白表达的宿主细胞范围很广泛。
实施例15:STAR元件对各种转录启动子均有功能
转基因转录通过将转基因开放读框置于一种外源启动子控制下而实现。启动子的选择受异源蛋白质的性质及生产系统的影响。在大多数情况中,优选强组成型启动子,因为它们可以提供高产量。一些病毒启动子具有这些性质:巨细胞病毒立即早期基因的启动子/增强子(“CMV启动子”)在一般的生物技术应用中通常被认为是最强的启动子(Boshart等,1985,Doll等,1996,Foecking & Hofstetter,1986)。猿猴病毒SV40启动子也是中等强度的(Boshart等;1985,Foecking &Hofstetter,1986)而且通常在哺乳动物细胞载体中用于异位表达。Tet-Off启动子是可诱导的:该启动子在存在四环素或相关抗生素(通常使用强力霉素)的情况下,在表达tTA质粒(Clontech K1620-A)的细胞系中被阻抑,而除去该抗生素会诱导转录(Deuschle等,1995,Gossen & Bujard,1992,Izumi & Gilbert,1999,Umana等,1999)。
材料和方法:
pSDH-Tet和pSDH-CMV载体的构建见实施例11所述。pSDH-SV40如下构建:从质粒pSelect-SV40-Zeo(实施例1)经PCR扩增SV40启动子(引物D41和D42),随后用SacII和SalI消化PCR产物,将pSDH-CMV载体用SacII和SalI消化以除去CMV启动子,并将该载体和SV40片段连接在一起产生pSDH-SV40。将STAR6如实施例11所述克隆在MCSI和MCSII中。使用SuperFect根据厂商指导将质粒pSDH-Tet,pSDH-Tet-STAR6,pSDH-Tet-STAR7,pSDH-SV40和pSDH-SV40-STAR6与pBabe-Puro共转染进U-2 OS中。如实施例11所述进行细胞培养,嘌呤霉素选择及萤光素酶分析。
结果
图9,11和12对比了来自三种不同启动子的萤光素酶报道基因的表达:两种强组成型病毒启动子(CMV和SV40),及诱导型Tet-Off启动子。所有这三种启动子均在U-2 OS细胞中相对于STAR6元件进行测试。结果表明来自所有三种启动子的产量和可预测性均由STAR6提高。如实施例11和14所述,STAR6对于CMV启动子是有益的(图9)。在SV40启动子中可见相似的促进作用(图11):最高表达的STAR6克隆的产量比最佳pSDH-SV40克隆高2-3倍,而且有6个STAR克隆(克隆群的20%)的产量高于最佳的不含STAR克隆的产量。对于诱导浓度(低强力霉素)的Tet-Off启动子,STAR6也增加了转基因表达的产量和可预测性(图12):最高表达的STAR6克隆比最佳pSDH-Tet克隆产量高20倍,而且有9个STAR6克隆(克隆群的35%)的产量高于最佳的不含STAR克隆。由此可以得出结论,这一STAR元件的转基因保护性质是通用的,因为其对于在各种生物技术有效的转录启动子均有作用。
实施例16:STAR元件功能可以定向
虽然短核酸序列可以是对称的(例如回文的),但较长的天然存在的序列典型地是不对称的。因此核酸序列的信息含量是定向的,而且序列自身可以根据其5’和3’末端加以描述。核酸序列信息的定向性影响重组DNA分子使用本领域已知标准克隆方法装配(Sambroo等,1989)得到的排列。STAR元件是长的不对称DNA序列,而且基于它们在pSelect载体中最初克隆的方向而具有定向性。在上述实施例中,使用pSDH载体中的两个STAR元件,保留了这种定向性。这个方向相对于zeocin抗性基因描述为天然方向或5′-3′方向(见图13)。在本实施例中,在pSDH-Tet载体中测试了STAR功能定向性的重要性。由于pSDH载体中的报道基因在两侧均有感兴趣STAR元件拷贝,因此必须考虑到每个STAR拷贝的方向。本实施例对比了天然方向与相反方向(图13)。
材料和方法:
如实施例11所述,将STAR66元件克隆入pSDH-Tet中。将U-2OS细胞用质粒pSDH-Tet-STAR66-天然方向和pSDH-Tet-STAR66-相反方向共转染,并如实施例11所述培养。分离各个克隆并培养;如前所述测定萤光素酶表达水平。
结果
天然方向和相反方向STAR66的活性对比结果示于图14。当STAR66呈相反方向时,只有一个克隆的产量相当高(60萤光素酶单位)。相反,当STAR66呈天然方向时,最高表达克隆的产量明显更高(100萤光素酶单位),而且可预测性也高得多:天然方向群体中有7个克隆(30%)表达萤光素酶的水平高于相反方向群体中的最高表达克隆的水平,而且天然方向群体中有15个克隆(60%)表达萤光素酶的水平高于10个相对萤光素酶单位。
实施例17:在STAR元件情况下的转基因表达依赖于拷贝数
用于异源蛋白表达的转基因表达单位通常整合进宿主细胞的基因组中,以保证在细胞分裂期间稳定保持。整合可以导致表达单位的一或多个拷贝插入基因组中;多个拷贝可以或不以串联阵列存在。由STAR元件保护的转基因已证实的产量增加提示STAR元件能使转基因表达单位不依赖于对与基因组中整合位点相关的转录的影响而起作用(不依赖于位置作用(Boivin & Dura,1998))。这进一步提示当STAR元件以串联产量阵列整合时,它们使每个表达单位均不依赖于邻近拷贝的表达单位而起作用(不依赖于重复诱导的基因沉默(Garric等,1998))。拷贝数依赖性从转基因表达水平与拷贝数之间的关系中确定,如以下实施例所述。
材料和方法
如前所述将U-2OS细胞用pSDH-Tet-STAR10共转染并在嘌呤霉素选择下培养(如前)。分离八个克隆进一步培养,然后收获细胞,将一部分细胞如前所述进行萤光素酶活性分析。将剩余细胞裂解,使用DNeasy Tissue试剂盒(QIAGEN 69504)根据厂商指导纯化基因组DNA。通过UV分光光度计定量DNA样品。将3μg每种基因组DNA样品根据厂商指导用PvuII和XhoI消化过夜(New England Biolabs),通过琼脂糖凝胶电泳分辨。将DNA片段如前所述(Sambrook等,1989)移至一个尼龙膜上,并用针对萤光素酶基因放射性标记的探针(分离自BamHI/SacII-消化的pSDH-Tet)进行杂交。如前所述(Sambrook等,1989)洗涤印迹并对磷光图像屏曝光(PersonalF/X,BioRad)。所得放射自显影图(图15)通过光密度测定法分析以测定萤光素酶DNA条带的相对强度,其代表转基因拷贝数。
结果
来自pSDH-Tet-STAR10克隆群中的克隆中萤光素酶的酶活性和拷贝数(DNA条带密度)示于图16。在这些pSDH-Tet-STAR10克隆中,转基因拷贝数与萤光素酶表达水平高度相关(r=0.86)。这提示STAR10赋予转基因表达单位拷贝数依赖性,使转基因表达不依赖于串联阵列中其它转基因拷贝,及不依赖于在整合位点的基因沉默影响。
实施例18:STAR元件起增强子阻断子(blocker)而非增强子的作用
基因启动子引发转录的能力既受阳性影响又受阴性影响。发挥阳性影响的一类重要元件是增强子。增强子特征在于即使当它们位于远离(几千碱基对)启动子的位置时,也能影响启动子。由异染色质形成(例如Polycomb group蛋白)产生的阴性影响在上文已经描述,这些是STAR活性的靶位。增强子功能和异染色质形成的生物化学基础基本相似,因为它们均涉及蛋白质与DNA的结合。因此,重要的是测定STAR元件是否能阻断阳性影响以及阴性影响,换而言之,是否能保护转基因免受整合位点邻近的基因组增强子的作用。保护转基因免于增强子活性作用的能力保证转基因在生物技术应用中的稳定的和可预测的性能。这个实施例检测了STAR元件在增强子阻断分析中的性能。
STAR活性对其功能很重要的另一个特征是其赋予转基因以增加的产量(实施例11)。基于STAR在异染色质形成蛋白结合至候选STAR元件附近时保持zeocin高水平表达的能力而分离这些STAR。高水平表达是预期发生的,因为预期STAR阻断异染色质扩散至zeocin表达单位中。然而,另一种设想是zeocin-抗性克隆中的DNA片段含有增强子。已经证明增强子具有克服Polycomb-group蛋白如STAR筛选方法(Zink & Paro,1995)中使用的那些蛋白的阻抑作用的能力。通过这种现象分离的增强子被认为是假阳性的,因为增强子不具有本文指出的STAR的性质。为论证STAR元件不是增强子,在增强子分析中对它们进行了测试。
增强子阻断分析和增强子分析在方法学和概念上是相似的。所述分析图示于图17。STAR元件阻断增强子的能力使用E47/E-box增强子系统进行。E47蛋白当结合位于启动子邻近的E-box DNA序列时,能激活这些启动子的转录(Quong等,2002)。E47通常参与调节B和T淋巴细胞分化(Quong等,2002),但当异位表达时其能在不同细胞类型中起作用(Petersson等,2002)。E-box是一种回文DNA序列CANNTG(Knofler等,2002)。在增强子阻断分析中,将一个E-box置于表达载体中萤光素酶报道基因上游(包括最小启动子)。STAR元件的克隆位点置于E-box和启动子之间。E47蛋白在另一种质粒上编码。该分析通过将E47质粒和萤光素酶表达载体均转染进细胞中而进行;E47蛋白被表达并结合E-box,E47/E-box复合物能作为增强子。当萤光素酶表达载体不含有STAR元件时,E47/E-box复合物增强萤光素酶表达(图17A,实验情形1)。当STAR元件插入在E-box和启动子之间时,其阻断增强子的能力通过萤光素酶活性表达降低而证明(图17A,实验情形2);如果STAR不能阻断增强子,则萤光素酶表达被激活(图17A,实验情形3)。
STAR元件作为增强子的能力利用相同的萤光素酶表达载体测试。在不存在E47时,E-box自身不影响转录。反之,STAR元件的增强子行为将导致萤光素酶转录激活。该分析通过转染萤光素酶表达载体而不转染E47质粒进行。当表达载体不含有STAR元件时,萤光素酶表达很低(图17B,实验情形1)。如果STAR元件不具有增强子性质,当载体中存在STAR元件时,萤光素酶表达很低(图17B,实验情形2)。如果STAR元件具有增强子性质,在含有STAR的载体中萤光素酶表达将被激活(图17B,实验情形3)。
材料和方法
萤光素酶表达载体通过将来自质粒mu-E5+E2x6-cat(x)(Ruezinsky等,1991)的E-box和人碱性磷酸酶最小启动子插入质粒pGL3-basic(PromegaE1751)中萤光素酶基因的上游而构建,产生pGL3-E-box-luciferase(W.Romanow惠赠)。E47表达质粒含有在pHBAPr-1-neo质粒中β-肌动蛋白启动子控制下的E47开放读框;E47从该质粒中组成型表达(W.Romanow惠赠)。STAR元件1,2,3,6,10,11,18和27已经克隆进萤光素酶表达载体中。含有果蝇scs元件和鸡β-珠蛋白HS4-6x核心(“HS4”)元件的克隆作为阳性对照(已知其阻断增强子,而且无固有增强子性质(Chung等,1993,Kellum& Schedl,1992)),空萤光素酶表达载体作为阴性对照。所有分析均使用U-2 OS细胞系进行。在增强子阻断分析中,将E47质粒与萤光素酶表达载体(空载体,或者含有STAR或阳性对照元件)共转染。在增强子分析中,将E47质粒与不含STAR萤光素酶表达载体共转染,作为增强子活性的阳性对照;所有其它样品在共转染期间接受一种模拟质粒。在质粒转染后48小时对瞬时转染的细胞分析萤光素酶活性(如前所述)。减去不含E-box或STAR/对照元件的质粒表达的萤光素酶活性,并将萤光素酶活性根据蛋白质含量进行校正(如前所述)。
结果
图18示出增强子阻断分析结果。在不存在STAR元件(或已知增强子阻断元件scs和HS4)的情况中,E47/E-box增强子复合物激活萤光素酶的表达(“载体”);这种增强的表达水平校正为100。增强子活性由测试的所有STAR元件阻断。正如所预期的,增强子活性还由HS4和scs元件阻断(Bell等,2001,Gerasimova & Corces,2001)。这些结果表明除了其阻断转录沉默扩散的能力之外(阴性影响),STAR元件还能阻断增强子的作用(阳性影响)。
图19示出增强子分析结果。由E47/E-box复合物增强的萤光素酶表达水平设定为100(“E47”)。相比之下,无一STAR元件明显激活萤光素酶表达。正如所预期的,scs和HS4元件也不激活报道基因。因此总结出至少所测试的STAR元件不具有增强子性质。
实施例19:鉴定沉默诱导染色质(Silence Inducing Chromatin,SINC)元件
材料和方法
SINC筛选的一般特征如实施例1所描述,在此概括这种筛选的一些方面。用于筛选基因组DNA中SINC元件的一种pSS载体是pSS-codA∷upp(图20),其由两侧为STAR6元件的自杀基因表达单位组成。由在Tet-Off启动子控制下的codA∷upp自杀基因组成的表达单位,位于BglII限制位点下游。另一种pSS载体pSS-hrGFP(图21),通过用STAR8置换一个STAR6元件,及用编码绿色荧光蛋白的hrGFP基因(Stratagene 240059)置换自杀基因而产生。将来自22号染色体的人基因组DNA(Research Genetics 96010-22)用Sau3AI部分消化并按大小分级分离。将0.5-10kbp的级分连接进pSS-codA∷upp的BglII位点。这个文库代表具有平均插入大小为1.2kbp的约20,000个独立克隆。将此文库在大肠杆菌中扩增,通过标准技术(磷酸钙;Life Technoloes 18306-019)将来自扩增的文库的纯化DNA转染进U-2 OS/Tet-Off细胞中(van der Vlag等,2000)。使用空pSS-codA∷upp载体DNA进行对照转染,产生2400个潮霉素抗性集落。将转染的细胞在高浓度强力霉素(10ng/ml)下,在3周时间选择潮霉素抗性(25mg/ml),并从文库转染中回收1800个潮霉素抗性集落。然后将这些集落在强力霉素浓度为10ng/ml下与1mg/ml前体药物5-胞嘧啶(5-FC)温育,在5mg/ml加强4天。3周后,仅有的3个微弱生长的对照集落(用空pSScodA∷upp转染)死亡;58个该文库转染的集落存活。自前体药物处理中回收这些集落并进一步培养。收获5-FC-抗性分离株,裂解细胞,并将一部分DNA使用引物D30和D51进行PCR扩增,以回收SINC元件。通过常规方法(Sambrook等,1989),将来自6个5-FC-抗性集落的PCR产物克隆在pBluescript II SK(+)质粒(Stratagene 212207)的HindIII和XhoI位点之间。如前所述使用商购的针对pBluescript载体的引物(Stratagene 300301和300302)确定候选SINC元件的DNA序列。这些SINC元件的序列示于表4B。
将6个候选SINC元件以其天然方向克隆入质粒pSS-hrGFP中,将所得质粒转染进U-2 OS/Tet-Off细胞中,在针对潮霉素抗性选择后,将pSS-hrGFP-SINC转染子在高浓度强力霉素(10ng/ml)下进一步培养。使用RNeasy Mini试剂盒(QIAGEN 74104)根据厂商指导提取总细胞DNA。使用标准技术(Sambrook等,1989)确定在这些群体中GFP mRNA丰度的Northern印迹分析。GFP探针为包含phrGFP-1中bp690-1419位的BamHI-EcoRI片段。对印迹也探查了作为PSS-hrGFP-衍生的质粒拷贝数的对照的潮霉素mRNA,及探查了作为基因组编码的mRNA数量的对照的β-肌动蛋白。潮霉素探针是pREP4(Invitrogen)中从bp8219延伸至10144位的SfuI-Sal I片段,β-肌动蛋白探针来自Clontech,#9800-1。在杂交和洗涤后,将印迹暴露于磷光成像屏,使用BioRad Personal F/X磷光成像仪观察放射性信号并定量。
结果
克隆在GFP报道基因邻近的SINC元件诱导报道基因转录沉默,但不影响其它基因转录。精确测定SINC活性利用这样的事实,即测定相对于两个参照基因的表达的GFP表达水平,而不是简单测定绝对GFP表达。一个参照基因是pSS-hrGFP质粒上的潮霉素抗性基因(在STAR元件限定的结构域之外;图21),另一个是基因组β-肌动蛋白基因。通过RNA印迹分析定量SINC活性为GFP信号与潮霉素和β-肌动蛋白信号比的降低。在已经鉴定的候选SINC元件中,一些元件显示出显著的GFP转录相对降低,表明这些DNA能诱导沉默染色质形成。SINC35元件(表4B中标为PSINKS35)在这些候选物中具有最强活性,其使GFP/潮霉素之比降低大约69%,及使GFP/β-肌动蛋白信号比降低75%。在最初申请中描述的其它5个候选物中及在该申请递交后分离并鉴定的一些其它候选SINC元件中,SINC活性的强度较低。因此,SINC35具有作为强遗传元件的优异性能,能在生物技术应用中诱导沉默染色质。
实施例20:STAR元件在小鼠和人之间是保守的
对人基因组数据库(http://genome.ucsc.edu/cgi-bin/hgGateway的STAR DNA序列)进行STAR DNA序列的BLAST分析表明这些序列中有一些与人基因组的其它区域具有高序列保守性。这些复制的区域是候选STAR元件;如果它们缺失显示STAR活性,则会被认为是克隆的STAR的横向同源物(如果两个基因或遗传元件衍生自一种复制事件则认为其是横向同源的(Li,1997))。
对小鼠基因组(http://www.ensembl.org/Mus_musculus/blastview)进行人STAR的BLAST分析,也揭示了在小鼠和人之间高度序列保守的区域。这种序列保守性在65个人STAR元件中的15个STAR元件的片段中示出。在141-909碱基对的长度上,保守范围是64%-89%(表8)。这些序列保守程度值得注意并提示这些DNA序列在小鼠基因组中也可能赋予STAR活性。表8中小鼠和人基因组的一些序列可以严格定义为直向同源(如果两个基因或遗传元件衍生自一种物种形成事件,在认为它们是直向同源的(Li,1997))。例如,STAR6在人和小鼠基因组中均在SLC8A1和HAAO基因之间。在其它情况中,一种克隆的人STAR在人基因组中具有横向同源物,其直向同源物在小鼠基因组中已经鉴别。例如STAR3a是人染色体15的15q11.2区域的一个片段,这个区域与人染色体5上在IL12B白细胞介素基因附近的5q33.3的DNA片段有96.9%相同(横向同源)。这些人DNA与小鼠染色体11上的11B2区域的一个片段呈现大约80%相同性。该11B2片段也位于(小鼠)IL12B白细胞介素基因附近。因此,STAR3a和小鼠11B2片段可以严格定义为横向同源物。为测试STAR活性在小鼠和人基因组中高序列保守的区域之间是共有的这一假说,将具有在小鼠中是保守的序列的一种人STAR,STAR18,进行更详细分析。用最初的STAR18克隆检测的小鼠基因组中序列保守性在人染色体2上向左延伸大约500碱基对(图22;左侧和右侧相对于染色体2臂的标准描述)。在这个实施例中,我们检测了序列保守区域是否定义了一个比最初的克隆更长的人类中“天然存在的”STAR元件。我们还检测了这种STAR元件的STAR功能在小鼠和人之间是否是保守的。
材料和方法
在STAR18周围的小鼠/人序列保守区域通过PCR扩增回收自人BAC克隆RP11-387A1,分为三个片段:完整区域(引物E93和E94),左侧一半(引物E93和E92),及右侧一半(引物E57和E94)。来自同源小鼠区域的相应片段以相同方式回收自BAC克隆RP23-400H17(分别使用引物E95和E98,E95和E96,及E97和E98)。将所有片段均克隆入pSelect载体中并转染进U-2OS/Tet-Off/LexA-HP1细胞系中(如前所述)。在转染后,进行潮霉素选择以选择转染的细胞。通过降低强力霉素浓度而诱导LexA-HP1蛋白,转染的细胞抵挡抗生素zeocin的能力(STAR活性的测定标准)通过监测细胞生长而确定。
结果
最初的STAR18克隆基于其防止zeocin抗性基因沉默的能力分离自连接进pSelect载体中的Sau3AI消化的人DNA。人STAR18克隆(497个碱基对)与小鼠基因组的序列对比表明在直向同源的人和小鼠STAR18区域之间有高度序列相似性(72%)。在延伸至Sau3AI位点左侧488个碱基对的区域中(克隆区域的左侧末端)也有高度相似性(73%)(图22)。在这些序列之外,人和小鼠DNA之间的序列相似性下降至60%之下。
如图22所示,人和小鼠STAR18元件均赋予表达lexA-HP1阻抑蛋白的宿主细胞以在zeocin上的存活能力。最初497个碱基对的STAR18克隆及其小鼠直向同源物均赋予所述生长能力(图22,a和d)。来自这两个基因组的具有高度相似性的相邻488个碱基对区域也赋予生长能力,而且事实上其生长表型比最初的STAR18克隆的表型更强(图22,b和e)。当测试序列相似性的完整区域时,小鼠和人的这些DNA均赋予生长能力,而且生长表型比两个亚片段更强(图22,c和f)。这些结果表明人STAR18的STAR活性在来自小鼠的直向同源物中是保守的。这些这些直向同源区之间的高度序列保守性是特别值得注意的,因为它们不是蛋白质编码序列,由此得出结论,它们具有某些防止其通过突变而进化分歧的调节功能。
这个分析表明由最初筛选程序鉴别的克隆STAR元件在一些情况中可能是部分STAR元件,而且对含有其的基因组DNA进行分析可以鉴别具有更强STAR活性的序列。
实施例21:STAR元件含有特征性DNA序列基序
STAR元件基于其对转基因表达的抗阻抑表型而分离。这种抗阻抑表型反映了调节与STAR元件相关的染色质形成的潜在生物化学过程。这些过程典型地是序列特异性的,而且得自蛋白质结合或DNA结构。这提示STAR元件会共享DNA序列相似性。在STAR元件中序列相似性的鉴别将提供特征性序列基序,其是已经通过功能筛选和测试鉴别的元件所特有的。所述序列基序也可用于识别和要求保护功能与本专利的权利要求相符的新的STAR元件。所述功能包括改善在真核宿主细胞中表达的转基因的产量和稳定性。
鉴别STAR元件特有的序列基序的其它益处包括:(1)提供预测及鉴别基因组数据库中新STAR元件的检索基序,(2)提供修饰所述元件的基本原理,(3)提供用于STAR活性功能分析的信息。使用生物信息学,已经鉴别了STAR元件中的序列相似性;结果在这个实施例中给出。
生物信息学和统计学背景:调节性DNA元件典型地通过与序列特异性DNA结合蛋白的相互作用而发挥功能。对调节特性已经鉴别但相互作用蛋白未知的DNA元件如STAR元件进行生物信息学分析,需要一种统计法以鉴别序列基序。这可以通过一种方法实现,即检测与参比序列(例如完整人基因组)相比,在一系列调节DNA元件(例如STAR元件)中过量存在的短DNA序列模式。所述方法确定了观测的及预期的该模式在每个调节元件中的出现次数。预期的出现次数从在参比序列中观测的每种模式出现次数中计算。
DNA序列模式可以是给定长度的寡核苷酸,例如6个碱基对。在最简单的分析中,对于由四个核苷酸(A,C,G和T)组成的6个碱基对寡核苷酸(六聚体),有4^6=4096种不同的寡核苷酸(从AAAAAA至TTTTTT的所有组合)。如果调节和参比序列是完全随机的而且具有等比例的A,C,G和T核苷酸,则每种六聚体的预期频率是1/4096(~0.00024)。然而,在参比序列中每种六聚体的实际出现频率典型地与此不同,这是由于G:C碱基对等的含量不同所致。因此,参比序列中每个寡核苷酸的出现频率通过计数而经验性确定,产生这些模式的“频数表(frequency table)”。
参比序列的模式频数表然后用于计算在调节元件集中每种模式的预期出现频率。将模式的预期出现频率与观测的出现频率对比。鉴别了在该调节元件集中“过量存在(over-represented)”的模式;例如如果六聚体ACGTGA在20kbp的序列中预期出现5次,但观测到出现15次,则其是三倍过量存在的。如果调节元件具有与完整基因组相同的六聚体组分,则预期该六聚体序列模式15次出现中有10次不应出现在所述元件中。一旦鉴别出过量存在模式,则应用一统计学检验确定其过量存在是否显著义,或者也许是由于机会所致。对于该检验,对每种模式均计算一个显著性指数“sig”。该显著性指数得自每种模式的出现概率,其是通过二项分布估算的。该概率考虑到可能存在的模式数(对六聚体有4096个)。最高的sig值相当于最过量存在的寡核苷酸(van Helden等,1998)。实际上,sig>=0的寡核苷酸被认为是过量存在的。sig>=0的模式可能会由于机会而在调节元件序列集过量存在一次(=10^0)。然而,sig>=1的模式预期在10个(=10^1)序列集中这样过量存在一次,sig>=2的模式预期在100个(=10^2)序列集中这样过量存在一次,等等。在调节元件集中显著过量存在的模式用于开发一种模型,以分类和预测调节元件序列。这应用的是判别分析,一种本领域技术人员已知的所谓统计学分类“监督”方(Huberty,1994)。在判别分析中,已知的或分类的项目(例如STAR元件)集用于“训练”一种模型以基于特异性变量(例如序列模式如六聚体)识别那些项目。然后将训练的模型用于预测其它项目是否应分类为属于已知项目集(例如是一个DNA序列,一种STAR元件)。在本实施例中,训练集中已知项目是STAR元件(阳性训练集)。它们与从基因组中随机选择的与STAR元件等长的序列(阴性训练集)相反。判别分析建立了标准,用于基于辨别阳性的变量集将阳性与阴性区分开;在本实施例中,所述变量是显著过量存在的模式(例如六聚体)。
当与训练集的大小相比,过量存在的模式数目较高时,该模型会由于过度训练而结果偏差。过度训练通过应用变量的一正向逐步选择而避免(Huberty,1994)。逐步判别分析的目的是选择在阳性和阴性之间提供最大判别性的变量的最小数目。该模型通过逐个评估变量将所述项目正确分类进阳性和阴性训练集中的能力而训练。持续进行直至在该模型中加入新的变量不会显著提高模型的预测能力(即直至分类误差率最小)。这个最佳化的模型然后用于测试,以预测“新”项目是阳性还是阴性的(Huberty,1994)。
在分类统计学中固有的是,对于复杂项目如DNA序列,阳性训练集的一些元件会被分类为阴性(假阴性),阴性训练集的一些成员会被分类为阳性(假阳性)。当一种训练模型用于测试新项目时,预期会发生相同类型的错误分类。在所述生物信息学方法中,第一个步骤,即模式出现频率分析将大的序列模式集(例如所有4096个六聚体)降低为较小的显著过量存在的模式集(例如100个六聚体);在第二个步骤中,逐步判别分析将过量存在的模式集降低为具有最大判别能力的那些模式的亚集(例如5-10个六聚体)。因此,这个方案提供了鉴别调节性DNA元件如STAR元件的简便及强有力标准。
DNA-结合蛋白可以基于它们占据的结合位点的类型而区分。一些蛋白质识别相邻的序列;针对这种类型蛋白质,长度为6个碱基对的寡核苷酸(六聚体)模式在生物信息学分析中富有成效(van Helden等,1998)。其它蛋白质结合序列dyad:在由非保守的定宽区域分隔的成对高保守三核苷酸之间进行接触(van Helden等,2000)。为鉴别STAR元件中可由dyad结合蛋白结合的序列,针对这类模式也进行出现频率分析,其中两个三核苷酸之间的间隔为0至20(即XXXN{0-20}XXX,其中X是组成三核苷酸的特异核苷酸,N是长度为0-20个碱基对的随机核苷酸)。Dyad频率分析的结果也用于上述线性判别分析。
材料和方法
使用最初专利申请中所述的遗传筛选方法,从人基因组DNA中初始分离了66种STAR元件并进行了详细鉴定(表6)。该筛选在通过Sau3AI消化的人基因组DNA构建的基因文库上进行,所述人基因组DNA纯化自胎盘(Clontech 6550-1)或者由细菌/P1(BAC/PAC)人工染色体携带。BAC/PAC克隆含有的基因组DNA来自染色体1的区域(克隆RP1154H19和RP3328E19),来自HOX同源异型基因簇(克隆RP1167F23,RP1170019和RP11387A1),或者来自人染色体22(Research Genetics 96010-22)。通过标准技术(Sambrook等,1989)将DNA按大小分级分离,并将0.5-2kb大小的级分连接入BamHI-消化的pSelect载体中。分离含有人基因组DNA的在低浓度强力霉素下赋予zeocin抗性的pSelect质粒,并在大肠杆菌中增殖。产生表6的STAR元件的筛选分析了大约1-2%的人基因组。
这66个质粒中的人基因组DNA插入体通过双脱氧方法测序(Sanger等,1977),使用Beckman CEQ2000自动DNA测序仪,根据厂商指导进行。简而言之,从大肠杆菌中纯化DNA,使用QIAprep SpinMiniprep和Plasmid Midi试剂盒进行(分别为QIAGEN 27106和12145)。在染料终止子存在下(CEQ染料终止子循环测序试剂盒,Beckman608000),使用相应于pSelect载体的通用寡核苷酸(引物D89和D95,表5)进行循环测序。使用BLAT(Basic Local Alignment Tool(Kent,2002);http://genome.ucsc.edu/cgi-bin/hgGateway;表6),将装配的STAR DNA序列定位于人基因组中(数据库建于2001年8月和12月)。总计组合的STAR序列包含85.6kbp,平均长度为1.3kbp。
区别人基因组DNA内STAR元件的序列基序通过如下生物信息学分析使用两步程序鉴别(见图23示意图)。该分析有两个输入数据集:(1)STAR元件的DNA序列(使用STAR1-STAR65;表6);及(2)人基因组的DNA序列(除了染色体1之外;由于其较大而不适合;对于dyad分析,使用人基因组DNA序列的一种随机亚集(约27Mb))。
模式出现频率分析:在该分析中第一个步骤使用RSA-Tools软件(调节序列分析工具;
http://www.ucmb.ulb.ac.be/bioinformatics/rsa-tools/;参考文献(vanHelden等,1998,van Helden等,2000,van Helden等,2000)),以确定以下信息:(1)人基因组中所有dyad和六聚体寡核苷酸的出现频率;(2)65个STAR元件中所述寡核苷酸和dyad的出现频率;及(3)与基因组相比在STAR元件中过量存在的那些寡核苷酸和dyad的显著性指数。用随机从人基因组中(即从2689×10^3kbp中)选择的与表6所示STAR元件长度匹配的65种序列进行对照分析。
判别分析:将过量存在的寡核苷酸和dyad用于训练模型以通过线性判别分析(Huberty,1994)预测STAR元件。从在频率分析中过量存在的oligo或dyad中选择具有最高个体判别能力的50个模式进行变量预先选择。这些预选的变量然后用于在逐步线性判别分析中训练模型,以选择最具判别力的变量组合(Huberty,1994)。基于最小化分类误差率(假阴性分类百分率)进行变量选择。另外,预期的误差率通过应用相同的判别方法至对照的随机序列集而估算(最小化假阳性分类百分率)。
将来自判别分析训练期的预测模型以两种方式测试。首先,分类用于产生该模型的STAR元件和随机序列(训练集)。其次,分类19种候选STAR元件集合(如上所述通过zeocin选择新近克隆的)中的序列。这些候选STAR元件列于表11(SEQ ID:67-84)。
结果
用RSA-Tools对65个元件进行模式出现频率分析,使用人基因组作为参比序列。发现166个六聚体寡核苷酸在该STAR元件集中与在完整基因组中相比是过量存在的(sig>=0)(表9)。最显著的过量存在的寡核苷酸CCCCAC在这65个元件中出现107次,而预期是仅49次。其显著性系数为8.76;换而言之,其过量存在是由于随机机会所致的概率为1/10^8.76,即不到5亿分之一。
95个寡核苷酸的显著性系数大于1,因此在STAR元件中是高度过量存在的。在这些过量存在的寡核苷酸中,它们观测到的和预期的出现频率分别为6和1(针对Oligo 163,CGCGAA,sig=0.02)至133和95(针对Oligo120,CCCAGG,sig=0.49)。在预期出现频率中的差异反映了诸如人基因组的G:C含量这些因素。因此寡核苷酸出现次数的差异比其过量存在的重要性略小;例如Oligo 2(CAGCGG)是36/9=4倍过量存在的,这种过量存在是由于随机机会所致的概率是五千万之一(sig=7.75)。表9还示出了在其中每个过量存在的寡核苷酸被发现的STAR元件的数目。例如最显著性的寡核苷酸,Oligol(CCCCAC),出现107次,但只在51个STAR元件中发现,即平均每个STAR出现两个拷贝。丰度最小的寡核苷酸,Oligo166(AATCGG),每个STAR平均出现一个拷贝(在11个STAR上出现13次);单一拷贝的寡核苷酸频繁出现,尤其是较低丰度Oligo。在另一个极端中,Oligo 4(CAGCCC)在发现其的那些STAR(37个STARs)中平均出现3次。分布最广泛的寡核苷酸是Oligo 120(CCCAGG),其在58个STAR上出现(平均每个STAR出现两次),分布最不广泛的寡核苷酸是Oligo 114(CGTCGC),其只在6个STAR上出现(平均每个STAR上只出现一次)。
dyad频率分析结果示于表10。与参比序序列相比,在STAR元件集中发现730个dyad是过量存在的(sig>=0)。最显著性过量存在的dyad,CCCN{2}CGG,在65个STAR元件中出现36次,但预期只出现7次。其显著性系数为9.31;换而言之,过量存在是由于机会所致的概率为1/10^9.31,即低于20亿分之一。
397个dyad的显著性系数高于1,因此在STAR元件中高度过量存在。在过量存在的dyad中,观测到的和预期的出现频率分别为9和1(针对5个dyad(编号为380,435,493,640和665))至118和63(针对编号30(AGGN{2}GGG),sig=4.44)。
对通过模式频率分析发现在STAR元件中过量存在的寡核苷酸和dyad,通过线性判别分析测试其判别能力。通过在50个最具判别力的寡核苷酸(表9)或dyad(10)模式中逐步选择最佳组合而训练判别模型。在掺入4个(dyad)或5个变量后,该模型达到最佳误差率。Oligo分析的判别变量为编号11,30,94,122和160(表9);dyad分析的变量为编号73,194,419和497(表10)。
然后将判别模型用于分类在训练集中的65个STAR元件及其相关随机序列。使用寡核苷酸变量的模型将65个STAR元件中的46个分类为STAR元件(真阳性);dyad模型将49个STAR元件分类为真阳性。组合起来,这两个模型将65个STAR元件的59个分类为STAR元件(91%;图24)。dyad模型假阳性率(随机序列分类为STAR)为7个,寡核苷酸模型为8个,两种模型组合预测为13个(20%)。表6中通过LDA未被分类为STAR的STAR元件为STAR 7,22,35,44,46和65。这些元件在功能性分析中呈现稳定抗阻抑物活性,因此它们通过LDA未被分类为STAR的事实提示它们代表另一类STAR元件。
这些模型然后用于分类表11所示测试集中19个候选STAR元件。dyad模型将这些候选STAR中的12个分类为STAR元件,寡核苷酸模型将其中14个分类为STAR。分类为STAR元件的组合候选物数目为15个(79%)。这低于用65个STAR的训练集获得的分类结果,原因有两个。首先,判别模型是用表6的65个STAR元件训练的,而且基于这个训练集的判别变量可能在测试集中的代表性不是很好。其次,测试集中候选STAR序列还未充分定性其体内功能,而且可能包括只具有微弱抗阻抑性质的元件。这个分析表明统计学方法对生物信息学分类STAR元件的能力。STAR序列含有许多dyad和六聚体寡核苷酸模式,它们在STAR序列中与在整体人基因组中相比是显著过量存在的。这些模式可能代表了赋予STAR活性的蛋白质的结合位点;在任何情况中其均形成一序列基序集,可以用于识别STAR元件序列。
使用这些模式通过判别分析识别STAR元件,高比例的通过本发明的遗传筛选获得的元件确实被分类为STAR。这反映了这些元件的根本序列及功能相似性。本发明所述方法(模式频率分析随后判别分析)的一个重要方面是可以反复进行;例如,通过在一个训练集中包括表11所示19个候选STAR元件和表6所示66个STAR元件,可以训练改良的判别模型。这种改良的模型然后可以用于分类其它候选调节元件如STAR。使用本发明的方法在体内大规模筛选基因组序列,组合反复的生物信息学分析,将提供一种判别STAR元件的手段,其渐进性接近元件的100%识别及预测,因为基因组是以其全部筛选的。STAR功能的这些严格和全面预测保证了所有人STAR元件均被识别,而且可用于改良转基因表达。
实施例22:从Arabidopsis thaliana中克隆和定性STAR元件
在转基因植物中转基因沉默在转录和转录后水平均可以出现(Meyer,2000,Vance & Vaucheret,2001)。在任一情况中,所需的转基因表达结果可能由于沉默而受损;低水平表达和转基因的不稳定性导致所需性状(例如有害物抗性)表达不足或者重组蛋白产量低下。还导致可预测性不足:以生物工程学有效水平表达转基因的转基因植物比例低下,从而必需费力及费用昂贵地筛选那些具有有益表达特征的转化个体。本实施例描述了从双子叶植物Arabidopsis thaliana中分离STAR元件,用于防止转基因植物中的转录性转基因沉默。在这个实施例中选择Arabidopsis是因为其是经充分研究的模型生物体:其具有小型基因组,适应遗传和重组DNA处理,而且其基因组已经测序(Bevan等,2001,Initiative,2000,Meinke等,1998)。
材料和方法:
基因组DNA如(Stam等,1998)所述分离自Arabidopsis thaliana生态型Columbia,并用MboI部分消化。通过琼脂糖凝胶电泳将消化的DNA按大小分级分离为0.5-2kbp,并从该凝胶中纯化(QIA quick凝胶提取试剂盒,QIAGEN 28706),随后连接入pSelect载体中(如前述)。如前述转染进U-2 OS/Tet-Off/LexA-HP1细胞系中,并在低浓度强力霉素下对zeocin抗性进行选择。从zeocin抗性克隆中分离质粒并再转染进U-2 OS/Tet-Off/LexA-HP1细胞系中。
如前述对在再转染时赋予zeocin抗性的Arabidopsis基因组DNA进行测序。通过BLAST分析((Altschul等,1990);URL http://www.ncbi.nlm.nih.gov/blast/Blast),将该DNA序列与Arabidopsis基因组序列进行对比。
通过逆转录PCR(RT-PCR)测定重组宿主细胞中潮霉素和zeocin抗性基因的mRNA水平,进一步测定STAR活性。将U-2OS/Tet-Off/lexA-HP1细胞系的细胞用含有Arabidopsis STAR元件,果蝇scs元件或不含有插入物的pSelect质粒转染(如前述)。将它们在高浓度强力霉素下,在潮霉素上培养2周,然后将强力霉素浓度降低为0.1ng/ml,以诱导lexA-HP1阻抑物蛋白。10天后,通过RNeasy mini试剂盒(QIAGEN 74104)根据厂商指导分离总RNA。使用RevertAidFirst Strand cDNA合成试剂盒(MBI Fermentas 1622),使用Oligo(dT)18引物,根据厂商指导合成第一链cDNA。将该cDNA等份在PCR反应中用作模板,使用引物D58和D80(针对zeocin标记),及D70和D71(针对潮霉素标记),及Taq DNA聚合酶(Promega M2661)。反应条件为94℃1分钟,54℃1分钟,72℃90秒,循环15-20次。这些条件产生输入RNA与PCR产物DNA之间的线性关系。该PCRT产物通过琼脂糖凝胶电泳解离,通过如述(Sambrook等,1989)经Southern印迹检测zeocin和潮霉素条带,使用用纯化的pSelect质粒产生的PCR产物作模板。zeocin和潮霉素信号比相应于zeocin基因的校正后的表达水平。
结果
pSelect载体中的Arabidopsis基因组DNA的文库包含大肠杆菌中69,000个原始克隆,其中80%携带插入体。插入体平均大小为大约1000碱基对;该文库因此代表大约40%的Arabidopsis基因组。
将这个文库的一部分(代表大约16%的Arabidopsis基因组)转染进U-2OS/Tet-Off/LexA-HP1细胞系中。利用潮霉素选择分离转染子,产生27,000个存活集落。然后将这些克隆在低浓度强力霉素下进行zeocin选择。将来自56个抗性集落的推测含有STAR的质粒在大肠杆菌中拯救,并再转染进U-2 OS/TeOff/LexA-HP1细胞中。44个这些质粒(测试质粒的79%)在低浓度强力霉素赋予宿主细胞zeocin抗性,表明该质粒携带STAR元件。这表明在人U-2 OS细胞中进行pSelect筛选对于从植物基因组DNA中检测STAR元件是高效的。
测定这44个候选STAR元件的DNA序列。其中35个鉴别为Arabidopsis细胞核基因组序列数据库中的单一基因座(表12;SEQ ID:85-SEQ ID:119)。4个鉴别为来自叶绿体基因组,4个是来自两个基因座的DNA片段嵌合体,1个在Arabidopsis基因组数据库中未发现。
使用RT-PCR分析,通过确定其防止zeocin抗性基因的转录阻抑的能力测试克隆的Arabidopsis STAR元件的强度。作为针对样品中输入RNA的对照,也测定针对每个STAR转染的潮霉素抗性基因的转录水平。这个分析针对12个Arabidopsis STAR元件进行。结果(图25)表明Arabidopsis STAR元件的保护zeocin抗性基因免于转录阻抑的能力高于果蝇scs元件(阳性对照)和空载体(“SV40”;阴性对照)。特别地,当lexA-HP1阻抑物表达时,STAR-A28和STAR-A30使zeocin抗性基因表达水平比SCS元件导致的水平高2倍(相对于潮霉素抗性基因mRNA的内部对照校正)。这些结果表明本发明的方法可以成功地应用于从除人之外的其它物种中回收STAR元件。其成功用于从植物基因组中回收STAR元件是特别重要的,因为其表明本发明方法可应用于广泛分类学范围,而且因为植物是生物工程发展的一个重要目标。
附图简述
图1:用于选择和鉴定STAR元件的质粒pSelect家族。在混栖的SV40启动子控制下的抗性标记(zeocin或嘌呤霉素)或报道基因(GFP或萤光素酶)邻近于两侧为AscI和HindIII位点的BamHI克隆位点。所述克隆位点的上游是lexA蛋白可以结合的lexA操纵子。嵌合的lexA-Polycomb group蛋白与操纵子的结合引起所述标记或报道基因的阻抑。在克隆位点插入的阻断阻抑的DNA片段通过标记或报道基因的持续表达而鉴别。所述质粒在培养的哺乳动物细胞中的附加型复制是由于oriP序列所致。
图2:用于测试STAR元件的质粒的pSDH家族。两个多克隆位点(MCSI和MCSII)位于报道基因(GFP或萤光素酶)两侧,其表达由上游启动子(CMV,Tet-off或SV40)驱动。将测试的STAR元件在MCSI和MCSII处插入。这些MCS含有单切的限制位点(MCSI:XhoI,NotI,EcoRI,和SalI;MCSII,HindIII,EcoRV,BglII和NheI)。该质粒在哺乳动物细胞基因组中随机整合后进行复制。
图3:过表达萤光素酶的克隆的比例。将U-2 OS人骨肉瘤细胞用pSDH质粒(含有在启动子控制下的萤光素酶报道基因)稳定转染,分离各个转染的克隆并培养。酶学测定萤光素酶表达。确定由含有无STAR的pSDH的克隆表达的萤光素酶平均水平(参比水平)。如果来自所有质粒集合的克隆其萤光素酶活性比参比水平高2倍以上,则认为其是“过表达的”。描绘了每个质粒集合中过表达克隆的百分数。
图4:过表达克隆的过表达倍数。在整合入基因组DNA中的含有STAR的pSDH质粒中的过表达范围通过将每个克隆的萤光素酶活性除以参比水平而测定。对于那些呈现显著表达的克隆(高于参比水平2倍以上),标注了其实际增加倍数;针对每个质粒绘出这些数据的最小值和中位值。
图5:过表达克隆的过表达倍数。在整合入基因组DNA中的含有STAR的pSDH质粒中的过表达范围通过将每个克隆的萤光素酶活性除以参比水平而测定。针对那些呈现显著表达的克隆(高于参考=比水平2倍以上),标注了其实际增加倍数;针对每个质粒绘出这些数据的最大值。
图6:用于选择和鉴定SINC元件的pSS(SINC-Select)质粒。codA∷upp自杀基因编码一种蛋白质,其将前体药物5-氟胞嘧啶转变为毒性药物5-氟尿嘧啶。通过降低四环素浓度进行诱导,宿主细胞变为对前体药物敏感。在克隆位点(BglII-XhoI)插入的具有沉默活性的基因组DNA片段将防止自杀基因表达并使得前体药物抗性集落形成。STAR元件在选择组分两侧以防止沉默的染色质扩散至该质粒的功能成分。该质粒由于oriP序列所致在培养的哺乳动物细胞中附加型复制。
图7:用于测试STAR活性的pSDH-CSP质粒。分泌型碱性磷酸酶(SEAP)到基因在CMV启动子控制下,嘌呤霉素抗性选择标记(puro)在SV40启动子控制下。在这两个基因两侧是可用于克隆STAR元件的多克隆位点。该质粒还具有用于在大肠杆菌中增殖的复制起点(ori)和氨苄青霉素抗性基因(ampR)。
图8:STAR6和STAR49改良了转基因表达的可预测性和产量。测定了用pSDH-CSP,pSDH-CSP-STAR6或pSDH-CSP-STAR49转染的CHO细胞从CMV启动子表达的SEAP。相对于单独的pSDH-CSP构建体,含有STAR的构建体赋予更高的可预测性和提高的产量。
图9:STAR6和STAR8改良了转基因表达的可预测性和产量。测定了用pSDH-CMV,pSDH-CMV-STAR6或pSDH-CMV-STAR8转染的U-2 OS细胞从CMV启动子表达的萤光素酶。相对于单独的pSDH-CMV构建体,含有STAR的构建体赋予更高的可预测性和提高的产量。
图10:STAR10和STAR27的最小基本序列。将STAR元件的一部分通过PCR扩增:STAR10用引物E23和E12扩增产生片段10A,用E13和E14扩增产生片段10B,及用E15和E16扩增产生片段10C。STAR27用引物E17和E18扩增产生片段27A,用E19和E20扩增产生片段27B,及用E21和E22扩增产生片段27C。将这些亚片段克隆入pSelect载体中。在转染进U-2OS/Tet-Off/LexA-HP1细胞中后,监测在存在zeocin情况下培养物的生长。生长速度在旺盛(+++)至低下(+/-)范围变化,同时一些培养物经zeocin处理不能存活(-),这是由于测试的DNA片段中缺乏STAR活性所致。
图11:STAR元件对SV40启动子的功能。将pSDH-SV40和pSDH-SV40-STAR6转染进人骨肉瘤U-2 OS细胞系中,在嘌呤霉素抗性克隆中分析STAR6保护或未保护基因免于沉默的萤光素酶表达。
图12:STAR对Tet-Off启动子的功能。将pSDH-Tet和pSDH-Tet-STAR6转染进人骨肉瘤U-2 OS细胞系中,在嘌呤霉素抗性克隆中分析STAR6保护或未保护基因免于沉默的萤光素酶表达。
图13:STAR元件的方向示意图,它们保持其天然方向克隆入pSelect载体中(A组),保持其天然方向克隆入pSDH载体中(B组),及以相反方向克隆入pSDH载体中(C组)。
图14:STAR66功能的定向性(directionality)。将STAR66元件以天然方向(STAR66天然方向)或相反方向(STAR66相反方向)克隆入pSDH-Tet中,并转染进U-2 OS细胞中。在嘌呤霉素抗性克隆中分析萤光素酶活性。
图15:STAR功能的拷贝数依赖性。整合入U-2 OS基因组DNA中的pSDH-Tet-STAR10中的萤光素酶表达单位的Southern印迹。使用放射性萤光素酶DNA探针检测每个克隆基因组中转基因DNA的量,然后用磷光成像仪定量。
图16:STAR功能的拷贝数依赖性。通过磷光成像仪测定每个克隆中pSDH-Tet-STAR10表达单位的拷贝数,并与每个克隆表达的萤光素酶报道基因的活性对比。
图17:增强子阻断分析及增强子分析。图中示出用于测试STAR的增强子阻断及增强子活性的萤光素酶表达载体。E47增强子蛋白的E-box结合位点在STAR元件克隆位点的上游。STAR克隆位点的下游是在人碱性磷酸酶最小启动子(mp)控制下的萤光素酶基因。柱状图表示三种可能的实验情形的预期结果(见正文)。A组:增强子阻断分析。B组:增强子分析。
图18:增强子阻断分析。萤光素酶从最小启动子的表达由空载体(载体)中的E47/E-box增强子激活。插入增强子阻断子(scs,HS4)或STAR元件(STAR元件1,2,3,6,10,11,18和27)阻断了E47/E-box增强子对萤光素酶的激活。
图19:增强子分析。萤光素酶从最小启动子的表达由空载体(E47)中的E47/E-box增强子激活。插入scs和HS4元件或各种STAR元件(STARs 1,2,3,6,10,11,18和27)不激活报道基因的转录。
图20:用于分离SINC元件的pSS-codA∷upp载体。codA∷upp自杀基因编码一种蛋白质,其使前体药物5-氟胞嘧啶转变为毒性药物5-氟尿嘧啶。在降低强力霉素浓度加以诱导时,宿主细胞变为对前体药物敏感。在BglII克隆位点插入的具有沉默活性的基因组DNA片段防止自杀基因表达并使前体药物抗性集落形成。STAR元件在选择成分两侧以防止沉默的染色质扩散至该质粒的功能成分。在转染进哺乳动物细胞后,用潮霉素抗性基因选择该质粒,并在转化入大肠杆菌后用氨苄青霉素抗性基因选择。其在培养的哺乳动物细胞中由于oriP和EBNA-1序列而附加型复制,在大肠杆菌细胞中由于ori序列而附加型复制。
图21:pSS-hrGFP质粒与pSS-codA∷upp质粒相同,除了用hrGFP(编码绿色荧光蛋白)置换自杀基因及用GFP报道基因下游的STAR8置换STAR6之外。
图22:STAR18序列在小鼠和人之间的保守性。图中示出含有497个碱基对STAR18的人基因组区域(黑框);该元件在人染色体2上HOXD8与HOXD4同源框基因之间存在。其与小鼠染色体2中的一个区域相比呈现72%序列相同性。在STAR18左侧的人染色体2的区域与小鼠染色体2也是高度保守的(73%相同性;灰色框);在这些区域之外,相同性降至60%以下。图中示出了来自人和小鼠的这些区域分别或组合赋予在zeocin之上生长的能力:-,不生长;+,中等生长;++,旺盛生长;+++,迅速生长。
图23:生物信息学分析流程的示意图。详细内容见正文。
图24:对65个STAR元件组成的训练集的分类的判别分析结果。通过逐步线性判别分析(LDA)正确分类为STAR的STAR元件示于Venn图表。从六聚体寡核苷酸(Oligo)和Dyad的频率分析结果中选择LDA的变量。图中示出两个变量集在正确分类STAR中的一致性。
图25:用候选Arabidopsis STAR元件转染并在低强力霉素浓度下培养的U-2 OS/Tet-Off/lexA-HP1细胞。分离总RNA并进行RT-PCR;通过Southern印迹检测相应于zeocin和潮霉素抗性mRNA的条带,并用磷光成像仪定量。zeocin与潮霉素的信号比示出含有两侧为12种不同的Arabidopsis STAR元件、果蝇scs元件或没有侧翼元件的zeocin表达单位的转染子。
图26:包含STAR1-STAR65的序列(SEQ ID:1-65)
包含STAR66和测试集的序列(SEQ ID:66-84)
包含Arabidopsis STAR A1-A35的序列(SEQ ID:85-119)。
参考文献
Altschul,S.F.和Gish,W.(1996),局部序列对比统计,酶学方法266,460-480。
Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.和Lipman,D.J.(1990),基本局部序列对比研究工具,分子生物学杂志215,403-410。
Bell,AC,West,AG和Felsenfeld,G.(2001),绝缘体和边界:真核生物基因组中的通用调节元件,科学291,447-50。
Bennett,R.P.,Cox,C.A.和Hoeffler,J.P.(1998),绿色荧光蛋白与Zeocin抗性标记的融合可以目测筛选及药物学筛选转染的真核细胞,生物技术24,478-482。
Berger,J,Hauber,J,Hauber, R,Geiger,R和Cullen,BR.(1988),分泌的胎盘碱性磷酸酶:基因在真核细胞中表达的一种有力的新的定量指示元件,基因66,1-10。
Bevan,M,Mayer,K,White,O,Eisen,JA,Preuss,D,Bureau,T,Salzberg,SL,和Mewes,HW.(2001),Arabidopsis基因组的序列和分析,植物生物学通用观点4,105-10。
Bierhuizen,M.F.,Westerman,Y,Visser,T.P.,Wognum,A.W.和Wagemaker,G.(1997),绿色荧光蛋白变体在造血祖细胞和细胞系中作为逆转录病毒介导的基因转移的标记物,生物化学生物生理学研究学会234,371-375。
Boivin,A和Dura,JM.(1998),与果蝇中基因沉默相关的体内染色质可接近性,遗传学150,1539-49。
Boshart,M,Weber,F,Jahn,G,Dorsch-Hasler,K,Fleckenstein,B,和Schaffner,W.(1985),一种极强增强子位于人巨细胞病毒立即早期基因上游,细胞41,521-30。
Breckenridge,D.G.和Shore,G.C.(2000),由E1A和Myconco蛋白调节细胞程序死亡,Crit Rev Eukaryot Gene Expr 10,273-280。
Bunker,C.A.和Kingston,R.E.(1994),在转染的哺乳动物细胞中果蝇和哺乳动物Polycomb组蛋白阻抑转录,分子细胞生物学14,1721-1732。
Cherry,J.R.,Lamsa,M.H.,Schneider,P.,Vind,J.,Svendsen,A.,Jones,A.和Pedersen,A.H.(1999),真菌过氧化酶的定向进化,自然生物技术17,379-384。
Chung,JH,Whiteley,M和Felsenfeld,G.(1993),一种鸡β球蛋白结构域的5’元件在人类红细胞中作为绝缘体并在果蝇中保护位置效应,细胞74,505-14。
Deuschle,U,Meyer,WK和Thiesen,HJ.(1995),真核启动子的四环素可逆沉默,分子细胞生物学15,1907-14。
Doll,R.F.,Crandall,J.E.,Dyer,C.A.,Aucoin,J.M.和Smith,F.I.(1996),使用AAV载体对比启动子对基因输送至哺乳动物脑细胞强度,基因治疗3,437-447。
Eissenberg,J.C.,James T.C.,Foster-Hartnett D.M.,Hartnett T.,Ngan V.和Elgin S.C.R.(1990),异染色质特异性染色体蛋白中的突变与中花斑位置效应的抑制相关,美国科学院院报87:9923-9927。
Feng,Y.Q.,Seibler,J.,Alami,R.,Eisen,A.,Westerman,K.A.,Leboulch,P.,Fiering,S.和Bouhassira,E.E.(1999),哺乳动物细胞中的位点特异性染色体整合:高效CRE重组酶介导的盒式交换,分子生物学杂志292,779-785。
Foecking,MK和Hofstetter,H.(1986),哺乳动物表达载体的有力的及通用的增强子启动子单位,基因45,101-5。
Garrick,D,Fiering,S,Martin,DI和Whitelaw,E.(1998),哺乳动物中重复诱导的基因沉默,自然遗传学18,56-9。
Gaszner,M.,Vazquez,J.和Schedl,P.(1999),Zw5蛋白,scs染色质结构域边界的一种成分,能阻断增强子启动子相互作用,基因进展13,2098-2107。
Gerasimova,T.I.和Corces,V.G.(1998),Polycomb和trithorax基团蛋白介导染色质绝缘体的功能,细胞92,511-521。
Gerasimova,TI和Corces,VG.(2001),染色质绝缘体和边界:对转录及核机构的作用,Annu Rev Genet 35,193-208。
Gossen,M.和Bujard,H.(1992),通过四环素应答启动子紧紧控制哺乳动物中基因表达,美国科学院院报89,5547-5551。
Graham,F.L.和van der Eb,A.J.(1973),通过人腺病毒5的DNA转录大鼠细胞,病毒学54,536-539。
Heldin,C.H.,Johnsson,A.,Wennergren,S.,Wernstedt,C.,Betsholtz,C.和Westermark,B.(1986),人骨肉瘤细胞系分泌一种与PDGF A链ahomo二聚体结构相关的生长元件,自然319,511-514。
Henke,E.和Bornscheuer,U.T.(1999),来自Pseudomonasfluorescens的一种酯酶的定向进化,通过易错PCR或突变链随机诱变及通过基于aresorufin的荧光分析鉴别示出增强的nantio选择性的突变体,生物化学380,1029-1033。
Henthorn,P,Zervos,P,Raducha,M,Harris,H和Kadesch,T.(1988),人胎盘碱性磷酸酶基因在转染的细胞中的表达:用作报道基因以研究基因表达,美国科学院院报85,6342-6。
Higgins,D.G.,Thompson,J.D.和Gibson,T.J.(1996),使用CLUSTAL进行多重序列对比,酶学方法266,383-402。
Himes,S.R.和Shannon,M.F.(2000),基于萤光素酶报道基因分析转录活性,分子生物学方法130,165-174。
Huberty,CJ(1994),应用判别分析,Wiley和Sons,纽约
Initiative,AG.(2000),分析开花植物Arabidopsis thaliana的基因组序列,自然408,796-815。
Izumi,M和Gilbert,DM.(1999),哺乳动物成纤维细胞中同源四环素可调节基因表达,细胞生物化学杂志76,280-9。
Jung,R.,Soondrum,K.和Neumaier,M.(2000),定量PCR,临床化学实验室方法38,833-836。
Kain,SR.(1997),分泌的碱性磷酸酶在哺乳动物细胞中作为基因表达报道蛋白的应用,分子生物学方法63,49-60。
Kao,F.T.和Puck,T.T.(1968),哺乳动物体细胞遗传学,VII,在中国仓鼠细胞中诱导和分离营养突变体,美国科学院院报60,1275-81。
Kellum,R.和Schedl,P.(1992),在增强子阻断分析中作为结构域边界的一组scs元件,分子细胞生物学12,2424-2431。
Kent,WJ.(2002)BLAT——类似BLAST的一种序列对比工具,基因组研究12,656 64。
Knofler,M,Meinhardt,G,Bauer,S,Loregger,T,Vasicek,R,Bloor,DJ,Kimber,SJ和Husslein,P.(2002),人Handl碱性螺旋—环螺旋(bHLH)蛋白:胚胎外表达模式,相互作用配体及鉴别其转录阻抑物结构域,生物化学杂志361,641-51。
Li,W-H(1997)Molecular Evolution,Sinauer Associates,SunderlandMA.,Meinke,DW,Cherry,JM,Dean,C,Rounsley,SD和Koornneef,M.(1998),Arabidopsis thaliana:进行基因组分析的一种植物模型,科学282,662,679-82。
Litt,M.D.,Simpson,M.,Recillas-Targa,F.,Prioleau,M.N.和Felsenfeld,G.(2001),组蛋白乙酰化中的转换揭示三种个别调节的相邻基因座,EMBO杂志20,2224-2235。
Meyer,P.(2000),转录转基因沉默及染色质成分,植物分子生物学43,221-34。
Morgenstern,J.P.和Land,H.(1990),高级哺乳动物基因转移:具有多重药物选择标记和一种互补帮助游离包装细胞系的高滴定逆转录载体,核酸研究18,3587-3596。
Mullen,C.A.,Kilstrup,M.和Blaese,R.M.(1992),将胞嘧啶脱氨酶的细菌基因转移至哺乳动物细胞赋予对5-氟胞嘧啶的致死敏感性:一种阴性选择系统,美国科学院院报89,33-37。
Nan,X.,JavierCampoy,F.和Bird A.(1997),MeCP2是一种在基因组染色质中具有丰富激活位点的转录阻抑物,细胞88,471-481。
Petersson,K,Ivars,F和Sigvardsson,M.(2002),pTα启动子和增强子是E box结合蛋白的反式激活的直接靶位,欧洲免疫学杂志32,911-20。
Pazin,M.J.和Kadonaga,J.T.(1998),在体外装配的染色质的转录和结构分析,Gould,H.(编辑),染色质:实用方法,牛津大学出版社,Oxford,pp.172-194。
Pietersen,A.和H.M.Noteborn.(2000),Apoptin.Adv Exp MedBiol 465,153161。
Quong,MW,Romanow,WJ和Murre,C.(2002),淋巴细胞发育中E蛋白功能,Annu Rev Immunol 20,301-22。
Ruezinsky,D,Beckmann,H和Kadesch,T.(1991),通过遗传转换调节IgH增强子的细胞类型特异性,基因进展5,29-37。
Saluz,H.P.和Jost,J.P.(1993),定性体内蛋白质—DNA相互作用的方法,Crit Rev Eukaryot Gene Expr,3,1-29。
Sambrook,J.,Frisch,E.F.和Maniatis,T.(1989),分子克隆实验手册,冷泉港实验室出版社,Plainview NY。
Sanger,F.,Nicken,S.和Coulson,A.R.(1977),用链终止抑制剂进行DNA测序,美国科学院院报74,5463-5467。
Simizu,B.,Rhim,J.S.和Wiebenga,N.H.(1967),定性虫媒病毒的Tacaribe组,I.Tacaribe病毒在非洲绿猴肾细胞系(Vero)中的增殖和噬斑分析,Proc Soc Exp Biol Med,125,119-123。
Smith,R.L.,Traul,D.L.,Schaack,J.,Clayton,G.H.,Staley,K.J.和Wilcox,C.L.(2000),在神经系统中定性启动子功能及从病毒载体中的细胞类型特异性表达,病毒学杂志74,11254 11261。
Stam,M,Viterbo,A,Mol,JN和Kooter,JM.(1998),在反向T DNA重复中转基因的位置依赖性甲基化和转录沉默:提示同源宿主基因在植物中的转录后沉默,分子细胞生物学18,6165-77。
Stull,R.A.,Hyun,W.C.和Pallavicini,M.G.(2000),在双转导的不成熟造血细胞群中,同时流式细胞计量分析增强的绿色和黄色荧光蛋白和细胞表面抗原,细胞计量术40,126-134。
Takada,T.,Iida,K.,Akasaka,K.,Yasue,H.,Torii,R.,Tsujimoto,G.,Taira,M.和Kimura,H.(2000),评估异源绝缘体在小鼠胚泡和胚胎中关于染色体位置作用的功能,MolReprod Dev,57,232-237。
Tanaka,S.,Livingstone-Zatchej,M.和Thoma,F.(1996),酵母基因在高分辨下的染色质结构提供了在染色体情况中对核小体结构和配置的认识,分子生物学杂志257,919-934。
Thomas,J.O.(1998),分离和分级分离染色质及接头组蛋白,Gould,H.(编辑)染色质:实用方法,牛津大学出版社,Oxford,pp.1-34。
Tiraby,M.,Cazaux,C.,Baron,M.,Drocourt,D.,Reynes,J.P.和Tiraby,G.(1998),大肠杆菌胞嘧啶脱氨酶和尿嘧啶转磷酸核糖基酶的伴随表达改良5-氟胞嘧啶的胞毒性,FEMS微生物学通讯167,41-49。
Umana,P,Jean-Mairet,J和Bailey,JE.(1999),在中国仓鼠卵巢细胞中糖基转移酶的四环素调节的过表达,生物技术生物工程65,542-9。
van der Vlag,J.,den Blaauwen,J.L.,Sewalt,R.G.,van Driel,R.和Otte,A.P.(2000),polycomb组蛋白及其它染色质相关的阻抑物介导的转录阻抑由绝缘体选择性阻断,生物化学杂志275,697-704。
van Helden,J,Andre,B和Collado-Vides,J.(1998),通过计算机分析寡核苷酸出现频率从酵母基因上游区域中提取调节位点,分子生物学杂志281,827-42。
van Helden,J,Andre,B和Collado-Vides,J.(2000),计算机分析酵母调节序列的web位点,酵母16,177-87。
van Helden,J,Rios,AF和Collado-Vides,J.(2000),通过分析间隔的dyad在非编码序列中揭示调节元件,核酸研究28,1808-18。
Vance,V和Vaucheret,H.(2001),植物中RNA沉默——防御和反防御,科学292,2277-80。
Wallrath,L.L.,Swede,M.J.和Elgin,S.C.R.(1998),在果蝇中作图染色质结构,Gould,H.(编辑),染色质:实用方法,牛津大学出版社,Oxford,pp.59-77。
Weaver,L.S.和Kadan,M.J.(2000),通过流式细胞计量术评估腺病毒载体,方法21,297-312。
Wei,K.和Huber,B.E.(1996),胞嘧啶脱氨酶基因作为阳性选择标记,生物化学杂志271,3812-3816。
Wigler,M,Pellicer,A.,Silverstein,S.和Axel,R.(1978),使用总细胞DNA作为供体经生物化学转移单拷贝真核基因,细胞14,725-731。
Wigley,P.,Becker,C.,Beltrame,J.,Blake,T.,Crocker,L.,Harrison,S.,Lyons,I.,McKenzie,Z.,Tearle,R.,Crawford,R.等人(1994),位点特异性转基因插入方法,Reprod Fertil Dev,6,585-588。
Xu,Z.Z.,Krouiak,V.,Prevec,L.,Graham,F.L.和Both,G.W.(1995),在用表达轮状病毒抗原VP7sc的人重组腺病毒感染的人和动物细胞中研究启动子功能,J Gen Virol,76,1971-1980。
Yang,TT,Sinai,P,Kitts,PA,和Kain,SR.(1997)用分泌型碱性磷酸酶报道基因系统量化基因表达,Biotechniques 23,1110-4。
Yin,D.X.,Zhu,L.,和Schimke R.T.(1996)四环素控制的基因表达系统实现高水平基因表达和定量控制,Analyt Biochem 235,195-201。
Zink,D,和Paro,R.(1995)果蝇Polycomb-group调控的染色质抑制反式激活物对其靶DNA的可及性,Embo J 14,5660-71。
                    表1:STAR元件改善转基因表达
  质粒   过表达克隆,%   过表达倍数(范围)   克隆数
  空   12   3-11   25
  SCS(阳性对照)   24   3-160   21
  STAR-6   62   2-200   26
  STAR-3   39   5-820   23
STAR-8 63 7-315 19
  STAR-4   31   25-1500   13
  STAR-1   57   5-80   23
萤光素酶报道基因的表达在含有整合的、不具有STAR元件(“空”,阴性对照)或含有STAR元件(包括阳性对照元件,即来自果蝇的SCS)的pSDH质粒的细胞系中测定的。阴性对照的平均表达水平定义为参比水平,如果一个克隆的表达水平超出参比水平2倍以上则被认定是过表达的克隆。每一质粒的过表达克隆百分比和过表达倍数与所分析的每一质粒的克隆数一起报道。
表2:克隆的STAR元件
  克隆   染色体位置1   相邻基因2  重复序列
  STAR-1   N.d.
  STAR-2   N.d.
  STAR-3   For 5q33.3Rev 10q22.2   组蛋白中的Chr10部分乙酰转移酶基因
  STAR-4   For 1p31.1Rev 14q24.1   在G蛋白信号传导调节子的10kb内含子内无基因  83%重复LINE2 & LTRERV_Class1
  STAR-5   For 3q13.1Rev 10q22.1*
  STAR-6   2p21   L5kb未知的推定的激酶R 20kb微管相关蛋白  19%SINE(MIR)29%LINE
  STAR-7   1q32.2  12%Alu 4%MIR(SINE)LINE1 2.5%L31CR111.5%MER1 7%低复杂性2%
  STAR-8   9q32   含锌指蛋白的ZFP KRAB盒  35%ERV_ClassI(LTR)2%简单重复
  STAR-9   见STAR-4
  STAR-10   N.d.
  STAR-11   2p25.1   R15kb未知DNA结合蛋白抑制物(Myc型)  12%Alu(SINE)26%MalRs(LINE)
  STAR-12   5q35.3   R 15kb未知ADAM TS2家族金属蛋白酶  3%低复杂性
  STAR-13   见STAR-4和STAR-9
  STAR-14   F N.d.R 20q13.33
  STAR-15   1p36.36   L6kb电压控制K通道亚基R 4kb未知  14%LTR(MalRs)
  STAR-16   F 8p23.1R 8p22etc.  在测序部分无重复
  STAR-17   2q31.1   L 6kb BTEB1转录元件R 40kb HNRNP  10%简单和低复杂性
1染色体位置是通过将来自STAR克隆的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带
(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。F代表正向测序反应结果;R代表反向测序反应结果;N.d.代表尚未确定。
2基于Human Genome Map View Build 22(http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/hum_srch?chr=hum_chr.inf&query April 2001).L代表左;R代表右*模糊位置,几个检索结果
           表3:通过在pSS载体中选择而从人类22号染色体回收的SINC元件
  SINC   长度(nt)   染色体位置1   注释
  psinks 9   700   22q11.21   含有LTR;最近基因ZNF74,一种RNA结合蛋白。LTR重复性非常高
  psinks 12   750   22q12.3   位于参与肿瘤形成的乙酰氨基葡糖转移酶样蛋白的内含子(664kb)中
  psinks 19   600   22q13.1   位于几乎仅在脑中表达的钙通道的内含子中
  psinks 28   950   22q13.31   位于未知功能的肾脏蛋白的内含子中
  psinks 30   700   22q13.33   含有部分SINE
  psinks 35   650   22q11.21   覆盖溶质载体的外显子(线粒体的核基因)
1染色体位置是通过将来自STAR克隆的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带
(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。
表4A:各种star元件的一条链(正向)或另一条链(反向)的序列
STAR3正向
ACGTNCTAAGNAAACCATTATTATCATGACATTAACCTATAAAAATAGGC
GTATCACGAGGCCCTTTCGTCTTCACTCGAGCGGCCAGCTTGGATCTCGA
GTACTGAAATAGGAGTAAATCTGAAGAGCAAATAAGATGAGCCAGAAAAC
CATGAAAAGAACAGGGACTACCAGTTGATTCCACAAGGACATTCCCAAGG
TGAGAAGGCCATATACCTCCACTACCTGAACCAATTCTCTGTATGCAGATT
TAGCAAGGTTATAAGGTAGCAAAAGATTAGACCCAAGAAAATAGACAACT
TCCAATCCAGTAAAAATCATAGCAAATTTATTGATGATAACAATTGTCTCC
AAAGGAACCAGGCAGAGTCGTGCTAGCAGAGGAAGCACGTGAGCTGAAA
ACAGCCAAATCTGCTTTGTTTTCATGACACAGGAGCATAAAGTACACACCA
CCAACTGACCTATTAAGGCTGTGGTAAACCGATTCATAGAGAGAGGTPCT
AAATACATTGGTCCCTCATAGGCAAACCGCAGTTCACTCCGAACGTAGTC
CCTGGAAATTTGATGTCCAGNATAGAAAAGCANAGCAGNCNNNNNNTAT
ANATNNNGNTGANCCANATGNTNNCTGNNC
STAR3反向
GAGCTAGCGGCGCGCCAAGCTTGGATCCCGCCCCGCCCCCTCCGCCCTCG
AGCCCCGCCCCTTGCCCTAGAGGCCCTGCCGAGGGGCGGGGCCTGTCCC
TCCTCCCCTTTCCCCCGCCCCCTACCGTCACGCTCAGGGGCAGCCTGACC
CCGAGCGGCCCCGCGGTGACCCTCGCGCAGAGGCCTGTGGGAGGGGCGT
CGCAAGCCCCTGAATCCCCCCCCGTCTGTTCCCCCCTCCCGCCCAGTCTC
CTCCCCCTGGGAACGCGCGCGGTGGGTGACAGACCTGGCTGCGCGCCAC
CGCCACCGCGCCTGCCGGGGGCGCTGCCGCTGCCTGAGAAACTGCGGCT
GCCGCCTGGAGGAGGTGCCGTCGCCTCCGCCACCGCTGCCGCCGCCGCC
AGGGGTAGGAGCTAAGCCGCCCCCATTTTGTGTCCCCCTGTTGTTGTCGT
TGACATGAATCCGACATGACACTGATTACAGCCCAATGGAGTCTCATTAA
ACCCGAGTCGCGGTCCCGCCCCGCCGCTGCTCCATTGGAGGAGACCAAAG
ACACTTAAGGCCACCCGTTGGCCTACGGGTCTGTCTGTCACCCACTCACT
AACCACTCTGCAGCCCATTGGGGCAGGTTCCTGCCGGTCATNTCGCTTCC
AATAAACACACCCCTTCGACCCCATNATTCCCCCCCTTCGGGAACCACCC
CCGGGGGAGGGGTCCACTGGNCAATACCAATTNAANAGAACCGCTNGGG
TCCGCCTNTTTNCGGGCNCCCTATTGGGTT
STAR4正向
GGGGAGGATTCTTTTGGCTGCTGAGTTGAGATTAGGTTGAGGGTAGTGAA
GGTAAAGGCAGTGAGACCACGTAGGGGTCATTGCAGTAATCCAGGCTGG
AGATGATGGTGGTTCAGTTGGAATAGCAGTGCATGTGCTGTAACAACCTC
AGCTGGGAAGCAGTATATGTGGCGTTATGACCTCAGCTGGAACAGCAATG
CATGTGGTGGTGTAATGACCCCAGCTGGGTAGGGTGCATGTGATGGAACA
ACCTCAGCTGGGTAGCAGTGTACTTGATAAAATGTTGGCATACTCTACATT
TGTTATGAGGGTAGTGCCATTAAATTTCTCCACAAATTGGTTGTCACGTAT
GAGTGAAAAGAGGAAGTGATGGAAGACTTCAGTGCTTTTGGCCTGAATAA
ATAGAAGACGTCATTTTCAGTAATGGAGACAGGGAAGACTAANGNAGGGT
GGATTCAGTAGAGCAGGTGTTCAGTTTTGAATATGATGAACTCTGAGAGA
GGAAAAACTTTTTCTACCTCTTAGTTTTTGNGNCTGGACTTAANATTAAAG
GACATANGACNGAGANCAGACCAAATNTGCGANGTTTTTATATTTTACTT
GCNGAGGGAATTTNCAAGAAAAAGAAGACCCAANANCCATTGGTCAAAA
CTATNTGCCTTTTAANAAAAAGANAATTACAATGGANANANAAGTGTTGN
CTNGGCAAAAATTGGG
STAR4反向
GGATTNGAGCTAGCGGCGCGCCAAGCTTGGATCTTAGAAGGACAGAGTG
GGGCATGGAAATGCACCACCAGGGCAGTGCAGCTTGGTCACTGCCAGCTC
CNCTCATGGGCAGAGGGCTGGCCTCTTGCAGCCGACCAGGCACTGAGCG
CCATCCCAGGGCCCTCGCCAGCCCTCAGCAGGGCCAGGACACACAAGCCT
TTGACTTCCTCCTGTCACTGCTGCTGCCATTCCTGTTTTGTGGTCATCACT
CCTTCCCTGTCCTCAGACTGCCCAGCACTCAAGGATGTCCTGTGGTGGCA
TCAGACCATATGCCCCTGAANAGGAGTGAGTTGGTGTTTTTTGCCGCGCC
CANAGAGCTGCTGTCCCCTGAAAGATGCAAGTGGGAATGATGATGNTCAC
CATCNTCTGACACCAAGCCCTTTGGATAGAGGCCCCAACAGTGAGGATGG
GGCTGCACTGCATTGCCAAGGCAACTCTGTNNTGACTGCTACANGACANT
CCCAGGACCTGNGAAGNNCTATANATNTGATGCNAGGCACCT
STAR6正向
CCACCACAGACATCCCCTCTGGCCTCCTGAGTGGTTTCTTCAGCACAGCTT
CCAGAGCCAAATTAAACGTTCACTCTATGTCTATAGACAAAAAGGGTTTTG
ACTAAACTCTGTGTTTTAGAGAGGGAGTTAAATGCTGTTAACTTTTTAGGG
GTGGGCGAGAGGAATGACAAATAACAACTTGTCTGAATGTTTTACATTTC
TCCCCACTGCCTCAAGAAGGTTCACAACGAGGTCATCCATGATAAGGAGT
AAGACCTCCCAGCCGGACTGTCCCTCGGCCCCCAGAGGACACTCCACAGA
GATATGCTAACTGGACTTGGAGACTGGCTCACACTCCAGAGAAAAGCATG
GAGCACGAGCGCACAGAGCANGGGCCAAGGTCCCAGGGACNGAATGTCT
AGGAGGGAGATTGGGGTGAGGGTANTCTGATGCAATTACTGNGCAGCTC
AACATTCAAGGGAGGGGAAGAAAGAAACNGTCCCTGTAAGTAAGTTGTNC
ANCAGAGATGGTAAGCTCCAAATTTNAACTTTGGCTGCTGGAAAGTTTNN
GGGCCNANANAANAAACANAAANATTTGAGGTTTANACCCACTAACCCN
TATNANTANTTATTAATACCCCTAATTANACCTTGGATANCCTTAAAATAT
CNTNTNAAACGGAACCCTCNTTCCCNTTTNNAAATNNNAAAGGCCATTN
NGNNCNAGTAAAAATCTNNNTTAAGNNNTGGGCCCNAACAAACNTNTTC
CNAGACACNTTTTTTNTCCNGGNATTTNTAATTTATTTCTAANCC
STAR6反向
ATCGTGTCCTTTCCAGGGACATGGATGAAGCTGGAAGCCATCATCCTCAG
CAAACTAACACAGGAACAGAAAACCAAATACCACATGTTCTCACTCATAAG
TGGGAGCTGAACAGTGAGAACACATGGACACAGGGAGGGGAACATCACA
CACCAAGGCCTGTCTGGTGTGGGGAGGGGAGGGAGAGCATCAGACAAA
TAGCTAATGCATGTGGGGCTTAAACCTAGATGACGGGTTGATAGGTGCAG
CAATCCACTATGGACACATATACCTATGTAACAACCCNACCTTNTTGACAT
GTATCCCAGAACTTAAAGGAAAATAAAAATTAAAAAAAATTNCCCTGGAA
TAAAAAAGAGTGTGGAGTTTGGTGAGATN
STAR8正向
GGATCACCTCGAAGAGAGTCTAACGTCCGTAGGAACGCTCTCGGGTTCAC
AAGGATTGACCGAACCCCAGGATACGTCGCTCTCCATCTGAGGCTTGNTC
CAAATGGCCCTCCACTATTCCAGGCACGTGGGTGTCTCCCCTAACTCTCC
CTGCTCTCCTGAGCCCATGCTGCCTATCACCCATCGCTGCAGGTCCTTTCT
GAANAGCTCGGGTGGATTCTCTCCATCCCACTTCCTTTCCCAAGAAAGAA
GCCACCGTTCCAAGACACCCAATGGGACATTCCCNTTCCACCTCCTTNTC
NAAAGTTNGCCCAGGTGTTCNTAACAGGTTAGGGAGAGAANCCCCCAGG
TTTNAGTTNCAAGGCATAGGACGCTGGCTTGAACACACACACACNCTC
STAR8反向
GGATCCCGACTCTGCACCGCAAACTCTACGGCGCCCTGCAGGACGGCGGC
CTCCTGCCGCTTGGACGCCAGNCAGGAGCTCCCCGGCAGCAGCAGAGCA
GAAAGAAGGATGGCCCCGCCCCACTTCGCCTCCCGGCGGTCTCCCTCCCG
CCGGCTCACGGACATAGATGGCTGCCTAGCTCCGGAAGCCTAGCTCTTGT
TCCGGGCATCCTAAGGAAGACACGGTTTTTCCTCCCGGGGCCTCACCACA
TCTGGGACTTTGACGACTCGGACCTCTCTCCATTGAATGGTTGCGCGTTC
TCTGGGAAAG
STAR18正向
TGGATCCTGCCGCTCGCGTCTTAGTGTTTCTCCCTCAAGACTTTCCTTCTG
TTTTGTTGTCTTGTGCAGTATTTTACAGCCCCTCTTGTGTTTTTCTTTATTT
CTCGTACACACACGCAGTTTTAAGGGTGATGTGTGTATAATTAAAAGGAC
CCTTGGCCCATACTTTCCTAATTCTTTAGGGACTGGGATTGGGTTTGACTG
AAATATGTTTTGGTGGGGATGGGACGGTGGACTTCCATTCTCCCTAAACT
GGAGTTTTGGTCGGTAATCAAAACTAAAAGAAACCTCTGGGAGACTGGAA
ACCTGATTGGAGCACTGAGGAACAAGGGAATGAAAAGGCAGACTCTCTGA
ACGTTTGATGAAATGGACTCTTGTGAAAATTAACAGTGAATATTCACTGTT
GCACTGTACGAAGTCTCTGAAATGTAATTAAAAGTTTTTATTGAGCCCCCG
AGCTTTGGCTTGCGCGTATTTTTCCGGTCGCGGACATCCCACCGCGCAGA
GCCTCGCCTCCCCGCTGNCCTCAGCTCCGATGACTTCCCCGCCCCCGCCC
TGCTCGGTGACAGACGTTCTACTGCTTCCAATCGGAGGCACCCTTCGCGG
STAR18反向
TGGATCCTGCCGCTCGCGTCTTAGTGTTTCTCCCTCAAGACTTTCCTTCTG
TTTTGTTGTCTTGTGCAGTATTTTACAGCCCCTCTTGTGTTTTTCTTTATTT
CTCGTACACACACGCAGTTTTAAGGGTGATGTGTGTATAATTAAAAGGAC
CCTTGGCCCATACTTTCCTAATTCTTTAGGGACTGGGATTGGGTTTGACTG
AAAATATGTTTTGGTGGGGATGGGGACGGTGGACTTCCATTCTCCCTAAACT
GGAGTTTTGGTCGGTAATCAAAACTAAAAGAAACCTCTGGGAGACTGGAA
ACCTGATTGGAGCACTGAGGAACAAGGGAATGAAAAGGCAGACTCTCTGA
ACGTTTGATGAAATGGACTCTTGTGAAAATTAACAGTGAATATTCACTGTT
GCACTGTACGAAGTCTCTGAAATGTAATTAAAAGTTTTTATTGAGCCCCCG
AGCTTTGGC
表4B:各种sinc元件的序列
PSINKS 9
GATCAGGA TAATAAGTAC GCTGGGAAGA CAACAAAATG
ATTTAAATCT TAGACAAGTC ATTCTAGGTG TCTCCACTGT
TTCAGTTCTT GCATTCATTC TTGTGGTATC TTTTCCCTTT
TACCAATAAA AAAGCTCCCT GACATCACAT TGTGGCAGTC
CCCATGGTTT GCCGCAGTTA CTGCGGGACT GAACGAAGGA
GGACGAATGA AGAAATGAAA AGCAAGGAAA AAAGGAGCTG
TTTAAAGAAG GGTCCAGGGA AGAAGAAGAG GGCTCCCAGC
TTCTAGTGAG CAAGGGCAGC AGCCCTGAGC TTCTACAGCC
CTTCATATTT ATTGAGTAGA AAGAGCAGGG AGCAGGAGGT
AATGATTGGT CAGCTTCTCA ATTGATCACA GGTTCACATT
ATTGCTAACA GATTTCACAT GTGCCTAATC TCAAGAAACG
CCGCGCCTGG GGCATGACTG CCCTCAGCAT TCCCTCTGGG
TGGCAGACGC AGTTTGCCAA CATTCTGCAT TCATGAGAAC
AGTTTACTGT TTACTCATAT AACCTCCAGT GGTACACCGA
GTTGATC
PSINKS 12
GATCTAA TTTCTCTGTA TTTAATTCCC ATGTCTATTT
TGTCTATTTT CAAGATTGAT TTACATTGCA GGTTCCGATG
CAACCACTGA CTTACATTGC AGGTTCTAAT GTAACCACTG
TCCTTAACGA GTACATAGAT TTGTTTCCTT CTCTCCAGGA
GCATGAGATT TGTTGCCTCC AGGAAAGGCA ACAAATCTAC
TATTCCTTA  AGGACAGTGG TTCTCAAAGG ATTGTCCTGG
GAACAGCAGC ATCACCTACA CAGTAGTTAG AAATGCACAT
TCTGAGGCCT CCCAAGACCT GCTAACTCAG ACACTTGGGG
AGAAGAAGGG GTTCCAACAA GCCTTCTAGG TCATTCTGAT
GCATGCTGGA GTTTGAGAAT CGATGCTCTA GGAAAAACAC
CAGTACTAT CTACCATCAA CTTGACCACT CAAGTGTCAC
CATTCACTGA AGTTTAACTA CAATGTCCAG AGAATTAATT
GTGTACCAGG CACTATGCGG AAGGCTGAAT GCTGCCTCAC
AATCCANAGT GGTATGTGTG TAAATGACTA AATAAAATGC
AAAATGGGAT GACATG
PSTNKS 19
G ATCCTCCATC TGCTCCACCC ACTTCCATGT AAGTGATCCT
GGGCTGATCA CTTCCTCTCT CTAGACTTCG TTTCTTTTTT
TTCTTTTTTA GACCGAGTCT CACTCTGTCA CCCAGGCTGG
AGTGCAGTGG TGAGATCTTG GCTCACTGCA ACCTCCACCT
CCTGGGTTCA AGCAATTCTC CTGTCTCAGC CTCCTGAGTA
GATAGGACTA TAGGTGCACA CCACCATACC TAGCTAATTT
TTGTTTTTTT AGTAGAGATG GGGTTTCACC ATATTGGTCA
GCCTGTTCTC AAACTCCTGA CCTCAGGTGA TCCACCCACC
TCAGCCTCCC AAAGTGCTGG GATTACAGGT GTGAGCCACC
GAGCCGGGCT GCCCTTCTCT GGACTTTGAT TTCCTCATCT
ATAAAACAGA CAACAATCCC TACTATGACC ATCCAGAAGG
GTTAATCTAT GCTTCATTGC AATCCTAATC AAAAATCCCA
ACATTTTGGC CGTGGAGCCT GCCCAGATGG TTCTAGGATT
TATTTGGATG GGAAAATAGT CAAGACAAGC TT
PSTNKS 28
GAT CATGGAGGGA GAGAACAACC AACCACACAC
TGACTGGTCA CCCCTGAAGT TCACAGCCAC TACCCTCTAG
AGGCCCCGAG GTTGCCGGCA AGCCCAGTAT ACTTCCATCT
AAACTCCCCT TGCACCTGCT CCTCCTGTTC CAGACAATGA
GCTGTAACAC GCACATCCAC ACCACACATC ACCCACAGCA
GGGGCAGGAG GCAGCTAAGG ATGGGCTTCA GAGTCCTCCC
ACCAGCAGCG CCTACCAGCT ACAAGCCTGA CGTCTCTGTG
TGTGTGTGTA AATTTCACTA AATATTTCTT CCTTTGTTTT
TTAAAAATTT ACATGAAATG CACATTTTTG CTGTGACAGA
AGCATGTAAC TGTGATCCTA ACACACCTAC TCCTCCGCCT
TTTACTGCCG TCTGCTTCCC TCTCTTCTCC ACGCCCACTC
GACTGCAGTA TCGATGCCAA CAACATGATG TGTGTCCTTC
CATGTTTCCC TGCTCATGCA TTCGCATGTA AGCCACCGCA
CATGTCACTG TATGTACACA CAGGGGATTC TGAGGCCAAT
GTTTTACAAG GATTACGTTA TACACCCTTT TCTGCAGTGA
GTTTTTCCCA GGCAACCTCC CAGGCCCCAT GGTGTAGCTC
TGGGTCAATC CTTTTTTTTT TTTTTGGAGA CAGAGTCTCA
CTCTGTCGCC CAGGCTGGAG TGCAGTGGTG CAATTTGGGC
TCACTGCAAC CTCCGCCTCC CGGGTTCAAG CGATTCTCCT
GCCTCAGCCT CCTGAGTAGC TGACATTACA AGCGCGCACT
ACCACACCCG GCTAATTTTT GTATTTTTAG TAGAGATACA
GTTTCACCAT GTTGGTCAGG CTGGTCTTGA ACTCCTGAGC
TCGTGATC
PSTNKS 30
GATCC ACCCGCCTCG GACTCCCAAA GTGCTGGGAT
TACAGGTGTG AGCCACTGTG CTTGGCCCGA ATCAGGAATA
ATTCTGATGG CTAAGGAAGA CAGCTTCCGA GAGAGTAGGA
GAAAGGGCAC AGGATTCCAG GCAGAAGGCC CATCTAGGGC
AAAGGCGAAG GTGTGGCTCA GCCTGCCTCC TTTGGGGAAT
GGCGAGTGTG TTCTGGGCTC AGGGTTCTTG GTAAGGGACA
GAGAAGACTC GGGAAAGATC AGTTGAGCTG GAATGTGCAG
GCTCTTGAGT ACCCTGCTCA GGAGCTGGAG GTGGGCTACC
CTGCAAACTC CAGGCCATGA AGCCCAGGAA GATGTCAGGC
TGGTCTTCCC ATGCCCTTGT GTATCTGAGA CCAACTGTCA
CTAAATGTTT CCTTTACGCC CTGGACACAC AGCTAGACTC
TACTTCTCAG ATTCTCTTGA AATACAAGTC TTTAGCCAGA
GGGTGTGGAG GGAAATGCTG TGTATCACTT TGAGGTTGAG
GCCATCAAAG CCTCCCACAG GTGGCCCCCT CTTTCTCTCC
CCACGTACTT ATGATGTTGA TGCCCAAGGC AGCTTGAGTA
CTACCTGCTG AAGGCAGGGC CTCTGTCACC ATAGATC
PSTNKS 35
GATCCAC CTGCCTCGGC CTCCCAAAGT GCTGGGATTA
CAGGCATGAG CCACCATGCC TGGCCAAAAA CTTCTACCTG
CTTGGAAAGT TGACTGGTCA CACAGCCTAG CAAATGAGGT
TGGGATGTGG GATGTGCCTG GTTCCAATCC CAGCCCTTTA
CTGTTCCCAT AGGAGGTGGG GACAGGCCTC ACCCAGGCGT
CCAGCATCCT GCAGCTGAAT CTTGAGCATT TCCATGGGAC
AGGTCACCAC GACCTGGCAC ATCCCAGCCC CACACCCGGC
AAGCATCTCC ATCTTCAGGT TCCGCTGCAT CCTATGGGAA
CAGGCGTCAG GCTCCTTCAG CCGCAGGCCA CAGGCCTGCC
CTGGTGCAGC TGCCCTCTTG TGAGAGGGGG ACTTTCCCTG
GATGGCACCC GTGGCTGCCA CTCACCCAGC TGGTCAAGTC
ATCAGCTAGC CCTTAGGTGT GGTCTCTGTA CGGACAGGGG
ACTAAGTTTA AAACAAAGCC TGCTAGGGAG GTAGCACCGC
ATGGAAGCTG AAACAGTGAC AGAGAAAACT ACCCAGACCA
GGCGTTGTCC TTGATC
表5:用于聚合酶链反应(PCR引物)或DNA诱变的寡核苷酸
  编号   序列
  C65   AACAAGCTTGATATCAGATCTGCTAGCTTGGTCGAGCTGATACTTCCC
  C66   AAACTCGAGCGGCCGCGAATTCGTCGACTTTACCACTCCCTATCAGTGATAGAG
  C67   AAACCGCGGCATGGAAGACGCCAAAAACATAAAGAAAGG
  C68   TATGGATCCTAGAATTACACGGCGATCTTTCC
  C81   AAACCATGGCCGAGTACAAGCCCACGGTGCGGC
  C82   AAATCTAGATCAGGCACCGGGCTTGCGGGTCATGC
  C85   CATTTCCCCGAAAAGTGCCACC
  D30   TCACTGCTAGCGAGTGGTAAACTC
  D41   GAAGTCGACGAGGCAGGCAGAAGTATGC
  D42   GAGCCGCGGTTTAGTTCCTGACCTTGTCG
  D51   TCTGGAAGCTTTGCTGAAGAAAC
  D89   GGGCAAGATGTCGTAGTCAGG
  D90   AGGCCCATGGTCACCTCCATCGCTACTGTG
  D91   CTAATCACTCACTGTGTAAT
  D93   AATTACAGGCGCGCC
  D94   AATTGGCGCGCCTGT
  D95   TGCTTTGCATACTTCTGCCTGCCTC
  E12   TAGGGGGGATCCAAATGTTC
  E13   CCTAAAAGAAGATCTTTAGC
  E14   AAGTGTTGGATCCACTTTGG
  E15   TTTGAAGATCTACCAAATGG
  E16   GTTCGGGATCCACCTGGCCG
  E17   TAGGCAAGATCTTGGCCCTC
  E18   CCTCTCTAGGGATCCGACCC
  E19   CTAGAGAGATCTTCCAGTAT
  E20   AGAGTTCCGGATCCGCCTGG
  E21   CCAGGCAGACTCGGAACTCT
  E22   TGGTGAAACCGGATCCCTAC
  E23   AGGTCAGGAGATCTAGACCA
  E25   CCATTTTCGCTTCCTTAGCTCC
  E42   CGATGTAACCCACTCGTGCACC
  E57   AGAGATCTAGGATAATTTCG
  E92   AGGCGCTAGCACGCGTTCTACTCTTTTCCTACTCTG
  E93   GATCAAGCTTACGCGTCTAAAGGCATTTTATATAG
  E94   AGGCGCTAGCACGCGTTCAGAGTTAGTGATCCAGG
  E95   GATCAAGCTTACGCGTCAGTAAAGGTTTCGTATGG
  E96   AGGCGCTAGCACGCGTTCTACTCTTTCATTACTCTG
  E97   CGAGGAAGCTGGAGAAGGAGAAGCTG
  E98   CAAGGGCCGCAGCTTACACATGTTC
  D58   CCAAGTTGACCAGTGCC
  D80   GTTCGTGGACACGACCTCCG
  D70   TACAAGCCAACCACGGCCT
  D71   CGGAAGTGCTTGACATTGGG
表6:本发明的STAR元件,包括基因组位置和长度
  STAR   位置1   长度2
  1   2q31.1   750
  2   7p15.2   916
  33   15q11.2和10q22.2   2132
  4   1p31.1和14q24.1   1625
  54   20q13.32   1571
  6   2p21   1173
  7   1q34   2101
  8   9q32   1839
  94   10p15.3   1936
  10   Xp11.3   1167
  11   2p25.1   1377
  12   5q35.3   1051
  134   9q34.3   1291
  144   22q11.22   732
  15   1p36.31   1881
  16   1p21.2   1282
  17   2q31.1   793
  18   2q31.3   497
  19   6p22.1   1840
  20   8p13.3   780
  21   6q24.2   620
  22   2q12.2   1380
  23   6p22.1   1246
  24   1q21.2   948
  255   1q21.3   1067
  26   1q21.1   540
  27   1q23.1   1520
  28   22q11.23   961
  29   2q13.31   2253
  30   22q12.3   1851
  31   9q34.11和22q11.21   1165
  32   21q22.2   771
  STAR   位置1   长度2
  33   21q22.2   1368
  34   9q34.14   755
  35   7q22.3   1211
  36   21q22.2   1712
  37   22q11.23   1331
  38   22q11.1和22q11.1   ~1000
  39   22q12.3   2331
  40   22q11.21   1071
  41   22q11.21   1144
  42   22q11.1   735
  43   14q24.3   1231
  44   22q11.1   1591
  45   22q11.21   1991
  46   22q11.23   1871
  47   22q11.21   1082
  48   22q11.22   1242
  49   Chr 12随机克隆,以及3q26.32   1015
  50   6p21.31   2361
  51   5q21.3   2289
  52   7p15.2   1200
  53   Xp11.3   1431
  54   4q21.1   981
  55   15q13.1   501
  56   包括3p25.3   741
  57   4q35.2   1371
  58   21q11.2   1401
  59   17随机克隆   872
  60   4p16.1和6q27   2068
  61   7p14.3和11q25   1482
  62   14q24.3   1011
  63   22q13.3   1421
  64   17q11.2   1414
  65   7q21.11=28.4   1310
  66   20q13.33和6q14.1   ~2800
1染色体位置是通过将来自STAR元件的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带
(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。当正向和反向测序反应鉴别出来自不同基因组基因座的DNA时,示出两个基因座。
2精确长度通过DNA序列分析确定;大约长度通过限制酶切作图确定。
3STAR3的序列和位置根据表2和表4的组合进行调整。
4表2和表4中的具有这些编号的STAR已经被略去(以下称为“oldSTAR5”等),它们的编码被分配给DNA序列附录中示出的STAR元件。在oldSTAR5、oldSTAR14和oldSTAR16情况中,克隆的DNA是来自两个以上染色体位置的嵌合体:在oldSTAR9和oldSTAR13情况中,克隆的DNA与STAR4相同。
5与表4的“STAR18”相同。
表7:STAR元件赋予转基因表达以随时间的稳定性1
  细胞分裂 2   萤光素酶表达 3
  STAR6加嘌呤霉素STAR6不加嘌呤霉素4   42608410884108144   18,00023,00020,00016,00012,00015,00012,000
1质粒pSDH-Tet-STAR6被转染进U-2 OS细胞,如实施例1所述在无强力霉素的培养基上分离和培养克隆。每周以1∶20稀释度将细胞转移至一新鲜培养瓶中。
2细胞分裂数基于一周中培养物达到细胞铺满(代表约6次细胞分裂)的估计数。
3萤光素酶如实施例1所述进行分析。
4在60次细胞分裂后,将细胞转移至两个培养瓶中,一个培养瓶中加入含嘌呤霉素的培养基,如第1个60次细胞分裂一样,第二个培养瓶中加入不含抗生素的培养基。
表8:人类STAR元件及其推定的小鼠直向同源物(orthologs)和横向同源物(paralogs)
SEQ ID   STAR   人1   小鼠2   相似性3
1   1   2q31.1   2D   600bp 69%
2   2   7p15.2   6B3   909bp 89%
3   3a   5q33.3   11B2   248bp 83%
4   3b   10q22.2   14B   1.363bp 89%2.163bp 86%
5   6   2p21   17E4   437bp 78%
6   12   5q35.3   11b1.3   796bp 66%
7   13   9q34.3   2A3   753bp 77%
8   18   2q313   2E1   497bp 72%
9   36   21q22.2   16C4   166bp 79%
10   40   22q11.1   6F1   1.270bp 75%2.309bp 70%
11   50   6p21.31   17B1   1.451bp 72%2.188bp 80%3.142bp 64%
12   52   7p15.2   6B3   1.846bp 74%2.195bp 71%
13   53   Xp11.3   XA2   364bp 64%
14   54   4q21.1   5E3   1.174bp 80%2.240bp 73%3.141bp 67%4.144bp 68%
15   61a   7p14.3   6B3   188bp 68%
1STAR元件在人类基因组中的细胞遗传学位置。
2STAR元件直向同源物在小鼠基因组中的细胞遗传学位置。
3显示高度序列相似性的区域长度,以及相似性百分比。在一些情况中,存在一个以上的高相似性序列模块,在这些情况中,分别描述每一序列模块。相似性<60%不被认为是显著的。
表9:在STAR元件中过量存在的寡核苷酸模式(6碱基对)
这些模式是根据显著性系数排列的。它们通过用RSA-Tools以人基因组作为参比而确定。包含在线性判别分析中最具判别性变量的模式以星号示出。
编号   寡核苷酸序列   观察到的存在 预期存在   显著性系数   匹配STAR数目
  1   CCCCAC   107   49   8.76   51
  2   CAGCGG   36   9   7.75   23
  3   GGCCCC   74   31   7.21   34
  4   CAGCCC   103   50   7.18   37
  5   GCCCCC   70   29   6.97   34
  6   CGGGGC   40   12   6.95   18
  7   CCCCGC   43   13   6.79   22
  8   CGGCAG   35   9   6.64   18
  9   AGCCCC   83   38   6.54   40
  10   CCAGGG   107   54   6.52   43
  11   GGACCC*   58   23   6.04   35
  12   GCGGAC   20   3   5.94   14
  13   CCAGCG   34   10   5.9   24
  14   GCAGCC   92   45   5.84   43
  15   CCGGCA   28   7   5.61   16
  16   AGCGGC   27   7   5.45   17
  17   CAGGGG   86   43   5.09   43
  18   CCGCCC   43   15   5.02   18
  19   CCCCCG   35   11   4.91   20
  20   GCCGCC   34   10   4.88   18
  21   GCCGGC   22   5   4.7   16
  22   CGGACC   19   4   4.68   14
  23   CGCCCC   35   11   4.64   19
  24   CGCCAG   28   8   4.31   19
  25   CGCAGC   29   8   4.29   20
  26   CAGCCG   32   10   4   24
  27   CCCACG   33   11   3.97   26
  28   GCTGCC   78   40   3.9   43
  29   CCCTCC   106   60   3.87   48
  30   CCCTGC*   92   50   3.83   42
  31   CACCCC   77   40   3.75   40
  32   GCGCCA   30   10   3.58   23
  33   AGGGGC   70   35   3.55   34
  34   GAGGGC   66   32   3.5   40
  35   GCGAAC   14   2   3.37   13
  36   CCGGCG   1   4   3.33   12
  37   AGCCGG   34   12   3.29   25
  38   GGAGCC   6   34   3.27   40
  39   CCCCAG   103   60   3.23   51
  40   CCGCTC   24   7   3.19   19
  41   CCCCTC   81   44   3.19   43
  42   CACCGC   33   12   3.14   22
  43   CTGCCC   96   55   3.01   42
  44   GGGCCA   68   35   2.99   39
  45   CGCTGC   28   9   2.88   22
  46   CAGCGC   25   8   2.77   19
  47   CGGCCC   28   10   2.73   19
  48   CCGCCG   19   5   2.56   9
  49   CCCCGG   30   11   2.41   17
  50   AGCCGC   23   7   2.34   17
  51   GCACCC   55   27   2.31   38
  52   AGGACC   54   27   2.22   33
  53   AGGGCG   24   8   2.2   18
  54   CAGGGC   81   47   2.18   42
  55   CCCGCC   45   21   2.15   20
  56   GCCAGC   66   36   2.09   39
  57   AGCGCC   21   6   2.09   18
  58   AGGCCC   64   34   2.08   32
  59   CCCACC   101   62   2.05   54
  60   CGCTCA   21   6   2.03   17
  61   AACGCG   9   1   1.96   9
  62   GCGGCA   21   7   1.92   14
  63   AGGTCC   49   24   1.87   36
  64   CCGTCA   19   6   1.78   14
  65   CAGAGG   107   68   1.77   47
  66   CCCGAG   33   14   1.77   22
  67   CCGAGG   36   16   1.76   25
  68   CGCGGA   11   2   1.75   8
  69   CCACCC   87   53   1.71   45
  70   CCTCGC   23   8   1.71   20
  71   CAAGCC   59   32   1.69   40
  72   TCCGCA   18   5   1.68   17
  73   CGCCGC   18   5   1.67   9
  74   GGGAAC   55   29   1.63   39
  75   CCAGAG   93   58   1.57   49
  76   CGTTCC   19   6   1.53   16
  77   CGAGGA   23   8   1.5   19
  78   GGGACC   48   24   1.48   31
  79   CCGCGA   10   2   1.48   8
  80   CCTGCG   24   9   1.45   17
  81   CTGCGC   23   8   1.32   14
  82   GACCCC   47   24   1.31   33
  83   GCTCCA   66   38   1.25   39
  84   CGCCAC   33   15   1.19   21
  85   GCGGGA   23   9   1.17   18
  86   CTGCGA   18   6   1.15   15
  87   CTGCTC   80   49   1.14   50
  88   CAGACG   23   9   1.13   19
  89   CGAGAG   21   8   1.09   17
  90   CGGTGC   18   6   1.06   16
  91   CTCCCC   84   53   1.05   47
  92   GCGGCC   22   8   1.04   14
  93   CGGCGC   14   4   1.04   13
  94   AAGCCC*   60   34   1.03   42
  95   CCGCAG   24   9   1.03   17
  96   GCCCAC   59   34   0.95   35
  97   CACCCA   92   60   0.93   49
  98   GCGCCC   27   11   0.93   18
  99   ACCGGC   15   4   0.92   13
  100   CTCGCA   16   5   0.89   14
  101   ACGCTC   16   5   0.88   12
  102   CTGGAC   58   33   0.88   32
  103   GCCCCA   67   40   0.87   38
  104   ACCGTC   15   4   0.86   11
  105   CCCTCG   21   8   0.8   18
  106   AGCCCG   22   8   0.79   14
  107   ACCCGA   16   5   0.78   13
  108   AGCAGC   79   50   0.75   41.
  109   ACCGCG   14   4   0.69   7
  110   CGAGGC   29   13   0.69   24
  111   AGCTGC   70   43   0.64   36
  112   GGGGAC   49   27   0.64   34
  113   CCGCAA   16   5   0.64   12
  114   CGTCGC   8   1   0.62   6
  115   CGTGAC   17   6   0.57   15
  116   CGCCCA   33   16   0.56   22
  117   CTCTGC   97   65   0.54   47
  118   AGCGGG   21   8   0.52   17
  119   ACCGCT   15   5   0.5   11
  120   CCCAGG   133   95   0.49   58
  121   CCCTCA   71   45   0.49   39
  122   CCCCCA*   77   49   0.49   42
  123   GGCGAA   16   5   0.48   14
  124   CGGCTC   29   13   0.47   19
  125   CTCGCC   20   8   0.46   1
  126   CGGAGA   20   8   0.45   14
  127   TCCCCA   95   64   0.43   52
  128   GACACC   44   24   0.42   33
  129   CTCCGA   17   6   042   13
  130   CTCGTC   17   6   0.42   14
  131   CGACCA   13   4   0.39   11
  132   ATGACG   17   6   0.37   12
  133   CCATCG   17   6   0.37   13
  134   AGGGGA   78   51   0.36   44
  135   GCTGCA   77   50   0.35   43
  136   ACCCCA   76   49   0.33   40
  137   CGGAGC   21   9   0.33   16
  138   CCTCCG   28   13   0.32   19
  139   CGGGAC   16   6   0.3   10
  140   CCTGGA   88   59   0.3   45
  141   AGGCGA   18   7   0.29   17
  142   ACCCCT   54   32   0.28   36
  143   GCTCCC   56   34   0.27   36
  144   CGTCAC   16   6   0.27   15
  145   AGCGCA   16   6   0.26   11
  146   GAAGCC   62   38   0.25   39
  147   GACGCC   79   52   0.22   42
  148   ACCCTC   54   32   0.22   33
  149   CCCGGC   37   20   0.21   21
  150   CGAGAA   20   8   0.2   17
  151   CCACCG   29   14   0.18   20
  152   ACTTCG   16   6   0.17   14
  153   GATGAC   48   28   0.17   35
  154   ACGAGG   23   10   0.16   18
  155   CCGGAG   20   8   0.15   18
  156   ACCCAC   60   37   0.12   41
  157   CTGGGC   105   74   0.11   50
  158   CCACGG   23   10   0.09   19
  159   CGGTCC   13   4   0.09   12
  160   AGCACC*   54   33   0.09   40
  161   ACACCC   53   32   0.08   38
  162   AGGGCC   54   33   0.08   30
  163   CGCGAA   6   1   0.02   6
  164   GAGCCC   58   36   0.02   36
  165   CTGAGC   71   46   0.02   45
  166   AATCGG   13   4   0.02   11
表10:在STAR元件中过量存在的Dyad模式(6碱基对)
这些模式是根据显著性系数排列的。它们通过用RSA-Tools以人基因组作为参比而确定。包含在线性判别分析中最具判别性变量的模式以星号示出。
编号 Dyad序列   观察到的存在 预期存在   显著性系数
  1   CCCN{2}CGG   36   7   9.31
  2   CCGN{6}CCC   40   10   7.3
  3   CAGN{0}CGG   36   8   7.13
  4   CGCN{15}CCC   34   8   6.88
  5   CGGN{9}GCC   33   7   6.82
  6   CCCN{9}CGC   35   8   6.72
  7   CCCN{1}GCG   34   8   6.64
  8   CCCN{0}CAC   103   48   6.61
  9   AGCN{16}CCG   29   6   5.96
  10   CCCN{4}CGC   34   8   5.8
  11   CGCN{13}GGA   26   5   5.77
  12   GCGN{16}CCC   30   7   5.74
  13   CGCN{5}GCA   25   5   5.49
  14   CCCN{14}CCC   101   49   5.43
  15   CTGN{4}CGC   34   9   5.41
  16   CCAN{12}GCG   28   6   5.37
  17   CGGN{11}CAG   36   10   5.25
  18   CCCN{5}GCC   75   33   4.87
  19   GCCN{0}CCC   64   26   4.81
  20   CGCN{4}GAC   19   3   4.78
  21   CGGN{0}CAG   33   9   4.76
  22   CCCN{3}CGC   32   8   4.67
  23   CGCN{1}GAC   20   3   4.58
24 GCGN{2}GCC 29 7 4.54
  25   CCCN{4}GCC   76   34   4.53
  26   CCCN{1}CCC   103   52   4.53
  27   CCGN{13}CAG   33   9   4.5
  28   GCCN{4}GGA   64   27   4.48
  29   CCGN{3}GGA   26   6   4.48
  30   AGGN{2}GGG   118   63   4.44
  31   CACN{5}GCG   22   4   4.42
  32   CGCN{17}CCA   27   6   4.39
  33   CCCN{9}GGC   69   30   4.38
  34   CCTN{5}GCG   28   7   4.37
  35   GCGN{0}GAC   19   3   4.32
  36   GCCN{0}GGC   40   7   4.28
  37   GCGN{2}CCC   26   6   4.27
  38   CCGN{11}CCC   32   9   4.17
  39   CCCN{8}TCG   23   5   4.12
  40   CCGN{17}GCC   30   8   4.12
  41   GGGN{5}GGA   101   52   4.11
  42   GGCN{6}GGA   71   32   4.1
  43   CCAN{4}CCC   96   48   4.1
  44   CCTN{14}CCG   32   9   4.09
  45   GACN{12}GGC   45   16   4.07
  46   CGCN{13}CCC   30   8   4.04
  47   CAGN{16}CCC   92   46   4.02
  48   AGCN{10}GGG   75   35   394
  49   CGGN{13}GGC   30   8   3.93
  50   CGGN{1}GCC   30   8   3.92
  51   AGCN{0}GGC   26   6   3.9
  52   CCCN{16}GGC   64   28   3.89
  53   GCTN{19}CCC   67   29   3.87
  54   CCCN{16}GGG   88   31   3.81
  55   CCCN{9}CG}G   30   8   3.77
  56   CCCN{10}CGG   30   8   3.76
  57   CCAN{0}GCG   32   9   3.75
  58   GCCN{17}CGC   26   6   3.74
  59   CCTN{6}CGC   27   7   3.73
  60   GGAN{1}CCC   63   27   3.71
  61   CGCN{18}CAC   24   5   3.7
  62   CGCN{20}CCG   21   4   3.69
  63   CCGN{0}GCA   26   6   3.69
  64   CGCN{20}CCC   28   7   3.69
  65   AGCN{15}CCC   67   30   3.65
  66   CCTN{7}GGC   69   31   3.63
  67   GCCN{5}CGC   32   9   3.61
  68   GCCN{14}CGG   28   7   3.59
  69   CAGN{11}CCC   89   45   3.58
  70   GGGN{16}GAC   53   21   3.57
  71   CCCN{15}GCG   25   5   3.57
  72   CCCN{0}CGC   37   12   3.54
  73   CCCN{16}AGC*   67   30   3.54
  74   AGGN{9}GGG   96   50   3.52
  75   CGCN{12}CTC   28   7   3.46
  76   CACN{8}CGC   23   5   3.43
  77   CCAN{7}CCG   31   9   3.42
  78   CGGN{1}GCA   25   6   3.41
  79   CGCN{14}CCC   29   8   3.4
  80   AGCN{0}CCC   76   36   3.4
  81   CGCN{13}GTC   18   3   3.37
  82   GCGN{3}GCA   26   7   3.35
  83   CGGN{0}GGC   34   11   3.35
  84   GCCN{14}CCC   68   31   3.33
  85   ACCN{7}CGC   21   4   3.32
  86   AGGN{7}CGG   33   10   3.31
  87   CCCN{16}CGA   22   5   3.3
  88   CGCN{6}CAG   31   9   3.29
  89   CAGN{11}GCG   29   8   3.29
  90   CCGN{12}CCG   19   4   3.26
  91   CGCN{18}CAG   27   7   3.24
  92   CAGN{1}GGG   80   39   3.21
  93   CGCN{0}CCC   32   10   3.2
  94   GCGN{18}GCC   26   7   3.18
  95   CGGN{15}GGC   27   7   3.15
  96   CCCN{15}AGG   72   34   3.14
  97   AGGN{20}GCG   26   7   3.14
  98   CGGN{5}CTC   26   7   3.13
  99   TCCN{17}CGA   23   5   3.12
  100   GCGN{4}CCC   30   9   3.08
  101   CCCN{2}CGC   30   9   3.07
  102   CGTN{3}CAG   28   8   3.06
  103   CCGN{13}GAG   27   7   3.05
  104   CTCN{6}CGC   28   8   3.04
  105   CGCN{4}GAG   21   5   3.03
  106   GCGN{5}GGA   24   6   3.03
  107   CCGN{1}CAG   27   7   3.01
  108   CGCN{11}CCG   18   3   2.99
  109   GCGN{19}CCC   26   7   2.98
  110   CGCN{18}GAA   21   5   2.98
  111   GGGN{19}GGA   78   39   2.95
  112   CCAN{1}CGG   24   6   2.94
  113   CCCN{7}GCG   25   6   2.94
  114   AGGN{10}CCC   84   43   2.92
  115   CCAN{0}GGG   97   52   2.88
  116   CAGN{10}CCC   82   41   2.87
  117   CCGN{18}CCG   19   4   2.86
  118   CCGN{18}GGC   26   7   2.85
  119   CCCN{2}GCG   24   6   2.84
  120   CGCN{1}GGC   25   7   2.83
  121   CCGN{5}GAC   19   4   2.81
  122   GGAN{0}CCC   52   22   2.8
  123   CCCN{1}CCG   29   9   2.78
  124   CCCN{15}ACG   23   6   2.75
  125   AGCN{8}CCC   66   31   2.73
  126   CCCN{3}GGC   60   27   2.71
  127   AGGN{9}CGG   31   10   2.7
  128   CCCN{14}CGC   27   8   2.7
  129   CCGN{0}CCG   19   4   2.7
  130   CGCN{8}AGC   23   6   2.69
  131   CGCN{19}ACC   21   5   2.68
  132   GCGN{17}GAC   17   3   2.66
  133   AGCN{1}GCG   24   6   2.63
  134   CCGN{11}GGC   31   10   2.63
  135   CGGN{4}AGA   26   7   2.63
  136   CGCN{14}CCG   17   3   2.62
  137   CCTN{20}GCG   24   6   2.62
  138   CCAN{10}CGC   26   7   2.61
  139   CCCN{20}CAC   69   33   2.6
  140   CCGN{11}GCC   27   8   2.6
  141   CGCN{18}CCC   26   7   2.59
  142   CGGN{15}CGC   16   3   2.57
  143   CGCN{16}GCC   24   6   2.55
  144   CGCN{20}GGC   23   6   2.54
  145   CGCN{19}CCG   18   4   2.52
  146   CGGN{10}CCA   28   8   2.51
  147   CGCN{17}CCC   26   7   2.51
  148   CGCN{11}ACA   23   6   2.51
  149   CGGN{0}ACC   17   3   2.5
  150   GCGN{10}GCC   24   6   2.49
  151   GCGN{8}GAC   17   3   2.49
  152   CCCN{15}GGG   84   32   2.44
  153   CGGN{16}GGC   27   8   2.44
  154   CGCN{16}CCA   23   6   2.42
  155   GCCN{3}CCC   73   36   2.4
  156   CAGN{4}GG}G   94   51   2.4
  157   CCCN{6}GCG   23   6   2.38
  158   CCGN{16}CGC   17   3   2.38
  159   CCCN{17}GCA   61   28   2.37
  160   CGCN{13}TCC   24   6   2.37
  161   GCCN{1}CGC   29   9   2.36
  162   CCGN{19}GAG   26   7   2.35
  163   GGGN{10}GGA   89   48   2.35
  164   CAGN{5}CCG   32   11   2.35
  165   CGCN{3}AGA   19   4   2.32
  166   GCCN{0}GCC   29   9   2.32
  167   CCCN{8}GGC   61   28   2.31
  168   CCTN{6}GCG   22   6   2.29
  169   GACN{6}CCC   48   20   2.29
  170   CGGN{1}CCC   26   8   2.27
  171   CCCN{15}CCG   30   10   2.27
  172   CAGN{9}CCC   84   44   2.26
  173   CGGN{10}GGC   27   8   2.26
  174   CGAN{10}ACG   10   1   2.26
  175   GCGN{3}TCC   21   5   2.26
  176   CCCN{3}GCC   75   38   2.24
  177   GCGN{1}ACC   17   3   2.24
  178   CCGN{9}AGG   27   8   2.23
  179   CGCN{16}CAG   26   8   2.23
  180   GGCN{0}CCC   62   29   2.22
  181   AGGN{12}CCG   26   8   2.19
  182   CCGN{0}GCG   16   3   2.19
  183   CCGN{2}GCC   30   10   2.18
  184   CCGN{11}GTC   19   4   2.17
  185   CAGN{0}CCC   88   47   2.17
  186   CCCN{5}CCG   32   11   2.17
  187   GCCN{20}CCC   66   32   2.15
  188   GACN{2}CGC   18   4   2.14
  189   CGCN{6}CAC   23   6   2.13
  190   AGGN{14}GCG   25   7   2.1
  191   GACN{5}CGC   17   3   2.1
  192   CCTN{19}CCG   29   9   2.1
  193   CCGN{12}GGA   24   7   2.08
  194   GGCN{9}GAC*   44   18   2.08
  195   AGGN{10}GGG   94   52   2.07
  196   CCGN{10}GAG   25   7   2.07
  197   CGCN{6}GGA   20   5   2.06
  198   CGCN{7}AGC   23   6   2.04
  199   CCAN{13}CGG   26   8   2.03
  200   CGGN{6}GGA   25   7   2.03
  201   CGCN{19}GCC   24   7   2.03
  202   CCAN{12}CGC   24   7   2.02
  203   CGGN{1}GGC   41   16   2.02
  204   GCGN{3}CCA   25   7   2.01
  205   AGGN{1}CGC   21   5   2
  206   CTCN{5}CGC   24   7   1.98
  207   CCCN{0}ACG   30   10   1.97
  208   CAGN{17ICCG   29   9   1.96
  209   GGCN{4}CCC   62   30   1.96
  210   AGGN{8}GCG   26   8   1.96
  211   CTGN{1}CCC   88   48   1.94
  212   CCCN{16}CAG   85   46   1.94
  213   CGCN{9}GAC   16   3   1.93
  214   CAGN{6}CCG   29   9   1.92
  215   CGTN{12}CGC   11   1   1.92
  216   CTCN{7}GCC   69   35   1.92
  217   CGCN{19}TCC   22   6   1.92
  218   CCCN{7}GCC   67   33   1.91
  219   CAGN{13}CGG   30   10   1.9
  220   CGCN{1}GCC   27   8   1.9
  221   CGCN{17}CCG   17   4   1.89
  222   AGGN{4}CCC   63   31   1.89
  223   AGCN{10}CGC   21   5   1.89
  224   CCCN{11}CGG   30   10   1.88
  225   CCCN{8}GCC   75   39   1.86
  226   CCGN{1}CGG   22   3   1.86
  227   CCCN{1}ACC   71   36   1.85
  228   CGCN{0}CAG   25   7   1.85
  229   CCGN{19}TGC   23   6   1.82
  230   GCGN{4}CGA   12   2   1.82
  231   CCGN{19}GCC   30   10   1.82
  232   CCAN{10}CCC   85   46   1.81
  233   CAGN{13}GGG   91   51   1.81
  234   AGCN{18}CGG   23   6   1.81
  235   CGAN{8}CGC   11   1   1.81
  236   AGCN{4}CCC   63   31   1.8
  237   GGAN{6}CCC   61   30   1.8
  238   CGGN{13}AAG   23   6   1.8
  239   ACCN{11}CGC   19   5   1.79
  240   CCGN{12}CAG   28   9   1.78
  241   CCCN{12}GGG   76   29   1.77
  242   CACN{17}ACG   22   6   1.76
  243   CAGN{18}CCC   82   44   1.76
  244   CGTN{10}GTC   19   5   1.75
  245   CCCN{13}GCG   23   6   1.75
  246   GCAN{1}CGC   20   5   1.73
  247   AGAN{4}CCG   24   1.73
  248   GCGN{10}AGC   22   6   1.72
  249   CGCN{0}GGA   12   2   1.72
  250   CGGN{4}GAC   17   4   1.69
  251   CCCN{12}CGC   26   8   1.68
  252   GCCN{15}CCC   65   33   1.68
  253   GCGN{6}TCC   20   5   1.66
  254   CGGN{3}CAG   33   12   1.65
  255   CCCN{3}CCA   88   49   1.65
  256   AGCN{3}CCC   59   28   1.65
  257   GGGN{16}GCA   65   33   1.65
  258   AGGN{8}CCG   28   9   1.64
  259   CCCN{0}CCG   29   10   1.64
  260   GCGN{5}GAC   16   3   1.64
  261   CCCN{9}ACC   60   29   1.64
  262   CTGN{5}CGC   25   8   1.64
  263   CGCN{14}CTC   23   7   1.64
  264   CGGN{14}GCA   23   7   1.63
  265   CCGN{8}GCC   26   8   1.62
  266   CCGN{7}CAC   23   7   1.62
  267   AGCN{8}GCG   21   6   1.61
  268   CGGN{16}GGA   29   10   1.61
  269   CCAN{12}CCG   26   8   1.61
  270   CGGN{2}CCC   26   8   1.6
  271   CCAN{13}GGG   71   37   1.6
  272   CGGN{15}GCA   21   6   1.6
  273   CGCN{9}GCA   20   5   1.58
  274   CGGN{19}CCA   26   8   1.58
  275   GGGN{15}CGA   20   5   1.57
  276   CCCN{10}CGC   26   8   1.57
  277   CTCN{14}CGC   26   8   1.55
  278   CACN{11}GCG   20   5   1.55
  279   CCGN{2}GGC   24   7   1.55
  280   CTGN{18}CCC   85   47   1.54
  281   GGGN{13}CAC   58   28   1.54
  282   CCTN{15}GGC   62   31   1.54
  283   CCCN{20}CGA   20   5   1.54
  284   CCCN{8}CGA   20   5   1.53
  285   GAGN{7}CCC   61   30   1.53
  286   CGCN{2}CCG   22   6   1.53
  287   CCCN{0}TCC   98   57   1.52
  288   AGCN{0}GCC   21   6   1.52
  289   CCCN{2}TCC   82   45   1.52
  290   CCGN{5}CCC   30   10   1.52
  291   CGCN{13}CGC   16   3   1.51
  292   CCCN{1}CGC   28   9   1.51
  293   GCCN{16}GCA   53   25   1.51
  294   CCCN{16}CCA   84   46   1.5
  295   CCGN{13}CGC   19   5   1.5
  296   CCGN{17}CAG   28   9   1.49
  297   CGGN{18}GGC   26   8   1.49
  298   CCGN{14}AGG   23   7   1.49
  299   CCCN{5}CGG   26   8   1.49
  300   CCCN{6}GGA   58   28   1.49
  301   ACGN{2}CCC   20   5   1.49
  302   CCAN{9}CCG   27   9   1.48
  303   CCCN{19}CCA   78   42   1.48
  304   CAGN{0}GGG   77   41   1.48
  305   AGCN{1}CCC   58   28   1.47
  306   GCGN{7}TCC   27   9   1.46
  307   ACGN{18}CCA   25   8   1.46
  308   GCTN{14}CCC   61   30   1.46
  309   GCGN{14}CCC   23   7   1.46
  310   GCGN{19}AGC   20   5   1.45
  311   CCGN{8}CAG   29   10   1.45
  312   GCGN{6}GCC   22   6   1.45
  313   GCGN{10}GCA   20   5   1.44
  314   CCTN{7}GCC   69   36   1.44
  315   GCCN{13}GCC   54   26   1.42
  316   CCCN{14}GCC   63   32   1.42
  317   CCCN{15}CGG   26   8   1.42
  318   CCAN{13}CGC   23   7   1.42
  319   AGCN{11}GGG   67   35   1.41
  320   GGAN{0}GCC   64   32   1.4
  321   GCCN{3}TCC   61   30   1.4
  322   CCTN{5}GCC   69   36   1.39
  323   CGGN{18}CCC   25   8   1.39
  324   CCTN{3}GGC   59   29   1.38
  325   CCGN{0}CTC   22   6   1.38
  326   AGCN{17}GCG   19   5   1.37
  327   ACGN{14}GGG   20   5   1.37
  328   CGAN{12}GGC   19   5   1.37
  329   CCCN{20}CGC   24   7   1.37
  330   ACGN{12}CTG   24   7   1.36
  331   CCGN{0}CCC   36   14   1.36
  332   CCGN{10}GGA   23   7   1.36
  333   CCCN{3}}GCG   21   6   1.36
  334   GCGN{14}CGC   22   3   1.35
  335   CCGN{8}CGC   16   4   1.35
  336   CGCN{10}ACA   22   6   1.34
  337   CCCN{19}CCG   28   10   1.33
  338   CACN{14}CGC   20   5   1.32
  339   GACN{3}GGC   46   21   1.32
  340   GAAN{7}CGC   19   5   1.32
  341   CGCN{16}GGC   21   6   1.31
  342   GGCN{9}CCC   64   33   1.31
  343   CCCN{9}GCC   64   33   1.31
  344   CGCN{0}TGC   26   9   1.3
  345   CCTN{8}GGC   67   35   1.3
  346   CCAN{8}CCC   82   46   1.29
  347   GACN{2}CCC   42   18   1.28
  348   GGCN{1}CCC   54   26   1.27
  349   CGCN{0}AGC   24   7   1.26
  350   AGGN{4}GCG   28   10   1.26
  351   CGGN{6}TCC   22   6   1.25
  352   ACGN{19}GGC   20   5   1.25
  353   CCCN{8}ACG   21   6   1.24
  354   CCCN{18}GCC   62   31   1.24
  355   GCCN{2}CGA   19   5   1.24
  356   CCCN{8}GCG   28   10   1.23
  357   CCCN{0}CTC   76   41   1.23
  358   GCCN{11}CGC   27   9   1.22
  359   AGCN{9}CCC   59   29   1.22
  360   GCTN{0}GCC   71   38   1.21
  361   CGCN{3}CCC   26   9   1.21
  362   CCCN{2}CCC   117   72   1.19
  363   GCCN{9}CGC   23   7   1.19
  364   GCAN{19}CGC   19   5   1.19
  365   CAGN{4}CGG   32   12   1.18
  366   CAGN{2}GGG   80   44   1.17
  367   GCCN{16}CCC   67   35   1.16
  368   GAGN{5}CCC   60   30   1.16
  369   CCTN{16}TCG   20   6   1.16
  370   CCCN{2}GGC   62   32   1.15
  371   GCGN{13}GGA   24   8   1.15
  372   GCCN{17}GGC   66   25   1.15
  373   CCCN{14}GGC   58   29   1.14
  374   AGGN{3}CCG   31   12   1.14
  375   CACN{0}CGC   32   12   1.14
  376   CGGN{18}CAG   28   10   1.14
  377   AGCN{1}GCC   57   28   1.13
  378   CGCN{18}GGC   23   7   1.13
  379   CCCN{5}AGG   64   33   1.11
  380   AACN{0}GCG   9   1   1.11
  381   CCCN{10}CCA   88   50   1.09
  382   CGCN{13}GAG   20   6   1.09
  383   CGCN{7}GCC   25   8   1.08
  384   CCCN{9}CCG   28   10   1.07
  385   CGCN{16}CCC   24   8   1.05
  386   GAAN{13}CGC   18   5   1.05
  387   GGCN{3}CCC   49   23   1.03
  388   TCCN{11}CCA   87   50   1.03
  389   CACN{0}CCC   70   38   1.02
  390   CGCN{16}CCG   15   3   1.02
  391   CGGN{15}AGC   21   6   1.02
  392   CCCN{12}GCG   21   6   1.02
  393   CCCN{9}GAG   59   30   1.01
  394   CCGN{20}TCC   24   8   1.01
  395   CGCN{0}CGC   17   4   1.01
  396   ATGN{7}CGG   20   6   1
  397   GGGN{20}GCA   59   30   1
  398   CGGN{4}GGC   26   9   0.99
  399   CGGN{16}AGC   22   7   0.99
  400   CGGN{5}GGC   25   8   0.99
  401   GCGN{0}GGA   25   8   0.98
402 GGCN{20}CAC 52 25 0.98
  403   CCCN{9}CCC   97   58   0.97
  404   ACCN{17}GGC   44   20   0.97
  405   CCCN{6}CGA   18   5   0.96
  406   AAGN{10}CGG   26   9   0.96
  407   CGCN{17}CAC   21   6   0.95
  408   CCCN{16}CGG   25   8   0.94
  409   GACN{18}GGC   39   17   0.94
  410   GGGN{15}GAC   47   22   0.92
  411   GCCN{4}TCC   66   35   0.92
  412   GGCN{15}CCC   56   28   0.92
  413   CAGN{12}CGC   24   8   0.92
  414   CCAN{3}GCG   22   7   0.91
  415   CCGN{16}GAG   22   7   0.9
  416   AGCN{2}CGC   24   8   0.89
  417   GAGN{4}CCC   54   27   0.89
  418   AGGN{3}CGC   23   7   0.88
  419   CACN{13}AGG*   67   36   0.88
  420   CCCN{4}CAG   88   51   0.88
  421   CCCN{2}GAA   63   33   0.87
  422   CGCN{19}GAG   21   6   0.87
  423   ACGN{18}GGG   21   6   0.87
  424   CCCN{4}GGC   62   32   0.87
  425   CGGN{9}GAG   28   10   0.86
  426   CCCN{3}GGG   66   26   0.86
  427   GAGN{4}GGC   66   35   0.85
  428   CGCN{5}GAG   18   5   0.84
  429   CCGN{20}AGG   24   8   0.84
  430   CCCN{15}CCC   88   51   0.83
  431   AGGN{17}CCG   25   8   0.82
  432   AGGN{6}GGG   89   52   0.82
  433   GGCN{20}CCC   57   29   0.82
  434   GCAN{17}CGC   19   5   0.82
  435   CGAN{11}ACG   9   1   0.81
  436   CGCN{2}GGA   19   5   0.81
  437   CTGN{5}CCC   79   45   0.8
  438   TCCN{20}CCA   77   43   0.8
  439   CCAN{2}GGG   59   30   0.8
  440   CCGN{15}GCG   14   3   0.8
  441   CCAN{5}GGG   69   38   0.79
  442   CGGN{1}TGC   24   8   0.79
  443   CCCN{14}GCG   21   6   0.79
  444   CAGN{0}CCG   27   10   0.79
  445   GCCN{9}TCC   60   31   0.78
  446   AGGN{20}CGC   22   7   0.78
  447   CCCN{6}GAC   42   19   0.77
  448   CGGN{11}CCA   23   7   0.76
  449   GGGN{14}CAC   57   29   0.75
  450   GCAN{15}CGC   19   5   0.74
  451   CGCN{2}ACA   20   6   0.74
  452   ACCN{9}CCC   57   29   0.73
  453   GCGN{9}CGC   20   3   0.73
  454   CAGN{15}GCG   23   7   0.73
  455   CCCN{18}GTC   45   21   0.72
  456   GCGN{3}CCC   24   8   0.72
  457   CGGN{11}GCC   23   8   0.72
  458   CCCN{1}CGG   24   8   0.71
  459   GCCN{4}CCA   70   38   0.71
  460   CCCN{4}CCG   30   12   0.7
  461   CGTN{2}GCA   21   6   0.7
  462   AGCN{7}TCG   18   5   0.69
  463   CCGN{15}GAA   20   6   0.69
  464   ACCN{5}CCC   62   33   0.69
  465   CGCN{14}GAG   19   5   0.68
  466   CCCN{7}CGC   30   12   0.68
  467   GAGN{12}CGC   21   6   0.68
  468   GGCN{17}CCC   58   30   0.67
  469   ACGN{11}CTC   21   7   0.65
  470   ACAN{9}CGG   24   8   0.65
  471   CTGN{7}CCC   82   47   0.65
  472   CCCN{2}GCC   72   40   0.65
  473   CGGN{2}GCA   24   8   0.64
  474   CCCN{0}TGC   83   48   0.64
  475   CGCN{7}ACC   18   5   0.63
  476   GCAN{2}GCC   54   27   0.63
  477   GCGN{8}CCA   20   6   0.63
  478   AGCN{0}CGC   22   7   0.63
  479   GCGN{2}GCA   18   5   0.63
  480   CCGN{2}GTC   18   5   0.62
  481   CCGN{3}ACA   21   7   0.62
  482   ACGN{13}TGG   21   7   0.62
  483   CCAN{8}CGC   23   8   0.62
  484   CCGN{9}GGC   23   8   0.61
  485   CCAN{5}CCG   25   9   0.61
486 AGGN{3}GGG 97 59 0.61
  487   CAGN{2}GGC   78   45   0.61
  488   CCCN{8}CAG   81   47   0.61
  489   AGCN{5}CAG   80   46   0.6
  490   CGGN{16}GCC   22   7   0.6
  491   GCGN{15}CCC   23   8   0.6
  492   CCCN{11}GCC   59   31   0.59
  493   CGAN{2}ACG   9   1   0.59
  494   CGGN{4}GCC   22   7   0.59
  495   CACN{6}CGC   19   6   0.59
  496   CGGN{5}ACG   11   2   0.59
  497   CTGN{4}GCC*   66   36   0.59
  498   GGGN{18}CGA   18   5   0.59
  499   CCTN{8}CGC   22   7   0.59
  500   GCCN{4}CCC   67   37   0.58
  501   CGGN{10}GCC   22   7   0.58
  502   GCCN{5}GGA   54   27   0.57
  503   ACCN{7}GCG   15   4   0.57
  504   CCCN{8}CGC   24   8   0.57
  505   CAGN{5}CCC   77   44   0.56
  506   CACN{14}GGA   63   34   0.56
  507   CCCN{1}GCC   94   57   0.55
  508   CCCN{5}AGC   67   37   0.55
  509   GGCN{5}GGA   59   31   0.55
  510   CGAN{17}GAG   19   6   0.55
  511   CGCN{7}ACA   18   5   0.54
  512   CCAN{13}CCC   87   52   0.54
  513   CGGN{20}GGC   24   8   0.54
  514   CCCN{17}GCC   58   30   0.53
  515   CCTN{10}CCG   30   12   0.53
  516   CCCN{8}CCG   27   10   0.53
  517   CGCN{3}GAG   18   5   0.52
  518   CGCN{7}AAG   17   5   0.51
  519   CGGN{11}GGA   23   8   0.51
  520   CCGN{15}CCG   15   4   0.51
  521   CCCN{3}GCA   57   30   0.51
  522   CGGN{2}CAG   24   8   0.5
  523   AGGN{2}CCG   24   8   0.5
  524   CCCN{4}CAC   69   38   0.5
  525   GGAN{19}CCC   56   29   0.49
  526   CCCN{8}CAC   68   38   0.49
  527   ACCN{6}CCG   18   5   0.49
  528   CCCN{6}GGC   54   28   0.49
  529   CCCN{6}CCG   29   11   0.48
  530   CGCN{14}GCC   26   9   0.47
  531   CCGN{5}TCC   25   9   0.46
  532   GCCN{6}GCC   55   28   0.46
  533   CGGN{7}GGA   24   8   0.45
  534   GGGN{6}GGA   87   52   0.44
  535   GCCN{12}TCC   60   32   0.44
  536   AGTN{16}CCG   17   5   0.44
  537   GGCN{19}GCC   68   29   0.44
  538   CCGN{3}CCG   22   7   0.44
  539   CCCN{8}ACC   58   31   0.44
  540   CAGN{15}GCC   77   44   0.44
  541   CCCN{17}CGG   24   8   0.44
  542   GCGN{1}CCA   22   7   0.44
  543   CCCN{14}CAG   79   46   0.44
  544   CCCN{8}CCC   89   53   0.44
  545   ACAN{12}GCG   23   8   0.43
  546   AGGN{4}CCG   23   8   0.43
  547   CGCN{13}GCC   23   8   0.43
  548   GAGN{2}CGC   23   8   0.42
  549   CCCN{9}GCG   21   7   0.42
  550   CGCN{17}ACA   17   5   0.42
  551   GCGN{17}CCA   23   8   0.42
  552   AAGN{18}CCG   20   6   0.42
  553   CGCN{1}GGA   18   5   0.41
  554   CCAN{1}CCC   90   54   0.41
  555   CGTN{18}TGC   20   6   0.41
  556   TCCN{14}CGA   17   5   0.41
  557   CACN{5}GGG   56   29   0.4
  558   CCGN{12}GCA   21   7   0.4
  559   CTGN{6}CCC   77   44   0.4
  560   CGGN{8}GGC   32   13   0.4
  561   CCAN{11}GGG   68   38   0.4
  562   ACGN{19CAA   21   7   0.39
  563   GGGN{20}CCC   72   31   0.39
  564   CGCN{3}CAG   23   8   0.39
  565   AGCN{17}GGG   58   31   0.37
  566   CACN{20}CCG   21   7   0.37
  567   ACGN{17CAG   24   8   0.37
  568   AGGN{1}CCC   60   32   0.37
  569   CGTN{12}CAC   20   6   0.37
  570   CGGN{9}GGC   23   8   0.37
  571   CGCN{10}GCG   18   3   0.37
  572   CCCN{6}CTC   80   47   0.36
  573   CCGN{10}AGG   23   8   0.36
  574   CCCN{18}CAG   79   46   0.36
  575   AGCN{17}CCG   21   7   0.36
  576   AGCN{9}GCG   18   5   0.36
  577   CCAN{3}GGC   62   34   0.36
  578   CCCN{11}GGC   57   30   0.35
  579   ACGN{5}GCA   23   8   0.35
  580   CCCN{14}CGG   23   8   0.35
  581   CCCN{5}CCA   91   55   0.35
  582   CCGN{1}AGG   22   7   0.34
  583   GGGN{10}GAC   45   22   0.34
  584   CGCN{15}CCA   20   6   0.34
  585   CCTN{19}CGC   22   7   0.34
  586   CGTN{3}CGC   10   2   0.33
  587   AGCN{14}CCG   21   7   0.33
  588   GGCN{2}CGA   17   5   0.33
  589   CAGN{8}CCC   79   46   0.33
  590   CCGN{2}GAC   16   4   0.33
  591   AGCN{19}AGG   70   40   0.32
  592   CCTN{4}GGC   64   35   0.32
  593   CCGN{11}AGC   22   7   0.32
  594   CACN{4}CGC   18   5   0.32
  595   CCGN{1}CCC   30   12   0.31
  596   CTGN{13}GGC   73   42   0.31
  597   CGCN{16}ACC   15   4   0.31
  598   CACN{18}CAG   79   46   0.31
  599   GGCN{8}GCC   68   29   0.29
  600   GGGN{15}GGA   78   46   0.29
  601   CCGN{16}GCC   22   7   0.29
  602   CCGN{20}ACC   18   5   0.29
  603   CGAN{7}CCC   17   5   0.28
  604   CCGN{6}CTC   23   8   0.28
  605   CGGN{10}CTC   22   7   0.28
  606   CAGN{16}CGC   23   8   0.28
  607   CCAN{3}AGG   77   45   0.27
  608   GCCN{18}GCC   52   27   0.27
  609   CGCN{18}GGA   19   6   0.26
  610   CCGN{20}GGC   22   7   0.26
  611   ACAN{10}GCG   17   5   0.26
  612   CGGN{5}CCC   25   9   0.25
  613   CCCN{7}TCC   75   43   0.25
  614   ACGN{10}CGC   10   2   0.25
  615   CCCN{3}TCC   81   48   0.25
  616   CCGN{8}CGG   20   3   0.24
  617   CCAN{15}CGG   22   7   0.24
  618   CCGN{6}CCG   17   5   0.24
  619   CAGN{3}GCG   25   9   0.24
  620   GAGN{1}CCC   62   34   0.24
  621   CCGN{18}TGC   22   7   0.23
  622   CCCN{7}CCA   85   51   0.23
  623   CGGN{3}CCA   24   9   0.23
  624   ACGN{1}CCC   18   5   0.23
  625   CGGN{13}TGA   21   7   0.22
  626   CTCN{6}GGC   53   28   0.22
  627   GCGN{2}GAC   15   4   0.22
  628   GGGN{11}ACC   49   25   0.22
  629   CGCN{4}GGA   17   5   0.22
  630   CCCN{11}CCG   27   10   0.22
  631   CCGN{19}GCA   20   6   0.22
  632   GCGN{0}GCA   20   6   0.21
  633   AGAN{7}CCC   61   33   0.21
  634   CGGN{2}CCA   21   7   0.21
  635   CCCN{7}CCC   89   54   0.21
  636   ACCN{4}GCG   15   4   0.2
  637   CCTN{15}CGC   20   6   0.2
  638   AGCN{9}GTC   44   21   0.2
  639   CCCN{18}CTC   74   43   0.2
  640   CGCN{18}CGA   9   1   0.19
  641   CCCN{15}GCC   62   34   0.18
  642   ACCN{11}GGC   45   22   0.18
  643   AGGN{15}CGC   29   12   0.18
  644   GCGN{0}CCA   27   10   0.18
  645   GCGN{9}AGC   18   5   0.17
  646   GGGN{18}GCA   59   32   0.17
  647   CCCN{17}CAG   77   45   0.17
  648   CCAN{8}CGG   22   8   0.16
  649   CCGN{10}GGC   21   7   0.16
  650   GCAN{0}GCC   76   44   0.16
  651   CAGN{2}CGC   20   6   0.16
  652   CGCN{8}GGC   19   6   0.16
  653   CTGN{17}GGC   65   36   0.16
  654   GGGN{14}ACC   46   23   0.16
  655   CCGN{1}TGC   20   6   0.16
  656   CAGN{8}CGC   22   8   0.15
  657   AAGN{11}CGC   17   5   0.15
  668   CCGN{6}TCC   22   8   0.14
  659   CCAN{18}CCC   72   42   0.14
  660   CCAN{0}CCC   84   51   0.14
  661   GAGN{6}CCC   53   28   0.14
  662   AGCN{20}GGC   52   27   0.14
  663   CAGN{0}CGC   21   7   0.14
  664   CCGN{12}CTC   22   8   0.14
  665   CGCN{15}ACG   9   1   0.13
  666   GGCN{17}CGA   15   4   0.13
  667   CCGN{16}AAG   19   6   0.13
  668   CGCN{14}TCC   19   6   0.12
  669   AGGN{7}CGC   20   7   0.12
  670   CGGN{7}CCC   22   8   0.12
  671   CGCN{4}GCC   34   15   0.12
  672   CGAN{6}CCC   17   5   0.12
  673   CCCN{19}GGA   60   33   0.11
  674   CCCN{16}GCG   28   11   0.11
  675   CCAN{7}CGC   20   7   0.11
  676   CCCN{6}GCC   80   48   0.11
  677   GCCN{14}TCC   55   29   0.11
  678   AGGN{14}GCC   64   36   0.1
  679   CGCN{11}GCC   20   7   0.1
  680   TCCN{0}GCA   17   5   0.09
  681   GCGN{8}CCC   27   11   0.09
  682   CCAN{11}GCG   19   6   0.09
  683   CACN{4}GGG   51   26   0.09
  684   CGGN{7}TCC   20   7   0.09
  685   GCGN{5}GCC   20   7   0.09
  686   ACGN{12}CAG   26   10   0.09
  687   CCGN{19}CGC   14   4   0.08
  688   CGGN{8}TGC   18   5   0.08
  689   CCCN{1}GAG   65   37   0.07
  690   GCGN{19}TGA   18   6   0.07
  691   GGCN{15}GCC   70   31   0.07
  692   CCGN{7}CCC   27   11   0.07
  693   ACAN{19}CCC   63   35   0.07
  694   ACCN{16}GGG   47   24   0.07
  695   AGAN{1}GGC   64   36   0.07
  696   GGGN{17}TGA   64   36   0.06
  697   CAGN{5}GGG   83   50   0.06
  698   GCCN{13}CGC   22   8   0.06
  699   GCGN{7}GGA   19   6   0.06
  700   CAGN{14}CCA   94   58   0.06
  701   CCGN{4}GTC   16   4   0.06
  702   CCCN{13}CGC   22   8   0.06
  703   GCGN{14}ACC   15   4   0.05
  704   CAGN{20}GGG   81   49   0.05
  705   CCGN{4}CCC   27   11   0.05
  706   CGCN{5}GGC   18   6   0.05
  707   CCTN{6}GGC   57   31   0.05
  708   AGGN{3}GGC   67   38   0.05
  709   CGGN{11}CGC   14   4   0.05
  710   CTGN{18}GGA   77   46   0.04
  711   CACN{17}CCA   74   43   0.04
  712   CGGN{3}GAG   22   8   0.04
  713   CCCN{9}CCA   82   49   0.03
  714   CCCN{1}ACG   18   6   0.03
  715   CAGN{1}GCC   72   42   0.03
  716   AGGN{6}CCG   23   8   0.03
  717   AGCN{9}GGG   57   31   0.03
  718   CCCN{7}GGC   54   29   0.02
  719   CCTN{13}CCC   88   54   0.02
  720   CCGN{19}TTC   20   7   0.02
  721   CCCN{7}CCG   27   11   0.02
  722   CGAN{6}GGC   17   5   0.01
  723   CGGN{4}CTC   21   7   0.01
  724   CGGN{0}CGC   13   3   0.01
  725   CCTN{13}ACG   19   6   0.01
  726   GGGN{6}CAC   53   28   0.01
  727   CCCN{16}CGC   21   7   0.01
  728   CCCN{10}CTC   76   45   0
  729   CCCN{0}CAG   92   57   0
  730   GCCN{5}CCC   65   37   0
表11:由线性判别分析测试的候选STAR元件
  候选STAR   位置1   长度
  T2F   20q13.33   ~2800
  T2R   6q14.1   ~2800
  T3F   15q12   ~2900
  T3R   7q31.2   ~2900
  T5F   9q34.13   ND2
  T5R   9q34.13   ND
  T7   22q12.3   ~1200
  T9F   21q22.2   ~1600
  T9R   22q11.22   ~1600
  T10F   7q22.2   ~1300
  T10R   6q14.1   ~1300
  T11F   17q23.3   ~2000
  T11R   16q23.1   ~2000
  T12   4p15.1   ~2100
  T13F   20p13   ~1700
  T13R   1p13.3   ~1700
  T14R   11q25   ~1500
  T17   2q31.3   ND
  T18   2q31.1   ND
1染色体位置是通过将来自STAR元件的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置,例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带
(http://www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。F代表正向测序反应结果;R代表反向测序反应结果。当正向和反向测序结果作图至不同的基因组位置时,每一序列基于来自人类基因组数据库的序列信息延伸至原始克隆的全长(根据限制酶切作图确定)。
2ND:未确定。
表12:本发明的Arabidopsis STAR元件,包括染色体位置和长度
  STAR   染色体   长度,kb
  A1   I   1.2
  A2   I   0.9
  A3   I   0.9
  A4   I   0.8
  A5   I   1.3
  A6   I   1.4
  A7   II   1.2
  A8   II   0.8
  A9   II   0.9
  A10   II   1.7
  A11   II   1.9
  A12   II   1.4
  A13   II   1.2
  A14   II   2.1
  A15   II   1.4
  A16   II   0.7
  A17   II   1.5
  A18   III   1.5
  A19   III   0.7
  A20   III   2.0
  A21   IV   1.8
  A22   IV   0.8
  A23   IV   0.6
  A24   IV   0.5
  A25   V   0.9
  A26   V   1.9
  A27   V   1.1
  A28   V   1.6
  A29   V   0.9
  A30   V   2.0
  A31   V   2.0
  A32   V   1.3
  A33   V   0.9
  A34   I   0.9
  A35   II   1.1

Claims (8)

1.一种具有基因转录调节特性的分离的和/或重组的DNA序列,其中所述序列由选自以下一组的一种序列组成:(a)选自图26的SEQ ID:1-119的一种序列;(b)选自图26的SEQ ID:1-119的一种序列的功能性片段,衍生物或同源物,
所述序列具有通过包括以下步骤的一种方法确定的基因转录调节特性:
细胞在存在250g/ml的zeocin和0.1ng/ml的强力霉素下生长5周;
挑选5周后还在生长的菌落;
在从所述菌落中分离的质粒中检验具有基因转录调节特性的DNA序列的存在;
其中所述细胞是U-2OS人骨肉瘤细胞系,其表达在Tet-Off转录调控系统控制下的含有LexA DNA结合结构域和HP1或HPC2的编码区的LexA-阻抑物融合蛋白,和
其中所述细胞包含一个质粒,其包含克隆到所述质粒中的多接头序列中的具有转录调节特性的DNA片段,所述多接头序列位于4个LexA操纵子位点和控制zeocin抗性基因的SV40启动子之间,且其中
如果不是存在所述具有转录调节特性的DNA片段,所述zeocin抗性基因将会因为LexA-阻抑物融合蛋白的表达而被抑制。
2、一种DNA构建体,其具有权利要求1的核酸序列。
3、权利要求2的DNA构建体,包含与感兴趣的核酸可操纵地连接的启动子。
4、权利要求3的DNA构建体,其中具有感兴趣的核酸的启动子侧翼有权利要求1的核酸序列。
5、权利要求1的DNA序列在调节感兴趣的核酸的转录中的应用。
6、在细胞中生产基因产物的方法,包括提供一种表达盒,所述表达盒包含:
i)感兴趣的基因和
ii)权利要求1的DNA序列,
并使所述表达盒在细胞中转录。
7、权利要求6的方法,其中所述感兴趣的基因侧翼有权利要求1的DNA序列。
8、包含权利要求3或权利要求4的DNA构建体的宿主细胞。
CNB028135717A 2001-07-04 2002-06-14 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法 Expired - Lifetime CN1266282C (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP01202581.3 2001-07-04
EP01202581A EP1273666A1 (en) 2001-07-04 2001-07-04 Method of selecting a DNA sequence with transcription modulating activity using a vector comprising an element with a gene transcription repressing activity
US30319901P 2001-07-05 2001-07-05
US60/303,199 2001-07-05
US10/190,312 US7192741B2 (en) 2001-07-04 2002-07-05 DNA sequences comprising gene transcription regulatory qualities and methods for detecting and using such DNA sequences

Publications (2)

Publication Number Publication Date
CN1524128A CN1524128A (zh) 2004-08-25
CN1266282C true CN1266282C (zh) 2006-07-26

Family

ID=47915807

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028135717A Expired - Lifetime CN1266282C (zh) 2001-07-04 2002-06-14 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法

Country Status (22)

Country Link
US (9) US7192741B2 (zh)
EP (8) EP1600510B1 (zh)
JP (3) JP4500044B2 (zh)
KR (2) KR100942117B1 (zh)
CN (1) CN1266282C (zh)
AT (8) ATE466943T1 (zh)
AU (3) AU2002314629B2 (zh)
BR (1) BRPI0210771B8 (zh)
CA (2) CA2450020C (zh)
CY (1) CY1107678T1 (zh)
DE (8) DE60236331D1 (zh)
DK (8) DK1829971T3 (zh)
ES (8) ES2285630T3 (zh)
HK (1) HK1068652A1 (zh)
IL (4) IL159674A0 (zh)
MX (1) MXPA03011801A (zh)
NO (1) NO338477B1 (zh)
NZ (1) NZ530218A (zh)
PT (1) PT1600510E (zh)
SG (1) SG143066A1 (zh)
WO (1) WO2003004704A2 (zh)
ZA (1) ZA200309599B (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60236331D1 (de) 2001-07-04 2010-06-17 Chromagenics Bv DNS-Sequenzen mit Anti-Repressor-Aktivität
CA2723500C (en) 2002-06-14 2014-10-28 Chromagenics B.V. A method for simultaneous production of multiple proteins; vectors and cells for use therein
WO2003106674A2 (en) * 2002-06-14 2003-12-24 Chromagenics B.V. Means and methods for regulating gene expression
ES2368733T3 (es) 2002-07-18 2011-11-21 Merus B.V. Producción recombinante de mezclas de anticuerpos.
USRE47770E1 (en) 2002-07-18 2019-12-17 Merus N.V. Recombinant production of mixtures of antibodies
NZ540471A (en) 2002-12-18 2008-07-31 Chromagenics Bv A method for improving protein production
AU2003290453A1 (en) 2002-12-20 2004-07-14 Chromagenics B.V. Means and methods for producing a protein through chromatin openers that are capable of rendering chromatin more accessible to transcription factors
US20100069614A1 (en) 2008-06-27 2010-03-18 Merus B.V. Antibody producing non-human mammals
CA2527694C (en) 2003-05-30 2015-07-14 Hendricus Renerus Jacobus Mattheus Hoogenboom Fab library for the preparation of anti vegf and anti rabies virus fabs
DK1670925T3 (da) 2003-10-02 2013-07-08 Crucell Holland Bv Pakningsceller til rekombinat adenovirus
WO2005059149A2 (en) * 2003-12-12 2005-06-30 Chromagenics B.V. Improved protein production
EP1737971B1 (en) 2004-01-20 2017-08-16 Merus N.V. Mixtures of binding proteins
PT1763586E (pt) * 2004-07-08 2008-02-25 Chromagenics Bv Nova sequência para melhorar a expressão de ácido nucleico
EP1786908B1 (en) * 2004-08-18 2010-03-03 Bayer CropScience AG Plants with increased plastidic activity of r3 starch-phosphorylating enzyme
SI1809750T1 (sl) * 2004-11-08 2012-08-31 Chromagenics Bv Izbira gostiteljskih celic, ki imajo visok nivo izraĹľanja proteina
US20100136616A1 (en) * 2004-11-08 2010-06-03 Chromagenics B.V. Selection of Host Cells Expressing Protein at High Levels
CA2581422C (en) 2004-11-08 2012-05-22 Chromagenics B.V. Selection of host cells expressing protein at high levels
US8999667B2 (en) 2004-11-08 2015-04-07 Chromagenics B.V. Selection of host cells expressing protein at high levels
US8039230B2 (en) 2004-11-08 2011-10-18 Chromagenics B.V. Selection of host cells expressing protein at high levels
US20060195935A1 (en) * 2004-11-08 2006-08-31 Chromagenics B.V. Selection of host cells expressing protein at high levels
CA2587712C (en) * 2004-11-18 2013-02-12 National University Of Corporation Hiroshima University Method and kit for expressing protein under regulation of the expression from repeated sequence formed by gene amplification and transformant
US7968700B2 (en) 2006-03-20 2011-06-28 Chromagenics B.V. Expression augmenting DNA fragments, use thereof, and methods for finding thereof
US20080124760A1 (en) 2006-07-26 2008-05-29 Barbara Enenkel Regulatory Nucleic Acid Elements
US20090142805A1 (en) * 2007-01-08 2009-06-04 Millipore Corporation High expression cell line that eliminates gene amplification
DK2443239T3 (en) 2009-06-15 2016-02-15 Cellagenics B V New stringent selection markers
US8566596B2 (en) 2010-08-24 2013-10-22 Cisco Technology, Inc. Pre-association mechanism to provide detailed description of wireless services
DK2611915T3 (da) 2010-09-01 2015-06-22 Cellagenics B V Nukleinsyrefragmenter fra en ribosomal proteinpromoter til forstærkning af genekspression
MX360109B (es) 2012-04-20 2018-10-23 Merus Nv Metodos y medios para la produccion de moleculas de tipo ig.
US11180572B2 (en) 2012-07-06 2021-11-23 Genmab B.V. Dimeric protein with triple mutations
SI2900694T1 (sl) 2012-09-27 2018-12-31 Merus N.V. Bispecifična IGG protitelesa kot vključitelji T-celic
US10417380B1 (en) 2013-12-31 2019-09-17 Mckesson Corporation Systems and methods for determining and communicating a prescription benefit coverage denial to a prescriber
US10489552B2 (en) 2014-02-14 2019-11-26 Mckesson Corporation Systems and methods for determining and communicating patient incentive information to a prescriber
NZ724013A (en) 2014-02-28 2019-11-29 Merus Nv Antibodies that bind egfr and erbb3
IL301147A (en) 2014-02-28 2023-05-01 Merus Nv An antibody that binds to ErbB-2 and ErbB-3
US10157262B1 (en) 2015-03-10 2018-12-18 Mckesson Corporation Systems and methods for determining patient financial responsibility for multiple prescription products
CN108026174B (zh) 2015-07-10 2023-02-17 美勒斯公司 人cd3结合抗体
AU2016340764B2 (en) 2015-10-23 2023-06-01 Fundació lnstitut de Recerca Biomèdica (IRB Barcelona) Binding molecules that inhibit cancer growth
US11514137B1 (en) 2016-03-30 2022-11-29 Mckesson Corporation Alternative therapy identification system
US10999224B1 (en) 2017-02-01 2021-05-04 Mckesson Corporation Method and apparatus for parsing an electronic message and constructing multiple differently prioritized messages therefrom
EP3600413A1 (en) 2017-03-31 2020-02-05 Merus N.V. Erbb-2 and erbb3 binding bispecific antibodies for use in the treatment f cells that have an nrg1 fusion gene
MX2020001432A (es) 2017-08-09 2020-03-20 Merus Nv Anticuerpos que se unen al receptor del factor de crecimiento epidermico (egfr) y tirosina-proteina cinasa met (cmet).
US10862832B1 (en) 2018-07-24 2020-12-08 Mckesson Corporation Computing system and method for automatically reversing an action indicated by an electronic message
US11043437B2 (en) 2019-01-07 2021-06-22 Applied Materials, Inc. Transparent substrate with light blocking edge exclusion zone
US11562437B1 (en) 2019-06-26 2023-01-24 Mckesson Corporation Method, apparatus, and computer program product for providing estimated prescription costs
US11636548B1 (en) 2019-06-26 2023-04-25 Mckesson Corporation Method, apparatus, and computer program product for providing estimated prescription costs
EP3772518A1 (en) 2019-08-07 2021-02-10 Merus N.V. Modified human variable domains
WO2021155369A1 (en) * 2020-01-31 2021-08-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to identify genetic silencers and applications thereof
US11610240B1 (en) 2020-02-17 2023-03-21 Mckesson Corporation Method, apparatus, and computer program product for partitioning prescription transaction costs in an electronic prescription transaction
IL298394A (en) 2020-05-21 2023-01-01 Merus Nv Methods and means for producing ig-like molecules
US11587657B2 (en) 2020-09-04 2023-02-21 Mckesson Corporation Method, apparatus, and computer program product for performing an alternative evaluation procedure in response to an electronic message

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US719271A (en) * 1902-01-13 1903-01-27 Solomon P Smith Furnace.
US5610053A (en) 1993-04-07 1997-03-11 The United States Of America As Represented By The Department Of Health And Human Services DNA sequence which acts as a chromatin insulator element to protect expressed genes from cis-acting regulatory sequences in mammalian cells
US5972605A (en) * 1994-07-07 1999-10-26 Geron Corporation Assays for regulators of mammalian telomerase expression
EP0818536A4 (en) * 1995-03-24 2000-09-06 Shionogi & Co DNA MOLECULE DRAWN ON THE SUPPRESSION OF THE GENE EXPRESSION AND CORRESPONDING PROTEIN
DE19539493A1 (de) * 1995-10-24 1997-04-30 Thomae Gmbh Dr K Starker homologer Promotor aus Hamster
US5773695A (en) 1996-01-26 1998-06-30 North Carolina State University Plant nuclear scaffold attachment region and method for increasing gene expression in transgenic cells
US6037525A (en) * 1996-08-01 2000-03-14 North Carolina State University Method for reducing expression variability of transgenes in plant cells
US5888809A (en) 1997-05-01 1999-03-30 Icos Corporation Hamster EF-1α transcriptional regulatory DNA
WO2000005393A2 (en) 1998-07-21 2000-02-03 Cobra Therapeutics Limited A polynucleotide comprising a ubiquitous chromatin opening element (ucoe)
ATE370247T1 (de) * 1998-08-14 2007-09-15 Chromagenics Bv Dns sequenz, verfahren für dessen nachweis und herstellung und ihre benutzung
US6521419B1 (en) 1998-09-22 2003-02-18 Kanakaraju Koduri Expression vectors containing hot spot for increased recombinant protein expression in transfected cells
US6800457B2 (en) 1998-09-22 2004-10-05 Bristol-Myers Squibb Company Expression vectors containing hot spot for increased recombinant protein expression in transfected cells
AU1128400A (en) 1998-10-22 2000-05-08 Medical College Of Georgia Institute, Inc. Long terminal repeat, enhancer, and insulator sequences for use in recombinant vectors
AU784506B2 (en) * 1999-08-25 2006-04-13 Immunex Corporation Compositions and methods for improved cell culture
US20030166042A1 (en) 2000-02-11 2003-09-04 Millennium Pharmaceuticals, Inc. Novel seven-transmembrane proteins/G-protein coupled receptors
US6586205B1 (en) 2000-02-11 2003-07-01 Millennium Pharmaceuticals, Inc. 43239 a novel GPCR-like molecule and uses thereof
EP1430124B1 (en) 2000-09-20 2013-11-06 EMD Millipore Corporation Artificial ubiquitous chromatin opening elements (ucoe)
DE60236331D1 (de) 2001-07-04 2010-06-17 Chromagenics Bv DNS-Sequenzen mit Anti-Repressor-Aktivität
EP1273666A1 (en) 2001-07-04 2003-01-08 Chromagenics B.V. Method of selecting a DNA sequence with transcription modulating activity using a vector comprising an element with a gene transcription repressing activity
CA2723500C (en) * 2002-06-14 2014-10-28 Chromagenics B.V. A method for simultaneous production of multiple proteins; vectors and cells for use therein
WO2003106674A2 (en) 2002-06-14 2003-12-24 Chromagenics B.V. Means and methods for regulating gene expression
NZ540471A (en) 2002-12-18 2008-07-31 Chromagenics Bv A method for improving protein production
AU2003290453A1 (en) 2002-12-20 2004-07-14 Chromagenics B.V. Means and methods for producing a protein through chromatin openers that are capable of rendering chromatin more accessible to transcription factors

Also Published As

Publication number Publication date
US20070037256A1 (en) 2007-02-15
AU2002314629B2 (en) 2007-08-30
AU2007234619A1 (en) 2007-12-13
EP1600510B1 (en) 2007-03-28
US7192741B2 (en) 2007-03-20
EP1829972B1 (en) 2010-05-12
PT1600510E (pt) 2007-06-25
EP1829971A3 (en) 2008-06-04
US20070031934A1 (en) 2007-02-08
EP1806407B1 (en) 2010-05-05
EP1829971A1 (en) 2007-09-05
ATE474053T1 (de) 2010-07-15
KR20090037485A (ko) 2009-04-15
DK1808488T3 (da) 2010-10-18
JP4500044B2 (ja) 2010-07-14
NO338477B1 (no) 2016-08-22
CY1107678T1 (el) 2013-04-18
ES2285630T3 (es) 2007-11-16
DK1842919T3 (da) 2010-08-16
EP1842919B1 (en) 2010-05-05
DE60237048D1 (de) 2010-08-26
DE60215502T2 (de) 2007-08-30
ATE466941T1 (de) 2010-05-15
EP1404872B1 (en) 2006-10-18
KR100942117B1 (ko) 2010-02-12
ES2274045T3 (es) 2007-05-16
US20070031936A1 (en) 2007-02-08
JP2010131024A (ja) 2010-06-17
ATE467682T1 (de) 2010-05-15
JP2004533262A (ja) 2004-11-04
NZ530218A (en) 2005-09-30
EP1808488A3 (en) 2007-11-14
CA2450020C (en) 2013-08-13
EP1829972A2 (en) 2007-09-05
HK1068652A1 (en) 2005-04-29
KR100942116B1 (ko) 2010-02-12
US7662591B2 (en) 2010-02-16
DK1845162T3 (da) 2010-08-16
ATE466942T1 (de) 2010-05-15
DE60236334D1 (de) 2010-06-17
US7659094B2 (en) 2010-02-09
AU2011202193B2 (en) 2011-09-29
DE60236333D1 (de) 2010-06-17
BR0210771A (pt) 2004-07-13
MXPA03011801A (es) 2005-03-07
ES2344074T3 (es) 2010-08-17
DK1404872T3 (da) 2007-02-19
BRPI0210771B1 (pt) 2015-12-22
ZA200309599B (en) 2006-05-31
EP1845162B1 (en) 2010-05-05
EP1808488A2 (en) 2007-07-18
US20070128717A1 (en) 2007-06-07
US20030199468A1 (en) 2003-10-23
ES2344072T3 (es) 2010-08-17
IL193373A (en) 2010-12-30
NO20040011L (no) 2004-03-03
DK1806407T3 (da) 2010-08-16
EP1829972A3 (en) 2007-10-24
ATE466943T1 (de) 2010-05-15
US7749733B2 (en) 2010-07-06
CA2812799C (en) 2016-01-26
EP1808488B1 (en) 2010-07-14
IL159674A0 (en) 2004-06-20
CN1524128A (zh) 2004-08-25
EP1600510A3 (en) 2006-02-22
JP5014443B2 (ja) 2012-08-29
US7736870B2 (en) 2010-06-15
ES2348174T3 (es) 2010-11-30
EP1842919A1 (en) 2007-10-10
DE60219221T2 (de) 2008-01-03
EP1404872A2 (en) 2004-04-07
EP1600510A2 (en) 2005-11-30
KR20090037960A (ko) 2009-04-16
DE60236379D1 (de) 2010-06-24
US20070026499A1 (en) 2007-02-01
JP5014444B2 (ja) 2012-08-29
US7736868B2 (en) 2010-06-15
US20070026498A1 (en) 2007-02-01
AU2011202193A1 (en) 2011-06-02
WO2003004704A2 (en) 2003-01-16
ES2344073T3 (es) 2010-08-17
IL159674A (en) 2009-02-11
US7655441B2 (en) 2010-02-02
US20070031935A1 (en) 2007-02-08
ES2344071T3 (es) 2010-08-17
CA2450020A1 (en) 2003-01-16
ATE343004T1 (de) 2006-11-15
EP1845162A1 (en) 2007-10-17
EP1806407A3 (en) 2008-06-04
DE60215502D1 (de) 2006-11-30
ATE358183T1 (de) 2007-04-15
SG143066A1 (en) 2008-06-27
US7736869B2 (en) 2010-06-15
EP1829971B1 (en) 2010-05-05
JP2010131025A (ja) 2010-06-17
IL193374A (en) 2010-12-30
DK1600510T3 (da) 2007-06-25
ATE466944T1 (de) 2010-05-15
US7951586B2 (en) 2011-05-31
ES2344070T3 (es) 2010-08-17
DE60236331D1 (de) 2010-06-17
US20070031933A1 (en) 2007-02-08
CA2812799A1 (en) 2003-01-16
DK1829972T3 (da) 2010-09-13
DE60219221D1 (de) 2007-05-10
EP1806407A2 (en) 2007-07-11
DE60236332D1 (de) 2010-06-17
WO2003004704A3 (en) 2003-10-16
AU2007234619B2 (en) 2011-06-02
DK1829971T3 (da) 2010-08-16
BRPI0210771B8 (pt) 2021-05-25

Similar Documents

Publication Publication Date Title
CN1266282C (zh) 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法
US7794977B2 (en) Means and methods for regulating gene expression
EP1513937B1 (en) A method for the stimultaneaous production of multiple proteins; vectors and cells for use therein
CN1416467A (zh) 锌指结构域及其鉴定方法
CN101068929A (zh) 参与植物纤维发育的多核苷酸和多肽和使用它们的方法
JP2004533262A5 (zh)
CN1798843A (zh) 植物中细胞分裂素活性的调节
CN101040050A (zh) 具有改良生长特性的植物及其制备方法
CN1289522C (zh) 锌指结构域文库
CA2812821C (en) Dna sequences comprising gene transcription regulatory qualities and methods for detecting and using such dna sequences
CN1788078A (zh) 细胞增殖、发育分化受到改变的植物细胞和植物
CN1950503A (zh) 用修饰的dreb2a基因调节植物中的环境胁迫耐受
CN1898382A (zh) 基因组dna片段的筛选方法
CN1766118A (zh) 转录水平沉默的植物基因
CN1617732A (zh) 调节基因表达的核被膜和核纤层结合嵌合体
AU2011218621B2 (en) A method for simultaneous production of multiple proteins; vectors and cells for use therein
AU2008202251B2 (en) A method for simultaneous production of multiple proteins; vectors and cells for use therein
CN1764722A (zh) 环amp效应元件激活蛋白及其相关用途
Class et al. Patent application title: Method for simultaneous production of multiple proteins; vectors and cells for use therein Inventors: Arie Pieter Otte (Amersfoort, NL) Arie Pieter Otte (Amersfoort, NL) Arthur Leo Kruckeberg (Shoreline, WA, US) Richard George Antonius Bernardus Sewalt (Arnhem, NL) Assignees: Crucell Holland BV

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1068652

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20060726

CX01 Expiry of patent term