CN1266282C

CN1266282C - 包含基因转录调节特性的dna序列及检测和应用这些dna序列的方法

Info

Publication number: CN1266282C
Application number: CNB028135717A
Authority: CN
Inventors: 阿里·彼得·奥特; 阿图尔·莱奥·克鲁克贝格
Original assignee: Chromagenics BV
Current assignee: Chromagenics BV
Priority date: 2001-07-04
Filing date: 2002-06-14
Publication date: 2006-07-26
Anticipated expiration: 2022-06-14
Also published as: US20070037256A1; AU2002314629B2; AU2007234619A1; EP1600510B1; US7192741B2; EP1829972B1; PT1600510E; EP1829971A3; US20070031934A1; EP1806407B1; EP1829971A1; ATE474053T1; KR20090037485A; DK1808488T3; JP4500044B2; NO338477B1; CY1107678T1; ES2285630T3; DK1842919T3; EP1842919B1

Abstract

本发明涉及调节序列的系统说明及鉴别。本发明提供了可以鉴别调节序列的筛选和检测方法。本发明还提供了调节序列及其在各种领域中的应用，例如但不限于蛋白质生产、诊断、转基因植物及动物，及治疗领域。

Description

包含基因转录调节特性的DNA序列及检测和应用这些DNA序列的方法

本发明涉及医药和细胞生物学领域。本发明特别涉及调节基因转录的方式和方法。本发明还涉及确定一种DNA序列是否包含基因转录调节特性(gene transcription modulating quality)和/或基因转录阻抑特性(gene transcription repressing quality)的方式和方法。

随着各种基因组计划的进展，已经可以获得完整生物体基因组的序列。数据的涌现引起许多研究人员的兴趣。更值得注意的发现之一是观测到与简单生物体如果蝇基因组相比，人基因组不编码明显更多的基因。现在许多研究人员的注意力从基因的鉴别转变为确定基因表达和基因功能。这种技术的例子是DNA微阵列(microarrays)，功能基因组学应用及蛋白质组学。这些技术的共同之处是围绕编码序列的功能和表达这个中心。然而，尽管我们对基因的了解急剧地增加，但对基因表达是如何被调节的了解限制了应用这种快速增加的知识的能力。例如在转基因植物和动物的产生和人体基因治疗的情况中。在这些应用中，外源核酸典型地被导入细胞中以获得编码序列的表达。通常外源核酸整合入细胞的基因组中是导入的序列功能延伸所必需的。然而，序列导入基因组中导致不可预测的表达，因为周围的DNA影响整合的序列的转录。这种不可预测性部分是由于至今仍不能提供具有足够遗传信息的导入序列以从周围DNA的影响转录作用中功能性分离整合的序列。另一方面是由于对周围DNA影响转录作用的了解不足。

本发明涉及具有顺式(in cis)影响基因转录能力的DNA序列。典型地，尽管不是必需地，所研究的序列本身不编码一种功能蛋白。已经鉴别了多种具有顺式影响基因转录能力的序列元件。这些元件的范围从启动子，增强子和沉默子到边界元件和基质附着区。

已经发现如此众多不同类型的调节序列这个事实给人以设计有效表达盒非常容易这一印象。然而，事实正相反。表达盒的设计仍常常通过反复试验而进行。获得外源基因在靶细胞或其子代中表达是十分可能的，然而，通常难以精确预测表达盒在靶细胞中展示的表达水平或表达持续性。

本发明提供了检测及分离新的转录调节元件的方式和方法。本发明提供了一种检测及任选地选择具有基因转录调节特性的DNA序列的方法，包括将多种包含片段的载体提供给一种转录系统，所述载体包含i)具有基因转录阻抑特性的一个元件，及ii)指导报道基因转录的一个启动子，所述方法还包括在所述转录系统中进行一个选择步骤，以鉴别具有所述基因转录调节特性的所述DNA序列。在一个优选的实施方案中，所述片段位于i)具有基因转录阻抑特性的所述元件和ii)指导所述报道基因转录的启动子之间。RNA聚合酶在与一个称为启动子的特异序列结合后引发转录过程，该序列代表RNA合成开始的位置。一种调节特性可以在给定的细胞类型和/或给定的启动子中增强从所述启动子的顺式转录。相同的DNA序列可以包含在一种细胞类型中或用一种启动子类型的增强特性，其也可以包含在另一种细胞类型中或用另一种类型启动子的另一种基因转录调节特性或没有这种基因转录调节特性。转录可以通过调节元件(或与其结合的一或多个蛋白质)对特定启动子的转录的直接作用而影响。然而，转录也可以通过间接作用而影响，例如因为调节元件影响一或多个其它调节元件的功能而间接影响转录。基因转录调节特性也可以包括一种稳定的基因转录性质。稳定是指观测的转录水平在经过至少30次细胞分裂后不明显改变。稳定特性在经过多次细胞分裂后表达特征应可预测的情况中有用。典型的实例是用外源基因转染的细胞系。其它实例是转基因动物和植物及基因治疗。通常，导入的表达盒功能在细胞分裂或植物或动物传代次数增加之后发生变化。在一个优选的实施方案中，稳定特性包括在转基因植物或动物的随后代次中保持基因转录的能力。当然在表达是可诱导的情况中，所述特性包括在转基因植物或动物的随后代次中保持可诱导性的特性。表达水平通常随着细胞分裂次数增加而急剧降低。用本发明的方法可以检测及任选地选择一种DNA序列，该序列能至少部分阻止转录水平随着细胞分裂数目增加而急剧降低。因此，在一个优选的实施方案中，所述基因转录调节特性包括一种稳定的基因转录特性。引人注目地，尽管所述方法不必测定转录的长期稳定性，但使用本发明的方法可以检测及任选地选择包含具有所述稳定的基因转录特性的DNA序列的片段。在本发明的一个优选实施方案中，所述基因转录调节特性包括一种稳定的基因转录增强特性。已经观测到在一具有感兴趣基因的表达载体中掺入具有基因转录调节特性的一个DNA序列，在表达载体整合入细胞基因组时导致所述感兴趣基因以更高水平转录，另外所述更高的基因表达水平也比不存在所述具有基因转录调节特性的DNA序列时更稳定。

在设计将感兴趣基因导入细胞基因组中及获得所述感兴趣基因表达的实验中，观测到以下结果。如果与所述感兴趣基因一起导入具有基因转录调节特性的一个DNA序列，可以检测到更多的克隆，所述克隆与所述DNA序列未与所述感兴趣基因一起导入的情况相比表达多于一定量的所述感兴趣基因的产物。因此，本发明还提供了一种在将所述感兴趣基因提供给所述细胞基因组时，增加表达多于一定水平的感兴趣基因的产物的细胞数目的方法，所述方法包括将包含基因转录调节特性的一个DNA序列与所述感兴趣基因一起提供给所述细胞。

检测具有基因转录调节特性的片段的可能性随着衍生片段的来源而变化。典型地，现有技术中没有关于具有所述特性的片段存在或不存在的认识。在那些情况中，许多片段不包含具有基因转录调节特性的DNA序列。在这些情况中，导入一个正规选择步骤，选择具有所述特性的DNA序列。这通过基于所述报道基因产物的可以正面或反面选择的特征而选择包含所述序列的载体而进行。例如，所述基因产物可以诱导荧光或颜色沉积(例如绿色荧光蛋白及衍生物，萤光素酶，或碱性磷酸酶)或者赋予抗生素抗性或诱导细胞程序死亡及细胞死亡。

本发明的方法特别适于检测及任选地选择一种DNA序列，所述DNA序列包含一种基因转录增强特性。已经观测到当至少一些所选择的DNA序列被掺入到包含感兴趣基因的表达载体中时，它们可以明显增加所述感兴趣基因在宿主细胞中的基因转录水平，甚至当载体不包含具有基因转录阻抑特性的一种元件时也是如此。这种基因转录增强特性在用外源基因转染的细胞系中或在转基因动物和植物中非常有用。

所述转录系统可以是一种无细胞体外转录系统。使用当前的自动化专业技术，这种无细胞系统可以是精确及快速的。然而就本发明而言，所述转录系统优选包含宿主细胞。使用宿主细胞可以保证检测及任选地选择的片段在细胞中是活性的。

在本发明的一种方法中，具有基因转录阻抑特性的一种元件在所使用的转录系统中阻抑从启动子的转录。所述阻抑作用不一定导致不可检测的表达水平。重要的是在存在或不存在阻抑的情况中表达水平的不同是可检测的及任选地可选择的。在一个优选的实施方案中，所述载体中的基因转录阻抑产生基因转录阻抑染色质。在这个优选的实施方案中，可以检测及任选地选择能至少部分抵消基因转录阻抑染色质形成的DNA序列。一方面，能至少部分抵消基因转录阻抑染色质形成的DNA序列包括一种稳定的基因转录特性。在一个优选的实施方案中，参与基因转录阻抑的DNA序列是由一种蛋白质复合物识别的一种DNA序列，其中所述转录系统包含所述复合物。优选所述复合物包含一种异染色质结合蛋白(包括HP1)，一种Polycomb-group(Pc-G)蛋白，一种组蛋白脱乙酰酶活性或MeCP2(甲基-CpG-结合蛋白)。许多生物体包含一或多种这些蛋白质。这些蛋白质在其它物种中也常呈现活性。所述复合物因此也可以包含来自两或多个物种的蛋白质。所述的已知染色质相关蛋白复合物能在许多碱基对上传达远程的阻抑。所述复合物也参与在细胞分裂时将基因的受阻抑状态稳定移至子细胞。以此方式选择的序列能在许多碱基对上传达远程的抗阻抑(van der Vlag等，2000)。

所使用的载体可以是适于克隆DNA及可用于转录系统中的任何载体。当使用宿主细胞时，优选所述载体是一种附加型复制载体。以这种方式，避免了不同的载体整合位点的影响。在载体整合位点两侧的DNA元件可对启动子的转录水平有作用，从而模拟包含具有基因转录调节特性的DNA序列的片段的作用。在一个优选的实施方案中，所述载体包含一个来自Epstein-Barr病毒(EBV)的复制起点OriP，及一个核抗原(EBNA-1)。这种载体在合适条件下能在许多类型的真核细胞中复制，并装配成染色质。

本发明的另一方面提供了一种DNA序列，其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物；或者ii)一种合成的DNA序列或者通过基因工程构建的DNA序列，该DNA序列是可以通过本发明方法检测、选择及任选地克隆的一种阻抑抑制序列。本发明的另一方面提供了一种DNA序列，其包含i)分离自植物或脊椎动物的一种DNA序列或其衍生物；或者ii)一种合成的DNA序列或者通过基因工程构建的DNA序列，该DNA序列通过本发明方法检测、选择及任选地克隆。优选地，所述DNA序列包括表4A所示序列或其功能同系物。表4所示的一个序列的功能同系物是用表4(表4A或4B)所提供的信息衍生的一个序列。例如，一个序列可以通过在表4所示序列中或从其缺失，修饰和/或插入碱基而衍生自表4的序列，其中所述衍生的序列包含与表4所示序列性质相同的活性，但非必需在数量上相同。功能同系物还可以是一种序列，其包含来自表4所示两或多个序列的一部分。合成的DNA序列是一种不是直接或间接衍生自生物体中存在的一种序列的序列。例如，包含果蝇scs或scs′序列的一种序列不是合成序列，即使当所述scs或scs’序列是人工产生时也是如此。

在一个方面中，本发明涉及更高级基因调节的更多知识，及利用这些知识的方式和方法。尽管已经鉴定了一些指导及调节单个基因转录的元件如传统的启动子及增强子，但对控制完整染色体区域的基因转录能力的更高级调节元件还未给予更多关注。关于这种更高级元件的大多数知识来自对胚胎发生的研究。在胚胎发生期间，细胞变为定向至不同的发育途径。一旦定向，细胞几乎很少改变其命运，即使在多次细胞分裂之后也是如此。

越来越认识到细胞类型特异性基因转录模式的稳定传递不依赖于启动子，而是通过DNA及相关蛋白(称为染色质)结构的变化介导。在染色体水平的基因调节包括DNA修饰(例如甲基化)，组蛋白(例如乙酰化和/或甲基化)，及远缘染色体元件之间的远程相互作用。

染色质模板是DNA，组蛋白及非组蛋白蛋白质的一种高度浓缩的复合物，其能将全部基因组包装入细胞核中，同时使特异基因合适地转录。真核染色体不是激活基因转录的统一模板。不同类型的染色质和染色质区域可以区分开，其有差异地影响基因转录。所谓的异染色质区域据认为是“闭合的”染色质结构，而常染色质与一种更扩散及“开放的”染色质结构相关。常染色质区域可以进行结构改变，产生浓缩性更大或更小的结构，称作兼性异染色质及常染色质。兼性常染色质或异染色质的形成据信代表染色质介导的基因调节的根本机制，其以细胞类型特异性方式保持基因处于激活或阻抑状态。

在所有真核细胞中，已经鉴别出若干染色质相关蛋白复合物参与保持细胞类型特异性，其中之一是Polycomb group(PcG)复合物。PcG复合物参与基因的稳定阻抑，其中染色质结构的变化据信起重要作用。相似地，称为trithorax group(TrG)的另一类蛋白质已经鉴别为能抵消PcG蛋白的作用。TrG蛋白参与保持基因转录。基于它们各自的作用模式，PcG和TrG蛋白因此代表一种细胞记忆系统，其对基因转录模式的可遗传传递很重要。

PcG及TrG复合物怎样与其靶基因相关联仍未知。遗传研究已经鉴定了保持基因处于转录失活状态的顺式作用调节序列。由这些顺式作用调节序列介导的沉默依赖于存在功能性PcG蛋白，因此这些序列称为PcG效应元件(PRE)。经鉴别这些序列参与PcG介导的染色质阻抑。然而迄今为止，(在脊椎动物和植物中)还未发现包含介导染色质阻抑所需的全部序列信息的完整PRE。

另外，迄今为止还未能以相干方式研究具有远程阻抑能力的序列。这很大程度上是由于不能系统筛选这类远程作用序列所致。一方面，本发明提供了系统检测DNA中的这类序列的方式和方法。在一个实施方案中，本发明提供了一种鉴别具有基因转录阻抑特性的DNA序列的方法，包括：

—提供测试核酸的集合；

—产生表达载体的集合，所述表达载体包含测试核酸和在一启动子转录控制下的第一种报道基因；

—将所述表达载体集合提供给细胞；

—选择一种细胞或其含有载体的子代，其中所述第一种报道基因的转录被阻抑；及

—在所述细胞中鉴别所述测试核酸。

所述鉴别的测试核酸包含阻抑所述启动子功能的能力，并因此包含一种基因转录阻抑特性。优选地，所述鉴别的测试核酸也被回收及克隆。所述特性至少部分包括当与所述启动子物理连接时，与不存在具有所述特性的DNA序列时的水平相比能降低从所述启动子的转录水平的能力。在一个优选的实施方案中，所述基因转录阻抑特性包含一种基因转录阻抑染色质特性，即其中所述转录水平降低是具有基因转录阻抑构型的染色质所致。这种构型优选包含所述启动子。然而，所述构型还可以包含一种增强子或类似物从而至少部分失活所述增强子对所述启动子的转录增强作用。在一个特别优选的实施方案中，具有基因转录阻抑染色质特性的所述DNA序列包含一个类polycombgroup效应元件(polycomb-group-like responsive element)。

使用上述方法可以回收一些核酸序列，所述核酸序列具有降低启动子的转录水平的能力，因此这些核酸序列包括基因转录阻抑特性。具有相似功能的序列可以相互对比序列相似性，由此可以推导出具有基因转录阻抑特性元件的一或多个共有序列，如类polycomb group效应元件。另外，考虑到已知生物体基因组的全部序列而且不久将更加了解，因此可以筛选这些基因组或其部分，并预测这些序列在基因组中的出现。对具有基因转录调节特性和/或基因转录阻抑特性的DNA序列在基因组中的出现和位置的认知将极大地增加对基因组中更高级(higher order)基因转录调节的认知。

Polycomb-group效应元件是能通过应答一或多个Polycomb group蛋白与所述元件直接和/或间接相互作用而阻抑启动子转录的一种元件。类Polycomb-group效应元件是一种Polycomb-group效应元件，或者是能通过一或多种蛋白质与所述元件的直接和/或间接相互作用而阻抑启动子转录的一种元件，其中所述一或多种蛋白质不属于Polycomb-group，但其中作为所述相互作用的结果形成了基因转录阻抑染色质。这类蛋白质的例子是染色质相关蛋白如异染色质蛋白(HP1)(Eisenberg等，1990)。阻抑基因活性的另一种染色质相关蛋白是甲基-CpG-结合蛋白，MeCP2(Nan等，1997)。在一个优选的实施方案中，本发明的类Polycomb-group效应元件包括长距离阻抑启动子转录的能力，优选在超过2000个碱基对的距离内(Vlag等，2000)。

测试核酸的集合可以通过许多方式产生。使用人工序列作为测试核酸，可以获得具有基因转录阻抑特性的共有序列。不同的特性可以包含不同的共有序列。优选地，所述集合产生自染色体DNA。以此方式，可发现包含在染色体中天然存在的序列的一种基因转录阻抑特性。这样的优势是这些特性在染色体中的位置可以确定，因此可以确定其对更高级基因转录的影响。

报道基因是编码一种表达产物的一种基因，所述表达产物的存在可以在细胞中直接或间接地检测到。在检测基因转录阻抑特性的方法中，表达载体转移至细胞中会导致所述报道基因的表达。然而，在测试核酸包含一种基因转录阻抑特性如类Polycomb-group效应元件时，在所述细胞中的表达将会被抑制，从而导致所述报道基因的表达至少部分降低。能阻抑所述启动子转录的核酸的存在与否因此可通过在所述细胞中检测所述表达产物而检测，从而检测量降低或未检测到表示存在基因转录阻抑特性。报道基因可以编码一种荧光报道蛋白，因此通过荧光测定方法例如在流式细胞计量仪中可以检测降低的表达。显示没有荧光或低荧光的细胞可以使用荧光活性细胞分选仪分选，表达载体和/或测试核酸例如通过扩增反应而从中分离。优选地，所述第一种报道基因包含一种可选择的报道基因，其表达直接或间接为所述细胞提供与不表达或低水平表达所述第一种报道基因的细胞相比的一种生长劣势。在筛选具有基因转录阻抑特性的DNA序列时，优选地，所述第一种报道基因的表达对所述细胞有直接或间接毒性。这种毒性表达产物的非限制性实例是蓖麻毒蛋白或其毒性变体。在另一个实例中，所述第一种报道基因编码一种诱导细胞程序死亡的基因产物。优选地，所述诱导细胞程序死亡的基因产物包含腺病毒13S E1A或其功能等价物(Breckenridge和Shore，2000)。在另一个实施方案中，所述诱导细胞程序死亡的基因产物包括细胞凋亡素(apoptin)或其功能等价物(Pietersen和Noteborn，2000)。

另一个实例是编码所谓自杀产物如单纯疱疹病毒胸苷激酶(HSV-tk)的一种基因。将丙氧鸟苷(gancyclovir)加入表达HSV-tk的细胞培养物中会导致在这些细胞中形成一种毒性物质并因此杀死这些细胞。在一个特别优选的实施方案中，所述自杀基因包含胞嘧啶脱氨酶。胞嘧啶脱氨酶将胞嘧啶转变为尿嘧啶。这种酶活性在原核生物及低等真核生物中发现，但在高等真核生物中不存在。该基因与前体药物5-氟胞嘧啶(5-FC)联合用作代谢自杀基因。胞嘧啶脱氨酶能将非毒性5-FC转变为5-氟尿嘧啶，后者通过破坏DNA合成而杀死细胞，从而引发细胞程序死亡(Mullen等，1992；Wei和Huber，1996)。

控制所述第一种报道基因转录的启动子可以是在所述细胞中是活性的或者可以被激活的任何启动子。通过选择一种特定的启动子，可以选择一种基因转录阻抑特性如能阻抑所述特定启动子转录的一种类Polycomb-group效应元件。以这种方式可以选择特异性阻抑所述启动子所归属的那类启动子的特性。在一个优选的实施方案中，所述启动子包括这样的启动子，其活性可以在提供一种信号给包含所述启动子的细胞时而被诱导。这种诱导型启动子优选包含一种四环素应答启动子。所述信号是四环素，强力霉素及等价化合物。这种启动子也可以适应在真核细胞中的四环素应答(Yin等，1996)。当加入四环素或其等价物时诱导或阻抑基因表达的启动子和反式作用分子是可获得的。

用本发明的表达载体转染的细胞可以，以典型低频率而且由于一些与具有基因转录阻抑特性的DNA序列的存在不相关的原因，而不表达可检测数量的所述第一种报道基因的表达产物。这可以例如是由于重组事件破坏了所述第一种报道基因的编码序列所致。在本发明的一个优选实施方案中，所述表达载体的集合还包含第二种报道基因。所述第二种报道基因的表达优选地在第二种启动子的控制下。检测所述第二种报道基因的表达产物表达的方法可以用于证实所述测试核酸的表达阻抑活性，从而至少部分降低错误地不表达所述第一种报道基因的细胞数。在一个优选的实施方案中，所述第二种报道基因用于选择包含一种表达盒的细胞。以这种方式，不包含所述表达盒的细胞可以容易地被去掉。为此，所述第二种报道基因的所述表达产物优选包含一种阳性显性可选择的报道基因。优选地，所述阳性显性可选择的报道基因编码一种表达产物，所述表达产物能赋予对毒性化合物的抗性。非限制性实例是G418抗性和潮霉素抗性。

鉴于基因转录阻抑特性可以抑制转录，优选在这个实施方案中，表达载体还包含能抵消具有基因转录阻抑特性的DNA序列的转录阻抑作用的至少一个具有基因转录调节特性的DNA序列。优选地，表达载体中所述转录抵消元件的放置使得其有效干扰所述基因转录阻抑特性对所述第二种报道基因转录水平的降低作用。在一个优选的实施方案中，具有基因转录调节特性的所述DNA序列功能性地分离包含所述第一种和第二种报道基因的表达盒。优选地，所述第二种报道基因(及控制所述第二种报道基因转录的启动子)的两侧为具有基因转录调节特性的DNA序列。具有基因转录调节特性的DNA序列例如是表1和表2中列出的所谓STAR元件。

本发明的方法导致克隆及鉴别了包含基因转录调节和/或基因转录阻抑特性的许多元件。这种元件可含有不相关核酸，其在进行所述特性中无帮助，例如不参与基因转录阻抑染色质的形成。这种元件中的功能序列可以通过本领域已知的各种方法描绘。在一个实施方案中，在具有基因转录调节或基因转录阻抑特性的DNA序列中产生缺失和/或取代。在本发明的方法中测试以这种方式修饰的DNA的活性，这可以使用单一的修饰的核酸进行，或者通过产生包含所述修饰的核酸的测试核酸的集合进行。本发明的DNA序列内的功能序列的阐明使得能够阐明具有基因转录调节和/或基因转录阻抑特性的元件的共有序列。鉴于有一些类polycomb group复合物均包含不同的功能性和表达模式，因此预期使用本发明方法可以发现一种以上类型的共有序列。相似地，预期对包含基因调节特性的元件也可发现一种以上类型的共有序列。本发明因此还提供了分离的和/或重组的核酸的文库，所述核酸包含基因转录调节和/或基因转录阻抑特性如类Polycomb-group效应元件。在一个实施方案中，所述文库包含分离的和/或重组的核酸，所述核酸包含相同的共有序列。在一个优选的实施方案中，所述文库包含一种以上类型的共有序列。所述文库可以用于例如确定一种给定的DNA分子是否包含DNA调节特性。在一个优选的实施方案中，所述文库包含一个染色体的基本上所有的具有基因转录增强功能的元件、包含稳定的基因转录特性的元件和/或具有基因转录阻抑特性的元件如类Polycomb-group效应元件。结合对这些元件在染色体上位置的认知，使本领域技术人员可以预测对天然存在于所述染色体上的基因的基因表达的更高级调节，及预测通过重组方式导入到所述染色体中的基因(外源核酸)。这种预测可以用于例如选择所述染色体上用于插入外源DNA的合适候选位置。合适位置可以是一种预期在某一细胞、细胞类型和/或组织中特异性表达的位置。优选地，所述染色体包括21号染色体或22号染色体。在一个特别优选的实施方案中，细胞中包含基因转录调节或基因转录阻抑特性的所有DNA序列均在文库内。在这个实施方案中，可以使用完整基因组预测合适的候选位置。在一个实施方案中，所述文库已经在从植物至人的不同物种细胞系中产生。在不同的细胞系和/或物种中，能与具有基因转录阻抑特性的DNA序列相互作用的不同蛋白质(或蛋白质复合物)被表达，产生具有基因转录阻抑特性的不同DNA元件。相似地，与包含基因转录调节特性的DNA序列直接或间接相互作用的不同蛋白质被表达。因此，文库的组成是细胞类型依赖性的，并依赖于相关蛋白的存在。在类polycomb group效应元件的情况中也是这样。如果HP1在细胞类型1中表达，则依赖于HP1的元件可通过本发明的方法检测。如果HP1不在细胞类型2中表达，则用本发明的方法不能检测已经从细胞类型1中回收的元件。

在本发明的一个方面中，所述文库包含至少一个能至少部分抵消基因转录阻抑染色质形成的元件。结合关于具有基因转录阻抑特性的DNA序列在染色体或基因组上的位置的认知，对这种抵消元件位置的认知可以更精确地预测对所述染色体或基因组中(插入的)基因的基因转录的更高级调节。优选地，所述文库还包含其它转录调节元件如增强子和沉默子。尽管这些序列对更高级的基因调节的影响有限，但这些其它序列的位置信息进一步增加了对基因组中的表达导入的外源序列的适当位置的预测的精确性。优选地，所述文库包含一个染色体的基本上所有的具有基因转录调节特性的DNA序列和/或所有的其它调节序列。

鉴于一个染色体典型地由几千万个碱基组成，优选地，将所述文库可以提供的更高级基因调节的信息掺入一个至少部分自动化的系统中。

本发明文库的另一种应用是在定向修饰一个染色体上的序列时预测基因转录，由此突变“更高级”的调节序列。例如，本发明的一或多个类polycomb-group效应元件和/或所述染色体上的其它调节元件可以被突变。这预期会改变在所述类polycomb-group效应元件和/或其它表达调节元件邻近的基因的转录水平。

本发明的文库或系统的再一个应用是预测得自基因组突变的基因表达。在突变导致基因转录改变的情况中，检测到这种改变的基因转录可以表明存在所述天然发生的突变。这种方法在例如诊断分析中待测的序列或蛋白质数目有限的情况中是有用的。这在微阵列方法中尤为重要，因为在这些方法中待测的表达序列的数目受一个阵列最大可以持有的序列数目的限制。使用本发明的方式和方法，可以限制在微阵列方法中待测序列的数目。

本发明的系统或文库的另一个应用是揭示药物靶点。调节元件，不管它们是否是“更高级的”元件，均通过可以与其结合的蛋白质(复合物)而发挥功能。本发明的系统可以用于确定药物的干扰特定蛋白质(复合物)的结合或功能的定向是否有把握改变特定基因的表达。

本发明还提供了通过本发明方法可获得的一种DNA序列，其具有一种基因转录阻抑特性。在一个优选的实施方案中，具有基因转录阻抑特性的所述DNA序列衍生自脊椎动物或植物。更优选地，具有基因转录阻抑特性的所述DNA序列包含表4B所示序列或其功能同系物。也可以提供具有本发明DNA序列的一种DNA构建体，或者修饰这种DNA序列。在一个优选的实施方案中，提供了一种DNA构建体，其包含一个可操纵地与一感兴趣核酸相连的启动子。优选地，具有基因转录调节和/或阻抑特性的所述DNA序列的一种特性的活性量依赖于所述DNA序列在所述构建体中相应于所述启动子的方向。优选地，所述基因转录调节和/或阻抑特性依赖于一个信号的存在。优选地，所述信号包含一种DNA结合蛋白。优选地，所述信号包含一种人类免疫缺陷病毒TAT蛋白。

具有基因转录调节或基因转录阻抑特性的DNA序列的应用之一当然是调节感兴趣基因的转录。感兴趣基因的转录可以通过改变所述基因邻近的序列而改变，由此提供或除去具有所述特性的DNA序列。特异性表达特征可以通过将(部分)DNA序列与基因转录调节和/或基因转录阻抑特性组合而设计。例如，当将所述载体导入所述靶细胞时，在表达载体中具有稳定基因转录特性的序列的复制会改善在靶细胞或子代中表达的稳定性。通过组合具有基因转录调节特性的DNA序列，可以产生在种类或数量或这两方面均改变的基因转录调节特性。

也可以设计具有所需基因转录调节和/或基因转录阻抑特性的DNA序列。DNA结合蛋白与其它蛋白及DNA序列决定了DNA序列的特性。可以将一或多种结合其它蛋白质的DNA序列插入具有一种特性的一种DNA序列中。通过使结合蛋白发生结合，可以干扰或指导所述特性，因此产生具有所需特性的DNA序列。当然也可以从具有特定基因转录调节和/或基因转录阻抑特性的DNA序列中除去蛋白质结合位点，从而改变所得DNA序列的特性。也可以组合添加及去除措施。可以通过本发明所述的检测方法选择特定的基因转录调节和/或基因转录阻抑特性。例如可以合成具有可诱导基因转录调节和/或基因转录阻抑特性的DNA序列。通过例如在具有基因转录阻抑特性的DNA序列中包括TAT结合元件，可以在包含TAT的细胞中至少部分失活基因转录阻抑特性。相似地，可获得在有或无信号存在的情况下只结合其靶序列的DNA结合蛋白。这种蛋白质的非限制性实例是TET阻抑物及其各种突变体，lac阻抑物，类固醇激素受体，视黄酸受体及衍生物。可以例如设计具有细胞类型特异性基因转录调节和/或基因转录阻抑特性的DNA序列。例如，在上述TAT实施例的情况中。可以使所述的DNA序列特异于表达TAT的HIV感染的细胞。或者，可以产生特异于以细胞类型特异性方式表达的蛋白质复合物的DNA序列。

包含具有基因转录调节和/或基因转录阻抑特性的DNA序列的表达构建体，适于在包含一个以上拷贝的所述表达构建体的细胞中获得所述构建体的表达。当表达构建体存在于所述细胞的基因组中时，及当表达盒以一个以上拷贝存在于所述细胞中时也是这样。另外，即使当它们以一个以上拷贝整合入相同位置中时也起作用。

在本发明的一个优选实施方案中，具有基因转录调节特性的所述DNA序列包含一种所谓的STAR(稳定抗阻抑作用，StabilizingAnti-Repression)序列。本文所用STAR序列是指一种包含一或多种所提及的基因转录调节特性的DNA序列。

可以利用本领域的一些方法从共享某一共同特征的DNA序列家族中提取序列标识符(identifier)。这些序列标识符随后可以用于鉴别共享一或多个标识符的序列。共享这种一或多个标识符的序列很可能是同一序列家族的成员，即可能共享该家族的共同特征。在本申请中，使用大量具有STAR活性的序列(称为STAR列)以获得序列标识符(模式)，其是具有STAR活性的序列的特征。这些模式可以用于确定一个测试序列是否可能含有STAR活性。一方面，本发明提供了一种检测在一大约50-5000碱基对的核酸序列中STAR序列存在情况的方法，包括测定所述序列中至少一种序列模式的出现频率，并确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率。原则上，任何方法均适于确定一种序列模式是否是STAR序列的代表。本领域中存在许多不同的方法。在本发明的一个优选实施方案中，确定所述出现频率代表所述至少一种序列模式在至少一个包含STAR序列的序列中的出现频率的步骤，包括确定所述至少一种序列模式的出现频率在所述至少一个STAR序列和至少一个对照序列之间显著不同。原则上，任何显著性差异均可判别存在STAR序列。然而，在一个特别优选的实施方案中，所述至少一种序列模式的出现频率在所述至少一个包含STAR序列的序列中明显高于在所述至少一个对照序列中。本发明中已经鉴别了相当多的包含STAR序列的序列。可以使用这些序列测试一种模式在判别对照序列和包含STAR序列的序列时是否有效。使用所谓的判别分析，可以基于一个物种中的任何STAR序列集确定最佳的判别性序列模式或其组合。因此，优选地，基于所述至少一个包含STAR序列的序列和一个对照序列之间的一种希望的及优选最佳的判别而选择至少一种所述模式。一种希望的判别可以是通过生物信息学获得的与所述模式相关的某一显著性因子。

在一个优选的实施方案中，将一种序列模式在测试核酸中的出现频率与其在一种已知含有STAR序列的序列中的出现频率相比较。在这种情况中，如果出现频率相似，则认为该模式代表包含STAR序列的序列。在一个优选的实施方案中，使用另一种标准。将一种模式在一种包含STAR序列的序列中的出现频率与所述模式在一种对照序列中的出现频率相比较。通过比较这两种频率，可以确定针对所分析的每种模式，其在包含STAR序列的序列中的频率是否显著不同于其在对照序列中的频率。在这个实施方案中，如果所述模式在至少一个包含STAR序列的序列中的出现频率明显不同于相同模式在一对照序列中的出现频率，则认为该序列模式代表一个包含STAR序列的序列。通过使用大量包含STAR序列的序列，增加了可以确定有统计学差异的模式的数目，因此扩大了其出现频率代表包含STAR序列的序列的模式的数目。优选地，所述出现频率代表所述至少一种序列模式在至少2个包含STAR序列的序列、优选至少5个包含STAR序列的序列、更优选至少10个包含STAR序列的序列中的出现频率。更优选地，所述出现频率代表所述至少一种序列模式在至少20个包含STAR序列的序列中的出现频率。在一个特别优选的实施方案中，所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。

代表包含STAR序列的序列的模式也依赖于所用对照核酸的类型。所用对照序列的类型优选地基于待检测其中存在STAR序列的序列而选择。在一个优选的实施方案中，所述对照序列包含一个随机序列，其包含与所述至少一个包含STAR序列的序列相似的AT/CG含量。在另一个优选的实施方案中，所述对照序列衍生自与包含所述STAR序列的所述序列相同的物种。例如，如果需检查一种测试序列是否存在在植物细胞中是活性的STAR序列，则优选地所述对照序列也衍生自一种植物细胞。相似地，为测试在人体细胞中的STAR活性，对照序列优选也衍生自人体基因组。在一个优选的实施方案中，所述对照序列包含50％-150％的所述至少一个包含STAR序列的序列的碱基。在一个特别优选的实施方案中，所述对照序列包含90％-110％的所述至少一个包含STAR序列的序列的碱基。更优选包含95％-105％的碱基。

一种模式可以包含多于2个的任何数目的碱基。优选地，至少一种序列模式包含至少5个，更优选至少6个碱基。在另一个实施方案中，至少一种序列模式包含至少8个碱基。在一个优选的实施方案中，所述至少一种序列模式包含表9和/或表10所示模式。一种模式可由一系列连续碱基组成。然而，所述模式也可以包含由一些不具判别性或仅具部分判别性的碱基中断一或多次的碱基。部分判别性的碱基例如是嘌呤。

优选地，使用一种功能分析检验STAR活性的存在。本发明提出了若干确定一种序列是否具有STAR活性的方法。如果所述序列能进行至少一种以下功能，则证实其具有STAR活性：(i)至少部分抑制包含本发明基因转录阻抑元件的序列的作用，(ii)至少部分阻断染色质相关的阻抑，(iii)至少部分阻断增强子活性，(iv)与单独的相同核酸相比，赋予可操纵连接的编码转录单位的核酸以(iv-a)一种更高的转录可预测性，(iv-b)一种更高的转录，和/或(iv-c)一种在一段时间内更高的转录稳定性。

在本发明中鉴别的包含STAR活性的大量序列，展现出可以产生和鉴别包含相同种类而非必需相同量的活性的序列的各种可能性。例如，本领域技术人员可以改变本发明鉴别的序列并测试改变的序列的STAR活性。这种改变的序列因此也是本发明的一部分。改变可以包括在序列中缺失，插入及突变一或多个碱基。

在长度为400个碱基的序列段中鉴别出包含STAR活性的序列。然而，预期要保留STAR活性这400个碱基不是全部需要的。本领域熟知赋予400-5000个碱基之间的一个片段以某一特性的序列的划界方法。包含STAR活性的片段的最小长度为大约50个碱基。

表9和表10列出了已发现在包含STAR活性的核酸分子中过量存在(over represented)的6个碱基的序列模式。这种过量存在被认为是STAR序列的代表。这些表是从一个65个STAR序列的家族中产生的。从不同系列的STAR序列中或从较小或较大系列的STAR序列中可以产生相似的表。一种模式如果在所述STAR序列中与在不包含STAR元件的序列中相比过量存在，则代表一种STAR序列。这可以是一个随机序列。然而，为排除不相关的偏差，包含STAR序列的序列优选地与一个基因组或其显著部分相比较，优选脊椎动物或植物基因组，更优选人类基因组。基因组的一个显著部分是例如一个染色体。优选地，包含STAR序列的序列及所述对照序列衍生自相同物种。

越多的STAR序列用于确定序列模式的出现频率，则过量存在或存在量不足的所述模式越多地代表STAR。鉴于可以由核酸表达的许多功能特征是通过与其结合的蛋白质分子介导的，优选的是所述代表模式在STAR序列中是过量存在的。这种过量存在的模式可以是这种蛋白质分子的结合位点的一部分。优选地，所述出现频率代表所述至少一种序列模式在至少2个、优选至少5个、更优选至少10个包含STAR序列的序列中的出现频率。更优选地，所述出现频率代表所述至少一种序列模式在至少20个包含STAR序列的序列中的出现频率。在一个特别优选的实施方案中，所述出现频率代表所述至少一种序列模式在至少50个包含STAR序列的序列中的出现频率。优选地，所述包含STAR序列的序列包含至少一个图26所示序列。

STAR活性是图26所示序列共有的特征。然而，这并不意味着它们必需全部共享相同标识符的序列。非常可能存在不同的标识符。标识符可以将这一共同特征赋予含有其的片段，但这不是必需的。通过使用更多的包含STAR活性的序列来确定一种序列模式的出现频率，可以选择比其它序列在这种STAR序列中更通常存在或不存在的模式。以这种方式可以发现在STAR序列中非常过量存在或存在量不足(less represented)的模式。通常过量存在或存在量不足的模式更合适鉴别测试集中的候选STAR序列。使用一系列过量存在或存在量不足的模式的另一种方式是确定哪一种模式或模式组合最适合鉴别一个序列中的STAR。使用所谓的判别统计学，我们已经鉴别了一系列模式，其在鉴别包含STAR元件的序列中表现最佳。在一个优选的实施方案中，用于检测STAR序列的至少一种所述序列模式包含序列模式GGACCC，CCCTGC，AAGCCC，CCCCCA和/或AGCACC。在另一个实施方案中，用于检测STAR序列的至少一种所述序列模式包含序列模式CCCN{16}AGC，GGCN{9}GAC，CACN{13}AGG，CTGN{4}GCC。

STAR序列列表也可以用于确定其中的一或多个共有序列。本发明因此还提供了针对STAR元件的共有序列。这个共有序列当然可以用于鉴别一个测试序列中的候选STAR元件。

另外，一旦在一种脊椎动物中鉴别出一种包含STAR元件的序列，可以使用该序列通过序列同源性以在属于脊椎动物的其它物种中鉴别包含STAR元件的序列。优选地，使用一种哺乳动物STAR序列筛选其它哺乳动物物种中的STAR序列。相似地，一旦在一种植物物种中鉴别出一种STAR序列，可以使用该序列在其它植物物种中筛选具有相似功能的同源序列。本发明一方面提供了可通过本发明方法获得的一种STAR序列。本发明进一步提供了一个STAR序列集合。优选地，所述STAR序列是脊椎动物或植物STAR序列。更优选地，所述STAR序列是一种哺乳动物STAR序列或被子植物(单子叶植物如水稻，或双子叶植物如Arabidopsis)序列。更优选地，所述STAR序列是一种灵长类动物和/或人类STAR序列。

可以使用包含STAR活性的一系列序列确定一个测试序列是否包含STAR元件。如上所述，有许多不同的方法可以为此目的使用这一系列序列。在一个优选的实施方案中，本发明提供了确定一个大约50-5000碱基对的核酸序列是否包含STAR序列的一种方法，所述方法包括产生第一个序列模式表，其包含所述模式在本发明的STAR序列集合中的出现频率；产生所述模式第二个表，其包含所述模式在至少一种参比序列中的出现频率；选择出现频率在这两个表之间不同的至少一种模式；确定至少一种所述选择的模式在所述大约50-5000碱基对的核酸序列内的出现频率；及确定在所述测试核酸内的出现是否代表所述选择的模式在所述STAR序列集合的出现。或者，所述确定包括确定在所述测试核酸中的出现频率是否代表所述选择的模式在所述STAR序列集合中的出现频率。优选地，所述方法还包括使用本发明方法确定所述候选STAR是否包含一种基因转录调节特性。优选地，所述STAR集合包含图26所示序列。

另一方面，本发明提供了通过本发明方法获得的一种包含一种STAR序列的分离的和/或重组的核酸序列。

如上所述，STAR序列可以通过定向方式发挥其作用，即更多地针对含有其的片段的一侧而非另一侧。另外，STAR活性可以通过增加STAR元件的数量而增强。后者提示一个STAR元件可能包含一或多个具有STAR活性的元件。鉴别能将STAR活性赋予含有其的片段的序列的另一种方式包括从脊椎动物或植物序列中选择一种具有STAR活性的序列，并鉴别在选择的序列两侧的序列在另一个物种中是否是保守的。这种保守的侧翼序列很可能是一种功能序列。因此本发明一方面提供了鉴别包含STAR元件的序列的一种方法，包括从脊椎动物或植物物种中选择一个包含STAR元件的大约50-5000碱基对的序列，并鉴别在所述物种中所述选择的序列两侧的序列在至少一种其它物种中是否是保守的。本发明因此进一步提供了检测在一个大约50-5000碱基对的核酸序列中STAR序列存在情况的一种方法，包括在一种物种细胞的染色体的一部分中鉴别包含STAR序列的一种序列，并检测所述序列与一个不同物种染色体的序列之间的显著同源性。优选地，所述物种包括植物或脊椎动物物种，优选为哺乳动物物种。本发明还提供了检测一种脊椎动物或植物物种的一大约50-5000碱基对的核酸序列中STAR元件的存在情况的一种方法，包括鉴别所述核酸序列的侧翼序列在至少一种其它物种中是否是保守的。

重要的是要注意到使用生物信息学信息检测包含STAR序列的序列的存在的本发明方法性质上是可重复的。使用本发明的方法鉴别的包含STAR序列的序列越多，则会发现越多的可判别包含STAR序列的序列和对照序列的模式。使用这些新近发现的判别模式，可以鉴别更多的包含STAR序列的序列，进而扩大了可以判别的模式集，等等。这种重复是本发明提供的方法中的一个重要方面。

述及序列时的术语“特性(quality)”是指所述序列的活性。本文所用术语STAR，STAR序列或STAR元件是指一种DNA序列，其包含一或多种所述基因转录调节特性。下述的一些术语SINC或SINC元件是指一种DNA序列，其包含一或多种所述基因转录阻抑特性。本文所用术语“DNA序列”除非特别指明，不是指碱基的特异顺序排列，而是指DNA的一种物理片段。DNA序列的转录特性是指所述DNA序列对感兴趣基因转录的一种作用。本文所用术语“特性”是指转录系统中核酸或蛋白质的可检测的性质或特征。

实施例

实施例1：分离STAR和SINC元件的方法

材料和方法

质粒和菌株：STAR元件的选择载体pSelect-SV40-zeo(“pSelect”，图1)如下构建：将pREP4载体(Invitrogen V004-50)用作质粒骨架，其提供了：Epstein Barr oriP复制起点和EBNA-1核抗原以便在灵长类动物细胞系中高拷贝附加型复制；具有胸苷激酶启动子和聚腺苷酸化位点的潮霉素抗性基因以便在哺乳动物细胞中进行选择；及氨苄青霉素抗性基因和colEl复制起点以在大肠杆菌中保持。该载体含有4个连续的LexA操纵子位点，位于XbaI和NheI限制位点之间(Bunker和Kingston，1994)。位于LexA操纵子与NheI位点之间的是一个多接头，其由以下限制位点组成：HindIII-AscI-BamHI-AscI-HindIII。在NheI位点和SalI位点之间是具有SV40启动子和聚腺苷酸化位点的zeocin抗性基因，其衍生自pSV40/Zeo(Invitrogen V502-20)；这是用于STAR筛选的选择标记。

pSDH载体(图2)如下构建：将来自pGL3-Control(PromegaE1741)的萤光素酶报道基因通过PCR扩增，并插入SacII/BamHI消化的pUHDlO-3(Gossen and Bujard，1992)中。这样将萤光素酶置于Tet-Off启动子的控制下，并位于SV40聚腺苷酸化信号的上游。通过PCR在Tet-Off启动子上游(MCSI，XhoI-NotI-EcoRI-SaII)和聚腺苷酸化信号下游(MCSII，NheI-BglII-EcoRV-HindIII)导入多克隆位点。基因文库通过用Sau3AI消化人基因组DNA而构建，所述人DNA基因组纯化自胎盘(Clontech 6550-1)或载于细菌/P1(BAC/PAC)人工染色体中。BAC/PAC克隆含有得自lq12细胞遗传学区域(克隆RP1154H19和RP3328E19)或得自HOX同源异型基因簇(克隆RP1167F23，RP1170019和RP11387A1)的基因组DNA。将这些DNA按大小分级分离，并将0.5-2kb大小的级分通过标准方法(Sambrook等，1989)连接在BamHI消化的pSelect载体中。

宿主菌株的构建已有描述(van der Vlag等，2000)，简而言之，其基于U-2 OS人骨肉瘤细胞系(美国典型培养物保藏中心HTB-96)构建。将U-2 OS用pTet-Off质粒(Clontech K1620-A)稳定转染，该质粒编码由Tet-阻抑物DNA结合结构域和VP16反式激活域组成的一种蛋白质嵌合体。随后将该细胞系用融合蛋白基因稳定转染，所述融合蛋白基因含有LexA DNA结合结构域及HP1或HPC2(两种果蝇Polycomb group蛋白，当粘附于DNA时阻抑基因表达)的编码区。LexA-阻抑物基因在Tet-Off转录调节系统的控制下(Gossen和Bujard，1992)。

文库筛选和STAR元件鉴定：将pSelect中的基因文库通过磷酶钙沉淀(Graham和van der Eb，1973；Wigler等，1978)转染进U-2OS/Tet-Off/LexA-阻抑物细胞系中，使用转染试剂供应商推荐的方法(Life Technologies)。转染的细胞在潮霉素选择(25μg/ml)及四环素阻抑(强力霉素，10ng/ml)下培养1周(50％铺满)。然后将强力霉素浓度降低至0.1ng/ml，以诱导LexA-阻抑物基因，并在2天后加入zeocin至250μg/ml。将细胞进一步培养4-5周，直至对照培养物(用空pSelect转染)被zeocin杀死。

通过标准方法繁殖得自文库转染的Zeocin-抗性集落，并通过标准技术分离质粒DNA及在大肠杆菌中拯救(Sambrook等，1989)。拯救的DNA中的候选STAR元件通过限制性内切酶作图分析(Sambrook等，1989)，DNA序列分析(Sanger等，1977)，并在再转染进U-2OS/Tet-Off/LexA-阻抑物细胞系中及降低强力霉素浓度后分析STAR活性(zeocin抗性)。

具有相应于人基因组中已知序列的DNA序列的候选STAR元件通过对人基因组数据库

(http：//www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html 20 June 2001)进行BLAST检索(Altschul等，1990)而鉴别。记录这些元件的染色体位置及重复DNA的比例和相邻基因的身份。

在再转染时示出STAR活性的那些候选物通过将STAR片段亚克隆入pSDH质粒中并在U-2 OS染色体DNA中稳定整合而进一步鉴定。将pSDH质粒与pBABE-puro(Morgenstem和Land，1990)共转染进U-2 OS细胞中，并选择嘌呤霉素抗性集落。针对每个STAR元件，分离大约30个单独克隆的群体并培养。将这些克隆根据厂商指导(Roche1669893)定期分析萤光素酶活性。

结果

STAR元件功能鉴定：筛选人基因组DNA及HOX和lql2基因座产生17个真实STAR元件。标准是(1)在将基于pSelect的克隆再转染进宿主U-2OS人骨肉瘤细胞系时这些元件展示STAR活性(表明在初始筛选中表现的抗阻抑物活性是质粒特异性的，而且不是由于宿主细胞中的赝象变化所致)；(2)这些元件含有与人基因组序列数据库中的序列匹配的DNA序列(表明所述克隆不含有来自例如细菌或载体的污染DNA序列)。

将这些STAR元件亚克隆入pSDH质粒中并整合进宿主细胞基因组中。在稳定转染子群体中分析报道基因的表达，以证实在随机整合进基因组后STAR元件保护报道基因免于沉默的能力。这提供了这样的信息：(1)高度表达的克隆的比例，及(2)STAR元件激发的过表达程度。

由一个克隆对萤光素酶报道基因的表达如果高于不含有STAR元件的质粒的平均表达水平(参比水平)的两倍，则认为其是显著的。就所有质粒而言，在这些克隆中观测到如下的表达水平分布情况：从无表达至明显超过参比水平的表达，从很少过表达克隆至许多过表达克隆。优异的STAR活性是由产生许多过表达克隆(包括一些高度过表达的克隆)的质粒体现的。

一个代表性实验的结果示于表1和图3-5：

结果表明与未被保护的报道基因或由果蝇SCS元件保护的报道基因(Kellum和Schedl，1992)相比，所测试的人STAR元件产生高得多的比例的过表达克隆。另外，这些质粒对STAR保护的报道基因的的过表达程度比未保护的或SCS保护的报道基因高得多。

STAR元件序列及基因组位置数据：表2列出了17个STAR元件中每个元件的染色体位置，以及邻近基因的身份和该元件的重复DNA含量。这些STAR元件分布于许多染色体中。它们的实际DNA序列和重复DNA含量各不相同，并表现出与相邻基因各种程度的关联。

SINC元件筛选

材料和方法

用于SINC筛选的质粒pSINC-Select(“pSS”，图6)如下构建：pREP4载体(Invitrogen V004-50)用作质粒骨架，其提供了：Epstein BarroriP复制起点和EBNA-1核抗原以在灵长类动物细胞系中高拷贝附加型复制；具有胸苷激酶启动子和聚腺苷酸化位点的潮霉素抗性基因以在哺乳动物细胞中进行选择；及氨苄青霉素抗性基因和colE1复制起点以在大肠杆菌中保持。该载体含有由来自质粒pUDH10-3(Gossen和Bujard，1992)的串联Tet效应元件(TRE)组成的一个Tet-Off启动子，以便通过转录调节系统进行调节。TRE调节编码一种融合蛋白(胞嘧啶脱氨酶/尿嘧啶磷酸核糖基转移酶；Invivogen porfcodaupp)的codA∷upp基因的表达。这是一种所谓的“自杀基因”；codA∷upp酶的活性将一种前体药物5-氟胞嘧啶(5-FC)转变为毒性药物5-氟尿嘧啶(5-FU)，从而导致细胞程序死亡及细胞死亡(Mullen等，1992；Tiraby等，1998；Wei和Huber，1996)。Tet-Off启动子的上游是一BglII限制位点用于克隆Sau3AI消化的基因组DNA以进行筛选。pREP4 DNA通过STAR元件与基因组DNA及自杀基因分离，以防止由克隆的SINC元件导致的pREP4组分中基本的质粒元件沉默。

将来自包含人22号染色体的BAC克隆文库的基因组DNA(Invitrogen/Research Genetics 96010-22)用Sau3AI部分消化并连接进BglII-消化的pSS(Sambrook等，1989)中。使用转染试剂供应商推荐的方法(Life Technoloes)，将重组质粒的文库通过磷酸钙沉淀(Graham和van der Eb，1973；Wigler等，1978)转染进U-2 OS/Tet-Off细胞系中。将转染的细胞在潮霉素选择(25μg/ml)和四环素阻抑(强力霉素，10ng/ml)下培养3周。然后加入5-FC至浓度为1μg/ml，将细胞进一步培养3周以选择SINC元件。

收获候选的含有SINC的集落，并使用引物PCR1和PCR2进行聚合酶链反应(图6)，将PCR产物用HindIII和XhoI限制性内切酶消化，并通过常规方法(Sambrook等，1989)克隆入pBluescript II SK(+)(Stratagene 212207)中。确定候选SINC元件的DNA序列(Sanger等，1977)，通过对人基因组数据库进行BLAST检索(Altschul等，1990)鉴别人基因组中的相应序列

(http：//www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html 20 June 2001)。记录这些元件的染色体位置以及重复DNA的比例及邻近基因的身份。

结果

在选择期末，在对照培养物(空pSS)中未见集落，在含有具有基因组DNA的pSS的培养物中可见许多集落。这些存活的克隆含有候选SINC元件。通过PCR回收这些元件并亚克隆入标准克隆载体pBluescript中。确定这些元件的DNA序列，并与人基因组序列对比(表3)。在所有情况中，正如所预期的，在22号染色体上发现这些测序的元件。

实施例2：由于STAR，SINC或组合的STAR/SINC所致的转基因的表达特征

背景：使用位点特异性重组从染色体位置中精确除去异源DNA。这通常通过两个系统之一进行：噬菌体P1的cre重组酶及loxP靶(Feng等，1999)，或者酵母的FLP重组酶及FRT(FLP重组酶的靶位)(Wigley等，1994)。在这些系统中，一个DNA区域(通常含有报道基因和/或选择标记)在染色体中的侧翼为loxP或FRT靶位。重组酶活性然后催化该DNA区域从染色体中精确切除。该重组酶将其两个识别序列解离为一个单一位点，缺失它们之间的序列。因此，一段DNA的侧翼必须是靶位点，以便随后当导入或激活重组酶时可以体内缺失(Schwenk等，1995；Dymecki，1996)。Cre和Flp重组酶催化由最少6个(loxP)或8个(FRT)碱基对的间隔区分隔的两个13个碱基对反向重复之间的重组(Senecoff等，1985)。LoxP序列为ATAACTTCGTATA，FRT序列为GAAGTTCCTATAC。

方案：使用常规DNA克隆方法(Sambrook等，1989)，将一种报道基因(编码一种报道蛋白，例如绿色荧光蛋白(GFP)(Bierhuizen等，1997)或萤光素酶(Himes和Shannon，2000))构建在质粒中，使其侧翼为一对STAR元件，一对SINC元件或一对STAR/SINC重组元件。在每种情况中，这些元件自身的两侧为重组酶靶位点。一个元件的两侧为一对loxP位点，另一个元件的两侧为一对FRT位点(图1)。转染后该质粒在少部分细胞中整合进宿主染色体中，通过抗生素抗性选择整合子。针对三种测试元件(STAR，SINC，STAR/SINC)的每一种产生相似的构建体。

使用常规技术(“SuperFect转染试剂手册”Qiagen，1997年11月)，将这些质粒转染进U-2 OS人骨肉瘤细胞系中，并针对潮霉素抗性进行选择。潮霉素抗性分离株具有稳定整合入细胞系基因组中的质粒。将各个分离株在细胞培养基中繁殖，并通过例如流式细胞计量术分析转基因报道基因的表达(Stull等，2000)。

然后使用常规技术(转染或激素刺激)，处理上述稳定的分离株以导入或激活重组酶活性。这是相继进行的，以便例如cre重组酶活性催化STAR1的切除，随后FLP重组酶活性催化STAR2的切除。分析这些细胞中报道基因的表达水平，并将数值与母本含有STAR的分离株的参考值进行对比。

实施例3：STAR序列分析；确定元件功能的基本必需序列；元件之间的序列保守性；及串联的多个元件的性质

背景：含有STAR或SINC元件的DNA片段分别使用pSelect(图1)或pSS(图6)质粒通过遗传选择而分离。本部分描述了在具有STAR或SINC活性的那些片段内鉴定DNA序列的方法。

方案：

DNA序列：基于pSelect和pSS选择质粒的序列设计寡核苷酸以对DNA片段测序。使用双脱氧链终止法对片段测序(Sanger等，1977)。然后使用公布的人基因组序列数据库将DNA序列定位于染色体位置(http：//www.ncbi.nlm.nih.gov：80/cgibin/Entrez/hum_srch？chr＝hum_chr.inf&query)。从基因组序列注解中记录该片段序列邻近的基因和基因密度。那些基因的转录活性从公布的DNA微阵列数据库(http：//arrays.rockefeller.edu/xenopus/links.html)和SAGE数据(基因表达的系列分析；http：//bioinfo.amc.uva.nl/HTM-bin/index.cgi)中确定。一旦汇编了STAR和SINC序列的位置信息，分析这些数据的潜在的共有序列。使用相似性检索算法如clustalw(Higgins等，1996)及blosum相似性评分(Altschul and Gish，1996)，检测共有序列或趋势(由此得知的是富含特定的核苷酸组合中的局部区域，例如富含C和G碱基)。然后将发现的任何潜在的共有序列或趋势用于通过进行BLAST检索(Altschul等，1990)而鉴别基因组范围的其它潜在的STAR。先前的研究已经鉴别了结合已知绝缘体(insulator)和边界元件的转录调节蛋白(Gaszner等，1999；Gerasimova和Corces，1998)。在所述的实施例中，这些蛋白质结合位点与绝缘或边界功能所必需的DNase I超敏位点相符。STAR元件也由已知调节蛋白结合这一假说通过检索转录因子的TRANSFAC数据库(http：//transfac.gbf.de/TRANSFAC/)中的在STAR元件中存在的序列基序而检验。STAR或SINC集合的各成员中共同的序列基序是相应转录元件结合那个元件的指征。

基本必需序列(Minimal essential sequence)：使用这种序列知识，将STAR(或SINC)元件截短并测试功能。这是通过标准技术使用聚合酶链反应(PCR)将含有STAR或SINC的片段的亚片段克隆入pSelect或pSS中(Sambrook等，1989)进行。将含有这些亚片段的质粒转染进U-2 OS细胞中，并通过分析抗生素抗性(STAR元件)或前体药物抗性(SINC元件)测试功能。

定向性(Directionality)：分别使用pSelect和pSS质粒测试STAR和SINC元件的定向性。例如，通过pSelect筛选分离的STAR元件的方向称为5′3′方向。该元件的方向通过常规重组DNA技术变成相反方向(Sambrook等，1989)。将所得质粒转染进U-2 OS细胞系中，并分析报道基因的表达(Bierhuizen等，1997；Himes和Shannon，2000)。将具有反方向元件的质粒的表达水平与具有5’3’方向的水平相对比。如果反方向质粒具有相似表达水平，则STAR元件不表现出定向性。

元件的组合及倍增：为确定STAR元件是否能以混合配对而起作用，组合不同的元件并测试。在pSDH质粒中通过重组DNA技术(Sambrook等，1989)将一种STAR元件插入MCSI中及将一个不同的STAR插入MCSII中，随后进行分析。转染所得质粒，并分析报道基因的表达(Bierhuizen等，1997；Himes和Shannon，2000)；将结果与在MCSI和MCSII中含有相同元件的质粒的表达相对比；如果这两种类型的质粒的表达相似，则不同的STAR元件互不干扰。

单STAR或SINC元件的强度与串联重复的元件相对比：这通过用DNA连接酶将感兴趣的STAR或SINC多联化，并通过重组DNA技术(Sambrook等，1989)将连接产物插入pSDH或pSS质粒中而进行。所得质粒转染进U-2 OS细胞中，并分析报道基因的表达(Bierhuizen等，1997；Himes和Shannon，2000)；将结果与含有单STAR或SINC元件的质粒表达相对比。

实施例4：确定STAR，SINC或其组合发挥作用的距离

背景：用STAR元件优化单个转基因和多个转基因的表达。为确定一对STAR元件是否能保护大的转基因或多个转基因免于沉默，有必要确定STAR的作用范围。相似地确定SINC元件和STAR/SINC组合的信息。

方案：如下所述，使用分别基于pSelect或pSS的衍生质粒测试STAR和SINC元件在一段距离上的功能性。通过标准DNA克隆技术(Sambrook等，1989)装配大小为500bp-10kb的随机DNA片段文库。通过如上述在pSelect和pSS质粒中进行测试，从该文库中选择不具有STAR或SINC活性的片段。针对STAR元件和STAR/SINC组合，将这些片段插入适当的pSelect质粒中的克隆位点和报道基因的启动子之间(图1)。将该系列质粒转染进U-2 OS细胞系中，并如上所述测定表达。将报道基因表达的强度与将STAR元件与启动子分开的随机DNA片段的长度相关联。SINC元件以类似方式评定：将随机DNA片段插入适当pSS质粒的SINC元件和启动子之间，将报道基因的阻抑程度与随机DNA片段的长度相关联。

实施例5(a)：天然存在的SINC元件在遗传选择STAR元件中的应用

背景：目前筛选STAR元件使用的是嵌合的lexA-PcG蛋白以提供对选择质粒中的选择标记的阻抑。使用天然存在的SINC元件重复所述的选择，鉴别特异于由于这些天然存在的SINC元件所致阻抑活性的STAR元件。

SINC元件筛选是基于遗传选择从而鉴别随机产生的能沉默“tet-off”启动子并阻断codA∷upp自杀基因的表达的基因组DNA片段的能力。从这个选择中回收的SINC元件代表基因组沉默元件的随机取样，并回收了不同类别的元件。针对这个方案，这些不同的SINC元件用于回收与在上述基于lexA-PcG的选择中回收的那些STAR元件不同类别的STAR元件。

方案：对得自当前选择的SINC元件进行鉴定并基于功能特征和DNA序列特征进行分类(功能特征包括阻抑强度；序列特征包括可鉴别的保守基序；见实施例3)。通过标准DNA克隆技术(Sambrook等，1989)将每一类别的代表性元件用于置换pSelect中的lexA结合位点。用这些新质粒的每一种产生基因库，并如前所述(van der Vlag等，2000)用于鉴别新的SINC-特异性STAR元件。这使用完整基因组DNA进行，及使用也含有所用的SINC元件的BAC克隆的DNA进行。

实施例5(b)：确定STAR和SINC元件的最大长度

背景：使用pSelect质粒将STAR元件作为回收的DNA片段而克隆，这是用少于2kb的基因组DNA片段进行。然而，这些可能是更长的STAR元件的一部分。延长的STAR活性通过以下实验检测。

方案：将克隆入pSelect中的STAR元件作图在人基因组序列上。为确定它们是否是更长的STAR元件的一部分，将涵盖该克隆的4kb的区域通过PCR扩增，并通过标准重组DNA技术克隆入pSelect和/或pSDH质粒中(Sambrook等，1989)。将所得质粒转染进U-2 OS细胞中，并如上所述分析报道基因的表达；含有原始2kb STAR元件的质粒作为对照。可以预期获得三种结果：(1)对照和延长的STAR分离物的表达相似，表明STAR元件限于原始的2kb片段；(2)延长的STAR分离物的表达较低，提示STAR元件包含于2kb的片段内，而且在一段距离上不能有效发挥作用，或者延长的片段含有SINC元件；(3)延长的STAR分离物表达较高，提示延长的区域含有更完整的STAR元件。在结果(3)的情况中，用6kb的更大的PCR片段重复试验。

STAR元件也可以是各种蛋白质所结合的位点的组合。因此具有STAR活性的大DNA片段可以分为一些具有STAR活性的较小片段(见实施例3)。大于2kb的元件如果在截短为小于2kb之后(包括内部缺失)仍展示STAR活性，则认为其是STAR元件。

实施例6：STAR元件、SINC元件或其组合及相邻转基因的甲基化和组蛋白乙酰化状态

背景：STAR和SINC元件的调节性质与局部染色质结构相关，这是通过DNA自身及通过DNA相关蛋白质确定的。与基因表达改变相关的染色质变化通常由高分子的二级修饰、尤其是DNA的甲基化或组蛋白的乙酰化而产生。鉴别在STAR和SINC元件及在相邻转基因中存在的二级修饰提供了这些元件的特点。

方案：DNA甲基化：通过标准技术(Sambrook等，1989)，将STAR或SINC元件或其组合克隆入pSelect质粒中。用这些质粒稳定转染U-2 OS细胞，并用没有STAR或SINC元件的pSelect作对照，以确定报道基因的基础DNA甲基化。收获细胞并通过标准技术(Thomas，1998)纯化染色质。在单独的反应中分别用HpaII和Mspl限制性内切酶消化DNA(Sambrook等，1989)。这些限制酶均能切断未甲基化的序列CCGG。当外侧的C甲基化时，MspI和HpaII不能裂解该序列。然而，与HpaII不同的是，当内部的C甲基化时，MspI能裂解该序列。将该DNA进行Southern印迹，并通过间接的末端标记分析该印迹(Pazin和Kadonaga，1998)。作为对照，作为裸露的未甲基化DNA的相应pSelect质粒也用所述的酶切割，并进行Southern印迹。对比DNA片段的不同大小揭示该DNA是否在体内甲基化。

组蛋白乙酰化：将与用于DNA甲基化分析的相同转染的细胞系用于这些实验。下述方法产生了在STAR和SINC元件及报道基因上组蛋白乙酰化模式的高分辨图(Litt等，2001)。在蔗糖梯度上分级分离微球菌核酸酶消化的细胞核，并浓缩纯化的核小体单体和二聚体，以通过用抗乙酰组蛋白抗体进行免疫沉淀而获得乙酰化组蛋白。将核小体级分和免疫沉淀物例如通过实时PCR进行分析(Jung等，2000)，使用与报道基因或STAR或SINC元件退火的引物和Taqman探针，产生0.2kb产物，移动窗口为0.1kb。然后测定在PCR期间Taqman探针荧光信号的增加率(这与样品中模板DNA的丰度成比例)。核小体级分与免疫沉淀物中模板DNA的丰度比率提供了在每0.1kb报道基因和STAR或SINC元件上(或者在无元件时的报道基因上)的组蛋白乙酰化模式的精细图。

实施例7：体内核小体定位及DNAse I超敏位点

背景：染色质由DNA、组蛋白和非组蛋白蛋白质组成。组蛋白形成核心颗粒，其由约150bp的DNA包绕形成核小体，核小体由50-75bp的接头DNA分隔。染色体DNA上稳定定位的核小体阻抑基因表达，排除核小体或重塑染色质的因子可以克服这种阻抑。核小体在染色体区域中的定位通过微球菌核酸酶(MNase)分析加以分析；MNase优先在接头DNA处切割染色质。相似地，DNA的一些区域组成型暴露于非组蛋白蛋白质，这些通常是调节区域，即顺式作用调节因子结合的位点。经实验表明，这些位点对DNase I消化超敏。

方案：为确定报道基因上及STAR或SINC元件上核小体的位置，使用MNase(Saluz和Jost，1993)。从培养的U-2 OS细胞中纯化细胞核，并用MNase如上所述消化(组蛋白乙酰化)。为检索STAR和SINC元件或报道基因中DNase I超敏位点，将纯化的细胞核用DNase I在合适浓度处理(例如100μg/ml基因组DNA和20-100U/ml DNaseI)(Wallrath等，1998)。将裸DNA用DNase I消化作为对照。针对这两种技术，报道基因和STAR或SINC元件均使用引物扩展或间接末端标记和Southern印迹精细作图(Tanaka等，1996；van der Vlag等，2000)。MNase分析示出一放射自显影图上的不连续条带梯，其相应于核小体在STAR或SINC元件或报道基因上的位置。DNase I超敏位点在所得放射自显影图中显现为不连续条带，在裸DNA对照中没有或不明显。

实施例8：STAR和SINC元件的细胞类型、组织依赖性及启动子依赖性

背景：已经有报道一些绝缘体或边界元件可以显示组织特异性(Takada等，2000)。STAR元件具有许多与绝缘体和边界元件共有的特点。混栖的和组织特异性STAR和SINC元件在转基因应用中均具有生物技术学价值。进行以下分析以评定细胞类型依赖性。所述元件的细胞和组织特异性通过检测人基因组中所述元件邻近基因的表达而进一步检测，使用公布的DNA微阵列数据库(http：//arrays.rockefeller.edu/xenopus/links.html)及SAGE(基因表达的连续分析；http：//bioinfo.amc.uva.nl/HTM-bin/index.cgi)数据。

方案：在pSDH质粒中测试STAR元件，在pSS质粒中测试SINC元件。使用标准方案转染三种细胞系：人U-2 OS骨肉瘤细胞系(Heldin等，1986)，来自非洲绿猴肾的Vero细胞系(Simizu等，1967)，及来自中国仓鼠卵巢的CHO细胞系(Kao和Puck，1968)。能在所有这三种细胞系中起作用的元件被分类为混栖的。仅在一或两种所述细胞系中显示活性的那些元件被分类为限于细胞类型的功能性。

启动子特异性：目前相对于两种启动子选择STAR和SINC元件并测试功能，即完整的巨细胞病毒(CMV)启动子或四环素效应元件及最小CMV启动子(与tTA转录激活子组合)。为评定启动子特异性，用其它常用的病毒启动子测试STAR和SINC功能，所述启动子即猿猴病毒40(SV40)早期和晚期启动子，腺病毒ElA和主要晚期启动子，及Rous肉瘤病毒(RSV)长末端重复(Doll等，1996；Smith等，2000；Weaver及Kadan，2000；Xu等，1995)。通过标准技术(Sambrook等，1989)，将这些启动子的每一种与STAR或SINC元件一起分别克隆入pSelect和pSS质粒中。将所得质粒转染进人U-2 OS细胞系中并如上所述分析报道基因表达。SINC元件沉默这些启动子的能力，或者STAR元件保护抗沉默的能力，通过与没有STAR或SINC元件的质粒对比而确定。

实施例9：改良STAR和SINC元件的方法

背景：开发改良的STAR和SINC元件。改良使元件的抗阻抑或阻抑活性强度增强，而且使元件具有可诱导性及组织特异性。这些改良通过组合技术产生。

方案

强制进化：使用易错PCR(Cberry等1999；Henke和Bornscheuer，1999)在每个元件中平均导入一至两个点突变。使用含有报道基因选择标记融合蛋白的pSelect(或pSS)质粒筛选诱变的元件，通过例如荧光激活细胞淘选及抗生素抗性而筛选(Bennett等，1998)。接着进行若干轮易错PCR和选择，以衍生活性得以进一步改良的元件。

串联和异源组合：如上所述，测试串联和异源组合的元件活性，与单一元件相对比(实施例3)。

逐个测试STAR和SINC元件的相对显性。这用于测试元件的强度；例如如果一种新的STAR元件相对于一种已知的强SINC元件是显性的，则将该STAR分类为极强的元件。还考虑了STAR和SINC之间的显性关系是细胞类型、组织或启动子特异性的这一可能性(实施例8)。显性测试利用pSelect质粒，通过标准重组DNA技术(Sambrook等，1989)，各个SINC元件置于各个STAR元件的上游。用该质粒转染U-2 OS细胞，并分析报道基因表达。SINC显性通过与只具有STAR元件的质粒相比表达较低而体现，而STAR显性通过与只具有SINC元件的质粒相比表达较高而体现。

在STAR和SINC元件中导入结合其它DNA结合蛋白的结合位点以增加新的特征(例如可诱导性，组织特异性)。

背景：可调节的STAR和SINC元件通过将其与用于结合信号依赖性DNA结合蛋白的结合位点组合而产生。在一个实施例中，这包括将STAR或SINC或STAR/SINC组合与一种糖皮质激素效应元件(GRE)并列。在没有糖皮质激素刺激的情况下，STAR或SINC元件如所描述那样起作用。在糖皮质激素刺激时，天然存在的糖皮质激素受体结合GRE并干扰STAR或SINC功能。

方案：使用常规DNA克隆(Sambrook等，1989)，将GRE分别导入pSelect或pSS载体中与STAR或SINC元件相邻。将该质粒如上所述转染进U-2 OS细胞中。将细胞分为两组培养物；一组用糖皮质激素处理(10μM)。测定报道基因的表达并在两组培养物之间进行对比。表达水平的不同表明通过信号依赖性DNA结合蛋白的作用调节STAR和SINC功能的能力。

混栖的STAR和SINC元件：测试或增强这些特征包括在不同细胞系中培养，及不用抗生素选择而长期培养(实施例8和10)。

实施例10：STAR和SINC元件使得转基因保持不需要持续选择

背景：在转基因技术中，依赖选择标记有两个缺点：选择试剂通常较昂贵并需要细胞代谢成本，而且在转基因应用中包括选择标记存在及法律上和伦理上的反对意见，尤其如果转基因自身存在于产物中时(例如农作物，基因治疗载体)。STAR和SINC元件在确定转基因分离株后降低或消除了维持选择的需要。因此，抗性基因可以通过位点特异性重组从转基因基因组中除去，同时避免转基因表达丧失。

方案：含有染色体整合的在报道基因两侧的STAR元件的稳定转染的U-2 OS细胞系通过用pSDH质粒和如上所述反式作用抗生素抗性质粒共转染而产生。这个实验包括测试在无选择的延长的(3-6个月)培养期间，在这些细胞系中报道基因表达水平的稳定性。这是在pSDH质粒中用在萤光素酶或GFP报道基因两侧的STAR元件测试的。抗生素抗性基因通过构建一种表达质粒(基于pSDH)除去，其中抗生素选择标记两侧为重组酶靶位点。选择标记随后通过重组酶活性切除，如上所述(实施例2)。

实施例11：通过在表达系统中应用STAR元件改善可预测性(predictability)及产量

STAR元件的作用是阻断对转基因表达单位的转录阻抑影响的作用。这些阻抑影响可以是由于异染色质(“位置作用”，(Boivin &Dura，1998))或转基因的相邻拷贝(“重复诱导的基因沉默”，(Garrick等，1998))所致。STAR元件对异源蛋白质产生的两个益处是提高了发现高表达原代重组宿主细胞的可预测性，及在生产周期期间增加了产量。这些益处在这个实施例中得以证明。

材料和方法

构建pSDH载体和含有STAR的衍生物：pSDH-Tet载体如下构建：从质粒pREP4-HSF-Luc经聚合酶链反应(PCR)扩增萤光素酶开放读框(van der Vlag等，2000)，使用引物C67和C68(所有PCR引物和诱变寡核苷酸均示于表5)，并将这一SacII/BamHI片段插入SacII/BamHI消化的pUHD10-3(Gossen & Bujard，1992)中。将萤光素酶表达单位用引物C65和C66再扩增，并再插入pUHD10-3中以使其两侧为两个多克隆位点(MCSI和MCSII)。然后通过用EcoRI消化及插入一个接头(由退火的寡核苷酸D93和D94组成)，将一个AscI位点导入MCSI中。用引物D90和D91从质粒pCMV-Bsd(InvitrogenK510-01)中扩增CMV启动子，并用于通过SalI/SacII消化及连接置换pSDH-Tet中的Tet-Off启动子，产生载体pSDH-CMV。这个载体中的萤光素酶开放读框如下由SEAP(分泌型碱性磷酸酶)置换：将载体pSDH-CMV用SacII和BamHI消化并平端化；通过EcoRI/SalI消化从pSEAP-basic(Clontech 6037-1)中分离SEAP开放读框，平端化并连接于进pSDH-CMV中产生载体pSDH-CS。使用引物C81和C82通过PCR从质粒pBabe-Puro(Morgenstern & Land，1990)中分离在SV40启动子控制下的嘌呤霉素抗性基因，将其连接进用NcoI/XbaI消化的载体pGL3-control(BamHI位点已除去)(Promega E1741)中，产生pGL3-puro。将pGL3-puro用BglII/SalI消化以分离SV40-puro抗性基因，将其平端化并连接进NheI消化的平端化pSDH-CS中。所得载体pSDH-CSP示于图7。所有克隆步骤均参照试剂生产商的指导，根据本领域已知方法进行(Sambrook等，1989)。

用合适的限制酶消化STAR元件和pSDH-CSP载体，随后连接而经过两个步骤将STAR元件插入MCSI和MCSII中。重组pSDH载体中STAR元件的方向通过限制性作图确定。插入序列的身份和方向通过DNA序列分析证实。使用Beckman CEQ2000自动DNA测序仪根据厂商指导通过双脱氧方法(Sanger等，1977)进行测序。简而言之，使用QIAprep Spin Miniprep及Plasmid Midi试剂盒(分别为QIAGEN27106和12145)，从大肠杆菌中纯化DNA。使用通用寡核苷酸C85，E25和E42(表5)，在染料终止子的存在下(CEQ染料终止循环测序试剂盒，Beckman 608000)进行循环测序。

用pSDH质粒转染和培养CHO细胞：将中国仓鼠卵巢细胞系CHO-K1(ATCC CCL-61)在含有2mM谷氨酰胺，100U/ml青霉素和100μg/ml链霉素的HAMS-F12培养基+10％胎牛血清中，在37℃/5％CO₂中培养。使用SuperFect(QIAGEN)，如厂商所述将细胞用pSDH-CSP载体及其在在MCSI和MCSII中含有STAR6或STAR49的衍生物转染。简而言之，将细胞种植于培养瓶中并生长过夜至70-90％铺满。将SuperFect试剂与质粒DNA(在此实施例中通过PvuI消化而线性化)以6μl/1μg的比率组合(例如对于10cm Petri培养皿，20μg DNA/120μl SuperFect)，并加入细胞中。在温育过夜后，将转染混合物更换新鲜培养基并进一步温育转染的细胞。在过夜温育后，加入5μg/ml嘌呤霉素。嘌呤霉素选择在2周内完成，之后随机分离各个嘌呤霉素抗性CHO/pSDH-CSP克隆并进一步培养。

分泌型碱性磷酸酶(SEAP)分析：如厂商指导所述(Clontech GreatEscAPe试剂盒#K2041)，确定CHO/pSDH-CSP克隆的培养基中SEAP活性(Berger等，1988，Henthorn等，1988，Kain，1997，Yang等，1997)。简而言之，将一份培养基在65℃加热失活，然后与分析缓冲液和CSPD化学发光底物组合，在室温温育10分钟。然后在发光计(Turner20/20TD)中测定底物转换率。细胞密度在Coulter ACT10细胞计数仪中通过计数胰蛋白酶化细胞而确定。

用pSDH质粒转染和培养U-2 OS细胞：将人骨肉瘤细胞系U-2OS(ATCC #HTB-96)在含有谷氨酰胺，青霉素和链霉素(如前)的Dulbecco′s修改的Eagle培养基+10％胎牛血清中，在37℃/5％CO₂培养。使用SuperFect(QIAGEN)，如厂商所述将细胞用pSDH-CMV载体及其在MCSI和MCSII中含有STAR6或STAR8的衍生物共转染。嘌呤霉素选择在2周内完成，之后随机分离各个嘌呤霉素抗性U-2OS/pSDH-CMV克隆并进一步培养。

萤光素酶分析：在重悬的细胞中，根据分析试剂盒的厂商指导(Roche 1669893)，使用已知发光计(Turner 20/20TD)分析萤光素酶活性(Himes & Shannon，2000)。总细胞蛋白浓度通过双金鸡宁酸方法，根据厂商指导(Sigma B-9643)测定，并用于校正萤光素酶数据。

结果：

将含有pSDH-CSP载体的重组CHO细胞克隆或含有含STAR6或STAR49(表6)的pSDH-CSP质粒的重组CHO细胞克隆培养3周。然后测定培养上清中SEAP活性，并基于细胞数目表示(图8)。可以看出，分离到了在表达单位中具有STAR元件的克隆，其比表达单位中不包括STAR元件的克隆的SEAP活性表达水平高2-3倍。另外，以不含STAR的克隆(STAR-less clone)的最大活性或高于此活性表达SEAP活性的含STAR的克隆数非常高：25％-40％的STAR克隆群超过了pSDH-CSP克隆的SEAP最高表达水平。

将含有pSDH-CMV载体的重组U-2 OS细胞克隆或者含有含STAR6或STAR8(表6)的pSDH-CMV质粒的重组U-2 OS细胞克隆培养3周。然后测定宿主细胞中的萤光素酶活性，并以校正至总细胞蛋白的相对萤光素酶单位表示(图9)。在表达单位两侧具有STAR元件的重组U-2 OS克隆比不含STAR的克隆具有更高的产量：在STAR8克隆中观测到的最高表达比不含STAR的克隆高2-3倍。STAR6克隆的最大表达水平比不含STAR的克隆高5倍。STAR元件还赋予更高的可预测性：针对两种STAR元件，15-20％的克隆表现的萤光素酶表达水平与具有最高表达水平的不含STAR的克隆相当或更高。

这些结果表明当与强CMV启动子一起使用时，STAR元件能提高异源蛋白质(萤光素酶和SEAP)的产量。在这个实施例中导入的所有三种STAR元件均使产量增加。由STAR元件赋予的可预测性增加体现在存在大比例的产量等于或高于不含STAR的克隆所展现的最高产量的克隆。

实施例12：STAR元件改善转基因表达的稳定性

在重组宿主细胞的培养期间，一般要维持抗生素选择，目的在于防止转基因的转录沉默，或者防止由于诸如重组等过程而导致的从基因组中丧失转基因。然而，这对于异源蛋白生产是不希望的，原因有很多。首先，使用的抗生素非常昂贵并使产品的单位成本显著增加。其次，对于生物制药应用，蛋白质必需是确实纯的，在产物中无任何抗生素痕迹。STAR元件对于异源蛋白生产的一个优势是在延长的培养期间，即使在无抗生素选择的情况下，其也赋予转基因稳定表达，这种性质在这个实施例中加以证实。

材料和方法

将U-2OS细胞系用质粒pSDH-Tet-STAR6转染并如实施例11所述培养。分离各个嘌呤霉素抗性克隆并在无强力霉素存在下进一步培养。每隔一周将细胞以1∶20的稀释度移至新鲜培养瓶中。如实施例11所述定期测定萤光素酶活性。15周后，将培养物分为两份，一份继续给予嘌呤霉素，另一份不给予抗生素进行其余的实验(共25周)。

结果

表7示出在有或无抗生素的长期培养期间，由两侧具有STAR6的表达单位表达的萤光素酶表达数据。可以看出，报道转基因萤光素酶的表达在实验期间在U-2 OS宿主细胞中均保持稳定。在将培养物分成两组处理后(加抗生素及无抗生素)，萤光素酶的表达在无抗生素选择的情况下仍基本稳定。这表明了STAR元件在长期培养期间保护转基因免于沉默或丢失的能力。还表明这种性质不依赖于抗生素选择。

因此，异源蛋白质生产可以不用消耗抗生素及不必进行困难的下游加工。

实施例13：STAR元件的最小基本序列(minimal essential sequence)

STAR元件分离自实施例1所述的遗传筛选。该筛选使用用人基因组DNA构建的文库，其经大小分级分离为大约0.5-2kb(如前)。STAR元件的范围是500-2361碱基对(表6)。对于许多已经分离的STAR元件，STAR活性很可能由比初始分离的克隆更小的DNA片段赋予。有必要测定STAR活性所必需的这些最小片段大小有两个原因。首先，较小的功能性STAR元件在设计小型(compact)表达载体中更有优势，因为较小的载体转染宿主细胞效力较高。其次，测定最小的基本STAR序列可以修饰那些序列以增强功能性。已经对两种STAR元件进行精细作图以确定其最小基本序列。

材料和方法：

对STAR10(1167碱基对)和STAR27(1520碱基对)进行精细作图。将它们通过PCR扩增以产生几乎等长的亚片段(图10)。初始测试中，将这些亚片段克隆入pSelect载体中的BamHI位点，并转染进U-2OS/Tet-Off/LexA-HP1细胞中，如实施例1所述。在潮霉素抗性选择后，通过降低强力霉素浓度诱导LexA-HP1。然后将转染的细胞与zeocin温育以测试所述STAR片段保护SV40-Zeo表达单位免于因LexA-HP1结合所致的阻抑。

结果

在这个实验中，正如所预期的，STAR10和STAR27赋予良好的抗基因沉默的保护作用(图10)。这通过在存在zeocin的情况中下的旺盛生长而证明。

在三个STAR10亚片段中，10A(～400碱基对)赋予转染的细胞在zeocin存在下的旺盛生长，超过全长STAR元件的程度。用含有其它两个亚片段的pSelect构建体转染的细胞在存在zeocin时不生长。这些结果表明所述约400碱基对的10A片段包含了负责STAR10的抗阻抑活性的DNA序列。

在这个实验中，STAR27赋予转染的细胞在zeocin中以中等程度生长(图10)。这个STAR的一个亚片段27B(～500碱基对)使宿主细胞在含有zeocin的培养基中微弱生长。这提示这种STAR的抗阻抑活性部分位于亚片段27B上，但全部活性也要求来自27A和/或27C(均约500碱基对)的序列。

实施例14：STAR元件在不同株的培养的哺乳动物细胞中均起作用选择宿主细胞进行异源蛋白表达对该蛋白质的特性、产量和单位成本是一个重要参数。对这种翻译后修饰，分泌途径能力及细胞系的无限增殖性的考虑确定了针对特定生物制药生产系统的合适细胞系。为此，由STAR元件提供的在产量，可预测性和稳定性方面的优势应在不同细胞系中均可获得。这通过对比STAR6在其最初克隆进的人U-2 OS细胞系中的功能及其在广泛应用于生物技术中的CHO细胞中的功能而测试。

材料和方法：

参见实施例11所述实验。

结果

SEAP报道基因在CHO细胞中的表达示于图8，萤光素酶报道基因在U-2 OS细胞中的表达示于图9。通过对比这两个实验的结果，很明显STAR6元件在这两个细胞系中均发挥功能：当报道基因被STAR6保护而免受位置作用时，报道基因表达在这二者中更可预测，每个细胞系的克隆均展示更高的产量。这两个细胞系衍生自不同物种(人和仓鼠)及不同的组织类型(骨和卵巢)，反映出可利用这种STAR元件改良异源蛋白表达的宿主细胞范围很广泛。

实施例15：STAR元件对各种转录启动子均有功能

转基因转录通过将转基因开放读框置于一种外源启动子控制下而实现。启动子的选择受异源蛋白质的性质及生产系统的影响。在大多数情况中，优选强组成型启动子，因为它们可以提供高产量。一些病毒启动子具有这些性质：巨细胞病毒立即早期基因的启动子/增强子(“CMV启动子”)在一般的生物技术应用中通常被认为是最强的启动子(Boshart等，1985，Doll等，1996，Foecking & Hofstetter，1986)。猿猴病毒SV40启动子也是中等强度的(Boshart等；1985，Foecking &Hofstetter，1986)而且通常在哺乳动物细胞载体中用于异位表达。Tet-Off启动子是可诱导的：该启动子在存在四环素或相关抗生素(通常使用强力霉素)的情况下，在表达tTA质粒(Clontech K1620-A)的细胞系中被阻抑，而除去该抗生素会诱导转录(Deuschle等，1995，Gossen & Bujard，1992，Izumi & Gilbert，1999，Umana等，1999)。

材料和方法：

pSDH-Tet和pSDH-CMV载体的构建见实施例11所述。pSDH-SV40如下构建：从质粒pSelect-SV40-Zeo(实施例1)经PCR扩增SV40启动子(引物D41和D42)，随后用SacII和SalI消化PCR产物，将pSDH-CMV载体用SacII和SalI消化以除去CMV启动子，并将该载体和SV40片段连接在一起产生pSDH-SV40。将STAR6如实施例11所述克隆在MCSI和MCSII中。使用SuperFect根据厂商指导将质粒pSDH-Tet，pSDH-Tet-STAR6，pSDH-Tet-STAR7，pSDH-SV40和pSDH-SV40-STAR6与pBabe-Puro共转染进U-2 OS中。如实施例11所述进行细胞培养，嘌呤霉素选择及萤光素酶分析。

结果

图9，11和12对比了来自三种不同启动子的萤光素酶报道基因的表达：两种强组成型病毒启动子(CMV和SV40)，及诱导型Tet-Off启动子。所有这三种启动子均在U-2 OS细胞中相对于STAR6元件进行测试。结果表明来自所有三种启动子的产量和可预测性均由STAR6提高。如实施例11和14所述，STAR6对于CMV启动子是有益的(图9)。在SV40启动子中可见相似的促进作用(图11)：最高表达的STAR6克隆的产量比最佳pSDH-SV40克隆高2-3倍，而且有6个STAR克隆(克隆群的20％)的产量高于最佳的不含STAR克隆的产量。对于诱导浓度(低强力霉素)的Tet-Off启动子，STAR6也增加了转基因表达的产量和可预测性(图12)：最高表达的STAR6克隆比最佳pSDH-Tet克隆产量高20倍，而且有9个STAR6克隆(克隆群的35％)的产量高于最佳的不含STAR克隆。由此可以得出结论，这一STAR元件的转基因保护性质是通用的，因为其对于在各种生物技术有效的转录启动子均有作用。

实施例16：STAR元件功能可以定向

虽然短核酸序列可以是对称的(例如回文的)，但较长的天然存在的序列典型地是不对称的。因此核酸序列的信息含量是定向的，而且序列自身可以根据其5’和3’末端加以描述。核酸序列信息的定向性影响重组DNA分子使用本领域已知标准克隆方法装配(Sambroo等，1989)得到的排列。STAR元件是长的不对称DNA序列，而且基于它们在pSelect载体中最初克隆的方向而具有定向性。在上述实施例中，使用pSDH载体中的两个STAR元件，保留了这种定向性。这个方向相对于zeocin抗性基因描述为天然方向或5′-3′方向(见图13)。在本实施例中，在pSDH-Tet载体中测试了STAR功能定向性的重要性。由于pSDH载体中的报道基因在两侧均有感兴趣STAR元件拷贝，因此必须考虑到每个STAR拷贝的方向。本实施例对比了天然方向与相反方向(图13)。

材料和方法：

如实施例11所述，将STAR66元件克隆入pSDH-Tet中。将U-2OS细胞用质粒pSDH-Tet-STAR66-天然方向和pSDH-Tet-STAR66-相反方向共转染，并如实施例11所述培养。分离各个克隆并培养；如前所述测定萤光素酶表达水平。

结果

天然方向和相反方向STAR66的活性对比结果示于图14。当STAR66呈相反方向时，只有一个克隆的产量相当高(60萤光素酶单位)。相反，当STAR66呈天然方向时，最高表达克隆的产量明显更高(100萤光素酶单位)，而且可预测性也高得多：天然方向群体中有7个克隆(30％)表达萤光素酶的水平高于相反方向群体中的最高表达克隆的水平，而且天然方向群体中有15个克隆(60％)表达萤光素酶的水平高于10个相对萤光素酶单位。

实施例17：在STAR元件情况下的转基因表达依赖于拷贝数

用于异源蛋白表达的转基因表达单位通常整合进宿主细胞的基因组中，以保证在细胞分裂期间稳定保持。整合可以导致表达单位的一或多个拷贝插入基因组中；多个拷贝可以或不以串联阵列存在。由STAR元件保护的转基因已证实的产量增加提示STAR元件能使转基因表达单位不依赖于对与基因组中整合位点相关的转录的影响而起作用(不依赖于位置作用(Boivin & Dura，1998))。这进一步提示当STAR元件以串联产量阵列整合时，它们使每个表达单位均不依赖于邻近拷贝的表达单位而起作用(不依赖于重复诱导的基因沉默(Garric等，1998))。拷贝数依赖性从转基因表达水平与拷贝数之间的关系中确定，如以下实施例所述。

材料和方法

如前所述将U-2OS细胞用pSDH-Tet-STAR10共转染并在嘌呤霉素选择下培养(如前)。分离八个克隆进一步培养，然后收获细胞，将一部分细胞如前所述进行萤光素酶活性分析。将剩余细胞裂解，使用DNeasy Tissue试剂盒(QIAGEN 69504)根据厂商指导纯化基因组DNA。通过UV分光光度计定量DNA样品。将3μg每种基因组DNA样品根据厂商指导用PvuII和XhoI消化过夜(New England Biolabs)，通过琼脂糖凝胶电泳分辨。将DNA片段如前所述(Sambrook等，1989)移至一个尼龙膜上，并用针对萤光素酶基因放射性标记的探针(分离自BamHI/SacII-消化的pSDH-Tet)进行杂交。如前所述(Sambrook等，1989)洗涤印迹并对磷光图像屏曝光(PersonalF/X，BioRad)。所得放射自显影图(图15)通过光密度测定法分析以测定萤光素酶DNA条带的相对强度，其代表转基因拷贝数。

结果

来自pSDH-Tet-STAR10克隆群中的克隆中萤光素酶的酶活性和拷贝数(DNA条带密度)示于图16。在这些pSDH-Tet-STAR10克隆中，转基因拷贝数与萤光素酶表达水平高度相关(r＝0.86)。这提示STAR10赋予转基因表达单位拷贝数依赖性，使转基因表达不依赖于串联阵列中其它转基因拷贝，及不依赖于在整合位点的基因沉默影响。

实施例18：STAR元件起增强子阻断子(blocker)而非增强子的作用

基因启动子引发转录的能力既受阳性影响又受阴性影响。发挥阳性影响的一类重要元件是增强子。增强子特征在于即使当它们位于远离(几千碱基对)启动子的位置时，也能影响启动子。由异染色质形成(例如Polycomb group蛋白)产生的阴性影响在上文已经描述，这些是STAR活性的靶位。增强子功能和异染色质形成的生物化学基础基本相似，因为它们均涉及蛋白质与DNA的结合。因此，重要的是测定STAR元件是否能阻断阳性影响以及阴性影响，换而言之，是否能保护转基因免受整合位点邻近的基因组增强子的作用。保护转基因免于增强子活性作用的能力保证转基因在生物技术应用中的稳定的和可预测的性能。这个实施例检测了STAR元件在增强子阻断分析中的性能。

STAR活性对其功能很重要的另一个特征是其赋予转基因以增加的产量(实施例11)。基于STAR在异染色质形成蛋白结合至候选STAR元件附近时保持zeocin高水平表达的能力而分离这些STAR。高水平表达是预期发生的，因为预期STAR阻断异染色质扩散至zeocin表达单位中。然而，另一种设想是zeocin-抗性克隆中的DNA片段含有增强子。已经证明增强子具有克服Polycomb-group蛋白如STAR筛选方法(Zink & Paro，1995)中使用的那些蛋白的阻抑作用的能力。通过这种现象分离的增强子被认为是假阳性的，因为增强子不具有本文指出的STAR的性质。为论证STAR元件不是增强子，在增强子分析中对它们进行了测试。

增强子阻断分析和增强子分析在方法学和概念上是相似的。所述分析图示于图17。STAR元件阻断增强子的能力使用E47/E-box增强子系统进行。E47蛋白当结合位于启动子邻近的E-box DNA序列时，能激活这些启动子的转录(Quong等，2002)。E47通常参与调节B和T淋巴细胞分化(Quong等，2002)，但当异位表达时其能在不同细胞类型中起作用(Petersson等，2002)。E-box是一种回文DNA序列CANNTG(Knofler等，2002)。在增强子阻断分析中，将一个E-box置于表达载体中萤光素酶报道基因上游(包括最小启动子)。STAR元件的克隆位点置于E-box和启动子之间。E47蛋白在另一种质粒上编码。该分析通过将E47质粒和萤光素酶表达载体均转染进细胞中而进行；E47蛋白被表达并结合E-box，E47/E-box复合物能作为增强子。当萤光素酶表达载体不含有STAR元件时，E47/E-box复合物增强萤光素酶表达(图17A，实验情形1)。当STAR元件插入在E-box和启动子之间时，其阻断增强子的能力通过萤光素酶活性表达降低而证明(图17A，实验情形2)；如果STAR不能阻断增强子，则萤光素酶表达被激活(图17A，实验情形3)。

STAR元件作为增强子的能力利用相同的萤光素酶表达载体测试。在不存在E47时，E-box自身不影响转录。反之，STAR元件的增强子行为将导致萤光素酶转录激活。该分析通过转染萤光素酶表达载体而不转染E47质粒进行。当表达载体不含有STAR元件时，萤光素酶表达很低(图17B，实验情形1)。如果STAR元件不具有增强子性质，当载体中存在STAR元件时，萤光素酶表达很低(图17B，实验情形2)。如果STAR元件具有增强子性质，在含有STAR的载体中萤光素酶表达将被激活(图17B，实验情形3)。

材料和方法

萤光素酶表达载体通过将来自质粒mu-E5+E2x6-cat(x)(Ruezinsky等，1991)的E-box和人碱性磷酸酶最小启动子插入质粒pGL3-basic(PromegaE1751)中萤光素酶基因的上游而构建，产生pGL3-E-box-luciferase(W.Romanow惠赠)。E47表达质粒含有在pHBAPr-1-neo质粒中β-肌动蛋白启动子控制下的E47开放读框；E47从该质粒中组成型表达(W.Romanow惠赠)。STAR元件1，2，3，6，10，11，18和27已经克隆进萤光素酶表达载体中。含有果蝇scs元件和鸡β-珠蛋白HS4-6x核心(“HS4”)元件的克隆作为阳性对照(已知其阻断增强子，而且无固有增强子性质(Chung等，1993，Kellum& Schedl，1992))，空萤光素酶表达载体作为阴性对照。所有分析均使用U-2 OS细胞系进行。在增强子阻断分析中，将E47质粒与萤光素酶表达载体(空载体，或者含有STAR或阳性对照元件)共转染。在增强子分析中，将E47质粒与不含STAR萤光素酶表达载体共转染，作为增强子活性的阳性对照；所有其它样品在共转染期间接受一种模拟质粒。在质粒转染后48小时对瞬时转染的细胞分析萤光素酶活性(如前所述)。减去不含E-box或STAR/对照元件的质粒表达的萤光素酶活性，并将萤光素酶活性根据蛋白质含量进行校正(如前所述)。

结果

图18示出增强子阻断分析结果。在不存在STAR元件(或已知增强子阻断元件scs和HS4)的情况中，E47/E-box增强子复合物激活萤光素酶的表达(“载体”)；这种增强的表达水平校正为100。增强子活性由测试的所有STAR元件阻断。正如所预期的，增强子活性还由HS4和scs元件阻断(Bell等，2001，Gerasimova & Corces，2001)。这些结果表明除了其阻断转录沉默扩散的能力之外(阴性影响)，STAR元件还能阻断增强子的作用(阳性影响)。

图19示出增强子分析结果。由E47/E-box复合物增强的萤光素酶表达水平设定为100(“E47”)。相比之下，无一STAR元件明显激活萤光素酶表达。正如所预期的，scs和HS4元件也不激活报道基因。因此总结出至少所测试的STAR元件不具有增强子性质。

实施例19：鉴定沉默诱导染色质(Silence Inducing Chromatin，SINC)元件

材料和方法

SINC筛选的一般特征如实施例1所描述，在此概括这种筛选的一些方面。用于筛选基因组DNA中SINC元件的一种pSS载体是pSS-codA∷upp(图20)，其由两侧为STAR6元件的自杀基因表达单位组成。由在Tet-Off启动子控制下的codA∷upp自杀基因组成的表达单位，位于BglII限制位点下游。另一种pSS载体pSS-hrGFP(图21)，通过用STAR8置换一个STAR6元件，及用编码绿色荧光蛋白的hrGFP基因(Stratagene 240059)置换自杀基因而产生。将来自22号染色体的人基因组DNA(Research Genetics 96010-22)用Sau3AI部分消化并按大小分级分离。将0.5-10kbp的级分连接进pSS-codA∷upp的BglII位点。这个文库代表具有平均插入大小为1.2kbp的约20,000个独立克隆。将此文库在大肠杆菌中扩增，通过标准技术(磷酸钙；Life Technoloes 18306-019)将来自扩增的文库的纯化DNA转染进U-2 OS/Tet-Off细胞中(van der Vlag等，2000)。使用空pSS-codA∷upp载体DNA进行对照转染，产生2400个潮霉素抗性集落。将转染的细胞在高浓度强力霉素(10ng/ml)下，在3周时间选择潮霉素抗性(25mg/ml)，并从文库转染中回收1800个潮霉素抗性集落。然后将这些集落在强力霉素浓度为10ng/ml下与1mg/ml前体药物5-胞嘧啶(5-FC)温育，在5mg/ml加强4天。3周后，仅有的3个微弱生长的对照集落(用空pSScodA∷upp转染)死亡；58个该文库转染的集落存活。自前体药物处理中回收这些集落并进一步培养。收获5-FC-抗性分离株，裂解细胞，并将一部分DNA使用引物D30和D51进行PCR扩增，以回收SINC元件。通过常规方法(Sambrook等，1989)，将来自6个5-FC-抗性集落的PCR产物克隆在pBluescript II SK(+)质粒(Stratagene 212207)的HindIII和XhoI位点之间。如前所述使用商购的针对pBluescript载体的引物(Stratagene 300301和300302)确定候选SINC元件的DNA序列。这些SINC元件的序列示于表4B。

将6个候选SINC元件以其天然方向克隆入质粒pSS-hrGFP中，将所得质粒转染进U-2 OS/Tet-Off细胞中，在针对潮霉素抗性选择后，将pSS-hrGFP-SINC转染子在高浓度强力霉素(10ng/ml)下进一步培养。使用RNeasy Mini试剂盒(QIAGEN 74104)根据厂商指导提取总细胞DNA。使用标准技术(Sambrook等，1989)确定在这些群体中GFP mRNA丰度的Northern印迹分析。GFP探针为包含phrGFP-1中bp690-1419位的BamHI-EcoRI片段。对印迹也探查了作为PSS-hrGFP-衍生的质粒拷贝数的对照的潮霉素mRNA，及探查了作为基因组编码的mRNA数量的对照的β-肌动蛋白。潮霉素探针是pREP4(Invitrogen)中从bp8219延伸至10144位的SfuI-Sal I片段，β-肌动蛋白探针来自Clontech，#9800-1。在杂交和洗涤后，将印迹暴露于磷光成像屏，使用BioRad Personal F/X磷光成像仪观察放射性信号并定量。

结果

克隆在GFP报道基因邻近的SINC元件诱导报道基因转录沉默，但不影响其它基因转录。精确测定SINC活性利用这样的事实，即测定相对于两个参照基因的表达的GFP表达水平，而不是简单测定绝对GFP表达。一个参照基因是pSS-hrGFP质粒上的潮霉素抗性基因(在STAR元件限定的结构域之外；图21)，另一个是基因组β-肌动蛋白基因。通过RNA印迹分析定量SINC活性为GFP信号与潮霉素和β-肌动蛋白信号比的降低。在已经鉴定的候选SINC元件中，一些元件显示出显著的GFP转录相对降低，表明这些DNA能诱导沉默染色质形成。SINC35元件(表4B中标为PSINKS35)在这些候选物中具有最强活性，其使GFP/潮霉素之比降低大约69％，及使GFP/β-肌动蛋白信号比降低75％。在最初申请中描述的其它5个候选物中及在该申请递交后分离并鉴定的一些其它候选SINC元件中，SINC活性的强度较低。因此，SINC35具有作为强遗传元件的优异性能，能在生物技术应用中诱导沉默染色质。

实施例20：STAR元件在小鼠和人之间是保守的

对人基因组数据库(http：//genome.ucsc.edu/cgi-bin/hgGateway的STAR DNA序列)进行STAR DNA序列的BLAST分析表明这些序列中有一些与人基因组的其它区域具有高序列保守性。这些复制的区域是候选STAR元件；如果它们缺失显示STAR活性，则会被认为是克隆的STAR的横向同源物(如果两个基因或遗传元件衍生自一种复制事件则认为其是横向同源的(Li，1997))。

对小鼠基因组(http：//www.ensembl.org/Mus_musculus/blastview)进行人STAR的BLAST分析，也揭示了在小鼠和人之间高度序列保守的区域。这种序列保守性在65个人STAR元件中的15个STAR元件的片段中示出。在141-909碱基对的长度上，保守范围是64％-89％(表8)。这些序列保守程度值得注意并提示这些DNA序列在小鼠基因组中也可能赋予STAR活性。表8中小鼠和人基因组的一些序列可以严格定义为直向同源(如果两个基因或遗传元件衍生自一种物种形成事件，在认为它们是直向同源的(Li，1997))。例如，STAR6在人和小鼠基因组中均在SLC8A1和HAAO基因之间。在其它情况中，一种克隆的人STAR在人基因组中具有横向同源物，其直向同源物在小鼠基因组中已经鉴别。例如STAR3a是人染色体15的15q11.2区域的一个片段，这个区域与人染色体5上在IL12B白细胞介素基因附近的5q33.3的DNA片段有96.9％相同(横向同源)。这些人DNA与小鼠染色体11上的11B2区域的一个片段呈现大约80％相同性。该11B2片段也位于(小鼠)IL12B白细胞介素基因附近。因此，STAR3a和小鼠11B2片段可以严格定义为横向同源物。为测试STAR活性在小鼠和人基因组中高序列保守的区域之间是共有的这一假说，将具有在小鼠中是保守的序列的一种人STAR，STAR18，进行更详细分析。用最初的STAR18克隆检测的小鼠基因组中序列保守性在人染色体2上向左延伸大约500碱基对(图22；左侧和右侧相对于染色体2臂的标准描述)。在这个实施例中，我们检测了序列保守区域是否定义了一个比最初的克隆更长的人类中“天然存在的”STAR元件。我们还检测了这种STAR元件的STAR功能在小鼠和人之间是否是保守的。

材料和方法

在STAR18周围的小鼠/人序列保守区域通过PCR扩增回收自人BAC克隆RP11-387A1，分为三个片段：完整区域(引物E93和E94)，左侧一半(引物E93和E92)，及右侧一半(引物E57和E94)。来自同源小鼠区域的相应片段以相同方式回收自BAC克隆RP23-400H17(分别使用引物E95和E98，E95和E96，及E97和E98)。将所有片段均克隆入pSelect载体中并转染进U-2OS/Tet-Off/LexA-HP1细胞系中(如前所述)。在转染后，进行潮霉素选择以选择转染的细胞。通过降低强力霉素浓度而诱导LexA-HP1蛋白，转染的细胞抵挡抗生素zeocin的能力(STAR活性的测定标准)通过监测细胞生长而确定。

结果

最初的STAR18克隆基于其防止zeocin抗性基因沉默的能力分离自连接进pSelect载体中的Sau3AI消化的人DNA。人STAR18克隆(497个碱基对)与小鼠基因组的序列对比表明在直向同源的人和小鼠STAR18区域之间有高度序列相似性(72％)。在延伸至Sau3AI位点左侧488个碱基对的区域中(克隆区域的左侧末端)也有高度相似性(73％)(图22)。在这些序列之外，人和小鼠DNA之间的序列相似性下降至60％之下。

如图22所示，人和小鼠STAR18元件均赋予表达lexA-HP1阻抑蛋白的宿主细胞以在zeocin上的存活能力。最初497个碱基对的STAR18克隆及其小鼠直向同源物均赋予所述生长能力(图22，a和d)。来自这两个基因组的具有高度相似性的相邻488个碱基对区域也赋予生长能力，而且事实上其生长表型比最初的STAR18克隆的表型更强(图22，b和e)。当测试序列相似性的完整区域时，小鼠和人的这些DNA均赋予生长能力，而且生长表型比两个亚片段更强(图22，c和f)。这些结果表明人STAR18的STAR活性在来自小鼠的直向同源物中是保守的。这些这些直向同源区之间的高度序列保守性是特别值得注意的，因为它们不是蛋白质编码序列，由此得出结论，它们具有某些防止其通过突变而进化分歧的调节功能。

这个分析表明由最初筛选程序鉴别的克隆STAR元件在一些情况中可能是部分STAR元件，而且对含有其的基因组DNA进行分析可以鉴别具有更强STAR活性的序列。

实施例21：STAR元件含有特征性DNA序列基序

STAR元件基于其对转基因表达的抗阻抑表型而分离。这种抗阻抑表型反映了调节与STAR元件相关的染色质形成的潜在生物化学过程。这些过程典型地是序列特异性的，而且得自蛋白质结合或DNA结构。这提示STAR元件会共享DNA序列相似性。在STAR元件中序列相似性的鉴别将提供特征性序列基序，其是已经通过功能筛选和测试鉴别的元件所特有的。所述序列基序也可用于识别和要求保护功能与本专利的权利要求相符的新的STAR元件。所述功能包括改善在真核宿主细胞中表达的转基因的产量和稳定性。

鉴别STAR元件特有的序列基序的其它益处包括：(1)提供预测及鉴别基因组数据库中新STAR元件的检索基序，(2)提供修饰所述元件的基本原理，(3)提供用于STAR活性功能分析的信息。使用生物信息学，已经鉴别了STAR元件中的序列相似性；结果在这个实施例中给出。

生物信息学和统计学背景：调节性DNA元件典型地通过与序列特异性DNA结合蛋白的相互作用而发挥功能。对调节特性已经鉴别但相互作用蛋白未知的DNA元件如STAR元件进行生物信息学分析，需要一种统计法以鉴别序列基序。这可以通过一种方法实现，即检测与参比序列(例如完整人基因组)相比，在一系列调节DNA元件(例如STAR元件)中过量存在的短DNA序列模式。所述方法确定了观测的及预期的该模式在每个调节元件中的出现次数。预期的出现次数从在参比序列中观测的每种模式出现次数中计算。

DNA序列模式可以是给定长度的寡核苷酸，例如6个碱基对。在最简单的分析中，对于由四个核苷酸(A，C，G和T)组成的6个碱基对寡核苷酸(六聚体)，有4^6＝4096种不同的寡核苷酸(从AAAAAA至TTTTTT的所有组合)。如果调节和参比序列是完全随机的而且具有等比例的A，C，G和T核苷酸，则每种六聚体的预期频率是1/4096(～0.00024)。然而，在参比序列中每种六聚体的实际出现频率典型地与此不同，这是由于G:C碱基对等的含量不同所致。因此，参比序列中每个寡核苷酸的出现频率通过计数而经验性确定，产生这些模式的“频数表(frequency table)”。

参比序列的模式频数表然后用于计算在调节元件集中每种模式的预期出现频率。将模式的预期出现频率与观测的出现频率对比。鉴别了在该调节元件集中“过量存在(over-represented)”的模式；例如如果六聚体ACGTGA在20kbp的序列中预期出现5次，但观测到出现15次，则其是三倍过量存在的。如果调节元件具有与完整基因组相同的六聚体组分，则预期该六聚体序列模式15次出现中有10次不应出现在所述元件中。一旦鉴别出过量存在模式，则应用一统计学检验确定其过量存在是否显著义，或者也许是由于机会所致。对于该检验，对每种模式均计算一个显著性指数“sig”。该显著性指数得自每种模式的出现概率，其是通过二项分布估算的。该概率考虑到可能存在的模式数(对六聚体有4096个)。最高的sig值相当于最过量存在的寡核苷酸(van Helden等，1998)。实际上，sig＞＝0的寡核苷酸被认为是过量存在的。sig＞＝0的模式可能会由于机会而在调节元件序列集过量存在一次(＝10^0)。然而，sig＞＝1的模式预期在10个(＝10^1)序列集中这样过量存在一次，sig＞＝2的模式预期在100个(＝10^2)序列集中这样过量存在一次，等等。在调节元件集中显著过量存在的模式用于开发一种模型，以分类和预测调节元件序列。这应用的是判别分析，一种本领域技术人员已知的所谓统计学分类“监督”方(Huberty，1994)。在判别分析中，已知的或分类的项目(例如STAR元件)集用于“训练”一种模型以基于特异性变量(例如序列模式如六聚体)识别那些项目。然后将训练的模型用于预测其它项目是否应分类为属于已知项目集(例如是一个DNA序列，一种STAR元件)。在本实施例中，训练集中已知项目是STAR元件(阳性训练集)。它们与从基因组中随机选择的与STAR元件等长的序列(阴性训练集)相反。判别分析建立了标准，用于基于辨别阳性的变量集将阳性与阴性区分开；在本实施例中，所述变量是显著过量存在的模式(例如六聚体)。

当与训练集的大小相比，过量存在的模式数目较高时，该模型会由于过度训练而结果偏差。过度训练通过应用变量的一正向逐步选择而避免(Huberty，1994)。逐步判别分析的目的是选择在阳性和阴性之间提供最大判别性的变量的最小数目。该模型通过逐个评估变量将所述项目正确分类进阳性和阴性训练集中的能力而训练。持续进行直至在该模型中加入新的变量不会显著提高模型的预测能力(即直至分类误差率最小)。这个最佳化的模型然后用于测试，以预测“新”项目是阳性还是阴性的(Huberty，1994)。

在分类统计学中固有的是，对于复杂项目如DNA序列，阳性训练集的一些元件会被分类为阴性(假阴性)，阴性训练集的一些成员会被分类为阳性(假阳性)。当一种训练模型用于测试新项目时，预期会发生相同类型的错误分类。在所述生物信息学方法中，第一个步骤，即模式出现频率分析将大的序列模式集(例如所有4096个六聚体)降低为较小的显著过量存在的模式集(例如100个六聚体)；在第二个步骤中，逐步判别分析将过量存在的模式集降低为具有最大判别能力的那些模式的亚集(例如5-10个六聚体)。因此，这个方案提供了鉴别调节性DNA元件如STAR元件的简便及强有力标准。

DNA-结合蛋白可以基于它们占据的结合位点的类型而区分。一些蛋白质识别相邻的序列；针对这种类型蛋白质，长度为6个碱基对的寡核苷酸(六聚体)模式在生物信息学分析中富有成效(van Helden等，1998)。其它蛋白质结合序列dyad：在由非保守的定宽区域分隔的成对高保守三核苷酸之间进行接触(van Helden等，2000)。为鉴别STAR元件中可由dyad结合蛋白结合的序列，针对这类模式也进行出现频率分析，其中两个三核苷酸之间的间隔为0至20(即XXXN{0-20}XXX，其中X是组成三核苷酸的特异核苷酸，N是长度为0-20个碱基对的随机核苷酸)。Dyad频率分析的结果也用于上述线性判别分析。

材料和方法

使用最初专利申请中所述的遗传筛选方法，从人基因组DNA中初始分离了66种STAR元件并进行了详细鉴定(表6)。该筛选在通过Sau3AI消化的人基因组DNA构建的基因文库上进行，所述人基因组DNA纯化自胎盘(Clontech 6550-1)或者由细菌/P1(BAC/PAC)人工染色体携带。BAC/PAC克隆含有的基因组DNA来自染色体1的区域(克隆RP1154H19和RP3328E19)，来自HOX同源异型基因簇(克隆RP1167F23，RP1170019和RP11387A1)，或者来自人染色体22(Research Genetics 96010-22)。通过标准技术(Sambrook等，1989)将DNA按大小分级分离，并将0.5-2kb大小的级分连接入BamHI-消化的pSelect载体中。分离含有人基因组DNA的在低浓度强力霉素下赋予zeocin抗性的pSelect质粒，并在大肠杆菌中增殖。产生表6的STAR元件的筛选分析了大约1-2％的人基因组。

这66个质粒中的人基因组DNA插入体通过双脱氧方法测序(Sanger等，1977)，使用Beckman CEQ2000自动DNA测序仪，根据厂商指导进行。简而言之，从大肠杆菌中纯化DNA，使用QIAprep SpinMiniprep和Plasmid Midi试剂盒进行(分别为QIAGEN 27106和12145)。在染料终止子存在下(CEQ染料终止子循环测序试剂盒，Beckman608000)，使用相应于pSelect载体的通用寡核苷酸(引物D89和D95，表5)进行循环测序。使用BLAT(Basic Local Alignment Tool(Kent，2002)；http：//genome.ucsc.edu/cgi-bin/hgGateway；表6)，将装配的STAR DNA序列定位于人基因组中(数据库建于2001年8月和12月)。总计组合的STAR序列包含85.6kbp，平均长度为1.3kbp。

区别人基因组DNA内STAR元件的序列基序通过如下生物信息学分析使用两步程序鉴别(见图23示意图)。该分析有两个输入数据集：(1)STAR元件的DNA序列(使用STAR1-STAR65；表6)；及(2)人基因组的DNA序列(除了染色体1之外；由于其较大而不适合；对于dyad分析，使用人基因组DNA序列的一种随机亚集(约27Mb))。

模式出现频率分析：在该分析中第一个步骤使用RSA-Tools软件(调节序列分析工具；

http：//www.ucmb.ulb.ac.be/bioinformatics/rsa-tools/；参考文献(vanHelden等，1998，van Helden等，2000，van Helden等，2000))，以确定以下信息：(1)人基因组中所有dyad和六聚体寡核苷酸的出现频率；(2)65个STAR元件中所述寡核苷酸和dyad的出现频率；及(3)与基因组相比在STAR元件中过量存在的那些寡核苷酸和dyad的显著性指数。用随机从人基因组中(即从2689×10^3kbp中)选择的与表6所示STAR元件长度匹配的65种序列进行对照分析。

判别分析：将过量存在的寡核苷酸和dyad用于训练模型以通过线性判别分析(Huberty，1994)预测STAR元件。从在频率分析中过量存在的oligo或dyad中选择具有最高个体判别能力的50个模式进行变量预先选择。这些预选的变量然后用于在逐步线性判别分析中训练模型，以选择最具判别力的变量组合(Huberty，1994)。基于最小化分类误差率(假阴性分类百分率)进行变量选择。另外，预期的误差率通过应用相同的判别方法至对照的随机序列集而估算(最小化假阳性分类百分率)。

将来自判别分析训练期的预测模型以两种方式测试。首先，分类用于产生该模型的STAR元件和随机序列(训练集)。其次，分类19种候选STAR元件集合(如上所述通过zeocin选择新近克隆的)中的序列。这些候选STAR元件列于表11(SEQ ID：67-84)。

结果

用RSA-Tools对65个元件进行模式出现频率分析，使用人基因组作为参比序列。发现166个六聚体寡核苷酸在该STAR元件集中与在完整基因组中相比是过量存在的(sig＞＝0)(表9)。最显著的过量存在的寡核苷酸CCCCAC在这65个元件中出现107次，而预期是仅49次。其显著性系数为8.76；换而言之，其过量存在是由于随机机会所致的概率为1/10^8.76，即不到5亿分之一。

95个寡核苷酸的显著性系数大于1，因此在STAR元件中是高度过量存在的。在这些过量存在的寡核苷酸中，它们观测到的和预期的出现频率分别为6和1(针对Oligo 163，CGCGAA，sig＝0.02)至133和95(针对Oligo120，CCCAGG，sig＝0.49)。在预期出现频率中的差异反映了诸如人基因组的G:C含量这些因素。因此寡核苷酸出现次数的差异比其过量存在的重要性略小；例如Oligo 2(CAGCGG)是36/9＝4倍过量存在的，这种过量存在是由于随机机会所致的概率是五千万之一(sig＝7.75)。表9还示出了在其中每个过量存在的寡核苷酸被发现的STAR元件的数目。例如最显著性的寡核苷酸，Oligol(CCCCAC)，出现107次，但只在51个STAR元件中发现，即平均每个STAR出现两个拷贝。丰度最小的寡核苷酸，Oligo166(AATCGG)，每个STAR平均出现一个拷贝(在11个STAR上出现13次)；单一拷贝的寡核苷酸频繁出现，尤其是较低丰度Oligo。在另一个极端中，Oligo 4(CAGCCC)在发现其的那些STAR(37个STARs)中平均出现3次。分布最广泛的寡核苷酸是Oligo 120(CCCAGG)，其在58个STAR上出现(平均每个STAR出现两次)，分布最不广泛的寡核苷酸是Oligo 114(CGTCGC)，其只在6个STAR上出现(平均每个STAR上只出现一次)。

dyad频率分析结果示于表10。与参比序序列相比，在STAR元件集中发现730个dyad是过量存在的(sig＞＝0)。最显著性过量存在的dyad，CCCN{2}CGG，在65个STAR元件中出现36次，但预期只出现7次。其显著性系数为9.31；换而言之，过量存在是由于机会所致的概率为1/10^9.31，即低于20亿分之一。

397个dyad的显著性系数高于1，因此在STAR元件中高度过量存在。在过量存在的dyad中，观测到的和预期的出现频率分别为9和1(针对5个dyad(编号为380，435，493，640和665))至118和63(针对编号30(AGGN{2}GGG)，sig＝4.44)。

对通过模式频率分析发现在STAR元件中过量存在的寡核苷酸和dyad，通过线性判别分析测试其判别能力。通过在50个最具判别力的寡核苷酸(表9)或dyad(10)模式中逐步选择最佳组合而训练判别模型。在掺入4个(dyad)或5个变量后，该模型达到最佳误差率。Oligo分析的判别变量为编号11，30，94，122和160(表9)；dyad分析的变量为编号73，194，419和497(表10)。

然后将判别模型用于分类在训练集中的65个STAR元件及其相关随机序列。使用寡核苷酸变量的模型将65个STAR元件中的46个分类为STAR元件(真阳性)；dyad模型将49个STAR元件分类为真阳性。组合起来，这两个模型将65个STAR元件的59个分类为STAR元件(91％；图24)。dyad模型假阳性率(随机序列分类为STAR)为7个，寡核苷酸模型为8个，两种模型组合预测为13个(20％)。表6中通过LDA未被分类为STAR的STAR元件为STAR 7，22，35，44，46和65。这些元件在功能性分析中呈现稳定抗阻抑物活性，因此它们通过LDA未被分类为STAR的事实提示它们代表另一类STAR元件。

这些模型然后用于分类表11所示测试集中19个候选STAR元件。dyad模型将这些候选STAR中的12个分类为STAR元件，寡核苷酸模型将其中14个分类为STAR。分类为STAR元件的组合候选物数目为15个(79％)。这低于用65个STAR的训练集获得的分类结果，原因有两个。首先，判别模型是用表6的65个STAR元件训练的，而且基于这个训练集的判别变量可能在测试集中的代表性不是很好。其次，测试集中候选STAR序列还未充分定性其体内功能，而且可能包括只具有微弱抗阻抑性质的元件。这个分析表明统计学方法对生物信息学分类STAR元件的能力。STAR序列含有许多dyad和六聚体寡核苷酸模式，它们在STAR序列中与在整体人基因组中相比是显著过量存在的。这些模式可能代表了赋予STAR活性的蛋白质的结合位点；在任何情况中其均形成一序列基序集，可以用于识别STAR元件序列。

使用这些模式通过判别分析识别STAR元件，高比例的通过本发明的遗传筛选获得的元件确实被分类为STAR。这反映了这些元件的根本序列及功能相似性。本发明所述方法(模式频率分析随后判别分析)的一个重要方面是可以反复进行；例如，通过在一个训练集中包括表11所示19个候选STAR元件和表6所示66个STAR元件，可以训练改良的判别模型。这种改良的模型然后可以用于分类其它候选调节元件如STAR。使用本发明的方法在体内大规模筛选基因组序列，组合反复的生物信息学分析，将提供一种判别STAR元件的手段，其渐进性接近元件的100％识别及预测，因为基因组是以其全部筛选的。STAR功能的这些严格和全面预测保证了所有人STAR元件均被识别，而且可用于改良转基因表达。

实施例22：从Arabidopsis thaliana中克隆和定性STAR元件

在转基因植物中转基因沉默在转录和转录后水平均可以出现(Meyer，2000，Vance & Vaucheret，2001)。在任一情况中，所需的转基因表达结果可能由于沉默而受损；低水平表达和转基因的不稳定性导致所需性状(例如有害物抗性)表达不足或者重组蛋白产量低下。还导致可预测性不足：以生物工程学有效水平表达转基因的转基因植物比例低下，从而必需费力及费用昂贵地筛选那些具有有益表达特征的转化个体。本实施例描述了从双子叶植物Arabidopsis thaliana中分离STAR元件，用于防止转基因植物中的转录性转基因沉默。在这个实施例中选择Arabidopsis是因为其是经充分研究的模型生物体：其具有小型基因组，适应遗传和重组DNA处理，而且其基因组已经测序(Bevan等，2001，Initiative，2000，Meinke等，1998)。

材料和方法：

基因组DNA如(Stam等，1998)所述分离自Arabidopsis thaliana生态型Columbia，并用MboI部分消化。通过琼脂糖凝胶电泳将消化的DNA按大小分级分离为0.5-2kbp，并从该凝胶中纯化(QIA quick凝胶提取试剂盒，QIAGEN 28706)，随后连接入pSelect载体中(如前述)。如前述转染进U-2 OS/Tet-Off/LexA-HP1细胞系中，并在低浓度强力霉素下对zeocin抗性进行选择。从zeocin抗性克隆中分离质粒并再转染进U-2 OS/Tet-Off/LexA-HP1细胞系中。

如前述对在再转染时赋予zeocin抗性的Arabidopsis基因组DNA进行测序。通过BLAST分析((Altschul等，1990)；URL http：//www.ncbi.nlm.nih.gov/blast/Blast)，将该DNA序列与Arabidopsis基因组序列进行对比。

通过逆转录PCR(RT-PCR)测定重组宿主细胞中潮霉素和zeocin抗性基因的mRNA水平，进一步测定STAR活性。将U-2OS/Tet-Off/lexA-HP1细胞系的细胞用含有Arabidopsis STAR元件，果蝇scs元件或不含有插入物的pSelect质粒转染(如前述)。将它们在高浓度强力霉素下，在潮霉素上培养2周，然后将强力霉素浓度降低为0.1ng/ml，以诱导lexA-HP1阻抑物蛋白。10天后，通过RNeasy mini试剂盒(QIAGEN 74104)根据厂商指导分离总RNA。使用RevertAidFirst Strand cDNA合成试剂盒(MBI Fermentas 1622)，使用Oligo(dT)18引物，根据厂商指导合成第一链cDNA。将该cDNA等份在PCR反应中用作模板，使用引物D58和D80(针对zeocin标记)，及D70和D71(针对潮霉素标记)，及Taq DNA聚合酶(Promega M2661)。反应条件为94℃1分钟，54℃1分钟，72℃90秒，循环15-20次。这些条件产生输入RNA与PCR产物DNA之间的线性关系。该PCRT产物通过琼脂糖凝胶电泳解离，通过如述(Sambrook等，1989)经Southern印迹检测zeocin和潮霉素条带，使用用纯化的pSelect质粒产生的PCR产物作模板。zeocin和潮霉素信号比相应于zeocin基因的校正后的表达水平。

结果

pSelect载体中的Arabidopsis基因组DNA的文库包含大肠杆菌中69,000个原始克隆，其中80％携带插入体。插入体平均大小为大约1000碱基对；该文库因此代表大约40％的Arabidopsis基因组。

将这个文库的一部分(代表大约16％的Arabidopsis基因组)转染进U-2OS/Tet-Off/LexA-HP1细胞系中。利用潮霉素选择分离转染子，产生27,000个存活集落。然后将这些克隆在低浓度强力霉素下进行zeocin选择。将来自56个抗性集落的推测含有STAR的质粒在大肠杆菌中拯救，并再转染进U-2 OS/TeOff/LexA-HP1细胞中。44个这些质粒(测试质粒的79％)在低浓度强力霉素赋予宿主细胞zeocin抗性，表明该质粒携带STAR元件。这表明在人U-2 OS细胞中进行pSelect筛选对于从植物基因组DNA中检测STAR元件是高效的。

测定这44个候选STAR元件的DNA序列。其中35个鉴别为Arabidopsis细胞核基因组序列数据库中的单一基因座(表12；SEQ ID：85-SEQ ID：119)。4个鉴别为来自叶绿体基因组，4个是来自两个基因座的DNA片段嵌合体，1个在Arabidopsis基因组数据库中未发现。

使用RT-PCR分析，通过确定其防止zeocin抗性基因的转录阻抑的能力测试克隆的Arabidopsis STAR元件的强度。作为针对样品中输入RNA的对照，也测定针对每个STAR转染的潮霉素抗性基因的转录水平。这个分析针对12个Arabidopsis STAR元件进行。结果(图25)表明Arabidopsis STAR元件的保护zeocin抗性基因免于转录阻抑的能力高于果蝇scs元件(阳性对照)和空载体(“SV40”；阴性对照)。特别地，当lexA-HP1阻抑物表达时，STAR-A28和STAR-A30使zeocin抗性基因表达水平比SCS元件导致的水平高2倍(相对于潮霉素抗性基因mRNA的内部对照校正)。这些结果表明本发明的方法可以成功地应用于从除人之外的其它物种中回收STAR元件。其成功用于从植物基因组中回收STAR元件是特别重要的，因为其表明本发明方法可应用于广泛分类学范围，而且因为植物是生物工程发展的一个重要目标。

附图简述

图1：用于选择和鉴定STAR元件的质粒pSelect家族。在混栖的SV40启动子控制下的抗性标记(zeocin或嘌呤霉素)或报道基因(GFP或萤光素酶)邻近于两侧为AscI和HindIII位点的BamHI克隆位点。所述克隆位点的上游是lexA蛋白可以结合的lexA操纵子。嵌合的lexA-Polycomb group蛋白与操纵子的结合引起所述标记或报道基因的阻抑。在克隆位点插入的阻断阻抑的DNA片段通过标记或报道基因的持续表达而鉴别。所述质粒在培养的哺乳动物细胞中的附加型复制是由于oriP序列所致。

图2：用于测试STAR元件的质粒的pSDH家族。两个多克隆位点(MCSI和MCSII)位于报道基因(GFP或萤光素酶)两侧，其表达由上游启动子(CMV，Tet-off或SV40)驱动。将测试的STAR元件在MCSI和MCSII处插入。这些MCS含有单切的限制位点(MCSI：XhoI，NotI，EcoRI，和SalI；MCSII，HindIII，EcoRV，BglII和NheI)。该质粒在哺乳动物细胞基因组中随机整合后进行复制。

图3：过表达萤光素酶的克隆的比例。将U-2 OS人骨肉瘤细胞用pSDH质粒(含有在启动子控制下的萤光素酶报道基因)稳定转染，分离各个转染的克隆并培养。酶学测定萤光素酶表达。确定由含有无STAR的pSDH的克隆表达的萤光素酶平均水平(参比水平)。如果来自所有质粒集合的克隆其萤光素酶活性比参比水平高2倍以上，则认为其是“过表达的”。描绘了每个质粒集合中过表达克隆的百分数。

图4：过表达克隆的过表达倍数。在整合入基因组DNA中的含有STAR的pSDH质粒中的过表达范围通过将每个克隆的萤光素酶活性除以参比水平而测定。对于那些呈现显著表达的克隆(高于参比水平2倍以上)，标注了其实际增加倍数；针对每个质粒绘出这些数据的最小值和中位值。

图5：过表达克隆的过表达倍数。在整合入基因组DNA中的含有STAR的pSDH质粒中的过表达范围通过将每个克隆的萤光素酶活性除以参比水平而测定。针对那些呈现显著表达的克隆(高于参考＝比水平2倍以上)，标注了其实际增加倍数；针对每个质粒绘出这些数据的最大值。

图6：用于选择和鉴定SINC元件的pSS(SINC-Select)质粒。codA∷upp自杀基因编码一种蛋白质，其将前体药物5-氟胞嘧啶转变为毒性药物5-氟尿嘧啶。通过降低四环素浓度进行诱导，宿主细胞变为对前体药物敏感。在克隆位点(BglII-XhoI)插入的具有沉默活性的基因组DNA片段将防止自杀基因表达并使得前体药物抗性集落形成。STAR元件在选择组分两侧以防止沉默的染色质扩散至该质粒的功能成分。该质粒由于oriP序列所致在培养的哺乳动物细胞中附加型复制。

图7：用于测试STAR活性的pSDH-CSP质粒。分泌型碱性磷酸酶(SEAP)到基因在CMV启动子控制下，嘌呤霉素抗性选择标记(puro)在SV40启动子控制下。在这两个基因两侧是可用于克隆STAR元件的多克隆位点。该质粒还具有用于在大肠杆菌中增殖的复制起点(ori)和氨苄青霉素抗性基因(ampR)。

图8：STAR6和STAR49改良了转基因表达的可预测性和产量。测定了用pSDH-CSP，pSDH-CSP-STAR6或pSDH-CSP-STAR49转染的CHO细胞从CMV启动子表达的SEAP。相对于单独的pSDH-CSP构建体，含有STAR的构建体赋予更高的可预测性和提高的产量。

图9：STAR6和STAR8改良了转基因表达的可预测性和产量。测定了用pSDH-CMV，pSDH-CMV-STAR6或pSDH-CMV-STAR8转染的U-2 OS细胞从CMV启动子表达的萤光素酶。相对于单独的pSDH-CMV构建体，含有STAR的构建体赋予更高的可预测性和提高的产量。

图10：STAR10和STAR27的最小基本序列。将STAR元件的一部分通过PCR扩增：STAR10用引物E23和E12扩增产生片段10A，用E13和E14扩增产生片段10B，及用E15和E16扩增产生片段10C。STAR27用引物E17和E18扩增产生片段27A，用E19和E20扩增产生片段27B，及用E21和E22扩增产生片段27C。将这些亚片段克隆入pSelect载体中。在转染进U-2OS/Tet-Off/LexA-HP1细胞中后，监测在存在zeocin情况下培养物的生长。生长速度在旺盛(+++)至低下(+/-)范围变化，同时一些培养物经zeocin处理不能存活(-)，这是由于测试的DNA片段中缺乏STAR活性所致。

图11：STAR元件对SV40启动子的功能。将pSDH-SV40和pSDH-SV40-STAR6转染进人骨肉瘤U-2 OS细胞系中，在嘌呤霉素抗性克隆中分析STAR6保护或未保护基因免于沉默的萤光素酶表达。

图12：STAR对Tet-Off启动子的功能。将pSDH-Tet和pSDH-Tet-STAR6转染进人骨肉瘤U-2 OS细胞系中，在嘌呤霉素抗性克隆中分析STAR6保护或未保护基因免于沉默的萤光素酶表达。

图13：STAR元件的方向示意图，它们保持其天然方向克隆入pSelect载体中(A组)，保持其天然方向克隆入pSDH载体中(B组)，及以相反方向克隆入pSDH载体中(C组)。

图14：STAR66功能的定向性(directionality)。将STAR66元件以天然方向(STAR66天然方向)或相反方向(STAR66相反方向)克隆入pSDH-Tet中，并转染进U-2 OS细胞中。在嘌呤霉素抗性克隆中分析萤光素酶活性。

图15：STAR功能的拷贝数依赖性。整合入U-2 OS基因组DNA中的pSDH-Tet-STAR10中的萤光素酶表达单位的Southern印迹。使用放射性萤光素酶DNA探针检测每个克隆基因组中转基因DNA的量，然后用磷光成像仪定量。

图16：STAR功能的拷贝数依赖性。通过磷光成像仪测定每个克隆中pSDH-Tet-STAR10表达单位的拷贝数，并与每个克隆表达的萤光素酶报道基因的活性对比。

图17：增强子阻断分析及增强子分析。图中示出用于测试STAR的增强子阻断及增强子活性的萤光素酶表达载体。E47增强子蛋白的E-box结合位点在STAR元件克隆位点的上游。STAR克隆位点的下游是在人碱性磷酸酶最小启动子(mp)控制下的萤光素酶基因。柱状图表示三种可能的实验情形的预期结果(见正文)。A组：增强子阻断分析。B组：增强子分析。

图18：增强子阻断分析。萤光素酶从最小启动子的表达由空载体(载体)中的E47/E-box增强子激活。插入增强子阻断子(scs，HS4)或STAR元件(STAR元件1，2，3，6，10，11，18和27)阻断了E47/E-box增强子对萤光素酶的激活。

图19：增强子分析。萤光素酶从最小启动子的表达由空载体(E47)中的E47/E-box增强子激活。插入scs和HS4元件或各种STAR元件(STARs 1，2，3，6，10，11，18和27)不激活报道基因的转录。

图20：用于分离SINC元件的pSS-codA∷upp载体。codA∷upp自杀基因编码一种蛋白质，其使前体药物5-氟胞嘧啶转变为毒性药物5-氟尿嘧啶。在降低强力霉素浓度加以诱导时，宿主细胞变为对前体药物敏感。在BglII克隆位点插入的具有沉默活性的基因组DNA片段防止自杀基因表达并使前体药物抗性集落形成。STAR元件在选择成分两侧以防止沉默的染色质扩散至该质粒的功能成分。在转染进哺乳动物细胞后，用潮霉素抗性基因选择该质粒，并在转化入大肠杆菌后用氨苄青霉素抗性基因选择。其在培养的哺乳动物细胞中由于oriP和EBNA-1序列而附加型复制，在大肠杆菌细胞中由于ori序列而附加型复制。

图21：pSS-hrGFP质粒与pSS-codA∷upp质粒相同，除了用hrGFP(编码绿色荧光蛋白)置换自杀基因及用GFP报道基因下游的STAR8置换STAR6之外。

图22：STAR18序列在小鼠和人之间的保守性。图中示出含有497个碱基对STAR18的人基因组区域(黑框)；该元件在人染色体2上HOXD8与HOXD4同源框基因之间存在。其与小鼠染色体2中的一个区域相比呈现72％序列相同性。在STAR18左侧的人染色体2的区域与小鼠染色体2也是高度保守的(73％相同性；灰色框)；在这些区域之外，相同性降至60％以下。图中示出了来自人和小鼠的这些区域分别或组合赋予在zeocin之上生长的能力：-，不生长；+，中等生长；++，旺盛生长；+++，迅速生长。

图23：生物信息学分析流程的示意图。详细内容见正文。

图24：对65个STAR元件组成的训练集的分类的判别分析结果。通过逐步线性判别分析(LDA)正确分类为STAR的STAR元件示于Venn图表。从六聚体寡核苷酸(Oligo)和Dyad的频率分析结果中选择LDA的变量。图中示出两个变量集在正确分类STAR中的一致性。

图25：用候选Arabidopsis STAR元件转染并在低强力霉素浓度下培养的U-2 OS/Tet-Off/lexA-HP1细胞。分离总RNA并进行RT-PCR；通过Southern印迹检测相应于zeocin和潮霉素抗性mRNA的条带，并用磷光成像仪定量。zeocin与潮霉素的信号比示出含有两侧为12种不同的Arabidopsis STAR元件、果蝇scs元件或没有侧翼元件的zeocin表达单位的转染子。

图26：包含STAR1-STAR65的序列(SEQ ID：1-65)

包含STAR66和测试集的序列(SEQ ID：66-84)

包含Arabidopsis STAR A1-A35的序列(SEQ ID：85-119)。

参考文献

Altschul，S.F.和Gish，W.(1996)，局部序列对比统计，酶学方法266，460-480。

Altschul，S.F.，Gish，W.，Miller，W.，Myers，E.W.和Lipman，D.J.(1990)，基本局部序列对比研究工具，分子生物学杂志215，403-410。

Bell，AC，West，AG和Felsenfeld，G.(2001)，绝缘体和边界：真核生物基因组中的通用调节元件，科学291，447-50。

Bennett，R.P.，Cox，C.A.和Hoeffler，J.P.(1998)，绿色荧光蛋白与Zeocin抗性标记的融合可以目测筛选及药物学筛选转染的真核细胞，生物技术24，478-482。

Berger，J，Hauber，J，Hauber， R，Geiger，R和Cullen，BR.(1988)，分泌的胎盘碱性磷酸酶：基因在真核细胞中表达的一种有力的新的定量指示元件，基因66，1-10。

Bevan，M，Mayer，K，White，O，Eisen，JA，Preuss，D，Bureau，T，Salzberg，SL，和Mewes，HW.(2001)，Arabidopsis基因组的序列和分析，植物生物学通用观点4，105-10。

Bierhuizen，M.F.，Westerman，Y，Visser，T.P.，Wognum，A.W.和Wagemaker，G.(1997)，绿色荧光蛋白变体在造血祖细胞和细胞系中作为逆转录病毒介导的基因转移的标记物，生物化学生物生理学研究学会234，371-375。

Boivin，A和Dura，JM.(1998)，与果蝇中基因沉默相关的体内染色质可接近性，遗传学150，1539-49。

Boshart，M，Weber，F，Jahn，G，Dorsch-Hasler，K，Fleckenstein，B，和Schaffner，W.(1985)，一种极强增强子位于人巨细胞病毒立即早期基因上游，细胞41，521-30。

Breckenridge，D.G.和Shore，G.C.(2000)，由E1A和Myconco蛋白调节细胞程序死亡，Crit Rev Eukaryot Gene Expr 10，273-280。

Bunker，C.A.和Kingston，R.E.(1994)，在转染的哺乳动物细胞中果蝇和哺乳动物Polycomb组蛋白阻抑转录，分子细胞生物学14，1721-1732。

Cherry，J.R.，Lamsa，M.H.，Schneider，P.，Vind，J.，Svendsen，A.，Jones，A.和Pedersen，A.H.(1999)，真菌过氧化酶的定向进化，自然生物技术17，379-384。

Chung，JH，Whiteley，M和Felsenfeld，G.(1993)，一种鸡β球蛋白结构域的5’元件在人类红细胞中作为绝缘体并在果蝇中保护位置效应，细胞74，505-14。

Deuschle，U，Meyer，WK和Thiesen，HJ.(1995)，真核启动子的四环素可逆沉默，分子细胞生物学15，1907-14。

Doll，R.F.，Crandall，J.E.，Dyer，C.A.，Aucoin，J.M.和Smith，F.I.(1996)，使用AAV载体对比启动子对基因输送至哺乳动物脑细胞强度，基因治疗3，437-447。

Eissenberg，J.C.，James T.C.，Foster-Hartnett D.M.，Hartnett T.，Ngan V.和Elgin S.C.R.(1990)，异染色质特异性染色体蛋白中的突变与中花斑位置效应的抑制相关，美国科学院院报87：9923-9927。

Feng，Y.Q.，Seibler，J.，Alami，R.，Eisen，A.，Westerman，K.A.，Leboulch，P.，Fiering，S.和Bouhassira，E.E.(1999)，哺乳动物细胞中的位点特异性染色体整合：高效CRE重组酶介导的盒式交换，分子生物学杂志292，779-785。

Foecking，MK和Hofstetter，H.(1986)，哺乳动物表达载体的有力的及通用的增强子启动子单位，基因45，101-5。

Garrick，D，Fiering，S，Martin，DI和Whitelaw，E.(1998)，哺乳动物中重复诱导的基因沉默，自然遗传学18，56-9。

Gaszner，M.，Vazquez，J.和Schedl，P.(1999)，Zw5蛋白，scs染色质结构域边界的一种成分，能阻断增强子启动子相互作用，基因进展13，2098-2107。

Gerasimova，T.I.和Corces，V.G.(1998)，Polycomb和trithorax基团蛋白介导染色质绝缘体的功能，细胞92，511-521。

Gerasimova，TI和Corces，VG.(2001)，染色质绝缘体和边界：对转录及核机构的作用，Annu Rev Genet 35，193-208。

Gossen，M.和Bujard，H.(1992)，通过四环素应答启动子紧紧控制哺乳动物中基因表达，美国科学院院报89，5547-5551。

Graham，F.L.和van der Eb，A.J.(1973)，通过人腺病毒5的DNA转录大鼠细胞，病毒学54，536-539。

Heldin，C.H.，Johnsson，A.，Wennergren，S.，Wernstedt，C.，Betsholtz，C.和Westermark，B.(1986)，人骨肉瘤细胞系分泌一种与PDGF A链ahomo二聚体结构相关的生长元件，自然319，511-514。

Henke，E.和Bornscheuer，U.T.(1999)，来自Pseudomonasfluorescens的一种酯酶的定向进化，通过易错PCR或突变链随机诱变及通过基于aresorufin的荧光分析鉴别示出增强的nantio选择性的突变体，生物化学380，1029-1033。

Henthorn，P，Zervos，P，Raducha，M，Harris，H和Kadesch，T.(1988)，人胎盘碱性磷酸酶基因在转染的细胞中的表达：用作报道基因以研究基因表达，美国科学院院报85，6342-6。

Higgins，D.G.，Thompson，J.D.和Gibson，T.J.(1996)，使用CLUSTAL进行多重序列对比，酶学方法266，383-402。

Himes，S.R.和Shannon，M.F.(2000)，基于萤光素酶报道基因分析转录活性，分子生物学方法130，165-174。

Huberty，CJ(1994)，应用判别分析，Wiley和Sons，纽约

Initiative，AG.(2000)，分析开花植物Arabidopsis thaliana的基因组序列，自然408，796-815。

Izumi，M和Gilbert，DM.(1999)，哺乳动物成纤维细胞中同源四环素可调节基因表达，细胞生物化学杂志76，280-9。

Jung，R.，Soondrum，K.和Neumaier，M.(2000)，定量PCR，临床化学实验室方法38，833-836。

Kain，SR.(1997)，分泌的碱性磷酸酶在哺乳动物细胞中作为基因表达报道蛋白的应用，分子生物学方法63，49-60。

Kao，F.T.和Puck，T.T.(1968)，哺乳动物体细胞遗传学，VII，在中国仓鼠细胞中诱导和分离营养突变体，美国科学院院报60，1275-81。

Kellum，R.和Schedl，P.(1992)，在增强子阻断分析中作为结构域边界的一组scs元件，分子细胞生物学12，2424-2431。

Kent，WJ.(2002)BLAT——类似BLAST的一种序列对比工具，基因组研究12，656 64。

Knofler，M，Meinhardt，G，Bauer，S，Loregger，T，Vasicek，R，Bloor，DJ，Kimber，SJ和Husslein，P.(2002)，人Handl碱性螺旋—环螺旋(bHLH)蛋白：胚胎外表达模式，相互作用配体及鉴别其转录阻抑物结构域，生物化学杂志361，641-51。

Li，W-H(1997)Molecular Evolution，Sinauer Associates，SunderlandMA.，Meinke，DW，Cherry，JM，Dean，C，Rounsley，SD和Koornneef，M.(1998)，Arabidopsis thaliana：进行基因组分析的一种植物模型，科学282，662，679-82。

Litt，M.D.，Simpson，M.，Recillas-Targa，F.，Prioleau，M.N.和Felsenfeld，G.(2001)，组蛋白乙酰化中的转换揭示三种个别调节的相邻基因座，EMBO杂志20，2224-2235。

Meyer，P.(2000)，转录转基因沉默及染色质成分，植物分子生物学43，221-34。

Morgenstern，J.P.和Land，H.(1990)，高级哺乳动物基因转移：具有多重药物选择标记和一种互补帮助游离包装细胞系的高滴定逆转录载体，核酸研究18，3587-3596。

Mullen，C.A.，Kilstrup，M.和Blaese，R.M.(1992)，将胞嘧啶脱氨酶的细菌基因转移至哺乳动物细胞赋予对5-氟胞嘧啶的致死敏感性：一种阴性选择系统，美国科学院院报89，33-37。

Nan，X.，JavierCampoy，F.和Bird A.(1997)，MeCP2是一种在基因组染色质中具有丰富激活位点的转录阻抑物，细胞88，471-481。

Petersson，K，Ivars，F和Sigvardsson，M.(2002)，pTα启动子和增强子是E box结合蛋白的反式激活的直接靶位，欧洲免疫学杂志32，911-20。

Pazin，M.J.和Kadonaga，J.T.(1998)，在体外装配的染色质的转录和结构分析，Gould，H.(编辑)，染色质：实用方法，牛津大学出版社，Oxford，pp.172-194。

Pietersen，A.和H.M.Noteborn.(2000)，Apoptin.Adv Exp MedBiol 465，153161。

Quong，MW，Romanow，WJ和Murre，C.(2002)，淋巴细胞发育中E蛋白功能，Annu Rev Immunol 20，301-22。

Ruezinsky，D，Beckmann，H和Kadesch，T.(1991)，通过遗传转换调节IgH增强子的细胞类型特异性，基因进展5，29-37。

Saluz，H.P.和Jost，J.P.(1993)，定性体内蛋白质—DNA相互作用的方法，Crit Rev Eukaryot Gene Expr，3，1-29。

Sambrook，J.，Frisch，E.F.和Maniatis，T.(1989)，分子克隆实验手册，冷泉港实验室出版社，Plainview NY。

Sanger，F.，Nicken，S.和Coulson，A.R.(1977)，用链终止抑制剂进行DNA测序，美国科学院院报74，5463-5467。

Simizu，B.，Rhim，J.S.和Wiebenga，N.H.(1967)，定性虫媒病毒的Tacaribe组，I.Tacaribe病毒在非洲绿猴肾细胞系(Vero)中的增殖和噬斑分析，Proc Soc Exp Biol Med，125，119-123。

Smith，R.L.，Traul，D.L.，Schaack，J.，Clayton，G.H.，Staley，K.J.和Wilcox，C.L.(2000)，在神经系统中定性启动子功能及从病毒载体中的细胞类型特异性表达，病毒学杂志74，11254 11261。

Stam，M，Viterbo，A，Mol，JN和Kooter，JM.(1998)，在反向T DNA重复中转基因的位置依赖性甲基化和转录沉默：提示同源宿主基因在植物中的转录后沉默，分子细胞生物学18，6165-77。

Stull，R.A.，Hyun，W.C.和Pallavicini，M.G.(2000)，在双转导的不成熟造血细胞群中，同时流式细胞计量分析增强的绿色和黄色荧光蛋白和细胞表面抗原，细胞计量术40，126-134。

Takada，T.，Iida，K.，Akasaka，K.，Yasue，H.，Torii，R.，Tsujimoto，G.，Taira，M.和Kimura，H.(2000)，评估异源绝缘体在小鼠胚泡和胚胎中关于染色体位置作用的功能，MolReprod Dev，57，232-237。

Tanaka，S.，Livingstone-Zatchej，M.和Thoma，F.(1996)，酵母基因在高分辨下的染色质结构提供了在染色体情况中对核小体结构和配置的认识，分子生物学杂志257，919-934。

Thomas，J.O.(1998)，分离和分级分离染色质及接头组蛋白，Gould，H.(编辑)染色质：实用方法，牛津大学出版社，Oxford，pp.1-34。

Tiraby，M.，Cazaux，C.，Baron，M.，Drocourt，D.，Reynes，J.P.和Tiraby，G.(1998)，大肠杆菌胞嘧啶脱氨酶和尿嘧啶转磷酸核糖基酶的伴随表达改良5-氟胞嘧啶的胞毒性，FEMS微生物学通讯167，41-49。

Umana，P，Jean-Mairet，J和Bailey，JE.(1999)，在中国仓鼠卵巢细胞中糖基转移酶的四环素调节的过表达，生物技术生物工程65，542-9。

van der Vlag，J.，den Blaauwen，J.L.，Sewalt，R.G.，van Driel，R.和Otte，A.P.(2000)，polycomb组蛋白及其它染色质相关的阻抑物介导的转录阻抑由绝缘体选择性阻断，生物化学杂志275，697-704。

van Helden，J，Andre，B和Collado-Vides，J.(1998)，通过计算机分析寡核苷酸出现频率从酵母基因上游区域中提取调节位点，分子生物学杂志281，827-42。

van Helden，J，Andre，B和Collado-Vides，J.(2000)，计算机分析酵母调节序列的web位点，酵母16，177-87。

van Helden，J，Rios，AF和Collado-Vides，J.(2000)，通过分析间隔的dyad在非编码序列中揭示调节元件，核酸研究28，1808-18。

Vance，V和Vaucheret，H.(2001)，植物中RNA沉默——防御和反防御，科学292，2277-80。

Wallrath，L.L.，Swede，M.J.和Elgin，S.C.R.(1998)，在果蝇中作图染色质结构，Gould，H.(编辑)，染色质：实用方法，牛津大学出版社，Oxford，pp.59-77。

Weaver，L.S.和Kadan，M.J.(2000)，通过流式细胞计量术评估腺病毒载体，方法21，297-312。

Wei，K.和Huber，B.E.(1996)，胞嘧啶脱氨酶基因作为阳性选择标记，生物化学杂志271，3812-3816。

Wigler，M，Pellicer，A.，Silverstein，S.和Axel，R.(1978)，使用总细胞DNA作为供体经生物化学转移单拷贝真核基因，细胞14，725-731。

Wigley，P.，Becker，C.，Beltrame，J.，Blake，T.，Crocker，L.，Harrison，S.，Lyons，I.，McKenzie，Z.，Tearle，R.，Crawford，R.等人(1994)，位点特异性转基因插入方法，Reprod Fertil Dev，6，585-588。

Xu，Z.Z.，Krouiak，V.，Prevec，L.，Graham，F.L.和Both，G.W.(1995)，在用表达轮状病毒抗原VP7sc的人重组腺病毒感染的人和动物细胞中研究启动子功能，J Gen Virol，76，1971-1980。

Yang，TT，Sinai，P，Kitts，PA，和Kain，SR.(1997)用分泌型碱性磷酸酶报道基因系统量化基因表达，Biotechniques 23，1110-4。

Yin，D.X.，Zhu，L.，和Schimke R.T.(1996)四环素控制的基因表达系统实现高水平基因表达和定量控制，Analyt Biochem 235，195-201。

Zink，D，和Paro，R.(1995)果蝇Polycomb-group调控的染色质抑制反式激活物对其靶DNA的可及性，Embo J 14，5660-71。

表1：STAR元件改善转基因表达
表1：STAR元件改善转基因表达				质粒	过表达克隆，％	过表达倍数(范围)	克隆数
空	12	3-11	25	质粒	过表达克隆，％	过表达倍数(范围)	克隆数
空	12	3-11	25	SCS(阳性对照)	24	3-160	21
STAR-6	62	2-200	26	SCS(阳性对照)	24	3-160	21
STAR-6	62	2-200	26	STAR-3	39	5-820	23
STAR-8	63	7-315	19	STAR-3	39	5-820	23
STAR-8	63	7-315	19	STAR-4	31	25-1500	13
STAR-1	57	5-80	23	STAR-4	31	25-1500	13

萤光素酶报道基因的表达在含有整合的、不具有STAR元件(“空”，阴性对照)或含有STAR元件(包括阳性对照元件，即来自果蝇的SCS)的pSDH质粒的细胞系中测定的。阴性对照的平均表达水平定义为参比水平，如果一个克隆的表达水平超出参比水平2倍以上则被认定是过表达的克隆。每一质粒的过表达克隆百分比和过表达倍数与所分析的每一质粒的克隆数一起报道。

表2：克隆的STAR元件

克隆	染色体位置¹	相邻基因²	重复序列
克隆	染色体位置¹	相邻基因²	重复序列	STAR-1	N.d.
STAR-2	N.d.			STAR-1	N.d.
STAR-2	N.d.			STAR-3	For 5q33.3Rev 10q22.2	组蛋白中的Chr10部分乙酰转移酶基因
STAR-4	For 1p31.1Rev 14q24.1	在G蛋白信号传导调节子的10kb内含子内无基因	83％重复LINE2 & LTRERV_Class1	STAR-3	For 5q33.3Rev 10q22.2	组蛋白中的Chr10部分乙酰转移酶基因
STAR-4	For 1p31.1Rev 14q24.1	在G蛋白信号传导调节子的10kb内含子内无基因	83％重复LINE2 & LTRERV_Class1	STAR-5	For 3q13.1Rev 10q22.1^*
STAR-6	2p21	L5kb未知的推定的激酶R 20kb微管相关蛋白	19％SINE(MIR)29％LINE	STAR-5	For 3q13.1Rev 10q22.1^*
STAR-6	2p21	L5kb未知的推定的激酶R 20kb微管相关蛋白	19％SINE(MIR)29％LINE	STAR-7	1q32.2		12％Alu 4％MIR(SINE)LINE1 2.5％L31CR111.5％MER1 7％低复杂性2％
STAR-8	9q32	含锌指蛋白的ZFP KRAB盒	35％ERV_ClassI(LTR)2％简单重复	STAR-7	1q32.2		12％Alu 4％MIR(SINE)LINE1 2.5％L31CR111.5％MER1 7％低复杂性2％
STAR-8	9q32	含锌指蛋白的ZFP KRAB盒	35％ERV_ClassI(LTR)2％简单重复	STAR-9	见STAR-4
STAR-10	N.d.			STAR-9	见STAR-4
STAR-10	N.d.			STAR-11	2p25.1	R15kb未知DNA结合蛋白抑制物(Myc型)	12％Alu(SINE)26％MalRs(LINE)
STAR-12	5q35.3	R 15kb未知ADAM TS2家族金属蛋白酶	3％低复杂性	STAR-11	2p25.1	R15kb未知DNA结合蛋白抑制物(Myc型)	12％Alu(SINE)26％MalRs(LINE)
STAR-12	5q35.3	R 15kb未知ADAM TS2家族金属蛋白酶	3％低复杂性	STAR-13	见STAR-4和STAR-9
STAR-14	F N.d.R 20q13.33			STAR-13	见STAR-4和STAR-9
STAR-14	F N.d.R 20q13.33			STAR-15	1p36.36	L6kb电压控制K通道亚基R 4kb未知	14％LTR(MalRs)
STAR-16	F 8p23.1R 8p22etc.		在测序部分无重复	STAR-15	1p36.36	L6kb电压控制K通道亚基R 4kb未知	14％LTR(MalRs)
STAR-16	F 8p23.1R 8p22etc.		在测序部分无重复	STAR-17	2q31.1	L 6kb BTEB1转录元件R 40kb HNRNP	10％简单和低复杂性

¹染色体位置是通过将来自STAR克隆的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置，例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带

(http：//www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。F代表正向测序反应结果；R代表反向测序反应结果；N.d.代表尚未确定。

²基于Human Genome Map View Build 22(http：//www.ncbi.nlm.nih.gov/cgi-bin/Entrez/hum_srch？chr＝hum_chr.inf&query April 2001).L代表左；R代表右^*模糊位置，几个检索结果

表3：通过在pSS载体中选择而从人类22号染色体回收的SINC元件
表3：通过在pSS载体中选择而从人类22号染色体回收的SINC元件				SINC	长度(nt)	染色体位置¹	注释
psinks 9	700	22q11.21	含有LTR；最近基因ZNF74，一种RNA结合蛋白。LTR重复性非常高	SINC	长度(nt)	染色体位置¹	注释
psinks 9	700	22q11.21	含有LTR；最近基因ZNF74，一种RNA结合蛋白。LTR重复性非常高	psinks 12	750	22q12.3	位于参与肿瘤形成的乙酰氨基葡糖转移酶样蛋白的内含子(664kb)中
psinks 19	600	22q13.1	位于几乎仅在脑中表达的钙通道的内含子中	psinks 12	750	22q12.3	位于参与肿瘤形成的乙酰氨基葡糖转移酶样蛋白的内含子(664kb)中
psinks 19	600	22q13.1	位于几乎仅在脑中表达的钙通道的内含子中	psinks 28	950	22q13.31	位于未知功能的肾脏蛋白的内含子中
psinks 30	700	22q13.33	含有部分SINE	psinks 28	950	22q13.31	位于未知功能的肾脏蛋白的内含子中
psinks 30	700	22q13.33	含有部分SINE	psinks 35	650	22q11.21	覆盖溶质载体的外显子(线粒体的核基因)

(http：//www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。

表4A：各种star元件的一条链(正向)或另一条链(反向)的序列

STAR3正向

ACGTNCTAAGNAAACCATTATTATCATGACATTAACCTATAAAAATAGGC

GTATCACGAGGCCCTTTCGTCTTCACTCGAGCGGCCAGCTTGGATCTCGA

GTACTGAAATAGGAGTAAATCTGAAGAGCAAATAAGATGAGCCAGAAAAC

CATGAAAAGAACAGGGACTACCAGTTGATTCCACAAGGACATTCCCAAGG

TGAGAAGGCCATATACCTCCACTACCTGAACCAATTCTCTGTATGCAGATT

TAGCAAGGTTATAAGGTAGCAAAAGATTAGACCCAAGAAAATAGACAACT

TCCAATCCAGTAAAAATCATAGCAAATTTATTGATGATAACAATTGTCTCC

AAAGGAACCAGGCAGAGTCGTGCTAGCAGAGGAAGCACGTGAGCTGAAA

ACAGCCAAATCTGCTTTGTTTTCATGACACAGGAGCATAAAGTACACACCA

CCAACTGACCTATTAAGGCTGTGGTAAACCGATTCATAGAGAGAGGTPCT

AAATACATTGGTCCCTCATAGGCAAACCGCAGTTCACTCCGAACGTAGTC

CCTGGAAATTTGATGTCCAGNATAGAAAAGCANAGCAGNCNNNNNNTAT

ANATNNNGNTGANCCANATGNTNNCTGNNC

STAR3反向

GAGCTAGCGGCGCGCCAAGCTTGGATCCCGCCCCGCCCCCTCCGCCCTCG

AGCCCCGCCCCTTGCCCTAGAGGCCCTGCCGAGGGGCGGGGCCTGTCCC

TCCTCCCCTTTCCCCCGCCCCCTACCGTCACGCTCAGGGGCAGCCTGACC

CCGAGCGGCCCCGCGGTGACCCTCGCGCAGAGGCCTGTGGGAGGGGCGT

CGCAAGCCCCTGAATCCCCCCCCGTCTGTTCCCCCCTCCCGCCCAGTCTC

CTCCCCCTGGGAACGCGCGCGGTGGGTGACAGACCTGGCTGCGCGCCAC

CGCCACCGCGCCTGCCGGGGGCGCTGCCGCTGCCTGAGAAACTGCGGCT

GCCGCCTGGAGGAGGTGCCGTCGCCTCCGCCACCGCTGCCGCCGCCGCC

AGGGGTAGGAGCTAAGCCGCCCCCATTTTGTGTCCCCCTGTTGTTGTCGT

TGACATGAATCCGACATGACACTGATTACAGCCCAATGGAGTCTCATTAA

ACCCGAGTCGCGGTCCCGCCCCGCCGCTGCTCCATTGGAGGAGACCAAAG

ACACTTAAGGCCACCCGTTGGCCTACGGGTCTGTCTGTCACCCACTCACT

AACCACTCTGCAGCCCATTGGGGCAGGTTCCTGCCGGTCATNTCGCTTCC

AATAAACACACCCCTTCGACCCCATNATTCCCCCCCTTCGGGAACCACCC

CCGGGGGAGGGGTCCACTGGNCAATACCAATTNAANAGAACCGCTNGGG

TCCGCCTNTTTNCGGGCNCCCTATTGGGTT

STAR4正向

GGGGAGGATTCTTTTGGCTGCTGAGTTGAGATTAGGTTGAGGGTAGTGAA

GGTAAAGGCAGTGAGACCACGTAGGGGTCATTGCAGTAATCCAGGCTGG

AGATGATGGTGGTTCAGTTGGAATAGCAGTGCATGTGCTGTAACAACCTC

AGCTGGGAAGCAGTATATGTGGCGTTATGACCTCAGCTGGAACAGCAATG

CATGTGGTGGTGTAATGACCCCAGCTGGGTAGGGTGCATGTGATGGAACA

ACCTCAGCTGGGTAGCAGTGTACTTGATAAAATGTTGGCATACTCTACATT

TGTTATGAGGGTAGTGCCATTAAATTTCTCCACAAATTGGTTGTCACGTAT

GAGTGAAAAGAGGAAGTGATGGAAGACTTCAGTGCTTTTGGCCTGAATAA

ATAGAAGACGTCATTTTCAGTAATGGAGACAGGGAAGACTAANGNAGGGT

GGATTCAGTAGAGCAGGTGTTCAGTTTTGAATATGATGAACTCTGAGAGA

GGAAAAACTTTTTCTACCTCTTAGTTTTTGNGNCTGGACTTAANATTAAAG

GACATANGACNGAGANCAGACCAAATNTGCGANGTTTTTATATTTTACTT

GCNGAGGGAATTTNCAAGAAAAAGAAGACCCAANANCCATTGGTCAAAA

CTATNTGCCTTTTAANAAAAAGANAATTACAATGGANANANAAGTGTTGN

CTNGGCAAAAATTGGG

STAR4反向

GGATTNGAGCTAGCGGCGCGCCAAGCTTGGATCTTAGAAGGACAGAGTG

GGGCATGGAAATGCACCACCAGGGCAGTGCAGCTTGGTCACTGCCAGCTC

CNCTCATGGGCAGAGGGCTGGCCTCTTGCAGCCGACCAGGCACTGAGCG

CCATCCCAGGGCCCTCGCCAGCCCTCAGCAGGGCCAGGACACACAAGCCT

TTGACTTCCTCCTGTCACTGCTGCTGCCATTCCTGTTTTGTGGTCATCACT

CCTTCCCTGTCCTCAGACTGCCCAGCACTCAAGGATGTCCTGTGGTGGCA

TCAGACCATATGCCCCTGAANAGGAGTGAGTTGGTGTTTTTTGCCGCGCC

CANAGAGCTGCTGTCCCCTGAAAGATGCAAGTGGGAATGATGATGNTCAC

CATCNTCTGACACCAAGCCCTTTGGATAGAGGCCCCAACAGTGAGGATGG

GGCTGCACTGCATTGCCAAGGCAACTCTGTNNTGACTGCTACANGACANT

CCCAGGACCTGNGAAGNNCTATANATNTGATGCNAGGCACCT

STAR6正向

CCACCACAGACATCCCCTCTGGCCTCCTGAGTGGTTTCTTCAGCACAGCTT

CCAGAGCCAAATTAAACGTTCACTCTATGTCTATAGACAAAAAGGGTTTTG

ACTAAACTCTGTGTTTTAGAGAGGGAGTTAAATGCTGTTAACTTTTTAGGG

GTGGGCGAGAGGAATGACAAATAACAACTTGTCTGAATGTTTTACATTTC

TCCCCACTGCCTCAAGAAGGTTCACAACGAGGTCATCCATGATAAGGAGT

AAGACCTCCCAGCCGGACTGTCCCTCGGCCCCCAGAGGACACTCCACAGA

GATATGCTAACTGGACTTGGAGACTGGCTCACACTCCAGAGAAAAGCATG

GAGCACGAGCGCACAGAGCANGGGCCAAGGTCCCAGGGACNGAATGTCT

AGGAGGGAGATTGGGGTGAGGGTANTCTGATGCAATTACTGNGCAGCTC

AACATTCAAGGGAGGGGAAGAAAGAAACNGTCCCTGTAAGTAAGTTGTNC

ANCAGAGATGGTAAGCTCCAAATTTNAACTTTGGCTGCTGGAAAGTTTNN

GGGCCNANANAANAAACANAAANATTTGAGGTTTANACCCACTAACCCN

TATNANTANTTATTAATACCCCTAATTANACCTTGGATANCCTTAAAATAT

CNTNTNAAACGGAACCCTCNTTCCCNTTTNNAAATNNNAAAGGCCATTN

NGNNCNAGTAAAAATCTNNNTTAAGNNNTGGGCCCNAACAAACNTNTTC

CNAGACACNTTTTTTNTCCNGGNATTTNTAATTTATTTCTAANCC

STAR6反向

ATCGTGTCCTTTCCAGGGACATGGATGAAGCTGGAAGCCATCATCCTCAG

CAAACTAACACAGGAACAGAAAACCAAATACCACATGTTCTCACTCATAAG

TGGGAGCTGAACAGTGAGAACACATGGACACAGGGAGGGGAACATCACA

CACCAAGGCCTGTCTGGTGTGGGGAGGGGAGGGAGAGCATCAGACAAA

TAGCTAATGCATGTGGGGCTTAAACCTAGATGACGGGTTGATAGGTGCAG

CAATCCACTATGGACACATATACCTATGTAACAACCCNACCTTNTTGACAT

GTATCCCAGAACTTAAAGGAAAATAAAAATTAAAAAAAATTNCCCTGGAA

TAAAAAAGAGTGTGGAGTTTGGTGAGATN

STAR8正向

GGATCACCTCGAAGAGAGTCTAACGTCCGTAGGAACGCTCTCGGGTTCAC

AAGGATTGACCGAACCCCAGGATACGTCGCTCTCCATCTGAGGCTTGNTC

CAAATGGCCCTCCACTATTCCAGGCACGTGGGTGTCTCCCCTAACTCTCC

CTGCTCTCCTGAGCCCATGCTGCCTATCACCCATCGCTGCAGGTCCTTTCT

GAANAGCTCGGGTGGATTCTCTCCATCCCACTTCCTTTCCCAAGAAAGAA

GCCACCGTTCCAAGACACCCAATGGGACATTCCCNTTCCACCTCCTTNTC

NAAAGTTNGCCCAGGTGTTCNTAACAGGTTAGGGAGAGAANCCCCCAGG

TTTNAGTTNCAAGGCATAGGACGCTGGCTTGAACACACACACACNCTC

STAR8反向

GGATCCCGACTCTGCACCGCAAACTCTACGGCGCCCTGCAGGACGGCGGC

CTCCTGCCGCTTGGACGCCAGNCAGGAGCTCCCCGGCAGCAGCAGAGCA

GAAAGAAGGATGGCCCCGCCCCACTTCGCCTCCCGGCGGTCTCCCTCCCG

CCGGCTCACGGACATAGATGGCTGCCTAGCTCCGGAAGCCTAGCTCTTGT

TCCGGGCATCCTAAGGAAGACACGGTTTTTCCTCCCGGGGCCTCACCACA

TCTGGGACTTTGACGACTCGGACCTCTCTCCATTGAATGGTTGCGCGTTC

TCTGGGAAAG

STAR18正向

TGGATCCTGCCGCTCGCGTCTTAGTGTTTCTCCCTCAAGACTTTCCTTCTG

TTTTGTTGTCTTGTGCAGTATTTTACAGCCCCTCTTGTGTTTTTCTTTATTT

CTCGTACACACACGCAGTTTTAAGGGTGATGTGTGTATAATTAAAAGGAC

CCTTGGCCCATACTTTCCTAATTCTTTAGGGACTGGGATTGGGTTTGACTG

AAATATGTTTTGGTGGGGATGGGACGGTGGACTTCCATTCTCCCTAAACT

GGAGTTTTGGTCGGTAATCAAAACTAAAAGAAACCTCTGGGAGACTGGAA

ACCTGATTGGAGCACTGAGGAACAAGGGAATGAAAAGGCAGACTCTCTGA

ACGTTTGATGAAATGGACTCTTGTGAAAATTAACAGTGAATATTCACTGTT

GCACTGTACGAAGTCTCTGAAATGTAATTAAAAGTTTTTATTGAGCCCCCG

AGCTTTGGCTTGCGCGTATTTTTCCGGTCGCGGACATCCCACCGCGCAGA

GCCTCGCCTCCCCGCTGNCCTCAGCTCCGATGACTTCCCCGCCCCCGCCC

TGCTCGGTGACAGACGTTCTACTGCTTCCAATCGGAGGCACCCTTCGCGG

STAR18反向

TGGATCCTGCCGCTCGCGTCTTAGTGTTTCTCCCTCAAGACTTTCCTTCTG

TTTTGTTGTCTTGTGCAGTATTTTACAGCCCCTCTTGTGTTTTTCTTTATTT

CTCGTACACACACGCAGTTTTAAGGGTGATGTGTGTATAATTAAAAGGAC

CCTTGGCCCATACTTTCCTAATTCTTTAGGGACTGGGATTGGGTTTGACTG

AAAATATGTTTTGGTGGGGATGGGGACGGTGGACTTCCATTCTCCCTAAACT

GGAGTTTTGGTCGGTAATCAAAACTAAAAGAAACCTCTGGGAGACTGGAA

ACCTGATTGGAGCACTGAGGAACAAGGGAATGAAAAGGCAGACTCTCTGA

ACGTTTGATGAAATGGACTCTTGTGAAAATTAACAGTGAATATTCACTGTT

GCACTGTACGAAGTCTCTGAAATGTAATTAAAAGTTTTTATTGAGCCCCCG

AGCTTTGGC

表4B：各种sinc元件的序列

PSINKS 9

GATCAGGA TAATAAGTAC GCTGGGAAGA CAACAAAATG

ATTTAAATCT TAGACAAGTC ATTCTAGGTG TCTCCACTGT

TTCAGTTCTT GCATTCATTC TTGTGGTATC TTTTCCCTTT

TACCAATAAA AAAGCTCCCT GACATCACAT TGTGGCAGTC

CCCATGGTTT GCCGCAGTTA CTGCGGGACT GAACGAAGGA

GGACGAATGA AGAAATGAAA AGCAAGGAAA AAAGGAGCTG

TTTAAAGAAG GGTCCAGGGA AGAAGAAGAG GGCTCCCAGC

TTCTAGTGAG CAAGGGCAGC AGCCCTGAGC TTCTACAGCC

CTTCATATTT ATTGAGTAGA AAGAGCAGGG AGCAGGAGGT

AATGATTGGT CAGCTTCTCA ATTGATCACA GGTTCACATT

ATTGCTAACA GATTTCACAT GTGCCTAATC TCAAGAAACG

CCGCGCCTGG GGCATGACTG CCCTCAGCAT TCCCTCTGGG

TGGCAGACGC AGTTTGCCAA CATTCTGCAT TCATGAGAAC

AGTTTACTGT TTACTCATAT AACCTCCAGT GGTACACCGA

GTTGATC

PSINKS 12

GATCTAA TTTCTCTGTA TTTAATTCCC ATGTCTATTT

TGTCTATTTT CAAGATTGAT TTACATTGCA GGTTCCGATG

CAACCACTGA CTTACATTGC AGGTTCTAAT GTAACCACTG

TCCTTAACGA GTACATAGAT TTGTTTCCTT CTCTCCAGGA

GCATGAGATT TGTTGCCTCC AGGAAAGGCA ACAAATCTAC

TATTCCTTA AGGACAGTGG TTCTCAAAGG ATTGTCCTGG

GAACAGCAGC ATCACCTACA CAGTAGTTAG AAATGCACAT

TCTGAGGCCT CCCAAGACCT GCTAACTCAG ACACTTGGGG

AGAAGAAGGG GTTCCAACAA GCCTTCTAGG TCATTCTGAT

GCATGCTGGA GTTTGAGAAT CGATGCTCTA GGAAAAACAC

CAGTACTAT CTACCATCAA CTTGACCACT CAAGTGTCAC

CATTCACTGA AGTTTAACTA CAATGTCCAG AGAATTAATT

GTGTACCAGG CACTATGCGG AAGGCTGAAT GCTGCCTCAC

AATCCANAGT GGTATGTGTG TAAATGACTA AATAAAATGC

AAAATGGGAT GACATG

PSTNKS 19

G ATCCTCCATC TGCTCCACCC ACTTCCATGT AAGTGATCCT

GGGCTGATCA CTTCCTCTCT CTAGACTTCG TTTCTTTTTT

TTCTTTTTTA GACCGAGTCT CACTCTGTCA CCCAGGCTGG

AGTGCAGTGG TGAGATCTTG GCTCACTGCA ACCTCCACCT

CCTGGGTTCA AGCAATTCTC CTGTCTCAGC CTCCTGAGTA

GATAGGACTA TAGGTGCACA CCACCATACC TAGCTAATTT

TTGTTTTTTT AGTAGAGATG GGGTTTCACC ATATTGGTCA

GCCTGTTCTC AAACTCCTGA CCTCAGGTGA TCCACCCACC

TCAGCCTCCC AAAGTGCTGG GATTACAGGT GTGAGCCACC

GAGCCGGGCT GCCCTTCTCT GGACTTTGAT TTCCTCATCT

ATAAAACAGA CAACAATCCC TACTATGACC ATCCAGAAGG

GTTAATCTAT GCTTCATTGC AATCCTAATC AAAAATCCCA

ACATTTTGGC CGTGGAGCCT GCCCAGATGG TTCTAGGATT

TATTTGGATG GGAAAATAGT CAAGACAAGC TT

PSTNKS 28

GAT CATGGAGGGA GAGAACAACC AACCACACAC

TGACTGGTCA CCCCTGAAGT TCACAGCCAC TACCCTCTAG

AGGCCCCGAG GTTGCCGGCA AGCCCAGTAT ACTTCCATCT

AAACTCCCCT TGCACCTGCT CCTCCTGTTC CAGACAATGA

GCTGTAACAC GCACATCCAC ACCACACATC ACCCACAGCA

GGGGCAGGAG GCAGCTAAGG ATGGGCTTCA GAGTCCTCCC

ACCAGCAGCG CCTACCAGCT ACAAGCCTGA CGTCTCTGTG

TGTGTGTGTA AATTTCACTA AATATTTCTT CCTTTGTTTT

TTAAAAATTT ACATGAAATG CACATTTTTG CTGTGACAGA

AGCATGTAAC TGTGATCCTA ACACACCTAC TCCTCCGCCT

TTTACTGCCG TCTGCTTCCC TCTCTTCTCC ACGCCCACTC

GACTGCAGTA TCGATGCCAA CAACATGATG TGTGTCCTTC

CATGTTTCCC TGCTCATGCA TTCGCATGTA AGCCACCGCA

CATGTCACTG TATGTACACA CAGGGGATTC TGAGGCCAAT

GTTTTACAAG GATTACGTTA TACACCCTTT TCTGCAGTGA

GTTTTTCCCA GGCAACCTCC CAGGCCCCAT GGTGTAGCTC

TGGGTCAATC CTTTTTTTTT TTTTTGGAGA CAGAGTCTCA

CTCTGTCGCC CAGGCTGGAG TGCAGTGGTG CAATTTGGGC

TCACTGCAAC CTCCGCCTCC CGGGTTCAAG CGATTCTCCT

GCCTCAGCCT CCTGAGTAGC TGACATTACA AGCGCGCACT

ACCACACCCG GCTAATTTTT GTATTTTTAG TAGAGATACA

GTTTCACCAT GTTGGTCAGG CTGGTCTTGA ACTCCTGAGC

TCGTGATC

PSTNKS 30

GATCC ACCCGCCTCG GACTCCCAAA GTGCTGGGAT

TACAGGTGTG AGCCACTGTG CTTGGCCCGA ATCAGGAATA

ATTCTGATGG CTAAGGAAGA CAGCTTCCGA GAGAGTAGGA

GAAAGGGCAC AGGATTCCAG GCAGAAGGCC CATCTAGGGC

AAAGGCGAAG GTGTGGCTCA GCCTGCCTCC TTTGGGGAAT

GGCGAGTGTG TTCTGGGCTC AGGGTTCTTG GTAAGGGACA

GAGAAGACTC GGGAAAGATC AGTTGAGCTG GAATGTGCAG

GCTCTTGAGT ACCCTGCTCA GGAGCTGGAG GTGGGCTACC

CTGCAAACTC CAGGCCATGA AGCCCAGGAA GATGTCAGGC

TGGTCTTCCC ATGCCCTTGT GTATCTGAGA CCAACTGTCA

CTAAATGTTT CCTTTACGCC CTGGACACAC AGCTAGACTC

TACTTCTCAG ATTCTCTTGA AATACAAGTC TTTAGCCAGA

GGGTGTGGAG GGAAATGCTG TGTATCACTT TGAGGTTGAG

GCCATCAAAG CCTCCCACAG GTGGCCCCCT CTTTCTCTCC

CCACGTACTT ATGATGTTGA TGCCCAAGGC AGCTTGAGTA

CTACCTGCTG AAGGCAGGGC CTCTGTCACC ATAGATC

PSTNKS 35

GATCCAC CTGCCTCGGC CTCCCAAAGT GCTGGGATTA

CAGGCATGAG CCACCATGCC TGGCCAAAAA CTTCTACCTG

CTTGGAAAGT TGACTGGTCA CACAGCCTAG CAAATGAGGT

TGGGATGTGG GATGTGCCTG GTTCCAATCC CAGCCCTTTA

CTGTTCCCAT AGGAGGTGGG GACAGGCCTC ACCCAGGCGT

CCAGCATCCT GCAGCTGAAT CTTGAGCATT TCCATGGGAC

AGGTCACCAC GACCTGGCAC ATCCCAGCCC CACACCCGGC

AAGCATCTCC ATCTTCAGGT TCCGCTGCAT CCTATGGGAA

CAGGCGTCAG GCTCCTTCAG CCGCAGGCCA CAGGCCTGCC

CTGGTGCAGC TGCCCTCTTG TGAGAGGGGG ACTTTCCCTG

GATGGCACCC GTGGCTGCCA CTCACCCAGC TGGTCAAGTC

ATCAGCTAGC CCTTAGGTGT GGTCTCTGTA CGGACAGGGG

ACTAAGTTTA AAACAAAGCC TGCTAGGGAG GTAGCACCGC

ATGGAAGCTG AAACAGTGAC AGAGAAAACT ACCCAGACCA

GGCGTTGTCC TTGATC

表5：用于聚合酶链反应(PCR引物)或DNA诱变的寡核苷酸

编号	序列
编号	序列	C65	AACAAGCTTGATATCAGATCTGCTAGCTTGGTCGAGCTGATACTTCCC
C66	AAACTCGAGCGGCCGCGAATTCGTCGACTTTACCACTCCCTATCAGTGATAGAG	C65	AACAAGCTTGATATCAGATCTGCTAGCTTGGTCGAGCTGATACTTCCC
C66	AAACTCGAGCGGCCGCGAATTCGTCGACTTTACCACTCCCTATCAGTGATAGAG	C67	AAACCGCGGCATGGAAGACGCCAAAAACATAAAGAAAGG
C68	TATGGATCCTAGAATTACACGGCGATCTTTCC	C67	AAACCGCGGCATGGAAGACGCCAAAAACATAAAGAAAGG
C68	TATGGATCCTAGAATTACACGGCGATCTTTCC	C81	AAACCATGGCCGAGTACAAGCCCACGGTGCGGC
C82	AAATCTAGATCAGGCACCGGGCTTGCGGGTCATGC	C81	AAACCATGGCCGAGTACAAGCCCACGGTGCGGC
C82	AAATCTAGATCAGGCACCGGGCTTGCGGGTCATGC	C85	CATTTCCCCGAAAAGTGCCACC
D30	TCACTGCTAGCGAGTGGTAAACTC	C85	CATTTCCCCGAAAAGTGCCACC
D30	TCACTGCTAGCGAGTGGTAAACTC	D41	GAAGTCGACGAGGCAGGCAGAAGTATGC
D42	GAGCCGCGGTTTAGTTCCTGACCTTGTCG	D41	GAAGTCGACGAGGCAGGCAGAAGTATGC
D42	GAGCCGCGGTTTAGTTCCTGACCTTGTCG	D51	TCTGGAAGCTTTGCTGAAGAAAC
D89	GGGCAAGATGTCGTAGTCAGG	D51	TCTGGAAGCTTTGCTGAAGAAAC
D89	GGGCAAGATGTCGTAGTCAGG	D90	AGGCCCATGGTCACCTCCATCGCTACTGTG
D91	CTAATCACTCACTGTGTAAT	D90	AGGCCCATGGTCACCTCCATCGCTACTGTG
D91	CTAATCACTCACTGTGTAAT	D93	AATTACAGGCGCGCC
D94	AATTGGCGCGCCTGT	D93	AATTACAGGCGCGCC
D94	AATTGGCGCGCCTGT	D95	TGCTTTGCATACTTCTGCCTGCCTC
E12	TAGGGGGGATCCAAATGTTC	D95	TGCTTTGCATACTTCTGCCTGCCTC
E12	TAGGGGGGATCCAAATGTTC	E13	CCTAAAAGAAGATCTTTAGC
E14	AAGTGTTGGATCCACTTTGG	E13	CCTAAAAGAAGATCTTTAGC
E14	AAGTGTTGGATCCACTTTGG	E15	TTTGAAGATCTACCAAATGG
E16	GTTCGGGATCCACCTGGCCG	E15	TTTGAAGATCTACCAAATGG
E16	GTTCGGGATCCACCTGGCCG	E17	TAGGCAAGATCTTGGCCCTC
E18	CCTCTCTAGGGATCCGACCC	E17	TAGGCAAGATCTTGGCCCTC
E18	CCTCTCTAGGGATCCGACCC	E19	CTAGAGAGATCTTCCAGTAT
E20	AGAGTTCCGGATCCGCCTGG	E19	CTAGAGAGATCTTCCAGTAT
E20	AGAGTTCCGGATCCGCCTGG	E21	CCAGGCAGACTCGGAACTCT
E22	TGGTGAAACCGGATCCCTAC	E21	CCAGGCAGACTCGGAACTCT
E22	TGGTGAAACCGGATCCCTAC	E23	AGGTCAGGAGATCTAGACCA
E25	CCATTTTCGCTTCCTTAGCTCC	E23	AGGTCAGGAGATCTAGACCA

E42	CGATGTAACCCACTCGTGCACC
E42	CGATGTAACCCACTCGTGCACC	E57	AGAGATCTAGGATAATTTCG
E92	AGGCGCTAGCACGCGTTCTACTCTTTTCCTACTCTG	E57	AGAGATCTAGGATAATTTCG
E92	AGGCGCTAGCACGCGTTCTACTCTTTTCCTACTCTG	E93	GATCAAGCTTACGCGTCTAAAGGCATTTTATATAG
E94	AGGCGCTAGCACGCGTTCAGAGTTAGTGATCCAGG	E93	GATCAAGCTTACGCGTCTAAAGGCATTTTATATAG
E94	AGGCGCTAGCACGCGTTCAGAGTTAGTGATCCAGG	E95	GATCAAGCTTACGCGTCAGTAAAGGTTTCGTATGG
E96	AGGCGCTAGCACGCGTTCTACTCTTTCATTACTCTG	E95	GATCAAGCTTACGCGTCAGTAAAGGTTTCGTATGG
E96	AGGCGCTAGCACGCGTTCTACTCTTTCATTACTCTG	E97	CGAGGAAGCTGGAGAAGGAGAAGCTG
E98	CAAGGGCCGCAGCTTACACATGTTC	E97	CGAGGAAGCTGGAGAAGGAGAAGCTG
E98	CAAGGGCCGCAGCTTACACATGTTC	D58	CCAAGTTGACCAGTGCC
D80	GTTCGTGGACACGACCTCCG	D58	CCAAGTTGACCAGTGCC
D80	GTTCGTGGACACGACCTCCG	D70	TACAAGCCAACCACGGCCT
D71	CGGAAGTGCTTGACATTGGG	D70	TACAAGCCAACCACGGCCT

表6：本发明的STAR元件，包括基因组位置和长度

STAR	位置¹	长度²
STAR	位置¹	长度²	1	2q31.1	750
2	7p15.2	916	1	2q31.1	750
2	7p15.2	916	3³	15q11.2和10q22.2	2132
4	1p31.1和14q24.1	1625	3³	15q11.2和10q22.2	2132
4	1p31.1和14q24.1	1625	5⁴	20q13.32	1571
6	2p21	1173	5⁴	20q13.32	1571
6	2p21	1173	7	1q34	2101
8	9q32	1839	7	1q34	2101
8	9q32	1839	94	10p15.3	1936
10	Xp11.3	1167	94	10p15.3	1936
10	Xp11.3	1167	11	2p25.1	1377
12	5q35.3	1051	11	2p25.1	1377
12	5q35.3	1051	13⁴	9q34.3	1291
14⁴	22q11.22	732	13⁴	9q34.3	1291
14⁴	22q11.22	732	15	1p36.31	1881
16	1p21.2	1282	15	1p36.31	1881
16	1p21.2	1282	17	2q31.1	793
18	2q31.3	497	17	2q31.1	793
18	2q31.3	497	19	6p22.1	1840
20	8p13.3	780	19	6p22.1	1840
20	8p13.3	780	21	6q24.2	620
22	2q12.2	1380	21	6q24.2	620
22	2q12.2	1380	23	6p22.1	1246
24	1q21.2	948	23	6p22.1	1246
24	1q21.2	948	25⁵	1q21.3	1067
26	1q21.1	540	25⁵	1q21.3	1067
26	1q21.1	540	27	1q23.1	1520
28	22q11.23	961	27	1q23.1	1520
28	22q11.23	961	29	2q13.31	2253
30	22q12.3	1851	29	2q13.31	2253
30	22q12.3	1851	31	9q34.11和22q11.21	1165
32	21q22.2	771	31	9q34.11和22q11.21	1165

STAR	位置¹	长度²
STAR	位置¹	长度²	33	21q22.2	1368
34	9q34.14	755	33	21q22.2	1368
34	9q34.14	755	35	7q22.3	1211
36	21q22.2	1712	35	7q22.3	1211
36	21q22.2	1712	37	22q11.23	1331
38	22q11.1和22q11.1	～1000	37	22q11.23	1331
38	22q11.1和22q11.1	～1000	39	22q12.3	2331
40	22q11.21	1071	39	22q12.3	2331
40	22q11.21	1071	41	22q11.21	1144
42	22q11.1	735	41	22q11.21	1144
42	22q11.1	735	43	14q24.3	1231
44	22q11.1	1591	43	14q24.3	1231
44	22q11.1	1591	45	22q11.21	1991
46	22q11.23	1871	45	22q11.21	1991
46	22q11.23	1871	47	22q11.21	1082
48	22q11.22	1242	47	22q11.21	1082
48	22q11.22	1242	49	Chr 12随机克隆，以及3q26.32	1015
50	6p21.31	2361	49	Chr 12随机克隆，以及3q26.32	1015
50	6p21.31	2361	51	5q21.3	2289
52	7p15.2	1200	51	5q21.3	2289
52	7p15.2	1200	53	Xp11.3	1431
54	4q21.1	981	53	Xp11.3	1431
54	4q21.1	981	55	15q13.1	501
56	包括3p25.3	741	55	15q13.1	501
56	包括3p25.3	741	57	4q35.2	1371
58	21q11.2	1401	57	4q35.2	1371
58	21q11.2	1401	59	17随机克隆	872
60	4p16.1和6q27	2068	59	17随机克隆	872
60	4p16.1和6q27	2068	61	7p14.3和11q25	1482
62	14q24.3	1011	61	7p14.3和11q25	1482
62	14q24.3	1011	63	22q13.3	1421
64	17q11.2	1414	63	22q13.3	1421
64	17q11.2	1414	65	7q21.11＝28.4	1310
66	20q13.33和6q14.1	～2800	65	7q21.11＝28.4	1310

¹染色体位置是通过将来自STAR元件的DNA序列数据对人类基因组数据库进行BLAST检索而确定的。根据标准命名参照每一染色体的细胞遗传学标准图给出位置，例如1p2.3是1号染色体短臂的第二条细胞遗传学带的第三条细胞遗传学亚带

(http：//www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。当正向和反向测序反应鉴别出来自不同基因组基因座的DNA时，示出两个基因座。

²精确长度通过DNA序列分析确定；大约长度通过限制酶切作图确定。

³STAR3的序列和位置根据表2和表4的组合进行调整。

⁴表2和表4中的具有这些编号的STAR已经被略去(以下称为“oldSTAR5”等)，它们的编码被分配给DNA序列附录中示出的STAR元件。在oldSTAR5、oldSTAR14和oldSTAR16情况中，克隆的DNA是来自两个以上染色体位置的嵌合体：在oldSTAR9和oldSTAR13情况中，克隆的DNA与STAR4相同。

⁵与表4的“STAR18”相同。

表7：STAR元件赋予转基因表达以随时间的稳定性¹

	细胞分裂 ²	萤光素酶表达 ³
	细胞分裂 ²	萤光素酶表达 ³	STAR6加嘌呤霉素STAR6不加嘌呤霉素⁴	42608410884108144	18,00023,00020,00016,00012,00015,00012,000

¹质粒pSDH-Tet-STAR6被转染进U-2 OS细胞，如实施例1所述在无强力霉素的培养基上分离和培养克隆。每周以1∶20稀释度将细胞转移至一新鲜培养瓶中。

²细胞分裂数基于一周中培养物达到细胞铺满(代表约6次细胞分裂)的估计数。

³萤光素酶如实施例1所述进行分析。

⁴在60次细胞分裂后，将细胞转移至两个培养瓶中，一个培养瓶中加入含嘌呤霉素的培养基，如第1个60次细胞分裂一样，第二个培养瓶中加入不含抗生素的培养基。

表8：人类STAR元件及其推定的小鼠直向同源物(orthologs)和横向同源物(paralogs)

SEQ ID	STAR	人¹	小鼠²	相似性³
SEQ ID	STAR	人¹	小鼠²	相似性³	1	1	2q31.1	2D	600bp 69％
2	2	7p15.2	6B3	909bp 89％	1	1	2q31.1	2D	600bp 69％
2	2	7p15.2	6B3	909bp 89％	3	3a	5q33.3	11B2	248bp 83％
4	3b	10q22.2	14B	1.363bp 89％2.163bp 86％	3	3a	5q33.3	11B2	248bp 83％
4	3b	10q22.2	14B	1.363bp 89％2.163bp 86％	5	6	2p21	17E4	437bp 78％
6	12	5q35.3	11b1.3	796bp 66％	5	6	2p21	17E4	437bp 78％
6	12	5q35.3	11b1.3	796bp 66％	7	13	9q34.3	2A3	753bp 77％
8	18	2q313	2E1	497bp 72％	7	13	9q34.3	2A3	753bp 77％
8	18	2q313	2E1	497bp 72％	9	36	21q22.2	16C4	166bp 79％
10	40	22q11.1	6F1	1.270bp 75％2.309bp 70％	9	36	21q22.2	16C4	166bp 79％
10	40	22q11.1	6F1	1.270bp 75％2.309bp 70％	11	50	6p21.31	17B1	1.451bp 72％2.188bp 80％3.142bp 64％
12	52	7p15.2	6B3	1.846bp 74％2.195bp 71％	11	50	6p21.31	17B1	1.451bp 72％2.188bp 80％3.142bp 64％
12	52	7p15.2	6B3	1.846bp 74％2.195bp 71％	13	53	Xp11.3	XA2	364bp 64％
14	54	4q21.1	5E3	1.174bp 80％2.240bp 73％3.141bp 67％4.144bp 68％	13	53	Xp11.3	XA2	364bp 64％
14	54	4q21.1	5E3	1.174bp 80％2.240bp 73％3.141bp 67％4.144bp 68％	15	61a	7p14.3	6B3	188bp 68％

¹STAR元件在人类基因组中的细胞遗传学位置。

²STAR元件直向同源物在小鼠基因组中的细胞遗传学位置。

³显示高度序列相似性的区域长度，以及相似性百分比。在一些情况中，存在一个以上的高相似性序列模块，在这些情况中，分别描述每一序列模块。相似性＜60％不被认为是显著的。

表9：在STAR元件中过量存在的寡核苷酸模式(6碱基对)

这些模式是根据显著性系数排列的。它们通过用RSA-Tools以人基因组作为参比而确定。包含在线性判别分析中最具判别性变量的模式以星号示出。

编号	寡核苷酸序列	观察到的存在	预期存在	显著性系数	匹配STAR数目
编号	寡核苷酸序列	观察到的存在	预期存在	显著性系数	匹配STAR数目	1	CCCCAC	107	49	8.76	51
2	CAGCGG	36	9	7.75	23	1	CCCCAC	107	49	8.76	51
2	CAGCGG	36	9	7.75	23	3	GGCCCC	74	31	7.21	34
4	CAGCCC	103	50	7.18	37	3	GGCCCC	74	31	7.21	34
4	CAGCCC	103	50	7.18	37	5	GCCCCC	70	29	6.97	34
6	CGGGGC	40	12	6.95	18	5	GCCCCC	70	29	6.97	34
6	CGGGGC	40	12	6.95	18	7	CCCCGC	43	13	6.79	22
8	CGGCAG	35	9	6.64	18	7	CCCCGC	43	13	6.79	22
8	CGGCAG	35	9	6.64	18	9	AGCCCC	83	38	6.54	40
10	CCAGGG	107	54	6.52	43	9	AGCCCC	83	38	6.54	40
10	CCAGGG	107	54	6.52	43	11	GGACCC^*	58	23	6.04	35
12	GCGGAC	20	3	5.94	14	11	GGACCC^*	58	23	6.04	35
12	GCGGAC	20	3	5.94	14	13	CCAGCG	34	10	5.9	24
14	GCAGCC	92	45	5.84	43	13	CCAGCG	34	10	5.9	24
14	GCAGCC	92	45	5.84	43	15	CCGGCA	28	7	5.61	16
16	AGCGGC	27	7	5.45	17	15	CCGGCA	28	7	5.61	16
16	AGCGGC	27	7	5.45	17	17	CAGGGG	86	43	5.09	43
18	CCGCCC	43	15	5.02	18	17	CAGGGG	86	43	5.09	43
18	CCGCCC	43	15	5.02	18	19	CCCCCG	35	11	4.91	20
20	GCCGCC	34	10	4.88	18	19	CCCCCG	35	11	4.91	20
20	GCCGCC	34	10	4.88	18	21	GCCGGC	22	5	4.7	16
22	CGGACC	19	4	4.68	14	21	GCCGGC	22	5	4.7	16
22	CGGACC	19	4	4.68	14	23	CGCCCC	35	11	4.64	19
24	CGCCAG	28	8	4.31	19	23	CGCCCC	35	11	4.64	19
24	CGCCAG	28	8	4.31	19	25	CGCAGC	29	8	4.29	20
26	CAGCCG	32	10	4	24	25	CGCAGC	29	8	4.29	20
26	CAGCCG	32	10	4	24	27	CCCACG	33	11	3.97	26
28	GCTGCC	78	40	3.9	43	27	CCCACG	33	11	3.97	26
28	GCTGCC	78	40	3.9	43	29	CCCTCC	106	60	3.87	48
30	CCCTGC^*	92	50	3.83	42	29	CCCTCC	106	60	3.87	48
30	CCCTGC^*	92	50	3.83	42	31	CACCCC	77	40	3.75	40
32	GCGCCA	30	10	3.58	23	31	CACCCC	77	40	3.75	40
32	GCGCCA	30	10	3.58	23	33	AGGGGC	70	35	3.55	34

34	GAGGGC	66	32	3.5	40
34	GAGGGC	66	32	3.5	40	35	GCGAAC	14	2	3.37	13
36	CCGGCG	1	4	3.33	12	35	GCGAAC	14	2	3.37	13
36	CCGGCG	1	4	3.33	12	37	AGCCGG	34	12	3.29	25
38	GGAGCC	6	34	3.27	40	37	AGCCGG	34	12	3.29	25
38	GGAGCC	6	34	3.27	40	39	CCCCAG	103	60	3.23	51
40	CCGCTC	24	7	3.19	19	39	CCCCAG	103	60	3.23	51
40	CCGCTC	24	7	3.19	19	41	CCCCTC	81	44	3.19	43
42	CACCGC	33	12	3.14	22	41	CCCCTC	81	44	3.19	43
42	CACCGC	33	12	3.14	22	43	CTGCCC	96	55	3.01	42
44	GGGCCA	68	35	2.99	39	43	CTGCCC	96	55	3.01	42
44	GGGCCA	68	35	2.99	39	45	CGCTGC	28	9	2.88	22
46	CAGCGC	25	8	2.77	19	45	CGCTGC	28	9	2.88	22
46	CAGCGC	25	8	2.77	19	47	CGGCCC	28	10	2.73	19
48	CCGCCG	19	5	2.56	9	47	CGGCCC	28	10	2.73	19
48	CCGCCG	19	5	2.56	9	49	CCCCGG	30	11	2.41	17
50	AGCCGC	23	7	2.34	17	49	CCCCGG	30	11	2.41	17
50	AGCCGC	23	7	2.34	17	51	GCACCC	55	27	2.31	38
52	AGGACC	54	27	2.22	33	51	GCACCC	55	27	2.31	38
52	AGGACC	54	27	2.22	33	53	AGGGCG	24	8	2.2	18
54	CAGGGC	81	47	2.18	42	53	AGGGCG	24	8	2.2	18
54	CAGGGC	81	47	2.18	42	55	CCCGCC	45	21	2.15	20
56	GCCAGC	66	36	2.09	39	55	CCCGCC	45	21	2.15	20
56	GCCAGC	66	36	2.09	39	57	AGCGCC	21	6	2.09	18
58	AGGCCC	64	34	2.08	32	57	AGCGCC	21	6	2.09	18
58	AGGCCC	64	34	2.08	32	59	CCCACC	101	62	2.05	54
60	CGCTCA	21	6	2.03	17	59	CCCACC	101	62	2.05	54
60	CGCTCA	21	6	2.03	17	61	AACGCG	9	1	1.96	9
62	GCGGCA	21	7	1.92	14	61	AACGCG	9	1	1.96	9
62	GCGGCA	21	7	1.92	14	63	AGGTCC	49	24	1.87	36
64	CCGTCA	19	6	1.78	14	63	AGGTCC	49	24	1.87	36
64	CCGTCA	19	6	1.78	14	65	CAGAGG	107	68	1.77	47
66	CCCGAG	33	14	1.77	22	65	CAGAGG	107	68	1.77	47
66	CCCGAG	33	14	1.77	22	67	CCGAGG	36	16	1.76	25
68	CGCGGA	11	2	1.75	8	67	CCGAGG	36	16	1.76	25
68	CGCGGA	11	2	1.75	8	69	CCACCC	87	53	1.71	45
70	CCTCGC	23	8	1.71	20	69	CCACCC	87	53	1.71	45
70	CCTCGC	23	8	1.71	20	71	CAAGCC	59	32	1.69	40
72	TCCGCA	18	5	1.68	17	71	CAAGCC	59	32	1.69	40
72	TCCGCA	18	5	1.68	17	73	CGCCGC	18	5	1.67	9
74	GGGAAC	55	29	1.63	39	73	CGCCGC	18	5	1.67	9
74	GGGAAC	55	29	1.63	39	75	CCAGAG	93	58	1.57	49

76	CGTTCC	19	6	1.53	16
76	CGTTCC	19	6	1.53	16	77	CGAGGA	23	8	1.5	19
78	GGGACC	48	24	1.48	31	77	CGAGGA	23	8	1.5	19
78	GGGACC	48	24	1.48	31	79	CCGCGA	10	2	1.48	8
80	CCTGCG	24	9	1.45	17	79	CCGCGA	10	2	1.48	8
80	CCTGCG	24	9	1.45	17	81	CTGCGC	23	8	1.32	14
82	GACCCC	47	24	1.31	33	81	CTGCGC	23	8	1.32	14
82	GACCCC	47	24	1.31	33	83	GCTCCA	66	38	1.25	39
84	CGCCAC	33	15	1.19	21	83	GCTCCA	66	38	1.25	39
84	CGCCAC	33	15	1.19	21	85	GCGGGA	23	9	1.17	18
86	CTGCGA	18	6	1.15	15	85	GCGGGA	23	9	1.17	18
86	CTGCGA	18	6	1.15	15	87	CTGCTC	80	49	1.14	50
88	CAGACG	23	9	1.13	19	87	CTGCTC	80	49	1.14	50
88	CAGACG	23	9	1.13	19	89	CGAGAG	21	8	1.09	17
90	CGGTGC	18	6	1.06	16	89	CGAGAG	21	8	1.09	17
90	CGGTGC	18	6	1.06	16	91	CTCCCC	84	53	1.05	47
92	GCGGCC	22	8	1.04	14	91	CTCCCC	84	53	1.05	47
92	GCGGCC	22	8	1.04	14	93	CGGCGC	14	4	1.04	13
94	AAGCCC^*	60	34	1.03	42	93	CGGCGC	14	4	1.04	13
94	AAGCCC^*	60	34	1.03	42	95	CCGCAG	24	9	1.03	17
96	GCCCAC	59	34	0.95	35	95	CCGCAG	24	9	1.03	17
96	GCCCAC	59	34	0.95	35	97	CACCCA	92	60	0.93	49
98	GCGCCC	27	11	0.93	18	97	CACCCA	92	60	0.93	49
98	GCGCCC	27	11	0.93	18	99	ACCGGC	15	4	0.92	13
100	CTCGCA	16	5	0.89	14	99	ACCGGC	15	4	0.92	13
100	CTCGCA	16	5	0.89	14	101	ACGCTC	16	5	0.88	12
102	CTGGAC	58	33	0.88	32	101	ACGCTC	16	5	0.88	12
102	CTGGAC	58	33	0.88	32	103	GCCCCA	67	40	0.87	38
104	ACCGTC	15	4	0.86	11	103	GCCCCA	67	40	0.87	38
104	ACCGTC	15	4	0.86	11	105	CCCTCG	21	8	0.8	18
106	AGCCCG	22	8	0.79	14	105	CCCTCG	21	8	0.8	18
106	AGCCCG	22	8	0.79	14	107	ACCCGA	16	5	0.78	13
108	AGCAGC	79	50	0.75	41.	107	ACCCGA	16	5	0.78	13
108	AGCAGC	79	50	0.75	41.	109	ACCGCG	14	4	0.69	7
110	CGAGGC	29	13	0.69	24	109	ACCGCG	14	4	0.69	7
110	CGAGGC	29	13	0.69	24	111	AGCTGC	70	43	0.64	36
112	GGGGAC	49	27	0.64	34	111	AGCTGC	70	43	0.64	36
112	GGGGAC	49	27	0.64	34	113	CCGCAA	16	5	0.64	12
114	CGTCGC	8	1	0.62	6	113	CCGCAA	16	5	0.64	12
114	CGTCGC	8	1	0.62	6	115	CGTGAC	17	6	0.57	15
116	CGCCCA	33	16	0.56	22	115	CGTGAC	17	6	0.57	15
116	CGCCCA	33	16	0.56	22	117	CTCTGC	97	65	0.54	47

118	AGCGGG	21	8	0.52	17
118	AGCGGG	21	8	0.52	17	119	ACCGCT	15	5	0.5	11
120	CCCAGG	133	95	0.49	58	119	ACCGCT	15	5	0.5	11
120	CCCAGG	133	95	0.49	58	121	CCCTCA	71	45	0.49	39
122	CCCCCA^*	77	49	0.49	42	121	CCCTCA	71	45	0.49	39
122	CCCCCA^*	77	49	0.49	42	123	GGCGAA	16	5	0.48	14
124	CGGCTC	29	13	0.47	19	123	GGCGAA	16	5	0.48	14
124	CGGCTC	29	13	0.47	19	125	CTCGCC	20	8	0.46	1
126	CGGAGA	20	8	0.45	14	125	CTCGCC	20	8	0.46	1
126	CGGAGA	20	8	0.45	14	127	TCCCCA	95	64	0.43	52
128	GACACC	44	24	0.42	33	127	TCCCCA	95	64	0.43	52
128	GACACC	44	24	0.42	33	129	CTCCGA	17	6	042	13
130	CTCGTC	17	6	0.42	14	129	CTCCGA	17	6	042	13
130	CTCGTC	17	6	0.42	14	131	CGACCA	13	4	0.39	11
132	ATGACG	17	6	0.37	12	131	CGACCA	13	4	0.39	11
132	ATGACG	17	6	0.37	12	133	CCATCG	17	6	0.37	13
134	AGGGGA	78	51	0.36	44	133	CCATCG	17	6	0.37	13
134	AGGGGA	78	51	0.36	44	135	GCTGCA	77	50	0.35	43
136	ACCCCA	76	49	0.33	40	135	GCTGCA	77	50	0.35	43
136	ACCCCA	76	49	0.33	40	137	CGGAGC	21	9	0.33	16
138	CCTCCG	28	13	0.32	19	137	CGGAGC	21	9	0.33	16
138	CCTCCG	28	13	0.32	19	139	CGGGAC	16	6	0.3	10
140	CCTGGA	88	59	0.3	45	139	CGGGAC	16	6	0.3	10
140	CCTGGA	88	59	0.3	45	141	AGGCGA	18	7	0.29	17
142	ACCCCT	54	32	0.28	36	141	AGGCGA	18	7	0.29	17
142	ACCCCT	54	32	0.28	36	143	GCTCCC	56	34	0.27	36
144	CGTCAC	16	6	0.27	15	143	GCTCCC	56	34	0.27	36
144	CGTCAC	16	6	0.27	15	145	AGCGCA	16	6	0.26	11
146	GAAGCC	62	38	0.25	39	145	AGCGCA	16	6	0.26	11
146	GAAGCC	62	38	0.25	39	147	GACGCC	79	52	0.22	42
148	ACCCTC	54	32	0.22	33	147	GACGCC	79	52	0.22	42
148	ACCCTC	54	32	0.22	33	149	CCCGGC	37	20	0.21	21
150	CGAGAA	20	8	0.2	17	149	CCCGGC	37	20	0.21	21
150	CGAGAA	20	8	0.2	17	151	CCACCG	29	14	0.18	20
152	ACTTCG	16	6	0.17	14	151	CCACCG	29	14	0.18	20
152	ACTTCG	16	6	0.17	14	153	GATGAC	48	28	0.17	35
154	ACGAGG	23	10	0.16	18	153	GATGAC	48	28	0.17	35
154	ACGAGG	23	10	0.16	18	155	CCGGAG	20	8	0.15	18
156	ACCCAC	60	37	0.12	41	155	CCGGAG	20	8	0.15	18
156	ACCCAC	60	37	0.12	41	157	CTGGGC	105	74	0.11	50
158	CCACGG	23	10	0.09	19	157	CTGGGC	105	74	0.11	50
158	CCACGG	23	10	0.09	19	159	CGGTCC	13	4	0.09	12

160	AGCACC^*	54	33	0.09	40
160	AGCACC^*	54	33	0.09	40	161	ACACCC	53	32	0.08	38
162	AGGGCC	54	33	0.08	30	161	ACACCC	53	32	0.08	38
162	AGGGCC	54	33	0.08	30	163	CGCGAA	6	1	0.02	6
164	GAGCCC	58	36	0.02	36	163	CGCGAA	6	1	0.02	6
164	GAGCCC	58	36	0.02	36	165	CTGAGC	71	46	0.02	45
166	AATCGG	13	4	0.02	11	165	CTGAGC	71	46	0.02	45

表10：在STAR元件中过量存在的Dyad模式(6碱基对)

编号	Dyad序列	观察到的存在	预期存在	显著性系数
编号	Dyad序列	观察到的存在	预期存在	显著性系数	1	CCCN{2}CGG	36	7	9.31
2	CCGN{6}CCC	40	10	7.3	1	CCCN{2}CGG	36	7	9.31
2	CCGN{6}CCC	40	10	7.3	3	CAGN{0}CGG	36	8	7.13
4	CGCN{15}CCC	34	8	6.88	3	CAGN{0}CGG	36	8	7.13
4	CGCN{15}CCC	34	8	6.88	5	CGGN{9}GCC	33	7	6.82
6	CCCN{9}CGC	35	8	6.72	5	CGGN{9}GCC	33	7	6.82
6	CCCN{9}CGC	35	8	6.72	7	CCCN{1}GCG	34	8	6.64
8	CCCN{0}CAC	103	48	6.61	7	CCCN{1}GCG	34	8	6.64
8	CCCN{0}CAC	103	48	6.61	9	AGCN{16}CCG	29	6	5.96
10	CCCN{4}CGC	34	8	5.8	9	AGCN{16}CCG	29	6	5.96
10	CCCN{4}CGC	34	8	5.8	11	CGCN{13}GGA	26	5	5.77
12	GCGN{16}CCC	30	7	5.74	11	CGCN{13}GGA	26	5	5.77
12	GCGN{16}CCC	30	7	5.74	13	CGCN{5}GCA	25	5	5.49
14	CCCN{14}CCC	101	49	5.43	13	CGCN{5}GCA	25	5	5.49
14	CCCN{14}CCC	101	49	5.43	15	CTGN{4}CGC	34	9	5.41
16	CCAN{12}GCG	28	6	5.37	15	CTGN{4}CGC	34	9	5.41
16	CCAN{12}GCG	28	6	5.37	17	CGGN{11}CAG	36	10	5.25
18	CCCN{5}GCC	75	33	4.87	17	CGGN{11}CAG	36	10	5.25
18	CCCN{5}GCC	75	33	4.87	19	GCCN{0}CCC	64	26	4.81
20	CGCN{4}GAC	19	3	4.78	19	GCCN{0}CCC	64	26	4.81
20	CGCN{4}GAC	19	3	4.78	21	CGGN{0}CAG	33	9	4.76
22	CCCN{3}CGC	32	8	4.67	21	CGGN{0}CAG	33	9	4.76
22	CCCN{3}CGC	32	8	4.67	23	CGCN{1}GAC	20	3	4.58

24	GCGN{2}GCC	29	7	4.54
24	GCGN{2}GCC	29	7	4.54	25	CCCN{4}GCC	76	34	4.53
26	CCCN{1}CCC	103	52	4.53	25	CCCN{4}GCC	76	34	4.53
26	CCCN{1}CCC	103	52	4.53	27	CCGN{13}CAG	33	9	4.5
28	GCCN{4}GGA	64	27	4.48	27	CCGN{13}CAG	33	9	4.5
28	GCCN{4}GGA	64	27	4.48	29	CCGN{3}GGA	26	6	4.48
30	AGGN{2}GGG	118	63	4.44	29	CCGN{3}GGA	26	6	4.48
30	AGGN{2}GGG	118	63	4.44	31	CACN{5}GCG	22	4	4.42
32	CGCN{17}CCA	27	6	4.39	31	CACN{5}GCG	22	4	4.42
32	CGCN{17}CCA	27	6	4.39	33	CCCN{9}GGC	69	30	4.38
34	CCTN{5}GCG	28	7	4.37	33	CCCN{9}GGC	69	30	4.38
34	CCTN{5}GCG	28	7	4.37	35	GCGN{0}GAC	19	3	4.32
36	GCCN{0}GGC	40	7	4.28	35	GCGN{0}GAC	19	3	4.32
36	GCCN{0}GGC	40	7	4.28	37	GCGN{2}CCC	26	6	4.27
38	CCGN{11}CCC	32	9	4.17	37	GCGN{2}CCC	26	6	4.27
38	CCGN{11}CCC	32	9	4.17	39	CCCN{8}TCG	23	5	4.12
40	CCGN{17}GCC	30	8	4.12	39	CCCN{8}TCG	23	5	4.12
40	CCGN{17}GCC	30	8	4.12	41	GGGN{5}GGA	101	52	4.11
42	GGCN{6}GGA	71	32	4.1	41	GGGN{5}GGA	101	52	4.11
42	GGCN{6}GGA	71	32	4.1	43	CCAN{4}CCC	96	48	4.1
44	CCTN{14}CCG	32	9	4.09	43	CCAN{4}CCC	96	48	4.1
44	CCTN{14}CCG	32	9	4.09	45	GACN{12}GGC	45	16	4.07
46	CGCN{13}CCC	30	8	4.04	45	GACN{12}GGC	45	16	4.07
46	CGCN{13}CCC	30	8	4.04	47	CAGN{16}CCC	92	46	4.02
48	AGCN{10}GGG	75	35	394	47	CAGN{16}CCC	92	46	4.02
48	AGCN{10}GGG	75	35	394	49	CGGN{13}GGC	30	8	3.93
50	CGGN{1}GCC	30	8	3.92	49	CGGN{13}GGC	30	8	3.93
50	CGGN{1}GCC	30	8	3.92	51	AGCN{0}GGC	26	6	3.9
52	CCCN{16}GGC	64	28	3.89	51	AGCN{0}GGC	26	6	3.9
52	CCCN{16}GGC	64	28	3.89	53	GCTN{19}CCC	67	29	3.87
54	CCCN{16}GGG	88	31	3.81	53	GCTN{19}CCC	67	29	3.87
54	CCCN{16}GGG	88	31	3.81	55	CCCN{9}CG}G	30	8	3.77
56	CCCN{10}CGG	30	8	3.76	55	CCCN{9}CG}G	30	8	3.77
56	CCCN{10}CGG	30	8	3.76	57	CCAN{0}GCG	32	9	3.75
58	GCCN{17}CGC	26	6	3.74	57	CCAN{0}GCG	32	9	3.75
58	GCCN{17}CGC	26	6	3.74	59	CCTN{6}CGC	27	7	3.73
60	GGAN{1}CCC	63	27	3.71	59	CCTN{6}CGC	27	7	3.73
60	GGAN{1}CCC	63	27	3.71	61	CGCN{18}CAC	24	5	3.7
62	CGCN{20}CCG	21	4	3.69	61	CGCN{18}CAC	24	5	3.7
62	CGCN{20}CCG	21	4	3.69	63	CCGN{0}GCA	26	6	3.69
64	CGCN{20}CCC	28	7	3.69	63	CCGN{0}GCA	26	6	3.69
64	CGCN{20}CCC	28	7	3.69	65	AGCN{15}CCC	67	30	3.65

66	CCTN{7}GGC	69	31	3.63
66	CCTN{7}GGC	69	31	3.63	67	GCCN{5}CGC	32	9	3.61
68	GCCN{14}CGG	28	7	3.59	67	GCCN{5}CGC	32	9	3.61
68	GCCN{14}CGG	28	7	3.59	69	CAGN{11}CCC	89	45	3.58
70	GGGN{16}GAC	53	21	3.57	69	CAGN{11}CCC	89	45	3.58
70	GGGN{16}GAC	53	21	3.57	71	CCCN{15}GCG	25	5	3.57
72	CCCN{0}CGC	37	12	3.54	71	CCCN{15}GCG	25	5	3.57
72	CCCN{0}CGC	37	12	3.54	73	CCCN{16}AGC^*	67	30	3.54
74	AGGN{9}GGG	96	50	3.52	73	CCCN{16}AGC^*	67	30	3.54
74	AGGN{9}GGG	96	50	3.52	75	CGCN{12}CTC	28	7	3.46
76	CACN{8}CGC	23	5	3.43	75	CGCN{12}CTC	28	7	3.46
76	CACN{8}CGC	23	5	3.43	77	CCAN{7}CCG	31	9	3.42
78	CGGN{1}GCA	25	6	3.41	77	CCAN{7}CCG	31	9	3.42
78	CGGN{1}GCA	25	6	3.41	79	CGCN{14}CCC	29	8	3.4
80	AGCN{0}CCC	76	36	3.4	79	CGCN{14}CCC	29	8	3.4
80	AGCN{0}CCC	76	36	3.4	81	CGCN{13}GTC	18	3	3.37
82	GCGN{3}GCA	26	7	3.35	81	CGCN{13}GTC	18	3	3.37
82	GCGN{3}GCA	26	7	3.35	83	CGGN{0}GGC	34	11	3.35
84	GCCN{14}CCC	68	31	3.33	83	CGGN{0}GGC	34	11	3.35
84	GCCN{14}CCC	68	31	3.33	85	ACCN{7}CGC	21	4	3.32
86	AGGN{7}CGG	33	10	3.31	85	ACCN{7}CGC	21	4	3.32
86	AGGN{7}CGG	33	10	3.31	87	CCCN{16}CGA	22	5	3.3
88	CGCN{6}CAG	31	9	3.29	87	CCCN{16}CGA	22	5	3.3
88	CGCN{6}CAG	31	9	3.29	89	CAGN{11}GCG	29	8	3.29
90	CCGN{12}CCG	19	4	3.26	89	CAGN{11}GCG	29	8	3.29
90	CCGN{12}CCG	19	4	3.26	91	CGCN{18}CAG	27	7	3.24
92	CAGN{1}GGG	80	39	3.21	91	CGCN{18}CAG	27	7	3.24
92	CAGN{1}GGG	80	39	3.21	93	CGCN{0}CCC	32	10	3.2
94	GCGN{18}GCC	26	7	3.18	93	CGCN{0}CCC	32	10	3.2
94	GCGN{18}GCC	26	7	3.18	95	CGGN{15}GGC	27	7	3.15
96	CCCN{15}AGG	72	34	3.14	95	CGGN{15}GGC	27	7	3.15
96	CCCN{15}AGG	72	34	3.14	97	AGGN{20}GCG	26	7	3.14
98	CGGN{5}CTC	26	7	3.13	97	AGGN{20}GCG	26	7	3.14
98	CGGN{5}CTC	26	7	3.13	99	TCCN{17}CGA	23	5	3.12
100	GCGN{4}CCC	30	9	3.08	99	TCCN{17}CGA	23	5	3.12
100	GCGN{4}CCC	30	9	3.08	101	CCCN{2}CGC	30	9	3.07
102	CGTN{3}CAG	28	8	3.06	101	CCCN{2}CGC	30	9	3.07
102	CGTN{3}CAG	28	8	3.06	103	CCGN{13}GAG	27	7	3.05
104	CTCN{6}CGC	28	8	3.04	103	CCGN{13}GAG	27	7	3.05
104	CTCN{6}CGC	28	8	3.04	105	CGCN{4}GAG	21	5	3.03
106	GCGN{5}GGA	24	6	3.03	105	CGCN{4}GAG	21	5	3.03
106	GCGN{5}GGA	24	6	3.03	107	CCGN{1}CAG	27	7	3.01

108	CGCN{11}CCG	18	3	2.99
108	CGCN{11}CCG	18	3	2.99	109	GCGN{19}CCC	26	7	2.98
110	CGCN{18}GAA	21	5	2.98	109	GCGN{19}CCC	26	7	2.98
110	CGCN{18}GAA	21	5	2.98	111	GGGN{19}GGA	78	39	2.95
112	CCAN{1}CGG	24	6	2.94	111	GGGN{19}GGA	78	39	2.95
112	CCAN{1}CGG	24	6	2.94	113	CCCN{7}GCG	25	6	2.94
114	AGGN{10}CCC	84	43	2.92	113	CCCN{7}GCG	25	6	2.94
114	AGGN{10}CCC	84	43	2.92	115	CCAN{0}GGG	97	52	2.88
116	CAGN{10}CCC	82	41	2.87	115	CCAN{0}GGG	97	52	2.88
116	CAGN{10}CCC	82	41	2.87	117	CCGN{18}CCG	19	4	2.86
118	CCGN{18}GGC	26	7	2.85	117	CCGN{18}CCG	19	4	2.86
118	CCGN{18}GGC	26	7	2.85	119	CCCN{2}GCG	24	6	2.84
120	CGCN{1}GGC	25	7	2.83	119	CCCN{2}GCG	24	6	2.84
120	CGCN{1}GGC	25	7	2.83	121	CCGN{5}GAC	19	4	2.81
122	GGAN{0}CCC	52	22	2.8	121	CCGN{5}GAC	19	4	2.81
122	GGAN{0}CCC	52	22	2.8	123	CCCN{1}CCG	29	9	2.78
124	CCCN{15}ACG	23	6	2.75	123	CCCN{1}CCG	29	9	2.78
124	CCCN{15}ACG	23	6	2.75	125	AGCN{8}CCC	66	31	2.73
126	CCCN{3}GGC	60	27	2.71	125	AGCN{8}CCC	66	31	2.73
126	CCCN{3}GGC	60	27	2.71	127	AGGN{9}CGG	31	10	2.7
128	CCCN{14}CGC	27	8	2.7	127	AGGN{9}CGG	31	10	2.7
128	CCCN{14}CGC	27	8	2.7	129	CCGN{0}CCG	19	4	2.7
130	CGCN{8}AGC	23	6	2.69	129	CCGN{0}CCG	19	4	2.7
130	CGCN{8}AGC	23	6	2.69	131	CGCN{19}ACC	21	5	2.68
132	GCGN{17}GAC	17	3	2.66	131	CGCN{19}ACC	21	5	2.68
132	GCGN{17}GAC	17	3	2.66	133	AGCN{1}GCG	24	6	2.63
134	CCGN{11}GGC	31	10	2.63	133	AGCN{1}GCG	24	6	2.63
134	CCGN{11}GGC	31	10	2.63	135	CGGN{4}AGA	26	7	2.63
136	CGCN{14}CCG	17	3	2.62	135	CGGN{4}AGA	26	7	2.63
136	CGCN{14}CCG	17	3	2.62	137	CCTN{20}GCG	24	6	2.62
138	CCAN{10}CGC	26	7	2.61	137	CCTN{20}GCG	24	6	2.62
138	CCAN{10}CGC	26	7	2.61	139	CCCN{20}CAC	69	33	2.6
140	CCGN{11}GCC	27	8	2.6	139	CCCN{20}CAC	69	33	2.6
140	CCGN{11}GCC	27	8	2.6	141	CGCN{18}CCC	26	7	2.59
142	CGGN{15}CGC	16	3	2.57	141	CGCN{18}CCC	26	7	2.59
142	CGGN{15}CGC	16	3	2.57	143	CGCN{16}GCC	24	6	2.55
144	CGCN{20}GGC	23	6	2.54	143	CGCN{16}GCC	24	6	2.55
144	CGCN{20}GGC	23	6	2.54	145	CGCN{19}CCG	18	4	2.52
146	CGGN{10}CCA	28	8	2.51	145	CGCN{19}CCG	18	4	2.52
146	CGGN{10}CCA	28	8	2.51	147	CGCN{17}CCC	26	7	2.51
148	CGCN{11}ACA	23	6	2.51	147	CGCN{17}CCC	26	7	2.51
148	CGCN{11}ACA	23	6	2.51	149	CGGN{0}ACC	17	3	2.5

150	GCGN{10}GCC	24	6	2.49
150	GCGN{10}GCC	24	6	2.49	151	GCGN{8}GAC	17	3	2.49
152	CCCN{15}GGG	84	32	2.44	151	GCGN{8}GAC	17	3	2.49
152	CCCN{15}GGG	84	32	2.44	153	CGGN{16}GGC	27	8	2.44
154	CGCN{16}CCA	23	6	2.42	153	CGGN{16}GGC	27	8	2.44
154	CGCN{16}CCA	23	6	2.42	155	GCCN{3}CCC	73	36	2.4
156	CAGN{4}GG}G	94	51	2.4	155	GCCN{3}CCC	73	36	2.4
156	CAGN{4}GG}G	94	51	2.4	157	CCCN{6}GCG	23	6	2.38
158	CCGN{16}CGC	17	3	2.38	157	CCCN{6}GCG	23	6	2.38
158	CCGN{16}CGC	17	3	2.38	159	CCCN{17}GCA	61	28	2.37
160	CGCN{13}TCC	24	6	2.37	159	CCCN{17}GCA	61	28	2.37
160	CGCN{13}TCC	24	6	2.37	161	GCCN{1}CGC	29	9	2.36
162	CCGN{19}GAG	26	7	2.35	161	GCCN{1}CGC	29	9	2.36
162	CCGN{19}GAG	26	7	2.35	163	GGGN{10}GGA	89	48	2.35
164	CAGN{5}CCG	32	11	2.35	163	GGGN{10}GGA	89	48	2.35
164	CAGN{5}CCG	32	11	2.35	165	CGCN{3}AGA	19	4	2.32
166	GCCN{0}GCC	29	9	2.32	165	CGCN{3}AGA	19	4	2.32
166	GCCN{0}GCC	29	9	2.32	167	CCCN{8}GGC	61	28	2.31
168	CCTN{6}GCG	22	6	2.29	167	CCCN{8}GGC	61	28	2.31
168	CCTN{6}GCG	22	6	2.29	169	GACN{6}CCC	48	20	2.29
170	CGGN{1}CCC	26	8	2.27	169	GACN{6}CCC	48	20	2.29
170	CGGN{1}CCC	26	8	2.27	171	CCCN{15}CCG	30	10	2.27
172	CAGN{9}CCC	84	44	2.26	171	CCCN{15}CCG	30	10	2.27
172	CAGN{9}CCC	84	44	2.26	173	CGGN{10}GGC	27	8	2.26
174	CGAN{10}ACG	10	1	2.26	173	CGGN{10}GGC	27	8	2.26
174	CGAN{10}ACG	10	1	2.26	175	GCGN{3}TCC	21	5	2.26
176	CCCN{3}GCC	75	38	2.24	175	GCGN{3}TCC	21	5	2.26
176	CCCN{3}GCC	75	38	2.24	177	GCGN{1}ACC	17	3	2.24
178	CCGN{9}AGG	27	8	2.23	177	GCGN{1}ACC	17	3	2.24
178	CCGN{9}AGG	27	8	2.23	179	CGCN{16}CAG	26	8	2.23
180	GGCN{0}CCC	62	29	2.22	179	CGCN{16}CAG	26	8	2.23
180	GGCN{0}CCC	62	29	2.22	181	AGGN{12}CCG	26	8	2.19
182	CCGN{0}GCG	16	3	2.19	181	AGGN{12}CCG	26	8	2.19
182	CCGN{0}GCG	16	3	2.19	183	CCGN{2}GCC	30	10	2.18
184	CCGN{11}GTC	19	4	2.17	183	CCGN{2}GCC	30	10	2.18
184	CCGN{11}GTC	19	4	2.17	185	CAGN{0}CCC	88	47	2.17
186	CCCN{5}CCG	32	11	2.17	185	CAGN{0}CCC	88	47	2.17
186	CCCN{5}CCG	32	11	2.17	187	GCCN{20}CCC	66	32	2.15
188	GACN{2}CGC	18	4	2.14	187	GCCN{20}CCC	66	32	2.15
188	GACN{2}CGC	18	4	2.14	189	CGCN{6}CAC	23	6	2.13
190	AGGN{14}GCG	25	7	2.1	189	CGCN{6}CAC	23	6	2.13
190	AGGN{14}GCG	25	7	2.1	191	GACN{5}CGC	17	3	2.1

192	CCTN{19}CCG	29	9	2.1
192	CCTN{19}CCG	29	9	2.1	193	CCGN{12}GGA	24	7	2.08
194	GGCN{9}GAC^*	44	18	2.08	193	CCGN{12}GGA	24	7	2.08
194	GGCN{9}GAC^*	44	18	2.08	195	AGGN{10}GGG	94	52	2.07
196	CCGN{10}GAG	25	7	2.07	195	AGGN{10}GGG	94	52	2.07
196	CCGN{10}GAG	25	7	2.07	197	CGCN{6}GGA	20	5	2.06
198	CGCN{7}AGC	23	6	2.04	197	CGCN{6}GGA	20	5	2.06
198	CGCN{7}AGC	23	6	2.04	199	CCAN{13}CGG	26	8	2.03
200	CGGN{6}GGA	25	7	2.03	199	CCAN{13}CGG	26	8	2.03
200	CGGN{6}GGA	25	7	2.03	201	CGCN{19}GCC	24	7	2.03
202	CCAN{12}CGC	24	7	2.02	201	CGCN{19}GCC	24	7	2.03
202	CCAN{12}CGC	24	7	2.02	203	CGGN{1}GGC	41	16	2.02
204	GCGN{3}CCA	25	7	2.01	203	CGGN{1}GGC	41	16	2.02
204	GCGN{3}CCA	25	7	2.01	205	AGGN{1}CGC	21	5	2
206	CTCN{5}CGC	24	7	1.98	205	AGGN{1}CGC	21	5	2
206	CTCN{5}CGC	24	7	1.98	207	CCCN{0}ACG	30	10	1.97
208	CAGN{17ICCG	29	9	1.96	207	CCCN{0}ACG	30	10	1.97
208	CAGN{17ICCG	29	9	1.96	209	GGCN{4}CCC	62	30	1.96
210	AGGN{8}GCG	26	8	1.96	209	GGCN{4}CCC	62	30	1.96
210	AGGN{8}GCG	26	8	1.96	211	CTGN{1}CCC	88	48	1.94
212	CCCN{16}CAG	85	46	1.94	211	CTGN{1}CCC	88	48	1.94
212	CCCN{16}CAG	85	46	1.94	213	CGCN{9}GAC	16	3	1.93
214	CAGN{6}CCG	29	9	1.92	213	CGCN{9}GAC	16	3	1.93
214	CAGN{6}CCG	29	9	1.92	215	CGTN{12}CGC	11	1	1.92
216	CTCN{7}GCC	69	35	1.92	215	CGTN{12}CGC	11	1	1.92
216	CTCN{7}GCC	69	35	1.92	217	CGCN{19}TCC	22	6	1.92
218	CCCN{7}GCC	67	33	1.91	217	CGCN{19}TCC	22	6	1.92
218	CCCN{7}GCC	67	33	1.91	219	CAGN{13}CGG	30	10	1.9
220	CGCN{1}GCC	27	8	1.9	219	CAGN{13}CGG	30	10	1.9
220	CGCN{1}GCC	27	8	1.9	221	CGCN{17}CCG	17	4	1.89
222	AGGN{4}CCC	63	31	1.89	221	CGCN{17}CCG	17	4	1.89
222	AGGN{4}CCC	63	31	1.89	223	AGCN{10}CGC	21	5	1.89
224	CCCN{11}CGG	30	10	1.88	223	AGCN{10}CGC	21	5	1.89
224	CCCN{11}CGG	30	10	1.88	225	CCCN{8}GCC	75	39	1.86
226	CCGN{1}CGG	22	3	1.86	225	CCCN{8}GCC	75	39	1.86
226	CCGN{1}CGG	22	3	1.86	227	CCCN{1}ACC	71	36	1.85
228	CGCN{0}CAG	25	7	1.85	227	CCCN{1}ACC	71	36	1.85
228	CGCN{0}CAG	25	7	1.85	229	CCGN{19}TGC	23	6	1.82
230	GCGN{4}CGA	12	2	1.82	229	CCGN{19}TGC	23	6	1.82
230	GCGN{4}CGA	12	2	1.82	231	CCGN{19}GCC	30	10	1.82
232	CCAN{10}CCC	85	46	1.81	231	CCGN{19}GCC	30	10	1.82
232	CCAN{10}CCC	85	46	1.81	233	CAGN{13}GGG	91	51	1.81

234	AGCN{18}CGG	23	6	1.81
234	AGCN{18}CGG	23	6	1.81	235	CGAN{8}CGC	11	1	1.81
236	AGCN{4}CCC	63	31	1.8	235	CGAN{8}CGC	11	1	1.81
236	AGCN{4}CCC	63	31	1.8	237	GGAN{6}CCC	61	30	1.8
238	CGGN{13}AAG	23	6	1.8	237	GGAN{6}CCC	61	30	1.8
238	CGGN{13}AAG	23	6	1.8	239	ACCN{11}CGC	19	5	1.79
240	CCGN{12}CAG	28	9	1.78	239	ACCN{11}CGC	19	5	1.79
240	CCGN{12}CAG	28	9	1.78	241	CCCN{12}GGG	76	29	1.77
242	CACN{17}ACG	22	6	1.76	241	CCCN{12}GGG	76	29	1.77
242	CACN{17}ACG	22	6	1.76	243	CAGN{18}CCC	82	44	1.76
244	CGTN{10}GTC	19	5	1.75	243	CAGN{18}CCC	82	44	1.76
244	CGTN{10}GTC	19	5	1.75	245	CCCN{13}GCG	23	6	1.75
246	GCAN{1}CGC	20	5	1.73	245	CCCN{13}GCG	23	6	1.75
246	GCAN{1}CGC	20	5	1.73	247	AGAN{4}CCG	24		1.73
248	GCGN{10}AGC	22	6	1.72	247	AGAN{4}CCG	24		1.73
248	GCGN{10}AGC	22	6	1.72	249	CGCN{0}GGA	12	2	1.72
250	CGGN{4}GAC	17	4	1.69	249	CGCN{0}GGA	12	2	1.72
250	CGGN{4}GAC	17	4	1.69	251	CCCN{12}CGC	26	8	1.68
252	GCCN{15}CCC	65	33	1.68	251	CCCN{12}CGC	26	8	1.68
252	GCCN{15}CCC	65	33	1.68	253	GCGN{6}TCC	20	5	1.66
254	CGGN{3}CAG	33	12	1.65	253	GCGN{6}TCC	20	5	1.66
254	CGGN{3}CAG	33	12	1.65	255	CCCN{3}CCA	88	49	1.65
256	AGCN{3}CCC	59	28	1.65	255	CCCN{3}CCA	88	49	1.65
256	AGCN{3}CCC	59	28	1.65	257	GGGN{16}GCA	65	33	1.65
258	AGGN{8}CCG	28	9	1.64	257	GGGN{16}GCA	65	33	1.65
258	AGGN{8}CCG	28	9	1.64	259	CCCN{0}CCG	29	10	1.64
260	GCGN{5}GAC	16	3	1.64	259	CCCN{0}CCG	29	10	1.64
260	GCGN{5}GAC	16	3	1.64	261	CCCN{9}ACC	60	29	1.64
262	CTGN{5}CGC	25	8	1.64	261	CCCN{9}ACC	60	29	1.64
262	CTGN{5}CGC	25	8	1.64	263	CGCN{14}CTC	23	7	1.64
264	CGGN{14}GCA	23	7	1.63	263	CGCN{14}CTC	23	7	1.64
264	CGGN{14}GCA	23	7	1.63	265	CCGN{8}GCC	26	8	1.62
266	CCGN{7}CAC	23	7	1.62	265	CCGN{8}GCC	26	8	1.62
266	CCGN{7}CAC	23	7	1.62	267	AGCN{8}GCG	21	6	1.61
268	CGGN{16}GGA	29	10	1.61	267	AGCN{8}GCG	21	6	1.61
268	CGGN{16}GGA	29	10	1.61	269	CCAN{12}CCG	26	8	1.61
270	CGGN{2}CCC	26	8	1.6	269	CCAN{12}CCG	26	8	1.61
270	CGGN{2}CCC	26	8	1.6	271	CCAN{13}GGG	71	37	1.6
272	CGGN{15}GCA	21	6	1.6	271	CCAN{13}GGG	71	37	1.6
272	CGGN{15}GCA	21	6	1.6	273	CGCN{9}GCA	20	5	1.58
274	CGGN{19}CCA	26	8	1.58	273	CGCN{9}GCA	20	5	1.58
274	CGGN{19}CCA	26	8	1.58	275	GGGN{15}CGA	20	5	1.57

276	CCCN{10}CGC	26	8	1.57
276	CCCN{10}CGC	26	8	1.57	277	CTCN{14}CGC	26	8	1.55
278	CACN{11}GCG	20	5	1.55	277	CTCN{14}CGC	26	8	1.55
278	CACN{11}GCG	20	5	1.55	279	CCGN{2}GGC	24	7	1.55
280	CTGN{18}CCC	85	47	1.54	279	CCGN{2}GGC	24	7	1.55
280	CTGN{18}CCC	85	47	1.54	281	GGGN{13}CAC	58	28	1.54
282	CCTN{15}GGC	62	31	1.54	281	GGGN{13}CAC	58	28	1.54
282	CCTN{15}GGC	62	31	1.54	283	CCCN{20}CGA	20	5	1.54
284	CCCN{8}CGA	20	5	1.53	283	CCCN{20}CGA	20	5	1.54
284	CCCN{8}CGA	20	5	1.53	285	GAGN{7}CCC	61	30	1.53
286	CGCN{2}CCG	22	6	1.53	285	GAGN{7}CCC	61	30	1.53
286	CGCN{2}CCG	22	6	1.53	287	CCCN{0}TCC	98	57	1.52
288	AGCN{0}GCC	21	6	1.52	287	CCCN{0}TCC	98	57	1.52
288	AGCN{0}GCC	21	6	1.52	289	CCCN{2}TCC	82	45	1.52
290	CCGN{5}CCC	30	10	1.52	289	CCCN{2}TCC	82	45	1.52
290	CCGN{5}CCC	30	10	1.52	291	CGCN{13}CGC	16	3	1.51
292	CCCN{1}CGC	28	9	1.51	291	CGCN{13}CGC	16	3	1.51
292	CCCN{1}CGC	28	9	1.51	293	GCCN{16}GCA	53	25	1.51
294	CCCN{16}CCA	84	46	1.5	293	GCCN{16}GCA	53	25	1.51
294	CCCN{16}CCA	84	46	1.5	295	CCGN{13}CGC	19	5	1.5
296	CCGN{17}CAG	28	9	1.49	295	CCGN{13}CGC	19	5	1.5
296	CCGN{17}CAG	28	9	1.49	297	CGGN{18}GGC	26	8	1.49
298	CCGN{14}AGG	23	7	1.49	297	CGGN{18}GGC	26	8	1.49
298	CCGN{14}AGG	23	7	1.49	299	CCCN{5}CGG	26	8	1.49
300	CCCN{6}GGA	58	28	1.49	299	CCCN{5}CGG	26	8	1.49
300	CCCN{6}GGA	58	28	1.49	301	ACGN{2}CCC	20	5	1.49
302	CCAN{9}CCG	27	9	1.48	301	ACGN{2}CCC	20	5	1.49
302	CCAN{9}CCG	27	9	1.48	303	CCCN{19}CCA	78	42	1.48
304	CAGN{0}GGG	77	41	1.48	303	CCCN{19}CCA	78	42	1.48
304	CAGN{0}GGG	77	41	1.48	305	AGCN{1}CCC	58	28	1.47
306	GCGN{7}TCC	27	9	1.46	305	AGCN{1}CCC	58	28	1.47
306	GCGN{7}TCC	27	9	1.46	307	ACGN{18}CCA	25	8	1.46
308	GCTN{14}CCC	61	30	1.46	307	ACGN{18}CCA	25	8	1.46
308	GCTN{14}CCC	61	30	1.46	309	GCGN{14}CCC	23	7	1.46
310	GCGN{19}AGC	20	5	1.45	309	GCGN{14}CCC	23	7	1.46
310	GCGN{19}AGC	20	5	1.45	311	CCGN{8}CAG	29	10	1.45
312	GCGN{6}GCC	22	6	1.45	311	CCGN{8}CAG	29	10	1.45
312	GCGN{6}GCC	22	6	1.45	313	GCGN{10}GCA	20	5	1.44
314	CCTN{7}GCC	69	36	1.44	313	GCGN{10}GCA	20	5	1.44
314	CCTN{7}GCC	69	36	1.44	315	GCCN{13}GCC	54	26	1.42
316	CCCN{14}GCC	63	32	1.42	315	GCCN{13}GCC	54	26	1.42
316	CCCN{14}GCC	63	32	1.42	317	CCCN{15}CGG	26	8	1.42

318	CCAN{13}CGC	23	7	1.42
318	CCAN{13}CGC	23	7	1.42	319	AGCN{11}GGG	67	35	1.41
320	GGAN{0}GCC	64	32	1.4	319	AGCN{11}GGG	67	35	1.41
320	GGAN{0}GCC	64	32	1.4	321	GCCN{3}TCC	61	30	1.4
322	CCTN{5}GCC	69	36	1.39	321	GCCN{3}TCC	61	30	1.4
322	CCTN{5}GCC	69	36	1.39	323	CGGN{18}CCC	25	8	1.39
324	CCTN{3}GGC	59	29	1.38	323	CGGN{18}CCC	25	8	1.39
324	CCTN{3}GGC	59	29	1.38	325	CCGN{0}CTC	22	6	1.38
326	AGCN{17}GCG	19	5	1.37	325	CCGN{0}CTC	22	6	1.38
326	AGCN{17}GCG	19	5	1.37	327	ACGN{14}GGG	20	5	1.37
328	CGAN{12}GGC	19	5	1.37	327	ACGN{14}GGG	20	5	1.37
328	CGAN{12}GGC	19	5	1.37	329	CCCN{20}CGC	24	7	1.37
330	ACGN{12}CTG	24	7	1.36	329	CCCN{20}CGC	24	7	1.37
330	ACGN{12}CTG	24	7	1.36	331	CCGN{0}CCC	36	14	1.36
332	CCGN{10}GGA	23	7	1.36	331	CCGN{0}CCC	36	14	1.36
332	CCGN{10}GGA	23	7	1.36	333	CCCN{3}}GCG	21	6	1.36
334	GCGN{14}CGC	22	3	1.35	333	CCCN{3}}GCG	21	6	1.36
334	GCGN{14}CGC	22	3	1.35	335	CCGN{8}CGC	16	4	1.35
336	CGCN{10}ACA	22	6	1.34	335	CCGN{8}CGC	16	4	1.35
336	CGCN{10}ACA	22	6	1.34	337	CCCN{19}CCG	28	10	1.33
338	CACN{14}CGC	20	5	1.32	337	CCCN{19}CCG	28	10	1.33
338	CACN{14}CGC	20	5	1.32	339	GACN{3}GGC	46	21	1.32
340	GAAN{7}CGC	19	5	1.32	339	GACN{3}GGC	46	21	1.32
340	GAAN{7}CGC	19	5	1.32	341	CGCN{16}GGC	21	6	1.31
342	GGCN{9}CCC	64	33	1.31	341	CGCN{16}GGC	21	6	1.31
342	GGCN{9}CCC	64	33	1.31	343	CCCN{9}GCC	64	33	1.31
344	CGCN{0}TGC	26	9	1.3	343	CCCN{9}GCC	64	33	1.31
344	CGCN{0}TGC	26	9	1.3	345	CCTN{8}GGC	67	35	1.3
346	CCAN{8}CCC	82	46	1.29	345	CCTN{8}GGC	67	35	1.3
346	CCAN{8}CCC	82	46	1.29	347	GACN{2}CCC	42	18	1.28
348	GGCN{1}CCC	54	26	1.27	347	GACN{2}CCC	42	18	1.28
348	GGCN{1}CCC	54	26	1.27	349	CGCN{0}AGC	24	7	1.26
350	AGGN{4}GCG	28	10	1.26	349	CGCN{0}AGC	24	7	1.26
350	AGGN{4}GCG	28	10	1.26	351	CGGN{6}TCC	22	6	1.25
352	ACGN{19}GGC	20	5	1.25	351	CGGN{6}TCC	22	6	1.25
352	ACGN{19}GGC	20	5	1.25	353	CCCN{8}ACG	21	6	1.24
354	CCCN{18}GCC	62	31	1.24	353	CCCN{8}ACG	21	6	1.24
354	CCCN{18}GCC	62	31	1.24	355	GCCN{2}CGA	19	5	1.24
356	CCCN{8}GCG	28	10	1.23	355	GCCN{2}CGA	19	5	1.24
356	CCCN{8}GCG	28	10	1.23	357	CCCN{0}CTC	76	41	1.23
358	GCCN{11}CGC	27	9	1.22	357	CCCN{0}CTC	76	41	1.23
358	GCCN{11}CGC	27	9	1.22	359	AGCN{9}CCC	59	29	1.22

360	GCTN{0}GCC	71	38	1.21
360	GCTN{0}GCC	71	38	1.21	361	CGCN{3}CCC	26	9	1.21
362	CCCN{2}CCC	117	72	1.19	361	CGCN{3}CCC	26	9	1.21
362	CCCN{2}CCC	117	72	1.19	363	GCCN{9}CGC	23	7	1.19
364	GCAN{19}CGC	19	5	1.19	363	GCCN{9}CGC	23	7	1.19
364	GCAN{19}CGC	19	5	1.19	365	CAGN{4}CGG	32	12	1.18
366	CAGN{2}GGG	80	44	1.17	365	CAGN{4}CGG	32	12	1.18
366	CAGN{2}GGG	80	44	1.17	367	GCCN{16}CCC	67	35	1.16
368	GAGN{5}CCC	60	30	1.16	367	GCCN{16}CCC	67	35	1.16
368	GAGN{5}CCC	60	30	1.16	369	CCTN{16}TCG	20	6	1.16
370	CCCN{2}GGC	62	32	1.15	369	CCTN{16}TCG	20	6	1.16
370	CCCN{2}GGC	62	32	1.15	371	GCGN{13}GGA	24	8	1.15
372	GCCN{17}GGC	66	25	1.15	371	GCGN{13}GGA	24	8	1.15
372	GCCN{17}GGC	66	25	1.15	373	CCCN{14}GGC	58	29	1.14
374	AGGN{3}CCG	31	12	1.14	373	CCCN{14}GGC	58	29	1.14
374	AGGN{3}CCG	31	12	1.14	375	CACN{0}CGC	32	12	1.14
376	CGGN{18}CAG	28	10	1.14	375	CACN{0}CGC	32	12	1.14
376	CGGN{18}CAG	28	10	1.14	377	AGCN{1}GCC	57	28	1.13
378	CGCN{18}GGC	23	7	1.13	377	AGCN{1}GCC	57	28	1.13
378	CGCN{18}GGC	23	7	1.13	379	CCCN{5}AGG	64	33	1.11
380	AACN{0}GCG	9	1	1.11	379	CCCN{5}AGG	64	33	1.11
380	AACN{0}GCG	9	1	1.11	381	CCCN{10}CCA	88	50	1.09
382	CGCN{13}GAG	20	6	1.09	381	CCCN{10}CCA	88	50	1.09
382	CGCN{13}GAG	20	6	1.09	383	CGCN{7}GCC	25	8	1.08
384	CCCN{9}CCG	28	10	1.07	383	CGCN{7}GCC	25	8	1.08
384	CCCN{9}CCG	28	10	1.07	385	CGCN{16}CCC	24	8	1.05
386	GAAN{13}CGC	18	5	1.05	385	CGCN{16}CCC	24	8	1.05
386	GAAN{13}CGC	18	5	1.05	387	GGCN{3}CCC	49	23	1.03
388	TCCN{11}CCA	87	50	1.03	387	GGCN{3}CCC	49	23	1.03
388	TCCN{11}CCA	87	50	1.03	389	CACN{0}CCC	70	38	1.02
390	CGCN{16}CCG	15	3	1.02	389	CACN{0}CCC	70	38	1.02
390	CGCN{16}CCG	15	3	1.02	391	CGGN{15}AGC	21	6	1.02
392	CCCN{12}GCG	21	6	1.02	391	CGGN{15}AGC	21	6	1.02
392	CCCN{12}GCG	21	6	1.02	393	CCCN{9}GAG	59	30	1.01
394	CCGN{20}TCC	24	8	1.01	393	CCCN{9}GAG	59	30	1.01
394	CCGN{20}TCC	24	8	1.01	395	CGCN{0}CGC	17	4	1.01
396	ATGN{7}CGG	20	6	1	395	CGCN{0}CGC	17	4	1.01
396	ATGN{7}CGG	20	6	1	397	GGGN{20}GCA	59	30	1
398	CGGN{4}GGC	26	9	0.99	397	GGGN{20}GCA	59	30	1
398	CGGN{4}GGC	26	9	0.99	399	CGGN{16}AGC	22	7	0.99
400	CGGN{5}GGC	25	8	0.99	399	CGGN{16}AGC	22	7	0.99
400	CGGN{5}GGC	25	8	0.99	401	GCGN{0}GGA	25	8	0.98

402	GGCN{20}CAC	52	25	0.98
402	GGCN{20}CAC	52	25	0.98	403	CCCN{9}CCC	97	58	0.97
404	ACCN{17}GGC	44	20	0.97	403	CCCN{9}CCC	97	58	0.97
404	ACCN{17}GGC	44	20	0.97	405	CCCN{6}CGA	18	5	0.96
406	AAGN{10}CGG	26	9	0.96	405	CCCN{6}CGA	18	5	0.96
406	AAGN{10}CGG	26	9	0.96	407	CGCN{17}CAC	21	6	0.95
408	CCCN{16}CGG	25	8	0.94	407	CGCN{17}CAC	21	6	0.95
408	CCCN{16}CGG	25	8	0.94	409	GACN{18}GGC	39	17	0.94
410	GGGN{15}GAC	47	22	0.92	409	GACN{18}GGC	39	17	0.94
410	GGGN{15}GAC	47	22	0.92	411	GCCN{4}TCC	66	35	0.92
412	GGCN{15}CCC	56	28	0.92	411	GCCN{4}TCC	66	35	0.92
412	GGCN{15}CCC	56	28	0.92	413	CAGN{12}CGC	24	8	0.92
414	CCAN{3}GCG	22	7	0.91	413	CAGN{12}CGC	24	8	0.92
414	CCAN{3}GCG	22	7	0.91	415	CCGN{16}GAG	22	7	0.9
416	AGCN{2}CGC	24	8	0.89	415	CCGN{16}GAG	22	7	0.9
416	AGCN{2}CGC	24	8	0.89	417	GAGN{4}CCC	54	27	0.89
418	AGGN{3}CGC	23	7	0.88	417	GAGN{4}CCC	54	27	0.89
418	AGGN{3}CGC	23	7	0.88	419	CACN{13}AGG^*	67	36	0.88
420	CCCN{4}CAG	88	51	0.88	419	CACN{13}AGG^*	67	36	0.88
420	CCCN{4}CAG	88	51	0.88	421	CCCN{2}GAA	63	33	0.87
422	CGCN{19}GAG	21	6	0.87	421	CCCN{2}GAA	63	33	0.87
422	CGCN{19}GAG	21	6	0.87	423	ACGN{18}GGG	21	6	0.87
424	CCCN{4}GGC	62	32	0.87	423	ACGN{18}GGG	21	6	0.87
424	CCCN{4}GGC	62	32	0.87	425	CGGN{9}GAG	28	10	0.86
426	CCCN{3}GGG	66	26	0.86	425	CGGN{9}GAG	28	10	0.86
426	CCCN{3}GGG	66	26	0.86	427	GAGN{4}GGC	66	35	0.85
428	CGCN{5}GAG	18	5	0.84	427	GAGN{4}GGC	66	35	0.85
428	CGCN{5}GAG	18	5	0.84	429	CCGN{20}AGG	24	8	0.84
430	CCCN{15}CCC	88	51	0.83	429	CCGN{20}AGG	24	8	0.84
430	CCCN{15}CCC	88	51	0.83	431	AGGN{17}CCG	25	8	0.82
432	AGGN{6}GGG	89	52	0.82	431	AGGN{17}CCG	25	8	0.82
432	AGGN{6}GGG	89	52	0.82	433	GGCN{20}CCC	57	29	0.82
434	GCAN{17}CGC	19	5	0.82	433	GGCN{20}CCC	57	29	0.82
434	GCAN{17}CGC	19	5	0.82	435	CGAN{11}ACG	9	1	0.81
436	CGCN{2}GGA	19	5	0.81	435	CGAN{11}ACG	9	1	0.81
436	CGCN{2}GGA	19	5	0.81	437	CTGN{5}CCC	79	45	0.8
438	TCCN{20}CCA	77	43	0.8	437	CTGN{5}CCC	79	45	0.8
438	TCCN{20}CCA	77	43	0.8	439	CCAN{2}GGG	59	30	0.8
440	CCGN{15}GCG	14	3	0.8	439	CCAN{2}GGG	59	30	0.8
440	CCGN{15}GCG	14	3	0.8	441	CCAN{5}GGG	69	38	0.79
442	CGGN{1}TGC	24	8	0.79	441	CCAN{5}GGG	69	38	0.79
442	CGGN{1}TGC	24	8	0.79	443	CCCN{14}GCG	21	6	0.79

444	CAGN{0}CCG	27	10	0.79
444	CAGN{0}CCG	27	10	0.79	445	GCCN{9}TCC	60	31	0.78
446	AGGN{20}CGC	22	7	0.78	445	GCCN{9}TCC	60	31	0.78
446	AGGN{20}CGC	22	7	0.78	447	CCCN{6}GAC	42	19	0.77
448	CGGN{11}CCA	23	7	0.76	447	CCCN{6}GAC	42	19	0.77
448	CGGN{11}CCA	23	7	0.76	449	GGGN{14}CAC	57	29	0.75
450	GCAN{15}CGC	19	5	0.74	449	GGGN{14}CAC	57	29	0.75
450	GCAN{15}CGC	19	5	0.74	451	CGCN{2}ACA	20	6	0.74
452	ACCN{9}CCC	57	29	0.73	451	CGCN{2}ACA	20	6	0.74
452	ACCN{9}CCC	57	29	0.73	453	GCGN{9}CGC	20	3	0.73
454	CAGN{15}GCG	23	7	0.73	453	GCGN{9}CGC	20	3	0.73
454	CAGN{15}GCG	23	7	0.73	455	CCCN{18}GTC	45	21	0.72
456	GCGN{3}CCC	24	8	0.72	455	CCCN{18}GTC	45	21	0.72
456	GCGN{3}CCC	24	8	0.72	457	CGGN{11}GCC	23	8	0.72
458	CCCN{1}CGG	24	8	0.71	457	CGGN{11}GCC	23	8	0.72
458	CCCN{1}CGG	24	8	0.71	459	GCCN{4}CCA	70	38	0.71
460	CCCN{4}CCG	30	12	0.7	459	GCCN{4}CCA	70	38	0.71
460	CCCN{4}CCG	30	12	0.7	461	CGTN{2}GCA	21	6	0.7
462	AGCN{7}TCG	18	5	0.69	461	CGTN{2}GCA	21	6	0.7
462	AGCN{7}TCG	18	5	0.69	463	CCGN{15}GAA	20	6	0.69
464	ACCN{5}CCC	62	33	0.69	463	CCGN{15}GAA	20	6	0.69
464	ACCN{5}CCC	62	33	0.69	465	CGCN{14}GAG	19	5	0.68
466	CCCN{7}CGC	30	12	0.68	465	CGCN{14}GAG	19	5	0.68
466	CCCN{7}CGC	30	12	0.68	467	GAGN{12}CGC	21	6	0.68
468	GGCN{17}CCC	58	30	0.67	467	GAGN{12}CGC	21	6	0.68
468	GGCN{17}CCC	58	30	0.67	469	ACGN{11}CTC	21	7	0.65
470	ACAN{9}CGG	24	8	0.65	469	ACGN{11}CTC	21	7	0.65
470	ACAN{9}CGG	24	8	0.65	471	CTGN{7}CCC	82	47	0.65
472	CCCN{2}GCC	72	40	0.65	471	CTGN{7}CCC	82	47	0.65
472	CCCN{2}GCC	72	40	0.65	473	CGGN{2}GCA	24	8	0.64
474	CCCN{0}TGC	83	48	0.64	473	CGGN{2}GCA	24	8	0.64
474	CCCN{0}TGC	83	48	0.64	475	CGCN{7}ACC	18	5	0.63
476	GCAN{2}GCC	54	27	0.63	475	CGCN{7}ACC	18	5	0.63
476	GCAN{2}GCC	54	27	0.63	477	GCGN{8}CCA	20	6	0.63
478	AGCN{0}CGC	22	7	0.63	477	GCGN{8}CCA	20	6	0.63
478	AGCN{0}CGC	22	7	0.63	479	GCGN{2}GCA	18	5	0.63
480	CCGN{2}GTC	18	5	0.62	479	GCGN{2}GCA	18	5	0.63
480	CCGN{2}GTC	18	5	0.62	481	CCGN{3}ACA	21	7	0.62
482	ACGN{13}TGG	21	7	0.62	481	CCGN{3}ACA	21	7	0.62
482	ACGN{13}TGG	21	7	0.62	483	CCAN{8}CGC	23	8	0.62
484	CCGN{9}GGC	23	8	0.61	483	CCAN{8}CGC	23	8	0.62
484	CCGN{9}GGC	23	8	0.61	485	CCAN{5}CCG	25	9	0.61

486	AGGN{3}GGG	97	59	0.61
486	AGGN{3}GGG	97	59	0.61	487	CAGN{2}GGC	78	45	0.61
488	CCCN{8}CAG	81	47	0.61	487	CAGN{2}GGC	78	45	0.61
488	CCCN{8}CAG	81	47	0.61	489	AGCN{5}CAG	80	46	0.6
490	CGGN{16}GCC	22	7	0.6	489	AGCN{5}CAG	80	46	0.6
490	CGGN{16}GCC	22	7	0.6	491	GCGN{15}CCC	23	8	0.6
492	CCCN{11}GCC	59	31	0.59	491	GCGN{15}CCC	23	8	0.6
492	CCCN{11}GCC	59	31	0.59	493	CGAN{2}ACG	9	1	0.59
494	CGGN{4}GCC	22	7	0.59	493	CGAN{2}ACG	9	1	0.59
494	CGGN{4}GCC	22	7	0.59	495	CACN{6}CGC	19	6	0.59
496	CGGN{5}ACG	11	2	0.59	495	CACN{6}CGC	19	6	0.59
496	CGGN{5}ACG	11	2	0.59	497	CTGN{4}GCC^*	66	36	0.59
498	GGGN{18}CGA	18	5	0.59	497	CTGN{4}GCC^*	66	36	0.59
498	GGGN{18}CGA	18	5	0.59	499	CCTN{8}CGC	22	7	0.59
500	GCCN{4}CCC	67	37	0.58	499	CCTN{8}CGC	22	7	0.59
500	GCCN{4}CCC	67	37	0.58	501	CGGN{10}GCC	22	7	0.58
502	GCCN{5}GGA	54	27	0.57	501	CGGN{10}GCC	22	7	0.58
502	GCCN{5}GGA	54	27	0.57	503	ACCN{7}GCG	15	4	0.57
504	CCCN{8}CGC	24	8	0.57	503	ACCN{7}GCG	15	4	0.57
504	CCCN{8}CGC	24	8	0.57	505	CAGN{5}CCC	77	44	0.56
506	CACN{14}GGA	63	34	0.56	505	CAGN{5}CCC	77	44	0.56
506	CACN{14}GGA	63	34	0.56	507	CCCN{1}GCC	94	57	0.55
508	CCCN{5}AGC	67	37	0.55	507	CCCN{1}GCC	94	57	0.55
508	CCCN{5}AGC	67	37	0.55	509	GGCN{5}GGA	59	31	0.55
510	CGAN{17}GAG	19	6	0.55	509	GGCN{5}GGA	59	31	0.55
510	CGAN{17}GAG	19	6	0.55	511	CGCN{7}ACA	18	5	0.54
512	CCAN{13}CCC	87	52	0.54	511	CGCN{7}ACA	18	5	0.54
512	CCAN{13}CCC	87	52	0.54	513	CGGN{20}GGC	24	8	0.54
514	CCCN{17}GCC	58	30	0.53	513	CGGN{20}GGC	24	8	0.54
514	CCCN{17}GCC	58	30	0.53	515	CCTN{10}CCG	30	12	0.53
516	CCCN{8}CCG	27	10	0.53	515	CCTN{10}CCG	30	12	0.53
516	CCCN{8}CCG	27	10	0.53	517	CGCN{3}GAG	18	5	0.52
518	CGCN{7}AAG	17	5	0.51	517	CGCN{3}GAG	18	5	0.52
518	CGCN{7}AAG	17	5	0.51	519	CGGN{11}GGA	23	8	0.51
520	CCGN{15}CCG	15	4	0.51	519	CGGN{11}GGA	23	8	0.51
520	CCGN{15}CCG	15	4	0.51	521	CCCN{3}GCA	57	30	0.51
522	CGGN{2}CAG	24	8	0.5	521	CCCN{3}GCA	57	30	0.51
522	CGGN{2}CAG	24	8	0.5	523	AGGN{2}CCG	24	8	0.5
524	CCCN{4}CAC	69	38	0.5	523	AGGN{2}CCG	24	8	0.5
524	CCCN{4}CAC	69	38	0.5	525	GGAN{19}CCC	56	29	0.49
526	CCCN{8}CAC	68	38	0.49	525	GGAN{19}CCC	56	29	0.49
526	CCCN{8}CAC	68	38	0.49	527	ACCN{6}CCG	18	5	0.49

528	CCCN{6}GGC	54	28	0.49
528	CCCN{6}GGC	54	28	0.49	529	CCCN{6}CCG	29	11	0.48
530	CGCN{14}GCC	26	9	0.47	529	CCCN{6}CCG	29	11	0.48
530	CGCN{14}GCC	26	9	0.47	531	CCGN{5}TCC	25	9	0.46
532	GCCN{6}GCC	55	28	0.46	531	CCGN{5}TCC	25	9	0.46
532	GCCN{6}GCC	55	28	0.46	533	CGGN{7}GGA	24	8	0.45
534	GGGN{6}GGA	87	52	0.44	533	CGGN{7}GGA	24	8	0.45
534	GGGN{6}GGA	87	52	0.44	535	GCCN{12}TCC	60	32	0.44
536	AGTN{16}CCG	17	5	0.44	535	GCCN{12}TCC	60	32	0.44
536	AGTN{16}CCG	17	5	0.44	537	GGCN{19}GCC	68	29	0.44
538	CCGN{3}CCG	22	7	0.44	537	GGCN{19}GCC	68	29	0.44
538	CCGN{3}CCG	22	7	0.44	539	CCCN{8}ACC	58	31	0.44
540	CAGN{15}GCC	77	44	0.44	539	CCCN{8}ACC	58	31	0.44
540	CAGN{15}GCC	77	44	0.44	541	CCCN{17}CGG	24	8	0.44
542	GCGN{1}CCA	22	7	0.44	541	CCCN{17}CGG	24	8	0.44
542	GCGN{1}CCA	22	7	0.44	543	CCCN{14}CAG	79	46	0.44
544	CCCN{8}CCC	89	53	0.44	543	CCCN{14}CAG	79	46	0.44
544	CCCN{8}CCC	89	53	0.44	545	ACAN{12}GCG	23	8	0.43
546	AGGN{4}CCG	23	8	0.43	545	ACAN{12}GCG	23	8	0.43
546	AGGN{4}CCG	23	8	0.43	547	CGCN{13}GCC	23	8	0.43
548	GAGN{2}CGC	23	8	0.42	547	CGCN{13}GCC	23	8	0.43
548	GAGN{2}CGC	23	8	0.42	549	CCCN{9}GCG	21	7	0.42
550	CGCN{17}ACA	17	5	0.42	549	CCCN{9}GCG	21	7	0.42
550	CGCN{17}ACA	17	5	0.42	551	GCGN{17}CCA	23	8	0.42
552	AAGN{18}CCG	20	6	0.42	551	GCGN{17}CCA	23	8	0.42
552	AAGN{18}CCG	20	6	0.42	553	CGCN{1}GGA	18	5	0.41
554	CCAN{1}CCC	90	54	0.41	553	CGCN{1}GGA	18	5	0.41
554	CCAN{1}CCC	90	54	0.41	555	CGTN{18}TGC	20	6	0.41
556	TCCN{14}CGA	17	5	0.41	555	CGTN{18}TGC	20	6	0.41
556	TCCN{14}CGA	17	5	0.41	557	CACN{5}GGG	56	29	0.4
558	CCGN{12}GCA	21	7	0.4	557	CACN{5}GGG	56	29	0.4
558	CCGN{12}GCA	21	7	0.4	559	CTGN{6}CCC	77	44	0.4
560	CGGN{8}GGC	32	13	0.4	559	CTGN{6}CCC	77	44	0.4
560	CGGN{8}GGC	32	13	0.4	561	CCAN{11}GGG	68	38	0.4
562	ACGN{19CAA	21	7	0.39	561	CCAN{11}GGG	68	38	0.4
562	ACGN{19CAA	21	7	0.39	563	GGGN{20}CCC	72	31	0.39
564	CGCN{3}CAG	23	8	0.39	563	GGGN{20}CCC	72	31	0.39
564	CGCN{3}CAG	23	8	0.39	565	AGCN{17}GGG	58	31	0.37
566	CACN{20}CCG	21	7	0.37	565	AGCN{17}GGG	58	31	0.37
566	CACN{20}CCG	21	7	0.37	567	ACGN{17CAG	24	8	0.37
568	AGGN{1}CCC	60	32	0.37	567	ACGN{17CAG	24	8	0.37
568	AGGN{1}CCC	60	32	0.37	569	CGTN{12}CAC	20	6	0.37

570	CGGN{9}GGC	23	8	0.37
570	CGGN{9}GGC	23	8	0.37	571	CGCN{10}GCG	18	3	0.37
572	CCCN{6}CTC	80	47	0.36	571	CGCN{10}GCG	18	3	0.37
572	CCCN{6}CTC	80	47	0.36	573	CCGN{10}AGG	23	8	0.36
574	CCCN{18}CAG	79	46	0.36	573	CCGN{10}AGG	23	8	0.36
574	CCCN{18}CAG	79	46	0.36	575	AGCN{17}CCG	21	7	0.36
576	AGCN{9}GCG	18	5	0.36	575	AGCN{17}CCG	21	7	0.36
576	AGCN{9}GCG	18	5	0.36	577	CCAN{3}GGC	62	34	0.36
578	CCCN{11}GGC	57	30	0.35	577	CCAN{3}GGC	62	34	0.36
578	CCCN{11}GGC	57	30	0.35	579	ACGN{5}GCA	23	8	0.35
580	CCCN{14}CGG	23	8	0.35	579	ACGN{5}GCA	23	8	0.35
580	CCCN{14}CGG	23	8	0.35	581	CCCN{5}CCA	91	55	0.35
582	CCGN{1}AGG	22	7	0.34	581	CCCN{5}CCA	91	55	0.35
582	CCGN{1}AGG	22	7	0.34	583	GGGN{10}GAC	45	22	0.34
584	CGCN{15}CCA	20	6	0.34	583	GGGN{10}GAC	45	22	0.34
584	CGCN{15}CCA	20	6	0.34	585	CCTN{19}CGC	22	7	0.34
586	CGTN{3}CGC	10	2	0.33	585	CCTN{19}CGC	22	7	0.34
586	CGTN{3}CGC	10	2	0.33	587	AGCN{14}CCG	21	7	0.33
588	GGCN{2}CGA	17	5	0.33	587	AGCN{14}CCG	21	7	0.33
588	GGCN{2}CGA	17	5	0.33	589	CAGN{8}CCC	79	46	0.33
590	CCGN{2}GAC	16	4	0.33	589	CAGN{8}CCC	79	46	0.33
590	CCGN{2}GAC	16	4	0.33	591	AGCN{19}AGG	70	40	0.32
592	CCTN{4}GGC	64	35	0.32	591	AGCN{19}AGG	70	40	0.32
592	CCTN{4}GGC	64	35	0.32	593	CCGN{11}AGC	22	7	0.32
594	CACN{4}CGC	18	5	0.32	593	CCGN{11}AGC	22	7	0.32
594	CACN{4}CGC	18	5	0.32	595	CCGN{1}CCC	30	12	0.31
596	CTGN{13}GGC	73	42	0.31	595	CCGN{1}CCC	30	12	0.31
596	CTGN{13}GGC	73	42	0.31	597	CGCN{16}ACC	15	4	0.31
598	CACN{18}CAG	79	46	0.31	597	CGCN{16}ACC	15	4	0.31
598	CACN{18}CAG	79	46	0.31	599	GGCN{8}GCC	68	29	0.29
600	GGGN{15}GGA	78	46	0.29	599	GGCN{8}GCC	68	29	0.29
600	GGGN{15}GGA	78	46	0.29	601	CCGN{16}GCC	22	7	0.29
602	CCGN{20}ACC	18	5	0.29	601	CCGN{16}GCC	22	7	0.29
602	CCGN{20}ACC	18	5	0.29	603	CGAN{7}CCC	17	5	0.28
604	CCGN{6}CTC	23	8	0.28	603	CGAN{7}CCC	17	5	0.28
604	CCGN{6}CTC	23	8	0.28	605	CGGN{10}CTC	22	7	0.28
606	CAGN{16}CGC	23	8	0.28	605	CGGN{10}CTC	22	7	0.28
606	CAGN{16}CGC	23	8	0.28	607	CCAN{3}AGG	77	45	0.27
608	GCCN{18}GCC	52	27	0.27	607	CCAN{3}AGG	77	45	0.27
608	GCCN{18}GCC	52	27	0.27	609	CGCN{18}GGA	19	6	0.26
610	CCGN{20}GGC	22	7	0.26	609	CGCN{18}GGA	19	6	0.26
610	CCGN{20}GGC	22	7	0.26	611	ACAN{10}GCG	17	5	0.26

612	CGGN{5}CCC	25	9	0.25
612	CGGN{5}CCC	25	9	0.25	613	CCCN{7}TCC	75	43	0.25
614	ACGN{10}CGC	10	2	0.25	613	CCCN{7}TCC	75	43	0.25
614	ACGN{10}CGC	10	2	0.25	615	CCCN{3}TCC	81	48	0.25
616	CCGN{8}CGG	20	3	0.24	615	CCCN{3}TCC	81	48	0.25
616	CCGN{8}CGG	20	3	0.24	617	CCAN{15}CGG	22	7	0.24
618	CCGN{6}CCG	17	5	0.24	617	CCAN{15}CGG	22	7	0.24
618	CCGN{6}CCG	17	5	0.24	619	CAGN{3}GCG	25	9	0.24
620	GAGN{1}CCC	62	34	0.24	619	CAGN{3}GCG	25	9	0.24
620	GAGN{1}CCC	62	34	0.24	621	CCGN{18}TGC	22	7	0.23
622	CCCN{7}CCA	85	51	0.23	621	CCGN{18}TGC	22	7	0.23
622	CCCN{7}CCA	85	51	0.23	623	CGGN{3}CCA	24	9	0.23
624	ACGN{1}CCC	18	5	0.23	623	CGGN{3}CCA	24	9	0.23
624	ACGN{1}CCC	18	5	0.23	625	CGGN{13}TGA	21	7	0.22
626	CTCN{6}GGC	53	28	0.22	625	CGGN{13}TGA	21	7	0.22
626	CTCN{6}GGC	53	28	0.22	627	GCGN{2}GAC	15	4	0.22
628	GGGN{11}ACC	49	25	0.22	627	GCGN{2}GAC	15	4	0.22
628	GGGN{11}ACC	49	25	0.22	629	CGCN{4}GGA	17	5	0.22
630	CCCN{11}CCG	27	10	0.22	629	CGCN{4}GGA	17	5	0.22
630	CCCN{11}CCG	27	10	0.22	631	CCGN{19}GCA	20	6	0.22
632	GCGN{0}GCA	20	6	0.21	631	CCGN{19}GCA	20	6	0.22
632	GCGN{0}GCA	20	6	0.21	633	AGAN{7}CCC	61	33	0.21
634	CGGN{2}CCA	21	7	0.21	633	AGAN{7}CCC	61	33	0.21
634	CGGN{2}CCA	21	7	0.21	635	CCCN{7}CCC	89	54	0.21
636	ACCN{4}GCG	15	4	0.2	635	CCCN{7}CCC	89	54	0.21
636	ACCN{4}GCG	15	4	0.2	637	CCTN{15}CGC	20	6	0.2
638	AGCN{9}GTC	44	21	0.2	637	CCTN{15}CGC	20	6	0.2
638	AGCN{9}GTC	44	21	0.2	639	CCCN{18}CTC	74	43	0.2
640	CGCN{18}CGA	9	1	0.19	639	CCCN{18}CTC	74	43	0.2
640	CGCN{18}CGA	9	1	0.19	641	CCCN{15}GCC	62	34	0.18
642	ACCN{11}GGC	45	22	0.18	641	CCCN{15}GCC	62	34	0.18
642	ACCN{11}GGC	45	22	0.18	643	AGGN{15}CGC	29	12	0.18
644	GCGN{0}CCA	27	10	0.18	643	AGGN{15}CGC	29	12	0.18
644	GCGN{0}CCA	27	10	0.18	645	GCGN{9}AGC	18	5	0.17
646	GGGN{18}GCA	59	32	0.17	645	GCGN{9}AGC	18	5	0.17
646	GGGN{18}GCA	59	32	0.17	647	CCCN{17}CAG	77	45	0.17
648	CCAN{8}CGG	22	8	0.16	647	CCCN{17}CAG	77	45	0.17
648	CCAN{8}CGG	22	8	0.16	649	CCGN{10}GGC	21	7	0.16
650	GCAN{0}GCC	76	44	0.16	649	CCGN{10}GGC	21	7	0.16
650	GCAN{0}GCC	76	44	0.16	651	CAGN{2}CGC	20	6	0.16
652	CGCN{8}GGC	19	6	0.16	651	CAGN{2}CGC	20	6	0.16
652	CGCN{8}GGC	19	6	0.16	653	CTGN{17}GGC	65	36	0.16

654	GGGN{14}ACC	46	23	0.16
654	GGGN{14}ACC	46	23	0.16	655	CCGN{1}TGC	20	6	0.16
656	CAGN{8}CGC	22	8	0.15	655	CCGN{1}TGC	20	6	0.16
656	CAGN{8}CGC	22	8	0.15	657	AAGN{11}CGC	17	5	0.15
668	CCGN{6}TCC	22	8	0.14	657	AAGN{11}CGC	17	5	0.15
668	CCGN{6}TCC	22	8	0.14	659	CCAN{18}CCC	72	42	0.14
660	CCAN{0}CCC	84	51	0.14	659	CCAN{18}CCC	72	42	0.14
660	CCAN{0}CCC	84	51	0.14	661	GAGN{6}CCC	53	28	0.14
662	AGCN{20}GGC	52	27	0.14	661	GAGN{6}CCC	53	28	0.14
662	AGCN{20}GGC	52	27	0.14	663	CAGN{0}CGC	21	7	0.14
664	CCGN{12}CTC	22	8	0.14	663	CAGN{0}CGC	21	7	0.14
664	CCGN{12}CTC	22	8	0.14	665	CGCN{15}ACG	9	1	0.13
666	GGCN{17}CGA	15	4	0.13	665	CGCN{15}ACG	9	1	0.13
666	GGCN{17}CGA	15	4	0.13	667	CCGN{16}AAG	19	6	0.13
668	CGCN{14}TCC	19	6	0.12	667	CCGN{16}AAG	19	6	0.13
668	CGCN{14}TCC	19	6	0.12	669	AGGN{7}CGC	20	7	0.12
670	CGGN{7}CCC	22	8	0.12	669	AGGN{7}CGC	20	7	0.12
670	CGGN{7}CCC	22	8	0.12	671	CGCN{4}GCC	34	15	0.12
672	CGAN{6}CCC	17	5	0.12	671	CGCN{4}GCC	34	15	0.12
672	CGAN{6}CCC	17	5	0.12	673	CCCN{19}GGA	60	33	0.11
674	CCCN{16}GCG	28	11	0.11	673	CCCN{19}GGA	60	33	0.11
674	CCCN{16}GCG	28	11	0.11	675	CCAN{7}CGC	20	7	0.11
676	CCCN{6}GCC	80	48	0.11	675	CCAN{7}CGC	20	7	0.11
676	CCCN{6}GCC	80	48	0.11	677	GCCN{14}TCC	55	29	0.11
678	AGGN{14}GCC	64	36	0.1	677	GCCN{14}TCC	55	29	0.11
678	AGGN{14}GCC	64	36	0.1	679	CGCN{11}GCC	20	7	0.1
680	TCCN{0}GCA	17	5	0.09	679	CGCN{11}GCC	20	7	0.1
680	TCCN{0}GCA	17	5	0.09	681	GCGN{8}CCC	27	11	0.09
682	CCAN{11}GCG	19	6	0.09	681	GCGN{8}CCC	27	11	0.09
682	CCAN{11}GCG	19	6	0.09	683	CACN{4}GGG	51	26	0.09
684	CGGN{7}TCC	20	7	0.09	683	CACN{4}GGG	51	26	0.09
684	CGGN{7}TCC	20	7	0.09	685	GCGN{5}GCC	20	7	0.09
686	ACGN{12}CAG	26	10	0.09	685	GCGN{5}GCC	20	7	0.09
686	ACGN{12}CAG	26	10	0.09	687	CCGN{19}CGC	14	4	0.08
688	CGGN{8}TGC	18	5	0.08	687	CCGN{19}CGC	14	4	0.08
688	CGGN{8}TGC	18	5	0.08	689	CCCN{1}GAG	65	37	0.07
690	GCGN{19}TGA	18	6	0.07	689	CCCN{1}GAG	65	37	0.07
690	GCGN{19}TGA	18	6	0.07	691	GGCN{15}GCC	70	31	0.07
692	CCGN{7}CCC	27	11	0.07	691	GGCN{15}GCC	70	31	0.07
692	CCGN{7}CCC	27	11	0.07	693	ACAN{19}CCC	63	35	0.07
694	ACCN{16}GGG	47	24	0.07	693	ACAN{19}CCC	63	35	0.07
694	ACCN{16}GGG	47	24	0.07	695	AGAN{1}GGC	64	36	0.07

696	GGGN{17}TGA	64	36	0.06
696	GGGN{17}TGA	64	36	0.06	697	CAGN{5}GGG	83	50	0.06
698	GCCN{13}CGC	22	8	0.06	697	CAGN{5}GGG	83	50	0.06
698	GCCN{13}CGC	22	8	0.06	699	GCGN{7}GGA	19	6	0.06
700	CAGN{14}CCA	94	58	0.06	699	GCGN{7}GGA	19	6	0.06
700	CAGN{14}CCA	94	58	0.06	701	CCGN{4}GTC	16	4	0.06
702	CCCN{13}CGC	22	8	0.06	701	CCGN{4}GTC	16	4	0.06
702	CCCN{13}CGC	22	8	0.06	703	GCGN{14}ACC	15	4	0.05
704	CAGN{20}GGG	81	49	0.05	703	GCGN{14}ACC	15	4	0.05
704	CAGN{20}GGG	81	49	0.05	705	CCGN{4}CCC	27	11	0.05
706	CGCN{5}GGC	18	6	0.05	705	CCGN{4}CCC	27	11	0.05
706	CGCN{5}GGC	18	6	0.05	707	CCTN{6}GGC	57	31	0.05
708	AGGN{3}GGC	67	38	0.05	707	CCTN{6}GGC	57	31	0.05
708	AGGN{3}GGC	67	38	0.05	709	CGGN{11}CGC	14	4	0.05
710	CTGN{18}GGA	77	46	0.04	709	CGGN{11}CGC	14	4	0.05
710	CTGN{18}GGA	77	46	0.04	711	CACN{17}CCA	74	43	0.04
712	CGGN{3}GAG	22	8	0.04	711	CACN{17}CCA	74	43	0.04
712	CGGN{3}GAG	22	8	0.04	713	CCCN{9}CCA	82	49	0.03
714	CCCN{1}ACG	18	6	0.03	713	CCCN{9}CCA	82	49	0.03
714	CCCN{1}ACG	18	6	0.03	715	CAGN{1}GCC	72	42	0.03
716	AGGN{6}CCG	23	8	0.03	715	CAGN{1}GCC	72	42	0.03
716	AGGN{6}CCG	23	8	0.03	717	AGCN{9}GGG	57	31	0.03
718	CCCN{7}GGC	54	29	0.02	717	AGCN{9}GGG	57	31	0.03
718	CCCN{7}GGC	54	29	0.02	719	CCTN{13}CCC	88	54	0.02
720	CCGN{19}TTC	20	7	0.02	719	CCTN{13}CCC	88	54	0.02
720	CCGN{19}TTC	20	7	0.02	721	CCCN{7}CCG	27	11	0.02
722	CGAN{6}GGC	17	5	0.01	721	CCCN{7}CCG	27	11	0.02
722	CGAN{6}GGC	17	5	0.01	723	CGGN{4}CTC	21	7	0.01
724	CGGN{0}CGC	13	3	0.01	723	CGGN{4}CTC	21	7	0.01
724	CGGN{0}CGC	13	3	0.01	725	CCTN{13}ACG	19	6	0.01
726	GGGN{6}CAC	53	28	0.01	725	CCTN{13}ACG	19	6	0.01
726	GGGN{6}CAC	53	28	0.01	727	CCCN{16}CGC	21	7	0.01
728	CCCN{10}CTC	76	45	0	727	CCCN{16}CGC	21	7	0.01
728	CCCN{10}CTC	76	45	0	729	CCCN{0}CAG	92	57	0
730	GCCN{5}CCC	65	37	0	729	CCCN{0}CAG	92	57	0

表11：由线性判别分析测试的候选STAR元件

候选STAR	位置¹	长度
候选STAR	位置¹	长度	T2F	20q13.33	～2800
T2R	6q14.1	～2800	T2F	20q13.33	～2800
T2R	6q14.1	～2800	T3F	15q12	～2900
T3R	7q31.2	～2900	T3F	15q12	～2900
T3R	7q31.2	～2900	T5F	9q34.13	ND²
T5R	9q34.13	ND	T5F	9q34.13	ND²
T5R	9q34.13	ND	T7	22q12.3	～1200
T9F	21q22.2	～1600	T7	22q12.3	～1200
T9F	21q22.2	～1600	T9R	22q11.22	～1600
T10F	7q22.2	～1300	T9R	22q11.22	～1600
T10F	7q22.2	～1300	T10R	6q14.1	～1300
T11F	17q23.3	～2000	T10R	6q14.1	～1300
T11F	17q23.3	～2000	T11R	16q23.1	～2000
T12	4p15.1	～2100	T11R	16q23.1	～2000
T12	4p15.1	～2100	T13F	20p13	～1700
T13R	1p13.3	～1700	T13F	20p13	～1700
T13R	1p13.3	～1700	T14R	11q25	～1500
T17	2q31.3	ND	T14R	11q25	～1500
T17	2q31.3	ND	T18	2q31.1	ND

(http：//www.ncbi.nlm.nih.gov/Class/MLACourse/Genetics/chrombanding.html)。F代表正向测序反应结果；R代表反向测序反应结果。当正向和反向测序结果作图至不同的基因组位置时，每一序列基于来自人类基因组数据库的序列信息延伸至原始克隆的全长(根据限制酶切作图确定)。

²ND：未确定。

表12：本发明的Arabidopsis STAR元件，包括染色体位置和长度

STAR	染色体	长度，kb
STAR	染色体	长度，kb	A1	I	1.2
A2	I	0.9	A1	I	1.2
A2	I	0.9	A3	I	0.9
A4	I	0.8	A3	I	0.9
A4	I	0.8	A5	I	1.3
A6	I	1.4	A5	I	1.3
A6	I	1.4	A7	II	1.2
A8	II	0.8	A7	II	1.2
A8	II	0.8	A9	II	0.9
A10	II	1.7	A9	II	0.9
A10	II	1.7	A11	II	1.9
A12	II	1.4	A11	II	1.9
A12	II	1.4	A13	II	1.2
A14	II	2.1	A13	II	1.2
A14	II	2.1	A15	II	1.4
A16	II	0.7	A15	II	1.4
A16	II	0.7	A17	II	1.5
A18	III	1.5	A17	II	1.5
A18	III	1.5	A19	III	0.7
A20	III	2.0	A19	III	0.7
A20	III	2.0	A21	IV	1.8
A22	IV	0.8	A21	IV	1.8
A22	IV	0.8	A23	IV	0.6
A24	IV	0.5	A23	IV	0.6
A24	IV	0.5	A25	V	0.9
A26	V	1.9	A25	V	0.9
A26	V	1.9	A27	V	1.1
A28	V	1.6	A27	V	1.1
A28	V	1.6	A29	V	0.9
A30	V	2.0	A29	V	0.9
A30	V	2.0	A31	V	2.0
A32	V	1.3	A31	V	2.0
A32	V	1.3	A33	V	0.9
A34	I	0.9	A33	V	0.9
A34	I	0.9	A35	II	1.1

Claims

1.一种具有基因转录调节特性的分离的和/或重组的DNA序列，其中所述序列由选自以下一组的一种序列组成：(a)选自图26的SEQ ID：1-119的一种序列；(b)选自图26的SEQ ID：1-119的一种序列的功能性片段，衍生物或同源物，

所述序列具有通过包括以下步骤的一种方法确定的基因转录调节特性：

细胞在存在250g/ml的zeocin和0.1ng/ml的强力霉素下生长5周；

挑选5周后还在生长的菌落；

在从所述菌落中分离的质粒中检验具有基因转录调节特性的DNA序列的存在；

其中所述细胞是U-2OS人骨肉瘤细胞系，其表达在Tet-Off转录调控系统控制下的含有LexA DNA结合结构域和HP1或HPC2的编码区的LexA-阻抑物融合蛋白，和

其中所述细胞包含一个质粒，其包含克隆到所述质粒中的多接头序列中的具有转录调节特性的DNA片段，所述多接头序列位于4个LexA操纵子位点和控制zeocin抗性基因的SV40启动子之间，且其中

如果不是存在所述具有转录调节特性的DNA片段，所述zeocin抗性基因将会因为LexA-阻抑物融合蛋白的表达而被抑制。

2、一种DNA构建体，其具有权利要求1的核酸序列。

3、权利要求2的DNA构建体，包含与感兴趣的核酸可操纵地连接的启动子。

4、权利要求3的DNA构建体，其中具有感兴趣的核酸的启动子侧翼有权利要求1的核酸序列。

5、权利要求1的DNA序列在调节感兴趣的核酸的转录中的应用。

6、在细胞中生产基因产物的方法，包括提供一种表达盒，所述表达盒包含：

i)感兴趣的基因和

ii)权利要求1的DNA序列，

并使所述表达盒在细胞中转录。

7、权利要求6的方法，其中所述感兴趣的基因侧翼有权利要求1的DNA序列。

8、包含权利要求3或权利要求4的DNA构建体的宿主细胞。