CN101918578A

CN101918578A - 启动子检测及分析

Info

Publication number: CN101918578A
Application number: CN2008801233105A
Authority: CN
Inventors: X·丹欣内; 马永生
Original assignee: OD260 Inc
Current assignee: OD260 Inc
Priority date: 2007-10-27
Filing date: 2008-10-26
Publication date: 2010-12-15
Also published as: EP2209903A4; EP2209903A1; US20090111099A1; WO2009055760A1

Abstract

本公开内容公开了用于启动子检测及分析的基于阵列的方法。在一个反应小瓶中使用包含TAG序列的载体同时分析启动子序列候选物，其中转录产物在其合成时被加以标签，以使一种特定转录物仅由一种类型的标签标记，且一种标签仅标记一种类型的转录物。在常规阵列上分析转录输出。

Description

启动子检测及分析

本申请要求2007年10月27日提交的美国专利申请系列号11/925,837的优先权。

本发明是在国立卫生研究院(National Institutes of Health)授予的基金1R43HG003559的资助下在政府支持下进行。政府对本发明拥有一定的权利。

技术领域

本公开内容涉及用于检测细胞样品中的调节元件的方法。更具体来说，本公开内容涉及用于同时检测多个细胞样品中的调节元件的方法及由此产生的用途。本公开内容还提供用于检测和分析调节元件的载体。

背景技术

所有活生物体的基因均由核酸DNA及RNA编码。各基因编码蛋白，蛋白可由生物体通过基因表达而产生。

调节基因表达的系统响应多种发育和环境刺激，由此使各细胞类型表达独特且特有的基因亚型，并视需要调节特定基因产物的剂量。剂量控制的重要性可通过以下事实来理解：小鼠中重要调节分子的靶向破坏通常会导致强烈的表型异常(Johnson，R.S.等人，Cell，71：577-586(1992))，正如基因调节机制功能的遗传性或获得性缺陷广泛地促进人类疾病。

已使用标准分子生物学技术通过测量核酸来分析细胞中的基因表达。这些技术包括PCR、RNA印迹分析或其它类型的DNA探针分析，例如原位杂交。这些方法中的每一种仅允许分析已知基因的转录和/或一次分析少数几种基因的转录(Nucl.Acids Res.19，7097-7104(1991)；Nucl.Acids Res.18，4833-4842(1990)；Nucl.Acids Res.18，2789-2792(1989)；European J.Neuroscience 2，1063-1073(1990)；Analytical Biochem.187，364-373(1990)；Genet.Annal Techn.Appl.7，64-70(1990)；GATA 8(4)，129-133(1991)；Pro.Natl.Acad.Sci.USA 85，1696-1700(1988)；Nucl.Acids Res.19，1954(1991)；Proc.Natl.Acad.Sci.USA 88，1943-1947(1991)；Nucl.Acids Res.19，6123-6127(1991)；Proc.Natl.Acad.Sci.USA 85，5738-5742(1988)；Nucl.Acids Res.16，10937(1988))。

也已利用测量mRNA的水平来监测基因表达。由于蛋白自mRNA转录，因此可通过测量所存在的mRNA的量来检测转录。一种常见方法称为“杂交相减(hybridization subtraction)”，它使我们能够通过检测mRNA表达的改变来查看基因表达的改变(Nucl.Acids Res.19，7097-7104(1991)；Nucl.AcidsRes.18，4833-4842(1990)；Nucl.Acids Res.18，2789-2792(1989)；European J.Neuroscience 2，1063-1073(1990)；Analytical Biochem.187，364-373(1990)；Genet.Annal Techn.Appl.7，64-70(1990)；GATA 8(4)，129-133(1991)；Proc.Natl.Acad.Sci.USA 85，1696-1700(1988)；Nucl.Acids Res.19，1954(1991)；Proc.Natl.Acad.Sci.USA 88，1943-1947(1991)；Nucl.Acids Res.19，6123-6127(1991)；Proc.Natl.Acad.Sci.USA 85，5738-5742(1988)；Nucl.Acids Res.16，10937(1988))。

也已通过测量细胞、组织、器官系统或甚至生物体中基因产物(即，所表达的蛋白)的水平来监测基因表达。通过测量蛋白基因产物来测量基因表达可使用已知结合待检测的特定蛋白的抗体来实施。困难是需要产生各待检测蛋白的抗体。经由蛋白检测来测量基因表达还可使用二维凝胶电泳来实施，其中蛋白原则上可以作为个别条带来识别及定量，且最终简化成离散信号。为正性分析各条带，必须将各条带自膜切除并实施蛋白序列分析(例如，埃德曼降解(Edman degradation))。然而，分离足量蛋白以获得可靠的蛋白序列往往较为困难。另外，许多条带通常含有多种蛋白。

与通过测量细胞中蛋白基因产物的量来定量基因表达有关的另一困难是蛋白表达为基因表达的间接测量。不可能从细胞中存在的蛋白获知何时发生蛋白表达。因此，难以确定蛋白表达是否由于细胞暴露于不同刺激而随时间有所变化。

已利用测量特定活化转录因子的量来监测基因表达。细胞中的转录是由活化转录因子来控制，该转录因子在基因的核心启动子外的位点结合DNA并激活转录。由于活化转录因子激活转录，因此可利用检测其存在性来测量基因表达。已在原核生物、病毒和真核生物中发现转录激活物。

在分子生物学中，报告基因(通常简称为报告子)是一种基因，研究人员通常将其附接至细胞培养物、动物或植物中的感兴趣的另一基因上。某些基因被选作报告子是因为其赋予表达其的生物体的特征可容易地识别并测量，或者因为其是可选标记。报告基因通常用于确定目标基因是否被细胞或生物体群体吸收或在细胞或生物体群体中表达。

为将报告基因引入生物体中，研究人员将报告基因和目标基因置于拟插入至细胞或生物体中的相同DNA构建体中。对于培养物中的细菌或真核细胞，其通常呈环状DNA分子(称为质粒)的形式。重要的是使用在所研究细胞或生物体中非天然表达的报告基因，这是因为报告子的表达被用作为目标基因成功吸收的标记。

常用的产生视觉上可识别的特征的报告基因通常涉及荧光蛋白；例如，绿色荧光蛋白(GFP)及荧光素酶分析。其它报告子包括(例如)β-半乳糖苷酶、X-gal及氯霉素乙酰基转移酶(CAT)。

许多转染及转化方法-在生物体中表达外来或经修饰基因的两种方式-仅在较小百分比的经受该技术的群体中有效。因此，需要用于识别那些少数成功的基因吸收事件的方法。在此方式中使用的报告基因通常在独立于所引入的目标基因的启动子的其自身启动子控制下表达；所述报告基因可以组成性表达(“始终表达(always on)”)或在外部干预(例如在β-半乳糖苷酶系统中引入IPTG)下诱导性表达。因此，报告基因的表达独立于目标基因的表达，这在目标基因仅在某些特定条件下或在难以接近的组织中表达时是有利的。

在可选标记报告子例如CAT的情况下，可使转染的细菌群体在含有氯霉素的底物上生长。仅成功吸收含有CAT基因的构建体的那些细胞存活并在这些条件下繁殖。

还可使用报告基因来分析目标基因的表达，这可产生对细胞培养物或生物体几乎没有明显或直接效应的蛋白。在这些情况下，将报告子直接附接至目标基因以产生基因融合体。这两种基因在相同启动子控制下并转录至单个多肽链中。在这些情况下，重要的是，尽管融合但两种蛋白均能够正确折叠成其活性构象并与其底物相互作用。在构造DNA构建体时，通常包括编码柔性多肽连接体区域的DNA区段，以使报告子与目标基因仅最低程度地彼此相互干扰。

可使用报告基因来分析细胞或生物体中特定启动子的活性。在此情况下没有单独的“目标基因”；报告基因仅置于靶启动子的控制下且定量地测量报告基因产物的活性。通常报告相对于已知诱导强烈基因表达的“共有”启动子下的活性的结果。

在过去几年中，对大量基因组(真核及原核)实施测序已产生巨量数据。尽管编码区的检测很常见，但主要挑战是给功能非编码序列尤其参与基因转录的那些作注释。由于转录在调节诸如形态发生、细胞分化、组织特异性、激素通信及细胞应激反应等重要过程中发挥关键作用，因此需要对转录启动子进行识别及功能表征。可以将用于检测及分析转录启动子的方法分成两类：计算方法和实验方法。

用于启动子研究的计算方法纳入了许多公开的及私人的含有从研究收集的信息的数据库，这些研究由数以百计的实验室公布且使用常规劳动强度大且耗费时间的途径实施。真核启动子数据库(EPD)和转录调节区数据库(TRRD)分别含有1,871及703条人类启动子。其它启动子数据库(例如TransFac及DBTSS)含有将近9,000种启动子序列。然而，这些数据库的大多数源自在计算机芯片上实施的引物延伸分析(例如，TransFac)，或仅含有关于推定的转录起始位点的数据(例如，DBTSS)。与预期35,000个人类基因相比，较少数量的人类启动子经实验验证，表明还有许多工作要做。

已提出许多种基于计算机的启动子预测方法(Scherf等人，J.Mol.Biol.297(3)：599-606，2000；Werner，T.Brief Bioinform.1(4)：372-80，2000；Loots等人，Gen.Res.12：832-839，2002)。这些方法受限于缺乏可靠的标准方案来预测及识别启动子区域。启动子的长度通常仅为数个碱基对(bp)，且包埋于巨大的基因组中。因此，启动子相比于长的模式化的编码序列更难以发现且容易混淆。用于启动子预测的典型计算机算法是基于比较未知序列与已知元件，此策略不能识别新类型的启动子元件。因此，启动子元件的基于计算机的检索不完全，而且通常需要实验证实。

已使用基于微阵列数据的计算方法来研究全基因组转录调节(Pilpel等人，Nat.Gen.29(2)：153-9，2001)。这些技术能够识别给定生物体启动子中的新颖的功能基序组合，且可提供转录网络的全局概观。然而，这些方法提供的数据同样需要实验手段加以证实。

用于研究启动子区域及随后进行表征的实验方法通常遵循一种基本方案。第一，在识别新的编码序列时，利用标准分子生物学工具(例如S1作图、引物延伸或5’RACE)来界定转录起始位点。第二，克隆上游基因组区域(多达10kb)且通过在瞬时转染系统中实施报告子分析证实具有启动子活性。第三，实施缺失及点突变分析以界定重要的转录顺式作用元件；可通过在瞬时转染分析中使用不同的诱导或阻抑剂来获得关于转录调节的信息。最后，通过DNA酶I足迹法、存在或不存在突变探针及竞争剂下的电泳迁移率变动分析(EMSA)、及EMSA超变动分析来识别参与启动子调节的转录因子。

基于瞬时转染的实验方法具有几个缺点。这些方法测量报告子蛋白水平而不是mRNA水平，mRNA是转录的直接产物；蛋白水平并不总是与mRNA水平相关。可使用的报告子分析的数量非常有限(例如氯霉素乙酰基转移酶、β-半乳糖苷酶、荧光素酶、绿色荧光蛋白(GFP)、β-葡糖醛酸糖苷酶)，而且使用相同的报告子来比较各种不同启动子意味着这些启动子必须单独进行测试且因此这些分析劳动强度大且耗费时间。由于对于所研究的各启动子所涉及的许多步骤(即转染、诱导、收获、报告子检测)均单独实施，且通常重复实施两次或三次，所以同时处理20个以上构建体非常具有挑战性。对于所实施的每一步骤，第一样品与最后一个样品间的时间差可能相当大；因此各样品的例如培育时间、细胞及试剂质量彼此可能有所不同，由此引入更多实验变异。需要大量材料和试剂。另外，为对一系列启动子进行相互比较，需要包括第二报告基子盒作为内部对照。在一些情况下，检测此对照可能与第一报告子一样耗费时间且劳动强度大，且具有实验误差。此内部对照的表达还可能与目标启动子所驱动的基因表达竞争而影响分析结果。一些分析(例如荧光素酶及GFP分析)需要昂贵的测试设备。

Kim等人报导用于分离及识别人类基因组中的启动子的实验方法(Kim等人，Genome Research 15：830-839，2005)。然而，使用抗体来识别可能与主动转录有关的区域及需要结合RNAP及TFIID二者的启动子标准可能导致排除一些仅显示部分结合的启动子。

Khambata-Ford等人报导通过使用基于反转录病毒质粒文库的功能报告子分析来识别人类基因组中的启动子区域的实验方法(Khambata-Ford等人，Gen.Res.13：1765-1774，2003)。然而，除了可能通过随机整合反转录病毒载体而毁灭性地破坏靶标细胞基因组外，此分析依赖于荧光报告子GFP进行检测且经由荧光激活细胞分选术(FACS)来筛选细胞。

Trinklein等人报导通过使用人类基因组的序列草案及cDNA文库来识别人类转录启动子及对其进行功能分析的实验方法(Trinklein等人，Gen.Res.13：308-312，2003)。然而，他们利用基于荧光素酶的转染分析来进一步分析及识别启动子序列。

基因组测序已产生大量需要注释的数据。可利用计算方法来检测推定的转录启动子区域，但其并非100％有效且必须通过实验加以证实。遗憾的是，目前可用以研究启动子的实验程序非常耗费时间，费力，且不易应用于大量启动子。因此，需要用于转录研究的新颖技术。

发明概述

通过提供纳入独特的非编码DNA序列的新颖的报告系统来克服上文所述方法的以上缺点。本公开内容的目的是提供一种新颖的报告系统，其具有特异性、廉价且可提供高效的启动子检测手段。

本公开内容提供用于检测及分析DNA启动子序列的方法。在优选实施方式中，本公开内容提供用于检测DNA调节序列的方法，其包括：a)将启动子序列候选物插入至载体中，其中所述载体包含TAG序列且其中将所述启动子序列候选物插入一位置以驱动所述TAG序列转录；b)将含有所述插入的启动子序列候选物的所述载体插入至克隆宿主细胞中；c)使含有不同启动子序列候选物的克隆宿主细胞生长至相同光密度，将其集中并提取其中的所述载体，进行纯化并插入至报告细胞系中；d)自所述报告细胞系提取mRNA，其中所述mRNA直接进行标记或用作cDNA或探针合成的模板；及e)用阵列对所述经标记的mRNA、cDNA或探针进行分析，其中所述阵列包含与所述TAG序列相同或互补的序列。优选地，所述经标记的mRNA、cDNA或探针与所述阵列杂交且所述mRNA、cDNA或探针的标记具有可检测反应。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列候选物的方法，其中将DNA启动子序列候选物整合于载体中，所述载体包含TAG序列、一个或多个多克隆位点、一种或多种DNA重组序列、阴性选择标记、可用于检测mRNA序列的核苷酸序列(例如T7启动子序列及MA区段)、翻译终止密码子、RNA稳定化片段(例如来自α-珠蛋白基因的RNA稳定化片段)及转录终止信号(例如多腺苷酸化信号)，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录。在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其中将DNA启动子序列候选物整合于载体中，所述载体包含TAG序列、一个或多个多克隆位点、attP1及attP2序列二者、阴性选择标记(其中所述阴性选择标记是ccdB基因)、T7启动子序列、MA区段、翻译终止密码子、α-珠蛋白RNA稳定化片段及多腺苷酸化信号，且其中所述DNA启动子序列候选物驱动所述TAG序列转录。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其中将DNA启动子序列候选物整合于载体中，其中所述载体包含TAG序列、一个或多个多克隆位点、attP1及attP2序列二者、阴性选择标记、T7启动子序列、MA序列(其中所述MA序列由约25％A、25％T、25％G及25％C构成)、翻译终止密码子、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列候选物驱动所述TAG序列转录。优选地，所述载体是质粒。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其中将DNA启动子序列候选物整合于载体中，其中所述载体包含TAG序列、一个或多个多克隆位点、一种或多种DNA重组序列、阴性选择标记、T7启动子序列、MA序列(其中所述MA序列由约25％A、25％T、25％G及25％C构成)、翻译终止密码子(其中所述翻译终止在三框架中(the translation stop is in three frames))、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录。优选地，所述载体是质粒。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述DNA重组序列是attP1及attP2。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其包括：(a)将DNA启动子序列候选物整合于TAG-载体中，其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录，其中所述TAG-载体包含：用于插入DNA启动子序列候选物的多克隆位点(MCS)；DNA重组序列，例如attP1及attP2，其间可插入DNA启动子序列候选物；使含有启动子序列插入片段的克隆的回收率最大化的阴性选择标记，例如ccdB；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；独特的报告TAG；可用于自RNA合成探针的特异性MA区段，其中所述MA区段由约25％A、25％T、25％G及25％C构成；三框架翻译终止密码子；RNA稳定化片段，优选来自血红蛋白或α-珠蛋白基因；及转录终止信号，例如多腺苷酸化信号；(b)将含有所述启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌(Escherichia coli))中，并将所述克隆排列至96-孔板中并生长至约相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的载体混合物转染至目标细胞系中；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体、或珠粒上的DNATAG序列杂交予以定量。适宜珠粒组合物包括用于肽、核酸和有机部分合成的组合物，包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸系聚合物、顺磁性材料、氧化钍溶胶(thoria sol)、碳石墨、二氧化钛、胶乳或交联葡聚糖(例如琼脂糖)、纤维素、尼龙、交联微胶粒及特富龙，所有均可使用(参见微球体检测导则(Microsphere Detection Guide)，BangsLaboratories，Fishers Ind.)。优选地，所述载体是质粒。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在本公开内容的另一实施方式中提供一种方法，其中所研究的各DNA启动子序列候选物(例如，计算机预测的DNA启动子序列候选物、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定DNA启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等)驱动独特的mRNA转录，所述mRNA由包埋于荧光素酶编码序列的5’端的短寡核苷酸TAG组成，其中集中等摩尔量的各种所研究启动子并转染至细胞系中，且其中通过与阵列格式的TAG寡核苷酸杂交来定量mRNA水平。在另一实施方式中，报告子是短寡核苷酸TAG。在另一实施方式中，所述TAG序列的长度为约16个碱基对至约200个碱基对，更优选地约20个碱基对至约175个碱基对，更优选地约25个碱基对至约150个碱基对，更优选地约30个碱基对至约125个碱基对，更优选地约45个碱基对至约100个碱基对，更优选地约50个碱基对至约75个碱基对，更优选地约65个碱基对，且最优选地60个碱基对。在另一实施方式中，所有TAG序列设计得具有约相同解链温度；此特征允许通过在相同温度及离子强度条件下杂交来公正地定量各种mRNA。在另一实施方式中，所述方法能够检测及定量mRNA的水平，而不是报告子蛋白的水平，且不受在常规报告子分析中可能干扰性的翻译及翻译后事件的影响。在本公开内容的另一实施方式中，使含有TAG载体(优选为质粒)的各克隆生长至约相同细胞密度，并将含有每一DNA启动子序列候选物的这些克隆培养物的经纯化载体(优选为质粒)混合，将所得混合物转染至单一细胞群体中，以为各种启动子创造竞争环境以募集转录因子。在另一实施方式中，将自具有约相同细胞密度且含有约等摩尔量的所有DNA启动子序列的克隆细胞培养物纯化的载体(优选为质粒)混合，并用于转染单一细胞群体，且避免了对于内部对照的需要。可通过数种方式来获得等摩尔量的携带各种用以转染报告细胞系的候选启动子-TAG组合的载体。在另一实施方式中，可通过以下方式来获得等摩尔量的载体：1)制备载体文库；2)排列载体文库(例如，96孔板)；3)自各克隆取相等部分并将其全部集中；4)使所有克隆一起生长，假定生长速度相同而且每个细胞产生等量载体；5)提取转化剂(例如，载体、质粒或病毒)；及6)将载体(或质粒或感染病毒)转染至报告细胞系中。或者，可通过以下方式来获得等摩尔量的载体：1)制备载体文库；2)排列载体文库(例如，96孔板)；3)使各克隆单独生长(例如，在细菌的情况下于深孔板中)；4)自各克隆取相等部分并将其全部集中；5)提取转化剂(例如，载体、质粒或病毒)；及6)将载体(或质粒或感染病毒)转染至报告细胞系中。或者，可通过以下方式来获得等摩尔量的载体：1)制备载体文库；2)排列载体文库(例如，96孔板)；3)使各克隆单独生长(例如，在细菌的情况下于深孔板中)；4)提取转化剂(例如，载体、质粒或病毒)并进行定量；5)自各克隆(例如，载体、质粒或病毒)取相等部分并将其全部集中；及6)将载体(或质粒或感染病毒)转染至报告细胞系中。或者，可通过以下方式来获得等摩尔量的载体：1)制备载体文库；2)取各克隆的一部分并将其全部集中；3)使所有克隆一起生长，且假定生长速度相同而且每个细胞产生等量载体；4)提取转化剂(例如，载体、或质粒或病毒)；5)将载体(或质粒或感染病毒)转染至报告细胞系中并确定目标TAG(例如，高表达水平)；及6)找出载体文库中含有目标TAG的克隆(例如，菌落杂交)。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其包括：(a)将DNA启动子序列候选物整合于载体(优选为质粒)中，其中所述质粒包含TAG序列、一个或多个多克隆位点、至少一种DNA重组序列(优选为attP1或attP2)、阴性选择标记(优选为ccdB)、用于实现RNA合成的核苷酸序列(例如T7启动子序列)、MA区段、翻译终止密码子、RNA稳定化片段(优选地来自血红蛋白或α-珠蛋白基因)及转录终止信号(例如多腺苷酸化信号)，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录；(b)将含有启动子序列候选物插入片段的载体克隆至宿主(优选为大肠杆菌)中，并将克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的载体混合物转染至目标细胞系中，其中避免了使用内部对照；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述载体是质粒。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其包括：将DNA启动子序列候选物整合于载体(优选为质粒)中，其中所述载体包含TAG序列、一个或多个多克隆位点、至少一种DNA重组序列(优选为attP1或attP2)、阴性选择标记(例如ccdB)、用于实现RNA合成的核苷酸序列(优选为T7启动子序列)、MA区段、翻译终止密码子、RNA稳定化片段(优选为血红蛋白或α-珠蛋白基因)及转录终止信号(优选为多腺苷酸化信号)，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其包括：(a)将DNA启动子序列候选物整合于载体中，其中所述载体包含TAG序列、一个或多个多克隆位点、至少一种DNA重组序列、阴性选择标记、用于实现RNA合成的核苷酸序列、MA区段、翻译终止密码子、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录；(b)将含有启动子序列候选物插入片段的载体克隆至宿主(优选为大肠杆菌)中，并将克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的载体混合物转染至目标细胞系中；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述载体是质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述用于实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述RNA稳定化片段是来自血红蛋白或α-珠蛋白基因。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在另一实施方式中，本公开内容提供用于检测及分析DNA启动子序列的方法，其包括：(a)将DNA启动子序列候选物整合于载体中，其中所述载体包含TAG序列、一个或多个多克隆位点、至少一种DNA重组序列、阴性选择标记、用于实现RNA合成的核苷酸序列、MA区段、翻译终止密码子、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录；(b)将含有启动子序列候选物插入片段的载体克隆至宿主(优选为大肠杆菌)中，并将克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的载体混合物转染至目标细胞系中，且其中在用自具有相同细胞密度的克隆细胞群体纯化的载体转染细胞时避免了使用内部对照；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNATAG序列杂交予以定量。优选地，所述载体是质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述用于实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述RNA稳定化片段是来自血红蛋白或α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在本公开内容的另一实施方式中，本公开内容提供用于检测及分析核苷酸序列集合(例如基因组文库)中的DNA启动子核苷酸序列的方法，其包括：(a)将启动子序列候选物与TAG-载体混合，其中所述TAG-载体包含：用于插入启动子序列候选物的多克隆位点(MCS)；至少一种DNA重组序列，例如attP1或attP2；使含有启动子序列插入片段的克隆的回收率最大化的阴性选择标记，例如，ccdB基因；实现RNA合成的T7启动子序列；独特的约60个碱基对的报告TAG；可用于自RNA合成探针的特异性MA区段，其中所述MA区段由约25％A、25％T、25％G及25％C构成；三框架翻译终止密码子；RNA稳定化片段，例如，α-珠蛋白或血红蛋白；及转录终止信号，优选为多腺苷酸化信号；(b)将含有所述启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌)中，并将所述克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的载体混合物转染至目标细胞系中；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述TAG-载体是TAG-质粒。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在本公开内容的另一实施方式中，本公开内容提供用于检测及分析核苷酸序列集合(例如基因组文库)中的DNA启动子核苷酸序列的方法，其包括：(a)将启动子序列候选物与TAG-载体混合，其中所述TAG-载体包含：用于插入启动子序列候选物的多克隆位点(MCS)；至少一种DNA重组序列；阴性选择标记；用于实现RNA合成的核苷酸序列；独特的约60个碱基对的报告TAG；可用于自RNA合成探针的特异性MA区段，其中所述MA区段由约25％A、25％T、25％G及25％C构成；三框架翻译终止密码子；RNA稳定化片段；及转录终止信号；(b)将含有所述启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌)中，并将所述克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的载体转染至目标细胞系中，且不使用内部对照；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述载体是质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述阴性选择标记是ccdB。优选地，实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在本公开内容的另一实施方式中，本公开内容提供用于检测及分析核苷酸序列集合(例如基因组文库)中的DNA启动子核苷酸序列的方法，其包括：(a)将启动子序列候选物与TAG-载体混合，其中所述TAG-载体包含：用于插入启动子序列候选物的多克隆位点(MCS)；至少一种DNA重组序列；阴性选择标记；用于实现RNA合成的核苷酸序列；独特的约60个碱基对的报告TAG；可用于自RNA合成探针的特异性MA区段，其中所述MA区段由约25％A、25％T、25％G及25％C构成；三框架翻译终止密码子；RNA稳定化片段；及转录终止信号；(b)将含有所述启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌)中，并将所述克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得的含有约等量载体的克隆，并对其中的载体进行纯化；(d)将经纯化的载体转染至目标细胞系中，且其中不使用内部对照；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述TAG-载体是TAG-质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述阴性选择标记是ccdB。优选地，实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在另一实施方式中，本公开内容提供用于分析及检测多个样品中的多个DNA启动子核苷酸序列的方法，其包括：(a)将DNA启动子序列候选物与TAG载体混合，其中所述DNA启动子序列候选物选自(例如)计算机预测的启动子序列候选物、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等，其中所述TAG-载体包含：用于插入DNA启动子序列候选物的多克隆位点、DNA重组序列、阴性选择标记、用于实现RNA合成的核苷酸序列、独特的约60个碱基对的报告TAG、可用于自RNA合成探针的特异性MA区段(其中所述MA区段由约25％A、25％T、25％G及25％C构成)、三框架翻译终止密码子、RNA稳定化片段及转录终止信号；(b)将含有所述启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌)中，并将所述克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将经纯化的质粒混合物转染至目标细胞系中；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNATAG序列杂交予以定量。优选地，所述TAG-载体是TAG-质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述阴性选择标记是ccdB。优选地，实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在另一实施方式中，本公开内容提供检测及分析多个样品中的多个DNA启动子核苷酸序列的方法，其包括：(a)将DNA启动子序列候选物与TAG载体混合，其中所述启动子序列候选物选自(例如)计算机预测的启动子序列候选物、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等，其中所述TAG-载体包含：用于插入启动子序列候选物的多克隆位点、DNA重组序列、阴性选择标记、用于实现RNA合成的核苷酸序列、独特的约60个碱基对的报告TAG、可用于自RNA合成探针的特异性MA区段(其中所述MA区段由约25％A、25％T、25％G及25％C构成)、三框架翻译终止密码子、RNA稳定化片段及转录终止信号；(b)将含有所述启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌)中，并将所述克隆排列至96-孔板中并生长至相同细胞密度；(c)所得克隆含有约等量的载体并集中，并对其中的载体进行纯化；(d)将约等量的经纯化载体转染至目标细胞系中；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述TAG-载体是TAG-质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述阴性选择标记是ccdB。优选地，实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

在另一实施方式中，本公开内容提供检测及分析多个样品中的多个DNA启动子核苷酸序列的方法，其包括：(a)将DNA启动子序列候选物与TAG载体混合，其中所述启动子序列候选物选自(例如)计算机预测的启动子序列候选物、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等，其中所述TAG-载体包含：用于插入启动子序列候选物的多克隆位点、DNA重组序列、阴性选择标记、用于实现RNA合成的核苷酸序列、独特的约60个碱基对的报告TAG、可用于自RNA合成探针的特异性MA区段(其中所述MA区段由约25％A、25％T、25％G及25％C构成)、三框架翻译终止密码子、RNA稳定化片段及转录终止信号；(b)将含有所述DNA启动子序列候选物插入片段的所述TAG-载体克隆至宿主(优选为大肠杆菌)中，并将所述克隆排列至96-孔板中并生长至相同细胞密度；(c)集中所得克隆，并对其中的载体进行纯化；(d)将约等量的经纯化载体转染至目标细胞系中，且其中避免使用内部对照；及(e)提取RNA，进行标记并通过与排列于膜或玻璃支撑体上的DNA TAG序列杂交予以定量。优选地，所述TAG-载体是TAG-质粒。优选地，所述DNA重组序列是attP1或attP2。优选地，所述阴性选择标记是ccdB。优选地，实现RNA合成的核苷酸序列是T7启动子序列。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述mRNA、cDNA或探针的标记具有可检测反应。

本公开内容提供一种载体。在一优选实施方式中，本公开内容提供一种载体，其中插入DNA启动子序列候选物，所述载体包含TAG序列、一个或多个多克隆位点、至少一种DNA重组序列、阴性选择标记、RNA聚合酶启动子序列、MA区段、翻译终止密码子、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录。优选地，所述载体是质粒。

在另一实施方式中，本公开内容提供一种质粒载体，其包含：用于插入推定的启动子序列的区域，其中MCS位于所述推定的启动子序列的5’端及3’端；一种或多种DNA重组序列；T7序列；TAG序列；荧光素酶基因序列；MA序列；及翻译终止序列。优选地，所述MA序列是MA5或MA4。优选地，所述MA序列位于TAG序列的3’端。优选地，所述荧光素酶基因序列是部分荧光素酶基因序列或完整荧光素酶基因序列。优选地，所述翻译终止序列是至少一个读码框、更优选地至少两个读码框、且最优选地三个读码框中的翻译终止序列。优选地，所述DNA重组序列是attP1及attP2。

在另一实施方式中，本公开内容提供一种质粒载体，其中插入DNA启动子序列，所述质粒载体包含TAG序列、一个或多个多克隆位点、attP1及attP2序列之一或二者、阴性选择标记、RNA聚合酶启动子序列、MA区段、翻译终止密码子、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列所处的位置应使其能够驱动所述TAG序列转录。优选地，所述载体是质粒。优选地，所述TAG序列是约16个碱基对至约200个碱基对，更优选地，所述TAG序列的载体是约60个碱基对。优选地，所述TAG序列位于所述插入的启动子序列的3’端及转录终止信号的5’端。优选地，所述DNA启动子序列是增强子。优选地，所述翻译终止密码子是三框架(three frame)翻译终止密码子。优选地，所述RNA稳定化片段是来自α-珠蛋白基因。优选地，所述转录终止信号是多腺苷酸化信号。优选地，所述RNA聚合酶启动子序列是T7启动子序列。

在另一实施方式中，本公开内容提供一种载体。本公开内容提供用于检测及分析启动子核苷酸序列的核苷酸序列，其包含：T7启动子、TAG序列、MA序列及多腺苷酸化信号。在本公开内容的另一实施方式中，所述启动子序列候选物选自由计算机预测模型提供的启动子序列候选物、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等。在另一实施方式中，所述TAG序列是由随机核苷酸构成的DNA序列。在另一实施方式中，所述TAG序列的长度短，优选地约16个碱基对至约200个碱基对，更优选地约20个碱基对至约150个碱基对，更优选地约30个碱基对至约120个碱基对，更优选地约40个碱基对至约100个碱基对，更优选地约50个碱基对至约75个碱基对，且最优选地约60个碱基对。在多个TAG序列中，各TAG序列具有大致同等量的核苷酸A、T、G及C，由此各TAG序列具有彼此大致相同的解链温度。相同解链温度允许通过在相同温度及离子强度条件下杂交来公正地定量各种mRNA。在另一实施方式中，所述特异性MA区段可用于自RNA合成探针，且所述MA区段由约25％A、25％T、25％G及25％C构成。

在另一实施方式中，本公开内容提供一种方法，其中使用核苷酸序列来检测及分析启动子核苷酸序列，其包含：T7启动子序列、TAG序列、MA序列及多腺苷酸化信号。DNA启动子序列候选物可选自由计算机预测模型提供的启动子序列候选物、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等。在优选实施方式中，所述TAG序列是由短的随机核苷酸构成的DNA序列，优选地约16个碱基对至约200个碱基对，更优选地约20个碱基对至约150个碱基对，更优选地约30个碱基对至约120个碱基对，更优选地约40个碱基对至约100个碱基对，更优选地约50个碱基对至约75个碱基对，且最优选地约60个碱基对。

在另一实施方式中，本公开内容提供一种克隆载体，其包含TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，其中用于实现RNA合成的所述核苷酸序列(优选为T7启动子序列)及所述MA序列位于反义DNA链上。在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体由以下构成：DNA启动子序列候选物；TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，其中所述DNA启动子序列候选物、所述TAG序列及所述转录终止信号(优选为多腺苷酸化信号)位于正义DNA链上。

在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体由以下构成(is comprised of)：TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，其中所述DNA启动子序列候选物位于所述TAG序列的5’端，且其中所述TAG序列位于所述转录终止信号(优选为多腺苷酸化信号)的5’端。在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体由以下构成：TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，且所述TAG序列位于所述DNA启动子序列候选物的3’端且所述转录终止信号(优选为多腺苷酸化信号)位于所述TAG序列的3’端。

在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体由以下构成：TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，其中所述DNA启动子序列可操作地连接至所述TAG序列。在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体包含：DNA启动子序列候选物；TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，且所述TAG序列可操作地连接至所述转录终止信号(优选为多腺苷酸化信号)。

在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体由以下构成：TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，其中所述DNA启动子序列位于所述TAG序列的5’端，所述TAG序列位于所述转录终止信号(优选为多腺苷酸化信号)的5’端，转录终止信号位于DNA启动子序列候选物的3’端，且所述DNA启动子序列候选物可操作地连接至所述TAG序列且TAG序列可操作地连接至所述转录终止信号。

在本公开内容的另一实施方式中，提供一种克隆载体，其中所述克隆载体由以下构成：一对MCS；TAG序列；转录终止信号，优选为多腺苷酸化信号；用于实现RNA合成的核苷酸序列，优选为T7启动子序列；及MA序列，一个MCS位于所述DNA启动子序列候选物的5’端且一个MCS位于所述DNA启动子序列候选物的3’端。

本公开内容提供用于启动子检测及分析的基于阵列的方法。所述方法提供转录产物，所述转录产物在其合成时被加以标签，以使一种特定转录物仅由一种类型的TAG标记，且一种TAG仅标记一种类型的转录物。所有启动子序列候选物均在一个反应小瓶中同时进行分析。转录输出在常规阵列上进行分析，而且可以利用不需要昂贵设备的程序来检测。所述方法可满足减少劳动力、成本的要求，且提供了自基因组文库检测启动子区域的优点和其它相关优点。

参考详细描述及例示性实施例可明了本公开内容的所述及其它实施方式，这些详细描述及例示性实施例旨在例示本公开内容的非限制性实施方式。本文所揭示的所有参考文献的全文均以引用方式并入本文中，如同各参考文献分别并入一般。

术语表

除非另有定义，否则本文所用的所有技术及科学术语都具有与本公开内容所属领域的技术人员所通常了解的含义相同的含义。通常，本文所用的命名及下文所述细胞培养、分子遗传学、及核酸化学及杂交中的实验室程序已为所属领域的技术人员所熟知且常用。使用标准技术来实施重组核酸方法、聚核苷酸合成、及微生物培养及转化(例如，电穿孔、脂转染)。通常，按照制造商说明书实施酶促反应及纯化步骤。技术及程序通常按照此项技术中的常规方法及本文件全文中提供的各种一般参考文献实施(通常参见Sambrook等人，Molecular Cloning：A Laboratory Manual，第2版(1989)ColdSpring Harbor Laboratory Press，Cold Spring Harbor，N.Y.，其以引用方式并入本文中)。单位、前缀和符号可以SI接受的形式表示。除非另有说明，否则分别地，核酸是以5′至3′方向从左到右书写；氨基酸序列是以氨基至羧基方向从左到右书写。数字范围包括界定范围的数字在内并包括所界定范围内的每一个整数。氨基酸在本文中可通过其通常已知的三字母符号或通过IUPAC-IUB生物化学命名委员会推荐的单字母符号来提及。同样，核苷酸可通过其通常接受的单字母代码来提及。除非另外提供，否则本文所用的软件、电学及电子学术语与电及电子学术语的新IEEE标准词典(The New IEEEStandard Dictionary of Electrical and Electronics Terms)(第5版增补版，1993)中所定义的相同。如本公开内容通篇所使用，除非另有说明，否则以下术语应理解为具有以下含义且通过参考作为整体的说明书更全面地定义：

术语“扩增”是指使用至少一种核酸序列作为模板构建核酸序列的多个拷贝或与核酸序列互补的多个拷贝。扩增系统包括(例如)聚合酶链反应(PCR)系统、连接酶链反应(LCR)系统、基于核酸序列的扩增(NASBA，Canteen，Mississauga，Ontario)、Q-β复制酶系统、基于转录的扩增系统(TAS)及链置换扩增(SDA)。参见，例如，Diagnostic Molecular Microbiology：Principles andApplications，D.H.Persing等人编辑，American Society for Microbiology，Washington，D.C.(1993)。扩增产物称为扩增子。

术语“阵列”是指含有核酸样品的阵列。阵列可以是“宏阵列(macroarray)”或“微阵列(microarray)”。术语“微阵列”是指含有核酸样品的阵列，还称为显微DNA‘斑点’，其结合至诸如显微镜载玻片、塑料或硅晶片等固体基质上。因为各样品所占据物理面积的直径通常为50-200μm，所以代表多个样品的核酸样品可以结合至固体基质，包括(例如)完全基因组、基因组文库、自计算预测模型合成的DNA样品、或所研究启动子的缺失突变体。固体基质可包括膜或珠粒。宏阵列可以是(例如)市面有售(Clontech)或手动合成的阵列。珠粒可以由用于肽、核酸和有机部分合成的材料制成，包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸系聚合物、顺磁性材料、氧化钍溶胶、碳石墨、二氧化钛、胶乳或交联葡聚糖(例如琼脂糖)、纤维素、尼龙、交联微胶粒及特富龙，所有均可使用(参见微球体检测导则，BangsLaboratories，Fishers Ind.)。就一些目标实验条件来说，微阵列允许同时监测给定样品的基因。可以通过将核酸样品机械沉积至固体基质上来制作微阵列。或者，可以手动沉积核酸样品。术语“DNA微阵列”可应用于几种不同的技术形式，各技术形式所应用的核酸类型及应用方法不同。

术语“分析标记”或“报告基因”是指可检测或‘跟踪’的基因。报告基因的表达可以RNA水平或蛋白水平测量。可在实验分析方案中检测基因产物，例如标记酶、抗原、氨基酸序列标记、细胞表型标记、核酸序列标记及其类似物。“报告基因”(或“报告子”)是一种基因，研究人员可将其附接至细胞培养物、细菌、动物或植物中的另一目标基因上。一些报告子是可选标记，或者赋予表达其的生物体以特征以使所述生物体容易被识别及测量。为将报告基因引入生物体中，研究人员将报告基因与目标基因置于待插入至细胞或生物体中的相同DNA构建体中。对于培养物中的细菌或真核细胞，此通常呈质粒形式。常用的报告基因可包括荧光蛋白、荧光素酶、β-半乳糖苷酶、及可选标记，例如氯霉素、及ccdB。

术语“cDNA”是指自成熟的mRNA模板合成的DNA。cDNA最常见地使用反转录酶自成熟的mRNA合成。所述酶作用于单一mRNA链上，基于RNA碱基对(A、U、G、C)与其DNA补体(T、A、C、G)成对而产生其互补DNA。有数种已知的产生cDNA以(例如)获得内含子已经剪接的真核cDNA的方法：a)真核细胞将DNA(来自基因)转录成RNA(前mRNA)；b)所述细胞通过剪接出内含子并添加多腺苷酸尾及5’甲基-鸟嘌呤帽来加工前mRNA链；c)自细胞提取此成熟mRNA链混合物；d)使多-T寡核苷酸引物杂交至成熟mRNA模板的多腺苷酸尾上。(反转录酶需要此双链区段作为引物来开始其运转。)；e)添加反转录酶与三磷酸脱氧核苷酸(A、T、G、C)；f)所述反转录酶扫描成熟的mRNA并合成补充mRNA模板的DNA序列。此DNA链是互补DNA。(也可参见Current Protocols in Molecular Biology，John Wiley & Sons)。

术语“克隆宿主细胞”是指含有克隆载体的宿主细胞。

术语“克隆载体”是指在宿主细胞中具有自主复制能力的DNA分子，例如质粒、粘粒、或噬菌体、或病毒，例如反转录病毒、腺病毒相关病毒、慢病毒、杆状病毒及腺病毒。克隆载体通常含有一个或少数几个限制性内切核酸酶识别位点，在所述位点上可以可确定方式插入外来DNA序列而不损失载体的基本生物功能，以及适宜用于识别及选择经克隆载体转化的细胞的可选标记基因。可选标记基因可包括提供四环素抗性、氨苄西林抗性或其它可观察到的特征的基因，例如ccdB基因。

术语“可检测标记”涵盖可选标记及分析标记二者。术语“可选标记”是指多种基因产物，可通过这些基因产物选择或筛选用表达构建体转化的细胞，包括药物抗性标记、用于荧光激活细胞分选术的抗原标记、黏着标记(例如允许选择性黏着的黏着配体的受体)及其类似物。当以合成方式制备或改变核酸时，可利用核酸欲表达于其中的预期宿主的已知密码子偏好。

术语“可检测反应”是指可在分析中检测到的任何信号或反应，所述分析可在有或无检测试剂下实施。可检测反应包括(但不限于)放射性衰变及能量(例如，荧光、紫外线、红外线、可见光)发射、吸收、偏振、荧光、磷光、透射、反射或共振转移。可检测反应还包括色谱迁移率、浊度、电泳迁移率、质谱、紫外光谱、红外光谱、核磁共振谱及x射线衍射。或者，可检测反应可以是测量生物物质的一种或多种性质的分析的结果，例如熔点、密度、传导性(conductivity)、表面声波、催化活性或元素组成。“检测试剂”是产生指示存在或不存在目标物质的可检测反应的任何分子。检测试剂包括多种分子中的任一种，例如抗体、核酸序列及酶。检测试剂可包含标记以有助于检测。

术语“DNA重组序列”是指可将DNA片段有效地转移跨过多个系统及转移至多个载体中的核酸序列。侧接重组位点的任一DNA片段均可转移至具有对应位点的任何载体中。方向及读码框以一定效率(通常为99％)得以保持，有效地避免了对于实施初始入门克隆(entry clone)后实施二次测序或亚克隆的需要。DNA片段的转移利用基于λ噬菌体的位点特异性重组而不是限制性内切核酸酶及连接酶来将目标基因插入至表达载体中。可使用DNA重组序列(例如，attL、attR、attB及attP)及酶混合物(例如，LR及BP克隆酶)来调介λ重组反应。将基因转移至目的载体中是通过两个步骤来完成：1)将目标基因克隆至入门载体(entry vector)中；及2)在体外将含有目标基因的入门克隆与合适的表达载体(目的载体)及酶混合物混合。att位点(attR xattL attB x attP)间的位点特异性重组产生表达克隆及副产物。所述表达克隆含有重组至目的载体骨架中的目标基因。在大肠杆菌中转化及选择后，表达克隆已准备就绪待用于在合适宿主中表达。所述基于λ的系统还称为

克隆系统(Invitrogen公司，Carlsbad，CA)。

术语“电穿孔”是指由外部施加电场引起的细胞质膜的导电性及渗透性的显著增加。其用作向细胞中引入一些物质的方式，例如向细胞中加载一段编码DNA、分子探针或药物。当横跨质膜的电压超过其介电强度时形成孔。如果所施加电场的强度和/或暴露于电场的持续时间选择适当，在较短时间后由电脉冲形成的孔会重新封闭，期间细胞外化合物有机会进入细胞中。然而，活细胞过多暴露于电场可能导致细胞死亡。利用电穿孔仪实施电穿孔，电穿孔仪是产生电流并将其输送通过细胞溶液(通常为细菌)的设备。将溶液吸取至玻璃或塑料小池中，所述小池的侧面上具有两个Al电极。例如，实施细菌电穿孔时，通常使用约50μl的悬浮液。在电穿孔之前，将其与待转化的质粒混合。将混合物吸取至小池中，设定电穿孔仪的电压(通常使用2,400伏特)，并将小池插入至电穿孔仪中并施加电流。在电穿孔后立即向细菌(在小池中或在微量离心管中)中添加1ml液体培养基，并将所述管在细菌的最适宜温度下培育1小时或更长时间，随后将其散布于琼脂板上(参见Ausubel，Current Protocols in Molecular Biology，Wiley)。

术语“等摩尔”是指在一升溶液中具有相等的摩尔浓度。

术语“表达系统”是指包括蛋白编码区的基因序列，所述蛋白编码区可操作地连接至表达蛋白编码区所需要的所有基因信号。传统上，表达系统包括调节元件(例如启动子或增强子)以增强蛋白编码区的转录和/或翻译、或控制表达。所述调节元件可以位于蛋白编码区的上游或下游，或者可以位于中断所述蛋白编码区的内含子(非编码部分)处。或者，蛋白编码区序列本身也可以具有调节能力。

术语“表达载体”是指包含在宿主细胞中表达的基因的DNA分子。通常，基因表达处于某些调节元件的控制下，所述调节元件包括启动子、组织特异性调节元件及增强子。可以说所述基因“可操作地连接至”调节元件。

术语“功能剪接受体”是指任一个别功能剪接受体或功能剪接受体共有序列，其允许本公开内容构建体加以处理，由此包括于任一成熟的生物活性mRNA中，条件是其在活性染色体基因座中是完整的，且作为染色体基因座的前信使RNA的邻接部分进行转录。

术语“归巢(homing)内切核酸酶”是指具有大的不对称识别位点(12-40个碱基对)及通常包埋于内含子或内含肽中的编码序列的双链DNA酶。剪接出前体RNA中的内含子，同时剪接出前体蛋白中的内含肽。使用与限制性内切核酸酶类似的公约对归巢内切核酸酶进行命名，其中内含子编码的内切核酸酶含有前缀“I-”且内含肽内切核酸酶含有前缀“PI-”。归巢内切核酸酶识别位点非常少。例如，在每一7x10¹⁰个碱基对的随机序列中18个碱基对的识别序列仅出现一次。此相当于在20个哺乳动物级基因组中仅有一个位点。然而，与标准限制性内切核酸酶不同，归巢内切核酸酶在其识别序列内允许一定的序列简并性。因此，其所观察到的序列特异性通常在10-12个碱基对范围内。归巢内切核酸酶不具有如限制酶那样严格界定的识别序列。换句话说，单碱基变化不会彻底破坏剪切，但会以可变的程度降低其效率。通常并不了解所需碱基的准确范围。

术语“宿主细胞”涵盖含有载体且优选地支持所述载体的复制和/或表达的任何细胞。宿主细胞可以是原核细胞(例如大肠杆菌)或真核细胞(例如酵母、昆虫、两栖动物或哺乳动物细胞)。本文所用的此术语意指任何细胞，其可以在培养物中或在活体内作为单细胞生物体的一部分、多细胞生物体的一部分、或为融合或工程细胞培养物。

术语“杂交”是指将互补的单链核酸组合成单一分子的过程。核苷酸在正常条件下会结合其补体，因此两条完全互补的链很容易彼此结合(或‘退火’)。然而，由于核苷酸的分子几何结构不同，两条链间的单一不一致将会造成其间的结合在能量方面更为不利。通过定量两条链的退火速率来测量碱基不相容性的效应可提供关于退火的两条链间的碱基序列相似性的信息。

术语“内部核糖体进入位点”(IRES)是指允许下游编码区或开放读码框与细胞质多聚核糖体附接以在不存在任何内部启动子下开始其翻译的元件。包括IRES以开始翻译可选标记蛋白编码序列。可以使用的适宜IRES的实例包括免疫球蛋白重链结合蛋白(BiP)的哺乳动物IRES。其它适宜的IRES来自小核糖核酸病毒(picomavirus)。例如，所述IRES包括来自脑心肌炎病毒(优选地核苷酸数量为163-746)、脊髓灰质炎病毒(优选地核苷酸数量为28-640)及口蹄疫病毒(优选地核苷酸数量为369-804)的IRES。因此，IRES位于小核糖核酸病毒的长5′非翻译区中，其可自其长病毒环境移至无关基因以产生多顺反子的mRNA。

术语“分离的”是指诸如核酸或蛋白等物质，其具有以下性质：(1)实质上或基本上不含在其天然存在环境中发现的通常伴随其或与其相互作用的组份。所述分离的物质任选地包含不与所述物质在其天然环境中一起发现的物质；或(2)如果所述物质存在于其天然环境中，则已通过故意的人类干预将所述物质以合成方式(非天然地)改变成组合物，和/或置于对于在所述环境中发现的物质来说非天然的细胞(例如，基因组或亚细胞器)中的位置中。可在物质的天然状态中或自其天然状态移出对所述物质实施改变以获得合成的物质。例如，如果借助在天然存在的核酸所源于的细胞内实施人类干预使天然存在的核酸改变，或者其自己经改变的DNA转录，则所述天然存在的核酸会变成分离的核酸。参见，例如，Compounds and Methods for SiteDirected Mutagenesis in Eukaryotic Cells，Kmiec，美国专利第5,565,350号；In Vivo Homologous Sequence Targeting in Eukaryotic Cells，Zarling等人，PCT/US93/03868。同样，如果通过非天然存在的方式将天然存在的核酸(例如，启动子)引入对于所述核酸来说非天然的基因组基因座中，所述天然存在的核酸会变成分离的核酸。本文所定义的“分离的”核酸也可以称为“异源”核酸。

涉及将核酸插入至细胞中时，术语“插入”或“引入”是指“转染”或“转化”或“转导”，且包括提及将核酸纳入于真核或原核细胞中，其中所述核酸可纳入于细胞基因组(例如，染色体、质粒、质体或线粒体DNA)中，转化成自主复制子或瞬时表达(例如，转染的mRNA)。

术语“标记”或“经标记的”是指通过例如将放射性标记的三磷酸核苷或放射性同位素纳入于可检测或测量的核酸中来纳入可检测标记或分子。各种标记核酸的方法已为所属领域的技术人员所了解(参见Short Protocols inMolecular Biology，第5版，John Wiley & Sons，2002)，而且可以使用。核酸标记的实例包括(但不限于)以下：放射性同位素(例如，³²P标记的NTP及dNTP；³⁵S标记的NTP及dNTP；³H；¹⁴C；¹²⁵I)、荧光团及荧光标记(例如，FITC；罗丹明；镧系元素磷光质；青色素(Cy3、Cy5)；荧光素；香豆素、SYBR Green)；及地高辛-11-dUTP。

术语“MA区段”还称为“MA序列”，是指在TAG质粒及其衍生物中位于TAG的下游及转录终止信号的上游的核苷酸序列。自单一实验中所研究的各种启动子合成的所有mRNA均含有相同的MA序列，互补引物可与其退火并开始合成第一条cDNA链以制备杂交探针。MA序列的长度通常为20-30个核苷酸，但可以更长，只要MA序列不含有诸如发夹环等任何二级结构，所述二级结构会阻碍有效的cDNA合成。MA序列由约50％GC构成，因此解链温度介于约70℃至约75℃范围内。在所有公布的核苷酸数据库中MA序列较独特，因此仅TAG-转录物可用作cDNA合成的模板。MA序列不含有任何在其它地方用于TAG质粒中以实施克隆的限制位点。其不能作为(或不含有)转录启动子或转录终止信号。

术语“混合”是指组合、接合、合并、联合、融合或连接至少两个不同的核苷酸序列，使其变成一个片段。

术语“多克隆位点”也称为“MCS”或“多位点接头(polylinker)”，是指含有许多(通常大于20个)由限制酶或其它内切核酸酶(例如归巢内切核酸酶)识别的位点的短的DNA区段。

术语“核酸”是指呈单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物，且除非另有限制，否则其涵盖具有天然核苷酸的基本性质(即以与天然存在的核苷酸(例如，肽核酸)类似的方式与单链核酸杂交)的已知类似物。

术语“核苷酸”是指由杂环碱基、糖及一个或多个磷酸基团组成的化学化合物。在最常见的核苷酸中，碱基是嘌呤或嘧啶的衍生物，且糖是戊糖脱氧核糖或核糖。核苷酸是核酸的单体，三个或更多个核苷酸键合在一起可形成核酸。核苷酸是RNA、DNA及数种辅因子：CoA、FAD、DMN、NAD及NADP的结构单元。嘌呤包括腺嘌呤(A)及鸟嘌呤(G)；嘧啶包括胞嘧啶(C)、胸腺嘧啶(T)及尿嘧啶(U)。

应用于细胞群体的术语“寡克隆”、“多克隆”表示一种细胞群体，其中所述群体内的一些细胞与所述群体的其余细胞在遗传学上不一致。相反地，术语“单克隆”或“单克隆细胞群体”表示所述群体内的所有细胞在遗传学上一致。在本公开内容上下文中，细胞群体的“遗传一致性”的差异是由向不同基因组插入位点随机整合反转录病毒而引起。

术语“可操作地连接”是指启动子与第二序列间的功能连接，其中所述启动子序列开始并调介对应于第二序列的DNA序列的转录。通常，可操作地连接意指所连接的核酸序列是邻接的，而且在需要连接两个蛋白编码区的情况下是邻接的且在相同读码框中。

术语“光密度”是指光学元件在给定波长下每一单位距离的吸光度。通常，在600nm波长下测量细菌培养物。

术语“聚合酶链反应”或“PCR”是指阐述于美国专利第4,683,195号中的程序，所述专利的揭示内容以引用方式并入本文中。

术语“聚核苷酸”是指脱氧核糖聚核苷酸、核糖聚核苷酸或其具有天然核糖核苷酸的基本性质的类似物，所述基本性质是指其在严格杂交条件下与和天然存在的核苷酸实质上相同的核苷酸序列杂交和/或能够翻译成与天然存在的核苷酸相同的氨基酸。聚核苷酸可以是天然或异源结构或调节基因的全长或子序列。除非另有说明，否则此术语包括提及指定序列以及其互补序列。因此，按照“聚核苷酸”在本文中的预期含义，出于稳定性或其它原因骨架经修饰的DNA或RNA是“聚核苷酸”。而且，按照本文所用的术语，包含稀有碱基(例如肌苷)或修饰碱基(例如三苯甲基化碱基)(这里仅举两个例子)的DNA或RNA是聚核苷酸。应了解，已对DNA及RNA实施多种修饰以达到所属领域的技术人员所习知的许多有用目的。本文所使用的术语聚核苷酸涵盖聚核苷酸的所述以化学方式、酶促方式或代谢方式经修饰的形式、以及具有病毒及细胞(尤其包括简单细胞及复杂细胞)的DNA及RNA特征的化学形式。

术语“多肽”、“肽”及“蛋白”在本文中可互换使用，其是指氨基酸残基的聚合物。这些术语适用于其中一个或多个氨基酸残基是对应天然存在氨基酸的人造化学类似物的氨基酸聚合物，也适用于天然存在的氨基酸聚合物。天然存在氨基酸的这些类似物的基本性质是，当纳入于蛋白中时，所述蛋白特异性地对由相同但全部由天然存在氨基酸组成的蛋白诱发的抗体具有反应性。术语“多肽”、“肽”及“蛋白”还包括修饰，包括(但不限于)糖基化、脂质附接、硫酸盐化、谷氨酸残基的γ-羧基化、羟基化及ADP-核糖基化。应了解，众所周知且如上文所述，多肽并非完全为线性。例如，多肽可因泛素化而具有支链，且其通常可因翻译后事件(包括天然处理事件及由人工操作引起的非天然发生事件)而为环状，可具有或无支链。环状、具支链及具支链环状多肽可通过非翻译天然过程以及通过完全人工合成方法来合成。

术语“引物”是指一种核酸，当与DNA链杂交时其能够在适宜聚合剂存在下开始延伸产物的合成。优选地，引物足够长以独特地与DNA链的特定区域杂交。引物还可用于RNA以例如合成第一条cDNA链。

术语“启动子”是指位于转录起点的上游、下游或远端且参与RNA聚合酶及其它蛋白的识别及结合以开始转录的DNA区域。例如，T7、T3及Sp6是RNA聚合酶启动子序列。在RNA合成中，启动子是划分哪种基因应该用于产生信使RNA且甚至于控制细胞产生何种蛋白的一种手段。启动子是重要元件，其可与其它调节区(增强子、沉默子、边界元件/绝缘子)协力起作用来指导给定基因的转录水平。

术语“启动子序列候选物”是指含有推定的启动子序列的核苷酸序列。启动子序列候选物可以由计算机预测模型、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等提供。

术语“无启动子(promoterless)”是指包含于载体、反转录病毒、腺病毒、腺病毒相关病毒或反转录病毒原病毒中的在载体内不直接地或明显地处于启动子控制下的蛋白编码序列，其呈RNA或DNA形式。载体、质粒、病毒或其它可含有启动子，但所述启动子不能经定位或构造而直接地或明显地调节无启动子蛋白编码序列的表达。

术语“蛋白编码序列”是指编码多肽基因的核苷酸序列，其可用以区分表达多肽基因的细胞与不表达多肽基因的细胞。蛋白编码序列包括通常作为可选标记提及者。蛋白编码序列的实例包括编码细胞表面抗原的序列及编码酶的序列。蛋白编码序列的代表性列示包括胸苷激酶、β-半乳糖苷酶、色氨酸合成酶、新霉素(neomycin)磷酸转移酶、组氨醇脱氢酶、荧光素酶、氯霉素乙酰基转移酶、二氢叶酸还原酶(DHFR)；次黄嘌呤-鸟嘌呤磷酸核糖基转移酶(HGPRT)、CD4、CD8及潮霉素(hygromycin)磷酸转移酶(HYGRO)。

术语“重组体”是指通过引入异源核酸或源自经如此修饰的细胞的而被修饰的细胞或载体。因此，例如，重组细胞所表达的基因与天然(非重组)形式细胞中发现的基因具有不同形式，或者由于故意的人类干预而导致所表达的天然基因以另外的方式异常表达、表达不足或根本不表达。本文所用的术语“重组体”不涵盖通过天然存在的事件(例如，自发突变、天然转化转导/转座)、例如在没有故意的人类干预下发生的事件引起的细胞或载体的改变。

术语“重组表达盒”是指以重组方式或以合成方式产生的核酸构建体，其含有一系列特定的允许特定核酸在宿主细胞中转录的核酸元件。可以将重组表达盒纳入于质粒、染色体、线粒体DNA、病毒或核酸片段中。通常，表达载体的重组表达盒部分包括待转录的核酸、启动子及转录终止信号(例如多腺苷酸化信号)连同其它序列。

术语“重组宿主”是指含有克隆载体或表达载体的任一原核或真核细胞。此术语还包括实施基因工程以在宿主细胞的染色体或基因组中含有克隆基因或目标基因的原核或真核细胞。

术语“调节序列”(也称为调节区或调节元件)是指启动子、增强子或诸如转录因子等调节蛋白优先结合的其它DNA区段。其控制基因的表达且因此控制蛋白的表达。

术语“报告细胞系”是指含有报告子或分析标记的原核或真核细胞。

术语“限制酶切消化”是指用以制备用于分析或其它处理的DNA的程序。其还称为DNA片段化，其使用限制酶将DNA链选择性地裂解成较短的区段。

术语“限制酶”(或限制性内切核酸酶)是指剪切双链DNA的酶。所述酶产生两种剪切，一种通过双螺旋的每一磷酸骨架且不破坏碱基。限制酶在生物化学上分为四类，称为I型、II型、III型及IV型。在I型及III型系统中，甲基酶及限制酶活性均通过单一的较大的酶复合物来实施。尽管这些酶识别特定的DNA序列，但实际裂解位点与这些识别位点间的距离可能变化，且可能相距数百个碱基。其正常功能均需要ATP。在II型系统中，限制酶不依赖于其甲基酶，且裂解发生在识别序列内或接近识别序列的非常具体的位点处。按照II型酶的识别位点进一步对其进行分类。大多数II型酶剪切回文DNA序列，而IIa型酶识别非回文序列且在识别位点之外裂解。IIb型酶在识别序列之外的两个位点处剪切序列两次。在IV型系统中，限制酶仅靶向甲基化的DNA。

术语“限制位点”或“限制识别位点”是指由限制酶识别作为剪切DNA分子的位点的特定核苷酸序列。所述位点通常(但不一定)回文(因为限制酶通常以同二聚体形式结合)，而且一种特定酶可在位于其识别位点内或附近某处的两个核苷酸之间实施剪切。

术语“反转录”或“反转录聚合酶链反应”(RT-PCR)是指对核糖核酸(RNA)分子的界定的一段进行扩增。首先将RNA链反转录成其DNA补体或互补DNA，随后利用聚合酶链反应来扩增所得的DNA。

术语“可选标记”是指引入至细胞(尤其为细菌或培养物中的细胞)中以赋予细胞适用于人工选择的特性的基因。他们是在实验室微生物学、分子生物学及基因工程中用以指示打算将外来DNA引入至细胞中的转染或其它程序是否成功的一类报告基因。例如，基因功能分析通常需要形成含有呈稳定整合形式的所研究基因的细胞。在一些情况下，少数细胞可稳定整合DNA，因此使用显性可选标记以允许分离稳定的转染子。可选标记可包括：抗生素(氨苄西林)及‘自杀’基因(例如ccdB)。阳性选择标记可以使用：腺苷脱氨酶(胸苷、次黄嘌呤、9-β-D-呋喃木糖基腺嘌呤、2’-脱氧助间型霉素)、氨基糖苷磷酸转移酶(新霉素、G418、庆大霉素、卡那霉素)、博来霉素(博来霉素、腐草霉素、硫酸博来霉素(zeocin))、胞嘧啶脱氨酶(N-(膦酰基乙酰基)-L-天冬氨酸、肌苷、胞嘧啶)；二氢叶酸还原酶(氨甲喋呤、氨基喋呤)；组氨醇脱氢酶(组氨醇)；潮霉素-B-磷酸转移酶(潮霉素-B)；嘌呤霉素-N-乙酰基转移酶(嘌呤霉素)；胸苷激酶(次黄嘌呤、氨基喋呤、胸苷、甘氨酸)；及黄嘌呤-鸟嘌呤磷酸核糖基转移酶(黄嘌呤、次黄嘌呤、胸苷、氨基喋呤、霉酚酸、L-谷氨酰胺)。阴性可选标记可以使用：胞嘧啶脱氨酶(5-氟胞嘧啶)；白喉毒素；ccdB及HSV-TK。

术语“选择性杂交”是指在严格杂交条件下核酸序列与特定核酸靶标序列的杂交，此杂交比核酸序列与非靶标核酸序列的杂交强度高且强度差值可检测(例如，比背景至少高2倍)，实质上排除了非靶标核酸。选择性杂交序列通常彼此具有约至少80％的序列一致性，优选90％的序列一致性，且最优选100％的序列一致性(即，互补)。

术语“正义”是用于比较核酸分子与其它核酸分子的极性的一般概念。通常，如果DNA序列与翻译成蛋白的信使RNA拷贝的序列相同，则所述DNA序列称为“正义”。相反链上的序列与正义序列互补，且因此称为“反义”序列。

术语“TAG”是指由随机核苷酸构成的DNA序列，其中各位置具有四种脱氧核苷酸(A、C、T及G)中的任一种的概率相等。其它碱基，诸如肌苷、尿嘧啶、5-甲基胞嘧啶、8-氮鸟嘌呤、2，6-二氨基嘌呤、5-溴尿嘧啶及其它衍生物，可以其核苷酸形式纳入于序列中。TAG序列的长度短，优选地约16bp至约200bp，更优选地约20bp至约150bp，更优选地约30bp至约120bp，更优选地约40bp至约100bp，更优选地约50bp至约75bp，且最优选地约60bp。各序列优选地足够不同或独特以避免当寡核苷酸以单链形式存在时有时彼此退火。另外，所述序列不应自我互补，以避免在扩增期间形成引物-二聚体。在多个TAG序列中，各TAG序列具有大致同等量的核苷酸A、T、G及C，由此各TAG序列具有彼此大致相同的解链温度。相同解链温度允许通过在相同温度及离子强度条件下杂交来公正地定量各含有不同TAG序列的各种mRNA。在多个TAG序列中，各个TAG序列的核苷酸序列相对于多个序列中的各个TAG而言是独特的。

术语“转录终止信号”是指标明基因组DNA上基因或操纵子的转录终点的一段基因序列。已知在原核生物中存在两种转录终止信号：1)内在转录终止信号，这种情况下在初生转录物内形成发夹结构，以破坏mRNA-DNA-RNA聚合酶三元复合物；及2)Rho依赖性转录终止信号，其需要Rho因子(一种RNA解旋酶蛋白复合物)来破坏初生的mRNA-DNA-RNA聚合酶三元复合物。在真核生物中，转录终止信号由蛋白因子识别，所述因子以共转录方式裂解多腺苷酸化信号(polyadenlyationsignal)(即，“多腺苷酸化信号(poly-A signal)”或“多腺苷酸尾”)处的初生RNA以阻止RNA聚合酶进一步延长转录物。随后在此位点添加多腺苷酸尾以稳定mRNA并使其能够输出到细胞核外面。终止序列不同于终止密码子，所述终止密码子在mRNA中出现而且是翻译的终止信号，其还可称为无义密码子。

术语“翻译终止序列”是指编码翻译终止密码子的序列。在一些实施方式中，翻译终止序列可位于一个、两个或三个读码框中。

术语“转染”是指将外来DNA引入至真核细胞或原核细胞中。转染通常涉及打开细胞中的瞬时孔以允许细胞外分子进入，所述细胞外分子通常为超螺旋质粒DNA，还可以是siRNA以及其它。有多种转染细胞的方法。一种方法使用磷酸钙。将含有磷酸根离子的HEPES缓冲盐水溶液与含有待转染DNA的氯化钙溶液混合。当混合所述两种溶液时，会形成微细的磷酸钙沉淀，待转染DNA结合至其表面上。随后将沉淀悬浮液添加至待转染的细胞中。细胞吸收沉淀及DNA。或者，可以使用MgCl₂或RbCl。其它转染方法包括电穿孔、热激、专利转染剂、树枝状聚合物(dendrimer)以及使用脂质体。脂质体是小的膜结合体，其与细胞膜融合而将DNA释放至细胞中。对于真核细胞，通常利用基于脂质-阳离子的转染。其它转染方法包括使用基因枪和病毒。为达到稳定转染可将另一基因共转染，所述另一基因给予细胞一些选择优势，例如对某一毒素的抗性。如果随后将毒素(共转染基因赋予对其的抗性)添加至细胞培养物中，则仅基因组中插入外来基因的细胞能够增殖，而其它细胞将死亡。在施加此选择压力一段时间后，仅具有稳定转染的细胞保留下来且可进一步实施培养。常用于稳定转染的试剂是遗传霉素(Geneticin)，也称为G418，其是能够被新霉素抗性基因的产物中和的毒素(参见Bacchetti及Graham.Transfer of the gene for thymidine kinase to thymidinekinase-deficient human cells by purified herpes simplex viral DNA.1977.Proc.Natl.Acad.Sci.USA 74(4)：1590-94)。常规瞬时转染分析可纳入内部对照，例如pRL-SV40(Promega公司)，且可与任一实验报告载体组合使用来共转染哺乳动物细胞。

术语“转化”是指由引入、吸收及表达外来遗传物质(DNA或RNA)而造成的细胞的遗传改变。在细菌中，转化是指由吸收及表达DNA而引起的遗传改变，且“感受态”是指能够吸收DNA的状态。感受态细胞可通过实验室程序产生，其中利用通常非天然存在的条件将细胞被动地弄得可透过DNA，因此经处理可接受外来DNA的细胞称为“感受态细胞”。所述程序相当容易而且简单，且可用于对细菌实施基因工程改造。所述程序可包括在二价阳离子(例如CaCl₂)存在下冷却细胞，此为使细胞壁变得可透过质粒DNA作准备。将细胞与DNA一起培育，并随后短暂热激(例如，在42℃下30-120秒)，以使DNA进入细胞。此方法对于环状质粒DNA非常起作用。电穿孔是使DNA进入细胞的另一种方式，且涉及用100-200V的电场短暂电击细胞。质粒DNA经由细胞膜中由电击产生的孔进入细胞；天然膜修复机制随后使这些孔封闭。可通过以下方法来转化酵母：例如，高效转化(参见Gietz，R.D.及R.A.Woods.2002 Transformation of Yeast by the Liac/SSCarrier DNA/PEG Method.Methods in Enzymology 350：87-96)；双杂交系统方案(参见Gietz，R.D.，B.Triggs-Raine，A.Robbins，K.C.Graham及R.A.Woods.1997 Identification of proteins that interact with a protein of interest：Applications of the yeast two-hybrid system.Mol Cell Biochem 172：67-79)；及快速转化方案(参见Gietz，R.D.及R.A.Woods.2002 Transformation of Yeastby the Liac/SS Carrier DNA/PEG Method.Methods in Enzymology 350：87-96)。

术语“载体”是指在宿主细胞的转染中使用的核酸且其中可插入聚核苷酸。载体通常是复制子。表达载体能够使其中所插入的核酸转录。一些常见载体包括质粒、粘粒、病毒、噬菌体、重组表达盒及转座子。术语“载体”还可以指有助于将基因自一个位置转移至另一位置的元件。载体可包括表达载体和克隆载体。

使用下列术语来描述两种或更多种核酸或聚核苷酸之间的序列关系：(a)“参考序列”，(b)“比较窗口”，(c)“序列一致性”，(d)“序列一致性百分比”和(e)“实质上一致”。术语“参考序列”是指用作序列比较的基准的序列。参考序列可以是指定序列的亚型或整体；例如，作为全长cDNA或基因序列的一个区段或完整的cDNA或基因序列。

术语“比较窗口”是指聚核苷酸序列的邻接且指定区段，其中可将所述聚核苷酸序列与参考序列进行比较，且其中比较窗口内的所述聚核苷酸序列部分与参考序列(不包含添加或缺失)相比可以包含添加或缺失(即，空位)以对两个序列进行最佳比对。通常，比较窗口的长度为至少20个邻接核苷酸，并且任选地可以为30个、40个、50个、100个邻接核苷酸或更长。所属领域的技术人员应了解，为避免由于在聚核苷酸序列中包含空位而引起的与参考序列的高度相似性，通常引入空位罚分并将其从匹配数目中减去。

所有TAG应与在同一分析中使用的其它TAG没有同源性。视制备探针的方法而定，TAG与已知核酸序列的同源性可以接受。例如，如果探针是通过用例如多腺苷酸聚合酶直接标记mRNA来制备(参见，例如，Aviv及Leder，Proc Natl Acad Sci U S A.1972年6月；69(6)：1408-12)，则含有TAG的mRNA、内源mRNA及可能地tRNA、及rRNA也可以进行标记。由所述后面的RNA实施杂交可能干扰探针的检测。所述TAG应与转录成RNA(包括mRNA、tRNA、rRNA等)的任一已知序列不具有同源性。如果探针是通过标记第一条cDNA链来制备，则有两种可能性：1)如果寡(dT)用作引物，则对自mRNA合成的所有第一条cDNA链进行标记，包括含有TAG的mRNA及内源mRNA。所述后面的cDNA可能干扰探针的检测，因此TAG应与转录成RNA的任一已知序列不具有同源性；及2)如果寡(dT)+锚定物用作引物“B”(其中所述锚定物是对应于mRNA的3’端的一段较短的核苷酸序列，随后紧接多腺苷酸)，则仅对自以与TAG构建体所用转录终止信号相同或相似的转录终止信号结束的mRNA合成的cDNA进行标记。因此，如果由寡(dT)-锚定引物识别一种特定的内源mRNA，所述特定的mRNA会干扰探针的检测，所以TAG应与所述特定的mRNA不具有同源性。如果探针是通过PCR来制备，则除上文所述的关于第一条cDNA链的合成的同源性考虑外，还有两种考虑。第一，使用对应于位于TAG的5’端的为所有TAG-mRNA所共有的区域的引物(A)对第一条cDNA链实施线性扩增。当载体(质粒或病毒DNA)(探针可自其制备)被移除且用于第一条cDNA链合成的引物B也被移除时，此情况可能出现。因此，如果第一条cDNA链是使用寡(dT)作为引物来合成，则TAG不能与转录成mRNA且与引物A具有序列一致性的任一已知序列具有同源性，而且如果第一条cDNA链是使用寡(dT)-锚定物作为引物来合成，则TAG不能与转录成mRNA且与3’端(与TAG-mRNA一样)及引物A具有序列一致性的任一已知序列具有同源性。第二，使用引物(A)及基于寡(dT)的引物对第一条cDNA链实施指数扩增。在这种情况下，反义链可以用作探针，而且使用正义链寡核苷酸来印刷分析膜，由此所述载体不必如上所述被移除。因此，有时，我们可以使用含有在数据库其它地方发现的序列的TAG。不管使用何种方法来合成探针，特定TAG应与同时用于同一分析中的任一其它TAG及在探针合成期间将被标记的任一DNA或RNA分子不具有序列同源性。

用于比较的序列比对方法已为所属领域的技术人员所熟知。用于比较的最佳序列比对可通过以下方法来实施：局部同源性算法，Smith及Waterman，Adv.Appl.Math.2：482(1981)；同源性比对算法，Needleman及Wunsch，J.Mol.Biol.48：443(1970)；检索相似性方法，Pearson及Lipman，Proc.Natl.Acad.Sci.85：2444(1988)；这些算法的计算机化手段，包括(但不限于)：PC/基因程序中的CLUSTAL，Intelligenetics，Mountain View，Calif.；Wisconsin基因软件包中的GAP、BESTFIT、BLAST、FASTA及TFASTA，GeneticsComputer Group(GCG)，575 Science Dr.，Madison，Wis.，USA；CLUSTAL程序由Higgins及Sharp，Gene 73：237-244(1988)；Higgins及Sharp，CABIOS5：151-153(1989)；Corpet等人，Nucleic Acids Research 16：10881-90(1988)；Huang等人，Computer Applications in the Biosciences 8：155-65(1992)；及Pearson等人，Methods in Molecular Biology 24：307-331(1994)详细描述。可用于数据库相似性检索的BLAST家族程序包括：BLASTN，对核苷酸查询序列与核苷酸数据库序列的相似性进行检索；BLASTX，对核苷酸查询序列与蛋白数据库序列的相似性进行检索；BLASTP，对蛋白查询序列与蛋白数据库序列的相似性进行检索；TBLASTN，对蛋白查询序列与核苷酸数据库序列的相似性进行检索；及TBLASTX，对核苷酸查询序列与核苷酸数据库序列的相似性进行检索。参见，Current Protocols in Molecular Biology，第19章，Ausubel等人编辑，Greene Publishing and Wiley-Interscience，纽约(1995)。

除非另有说明，否则本文所提供的序列一致性/相似性数值是指使用BLAST 2.0程序套件使用缺省参数所获得的数值。Altschul等人，NucleicAcids Res.25：3389-3402(1997)。进行BLAST分析的软件可通过例如国家生物技术信息中心(http://www.hcbi.nlm.nih.gov/)公开获得。所述算法首先涉及通过识别查询序列中的代码长度缩写W来识别高分值序列对(HSP)，当代码与一个数据库序列中具有相同长度的代码进行比对时，它将与某一正阈值分值T相匹配或满足其条件。T指的是相邻代码分值阈值(Altschul等人，见上文)。这些初始相邻重复代码将作为引子，以启动发现含有它们的更长HSP的检索。随后将重复代码沿每一序列的两个方向延伸，尽量能够使累积比对分值增加。对于核苷酸序列，使用参数M(一对匹配残基奖励分值；始终大于0)及N(错配残基罚分；始终小于0)来计算累积分值。对于氨基酸序列，使用评分矩阵来计算累积分值。在以下情况下停止各方向上的重复代码延伸：累积比对分值自其最大达成值降低数量X；由于一个或多个负分值残基比对积累而导致累积分值变成零或小于零；或任一序列到达端点。BLAST算法的参数W、T及X决定比对的灵敏度及速度。BLASTN程序(用于核苷酸序列)使用的缺省值为：代码长度(W)为11，期望值(E)为10，截止值为100，M＝5，N＝-4，以及两条链的一个比较值。对于氨基酸序列，BLASTP程序使用的缺省值为：代码长度(W)为3，期望值(E)为10，及BLOSUM62评分矩阵(参见Henikoff & Henikoff(1989)Proc.Natl.Acad.Sci.USA 89：10915)。

除计算序列一致性百分比外，BLAST算法也对两个序列之间的相似性进行统计学分析(参见，例如，Karlin及Altschul，Proc.Natl.Acad.Sci.USA90：5873-5787(1993))。BLAST算法提供的一种相似性度量标准是最小和概率(P(N))，其表示两个核苷酸或氨基酸序列之间偶然发生匹配的概率。BLAST检索假定蛋白可作为随机序列来建模。然而，许多实际的蛋白包含非随机序列区域，其可能是均聚体段、短周期重复或富集一种或多种氨基酸的区域。所述低复杂度区域可在不相关蛋白间进行比对，即使其它蛋白区域完全不同。可使用多种低复杂度过滤程序来减少所述低复杂度比对。例如，SEG(Wooten及Federhen，Comput.Chem.，17：149-163(1993))及XNU(Claverie及States，Comput.Chem.，17：191-201(1993))低复杂度过滤程序可单独或组合使用。当涉及两个核酸或多肽序列时，本文所用的“序列一致性”或“一致性”是指在指定的比较窗口内进行最大对应性比对时这两个序列中相同的残基。应认识到，当序列一致性百分比用于蛋白时，不一致的残基位置经常由于保守氨基酸取代而有所不同，其中氨基酸残基由具有相似化学性质(例如电荷或疏水性)的其它氨基酸残基所取代，因此不会改变分子的功能特性。当序列在保守取代上存在差别时，可向上调节序列一致性百分比以校正取代的保守性质。因所述保守取代而不同的序列被称为具有“序列相似性”或“相似性”。进行这种调整的手段已为所属领域的技术人员所熟知。通常，这涉及将保守取代作为部分而非完全错配来进行评分，由此使序列一致性百分比增加。这样，例如，当相同氨基酸的分值为1而非保守取代的分值为0时，保守取代的分值在0和1之间。例如，根据Meyers和Miller的算法(Computer Applic.Biol.Sci.，4：11-17(1988))计算保守取代的分值，例如，在程序PC/GENE(Intelligenetics，Mountain View，Calif.，USA)中完成计算。

本文所用的“序列一致性百分比”意指通过在比较窗口内比较两个最佳比对序列而确定的数值，其中比较窗口内的聚核苷酸序列部分与参考序列(其不包含添加和缺失)相比可以包含添加和缺失(即，空位)以对两个序列进行最佳比对。通过下列步骤来计算百分比：测定两个序列中相同核酸碱基或氨基酸残基出现的位置数量以得到匹配位置的数量，将匹配位置的数量除以比较窗口中位置的总数，并且将所得结果乘以100，便可得到序列一致性百分比。术语聚核苷酸序列的“实质上一致”意指使用利用标准参数描述的比对程序之一进行比较，聚核苷酸包含的序列与参考序列相比具有至少70％的序列一致性，优选为至少80％，更优选为至少90％且最优选为至少95％。所属领域的技术人员应认识到，通过计及密码简并、氨基酸相似性、读码框定位及其类似问题，这些数值可以适当地调整以确定由两个核苷酸序列编码的对应蛋白的一致性。就此而言，氨基酸序列的实质上一致通常表示序列一致性至少为60％，或优选为至少70％、80％、90％，且最优选为至少95％。核苷酸序列实质上一致的另一标志是两种分子在严格条件下互相杂交。然而，如果在严格条件下互不杂交的核酸编码的多肽实质上一致，则这些核酸仍然实质上一致。当(例如)核酸的拷贝是利用遗传密码所允许的最大密码简并产生时，可能出现此种情况。两个核酸序列实质上一致的一个标志是，由第一个核酸所编码的多肽可与由第二个核酸所编码的多肽发生免疫学交叉反应。当涉及肽时，术语“实质上一致”表示肽包含在指定的比较窗口内与参考序列具有至少70％的序列一致性、优选为80％、更优选为85％、最优选为与参考序列具有至少90％或95％的序列一致性的序列。任选地，使用Needleman及Wunsch，J.Mol.Biol.48：443(1970)的同源比对算法来进行最佳比对。两个肽序列实质上一致的一个标志是，一个肽可与所产生的对抗第二个肽的抗体发生免疫学反应。因此，例如，当两个肽的差别仅在于保守取代时，则一个肽与第二个肽实质上一致。除了不一致的残基位置可能因保守氨基酸改变而有所不同外，“实质上相似”的肽均如上所述具有相同序列。

提取RNA的方法已为所属领域的技术人员所熟知，且阐述于(例如)J.Sambrook等人，“Molecular Cloning：A Laboratory Manual”(Cold SpringHarbor Laboratory Press，Cold Spring Harbor，N.Y.，1989)，第1卷，第7章，“Extraction，Purification，and Analysis of Messenger RNA from EukaryoticCells”，此文献以引用方式并入本文中。也熟知其它分离及提取方法，例如F.Ausubel等人，“Current Protocols in Molecular Biology，John Wiley & Sons。通常，在诸如氯化胍或硫氰酸胍等离液剂存在下实施分离，但是或者可以使用其他洗涤剂及提取剂。通常，通过在具有结合mRNA分子的多腺苷酸化3′-部分的能力的寡(dT)-纤维素或其它色谱介质上实施色谱自总提取RNA分离mRNA。或者，但不优选，可使用总RNA。然而，通常优选分离多腺苷酸化RNA。

所述方法利用几个基本步骤来达成其目标。第一，设计DNA TAG文库。DNA TAG序列由随机核苷酸构成。在长度为约60bp的一个实施方式中，各DNA TAG序列在多个TAG序列中是独特的，即，特定TAG与同时用于同一分析中的任何其它TAG不具有序列同源性，而且不管使用何种方法来合成探针，特定TAG与在探针合成期间将被标记的任何DNA或RNA分子也不具有序列同源性。所述TAG序列具有相似的物理性质，因此可使用多个TAG序列在相似条件下进行杂交。第二，构建pTAG-基本质粒。第三，将TAG序列插入至pTAG-基本质粒中。第四，制备启动子阵列膜。第五，将启动子序列候选物插入至pTAG质粒中。第六，将含有启动子序列候选物插入片段的pTAG质粒转染至宿主细胞中，并提取RNA。随后对RNA或源自所提取的RNA的所得cDNA进行标记，与启动子阵列膜杂交，并实施分析。因此，本公开内容揭示用于启动子检测及分析的基于阵列的方法。所述方法提供转录产物，所述转录产物在其合成时被加以标签，以使一种特定转录物仅由一种类型的TAG标记，且一种TAG仅标记一种类型的转录物。所有启动子序列候选物均在一个反应小瓶中同时进行分析。在常规阵列上分析转录输出。

附图简单说明

图1.基于阵列的启动子检测及分析的流程图

图2.手动(左侧)或使用自动装置(右侧)使用反向链TAG寡核苷酸集合来点渍BrightStar-Plus膜。

图3A及3B.在单一HEK 293细胞群体中对42种启动子的活性进行比较分析。将42种启动子-TAG质粒与8种无启动子TAG-报告质粒以等摩尔量混合，并转染至相同的细胞群体中。转染后14小时提取总RNA。使用线性扩增方法来标记RNA，并将生物素标记的探针杂交于TAG-点渍膜上(图3A)。通过化学发光展现杂交，并通过光密度测定法进行定量(图3B)。通过手动以对角线成对形式点渍各寡核苷酸来制备宏阵列膜。

图4A及4B.在单一细胞群体中比较92种启动子的转录活性。将92种启动子-TAG质粒与8种无启动子TAG-报告质粒以等摩尔量混合，并转染至相同的细胞群体中。转染后14小时提取总RNA。使用线性扩增方法来标记RNA，并将生物素标记的探针杂交于TAG-点渍膜上(图4A)。通过化学发光展现杂交，并通过光密度测定法进行定量(普通棒(plain bars))(图4B)。自先前已公布的工作获得各质粒构建体获得的相对荧光素酶活性，并在底部(空心棒)显示(图4B)。图底部的数字是表1中所述启动子的标号。使用各种OM启动子(#59-73)、防卫素(defensin)启动子(#74-85)及Coleman(Coleman，S.等人，Experimental analysis of the annotation ofpromoters in the public database.Hum.Mol.Genet.，2002.11(16)：1817-1821)所研究的其它启动子获得的荧光素酶数据是在不同实验条件下产生，彼此之间不应进行比较。通过使用University of Idaho Environmental BiotechnologyInstitute(Moscow，ID)的微阵列机构的Biorobotics MicroGrid阵列自动点渍装置(Genomic Solutions，Ann Arbor，MI)一式四份点渍各寡核苷酸来制备宏阵列膜。

图5A及5B.使用一系列35种启动子-TAG质粒来验证所述启动子检测方法。通过使放射性TAG-cDNA探针与点渍有互补TAG链的膜杂交来获得放射自显影图(图5A)。由放射自显影图左侧的数字及条形图(图5B)底部的数字来标识斑点。所述条形图概述各个斑点相对于使用CMV启动子所获得的信号(＝100)的强度。

图6。构建pTAG报告质粒的流程图。

图7。pTAG基本载体的质粒图。

表1。实施例中所使用的100种启动子序列的名单。描述各种启动子的符号、长度、及Refseq或GenBank登录号。也指明与其相关的TAG识别号。

实施方式

本公开内容提供用于检测及分析DNA启动子序列的方法。图1提供概括的流程图。本公开内容提供含有可能的DNA启动子序列候选物的载体文库的构建，所述DNA启动子序列候选物可能存在于(例如)核苷酸序列集合(例如基因组文库)中、由计算机预测的启动子区域中、或所研究启动子的缺失突变体中等。产生的各克隆可能驱动由非常确定的约60-bp长的DNATAG(由随机核苷酸构成)构成的独特报告基因的转录。通过集中等摩尔量的载体并将其转染至目标细胞系中来分析各个构建体的转录特性。提取RNA、合成cDNA并直接或间接进行标记，并通过与排列于膜、玻璃或珠粒支撑体上的DNA TAG杂交予以定量(概括的示意图参见图1)。适宜珠粒组合物可包括用于肽、核酸和有机部分合成的组合物，包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸系聚合物、顺磁性材料、氧化钍溶胶、碳石墨、二氧化钛、胶乳或交联葡聚糖(例如琼脂糖)、纤维素、尼龙、交联微胶粒及特富龙，所有均可使用(参见微球体检测导则(Microsphere Detection Guide)，Bangs Laboratories，Fishers Ind.)。

现将更详细地描述本公开内容的设计、操作及应用。

1.设计将由推定的DNA启动子序列转录的DNA TAG的文库。

所述TAG DNA序列是由随机核苷酸构成的DNA序列，其中各位置具有四种脱氧核苷酸(A、C、T及G)中的任一种的概率相等。诸如肌苷、尿嘧啶、5-甲基胞嘧啶、8-氮鸟嘌呤、2，6-二氨基嘌呤、5-溴尿嘧啶及其它衍生物等其它碱基可以其核苷酸形式纳入于寡核苷酸中。TAG序列的长度较短，优选地为约16bp至约200bp，尽管可使用较短或较长的长度，但通常为约60bp。在多个TAG序列中，各TAG序列具有大致同等量的核苷酸A、T、G及C，由此各TAG序列具有与其他TAG序列大致相同的解链温度。相同解链温度允许通过在相同温度及离子强度条件下杂交来公正地定量各种mRNA。在多个TAG序列中，各个TAG序列的核苷酸序列在多个TAG中是独特的。不管使用何种方法来合成探针，各TAG与同时用于同一分析中的任一其它TAG及在探针合成期间将被标记的任一DNA或RNA分子不具有序列同源性。具有60bp长的随机核苷酸的TAG序列能够产生大量独特的非常不可能在自然界中发现的TAG。另外，较长的TAG(例如，60bp)允许使用足够高以阻止与部分同源序列的非特异性杂交的杂交温度(例如，70℃)。在多个TAG中将GC含量及因此解链温度标准化以确保所有TAG探针使用相同的杂交条件。为使交叉杂交最小化且获得最高特异性，选择的所有寡核苷酸应具有不长于六个(6)碱基的最小长度的序列一致性。不允许存在具有多于四个(4)相同核苷酸序列段的低复杂度序列，由此避免在序列相似性检索中造成困难。产生TAG序列后，确认序列自身中不存在同源性。在一些实施方式中，可针对寄存于公开数据库(例如GenBank、EMBL、DDBJ及PDB)中的序列使用NCBI BLASTN来检查TAG序列，以助于确定是否存在无意结合。通常通过标准化学技术(包括自动化合成)来合成呈单链形式的寡核苷酸。已描述许多用于合成含有随机碱基的寡核苷酸的方法。例如，可通过在自动化程序期间在线混合或使用预混合的亚磷酰胺前体来获得随机位置(参见，Ausbel等人，Current Protocols in Molecular Biology，GreenPublishing，N.Y.，1995)。随后将寡核苷酸去保护，并且可通过以下方法进行纯化：用乙醇沉淀、使用尺寸排阻或反相管柱的色谱、变性聚丙烯酰胺凝胶电泳、高压液相色谱(HPLC)或其它适宜方法。

2.构建TAG-质粒

自pTAG-基本获得TAG质粒(图7)。此质粒纳入一对SfiI位点，其产生两种不同的3个核苷酸长的适宜用于定向插入TAG寡核苷酸的不对称粘性末端。所述质粒还纳入编码荧火虫荧光素酶(luc+)的经修饰cDNA。所述1650bp cDNA是使用限制酶NcoI及XbaI自市售的pGL3切下。野生型编码区已经修饰，以除去基因调节蛋白识别的共有序列，由此帮助确保此报告基因不受假的宿主转录信号影响。所述质粒还纳入97bp长的α-珠蛋白3’UTR。α-珠蛋白mRNA的高水平稳定性(半衰期为24小时至60小时)归因于其3’UTR中富含C的顺式元件，蛋白复合物与其结合而使mRNA稳定。此蛋白复合物自小鼠至人类高度保守，而且在广谱组织及细胞系中发现。此序列足以提高荧光素酶mRNA的稳定性，半衰期为7小时。所述质粒还纳入SV40多腺苷酸化信号以有效地多腺苷酸化荧光素酶转录物，由此使稳态mRNA水平提高直至五倍。所述质粒还纳入来自pUC19的高拷贝数的复制起点，但是或者可含有低拷贝数的复制起点，例如pBR322 ColE1 ori/rop(每个染色体15-20个拷贝)、pACYC177 p15A ori(每个染色体10-12个拷贝)或CopyControl系统(每个染色体1、10-50个拷贝)。另外，所述质粒还纳入用于选择大肠杆菌中的pTAG衍生物的氨苄西林及卡那霉素抗性基因、用于通过重组使用Gateway系统插入启动子序列的λattP1及attP2位点、及用于通过DNA连接插入启动子序列候选物的MCS。MCS存在于两种结构不同但功能等效的侧接ccdB基因的拷贝中，此构造允许使用ccdB基因作为通过重组或通过连接纳入启动子序列的质粒的选择标记。所述CcdB蛋白靶向DNA促旋酶并抑制其催化反应。吸收含有ccdB基因的未反应载体的细胞将不会生长。所述质粒还纳入短的合成的多腺苷酸化信号，所述信号基于兔β-珠蛋白基因的高效多腺苷酸化信号。将其置于MCS的上游可终止可能开始于载体骨架内的假转录。

3.将DNA TAG插入至pTAG-基本载体中

通常，TAG是通过退火互补的63bp寡核苷酸[(+)链：(N)₆₀：ATA；(-)链：(N)₆₀：GTG]来获得，并随后将其连接至SfiI消化的pTAG-基本，尽管可使用不同长度的寡核苷酸，但是优选地约16bp至约200bp，更优选地约20bp至约150bp，更优选地约30bp至约120bp，更优选地约40bp至约100bp，更优选地约50bp至约75bp，且最优选地约60bp。将连接反应物电穿孔至宿主菌株(例如大肠杆菌DB3.1)中，所述菌株含有使其能够抵抗ccdB的促旋酶突变(gyrA462)。由于由两种SfiI位点产生的粘性末端不相容，因此产生非常低背景的自成圆形的pTAG-基本载体或具有多个串联TAG的载体。通过DNA测序来确认在各种质粒中存在TAG。TAG的高通量产生遵循类似的方法。在两块96-孔板(分别合成(+)链及(-)链)上合成63bp寡核苷酸。在96-孔板中使(+)链与(-)链退火，并与经SfiI消化、凝胶纯化的pTAG基本连接。使用96-孔电穿孔板将连接混合物电穿孔至电感受态的大肠杆菌DB3.1宿主细胞中。将细菌菌落接种至96-深孔板中，并将培养物在37℃下使用微量滴定板培育箱振荡器在250rpm下培育18-24小时。手动或经由自动操作(例如使用BioRobot 3000(Qiagen，Valencia，CA))对质粒DNA实施纯化，并经由DNA测序(96-孔格式)确认TAG的存在。

4.制备启动子阵列膜

使用尼龙膜来制备寡核苷酸阵列。在96-孔板格式中合成(-)链TAG寡核苷酸，并以100μg/ml的浓度再悬浮于缓冲液(例如TE，pH 7.5)中。剪切(2cm x 4cm)尼龙膜(例如Nytran SuPerCharge(Whatman PLC，Middlesex，UK))以放入5.0ml的玻璃杂交管。手动一式两份将寡核苷酸点渍于膜(0.2μl/斑点)上，或者使用阵列自动点渍装置，例如Biorobotics MicroGrid(Genomic Solutions，Ann Arbor，MI)印刷寡核苷酸阵列。点渍后，使用Stratalinker 1800在120mJ/sec下将膜紫外交联两次，随后在70℃下烘烤1-2小时。将所印刷的膜密封于石蜡膜中，并在-20℃下储存。通过使10％的膜与生物素标记的(+)链寡核苷酸TAG杂交来验证膜的质量。使用末端转移酶及生物素-16-ddUTP来标记TAG寡核苷酸的3’端。将所有TAG以等摩尔量混合在一起。遵循制造商建议将TAG混合物(100pmol)在1.0nmol生物素-16-ddUTP及50U末端转移酶存在下进行培育。在37℃下培育15分钟后，用LiCl沉淀末端标记的TAG探针，离心并再悬浮于ddH₂O中。通过将标记反应物的系列稀释物及标准物点渍于尼龙膜上来检测标记效率。遵循制造商建议使用例如偶联碱性磷酸酶的抗生蛋白链菌素通过化学发光来实施检测。通过光密度测定法实施定量。验证生物素标记的探针的质量后，通过使用标准程序使所述探针杂交于膜上，通过化学发光进行检测并通过光密度测定法测量各斑点的强度来评价阵列的质量。当观察到强度及斑点大小的变化小于5％时，所述膜可以接受。

5.构建启动子-TAG质粒

使用两种方法将启动子序列候选物插入至TAG质粒中。第一，使用内切核酸酶(例如限制酶)自现有质粒提取启动子序列候选物，并插入至pTAG质粒中介于位于多克隆位点中的位点间。通过DNA连接使用标准方案(参见Crowe等人，Improved cloning efficiency of polymerase chain reaction(PCR)products after proteinase K digestion.Nucleic Acids Res.1991年1月11日；19(1)：184；Ausubel，F.M.等人，Short Protocols in Molecular Biology)来组装启动子序列及pTAG质粒。或者，使用携带attB1及attB2延伸的引物及使用哺乳动物基因组DNA或其它质粒作为模板通过PCR来扩增启动子序列。使用

重组系统将PCR产物插入至pTAG质粒中。启动子序列候选物可以由计算机预测模型、来自核苷酸序列集合(例如基因组文库)的DNA片段、特定启动子的缺失突变体或定点突变体、组织特异性启动子、人工启动子等提供。将含有具有启动子插入片段的pTAG质粒的克隆在LB培养基中于50μg/ml氨苄西林或25μg/ml卡那霉素存在下进行培育。在细胞生长期间的多个时间点，取各培养物的分液，通过光谱光度测量在600nm下测量细胞密度，并集中等体积的培养物。使用碱性裂解方法提取质粒DNA，并使用阴离子交换树脂进行纯化。为确认所有质粒以等摩尔浓度存在于混合物中，实施以下操作。通过限制酶切消化使DNA混合物中的所有质粒线性化，并分离在琼脂糖凝胶(0.7％)上。用溴化乙锭将大小介于5-15kb范围内的所得DNA片段染色，并通过光密度测定法使用凝胶成像系统(geldocumentation system)进行定量。通过定量质粒限制酶切消化的系列稀释物来确认分析的线性。

6.转染及RNA提取

将含有等摩尔量的启动子质粒的经纯化质粒DNA混合物转染至HL60、U937及293细胞系中。每次转染时，洗涤1x10⁷个存活的U937细胞，并再悬浮于0.4ml RPMI培养基中。添加质粒DNA(20μg)，并将细胞/DNA悬浮液通过倒置而轻轻混合。在25℃下培育5分钟后，使用BTX ECM-600电穿孔仪在以下设置下对细胞进行电穿孔：500V电容及电阻，950μF电容，186欧姆电阻，200V充电电压。电击(electrochoc)后，将细胞转移至10cm直径的组织培养皿中，所述培养皿含有10ml补充有10％FBS的RPMI培养基。在37℃下培育2-5小时后，通过在10krpm下离心30秒来收获细胞。通过添加300μl Trizol试剂来裂解细胞沉淀，并按照制造商方案(Invitrogen，Carlsbad，CA)提取总RNA(也可参见Current Protocols in Molecular Biology，John Wiley & Sons)。使用异丙醇使RNA沉淀，再悬浮于不含RNA酶的TE(pH 7.5)中，并通过测量260nm及280nm下的吸光度(比率约等于2)来定量。通过琼脂糖凝胶电泳及溴化乙锭染色来确认RNA的完整性。28S及18S rRNA以离散的个别条带表示，其具有2∶1的强度比。具有可见降解程度的RNA样品不再进行进一步处理。平行地，将等摩尔的无启动子的TAG质粒混合物转染，并使用所述阵列分析mRNA的表达。此对照检测在TAG中可能存在的隐藏的启动子活性。丢弃产生高于背景的信号的无启动子TAG质粒。

7.标记、杂交及检测

自总RNA合成放射性cDNA探针。使用Trizol(Invitrogen)纯化总RNA，并通过OD260读数来测定RNA的浓度。将1-5微克总RNA与MA5-寡(5’-TAGTCACTTCGATCGCTGAGG-3’)([SEQ ID NO.1])及核苷酸dATP、dTTP、dGTG及32P-dCTP混合。将反应物在80℃下培育3分钟并随后冷却至42℃。随后添加10X反转录缓冲液(NEB)、RNA酶抑制剂及M-MuLV反转录酶(NEB)。混合反应物并在42℃下培育60分钟，随后在90℃下变性10分钟。

使用Ultrahyb-oligo杂交缓冲液(Ambion公司)使放射性探针与膜在60℃下杂交过夜。在60℃下将膜用2X SSC/1％SDS洗涤两次并用1XSSC/1％SDS洗涤两次后，使用(例如)Kodak Biomax Light Film(CarestreamHealth公司，New Haven，CT)通过放射自显影法检测结合的探针。使用计算机软件(例如，Kodak 1D图像分析软件(Carestream Health公司，New Haven，CT))来定量各斑点的密度。

在一替代实施方式中，自总RNA合成经生物素标记的cDNA探针。使用SuperArray Bioscience公司研发的AmpoLabeling-LPR方法来合成探针。此方法通过扩增cDNA来提高cDNA阵列的灵敏度，所述cDNA通过反转录通过多达30轮线性聚合酶复制(LPR)而获得。将来自荧光素酶mRNA的5’端的长300个核苷酸的区域(涵盖60个核苷酸的TAG)在生物素标记的dUTP存在下反转录并扩增。使总RNA与和MA4区段互补的引物退火，在热循环仪中在70℃下3分钟，冷却至37℃，并在37℃下培育10分钟。使用MMLV反转录酶在RNasin核糖核酸酶抑制剂存在下将退火产物反转录。在灭活反转录酶并在85℃下实施RNA水解后，通过LPR使用位于TAG上游的引物5’-GGCTCGGCCTCTGAGCTAAT-3’([SEQ ID NO.2])在生物素-16-dUTP及热稳定性DNA依赖性DNA聚合酶存在下使用以下程序来扩增cDNA：在85℃下5分钟；随后在85℃下1分钟、在50℃下1分钟、在72℃下1分钟的30个循环；随后在72℃下5分钟。随后通过以下程序来检测探针的生物素纳入情况：制备探针合成反应的系列稀释物，将1μl分液点渍于HyBond尼龙膜上，并使用ECL化学发光检测试剂盒检测探针。在1000倍稀释或更高倍数稀释时可检测到的探针用于杂交。

使用Ultrahyb-oligo杂交缓冲液(Ambion公司)在60℃下使生物素化探针与膜杂交过夜。在60℃下将膜用2xSSC，1％SDS洗涤两次并用1xSSC，1％SDS洗涤两次后，使用抗生蛋白链菌素-碱性磷酸酶偶联物并遵循制造商方案(CDP-Star Universal检测试剂盒，Sigma)通过化学发光来检测结合的探针。使用Kodak图像工作站440获取1小时的图像(图3A、图4A及图5A)。使用Kodak 1D图像分析软件来定量各斑点的密度。图3A及3B及图4A及4B中提供的数据表明：a)没有启动子序列(表1中的#10、19、26、28、30、35、39及47)的所有“空白”报告子-TAG质粒均得到非常低强度的信号，此结果表明质粒骨架无内在启动子活性；b)对于一系列防卫素启动子(#74-85)，表达最高的mRNA水平的克隆(#79)同样也表达最高的荧光素酶水平。图5A及5B中提供的数据表明：a)与预期一样，病毒CMV启动子似乎最强，此结果详细记载于科学文献中(美国专利第5,168,062号及第5,385,839号；Cayer等人，J Immunol Methods.2007年4月30日；322(1-2)：118-27；Sakurai等人，Gene Ther.2005年10月；12(19)：1424-33；Fabre等人.J Gene Med.2006年5月；8(5)：636-45。)；b)GAPDH(甘油醛-3-磷酸脱氢酶)启动子能够驱动非常高的表达水平，此与其它研究人员的观察一致(Hirano T等人，Biosci Biotechnol Biochem.1999；63(7)：1223-7；Punt PJ等人，Gene.1990；93(1)：101-9；Nagashima T等人，Biosci Biotechnol Biochem.1994；58(7)：1292-6)；c)铁蛋白轻链启动子比铁蛋白重链启动子强约40％，此结果支持Cairo等人在大鼠肝脏中所得到的发现(Biochem J.1991；275(第3部分)：813-6)；d)启动子OM3(TAG61)及Def6(TAG77)在其各自组(OM及防卫素启动子)中产生最强的杂交信号，此结果与先前测定的荧光素酶活性相关联(Ma等人，Nucleic Acids Res.1999；27(23)：4649-57；Ma等人，J Biol Chem.1998年4月10日；273(15)：8727-40.)。总的来说，这些数据验证了本公开内容与其它方法的可比性。

提供下列实例以进行举例说明而并非加以限制。

实施例

实施例1。构建100pTAG-报告质粒

构建100种特征在于以下的pTAG-质粒：多克隆位点(MCS)、attP序列、ccdB基因、T7启动子、独特的60bp长的报告TAG、特定MA4区段、3-框架翻译终止密码子、血红蛋白RNA稳定化片段及多腺苷酸化信号。在6个步骤中实施构建(图6)。第一，在质粒pGL4(Promega，Madison，WI)的Sfil位点间插入部分MCS。删除来自原来pGL4质粒的所有克隆位点，并用EcoRI、KpnI、SacI、NheI、XhoI、BgIII位点、及随后两组由CG二核苷酸隔开的SfiI/BgII位点代替。所述两组SfiI位点允许定向插入TAG序列。介于SfiI位点间的二核苷酸CG产生独特的限制位点(SmaI/XmaI)，显示可用于促进使用SfiI的质粒消化，此通过插入约170bp长的间隔区片段来将两个SfiI位点分开，或者通过相继用SmaI及随后SfiI消化质粒。

在第二步骤中，在pGL4-12的XhoI与BglII位点间插入第二部分MCS。所得质粒(pGL-1256)在现有的MCS后含有BglII、ApaI、NruI、KpnI、XhoISacI、BglII、NheI、EcoRV及MluI位点。因此，pGL-1256在ApaI及NruI位点周围含有两种结构不同但功能等效的MCS，此特征可用于在TAG-质粒中克隆启动子序列候选物。

在第三步骤中，将编码荧光素酶报告子的序列(NcoI-XbaI片段)用80-mer寡核苷酸代替，所述寡核苷酸含有特定的25bp长的序列(MA4)、三框架翻译终止密码子及源自人类α珠蛋白基因的RNA稳定化序列。MA4有助于自mRNA合成TAG特异性探针。

在第四步骤中，使用EcoRV及MluI消化所得的质粒1256MA4，此允许插入含有噬菌体T7 RNA聚合酶启动子序列的寡核苷酸。T7启动子的存在使得能够通过体外转录来合成生物素化的RNA探针，此方法使分析的灵敏度提高至少一个数量级。

在第五步骤中，通过PCR使用质粒pDONR-201作为模板(Invitrogen公司，Carlsbad，CA)使用以下引物来扩增

序列attP-ccdB-氯霉素抗性基因：正义-tcgggccccaaataatgattttattttgactgatag[SEQ ID NO.3]及反义-atgggcccaaataatgattttattttgactgatagtgacctgttc[SEQ ID NO.4]。将PCR产物插入至质粒1256MA4T7的ApaI位点，产生质粒1256MA4T7att。

最后，使用BglI消化质粒1256MA4T7att，并将60bp长的双链寡核苷酸(TAG)定向插入至所述质粒中。总共产生100种报告质粒---pTAG-报告子1至100。使用这些质粒产生了92种启动子-TAG质粒。其余8种pTAG-报告质粒用作空白。

使用这100种pTAG-报告质粒使用常规方法(限制酶切消化及连接)或

技术使用attB修饰的PCR产物将推定的启动子克隆至MCS。

实施例2。宏阵列膜的手动及自动装置产生

第一，比较以下三种尼龙膜的印刷短寡核苷酸的能力：BrightStar-Plus(Ambion公司，Austin，TX)、Tropilon-Plus(Applied Biosystems，FosterCity，CA)及Nytran SuperCharge(Whatman PLC，Middlesex，UK)。将63bp长的与存在于TAG-报告质粒上的TAG互补的寡核苷酸手动点渍于膜上，并与生物素末端标记的正义TAG寡核苷酸杂交。选择BrightStar-Plus(Ambion公司，Austin，TX)用于随后的实验中，这是因为此膜在以下方面产生最佳结果：低背景、信号斑点清晰度、及BrightStar-Plus膜的粗糙表面比其它两种膜的光滑表面产生较强的信号且不会增加背景的观察结果。剪切尼龙膜(2x4cm)以放入5mL的玻璃杂交管及8-孔杂交板(SuperArray公司，Frederick，MD)。

然后，使点渍于膜上的寡核苷酸的量最优化。通过将冻干的产物在TEpH 7.5中重构至100μM来制备所有反向链TAG寡核苷酸的储备溶液。实施20X、60X、180X、540X及1620X的系列稀释。使用2μL自动移液器，手动将稀释的寡核苷酸(0.2μl)一式两份点渍于膜上。在使膜与生物素末端标记的正义链TAG寡核苷酸探针杂交后，通过化学发光使用Southern-Star试剂盒(Applied Biosystems，Foster City，CA)实施信号检测。20倍稀释物产生较强且无瑕疵的信号斑点，因此选择20倍稀释。

使用University of Idaho Environmental Biotechnology Institute(Moscow，ID)的微阵列机构的Biorobotics MicroGrid阵列自动点渍装置(GenomicSolutions，Ann Arbor，MI)来印刷经相同稀释的寡核苷酸(n＝100)(图2)。各寡核苷酸以四个重复的斑点印刷。将两种类型的膜在室温下空气干燥10min，并随后使用Stratalinker 1800(Stratagene)在120mJ/sec下紫外交联两次，随后在70℃下烘烤2小时。随后将所印刷的膜密封于石蜡膜中，并在4℃下储存。膜的大小设计得可放入手头的小容器中，例如2mL的微量离心管及8-孔板。

实施例3。将92种人类及病毒启动子序列克隆至TAG-报告质粒中

使用

系统将92种人类及病毒启动子序列(表1)克隆至TAG-报告质粒中。其包括12种防卫素启动子及15种抑瘤素(Oncostatin)M启动子、57种来自EPD及染色体21二者的基因组DNA片段(已通过实验方法研究启动子活性)、及8种熟知的启动子(SV40、CMV、野生型及突变体RSV、GAPDH、HSP、FerL及FerH)。

第一，通过PCR使用人类染色体DNA或质粒作为模板且使用携带attB序列延伸的引物来扩增启动子序列。通过体外重组使用BP克隆酶(Invitrogen，Carlsbad，CA)将PCR产物插入至pTAG-报告质粒中代替ccdB及氯霉素抗性基因。利用热激程序将重组质粒引入大肠杆菌Top10中，并进行扩增。以约1∶200的频率获得无启动子插入片段的重组克隆。为确定正确的克隆，制备各克隆的质粒DNA并通过琼脂糖凝胶电泳分别进行分析。通过分光光度法来定量质粒DNA。最后，以等摩尔量集中，最终浓度为0.4μg DNA/μL。

涉及筛选推定的启动子的质粒文库时，将大肠杆菌克隆排列于96-孔板中。集中细菌(不是其质粒DNA)并在相同烧瓶中进行扩增。在一个准备过程中对其质粒DNA进行纯化，随后转染至相同的细胞群体中。

实施例4。使用92种启动子-TAG质粒测试所述启动子检测方法

使用92种启动子-TAG及8种空白报告子-TAG质粒实施所述方法。使用Lipofectamine 2000(Invitrogen，Carlsbad，CA)将不同量(4、16、64μg)的所述质粒的等摩尔混合物转染至HEK 293细胞中。在37℃下培养14小时及25小时后，收获细胞。提取总RNA并使用基于TRIzol的方法(Invitrogen，Carlsbad，CA)进行纯化。自总RNA合成生物素标记的cDNA探针。使用AmpoLabeling LPR方法(SuperArray Bioscience公司，Frederick，MD)合成探针。通过扩增cDNA来提高cDNA阵列的灵敏度，所述cDNA通过反转录通过多达30轮线性聚合酶复制(LPR)而获得。将长300个核苷酸的区域(涵盖60个核苷酸的TAG)在生物素标记的dUTP存在下反转录并扩增。使2.5μg总RNA与和MA4区段互补的引物退火，在热循环仪中在70℃下3分钟，冷却至37℃，并在37℃下培育10分钟。使用MMLV反转录酶来反转录退火产物并在85℃下水解RNA，通过LPR使用位于TAG上游的引物5’-GGCTCGGCCTCTGAGCTAAT-3’[SEQ ID NO.2]在生物素16dUTP及热稳定性DNA依赖性DNA聚合酶存在下使用以下程序来扩增cDNA：在85℃下5分钟；随后在85℃下1分钟、在50℃下1分钟、在72℃下1分钟的30个循环；随后在72℃下5分钟。随后通过以下程序来检测探针的生物素纳入情况：制备探针合成的系列稀释物，将1μl分液点渍于HyBond尼龙膜(Amersham，Little Chalfont，UK)上，并使用ECL化学发光检测试剂盒检测探针。在1000倍稀释或更高倍数稀释时可检测到的探针用于杂交。

使用Ultrahyb-oligo杂交缓冲液(Ambion公司)在60℃下使生物素化探针与膜杂交过夜。在60℃下将膜用2xSSC，1％SDS洗涤两次并用1xSSC，1％SDS洗涤两次后，使用抗生蛋白链菌素-碱性磷酸酶偶联物并遵循制造商方案(CDP-Star Universal检测试剂盒，Sigma)通过化学发光来检测结合的探针。使用Kodak图像工作站440获取1小时的图像(图4A)。使用Kodak1D图像分析软件来定量四个重复斑点中各斑点的密度。结果表明：a)没有启动子序列(表1中的#10、19、26、28、30、35、39及47)的所有“空白”报告子-TAG质粒均得到非常低强度的信号，此结果表明质粒骨架无内在启动子活性；b)对于一系列防卫素启动子(#74-85)，表达最高的mRNA水平的克隆(#79)同样也表达最高的荧光素酶水平。

实施例5。使用35种启动子-TAG质粒测试所述启动子检测方法

使用一系列35种启动子-TAG质粒来测试所述方法。通过电穿孔将20μg所述质粒的等摩尔混合物转染至U937细胞中。在37℃下培养7小时后，收获细胞。提取总RNA并使用基于TRIzol的方法(Invitrogen，Carlsbad，CA)进行纯化，并通过分光光度法(260nm下的吸光度)进行定量。

如下合成放射性cDNA探针。将存于6.3μL H₂O中的1微克总RNA与0.7μL的100μM MA5-寡核苷酸(5’-TAGTCACTTCGATCGCTGAGG-3’)([SEQ ID NO.1])、1.1μL 5mM的各dATP/dTTP/dGTG及1.9μL的³²P dCTP混合。将反应混合物加热至80℃，保持3分钟，并随后冷却至42℃。随后添加1.5μL 10x反转录缓冲液(New England Biolabs)、0.75μL RNA酶抑制剂及M-MuLV反转录酶(New England Biolabs)，并在42℃下实施反应60分钟。随后在90℃下使探针变性10分钟。

使用Ultrahyb-oligo杂交缓冲液(Ambion公司)在60℃下使放射性探针与膜杂交过夜。在60℃下将膜用2x SSC，1％SDS洗涤两次并用1x SSC，1％SDS洗涤两次后，使用Kodak Biomax Light film通过放射自显影法检测结合的探针。使用Kodak 1D图像分析软件来定量各斑点的密度(图5A及5B)，其中通过使放射性TAG-cDNA探针与点渍有互补TAG链的膜杂交来获得放射自显影图。相对于使用CMV启动子所获得的信号来比较各个斑点的强度。与预期一样，病毒CMV启动子似乎最强，此结果详细记载于科学文献中(美国专利第5,168,062号及第5,385,839号；Cayer等人，J ImmunolMethods.2007年4月30日；322(1-2)：118-27；Sakurai等人，Gene Ther.2005年10月；12(19)：1424-33；Fabre等人，J Gene Med.2006年5月；8(5)：636-45.)。GAPDH(甘油醛-3-磷酸脱氢酶)启动子能够驱动非常高的表达水平，此与其它研究人员的观察一致(Hirano T等人，BioSCi Biotechnol Biochem.1999；63(7)：1223-7；Punt PJ等人，Gene.1990；93(1)：101-9；Nagashima T等人，Biosci Biotechnol Biochem.1994；58(7)：1292-6)。而且，铁蛋白轻链启动子比铁蛋白重链启动子强约40％，此结果支持Cairo等人在大鼠肝脏中所得到的发现(Biochem J.1991；275(第3部分813-6)。启动子OM3(TAG61)及Def6(TAG 77)在其各自组(OM及防卫素启动子)中产生最强的杂交信号，此结果与先前测定的荧光素酶活性相关联(Ma等人，Nucleic AcidsRes.1999；27(23)：4649-57；Ma等人，J Biol Chem.1998年4月10日；273(15)：8727-40.)。总的来说，这些数据验证本公开内容与其它方法的可比性。

表1

标签号	基因符号	启动子大小(bp)	Refseq或GenBank登录号	TAG号	基因符号	启动子大小(bp)	Refseq或GenBank登录号
								1	MT1B	471	M13484	51	SV	330	N/A
2	PROC	495	NM_000312	52	CMV	655	N/A
								3	MMP1	477	NM_002421	53	RSV	396	N/A
4	CEA	508	NM_002483	54	RSV303	396	N/A
								5	GAS	539	NM_000805	55	GAPDH	532	N/A
6	H3FL	506	NM_003537	56	HSP	464	N/A
								7	RUN3	356	K00777	57	FerL	270	N/A
8	SLC9A1	509	XM_046881	58	FerH	180	N/A
								9	ADAMTS1	560	NM_006988	59	OM1(pGL3BomB1)	189	BC011589
10	空白			60	OM2(N1)	304	BC011589
								11	CCT8	528	NM_006585	61	OM3(3STAT)	300	BC011589
12	CRYZL1	583	NM_005111	62	OM4(3STATm)	300	BC011589
								13	DAF	557	NM_000574	63	OM5(3STATmm)	300	BC011589
14	GABPA	611	NM_002040	64	OM6(N1ApI)	304	BC011589

15	IFNAR1	667	NM_000629	65	OM7(N1SpI突变)	304	BC011589
								16	KRT1	520	NM_006121	66	OM8(N13STATmm)	304	BC011589
17	LHB	494	NM_000894	67	OM9(RI)	194	BC011589
								18	NEFL	495	NM_006158	68	OM10(StuI)	94	BC011589
19	空白			69	OM 11(2STATm)	194	BC011589
								20	NEG9	407	N/A	70	OM12(N12STATmm)	304	BC011589
21	IVL	500	NM_005547	71	OM13(1STAT)	109	BC011589
								22	APOE	509	NM_000041	72	OM14(1STATm)	109	BC011589
23	C21ORF33	689	NM_004649	73	OM15(TATA)	31	BC011589
								24	DSCR4	688	NM_005867	74	Def3(B/3)	619	AA321199
25	FTCD	596	NM_006657	75	Def4(AvaI)	497	AA321199
								26	空白			76	Def5(HincII)	321	AA321199
27	ITGB2	647	NM_000211	77	Def6(HinfI)	299	AA321199
								28	空白			78	Def7(ApoI)	203	AA321199
29	TFF1	605	NM_003225	79	Def8(Sau96I(7))	164	AA321199

30	空白			80	Def9(ScrfI(9))	144	AA321199
								31	WRB	639	NM_004627	81	Def10(ScrfI(TATA))	144	AA321199
32	AMY2B	488	NM_020978	82	Def11(Tru9I)	111	AA321199
								33	BCKDHA	481	NM_000709	83	Def12(Tru9ITATA)	111	AA321199
34	CA3	518	NM_005181	84	Def13(Tru9ITATAm)	111	AA321199
								35	空白			85	Def14(Tru9ITATAm2)	111	AA321199
36	H4FG	222	NM_003542	86	ALB	517	NM_000477
								37	NEG13	376	N/A	87	NEG11	468	N/A
38	NEG18	503	N/A	88	HLCS	645	NM_000411
								39	空白			89	NEG12	522	N/A
40	NEG21	444	N/A	90	NEG1	500	N/A
								41	NEG22	418	N/A	91	NEG6	480	N/A
42	NEG23	259	N/A	92	ORM1	499	NM_000607
								43	NEG2	285	N/A	93	PKNOX1	593	NM_004571
44	NEG3	460	N/A	94	USP16	581	NM_006447

45	NEG5	488	N/A	95	IGSF5	622	AF121782
								46	NEG7	466	N/A	96	NEG10	406	N/A
47	空白			97	NEG16	202	N/A
								48	RNU4C	305	M15957	98	NEG17	339	N/A
49	SH3BGR	588	NM_007341	99	PCP4	625	NM_006198
								50	NEG19	483	N/A	100	TCRD	333	M21624

序列表

<110>马永生(Ma，Yongsheng)

X.丹欣内(Danthinne，Xavier)

<120>启动子检测及分析

<130>0815.001

<160>4

<170>PatentIn version 3.4

<210>1

<211>21

<212>DNA

<213>人工的

<220>

<223>随机产生的核苷酸序列

<400>1

tagtcacttc gatcgctgag g 21

<210>2

<211>20

<212>DNA

<213>人工的

<220>

<223>随机产生的核苷酸序列

<400>2

ggctcggcct ctgagctaat 20

<210>3

<211>36

<212>DNA

<213>大肠杆菌(Escherichia coli)

<400>3

tcgggcccca aataatgatt ttattttgac tgatag 36

<210>4

<211>45

<212>DNA

<213>大肠杆菌

<400>4

atgggcccaa ataatgattt tattttgact gatagtgacc tgttc 45

Claims

1.一种检测DNA调节序列的方法，包括：a)将启动子序列候选物插入至载体中，其中所述载体包含TAG序列且其中将所述启动子序列候选物插入一位置以驱动所述TAG序列转录；b)将含有所述插入的启动子序列候选物的所述载体插入至克隆宿主细胞中；c)使含有不同启动子序列候选物的克隆宿主细胞生长至相同光密度并集中，提取其中的所述载体、纯化并插入至报告细胞系中；d)自所述报告细胞系提取mRNA，其中所述mRNA直接进行标记或用作cDNA或探针合成的模板；及e)用阵列对所述经标记的mRNA、cDNA或探针进行分析，其中所述阵列包含与所述TAG序列相同或互补的序列。

2.根据权利要求1所述的方法，其中所述载体是质粒。

3.根据权利要求1所述的方法，其中所述TAG序列为约16个碱基对至约200个碱基对。

4.根据权利要求1所述的方法，其中步骤(a)还包括将多个启动子序列候选物插入至多个载体中，其中每个载体包含独特的TAG序列。

5.根据权利要求1所述的方法，其中所述克隆宿主细胞位于单个反应小瓶中，其中对来自所述克隆宿主细胞内的载体进行纯化，并将约等量的经纯化载体转移至报告细胞系中。

6.根据权利要求1所述的方法，其中所述克隆宿主细胞位于单独的反应小瓶中，其中对来自各单独的反应小瓶中的所述克隆宿主细胞的DNA进行纯化，其中将来自各克隆宿主细胞的经纯化DNA以等摩尔量集中并将其中的载体插入至报告细胞系中。

7.根据权利要求1所述的方法，其中所述cDNA或探针含有标记。

8.根据权利要求1所述的方法，其中对所述mRNA直接进行标记。

9.根据权利要求1所述的方法，其中用阵列对所述mRNA进行分析，其中所述阵列包含与所述TAG序列互补的序列，其中所述互补序列是反义链。

10.根据权利要求1所述的方法，其中用阵列对所述cDNA进行分析，其中所述阵列包含与所述TAG序列的cDNA互补的序列，且其中所述互补序列是正义链。

11.根据权利要求1所述的方法，其中所述经标记的mRNA、cDNA或探针与所述阵列杂交且所述mRNA、cDNA或探针的标记具有可检测反应。

12.根据权利要求1所述的方法，其中插入所述DNA启动子序列候选物的所述载体包含TAG序列、一个或多个多克隆位点、一种或多种DNA重组序列、阴性选择标记、RNA聚合酶启动子序列、MA区段、翻译终止密码子、RNA稳定化片段及转录终止信号，其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录。

13.根据权利要求12所述的方法，其中所述RNA稳定化片段来自α-珠蛋白基因。

14.根据权利要求12所述的方法，其中所述转录终止信号是多腺苷酸化信号。

15.根据权利要求12所述的方法，其中所述RNA聚合酶启动子序列是T7启动子序列。

16.根据权利要求12所述的方法，其中所述DNA重组序列选自attP1及attP2。

17.根据权利要求12所述的方法，其中所述TAG序列位于所述启动子序列的3’端及转录终止位点的5’端。

18.一种载体，其中插入DNA启动子序列候选物，所述载体包含TAG序列、一个或多个多克隆位点、至少一种DNA重组序列、阴性选择标记、RNA聚合酶启动子序列、MA区段、翻译终止密码子、RNA稳定化片段及转录终止信号，且其中所述DNA启动子序列候选物所处的位置应使其能够驱动所述TAG序列转录。

19.根据权利要求18所述的载体，其中所述载体是质粒。

20.根据权利要求18所述的载体，其中所述TAG序列为约16个碱基对至约200个碱基对。

21.根据权利要求18所述的载体，其中所述TAG序列位于所述插入的启动子序列的3’端及转录终止信号的5’端。

22.根据权利要求18所述的载体，其中所述RNA稳定化片段来自α-珠蛋白基因。

23.根据权利要求18所述的载体，其中所述转录终止信号是多腺苷酸化信号。

24.根据权利要求18所述的载体，其中所述RNA聚合酶是T7启动子序列。

25.根据权利要求18所述的载体，其中所述DNA重组序列选自attP1及attP2。