CN103429743A

CN103429743A - 构建特异性启动子的方法

Info

Publication number: CN103429743A
Application number: CN2012800129100A
Authority: CN
Inventors: 迈克尔·L·罗伯茨
Original assignee: Synpromics Ltd
Current assignee: Asbio UK Ltd.
Priority date: 2011-01-25
Filing date: 2012-01-25
Publication date: 2013-12-04
Anticipated expiration: 2032-01-25
Also published as: CA2825443C; US10508275B2; IL227581B; WO2012101191A1; EP2479278A1; EP2668277A1; CA2825443A1; AU2012210507A1; EP2668277B1; JP2014506456A; US20200199582A1; KR101902526B1; IL227581A0; US20130324440A1; RU2013139298A; CN103429743B; JP6012633B2; US11268089B2; KR20140005273A

Abstract

本申请涉及用于设计针对基因选择性表达之启动子的系统。根据特定方法选择由此鉴定的转录调控元件，并且用于产生转录调控元件文库，其随后用于构建特异性启动子，尤其是组织特异性启动子。

Description

构建特异性启动子的方法

技术领域

本申请涉及用于设计启动子的系统，所述启动子用于基因选择性表达。

背景技术

癌症是一种复杂的生物现象，其被认为起因于细胞DNA中基因和表观遗传改变的多步过程，最终导致细胞的转化以及其不受控制的生长、分裂和迁移。鉴定介导细胞转化的异常分子途径是理解恶性肿瘤如何发展的主要挑战。

功能基因组学的出现给了科学家在各种癌症中检验基因表达的全局变化、提供可潜在帮助建立更有效的诊断和预防技术的分子表型的前景。

已经证明利用微阵列解析导致肿瘤发展的分子事件是更加困难的任务，特别是因为微阵列数据仅提供特定时间点的细胞转录组的快照。因为很多癌症包括多基因改变，所以难以将基因表达谱中的特定改变归因于转化细胞基因组的特定改变。

但是，过去几年的发展，特别是随着比较基因组微阵列分析的出现，已经揭示微阵列数据可在研究癌症中具有更宽广的应用。在此类分析中，基因表达数据可通过作图定位于染色体上，揭示特定类型的癌症中主要的染色体畸变如扩增或缺失的潜在位点。

现在研究人员越来越多地倾向于分析“基因模块”方面的微阵列数据，而不是给出差异调节的基因列表。通过将基因分成功能相关的模块，能够鉴定基因表达中可能在生物学上(如果非统计学上显著的)重要的微小变化，更容易解释介导特定应答的分子途径，以及比较来自不同肿瘤类型的多种不同微阵列实验以揭示多种临床疾病中的共同点和差异。

因此，我们进入了功能基因组学的新时代，可通过计算方法中的改进更彻底地解读由评价全局基因表达研究所产生的大数据集。癌症研究中重要的是将这些改进的生物信息学工具应用于该复杂疾病，以阐明介导恶性表型的分子过程，从而可有效设计最终改进的靶向治疗。

发明内容

本发明的目的之一是提供用于构建特定启动子的方法和组合物。这样的启动子可以是细胞类型、组织类型或条件特异性的，所述条件例如特定的疾病或环境条件，如生物或化学物质或微生物病原的存在。优选地，这些是组织特异性表达的启动子。

在某些实施方案中，该目的通过独立权利要求所要求保护的发明来实现。在从属权利要求中描述了某些有利的实施方案，在这里描述了另一些实施方案。

即使未提出多项引用权利要求，也公开了权利要求中特征的所有合理组合。

在某些方面，本发明的目的通过一种方法实现。接下来将更详细地描述方法的各个步骤。所述步骤不一定按照文中给出的顺序进行。另外，另一些未明确给出的步骤可以是方法的一部分。

提供了用于选择启动子元件以及选择和制备细胞、组织或条件特异性表达的启动子盒(如转录增强的组合启动子盒)的方法。这样的方法通常包括鉴定或提供转录因子调控元件(transcription factor regulatoryelement，TFRE)如多个TFRE的步骤。多个TFRE中的每一个通常与多个基因中的一个或更多个相关。在特定细胞类型或组织类型中或者在特定的条件下，例如与另一种细胞类型、组织类型或条件(例如正常、对照或标准细胞类型或组织或所述特定条件不存在时)相比，所述多个基因中的每一个通常差异表达，如异常表达(例如，上调或下调)。

细胞和组织类型例如是真核细胞，包括动物、植物、真菌及其他真核细胞。例如，所述细胞或组织类型可来源于哺乳动物、酵母、昆虫、牛、猪、鼠、马、犬、猫、鸟、鱼、羊、昆虫、猿和/或人。

在一些方面，所述细胞或组织类型是来源于大脑、小脑、肾上腺、卵巢、胰腺、甲状旁腺、垂体、睾丸、甲状腺、乳房、脾脏、扁桃体、胸腺、淋巴结、骨髓、肺、心肌、食管、胃、小肠、结肠、肝脏、唾液腺、肾脏、前列腺、血液的组织或细胞或者其他细胞或组织类型。

在一些方面，所述条件是疾病条件，例如癌症、炎症疾病、传染病、遗传缺陷或其他疾病。癌症可以是大脑、小脑、肾上腺、卵巢、胰腺、甲状旁腺、垂体、睾丸、甲状腺、乳房、脾脏、扁桃体、胸腺、淋巴结、骨髓、肺、心肌、食管、胃、小肠、结肠、肝脏、唾液腺、肾脏、前列腺、血液或者其他细胞或组织类型的癌症，并且可包括多种癌症。例如，在一些情况下，多个基因中的每一个在多种不同癌症中异常调节或差异表达。

在一些方面，所述条件是存在遗传缺陷，例如缺乏基因或其一部分，存在特定基因突变，或缺乏特定遗传途径的功能，例如在基因工程细胞或生物中或者存在天然的突变或基因缺陷。

在另一些情况下，所述条件是环境条件。在一些情况下，环境条件是暴露于特定药物、生物物质、化学物或微生物病原。这样的物质可包括生物制品(biologics)、小分子、抗体和抗体片段、融合蛋白、重组蛋白、核酸、细胞因子、配体和/或来源于特定细胞培养物或生物或由其分泌的刺激物，例如来源于具有特定疾病之对象的组织或流体(例如，血液或其他体液)。

可使用公知的方法如本文中描述的功能性基因组学应用(包括微阵列或其他分析)来确定所述多个基因在特定细胞或组织类型或在特定条件的存在下差异表达。

在一个方面，如果TFRE在基因的20千碱基、10千碱基、5千碱基或4、3、2或1千碱基之内，则认为其与所给定的基因相关联；通常，这样的TFRE在该基因的上游区域内。在一些方面，每一所选TFRE在超过50％的多个基因的上游区域。在一些实施方案中，仅在TFRE存在于有义链中或仅在其存在于反义链中时，认为其与给定基因相关联。在一个实施方案中，仅在TFRE存在于有义链中时，认为其与给定基因相关联。如果无特殊说明，如果TFRE存在于有义链或反义链，认为其是相关联的。

所述方法通常还包括从多个TFRE中选择一个或更多个TFRE。在一个方面，每一个所选TFRE在超过50％的多个基因的附近，例如在20千碱基、10千碱基、5千碱基内，或4、3、2或1千碱基内。在一些方面，每一个在超过50％的多个基因的10千碱基或5千碱基内，优选上游区域。在一些方面，每一所选TFRE在超过50％的多个基因的上游区域。

通常还基于TFRE的频率和长度以及它们之间的关系选择TFRE。

如本文定义的，TFRE的频率涉及其与多个基因相关时出现的频率。在一些情况下，频率可以多个基因中任一个的给定附近内频率的形式给出，即，多个基因中的任一个的该附近内给定TFRE出现的次数除以与多个基因中的任一个的该附近内的TFRE的总数。例如，多个基因的20千碱基内给定TFRE的频率定义为任意基因的20千碱基内TFRE的出现次数除以多个基因中的任一个的20千碱基内全部TFRE的出现次数。

在一些实施方案中，频率以TFRE与有义链或反义链中基因关联的形式给出；在另一些实施方案中，其以TFRE与有义链中基因关联频率的形式给出。例如，在一些实施方案下，频率为有义链内多个基因的给定附近(例如，20千碱基)内的给定TFRE的频率；在另一些实施方案中，频率为有义链或反义链内多个基因的给定附近(例如，20千碱基)内的给定TFRE的频率。除非另有指明，频率表示在有义链或反义链中的出现。

长度是指给定TFRE的核苷酸长度。

通常根据以下方程使用频率和长度来选择TFRE：

频率^(1/长度)。

该方程的值称作SYN值。TFRE通常基于其SYN值来选择。在一些实施方案中，每一所选TFRE的SYN值(如以上方程式定义)为至少或大于0.1、0.2，通常为至少或大于0.3、0.4、0.5、0.6、0.7或0.8，例如为或约为0.3、0.4、0.5、0.6、0.7或0.8，通常为至少或约为或大于0.5或0.6。在另一些实施方案中，SYN值用于对TFRE排序，选择具有最大SYN值的TFRE。在一些方面，每一所选TFRE为多个TFRE中具有前1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25或50个SYN值的TFRE，通常具有前1、2、3、4、5、6、7、8、9或10的SYN值。

在一些实施方案中，所述方法包括制备或设计启动子盒，例如转录增强的组合启动子盒。在这样的实施方案中，所述方法还可包括构建随机组合的所选TFRE或随机组合的元件的文库。在一个方面，通过在连接反应条件下将至少编制所选TFRE的各个双链DNA序列元件混合在一起来制备文库。可通过在连接条件下将双链DNA寡核苷酸随机连接在一起制备这样的文库，每一双链DNA寡核苷酸可包含编码至少所选转录因子调控元件(优选地所选转录因子调控元件)的DNA序列元件。

在一些实例中，所述方法还包括将文库的组合TFRE或元件插入到载体或多个载体中，例如具有最小启动子并且通常具有报告基因的载体中，从而产生组合启动子盒。在一些实施方案中，使用多个载体，从而产生多个组合启动子盒。在一个方面，报告基因是LacZ或GFP。在一些实例中，所述方法还包括将载体插入到宿主细胞中。

在一些方面，文库和/或组合启动子盒中存在的元件与所选TFRE之一具有至少或大于70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性，优选地与所选TFRE之一具有100％的同一性。在一些方面，组合启动子盒与SEQ ID NO：130至190或其互补序列之一具有至少70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。在一些方面，其与SEQ ID NO：5至66或其互补序列之一具有至少70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。

在一些具体实施例中，组合启动子盒或启动子与SEQ ID NO：50、SEQ ID NO：113、SEQ ID NO：175或SEQ ID NO：237具有至少70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。在一些具体实施方案中，组合启动子盒或启动子与SEQ ID NO：24、SEQ ID NO：87、SEQ ID NO：149或SEQ ID NO：211具有至少70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。在一些具体实施方案中，组合启动子盒或启动子与SEQ ID NO：26、SEQ ID NO：89、SEQ ID NO：151或SEO ID NO：213具有至少70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。在一些具体实施方案中，组合启动子盒或启动子与SEQ ID NO：59、SEQ ID NO：122、SEQ ID NO：184或SEQ ID NO：246具有至少70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。在一些具体实施方案中，组合启动子盒或启动子与SEQ ID NO：65、SEQID NO：128、SEQ ID NO：190或SEQ ID NO：252具有70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％的同一性。

可用限制酶切割随机组合的序列元件并且克隆在报告基因(其可以是但不限于GFP或LacZ)的上游，并且可产生质粒DNA或病毒载体的文库。可使用但不限于逆转录病毒载体或腺病毒载体来产生文库。

在一些实例中，产生多个/种宿主细胞。在这种情况下，所述方法还可包括筛选由所述方法制备的组合启动子盒，例如，通过筛选由所述方法产生的具有增强表达的报告基因的宿主细胞。通常，选择这样的启动子盒。

在某些方面，所述方法还包括鉴定通过所述方法产生的宿主细胞，或通过上述筛选步骤选择的宿主细胞中的组合启动子盒。在一些方面，鉴定包括确定其中的组合启动子盒或TFRE的序列或一部分序列。

在一些情况下，具有大量TFRE/启动子的合成启动子和盒是有利的，例如通过产生更有效的启动子。因此，在一个实施方案中，通过所述方法产生多个组合启动子盒，所述方法还包括选择一个或更多个由此产生的组合启动子盒。在一个方面，每个所选组合启动子盒中TFRE/启动子的个数大于通过所述方法最初产生的多个组合启动子盒中平均TFRE/启动子的个数。在另一个实例中，TFRE/启动子的个数为：每个启动子大于1、2、3、4、5、6、7、8或更多个，或每个启动子为1、2、3、4、5、6、7、8或更多个，优选地，每个启动子大于2、3、4、5、6、7、8或更多个，或每个启动子为2、3、4、5、6、7、8或更多个。TFRE可存在于启动子盒的有义链或反义链中。

在一个实施方案中，可将包含克隆在最小启动子(其后接着报告基因)上游的随机序列组合文库的载体DNA转染或传染到靶细胞中并且用FACS(荧光活化细胞分选)来分选以选择高水平表达报告基因的细胞。然后分选的细胞用于回收和扩增包含期望的高效转录调控元件组合的载体DNA。

可将由分选细胞回收和扩增的载体用于另一轮筛选，以筛选在不同类型的宿主细胞中具有甚至更高性能和/或活性的转录调控元件组合。

在重复的分选和筛选结束后，可将回收的DNA载体进一步在靶细胞中单独筛选以测试其真实的启动子活性。

作为对照，如果期望细胞类型特异性的启动子，还可在非靶细胞中测试包含转录调控元件组合的所选载体，以排除在非靶细胞中具有显著启动子活性的载体。

还提供了通过这样的方法产生的组合启动子盒，包含这样的组合启动子盒的载体、文库和细胞，以及使用这样的组合启动子盒的方法。在一些情况下，启动子盒包括随机组合的TFRE、最小启动子和报告基因。在一些实施方案中，组合的启动子盒中的每一TFRE在超过50％的多个基因的20、10或5千碱基内，优选在上游区，所述多个基因被鉴定为在特定细胞类型或组织类型或在特定条件下差异表达，并且SYN值大于0.3、0.2、0.1、0.4或0.5，在这里SYN值如上文所定义。载体可以是质粒、病毒、瞬时表达或整合在宿主的基因组中。

还提供了用于驱动和/或调节表达的分离的启动子。在一些实施方案中，这样的启动子包含SEQ ID No：130至191之一或SEQ ID No：130至191之一的互补序列给出的分离的核酸。因此，提供了包含SEQ ID NO：130-191之一或其反义序列(即互补序列)给出的核苷酸序列的启动子。在另一些实施方案中，其包含与SEQ ID NO：130-191中任一个的序列具有至少或大于70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％序列同一性，例如至少90％序列同一性的分离的核酸。在另一些实施方案中，其包含在严格条件下能够与SEQ IDNO：130-191之一给出的DNA序列特异性杂交的分离的核酸。在另一些实施方案中，这样的启动子可包括这样的分离的核酸，其被插入序列或者下述片段进一步断开，所述片段为能够驱动和/或调节表达的此类核酸序列的片段。

分离的启动子还可包括最小启动子，例如Muc-1最小启动子。在一些实施方案中，这样的启动子包括SEQ ID No：5至66之一或SEQ ID No：5至66之一的互补序列给出的分离的核酸。因此，提供了包括SEQ ID NO：5-6中的任一个或其反义序列(即，互补序列)给出的核苷酸序列的启动子。在另一些实施方案中，其包含与SEQ ID NO：130至191中任一个的序列具有至少或大于70、75、80、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100％序列同一性，例如90％序列同一性的分离的核酸。在另一些实施方案中，其包含在严格条件下能够与SEQID NO：5至66之一给出的DNA序列特异性杂交的分离核酸。在另一些实施方案中，这样的启动子可包括这样的分离核酸，其被插入序列或者下述片段进一步断开，所述片段为能够驱动和/或调节表达的此类核酸序列的片段。

还提供了包括这样的分离启动子、与这样的启动子有效连接的异源核酸序列的基因构建物。此类构建物可任选地包含3’转录终止子。

还提供了包括任意一个或更多个上述载体、分离启动子和/或基因基因构建物的宿主细胞。

还提供了使用所提供的启动子、构建物、载体和细胞来驱动/调节表达的方法。在一个方面，所述方法包括驱动或调节细胞中核酸的表达。这样的方法可如下实施：将这样的核酸与上文描述或使用所描述方法制备的任意启动子有效连接，以及将所得基因构建物引入细胞。

还提供了上述启动子用于驱动和/或调节有效连接的核酸的表达的用途。

发明详述

定义

本文使用的“转录调控元件”、“TRE”、“转录因子调控元件”和“TFRE”是指转录调控物所识别的核苷酸序列，并且与“顺式作用序列”或“顺序作用序列元件”或“顺式作用区域”同义，有时候表示为“序列元件”。

本文中使用的“组合转录调控元件”是指包含多于一个转录调控元件的双链DNA分子。所述组合转录调控元件可通过以随机方式连接多个双链转录调控元件来产生。任选地，所述组合序列元件可包括间隔区，并且可通过在将双链DNA分子用于随机连接反应之前对其进行时间进程的核酸外切酶消化来控制间隔核苷酸的长度。

在本文中使用的“寡核苷酸”是指功能上包括顺式作用区的序列，并且可能多至25个或更少的外源核苷酸。因此，术语“寡核苷酸”涵盖的核苷酸数不是固定的，因此不限于任何特定的核苷酸数。

本文中使用的“启动子盒”或“合成启动子盒”是指包含用于有效转录基因之组分的DNA区段，并且可包含一个或更多个转录调控元件、最小启动子区、来自5′-非翻译区或内含子的序列。

本文中使用的“最小启动子区”或“最小启动子”是指一种短DNA区段，其本身不具有活性，但是在与其他转录调控元件组合时可介导强转录。最小启动子序列可来源于多种不同来源，包括原核和真核基因。其实例为多巴胺β羟化酶基因最小启动子和巨细胞病毒(CMV)立即早期基因最小启动子。

本文中使用的“组合启动子盒”或“合成组合启动子盒”是指包含组合转录调控元件的启动子盒。

本文中使用的“转录调控物(transcription regulator)”是指包括与顺式作用区结合并且正调节或负调节基因表达之蛋白质的任何因子。转录因子或抑制物或共活化物或共抑制物都包括在内。

近年来功能基因组学的进步导致认识了更多直接涉及特定基因的增强转录的顺式调控元件。实际上，使用生物信息学解决在病变细胞中活跃的复杂转录途径的能力实际上可有助于选择下述合适的顺式元件的过程，所述合适的顺式元件可用于设计复杂病理学如癌症中的合成启动子。

在癌症中，基因表达谱的改变通常是控制生长、增殖和迁移的信号通路的异常活化所诱导的细胞转录机制发生改变的结果。这样的改变导致在正常细胞中未发现的转录调节网络的活化，为我们提供了设计仅在癌细胞中有活性的合成启动子的机会。

如果微阵列技术如已经报道的确实导致设计对于个别癌症或甚至是患者量身定做的治疗方案，那么重要的是将设计用来鉴定信号和转录网络的功能基因组学方法用于设计癌症特异性的启动子，从而可形成有效的基因治疗策略。

用于分析微阵列数据集的生物信息学算法的发展已经被广泛应用于研究不同疾病和环境条件下的转录网络运作。目前为止，尚未尝试锅使用这种方法来设计仅在这些特定疾病或环境条件下有效的合成启动子。

本文描述了下述方法：通过该方法使用广泛普及的生物信息学软件工具分析由基因组学实验(例如，微阵列分析)得到的数据，其作用是发现过度存在的顺式启动子元件，以设计仅在癌细胞中有活性的合成启动子。这代表了在设计癌症特异性启动子中的巨大飞跃，其随后可用于研究癌症或设计人恶性肿瘤的安全有效的基因治疗方法。

推理性启动子选择和设计

在一个方面，所提供的方法基于功能基因组学在合成启动子中的开发中的应用，例如，用于控制特定环境条件下(例如，以疾病或组织特异性的方式)或响应于外源物质(化学的或生物的)之引入的基因表达。已经构建了在若干原核和真核系统中使用的合成启动子。

设计真核系统的合成启动子的可用方法包括任意选择良好表征的跨越50至100个核苷酸的顺式调控元件。然后，使这样的元件包含在通过随机连接产生的合成启动子文库中，并且选择所关注细胞类型(Li，X.，Eastman，E.M.，Schwartz，R.J.，&Draghia-Akli，R.Synthetic musclepromoters：activities exceeding naturally occurring regulatorysequences.Nat.Biotechn01.17，241-245(1999)；Dai，C，McAninch，R.E.，&Sutton，R.E.Identification of synthetic endothelial cell-specificpromoters by use of a high-throughput screen.J.Virol.78，6209-6221(2004))。

在一个方面，所提供的方法和组合物应用功能基因组学和高级生物信息学方法获得人基因组的序列，以便以推理性方式设计合成启动子。通常，在所提供的方法中，选择转录因子调控元件(TFRE)如顺式调控元件，以非随机方式包含在合成启动子文库中。在一些方面，所述方案使用来自全局基因表达分析的信息鉴定与特定基因表达谱相关的TFRE(例如，顺式调控元件)，允许对调控元件给予权重和分级，开发改进的选择方法。

因此，本文提供的方法优于任意选择在合成启动子中使用的顺式元件的方法。在一些方面，与可利用的方法选择的那些相比，所提供的方法能够选择较短的顺式调控元件。在一些方面，所提供的方法鉴定下述顺式元件：之前不知道涉及在被选顺式元件的转录网络中的顺式元件，或者在使用随机选择方式时不会被选择的顺式元件。在一些方面，与可利用的方法相比，所提供的方法产生更短、更复杂、和/或包含更多顺式调控元件的合成启动子。

真核生物中基因表达的调节极其复杂，并且通常通过多种转录因子的协同作用进行。在基因表达控制中使用反式因子组合允许细胞用相对少的转录因子数量来调节不同生物进程。

如本文所讨论的，所提供的方法可通过若干可利用的工具使用微阵列数据来鉴定TFRE，例如顺式调控元件。还可以用该信息来解析在不同环境条件下的细胞中有活性的转录网络。在酵母中，通过特别检查在组合顺式元件存在下的上调基因聚类来建立转录调控的组合性质的重要性。通过检查暴露于不同环境条件的酵母的微阵列数据，能够构建揭示不同调控元件之间的功能相关性的转录网络。这种方式导致鉴定具有很多交互的关键基序，表明一些因子作为促进物蛋白质在其功能中协助其基因特异性伴侣。

因此，核心数量的转录因子通过采取多种构造来介导这样的多组生物反应。在一个方面，所提供的方法使用这种现象来劫持多因素疾病(例如癌症)中出错的转录程序，以开发疾病特异性或条件特异性的调控元件。例如，在癌症中，解释癌症微阵列数据的方法不断进化，现在可以在转化细胞中描述更加全面的转录调节图景。

癌症数据库的中期分析(meta-analysis)允许鉴定基因模块，允许将复杂的癌症特征简化为少量的活化的转录程序，甚至简化为鉴定在最主要癌症类型中具有活性的共用程序。这种分析还可有助于鉴定其下调在肿瘤发展中具有重要作用的特定转录因子。例如，在一个研究中，在搜寻将转录因子与被发现在特定癌症类型中上调的靶基因相关联的调节程序的过程中，肯定了癌症中异常E2F活性的重要性(Rhodes，D.R.等.Mining forregulatory programs in the cancer transcriptome.Nat.Genet.37，579-583(2005))。已经表明E2F靶基因在超过一半的所检验基因表达谱中不成比例地上调，其在多种不同癌症类型得到。因此认为综合性生物信息学分析具有产生关于癌症演进的新假说的潜力。

在一些方面，本发明基于以下发现，对疾病特异性的转录程序的阐述允许构建合成的条件启动子元件，其可用于基因治疗以驱动所关注病理部位受限的基因表达。提供了以下方法，即使用综合性计算方法鉴定在特定疾病中、在特定真核细胞类型中和/或在特定环境条件下(例如，癌症适应症)下具有活性的转录程序的方法。

这样的方法可用于设计例如在治疗方法中使用的在特定疾病、细胞类型、组织类型和/或一种或更多种环境条件下驱动基因表达的合成启动子元件。

在一个实施例中，提供了用于推理性设计高效驱动细胞毒性基因的合成启动子元件的方法，以及使用所述方法的抗癌治疗方法。在一个方面，可使用通过实验得到或获自公共资源如Oncomine的微阵列数据来鉴定在癌症干细胞中被发现上调的基因聚类中过度出现的调节序列。

生物信息学工具

可使用不同的生物信息学工具(实例在表1给出)筛选TFRE，例如顺式调控元件。通常，这些工具通过比较差异调节基因之间的基因表达谱和检查上游序列(可通过基因组序列资源获得)来发挥作用。对于进化足迹(phylogenetic footprinting)工具，比较不同物种之间特定基因的非翻译区，返回最高保守性序列并且认定为潜在的顺式元件。可使用全部可利用方法的组合以鉴定特定细胞或组织类型(例如，癌症干细胞)的特征谱中主要的调控序列。然后使用所鉴定的最常见序列作为在设计合成启动子中使用的构建块。

通常用于鉴定在癌细胞中异常调节的基因的数据来源于微阵列数据。这些方法可提供特定基因的调节的详细信息。还可能对筛选被鉴定为假阳性的基因是必需的，例如过表达可能由于转录因子活性的改变而不是染色体扩增。

所关注细胞或组织

本发明在某些方面涉及在所关注细胞或组织类型中进行的测定。特别地，所提供的方法和组合物涉及与以下背景下的基因表达相关的TFRE：一种或更多种疾病、状态、环境条件、细胞类型(例如，真核细胞类型)、组织类型和域暴露于特定试剂如生物物质(例如，配体)、化学物或微生物病原。

细胞类型包括任意类型的细胞或多个细胞(例如组织)。在所提供的方法中使用的细胞或组织包括原核细胞和组织，通常为真核细胞和组织。合适的真核细胞可来源于生物如动物(例如哺乳动物，优选人)或其他真核生物(例如，植物)。这样的细胞或组织可直接从这样的生物获取或可由其产生。例如，细胞或组织可来源于来自这样的生物的原代、继代或永生化细胞系或培养物。

细胞或组织可以是天然存在的细胞或组织，或者可以已经过人工操作的。例如，可通过暴露于改变的环境或疾病特异性的条件来操作细胞或组织。例如，可通过暴露于物质如生物配体、化学物或微生物病原来操作细胞或组织。

生物配体可以是能够影响细胞，特别是影响基因转录的任意生物分子。生物配体可以是能够与细胞结合或者在细胞中作用的分子。生物配体可以是例如多肽、蛋白质、核酸或碳水化合物分子。合适的生物配体包括激素、生长因子和神经递质。

化学物可以是能够对细胞起作用，优选导致细胞内的基因转录改变的任意的物质。化学物可以是例如化学治疗药物或治疗性小分子药物。

微生物病原可以是任何病毒、细菌、真菌或能够造成哺乳动物中疾病的其他感染性物质。

细胞或组织可来源于异常或疾病来源。例如，细胞或组织可取自或来源于患有疾病的生物。优选地，细胞或组织来自受疾病影响的组织或器官。例如，在疾病为癌症时，细胞或组织可取自肿瘤。细胞可来自或来源于体外肿瘤细胞系。

细胞或组织类型之一是真核细胞，包括动物、植物、真菌和其他真核细胞。例如，细胞或组织类型可来自哺乳动物、酵母、昆虫、牛、猪、鼠、马、犬、猫、鸟、鱼、羊、昆虫、猿和/或人。

在一些方面，细胞或组织类型是来源于大脑、小脑、肾上腺、卵巢、胰腺、甲状旁腺、垂体、睾丸、甲状腺、乳房、脾脏、扁桃体、胸腺、淋巴结、骨髓、肺、心肌、食管、胃、小肠、结肠、肝脏、唾液腺、肾脏、前列腺、血液的组织或细胞或其他细胞或组织类型。

在一些方面，所述条件是疾病条件，例如癌症、炎症疾病、传染病、遗传缺陷或其他疾病。癌症可以是大脑、小脑、肾上腺、卵巢、胰腺、甲状旁腺、垂体、睾丸、甲状腺、乳房、脾脏、扁桃体、胸腺、淋巴结、骨髓、肺、心肌、食管、胃、小肠、结肠、肝脏、唾液腺、肾脏、前列腺、血液或其他细胞或组织类型的癌症，并且可包括多种癌症。例如，在一些情况下，所述多个基因中的每一个在多种不同癌症中异常调节或差异表达。

在一些方面，所述条件是存在遗传缺陷，例如缺乏基因或其一部分，存在特定基因突变，或缺乏特定基因途径的作用，例如在基因工程细胞或生物中或存在天然突变或基因缺陷。

在另一些情况下，所述条件是环境条件。在一些情况下，环境状态是暴露于特定药物、生物物质、化学物或微生物病原。这样的制剂可包括生物制品、小分子、抗体和抗体片段、融合蛋白、重组蛋白、核酸、细胞因子、配体和/或来源于特定细胞培养物或生物或由其分泌的的刺激物，例如来源于具有特定疾病之对象的组织或流体(例如，血液或其他体液)。

转录因子调控元件

所提供的方法涉及对在所关注细胞、组织中和/或疾病或条件(例如，环境条件或疾病条件，暴露于特定试剂，如生物物质(如配体)、化学物或微生物病原)下有活性的转录因子调控元件(TFRE)的鉴定。还提供了TFRE以及包含TFRE的启动子和文库。

适合在所提供方法、组合物、启动子和文库中使用或选择的转录因子调控元件(TFRE)是被转录因子鉴定的核酸分子。例如，TFRE可包括转录因子可以结合的序列。TFRE可包括顺式作用区域。转录因子是指可与这样的顺式作用区域结合并且正向或反向调节基因表达的任何因子，如蛋白质。例如，转录因子可结合在基因编码序列的上游以通过协助或阻断RNA聚合物的结合来增强或抑制基因的转录。很多转录因子是本领域中公知的，包括STAT、E2F、Oct-4、Nanog、Brachury、Pax基因、Sox2和MCEF。

TFRE包含核酸序列，优选双链DNA序列。TFRE可包含顺式作用区域，还可包含另外的核酸。启动子和增强子元件的核心6至8个核苷酸可足够其对应的反式作用因子的结合。事实上，在一些情况下，这种短寡核苷酸对于单独驱动基因表达是足够的。

因此，转录因子结合位点可由6至8个核酸构成。包含该位点的TFRE长至少6至8个核酸。在一些实施方案中，本发明的TFRE的长优选6个或更多、8个或更多、10个或更多、15个或更多、20个或更多、25个或更多、或30个或更多的核酸。在一些方面，所提供的实施方案提供了比可获得的合成启动子更短的合成启动子。在一些实施方案中，TFRE的长为100个或更少、75个或更少、50个或更少、小于50个、30个或更少、25个或更少、20个或更少、或15个或更少的核酸，优选所给上限和下限值的任意组合，优选6至100或6至25个核酸。

TFRE的鉴定

合适的TFRE是在所关注细胞或组织中或在所关注条件下有活性的那些。这样的TFRE可被鉴定为与在所关注细胞或组织中表达的基因相关联。

例如，TFRE可与在细胞、组织或条件下(与另一种细胞、组织或条件相比)差异表达的基因相关联。例如，通过两种不同细胞、组织中或两种不同条件下基因表达和/或不同条件下相同细胞或组织中基因表达的比较可见到基因的差异表达。可将在一种细胞或组织类型中的表达与在不同但是相关的组织类型中的表达进行比较。例如，在所关注细胞或组织为疾病细胞或组织或已经如本文描述人为操作时，可将该细胞或组织中基因的表达与相同基因在相应的正常或未处理细胞或组织中的表达进行比较。这可允许鉴定在两种细胞或组织类型之间或在不同条件下差异调控的基因。

与这样的基因相关联的TFRE通常位于细胞的基因组中基因的编码序列附近。例如，这样的TFRE可位于紧接该编码序列上游或下游的区域。这样的TFRE可位于启动子或调节基因表达的其他调控序列附近。本领域技术人员可使用他在这一方面的知识和本文描述的方法确定TFRE的位置。

因此，可通过所关注细胞或组织和/或在特定所关注条件下的测定来鉴定合适的TFRE。可通过常规方法鉴定在所关注细胞或组织中差异表达的基因。例如，可使用常规方法将基因在所关注细胞或组织中的表达谱与作为对照的在其他细胞或组织类型中的表达谱进行比较。因此，可鉴定在所关注细胞或组织中上调或下调的基因。这样的分析可使用例如微阵列分析或基因表达系列分析(serial analysis of gene expression，SAGE)。

可使用来自所关注细胞或组织的表达分子的样品或使用来自所关注细胞或组织的全部表达分子进行这样的分析。例如，在一个实施方案中，可使用所关注细胞中包含的全部RNA进行这样的分析。因此，在一些实施方案中，可使用本发明的方法分析所关注细胞或组织的全部基因组的表达。

这样的分析可用于评价大量基因或一小群基因的表达。因此，根据本发明的实施方案，可使用已知通过大量不同转录因子调节或每一基因仅通过一两种转录因子调节的选择基因。

使用基因表达数据鉴定基因模块的能力已改变了解释微阵列数据的方式，所述基因模块介导对环境刺激(或疾病条件)的特定应答以及使其调控与每一模块中基因上游存在的顺式调控元件相关联。例如，通过使用模块方法，能够检查特定基因模块是否在多种不同癌症中有活性，或者个别癌症是否需要独特基因模块的作用。这允许筛选不同癌症之间的转录共同点，其可有助于设计广泛适用的抗癌治疗策略。使用来自1975个微阵列的基因表达数据(跨越22种不同癌症)来鉴定在特定癌症类型中活化或去活化的基因模块(Segal，E.，Friedman，N.，Roller，D.，&Regev，A.Amodule map showing conditional activity of expression modules in cancer.Nat.Genet.36，1090-1098(2004))。骨成骨细胞模块在主要转移性部位已知为骨的若干癌症中有活性。同上。因此，鉴定了多种不同癌症之间的骨转移的共同机制，其可以作为开发抗癌治疗的靶标。

还能够鉴定控制每一模块中基因表达的高水平调节物(Segal，E.等.Module networks：identifying regulatory modules and theircondition-specific regulators from gene expression data.Nat.Genet.34，166-176(2003))。检查模块中每一基因的上游调控序列可揭示已知为模块调节物的靶标的共同顺式调控元件的存在。因此，通过鉴定控制不同癌症中基因模块活化的调节蛋白质，应能够外推出介导转化细胞中转录的重要顺式作用元件。因此，允许例如基于在多种癌症特异性基因模块中最具活性的顺式调控元件来设计和构建肿瘤特异性启动子。

因此，一旦确定在所关注细胞或组织中或特定条件下基因的差异表达，可从接近差异表达基因的序列(例如，差异表达基因上游的序列)中筛选TFRE，例如顺式作用元件。认为控制差异表达基因的表达的顺式调控元件在所关注细胞或组织中有活性。因此，对于那些将有活性的顺式元件，控制其活性的转录因子必定存在于该细胞类型中。因此，这允许鉴定在所关注细胞或组织中有活性的TFRE。

可使用已知方法鉴定TFRE(例如，顺式元件)，例如使用已知生物信息学技术进行筛选。

鉴定人基因组中控制功能相关的基因的表达的能力改变了功能基因组学的应用。直到最近，微阵列分析数据的解读还局限于对基因功能可能对单个途径或响应重要的基因的鉴定。而这与细胞表型中全局变化的相关性则在很大程度上被忽视，这仅仅是因为研究这的工具不存在。随着生物信息学的进步，我们现在能够利用大规模基因分析中得到的全部数据，并且将其与人基因组的全序列的知识结合，利用转录因子、基因本体和分子功能数据库，从而更全面利用由全局基因表达研究所产生的庞大数据库。

近二十年来，科学家已经编制了收录有响应基因调控的反式因子和顺式元件的数据库(Wingender，E.Compilation0f transcription regulatingproteins.Nucleic Acids Res16，1879-1902(1988))。这已经导致出现了有用的工具，例如TRANSCompel(Kel-Margoulis，O.V.，Kel，A.E.，Reuter，I.，Deineko，I.V.，&Wingender，E.TRANSCompel：a database on compositeregulatory elements in eukaryotic genes.Nucleic Acids Res30，332-334(2002))、ABS(Blanco，E.，Farre，D.，Alba，M.M.，Messeguer，X.，&Guigo，R.ABS：a database of Annotated regulatory Binding Sites fromorthologous promoters.Nucleic Acids Res34，D63-D67(2006))、JASPAR(Sandelin，A.，Alkema，W.，Engstrom，P.，Wasserman，W.W.，&Lenhard，B.JASPAR：an open-access database for eukaryotic transcription factorbinding profiles.Nucleic Acids Res32，D91-D94(2004))、HTPSELEX(Jagannathan，V.，Roulet，E.，Delorenzi，M.，&Bucher，P.HTPSELEX—a database of high-throughput SELEX libraries fortranscription factor binding sites.Nucleic Acids Res34，D90-D94(2006))和TRANSFAC(Matys，V.等.TRANS-FAC：transcriptional regulation，from patterns to profiles.Nucleic Acids Res31，374-378(2003))，其基于买验数据对转录因子及其靶序列索引，TRED(Zhao，F.，Xuan，Z.，Liu，L.，&Zhang，M.Q.TRED：a Transcriptional Regulatory Element Database anda platform for in silico gene regulation studies.Nucleic Acids Res33，D103-D107(2005))，其基于实验和自动化数据两者索引。

已知转录因子结合位点的数据库可用于检测给定启动子中蛋白质识别元件的存在，但是仅在相关DNA结合蛋白的结合位点及其对于体内错配的耐受已知时可行。由于该知识当前局限于小的转录因子子集，其可有利于通过启动子DNA序列的比较分析发现调控基序。通过找到多个启动子之间的保守区域，可在不具有转录因子结合位点的现有知识的情况下鉴定基序。

已经出现了若干模型，其通过统计学上的过度出现实现了这一目的。这些算法函数通过将来自整个基因组的多个未翻译区进行比对和鉴定与随机预期相比在统计学上显著过度出现的序列，例如YMF(Sinha，S.&Tompa，M.YMF：A program for discovery of novel transcription factorbinding sites by statistical overrepresentation.Nucleic Acids Res31，3586-3588(2003)；Sinha，S.&Tompa，M.Discovery of novel transcriptionfactor binding sites by statistical overrepresentation.Nucleic Acids Res30，5549-5560(2002))和SCORE(Rebeiz，M.，Reeves，N.L.，&Posakony，J.W.SCORE：a computational approach to the identi-fication of cis-regulatorymodules and target genes in whole-genome sequence data.Site clusteringover random expectation.Proc.Natl.Acad.Sci.U.S.A99，9888-9893(2002))。目前这些工具主要应用于低等真核生物的研究，其基因组复杂度较低并且调控元件容易鉴定，已经证明将这些算法扩展到人基因组中有一些困难。

为了解决该问题，许多研究小组已经表明能够通过搜索转录起始位点基序如TATA和CAAT盒附近的保守调控元件来发掘更高等真核基因组，例如，收录在DBTSS资源(Suzuki，Y.，Yamashita，R.，Sugano，S.，&Nakai，K.DBTSS，DataBase of Transcriptional Start Sites：progress report2004.Nucleic Acids Res32，D78-D81(2004)；Suzuki，Y.，Yamashita，R.，Nakai，K.，&Sugano，S.DBTSS：DataBase of human Transcriptional Start Sitesand full-length cDNAs.Nucleic Acids Res30，328-331(2002))中，或者可搜索在启动子序列中以较高比例存在的富CpG区的推定顺式元件(Davu-luri，R.V.，Grosse，I.，&Zhang，M.Q.Computationalidentification of promoters and first exons in the human genome.Nat.Genet.29，412-417(2001))。

或者，通过同时出现的微阵列技术和人基因组的全序列，现在能够通过比较在特定条件下显示类似表达谱的多个基因的上游非编码区来搜索潜在的转录因子结合位点。可通过基于聚类来选择用于比较分析的基因组，例如分层和k均值(Roth，F.P.，Hughes，J.D.，Estep，P.W.，&Church，G.M.Finding DNA regulatory motifs within unaligned noncodingsequences clustered by whole-genome mRNA quantitation.Nat.Biotechnol.16，939-945(1998))，来自简单表达比(Bussemaker，H.J.，Li，H.，&Siggia，E.D.Regulatory element detection using correlation withexpression.Nat.Genet.27，167-171(2001))或基因产物的功能分析(Jensen，L.J.&Knudsen，S.Automatic discovery of regulatory patternsin promoter regions based on whole cell expression data and functionalannotation.Bioiinformatics.16，326-333(2000))。这为科学家提供了鉴定下述启动子元件的机会，所述启动子元件即响应于特定环境条件或在介导特定组织差异中具有重要作用或在介导病理学表型中可特别有活性的启动子元件。

进化足迹或比较基因组现在被用于通过比较来自多种生物的已知基因附近的进化保守的非翻译元件来鉴定新启动子元件。物种之间基因组序列的可用性显著推进了比较基因组学和对进化生物学的理解。分子进化的中性理论为鉴定不同物种基因组中的DNA序列提供了框架。

其中心假说在于，基因组中的绝大部分突变相对于生物的适应性是中性的。尽管通过选择快速排除有害突变，中性突变保存下来并且跟随整个种群的遗传漂变的随机过程。因此，非中性DNA序列(功能DNA序列)在进化过程中必须是保守的，而中性突变累积。初步研究充分证明，可将人类基因组与其他生物的基因组适当比较，以允许有效鉴定功能DNA序列中的同源序列。

随后，已出现了多种生物信息学工具，其通过比较不同生物的基因组之间的非编码调控序列来运作，从而能够鉴定候选基因的启动子中显著富集的保守转录因子结合位点，或来自由微阵列分析所鉴定的聚类。

这些软件套装的实例包括TRAFAC(Jegga，A.G.等.Detection andvisualization of compositionally similar cis-regulatory element clusters inorthologous and coordinately controlled genes.Genome Res12，1408-1417(2002))、CORG(Dieterich，C.，Wang，H.，Rateitschak，K.，Luz，H.，&Vingron，M.CORG：a database for COmparative Regulatory Genomics.Nucleic Acids Res31，55-57(2003))、CONSITE(Lenhard，B.等.Identification of conserved regulatory elements by comparative genomeanalysis.J.Biol.2，13(2003))、CONFAC(Karanam，S.&Moreno，C.S.CONFAC：automated application of comparative genomic promoteranalysis to DNA microarray datasets.Nucleic Acids Res32，W475-W484(2004))、VAMP(La Rosa，P.等.VAMP：visualization and analysis ofarray-CGH，transcriptome and other molecular profiles.Bioinformatics.22，2066-2073(2006))和CisMols Analyser(Jegga，A.G.等.CisMolsAnalyzer：identification of compositionally similar cis-element clusters inortholog conserved regions of coordi-nately expressed genes.Nucleic AcidsRes33，W408-W411(2005))。通常这些工具通过比对物种之间靶基因的上游序列来运作，从而鉴定可潜在作为顺式调控元件的保守区域，并且这些工具随后可应用于阐明说明多种模型中的转录调控网络。

进行了大量努力来收录转录因子及其对应的顺式元件。最近，这些数据库已经被编辑，其旨在利用它们阐明响应不同刺激物活化的调控网络。这些资源的一些实例包括PreMod(Blanchette，M.等.Genome-widecomputational prediction of transcriptional regulatory modules revealsnew insights into human gene expression.Genome Res16，656-668(2006)；Ferretti，V.等.PReMod：a database of genome-wide mammalian cis-regulatory module predictions.Nucleic Acids Res35，D122-D126(2007))、CisView(Sharov，A.A.，Dudekula，D.B.，&Ko，M.S.CisView：abrowser and database of cis-regulatory modules predicted in the mousegenome.DNA Res13，123-134(2006))、BEARR(Vega，V.B.，Bangarusamy，D.K.，Miller， L.D.，Liu，E.T.，&Lin，C.Y.BEARR：Batch Extraction andAnalysis of cis-Regulatory Regions.Nucleic Acids Res32，W257-W260(2004))、VISTA(Dubchak，I.&Ryaboy，D.V.VISTA family ofcomputational tools for comparative analysis of DNA sequences and wholegenomes.Methods Mol.Biol.338，69-89(2006))、PromAn(Lardenois，A.等.PromAn：an integrated knowledge-based web server dedicated topromoter analysis.Nucleic Acids Res34，W578-W583(2006))、CRSD(Liu，C.C.等.CRSD：a comprehensive web server for composite regulatorysig-nature discovery.Nucleic Acids Res34，W571-W577(2006))和MPromDb(Sun，H.等.MPromDb：an integrated resource for annotationand visualization of mammalian gene promoters and ChlP-chipexperimental data.Nucleic Acids Res34，D98-103(2006))。

表1列出了一些当前可利用的数据库，其可在搜索潜在的调控元件时使用。该表提供了在鉴定潜在的顺式作用序列时使用的资源类型的实例。

因此，可使用将表1中所列的任何数据库或任何等同的公共资源来鉴定TFRE(例如，顺式调控元件)，所述TFRE与在所关注细胞或组织中表达的基因，优选在所关注细胞或组织中差异表达的基因相关。优选地，使用至少一种从Pubmed、DBTSS、TRAFAC、TRANSCompel、TRANSFAC、Phylofoot、CORG、CONSITE、CONFAC、CisMols、TRED、ABS、JASPAR、HTPSELEX、PAINT、PreMOD、CisView、BEARR、VISTA、PromAn、CRSD、MPromDb、VAMP和Oncomine中选择的数据库。

在所提供的方法中，转录调控元件被鉴定为在接近多个基因(例如，表达与所关注细胞类型、组织类型或条件相关的基因)的序列内。通常，序列在每一所选基因的上游或下游20kb的区域内，优选在每一这些区域的10kb、更优选5kb、最优选上游。

在所提供方法的一些实施方案中，为了有助于推理性选择转录调控元件以及对其重要性排序，计算每一序列的出现频率。

如本文使用的，频率定义为与多个基因中的任一个相关的给定转录调控元件(TFRE)出现的次数(即，与多个基因中的任一个相关的TFRE的次数)除以与所述多个基因中的任一个相关的转录因子调控元件的总数。在一些实施方案中，为了计算频率，无论TFRE存在于有义链还是反义链中(即，不论是正向还是反向)，都认为其与给定的基因相关联。在另一实施方案中，仅在TFRE存在于有义链或仅在其存在于反义链时，才认为其与给定基因相关联。在一个实施方案中，为了计算频率，仅在TFRE存在于有义链时，认为其与给定基因相关联。除非另外说明，否则如果存在于任意链中，则认为TFRE是相关联的。在一些实施方案中，针对期望的所述多个基因附近来定义频率。在这种情况下，频率是期望的附近(例如，多个基因中的任一个的20、10或5kb以内)内给定TFRE的出现次数除以在所述多个基因的该附近内全部TFRE的总数。例如，如果转录调控元件在期望区域(例如，所述多个基因中任一的上游或下游20、10或5kb内)出现150次，在所述多个基因的该附近内鉴定的转录调控元件位点总数是总计5000个，那么该转录调控元件的频率为150／5000。同样的，在一些实施方案中，出现于有义链或反义链(即，正向或反向)，在另一些实施方案中，仅出现于有义链或仅出现于反义链。

考虑到较长序列的保存性是其在介导表达中重要性的良好指示，使用关系频率^(1/长度)向较长的顺式调控元件增加权重，频率按照上文定义，长度为转录调控元件的核苷酸长度。在本文中计算值(其为频率的n次方根，其中n是长度)也称为SYN值。

通常，SYN值与阈值一起用作选择标准，允许推理性选择TFRE，例如输入顺式调控元件。SYN阈值可以是0.1至0.9之间的任意值。优选地，SYN值必须大于阈值，因此，在某些实施方案中，选择这样的TFRE，其SYN值大于或至少为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9，或为约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9。也可以选择预定数量的TFRE(例如，顺式作用序列)，例如具有最大SYN值的1至10个基因。因此，在一些实施方案中，在被认为接近多个基因的多个TFRE中，所选为具有前1、2、3、4、5、6、7、8、9或10个最大SYN值那些，SYN值如上式定义。

在一个优选实施方案中，阈值大于0.3，优选大于0.4，更优选大于0.5。在另一优选实施方案中，阈值为0.5。

合成启动子的构建

最近几年，已经有人尝试基于以随机形式连接短寡核苷酸启动子和增强子元件来构建组织特异性转录的合成启动子。

在一种旨在鉴定肌肉特异性表达的合成启动子的方法中，将来自肌肉特异性和非特异性转录因子的结合位点的双链体寡核苷酸随机连接并且克隆在驱动萤光素酶的最小肌肉启动子的上游(Li，X.，Eastman，E.M.，Schwartz，R.J.，&Draghia-Akli，R.Synthetic muscle promoters：activities exceeding naturally occurring regulatory sequences.Nat.Biotechnol.17，241-245(1999))。通过以下方式分别测试约1000个质粒克隆：瞬时转染到肌肉细胞中，并且通过光度计以96孔形式确定萤光素酶活性。通过该方法，鉴定了多种强度相当于最常用的病毒启动子如CMV的高活性且肌肉特异性的启动子。

在一种检验1百万克隆的尝试中，Sutton和同事基于慢病毒载体基文库的建立采用不同的筛选方法(Dai，C，McAninch，R.E.，&Sutton，R.E.Identification of synthetic endothelial cell-specific promoters by use of ahigh-throughput screen.J.Virol.78，6209-6221(2004))。在该研究中，将来自内皮细胞特异性和非特异性转录因子结合位点的双链体寡核苷酸以随机方式克隆在驱动HIV自失活表达载体中eGFP的表达的最小启动子上游。然后将1百万个克隆的集合转染到内皮细胞中，通过FACS分选法选择最高表达的那些。然后通过PCR从稳定转染子中回收合成启动子，所述PCR是针对整合了HIV载体的基因组DNA。

该研究的结果还证明了从随机筛选中分离多种高活性内皮细胞特异性合成启动子元件的可能性。

当采用这种方法设计合成型组织特异性启动子时，重要的是使用精心设计的双链体寡核苷酸。例如，每一元件必须以组装时调控元件出现在DNA螺旋的同一侧的方式隔开，必须使用相关的最小启动子元件以使得筛选产生能够仅在所关注组织中有效表达的启动子，并且必须有一些分选机制，例如增加Sp1位点，以保护其免受甲基化所致的启动子沉默。

这种方式的随机性质实际增加了找到有活性组织特异性启动子的机会，这是由于在通过连接整个启动子区而不是个别启动子元件来推理性设计合成启动子的一些研究中，实际上导致鉴定到较低效率的组织特异性启动子。因此，通过该方法小心选择相关启动子／增强子元件(其将产生有效的组织特异性启动子)的能力对于这种方法的成功是至关重要的。

因此，在本发明的一些实施方案中，可将两个或更多个上述所选TFRE组合在一起作为合成启动子的一部分。启动子元件包括含有允许基因转录之组件的DNA序列。

启动子元件可包括一个或更多个转录调控元件、最小启动子区和来自基因5′非翻译区或内含子的序列。在一个实施方案中，启动子元件还可包括允许一个或更多个普遍表达的转录因子结合的一个或更多个顺式元件。启动子元件可包括一个或更多个允许瞬时基因表达的调控元件。启动子元件可包括一个或更多个允许可诱导基因表达的调控元件。

如本文使用的，最小启动子是指单独时无活性，但是在与其他转录调控元件结合时可介导基因转录的DNA序列。最小启动子序列可来源于多种来源，例如原核和真核基因。最小启动子的实例包括多巴胺β-羟化酶启动子和巨细胞病毒(CMV)立即早期基因最小启动子。

根据本发明的一个方面，两个或更多个TFRE在单个启动子元件中与最小启动子相组合。这可通过在连接反应条件下将多个本文描述的TFRE混合来实现。TFRE可彼此直接连接。TFRE可被间隔核苷酸隔开。例如，TFRE可被1个或更多个、2个或更多个、5个或更多个、10个或更多个或20个或更多个核苷酸隔开。这些间隔核苷酸可以是例如1至20个核苷酸。

在本发明的一个实施方案中，编码TFRE的寡核苷酸还包括单链核苷酸的短突出端，其能够与另一寡核苷酸的突出端杂交。这样的突出端也可以为1至20个核苷酸长。

通过这种方式组合的TFRE可通过本文描述的方法来鉴定，或可能已经被鉴定为在所关注细胞或组织中有活性。

启动子元件优选包含2个或更多TFRE。每一启动子元件中的TFRE的数量可不同，或每一启动子元件可包含相同数量的TFRE。启动子元件可包含2个或更多个、3个或更多个、4个或更多个、5个或更多个、或6个或更多个TFRE。优选地，为文库(例如，来自琼脂糖凝胶)选择0.1至1kB的连接寡核苷酸。启动子元件中的TFRE的序列可存于启动子元件的有义或反义链(即，正向或反向方向)。相同的TFRE可出现多次。

启动子元件可布置成使得TFRE位于最小启动子的上游。或者，TFRE可位于最小启动子的下游。

表达载体

使用本文描述的多个启动子元件产生表达载体的文库。每一表达载体包括抗生素抗性基因。例如，基因的表达可赋予对新霉素、博来霉素、潮霉素或嘌呤霉素的抗性。本文描述的启动子元件包含在载体中，使得其与所述基因有效连接。即，启动子元件的位置使得其能够在所关注细胞中表达所述基因的编码序列。载体优选地不包含除存在于所述启动子元件中的那些以外的启动子或调控序列。这确保了由启动子开始的任何基因转录都必须受到引入载体的启动子元件的调控。

载体可以是能够在所关注细胞或组织中表达抗生素抗性基因的任何载体。例如，载体可以是质粒或病毒载体。载体可以是整合在宿主基因组中的载体，或允许基因表达但并未整合的载体。

可提供多个本文描述的多种不同载体。其可形成文库。例如，在上述差异表达的分析已经导致鉴定所关注细胞或组织类型的多个TFRE时，可产生包括这些TFRE的多个启动子元件。可使多拷贝TFRE的混合物组合以产生多种不同的启动子元件。这些启动子元件各自可包含在载体中以产生针对所关注细胞或组织类型的载体文库。

测定方法

可从本文描述的载体文库中分析能够在所关注细胞或组织中表达抗生素抗性基因的载体。简言之，这样的分析可包括以下步骤：用来自文库的载体转染所关注细胞或组织的细胞；将所述细胞培养在适合基因表达的条件下；以及筛选抗生素抗性细胞。

可使用任意合适的方法实现转染。多种转染方法是本领域中已知的，并且技术人员能够根据期望使用的载体类型和细胞或组织类型选择合适的方法。

培养步骤可包括将转染细胞保持在合适的条件下以允许基因表达的发生。当启动子元件中包括可诱导的调控序列时，将细胞或组织暴露与相关诱导剂下可能是必要的。

然后可向培养基中添加相关抗生素。在启动子元件确实包含允许基因表达的合适的TFRE组合的那些细胞中，抗生素抗性基因将表达，细胞将对施加的抗生素有抗性。例如，在所关注细胞或组织包括活化启动子元件中的顺式作用因子所需要的特定转录因子组合时，启动子元件可能能够调节抗生素抗性基因的表达。

在启动子元件不包含允许基因表达的合适的TFRE组合的那些细胞中，细胞将不具有抗生素抗性并且将被存在的抗生素杀死。例如，当所关注细胞或组织不包含正确的转录因子时，或不包含允许顺式元件调控基因的表达的足够水平的那些转录因子时，抗生素抗性基因将不表达。

这将允许选择其中的启动子元件能够调控所关注细胞或组织中的基因表达的那些细胞。可以在该步骤中向顺式作用元件中引入突变。

在一个实施方案中，该方法可包括另外的步骤。为了确定这样的启动子元件的活性是否是所关注细胞或组织特异性的，可进行另外的分析步骤以确定在载体转染到不同细胞中时抗生素抗性基因是否依然表达。例如，当用特定生物配体、化学物或微生物病原处理所关注细胞或组织时，还对未处理细胞中启动子元件的活性进行评估，以确定启动子元件是在该细胞类型中普遍具有活性还是仅在进行了这样的处理的细胞中有活性。类似的，在细胞或组织类型为疾病组织如癌细胞类型时，可评估“正常”的相应组织类型中启动子元件的活性以确定启动子元件是在该组织类型中普遍有活性，还是仅在疾病条件下有活性。

可用于设计和构建合成启动子元件的两种策略的实例如下：

细菌文库方法

将使用上文详细说明的比较基因组学和综合生物信息学方法发现的在癌细胞中被上调的转录程序所对应的调控元件与缺少启动子的哺乳动物表达载体中的抗生素选择基因上游的最小启动子随机连接在一起。设计双链体寡核苷酸以使得当连接在一起时调控元件存在于双螺旋的同一面并且包含Sp1元件，从而防止启动子通过甲基化而沉默。使用不同比例将代表启动子元件的寡核苷酸连接在一起，并且每一连接混合物通常包括5或6个不同的顺式元件。然后将所得质粒构建物用于转染96孔形式中的对应癌细胞系，以通过抗生素选择发现最佳启动子，分离有希望的候选启动子，测序，然后进一步转染到对照细胞系中以确定肿瘤细胞特异性。然后选择包含在癌细胞系中表现出受限表达的合成启动子的克隆。

逆转录病毒文库方法

如上文描述设计双链体寡核苷酸并且连接到包含驱动抗生素选择基因的表达的最小启动子的自失活(self-inactivating，SIN)小鼠莫洛尼逆转录病毒载体中。合并细菌克隆，构建逆转录病毒载体的混合文库，并且用于稳定转导选择的癌细胞系。感染癌细胞从而使得仅50％的细胞表达抗生素选择基因，并且使用非常高浓度的抗生素来从保留的群体中分选最强表达的细胞。然后通过稀释克隆的方式分离转导有最佳合成启动子元件的癌细胞系的单克隆。分离基因组DNA，通过PCR回收合成启动子，并且克隆在包含eGFP的缺少启动子的哺乳动物表达载体中以评估对照细胞系中的表达，从而确认肿瘤特异性。

被鉴定启动子元件的用途

本发明还扩展至本发明的启动子元件和载体，例如通过本发明的方法鉴定的启动子元件和载体，以及它们的用途。

通过本发明的方法鉴定的在所关注细胞或组织类型中有活性的启动子元件或载体可用于将基因靶向至所述细胞或组织类型。例如，在本发明的方法表明启动子元件在特定细胞类型中有特异性活性，但是在对照细胞类型中没有活性，那么该启动子元件可用于在所关注细胞类型或组织类型或在所关注条件下特异性直接表达。

因此，本发明的启动子元件可与期望在特定细胞类型中表达的启动子相组合。例如，可产生在其中将本发明的启动子元件与基因的编码序列有效连接的载体。然后可用该载体转染所关注细胞。载体可以是本文中描述的任何载体类型，例如质粒载体或病毒载体。或者，这样的载体可通过用所关注基因替换载体中被本发明的方法鉴定的抗生素抗性基因来产生。

因此，提供了在所关注细胞或组织中或者在特定条件下表达基因的方法，其包括以下步骤：使用例如所提供的用于鉴定启动子元件的方法鉴定在细胞或组织中或在特定条件下能够调节基因表达的启动子元件；产生包括与基因有效连接的所述启动子元件的表达载体；以及用所述载体转染细胞或组织并且允许表达发生。

这些方法可用于在体外操作培养中的细胞。例如，可使用本发明的启动子元件操作体外细胞群中的基因表达。

这些方法可用于在体外操作人或动物体或其他真核生物如植物中的细胞。例如，可提供本发明的启动子元件或载体(例如，如本文所描述的，已经被认定能够调节所关注细胞或组织中的基因表达的启动子元件或载体)在准备在人或动物体或有机体中进行的治疗或诊断方法中使用。这样的启动子元件或载体可用于制造治疗处理所关注细胞或组织的药物。例如，在所关注细胞或组织来自疾病(例如，癌症)组织时，那么所述启动子元件或载体可用于治疗该疾病(例如，癌症)。例如，所述启动子元件或载体可用于在特定疾病组织中直接表达具有治疗作用的多肽。因此，在一些实施方案中，本发明可用于提供治疗疾病(例如，癌症)的方法，方法包括向患有所述疾病的患者递送本发明的启动子元件或载体，例如已经本发明的方法鉴定的启动子元件或载体，其中启动子元件或载体在疾病细胞或组织中直接表达治疗剂。

本发明的另一目的是提供通过实施在前述方法中描述的转录调控元件的选择步骤来选择多个启动子元件的方法，所述多个启动子元件的组合能够特异性调节在特定条件下或在特定细胞或组织中(例如癌细胞中)的基因表达。

在这样的方法的一个方面，在第一步中，提供或鉴定与多个基因中的任一个相关联的多个转录因子调控元件(TFRE)，所述多个基因的表达被鉴定为在特定细胞或组织类型中或在特定条件下(例如，在癌细胞中，例如来自若干不同来源的癌细胞)被异常调节。

从这些多个转录因子调控元件中，根据若干预定标准选择特定TFRE。一个标准通常是选择与超过50％的所述多个基因极其接近(例如，在超过50％的基因的20、10或5kb之内，并且通常在这样的基因的上游)的转录因子调控元件。因此，术语接近／附近(proximity)定义为转录因子调控元件位于相关基因上游或下游20kb的区域内，优选10kb，更优选5kb，最优选在上游区域。无论其序列存在于有义链还是反义链(即，在正向或反向)，可认为TFRE与给定基因相关联。在一个实施方案中，认为仅有义链(即，正方向)中的TFRE与给定基因相关联。

另一标准通常涉及TFRE的出现频率。频率按照上文描述定义。选择通常还涉及每一转录因子调控元件的核苷酸长度。通常按照以下关系使用频率和长度来鉴定候选调控元件(选择的TFRE)：

频率^(1/长度)。

如上文讨论的，计算的值(其为频率的n次方根，其中n是长度)也称作SYN值，其通常用作选择标准和/或对TFRE分排序。SYN阈值可以是0.1至0.9之间的任意值。优选地，所选TFRE的SYN值大于阈值。因此，在某些实施方案中，所选TFRE的SYN值大于或至少为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9，或为约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9。还可选择预定数量TFRE(例如，顺式作用序列)，例如1至10个具有最大SYN值的基因。因此，在一些实施方案中，在被认为与多个基因接近的多个TFRE中，所选的是具有前1、2、3、4、5、6、7、8、9或10，或11、12、13、14、15、16、17、18、19或20的最大SYN值，通常前10的SYN值。

本发明的另一个目的是包括按所规定方法得到的组合启动子盒的载体，其中载体是质粒、病毒，其瞬时表达或插入到宿主细胞基因组中。

这样的组合启动子盒包括2个或更多个、3个或更多个、4个或更多个、5个或更多个、或6个或更多个由所述方法最初选择的TFRE，其中启动子盒中的每一TFRE与最初选择的TFRE的序列具有大于70％，优选大于80％的同源性。TFRE可存在于启动子盒的有义链或反义链中。在一个优选实施方案中，启动子盒还包括最小启动子。在一个优选实施方案中，序列中的TFRE选自表3所示TFRE和／或其互补序列。

本发明的另一个目的是包括所述载体的宿主细胞。宿主细胞的优选实施方案是原核或真核细胞，优选哺乳动物细胞。

本发明的另一个目的是能够驱动和／或调节表达的分离的启动子，其包含：

(a)SEQ ID No.130至191之一或者SEQ ID No.130至191之一的互补序列给出的分离的核酸；或者

(b)与SEQ ID No.130至191之一或SEQ ID No.130至191之一的互补序列给出的DNA序列具有至少90％序列同一性的分离的核酸；或者

(c)在严格条件下与SEQ ID No.130至191之一或SEQ ID No.130至191之一的互补序列给出的DNA序列特异性杂交的分离的核酸；或者

(d)由(a)至(c)中任一项定义的分离核酸，其被插入序列断开；或者

(e)由(a)至(c)定义的核酸中的任一个的片段，该片段能够驱动和／或调节表达。

所述分离的启动子还可包括最小启动子，例如任意已知的最小启动子，例如本文描述的最小启动子中的一种。在一些实施方案中，另外包含最小启动子的分离的启动子包含：

(a)SEQ ID No.5至66之一或SEQ ID No.5至66之一的互补序列给出的分离的核酸；或者

(b)与SEQ ID No.5至66之一或SEQ ID No.5至66之一的互补序列给出的DNA序列具有至少90％序列同一性的分离的核酸；或者

(c)在严格条件下与SEQ ID No.5至66之一或SEQ ID No.5至66之一的互补序列给出的DNA序列特异性杂交的分离的核酸；或者

(d)由(a)至(c)中任一项定义的分离的核酸，其被插入序列断开；或者

(e)由(a)至(d)定义的核酸中的任一个的片段，该片段能够驱动和／或调节表达。

本文中使用的术语“分离的”是指离开其原始来源。优选地，“分离的”启动子不含启动子所来源的生物基因组DNA中启动子的天然侧翼序列(例如，蛋白质编码序列或3′端其他序列)。更优选地，“分离的”启动子也不含5′端天然侧翼序列。更优选地可包含小于约5kb、4kb、3kb、2kb，1.5kb、1.2kb、1kb、0.8kb、0.5kb或0.1kb的启动子所来源的生物基因组DNA中与启动子一起天然存在的核酸序列。

本发明不限于SEQ ID No.130至191或SEQ ID No.5至66之一给出的核酸。本领域技术人员将了解保持相同功能的可能存在的核酸的变体或片段。这些变体或片段可人为产生(例如，通过基因工程)或甚至可天然存在，因此，本发明延伸至SEQ ID No.130至191或其互补序列或SEQID No.5至66或其互补序列之一的变体核酸和片段，其变体或片段可用于本发明的方法。这样的变体和片段包括：

(a)SEQ ID No.130至191或SEQ ID No.5至66之一或SEQ ID No.130至191或SEQ ID No.5至66之一的互补序列给出的分离的核酸；或者

(b)与SEQ ID No.130至191或SEQ ID No.5至66之一或SEQ ID No.130至191或SEQ ID No.5至66之一给出的任意DNA序列具有至少90％序列同一性的分离的核酸；或者

(c)在严格条件下与SEQ ID No.130至191或SEQ ID No.5至66之一或SEQ ID No.130至191或SEQ ID No.5至66之一给出的任意DNA序列特异性杂交的分离的核酸；或者

SEQ ID No.130至191或SEQ ID No.5至66之一的合适的变体涵盖以下同系物，其与SEQ ID No.130至191或SEQ ID No.5至66之一表示的核酸具有至少90％、91％、92％、93％、94％、95％、96％、97％、98％或99％(其优选级递增)的序列同一性。对于SEQ ID No.130至191或SEQ ID No.5至66的互补序列，也是如此。

可使用比对程序来计算同一性百分比。优选地，可使用成对全局比对程序，其实行Needleman-Wunsch算法(J.Mol.Biol.48：443-453，1970)。该算法最大化了配对数量并且最小化了缺口数量。这样的程序为例如GAP、Needle(EMBOSS package)、stretcher(EMBOSS package)或AlignX(Vector NTI suite5.5)，并且可使用标准参数(例如，缺口开放罚分15，缺口延长罚分6.66)。或者，可使用实行Smith-Waterman算法的局部比对程序。这样的程序为例如Water(EMBOSS package)或matcher(EMBOSS package)。本文使用的“序列同一性”优选通过SEQ ID No.130至191或SEQ ID No.5至66中任一个表示的启动子的全长计算。

检索和鉴定同源核酸将在本领域技术人员能力的范围之内。这样的方法包括优选以计算机可读的形式利用本发明提供的序列(例如，SEQ IDNo.5)筛选序列数据库。可使用的序列数据库包括但不限于Genbank(http：／www.ncbi.nim.nih.gov／web／Genbank)、欧洲分子生物学实验室核酸数据库(European Molecular Biology Laboratory Nucleic acid Database)(EMBL)(http：/w.ebi.ac.uk／ebi-docs／embl-db.html)或其版本，或MIPS数据库(http：／／mips.gsf.de／)。比对和比较序列的不同搜索算法和软件是本领域中公知的。这样的软件包括例如GAP、BESTFIT、BLAST、FASTA和TFASTA。优选使用BLAST软件，其计算序列同一性百分比和进行序列之间相似性的统计学分析。称作BLAST程序的程序套件具有5种不同的实现形式：用于核酸序列查询的三种设计(BLASTN、BLASTX和TBLASTX)和用于蛋白质序列查询的两种设计(BLASTP和TBLASTN)。用于进行BLAST分析的软件是可通过国家生物计算信息中心(National Centre for Biotechnology Information)公开得到的。在SEQID No.5的情况下，使用BLAST未发现同源性。

与SEQ ID No.130至191或SEQ ID No.5至66之一具有至少90％序列同一性的同源物的实例是SEQ ID No.130至191或SEQ ID No.5至66之一的等位基因变体。等位基因变体是相同物种的两个不同个体中存在的相同基因的变体，并且通常等位基因变体的差异在于很小的序列变化。等位基因变体可包括单核苷酸多态性(Single NucleotidePolymorphism，SNP)和小插入／缺失多态性(Small Insertion／DeletionPolymorphism，INDEL)。INDEL的大小通常小于100bp。SNP和INDEL形成了大部分生物中天然多态性株系中存在的最大的序列变体组。对于SEQ ID No.130至191或SEQ ID No.5至66的互补序列，也是如此。

可通过PCR或杂交技术从其来源生物体容易地分离适合在根据本发明的方法中使用的同源物。可容易地确定其能够驱动和／或调节表达的能力，例如，通过在以下实施例部分描述的用同源物简单替换实际实例中使用的序列的方法。

本发明涵盖的SEQ ID No.130至191之一或SEQ ID No.5至66之一或其互补序列的其他合适变体是在严格条件下与SEQ ID No.130至191之一或SEQ ID No.5至66之一或其互补序列中的任意一种核酸特异性杂交的核酸。术语“杂交”是指在杂交过程中退火成基本同源互补的核苷酸序列。依赖于这样的杂交过程的分子生物学工具包括聚合酶链式反应(PCR和以其为基础的所有方法)、差减杂交、随机引物延伸、核酸酶S1作图、引物延伸、逆转录、cDNA合成、RNA、DNA序列决定的差异显示、Northern印迹(RNA印迹)、Southern印迹(DNA印迹)。杂交过程还可与固定在基质如磁珠、琼脂糖珠或其他任意树脂上的一种互补核酸进行。依赖于这样的过程的分子生物学工具包括聚(A+)mRNA的分离。杂交过程还可与固定在固体支持物如硝酸纤维或尼龙膜上或通过例如光刻法固定在例如硅质玻璃支持物上(后者称作核酸阵列或微阵列或核酸芯片)的一种互补核酸进行。依赖于这样的过程的分子生物学工具包括RNA和DNA凝胶印迹分析、菌落杂交、噬斑杂交、原位杂交和微阵列杂交。为了使杂交能够进行，通常对核酸分子热或化学变性以将双链分解成两条单链和／或从单链核酸中除去发夹或其他二级结构。杂交的严格度受条件如温度、盐浓度和杂交缓冲组合物的影响。常规杂交条件描述在例如Sambrook(2001)Molecular Cloning：a laboratory manual，3rd EditionCold Spring Harbor Laboratory Press，CSH，New York中，但是技术人员将理解可以以核酸序列的已知或预期同源性和／或长度为函数设计多种不同的杂交条件。杂交的高度严格条件包括高温和/或低钠／盐浓度(盐包括例如NaCl和柠檬酸钠形式的钠)和／或杂交缓冲液中加入甲酰胺和/或降低杂交缓冲液中化合物如SDS(十二烷基硫酸钠去垢剂)的浓度和/或从杂交缓冲液中排除化合物如硫酸葡聚糖或聚乙二醇(促使分子聚集)。严格条件下的特异性杂交是指序列必定非常类似。严格条件下的特异性杂交优选在60℃的温度进行，之后用0.1至1×SSC、0.1×SDS和1×SSC、0.1×SDS洗涤。

在某些实施方案中，本发明还涉及至少15个核苷酸长的核酸分子，其与任意的本发明的核酸特异性杂交，尤其是SEQ ID No.130至191或其互补序列SEQ ID No.192至253，或SEQ ID No.5至66或其互补序列SEQ ID No.68至129之一。在一些实施方案中，本发明还涉及至少15个核苷酸长的核酸分子，其通过聚合酶链式反应特异性扩增本发明的核酸。

本发明所涵盖的SEQ ID No.130至191或SEQ ID No.5至66中的任何一个的另外的变体是上文描述的SEQ ID No.130至191或SEQ IDNo.5至66或其变体之一对应的核酸，其被插入序列隔断。例如，SEQ IDNo.130至191或SEQ ID No.5至66之一所述核酸中的任一可被插入序列隔断。“插入序列”表示隔断另一序列的任何核酸或核苷酸。插入序列的实例包括内含子、核酸核酸标签、T-DNA和可移动核酸序列如转座子或者可通过重组移动的核酸。具体转座子的实例包括Ac(活化物)、Ds(解离)、Spm(抑制物-增变基因)或En。向启动子中引入内含子现在已经广泛应用。还可使用提供有内含子的根据SEQ ID No.130至191或SEQ ID No.5至66之一的核酸序列实施根据本发明的方法。在插入序列是内含子的情况下，可出现包含本发明核酸的选择性剪接变体。本文中使用的术语“选择性剪接变体”涵盖在其中内含子被切除、替换或添加的核酸序列变体。这样的剪接变体可以是天然存在的或者是人造的。制备这样的具有内含子的启动子或制备对应的剪接变体的方法是本领域中公知的。

可通过例如下文实施例部分描述的方法用变体简单替换实际实例中使用的序列来容易地确定适合在根据本发明的方法中使用的被插入序列隔断的变体。

上文中描述的变体核酸可天然存在(例如，等位基因变体或剪接变体)。另外的和/或替代的，可通过本领域中公知的技术如突变、替换、插入、缺失或衍生化，人为产生上文描述到的SEQ ID No.130至191或SEQID No.5至66之一的变体。本发明还涵盖这样的变体，以及其在本发明的方法中的用途。

可使用重组DNA操作技术或核苷酸合成容易地制备核酸的“突变变体”。这样的技术的实例包括通过M13诱变的定点诱变、T7-Gen体外诱变(USB，Cleveland，OH)、QuickChange定点诱变(Stratagene，San Diego，CA)、PCR介导的定点诱变或其他定点诱变方案。或者，本发明的核酸可以是随机突变的。

“替换变体”是指核酸序列中至少一个残基被移除而在其位置插入了不同残基的那些变体。核酸替换通常是单个残基，但是取决于核酸序列施加的功能制约，也可是成簇替换。插入通常为约1至约10个核酸残基，缺失可以为约1至约20个残基。

核酸的“插入变体”是向该羧酸的预定位点引入一个或更多个核酸残基的变体。插入可包括5′端和/或3′端融合和一个或多个核苷酸的内部序列插入。通常，核酸序列中的插入物可比5′或3′端融合小约1至10个残基。5′或3′端融合的实例包括以下结构的编码序列：在酵母双杂交系统或酵母单杂交系统中使用的转录活化物的结合结构域或活化结构域、噬菌体外壳蛋白、(组氨酸)₆-标签、谷胱甘肽S转移酶标签、蛋白A、麦芽糖结合蛋白、二氢叶酸还原酶、Tag100表位、c-myc表位、

表位、lacZ、CMP(钙调蛋白结合肽)、HA表位、蛋白C表位和VSV表位。

术语核酸的“衍生物”可包括与天然核酸相比天然和非天然核酸残基的替换和/或缺失和/或添加。衍生物可以包括例如甲基化核苷酸或人造核苷酸。

本发明还包括以下启动子，其包括上文所述SEQ ID No.130至191或SEQ ID No.5至66之一给出的任意核酸的片段。本文使用的“片段”是指核酸序列的一部分。可在本发明的方法中使用的合适的片段是功能片段，其保留启动子的至少一个功能部分，因此依然能够驱动和／或调节表达。启动子的功能片段的实例包括最小启动子、上游调控元件或其组合。

合适的片段可以为至少约20个碱基对或约50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950或1000个碱基对，多达本发明的约全长序列。这些碱基通常紧接转录起始部位的上游，但是也可以来自启动子序列的任何部位。

可通过本领域技术人员公知的标准技术，或通过以下实施例部分描述的方法，测试可用于本发明方法的合适片段驱动和/或调节表达的能力。

本文使用的术语“启动子”以广义考虑，是指能够影响(驱动和／或调节)与其相连的序列的表达的调节性核酸序列。“启动子”涵盖来源于典型基因组基因的转录调节序列。通常，启动子包括TATA框，其能够指导转录起始复合物到达合适的转录起始位点。但是，一些启动子不具有TATA框(无TATA框启动子)，但是依然具有驱动和/或调节表达的全部功能。启动子可还包括CCAAT框序列和另外的调控元件(即，上游活化序列或顺式作用元件如增强子和沉默子)。

本文中使用的“驱动表达”是指启动核酸转录。

本文中使用的“调节表达”是指影响核酸转录的水平、时间或位置。因此，本发明的启动子可用于增加、减少或改变核酸转录的时间和／或位置。例如，其可用于将转录限制于某些细胞类型、组织或器官，或在某段时间内，或响应于某些环境条件下。

根据本发明的一个特定实施方案，本发明提供了上文所述分离的启动子，其为杂合启动子。本文使用的术语“杂合启动子”是指例如通过合成(如通过基因工程)产生的嵌合启动子。根据本发明的优选的杂合启动子包括本发明启动子之一的一部分(优选功能性部分)和至少另一部分(优选启动子的功能性部分)。后者部分可以是任意启动子的一部分，包括根据本发明的任意一个启动子和其他启动子。杂合启动子的一个实例包括与另外的启动子的最小启动子结合的根据本发明的启动子的调控元件。杂合启动子的另一个实例是下述启动子：即包括另外的调控元件以进一步增强器活性的和／或改变其空间和/或时间表达模式的启动子。

在些方面，本发明还提供了SEQ ID No.130至191或SEQ ID No.5至66之一的功能片或其变体用于改变启动子表达模式的用途。在这样的方法中，SEQ ID No.130至191或SEQ ID No.5至66之一的核酸的至少一部分与另外的启动子的至少一个片段相组合。

另外，本发明提供了基因构建物，其包含：

(a)上文定义的分离启动子；

(b)与(a)的分离启动子有效连接的同源核酸序列，和任选地

(c)3′转录终止子。

本文使用过的术语“基因构建物”是指通过基因工程制备的核酸。

本文使用的术语与启动子“有效连接”是指转录由所述启动子驱动和／或调节。本领域技术人员将理解与启动子有效连接是指启动子位于有效连接的核酸的上游(即，在5′-端)。有效连接的核酸的距离可不同，只要本发明的启动子能够驱动和／或调节有效连接的启动子的转录。例如，在启动子和有效连接的核酸之间，可具有克隆位点、适配体和／或转录或翻译增强子。

有效连接的核酸可以是任意的编码或非编码核酸。有效连接的核酸可以在有义或反义方向。通常，在基因改造宿主细胞的情况下，有效连接的核酸待引入宿主细胞并且旨在改变宿主细胞表型。或者，有效连接的核酸是来自宿主细胞的内源核酸。

本文使用的术语“异源”是指“与本发明的启动子异源”。与本发明的启动子异源的核酸是在其生物基因组环境下并不天然存在于本发明启动子侧翼的核酸序列中。尽管核酸可以是与本发明的启动子异源的，但是它对于宿主细胞来说可以是同源或天然的或异源或外来的。异源有效连接的核酸可以是任意核酸(例如，编码任意蛋白质)，只要其包括或其侧翼是至少一个通常不是本发明启动子侧翼的核苷酸。

(c)中使用的术语“转录终止子”是指在转录单位末端的DNA序列，其信号表示转录的终止。终止子是3′-非翻译DNA序列，其通常包括多腺苷酸化信号，其有助于向初级转录本的3′端添加多聚腺苷酸化序列。在病毒、酵母、霉菌、细菌、昆虫、鸟、哺乳动物和植物中有活性和／或从中分离的终止子是已知的，并且已经在文献中描述。适合在本发明的基因构建物中使用的终止子的实例包括任意真核终止子或病毒终止子，例如，Bovine Growth Hormone poly A或SV40poly A。这些多聚腺苷酸化信号是本领域中已知的。

另外，本发明涵盖这样的宿主细胞，其包括上文描述的根据本发明的分离的启动子或基因构建物。在本发明的一些具体实施方案中，宿主细胞选自细菌、藻类、真菌、酵母、植物、昆虫或哺乳动物宿主细胞。

在一个优选实施方案中，宿主细胞是处于疾病状态的细胞，优选癌细胞。

本发明还提供了驱动和/或调节细胞中核酸的表达的方法，其包括：

(a)将核酸与上文描述的根据本发明的分离的核酸如SEQ ID No.130至191或SEQ ID No.5至66之一或其变体或片段有效连接，和

(b)将所得基因构建物引入细胞中，优选疾病状态的细胞，更优选癌细胞。

优选地，(a)的有效连接的核酸与根据本发明的核酸异源。

该方法还包括将转化细胞培养在促进生长、促进再生和／或促进成熟的条件下。

另外，可驱动和／或调节特定细胞、组织或生物(优选哺乳动物)中有效连接的核酸的表达。因此，在一些实施方案中，本发明提供了上述方法，其中表达是组成性表达或组织特异性的表达。对于这些实施方案，参照描述了根据本发明的启动子特有表达方式的实施例部分，其详细描述了不同类型的组织特异性表达。

本发明还涵盖上文定义的分离的核酸用于驱动和／或调节有效连接的核酸的表达的用途。

附图说明

可通过结合附图阅读说明书和所附权利要求书来明确本发明其他目的和优点。

为了更完整地理解本发明，参照以下结合附图的描述，其中

图1：本发明方法的一个实施方案的图示。

图2：载体pSmoothy的载体图。该载体的序列为SEQ ID No.4。

图3：HT29细胞的荧光分选数据((a)HT29；(b)HT29-SYN分选前；(c)HT29-SYN分选后)。

图4：用引物SYN1S和SYN1AS扩增的PCR产物的琼脂糖凝胶。不同泳道表示L1：转导进CRC细胞之前的pSmoothy逆转录文库1；L2：转导进CRC细胞之前的pSmoothy逆转录文库2；HT29：对照；S1：HT29转导细胞的第1分选；S2：HT29转导细胞的第2分选。

图5A：在结肠癌细胞中得到的LacZ基因表达的水平(HT29、DLD-1、HCT-116和RKO细胞的平均值；每一启动子的上柱；浅灰色)相比于HELA对照细胞(每一启动子的下柱；深灰色)，其来自140种潜在合成启动子中的每一种(相对于用pCMV-β对照质粒得到的表达水平进行归一化)。

图5B：转染有不同启动子(CMV-β；粘蛋白-1(Mucin-1)；CRCSESEQ ID No.5)的HT29和NEURO2A细胞的LacZ表达。

图6A：FACS分析表明在对照HELA细胞和CRC细胞系；HCT116、HT29、DLD1和RKO中由具有平均活性的启动子表达GFP的细胞的比例。GFP细胞存在于R2门(gate)。

图6B：通过本发明方法的一个实施方案产生的不同启动子的活性测量。

图1示出了制备和选择转录增强的组合启动子盒之方法的一个实例的流程图。

在该示例方法中，在第一步(10)中，提供了多个转录因子调控元件，其与表达被鉴定为在分离自多个不同来源的癌细胞中异常调节的多个基因中的任一个相关联。

在该示例方法的第二步(12)中，根据若干预定标准选择所述转录因子调控元件。在该实例中，作为第一条标准，所述转录因子调控元件必须接近超过百分之五十的在癌细胞中发现的异常调节的基因。还根据以下关系：频率^(1/长度)，频率由上文定义，将作为该实例第二条标准的所述转录因子调控元件的出现频率和作为第三条标准的其核苷酸长度用于鉴定候选调控元件。

在一个优选实施方案，结肠癌情况下的候选调控元件是表3列举的序列。

在该示例方法的下一步(14)中，构建在步骤(12)中选择的随机组合的转录因子调控元件的文库。

在该示例方法的下一步(16)中，将组合的转录因子调控元件插入到每一载体中后跟报告基因的最小启动子之前。优选地，一个组合转录因子调控元件插入到每个载体。

在该示例方法的下一步(18)中，将载体插入到宿主细胞中。

在下一步(20)中，从细胞中筛选报告基因的表达增强的细胞，并且确认细胞包含文库中的组合启动子盒。

实施例

1.在结直肠癌中上调的基因的选择

表2示出了来自由Rhodes等人进行的研究(Rhodes等(2004)PNAS2004；101；9309-14)的通过对结肠癌来源的微阵列数据的中期分析(meta-analysis)所鉴定的基因的选择。表2列举的17种基因鉴定的结果表现为在结肠癌活检中上调。

然后筛选这些基因以确保过表达是转录因子活性改变的结果，而不是染色体扩增的结果，从而选择在转录因子环境改变的背景下有活性的顺式调控元件。这导致排除三种基因：TOP2A、SMARCA4和TRAF4(用*表示)。

使用数据库搜索另外的文献以发现其在结直肠癌中的过表达在之前已经通过独立方法显示了的基因。根据表达水平和用于检测的分析方法，基因得分为“+++”：实质性证据支持其过表达，“++”：重要证据支持其过表达以及“+”：证据支持其过表达。

由于计算能力的进步，本发明的目的是分析全部差异调控基因的全部调控序列。因此，该选择步骤仅是任选的。

排除未发现关于其在结直肠癌中的过表达的进一步证据的基因。最后，为了选择形成在结肠癌中有特异性活性的合成启动子的顺式调控元件，检验以下七种基因的调控区：PLK、G3BP、E2-EPF、MMP9、MCM3、PRDX4和CDC2。

2.从上调的基因中鉴定调控元件

在选定了在结直肠癌中上调的基因之后，使用Human March2006Assembly(http：／／genome.ucsc.edu／cgi-bin／hgTracks?org=human)上的UCSC Genome Browser从UCSC Golden-Path(www.genome.ucsc.edu)得到具有5kb上游／下游的每一基因(总计7种基因)的核酸序列。使用BIOBASE Biological Databases(www.gene-regulation.com)，通过用于搜索核酸序列的TFBLAST程序(www.gene-regulation.com／cgi-bin／pub／programs／tfblast／tfblast.cgi)的BLASTX搜索工具(版本2.0.13)对每一回收序列对于TRANSFAC FactorTable进行BLAST，从而对核酸序列进行搜索以鉴定调控元件。基于具有显著高(0.7-1.0)的对应共有序列(身份阈值(identity threshold))来选择调控元件，同时不设置对得分或长度阈值的限制。将所关注基因的BLAST结果相互参照以得到具有显著e值(<1e-03)并且属于所选择物种(人(Homo Sapiens))的共有调控元件列表。通过进一步回顾，结肠癌基因列表表现出调控元件的良好证据，因为：(a)全部7种基因存在显著e值，(b)全部7种基因存在多个共同调控元件，(c)结肠癌基因列表中存在的主要基因也存在于其他癌基因列表中(数据未示出)，以及(d)从表达水平和用于检测的分析中确定了支持基因过表达的实质性／重要证据。

进一步用来自BIOBASE Biological Databases的PATCH public1.0(转录因子结合位点的模式搜索)(http：／／www.gene-regulation.com／cgibin／pub／programs／patch／bin／patch.cgi)进一步研究来自结肠癌基因列表的7种所关注基因序列。对全部位点用7个碱基的最小位点长度、最大数量不匹配0，错配罚分100，低分界限100来进行检索。通过将它们全部在一起分组来进一步分析所有七个基因序列的结果，排除除人(Homo sapiens)以外的所有转录因子结合位点。

然后继续检查每一转录因子结合位点出现在最初认定在结肠癌细胞中上调的7个基因极近位置的频率。在一些情况下，一个序列在被评价的单个基因附近出现多次。因此，为了确定转录因子结合位点的出现频率，计算每次检测到结合位点的次数的总和，然后使用全部基因中出现的全部结合位点的总和作为公分母。

3.引入到筛选文库中的调控元件的选择

鉴定总计328个顺式调控元件在被认为在结直肠癌中上调的7种基因序列中存在5854次。鉴定在基因之间以最大比例存在且显示最高保守水平的那些顺式调控序列。

为了完成这一点，根据以下两条标准来选择用于文库构建的序列：

A：它们存在于通过基因表达谱筛选所鉴定的7种基因中的4种或更多种中，即存在于超过百分之五十的候选基因的调节区中。

B：随后使用以下选择标准(SYN值)分析在基因调节区中出现频率最高的顺式调控元件：(顺式序列的频率)^{(1/以bp计的顺式序列长度)}>0.5。

SYN值选择标准具有以下优点，考虑了可能以较低频率出现的较长序列实际可能代表较高保守程度，因此对于驱动结肠癌细胞中基因表达可能特别重要。

然后合成具有最大SYN值的十个顺式调节序列(在表3中列出)，并且用于产生逆转录病毒载体文库以在结直肠癌细胞系中选择合成启动子。

4.逆转录病毒筛选文库的构建和在结肠癌细胞中的筛选

为了选择在结直肠癌细胞中具有最佳活性的启动子，使用与Edelman等(2000)[PNAS97(7)，3038-431的描述类似的方案。简言之，将对应于十个所选顺式元件的有义和反义寡核苷酸设计成在退火后包含TCGA5′突出端。然后用T4连接酶将退火寡核苷酸随机连接在一起，选择0.3-1.0kb范围的连接核苷酸用于从1.0％琼脂糖凝胶中提取。也可以使用Gateway克隆技术。随后将这些随机连接的寡核苷酸连接到逆转录病毒文库pSmoothy载体上(图2，SEQ-ID No.4)上，其已经用Xho I限制酶处理并且通过使用电转化仪在超感受态Top10细菌中转化连接反应的1／50来测量文库复杂度。然后将来自pSmoothy文库的复杂度大于104个菌落的质粒DNA扩增并且用于产生逆转录病毒载体。

通过其在靶细胞中表达GFP和新霉素两者的能力，构建pSmoothy以选择潜在的合成启动子序列(图2)。其作为自失活(SIN)逆转录病毒载体构建，从而在整合进转导细胞后其3′-UTR不再作为启动子起作用。载体包括粘蛋白最小启动子，其位于前病毒基因组中并且在紧接多接头的下游，随机连接的寡核苷酸在所述多接头处插入。GFP和新霉素编码序列位于紧邻最小启动子的下游，并且这两个基因的表达用于选择具有最佳活性的潜在合成启动子序列。pSmoothy-1的序列在SEQ-ID No.4中示出。

通过将具有逆转录病毒VSV-G包膜构建物的pSmoothy文库转染到稳定表达Gag和Pol的293细胞中并且允许经过48小时产生病毒载体来构建逆转录病毒载体。然后将该逆转录病毒载体用于以多种滴度转导HT29、DLD-1、HCT-116和RKO结直肠癌细胞，将转导细胞用1mg／mlG418选择数周。图3A示出了每一细胞系中表达的GFP的效力。然后通过用FACS Aria细胞分选仪(BD)选择表达最大量GFP的10％细胞，对表达最大量GFP的结直肠癌细胞进行分选。然后将该分选群体再次用1mg／ml G418进行选择，然后再次分选，再次选择表达最大量GFP的10％细胞(图3B：(a)HT29；(b)HT29-SYN分选前；(c)HT29-SYN分选后)。然后从分选结直肠癌细胞中分离基因组DNA，用与pSmoothy特异性杂交的以下引物回收启动子序列：

SEQ-ID No.2：

SYN1S 5′-TAT CTG CAG TAG GCG CCG GAA TTC-3′

SEQ-ID No.3：

SYN1AS 5′-GCA ATC CAT GGT GGT GGT GAA ATG-3′

图4示出了使用这些引物由逆转录病毒转导的HT29细胞基因组DNA进行的典型PCR，其多个物类的扩增在用FACS Aria进行的第一次分选(S1)之后进行。在第二次分选(S2)之后，扩增单一的290bp产物。

用由pSmoothy转导的DLD-1、HCT-116和RKO细胞系分离的基因组DNA重复该过程，分离总计250种具有驱动结直肠癌细胞中的基因特异性表达潜力的序列。

然后在被研究的全部结直肠癌细胞系HT29、DLDl、RKO和HCT116细胞中评估140种结肠癌特异性的合成增强子元件(CRCSE)驱动LacZ报告基因的表达的能力。认为24种合成启动子元件能够广泛地在全部4种不同结直肠癌细胞系中驱动不同程度的LacZ表达，其中10种被认为驱动高效表达并且被选中进行进一步的分析。图5A示出了在来自140种潜在合成启动子中的每一种的对比HELA对照细胞(相对于pCMV-β对照质粒得到的表达水平进行归一化)的结直肠癌细胞中得到的LacZ基因表达的水平(HT29、DLD-1、HCT-116和RKO细胞的平均值)。从这些细胞系中，选择5种表现出通过2种独立测试(即，β-半乳糖苷酶)和染色方式活化的细胞系。其对应于图5A的数值001、102、103、105、106、108。对应的SEQ-ID在表5中示出。不具有粘蛋白-1的最小启动子的启动子序列由SEQ-ID No.130至135(有义链)和SEQ-ID No.192至197(反义链)给出。

全部结果表明在本研究中构建的合成启动子仅在来源于结直肠癌患者的细胞系中驱动有效基因表达。特别地，在HT29、RKO、HCT116、Dld-1和Caco-2细胞中检测到高水平的β-半乳糖苷酶表达，在Hela、Neuro2A、MCF-7、Panc-1、CV-1和3T3细胞中检测到最低水平的基因表达。结果进一步与用载体pCMV-β(CMV启动子)和pDRIVE-Mucl(粘蛋白-1启动子，Invitrogen)转染的细胞进行了比较。

表4总结了一种合成启动子CRCSE-1(SEQ-ID No.5，反义链SEQ-IDNo.11)的结果((+++)高表达、(++)中度表达、(+)低表达、(+/-)非常低表达、(-)未表达)。这些结果清楚地表明该实施例概括的选择过程能够产生在结肠癌细胞中具有特异性活性的合成启动子。

图5B示出了用Lipofectamine2000转染并且在转染48小时后进行LacZ表达的染色的HT29和Neuro2A细胞中由CRCSE-1(SED-ID No.5，反义链SEQ-ID No.68)介导的Lac Z的表达水平。显著地，包括NEUR02A、NIH3T3、CV1、HELA和COS-7细胞的对照细胞系在用CRCSE-1转染时不具有任何Lac Z表达(表4)。

在这些序列中，使用86％同源性作为标准可鉴定以下TFES。所使用的全部序列表现出总计约72％同源性。表5示出了所鉴定的元件。突变最可能在新霉素选择过程中引入。由于最小启动子是必需的结合位点，在每一序列的该区域具有较少突变。

然后评估每一启动子中存在的顺式元件的数量是否为启动子强度和特异性的重要指标。进行具有较高严格度的启动子序列的选择过程，即选择包含与输入寡核苷酸具有100％同源性的顺式元件的启动子。因此，将从CRC细胞基因组DNA(上述)中分离的启动子文库亚克隆到pBluescript II KSM中；在进行表达分析之前分析每一克隆的序列。在这82个序列中，55个被鉴定为包含与输入寡核苷酸(SED-ID No.11至SEQ-ID No.66；反义链SEQ-ID No.68至SEQ-ID No.129，表6和7；这些序列全部包含粘蛋白1最小启动子。表6还给出了不具有该启动子的序列)具有100％同源性的顺式调控元件。对于对照，将来自在CRC细胞系选择之前全部10种顺式调控元件随机连接产物的序列进行亚克隆。结果表明，发现在未选择序列中每一序列平均仅2.2个调控元件，相比之下在用CRC细胞系选择之后每一启动子为4.0个元件(p＜0.001；Mann-Whitney非参数检验)。实际上，在对照组仅3/22序列包含4个或更多顺式调控元件，相比之下，在选择组超过31/55启动子包含4个或更多顺式元件。另外，SYN大于0.6的顺式元件占55种被鉴定启动子中全部元件的70％，因此证实了SYN选择式的重要性。为了使特定顺式调控元件与特定表达的水平联系起来，将28/31启动子插入到pSmoothy逆转录病毒载体中，监测与HELA对照细胞系相比其驱动CRC细胞中GFP表达的能力。

通过FACS分析确定GFP表达的效率，针对全部启动子，确定FL1通道荧光大于200单位的阈值的细胞的比例。取决于细胞系，平均1.0-10.0％的表达GFP的细胞被证明荧光大于该水平。与HELA对照细胞系相比(其中仅小比例的细胞为GFP阳性)，CRC细胞系(HCT116、HT29、DLD1和RKO)中所分析的全部启动子产生显著较高水平的表达。这在图6A中示出，其包括来自启动子230(其为在全部CRC细胞系中表达平均水平GFP的合成启动子，见图6B)的FACS结果。为了鉴定哪些启动子最有效，确定全部细胞系中每一启动子的表达比率，该表达比例定义为每一单独启动子表达的GFP大于阈值的细胞的比例除以对全部启动子来说大于阈值的平均比例。该分析的结果在图6B中示出，其表明与其他启动子相比，在CRC细胞系中，启动子239、213、215、248和254表现出最高活性。

还检验了是哪些顺式元件构成这些更有效的启动子，发现平均5个具有最大SYN值的顺式元件代表每一启动子中全部调控元件的64％。因此，进一步表明了SYN值对于选择最有效的最佳元件和选择性表达的重要性。

综上，这些结果表明本文提供的SYN选择式和方法代表了选择顺式调控元件(即，TFRE)以纳入合成启动子文库的可用工具。使用所描述的方法构建多种启动子，其可在CRC细胞系中特别有效表达GFP或LacZ，同时在对照细胞中不表现或表现有限的活性。表明本方法可用于构建任何被设计为在特定环境或疾病条件下有活性的真核生物启动子。

尽管已经结合若干具体实施方案对本发明进行了描述和举例说明，但是本领域技术人员将理解可进行修改和修饰而不脱离本文描述的本发明的范围。本发明可以体现为其他具体形式，而不脱离其精神或基本特征。认为在各处描述的实施方案应是描述性的而不是限制性的。因此，本发明的范围由所附权利要求指示，而不是由上文描述指示。在权利要求的等效物的意义和范围内的所有变化包含在其范围内。

参考文献：

Rhodes，D.R.et al.Mining for regulatory programs in thecancer transcriptome.Nat.Genet.37，579-583(2005)；

Segal，E.，Friedman，N.，Koller，D.，&Regev，A.A module mapshowing conditional activity of expression modules in cancer.Nat.Genet.36，1090-1098(2004)；

Segal，E.et al.Module networks：identifying regulatory mod-ules and their condition-specific regulators from gene expres-sion data.Nat.Genet.34，166-176(2003)；

Wingender，E.Compilation of transcription regulating pro-teins.Nucleic Acids Res16，1879-1902(1988)；

Kel-Margoulis，O.V.，Kel，A.E.，Reuter，I.，Deineko，I.V.，&Wingender，E.TRANSCompel：a database on composite regula-tory elements in eukaryotic genes.Nucleic Acids Res30，332-334(2002)；

Blanco，E.，Farre，D.，Alba，M.M.，Messeguer，X.，&Guigo，R.ABS：a database of Annotated regulatory Binding Sites fromorthologous promoters.Nucleic Acids Res34，D63-D67(2006)；

Sandelin，A.，Alkema，W.，Engstrom，P.，Wasserman，W.W.，&Lenhard，B.JASPAR：an open-access database for eukaryotictranscription factor binding profiles.Nucleic Acids Res32，D91-D94(2004)；

Jagannathan，V.，Roulet，E.，Delorenzi，M.，&Bucher，P.HTPSELEX--a database of high-throughput SELEX libraries fortranscription factor binding sites.Nucleic Acids Res34，D90-D94(2006)；

Matys，V.et al.TRANSFAC：transcriptional regulation，frompatterns to profiles.Nucleic Acids Res31，374-378(2003)；

Zhao，F.，Xuan，Z.，Liu，L.，&Zhang，M.Q.TRED：a Transcrip-tional Regulatory Element Database and a platform for insilico gene regulation studies.Nucleic Acids Res33，D103-D107(2005)；

Sinha，S.&Tompa，M.YMF：A program for discovery of noveltranscription factor binding sites by statistical overrepre-sentation.Nucleic Acids Res31，3586-3588(2003)；

Sinha，S.&Tompa，M.Discovery of novel transcription factorbinding sites by statistical overrepresentation.Nucleic AcidsRes30，5549-5560(2002)；

Rebeiz，M.，Reeves，N.L.，&Posakony，J.W.SCORE：a computa-tional approach to the identification of cis-regulatory mod-ules and target genes in whole-genome sequence data.Siteclustering over random expectation.Proc.Natl.Acad.Sci.U.S.A99，9888-9893(2002)；

Suzuki，Y.，Yamashita，R.，Sugano，S.，&Nakai，K.DBTSS，Da-taBase of Transcriptional Start Sites：progress report2004.Nucleic Acids Res32，D78-D81(2004)；

Suzuki，Y.，Yamashita，R.，Nakai，K.，&Sugano，S.DBTSS：Da-taBase of human Transcriptional Start Sites and full-lengthcDNAs.Nucleic Acids Res30，328-331(2002)；

Davuluri，R.V.，Grosse，I.，&Zhang，M.Q.Computationalidentification of promoters and first exons in the human ge-nome.Nat.Genet.29，412-417(2001)；

Roth，F.P.，Hughes，J.D.，Estep，P.W.，&Church，G.M.Finding DNA regulatory motifs within unaligned noncoding se-quences clustered by whole-genome mRNA quantitation.Nat.Biotechnol.16，939-945(1998)；

Bussemaker，H.J.，Li，H.，&Siggia，E.D.Regulatory elementdetection using correlation with expression.Nat.Genet.27，167-171(2001)；

Jensen，L.J.&Knudsen，S.Automatic discovery of regulatorypatterns in promoter regions based on whole cell expressiondata and functional annotation.Bioinformatics.16，326-333(2000)；

Jegga，A.G.et al.Detection and visualization of composi-tionally similar cis-regulatory element clusters in ortholo-gous and coordinately controlled genes.Genome Res12，1408-1417(2002)；

Dieterich，C.，Wang，H.，Rateitschak，K.，Luz，H.，&Vingron，M.CORG：a database for Comparative Regulatory Genomics.Nu-cleic Acids Res31，55-57(2003)；

Lenhard，B.et al.Identification of conserved regulatory ele-ments by comparative genome analysis.J.Biol.2，13(2003)；

Karanam，S.&Moreno，C.S.CONFAC：automated application ofcomparative genomic promoter analysis to DNA microarray data-sets.Nucleic Acids Res32，W475-W484(2004)；

La Rosa，P.et al.VAMP：visualization and analysis of array-CGH，transcriptome and other molecular profiles.Bioinformat-ics.22，2066-2073(2006)；

Jegga，A.G.et al.CisMols Analyzer：identification of compo-sitionally similar cis-element clusters in ortholog conservedregions of coordinately expressed genes.Nucleic Acids Res33，W408-W411(2005)；

Blanchette，M.et al.Genome-wide computational prediction oftranscriptional regulatory modules reveals new insights intohuman gene expression.Genome Res16，656-668(2006)；

Ferretti，V.et al.PReMod：a database of genome-wide mammal-ian cis-regulatory module predictions.Nucleic Acids Res35，D122-D126(2007)；

Sharov，A.A.，Dudekula，D.B.，&Ko，M.S.CisView：a browserand database of cis-regulatory modules predicted in the mousegenome.DNA Res13，123-134(2006)；

Vega，V.B.，Bangarusamy，D.K.，Miller，L.D.，Liu，E.T.，&Lin，C.Y.BEARR：Batch Extraction and Analysis of cis-Regulatory Regions.Nucleic Acids Res32，W257-W260(2004)；

Dubchak，I.&Ryaboy，D.V.VISTA family of computationaltools for comparative analysis of DNA sequences and whole ge-nomes.Methods Mol.Biol.338，69-89(2006)；

Lardenois，A.et al.PromAn：an integrated knowledge-based webserver dedicated to promoter analysis.Nucleic Acids Res34，W578-W583(2006)；

Liu，C.C.et al.CRSD：a comprehensive web server for compos-ite regulatory signature discovery.Nucleic Acids Res34，W571-W577(2006)；

Sun，H.et al.MPromDb：an integrated resource for annotationand visualization of mammalian gene promoters and ChIP-chipexperimental data.Nucleic Acids Res34，D98-103(2006)；

Li，X.，Eastman，E.M.，Schwartz，R.J.，&Draghia-Akli，R.Synthetic muscle promoters：activities exceeding naturally oc-curring regulatory sequences.Nat.Biotechnol.17，241-245(1999)；

Dai，C.，McAninch，R.E.，&Sutton，R.E.Identification ofsynthetic endothelial cell-specific promoters by use of ahigh-throughput screen.J.Virol.78，6209-6221(2004)；

Needleman-Wunsch，J.Mol.Biol.48，443-453，(1970)；

Sambrook(2001)Molecular Cloning：a laboratory manual，3rdEdition Cold Spring Harbor Laboratory Press，CSH，New York

Rhodes et al(2004)PNAS2004；101；9309-14；

Edelman et al(2000)[PNAS 97(7)，3038-43；

表1

表2

表3

表4

表5

表6

表6(续)

表7

Claims

1.用于选择启动子元件的方法，其包括：

(a)提供多个转录因子调控元件(TFRE)，其中所述多个TFRE中的每一个与多个基因中的一个或更多个相关联，所述多个基因中的每一个在特定细胞类型或组织类型中或者在特定条件下差异表达；和

(b)从步骤(a)中提供的所述多个TFRE中选择TFRE，其中每一个所选TFRE(1)在超过50％的步骤(a)中定义的所述多个基因的20千碱基以内，和(2)SYN值大于0.3，其中TFRE的SYN值定义为频率^(1/长度)，其中频率是其在所述多个基因中任一个的20千碱基以内的频率，长度是所述TFRE的核苷酸长度。

2.用于制备转录增强的组合启动子盒的方法，所述方法包括：

(a)鉴定多个转录因子调控元件(TFRE)，其中所述多个TFRE中的每一个与多个基因中的一个或更多个相关联，所述多个基因中的每一个在特定细胞类型或组织类型中或者在特定条件下差异表达；

(b)从步骤(a)中提供的所述多个TFRE中选择TFRE，其中每一个所选TFRE(1)在超过50％的步骤(a)中定义的所述多个基因的20千碱基以内，和(2)SYN值大于0.3，其中TFRE的SYN值定义为频率^(1/长度)，其中频率是其在所述多个基因中任一个的20千碱基以内的频率，长度是所述TFRE的核苷酸长度；

(c)通过随机组合步骤(b)中所选择的TFRE来构建随机组合元件的文库；以及

(d)将所述文库中的组合元件插入到具有最小启动子和报告基因的载体中，从而产生组合启动子盒。

3.根据权利要求2所述的方法，其还包括步骤(e)：将所述载体插入到宿主细胞中。

4.根据权利要求3所述的方法，其中步骤(e)产生多个宿主细胞，所述方法还包括(f)：从步骤(e)中产生的宿主细胞中筛选报告基因的表达增强的那些。

5.根据权利要求3或4所述的方法，其还包括鉴定步骤(e)中所产生的宿主细胞或步骤(f)中所选择的宿主细胞中的所述组合启动子盒。

6.根据权利要求1至5中任一项所述的方法，其中步骤(b)中选择的每一个TFRE的SYN值大于0.5。

7.根据权利要求1至6中任一项所述的方法，其中步骤(b)中选择的每一个TFRE具有在步骤(a)中提供的所述多个TFRE中第一至第十大的SYN值。

8.根据权利要求1至6中任一项所述的方法，其中步骤(b)中选择的每一个TFRE在超过50％的步骤(a)中所述多个基因的10千碱基或5千碱基内，优选在上游区域内，频率为在超过50％的所述多个基因的10千碱基或5千碱基内的频率，优选在上游区域内的频率。

9.根据权利要求2至8中任一项所述的方法，其中通过在连接反应条件下将至少编码所选TFRE的各个双链DNA序列元件混合在一起来制备步骤(c)中的随机组合的所选TFRE的文库。

10.根据权利要求2至9中任一项所述的方法，其中步骤(d)中的所述报告基因是LacZ或GFP。

11.根据权利要求1至10中任一项所述的方法，其中所述多个基因中的每一个在特定条件下差异表达，所述特定条件是疾病条件。

12.根据权利要求11所述的方法，其中所述疾病条件是癌症。

13.根据权利要求1至10中任一项所述的方法，其中所述多个基因中的每一个在特定条件下差异表达，所述特定条件是暴露于特定生物物质、化学物或微生物病原。

14.一种载体，其包含组合启动子盒，所述组合启动子盒包含随机组合元件、最小启动子和报告基因，

其中每一所述元件与超过50％的多个基因20千碱基以内的并且SYN值大于0.3的TFRE具有大于80％的序列同一性，所述多个基因被鉴定为在特定细胞类型或组织类型中或者在特定条件下差异表达，其中所述SYN值定义为频率^(1/长度)，其中频率是所述TFRE在所述多个基因中任一个的20千碱基以内的出现频率，长度是所述TFRE的核苷酸长度，并且

其中所述载体是质粒、病毒，其瞬时表达或整合在宿主细胞的基因组中。

15.用于驱动和/或调节表达的分离的启动子，其包括：

(a)SEQ ID No.130至191之一或SEQ ID No.130至191之一的互补序列给出的分离的核酸；或

(b)与SEQ ID No.130至191中任一的序列或SEQ ID No.130至191之一的互补序列具有至少90％序列同一性的分离的核酸；或

(c)在严格条件下能够与SEQ ID No.130至191之一或SEQ ID No.130至191之一的互补序列给出的DNA序列特异性杂交的分离的核酸；或

(d)由(a)至(c)中任一项定义的分离的核酸，其被插入序列隔断。

16.根据权利要求15所述的分离的启动子，其还包含最小启动子。

17.根据权利要求16所述的分离的启动子，其中所述启动子具有SEQID No.5至66或者SEQ ID No.5至66的互补序列之一给出的序列。

18.基因构建物，其包含：

(a)由权利要求15至17之一定义的分离的启动子；和

(b)与所述分离的启动子有效连接的异源核酸序列；和任选地

(c)3′转录终止子。

19.一种宿主细胞，其包含权利要求14所述的载体、权利要求15至17之一所述的分离的启动子或者权利要求18所述的基因构建物。

20.用于驱动和/或调节细胞中核酸表达的方法，其包括：

(a)将所述核酸与权利要求15至17之一所述的分离的启动子有效连接，和

(b)将所得基因构建物引入到细胞中。

21.根据权利要求15至17之一所述的启动子用于驱动和/或调节有效连接的核酸的表达的用途。

22.根据权利要求2至13中任一项所述的方法，其中在步骤(d)中产生多个组合启动子盒，并且所述方法还包括选择一个或更多个所产生的组合启动子盒，其中每一所选组合启动子盒中TFRE数/启动子大于步骤(d)中产生的多个组合启动子盒中平均TFRE数/启动子。

23.根据权利要求2至13中任一项所述的方法，其中在步骤(d)中产生多个组合启动子盒，并且所述方法还包括选择一个或更多个所产生的组合启动子盒，其中每一所选组合启动子盒中TFRE数/启动子大于2。

24.根据权利要求1至13中任一项所述的方法，其中所述TFRE在所述多个基因中任一个20千碱基内的出现频率是所述TFRE在所述多个基因中任一个的有义链中20千碱基内的出现频率。

25.根据权利要求14所述的载体，其中所述TFRE在所述多个基因中任一个20千碱基内的出现频率是所述TFRE在所述多个基因中任一个的有义链中20千碱基内的出现频率。