CN1777686A

CN1777686A - 差别表达的基因的调节因子结合位点的统计分析

Info

Publication number: CN1777686A
Application number: CNA2004800108152A
Authority: CN
Inventors: 张�杰; 魏淑英; 莱斯利·M·麦克沃伊
Original assignee: Corgentech Inc
Current assignee: Anesiva Inc
Priority date: 2003-03-28
Filing date: 2004-03-24
Publication date: 2006-05-24
Also published as: CA2519368A1; RU2005133211A; JP2004298178A; KR20060006782A; US20040191779A1; JP2007185192A; AU2004225536A1; EP1608785A2; WO2004087965A3; MXPA05010362A; WO2004087965A2

Abstract

本发明涉及差别表达基因的调节因子结合位点的统计分析。更特别地，本发明涉及在差别表达基因中鉴定和表征调节因子，例如转录因子的结合位点的方法，以开发用于医治伴随有差别基因表达的病患的治疗策略或用于研究生物过程。

Description

差别表达的基因的调节因子结合位点的统计分析

发明背景

发明领域

本发明涉及差别表达(differentially expressed)的基因的调节因子结合位点的统计分析。更特别地，本发明涉及在差别表达的基因中鉴定和表征调节因子，例如转录因子的结合位点的方法，以开发用于医治伴随有差别基因表达的疾病的治疗策略。

相关技术的说明

鉴定新的治疗靶点的一个主要途径是研究差别基因表达，一般地比较正常的和患病的生物样品，或比较代表特定疾病或病理情况的不同阶段的生物样品。通常，用于研究差别基因表达的方法可以根据杂交分析和/或多核苷酸的测序。用于量化样品中差别基因表达的本领域已知的最常用方法包括northern印迹和原位杂交(Parker&Barnes，Methods in Molecular Biology106：247-283(1999))；聚合酶链式反应(PCR)(Weis等，Trends in Genetics 8：263-264，(1992))，例如定量的实时PCR；和微阵列分析。做为选择，可以使用能识别特定双链体的抗体，所述双链体包括DNA双链体、RNA双链体，和DNA-RNA杂交双链体或DNA-蛋白质双链体。基于测序的基因表达分析的典型方法包括基因表达的系列分析(Serial Analysis of Gene Expression，SAGE)和通过大规模平行标记测序(massively parallel signature sequencing，MPSS)的基因表达分析。

已经在代表多样的生物过程，例如各种癌症、神经元疾病、发育失调、老化过程、传染性疾病等的各种人类组织和生物样品上进行了差别基因表达研究。

发明概述

本发明基于这样一种认识，在生物样品中鉴定出的大量差别表达的基因，所述差别表达的基因可能、但不一定代表各种疾病、疾病状态和其他失常，是少数调节因子，例如转录因子(TF)的转录功能方面的变化的结果。

在一个方面，本发明涉及差别表达的基因的统计分析方法，包括：

(a)获得一组(set)差别表达的基因；

(b)在包括所述差别表达的基因的调控区的基因组序列中筛选调节因子结合位点的存在；和

(c)鉴定至少一个调节因子结合位点，所述调节因子结合位点相对于基因组范围内(genome-wide)或组织范围内(tissue-wide)的背景、在所述差别表达的基因的组中是富集(enriched)了的。

所述差别表达的基因的组可以从有差别的基因或蛋白质表达研究的结果中获得，因而可以通过例如微阵列、RT-PCR或蛋白质组学方法来产生。

在步骤(c)中，可以通过例如比较在步骤(c)中在所述基因的组中鉴定的一个或多个所述调控结合位点出现的频率或概率来确定富集。

在特定的实施方式中，所述差别表达的基因的组可以是有疾病、失调或生物过程特征的基因表达分布型(profile)的一部分。包括与基因转录有关的所有疾病、失调和生物过程，非限制性地例如，肿瘤、肿瘤学的疾病、神经病学的疾病、心血管疾病、肾病、传染性疾病、消化疾病、代谢疾病、炎性的疾病、自身免疫疾病、皮肤病学的疾病和与外伤或异常骨骼发育有关的疾病。代谢疾病特别地非限制性地包括糖尿病，和脂质、碳水化合物和钙代谢的疾病。皮肤病学的疾病特别地非限制性地包括需要伤口愈合的疾病。

在进一步特定的实施方式中，所述疾病是癌症，其可以是例如乳腺癌、肾癌、白血病、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰癌、宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道的癌症、甲状腺癌、肾癌、癌瘤、黑素瘤和脑癌。

在另一个实施方式中，所述失调是发育失调。

在又一个实施方式中，由所述差别表达的基因的组代表的所述生物过程与老化有关。

在进一步的实施方式中，所述基因的组由与对照相比显示出至少约两倍、或至少约四倍、或至少约十倍差别表达的基因组成。

在更进一步的实施方式中，所述调节因子结合位点在5′上游核心启动子区、5′上游增强子区、内含子区和/或3′调控区中被鉴别。

在另一个实施方式中，所述调节因子结合位点是转录因子结合位点。非限制性地和仅仅为了说明，所述转录因子可以选自c-Fos、c-Jun、AP-1、Elk、ATF、c-Ets-1、c-Rel、CRF、CTF、GATA-1、POU1F1、NF-κB、POU2F1、POU2F2、p53、Pax-3、Sp1、TCF、TAR、TFEB、TCF-1、TFIIF、E2F-1、E2F-2、E2F-3、E2F-4、HIF-1 HIF-1α、HOXA1、HOXA5、Sp3、Sp4、TCF-4、APC或STAT5A。

在特定的实施方式中，所述转录因子是E2F-1、E2F-2、E2F-3、NF-κB、Elk、AP-1、c-Fos或c-Jun。

一般地，分析大量的差别表达的基因。这样，所述分析可以扩展到至少约100个差别表达的基因，或至少约500个差别表达的基因。

在进一步的方面，本发明涉及通过前述方法以对富集的调节因子结合位点的鉴定为基础、设计治疗策略的方法。

在特定的实施方式中，所述富集的调节因子结合位点是与至少一个转录因子结合的转录因子结合位点。

在进一步的实施方式中，根据所述富集的转录因子结合位点鉴定共有结合位点。

治疗策略可以，例如，依赖设计与所述富集的结合位点竞争结合相应的转录因子的双链寡核苷酸诱饵(decoy)，或依赖被设计以与所述富集的转录因子的mRNA结合的反义寡聚核苷酸。

在不同的方面中，本发明涉及设计共有调节因子结合位点的方法，包括鉴定调节因子结合位点，所述调节因子结合位点相对于基因组范围内或组织范围内的对照在一组差别表达的基因中是富集了的，和设计共有调节因子结合位点，所述共有调节因子结合位点实质上由在所述差别表达的基因的组中富集的所述调节因子结合位点共用的核苷酸组成。

在再另一个方面，本发明涉及在包含一组差别表达的基因的生物样品中分析调节因子结合位点的富集的方法，包括将所述调节性结合位点在所述基因的组中出现的频率或概率与其在参考样品中出现的频率和概率相比较。优选的通过利用超几何分布模型来进行所述统计分析。

附图的简要说明

图1显示了在G1和S期差别表达的基因与整个基因组背景之间的TF结合位点的频率。

图2是1995年和2002年之间与微阵列有关的出版物数目的图示。

优选实施方式的详细说明

A.定义

如果没有另外定义，此处使用的技术和科学术语具有本发明所属技术领域的一个普通技术人员通常所理解的相同含义。Singleton等，Dictionary ofMicrobiology and Molecular Biology 2nd ed.，J.Wiley&Sons(New York，NY1994)和March，Advanced Organic Chemistry Reactions，Mechanisms andStructure 4th ed.，John Wiley&Sons(New York，NY1992)为本领域的技术人员提供了本申请中使用的许多术语的一般性指导。

对本发明来说，以下定义了下列术语。

按照最广泛的含义使用术语“调节因子”，包括能影响基因的mRNA转录过程的任何因子。被特别地包括在这个术语中的是转录因子。

可互换地使用术语“基因调控序列”、“顺式调控元件”、“顺式作用调控元件”、“顺式调控序列”和“顺式作用调控序列”，是指控制基因表达的任何调控序列，非限制性地包括5′调控区和3′调控区，例如启动子、增强子、沉默子、转录终止信号和剪接信号；内含子区，和基因间区，和调节翻译的序列。特别地包括的是DNA识别序列(也被称为转录因子结合位点)，转录因子与所述DNA识别序列发生联系。

术语“转录因子结合位点”是指紧位于基因的转录起始位点(TSS)之前的短的共有基因组序列。转录调控区域可包含几个结合位点，因此可被几个转录因子结合。

“反式因子”(trans-factor)是与顺式调控序列结合的蛋白质。

“转录因子”是与接近基因的转录起始位点的DNA结合的蛋白质，在转录的起始和维持中协助或抑制RNA聚合酶。

“DNA结合结构域”是转录因子内部的区域，其识别靶基因中靠近转录起始位点的特定碱基。

“转录起始位点(TSS)”是基因的mRNA由RNA聚合酶II开始从DNA转录的位置。

此处使用的术语“转录因子诱饵”或“诱饵”是指短的双链寡核苷酸，其特异性地结合目标转录因子，从而阻止转录因子启动它们的目标基因的转录。

术语“微阵列”是指在基片上可杂交的阵列元件的有序排列，可杂交的阵列元件优选的是多核苷酸探针。

术语“多核苷酸”以单数或复数形式使用是，泛指任何多核糖核苷酸或多脱氧核糖核苷酸，其可以是未修饰的RNA或DNA，或修饰的RNA或DNA。就此，举例来说，此处定义的多核苷酸非限制性地包括单链和双链DNA，DNA包括单链和双链区域；单链和双链RNA，RNA包括单链和双链区域；包含DNA和RNA的杂交分子，杂交分子可以是单链或更一般地是双链、或包括单链和双链区域。此外，此处使用的术语“多核苷酸”也指包含RNA或DNA或包含RNA和DNA的三链区域。在这些区域中的链可以来自相同的分子或来自不同的分子。所述区域可以包括一个或多个所述分子的全部，但更一般地仅包含一些分子的区域部分。三螺旋区域的分子之一通常是寡核苷酸。术语“多核苷酸”特别地包括cDNA。该术语包括了包含一个或多个修饰的碱基的DNA(包括cDNA)和RNA。因而，具有为了稳定性或其他原因的主链修饰的DNA或RNA是“多核苷酸”这个术语此处所意指的。另外，包含稀有碱基例如次黄嘌呤核苷或包含修饰的碱基例如氚化的碱基的DNA或RNA被包括在此处定义的术语“多核苷酸”中。通常，术语“多核苷酸”包含未修饰的多核苷酸的所有化学的、酶的和/或代谢的修饰形式，以及病毒和细胞所特有的DNA和RNA的化学形式，所述细胞包括单细胞和多细胞。

术语“寡核苷酸”是指相对短的多核苷酸，非限制性地包括单链脱氧核糖核苷酸、单链或双链核糖核苷酸、RNA：DNA杂交物和双链DNA。寡核苷酸，例如单链DNA探针寡核苷酸，通常通过化学方法，例如利用商售的自动化寡核苷酸合成仪来合成。然而，寡核苷酸可以通过各种其他方法来制备，包括体外重组DNA介导的技术和通过在细胞和生物体中表达DNA的方法。

可互换地使用术语“差别表达的基因”、“差别基因表达”以及它们的同义词，是指相对于在正常的或对照(参照)样品中的基因表达、在获自患有疾病的患者的样品中该基因的表达被活化到更高或更低水平的这种基因。该术语还包括在同一疾病的不同阶段基因表达被活化到更高或更低水平的基因。差别表达的基因可以在核酸水平或蛋白水平被活化或抑制，或进行了替换性的剪接以产生不同的多肽产物。这种差别可以通过例如mRNA水平、表面表达、分泌或多肽的另外分配方面的变化来证明。差别基因表达可包括在两个或多个基因、或它们的基因产物之间表达的比较，或在两个或多个基因、或它们的基因产物之间表达的比例的比较，或甚至同一基因的两个不同加工的产物的比较，所述产物在正常个体和患有疾病的个体之间、或在同一疾病的各个不同阶段之间是不同的。差别表达包括在例如正常的和患病的细胞之中、或在经历了不同的疾病事件或疾病阶段的细胞之中，基因或其表达产物在暂时的或细胞的表达模式方面的定量的以及定性的的差别。对本发明来说，当在正常的和患病的个体之中、或在患病个体的疾病发展的各个阶段之中，给定基因的表达之间具有至少约两倍、优选的至少约四倍、更优选的至少约六倍、最优选的至少约十倍的差别时，“差别基因表达”被认为是“显著的”。

差别表达的基因的“组”包括对统计分析而言足够数目的基因。通常，所述组将包括至少约20个、或至少约50个、或至少约100个、或至少约200个、或至少约500个、或至少约1000个基因。

术语“医治”是指治疗处理和预防或防范措施，其中的目标是阻止或减缓(减轻)目标病理情况或失调。需要医治的对象包括已经发生失调的以及那些倾向于发生失调的或那些需要防止失调的对象。在肿瘤(例如，癌症)医治中，治疗剂可以直接降低肿瘤细胞的病理，或使得肿瘤细胞对其他治疗剂，例如辐射和/或化疗的医治更加敏感。

此处使用的术语“肿瘤”是指所有瘤性细胞生长和增殖，无论是恶性的或良性的，和所有癌前的和癌性的细胞和组织。

术语“癌症”和“癌性的”是指或是描述在哺乳动物中一般以不受调控的细胞生长为特征的生理情况。癌症的实例包括但不限于乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰癌、宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道的癌症、甲状腺癌、肾癌、癌瘤、黑素瘤、头和颈癌症和脑癌。

癌症的“病理”包括损害病人的安康的所有现象。这非限制性地包括异常或不受控制的细胞生长、转移、干扰邻近细胞的正常功能、以异常水平释放细胞因子或其他分泌产物、炎症性的或免疫学的反应的抑制或恶化、瘤形成、前恶性肿瘤、恶性肿瘤、对周围或远处组织或器官例如淋巴结的侵入，等等。

B.详细说明

除非另有陈述，本发明的实践将使用分子生物学(包括重组技术)、微生物学、细胞生物学和生物化学的传统方法，这些是在技术人员的能力范围内的。这些技术在文献中有充分的说明，例如“Molecular Cloning：ALaboratory Manual”，2^nd edition(Sambrook等，1989)；“OligonucleotideSynthesis”(M.J.Gait，ed.，1984)；“Animal Cell Culture”(R.I.Freshney，ed.，1 987)；“Methods in Enzymology”(Academic Press，Inc.)；“Handbook ofExperimental Immunology”，4^th edition(D.M.Weir&C.C.Blackwell，eds.，Blackwell Science Inc.，1 987)；“Gene Transfer Vectors for Mammalian Cells”(J.M.Miller&M.P.Calos，eds.，1987)；“Current Protocols in MolecularBiology”(F.M.Ausubel等，eds.，1987)；和“PCR：The Polymerase ChainReaction”，(Mullis等，eds.，1994)。

本发明根据的是对基因的调控区域的系统比较，所述基因在特定的疾病、疾病状态或失常中被鉴定为是差别表达的。特别地，本发明基于这样的认识，在大量差别表达的基因之间的共有联系是在少数调节因子，例如转录因子的转录过程方面的变化。

如之前说明的，研究人员可利用多种技术来研究差别基因表达。尽管最常用的方法是微阵列和RT-PCR，其他的技术，例如Northern印迹、RNase保护分析、差别噬菌斑杂交、减数杂交、基因表达的系列分析(SAGE，Velculescu等，Science 270：484-487(1995)；和Velculescu等，Cell 88：243-51(1997))、基因表达的快速分析(RAGE Wang等，NucleicAcids Research，27：4609-18，(1999))，和大规模平行标记测序(MPSS；Brenner等，NatureBiotechnology 18：630-634(2000))也同样适合于差别基因表达的研究。关于差别基因表达已经进行了越来越多的研究。图2给出了关于基于微阵列技术的所有生物医学研究或癌症特异性研究的出版物的概图。

在微阵列方法中，将感兴趣的多核苷酸序列(包括cDNA和寡核苷酸)铺板到、或排列到微芯片基底上。然后使排列的序列与来自感兴趣的细胞或组织的特异性DNA探针杂交。在微阵列技术的一个特定实施方式中，cDNA克隆的PCR扩增出的插入物以紧密的阵列施加到基底上，一般地包括至少约10,000个核苷酸序列。固定化的微阵列了的基因适合于在严谨条件下杂交。施用到芯片上的、荧光标记的cDNA探针专一地与阵列上的每个DNA斑点杂交。在严谨洗涤以除去非特异性结合的探针之后，通过共聚焦激光镜检术或通过另外的检测方法例如CCD照相机来扫描芯片。每个阵列单元的杂交的定量可供评定相应的mRNA丰度。利用双色荧光，产生自两个RNA来源的被分别标记的cDNA探针成对地与阵列杂交。从而同时确定来自相应于每个指定基因的两个来源的转录产物的相对丰度，来提供差别基因表达数据。可以通过商售的设备、按照厂家的说明书，例如通过利用Affymetrix GenChip技术或Agilent的微阵列技术来进行微阵列分析。

RT-PCR也可被用于比较不同样品群中，例如在正常的和患病的(例如，肿瘤)组织中的mRNA水平，来表征基因表达的模式、来辨别紧密相关的mRNA、和来分析RNA结构。

第一步是从目标样品中分离mRNA。由于RNA不能充当PCR的模板，通过RT-PCR在基因表达分布型中的第一步是将RNA模板逆转录成cDNA，继之以PCR反应中的指数扩增。两个最常用的逆转录酶是禽成髓细胞瘤病毒逆转录酶(AMV-RT)和莫洛尼鼠类白血病病毒逆转录酶(MMLV-RT)。取决于环境和表达分布型的目标，逆转录步骤一般地使用特异性引物、任意的六碱基、或寡-dT引物而加以起动。例如，可以利用GeneAmp RNAPCR试剂盒(Perkin Elmer，CA，USA)按照厂家的指导将提取的RNA逆转录。然后得来的cDNA可被用作随后的PCR反应中的模板。

RT-PCR技术的新近的演变是实时定量PCR，其通过双重标记的产荧光探针(即，TaqMan探针)来测量PCR产物的累积。实时PCR能与定量竞争性PCR和定量比较性PCR兼容，在定量竞争性PCR中为每个目标序列使用内部竞争剂来正规化，定量比较性PCR使用包含在样品中的正规化基因或使用管家基因来用于RT-PCR。有关详细情形参见例如Held等，GenomeResearch 6：986-994(1996)。

差别基因表达也可以利用蛋白质组学技术在蛋白水平来研究。蛋白质组是在某一时间点存在于样品(例如，组织、有机体或细胞培养物)中的蛋白质的总体。蛋白质组学尤其包括对样品中蛋白质表达的全局性变化的研究(也称作“表达蛋白质组学”)。蛋白质组学一般地包括以下步骤：(1)通过二维凝胶电泳(2-D PAGE)分离样品中的单个蛋白质；(2)用质谱法和/或N-末端测序来鉴定从凝胶中回收的单个蛋白质；和(3)利用生物信息学分析数据。

蛋白质组学方法是对基因表达分布型的其他方法的重要的补充，能单独使用或与其他方法组合使用来研究差别基因表达。有关详细情形参见，例如Proteomics in Practice：Laboratory Manual of Proteome Analysis，R.Westermeier等，eds.，John Wiley&Sons，2002。

一般地，基因表达研究在测试样品中相对于正常样品鉴定几百到数千个差别表达的基因。例如，对正常生物过程例如HeLa细胞循环和对异常生物学表型例如轮状病毒感染的组织的研究已经显示了相对于它们的正常对应物有至少约500个基因表现出显著的变化。大部分基因表达数据已经被保存到公众和商业数据库中，例如斯坦福微阵列数据库(SMD)、耶鲁微阵列数据库、欧洲生物信息学研究所(IEBI)的ArrayExpress。这些及其他公众可用的基因表达数据库在下面的表1中列出。

表1

数据库名称	描述
数据库名称	描述	ArrayExpress	由欧洲生物信息学研究所维护的基于基因表达数据的微阵列保藏所。
ChipDB	基因表达的可检索的数据库。	ArrayExpress	由欧洲生物信息学研究所维护的基于基因表达数据的微阵列保藏所。
ChipDB	基因表达的可检索的数据库。	ExpressDB	包含酵母和大肠杆菌RNA表达数据的相关数据库。
基因表达图谱(Gene Express Atlas)	涵盖组织、器官和细胞系的不同阵列、来自91个正常人类和鼠样品的基因表达分布型数据库。	ExpressDB	包含酵母和大肠杆菌RNA表达数据的相关数据库。
基因表达图谱(Gene Express Atlas)	涵盖组织、器官和细胞系的不同阵列、来自91个正常人类和鼠样品的基因表达分布型数据库。	基因表达数据库(Gene ExpressDatabase)(GDS)	在Jackson实验室的小鼠基因组信息学数据库。
Gene Expussion Omnibus	NCBI用于支持基因表达数据的公众利用和传播的数据率。	基因表达数据库(Gene ExpressDatabase)(GDS)	在Jackson实验室的小鼠基因组信息学数据库。
Gene Expussion Omnibus	NCBI用于支持基因表达数据的公众利用和传播的数据率。	GeneX	基因组资源国家中心的举动以提供互联网可访问的基因表达数据保藏所。
人类基因表达索引(HuGE index)	目的是提供全面的数据库来了解在正常人体组织中人类基因的表达。	GeneX	基因组资源国家中心的举动以提供互联网可访问的基因表达数据保藏所。

M-CHiPS(多条件性杂交强度加工系统)	数据仓库概念，致力于提供适合于对包括实验注解的微阵列数据库的完整组分进行统计学分析的结构。
M-CHiPS(多条件性杂交强度加工系统)	数据仓库概念，致力于提供适合于对包括实验注解的微阵列数据库的完整组分进行统计学分析的结构。	READ(RIKEN cDNA表达阵列数据库)	日本RIKEN(物理和化学研究院)维护的数据库。
RNA丰度Database(RAD)	RNA丰度数据库(RAD)是一个公共基因表达数据库，被设计来保存来自基于阵列的和非基于阵列(SAGE)的实验的数据。最终目标是允许对由不同的实验室利用不同的平台和研究不同的生物系统进行的实验进行比较分析。	READ(RIKEN cDNA表达阵列数据库)	日本RIKEN(物理和化学研究院)维护的数据库。
RNA丰度Database(RAD)		酵母基因组数据库(SGD)：表达联接	斯坦福大学的酵母基因组基因表达数据库，提供对给定基因或ORF的基因表达数据的几个微阵列研究结果的同步检索。
斯坦福微阵列数据库(SMD)	存储来自微阵列实验的、未加工的和标准化的数据，以及它们相应的影像文件。此外，SMD提供数据检索、分析和可视化的接口。数据按照研究人员的决定或根据出版物向公众发放。	酵母基因组数据库(SGD)：表达联接	斯坦福大学的酵母基因组基因表达数据库，提供对给定基因或ORF的基因表达数据的几个微阵列研究结果的同步检索。
斯坦福微阵列数据库(SMD)		耶鲁微阵列数据(Yale MicroaarayDatabase)
酵母微阵列全球阅读器(YeastMicroaaray Global Viewer)	高等师范学校分子遗传学实验室(Laboratoire de genetique moleculaire，Ecole Normale Superieure)维护的酵母基因表达数据的数据库。	耶鲁微阵列数据(Yale MicroaarayDatabase)
酵母微阵列全球阅读器(YeastMicroaaray Global Viewer)		三维基因表达数据库(3D-GeneExpression Database)	发育基因表达的3-D可视化数据库的初步结构。
BODYMAP	人类和鼠基因的基因表达信息的数据银行，通过对3′-定向cDNA库中的克隆的	三维基因表达数据库(3D-GeneExpression Database)	发育基因表达的3-D可视化数据库的初步结构。

	随机顺序而构建。
	随机顺序而构建。	基因资源探测器(Gene ResourseLocator)	目标是将数百万的EST定位到人类基因组上用来研究基因的外显子-内含子结构、前-mRNA的替换性剪接、全长富集的cDNA序列的启动子区和与EST有关的基因表达模式。
RNA丰度Database(RAD)	被设计来保存来自基于阵列的和非基于阵列的(SAGE)实验的数据的公众基因表达数据库。最终目标是允许对由不同的实验室利用不同的平台和研究不同的生物系统进行的实验进行比较分析。	基因资源探测器(Gene ResourseLocator)
RNA丰度Database(RAD)		TissueInfo	通过将给定序列与EST数据库相比较确定序列的组织表达分布型的在线数据库。每个EST来自于衍生自特定组织类型的库。

尽管有在这一领域的广泛研究和大量积累的数据，鉴于基因表达的复杂性，差别基因表达数据很难解释。

已经公认的是，不太可能大量差别表达的基因中的每一个都有突变或其它的缺陷。相反地，有可能的是大量的差别表达的基因是在少数关键现象或机制方面的变化产生的结果，其可以同时影响许多基因的表达水平。本发明是根据这样的认识，在各种疾病、疾病状态或其他失常中大量的差别表达的基因是少数调节因子，例如转录因子(TF)方面的变化产生的。

转录因子(TF)是一类控制和初始化由DNA编码的遗传信息转录为mRNA的过程的蛋白质。所有当前已知的TF被分为五个不同的亚族，以它们的功能区命名，即基本区、锌-配位DNA结合区、螺旋-转角-螺旋区、具有小沟触头(Minor Groove Confact)的β-支架因子、和其他转录因子。通常，至少需要几个转录因子来形成与基因的调控区结合的转录复合物，从而控制和初始化mRNA转录机制。这些结合过程由TF蛋白的DNA结合区来介导。已知的是仅有一些转录因子能直接与DNA结合，而其他的转录因子需要形成功能性转录机制，不需要与目标基因的调控区直接结合。

目前，有超过4000种已知的TF，其中约2000种来自哺乳动物物种。示范性的TF，非限制性地包括c-Fos、c-Jun、AP-1、ATF、c-Ets-1、c-Rel、CRF、CTF、GATA-1、POU1F1、NF-κB、POU2F1、POU2F2、p53、Pax-3、Spl、TCF、TAR、TFEB、TCF-1、TFIIF、E2F-1、E2F-2、E2F-3、E2F-4、HIF-1 HIF-1α、HOXA1、HOXA5、Sp3、Sp4、TCF-4、APC和STAT5A。

在哺乳动物的TF中，仅有数百个已经显示出具有直接与目标基因的调探区(顺式调控结合位点)直接结合的能力，到现在为止仅有几百个TF结合位点被表征。基因的TF结合位点是位于基因的调控区的DNA序列的短的段。这些位点对于不同的DNA结合TF是特异性的，通常为约6个到约16个碱基长度。已知的是在给定的结合位点中，有某些位置的碱基是相应的TF的结合所绝对需要的，而其他的碱基可以容忍一些碱基变化变异。有关详细情形参见，例如，Davidson，E.H.，Genomic Regulator Systems：development and evolution ISBN 0-12-205351-6，Academic Press，2001和例如，Michael Carey，Stephen T.Smale，Transcriptional Regulation in Eukaryotes，ISBN 0-87969-537-4，Cold Spring Harbor Laboratory Press，2000。

有几个与转录因子有关的数据库，在以下的表2中列出。

表2

数据库	TF	位点	地址
数据库	TF	位点	地址	TRANSFAC	因子	位点	http：//transfac.gbf.de/TRANSFAC/index.html
TRRD	因子	位点	http：//wwwmgs.bionet.nsc.ru/mgs/gnw/trrd	TRANSFAC	因子	位点	http：//transfac.gbf.de/TRANSFAC/index.html
TRRD	因子	位点	http：//wwwmgs.bionet.nsc.ru/mgs/gnw/trrd	TFD	因子	位点	http：//kisec.cmb.ki.se/kisac/databases/tfd.html
COMPEL	合成物的	位点	http：//compel.bbionet.nsc.ru/	TFD	因子	位点	http：//kisec.cmb.ki.se/kisac/databases/tfd.html
COMPEL	合成物的	位点	http：//compel.bbionet.nsc.ru/	EPD	N/A	启动子	http：/www.epd.isb-sib.ch
IMD	因子	位点	http：/bimas.dcrt.nih.giv//molbio/matrixs	EPD	N/A	启动子	http：/www.epd.isb-sib.ch

在列出的数据库中，TRANSFAC就TF结合位点数目而言收集最多，经常更新和被引用(Heinemeyer等，1998，Heinemeyer等，1999，Karas等，1997，Knuppel等，1994，Matys等，2003，Wingender等，1996，Wingender等，1997，Wingender等，1997，Wingender等，2000，Wingender等，2001)。近来已经报告了使用TF结合位点用于蛋白质途径评估(Krull等，2003)。

在最广泛的意义上，本发明第一次提供了一种用于大量基因的调控区的对比分析的方法，用以鉴定这些基因共用的共同调节机制和/或共有调节因子结合位点。因此，本发明提供了对这些基因之间至今未被发现的关系的新的了解，允许从目前可用的或将来会产生的大量基因表达数据中鉴定重要的调节因子。

构成本发明的基础的思想是，人们是否能鉴定某些共有调节因子结合位点，例如TF结合位点，所述结合位点由在各种疾病、疾病状态或异常中鉴定出的大多数差别表达的基因所共用。如果发现某些调节因子，例如TF结合位点相对于它们在组织范围内或基因组范围内的存在、在这些差别表达的基因中是富集的，鉴定出的结合位点很可能在导致的差别表达中起到重要的作用，反过来，可能造成疾病或失常，例如在癌症或肿瘤中看到的最终的细胞命运改变。

在一个特定的方面，本发明提供一种用于差别表达的基因的调控区域的比较分析的新方法，来鉴定这些基因中富集的共有调控区，然后所述共有调控区能被用于鉴定在它们的表达调控中起作用的一个或多个调节因子。

在另一个方面，本发明提供用于鉴定调节因子，例如转录因子(TF)的方法，通过对基因的调控区的系统比较来提供在疾病、疾病状态或异常中差别表达的大量基因之间的联系。

作为它们参与与疾病过程有关的基本调节机制的结果，共用的调节因子结合位点和相应的调节因子是有价值的治疗开发靶点。例如，通过改变鉴定的TF，例如，通过反义寡核苷酸方法(与TF的mRNA结合而改变相应蛋白质的表达)或通过改变这种TF的转录效果，例如，通过利用转录诱饵方法(与相应的TF竞争性地结合)，可以开发出新的方法，用于医治(包括预防)各种疾病、失调和异常，或用于干扰某些有害的或非期望的生物过程，例如老化。在更普遍的意义上，本发明一般而言提供一种用于生物医学研究和研究工作的有价值的工具，提供一种用于理解这些过程的独特的工具。一般而言，可以将本发明提供的信息利用到各种不同的目的和应用，包括但不限于，生物医学研究、临床前开发、药物筛选应用、靶点发现和靶点验证、在不同基因的调控分布型之间建立基因组或组织范围内的联系、了解各种已知调节因子的基因组或组织背景、了解各种已知转录因子的基因组或组织背景，等等。

因此，本发明涉及用于差别表达的基因的调节因子(例如，TF)结合位点的统计分析的方法。在一个特定的方面，本发明通过鉴定调节因子，例如转录因子来提供新的治疗靶点，所述调节因子是造成在代表疾病、失调或特定的生物过程的生物样品中发现的大量基因的差别表达的原因。

在一个特定的实施方式中，本发明的方法包括以下步骤：(1)产生具有显著的差别表达的一列基因；(2)鉴定在差别表达的基因中的顺式调控区域；(3)对在鉴定的顺式调控区域中的转录因子结合位点作图；和(4)统计分析鉴定的TF结合分布型。

(1)产生具有显著的差别表达的基因列。

基因表达数据可以从各种与基因表达有关的数据库中检索到。这些数据库不局限于通过微阵列技术产生的那些数据库。它们也可以包括通过实时定量PCR、Northern印迹杂交和其他与基因表达有关的方法，包括蛋白质组学获得的基因表达数据。基因表达数据的示范性的数据库在上面的表1中列出了。除了这些已经可用的数据组之外，差别表达基因列也可以通过任何有计划的特定实验、利用任何上述讨论的技术或本领域已知的技术来产生。根据本发明，集中地分析检索来自这些数据库或来自任何其他来源的数据，特别是当数据包含大量基因或基因的组时(例如，SAM分析)。产生出显示显著的差别表达的一列基因，并根据国际命名法委员会及其他基因组数据库并利用自己产生的脚本分派各自的基因标识符。如前所述，当在试验和参考样品之间，例如在正常的和患病的个体之间、或在患病个体的疾病发展的各个阶段之间，给定基因的表达具有至少约两倍、优选的至少约四倍、更优选的至少约六倍、最优选的至少约十倍的差别时，差别基因表达被认为是“显著的”。

(2)鉴别差别表达的基因的顺式调控区域。

根据在(1)中产生的基因列，从各种全长基因数据库(例如NCBI的refSeq NIH的MGC联盟日本DBTSS，等等)中检索这些基因的全长序列(Pruitt等，2001，Strausberg等，1999，Strausberg RL等，2002，Yamashita等，2001)。然后将这些全长序列与最新的人类基因组序列数据库(Lander等，2001，McPherson等，2001)(例如人类基因组工作草案，2002年11月31日构建)对比，利用例如BLAT软件(Kent，2002)对它们的染色体位置作图。根据特定的目的，判定顺式调控区域，例如5′上游核心启动子区，5′上游增强子区、内含子区和/或3′调控区，从最新的基因组序列数据库(UCSC基因组游览器)检索相应的基因组序列(Kent等，2002，Karolchik等，2003)。如有必要，可以通过利用自己开发的脚本来使序列检索过程便利化。

(3)对在鉴定的顺式调控区上的调节因子结合分布型作图。

筛选所鉴定的调控区域的基因组序列，寻找任何推断的调节因子结合位点，例如TF结合位点。举例来说，可以利用已知的转录因子结合位点来分析差别表达的基因的核心启动子区域。已经公开了可用于这种分析的软件，例如，在以下出版物中：Grabe，2002，Kel-Margoulis等，2002，Kel等，1995，Liebich等，2002，Perier等，2000，Praz等，2002，Prestridge，1996，Quandt等，1995，Tsunoda等，1999和Wingender，1994。可以进一步筛选这些调控区的基因组序列，利用各种基序查找软件寻找推定的顺式调控结合位点。这有助于对具有未知的调节因子共有基序的未知的转录因子结合位点作图。

(4)对调节因子结合分布型进行统计分析。

将在差别表达的基因中鉴定出的推定的调节因子结合位点与它们的基因组范围内或组织范围内的发生率相比较。利用统计分析计算这些结合位点的数量、这些结合分布型的频率、和出现的分布和频率。例如可以利用超几何分布模型进行统计分析，超几何分布模型确定在固定大小的抽样中成功的总数而不从有限总体中置换。特别地，超几何分布分析(通过利用Microsoft Excel建立的功能与自己开发的脚本组合)可被用于测试在差别表达基因列中某些调节因子(例如，TF)结合位点的出现是否是显著富集的。当与基因组或组织背景相比时，这种富集可能导致失常，例如肿瘤，例如癌症。如有必要，基于这种统计分析可以鉴定调节因子，例如TF和提供它的序列。这种调节因子，例如TF，对于针对疾病、失调或非期望的生物过程的预防或医治的治疗性介入是有价值的靶点。

对本领域技术人员显而易见的是，只要统计方法适合于比较任何两个基因的组中鉴定的基因中调控区域的发生频率或概率，也可以使用其它的统计方法。

在一个特定的实施方式中，差别表达的基因的顺式调控区域，例如调节因子结合位点通过在2003年3月28日提交的共同待审申请号NO.10/402,689中公开的方法来鉴定。总之，依据这种方法，从公众的和/或专有的数据库检索基因调控区域的基因组序列，筛选每个检索到的基因调控区域的DNA序列信息以鉴定推定的调节因子结合位点，对推定的调节因子结合位点进行分布型，概率作图被用于进行了分布型的结合位点。概率作图包含了在基因的组中所有基因的调控区域中特异性调节因子结合位点的鉴定，基因的组例如在特定疾病、疾病状态、失常等中一组差别表达的基因，特异性调节因子结合位点例如所有推定的E2F-1转录因子结合位点。概率作图告知了有多少差别表达的基因可能是被特定的调节因子转录调节的。它还表明了特定的调节因子预计有多少基因组范围内、细胞范围内或组织范围内的影响。

对于每个鉴定的结合位点，可以产生保守性分值。选择保守性分值以及表明两个物种间保守性水平的其它测量法，所述两个物种包括但不限于小鼠和人类，来覆盖鉴定出调节因子(例如，TF)结合位点的区域。具有较高保守性分值或更高表达水平的相应基因的结合位点可能比那些具有较低分值的结合位点起到更重要的作用。

可以将产生的数据收集和编制在数据库中，这将便于在研究和药物开发计划中对信息的使用。

然而，要强调的是，没有必要使用这个专有的方法来实践本发明。可用许多不同的方法开发出包括基因调控区域的作图信息的数据库。因此，本发明决不能被限制为对差别表达的基因的调节因子结合位点的作图和分析的方法。

可以根据本发明鉴定的调节因子结合位点的实例包括但不限于，转录因子NF-κB的结合位点(AGGGGACTTTCCCA；SEQ ID NO：1)，和E2F-1(TTTGGCGG；SEQ ID NO：2)的结合位点。

如果初始信息是显示差别的蛋白质表达水平的蛋白质组学分布型(例如，质谱)，则定位和鉴定相应的基因，基因和它们相应的蛋白质表达水平的列表被用于随后的分析。

C.治疗学鉴定和转录因子诱饵设计

在一个特定的应用中，根据本发明进行的调控结合位点的统计分析提供了用于鉴定治疗药物设计的靶点和开发针对鉴定出的靶点的各种治疗方法的简便的方法，包括但不限于，寡核苷酸诱饵的设计。

很有可能所有的疾病，包括人类疾病与基因转录过程有一定的关联。已知的是，在编码转录因子的基因中种系突变导致了影响多个身体结构的发育的畸形综合症。已经表明在编码转录因子的基因中的体细胞突变促成了肿瘤发生。此外，产前发育和产后生理学表明，单个转录因子可以控制发育期间祖细胞的增殖，和控制参与特定生理学反应的基因产物在分化的细胞中的表达。举例来说，已被充分研究了的转录因子，例如p53，和Smad和STAT蛋白质已知在许多癌症中起了主要作用。转录因子还被鉴定出与各种神经元、心血管、肾和传染性的疾病，骨骼发育的疾病，消化疾病，与异常骨骼发育有关的疾病等等有关。有关详细情形参见，例如，.Gregg L.Semenza，Transcription Factors and Human Disease，Oxford Press 1998。

尽管转录因子蛋白质-DNA相互作用是序列特异性的，一个给定转录因子的结合位点在不同的目标基因之间可以有几个碱基对的变化。特定转录因子的结合序列的共同部分、或非可变部分被称为转录因子共有序列。例如，转录因子NF-κB的共有序列是AGGGGACTTTCCCA(SEQ ID NO：1)，E2F-1的是TTTGGCGG(SEQ ID NO：2)。AP-1转录因子与TGACTCA(SEQID NO：3)共有序列结合。介导基因表达中TGF-β、活化素和BMP诱导的变化的Smad-3转录因子的共有序列是TGTCTGTCT(SEQ ID NO：4)。

如果任何一个这种共有序列在代表疾病、失调或病理情况的生物样品中富集，相应的转录因子是针对这些疾病、失调或情况的新治疗方法的有前途的靶点。

根据转录因子诱饵方法，将小的双链寡核苷酸导入细胞中来特异性地与目标转录因子结合，从而阻止这些因子反式激活(即“打开”)它们的目标基因。

在先期临床研究中，已经显示压力介导的E2F诱饵体外投递在静脉接枝移植的动物模型的静脉接枝中阻止了新内膜增生和动脉粥样硬化。更多的信息参见，例如，Ehsan，A.，M.J.Mann 2001；Mann和Dzau 2000；Mann等1999；和美国专利No.5,766,901和5,992,687。

本发明的更多细节通过以下非限制性的实施例来说明。

实施例1

将本发明的方法应用于一组与细胞周期有关的基因表达数据(Whitfield等，2002)。细胞分裂周期的适当调控对所有生物的生长发育是决定性的；了解这些调控是许多疾病的研究重点，最显著的是癌症。

在人类癌细胞系(HeLa)中细胞分裂周期期间基因表达的基因组范围内的程序利用cDNA微阵列表征。超过850个基因的转录产物在细胞周期期间显示了周期性变化。表达模式的分级聚类揭示了在基本的细胞周期过程例如DNA复制、染色体分离和细胞粘附中涉及的、先前很好地表征了的基因和具有未表征功能的基因的共表达组。先前已经报道其表达与肿瘤的增生性状态有关的大多数基因被发现在Hela细胞周期期间是周期地表达的。在这个报告中的数据提供了细胞周期调节的基因的全面的编目，其可以充当本发明的方法的起点。从http：//genome-www.stanford.edu/Human-CellCycle/HeLa站点检索完整的数据集用于进一步的分析。

为了鉴定在上述细胞周期中差别表达的基因中涉及的关键元件，利用UCSC基因组游览器(Karolchik等，2003，Kent等，2002)、MGC基因收藏数据库和DBTSS数据库的组合，检索这些基因的全长序列。利用BLAT程序将转录起始位点位置绘制到最新的人类基因组工作草案(McPherson等，2001，Lander等，2001)中。利用自己产生的perl脚本检索所有基因的核心启动子区(分别为转录起始位点上游约250bp和下游50bp)的序列。利用内部嵌入了特许的TRANSFAC数据库的Match程序(Matys等，2003)与自己产生的perl脚本组合进行推定的TF结合分布型的分析。

利用仅从哺乳动物种类中鉴定出的、充分研究了的已知转录因子进行最初的筛选。典型的细胞周期由G1、G2、M和S期组成。在这些期之中，G2和M期相对于G1和S期非常短，这暗示着G1和S的细胞阶段较容易判定。因此，当前分析的焦点已经是那些在G1和S期中发现的差别表达的基因(总共198个)。从上述分析中鉴定出的已知的TF结合位点的频率，相对于它们在基因组背景中相应的频率被散布标绘(scatter-plot)出。结果在附图1中显示。绘图表明，如果鉴定的TF结合位点在目标基因列中是正态分布的，相应的斑点应当位于红线周围(如果鉴定的TF结合频率与相应的基因组频率相同，红线是理论上的数值)。然而，如果在差别表达的基因中实际存在某些TF结合点的富集，相应的斑点将偏离理论上的红线，并被移向表示目标基因列中的TF-结合点的频率的X轴。如图1中所示，在目标基因列中显示了较高出现率(较高频率，＞0.4)的3个最偏移的斑点属于转录因子E2F-1、E2F-1/DP-1和E2F。

将结果用于进一步的统计分析。在目标基因列中鉴定出的具有最高频率的14个TF在以下表3中列出，一同列出的是超几何分布测试(见表)的P值(右端累加)。在表3中列出的数据表明E2F-1、E1K-1、E2F和E2F-1/DP-l是具有最小P值的最显著的那些。与E2F-1类似，转录因子E1K-1已经被透彻地研究了，并显示出在细胞周期和增殖中的重要作用。

表3

TF名称	在目标基因列中TF结合的频率	基因组TF结合的频率	超几何分布的P值
TF名称	在目标基因列中TF结合的频率	基因组TF结合的频率	超几何分布的P值	E2F-1	0.661616162	0.428784151	0.00000008^*
E1K-1	0.590909091	0.469247702	0.0003617^*	E2F-1	0.661616162	0.428784151	0.00000008^*
E1K-1	0.590909091	0.469247702	0.0003617^*	Pax-4	0.590909091	0.586430144	0.47923023
MAZ	0.580808081	0.525767189	0.06789041	Pax-4	0.590909091	0.586430144	0.47923023
MAZ	0.580808081	0.525767189	0.06789041	TFII-1	0.494949495	0.536514308	0.89462549
HNF-4	0.47979798	0.468470802	0.40087184	TFII-1	0.494949495	0.536514308	0.89462549
HNF-4	0.47979798	0.468470802	0.40087184	c-Myc/Max	0.45959596	0.402563771	0.05840235
E2F	0.449494949	0.244853036	0.0000001^*	c-Myc/Max	0.45959596	0.402563771	0.05840235
E2F	0.449494949	0.244853036	0.0000001^*	Xvent-1	0.444444444	0.417713324	0.24291237
E2F-1/DP-1	0.419191919	0.171112262	0.00000001^*	Xvent-1	0.444444444	0.417713324	0.24291237
E2F-1/DP-1	0.419191919	0.171112262	0.00000001^*	c-Ets-1(p54)	0.388888889	0.330182572	0.04665969
Sp3	0.383838384	0.369092322	0.35791823	c-Ets-1(p54)	0.388888889	0.330182572	0.04665969
Sp3	0.383838384	0.369092322	0.35791823	TCF-1(P)	0.353535354	0.318205361	0.15923196
c-Rel	0.348484848	0.302214165	0.08983233	TCF-1(P)	0.353535354	0.318205361	0.15923196

总之，关键的转录因子E2F-1和E1K-1已经被鉴定为在影响在特定细胞周期过程中发现的具有差别表达的850个基因中起主要作用的因子。已经显示细胞周期在许多不同的肿瘤或癌症发展中是决定性的。来自这一点的直接好处是人们可以根据这些关键元件开发治疗策略。转录因子诱饵(例如，E2F-1诱饵，Corgentech Inc.)或反义寡核苷酸是这种新的医治选择的实例。在大量实验和多年的研究之后，在细胞增殖中E2F-1和E1K-1的作用已经逐渐地被揭露。然而，我们的发明使得这个耗时的过程变成容易和快捷的工作。

公开文本中引用的所有参考文献，和此处引用的所有参考文献在此通过将它们完全引用而清楚地整合。

本领域的技术人员将认识到许多可用于本发明的、与那些在此描述的方法和材料类似的或等同的方法和材料。实际上，本发明决不限于已描述的方法和材料。

参考文献

Ehsan，A.，M.J.Mann，G.Dell′Acqua，and V.J.Dzau.(2001).Long-termstabilization of vein graft wall architecture and prolonged resistance toexperimental atherosclerosis after E2F decoy oligonucleotide gene therapy.Journal of Thoracic Cardiovascular Surgery，121，714-722.

Grabe N.AliBaba2：context specific identification of transcription factorbinding sites.In Silico Biol.2002；2(1)：S1-15.

Heinemeyer T.Chen X，Karas H，Kel AE，Kel OV，Liebich I，Meinhardt T，Reuter I，Schacherer F，Wingender E.Expanding the TRANSFAC databasetowards an expert system of regulatory molecular mechanisms.Nucleic AcidsRes.1999 Jan 1；27(1)：318-22.

Heinemeyer T，Wingender E，ReuterI，Hermjakob H，Kel AE，Kel OV，Ignatieva EV，Ananko EA，Podkolodnaya OA，Kolpakov FA，Podkolodny NL，Kolchanov NA.Databases on transcriptional regulation：TRANSFAC，TRRDand COMPEL.Nucleic Acids Res.1998 Jan 1；26(1)：362-7.

Karas H，Kel′E，Kel′OV，Kolchanov NA，Wingender E.[Integratingknowledge on transcriptional regulation of eukaryotic genes based oninformation from TRANSFAC，TRRD，and COMPEL databases]Mol Biol(Mosk).1997 Jul-Aug；31(4)：637-46.

Kel-MargoulisOV，RomashchenkoAG，Kolchanov NA，Wingender E，KelAE.COMPEL：a database on composite regulatory elements providingcombinatorial transcriptional regulation.Nucleic Acids Res.2000 Jan 1；28(1)：311-5.

Knuppel R，Dietze P，Lehnberg W，Frech K，Wingender E.TRANSFACretrieval program：a network model database of eukaryotic transcriptionregulating sequences and proteins.J Comput Biol.1994 Fall；1(3)：191-8.

Karolchik D，Baertsch R，Diekhans M，Furey TS，Hinrichs A，Lu YT，Roskin KM，Schwarz M，Sugnet CW，Thomas DJ，Weber RJ，Haussler D，KentWJ.The UCSC Genome Browser Database.Nucleic Acids Res.2003 Jan 1；31(1)：51-4.

Kent WJ，Sugnet CW，Furey TS，Roskin KM，Pringle TH，Zahler AM，Haussler D.The human genome browserat UCSC.Genome Res.2002 Jun；12(6)：996-1006.

Kent WJ.BLAT-the BLAST-like glignment tool.Genome Res.2002 Apr；12(4)：656-64.

Kel AE，Kondrakhin YV，Kolpakov PhA，Kel OV，Romashenko AG，Wingender E，Milanesi L，Kolchanov NA.Computer toolFUNSITE for analysisof eukaryotic regulatory genomic sequences.Proc Int Conf Intell Syst Mol Biol.1995；3：197-205.

Krull M，Voss N，Choi C，Pistor S，Potapov A，Wingender E.TRANSPATH((R))：an integrated database on signal transduction and a tool forarray analysis.Nucleic Acids Res.2003 Jan 1；31(1)：97-100.

Lander et al.，2001，Initial sequencing and analysis of the human genome.Nature.2001 Feb 15；409(6822)：860-921.

Levy S，Hannenhalli S.Identification of transcription factor binding sites inthe human genome sequence.Mamm Genome.2002 Sep；13(9)：510-4.

LiebichI，Bode J，Frisch M，Wingender E.S/MARt DB：a databaseonscaffold/matrix attached regions.Nucleic Acids Res.2002 Jan 1；30(1)：372-4.

Mann，M.J.，A.D.Whittemore，M.C.Donaldson，M.Belkin，M.S.Conte，J.F.Polak，E.J.Orav，A.Ehsan，G.Dell′Acqua，and V.J.Dzau.(1999).Ex-vivogene therapy of human vascular bypass grafts with E2F decoy：the PREVENTsingle-centre，randomised，controlled trial.Lancet，354，1493-1498.

Mann，M.J.，and V.J.Dzau.(2000).Therapeutic applications oftranscription factor decoy oligonucleotides.Journal of Clinical Investigation，106，1071-1075.

Matys V，et al.TRANSFAC：transcriptional regulation，from patterns toprofiles.Nucleic Acids Res.2003 Jan 1；31(1)：374-8.

McPherson et al，2001.A physical map of the human genome.Nature.2001Feb 15；409(6822)：934-41.

Perier RC，Praz V，Junier T，Bonnard C，Bucher P.The eukaryotic promoterdatabase(EPD).Nucleic Acids Res.2000 Jan 1；28(1)：302-3.

Praz V，Perier R，Bonnard C，Bucher P.The Eukaryotic Promoter Database，EPD：new entry types and links to gene expression data.Nucleic Acids Res.2002 Jan 1；30(1)：322-4.

Prestridge DS.SIGNAL SCAN 4.0：additional databases and sequenceformats.ComputAppl Biosci.1996 Apr；12(2)：157-60.

Pruitt KD，Maglott DR.RefSeq and LocusLink：NCBI gene-centeredresources.Nucleic Acids Res.2001 Jan 1；29(1)：137-40.

Quandt K，Frech K，Karas H，Wingender E，Werner T.MatEd andMatlnspector：new fast and versatile tools for detection of consensus matches innucleotide sequence data.Nucleic Acids Res.1995 Dec 11；23(23)：4878-84.

Schacherer F，Choi C，Gotze U，Krull M，Pistor S，Wingender E.TheTRANSPATH signal transduction database：a knowledge base on signaltransduction networks.Bioinformatics.2001 Nov；17(11)：1053-7.

Strausberg RL，Feingold EA，Klausner RD，Collins FS.The mammaliangene collection.Science.1999 Oct 15；286(5439)：455-7.

Strausberg RL et al.Generation and initial analysis of more than 15,000full-length human and mousec DNA sequences.Proc Natl Acad Sci USA.2002Dec 24；99(26)：16899-903.

Tsunoda T，Takagi T.Estimating transeription factor bindability on DNA.Bioinformatics.1999 Jul-Aug；15(7-8)：622-30.

Whitfield ML，Sherlock G，Saldanha AJ，Murray JI，Ball CA，Alexander KE，Matese JC，Perou CM，Hurt MM，Brown PO，Botstein D.Identification of genesperiodically expressed in the human cell cycle and their expression in tumors.Mol Biol Cell.2002 Jun；13(6)：1977-2000.

Wingender E，Chen X，Fricke E，Geffers R，Hehl R，Liebich I，Krull M，Matys V，Michael H，Ohnhauser R，Pruss M，Schacherer F，Thiele S，Urbach S.The TRANSFAC system on gene expression regulation.Nucleic Acids Res.2001Jan 1；29(1)：281-3.

Wingender E，Chen X，Hehl R，Karas H，Liebich I，Matys V，Meinhardt T，Pruss M，ReuterI，Schacherer F.TRANSFAC：an integrated system for geneexpression regulation.Nucleic Acids Res.2000 Jan 1；28(1)：316-9.

Wingender E，Karas H，Knuppel R.TRANSFAC database as a bridgebetween sequence data libraries and biological function.Pac Symp Biocomput.1997；：477-85.

Wingender E，Kel AE，Kel OV，Karas H，Heinemeyer T，Dietze P，KnuppelR，Romaschenko AG，Kolchanov NA.TRANSFAC，TRRD and COMPEL：towards a federated database system on transcriptional regulation.Nucleic AcidsRes.1997 Jan 1；25(1)：265-8.

Wingender E，Dietze P，Karas H，Knuppel R.TRANSFAC：a database ontranscription factors and their DNA binding sites.Nucleic Acids Res.1996 Jan 1；24(1)：238-41.

Wingender E.Recognition of regulatory regions in genomic sequences.JBiotechnol.1994 Jun 30；35(2-3)：273-80.

Suzuki Y，Yamashita R，Nakai K，Sugano S.DBTSS：DataBase ofhumanTranscriptional Start Sites and full-lengthcDNAs.

序列表

<110>科根泰克股份有限公司(CORGENTECH，INC.)

zhang.Jie

Wei.Hsiu-Ying

McEvoy，Leslie M.

<120>差别表达的基因的调节因子结合位点的统计分析

<130>39753-0002 PCT

<140>Unassigned

<141>Herewith

<150>US10/401，830

<151>2003-03-28

<160>4

<170>FastSEQ for windows Version 4.0

<210>1

<211>14

<212>DNA

<213>人(Homo Sapiens)

<400>1

aggggacttt ccca 14

<210>2

<211>8

<212>DNA

<213>人(Homo Sapiens)

<400>2

tttggcgg 8

<210>3

<211>7

<212>DNA

<213>人(Homo Sapiens)

<400>3

tgactca 7

<210>4

<211>9

<212>DNA

<213>人(Homo Sapiens)

<400>4

tgtctgtct 9

Claims

1.用于差别表达的基因的统计分析的方法，包括：

(a)获得差别表达的基因的组；

(c)鉴定至少一个调节因子结合位点，所述调节因子结合位点相对于基因组范围内或组织范围内的背景、在所述差别表达的基因的组中是富集了的。

2.权利要求1的方法，其中在步骤(c)中，通过将所述在步骤(c)中鉴定的一个或多个调控结合位点在所述基因的组中的发生频率或概率与它们在基因组范围内或组织范围内背景中的发生频率或概率相比较来确定富集。

3.权利要求1的方法，其中在获得所述差别表达的基因的组之前，获得差别表达的蛋白质的组的蛋白质组学分布型。

4.权利要求1的方法，其中所述差别表达的基因的组可以是以疾病、失调或生物过程为特征的基因表达分布型的一部分。

5.权利要求4的方法，其中所述疾病选自肿瘤、肿瘤学的疾病、神经病学的疾病、心血管疾病、肾病、传染性疾病、消化疾病、代谢疾病、炎性的疾病、自身免疫疾病、皮肤病学的疾病、或与外伤或异常骨骼发育有关的疾病。

6.权利要求5所述的方法，其中所述肿瘤是癌症。

7.权利要求6的方法，其中所述癌症选自乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰癌、宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道的癌症、甲状腺癌、肾癌、癌瘤、黑素瘤、或脑癌。

8.权利要求4的方法，其中所述失调是发育失调。

9.权利要求4的方法，其中所述生物过程与老化相关。

10.权利要求1的方法，其中所述组由与对照相比显示至少约两倍的差别表达的基因组成。

11.权利要求1的方法，其中所述组由与对照相比显示至少约四倍的差别表达的基因组成。

12.权利要求1的方法，其中所述组由与对照相比显示至少约十倍的差别表达的基因组成。

13.权利要求1所述的方法，其中所述调节因子结合位点在选自5′上游核心启动子区、5′上游增强子区、内含子区或3′调控区的区域中被鉴别。

14.权利要求13的方法，其中所述调节因子结合位点是转录因子结合位点。

15.权利要求14的方法，其中所述转录因子选自c-Fos、c-Jun、AP-1、Elk、ATF、c-Ets-1、c-Rel、CRF、CTF、GATA-1、POU1F1、NF-κB、POU2F1、POU2F2、p53、Pax-3、Sp1、TCF、TAR、TFEB、TCF-1、TFIIF、E2F-1、E2F-2、E2F-3、E2F-4、HIF-1、HIF-1α、HOXA1、HOXA5、Sp3、Sp4、TCF-4、AFC或STAT5A。

16.权利要求15的方法，其中所述转录因子选自E2F-1、E2F-2、E2F-3、NF-κB、Elk、AP-1、c-Fos或c-Jun。

17.权利要求1的方法，其中分析至少50个差别表达的基因。

18.权利要求1的方法，其中分析至少100个差别表达的基因。

19.权利要求1的方法，其中分析至少500个差别表达的基因。

20.权利要求1的方法，进一步包括根据所述富集的调节因子结合位点的鉴定设计治疗策略的步骤。

21.权利要求20的方法，其中所述富集的调节因子结合位点是与至少一个转录因子结合的转录因子结合位点。

22.权利要求21的方法，其中根据所述富集的转录因子结合位点鉴定共有结合位点。

23.权利要求20的方法，其中所述治疗策略依靠设计双链寡核苷酸诱饵，所述双链寡核苷酸诱饵与所述富集的结合位点竞争与相应的转录因子的结合。

24.权利要求20的方法，其中所述治疗策略依靠被设计以与所述富集的结合位点结合的反义寡核苷酸。

25.一种设计共有调节因子结合位点的方法，包括鉴定调节因子结合位点和设计共有调节因子结合位点，所述调节因子结合位点相对于基因组范围内或组织范围内的对照在差别表达的基因的组中是富集了的，所述共有调节因子结合位点基本上由在所述差别表达的基因的组中富集的所述调节因子结合位点共用的核苷酸组成。

26.一种分析在包含差别表达的基因的组的生物样品中调节因子结合位点的富集的方法，包括将所述调节因子结合位点在所述基因的组中出现的频率或概率与其在参考样品中出现的频率和概率相比较。

27.权利要求26的方法，其中所述生物样品是组织样品。

28.权利要求27所述的方法，其中所述组织包含肿瘤细胞。

29.权利要求28的方法，其中所述组织包含癌细胞。

30.权利要求28的方法，其中所述癌症选自乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰癌、宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道的癌症、甲状腺癌、肾癌、癌瘤、黑素瘤或脑癌。

31.权利要求28的方法，其中所述参考样品是相同组织类型的正常组织。

32.权利要求28的方法，其中所述参考样品是人类基因组。

33.权利要求26的方法，其中所述生物样品是生物学液体。

34.权利要求26的方法，其中所述富集通过利用超几何分布分析来确定。