CN1784498A

CN1784498A - 调控因子结合位点的基因组分布型绘制

Info

Publication number: CN1784498A
Application number: CNA2004800126273A
Authority: CN
Inventors: 张�杰; 魏淑英; 莱斯利·M·麦克沃伊
Original assignee: Corgentech Inc
Current assignee: Anesiva Inc
Priority date: 2003-03-28
Filing date: 2004-03-24
Publication date: 2006-06-07
Also published as: RU2005133192A; DE602004018115D1; JP2006031728A; ATE416261T1; EP1608786A2; US20040191781A1; AU2004225474A1; EP1608786B1; JP2004303201A; WO2004087966A3; WO2004087966A2; MXPA05010276A; JP2008293505A; KR20060015484A; CA2519674A1

Abstract

提供一种用于绘制调控因子结合位点分布型的方法。在基因组中定位完整基因，用于绘制基因调控区域的图谱。确定基因的最上游转录起始位点(TSS)的基因组位置。根据所确定的TSS，定义和检索基因调控区域的基因组序列。对各个检索获得的基因调控区域的DNA序列信息进行筛选，以确定推定的调控因子结合位点。绘制推定的调控因子结合位点及其基因组发生频率的分布型。

Description

调控因子结合位点的基因组分布型绘制

发明背景

发明领域

本发明大体上涉及提供所有已知基因的调控因子结合位点的分布型绘制(profiling)的方法、系统和数据结构，更加特别地涉及用于确定和表征调控因子结合位点的方法、数据结构和系统，以开发针对确定的结合位点的系统分析，用于进一步开发治疗性策略。

相关技术的描述

改变基因表达水平已经成为解决人类疾病的一种重要和有效的方法。每种基因的表达水平受转录机制的控制，其中一些称作为转录因子(TFs)的特定蛋白质结合到基因的调控区上。依次起始转录过程。因此，相应的TFs及其在基因调控区上的结合位点在控制基因的转录水平中起重要作用。因此，在现代生物医学研究和开发的努力中，转录因子及其相关转录机制已经成为“热”点。

对于每种基因来说，转录起始位点(TSS)是其mRNA开始通过RNA聚合酶II的作用从DNA转录的位置。在该过程中，基因调控区被某些调控因子联合和结合。这些已经结合的因子与其它转录蛋白一起形成转录复合物，该复合物可起始转录过程。更加特别地，该基因调控区典型地包括转录因子结合位点，所述转录因子结合位点是短的共有基因组序列。最重要的调控区之一是通常紧挨在TSS之前或者TSS侧翼的核心启动子。因此，对于定义每个基因的转录调控区域来说，确定TSS最重要的。目前，许多特定的研究和开发都将其努力集中在特定的TF和相应的结合位点上，生成了许多可靠的数据，但是这些数据仍然不能满足与基因组相关的生物医学需求的发展。为了满足迅速发展的与转录因子相关的药物开发业和挑战的要求，确定所有推定的调控因子和表征它们在基因组中的相应结合位点是十分重要的。特别地，随着人类基因组计划完成和大量疾病相关基因表达数据(例如以微阵列为基础的数据)的出现，迫切需要基因组范围内调控因子结合位点的分布型的绘制。

本发明从各种公众可获得的数据库(例如NCBI refseq，NIH MGC联盟，日本的DBTSS数据库等等)检索(retrieve)了所有全长基因，然后在最新的人类基因组工作草图(Human Genome Working Draft)(例如2003年7月的Assembly版本或者NCBI Build34)上，绘制这些基因的TSS的图谱。然后通过绘制这一基因的位置的图谱通过比较生成的所有可能的TSS定义每种基因的最上游TSS。根据最5′端(most 5’)的TSS的位置，定义转录调控区(TRR)，例如核心启动子区域的位置，并从最新的人类基因组中检索它们的相应基因组序列，用于进一步分析。将所有已知基因的已进行分布型绘制的TRR存储在数据库中，用于进一步的与药物靶点相关的统计分析，和用于进一步开发治疗策略。

发明概述

因此，本发明的一个目的是提供用于调控因子结合位点的基因组分布型绘制(genomic-profiling)的改进方法，以及与该方法相关的数据结构和系统。

在本发明的另一个目的中，提供了用于调控因子结合位点分布型绘制的方法，以及与该方法相关的数据结构和系统，此方法相对于进行分布型绘制的结合位点使用基因组范围内的概率作图。

本发明的还有另一个目的是提供用于生物医学研究的改进方法，以及与该方法相关的数据结构和系统。

本发明的还有一个目的是提供用于临床前开发的改进方法，以及与该方法相关的数据结构和系统。

本发明的还有另一个目的是提供用于药物筛选应用的改进方法，以及与该方法相关的数据结构和系统。

本发明的另一个目的是提供用于靶点发现和靶点确认的改进方法，以及与该方法相关的数据结构和系统。

本发明的还有另一个目的是提供用于调控区的分布型绘制的改进方法，以及与该方法相关的数据结构和系统。

本发明的另一个目的是提供在不同基因的调控分布型绘制之间建立基因组成组织范围内的联系的改进方法，以及与该方法相关的数据结构和系统。

本发明的还有另一个目的是提供用于了解各种已知转录分布型绘制的基因组或组织或细胞背景的改进方法，用于了解各种已知转录分布型绘制的基因组或组织或细胞背景的改进方法，以及与该方法相关的数据结构和系统。

本发明的这些和其它的目的在用于调控因子结合位点分布型绘制的方法中实现。完整基因位于用于基因调控区作图的基因组中。定义和检索基因调控区的基因组序列。筛选每个被检索的基因调控区的DNA序列信息，用来确定推定的调控因子结合位点。绘制推定的调控因子结合位点的分布型。

在本发明的另一个实施方案中，用于确定的结合位点分布型绘制的方法提供一个数据库，该数据库包括所有已知基因的经过分布型绘制的确定的结合位点。概率统计分析被应用于经分布型绘制的结合位点。

在本发明的另一个实施方案中，提供被有形地存储在计算机可读介质中的数据结构。该数据结构包括经分布型绘制而加以确认的结合位点的数据库。通过筛选基因调控区的DNA序列信息建立分布型绘制的确定的结合位点。该数据库可以用基因标识符(identifier)来检索。

在本发明的另一个实施方案中，用于显示经分布型绘制的调控因子结合位点的计算机执行系统包括数据库，该数据库包括经分布型绘制而加以鉴定的结合位点。通过筛选基因调控区的DNA序列信息，建立分布型绘制的确定的结合位点。该数据库可以用基因标识符来检索。并提供用户界面，其包括一个或多个可选择的用户输入端。输入装置可由用户操作。并包括显示器，其显示至少一个对分布型绘制的确定的结合位点响应的输出值。

附图简述

附图1是流程图，说明用于调控因子结合位点分布型绘制的本发明的实施方案之一。

附图2是流程图，描述如何定义基因(例如基因X)的转录调控区。

附图3是流程图，说明计算TF结合位点的频率。

附图4说明核心启动子区可包括TSS上游的200-300个碱基以及下游的约50-100个碱基。

附图5是本发明的数据库结构的一个实施方案的描述。

附图6是说明附图5的数据库的流程图。

附图7列举从refseq数据库检索的基因DLD的完整序列(SEQ ID NO59)。

附图8列举从MGC数据库检索的基因DLD的完整序列(SEQ IDNO60)。

附图9列举从DBTSS数据库检索的基因DLD的完整序列(SEQ ID NO61)。

附图10列举基因DLD的存储的序列(SEQ ID NO 62)。

附图11是可与附图7的数据库一起使用的查询形式的屏幕显示(screenshot)。

附图12是来自附图5的数据库的数据库查询结果的实施方案的屏幕显示。

附图13举例说明本发明的系统的一个实施方案

优选实施方案的描述

在各种实施方案中，本发明提供用于在基因组范围内调控因子结合位点分布型绘制的方法，有形地存储在计算机可读介质上的数据结构，以及相关系统。调控因子结合位点的例子包括，但是不限于，作为转录因子NF_-κB的结合位点的序列AGGGGACTTTCCCA(SEQ ID NO 1)；作为转录因子E2F-1的结合位点的序列TTTGGCGG(SEQ ID NO 2)等。

参考附图1和2的流程图，在本发明的一个实施方案中，基因调控区的基因组序列被检索，并被绘制到人类基因组中。根据被作图的基因，确定每个基因的最5′位置的TSS，并确定该基因的相应调控区。对各个被检索的基因调控区的DNA序列信息进行筛选，以确定推定的调控因子结合位点。然后绘制推定的调控因子结合位点的分布型。

从数据库中检索的信息被用于各种不同目的和应用，包括但是不限于，生物医学研究、临床前开发、药物筛选应用、靶点发现和靶点确认、调控区的分布型绘制、建立不同基因的调控分布型绘制之间的基因组或组织范围的联系、了解各种已知转录分布型绘制的基因组或者组织背景，了解各种已知转录分布型绘制的基因组或者组织背景等。

参考附图3，将概率作图(probability mapping)应用于所确定的结合位点。概率作图描述了在所有基因的调控区或者在某些组织或细胞中表达的基因中，确定是否存在特定的转录调控因子结合位点，例如所有的推定E2F-1位点。概率作图说明有多少基因可能由特定的调控因子来转录调控。其还指示一种特定的调控因子具有多大的生物学系统范围内的、基因组范围内的、细胞范围内的或组织范围内的影响。对于以治疗方法开发为基础的生物医学研究来说，该信息是非常有用的。

在本发明的另一个实施方案中，为了对基因调控区进行作图，对全长基因进行作图。应当理解，为了本说明书的目的，全长延伸至基因的长度。这会引起相同基因的不同版本的转录起始位点的基因组位置发生轻微的位移。在一个实施方案中，所有可获得的全长基因被用于比较中，以获得最5′端的TSS。根据最5′端的TSS，定义基因的调控区，检索基因调控区的基因组序列。对每个检索的基因调控区进行DNA序列信息的筛选，以确定推定的调控因子结合位点。将推定的调控因子结合位点作图到人类基因组上。

检索全长基因，以提供检索的基因的序列信息。采用公众可获得的UCSC基因组浏览器(browser)数据库、自主开发的脚本(self-developedscripts)等所提供的工具，可将检索的基因作图到最新的人类基因组上。在一个实施方案中，转录起始位点被作图。在一个实施方案中，如附图2中所说明，在比较基因的所有可获得的TSS后，通过确定每个基因的最5′TSS，对TSS作图。

通过最5′TSS，可以从最新的人类基因组中，检索每个检索到的基因的调控区的基因组序列。5′调控区是TSS的上游序列和TSS的下游序列。如附图4中所说明，在各种实施方案中，基因调控区包括但是不限于，核心启动子区，上游增强子区，下游调控区等。核心启动子区可包括TSS上游的200-300个碱基和TSS下游的约50-100个碱基。

相对于TSS的相应序列可被切割(cut)和存储。相对于TSS的相应序列可以使用自主开发的脚本从基因组序列中切割和存储，基于特定的释放(release)，以前的、最新的和将来的释放，包括但是不限于UCSC基因组浏览器、NCBI基因组数据库、Ensemb1数据库、其它基因组序列数据库等。

在一个实施方案中，用MATCH程序筛选DNA序列信息，MATCH程序得到TRANSFAC数据库的许可。DNA序列信息选筛可包括选择TF矩阵(matrix)、矩阵相似性分值(score of matrix similarity)、核心相似性分值(scoreof core similarity)等。

截取点(Cut-off)被用于降低筛选过程中的假阳性和假阴性匹配。可以确定各个结合位点的基因组或组织特异的频率。频率可以是特异的TF结合位点在(i)所有的基因组范围，(ii)所有的基因特异性细胞范围，(iii)所有的基因特异性组织范围，(iv)所有特异定义的基因中至少一种的调控区中的存在情况。频率可以是特异的TF结合位点在组织特异基因的调控区中的存在情况。此外，该频率也可被认为是保守分值(conservation score)或表达水平分值。作为举例说明，而不是限制，根据它们相应的保守分值或它们相应的基因表达水平，所确定的结合位点可以被有差别地考虑。例如，具有较高保守分值的结合位点或者具有较高表达水平的相应基因所起的作用比具有较低分值的那些位点或基因更显著。

可以建立各个结合位点的保守分值。选择保守分值来覆盖鉴定出TF结合位点的区域以及指示两个物种之间的保守水平的任何其它测量值，所述物种包括但是不限于小鼠和人。确定各个结合位点的位置。该位置可以以人类基因组工作草图为基础。该位置是人类基因组工作草图中被转变(convert)的位置。随着添加更多的序列片段，各个染色体的总长度也增加。这会使染色体上各个碱基的位置读取发生位移。但是，该位置可容易地被转变，并且相对于该基因位置的调控区位置保持不变。可以确定起点和终点的基因组位置。可以确定各个结合位点到TSS的距离。该距离是相对于结合位点与TSS之间的若干(a number of)碱基。作为举例说明，而不是限制，在一个实施方案中，该距离是所定义的结合位点到TSS的23个碱基的碱基之间的最后一个碱基的距离。在该实施例中，在这两个特定碱基之间有23个碱基。

在本发明的一个实施方案中，基于最5′TSS的位置，采用自主开发的计算机脚本和程序，从最新的人类基因组工作草图中检索所有可获得的基因的5′调控序列。这些检索得到的序列包括但是不限于每个基因的TSS的5′上游的250个碱基和TSS3′下游的50个碱基。

使用充分表征的转录因子结合共有序列模式(或位置加权的(positionweighted)矩阵)，可以分析所有的调控区序列，该模式由被许可的TRANSFAC数据库(TRANSFAC专业6.3版本，Wingender等人，Nucleic AcidsRes.29，281)建立。选择以高分值与结合矩阵匹配的位点。这些位点包括它们在基因组中的位置(相对于特定的基因组集合版本)和它们的长度以及它们与侧翼位点的协同信息。

通过将它们的保守分值与小鼠比较，进一步分析从上面获得的所有结合位点。从公众可获得的NCBI和UCSC基因组数据库检索到小鼠基因组和相对保守的信息，并用自主制作的版本和程序，与人转录因子结合位点进行保守比较。

将从上面生成的转录因子结合位点序列信息存储到数据库中，包括它们的基因组位置(起始(start)、终止(end))、长度、到各个基因的TSS的距离，和侧翼区(包括但是不限于5′和3′的10个碱基)。还添加相关的参考连接(link)，例如基因名称、功能、注释等。

根据该数据库，用计算机生成所有可能的转录诱饵(transcriptiondecoy)。采用高通量方法，例如寡核苷酸阵列、毛细管电泳等，进一步实验筛选该诱饵，以优化结合效率。所有的优化诱饵信息将被存储到数据库中。数据库中的部分信息可被用于未来版本的数据库中。

基因调控区的分布型(profile)包括但是不限于，(i)各个调控因子结合位点的概率作图，(ii)各个已知调控因子的目标基因鉴定；(iii)从各种差别表达的基因中确定的基因的调控因子结合分布型的统计学分析，等等。

在一个实施方案中，确定各个结合位点的长度。还可以确定关于与结合位点邻近的区域的序列信息。同样作为说明而不是限制，一个例子是agcgtcaga AGGGG ACTTT CCC aagaga ggccgaga(SEQ ID NO3)，小写的碱基字母位于以大写表示的核心结合位点的两侧。

还可确定其它结合位点的共存信息。转录机制通常需要由多个不同转录相关蛋白形成复合物，包括多个不同的DNA结合因子。在本发明中，针对基因调控区绘制结合位点的分布型，通常在单个区域中确定一个以上的结合位点。作为例子，单个区域的结合位点的数量可为15-20个。可以确定结合位点簇及其位置。

现在参考附图5和6，本发明的另一个实施方案为有形存储在计算机可读介质中的数据结构，包括具有通过分布型绘制而加以确定了的结合位点信息的数据库。该数据库包括带有标识符、结合位点等的核心表格。结合位点信息包括但是不限于，序列、长度、位置、方向、频率等。一个辅助表格(supporting table)包括所有基因的TSS位置。序列表格提供基因的调控区的序列。额外的辅助表格包括但是不限于TF的频率、各个TF的TF目标基因等。

所有的表格通过一种或多种标识符连接。在一个实施方案中，用多个而不是一个perl CGI脚本进入(reach)和检索数据库，然后显示相应的信息。还提供网络浏览器界面。

可以通过各种不同手段来检索数据库，包括但是不限于基因标识符、基因符号或者自主开发的标识符等。可以从NCBI数据库中选择基因标识符，标识符可以是Unigene Cluster ID，LoucsLink ID，国际上认可的基因符号等。

一个实施方案中，数据库包括TF的基因组频率信息，可以至少用TF名称或TF频率来分类(sort)。TF频率可包括基因组频率和组织特异性频率。在一个特定的实施方案中，数据库含有所有已知基因(总计约15,450种)的调控因子结合位点的分布型。

作为说明，而不是限制，用一种基因(符号：DLD，二氢硫辛酰胺脱氢酶)来简要说明如何建立数据库。

1.检索全长基因例如基因DLD，以提供序列信息。

如附图2中所说明，可从NCBI数据库(refseq)、MGC数据库(MGC)、日本DBTSS数据库(DBTSS)等中获得三种不同版本的全长mRNA序列。从refseq数据库检索得到的基因DLD的完整序列被列举在附图7中(SEQ IDNO 59)，从MGC检索得到的完整序列被列举在附图8中(SEQ ID NO 60)，从DBTSS检索得到的完整序列被列举在附图9中(SEQ ID NO 61)。

2.将检索得到的基因作图到新近更新的人类基因组中。

用自主开发的脚本，将上面的检索得到的序列读取(fetch)到UCSC基因组浏鉴器数据库中，以绘制它们的基因组位置图谱。采用由至少一种公众可获得的UCSC基因组济览器数据库提供的工具，将检索得到的不同版本的基因DLD作图到最近更新的人类基因组中。

3.对TSS的位置作图。

用自主开发的脚本从上面提及的UCSC基因组数据库中检索被作图的位置。作图的总计结果被列举在表1中。例如，来自NCBI refseq数据库的全长基因DLD序列被作图到人类基因组工作草图(由UCSC基因组浏览器于2002年6月发布)，定位于7号染色体的有义链或正链上，从染色体位置106015510开始，在染色体位置106044308处终止。

表1：

名称	染色体	链	起始	终止
名称	染色体	链	起始	终止	来自refseq的DLD来自MGC的DLD来自DBTSS的DLD	777	+++	106015510106015541106015488	106044308106044089106044308

4.在比较基因的所有可获得的TSS后通过制定每个基因的最5′TSS，对TSS作图。

再次参考附图2，通过采用自主制作的脚本以方便此次作图。对于基因DLD，由于其位于7号染色体的“+”链上，起始位置106015488被认为是基因DLD的TSS的最5′位置。

5.从最新的人类基因组中检索各个具有最5′TSS的检索获得的基因的调控区的基因组序列。

5′调控区是TSS上游和TSS下游的序列。更加特别地，对于基因DLD而言，调控区或者核心启动子区是包括TSS上游的200-300个碱基和TSS下游的约50-100个碱基的序列。因此，用自主开发的脚本从至少一个UCSC基因组浏览器或NCBI基因组数据库中剪切和存储相对于基因DLD的TSS的相应序列。基因DLD的被存储序列被列举在附图10中(SEQ ID NO 62)。

6.用匹配程序，对基因DLD的调控区的存储序列进行筛选。

MATCH程序是包含在被许可的TRANSFAC数据库中的序列分析工具。采用矩阵相似性分值和核心相似性分值的正确设定进行分析，以减少在筛选过程中的假阳性和假阴性的匹配。基因DLD的调控区的筛选结果被显示在表2中，其中列出了被确定的结合位点的位置。

表2：

位置	链	核心分值	矩阵分值	序列	TF名称
位置	链	核心分值	矩阵分值	序列	TF名称	3	(+)	1	0.964	tgaacttgTCACGctttactg(SEQ ID NO 4)	Pax-3
5	(-)	0.796	0.779	aacttgtcacgCTTTActgtc(SEQ ID NO 5)	Pax-4	3	(+)	1	0.964	tgaacttgTCACGctttactg(SEQ ID NO 4)	Pax-3
5	(-)	0.796	0.779	aacttgtcacgCTTTActgtc(SEQ ID NO 5)	Pax-4	6	(+)	1	0.886	acttgTCACGctttactgtcg(SEQ ID NO 6)	Pax-6
6	(+)	0.977	0.761	acttgTCACGctttactgtcg(SEQ ID NO 7)	Pax-4	6	(+)	1	0.886	acttgTCACGctttactgtcg(SEQ ID NO 6)	Pax-6
6	(+)	0.977	0.761	acttgTCACGctttactgtcg(SEQ ID NO 7)	Pax-4	24	(+)	0.994	0.972	tCGATAatg	Lmo2复合物

				(SEQ ID NO 8)
				(SEQ ID NO 8)		25	(-)	0.951	0.963	cgataatgtgCATTAagc(SEQ ID NO 9)	Cart-1
25	(+)	0.951	0.952	cgaTAATGtgcattaagc(SEQ ID NO 10)	Cart-1	25	(-)	0.951	0.963	cgataatgtgCATTAagc(SEQ ID NO 9)	Cart-1
25	(+)	0.951	0.952	cgaTAATGtgcattaagc(SEQ ID NO 10)	Cart-1	34	(+)	0.896	0.772	gcaTTAAGcaaa(SEQ ID NO 11)	Cdc5
48	(+)	1	0.806	ctagtTTTATttgt(SEQ ID NO 12)	Cdx-2	34	(+)	0.896	0.772	gcaTTAAGcaaa(SEQ ID NO 11)	Cdc5
48	(+)	1	0.806	ctagtTTTATttgt(SEQ ID NO 12)	Cdx-2	50	(-)	0.96	0.937	agtttTATTTgtttattt(SEQ ID NO 13)	FOXJ2
50	(+)	1	0.952	agtttTATTTgttta(SEQ ID NO 14)	HNF-3β	50	(-)	0.96	0.937	agtttTATTTgtttattt(SEQ ID NO 13)	FOXJ2
50	(+)	1	0.952	agtttTATTTgttta(SEQ ID NO 14)	HNF-3β	51	(+)	1	0.938	gttttATTTGttt(SEQ ID NO 15)	Xvent-1
52	(+)	0.948	0.926	ttTTATTtgttt(SEQ ID NO 16)	FOXD3	51	(+)	1	0.938	gttttATTTGttt(SEQ ID NO 15)	Xvent-1
52	(+)	0.948	0.926	ttTTATTtgttt(SEQ ID NO 16)	FOXD3	52	(+)	0.981	0.98	tttTATTTgttta(SEQ ID NO 17)	HFH-3
54	(-)	1	0.982	ttattTGTTTatttcatc(SEQ ID NO 18)	FOXJ2	52	(+)	0.981	0.98	tttTATTTgttta(SEQ ID NO 17)	HFH-3
54	(-)	1	0.982	ttattTGTTTatttcatc(SEQ ID NO 18)	FOXJ2	54	(+)	1	0.926	ttattTGTTTatttc(SEQ ID NO 19)	HNF-3β
55	(-)	1	0.947	tatttgTTTATttc(SEQ ID NO 20)	XFD-2	54	(+)	1	0.926	ttattTGTTTatttc(SEQ ID NO 19)	HNF-3β
55	(-)	1	0.947	tatttgTTTATttc(SEQ ID NO 20)	XFD-2	55	(-)	1	0.983	tatttgTTTATttcat(SEQ ID NO 21)	Freac-7
55	(-)	1	0.996	tattTGTTTat(SEQ ID NO 22)	FOXO4	55	(-)	1	0.983	tatttgTTTATttcat(SEQ ID NO 21)	Freac-7
55	(-)	1	0.996	tattTGTTTat(SEQ ID NO 22)	FOXO4	55	(+)	0.972	0.97	TATTTgtttat(SEQ ID NO 23)	HNF-3α
56	(+)	1	0.834	atttgTTTATttca(SEQ ID NO 24)	Cdx-2	55	(+)	0.972	0.97	TATTTgtttat(SEQ ID NO 23)	HNF-3α
56	(+)	1	0.834	atttgTTTATttca(SEQ ID NO 24)	Cdx-2	56	(+)	1	0.971	attTGTTTatttc(SEQ ID NO 25)	HFH-3
56	(+)	1	0.986	attTGTTTatttc(SEQ ID NO 26)	HFH-8	56	(+)	1	0.971	attTGTTTatttc(SEQ ID NO 25)	HFH-3
56	(+)	1	0.986	attTGTTTatttc(SEQ ID NO 26)	HFH-8	56	(+)	1	0.963	atttGTTTAttt(SEQ ID NO 27)	HFH-1
56	(+)	1	0.958	atTTGTTtattt(SEQ ID NO 28)	FOXD3	56	(+)	1	0.963	atttGTTTAttt(SEQ ID NO 27)	HFH-1
56	(+)	1	0.958	atTTGTTtattt(SEQ ID NO 28)	FOXD3	59	(+)	1	0.919	TGTTTatttca(SEQ ID NO 29)	HNF-3α
60	(-)	0.85	0.878	gtttatttcatCTTCTaa(SEQ ID NO 30)	IRF-7	59	(+)	1	0.919	TGTTTatttca(SEQ ID NO 29)	HNF-3α
60	(-)	0.85	0.878	gtttatttcatCTTCTaa(SEQ ID NO 30)	IRF-7	72	(+)	1	0.964	ttctAAGTAtaa(SEQ ID NO 31)	NKX3A
72	(+)	0.824	0.873	ttctaAGTATaagaatacattgta(SEQ ID NO 32)	STAT5A(同型四聚体)	72	(+)	1	0.964	ttctAAGTAtaa(SEQ ID NO 31)	NKX3A
72	(+)	0.824	0.873	ttctaAGTATaagaatacattgta(SEQ ID NO 32)	STAT5A(同型四聚体)	123	(-)	1	0.962	agcaTTCCCacca(SEQIDNO33)	Ik-1
123	(-)	1	0.927	agcaTTCCCacca(SEQ ID NO 34)	Ik-3	123	(-)	1	0.962	agcaTTCCCacca(SEQIDNO33)	Ik-1
123	(-)	1	0.927	agcaTTCCCacca(SEQ ID NO 34)	Ik-3	147	(-)	0.813	0.869	gCGACAaa(SEQ ID NO 35)	E2F
154	(-)	0.789	0.755	agccctgcgctCCTTAcgaca(SEQ ID NO 36)	Pax-4	147	(-)	0.813	0.869	gCGACAaa(SEQ ID NO 35)	E2F
154	(-)	0.789	0.755	agccctgcgctCCTTAcgaca(SEQ ID NO 36)	Pax-4	202	(-)	0.96	0.925	gcctCGTGCg(SEQ ID NO 37)	USF
222	(+)	1	0.934	gcgggCCAATcg(SEQ ID NO 38)	CCAATbox	202	(-)	0.96	0.925	gcctCGTGCg(SEQ ID NO 37)	USF
222	(+)	1	0.934	gcgggCCAATcg(SEQ ID NO 38)	CCAATbox	234	(-)	0.788	0.784	cgctgctcccgGGTGAtgacg(SEQ ID NO 39)	Pax-4
237	(-)	0.964	0.902	tgctcccgggTGATGacgtag(SEQ ID NO 40)	肌肉起始子序列-20	234	(-)	0.788	0.784	cgctgctcccgGGTGAtgacg(SEQ ID NO 39)	Pax-4
237	(-)	0.964	0.902	tgctcccgggTGATGacgtag(SEQ ID NO 40)	肌肉起始子序列-20	244	(+)	0.91	0.839	gggtGATGAcgtaggctgc(SEQ ID NO 41)	v-Maf
246	(+)	1	0.991	gtgaTGACGtag(SEQ ID NO 42)	CREB	244	(+)	0.91	0.839	gggtGATGAcgtaggctgc(SEQ ID NO 41)	v-Maf
246	(+)	1	0.991	gtgaTGACGtag(SEQ ID NO 42)	CREB	248	(+)	1	0.881	gaTGACGtaggc(SEQ ID NO 43)	ATF4
248	(+)	1	0.954	gaTGACGtaggc(SEQ ID NO 44)	CREB	248	(+)	1	0.881	gaTGACGtaggc(SEQ ID NO 43)	ATF4
248	(+)	1	0.954	gaTGACGtaggc(SEQ ID NO 44)	CREB	250	(+)	0.973	0.951	tgacGTAGG(SEQ ID NO 45)	TFII-1
250	(+)	1	0.971	tGACGtag(SEQ ID NO 46)	CREB	250	(+)	0.973	0.951	tgacGTAGG(SEQ ID NO 45)	TFII-1
250	(+)	1	0.971	tGACGtag(SEQ ID NO 46)	CREB	277	(+)	1	0.97	aGGGAGgg(SEQ ID NO 47)	MAZ
290	(+)	1	0.999	cTTGGCgg(SEQ ID NO 48)	E2F-1	277	(+)	1	0.97	aGGGAGgg(SEQ ID NO 47)	MAZ
290	(+)	1	0.999	cTTGGCgg(SEQ ID NO 48)	E2F-1	290	(+)	0.964	0.916	ctTGGCGg(SEQ ID NO 49)	E2F-1
290	(+)	0.984	0.897	ctTGGCGg(SE QID NO 50)	E2F	290	(+)	0.964	0.916	ctTGGCGg(SEQ ID NO 49)	E2F-1

7.确定各个结合位点的基因组或组织特异性频率。

频率是特异的TF结合位点在所有的基因或者组织特异性基因的调控区中的存在情况。在分析所有基因的调控区后，容易确定TF结合位点存在的频率或概率。基因DLD的一些这样的频率信息被列举在表3中。

表3：

TF名称	左侧位置	右侧位置	与TSS距离(碱基)	基因组频率
TF名称	左侧位置	右侧位置	与TSS距离(碱基)	基因组频率	Pax-3	106015239	106015259	-249	0.426259226
Pax-4	106015241	106015261	-247	0.96109025	Pax-3	106015239	106015259	-249	0.426259226
Pax-4	106015241	106015261	-247	0.96109025	Pax-6	106015242	106015262	-246	0.112003108
Pax-4	106015242	106015262	-246	0.96109025	Pax-6	106015242	106015262	-246	0.112003108
Pax-4	106015242	106015262	-246	0.96109025	Lmo2复合物	106015260	106015268	-228	0.120419526
Cart-1	106015261	106015278	-227	0.020134663	Lmo2复合物	106015260	106015268	-228	0.120419526
Cart-1	106015261	106015278	-227	0.020134663	Cart-1	106015261	106015278	-227	0.020134663
Cdc5	106015270	106015281	-218	0.360481678	Cart-1	106015261	106015278	-227	0.020134663
Cdc5	106015270	106015281	-218	0.360481678	Cdx-2	106015284	106015297	-204	0.259031464
FOXJ2	106015286	106015303	-202	0.167875178	Cdx-2	106015284	106015297	-204	0.259031464
FOXJ2	106015286	106015303	-202	0.167875178	HNF-3β	106015286	106015300	-202	0.23688981
Xvent-1	106015287	106015299	-201	0.678946005	HNF-3β	106015286	106015300	-202	0.23688981
Xvent-1	106015287	106015299	-201	0.678946005	HFH-3	106015288	106015300	-200	0.066942898
FOXD3	106015288	106015299	-200	0.653632008	HFH-3	106015288	106015300	-200	0.066942898
FOXD3	106015288	106015299	-200	0.653632008	FOXJ2	106015290	106015307	-196	0.167875178
HNF-3β	106015290	106015304	-198	0.23688981	FOXJ2	106015290	106015307	-196	0.167875178
HNF-3β	106015290	106015304	-198	0.23688981	FOXO4	106015291	106015301	-197	0.10785964
XFD-2	106015291	106015304	-197	0.033665674	FOXO4	106015291	106015301	-197	0.10785964
XFD-2	106015291	106015304	-197	0.033665674	Freac-7	106015291	106015306	-197	0.076718892
HNF-3α	106015291	106015301	-197	0.312184384	Freac-7	106015291	106015306	-197	0.076718892
HNF-3α	106015291	106015301	-197	0.312184384	HFH-1	106015292	106015303	-196	0.01657387
HFH-3	106015292	106015304	-196	0.066942898	HFH-1	106015292	106015303	-196	0.01657387
HFH-3	106015292	106015304	-196	0.066942898	HFH-8	106015292	106015304	-196	0.020652596
FOXD3	106015292	106015303	-196	0.653632008	HFH-8	106015292	106015304	-196	0.020652596
FOXD3	106015292	106015303	-196	0.653632008	Cdx-2	106015292	106015305	-196	0.259031464
HNF-3α	106015295	106015305	-193	0.312184384	Cdx-2	106015292	106015305	-196	0.259031464
HNF-3α	106015295	106015305	-193	0.312184384	IRF-T	106015296	106015313	-192	0.206914411
NKX3A	106015308	106015319	-180	0.02233588	IRF-T	106015296	106015313	-192	0.206914411
NKX3A	106015308	106015319	-180	0.02233588	STAT5A(同型四聚体)	106015308	106015331	-180	0.02926324
Ik-1	106015359	106015371	-129	0.149682766	STAT5A(同型四聚体)	106015308	106015331	-180	0.02926324
Ik-1	106015359	106015371	-129	0.149682766	Ik-3	106015359	106015371	-129	0.019875696
E2F	106015383	106015390	-105	0.566230739	Ik-3	106015359	106015371	-129	0.019875696
E2F	106015383	106015390	-105	0.566230739	Pax-4	106015390	106015410	-98	0.96109025
USF	106015438	106015447	-50	0.781561569	Pax-4	106015390	106015410	-98	0.96109025
USF	106015438	106015447	-50	0.781561569	CCAAT盒	106015458	106015469	-30	0.288488929
Pax-4	106015470	106015490	-18	0.96109025	CCAAT盒	106015458	106015469	-30	0.288488929
Pax-4	106015470	106015490	-18	0.96109025	肌肉起始子序列-20	106015473	106015493	-15	0.29004273
v-Maf	106015480	106015498	-8	0.233458501	肌肉起始子序列-20	106015473	106015493	-15	0.29004273
v-Maf	106015480	106015498	-8	0.233458501	CREB	106015482	106015493	-6	0.308429367
CREB	106015484	106015495	-4	0.308429367	CREB	106015482	106015493	-6	0.308429367
CREB	106015484	106015495	-4	0.308429367	ATF4	106015484	106015495	-4	0.142172731
TFII-1	106015486	106015494	-2	0.949177781	ATF4	106015484	106015495	-4	0.142172731
TFII-1	106015486	106015494	-2	0.949177781	CREB	106015486	106015493	-2	0.308429367
MAZ	106015513	106015520	25	1.118477276	CREB	106015486	106015493	-2	0.308429367
MAZ	106015513	106015520	25	1.118477276	E2F	106015526	106015533	38	0.566230739
E2F-1	106015526	106015533	38	0.901268937	E2F	106015526	106015533	38	0.566230739
E2F-1	106015526	106015533	38	0.901268937	E2F-1	106015526	106015533	38	0.901268937

8.建立各个结合位点的保守分值。

从UCSC基因组浏览器数据库中检索用于人类和小鼠之间的全基因组比较的保守分值。选择保守分值来覆盖确定出TF结合位点的区域。在基因DLD的调控区中确定TF结合位点的保守分值被列举在表4中。

表4：

TF名称	核心序列	起始位置	终止位置	与TSS距离	保守分值
TF名称	核心序列	起始位置	终止位置	与TSS距离	保守分值	Pax-3	tgaacttgTCACGctttactg(SEQ ID NO 4)	106015239	106015259	-249	0.426
Pax-4	aacttgtcacgCTTTActgtc(SEQ ID NO 5)	106015241	106015261	-247	0.3552	Pax-3	tgaacttgTCACGctttactg(SEQ ID NO 4)	106015239	106015259	-249	0.426
Pax-4	aacttgtcacgCTTTActgtc(SEQ ID NO 5)	106015241	106015261	-247	0.3552	Pax-6	acttgTCACGctttactgtcg(SEQ ID NO 6)	106015242	106015262	-246	0.3552
Pax-4	acttgTCACGctttactgtcg(SEQ ID NO 7)	106015242	106015262	-246	0.3552	Pax-6	acttgTCACGctttactgtcg(SEQ ID NO 6)	106015242	106015262	-246	0.3552
Pax-4	acttgTCACGctttactgtcg(SEQ ID NO 7)	106015242	106015262	-246	0.3552	Lmo2复合物	tCGATAatg(SEQ ID NO 8)	106015260	106015268	-228	0.06
Cart-1	cgaTAATGtgcattaagc(SEQ ID NO 10)	106015261	106015278	-227	0.06	Lmo2复合物	tCGATAatg(SEQ ID NO 8)	106015260	106015268	-228	0.06
Cart-1	cgaTAATGtgcattaagc(SEQ ID NO 10)	106015261	106015278	-227	0.06	Cart-1	cgataatgtgCATTAagc(SEQ ID NO 9)	106015261	106015278	-227	0.06
Cdc5	gcaTTAAGcaaa(SEQ ID NO 11)	106015270	106015281	-218	0.064	Cart-1	cgataatgtgCATTAagc(SEQ ID NO 9)	106015261	106015278	-227	0.06
Cdc5	gcaTTAAGcaaa(SEQ ID NO 11)	106015270	106015281	-218	0.064	Cdx-2	ctagtTTTATttgt(SEQ ID NO 12)	106015284	106015297	-204	0.11
FOXJ2	agtttTATTTgtaattt(SEQ ID NO 13)	106015286	106015303	-202	0.162	Cdx-2	ctagtTTTATttgt(SEQ ID NO 12)	106015284	106015297	-204	0.11
FOXJ2	agtttTATTTgtaattt(SEQ ID NO 13)	106015286	106015303	-202	0.162	HNF-3β	agtttTATTTgttta(SEQ ID NO 14)	106015286	106015300	-202	0.162
Xvent-1	gttttATTTGttt(SEQ ID NO 15)	106015287	106015299	-201	0.122666667	HNF-3β	agtttTATTTgttta(SEQ ID NO 14)	106015286	106015300	-202	0.162
Xvent-1	gttttATTTGttt(SEQ ID NO 15)	106015287	106015299	-201	0.122666667	HFH-3	tttTATTTgttta(SEQ ID NO 17)	106015288	106015300	-200	0.162
FOXD3	ttTTATTtgttt(SEQ ID NO 16)	106015288	106015299	-200	0.122666667	HFH-3	tttTATTTgttta(SEQ ID NO 17)	106015288	106015300	-200	0.162
FOXD3	ttTTATTtgttt(SEQ ID NO 16)	106015288	106015299	-200	0.122666667	FOXJ2	ttattTGTTTatttcatc(SEQ ID NO 18)	106015290	106015307	-198	0.286
HNF-3β	ttattTGTTTatttc(SEQ ID NO 19)	1060T5290	106015304	-198	0.192	FOXJ2	ttattTGTTTatttcatc(SEQ ID NO 18)	106015290	106015307	-198	0.286
HNF-3β	ttattTGTTTatttc(SEQ ID NO 19)	1060T5290	106015304	-198	0.192	FOX04	tattTGTTTat(SEQ ID NO 22)	106015291	106015301	-197	0.192
XFD-2	tatttgTTTATttc(SEQ ID NO 20)	106015291	106015304	-197	0.192	FOX04	tattTGTTTat(SEQ ID NO 22)	106015291	106015301	-197	0.192

Freac-7	tatttgTTTATttcat(SEQ ID NO 21)	106575291	106015306	-197	0.286
Freac-7	tatttgTTTATttcat(SEQ ID NO 21)	106575291	106015306	-197	0.286	HNF-3α	TATTTgtttat(SEQ ID NO 23)	106015291	106015301	-197	0.192
HFH-1	atttGTTTAttt(SEQ ID NO 27)	1O6015292	106015303	-196	0.192	HNF-3α	TATTTgtttat(SEQ ID NO 23)	106015291	106015301	-197	0.192
HFH-1	atttGTTTAttt(SEQ ID NO 27)	1O6015292	106015303	-196	0.192	HFH-3	attTGTTTatttc(SEQ ID NO 25)	106015292	106015304	-196	0.192
HFH-8	attTGTTTatttc(SEQ ID NO 26)	106015292	106015304	-196	0.192	HFH-3	attTGTTTatttc(SEQ ID NO 25)	106015292	106015304	-196	0.192
HFH-8	attTGTTTatttc(SEQ ID NO 26)	106015292	106015304	-196	0.192	FOXD3	atTTGTTtattt(SEQ ID NO 28)	106015292	106015303	-196	0.192
Cdx-2	atttgTTTATttca(SEQ ID NO 24)	1060T5292	106015305	-196	0.286	FOXD3	atTTGTTtattt(SEQ ID NO 28)	106015292	106015303	-196	0.192
Cdx-2	atttgTTTATttca(SEQ ID NO 24)	1060T5292	106015305	-196	0.286	HNF-3α	TGTTTatttca(SEQ ID NO 29)	106015295	106015305	-193	0.357333333
IRF-7	gtttatttcatCTTCTaa(SEQ ID NO 30)	106015296	106015313	-192	0.41	HNF-3α	TGTTTatttca(SEQ ID NO 29)	106015295	106015305	-193	0.357333333
IRF-7	gtttatttcatCTTCTaa(SEQ ID NO 30)	106015296	106015313	-192	0.41	NKX3A	ttctAAGTAtaa(SEQ ID NO 31)	106015308	106015319	-180	0.624
STAT5A(同型二聚体)	ttctaAGTATaagaatacattgta(SEQ ID NO 32)	106015308	106015331	-180	0.550666667	NKX3A	ttctAAGTAtaa(SEQ ID NO 31)	106015308	106015319	-180	0.624
STAT5A(同型二聚体)	ttctaAGTATaagaatacattgta(SEQ ID NO 32)	106015308	106015331	-180	0.550666667	Ik-1	agcaTTCCCacca(SEQ ID NO 33)	106015359	106015371	-129	0.394
1k-3	agcaTTCCCacca(SEQ ID NO 34)	106015359	106015371	-129	0.394	Ik-1	agcaTTCCCacca(SEQ ID NO 33)	106015359	106015371	-129	0.394
1k-3	agcaTTCCCacca(SEQ ID NO 34)	106015359	106015371	-129	0.394	E2F	gCGACAaa(SEQ ID NO 35)	106015383	106015390	-105	0.674666667
Pax-4	agccctgcgctCCTTAcgaca(SEQ ID NO 36)	106015390	106015410	-98	1.2336	E2F	gCGACAaa(SEQ ID NO 35)	106015383	106015390	-105	0.674666667
Pax-4	agccctgcgctCCTTAcgaca(SEQ ID NO 36)	106015390	106015410	-98	1.2336	USF	gcctCGTGCg(SEQ ID NO 37)	106015438	106015447	-50	0.888
CCAAT-box	gcgggCCAATcg(SEQ ID NO 38)	106015458	106015469	-30	1.136	USF	gcctCGTGCg(SEQ ID NO 37)	106015438	106015447	-50	0.888
CCAAT-box	gcgggCCAATcg(SEQ ID NO 38)	106015458	106015469	-30	1.136	Pax-4	cgctgctcccgGGTGAtgacg(SEQ ID NO 39)	106015470	106015490	-18	1.3408
肌肉起始子序列-20	tgctcccgggTGATGacgtag(SEQ ID NO 40)	106015473	106015493	-15	1.3408	Pax-4	cgctgctcccgGGTGAtgacg(SEQ ID NO 39)	106015470	106015490	-18	1.3408
肌肉起始子序列-20	tgctcccgggTGATGacgtag(SEQ ID NO 40)	106015473	106015493	-15	1.3408	v-Maf	gggtGATGAcgtaggctgc(SEQ ID NO 41)	106015480	106015498	-8	1.356
CREB	gtgaTGACGtag(SEQ ID NO 42)	106015482	106015493	-6	1.378666667	v-Maf	gggtGATGAcgtaggctgc(SEQ ID NO 41)	106015480	106015498	-8	1.356
CREB	gtgaTGACGtag(SEQ ID NO 42)	106015482	106015493	-6	1.378666667	CREB	gaTGACGtaggc(SEQ ID NO 44)	106015484	106015495	-4	1.356
ATF4	gaTGACGtaggc(SEQ ID NO 43)	106015484	106015495	-4	1.356	CREB	gaTGACGtaggc(SEQ ID NO 44)	106015484	106015495	-4	1.356

TFII-I	tgacGTAGG(SEQ ID NO 45)	106015486	106015494	-2	1.544
TFII-I	tgacGTAGG(SEQ ID NO 45)	106015486	106015494	-2	1.544	CREB	TGACGtag(SEQ ID NO 46)	106015486	106015493	-2	1.544
MAZ	aGGGAGgg(SEQ ID NO 47)	106015513	106015520	25	0.714666667	CREB	TGACGtag(SEQ ID NO 46)	106015486	106015493	-2	1.544
MAZ	aGGGAGgg(SEQ ID NO 47)	106015513	106015520	25	0.714666667	E2F	ctTGGCGg(SEQ ID NO 50)	106015526	106015533	38	0.532
E2F-1	ctTGGCGg(SEQ ID NO 49)	106015526	106015533	38	0.532	E2F	ctTGGCGg(SEQ ID NO 50)	106015526	106015533	38	0.532
E2F-1	ctTGGCGg(SEQ ID NO 49)	106015526	106015533	38	0.532	E2F-1	cTTGGCgg(SEQ ID NO 48)	106015526	106015533	38	0.532

9.确定结合位点簇和它们的位置。

采用自主制作的脚本，聚类(cluster)相邻或重叠的结合位点，并在表5中列举了基因DLD的相应位置和TF。

表5：

聚类识别号	核心序列	左侧位置	右侧位置	转录因子
聚类识别号	核心序列	左侧位置	右侧位置	转录因子					Cdc5；Cart-1；Cart-1；Lmo2复合物；Pax-
1	tgaacttgtcacgctttactgtcgataatgtgcattaagcaaa(SEQ ID NO 51)	106015239	106015281	4；Pax-6；Pax-4；Pax-3；					Cdc5；Cart-1；Cart-1；Lmo2复合物；Pax-
1	tgaacttgtcacgctttactgtcgataatgtgcattaagcaaa(SEQ ID NO 51)	106015239	106015281	4；Pax-6；Pax-4；Pax-3；					STAT5A(同型二聚体)；NKX3A；IRF-
				7；HNF-3alpha；Cdx-2；HFH-3；HFH-8；HFH-					STAT5A(同型二聚体)；NKX3A；IRF-
				7；HNF-3alpha；Cdx-2；HFH-3；HFH-8；HFH-					1；FOXD3；Freac-7；XFD-2；HNF-
				3alpha；FOXO4；FOXJ2；HNF-3β；HFH-					1；FOXD3；Freac-7；XFD-2；HNF-
				3alpha；FOXO4；FOXJ2；HNF-3β；HFH-					3；OXD3；Xvent-1；FOXJ2；HNF-3β；Cdx-
2	ctagttttatttgtttatttcatcttctaagtataagaatacattgta(SEQ ID NO 52)	106015284	106015331	2；					3；OXD3；Xvent-1；FOXJ2；HNF-3β；Cdx-
2		106015284	106015331	2；	3	agcattcccacca(SEQ ID NO 53)	106015359	106015371	Ik-3；Ik-1；
4	gcgacaaagccctgcgctccttacgaca(SEQ ID NO 54)	106015383	106015410	Pax-4；E2F；	3	agcattcccacca(SEQ ID NO 53)	106015359	106015371	Ik-3；Ik-1；
4	gcgacaaagccctgcgctccttacgaca(SEQ ID NO 54)	106015383	106015410	Pax-4；E2F；	5	gcctcgtgcg(SEQ ID NO 55)	106015438	106015447	USF；
				TFII-	5	gcctcgtgcg(SEQ ID NO 55)	106015438	106015447	USF；
				TFII-					I；CREB；CREB；ATF4；CREB；v-
				Maf；肌肉起始子序列-20；Pax-					I；CREB；CREB；ATF4；CREB；v-
				Maf；肌肉起始子序列-20；Pax-	6	gcgggcaatcgcgctgctcccgggtgatgacgtaggctgc(SEQ ID NO 56)	106015458	106015498	4；CCAATbox；
7	agggaggg(SEQ ID NO 57)	106015513	105015520	MAZ；	6	gcgggcaatcgcgctgctcccgggtgatgacgtaggctgc(SEQ ID NO 56)	106015458	106015498	4；CCAATbox；
7	agggaggg(SEQ ID NO 57)	106015513	105015520	MAZ；	8	cttggcgg(SEQ ID NO 58)	106015526	106015533	E2F；E2F-1；E2F-1；

10.将结合分布型收集在数据库中。

将上面列举的所有结合分布型收集在数据库中。基因DLD的入口的示例性列表显示在表6中。

表6：

TF名称	核心分值	矩阵分值	核心序列	左侧位置	右侧位置	与TSS的距离(碱基)	基因组频率	保守分值
TF名称	核心分值	矩阵分值	核心序列	左侧位置	右侧位置	与TSS的距离(碱基)	基因组频率	保守分值	Pax-3	1	0.964	tgaacttaTCACGctttactg(SEQ ID NO 63)	106015239	106015259	-249	0.426259226	0.426
Pax-4	0.796	0.779	aacttgtcacgCTTTActgtc(SEQ ID NO 5)	106015241	106015261	-247	0.96109025	0.3552	Pax-3	1	0.964	tgaacttaTCACGctttactg(SEQ ID NO 63)	106015239	106015259	-249	0.426259226	0.426
Pax-4	0.796	0.779	aacttgtcacgCTTTActgtc(SEQ ID NO 5)	106015241	106015261	-247	0.96109025	0.3552	Pax-6	1	0.886	acttgTCACGctttactgtcg(SEQ ID NO 6)	106015242	106015262	-246	0.112003108	0.3552
Pax-4	0.977	0.761	acttgTCACGctttactgtcg(SEQ ID NO 7)	106015242	106015262	-246	0.96109025	0.3552	Pax-6	1	0.886	acttgTCACGctttactgtcg(SEQ ID NO 6)	106015242	106015262	-246	0.112003108	0.3552
Pax-4	0.977	0.761	acttgTCACGctttactgtcg(SEQ ID NO 7)	106015242	106015262	-246	0.96109025	0.3552	Lmo2complex	0.994	0.972	tCGATAatg(SEQ ID NO 8)	106015260	106015268	-228	0.120419526	0.06
Cart-1	0.951	0.952	caaTAATGtgcattaagc(SEQ ID NO 64)	106015261	106015278	-227	0.020134663	0.06	Lmo2complex	0.994	0.972	tCGATAatg(SEQ ID NO 8)	106015260	106015268	-228	0.120419526	0.06
Cart-1	0.951	0.952	caaTAATGtgcattaagc(SEQ ID NO 64)	106015261	106015278	-227	0.020134663	0.06	Cart-1	0.951	0.963	cgataatgtgCATTAagc(SEQ ID NO 9)	106015261	106015278	-227	0.020134663	0.06
Cdc5	0.896	0.772	gcaTTAAGcaaa(SEQ ID NO 11)	106015270	106015281	-218	0.360481678	0.064	Cart-1	0.951	0.963	cgataatgtgCATTAagc(SEQ ID NO 9)	106015261	106015278	-227	0.020134663	0.06
Cdc5	0.896	0.772	gcaTTAAGcaaa(SEQ ID NO 11)	106015270	106015281	-218	0.360481678	0.064	Cdx-2	1	0.806	ctagtTTTATttgt(SEQ ID NO 12)	106015284	106015297	-204	0.259031464	0.11
FOXJ2	0.96	0.937	agtttTATTTgtttattt(SEQ ID NO 13)	106015286	106015303	-202	0.167875178	0.162	Cdx-2	1	0.806	ctagtTTTATttgt(SEQ ID NO 12)	106015284	106015297	-204	0.259031464	0.11
FOXJ2	0.96	0.937	agtttTATTTgtttattt(SEQ ID NO 13)	106015286	106015303	-202	0.167875178	0.162	HNF-3beta	1	0.952	agtttTATTTgttta(SEQ ID NO 14)	106015286	106015300	-202	0.23688981	0.162
Xvent-1	1	0.938	gttttATTTGttt(SEQ ID NO 15)	106015287	106015299	-201	0.678946005	0.122666667	HNF-3beta	1	0.952	agtttTATTTgttta(SEQ ID NO 14)	106015286	106015300	-202	0.23688981	0.162
Xvent-1	1	0.938	gttttATTTGttt(SEQ ID NO 15)	106015287	106015299	-201	0.678946005	0.122666667	HFH-3	0.981	0.98	tttTATTTgttta(SEQ ID NO 17)	106015288	106015300	-200	0.066942898	0.162
FOXD3	0.948	0.926	ttTTATTtgttt(SEQ ID NO 16)	106015288	106015299	-200	0.653632008	0.122666667	HFH-3	0.981	0.98	tttTATTTgttta(SEQ ID NO 17)	106015288	106015300	-200	0.066942898	0.162
FOXD3	0.948	0.926	ttTTATTtgttt(SEQ ID NO 16)	106015288	106015299	-200	0.653632008	0.122666667	FOXJ2	1	0.982	ttattTGTTTatttcatc(SEQ ID NO 18)	106015290	106015307	-198	0.167875178	0.286
HNF-3beta	1	0.926	ttattTGTTTatttc(SEQ ID NO 19)	06015290	106015304	-198	0.23688981	0.192	FOXJ2	1	0.982	ttattTGTTTatttcatc(SEQ ID NO 18)	106015290	106015307	-198	0.167875178	0.286

FOX04	1	0.996	tattTGTTTat(SEQ ID NO 22)	106015291	106015301	-197	0.10785964	0.192
FOX04	1	0.996	tattTGTTTat(SEQ ID NO 22)	106015291	106015301	-197	0.10785964	0.192	XFD-2	1	0.947	tatttgTTTATttc(SEQ ID NO 20)	106015291	106015304	-197	0.033665674	0.192
Freac-7	1	0.983	tatttgTTTATttcat(SEQ ID NO 21)	106015291	106015306	-197	0.076718892	0.286	XFD-2	1	0.947	tatttgTTTATttc(SEQ ID NO 20)	106015291	106015304	-197	0.033665674	0.192
Freac-7	1	0.983	tatttgTTTATttcat(SEQ ID NO 21)	106015291	106015306	-197	0.076718892	0.286	HNF-3alpha	0.972	0.97	TATTTTgtttat(SEQ ID NO 23)	106015291	106015301	-197	0.312184384	0.192
HFH-1	1	0.963	atttGTTTAttt(SEQ ID NO 27)	106015292	106015303	-196	0.01657387	0.192	HNF-3alpha	0.972	0.97	TATTTTgtttat(SEQ ID NO 23)	106015291	106015301	-197	0.312184384	0.192
HFH-1	1	0.963	atttGTTTAttt(SEQ ID NO 27)	106015292	106015303	-196	0.01657387	0.192	HFH-3	1	0.97	attTGTTTatttc(SEQ ID NO 25)	106015292	106015304	-196	0.066942898	0.192
HFH-8	1	0.986	attTGTTTatttc(SEQ ID NO 26)	106015292	106015304	-196	0.020652596	0.192	HFH-3	1	0.97	attTGTTTatttc(SEQ ID NO 25)	106015292	106015304	-196	0.066942898	0.192
HFH-8	1	0.986	attTGTTTatttc(SEQ ID NO 26)	106015292	106015304	-196	0.020652596	0.192	FOXD3	1	0.958	atTTGTTtattt(SEQ ID NO 28)	106015292	106015303	-196	0.653632008	0.192
Cdx-2	1	0.834	atttgTTTATttca(SEQ ID NO 24)	106015292	106015305	-196	0.259031464	0.286	FOXD3	1	0.958	atTTGTTtattt(SEQ ID NO 28)	106015292	106015303	-196	0.653632008	0.192
Cdx-2	1	0.834	atttgTTTATttca(SEQ ID NO 24)	106015292	106015305	-196	0.259031464	0.286	HNF-3α	1	0.919	TGTTTatttca(SEQ ID NO 29)	106015295	106015305	-193	0.312184384	0.357333333
IRF-7	0.85	0.878	gtttatttcatCTTCTaa(SEQ ID NO 30)	106015296	106015313	-192	0.206914411	0.41	HNF-3α	1	0.919	TGTTTatttca(SEQ ID NO 29)	106015295	106015305	-193	0.312184384	0.357333333
IRF-7	0.85	0.878	gtttatttcatCTTCTaa(SEQ ID NO 30)	106015296	106015313	-192	0.206914411	0.41	NKX3A	1	0.964	ttctAAGTAtaa(SEQ ID NO 31)	106015308	106015319	-180	0.02233588	0.624
STAT5A(同型四聚体)	0.824	0.873	ttctaAGTATaagaatacattgta(SEQ ID NO 32)	106015308	106015331	-180	0.02926324	0.550666667	NKX3A	1	0.964	ttctAAGTAtaa(SEQ ID NO 31)	106015308	106015319	-180	0.02233588	0.624
STAT5A(同型四聚体)	0.824	0.873	ttctaAGTATaagaatacattgta(SEQ ID NO 32)	106015308	106015331	-180	0.02926324	0.550666667	Ik-1	1	0.962	agcaTTCCCacca(SEQ ID NO 33)	106015359	106015371	-129	0.149682766	0.394
Ik-3	1	0.927	agcaTTCCacca(SEQ ID NO 65)	106015359	106015371	-129	0.019875696	0.394	Ik-1	1	0.962	agcaTTCCCacca(SEQ ID NO 33)	106015359	106015371	-129	0.149682766	0.394
Ik-3	1	0.927	agcaTTCCacca(SEQ ID NO 65)	106015359	106015371	-129	0.019875696	0.394	E2F	0.813	0.869	gCGACAaa(SEQ ID NO 35)	106015383	106015390	-105	0.566230739	0.674666667
Pax-4	0.789	0.755	agccctgcgctCCTTAcgaca(SEQ ID NO 36)	106015390	106015410	-98	0.96109025	1.2336	E2F	0.813	0.869	gCGACAaa(SEQ ID NO 35)	106015383	106015390	-105	0.566230739	0.674666667
Pax-4	0.789	0.755	agccctgcgctCCTTAcgaca(SEQ ID NO 36)	106015390	106015410	-98	0.96109025	1.2336	USF	0.96	0.925	gcctCGTGCg(SEQ ID NO 37)	106015438	106015447	-50	0.781561569	0.888
CCAAT盒	1	0.934	gcgggCCAATcg(SEQ ID NO 38)	106015458	106015469	-30	0.288488929	1.136	USF	0.96	0.925	gcctCGTGCg(SEQ ID NO 37)	106015438	106015447	-50	0.781561569	0.888
CCAAT盒	1	0.934	gcgggCCAATcg(SEQ ID NO 38)	106015458	106015469	-30	0.288488929	1.136	Pax-4	0.788	0.784	cgctgctcccgGGTGAtgacg(SEQ ID NO 39)	106015470	106015490	-18	0.96109025	1.3408
肌肉起始子序列-20	0.964	0.902	tgctcccgggTGATGacgtag(SEQ ID NO 40)	106015473	106015493	-15	0.29004273	1.3408	Pax-4	0.788	0.784	cgctgctcccgGGTGAtgacg(SEQ ID NO 39)	106015470	106015490	-18	0.96109025	1.3408
肌肉起始子序列-20	0.964	0.902	tgctcccgggTGATGacgtag(SEQ ID NO 40)	106015473	106015493	-15	0.29004273	1.3408	v-Maf	0.91	0.839	gggtGATGAcgtaggctgc(SEQ ID NO 41)	106015480	106015498	-8	0.233458501	1.356
CREB	1	0.991	gtgaTGACGtag(SEQ ID NO 42)	106015482	106015493	-6	0.308429367	1.378666667	v-Maf	0.91	0.839	gggtGATGAcgtaggctgc(SEQ ID NO 41)	106015480	106015498	-8	0.233458501	1.356
CREB	1	0.991	gtgaTGACGtag(SEQ ID NO 42)	106015482	106015493	-6	0.308429367	1.378666667	CREB	1	0.954	gaTGACGtaggc(SEQ ID NO 44)	106015484	106015495	-4	0.308429367	1.356
ATF4	1	0.881	gaTGACGtaggc(SEQ ID NO 43)	106015484	106015495	-4	0.142172731	1.356	CREB	1	0.954	gaTGACGtaggc(SEQ ID NO 44)	106015484	106015495	-4	0.308429367	1.356
ATF4	1	0.881	gaTGACGtaggc(SEQ ID NO 43)	106015484	106015495	-4	0.142172731	1.356	TFH-1	0.973	0.951	tgacGTAGG(SEQ ID NO 45)	106015486	106015494	-2	0.949177781	1.544
CREB	1	0.971	TGACGtag(SEQ ID NO 46)	106015486	106015493	-2	0.308429367	1.544	TFH-1	0.973	0.951	tgacGTAGG(SEQ ID NO 45)	106015486	106015494	-2	0.949177781	1.544
CREB	1	0.971	TGACGtag(SEQ ID NO 46)	106015486	106015493	-2	0.308429367	1.544	MAZ	1	0.97	aGGGAGgg(SEQ ID NO 47)	106015513	106015520	25	1.118477276	0.714666667
E2F	0.984	0.897	ctTGGCGg(SEQ ID NO 50)	106015526	106015533	38	0.566230739	0.532	MAZ	1	0.97	aGGGAGgg(SEQ ID NO 47)	106015513	106015520	25	1.118477276	0.714666667
E2F	0.984	0.897	ctTGGCGg(SEQ ID NO 50)	106015526	106015533	38	0.566230739	0.532	E2F-1	0.964	0.916	ctTGGCGg(SEQ ID NO 49)	106015526	106015533	38	0.901268937	0.532
E2F-1	1	0.999	cTTGGCgg(SEQ ID NO 48)	106015526	106015533	38	0.901268937	0.532	E2F-1	0.964	0.916	ctTGGCGg(SEQ ID NO 49)	106015526	106015533	38	0.901268937	0.532

11.数据库可用基因标识符检索。

附图11举例说明可与数据库一起使用的查询形式的屏幕显示(screenshot)。附图12举例说明数据库查询结果的屏幕显示。

如附图13中所说明，本发明的另一个实施方案是用于显示已绘制分布型的调控因子结合位点的计算机执行系统。该系统包括数据库、包括一个或多个可选择的用户输入端的用户界面、可由用户操作的输入装置和用于显示至少一种响应于分布型绘制的确定的结合位点的输出值的显示器。

输出值的例子包括但是不限于，基因名称、标识符、所确定的TF结合位点、TF名称、基因组位置、长度、距离、保守分值、结合分值、频率信息和结合位点序列。输入端的例子包括基因标识符，例如基因符号，unigeneCluster ID或者locuslink ID等。

该系统还包括存储器、微处理器、数据文件、脚本(script)、可获得的辅助软件，包括但是不限于MS windows，red hat linux，Apache HTTP sever，Perl编译程序等。

前面对本发明的优选实施方案的描述，用于说明和描述的目的。目的不在于穷举或者将本发明限定在所公开的精确形式中。显然，许多改进和变化对于本领域普通技术人员来说是显然的。本发明的保护范围由下面的权利要求书和它们的等价物来定义。

序列表

<110>科根泰克股份有限公司(CORGENTECH，INC.)

ZHANG，Jie

WEI，Hsiu-Ying

MCEVOY，Leslie Margaret

<120>调控因子结合位点的基因组分布型绘制

<130>39753-0003 PCT

<140>Unassigned

<141>Herewith

<150>US 10/402,689

<151>2003-03-28

<160>65

<170>FastSEQ for Windows Version 4.0

<210>1

<211>14

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(1)...(14)

<400>1

aggggacttt ccca 14

<210>2

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(1)...(8)

<400>2

tttggcgg 8

<210>3

<211>36

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(10)...(22)

<400>3

agcgtcagaa ggggactttc ccaagagagg ccgaga 36

<210>4

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(9)...(13)

<400>4

tgaacttgtc acgctttact g 21

<210>5

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(12)...(16)

<400>5

aacttgtcac gctttactgt c 21

<210>6

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>6

acttgtcacg ctttactgtc g 21

<210>7

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>7

acttgtcacg ctttactgtc g 21

<210>8

<211>9

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(2)...(6)

<400>8

tcgataatg 9

<210>9

<211>18

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(11)...(15)

<400>9

cgataatgtg cattaagc 18

<210>10

<211>18

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(4)...(8)

<400>10

cgataatgtg cattaagc 18

<210>11

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(4)...(8)

<400>11

gcattaagca aa 12

<210>12

<211>14

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>12

ctagttttat ttgt 14

<210>13

<211>18

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>13

agttttattt gtttattt 18

<210>14

<211>15

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>14

agttttattt gttta 15

<210>15

<211>13

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>15

gttttatttg ttt 13

<210>16

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(3)...(7)

<400>16

ttttatttgt tt 12

<210>17

<211>13

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(4)...(8)

<400>17

ttttatttgt tta 13

<210>18

<211>18

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>18

ttatttgttt atttcatc 18

<210>19

<211>15

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>19

ttatttgttt atttc 15

<210>20

<211>14

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(7)...(11)

<400>20

tatttgttta tttc 14

<210>21

<211>16

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(7)...(11)

<400>21

tatttgttta tttcat 16

<210>22

<211>11

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>22

tatttgttta t 11

<210>23

<211>11

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(1)...(5)

<400>23

tatttgttta t 11

<210>24

<211>14

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>24

atttgtttat ttca 14

<210>25

<211>13

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(4)...(8)

<400>25

atttgtttat ttc 13

<210>26

<211>13

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(4)...(8)

<400>26

atttgtttat ttc 13

<210>27

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>27

atttgtttat tt 12

<210>28

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(3)...(7)

<400>28

atttgtttat tt 12

<210>29

<211>11

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(1)...(5)

<400>29

tgtttatttc a 11

<210>30

<211>18

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(12)...(16)

<400>30

gtttatttca tcttctaa 18

<210>31

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>31

ttctaagtat aa 12

<210>32

<211>24

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>32

ttctaagtat aagaatacat tgta 24

<210>33

<211>13

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>33

agcattccca cca 13

<210>34

<211>13

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>34

agcattccca cca 13

<210>35

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(2)...(6)

<400>35

gcgacaaa 8

<210>36

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(12)...(16)

<400>36

agccctgcgc tccttacgac a 21

<210>37

<211>10

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>37

gcctcgtgcg 10

<210>38

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(6)...(10)

<400>38

gcgggccaat cg 12

<210>39

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(12)...(16)

<400>39

cgctgctccc gggtgatgac g 21

<210>40

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(11)...(15)

<400>40

tgctcccggg tgatgacgta g 21

<210>41

<211>19

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>41

gggtgatgac gtaggctgc 19

<210>42

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>42

gtgatgacgt ag 12

<210>43

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(3)...(7)

<400>43

gatgacgtag gc 12

<210>44

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(3)...(7)

<400>44

gatgacgtag gc 12

<210>45

<211>9

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(9)

<400>45

tgacgtagg 9

<210>46

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(1)...(5)

<400>46

tgacgtag 8

<210>47

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(2)...(6)

<400>47

agggaggg 8

<210>48

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(2)...(6)

<400>48

cttggcgg 8

<210>49

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(3)...(7)

<400>49

cttggcgg 8

<210>50

<211>8

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(3)...(7)

<400>50

cttggcgg 8

<210>51

<211>43

<212>DNA

<213>人(Homo sapiens)

<400>51

tgaacttgtc acgctttact gtcgataatg tgcattaagc aaa 43

<210>52

<211>48

<212>DNA

<213>人(Homo sapiens)

<400>52

ctagttttat ttgtttattt catcttctaa gtataagaat acattgta 48

<210>53

<211>13

<212>DNA

<213>人(Homo sapiens)

<400>53

agcattccca cca 13

<210>54

<211>28

<212>DNA

<213>人(Homo sapiens)

<400>54

gcgacaaagc cctgcgctcc ttacgaca 28

<210>55

<211>10

<212>DNA

<213>人(Homo sapiens)

<400>55

gcctcgtgcg 10

<210>56

<211>40

<212>DNA

<213>人(Homo sapiens)

<400>56

gcgggcaatc gcgctgctcc cgggtgatga cgtaggctgc 40

<210>57

<211>8

<212>DNA

<213>人(Homo sapiens)

<400>57

agggaggg 8

<210>58

<211>8

<212>DNA

<213>人(Homo sapiens)

<400>58

cttggcgg 8

<210>59

<211>2320

<212>DNA

<213>人(Homo sapiens)

<400>59

gcgcagggag gggagacctt ggcggacggc ggagccccag cggaggtgaa agtattggcg 60

gaaaggaaaa tacagcggaa aaatgcagag ctggagtcgt gtgtactgct ccttggccaa 120

gagaggccat ttcaatcgaa tatctcatgg cctacaggga ctttctgcag tgcctctgag 180

aacttacgca gatcagccga ttgatgctga tgtaacagtt ataggttctg gtcctggagg 240

atatgttgct gctattaaag ctgcccagtt aggcttcaag acagtctgca ttgagaaaaa 300

tgaaacactt ggtggaacat gcttgaatgt tggttgtatt ccttctaagg ctttattgaa 360

caactctcat tattaccata tggcccatgg aacagatttt gcatctagag gaattgaaat 420

gtccgaagtt cgcttgaatt tagacaagat gatggagcag aagagtactg cagtaaaagc 480

tttaacaggt ggaattgccc acttattcaa acagaataag gttgttcatg tcaatggata 540

tggaaagata actggcaaaa atcaagtcac tgctacgaaa gctgatggcg gcactcaggt 600

tattgataca aagaacattc ttatagccac gggttcagaa gttactcctt ttcctggaat 660

cacgatagat gaagatacaa tagtgtcatc tacaggtgct ttatctttaa aaaaagttcc 720

agaaaagatg gttgttattg gtgcaggagt aataggtgta gaattgggtt cagtttggca 780

aagacttggt gcagatgtga cagcagttga atttttaggt catgtaggtg gagttggaat 840

tgatatggag atatctaaaa actttcaacg catccttcaa aaacaggggt ttaaatttaa 900

attgaataca aaggttactg gtgctaccaa gaagtcagat ggaaaaattg atgtttctat 960

tgaagctgct tctggtggta aagctgaagt tatcacttgt gatgtactct tggtttgcat 1020

tggccgacga ccctttacta agaatttggg actagaagag ctgggaattg aactagatcc 1080

tagaggtaga attccagtca ataccagatt tcaaactaaa attccaaata tctatgccat 1140

tggtgatgta gttgctggtc caatgctggc tcacaaagca gaggatgaag gcattatctg 1200

tgttgaagga atggctggtg gtgctgtgca cattgactac aattgtgtgc catcagtgat 1260

ttacacacac cctgaagttg cttgggttgg caaatcagaa gagcagttga aagaagaggg 1320

tattgagtac aaagttggga aattcccatt tgctgctaac agcagagcta agacaaatgc 1380

tgacacagat ggcatggtga agatccttgg gcagaaatcg acagacagag tactgggagc 1440

acatattctt ggaccaggtg ctggagaaat ggtaaatgaa gctgctcttg ctttggaata 1500

tggagcatcc tgtgaagata tagctagagt ctgtcatgca catccgacct tatcagaagc 1560

ttttagagaa gcaaatcttg ctgcgtcatt tggcaaatca atcaactttt gaattagaag 1620

attatatatt tttttttctg aaatttcctg ggagcttttg tagaagtcac attcctgaac 1680

aggatattct cacagctcca agaatttcta ggactgaatt atgaaacttt tggaaggtat 1740

ttaataggtt tggacaaaat ggaatactct tatatctata ttttacataa atttagtatt 1800

ttgtttcagt gcactaatat gtaagacaaa aaggactact tattgtagtc atcctggaat 1860

atctccgtca actcatattt tcatgctgtt catgaaagat tcaatgcccc tgaatttaaa 1920

tagctctttt ctctgataca gaaaagttga attttacatg gctggagcta gaatttgata 1980

tgtgaacagt tgtgtttgaa gcacagtgat caagttattt ttaatttggt tttcacattg 2040

gaaacaagtc agtcattcag atatgattca aatgtctata aaccaaactg atgtaagtaa 2100

atggtctctc acttgtttta tttaacctct aaattctttc attttagggg tagcatttgt 2160

gttgaagagg ttttaaagct tccattgttg tctgcaactc tgaagggtaa ttatatagtt 2220

acccaaatta agagagtcta tttacggaac tcaaatacgt gggcattcaa atgtattaca 2280

gtggggaatg aagatactga aataaacgtc ttaaatattc 2320

<210>60

<211>2108

<212>DNA

<213>人(Homo sapiens)

<400>60

ggcacgaggg aggcgcccag cggaggtgaa agtattggcg gaaaggaaaa tacagcggaa 60

aaatgcagag ctggagtcgt gtgtactgct ccttggccaa gagaggccat ttcaatcgaa 120

tatctcatgg cctacaggga ctttctgcag tgcctctgag aacttacgca gatcagccga 180

ttgatgctga tgtaacagtt ataggttctg gtcctggagg atatgttgct gctattaaag 240

ctgcccagtt aggcttcaag acagtctgca ttgagaaaaa tgaaacactt ggtggaacat 300

gcttgaatgt tggttgtatt ccttctaagg ctttattgaa caactctcat tattaccata 360

tggcccatgg aaaagatttt gcatctagag gaattgaaat gtccgaagtt cgcttgaatt 420

tagacaagat gatggagcag aagagtactg cagtaaaagc tttaacaggt ggaattgccc 480

acttattcaa acagaataag gttgttcatg tcaatggata tggaaagata actggcaaaa 540

atcaagtcac tgctacgaaa gctgatggcg gcactcaggt tattgataca aagaacattc 600

ttatagccac gggttcagaa gttactcctt ttcctggaat cacgatagat gaagatacaa 660

tagtgtcatc tacaggtgct ttatctttaa aaaaagttcc agaaaagatg gttgttattg 720

gtgcaggagt aataggtgta gaattgggtt cagtttggca aagacttggt gcagatgtga 780

cagcagttga atttttaggt catgtaggtg gagttggaat tgatatggag atatctaaaa 840

actttcaacg catccttcaa aaacaggggt ttaaatttaa attgaataca aaggttactg 900

gtgctaccaa gaagtcagat ggaaaaattg atgtttctat tgaagctgct tctggtggta 960

aagctgaagt tatcacttgt gatgtactct tggtttgcat tggccgacga ccctttacta 1020

agaatttggg actagaagag ctgggaattg aactagatcc cagaggtaga attccagtca 1080

ataccagatt tcaaactaaa attccaaata tctatgccat tggtgatgta gttgctggtc 1140

caatgctggc tcacaaagca gaggatgaag gcattatctg tgttgaagga atggctggtg 1200

gtgctgtgca cattgactac aattgtgtgc catcagtgat ttacacacac cctgaagttg 1260

cttgggttgg caaatcagaa gagcagttga aagaagaggg tattgagtac aaagttggga 1320

aattcccatt tgctgctaac agcagagcta agacaaatgc tgacacagat ggcatggtga 1380

agatccttgg gcagaaatcg acagacagag tactgggagc acatattctt ggaccaggtg 1440

ctggagaaat ggtaaatgaa gctgctcttg ctttggaata tggagcatcc tgtgaagata 1500

tagctagagt ctgtcatgca catccgacct tatcagaagc ttttagagaa gcaaatcttg 1560

ctgcgtcatt tggcaaatca atcaactttt gaattagaag attatatata tttttttctg 1620

aaatttcctg ggagcttttg tagaagtcac attcctgaac aggatattct cacagctcca 1680

agaatttcta ggactgaatt atgaaacttt tggaaggtat ttaataggtt tggacaaaat 1740

ggaatactct tatatctata ttttacataa atttagtatt ttgtttcagt gcactaatgt 1800

gtaagacaaa aagctactta ttgtagcatc ctggaatatc tccgtcaact catattttca 1860

tgctgttcat gaaagattca atgcccctga atttaaatag cttttttctc tgatacagaa 1920

aagttgaatt ttacatggct ggagctagaa tttgatatgt gaacagttgt gtttgaagca 1980

cagtgatcaa gttattttta atttggtttt cacattggaa acaagtcagt cattcagata 2040

tgattcaaat gtctataaac cgaactgatg taagtaaaaa aaaaaaaaaa aaaaaaaaaa 2100

aaaaaaaa 2108

<210>61

<211>2341

<212>DNA

<213>人(Homo sapiens)

<400>61

acgtaggctg cgcctgtgca tgcgcaggga ggggagacct tggcggacgg cggagcccca 60

gcggaggtga aagtattggc ggaaaggaaa atacagcgga aaaatgcaga gctggagtcg 120

tgtgtactgc tccttggcca agagaggcca tttcaatcga atatctcatg gcctacaggg 180

actttctgca gtgcctctga gaacttacgc agatcagccg attgatgctg atgtaacagt 240

tataggttct ggtcctggag gatatgttgc tgctattaaa gctgcccagt taggcttcaa 300

gacagtctgc attgagaaaa atgaaacact tggtggaaca tgcttgaatg ttggttgtat 360

tccttctaag gctttattga acaactctca ttattaccat atggcccatg gaacagattt 420

tgcatctaga ggaattgaaa tgtccgaagt tcgcttgaat ttagacaaga tgatggagca 480

gaagagtact gcagtaaaag ctttaacagg tggaattgcc cacttattca aacagaataa 540

ggttgttcat gtcaatggat atggaaagat aactggcaaa aatcaagtca ctgctacgaa 600

agctgatggc ggcactcagg ttattgatac aaagaacatt cttatagcca cgggttcaga 660

agttactcct tttcctggaa tcacgataga tgaagataca atagtgtcat ctacaggtgc 720

tttatcttta aaaaaagttc cagaaaagat ggttgttatt ggtgcaggag taataggtgt 780

agaattgggt tcagtttggc aaagacttgg tgcagatgtg acagcagttg aatttttagg 840

tcatgtaggt ggagttggaa ttgatatgga gatatctaaa aactttcaac gcatccttca 900

aaaacagggg tttaaattta aattgaatac aaaggttact ggtgctacca agaagtcaga 960

tggaaaaatt gatgtttcta ttgaagctgc ttctggtggt aaagctgaag ttatcacttg 1020

tgatgtactc ttggtttgca ttggccgacg accctttact aagaatttgg gactagaaga 1080

gctgggaatt gaactagatc ctagaggtag aattccagtc aataccagat ttcaaactaa 1140

aattccaaat atctatgcca ttggtgatgt agttgctggt ccaatgctgg ctcacaaagc 1200

agaggatgaa ggcattatct gtgttgaagg aatggctggt ggtgctgtgc acattgacta 1260

caattgtgtg ccatcagtga tttacacaca ccctgaagtt gcttgggttg gcaaatcaga 1320

agagcagttg aaagaagagg gtattgagta caaagttggg aaattcccat ttgctgctaa 1380

cagcagagct aagacaaatg ctgacacaga tggcatggtg aagatccttg ggcagaaatc 1440

gacagacaga gtactgggag cacatattct tggaccaggt gctggagaaa tggtaaatga 1500

agctgctctt gctttggaat atggagcatc ctgtgaagat atagctagag tctgtcatgc 1560

acatccgacc ttatcagaag cttttagaga agcaaatctt gctgcgtcat ttggcaaatc 1620

aatcaacttt tgaattagaa gattatatat ttttttttct gaaatttcct gggagctttt 1680

gtagaagtca cattcctgaa caggatattc tcacagctcc aagaatttct aggactgaat 1740

tatgaaactt ttggaaggta tttaataggt ttggacaaaa tggaatactc ttatatctat 1800

attttacata aatttagtat tttgtttcag tgcactaata tgtaagacaa aaaggactac 1860

ttattgtagt catcctggaa tatctccgtc aactcatatt ttcatgctgt tcatgaaaga 1920

ttcaatgccc ctgaatttaa atagctcttt tctctgatac agaaaagttg aattttacat 1980

ggctggagct agaatttgat atgtgaacag ttgtgtttga agcacagtga tcaagttatt 2040

tttaatttgg ttttcacatt ggaaacaagt cagtcattca gatatgattc aaatgtctat 2100

aaaccaaact gatgtaagta aatggtctct cacttgtttt atttaacctc taaattcttt 2160

cattttaggg gtagcatttg tgttgaagag gttttaaagc ttccattgtt gtctgcaact 2220

ctgaagggta attatatagt tacccaaatt aagagagtct atttacggaa ctcaaatacg 2280

tgggcattca aatgtattac agtggggaat gaagatactg aaataaacgt cttaaatatt 2340

c 2341

<210>62

<211>301

<212>DNA

<213>人(Homo sapiens)

<400>62

gttgaacttg tcacgcttta ctgtcgataa tgtgcattaa gcaaacgcta gttttatttg 60

tttatttcat cttctaagta taagaataca ttgtagctcg acattttggc accagcccct 120

aaagcattcc caccaccacc cccgctgcga caaagccctg cgctccttac gacagcgtac 180

gacgccgagc ctgacaggaa cgcctcgtgc ggtagaaccg cgcgggccaa tcgcgctgct 240

cccgggtgat gacgtaggct gcgcctgtgc atgcgcaggg aggggagacc ttggcggagc 300

g 301

<210>63

<211>21

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(9)...(13)

<400>63

tgaacttatc acgctttact g 21

<210>64

<211>18

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(4)...(8)

<400>64

caataatgtg cattaagc 18

<210>65

<211>12

<212>DNA

<213>人(Homo sapiens)

<220>

<221>protein_bind

<222>(5)...(8)

<400>65

agcattccac ca 12

Claims

1.用于绘制调控因子结合位点分布型的方法：

定位完整的和最5′全长基因，用于对基因调控区作图；

检索基因的调控区的基因组序列；

筛选各个检索的基因调控区的DNA序列信息，以鉴定推定的调控因子结合位点；和

绘制推定的调控因子结合位点分布型。

2.权利要求1的方法，其中作图包括检索全长基因，以提供检索得到的基因的序列信息。

3.权利要求2的方法，其中作图包括将检索得到的基因作图到最近更新的人类基因组上。

4.权利要求3的方法，其中采用工具和自主开发的脚本，将检索得到的基因作图到最近更新的人类基因组上，所述工具由公众可获得的UCSC基因组浏览器数据库中的至少一种提供。

5.权利要求3的方法，其中对转录起始位点(TSS)作图。

6.权利要求5的方法，其中通过在比较所述基因的所有可获得的TSS后取得各个基因的最5′TSS，来对TSS作图。

7.权利要求1的方法，其中从最新的人类基因组中检索每个检索得到的具有最5′TSS的基因的调控区的基因组序列。

8.权利要求7的方法，其中5′调控区是位于TSS上游和TSS下游的序列。

9.权利要求1的方法，其中检索得到的基因调控区的序列是核心启动子区域。

10.权利要求9的方法，其中核心启动子区域包括TSS上游的200-300个碱基以及TSS下游约50-100个碱基的序列。

11.权利要求5的方法，其中基因的基因组序列是上游增强子区域。

12.权利要求3的方法，其中基因调控区的基因组序列是下游调控区。

13.权利要求7的方法，进一步包括：

切割和存储相对于TSS的相应序列。

14.权利要求13的方法，其中使用自主开发的脚本从UCSC基因组浏览器或NCBI基因组数据库中的至少一个中切割和存储相对于TSS的相应序列。

15.权利要求1的方法，其中用MATCH程序或类似的位置加权的矩阵程序筛选DNA序列信息以进行基序检索。

16.权利要求1的方法，其中DNA序列信息筛选包括选择TF矩阵、矩阵相似性分值和核心相似性分值。

17.权利要求1的方法，其中用截取点来减少筛选过程中的假阳性和假阴性匹配。

18.权利要求1的方法，进一步包括：

确定各个结合位点的至少一个基因组或组织特异性频率。

19.权利要求1的方法，其中频率是特异的TF结合位点在所有基因的调控区中的存在情况。

20.权利要求1的方法，其中频率是特异的TF结合位点在组织特异性基因的调控区中的存在情况。

21.权利要求16的方法，进一步包括：

建立各个结合位点的保守分值。

22.权利要求17的方法，其中选择保守分值来覆盖TF结合位点被鉴定的区域。

23.权利要求17的方法，进一步包括：

确定各个结合位点的位置。

24.权利要求23的方法，其中所述位置是基于人类基因组工作草图。

25.权利要求24的方法，其中所述位置是人类基因组工作草图中的被转变的位置。

26.权利要求23的方法，其中确定起始和终止的基因组位置。

27.权利要求23的方法，进一步包括：

确定各个结合位点到TSS的距离。

28.权利要求27的方法，其中该距离相对于结合位点和TSS之间的若干碱基。

29.权利要求27的方法，进一步包括：

确定各个结合位点的长度。

30.权利要求29的方法，进一步包括：

确定邻近于结合位点的区域的序列信息。

31.权利要求30的方法，进一步包括：

确定其它结合位点的共存信息。

32.权利要求31的方法，进一步包括：

确定结合位点和它们的位置的聚类。

33.权利要求1的方法，进一步包括：

将结合分布型收集在数据库中。

34.权利要求33的方法，其中数据库包括各个基因的调控区的TF结合分布型。

35.权利要求33的方法，其中数据库可以用基因标识符检索。

36.权利要求35的方法，其中基因标识符选自NCBI数据库。

37.权利要求36的方法，其中NCBI数据库包括Unigene Cluster ID、LoucsLink ID和国际上认可的基因符号中的至少一种。

38.权利要求35的方法，其中数据库包括TF的基因组频率信息。

39.权利要求38的数据库，其中数据库可以用TF名称和TF频率中的至少一个来分类。

40.权利要求39的方法，其中TF频率包括基因组频率和组织特异性频率。

41.权利要求33的方法，进一步包括：

从数据库中检索信息以用于生物医学研究。

42.权利要求33的方法，进一步包括：

从数据库中检索信息以用于临床前开发。

43.权利要求33的方法，进一步包括：

从数据库中检索信息以用于药物筛选应用。

44.权利要求33的方法，进一步包括：

从数据库中检索信息以用于靶点发现和靶点确认。

45.权利要求33的方法，进一步包括：

从数据库中检索信息以用于调控区的分布型绘制。

46.权利要求33的方法，进一步包括：

从数据库中检索信息以用于建立不同基因的调控分布型之间的基因组或组织范围的联系。

47.权利要求33的方法，进一步包括：从数据库中检索信息，用于了解各种已知转录分布型的基因组或组织背景，了解各种已知转录分布型的基因组或组织背景。

48.用于绘制被确认的结合位点分布型的方法，包括：

提供数据库，所述数据库包括已知基因的经分布型绘制的确认的结合位点；和

将概率作图应用于被绘制分布型的结合位点。

49.权利要求48的方法，其中数据库包括各个基因的调控区的TF结合分布型。

50.权利要求48的方法，其中该数据库可以用基因标识符检索。

51.权利要求50的方法，其中基因标识符从NCBI数据库中选择。

52.权利要求51的方法，其中NCBI数据库包括Unigene Cluster ID、LoucsLink ID和国际上认可的基因符号中的至少一种。

53.权利要求51的方法，其中数据库包括脊椎动物转录调控因子的基因组频率信息。

54.权利要求53的方法，其中数据库可以用TF名称和TF频率中的至少一个分类。

55.权利要求54的方法，其中TF频率包括基因组频率和组织特异性频率。

56.权利要求48的方法，进一步包括：

从数据库中检索信息，用于生物医学研究。

57.权利要求48的方法，进一步包括：

从数据库中检索信息，用于临床前的开发。

58.权利要求48的方法，进一步包括：

从数据库中检索信息，用于药物筛选应用。

59.权利要求48的方法，进一步包括：

从数据库中检索信息，用于靶点发现和靶点确认。

60.权利要求48的方法，进一步包括：

从数据库中检索信息，用于调控区的分布型绘制。

61.权利要求48的方法，进一步包括：

从数据库中检索信息，用于建立不同基因的调控分布型之间的基因组或组织范围的联系。

62.权利要求48的方法，进一步包括：

从数据库中检索信息，用于了解各种已知转录分布型的基因组或组织背景，了解各种已知转录分布型的基因组或组织背景。

63.有形存储在计算机可读介质上的数据结构，包括：

包括被绘制分布型的确认结合位点的数据库，被绘制分布型的确认结合位点通过筛选基因调控区的DNA序列信息建立，其中该数据库可以用基因标识符来检索。

64.权利要求63的方法，其中基因标识符选自NCBI GeneBank标识符。

65.权利要求64的方法，其中NCBI数据库包括Unigene Cluster ID，LoucsLink ID和国际上认可的基因符号中的至少一种。

66.权利要求63的数据结构，其中该数据库包括各个基因的调控区的TF结合分布型。

67.权利要求63的数据结构，其中该数据库包括脊椎动物转录调控因子的基因组频率信息。

68.权利要求63的数据结构，其中该数据库可以用TF名称和TF频率中的至少一个分类。

69.权利要求68的数据结构，其中TF频率包括基因组频率和组织特异性频率。

70.权利要求63的数据结构，其中该数据库包括用于生物医学研究的信息。

71.权利要求63的数据结构，其中该数据库包括用于临床前的开发的信息。

72.权利要求63的数据结构，其中该数据库包括用于药物筛选应用的信息。

73.权利要求63的数据结构，其中该数据库包括用于靶点发现和靶点确认的信息。

74.权利要求63的数据结构，其中该数据库包括用于调控区的分布型绘制的信息。

75.权利要求63的数据结构，其中该数据库包括用于建立不同基因的调控分布型之间的基因组或组织范围的连接的信息。

76.权利要求63的数据结构，其中该数据库包括用于了解各种已知转录分布型的基因组或组织背景，了解各种已知转录分布型的基因组或组织背景的信息。

77.用于绘制调控因子结合位点分布型的计算机执行系统，包括：

包括被绘制分布型的确认结合位点的数据库，被绘制分布型的确认结合位点通过筛选基因调控区的DNA序列信息来建立，其中数据库可以用基因标识符检索；

包括一个或多个可选择的用户输入的用户界面；

可由用户操作的输入装置；和

用于显示至少一个响应于被绘制分布型的确认结合位点的输出值的显示器。

78.权利要求77的系统，其中基因标识符选自NCBI GeneBank标识符。

79.权利要求78的系统，其中NCBI数据库包括Unigene Cluster ID，LoucsLink ID和国际上认可的基因符号中的至少一种。

80.权利要求77的系统，其中该数据库包括各个基因的调控区的TF结合分布型。

81.权利要求77的系统，其中该数据库包括脊椎动物转录调控因子的基因组频率信息。

82.权利要求77的系统，其中该数据库可以用TF名称和TF频率中的至少一个分类。

83.权利要求68的系统，其中TF频率包括基因组频率和组织特异性频率。

84.权利要求77的系统，其中该数据库包括用于生物医学研究的信息。

85.权利要求77的系统，其中该数据库包括用于临床前的开发的信息。

86.权利要求77的系统，其中该数据库包括用于药物筛选应用的信息。

87.权利要求77的系统，其中该数据库包括用于靶点发现和靶点确认的信息。

88.权利要求77的系统，其中该数据库包括用于调控区的分布型绘制的信息。

89.权利要求77的系统，其中该数据库包括用于建立不同基因的调控分布型之间的基因组或组织范围的联系的信息。

90.权利要求77的系统，其中该数据库包括用于了解各种已知转录分布型的基因组或组织背景，了解各种已知转录图谱的基因组或组织背景的信息。

91.权利要求77的系统，其中至少一个输出值包括至少如下之一：基因名称，标识符，被确认的TF结合位点，TF名称，基因组位置，长度，距离，保守分值，结合分值，频率信息和结合位点序列。

92.权利要求77的系统，还包括：

存储器；和微处理器。