CN1784498A - 调控因子结合位点的基因组分布型绘制 - Google Patents

调控因子结合位点的基因组分布型绘制 Download PDF

Info

Publication number
CN1784498A
CN1784498A CNA2004800126273A CN200480012627A CN1784498A CN 1784498 A CN1784498 A CN 1784498A CN A2004800126273 A CNA2004800126273 A CN A2004800126273A CN 200480012627 A CN200480012627 A CN 200480012627A CN 1784498 A CN1784498 A CN 1784498A
Authority
CN
China
Prior art keywords
database
genome
gene
profile
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800126273A
Other languages
English (en)
Inventor
张�杰
魏淑英
莱斯利·M·麦克沃伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anesiva Inc
Original Assignee
Corgentech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Corgentech Inc filed Critical Corgentech Inc
Publication of CN1784498A publication Critical patent/CN1784498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Processing (AREA)
  • Electrotherapy Devices (AREA)
  • Image Generation (AREA)

Abstract

提供一种用于绘制调控因子结合位点分布型的方法。在基因组中定位完整基因,用于绘制基因调控区域的图谱。确定基因的最上游转录起始位点(TSS)的基因组位置。根据所确定的TSS,定义和检索基因调控区域的基因组序列。对各个检索获得的基因调控区域的DNA序列信息进行筛选,以确定推定的调控因子结合位点。绘制推定的调控因子结合位点及其基因组发生频率的分布型。

Description

调控因子结合位点的基因组分布型绘制
发明背景
发明领域
本发明大体上涉及提供所有已知基因的调控因子结合位点的分布型绘制(profiling)的方法、系统和数据结构,更加特别地涉及用于确定和表征调控因子结合位点的方法、数据结构和系统,以开发针对确定的结合位点的系统分析,用于进一步开发治疗性策略。
相关技术的描述
改变基因表达水平已经成为解决人类疾病的一种重要和有效的方法。每种基因的表达水平受转录机制的控制,其中一些称作为转录因子(TFs)的特定蛋白质结合到基因的调控区上。依次起始转录过程。因此,相应的TFs及其在基因调控区上的结合位点在控制基因的转录水平中起重要作用。因此,在现代生物医学研究和开发的努力中,转录因子及其相关转录机制已经成为“热”点。
对于每种基因来说,转录起始位点(TSS)是其mRNA开始通过RNA聚合酶II的作用从DNA转录的位置。在该过程中,基因调控区被某些调控因子联合和结合。这些已经结合的因子与其它转录蛋白一起形成转录复合物,该复合物可起始转录过程。更加特别地,该基因调控区典型地包括转录因子结合位点,所述转录因子结合位点是短的共有基因组序列。最重要的调控区之一是通常紧挨在TSS之前或者TSS侧翼的核心启动子。因此,对于定义每个基因的转录调控区域来说,确定TSS最重要的。目前,许多特定的研究和开发都将其努力集中在特定的TF和相应的结合位点上,生成了许多可靠的数据,但是这些数据仍然不能满足与基因组相关的生物医学需求的发展。为了满足迅速发展的与转录因子相关的药物开发业和挑战的要求,确定所有推定的调控因子和表征它们在基因组中的相应结合位点是十分重要的。特别地,随着人类基因组计划完成和大量疾病相关基因表达数据(例如以微阵列为基础的数据)的出现,迫切需要基因组范围内调控因子结合位点的分布型的绘制。
本发明从各种公众可获得的数据库(例如NCBI refseq,NIH MGC联盟,日本的DBTSS数据库等等)检索(retrieve)了所有全长基因,然后在最新的人类基因组工作草图(Human Genome Working Draft)(例如2003年7月的Assembly版本或者NCBI Build34)上,绘制这些基因的TSS的图谱。然后通过绘制这一基因的位置的图谱通过比较生成的所有可能的TSS定义每种基因的最上游TSS。根据最5′端(most 5’)的TSS的位置,定义转录调控区(TRR),例如核心启动子区域的位置,并从最新的人类基因组中检索它们的相应基因组序列,用于进一步分析。将所有已知基因的已进行分布型绘制的TRR存储在数据库中,用于进一步的与药物靶点相关的统计分析,和用于进一步开发治疗策略。
发明概述
因此,本发明的一个目的是提供用于调控因子结合位点的基因组分布型绘制(genomic-profiling)的改进方法,以及与该方法相关的数据结构和系统。
在本发明的另一个目的中,提供了用于调控因子结合位点分布型绘制的方法,以及与该方法相关的数据结构和系统,此方法相对于进行分布型绘制的结合位点使用基因组范围内的概率作图。
本发明的还有另一个目的是提供用于生物医学研究的改进方法,以及与该方法相关的数据结构和系统。
本发明的还有一个目的是提供用于临床前开发的改进方法,以及与该方法相关的数据结构和系统。
本发明的还有另一个目的是提供用于药物筛选应用的改进方法,以及与该方法相关的数据结构和系统。
本发明的另一个目的是提供用于靶点发现和靶点确认的改进方法,以及与该方法相关的数据结构和系统。
本发明的还有另一个目的是提供用于调控区的分布型绘制的改进方法,以及与该方法相关的数据结构和系统。
本发明的另一个目的是提供在不同基因的调控分布型绘制之间建立基因组成组织范围内的联系的改进方法,以及与该方法相关的数据结构和系统。
本发明的还有另一个目的是提供用于了解各种已知转录分布型绘制的基因组或组织或细胞背景的改进方法,用于了解各种已知转录分布型绘制的基因组或组织或细胞背景的改进方法,以及与该方法相关的数据结构和系统。
本发明的这些和其它的目的在用于调控因子结合位点分布型绘制的方法中实现。完整基因位于用于基因调控区作图的基因组中。定义和检索基因调控区的基因组序列。筛选每个被检索的基因调控区的DNA序列信息,用来确定推定的调控因子结合位点。绘制推定的调控因子结合位点的分布型。
在本发明的另一个实施方案中,用于确定的结合位点分布型绘制的方法提供一个数据库,该数据库包括所有已知基因的经过分布型绘制的确定的结合位点。概率统计分析被应用于经分布型绘制的结合位点。
在本发明的另一个实施方案中,提供被有形地存储在计算机可读介质中的数据结构。该数据结构包括经分布型绘制而加以确认的结合位点的数据库。通过筛选基因调控区的DNA序列信息建立分布型绘制的确定的结合位点。该数据库可以用基因标识符(identifier)来检索。
在本发明的另一个实施方案中,用于显示经分布型绘制的调控因子结合位点的计算机执行系统包括数据库,该数据库包括经分布型绘制而加以鉴定的结合位点。通过筛选基因调控区的DNA序列信息,建立分布型绘制的确定的结合位点。该数据库可以用基因标识符来检索。并提供用户界面,其包括一个或多个可选择的用户输入端。输入装置可由用户操作。并包括显示器,其显示至少一个对分布型绘制的确定的结合位点响应的输出值。
附图简述
附图1是流程图,说明用于调控因子结合位点分布型绘制的本发明的实施方案之一。
附图2是流程图,描述如何定义基因(例如基因X)的转录调控区。
附图3是流程图,说明计算TF结合位点的频率。
附图4说明核心启动子区可包括TSS上游的200-300个碱基以及下游的约50-100个碱基。
附图5是本发明的数据库结构的一个实施方案的描述。
附图6是说明附图5的数据库的流程图。
附图7列举从refseq数据库检索的基因DLD的完整序列(SEQ ID NO59)。
附图8列举从MGC数据库检索的基因DLD的完整序列(SEQ IDNO60)。
附图9列举从DBTSS数据库检索的基因DLD的完整序列(SEQ ID NO61)。
附图10列举基因DLD的存储的序列(SEQ ID NO 62)。
附图11是可与附图7的数据库一起使用的查询形式的屏幕显示(screenshot)。
附图12是来自附图5的数据库的数据库查询结果的实施方案的屏幕显示。
附图13举例说明本发明的系统的一个实施方案
优选实施方案的描述
在各种实施方案中,本发明提供用于在基因组范围内调控因子结合位点分布型绘制的方法,有形地存储在计算机可读介质上的数据结构,以及相关系统。调控因子结合位点的例子包括,但是不限于,作为转录因子NFB的结合位点的序列AGGGGACTTTCCCA(SEQ ID NO 1);作为转录因子E2F-1的结合位点的序列TTTGGCGG(SEQ ID NO 2)等。
参考附图1和2的流程图,在本发明的一个实施方案中,基因调控区的基因组序列被检索,并被绘制到人类基因组中。根据被作图的基因,确定每个基因的最5′位置的TSS,并确定该基因的相应调控区。对各个被检索的基因调控区的DNA序列信息进行筛选,以确定推定的调控因子结合位点。然后绘制推定的调控因子结合位点的分布型。
从数据库中检索的信息被用于各种不同目的和应用,包括但是不限于,生物医学研究、临床前开发、药物筛选应用、靶点发现和靶点确认、调控区的分布型绘制、建立不同基因的调控分布型绘制之间的基因组或组织范围的联系、了解各种已知转录分布型绘制的基因组或者组织背景,了解各种已知转录分布型绘制的基因组或者组织背景等。
参考附图3,将概率作图(probability mapping)应用于所确定的结合位点。概率作图描述了在所有基因的调控区或者在某些组织或细胞中表达的基因中,确定是否存在特定的转录调控因子结合位点,例如所有的推定E2F-1位点。概率作图说明有多少基因可能由特定的调控因子来转录调控。其还指示一种特定的调控因子具有多大的生物学系统范围内的、基因组范围内的、细胞范围内的或组织范围内的影响。对于以治疗方法开发为基础的生物医学研究来说,该信息是非常有用的。
在本发明的另一个实施方案中,为了对基因调控区进行作图,对全长基因进行作图。应当理解,为了本说明书的目的,全长延伸至基因的长度。这会引起相同基因的不同版本的转录起始位点的基因组位置发生轻微的位移。在一个实施方案中,所有可获得的全长基因被用于比较中,以获得最5′端的TSS。根据最5′端的TSS,定义基因的调控区,检索基因调控区的基因组序列。对每个检索的基因调控区进行DNA序列信息的筛选,以确定推定的调控因子结合位点。将推定的调控因子结合位点作图到人类基因组上。
检索全长基因,以提供检索的基因的序列信息。采用公众可获得的UCSC基因组浏览器(browser)数据库、自主开发的脚本(self-developedscripts)等所提供的工具,可将检索的基因作图到最新的人类基因组上。在一个实施方案中,转录起始位点被作图。在一个实施方案中,如附图2中所说明,在比较基因的所有可获得的TSS后,通过确定每个基因的最5′TSS,对TSS作图。
通过最5′TSS,可以从最新的人类基因组中,检索每个检索到的基因的调控区的基因组序列。5′调控区是TSS的上游序列和TSS的下游序列。如附图4中所说明,在各种实施方案中,基因调控区包括但是不限于,核心启动子区,上游增强子区,下游调控区等。核心启动子区可包括TSS上游的200-300个碱基和TSS下游的约50-100个碱基。
相对于TSS的相应序列可被切割(cut)和存储。相对于TSS的相应序列可以使用自主开发的脚本从基因组序列中切割和存储,基于特定的释放(release),以前的、最新的和将来的释放,包括但是不限于UCSC基因组浏览器、NCBI基因组数据库、Ensemb1数据库、其它基因组序列数据库等。
在一个实施方案中,用MATCH程序筛选DNA序列信息,MATCH程序得到TRANSFAC数据库的许可。DNA序列信息选筛可包括选择TF矩阵(matrix)、矩阵相似性分值(score of matrix similarity)、核心相似性分值(scoreof core similarity)等。
截取点(Cut-off)被用于降低筛选过程中的假阳性和假阴性匹配。可以确定各个结合位点的基因组或组织特异的频率。频率可以是特异的TF结合位点在(i)所有的基因组范围,(ii)所有的基因特异性细胞范围,(iii)所有的基因特异性组织范围,(iv)所有特异定义的基因中至少一种的调控区中的存在情况。频率可以是特异的TF结合位点在组织特异基因的调控区中的存在情况。此外,该频率也可被认为是保守分值(conservation score)或表达水平分值。作为举例说明,而不是限制,根据它们相应的保守分值或它们相应的基因表达水平,所确定的结合位点可以被有差别地考虑。例如,具有较高保守分值的结合位点或者具有较高表达水平的相应基因所起的作用比具有较低分值的那些位点或基因更显著。
可以建立各个结合位点的保守分值。选择保守分值来覆盖鉴定出TF结合位点的区域以及指示两个物种之间的保守水平的任何其它测量值,所述物种包括但是不限于小鼠和人。确定各个结合位点的位置。该位置可以以人类基因组工作草图为基础。该位置是人类基因组工作草图中被转变(convert)的位置。随着添加更多的序列片段,各个染色体的总长度也增加。这会使染色体上各个碱基的位置读取发生位移。但是,该位置可容易地被转变,并且相对于该基因位置的调控区位置保持不变。可以确定起点和终点的基因组位置。可以确定各个结合位点到TSS的距离。该距离是相对于结合位点与TSS之间的若干(a number of)碱基。作为举例说明,而不是限制,在一个实施方案中,该距离是所定义的结合位点到TSS的23个碱基的碱基之间的最后一个碱基的距离。在该实施例中,在这两个特定碱基之间有23个碱基。
在本发明的一个实施方案中,基于最5′TSS的位置,采用自主开发的计算机脚本和程序,从最新的人类基因组工作草图中检索所有可获得的基因的5′调控序列。这些检索得到的序列包括但是不限于每个基因的TSS的5′上游的250个碱基和TSS3′下游的50个碱基。
使用充分表征的转录因子结合共有序列模式(或位置加权的(positionweighted)矩阵),可以分析所有的调控区序列,该模式由被许可的TRANSFAC数据库(TRANSFAC专业6.3版本,Wingender等人,Nucleic AcidsRes.29,281)建立。选择以高分值与结合矩阵匹配的位点。这些位点包括它们在基因组中的位置(相对于特定的基因组集合版本)和它们的长度以及它们与侧翼位点的协同信息。
通过将它们的保守分值与小鼠比较,进一步分析从上面获得的所有结合位点。从公众可获得的NCBI和UCSC基因组数据库检索到小鼠基因组和相对保守的信息,并用自主制作的版本和程序,与人转录因子结合位点进行保守比较。
将从上面生成的转录因子结合位点序列信息存储到数据库中,包括它们的基因组位置(起始(start)、终止(end))、长度、到各个基因的TSS的距离,和侧翼区(包括但是不限于5′和3′的10个碱基)。还添加相关的参考连接(link),例如基因名称、功能、注释等。
根据该数据库,用计算机生成所有可能的转录诱饵(transcriptiondecoy)。采用高通量方法,例如寡核苷酸阵列、毛细管电泳等,进一步实验筛选该诱饵,以优化结合效率。所有的优化诱饵信息将被存储到数据库中。数据库中的部分信息可被用于未来版本的数据库中。
基因调控区的分布型(profile)包括但是不限于,(i)各个调控因子结合位点的概率作图,(ii)各个已知调控因子的目标基因鉴定;(iii)从各种差别表达的基因中确定的基因的调控因子结合分布型的统计学分析,等等。
在一个实施方案中,确定各个结合位点的长度。还可以确定关于与结合位点邻近的区域的序列信息。同样作为说明而不是限制,一个例子是agcgtcaga AGGGG ACTTT CCC aagaga ggccgaga(SEQ ID NO3),小写的碱基字母位于以大写表示的核心结合位点的两侧。
还可确定其它结合位点的共存信息。转录机制通常需要由多个不同转录相关蛋白形成复合物,包括多个不同的DNA结合因子。在本发明中,针对基因调控区绘制结合位点的分布型,通常在单个区域中确定一个以上的结合位点。作为例子,单个区域的结合位点的数量可为15-20个。可以确定结合位点簇及其位置。
现在参考附图5和6,本发明的另一个实施方案为有形存储在计算机可读介质中的数据结构,包括具有通过分布型绘制而加以确定了的结合位点信息的数据库。该数据库包括带有标识符、结合位点等的核心表格。结合位点信息包括但是不限于,序列、长度、位置、方向、频率等。一个辅助表格(supporting table)包括所有基因的TSS位置。序列表格提供基因的调控区的序列。额外的辅助表格包括但是不限于TF的频率、各个TF的TF目标基因等。
所有的表格通过一种或多种标识符连接。在一个实施方案中,用多个而不是一个perl CGI脚本进入(reach)和检索数据库,然后显示相应的信息。还提供网络浏览器界面。
可以通过各种不同手段来检索数据库,包括但是不限于基因标识符、基因符号或者自主开发的标识符等。可以从NCBI数据库中选择基因标识符,标识符可以是Unigene Cluster ID,LoucsLink ID,国际上认可的基因符号等。
一个实施方案中,数据库包括TF的基因组频率信息,可以至少用TF名称或TF频率来分类(sort)。TF频率可包括基因组频率和组织特异性频率。在一个特定的实施方案中,数据库含有所有已知基因(总计约15,450种)的调控因子结合位点的分布型。
作为说明,而不是限制,用一种基因(符号:DLD,二氢硫辛酰胺脱氢酶)来简要说明如何建立数据库。
1.检索全长基因例如基因DLD,以提供序列信息。
如附图2中所说明,可从NCBI数据库(refseq)、MGC数据库(MGC)、日本DBTSS数据库(DBTSS)等中获得三种不同版本的全长mRNA序列。从refseq数据库检索得到的基因DLD的完整序列被列举在附图7中(SEQ IDNO 59),从MGC检索得到的完整序列被列举在附图8中(SEQ ID NO 60),从DBTSS检索得到的完整序列被列举在附图9中(SEQ ID NO 61)。
2.将检索得到的基因作图到新近更新的人类基因组中。
用自主开发的脚本,将上面的检索得到的序列读取(fetch)到UCSC基因组浏鉴器数据库中,以绘制它们的基因组位置图谱。采用由至少一种公众可获得的UCSC基因组济览器数据库提供的工具,将检索得到的不同版本的基因DLD作图到最近更新的人类基因组中。
3.对TSS的位置作图。
用自主开发的脚本从上面提及的UCSC基因组数据库中检索被作图的位置。作图的总计结果被列举在表1中。例如,来自NCBI refseq数据库的全长基因DLD序列被作图到人类基因组工作草图(由UCSC基因组浏览器于2002年6月发布),定位于7号染色体的有义链或正链上,从染色体位置106015510开始,在染色体位置106044308处终止。
表1:
  名称   染色体   链   起始   终止
 来自refseq的DLD来自MGC的DLD来自DBTSS的DLD   777   +++   106015510106015541106015488   106044308106044089106044308
4.在比较基因的所有可获得的TSS后通过制定每个基因的最5′TSS,对TSS作图。
再次参考附图2,通过采用自主制作的脚本以方便此次作图。对于基因DLD,由于其位于7号染色体的“+”链上,起始位置106015488被认为是基因DLD的TSS的最5′位置。
5.从最新的人类基因组中检索各个具有最5′TSS的检索获得的基因的调控区的基因组序列。
5′调控区是TSS上游和TSS下游的序列。更加特别地,对于基因DLD而言,调控区或者核心启动子区是包括TSS上游的200-300个碱基和TSS下游的约50-100个碱基的序列。因此,用自主开发的脚本从至少一个UCSC基因组浏览器或NCBI基因组数据库中剪切和存储相对于基因DLD的TSS的相应序列。基因DLD的被存储序列被列举在附图10中(SEQ ID NO 62)。
6.用匹配程序,对基因DLD的调控区的存储序列进行筛选。
MATCH程序是包含在被许可的TRANSFAC数据库中的序列分析工具。采用矩阵相似性分值和核心相似性分值的正确设定进行分析,以减少在筛选过程中的假阳性和假阴性的匹配。基因DLD的调控区的筛选结果被显示在表2中,其中列出了被确定的结合位点的位置。
表2:
  位置   链   核心分值   矩阵分值   序列   TF名称
  3   (+)   1   0.964   tgaacttgTCACGctttactg(SEQ ID NO 4)   Pax-3
  5   (-)   0.796   0.779   aacttgtcacgCTTTActgtc(SEQ ID NO 5)   Pax-4
  6   (+)   1   0.886   acttgTCACGctttactgtcg(SEQ ID NO 6)   Pax-6
  6   (+)   0.977   0.761   acttgTCACGctttactgtcg(SEQ ID NO 7)   Pax-4
  24   (+)   0.994   0.972   tCGATAatg   Lmo2复合物
  (SEQ ID NO 8)
  25   (-)   0.951   0.963   cgataatgtgCATTAagc(SEQ ID NO 9)   Cart-1
  25   (+)   0.951   0.952   cgaTAATGtgcattaagc(SEQ ID NO 10)   Cart-1
  34   (+)   0.896   0.772   gcaTTAAGcaaa(SEQ ID NO 11)   Cdc5
  48   (+)   1   0.806   ctagtTTTATttgt(SEQ ID NO 12)   Cdx-2
  50   (-)   0.96   0.937   agtttTATTTgtttattt(SEQ ID NO 13)   FOXJ2
  50   (+)   1   0.952   agtttTATTTgttta(SEQ ID NO 14)   HNF-3β
  51   (+)   1   0.938   gttttATTTGttt(SEQ ID NO 15)   Xvent-1
  52   (+)   0.948   0.926   ttTTATTtgttt(SEQ ID NO 16)   FOXD3
  52   (+)   0.981   0.98   tttTATTTgttta(SEQ ID NO 17)   HFH-3
  54   (-)   1   0.982   ttattTGTTTatttcatc(SEQ ID NO 18)   FOXJ2
  54   (+)   1   0.926   ttattTGTTTatttc(SEQ ID NO 19)   HNF-3β
  55   (-)   1   0.947   tatttgTTTATttc(SEQ ID NO 20)   XFD-2
  55   (-)   1   0.983   tatttgTTTATttcat(SEQ ID NO 21)   Freac-7
  55   (-)   1   0.996   tattTGTTTat(SEQ ID NO 22)   FOXO4
  55   (+)   0.972   0.97   TATTTgtttat(SEQ ID NO 23)   HNF-3α
  56   (+)   1   0.834   atttgTTTATttca(SEQ ID NO 24)   Cdx-2
  56   (+)   1   0.971   attTGTTTatttc(SEQ ID NO 25)   HFH-3
  56   (+)   1   0.986   attTGTTTatttc(SEQ ID NO 26)   HFH-8
  56   (+)   1   0.963   atttGTTTAttt(SEQ ID NO 27)   HFH-1
  56   (+)   1   0.958   atTTGTTtattt(SEQ ID NO 28)   FOXD3
  59   (+)   1   0.919   TGTTTatttca(SEQ ID NO 29)   HNF-3α
  60   (-)   0.85   0.878   gtttatttcatCTTCTaa(SEQ ID NO 30)   IRF-7
  72   (+)   1   0.964   ttctAAGTAtaa(SEQ ID NO 31)   NKX3A
  72   (+)   0.824   0.873   ttctaAGTATaagaatacattgta(SEQ ID NO 32)   STAT5A(同型四聚体)
  123   (-)   1   0.962   agcaTTCCCacca(SEQIDNO33)   Ik-1
  123   (-)   1   0.927   agcaTTCCCacca(SEQ ID NO 34)   Ik-3
  147   (-)   0.813   0.869   gCGACAaa(SEQ ID NO 35)   E2F
  154   (-)   0.789   0.755   agccctgcgctCCTTAcgaca(SEQ ID NO 36)   Pax-4
  202   (-)   0.96   0.925   gcctCGTGCg(SEQ ID NO 37)   USF
  222   (+)   1   0.934   gcgggCCAATcg(SEQ ID NO 38)   CCAATbox
  234   (-)   0.788   0.784   cgctgctcccgGGTGAtgacg(SEQ ID NO 39)   Pax-4
  237   (-)   0.964   0.902   tgctcccgggTGATGacgtag(SEQ ID NO 40)   肌肉起始子序列-20
  244   (+)   0.91   0.839   gggtGATGAcgtaggctgc(SEQ ID NO 41)   v-Maf
  246   (+)   1   0.991   gtgaTGACGtag(SEQ ID NO 42)   CREB
  248   (+)   1   0.881   gaTGACGtaggc(SEQ ID NO 43)   ATF4
  248   (+)   1   0.954   gaTGACGtaggc(SEQ ID NO 44)   CREB
  250   (+)   0.973   0.951   tgacGTAGG(SEQ ID NO 45)   TFII-1
  250   (+)   1   0.971   tGACGtag(SEQ ID NO 46)   CREB
  277   (+)   1   0.97   aGGGAGgg(SEQ ID NO 47)   MAZ
  290   (+)   1   0.999   cTTGGCgg(SEQ ID NO 48)   E2F-1
  290   (+)   0.964   0.916   ctTGGCGg(SEQ ID NO 49)   E2F-1
  290   (+)   0.984   0.897   ctTGGCGg(SE QID NO 50)   E2F
7.确定各个结合位点的基因组或组织特异性频率。
频率是特异的TF结合位点在所有的基因或者组织特异性基因的调控区中的存在情况。在分析所有基因的调控区后,容易确定TF结合位点存在的频率或概率。基因DLD的一些这样的频率信息被列举在表3中。
表3:
  TF名称   左侧位置   右侧位置   与TSS距离(碱基)   基因组频率
  Pax-3   106015239   106015259   -249   0.426259226
  Pax-4   106015241   106015261   -247   0.96109025
  Pax-6   106015242   106015262   -246   0.112003108
  Pax-4   106015242   106015262   -246   0.96109025
  Lmo2复合物   106015260   106015268   -228   0.120419526
  Cart-1   106015261   106015278   -227   0.020134663
  Cart-1   106015261   106015278   -227   0.020134663
  Cdc5   106015270   106015281   -218   0.360481678
  Cdx-2   106015284   106015297   -204   0.259031464
  FOXJ2   106015286   106015303   -202   0.167875178
  HNF-3β   106015286   106015300   -202   0.23688981
  Xvent-1   106015287   106015299   -201   0.678946005
  HFH-3   106015288   106015300   -200   0.066942898
  FOXD3   106015288   106015299   -200   0.653632008
  FOXJ2   106015290   106015307   -196   0.167875178
  HNF-3β   106015290   106015304   -198   0.23688981
  FOXO4   106015291   106015301   -197   0.10785964
  XFD-2   106015291   106015304   -197   0.033665674
  Freac-7   106015291   106015306   -197   0.076718892
  HNF-3α   106015291   106015301   -197   0.312184384
  HFH-1   106015292   106015303   -196   0.01657387
  HFH-3   106015292   106015304   -196   0.066942898
  HFH-8   106015292   106015304   -196   0.020652596
  FOXD3   106015292   106015303   -196   0.653632008
  Cdx-2   106015292   106015305   -196   0.259031464
  HNF-3α   106015295   106015305   -193   0.312184384
  IRF-T   106015296   106015313   -192   0.206914411
  NKX3A   106015308   106015319   -180   0.02233588
  STAT5A(同型四聚体)   106015308   106015331   -180   0.02926324
  Ik-1   106015359   106015371   -129   0.149682766
  Ik-3   106015359   106015371   -129   0.019875696
  E2F   106015383   106015390   -105   0.566230739
  Pax-4   106015390   106015410   -98   0.96109025
  USF   106015438   106015447   -50   0.781561569
  CCAAT盒   106015458   106015469   -30   0.288488929
  Pax-4   106015470   106015490   -18   0.96109025
  肌肉起始子序列-20   106015473   106015493   -15   0.29004273
  v-Maf   106015480   106015498   -8   0.233458501
  CREB   106015482   106015493   -6   0.308429367
  CREB   106015484   106015495   -4   0.308429367
  ATF4   106015484   106015495   -4   0.142172731
  TFII-1   106015486   106015494   -2   0.949177781
  CREB   106015486   106015493   -2   0.308429367
  MAZ   106015513   106015520   25   1.118477276
  E2F   106015526   106015533   38   0.566230739
  E2F-1   106015526   106015533   38   0.901268937
  E2F-1   106015526   106015533   38   0.901268937
8.建立各个结合位点的保守分值。
从UCSC基因组浏览器数据库中检索用于人类和小鼠之间的全基因组比较的保守分值。选择保守分值来覆盖确定出TF结合位点的区域。在基因DLD的调控区中确定TF结合位点的保守分值被列举在表4中。
表4:
  TF名称   核心序列   起始位置   终止位置   与TSS距离   保守分值
  Pax-3   tgaacttgTCACGctttactg(SEQ ID NO 4)   106015239   106015259   -249   0.426
  Pax-4   aacttgtcacgCTTTActgtc(SEQ ID NO 5)   106015241   106015261   -247   0.3552
  Pax-6   acttgTCACGctttactgtcg(SEQ ID NO 6)   106015242   106015262   -246   0.3552
  Pax-4   acttgTCACGctttactgtcg(SEQ ID NO 7)   106015242   106015262   -246   0.3552
  Lmo2复合物   tCGATAatg(SEQ ID NO 8)   106015260   106015268   -228   0.06
  Cart-1   cgaTAATGtgcattaagc(SEQ ID NO 10)   106015261   106015278   -227   0.06
  Cart-1   cgataatgtgCATTAagc(SEQ ID NO 9)   106015261   106015278   -227   0.06
  Cdc5   gcaTTAAGcaaa(SEQ ID NO 11)   106015270   106015281   -218   0.064
  Cdx-2   ctagtTTTATttgt(SEQ ID NO 12)   106015284   106015297   -204   0.11
  FOXJ2   agtttTATTTgtaattt(SEQ ID NO 13)   106015286   106015303   -202   0.162
  HNF-3β   agtttTATTTgttta(SEQ ID NO 14)   106015286   106015300   -202   0.162
  Xvent-1   gttttATTTGttt(SEQ ID NO 15)   106015287   106015299   -201   0.122666667
  HFH-3   tttTATTTgttta(SEQ ID NO 17)   106015288   106015300   -200   0.162
  FOXD3   ttTTATTtgttt(SEQ ID NO 16)   106015288   106015299   -200   0.122666667
  FOXJ2   ttattTGTTTatttcatc(SEQ ID NO 18)   106015290   106015307   -198   0.286
  HNF-3β   ttattTGTTTatttc(SEQ ID NO 19)   1060T5290   106015304   -198   0.192
  FOX04   tattTGTTTat(SEQ ID NO 22)   106015291   106015301   -197   0.192
  XFD-2   tatttgTTTATttc(SEQ ID NO 20)   106015291   106015304   -197   0.192
  Freac-7   tatttgTTTATttcat(SEQ ID NO 21)   106575291   106015306   -197   0.286
  HNF-3α   TATTTgtttat(SEQ ID NO 23)   106015291   106015301   -197   0.192
  HFH-1   atttGTTTAttt(SEQ ID NO 27)   1O6015292   106015303   -196   0.192
  HFH-3   attTGTTTatttc(SEQ ID NO 25)   106015292   106015304   -196   0.192
  HFH-8   attTGTTTatttc(SEQ ID NO 26)   106015292   106015304   -196   0.192
  FOXD3   atTTGTTtattt(SEQ ID NO 28)   106015292   106015303   -196   0.192
  Cdx-2   atttgTTTATttca(SEQ ID NO 24)   1060T5292   106015305   -196   0.286
  HNF-3α   TGTTTatttca(SEQ ID NO 29)   106015295   106015305   -193   0.357333333
  IRF-7   gtttatttcatCTTCTaa(SEQ ID NO 30)   106015296   106015313   -192   0.41
  NKX3A   ttctAAGTAtaa(SEQ ID NO 31)   106015308   106015319   -180   0.624
  STAT5A(同型二聚体)   ttctaAGTATaagaatacattgta(SEQ ID NO 32)   106015308   106015331   -180   0.550666667
  Ik-1   agcaTTCCCacca(SEQ ID NO 33)   106015359   106015371   -129   0.394
  1k-3   agcaTTCCCacca(SEQ ID NO 34)   106015359   106015371   -129   0.394
  E2F   gCGACAaa(SEQ ID NO 35)   106015383   106015390   -105   0.674666667
  Pax-4   agccctgcgctCCTTAcgaca(SEQ ID NO 36)   106015390   106015410   -98   1.2336
  USF   gcctCGTGCg(SEQ ID NO 37)   106015438   106015447   -50   0.888
  CCAAT-box   gcgggCCAATcg(SEQ ID NO 38)   106015458   106015469   -30   1.136
  Pax-4   cgctgctcccgGGTGAtgacg(SEQ ID NO 39)   106015470   106015490   -18   1.3408
  肌肉起始子序列-20   tgctcccgggTGATGacgtag(SEQ ID NO 40)   106015473   106015493   -15   1.3408
  v-Maf   gggtGATGAcgtaggctgc(SEQ ID NO 41)   106015480   106015498   -8   1.356
  CREB   gtgaTGACGtag(SEQ ID NO 42)   106015482   106015493   -6   1.378666667
  CREB   gaTGACGtaggc(SEQ ID NO 44)   106015484   106015495   -4   1.356
  ATF4   gaTGACGtaggc(SEQ ID NO 43)   106015484   106015495   -4   1.356
  TFII-I   tgacGTAGG(SEQ ID NO 45)   106015486   106015494   -2   1.544
  CREB   TGACGtag(SEQ ID NO 46)   106015486   106015493   -2   1.544
  MAZ   aGGGAGgg(SEQ ID NO 47)   106015513   106015520   25   0.714666667
  E2F   ctTGGCGg(SEQ ID NO 50)   106015526   106015533   38   0.532
  E2F-1   ctTGGCGg(SEQ ID NO 49)   106015526   106015533   38   0.532
  E2F-1   cTTGGCgg(SEQ ID NO 48)   106015526   106015533   38   0.532
9.确定结合位点簇和它们的位置。
采用自主制作的脚本,聚类(cluster)相邻或重叠的结合位点,并在表5中列举了基因DLD的相应位置和TF。
表5:
  聚类识别号   核心序列   左侧位置   右侧位置   转录因子
  Cdc5;Cart-1;Cart-1;Lmo2复合物;Pax-
  1   tgaacttgtcacgctttactgtcgataatgtgcattaagcaaa(SEQ ID NO 51)   106015239   106015281   4;Pax-6;Pax-4;Pax-3;
  STAT5A(同型二聚体);NKX3A;IRF-
  7;HNF-3alpha;Cdx-2;HFH-3;HFH-8;HFH-
  1;FOXD3;Freac-7;XFD-2;HNF-
  3alpha;FOXO4;FOXJ2;HNF-3β;HFH-
  3;OXD3;Xvent-1;FOXJ2;HNF-3β;Cdx-
  2   ctagttttatttgtttatttcatcttctaagtataagaatacattgta(SEQ ID NO 52) 106015284   106015331   2;
  3   agcattcccacca(SEQ ID NO 53)   106015359   106015371   Ik-3;Ik-1;
  4   gcgacaaagccctgcgctccttacgaca(SEQ ID NO 54)   106015383   106015410   Pax-4;E2F;
  5   gcctcgtgcg(SEQ ID NO 55)   106015438   106015447   USF;
  TFII-
  I;CREB;CREB;ATF4;CREB;v-
  Maf;肌肉起始子序列-20;Pax-
  6   gcgggcaatcgcgctgctcccgggtgatgacgtaggctgc(SEQ ID NO 56)   106015458   106015498   4;CCAATbox;
  7   agggaggg(SEQ ID NO 57)   106015513   105015520   MAZ;
  8   cttggcgg(SEQ ID NO 58)   106015526   106015533   E2F;E2F-1;E2F-1;
10.将结合分布型收集在数据库中。
将上面列举的所有结合分布型收集在数据库中。基因DLD的入口的示例性列表显示在表6中。
表6:
TF名称 核心分值 矩阵分值 核心序列 左侧位置 右侧位置   与TSS的距离(碱基)   基因组频率   保守分值
  Pax-3   1   0.964  tgaacttaTCACGctttactg(SEQ ID NO 63)   106015239   106015259   -249   0.426259226   0.426
  Pax-4   0.796   0.779  aacttgtcacgCTTTActgtc(SEQ ID NO 5)   106015241   106015261   -247   0.96109025   0.3552
  Pax-6   1   0.886  acttgTCACGctttactgtcg(SEQ ID NO 6)   106015242   106015262   -246   0.112003108   0.3552
  Pax-4   0.977   0.761  acttgTCACGctttactgtcg(SEQ ID NO 7)   106015242   106015262   -246   0.96109025   0.3552
  Lmo2complex   0.994   0.972  tCGATAatg(SEQ ID NO 8)   106015260   106015268   -228   0.120419526   0.06
  Cart-1   0.951   0.952  caaTAATGtgcattaagc(SEQ ID NO 64)   106015261   106015278   -227   0.020134663   0.06
  Cart-1   0.951   0.963  cgataatgtgCATTAagc(SEQ ID NO 9)   106015261   106015278   -227   0.020134663   0.06
  Cdc5   0.896   0.772  gcaTTAAGcaaa(SEQ ID NO 11)   106015270   106015281   -218   0.360481678   0.064
  Cdx-2   1   0.806  ctagtTTTATttgt(SEQ ID NO 12)   106015284   106015297   -204   0.259031464   0.11
  FOXJ2   0.96   0.937  agtttTATTTgtttattt(SEQ ID NO 13)   106015286   106015303   -202   0.167875178   0.162
  HNF-3beta   1   0.952  agtttTATTTgttta(SEQ ID NO 14)   106015286   106015300   -202   0.23688981   0.162
  Xvent-1   1   0.938  gttttATTTGttt(SEQ ID NO 15)   106015287   106015299   -201   0.678946005   0.122666667
  HFH-3   0.981   0.98  tttTATTTgttta(SEQ ID NO 17)   106015288   106015300   -200   0.066942898   0.162
  FOXD3   0.948   0.926  ttTTATTtgttt(SEQ ID NO 16)   106015288   106015299   -200   0.653632008   0.122666667
  FOXJ2   1   0.982  ttattTGTTTatttcatc(SEQ ID NO 18)   106015290   106015307   -198   0.167875178   0.286
  HNF-3beta   1   0.926  ttattTGTTTatttc(SEQ ID NO 19)   06015290   106015304   -198   0.23688981   0.192
  FOX04   1   0.996 tattTGTTTat(SEQ ID NO 22)   106015291   106015301   -197   0.10785964   0.192
  XFD-2   1   0.947 tatttgTTTATttc(SEQ ID NO 20)   106015291   106015304   -197   0.033665674   0.192
  Freac-7   1   0.983 tatttgTTTATttcat(SEQ ID NO 21)   106015291   106015306   -197   0.076718892   0.286
  HNF-3alpha   0.972   0.97 TATTTTgtttat(SEQ ID NO 23)   106015291   106015301   -197   0.312184384   0.192
  HFH-1   1   0.963 atttGTTTAttt(SEQ ID NO 27)   106015292   106015303   -196   0.01657387   0.192
  HFH-3   1   0.97 attTGTTTatttc(SEQ ID NO 25)   106015292   106015304   -196   0.066942898   0.192
  HFH-8   1   0.986 attTGTTTatttc(SEQ ID NO 26)   106015292   106015304   -196   0.020652596   0.192
  FOXD3   1   0.958 atTTGTTtattt(SEQ ID NO 28)   106015292   106015303   -196   0.653632008   0.192
  Cdx-2   1   0.834 atttgTTTATttca(SEQ ID NO 24)   106015292   106015305   -196   0.259031464   0.286
HNF-3α   1   0.919 TGTTTatttca(SEQ ID NO 29)   106015295   106015305   -193   0.312184384   0.357333333
  IRF-7   0.85   0.878 gtttatttcatCTTCTaa(SEQ ID NO 30)   106015296   106015313   -192   0.206914411   0.41
  NKX3A   1   0.964 ttctAAGTAtaa(SEQ ID NO 31)   106015308   106015319   -180   0.02233588   0.624
  STAT5A(同型四聚体)   0.824   0.873 ttctaAGTATaagaatacattgta(SEQ ID NO 32)   106015308   106015331   -180   0.02926324   0.550666667
  Ik-1   1   0.962 agcaTTCCCacca(SEQ ID NO 33)   106015359   106015371   -129   0.149682766   0.394
  Ik-3   1   0.927 agcaTTCCacca(SEQ ID NO 65)   106015359   106015371   -129   0.019875696   0.394
  E2F   0.813   0.869 gCGACAaa(SEQ ID NO 35)   106015383   106015390   -105   0.566230739   0.674666667
  Pax-4   0.789   0.755 agccctgcgctCCTTAcgaca(SEQ ID NO 36)   106015390   106015410   -98   0.96109025   1.2336
  USF   0.96   0.925 gcctCGTGCg(SEQ ID NO 37)   106015438   106015447   -50   0.781561569   0.888
  CCAAT盒   1   0.934 gcgggCCAATcg(SEQ ID NO 38)   106015458   106015469   -30   0.288488929   1.136
  Pax-4   0.788   0.784 cgctgctcccgGGTGAtgacg(SEQ ID NO 39)   106015470   106015490   -18   0.96109025   1.3408
  肌肉起始子序列-20   0.964   0.902 tgctcccgggTGATGacgtag(SEQ ID NO 40)   106015473   106015493   -15   0.29004273   1.3408
  v-Maf   0.91   0.839 gggtGATGAcgtaggctgc(SEQ ID NO 41)   106015480   106015498   -8   0.233458501   1.356
  CREB   1   0.991 gtgaTGACGtag(SEQ ID NO 42)   106015482   106015493   -6   0.308429367   1.378666667
  CREB   1   0.954 gaTGACGtaggc(SEQ ID NO 44)   106015484   106015495   -4   0.308429367   1.356
  ATF4   1   0.881 gaTGACGtaggc(SEQ ID NO 43)   106015484   106015495   -4   0.142172731   1.356
  TFH-1   0.973   0.951 tgacGTAGG(SEQ ID NO 45)   106015486   106015494   -2   0.949177781   1.544
  CREB   1   0.971 TGACGtag(SEQ ID NO 46)   106015486   106015493   -2   0.308429367   1.544
  MAZ   1   0.97 aGGGAGgg(SEQ ID NO 47)   106015513   106015520   25   1.118477276   0.714666667
  E2F   0.984   0.897 ctTGGCGg(SEQ ID NO 50)   106015526   106015533   38   0.566230739   0.532
  E2F-1   0.964   0.916 ctTGGCGg(SEQ ID NO 49)   106015526   106015533   38   0.901268937   0.532
  E2F-1   1   0.999 cTTGGCgg(SEQ ID NO 48)   106015526   106015533   38   0.901268937   0.532
11.数据库可用基因标识符检索。
附图11举例说明可与数据库一起使用的查询形式的屏幕显示(screenshot)。附图12举例说明数据库查询结果的屏幕显示。
如附图13中所说明,本发明的另一个实施方案是用于显示已绘制分布型的调控因子结合位点的计算机执行系统。该系统包括数据库、包括一个或多个可选择的用户输入端的用户界面、可由用户操作的输入装置和用于显示至少一种响应于分布型绘制的确定的结合位点的输出值的显示器。
输出值的例子包括但是不限于,基因名称、标识符、所确定的TF结合位点、TF名称、基因组位置、长度、距离、保守分值、结合分值、频率信息和结合位点序列。输入端的例子包括基因标识符,例如基因符号,unigeneCluster ID或者locuslink ID等。
该系统还包括存储器、微处理器、数据文件、脚本(script)、可获得的辅助软件,包括但是不限于MS windows,red hat linux,Apache HTTP sever,Perl编译程序等。
前面对本发明的优选实施方案的描述,用于说明和描述的目的。目的不在于穷举或者将本发明限定在所公开的精确形式中。显然,许多改进和变化对于本领域普通技术人员来说是显然的。本发明的保护范围由下面的权利要求书和它们的等价物来定义。
                               序列表
<110>科根泰克股份有限公司(CORGENTECH,INC.)
     ZHANG,Jie
     WEI,Hsiu-Ying
     MCEVOY,Leslie Margaret
<120>调控因子结合位点的基因组分布型绘制
<130>39753-0003 PCT
<140>Unassigned
<141>Herewith
<150>US 10/402,689
<151>2003-03-28
<160>65
<170>FastSEQ for Windows Version 4.0
<210>1
<211>14
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(1)...(14)
<400>1
aggggacttt ccca                                                            14
<210>2
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(1)...(8)
<400>2
tttggcgg                                                              8
<210>3
<211>36
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(10)...(22)
<400>3
agcgtcagaa ggggactttc ccaagagagg ccgaga                              36
<210>4
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(9)...(13)
<400>4
tgaacttgtc acgctttact g                                              21
<210>5
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(12)...(16)
<400>5
aacttgtcac gctttactgt c                                              21
<210>6
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>6
acttgtcacg ctttactgtc g                                                  21
<210>7
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>7
acttgtcacg ctttactgtc g                                                  21
<210>8
<211>9
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(2)...(6)
<400>8
tcgataatg                                                                 9
<210>9
<211>18
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(11)...(15)
<400>9
cgataatgtg cattaagc                                                      18
<210>10
<211>18
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(4)...(8)
<400>10
cgataatgtg cattaagc                                                      18
<210>11
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(4)...(8)
<400>11
 gcattaagca aa                                                           12
<210>12
<211>14
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>12
ctagttttat ttgt                                                          14
<210>13
<211>18
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>13
agttttattt gtttattt                                                      18
<210>14
<211>15
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>14
agttttattt gttta                                                         15
<210>15
<211>13
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>15
gttttatttg ttt                                                           13
<210>16
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(3)...(7)
<400>16
ttttatttgt tt                                                            12
<210>17
<211>13
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(4)...(8)
<400>17
ttttatttgt tta                                                           13
<210>18
<211>18
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>18
ttatttgttt atttcatc                                                      18
<210>19
<211>15
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>19
ttatttgttt atttc                                                         15
<210>20
<211>14
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(7)...(11)
<400>20
tatttgttta tttc                                                          14
<210>21
<211>16
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(7)...(11)
<400>21
tatttgttta tttcat                                                        16
<210>22
<211>11
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>22
tatttgttta t                                                             11
<210>23
<211>11
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(1)...(5)
<400>23
tatttgttta t                                                             11
<210>24
<211>14
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>24
atttgtttat ttca                                                          14
<210>25
<211>13
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(4)...(8)
<400>25
atttgtttat ttc                                                           13
<210>26
<211>13
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(4)...(8)
<400>26
atttgtttat ttc                                                           13
<210>27
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>27
atttgtttat tt                                                            12
<210>28
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(3)...(7)
<400>28
atttgtttat tt                                                            12
<210>29
<211>11
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(1)...(5)
<400>29
tgtttatttc a                                                             11
<210>30
<211>18
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(12)...(16)
<400>30
gtttatttca tcttctaa                                                      18
<210>31
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>31
ttctaagtat aa                                                            12
<210>32
<211>24
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>32
ttctaagtat aagaatacat tgta                                               24
<210>33
<211>13
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>33
agcattccca cca                                                           13
<210>34
<211>13
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>34
agcattccca cca                                                           13
<210>35
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(2)...(6)
<400>35
gcgacaaa                                                                  8
<210>36
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(12)...(16)
<400>36
agccctgcgc tccttacgac a                                                  21
<210>37
<211>10
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>37
gcctcgtgcg                                                               10
<210>38
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(6)...(10)
<400>38
gcgggccaat cg                                                            12
<210>39
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(12)...(16)
<400>39
cgctgctccc gggtgatgac g                                                  21
<210>40
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(11)...(15)
<400>40
tgctcccggg tgatgacgta g                                                  21
<210>41
<211>19
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>41
gggtgatgac gtaggctgc                                                     19
<210>42
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>42
gtgatgacgt ag                                                            12
<210>43
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(3)...(7)
<400>43
gatgacgtag gc                                                            12
<210>44
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(3)...(7)
<400>44
gatgacgtag gc                                                            12
<210>45
<211>9
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(9)
<400>45
tgacgtagg                                                                 9
<210>46
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(1)...(5)
<400>46
tgacgtag                                                                  8
<210>47
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(2)...(6)
<400>47
agggaggg                                                                  8
<210>48
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(2)...(6)
<400>48
cttggcgg                                                                  8
<210>49
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(3)...(7)
<400>49
cttggcgg                                                                  8
<210>50
<211>8
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(3)...(7)
<400>50
cttggcgg                                                                  8
<210>51
<211>43
<212>DNA
<213>人(Homo sapiens)
<400>51
tgaacttgtc acgctttact gtcgataatg tgcattaagc aaa                          43
<210>52
<211>48
<212>DNA
<213>人(Homo sapiens)
<400>52
ctagttttat ttgtttattt catcttctaa gtataagaat acattgta                     48
<210>53
<211>13
<212>DNA
<213>人(Homo sapiens)
<400>53
agcattccca cca                                                           13
<210>54
<211>28
<212>DNA
<213>人(Homo sapiens)
<400>54
gcgacaaagc cctgcgctcc ttacgaca                                           28
<210>55
<211>10
<212>DNA
<213>人(Homo sapiens)
<400>55
gcctcgtgcg                                                         10
<210>56
<211>40
<212>DNA
<213>人(Homo sapiens)
<400>56
gcgggcaatc gcgctgctcc cgggtgatga cgtaggctgc                        40
<210>57
<211>8
<212>DNA
<213>人(Homo sapiens)
<400>57
agggaggg                                                            8
<210>58
<211>8
<212>DNA
<213>人(Homo sapiens)
<400>58
cttggcgg                                                            8
<210>59
<211>2320
<212>DNA
<213>人(Homo sapiens)
<400>59
gcgcagggag gggagacctt ggcggacggc ggagccccag cggaggtgaa agtattggcg 60
gaaaggaaaa tacagcggaa aaatgcagag ctggagtcgt gtgtactgct ccttggccaa 120
gagaggccat ttcaatcgaa tatctcatgg cctacaggga ctttctgcag tgcctctgag 180
aacttacgca gatcagccga ttgatgctga tgtaacagtt ataggttctg gtcctggagg 240
atatgttgct gctattaaag ctgcccagtt aggcttcaag acagtctgca ttgagaaaaa 300
tgaaacactt ggtggaacat gcttgaatgt tggttgtatt ccttctaagg ctttattgaa 360
caactctcat tattaccata tggcccatgg aacagatttt gcatctagag gaattgaaat 420
gtccgaagtt cgcttgaatt tagacaagat gatggagcag aagagtactg cagtaaaagc 480
tttaacaggt ggaattgccc acttattcaa acagaataag gttgttcatg tcaatggata 540
tggaaagata actggcaaaa atcaagtcac tgctacgaaa gctgatggcg gcactcaggt 600
tattgataca aagaacattc ttatagccac gggttcagaa gttactcctt ttcctggaat 660
cacgatagat gaagatacaa tagtgtcatc tacaggtgct ttatctttaa aaaaagttcc 720
agaaaagatg gttgttattg gtgcaggagt aataggtgta gaattgggtt cagtttggca 780
aagacttggt gcagatgtga cagcagttga atttttaggt catgtaggtg gagttggaat 840
tgatatggag atatctaaaa actttcaacg catccttcaa aaacaggggt ttaaatttaa 900
attgaataca aaggttactg gtgctaccaa gaagtcagat ggaaaaattg atgtttctat 960
tgaagctgct tctggtggta aagctgaagt tatcacttgt gatgtactct tggtttgcat 1020
tggccgacga ccctttacta agaatttggg actagaagag ctgggaattg aactagatcc 1080
tagaggtaga attccagtca ataccagatt tcaaactaaa attccaaata tctatgccat 1140
tggtgatgta gttgctggtc caatgctggc tcacaaagca gaggatgaag gcattatctg 1200
tgttgaagga atggctggtg gtgctgtgca cattgactac aattgtgtgc catcagtgat 1260
ttacacacac cctgaagttg cttgggttgg caaatcagaa gagcagttga aagaagaggg 1320
tattgagtac aaagttggga aattcccatt tgctgctaac agcagagcta agacaaatgc 1380
tgacacagat ggcatggtga agatccttgg gcagaaatcg acagacagag tactgggagc 1440
acatattctt ggaccaggtg ctggagaaat ggtaaatgaa gctgctcttg ctttggaata 1500
tggagcatcc tgtgaagata tagctagagt ctgtcatgca catccgacct tatcagaagc 1560
ttttagagaa gcaaatcttg ctgcgtcatt tggcaaatca atcaactttt gaattagaag 1620
attatatatt tttttttctg aaatttcctg ggagcttttg tagaagtcac attcctgaac 1680
aggatattct cacagctcca agaatttcta ggactgaatt atgaaacttt tggaaggtat 1740
ttaataggtt tggacaaaat ggaatactct tatatctata ttttacataa atttagtatt 1800
ttgtttcagt gcactaatat gtaagacaaa aaggactact tattgtagtc atcctggaat 1860
atctccgtca actcatattt tcatgctgtt catgaaagat tcaatgcccc tgaatttaaa 1920
tagctctttt ctctgataca gaaaagttga attttacatg gctggagcta gaatttgata 1980
tgtgaacagt tgtgtttgaa gcacagtgat caagttattt ttaatttggt tttcacattg 2040
gaaacaagtc agtcattcag atatgattca aatgtctata aaccaaactg atgtaagtaa 2100
atggtctctc acttgtttta tttaacctct aaattctttc attttagggg tagcatttgt 2160
gttgaagagg ttttaaagct tccattgttg tctgcaactc tgaagggtaa ttatatagtt 2220
acccaaatta agagagtcta tttacggaac tcaaatacgt gggcattcaa atgtattaca 2280
gtggggaatg aagatactga aataaacgtc ttaaatattc                       2320
<210>60
<211>2108
<212>DNA
<213>人(Homo sapiens)
<400>60
ggcacgaggg aggcgcccag cggaggtgaa agtattggcg gaaaggaaaa tacagcggaa 60
aaatgcagag ctggagtcgt gtgtactgct ccttggccaa gagaggccat ttcaatcgaa 120
tatctcatgg cctacaggga ctttctgcag tgcctctgag aacttacgca gatcagccga 180
ttgatgctga tgtaacagtt ataggttctg gtcctggagg atatgttgct gctattaaag 240
ctgcccagtt aggcttcaag acagtctgca ttgagaaaaa tgaaacactt ggtggaacat 300
gcttgaatgt tggttgtatt ccttctaagg ctttattgaa caactctcat tattaccata 360
tggcccatgg aaaagatttt gcatctagag gaattgaaat gtccgaagtt cgcttgaatt 420
tagacaagat gatggagcag aagagtactg cagtaaaagc tttaacaggt ggaattgccc 480
acttattcaa acagaataag gttgttcatg tcaatggata tggaaagata actggcaaaa 540
atcaagtcac tgctacgaaa gctgatggcg gcactcaggt tattgataca aagaacattc 600
ttatagccac gggttcagaa gttactcctt ttcctggaat cacgatagat gaagatacaa 660
tagtgtcatc tacaggtgct ttatctttaa aaaaagttcc agaaaagatg gttgttattg 720
gtgcaggagt aataggtgta gaattgggtt cagtttggca aagacttggt gcagatgtga 780
cagcagttga atttttaggt catgtaggtg gagttggaat tgatatggag atatctaaaa 840
actttcaacg catccttcaa aaacaggggt ttaaatttaa attgaataca aaggttactg 900
gtgctaccaa gaagtcagat ggaaaaattg atgtttctat tgaagctgct tctggtggta 960
aagctgaagt tatcacttgt gatgtactct tggtttgcat tggccgacga ccctttacta 1020
agaatttggg actagaagag ctgggaattg aactagatcc cagaggtaga attccagtca 1080
ataccagatt tcaaactaaa attccaaata tctatgccat tggtgatgta gttgctggtc 1140
caatgctggc tcacaaagca gaggatgaag gcattatctg tgttgaagga atggctggtg 1200
gtgctgtgca cattgactac aattgtgtgc catcagtgat ttacacacac cctgaagttg 1260
cttgggttgg caaatcagaa gagcagttga aagaagaggg tattgagtac aaagttggga 1320
aattcccatt tgctgctaac agcagagcta agacaaatgc tgacacagat ggcatggtga 1380
agatccttgg gcagaaatcg acagacagag tactgggagc acatattctt ggaccaggtg 1440
ctggagaaat ggtaaatgaa gctgctcttg ctttggaata tggagcatcc tgtgaagata 1500
tagctagagt ctgtcatgca catccgacct tatcagaagc ttttagagaa gcaaatcttg 1560
ctgcgtcatt tggcaaatca atcaactttt gaattagaag attatatata tttttttctg 1620
aaatttcctg ggagcttttg tagaagtcac attcctgaac aggatattct cacagctcca 1680
agaatttcta ggactgaatt atgaaacttt tggaaggtat ttaataggtt tggacaaaat 1740
ggaatactct tatatctata ttttacataa atttagtatt ttgtttcagt gcactaatgt 1800
gtaagacaaa aagctactta ttgtagcatc ctggaatatc tccgtcaact catattttca 1860
tgctgttcat gaaagattca atgcccctga atttaaatag cttttttctc tgatacagaa 1920
aagttgaatt ttacatggct ggagctagaa tttgatatgt gaacagttgt gtttgaagca 1980
cagtgatcaa gttattttta atttggtttt cacattggaa acaagtcagt cattcagata 2040
tgattcaaat gtctataaac cgaactgatg taagtaaaaa aaaaaaaaaa aaaaaaaaaa 2100
aaaaaaaa                                                          2108
<210>61
<211>2341
<212>DNA
<213>人(Homo sapiens)
<400>61
acgtaggctg cgcctgtgca tgcgcaggga ggggagacct tggcggacgg cggagcccca 60
gcggaggtga aagtattggc ggaaaggaaa atacagcgga aaaatgcaga gctggagtcg 120
tgtgtactgc tccttggcca agagaggcca tttcaatcga atatctcatg gcctacaggg 180
actttctgca gtgcctctga gaacttacgc agatcagccg attgatgctg atgtaacagt 240
tataggttct ggtcctggag gatatgttgc tgctattaaa gctgcccagt taggcttcaa 300
gacagtctgc attgagaaaa atgaaacact tggtggaaca tgcttgaatg ttggttgtat 360
tccttctaag gctttattga acaactctca ttattaccat atggcccatg gaacagattt 420
tgcatctaga ggaattgaaa tgtccgaagt tcgcttgaat ttagacaaga tgatggagca 480
gaagagtact gcagtaaaag ctttaacagg tggaattgcc cacttattca aacagaataa 540
ggttgttcat gtcaatggat atggaaagat aactggcaaa aatcaagtca ctgctacgaa 600
agctgatggc ggcactcagg ttattgatac aaagaacatt cttatagcca cgggttcaga 660
agttactcct tttcctggaa tcacgataga tgaagataca atagtgtcat ctacaggtgc 720
tttatcttta aaaaaagttc cagaaaagat ggttgttatt ggtgcaggag taataggtgt 780
agaattgggt tcagtttggc aaagacttgg tgcagatgtg acagcagttg aatttttagg 840
tcatgtaggt ggagttggaa ttgatatgga gatatctaaa aactttcaac gcatccttca 900
aaaacagggg tttaaattta aattgaatac aaaggttact ggtgctacca agaagtcaga 960
tggaaaaatt gatgtttcta ttgaagctgc ttctggtggt aaagctgaag ttatcacttg 1020
tgatgtactc ttggtttgca ttggccgacg accctttact aagaatttgg gactagaaga 1080
gctgggaatt gaactagatc ctagaggtag aattccagtc aataccagat ttcaaactaa 1140
aattccaaat atctatgcca ttggtgatgt agttgctggt ccaatgctgg ctcacaaagc 1200
agaggatgaa ggcattatct gtgttgaagg aatggctggt ggtgctgtgc acattgacta 1260
caattgtgtg ccatcagtga tttacacaca ccctgaagtt gcttgggttg gcaaatcaga 1320
agagcagttg aaagaagagg gtattgagta caaagttggg aaattcccat ttgctgctaa 1380
cagcagagct aagacaaatg ctgacacaga tggcatggtg aagatccttg ggcagaaatc 1440
gacagacaga gtactgggag cacatattct tggaccaggt gctggagaaa tggtaaatga 1500
agctgctctt gctttggaat atggagcatc ctgtgaagat atagctagag tctgtcatgc 1560
acatccgacc ttatcagaag cttttagaga agcaaatctt gctgcgtcat ttggcaaatc 1620
aatcaacttt tgaattagaa gattatatat ttttttttct gaaatttcct gggagctttt 1680
gtagaagtca cattcctgaa caggatattc tcacagctcc aagaatttct aggactgaat 1740
tatgaaactt ttggaaggta tttaataggt ttggacaaaa tggaatactc ttatatctat 1800
attttacata aatttagtat tttgtttcag tgcactaata tgtaagacaa aaaggactac 1860
ttattgtagt catcctggaa tatctccgtc aactcatatt ttcatgctgt tcatgaaaga 1920
ttcaatgccc ctgaatttaa atagctcttt tctctgatac agaaaagttg aattttacat 1980
ggctggagct agaatttgat atgtgaacag ttgtgtttga agcacagtga tcaagttatt 2040
tttaatttgg ttttcacatt ggaaacaagt cagtcattca gatatgattc aaatgtctat 2100
aaaccaaact gatgtaagta aatggtctct cacttgtttt atttaacctc taaattcttt 2160
cattttaggg gtagcatttg tgttgaagag gttttaaagc ttccattgtt gtctgcaact 2220
ctgaagggta attatatagt tacccaaatt aagagagtct atttacggaa ctcaaatacg 2280
tgggcattca aatgtattac agtggggaat gaagatactg aaataaacgt cttaaatatt 2340
c                                                                 2341
<210>62
<211>301
<212>DNA
<213>人(Homo sapiens)
<400>62
gttgaacttg tcacgcttta ctgtcgataa tgtgcattaa gcaaacgcta gttttatttg 60
tttatttcat cttctaagta taagaataca ttgtagctcg acattttggc accagcccct 120
aaagcattcc caccaccacc cccgctgcga caaagccctg cgctccttac gacagcgtac 180
gacgccgagc ctgacaggaa cgcctcgtgc ggtagaaccg cgcgggccaa tcgcgctgct 240
cccgggtgat gacgtaggct gcgcctgtgc atgcgcaggg aggggagacc ttggcggagc 300
g                                                                       301
<210>63
<211>21
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(9)...(13)
<400>63
tgaacttatc acgctttact g                                                  21
<210>64
<211>18
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(4)...(8)
<400>64
caataatgtg cattaagc                                                      18
<210>65
<211>12
<212>DNA
<213>人(Homo sapiens)
<220>
<221>protein_bind
<222>(5)...(8)
<400>65
agcattccac ca                                                            12

Claims (92)

1.用于绘制调控因子结合位点分布型的方法:
定位完整的和最5′全长基因,用于对基因调控区作图;
检索基因的调控区的基因组序列;
筛选各个检索的基因调控区的DNA序列信息,以鉴定推定的调控因子结合位点;和
绘制推定的调控因子结合位点分布型。
2.权利要求1的方法,其中作图包括检索全长基因,以提供检索得到的基因的序列信息。
3.权利要求2的方法,其中作图包括将检索得到的基因作图到最近更新的人类基因组上。
4.权利要求3的方法,其中采用工具和自主开发的脚本,将检索得到的基因作图到最近更新的人类基因组上,所述工具由公众可获得的UCSC基因组浏览器数据库中的至少一种提供。
5.权利要求3的方法,其中对转录起始位点(TSS)作图。
6.权利要求5的方法,其中通过在比较所述基因的所有可获得的TSS后取得各个基因的最5′TSS,来对TSS作图。
7.权利要求1的方法,其中从最新的人类基因组中检索每个检索得到的具有最5′TSS的基因的调控区的基因组序列。
8.权利要求7的方法,其中5′调控区是位于TSS上游和TSS下游的序列。
9.权利要求1的方法,其中检索得到的基因调控区的序列是核心启动子区域。
10.权利要求9的方法,其中核心启动子区域包括TSS上游的200-300个碱基以及TSS下游约50-100个碱基的序列。
11.权利要求5的方法,其中基因的基因组序列是上游增强子区域。
12.权利要求3的方法,其中基因调控区的基因组序列是下游调控区。
13.权利要求7的方法,进一步包括:
切割和存储相对于TSS的相应序列。
14.权利要求13的方法,其中使用自主开发的脚本从UCSC基因组浏览器或NCBI基因组数据库中的至少一个中切割和存储相对于TSS的相应序列。
15.权利要求1的方法,其中用MATCH程序或类似的位置加权的矩阵程序筛选DNA序列信息以进行基序检索。
16.权利要求1的方法,其中DNA序列信息筛选包括选择TF矩阵、矩阵相似性分值和核心相似性分值。
17.权利要求1的方法,其中用截取点来减少筛选过程中的假阳性和假阴性匹配。
18.权利要求1的方法,进一步包括:
确定各个结合位点的至少一个基因组或组织特异性频率。
19.权利要求1的方法,其中频率是特异的TF结合位点在所有基因的调控区中的存在情况。
20.权利要求1的方法,其中频率是特异的TF结合位点在组织特异性基因的调控区中的存在情况。
21.权利要求16的方法,进一步包括:
建立各个结合位点的保守分值。
22.权利要求17的方法,其中选择保守分值来覆盖TF结合位点被鉴定的区域。
23.权利要求17的方法,进一步包括:
确定各个结合位点的位置。
24.权利要求23的方法,其中所述位置是基于人类基因组工作草图。
25.权利要求24的方法,其中所述位置是人类基因组工作草图中的被转变的位置。
26.权利要求23的方法,其中确定起始和终止的基因组位置。
27.权利要求23的方法,进一步包括:
确定各个结合位点到TSS的距离。
28.权利要求27的方法,其中该距离相对于结合位点和TSS之间的若干碱基。
29.权利要求27的方法,进一步包括:
确定各个结合位点的长度。
30.权利要求29的方法,进一步包括:
确定邻近于结合位点的区域的序列信息。
31.权利要求30的方法,进一步包括:
确定其它结合位点的共存信息。
32.权利要求31的方法,进一步包括:
确定结合位点和它们的位置的聚类。
33.权利要求1的方法,进一步包括:
将结合分布型收集在数据库中。
34.权利要求33的方法,其中数据库包括各个基因的调控区的TF结合分布型。
35.权利要求33的方法,其中数据库可以用基因标识符检索。
36.权利要求35的方法,其中基因标识符选自NCBI数据库。
37.权利要求36的方法,其中NCBI数据库包括Unigene Cluster ID、LoucsLink ID和国际上认可的基因符号中的至少一种。
38.权利要求35的方法,其中数据库包括TF的基因组频率信息。
39.权利要求38的数据库,其中数据库可以用TF名称和TF频率中的至少一个来分类。
40.权利要求39的方法,其中TF频率包括基因组频率和组织特异性频率。
41.权利要求33的方法,进一步包括:
从数据库中检索信息以用于生物医学研究。
42.权利要求33的方法,进一步包括:
从数据库中检索信息以用于临床前开发。
43.权利要求33的方法,进一步包括:
从数据库中检索信息以用于药物筛选应用。
44.权利要求33的方法,进一步包括:
从数据库中检索信息以用于靶点发现和靶点确认。
45.权利要求33的方法,进一步包括:
从数据库中检索信息以用于调控区的分布型绘制。
46.权利要求33的方法,进一步包括:
从数据库中检索信息以用于建立不同基因的调控分布型之间的基因组或组织范围的联系。
47.权利要求33的方法,进一步包括:从数据库中检索信息,用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录分布型的基因组或组织背景。
48.用于绘制被确认的结合位点分布型的方法,包括:
提供数据库,所述数据库包括已知基因的经分布型绘制的确认的结合位点;和
将概率作图应用于被绘制分布型的结合位点。
49.权利要求48的方法,其中数据库包括各个基因的调控区的TF结合分布型。
50.权利要求48的方法,其中该数据库可以用基因标识符检索。
51.权利要求50的方法,其中基因标识符从NCBI数据库中选择。
52.权利要求51的方法,其中NCBI数据库包括Unigene Cluster ID、LoucsLink ID和国际上认可的基因符号中的至少一种。
53.权利要求51的方法,其中数据库包括脊椎动物转录调控因子的基因组频率信息。
54.权利要求53的方法,其中数据库可以用TF名称和TF频率中的至少一个分类。
55.权利要求54的方法,其中TF频率包括基因组频率和组织特异性频率。
56.权利要求48的方法,进一步包括:
从数据库中检索信息,用于生物医学研究。
57.权利要求48的方法,进一步包括:
从数据库中检索信息,用于临床前的开发。
58.权利要求48的方法,进一步包括:
从数据库中检索信息,用于药物筛选应用。
59.权利要求48的方法,进一步包括:
从数据库中检索信息,用于靶点发现和靶点确认。
60.权利要求48的方法,进一步包括:
从数据库中检索信息,用于调控区的分布型绘制。
61.权利要求48的方法,进一步包括:
从数据库中检索信息,用于建立不同基因的调控分布型之间的基因组或组织范围的联系。
62.权利要求48的方法,进一步包括:
从数据库中检索信息,用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录分布型的基因组或组织背景。
63.有形存储在计算机可读介质上的数据结构,包括:
包括被绘制分布型的确认结合位点的数据库,被绘制分布型的确认结合位点通过筛选基因调控区的DNA序列信息建立,其中该数据库可以用基因标识符来检索。
64.权利要求63的方法,其中基因标识符选自NCBI GeneBank标识符。
65.权利要求64的方法,其中NCBI数据库包括Unigene Cluster ID,LoucsLink ID和国际上认可的基因符号中的至少一种。
66.权利要求63的数据结构,其中该数据库包括各个基因的调控区的TF结合分布型。
67.权利要求63的数据结构,其中该数据库包括脊椎动物转录调控因子的基因组频率信息。
68.权利要求63的数据结构,其中该数据库可以用TF名称和TF频率中的至少一个分类。
69.权利要求68的数据结构,其中TF频率包括基因组频率和组织特异性频率。
70.权利要求63的数据结构,其中该数据库包括用于生物医学研究的信息。
71.权利要求63的数据结构,其中该数据库包括用于临床前的开发的信息。
72.权利要求63的数据结构,其中该数据库包括用于药物筛选应用的信息。
73.权利要求63的数据结构,其中该数据库包括用于靶点发现和靶点确认的信息。
74.权利要求63的数据结构,其中该数据库包括用于调控区的分布型绘制的信息。
75.权利要求63的数据结构,其中该数据库包括用于建立不同基因的调控分布型之间的基因组或组织范围的连接的信息。
76.权利要求63的数据结构,其中该数据库包括用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录分布型的基因组或组织背景的信息。
77.用于绘制调控因子结合位点分布型的计算机执行系统,包括:
包括被绘制分布型的确认结合位点的数据库,被绘制分布型的确认结合位点通过筛选基因调控区的DNA序列信息来建立,其中数据库可以用基因标识符检索;
包括一个或多个可选择的用户输入的用户界面;
可由用户操作的输入装置;和
用于显示至少一个响应于被绘制分布型的确认结合位点的输出值的显示器。
78.权利要求77的系统,其中基因标识符选自NCBI GeneBank标识符。
79.权利要求78的系统,其中NCBI数据库包括Unigene Cluster ID,LoucsLink ID和国际上认可的基因符号中的至少一种。
80.权利要求77的系统,其中该数据库包括各个基因的调控区的TF结合分布型。
81.权利要求77的系统,其中该数据库包括脊椎动物转录调控因子的基因组频率信息。
82.权利要求77的系统,其中该数据库可以用TF名称和TF频率中的至少一个分类。
83.权利要求68的系统,其中TF频率包括基因组频率和组织特异性频率。
84.权利要求77的系统,其中该数据库包括用于生物医学研究的信息。
85.权利要求77的系统,其中该数据库包括用于临床前的开发的信息。
86.权利要求77的系统,其中该数据库包括用于药物筛选应用的信息。
87.权利要求77的系统,其中该数据库包括用于靶点发现和靶点确认的信息。
88.权利要求77的系统,其中该数据库包括用于调控区的分布型绘制的信息。
89.权利要求77的系统,其中该数据库包括用于建立不同基因的调控分布型之间的基因组或组织范围的联系的信息。
90.权利要求77的系统,其中该数据库包括用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录图谱的基因组或组织背景的信息。
91.权利要求77的系统,其中至少一个输出值包括至少如下之一:基因名称,标识符,被确认的TF结合位点,TF名称,基因组位置,长度,距离,保守分值,结合分值,频率信息和结合位点序列。
92.权利要求77的系统,还包括:
存储器;和微处理器。
CNA2004800126273A 2003-03-28 2004-03-24 调控因子结合位点的基因组分布型绘制 Pending CN1784498A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/402,689 2003-03-28
US10/402,689 US20040191781A1 (en) 2003-03-28 2003-03-28 Genomic profiling of regulatory factor binding sites

Publications (1)

Publication Number Publication Date
CN1784498A true CN1784498A (zh) 2006-06-07

Family

ID=32989771

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800126273A Pending CN1784498A (zh) 2003-03-28 2004-03-24 调控因子结合位点的基因组分布型绘制

Country Status (12)

Country Link
US (1) US20040191781A1 (zh)
EP (1) EP1608786B1 (zh)
JP (3) JP2004303201A (zh)
KR (1) KR20060015484A (zh)
CN (1) CN1784498A (zh)
AT (1) ATE416261T1 (zh)
AU (1) AU2004225474A1 (zh)
CA (1) CA2519674A1 (zh)
DE (1) DE602004018115D1 (zh)
MX (1) MXPA05010276A (zh)
RU (1) RU2005133192A (zh)
WO (1) WO2004087966A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103477318A (zh) * 2010-11-25 2013-12-25 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
CN104156635A (zh) * 2014-07-08 2014-11-19 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法
CN104769428A (zh) * 2012-06-14 2015-07-08 怀特海德生物医学研究所 评价化学实体与其靶标分子之间的相互作用的全基因组方法
CN103870719B (zh) * 2014-04-09 2017-06-16 苏州大学 一种人类基因启动子识别方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
CN101930502B (zh) * 2010-09-03 2011-12-21 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
WO2015031628A1 (en) * 2013-08-28 2015-03-05 Oregon Health & Science University Synthetic oligonucleotides for detection of nucleic acid binding proteins
RU2017124373A (ru) * 2014-12-10 2019-01-10 Конинклейке Филипс Н.В. Способы и система для создания сетей коэкспрессии некодирующих и кодирующих генов
CN105912886A (zh) * 2016-03-29 2016-08-31 上海师范大学 一种预测蛋白质在rna病毒基因中的结合位点的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103477318A (zh) * 2010-11-25 2013-12-25 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
US9384321B2 (en) 2010-11-25 2016-07-05 Portable Genomics, Inc. Organization, visualization and utilization of genomic data on electronic devices
CN103477318B (zh) * 2010-11-25 2019-01-29 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
CN104769428A (zh) * 2012-06-14 2015-07-08 怀特海德生物医学研究所 评价化学实体与其靶标分子之间的相互作用的全基因组方法
CN103870719B (zh) * 2014-04-09 2017-06-16 苏州大学 一种人类基因启动子识别方法及系统
CN104156635A (zh) * 2014-07-08 2014-11-19 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法
CN104156635B (zh) * 2014-07-08 2017-07-07 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法

Also Published As

Publication number Publication date
RU2005133192A (ru) 2006-02-27
DE602004018115D1 (de) 2009-01-15
JP2006031728A (ja) 2006-02-02
ATE416261T1 (de) 2008-12-15
EP1608786A2 (en) 2005-12-28
US20040191781A1 (en) 2004-09-30
AU2004225474A1 (en) 2004-10-14
EP1608786B1 (en) 2008-12-03
JP2004303201A (ja) 2004-10-28
WO2004087966A3 (en) 2004-12-09
WO2004087966A2 (en) 2004-10-14
MXPA05010276A (es) 2006-03-17
JP2008293505A (ja) 2008-12-04
KR20060015484A (ko) 2006-02-17
CA2519674A1 (en) 2004-10-14

Similar Documents

Publication Publication Date Title
CN1875345A (zh) 在编译过程中表示和检查程序组件的一致性的可扩展类型系统
CN1897556A (zh) 信息处理设备、信息处理方法和信息处理程序
CN1977531A (zh) 程序生成装置、程序测试装置、程序执行装置及信息处理系统
CN1673965A (zh) 实时可调度性确定方法和实时系统
CN1296811C (zh) 信息处理装置及其控制方法和控制装置
CN1482568A (zh) 用于防止记录介质非授权使用的系统
CN1592905A (zh) 自动产生数据库查询的系统和方法
CN1155884C (zh) 通过大范围的同值关系的解析来消除传输命令的优化装置
CN1469241A (zh) 处理器、程序变换装置和变换方法以及计算机程序
CN101030138A (zh) 应用构架
CN1589331A (zh) 诊断探针检测系统
CN1784498A (zh) 调控因子结合位点的基因组分布型绘制
CN1776621A (zh) 程序变换方法
CN1303556C (zh) 用于检索信息的系统和方法
CN1469229A (zh) 辅助输入装置
CN1840696A (zh) 水稻广谱抗稻瘟病基因的分子鉴别及转育技术
CN1940939A (zh) 信息管理设备、信息管理系统和计算机可用介质
CN1950803A (zh) 非易失性存储装置和数据写入方法
CN1202264C (zh) 基于基因组外显子芯片的数量性状基因位点定位方法
CN1635142A (zh) 用于预测偏执型精神分裂症易感性的试剂盒及所用引物
CN1173989C (zh) 石斛的dna序列及利用该序列鉴定其品种或辨别其真伪的方法
CN1632794A (zh) 可扩展标记语言类型至关系数据库表的映射方法
CN1526111A (zh) 可用于评估干扰素疗效的多态标记
CN1934254A (zh) 与大麦黄花叶病抵抗性相关的基因位点连锁的遗传标记及其利用
CN1251075C (zh) 程序生成装置及其方法、计算机装置及其处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060607