JP2006031728A - 調節因子結合部位のゲノムプロファイリング - Google Patents

調節因子結合部位のゲノムプロファイリング Download PDF

Info

Publication number
JP2006031728A
JP2006031728A JP2005237018A JP2005237018A JP2006031728A JP 2006031728 A JP2006031728 A JP 2006031728A JP 2005237018 A JP2005237018 A JP 2005237018A JP 2005237018 A JP2005237018 A JP 2005237018A JP 2006031728 A JP2006031728 A JP 2006031728A
Authority
JP
Japan
Prior art keywords
item
gene
database
tss
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005237018A
Other languages
English (en)
Inventor
Jie Zhang
ジエ ザン
Hsiu-Ying Wei
シュー−イン ウェイ
Leslie Margaret Mcevoy
マーガレット マケヴォイ レズリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anesiva Inc
Original Assignee
Corgentech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Corgentech Inc filed Critical Corgentech Inc
Publication of JP2006031728A publication Critical patent/JP2006031728A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Processing (AREA)
  • Electrotherapy Devices (AREA)
  • Image Generation (AREA)

Abstract

【課題】調節因子結合部位をゲノムプロファイリングするための方法の提供。
【解決手段】調節因子結合部位を特徴付けるためのコンピュータ実行システムであって、以下の工程、スクリプトのうちの1つによって1以上のデータファイルから1種の生物種の1以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位(TSS)情報および該生物種のゲノム配列を含む遺伝子情報を含む、工程、該生物のゲノム配列を検索する工程、該ゲノム配列上に、該全長遺伝子について、そのTSSの位置をマッピングする工程、該マッピングされたTSSの位置の全てを比較して、該全長遺伝子の各々について最も5’側の位置を同定する工程および該全長遺伝子の各々について最も5’側の位置を有するTSSに基づいて該調節因子結合部位を規定する工程を実施するための命令を含む、コンピュータ実行システム。
【選択図】図1

Description

(関連出願の相互参照)
本出願は、2003年3月28日に出願され、「Systematical Analysis of Regulatory Factor Binding of Differentially Expressed Genes」と題され、そしてAttorney Docket番号39753−0002として識別される米国シリアル番号10/401,830号(この出願は、本明細書中において全体が援用される)に関連する。
(発明の分野)
本発明は、一般的に、全ての公知の遺伝子の調節因子結合部位のプロフィールを提供する方法、システムおよびデータ構造に関し、より詳細には、さらなる治療ストラテジー開発のために同定された結合部位についての体系的な分析を開発するために、調節因子結合部位を同定および特徴付けるための方法、データ構造およびシステムに関する。
(関連技術の説明)
遺伝子発現レベルを変化させることは、ヒト障害に取り組むために重要かつ効率的なアプローチになっている。各遺伝子の発現レベルは、転写機構によって制御され、ここで、転写因子(TF)と呼ばれる特定のタンパク質が遺伝子の調節領域に結合し、次いで、転写プロセスを開始する。従って、対応するTFおよび遺伝子調節領域上のそれらの結合部位は、遺伝子の転写レベルを制御する際に必須の役割を果たし得る。従って、転写因子およびそれらの関連する転写機構は、現代の生物医学的な研究および開発努力において「ホット」スポットになっている。
各遺伝子について、転写開始部位(TSS)は、そのmRNAが、RNAポリメラーゼIIによってDNAから転写され始める位置である。このプロセスの間、遺伝子調節領域は、特定の調節因子に関連し、そして結合する。これらの結合された因子は、他の転写タンパク質とともに、転写プロセスを開始し始め得る転写複合体を形成する。より詳細には、これは、代表的に、短い共通ゲノム配列である転写因子結合部位を含む。最も重要な調節領域の1つは、TSSの直前またはTSSに隣接して通常配置されるコアプロモーターである。従って、TSSを同定することは、各遺伝子についての転写調節領域を規定するために重要である。現在、多くの特定の研究および開発が、特定のTFおよび対応する結合部位についてのそれらの努力に焦点を向け、これは、依然として、多くの確かなデータを提供したが、ゲノム関連生物医学的必要性の開発の大きな要件を満たしていない。迅速に増加している転写因子関連薬物発見ビジネスおよび挑戦に適合するために、全ての推定調節因子を同定し、そしてゲノムにおけるそれらの対応する結合部位を特徴付けることが、非常に重要である。特に、ヒトゲノム計画の終了および多数の疾患関連遺伝子発現データ(例えば、マイクロアレイベースのデータ)の出現のため、調節因子結合部位の全ゲノム的なプロファイリングが、差し迫っている。
本発明は、種々の公共で利用可能なデータベース(例えば、NCBI refseq、NIH MGCコンソーシアム、日本のDBTSSデータベースなど)から全ての全長遺伝子を検索し、次いで、最も更新されたHuman Genome Working Draft(例えば、Assembly version July,2003、またはNCBI build34)についてこれらの遺伝子のTSSをマッピングした。次いで、この遺伝子の位置をマッピングすることによって生成される全ての可能なTSSを比較することによって、各遺伝子について最も上流のTSSを規定する。転写調節領域(TRR)(例えば、コアプロモーター領域)は、最も5’側のTSS位置に基づいて規定され、そしてそれらの対応するゲノム配列を、さらなる分析のために、最も更新されたヒトゲノムから検査した。全ての公知の遺伝子についてのプロファイルされたTRRを、さらなる薬物標的関連統計分析のために、そしてさらなる治療ストラテジー開発のために、データベース内に保存した。
(発明の要旨)
(項目1)
調節因子結合部位をプロファイリングするための方法であって、該方法は、以下:
遺伝子調節領域をマッピングするために、完全な最も5’側の全長遺伝子を位置付ける工程;
遺伝子の調節領域のゲノム配列を検索する工程;
推定調節因子結合部位を同定するために、それぞれの検索された遺伝子調節領域についてのDNA配列情報をスクリーニングする工程;および
該推定調節因子結合部位をプロファイリングする工程、
を包含する、方法。
(項目2)
項目1に記載の方法であって、マッピングが、検索された遺伝子についての配列情報を提供するために、全長遺伝子を検索する工程を包含する、方法。
(項目3)
項目2に記載の方法であって、マッピングが、最近更新されたヒトゲノムに対して前記検索された遺伝子をマッピングする工程を包含する、方法。
(項目4)
項目3に記載の方法であって、前記検索された遺伝子が、公共で利用可能なUCSCゲノムブラウザーデータベースおよび自己開発スクリプトのうちの少なくとも1つによって提供されるツールを使用して、前記最近更新されたヒトゲノムに対してマッピングされる、方法。
(項目5)
項目3に記載の方法であって、前記転写開始部位(TSS)がマッピングされる、方法。
(項目6)
項目5に記載の方法であって、前記TSSが、前記遺伝子についての全ての入手可能なTSSを比較した後に、各遺伝子の最も5’側のTSSを選択することによってマッピングされる、方法。
(項目7)
項目1に記載の方法であって、前記最も5’側のTSSを有する各検索された遺伝子についての調節領域のゲノム配列が、最も更新されたヒトゲノムから検索される、方法。
(項目8)
項目7に記載の方法であって、前記5’調節領域が、TSSの上流およびTSSの下流に位置する配列である、方法。
(項目9)
項目1に記載の方法であって、遺伝子調節領域の検索された配列が、コアプロモーター領域である、方法。
(項目10)
項目9に記載の方法であって、前記コアプロモーター領域が、TSSの上流の200〜300塩基およびTSSの下流の約50〜100塩基の配列を含む、方法。
(項目11)
項目5に記載の方法であって、遺伝子のゲノム配列が、上流のエンハンサー領域である、方法。
(項目12)
項目3に記載の方法であって、遺伝子調節領域のゲノム配列が、下流の調節領域である、方法。
(項目13)
項目7に記載の方法であって、さらに以下:
TSSに対して対応する配列を切断および保存する工程、
をさらに包含する、方法。
(項目14)
項目13に記載の方法であって、前記TSSに対する対応する配列が、UCSCゲノムブラウザーデータベースまたはNCBIゲノムデータベースのうちの少なくとも1つからの自己開発されたスクリプトを使用して切断および保存される、方法。
(項目15)
項目1に記載の方法であって、前記DNA配列情報が、モチーフ検索のために、MATCHプログラムまたは類似のPosition Weighted Matrix Programsを使用してスクリーニングされる、方法。
(項目16)
項目1に記載の方法であって、DNA配列情報スクリーニングが、TFマトリクス、マトリクス類似性のスコアおよびコア類似性のスコアを選択する工程を包含する、方法。
(項目17)
項目1に記載の方法であって、スクリーニングの間の擬陽性マッチングおよび偽陰性マッチングを減少させるためにカットオフが適用される、方法。
(項目18)
項目1に記載の方法であって、さらに、以下:
各結合部位のゲノム頻度または組織特異的頻度のうちの1つを決定する工程、
を包含する、方法。
(項目19)
項目1に記載の方法であって、前記頻度が、前記全ての遺伝子の調節領域における特定のTF結合部位の存在である、方法。
(項目20)
項目1に記載の方法であって、前記頻度が、組織特異的遺伝子の調節領域における特定のTF結合部位の存在である、方法。
(項目21)
項目16に記載の方法であって、さらに、以下:
各結合部位について保存スコアを作製する工程、
を包含する、方法。
(項目22)
項目17に記載の方法であって、前記保存スコアが、TF結合部位が同定される領域を網羅するように選択される、方法。
(項目23)
項目17に記載の方法であって、さらに、以下:
各結合部位の位置を決定する工程、
を包含する、方法。
(項目24)
項目23に記載の方法であって、前記位置が、ヒトゲノムの設計図に基づく、方法。
(項目25)
項目24に記載の方法であって、前記位置が、ヒトゲノムの設計図における保存位置である、方法。
(項目26)
項目23に記載の方法であって、ゲノムの開始位置および終了位置が決定される、方法。
(項目27)
項目23に記載の方法であって、さらに、以下:
TSSに対する各結合部位の距離を決定する工程、
を包含する、方法。
(項目28)
項目27に記載の方法であって、前記距離が、結合位置とTSSとの間に塩基の数に比例する、方法。
(項目29)
項目27に記載の方法であって、さらに、以下:
各結合部位の長さを決定する工程、
を包含する、方法。
(項目30)
項目29に記載の方法であって、さらに、以下:
前記結合部位に隣接する領域の周りの配列情報を決定する工程、
を包含する、方法。
(項目31)
項目30に記載の方法であって、さらに、以下:
他の結合部位の同時存在情報を決定する工程、
を包含する、方法。
(項目32)
項目31に記載の方法であって、さらに、以下:
結合部位およびそれらの位置のクラスターを決定する工程、
を包含する、方法。
(項目33)
項目1に記載の方法であって、さらに、以下:
データベーにおける結合プロフィールを収集する工程、
を包含する、方法。
(項目34)
項目33に記載の方法であって、前記データベースが、各遺伝子の調節領域についてのTF結合プロフィールを含む、方法。
(項目35)
項目33に記載の方法であって、前記データベースが、遺伝子識別子によって検索可能である、方法。
(項目36)
項目35に記載の方法であって、前記遺伝子識別子が、NCBIデータベースから選択される、方法。
(項目37)
項目36に記載の方法であって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、方法。
(項目38)
項目35に記載の方法であって、前記データベースが、TFについてのゲノム頻度情報を含む、方法。
(項目39)
項目38に記載のデータベースであって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、データベース。
(項目40)
項目39に記載の方法であって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、方法。
(項目41)
項目33に記載の方法であって、さらに、以下:
生物医学的な研究のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目42)
項目33に記載の方法であって、さらに、以下:
臨床前開発のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目43)
項目33に記載の方法であって、さらに、以下:
薬物スクリーニング適用のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目44)
項目33に記載の方法であって、さらに、以下:
標的発見および標的確認のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目45)
項目33に記載の方法であって、さらに、以下:
調節領域のプロファイリングのために、データベースからの情報を検索する工程、
を包含する、方法。
(項目46)
項目33に記載の方法であって、さらに、以下:
異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するために、データベースからの情報を検索する工程、
を包含する、方法。
(項目47)
項目33に記載の方法であって、さらに、以下:
種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するために、データベースから情報を検索する工程、
を包含する、方法。
(項目48)
同定された結合部位をプロファイリングするための方法であって、以下:
公知の遺伝子にプロファイリングされ同定された結合部位を含むデータベースを提供する工程;および
該プロファイリングされた結合部位に確率マッピングを適用する工程、
を包含する、方法。
(項目49)
項目48に記載の方法の方法であって、前記データベースが、各遺伝子の調節領域についてのTF結合プロフィールを含む、方法。
(項目50)
項目48に記載の方法であって、前記データベースが、遺伝子識別子によって検索され得る、方法。
(項目51)
項目50に記載の方法であって、前記遺伝子識別子が、NCBIデータベースから選択される、方法。
(項目52)
項目51に記載の方法であって、前記NCBIデータベースが、Unigene Cl
uster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、方法。
(項目53)
項目51に記載の方法であって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、方法。
(項目54)
項目53に記載の方法であって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、方法。
(項目55)
項目54に記載の方法であって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、方法。
(項目56)
項目48に記載の方法であって、さらに、以下:
生物医学的な研究のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目57)
項目48に記載の方法であって、さらに、以下:
臨床前開発のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目58)
項目48に記載の方法であって、さらに、以下:
薬物スクリーニング適用のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目59)
項目48に記載の方法であって、さらに、以下:
標的発見および標的確認のために、データベースからの情報を検索する工程、
を包含する、方法。
(項目60)
項目48に記載の方法であって、さらに、以下:
調節領域のプロファイリングのために、データベースからの情報を検索する工程、
を包含する、方法。
(項目61)
項目48に記載の方法であって、さらに、以下:
異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するために、データベースからの情報を検索する工程、
を包含する、方法。
(項目62)
項目48に記載の方法であって、さらに、以下:
種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するために、データベースから情報を検索する工程、
を包含する、方法。
(項目63)
コンピュータ読み取り可能な媒体に実体として保存されたデータ構造であって、以下:
プロファイリングされ同定された結合部位を含むデータベースであって、該プロファイリングされ同定された結合部位が、遺伝子調節領域についてのDNA配列情報をスクリーニングすることによって作製され、ここで、該データベースが、遺伝子識別子によって検索可能である、データベース、
を含む、データ構造。
(項目64)
項目63に記載のデータ構造であって、前記遺伝子識別子が、NCBI GeneBank識別子から選択される、データ構造。
(項目65)
項目64に記載の方法であって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLinks IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、方法。
(項目66)
項目63に記載のデータ構造であって、前記データベースが、各遺伝子の調節領域についてのTF結合プロフィールを含む、データ構造。
(項目67)
項目63に記載のデータ構造であって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、データ構造。
(項目68)
項目63に記載のデータベースであって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、データベース。
(項目69)
項目68に記載のデータ構造であって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、データ構造。
(項目70)
項目63に記載のデータ構造であって、前記データベースが、生物医学的な研究のための情報を含む、データ構造。
(項目71)
項目63に記載のデータ構造であって、前記データベースが、臨床前開発のための情報を含む、データ構造。
(項目72)
項目63に記載のデータ構造であって、前記データベースが、薬物スクリーニング適用のための情報を含む、データ構造。
(項目73)
項目63に記載のデータ構造であって、前記データベースが、標的発見および標的確証
のための情報を含む、データ構造。
(項目74)
項目63に記載のデータ構造であって、前記データベースが、調節領域のプロファイリングのための情報を含む、データ構造。
(項目75)
項目63に記載のデータ構造であって、前記データベースが、異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するための情報を含む、データ構造。
(項目76)
項目63に記載のデータ構造であって、前記データベースが、種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、データ構造。
(項目77)
調節因子結合部位をプロファイリングするためのコンピュータ実行システムであって、以下:
プロファイリングされ同定された結合部位を含むデータベースであって、該プロファイリングされ同定された結合部位が、遺伝子調節領域についてのDNA配列情報をスクリーニングすることによって作製され、ここで、該データベースが、遺伝子識別子によって検索可能である、データベース;
1つ以上の選択可能なユーザ入力を含む、ユーザインタフェース;
ユーザによって操作可能な入力デバイス;および
該プロファイリングされ同定された結合部位に応答して、少なくとも1つの出力を表示するためのディスプレイ、
を備える、コンピュータ実行システム。
(項目78)
項目77に記載のシステムであって、前記遺伝子識別子が、NCBI GeneBank識別子から選択される、システム。
(項目79)
項目78に記載のシステムであって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、システム。
(項目80)
項目77に記載のシステムであって、前記データベースが、各遺伝子の調節領域のためのTF結合プロフィールを含む、システム。
(項目81)
項目77に記載のシステムであって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、システム。
(項目82)
項目77に記載のシステムであって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、システム。
(項目83)
項目68に記載のシステムであって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、システム。
(項目84)
項目77に記載のシステムであって、前記データベースが、生物医学的な研究のための情報を含む、システム。
(項目85)
項目77に記載のシステムであって、前記データベースが、臨床前開発のための情報を含む、システム。
(項目86)
項目77に記載のシステムであって、前記データベースが、薬物スクリーニング適用のための情報を含む、システム。
(項目87)
項目77に記載のシステムであって、前記データベースが、標的発見および標的確証のための情報を含む、システム。
(項目88)
項目77に記載のシステムであって、前記データベースが、調節領域のプロファイリングのための情報を含む、システム。
(項目89)
項目77に記載のシステムであって、前記データベースが、異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するための情報を含む、システム。
(項目90)
項目77に記載のシステムであって、前記データベースが、種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、システム。
(項目91)
項目77に記載のシステムであって、前記少なくとも1つの出力が、遺伝子名、識別子、同定されたTF結合部位、TF名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報、および結合部位配列のうちの少なくとも1つを含む、システム。
(項目92)
項目77に記載のシステムであって、さらに、以下:
メモリ;およびマイクロプロセッサ、
を備える、システム。
従って、本発明の目的は、調節因子結合部位をゲノムプロファイリングするための方法、ならびに本発明に関連するデータ構造およびシステムを提供することである。
本発明の別の目的において、プロファイリングされた結合部位に関して全ゲノム的な(
genome−wide)確率マッピングを使用する、調節因子結合部位をプロファイリングするための方法、ならびにこの方法に関連するデータ構造およびシステムが、提供される。
本発明のなお別の目的は、生物医学的研究のための改善された方法、ならびにこの方法に関連するデータ構造およびシステムを提供することである。
本発明のさらなる目的は、臨床前開発のための改善された方法、ならびにこの方法に関連するデータ構造およびシステムを提供することである。
本発明のなお別の目的は、薬物スクリーニング適用のための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。
本発明の別の目的は、標的の発見および標的の検証のための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。
本発明のさらに別の目的は、調節領域のプロファイリングのための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。
本発明のさらなる目的は、異なる遺伝子の制御プロファイリング間の全ゲノム的または全組織的な関連に構築するための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。
本発明のなおさらなる目的は、多様な既知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドまたは細胞バックグラウンドを理解するための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。
本発明のこれらの目的および他の目的は、制御因子結合部位のプロファイリングのための方法において達成される。完全な遺伝子を、遺伝子調節領域をマッピングするためにゲノム上に位置付ける。遺伝子調節領域のゲノム配列を規定し、検索する。検索した遺伝子調節領域の各々のDNA配列情報を、推定制御因子結合部位を同定するためにスクリーニングする。この推定制御因子結合部位を、プロファイリングする。
本発明の別の実施形態において、同定される結合部位のプロファイリングのための方法は、全ての既知の遺伝子について、プロファイリングされた同定された結合部位を含むデータベースを提供する。確率統計分析が、プロファイリングされた結合部分に適用される。
本発明の別の実施形態において、コンピュータで読み取り可能な媒体に有形的に保存されるデータ構造が提供される。このデータ構造は、プロファイリングされる同定された結合部位を有するデータベースを含む。このプロファイリングされる同定された結合部位は、遺伝子調節領域のDNA配列情報をスクリーニングすることによって作製される。このデータベースは、遺伝子識別子によって検索可能である。
本発明の別の実施形態において、プロファイリングされた制御因子結合部位を表示するためのシステムを実行するコンピュータは、プロファイリングされた同定された結合部位を含むデータベースを備える。このプロファイリングされた同定された結合部分は、遺伝子調節領域のDNA配列情報をスクリーニングすることによって作製される。このデータベースは、遺伝子識別子によって検索可能である。ユーザーインターフェースは、1つ以
上の選択可能なユーザーの入力を含んで提供される。入力デバイスは、ユーザーによって操作可能である。ディスプレイが備えられ、これは、プロファイリングされる同定された結合部位に応じて、少なくとも1つの出力を表示する。
(発明の詳細な開示)
(好ましい実施形態の説明)
多様な実施形態において、本発明は、制御因子結合部位を全ゲノム的なプロファイリングする方法、コンピュータで読み取り可能な媒体に有形的に保存されるデータ構造、および関連したシステムを提供する。制御因子結合部位の例としては、転写因子NF−kappa Bに対する結合部位としての配列AGGGGACTTTCCCA(配列番号1);転写因子E2F−1に対する結合部位としての配列TTTGGCGG(配列番号2)などが挙げられるが、これらに限定されない。
図1および図2のフローチャートを参照すると、本発明の1つの実施形態において、遺伝子調節領域のゲノム配列が検索され、そしてヒトゲノムにマッピングされる。このマッピングした遺伝子に基づいて、各遺伝子に対する最もTSSの5’側の開始位置が同定され、そしてその遺伝子に対応する調節領域が同定される。検索した各遺伝子調節領域に対するDNA配列情報をスクリーニングし、推定上の制御因子結合部位を同定する。次いで、推定上の制御因子結合部位をプロファイリングする。
データベースから検索した情報は、種々の異なる目的および適用(生物医学的研究、前臨床開発、薬物スクリーニング用途、標的の発見および標的の検証、調節領域のプロファイリング、異なる遺伝子の制御プロファイリング間に全ゲノム的または全組織的な関連を構築すること、多様な既知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解することなどが挙げられるが、これらに限定されない)のために利用され得る。
図3を参照すると、確率マッピングは、同定された結合部位に適用される。確率マッピングは、全ての遺伝子の調節領域あるいは特定の組織または細胞において発現する遺伝子における、特異的転写制御因子結合部位(例えば、全ての推定上のE2F−1部位)の存在の同定を示す。確率マッピングは、どれほど多くの遺伝子が、特異的制御因子によって転写制御され得るかを表す。また、どれほどの広さの生物学系範囲、全ゲノム範囲、細胞範囲、または全組織範囲で、特異的制御因子が影響をもたらすかを示す。この情報は、治療方法の開発をベースとする生物医学の研究に対して非常に有用である。
本発明の別の実施形態において、全長遺伝子が、遺伝子調節領域のマッピングの目的のためにマッピングされる。本明細書の目的のために、全長は、遺伝子の長さに及ぶことが理解される。このことは、同じ遺伝子の異なるバージョンの転写開始部位のゲノム位置のわずかな移動を引き起こし得る。1つの実施形態において、全ての利用可能な全長遺伝子が、最も5’側のTSSを得るための比較において用いられる。最も5’側のTSSに基づいて、遺伝子の調節領域を規定し、そして遺伝子調節領域のゲノム配列を検索する。DNA配列情報を、検索した遺伝子調節領域の各々についてスクリーニングし、推定上の制御因子結合部位を同定する。推定上の制御因子結合部位を、ヒトゲノムにマッピングする。
全長遺伝子を検索し、検索した遺伝子についての配列情報を提供する。検索した遺伝子は、公開の利用可能なUCSCゲノムブラウザデータベース、自己開発したスクリプトなどにより提供されるツールを用いて、最近更新されたヒトゲノムにマッピングされ得る。1つの実施形態において、転写開始部位がマッピングされる。1つの実施形態において、遺伝子について利用可能な全てのTSSを比較した後、各遺伝子の最も5’側のTSSを
得ることによってTSSがマッピングされる(図2に示す)。
最も5’側のTSSを有する検索した各遺伝子について、調節領域のゲノム配列を、最新のヒトゲノムから検索し得る。5’調節領域は、TSSの上流配列およびTSSの下流配列である。種々の実施形態において、遺伝子調節領域としては、コアプロモーター領域、上流エンハンサー領域、下流調節領域など(図4に示す)が挙げられるが、これらに限定されない。コアプロモーター領域は、TSSの200〜300塩基上流および約50〜100塩基下流を含み得る。
TSSに関連する対応配列は、切断および保存され得る。TSSに関連する対応配列は、特定のリリース、より古いリリース、最新のリリースそして将来のリリースに基づいてゲノム配列からの自己開発したスクリプト(USCSゲノムブラウザ、NCBIゲノムデータベース、Ensemblデータベース、他のゲノム配列データベースなどが挙げられるが、これらに限定されない)を用いて切断および保存され得る。
1つの実施形態において、DNA配列情報は、TRANSFACデータベースから認可を受けたMATCHプログラムを用いてスクリーニングされ得る。このDNA配列情報スクリーニングは、TFマトリックス、マトリックス類似性のスコア、コア類似性のスコアなどの選択を含み得る。
カットオフを適用し、スクリーニングの間の偽陽性のマッチングおよび偽陰性のマッチングを減少させる。各結合部位のゲノム頻度またはな各結合部位の組織特異的頻度を決定し得る。この頻度は、以下のうちの少なくとも1つの調節領域における特定のTF結合部位の存在であり得る:(i)全ての遺伝子ゲノム範囲、(ii)全ての遺伝子細胞範囲、(iii)全ての遺伝子特定の組織範囲、(iv)特定の規定範囲の全ての遺伝子。この頻度は、組織特異的な遺伝子の調節領域における特定のTF結合部位の存在であり得る。さらに、この頻度はまた、保存スコアまたは発現レベルのスコアで考察され得る。対応する目的で、そして限定せずに、同定された結合部位は、それらの保存スコアまたは遺伝子発現レベルの基いて別々に考慮され得る。例えば、高い保存スコアを有する結合部位または高い発現レベルを有する対応遺伝子は、低いスコアを有する結合部位または遺伝子より重要な役割を担い得る。
各結合部位に対する保存スコアが、作製され得る。この保存スコアは、TF結合部位が同定される領域ならびに2つの種(マウスおよびヒトが挙げられるが、これらに限定されない)の間の保存レベルを示す他の任意の測定を含むように選択される。各結合部位の位置が、決定され得る。この位置は、ヒトゲノム設計図に基き得る。この位置は、ヒトゲノム設計図における位置を変化させる。より多くの配列断片が加えられる場合、各染色体についての全長が増幅される。このことは、染色体上の各塩基について、読み取り位置を移動させる。しかし、この位置は、容易に変化され得、遺伝子の位置についての調節領域の対する相対的な位置は変えられないままである。ゲノムの開始位置および終結位置が、決定され得る。TSSまでの各結合領域の距離が決定され得る。この距離は、結合部位とTSSとの間の塩基数に比例する。例示の目的により、そして限定せずに、1つの実施形態において、この距離は、規定された結合部位の間の最後の塩基からTSSの23塩基までの距離である。この例において、これらの2つの特定の塩基の間には、23塩基が存在する。
本発明の1つの実施形態において、最も5’側のTSSの位置に基いて、自己開発したコンピュータスクリプトおよびプログラムを用いて、全ての利用可能な遺伝子について最新のヒトゲノム設計図から5’制御配列を検索される。これらの検索された配列としては、各遺伝子についてのTSSの5’側250塩基上流および3’側50塩基下流が挙げら
れるが、これらに限定されない。
全ての調節領域は、認可を受けたTRANSFACデータベース(TRANSFAC professional 6.3 version,Wingenderら,Nucleic Acids Res.29,281)によって作製されるウェルで特性付けられた(well−characterized)転写因子結合コンセンサス配列パターン(または、位置荷重マトリックス(position weighted matrix))を用いて分析され得る。結合マトリックスとの一致する高いスコアを有する部位が、選択される。これらの部位は、ゲノムにおけるそれらの位置(特定のゲノム構築バージョンと関連する)およびそれらの長さおよびそれらの側方の部位との相乗作用情報を含む。
上記の結果から得られる全ての結合部位は、それらの保存スコアとマウスとの比較によってさらに分析される。マウスゲノムおよび関連する保存情報は、公共の利用可能なNCBIおよびUCSCゲノムデータベースから検索され、ヒト転写因子結合部位の保存の比較は、自社作製のスクリプトおよびプログラムを用いてなされる。
上記から得られた転写因子結合部位配列情報は、それらのゲノムの位置(開始、終結)、長さ、各遺伝子のTSSまでの距離、および側方の領域(5’側10塩基および3’側10塩基の両方が挙げられるが、これらに限定されない)がデータベースに蓄積される。これらの関連した参照(例えば、遺伝名、機能、注釈など)もまた、加えられる。
全ての可能性のある転写デコイが、データベースに基づいて計算的に作製され得る。このデコイは、ハイスループット方法(例えば、結合効率最適化についてのオリゴアレイ、キャピラリー電気泳動など)を用いることによって、さらに実験的にスクリーニングされ得る。全ての最適化されたデコイ情報が、データベースに蓄積される。データベース中におけるその部分的な情報が、データベースのさらなるバージョンにおいて用いられ得る。
遺伝子の調節領域のプロファイリングとしては、以下が挙げられるが、これらに限定されない:(i)各制御因子結合部位の確率マッピング、(ii)各々の既知の制御因子に対する標的遺伝子の同定、(iii)種々の異なる発現遺伝子から同定された遺伝子の制御因子結合プロファイリングの統計的分析など。
1つの実施形態において、各結合部位の長さが決定される。結合部位に隣接する領域についての配列情報もまた、決定される。再度、例図によって、そして限定なく、1つの例は、大文字において、コア結合部位の側方に小文字を伴うagcgtcagaAGGGGACTTTCCCaagagaggccgaga(配列番号3)である。
他の結合部位の共存情報もまた、確認され得る。転写機構は、通常、いくつかの異なる転写関連タンパク質による複合体の形成を必要とし、そしていくつかの異なるDNA結合因子を含む。本発明の場合、結合部位は、遺伝子の調節領域についてプロファイリングされ、しばしば1を越える結合部位が、単一の領域から同定される。結合部位の数は、例示の方法で、単一の領域につき、15個〜20個であり得る。結合部位のクラスターおよびそれらの位置が、決定され得る。
ここで、図5および図6を参照すると、本発明の別の実施形態は、プロファイリングされた同定された結合部位情報を有するデータベースを含む、コンピュータでの読取り可能な媒体に有形的に保存されるデータ構造である。このデータベースは、識別子を有するコアテーブル、結合部位などを含む。結合部位情報としては、配列、長さ、位置、方向、頻度などが挙げられるが、これらに限定されない。1つの支持表は、全ての遺伝子のTSSの位置を含む。配列表は、遺伝子の調節領域の配列を提供する。さらなる支持表としては、TFの頻度、各TFに対するTFの標的遺伝子などが挙げられるが、これらに限定されない。
全ての表は、1つ以上の識別子によって連結される。1つの実施形態において、1つのパールCGIスクリプトの代わりにいくつかのスクリプトを、データベースに達し、検索し、次いで対応する情報を提示するために使用する。ウェブブラウザインターフェイスが提供される。
データベースは、多様な種々の手段(遺伝子識別子、遺伝子記号、または自己で開発した識別子(self−developed identifier)などを含む)により検索可能である。遺伝子識別子は、NCBIデータベース(Unigene Cluster ID、LoucsLink IDおよび国際的に承認された遺伝子記号などであり得る)から選択され得るから選択され得る。
1つの実施形態において、このデータベースは、TFについてのゲノム頻度情報を含み、そして少なくとも1つのTF名またはTF頻度によって選別され得る。TF頻度は、ゲノム頻度および組織特異的頻度を含み得る。1つの特定の実施形態において、このデータベースは、全ての既知の遺伝子(合計約15,450)についての調節因子結合部位のプロファイルを含む。
限定でなく説明の目的で、1つの遺伝子(記号:DLD、ジヒドロリポアミドデヒドロゲナーゼ)が、データベースをどのように構築するかを簡単に示すために使用される。
(1.配列情報を提供するための例示遺伝子DLDに関する完全長遺伝子の検索)
図2に示すように、完全長mRNA配列の3つの異なるバージョンを、NCBIデータベース(refseq)、MGCデータベース(MGC)、Japan DBTSSデータベース(DBTSS)などから検索し得る。refseqデータベースから検索した遺伝子DLDの完全配列(配列番号59)を、図7に列挙し、MGCから検索した遺伝子DLD完全配列(配列番号60)を、図8に列挙し、そしてDBTSSから検索した遺伝子DLD完全配列(配列番号61)を、図9に列挙した。
(2.検索した遺伝子を、最近更新したヒトゲノムにマッピングする)
自己で開発したスクリプト(self−developed script)を、UCSCゲノムブラウザデータベースに、上記の検索した配列をフェッチするように使用し、それらのゲノム位置をマッピングする。遺伝子DLDの検索した異なるバージョンを、公共利用し得るUCSCゲノムブラウザデータベースの少なくとも1つによって提供される手段を用いて、最近更新されたヒトゲノムにマッピングする。
(3.TSSの位置をマッピングする)
マッピングした位置を、自己で開発したスクリプトを使用して、上で参照したUCSCゲノムブラウザデータベースから検索する。マッピングの概要を表1に列挙する。例えば、NBCI refseqからの完全長遺伝子DLD配列を、第7染色体のセンス鎖またはポジティブ鎖でのヒトゲノムワーキングドラフト(UCSCゲノムブラウザによって2002年、6月に発行された)にマッピングした(染色体位置106015510で開始し、染色体位置106044308で終了)。
Figure 2006031728
(4.遺伝子について全利用可能なTSSを比較した後に、各遺伝子の最も5’側のTSS(5−prime TSS)を作製することによって、TSSをマッピングする)
図2を再び参照して、このマッピングは、自己で作製したスクリプトを使用して促進される。遺伝子DLDについて、この遺伝子は、第7染色体の「+」鎖上に位置する。開始位置106015488は、遺伝子DLDのTSSについて最も5’位置にある。
(5.最も5’側のTSSを有する検索された各遺伝子についての調節領域のゲノム配列を、最近更新されたヒトゲノムから検索する)
5’側の調節領域は、TSSの上流およびTSSの下流の配列である。より詳細には、遺伝子DLDについて、調節領域またはコアプロモーター領域は、TSSの200〜300塩基上流を含む配列およびTSSの約50〜100塩基下流を含む配列である。従って、遺伝子DLDのTSSに対応する配列を、自己で開発したスクリプトを使用して、UCSCゲノムブラウザまたはNCBIゲノムデータベースの少なくとも1つから切断し、そして保存する。遺伝子DLDについて保存した配列(配列番号62)を、図10に列挙する。
(6.遺伝子DLDの調節領域について保存された配列を、マッチプログラムを使用してスクリーニングする)
MATCHプログラムは、ライセンス化されたTRANSFACデータベース内に組み込まれた配列分析ツールである。この分析を、スクリーニング中の偽陽性マッチングおよび偽陰性マッチングを減少させるために、マトリクス類似性スコアおよびコア類似性スコアの両方について適切な設定を行う。遺伝子DLDの調節領域についてのスクリーニング結果を表2に示す。表2は、同定された結合部位の位置を列挙する。

Figure 2006031728
Figure 2006031728
(7.各結合部位のゲノム頻度または組織特異的頻度を決定する)
頻度は、全ての遺伝子または組織特異的遺伝子の、調節領域において特異的なTF結合部位の存在である。全ての遺伝子の調節領域の分析後、この頻度またはTF結合部位の存在確立は、容易に確立される。表3において、これらの頻度情報のいくつかを遺伝子DLDについて列挙する。
Figure 2006031728
(8.各結合部位についての保存スコアを作成する)
ヒトとマウスとで比較した全ゲノムの保存スコアを、UCSCゲノムブラウザデータベースから検索する。この保存スコアを、TF結合部位が同定される領域をカバーするように選択する。遺伝子DLDの調節領域において同定したTF結合部位についての保存スコアを、表4に列挙する。

Figure 2006031728
Figure 2006031728
Figure 2006031728
(9.結合部位およびその位置のクラスター化を決定がなされる)
隣接または重なる結合部位を、自己で作成したスクリプトを用いてクラスター化し、そして遺伝子DLDについて対応する位置およびTFを、表5に列挙する。
Figure 2006031728
(10.結合プロファイルをデータベースに集める)
上に列挙した全ての結合プロファイルを、データベースに集める。遺伝子DLDについての登録の例示的な列挙を表6に示す。

Figure 2006031728
Figure 2006031728
(11.データベースは遺伝子識別子によって検索可能である)
図11は、データベースで使用され得る照会形式の一画面を示す。図12は、データベース照会結果の一画面を示す。
図13に示されるように、本発明の別の実施形態は、プロファイリングされた(profiled)調節因子結合部位を提示するためのコンピュータ実施システムである。プロファイリングされた同定された結合部位に応じて、このシステムは、データベース、1つ以上の選択可能なユーザー入力を備えるユーザーインターフェース、ユーザーによって操作可能な入力デバイス、および少なくとも1つの出力を提示するためのディスプレイを備える。
出力の例としては、以下が挙げられるか、これらに限定されない:遺伝子名、識別子、同定されたTF結合部位、TF名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報および結合部位配列。入力の例としては、遺伝子記号、unigene cluster ID、またはlocuslink IDなどのような遺伝子識別子が挙げられる。
このシステムはまた、メモリ、マイクロプロセッサ、データファイル、スクリプト、利用可能な支援ソフトウェア(MS windows(登録商標)、red hat linux、Apache HTTPサーバ、Perl compilerプログラムなどが挙げられるが、これらに限定されない)を備える。
本発明の好ましい実施形態の上の記載は、例証および説明の目的で示される。開示される正確な形態に、本発明が網羅されるか、または本発明を限定することは意図されない。明らかに、多くの改変およびバリエーションは、当業者に理解される。本発明の範囲は、添付の特許請求の範囲およびその等価物によって規定されることが意図される。
調節因子結合部位をプロファイリングするための方法が提供される。完全な遺伝子は、遺伝子調節領域をマッピングするためにゲノム上に位置される。遺伝子の最も上流の転写開始部位(TSS)のゲノム位置が同定される。遺伝子調節領域のゲノム配列は、同定したTSSに基づいて規定され、そして検索される。検索された各遺伝子調節領域のDNA配列情報は、推定調節因子結合部位を同定するためにスクリーニングされる。推定調節因子結合部位およびそのゲノムの存在がプロファイリングされる。
図1は、調節因子結合部位をプロファイリングするための本発明の1つの実施形態を示すフローチャートである。 図2は、遺伝子(例示的遺伝子X)の転写調節領域を規定する方法を説明するフローチャートである。 図3は、TF結合部位の頻度の算出を説明するフローチャートである。 図4は、コアプロモーター領域が、TSSの200〜300塩基上流および約50〜100塩基を含み得ることを示す。 図5は、本発明のデータベースの構造の1つの実施形態の記載である。 図6は、図5のデータベースを説明するフローチャートである。 図7は、refseqデータベースから検索した遺伝子DLDの完全な配列(配列番号59)を列挙する。 図8は、MGCデータベースから検索した遺伝子DLDの完全な配列(配列番号60)を列挙する。 図9は、DBTSSデータベースから検索した遺伝子DLDの完全な配列(配列番号61)を列挙する。 図10は、遺伝子DLDについての保存した配列(配列番号62)を列挙する。 図11は、図7のデータベースで用いられ得る照会形式の一画面を示す。 図12は、図5のデータベースから得られたデータベース照会の1つ実施形態の一画面である。 図13は、本発明のシステムの1つの実施形態を図示する。

Claims (18)

  1. 調節因子結合部位を特徴付けるためのコンピュータ実行システムであって、以下:
    ここで、該コンピュータ実行システムは、1以上のマイクロプロセッサ、インターフェース、記憶媒体を備え、
    該記憶媒体は、データファイル、スクリプト、および利用可能な支援ソフトウェアを備え;
    該スクリプトは、以下の工程:
    該スクリプトのうちの1つによって1以上の該データファイルから1種の生物種の1以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位(TSS)情報および該生物種のゲノム配列を含む遺伝子情報を含む、工程;
    該生物のゲノム配列を検索する工程;
    該ゲノム配列上に、該全長遺伝子について、そのTSSの位置をマッピングする工程;
    該マッピングされたTSSの位置の全てを比較して、該全長遺伝子の各々について最も5’側の位置を同定する工程;および
    該全長遺伝子の各々について最も5’側の位置を有するTSSに基づいて該調節因子結合部位を規定する工程;
    を実施するための命令を含む、コンピュータ実行システム。
  2. 請求項1に記載のコンピュータ実行システムであって、ここで、前記スクリプトが、データベース中の結合部位情報を回収する工程を実行するためのさらなる命令を含み、ここで、該データベースは、遺伝子識別子によって検索され得る、コンピュータ実行システム。
  3. 請求項1に記載のシステムであって、前記遺伝子識別子が、NCBI GeneBank識別子から選択される、システム。
  4. 請求項3に記載のシステムであって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、システム。
  5. 請求項1に記載のシステムであって、前記データベースが、各遺伝子の調節領域のためのTF結合情報を含む、システム。
  6. 請求項1に記載のシステムであって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、システム。
  7. 請求項1に記載のシステムであって、前記マイクロプロセッサ上で実行されるスクリプトによって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、システム。
  8. 請求項1に記載のシステムであって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、システム。
  9. 請求項1に記載のシステムであって、前記データベースが、生物医学的な研究のための情報を含む、システム。
  10. 請求項に記載のシステムであって、前記データベースが、臨床前開発のための情報を含む、システム。
  11. 請求項1に記載のシステムであって、前記データベースが、薬物スクリーニング適用のための情報を含む、システム。
  12. 請求項1に記載のシステムであって、前記データベースが、標的発見および標的確証のための情報を含む、システム。
  13. 請求項1に記載のシステムであって、前記データベースが、調節領域の特徴付けのための情報を含む、システム。
  14. 請求項1に記載のシステムであって、前記データベースが、異なる遺伝子の調節性特徴の間の全ゲノム的または全組織的な関連を構築するための情報を含む、システム。
  15. 請求項1に記載のシステムであって、前記データベースが、種々の公知の転写特徴づけのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写特徴づけのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、システム。
  16. 請求項1に記載のシステムであって、少なくとも1つの出力が、遺伝子名、識別子、同定されたTF結合部位、TF名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報、および結合部位配列のうちの少なくとも1つを含む、システム。
  17. コンピュータ記憶媒体であって、以下の工程:
    該記憶媒体上または該コンピュータに接続される媒体上の1以上のデータファイルから1種の生物種の1以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位(TSS)情報および該生物のゲノム配列を含む遺伝子配列情報を含む、工程;
    該生物のゲノム配列を検索する工程;
    該ゲノム配列上に、該全長遺伝子について、そのTSSの位置をマッピングする工程;
    マッピングされたTSSの位置の全てを比較して、該全長遺伝子の各々について最も5’側の位置を同定する工程;および
    該全長遺伝子の各々について最も5’側の位置を有するTSSに基づいて該調節因子結合部位を規定する工程;
    をコンピュータ上で実行するための命令を含むスクリプトをその上に備える、コンピュータ記憶媒体。
  18. 請求項17に記載のコンピュータ記憶媒体であって、ここで、前記スクリプトが、データベース中の結合部位情報を回収する工程を実施するためのさらなる命令を含み、該データベースが、遺伝子識別子によって検索され得る、コンピュータ記憶媒体。
JP2005237018A 2003-03-28 2005-08-17 調節因子結合部位のゲノムプロファイリング Pending JP2006031728A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/402,689 US20040191781A1 (en) 2003-03-28 2003-03-28 Genomic profiling of regulatory factor binding sites

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004027409A Division JP2004303201A (ja) 2003-03-28 2004-02-03 調節因子結合部位のゲノムプロファイリング

Publications (1)

Publication Number Publication Date
JP2006031728A true JP2006031728A (ja) 2006-02-02

Family

ID=32989771

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2004027409A Pending JP2004303201A (ja) 2003-03-28 2004-02-03 調節因子結合部位のゲノムプロファイリング
JP2005237018A Pending JP2006031728A (ja) 2003-03-28 2005-08-17 調節因子結合部位のゲノムプロファイリング
JP2008147319A Pending JP2008293505A (ja) 2003-03-28 2008-06-04 調節因子結合部位のゲノムプロファイリング

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2004027409A Pending JP2004303201A (ja) 2003-03-28 2004-02-03 調節因子結合部位のゲノムプロファイリング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2008147319A Pending JP2008293505A (ja) 2003-03-28 2008-06-04 調節因子結合部位のゲノムプロファイリング

Country Status (12)

Country Link
US (1) US20040191781A1 (ja)
EP (1) EP1608786B1 (ja)
JP (3) JP2004303201A (ja)
KR (1) KR20060015484A (ja)
CN (1) CN1784498A (ja)
AT (1) ATE416261T1 (ja)
AU (1) AU2004225474A1 (ja)
CA (1) CA2519674A1 (ja)
DE (1) DE602004018115D1 (ja)
MX (1) MXPA05010276A (ja)
RU (1) RU2005133192A (ja)
WO (1) WO2004087966A2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008025093A1 (en) * 2006-09-01 2008-03-06 Innovative Dairy Products Pty Ltd Whole genome based genetic evaluation and selection process
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
CN101930502B (zh) * 2010-09-03 2011-12-21 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
US9384321B2 (en) 2010-11-25 2016-07-05 Portable Genomics, Inc. Organization, visualization and utilization of genomic data on electronic devices
US20150167062A1 (en) * 2012-06-14 2015-06-18 Whitehead Institute For Biomedical Research Genome-wide Method of Assessing Interactions Between Chemical Entities And Their Target Molecules
US9989528B2 (en) * 2013-08-28 2018-06-05 Oregon Health & Science University Synthetic olgononucleotides for detection of nucleic acid binding proteins
CN103870719B (zh) * 2014-04-09 2017-06-16 苏州大学 一种人类基因启动子识别方法及系统
CN104156635B (zh) * 2014-07-08 2017-07-07 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法
US20170364633A1 (en) * 2014-12-10 2017-12-21 Koninklijke Philips N.V. Methods and systems to generate noncoding-coding gene co-expression networks
CN105912886A (zh) * 2016-03-29 2016-08-31 上海师范大学 一种预测蛋白质在rna病毒基因中的结合位点的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data

Also Published As

Publication number Publication date
US20040191781A1 (en) 2004-09-30
AU2004225474A1 (en) 2004-10-14
RU2005133192A (ru) 2006-02-27
WO2004087966A2 (en) 2004-10-14
EP1608786B1 (en) 2008-12-03
CN1784498A (zh) 2006-06-07
JP2008293505A (ja) 2008-12-04
WO2004087966A3 (en) 2004-12-09
DE602004018115D1 (de) 2009-01-15
ATE416261T1 (de) 2008-12-15
MXPA05010276A (es) 2006-03-17
CA2519674A1 (en) 2004-10-14
EP1608786A2 (en) 2005-12-28
JP2004303201A (ja) 2004-10-28
KR20060015484A (ko) 2006-02-17

Similar Documents

Publication Publication Date Title
JP2008293505A (ja) 調節因子結合部位のゲノムプロファイリング
Boeva Analysis of genomic sequence motifs for deciphering transcription factor binding and transcriptional regulation in eukaryotic cells
Pavesi et al. Weeder Web: discovery of transcription factor binding sites in a set of sequences from co-regulated genes
Boeva et al. Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression
Li et al. A hidden Markov model for analyzing ChIP-chip experiments on genome tiling arrays and its application to p53 binding sequences
Kwon et al. oPOSSUM-3: advanced analysis of regulatory motif over-representation across genes or ChIP-Seq datasets
Chekmenev et al. P-Match: transcription factor binding site search by combining patterns and weight matrices
Sosinsky et al. Target Explorer: An automated tool for the identification of new target genes for a specified set of transcription factors
Favorov et al. A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length
Tran et al. A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data
Arias-Carrasco et al. StructRNAfinder: an automated pipeline and web server for RNA families prediction
Ji et al. A comparative analysis of genome-wide chromatin immunoprecipitation data for mammalian transcription factors
Werner Computer-assisted analysis of transcription control regions: Matinspector and other programs
Kreiman Identification of sparsely distributed clusters of cis‐regulatory elements in sets of co‐expressed genes
Genovese et al. Dot2dot: accurate whole-genome tandem repeats discovery
Kapur et al. Cross-hybridization modeling on Affymetrix exon arrays
Luscombe et al. ExpressYourself: A modular platform for processing and visualizing microarray data
Scheetz et al. Generation of a high-density rat EST map
Wang et al. A steganalysis-based approach to comprehensive identification and characterization of functional regulatory elements
Donaldson et al. TFBScluster: a resource for the characterization of transcriptional regulatory networks
Zheng et al. MAASE: an alternative splicing database designed for supporting splicing microarray applications
Quackenbush Extracting meaning from functional genomics experiments
Chaley et al. HeteroGenome: database of genome periodicity
Feng et al. Sequence repetitiveness quantification and de novo repeat detection by weighted k-mer coverage
Donaldson et al. CoMoDis: composite motif discovery in mammalian genomes

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081029

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20081128

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081212

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090630