JP2006031728A - 調節因子結合部位のゲノムプロファイリング - Google Patents
調節因子結合部位のゲノムプロファイリング Download PDFInfo
- Publication number
- JP2006031728A JP2006031728A JP2005237018A JP2005237018A JP2006031728A JP 2006031728 A JP2006031728 A JP 2006031728A JP 2005237018 A JP2005237018 A JP 2005237018A JP 2005237018 A JP2005237018 A JP 2005237018A JP 2006031728 A JP2006031728 A JP 2006031728A
- Authority
- JP
- Japan
- Prior art keywords
- item
- gene
- database
- tss
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000027455 binding Effects 0.000 title claims abstract description 131
- 230000001105 regulatory effect Effects 0.000 title claims abstract description 85
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 154
- 238000013515 script Methods 0.000 claims abstract description 22
- 238000013518 transcription Methods 0.000 claims abstract description 19
- 230000035897 transcription Effects 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 230000002068 genetic effect Effects 0.000 claims abstract description 3
- 108700009124 Transcription Initiation Site Proteins 0.000 claims description 68
- 238000011160 research Methods 0.000 claims description 8
- 238000007877 drug screening Methods 0.000 claims description 7
- 238000012910 preclinical development Methods 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 5
- 241000251539 Vertebrata <Metazoa> Species 0.000 claims description 4
- 241000894007 species Species 0.000 claims description 4
- 108091008023 transcriptional regulators Proteins 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims 3
- 238000000034 method Methods 0.000 abstract description 126
- 230000008569 process Effects 0.000 abstract description 11
- 108700026220 vif Genes Proteins 0.000 abstract 1
- 108091023040 Transcription factor Proteins 0.000 description 50
- 102000040945 Transcription factor Human genes 0.000 description 50
- 210000001519 tissue Anatomy 0.000 description 23
- 108091028043 Nucleic acid sequence Proteins 0.000 description 13
- 238000011144 upstream manufacturing Methods 0.000 description 12
- 238000012216 screening Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 8
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 7
- 210000000349 chromosome Anatomy 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000002103 transcriptional effect Effects 0.000 description 4
- 238000012085 transcriptional profiling Methods 0.000 description 4
- 241000699666 Mus <mouse, genus> Species 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 102100023319 Dihydrolipoyl dehydrogenase, mitochondrial Human genes 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 108091036078 conserved sequence Proteins 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 101150112095 map gene Proteins 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 102000028526 Dihydrolipoamide Dehydrogenase Human genes 0.000 description 1
- 108010028127 Dihydrolipoamide Dehydrogenase Proteins 0.000 description 1
- 102000015699 E2F1 Transcription Factor Human genes 0.000 description 1
- 108010063774 E2F1 Transcription Factor Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108010057466 NF-kappa B Proteins 0.000 description 1
- 102000003945 NF-kappa B Human genes 0.000 description 1
- 102000009572 RNA Polymerase II Human genes 0.000 description 1
- 108010009460 RNA Polymerase II Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 102100024026 Transcription factor E2F1 Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008142 sex development Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Processing (AREA)
- Electrotherapy Devices (AREA)
- Image Generation (AREA)
Abstract
【解決手段】調節因子結合部位を特徴付けるためのコンピュータ実行システムであって、以下の工程、スクリプトのうちの1つによって1以上のデータファイルから1種の生物種の1以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位(TSS)情報および該生物種のゲノム配列を含む遺伝子情報を含む、工程、該生物のゲノム配列を検索する工程、該ゲノム配列上に、該全長遺伝子について、そのTSSの位置をマッピングする工程、該マッピングされたTSSの位置の全てを比較して、該全長遺伝子の各々について最も5’側の位置を同定する工程および該全長遺伝子の各々について最も5’側の位置を有するTSSに基づいて該調節因子結合部位を規定する工程を実施するための命令を含む、コンピュータ実行システム。
【選択図】図1
Description
本出願は、2003年3月28日に出願され、「Systematical Analysis of Regulatory Factor Binding of Differentially Expressed Genes」と題され、そしてAttorney Docket番号39753−0002として識別される米国シリアル番号10/401,830号(この出願は、本明細書中において全体が援用される)に関連する。
本発明は、一般的に、全ての公知の遺伝子の調節因子結合部位のプロフィールを提供する方法、システムおよびデータ構造に関し、より詳細には、さらなる治療ストラテジー開発のために同定された結合部位についての体系的な分析を開発するために、調節因子結合部位を同定および特徴付けるための方法、データ構造およびシステムに関する。
遺伝子発現レベルを変化させることは、ヒト障害に取り組むために重要かつ効率的なアプローチになっている。各遺伝子の発現レベルは、転写機構によって制御され、ここで、転写因子(TF)と呼ばれる特定のタンパク質が遺伝子の調節領域に結合し、次いで、転写プロセスを開始する。従って、対応するTFおよび遺伝子調節領域上のそれらの結合部位は、遺伝子の転写レベルを制御する際に必須の役割を果たし得る。従って、転写因子およびそれらの関連する転写機構は、現代の生物医学的な研究および開発努力において「ホット」スポットになっている。
(項目1)
調節因子結合部位をプロファイリングするための方法であって、該方法は、以下:
遺伝子調節領域をマッピングするために、完全な最も5’側の全長遺伝子を位置付ける工程;
遺伝子の調節領域のゲノム配列を検索する工程;
推定調節因子結合部位を同定するために、それぞれの検索された遺伝子調節領域についてのDNA配列情報をスクリーニングする工程;および
該推定調節因子結合部位をプロファイリングする工程、
を包含する、方法。
項目1に記載の方法であって、マッピングが、検索された遺伝子についての配列情報を提供するために、全長遺伝子を検索する工程を包含する、方法。
項目2に記載の方法であって、マッピングが、最近更新されたヒトゲノムに対して前記検索された遺伝子をマッピングする工程を包含する、方法。
項目3に記載の方法であって、前記検索された遺伝子が、公共で利用可能なUCSCゲノムブラウザーデータベースおよび自己開発スクリプトのうちの少なくとも1つによって提供されるツールを使用して、前記最近更新されたヒトゲノムに対してマッピングされる、方法。
項目3に記載の方法であって、前記転写開始部位(TSS)がマッピングされる、方法。
項目5に記載の方法であって、前記TSSが、前記遺伝子についての全ての入手可能なTSSを比較した後に、各遺伝子の最も5’側のTSSを選択することによってマッピングされる、方法。
項目1に記載の方法であって、前記最も5’側のTSSを有する各検索された遺伝子についての調節領域のゲノム配列が、最も更新されたヒトゲノムから検索される、方法。
項目7に記載の方法であって、前記5’調節領域が、TSSの上流およびTSSの下流に位置する配列である、方法。
項目1に記載の方法であって、遺伝子調節領域の検索された配列が、コアプロモーター領域である、方法。
項目9に記載の方法であって、前記コアプロモーター領域が、TSSの上流の200〜300塩基およびTSSの下流の約50〜100塩基の配列を含む、方法。
項目5に記載の方法であって、遺伝子のゲノム配列が、上流のエンハンサー領域である、方法。
項目3に記載の方法であって、遺伝子調節領域のゲノム配列が、下流の調節領域である、方法。
項目7に記載の方法であって、さらに以下:
TSSに対して対応する配列を切断および保存する工程、
をさらに包含する、方法。
項目13に記載の方法であって、前記TSSに対する対応する配列が、UCSCゲノムブラウザーデータベースまたはNCBIゲノムデータベースのうちの少なくとも1つからの自己開発されたスクリプトを使用して切断および保存される、方法。
項目1に記載の方法であって、前記DNA配列情報が、モチーフ検索のために、MATCHプログラムまたは類似のPosition Weighted Matrix Programsを使用してスクリーニングされる、方法。
項目1に記載の方法であって、DNA配列情報スクリーニングが、TFマトリクス、マトリクス類似性のスコアおよびコア類似性のスコアを選択する工程を包含する、方法。
項目1に記載の方法であって、スクリーニングの間の擬陽性マッチングおよび偽陰性マッチングを減少させるためにカットオフが適用される、方法。
項目1に記載の方法であって、さらに、以下:
各結合部位のゲノム頻度または組織特異的頻度のうちの1つを決定する工程、
を包含する、方法。
項目1に記載の方法であって、前記頻度が、前記全ての遺伝子の調節領域における特定のTF結合部位の存在である、方法。
項目1に記載の方法であって、前記頻度が、組織特異的遺伝子の調節領域における特定のTF結合部位の存在である、方法。
項目16に記載の方法であって、さらに、以下:
各結合部位について保存スコアを作製する工程、
を包含する、方法。
項目17に記載の方法であって、前記保存スコアが、TF結合部位が同定される領域を網羅するように選択される、方法。
項目17に記載の方法であって、さらに、以下:
各結合部位の位置を決定する工程、
を包含する、方法。
項目23に記載の方法であって、前記位置が、ヒトゲノムの設計図に基づく、方法。
項目24に記載の方法であって、前記位置が、ヒトゲノムの設計図における保存位置である、方法。
項目23に記載の方法であって、ゲノムの開始位置および終了位置が決定される、方法。
項目23に記載の方法であって、さらに、以下:
TSSに対する各結合部位の距離を決定する工程、
を包含する、方法。
項目27に記載の方法であって、前記距離が、結合位置とTSSとの間に塩基の数に比例する、方法。
項目27に記載の方法であって、さらに、以下:
各結合部位の長さを決定する工程、
を包含する、方法。
項目29に記載の方法であって、さらに、以下:
前記結合部位に隣接する領域の周りの配列情報を決定する工程、
を包含する、方法。
項目30に記載の方法であって、さらに、以下:
他の結合部位の同時存在情報を決定する工程、
を包含する、方法。
項目31に記載の方法であって、さらに、以下:
結合部位およびそれらの位置のクラスターを決定する工程、
を包含する、方法。
項目1に記載の方法であって、さらに、以下:
データベーにおける結合プロフィールを収集する工程、
を包含する、方法。
項目33に記載の方法であって、前記データベースが、各遺伝子の調節領域についてのTF結合プロフィールを含む、方法。
項目33に記載の方法であって、前記データベースが、遺伝子識別子によって検索可能である、方法。
項目35に記載の方法であって、前記遺伝子識別子が、NCBIデータベースから選択される、方法。
項目36に記載の方法であって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、方法。
項目35に記載の方法であって、前記データベースが、TFについてのゲノム頻度情報を含む、方法。
項目38に記載のデータベースであって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、データベース。
項目39に記載の方法であって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、方法。
項目33に記載の方法であって、さらに、以下:
生物医学的な研究のために、データベースからの情報を検索する工程、
を包含する、方法。
項目33に記載の方法であって、さらに、以下:
臨床前開発のために、データベースからの情報を検索する工程、
を包含する、方法。
項目33に記載の方法であって、さらに、以下:
薬物スクリーニング適用のために、データベースからの情報を検索する工程、
を包含する、方法。
項目33に記載の方法であって、さらに、以下:
標的発見および標的確認のために、データベースからの情報を検索する工程、
を包含する、方法。
項目33に記載の方法であって、さらに、以下:
調節領域のプロファイリングのために、データベースからの情報を検索する工程、
を包含する、方法。
項目33に記載の方法であって、さらに、以下:
異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するために、データベースからの情報を検索する工程、
を包含する、方法。
項目33に記載の方法であって、さらに、以下:
種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するために、データベースから情報を検索する工程、
を包含する、方法。
同定された結合部位をプロファイリングするための方法であって、以下:
公知の遺伝子にプロファイリングされ同定された結合部位を含むデータベースを提供する工程;および
該プロファイリングされた結合部位に確率マッピングを適用する工程、
を包含する、方法。
項目48に記載の方法の方法であって、前記データベースが、各遺伝子の調節領域についてのTF結合プロフィールを含む、方法。
項目48に記載の方法であって、前記データベースが、遺伝子識別子によって検索され得る、方法。
項目50に記載の方法であって、前記遺伝子識別子が、NCBIデータベースから選択される、方法。
項目51に記載の方法であって、前記NCBIデータベースが、Unigene Cl
uster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、方法。
項目51に記載の方法であって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、方法。
項目53に記載の方法であって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、方法。
項目54に記載の方法であって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、方法。
項目48に記載の方法であって、さらに、以下:
生物医学的な研究のために、データベースからの情報を検索する工程、
を包含する、方法。
項目48に記載の方法であって、さらに、以下:
臨床前開発のために、データベースからの情報を検索する工程、
を包含する、方法。
項目48に記載の方法であって、さらに、以下:
薬物スクリーニング適用のために、データベースからの情報を検索する工程、
を包含する、方法。
項目48に記載の方法であって、さらに、以下:
標的発見および標的確認のために、データベースからの情報を検索する工程、
を包含する、方法。
項目48に記載の方法であって、さらに、以下:
調節領域のプロファイリングのために、データベースからの情報を検索する工程、
を包含する、方法。
項目48に記載の方法であって、さらに、以下:
異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するために、データベースからの情報を検索する工程、
を包含する、方法。
項目48に記載の方法であって、さらに、以下:
種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するために、データベースから情報を検索する工程、
を包含する、方法。
コンピュータ読み取り可能な媒体に実体として保存されたデータ構造であって、以下:
プロファイリングされ同定された結合部位を含むデータベースであって、該プロファイリングされ同定された結合部位が、遺伝子調節領域についてのDNA配列情報をスクリーニングすることによって作製され、ここで、該データベースが、遺伝子識別子によって検索可能である、データベース、
を含む、データ構造。
項目63に記載のデータ構造であって、前記遺伝子識別子が、NCBI GeneBank識別子から選択される、データ構造。
項目64に記載の方法であって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLinks IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、方法。
項目63に記載のデータ構造であって、前記データベースが、各遺伝子の調節領域についてのTF結合プロフィールを含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、データ構造。
項目63に記載のデータベースであって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、データベース。
項目68に記載のデータ構造であって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、生物医学的な研究のための情報を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、臨床前開発のための情報を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、薬物スクリーニング適用のための情報を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、標的発見および標的確証
のための情報を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、調節領域のプロファイリングのための情報を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するための情報を含む、データ構造。
項目63に記載のデータ構造であって、前記データベースが、種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、データ構造。
調節因子結合部位をプロファイリングするためのコンピュータ実行システムであって、以下:
プロファイリングされ同定された結合部位を含むデータベースであって、該プロファイリングされ同定された結合部位が、遺伝子調節領域についてのDNA配列情報をスクリーニングすることによって作製され、ここで、該データベースが、遺伝子識別子によって検索可能である、データベース;
1つ以上の選択可能なユーザ入力を含む、ユーザインタフェース;
ユーザによって操作可能な入力デバイス;および
該プロファイリングされ同定された結合部位に応答して、少なくとも1つの出力を表示するためのディスプレイ、
を備える、コンピュータ実行システム。
項目77に記載のシステムであって、前記遺伝子識別子が、NCBI GeneBank識別子から選択される、システム。
項目78に記載のシステムであって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、システム。
項目77に記載のシステムであって、前記データベースが、各遺伝子の調節領域のためのTF結合プロフィールを含む、システム。
項目77に記載のシステムであって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、システム。
項目68に記載のシステムであって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、システム。
項目77に記載のシステムであって、前記データベースが、生物医学的な研究のための情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、臨床前開発のための情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、薬物スクリーニング適用のための情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、標的発見および標的確証のための情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、調節領域のプロファイリングのための情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するための情報を含む、システム。
項目77に記載のシステムであって、前記データベースが、種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、システム。
項目77に記載のシステムであって、前記少なくとも1つの出力が、遺伝子名、識別子、同定されたTF結合部位、TF名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報、および結合部位配列のうちの少なくとも1つを含む、システム。
項目77に記載のシステムであって、さらに、以下:
メモリ;およびマイクロプロセッサ、
を備える、システム。
genome−wide)確率マッピングを使用する、調節因子結合部位をプロファイリングするための方法、ならびにこの方法に関連するデータ構造およびシステムが、提供される。
上の選択可能なユーザーの入力を含んで提供される。入力デバイスは、ユーザーによって操作可能である。ディスプレイが備えられ、これは、プロファイリングされる同定された結合部位に応じて、少なくとも1つの出力を表示する。
(好ましい実施形態の説明)
多様な実施形態において、本発明は、制御因子結合部位を全ゲノム的なプロファイリングする方法、コンピュータで読み取り可能な媒体に有形的に保存されるデータ構造、および関連したシステムを提供する。制御因子結合部位の例としては、転写因子NF−kappa Bに対する結合部位としての配列AGGGGACTTTCCCA(配列番号1);転写因子E2F−1に対する結合部位としての配列TTTGGCGG(配列番号2)などが挙げられるが、これらに限定されない。
得ることによってTSSがマッピングされる(図2に示す)。
れるが、これらに限定されない。
図2に示すように、完全長mRNA配列の3つの異なるバージョンを、NCBIデータベース(refseq)、MGCデータベース(MGC)、Japan DBTSSデータベース(DBTSS)などから検索し得る。refseqデータベースから検索した遺伝子DLDの完全配列(配列番号59)を、図7に列挙し、MGCから検索した遺伝子DLD完全配列(配列番号60)を、図8に列挙し、そしてDBTSSから検索した遺伝子DLD完全配列(配列番号61)を、図9に列挙した。
自己で開発したスクリプト(self−developed script)を、UCSCゲノムブラウザデータベースに、上記の検索した配列をフェッチするように使用し、それらのゲノム位置をマッピングする。遺伝子DLDの検索した異なるバージョンを、公共利用し得るUCSCゲノムブラウザデータベースの少なくとも1つによって提供される手段を用いて、最近更新されたヒトゲノムにマッピングする。
マッピングした位置を、自己で開発したスクリプトを使用して、上で参照したUCSCゲノムブラウザデータベースから検索する。マッピングの概要を表1に列挙する。例えば、NBCI refseqからの完全長遺伝子DLD配列を、第7染色体のセンス鎖またはポジティブ鎖でのヒトゲノムワーキングドラフト(UCSCゲノムブラウザによって2002年、6月に発行された)にマッピングした(染色体位置106015510で開始し、染色体位置106044308で終了)。
図2を再び参照して、このマッピングは、自己で作製したスクリプトを使用して促進される。遺伝子DLDについて、この遺伝子は、第7染色体の「+」鎖上に位置する。開始位置106015488は、遺伝子DLDのTSSについて最も5’位置にある。
5’側の調節領域は、TSSの上流およびTSSの下流の配列である。より詳細には、遺伝子DLDについて、調節領域またはコアプロモーター領域は、TSSの200〜300塩基上流を含む配列およびTSSの約50〜100塩基下流を含む配列である。従って、遺伝子DLDのTSSに対応する配列を、自己で開発したスクリプトを使用して、UCSCゲノムブラウザまたはNCBIゲノムデータベースの少なくとも1つから切断し、そして保存する。遺伝子DLDについて保存した配列(配列番号62)を、図10に列挙する。
MATCHプログラムは、ライセンス化されたTRANSFACデータベース内に組み込まれた配列分析ツールである。この分析を、スクリーニング中の偽陽性マッチングおよび偽陰性マッチングを減少させるために、マトリクス類似性スコアおよびコア類似性スコアの両方について適切な設定を行う。遺伝子DLDの調節領域についてのスクリーニング結果を表2に示す。表2は、同定された結合部位の位置を列挙する。
頻度は、全ての遺伝子または組織特異的遺伝子の、調節領域において特異的なTF結合部位の存在である。全ての遺伝子の調節領域の分析後、この頻度またはTF結合部位の存在確立は、容易に確立される。表3において、これらの頻度情報のいくつかを遺伝子DLDについて列挙する。
ヒトとマウスとで比較した全ゲノムの保存スコアを、UCSCゲノムブラウザデータベースから検索する。この保存スコアを、TF結合部位が同定される領域をカバーするように選択する。遺伝子DLDの調節領域において同定したTF結合部位についての保存スコアを、表4に列挙する。
隣接または重なる結合部位を、自己で作成したスクリプトを用いてクラスター化し、そして遺伝子DLDについて対応する位置およびTFを、表5に列挙する。
Claims (18)
- 調節因子結合部位を特徴付けるためのコンピュータ実行システムであって、以下:
ここで、該コンピュータ実行システムは、1以上のマイクロプロセッサ、インターフェース、記憶媒体を備え、
該記憶媒体は、データファイル、スクリプト、および利用可能な支援ソフトウェアを備え;
該スクリプトは、以下の工程:
該スクリプトのうちの1つによって1以上の該データファイルから1種の生物種の1以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位(TSS)情報および該生物種のゲノム配列を含む遺伝子情報を含む、工程;
該生物のゲノム配列を検索する工程;
該ゲノム配列上に、該全長遺伝子について、そのTSSの位置をマッピングする工程;
該マッピングされたTSSの位置の全てを比較して、該全長遺伝子の各々について最も5’側の位置を同定する工程;および
該全長遺伝子の各々について最も5’側の位置を有するTSSに基づいて該調節因子結合部位を規定する工程;
を実施するための命令を含む、コンピュータ実行システム。 - 請求項1に記載のコンピュータ実行システムであって、ここで、前記スクリプトが、データベース中の結合部位情報を回収する工程を実行するためのさらなる命令を含み、ここで、該データベースは、遺伝子識別子によって検索され得る、コンピュータ実行システム。
- 請求項1に記載のシステムであって、前記遺伝子識別子が、NCBI GeneBank識別子から選択される、システム。
- 請求項3に記載のシステムであって、前記NCBIデータベースが、Unigene Cluster ID、LoucsLink IDおよび国際的に認証された遺伝子記号のうちの少なくとも1つを含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、各遺伝子の調節領域のためのTF結合情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、システム。
- 請求項1に記載のシステムであって、前記マイクロプロセッサ上で実行されるスクリプトによって、前記データベースが、TF名およびTF頻度のうちの少なくとも1つによって分類され得る、システム。
- 請求項1に記載のシステムであって、前記TF頻度が、ゲノム頻度および組織特異的頻度を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、生物医学的な研究のための情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、臨床前開発のための情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、薬物スクリーニング適用のための情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、標的発見および標的確証のための情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、調節領域の特徴付けのための情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、異なる遺伝子の調節性特徴の間の全ゲノム的または全組織的な関連を構築するための情報を含む、システム。
- 請求項1に記載のシステムであって、前記データベースが、種々の公知の転写特徴づけのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写特徴づけのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、システム。
- 請求項1に記載のシステムであって、少なくとも1つの出力が、遺伝子名、識別子、同定されたTF結合部位、TF名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報、および結合部位配列のうちの少なくとも1つを含む、システム。
- コンピュータ記憶媒体であって、以下の工程:
該記憶媒体上または該コンピュータに接続される媒体上の1以上のデータファイルから1種の生物種の1以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位(TSS)情報および該生物のゲノム配列を含む遺伝子配列情報を含む、工程;
該生物のゲノム配列を検索する工程;
該ゲノム配列上に、該全長遺伝子について、そのTSSの位置をマッピングする工程;
マッピングされたTSSの位置の全てを比較して、該全長遺伝子の各々について最も5’側の位置を同定する工程;および
該全長遺伝子の各々について最も5’側の位置を有するTSSに基づいて該調節因子結合部位を規定する工程;
をコンピュータ上で実行するための命令を含むスクリプトをその上に備える、コンピュータ記憶媒体。 - 請求項17に記載のコンピュータ記憶媒体であって、ここで、前記スクリプトが、データベース中の結合部位情報を回収する工程を実施するためのさらなる命令を含み、該データベースが、遺伝子識別子によって検索され得る、コンピュータ記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/402,689 US20040191781A1 (en) | 2003-03-28 | 2003-03-28 | Genomic profiling of regulatory factor binding sites |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004027409A Division JP2004303201A (ja) | 2003-03-28 | 2004-02-03 | 調節因子結合部位のゲノムプロファイリング |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006031728A true JP2006031728A (ja) | 2006-02-02 |
Family
ID=32989771
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004027409A Pending JP2004303201A (ja) | 2003-03-28 | 2004-02-03 | 調節因子結合部位のゲノムプロファイリング |
JP2005237018A Pending JP2006031728A (ja) | 2003-03-28 | 2005-08-17 | 調節因子結合部位のゲノムプロファイリング |
JP2008147319A Pending JP2008293505A (ja) | 2003-03-28 | 2008-06-04 | 調節因子結合部位のゲノムプロファイリング |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004027409A Pending JP2004303201A (ja) | 2003-03-28 | 2004-02-03 | 調節因子結合部位のゲノムプロファイリング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008147319A Pending JP2008293505A (ja) | 2003-03-28 | 2008-06-04 | 調節因子結合部位のゲノムプロファイリング |
Country Status (12)
Country | Link |
---|---|
US (1) | US20040191781A1 (ja) |
EP (1) | EP1608786B1 (ja) |
JP (3) | JP2004303201A (ja) |
KR (1) | KR20060015484A (ja) |
CN (1) | CN1784498A (ja) |
AT (1) | ATE416261T1 (ja) |
AU (1) | AU2004225474A1 (ja) |
CA (1) | CA2519674A1 (ja) |
DE (1) | DE602004018115D1 (ja) |
MX (1) | MXPA05010276A (ja) |
RU (1) | RU2005133192A (ja) |
WO (1) | WO2004087966A2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008025093A1 (en) * | 2006-09-01 | 2008-03-06 | Innovative Dairy Products Pty Ltd | Whole genome based genetic evaluation and selection process |
US20090049856A1 (en) * | 2007-08-20 | 2009-02-26 | Honeywell International Inc. | Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using |
CN101930502B (zh) * | 2010-09-03 | 2011-12-21 | 深圳华大基因科技有限公司 | 表型基因的检测及生物信息分析的方法及系统 |
US9384321B2 (en) | 2010-11-25 | 2016-07-05 | Portable Genomics, Inc. | Organization, visualization and utilization of genomic data on electronic devices |
US20150167062A1 (en) * | 2012-06-14 | 2015-06-18 | Whitehead Institute For Biomedical Research | Genome-wide Method of Assessing Interactions Between Chemical Entities And Their Target Molecules |
US9989528B2 (en) * | 2013-08-28 | 2018-06-05 | Oregon Health & Science University | Synthetic olgononucleotides for detection of nucleic acid binding proteins |
CN103870719B (zh) * | 2014-04-09 | 2017-06-16 | 苏州大学 | 一种人类基因启动子识别方法及系统 |
CN104156635B (zh) * | 2014-07-08 | 2017-07-07 | 华南师范大学 | 基于公共子序列的基因芯片表达数据的opsm挖掘方法 |
US20170364633A1 (en) * | 2014-12-10 | 2017-12-21 | Koninklijke Philips N.V. | Methods and systems to generate noncoding-coding gene co-expression networks |
CN105912886A (zh) * | 2016-03-29 | 2016-08-31 | 上海师范大学 | 一种预测蛋白质在rna病毒基因中的结合位点的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6519583B1 (en) * | 1997-05-15 | 2003-02-11 | Incyte Pharmaceuticals, Inc. | Graphical viewer for biomolecular sequence data |
-
2003
- 2003-03-28 US US10/402,689 patent/US20040191781A1/en not_active Abandoned
-
2004
- 2004-02-03 JP JP2004027409A patent/JP2004303201A/ja active Pending
- 2004-03-24 RU RU2005133192/13A patent/RU2005133192A/ru not_active Application Discontinuation
- 2004-03-24 MX MXPA05010276A patent/MXPA05010276A/es not_active Application Discontinuation
- 2004-03-24 WO PCT/US2004/009201 patent/WO2004087966A2/en active Application Filing
- 2004-03-24 AU AU2004225474A patent/AU2004225474A1/en not_active Abandoned
- 2004-03-24 DE DE602004018115T patent/DE602004018115D1/de not_active Expired - Fee Related
- 2004-03-24 CA CA002519674A patent/CA2519674A1/en not_active Abandoned
- 2004-03-24 AT AT04758363T patent/ATE416261T1/de not_active IP Right Cessation
- 2004-03-24 KR KR1020057018232A patent/KR20060015484A/ko not_active Application Discontinuation
- 2004-03-24 CN CNA2004800126273A patent/CN1784498A/zh active Pending
- 2004-03-24 EP EP04758363A patent/EP1608786B1/en not_active Expired - Lifetime
-
2005
- 2005-08-17 JP JP2005237018A patent/JP2006031728A/ja active Pending
-
2008
- 2008-06-04 JP JP2008147319A patent/JP2008293505A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20040191781A1 (en) | 2004-09-30 |
AU2004225474A1 (en) | 2004-10-14 |
RU2005133192A (ru) | 2006-02-27 |
WO2004087966A2 (en) | 2004-10-14 |
EP1608786B1 (en) | 2008-12-03 |
CN1784498A (zh) | 2006-06-07 |
JP2008293505A (ja) | 2008-12-04 |
WO2004087966A3 (en) | 2004-12-09 |
DE602004018115D1 (de) | 2009-01-15 |
ATE416261T1 (de) | 2008-12-15 |
MXPA05010276A (es) | 2006-03-17 |
CA2519674A1 (en) | 2004-10-14 |
EP1608786A2 (en) | 2005-12-28 |
JP2004303201A (ja) | 2004-10-28 |
KR20060015484A (ko) | 2006-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008293505A (ja) | 調節因子結合部位のゲノムプロファイリング | |
Boeva | Analysis of genomic sequence motifs for deciphering transcription factor binding and transcriptional regulation in eukaryotic cells | |
Pavesi et al. | Weeder Web: discovery of transcription factor binding sites in a set of sequences from co-regulated genes | |
Boeva et al. | Short fuzzy tandem repeats in genomic sequences, identification, and possible role in regulation of gene expression | |
Li et al. | A hidden Markov model for analyzing ChIP-chip experiments on genome tiling arrays and its application to p53 binding sequences | |
Kwon et al. | oPOSSUM-3: advanced analysis of regulatory motif over-representation across genes or ChIP-Seq datasets | |
Chekmenev et al. | P-Match: transcription factor binding site search by combining patterns and weight matrices | |
Sosinsky et al. | Target Explorer: An automated tool for the identification of new target genes for a specified set of transcription factors | |
Favorov et al. | A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length | |
Tran et al. | A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data | |
Arias-Carrasco et al. | StructRNAfinder: an automated pipeline and web server for RNA families prediction | |
Ji et al. | A comparative analysis of genome-wide chromatin immunoprecipitation data for mammalian transcription factors | |
Werner | Computer-assisted analysis of transcription control regions: Matinspector and other programs | |
Kreiman | Identification of sparsely distributed clusters of cis‐regulatory elements in sets of co‐expressed genes | |
Genovese et al. | Dot2dot: accurate whole-genome tandem repeats discovery | |
Kapur et al. | Cross-hybridization modeling on Affymetrix exon arrays | |
Luscombe et al. | ExpressYourself: A modular platform for processing and visualizing microarray data | |
Scheetz et al. | Generation of a high-density rat EST map | |
Wang et al. | A steganalysis-based approach to comprehensive identification and characterization of functional regulatory elements | |
Donaldson et al. | TFBScluster: a resource for the characterization of transcriptional regulatory networks | |
Zheng et al. | MAASE: an alternative splicing database designed for supporting splicing microarray applications | |
Quackenbush | Extracting meaning from functional genomics experiments | |
Chaley et al. | HeteroGenome: database of genome periodicity | |
Feng et al. | Sequence repetitiveness quantification and de novo repeat detection by weighted k-mer coverage | |
Donaldson et al. | CoMoDis: composite motif discovery in mammalian genomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081029 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20081128 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20081212 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090127 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090130 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090630 |