JP2008293505A

JP2008293505A - 調節因子結合部位のゲノムプロファイリング

Info

Publication number: JP2008293505A
Application number: JP2008147319A
Authority: JP
Inventors: Jie Zhang; ジエザン; Hsiu-Ying Wei; シュー−インウェイ; Leslie Margaret Mcevoy; マーガレットマケヴォイレズリー
Original assignee: Anesiva Inc
Current assignee: Anesiva Inc
Priority date: 2003-03-28
Filing date: 2008-06-04
Publication date: 2008-12-04
Also published as: US20040191781A1; AU2004225474A1; RU2005133192A; WO2004087966A2; EP1608786B1; JP2006031728A; CN1784498A; WO2004087966A3; DE602004018115D1; ATE416261T1; MXPA05010276A; CA2519674A1; EP1608786A2; JP2004303201A; KR20060015484A

Abstract

【課題】調節因子結合部位をゲノムプロファイリングするための方法の提供。
【解決手段】調節因子結合部位を特徴付けるためのコンピュータ実行システムであって、以下：
ここで、以下の工程：スクリプトのうちの１つによって１以上のデータファイルから１種の生物種の１以上の全長遺伝子を検索する工程であって、ここで、該データファイルは、転写開始部位（ＴＳＳ）情報および該生物種のゲノム配列を含む遺伝子情報を含む、工程；該生物のゲノム配列を検索する工程；該ゲノム配列上に、該全長遺伝子について、そのＴＳＳの位置をマッピングする工程；該マッピングされたＴＳＳの位置の全てを比較して、該全長遺伝子の各々について最も５’側の位置を同定する工程；および該全長遺伝子の各々について最も５’側の位置を有するＴＳＳに基づいて該調節因子結合部位を規定する工程；を実施するための命令を含む、コンピュータ実行システム。
【選択図】なし

Description

（関連出願の相互参照）
本出願は、２００３年３月２８日に出願され、「ＳｙｓｔｅｍａｔｉｃａｌＡｎａｌｙｓｉｓｏｆＲｅｇｕｌａｔｏｒｙＦａｃｔｏｒＢｉｎｄｉｎｇｏｆＤｉｆｆｅｒｅｎｔｉａｌｌｙＥｘｐｒｅｓｓｅｄＧｅｎｅｓ」と題され、そしてＡｔｔｏｒｎｅｙＤｏｃｋｅｔ番号３９７５３−０００２として識別される米国シリアル番号１０／４０１，８３０号（この出願は、本明細書中において全体が援用される）に関連する。

（発明の分野）
本発明は、一般的に、全ての公知の遺伝子の調節因子結合部位のプロフィールを提供する方法、システムおよびデータ構造に関し、より詳細には、さらなる治療ストラテジー開発のために同定された結合部位についての体系的な分析を開発するために、調節因子結合部位を同定および特徴付けるための方法、データ構造およびシステムに関する。

（関連技術の説明）
遺伝子発現レベルを変化させることは、ヒト障害に取り組むために重要かつ効率的なアプローチになっている。各遺伝子の発現レベルは、転写機構によって制御され、ここで、転写因子（ＴＦ）と呼ばれる特定のタンパク質が遺伝子の調節領域に結合し、次いで、転写プロセスを開始する。従って、対応するＴＦおよび遺伝子調節領域上のそれらの結合部位は、遺伝子の転写レベルを制御する際に必須の役割を果たし得る。従って、転写因子およびそれらの関連する転写機構は、現代の生物医学的な研究および開発努力において「ホット」スポットになっている。

各遺伝子について、転写開始部位（ＴＳＳ）は、そのｍＲＮＡが、ＲＮＡポリメラーゼＩＩによってＤＮＡから転写され始める位置である。このプロセスの間、遺伝子調節領域は、特定の調節因子に関連し、そして結合する。これらの結合された因子は、他の転写タンパク質とともに、転写プロセスを開始し始め得る転写複合体を形成する。より詳細には、これは、代表的に、短い共通ゲノム配列である転写因子結合部位を含む。最も重要な調節領域の１つは、ＴＳＳの直前またはＴＳＳに隣接して通常配置されるコアプロモーターである。従って、ＴＳＳを同定することは、各遺伝子についての転写調節領域を規定するために重要である。現在、多くの特定の研究および開発が、特定のＴＦおよび対応する結合部位についてのそれらの努力に焦点を向け、これは、依然として、多くの確かなデータを提供したが、ゲノム関連生物医学的必要性の開発の大きな要件を満たしていない。迅速に増加している転写因子関連薬物発見ビジネスおよび挑戦に適合するために、全ての推定調節因子を同定し、そしてゲノムにおけるそれらの対応する結合部位を特徴付けることが、非常に重要である。特に、ヒトゲノム計画の終了および多数の疾患関連遺伝子発現データ（例えば、マイクロアレイベースのデータ）の出現のため、調節因子結合部位の全ゲノム的なプロファイリングが、差し迫っている。

本発明は、種々の公共で利用可能なデータベース（例えば、ＮＣＢＩｒｅｆｓｅｑ、ＮＩＨＭＧＣコンソーシアム、日本のＤＢＴＳＳデータベースなど）から全ての全長遺伝子を検索し、次いで、最も更新されたＨｕｍａｎＧｅｎｏｍｅＷｏｒｋｉｎｇＤｒａｆｔ（例えば、ＡｓｓｅｍｂｌｙｖｅｒｓｉｏｎＪｕｌｙ，２００３、またはＮＣＢＩｂｕｉｌｄ３４）についてこれらの遺伝子のＴＳＳをマッピングした。次いで、この遺伝子の位置をマッピングすることによって生成される全ての可能なＴＳＳを比較す
ることによって、各遺伝子について最も上流のＴＳＳを規定する。転写調節領域（ＴＲＲ）（例えば、コアプロモーター領域）は、最も５’側のＴＳＳ位置に基づいて規定され、そしてそれらの対応するゲノム配列を、さらなる分析のために、最も更新されたヒトゲノムから検査した。全ての公知の遺伝子についてのプロファイルされたＴＲＲを、さらなる薬物標的関連統計分析のために、そしてさらなる治療ストラテジー開発のために、データベース内に保存した。

（発明の要旨）
（項目１）
調節因子結合部位をプロファイリングするための方法であって、該方法は、以下：
遺伝子調節領域をマッピングするために、完全な最も５’側の全長遺伝子を位置付ける工程；
遺伝子の調節領域のゲノム配列を検索する工程；
推定調節因子結合部位を同定するために、それぞれの検索された遺伝子調節領域についてのＤＮＡ配列情報をスクリーニングする工程；および
該推定調節因子結合部位をプロファイリングする工程、
を包含する、方法。

（項目２）
項目１に記載の方法であって、マッピングが、検索された遺伝子についての配列情報を提供するために、全長遺伝子を検索する工程を包含する、方法。

（項目３）
項目２に記載の方法であって、マッピングが、最近更新されたヒトゲノムに対して前記検索された遺伝子をマッピングする工程を包含する、方法。

（項目４）
項目３に記載の方法であって、前記検索された遺伝子が、公共で利用可能なＵＣＳＣゲノムブラウザーデータベースおよび自己開発スクリプトのうちの少なくとも１つによって提供されるツールを使用して、前記最近更新されたヒトゲノムに対してマッピングされる、方法。

（項目５）
項目３に記載の方法であって、前記転写開始部位（ＴＳＳ）がマッピングされる、方法。

（項目６）
項目５に記載の方法であって、前記ＴＳＳが、前記遺伝子についての全ての入手可能なＴＳＳを比較した後に、各遺伝子の最も５’側のＴＳＳを選択することによってマッピングされる、方法。

（項目７）
項目１に記載の方法であって、前記最も５’側のＴＳＳを有する各検索された遺伝子についての調節領域のゲノム配列が、最も更新されたヒトゲノムから検索される、方法。

（項目８）
項目７に記載の方法であって、前記５’調節領域が、ＴＳＳの上流およびＴＳＳの下流に位置する配列である、方法。

（項目９）
項目１に記載の方法であって、遺伝子調節領域の検索された配列が、コアプロモーター領域である、方法。

（項目１０）
項目９に記載の方法であって、前記コアプロモーター領域が、ＴＳＳの上流の２００〜３００塩基およびＴＳＳの下流の約５０〜１００塩基の配列を含む、方法。

（項目１１）
項目５に記載の方法であって、遺伝子のゲノム配列が、上流のエンハンサー領域である、方法。

（項目１２）
項目３に記載の方法であって、遺伝子調節領域のゲノム配列が、下流の調節領域である、方法。

（項目１３）
項目７に記載の方法であって、さらに以下：
ＴＳＳに対して対応する配列を切断および保存する工程、
をさらに包含する、方法。

（項目１４）
項目１３に記載の方法であって、前記ＴＳＳに対する対応する配列が、ＵＣＳＣゲノムブラウザーデータベースまたはＮＣＢＩゲノムデータベースのうちの少なくとも１つからの自己開発されたスクリプトを使用して切断および保存される、方法。

（項目１５）
項目１に記載の方法であって、前記ＤＮＡ配列情報が、モチーフ検索のために、ＭＡＴＣＨプログラムまたは類似のＰｏｓｉｔｉｏｎＷｅｉｇｈｔｅｄＭａｔｒｉｘＰｒｏｇｒａｍｓを使用してスクリーニングされる、方法。

（項目１６）
項目１に記載の方法であって、ＤＮＡ配列情報スクリーニングが、ＴＦマトリクス、マトリクス類似性のスコアおよびコア類似性のスコアを選択する工程を包含する、方法。

（項目１７）
項目１に記載の方法であって、スクリーニングの間の擬陽性マッチングおよび偽陰性マッチングを減少させるためにカットオフが適用される、方法。

（項目１８）
項目１に記載の方法であって、さらに、以下：
各結合部位のゲノム頻度または組織特異的頻度のうちの１つを決定する工程、
を包含する、方法。

（項目１９）
項目１に記載の方法であって、前記頻度が、前記全ての遺伝子の調節領域における特定のＴＦ結合部位の存在である、方法。

（項目２０）
項目１に記載の方法であって、前記頻度が、組織特異的遺伝子の調節領域における特定のＴＦ結合部位の存在である、方法。

（項目２１）
項目１６に記載の方法であって、さらに、以下：
各結合部位について保存スコアを作製する工程、
を包含する、方法。

（項目２２）
項目１７に記載の方法であって、前記保存スコアが、ＴＦ結合部位が同定される領域を網羅するように選択される、方法。

（項目２３）
項目１７に記載の方法であって、さらに、以下：
各結合部位の位置を決定する工程、
を包含する、方法。

（項目２４）
項目２３に記載の方法であって、前記位置が、ヒトゲノムの設計図に基づく、方法。

（項目２５）
項目２４に記載の方法であって、前記位置が、ヒトゲノムの設計図における保存位置である、方法。

（項目２６）
項目２３に記載の方法であって、ゲノムの開始位置および終了位置が決定される、方法。

（項目２７）
項目２３に記載の方法であって、さらに、以下：
ＴＳＳに対する各結合部位の距離を決定する工程、
を包含する、方法。

（項目２８）
項目２７に記載の方法であって、前記距離が、結合位置とＴＳＳとの間に塩基の数に比例する、方法。

（項目２９）
項目２７に記載の方法であって、さらに、以下：
各結合部位の長さを決定する工程、
を包含する、方法。

（項目３０）
項目２９に記載の方法であって、さらに、以下：
前記結合部位に隣接する領域の周りの配列情報を決定する工程、
を包含する、方法。

（項目３１）
項目３０に記載の方法であって、さらに、以下：
他の結合部位の同時存在情報を決定する工程、
を包含する、方法。

（項目３２）
項目３１に記載の方法であって、さらに、以下：
結合部位およびそれらの位置のクラスターを決定する工程、
を包含する、方法。

（項目３３）
項目１に記載の方法であって、さらに、以下：
データベーにおける結合プロフィールを収集する工程、
を包含する、方法。

（項目３４）
項目３３に記載の方法であって、前記データベースが、各遺伝子の調節領域についてのＴＦ結合プロフィールを含む、方法。

（項目３５）
項目３３に記載の方法であって、前記データベースが、遺伝子識別子によって検索可能である、方法。

（項目３６）
項目３５に記載の方法であって、前記遺伝子識別子が、ＮＣＢＩデータベースから選択される、方法。

（項目３７）
項目３６に記載の方法であって、前記ＮＣＢＩデータベースが、ＵｎｉｇｅｎｅＣｌｕｓｔｅｒＩＤ、ＬｏｕｃｓＬｉｎｋＩＤおよび国際的に認証された遺伝子記号のうちの少なくとも１つを含む、方法。

（項目３８）
項目３５に記載の方法であって、前記データベースが、ＴＦについてのゲノム頻度情報を含む、方法。

（項目３９）
項目３８に記載のデータベースであって、前記データベースが、ＴＦ名およびＴＦ頻度のうちの少なくとも１つによって分類され得る、データベース。

（項目４０）
項目３９に記載の方法であって、前記ＴＦ頻度が、ゲノム頻度および組織特異的頻度を含む、方法。

（項目４１）
項目３３に記載の方法であって、さらに、以下：
生物医学的な研究のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目４２）
項目３３に記載の方法であって、さらに、以下：
臨床前開発のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目４３）
項目３３に記載の方法であって、さらに、以下：
薬物スクリーニング適用のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目４４）
項目３３に記載の方法であって、さらに、以下：
標的発見および標的確認のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目４５）
項目３３に記載の方法であって、さらに、以下：
調節領域のプロファイリングのために、データベースからの情報を検索する工程、
を包含する、方法。

（項目４６）
項目３３に記載の方法であって、さらに、以下：
異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するために、データベースからの情報を検索する工程、
を包含する、方法。

（項目４７）
項目３３に記載の方法であって、さらに、以下：
種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するために、データベースから情報を検索する工程、
を包含する、方法。

（項目４８）
同定された結合部位をプロファイリングするための方法であって、以下：
公知の遺伝子にプロファイリングされ同定された結合部位を含むデータベースを提供する工程；および
該プロファイリングされた結合部位に確率マッピングを適用する工程、
を包含する、方法。

（項目４９）
項目４８に記載の方法の方法であって、前記データベースが、各遺伝子の調節領域についてのＴＦ結合プロフィールを含む、方法。

（項目５０）
項目４８に記載の方法であって、前記データベースが、遺伝子識別子によって検索され得る、方法。

（項目５１）
項目５０に記載の方法であって、前記遺伝子識別子が、ＮＣＢＩデータベースから選択される、方法。

（項目５２）
項目５１に記載の方法であって、前記ＮＣＢＩデータベースが、ＵｎｉｇｅｎｅＣｌ
ｕｓｔｅｒＩＤ、ＬｏｕｃｓＬｉｎｋＩＤおよび国際的に認証された遺伝子記号のうちの少なくとも１つを含む、方法。

（項目５３）
項目５１に記載の方法であって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、方法。

（項目５４）
項目５３に記載の方法であって、前記データベースが、ＴＦ名およびＴＦ頻度のうちの少なくとも１つによって分類され得る、方法。

（項目５５）
項目５４に記載の方法であって、前記ＴＦ頻度が、ゲノム頻度および組織特異的頻度を含む、方法。

（項目５６）
項目４８に記載の方法であって、さらに、以下：
生物医学的な研究のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目５７）
項目４８に記載の方法であって、さらに、以下：
臨床前開発のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目５８）
項目４８に記載の方法であって、さらに、以下：
薬物スクリーニング適用のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目５９）
項目４８に記載の方法であって、さらに、以下：
標的発見および標的確認のために、データベースからの情報を検索する工程、
を包含する、方法。

（項目６０）
項目４８に記載の方法であって、さらに、以下：
調節領域のプロファイリングのために、データベースからの情報を検索する工程、
を包含する、方法。

（項目６１）
項目４８に記載の方法であって、さらに、以下：
異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するために、データベースからの情報を検索する工程、
を包含する、方法。

（項目６２）
項目４８に記載の方法であって、さらに、以下：
種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織
バックグラウンドを理解するために、データベースから情報を検索する工程、
を包含する、方法。

（項目６３）
コンピュータ読み取り可能な媒体に実体として保存されたデータ構造であって、以下：
プロファイリングされ同定された結合部位を含むデータベースであって、該プロファイリングされ同定された結合部位が、遺伝子調節領域についてのＤＮＡ配列情報をスクリーニングすることによって作製され、ここで、該データベースが、遺伝子識別子によって検索可能である、データベース、
を含む、データ構造。

（項目６４）
項目６３に記載のデータ構造であって、前記遺伝子識別子が、ＮＣＢＩＧｅｎｅＢａｎｋ識別子から選択される、データ構造。

（項目６５）
項目６４に記載の方法であって、前記ＮＣＢＩデータベースが、ＵｎｉｇｅｎｅＣｌｕｓｔｅｒＩＤ、ＬｏｕｃｓＬｉｎｋｓＩＤおよび国際的に認証された遺伝子記号のうちの少なくとも１つを含む、方法。

（項目６６）
項目６３に記載のデータ構造であって、前記データベースが、各遺伝子の調節領域についてのＴＦ結合プロフィールを含む、データ構造。

（項目６７）
項目６３に記載のデータ構造であって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、データ構造。

（項目６８）
項目６３に記載のデータベースであって、前記データベースが、ＴＦ名およびＴＦ頻度のうちの少なくとも１つによって分類され得る、データベース。

（項目６９）
項目６８に記載のデータ構造であって、前記ＴＦ頻度が、ゲノム頻度および組織特異的頻度を含む、データ構造。

（項目７０）
項目６３に記載のデータ構造であって、前記データベースが、生物医学的な研究のための情報を含む、データ構造。

（項目７１）
項目６３に記載のデータ構造であって、前記データベースが、臨床前開発のための情報を含む、データ構造。

（項目７２）
項目６３に記載のデータ構造であって、前記データベースが、薬物スクリーニング適用のための情報を含む、データ構造。

（項目７３）
項目６３に記載のデータ構造であって、前記データベースが、標的発見および標的確証
のための情報を含む、データ構造。

（項目７４）
項目６３に記載のデータ構造であって、前記データベースが、調節領域のプロファイリングのための情報を含む、データ構造。

（項目７５）
項目６３に記載のデータ構造であって、前記データベースが、異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するための情報を含む、データ構造。

（項目７６）
項目６３に記載のデータ構造であって、前記データベースが、種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、データ構造。

（項目７７）
調節因子結合部位をプロファイリングするためのコンピュータ実行システムであって、以下：
プロファイリングされ同定された結合部位を含むデータベースであって、該プロファイリングされ同定された結合部位が、遺伝子調節領域についてのＤＮＡ配列情報をスクリーニングすることによって作製され、ここで、該データベースが、遺伝子識別子によって検索可能である、データベース；
１つ以上の選択可能なユーザ入力を含む、ユーザインタフェース；
ユーザによって操作可能な入力デバイス；および
該プロファイリングされ同定された結合部位に応答して、少なくとも１つの出力を表示するためのディスプレイ、
を備える、コンピュータ実行システム。

（項目７８）
項目７７に記載のシステムであって、前記遺伝子識別子が、ＮＣＢＩＧｅｎｅＢａｎｋ識別子から選択される、システム。

（項目７９）
項目７８に記載のシステムであって、前記ＮＣＢＩデータベースが、ＵｎｉｇｅｎｅＣｌｕｓｔｅｒＩＤ、ＬｏｕｃｓＬｉｎｋＩＤおよび国際的に認証された遺伝子記号のうちの少なくとも１つを含む、システム。

（項目８０）
項目７７に記載のシステムであって、前記データベースが、各遺伝子の調節領域のためのＴＦ結合プロフィールを含む、システム。

（項目８１）
項目７７に記載のシステムであって、前記データベースが、脊椎動物転写調節因子についてのゲノム頻度情報を含む、システム。

（項目８２）
項目７７に記載のシステムであって、前記データベースが、ＴＦ名およびＴＦ頻度のうちの少なくとも１つによって分類され得る、システム。

（項目８３）
項目６８に記載のシステムであって、前記ＴＦ頻度が、ゲノム頻度および組織特異的頻度を含む、システム。

（項目８４）
項目７７に記載のシステムであって、前記データベースが、生物医学的な研究のための情報を含む、システム。

（項目８５）
項目７７に記載のシステムであって、前記データベースが、臨床前開発のための情報を含む、システム。

（項目８６）
項目７７に記載のシステムであって、前記データベースが、薬物スクリーニング適用のための情報を含む、システム。

（項目８７）
項目７７に記載のシステムであって、前記データベースが、標的発見および標的確証のための情報を含む、システム。

（項目８８）
項目７７に記載のシステムであって、前記データベースが、調節領域のプロファイリングのための情報を含む、システム。

（項目８９）
項目７７に記載のシステムであって、前記データベースが、異なる遺伝子の調節性プロファイリング間の全ゲノム的または全組織的な関連を構築するための情報を含む、システム。

（項目９０）
項目７７に記載のシステムであって、前記データベースが、種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解する種々の公知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解するための情報を含む、システム。

（項目９１）
項目７７に記載のシステムであって、前記少なくとも１つの出力が、遺伝子名、識別子、同定されたＴＦ結合部位、ＴＦ名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報、および結合部位配列のうちの少なくとも１つを含む、システム。

（項目９２）
項目７７に記載のシステムであって、さらに、以下：
メモリ；およびマイクロプロセッサ、
を備える、システム。

従って、本発明の目的は、調節因子結合部位をゲノムプロファイリングするための方法、ならびに本発明に関連するデータ構造およびシステムを提供することである。

本発明の別の目的において、プロファイリングされた結合部位に関して全ゲノム的な（
ｇｅｎｏｍｅ−ｗｉｄｅ）確率マッピングを使用する、調節因子結合部位をプロファイリングするための方法、ならびにこの方法に関連するデータ構造およびシステムが、提供される。

本発明のなお別の目的は、生物医学的研究のための改善された方法、ならびにこの方法に関連するデータ構造およびシステムを提供することである。

本発明のさらなる目的は、臨床前開発のための改善された方法、ならびにこの方法に関連するデータ構造およびシステムを提供することである。

本発明のなお別の目的は、薬物スクリーニング適用のための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。

本発明の別の目的は、標的の発見および標的の検証のための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。

本発明のさらに別の目的は、調節領域のプロファイリングのための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。

本発明のさらなる目的は、異なる遺伝子の制御プロファイリング間の全ゲノム的または全組織的な関連に構築するための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。

本発明のなおさらなる目的は、多様な既知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドまたは細胞バックグラウンドを理解するための改良された方法、ならびにこの方法に関連するデータの構造およびシステムを提供することである。

本発明のこれらの目的および他の目的は、制御因子結合部位のプロファイリングのための方法において達成される。完全な遺伝子を、遺伝子調節領域をマッピングするためにゲノム上に位置付ける。遺伝子調節領域のゲノム配列を規定し、検索する。検索した遺伝子調節領域の各々のＤＮＡ配列情報を、推定制御因子結合部位を同定するためにスクリーニングする。この推定制御因子結合部位を、プロファイリングする。

本発明の別の実施形態において、同定される結合部位のプロファイリングのための方法は、全ての既知の遺伝子について、プロファイリングされた同定された結合部位を含むデータベースを提供する。確率統計分析が、プロファイリングされた結合部分に適用される。

本発明の別の実施形態において、コンピュータで読み取り可能な媒体に有形的に保存されるデータ構造が提供される。このデータ構造は、プロファイリングされる同定された結合部位を有するデータベースを含む。このプロファイリングされる同定された結合部位は、遺伝子調節領域のＤＮＡ配列情報をスクリーニングすることによって作製される。このデータベースは、遺伝子識別子によって検索可能である。

本発明の別の実施形態において、プロファイリングされた制御因子結合部位を表示するためのシステムを実行するコンピュータは、プロファイリングされた同定された結合部位を含むデータベースを備える。このプロファイリングされた同定された結合部分は、遺伝子調節領域のＤＮＡ配列情報をスクリーニングすることによって作製される。このデータベースは、遺伝子識別子によって検索可能である。ユーザーインターフェースは、１つ以
上の選択可能なユーザーの入力を含んで提供される。入力デバイスは、ユーザーによって操作可能である。ディスプレイが備えられ、これは、プロファイリングされる同定された結合部位に応じて、少なくとも１つの出力を表示する。

（発明の詳細な開示）
（好ましい実施形態の説明）
多様な実施形態において、本発明は、制御因子結合部位を全ゲノム的なプロファイリングする方法、コンピュータで読み取り可能な媒体に有形的に保存されるデータ構造、および関連したシステムを提供する。制御因子結合部位の例としては、転写因子ＮＦ−ｋａｐｐａＢに対する結合部位としての配列ＡＧＧＧＧＡＣＴＴＴＣＣＣＡ（配列番号１）；転写因子Ｅ２Ｆ−１に対する結合部位としての配列ＴＴＴＧＧＣＧＧ（配列番号２）などが挙げられるが、これらに限定されない。

図１および図２のフローチャートを参照すると、本発明の１つの実施形態において、遺伝子調節領域のゲノム配列が検索され、そしてヒトゲノムにマッピングされる。このマッピングした遺伝子に基づいて、各遺伝子に対する最もＴＳＳの５’側の開始位置が同定され、そしてその遺伝子に対応する調節領域が同定される。検索した各遺伝子調節領域に対するＤＮＡ配列情報をスクリーニングし、推定上の制御因子結合部位を同定する。次いで、推定上の制御因子結合部位をプロファイリングする。

データベースから検索した情報は、種々の異なる目的および適用（生物医学的研究、前臨床開発、薬物スクリーニング用途、標的の発見および標的の検証、調節領域のプロファイリング、異なる遺伝子の制御プロファイリング間に全ゲノム的または全組織的な関連を構築すること、多様な既知の転写プロファイリングのゲノムバックグラウンドまたは組織バックグラウンドを理解することなどが挙げられるが、これらに限定されない）のために利用され得る。

図３を参照すると、確率マッピングは、同定された結合部位に適用される。確率マッピングは、全ての遺伝子の調節領域あるいは特定の組織または細胞において発現する遺伝子における、特異的転写制御因子結合部位（例えば、全ての推定上のＥ２Ｆ−１部位）の存在の同定を示す。確率マッピングは、どれほど多くの遺伝子が、特異的制御因子によって転写制御され得るかを表す。また、どれほどの広さの生物学系範囲、全ゲノム範囲、細胞範囲、または全組織範囲で、特異的制御因子が影響をもたらすかを示す。この情報は、治療方法の開発をベースとする生物医学の研究に対して非常に有用である。

本発明の別の実施形態において、全長遺伝子が、遺伝子調節領域のマッピングの目的のためにマッピングされる。本明細書の目的のために、全長は、遺伝子の長さに及ぶことが理解される。このことは、同じ遺伝子の異なるバージョンの転写開始部位のゲノム位置のわずかな移動を引き起こし得る。１つの実施形態において、全ての利用可能な全長遺伝子が、最も５’側のＴＳＳを得るための比較において用いられる。最も５’側のＴＳＳに基づいて、遺伝子の調節領域を規定し、そして遺伝子調節領域のゲノム配列を検索する。ＤＮＡ配列情報を、検索した遺伝子調節領域の各々についてスクリーニングし、推定上の制御因子結合部位を同定する。推定上の制御因子結合部位を、ヒトゲノムにマッピングする。

全長遺伝子を検索し、検索した遺伝子についての配列情報を提供する。検索した遺伝子は、公開の利用可能なＵＣＳＣゲノムブラウザデータベース、自己開発したスクリプトなどにより提供されるツールを用いて、最近更新されたヒトゲノムにマッピングされ得る。１つの実施形態において、転写開始部位がマッピングされる。１つの実施形態において、遺伝子について利用可能な全てのＴＳＳを比較した後、各遺伝子の最も５’側のＴＳＳを
得ることによってＴＳＳがマッピングされる（図２に示す）。

最も５’側のＴＳＳを有する検索した各遺伝子について、調節領域のゲノム配列を、最新のヒトゲノムから検索し得る。５’調節領域は、ＴＳＳの上流配列およびＴＳＳの下流配列である。種々の実施形態において、遺伝子調節領域としては、コアプロモーター領域、上流エンハンサー領域、下流調節領域など（図４に示す）が挙げられるが、これらに限定されない。コアプロモーター領域は、ＴＳＳの２００〜３００塩基上流および約５０〜１００塩基下流を含み得る。

ＴＳＳに関連する対応配列は、切断および保存され得る。ＴＳＳに関連する対応配列は、特定のリリース、より古いリリース、最新のリリースそして将来のリリースに基づいてゲノム配列からの自己開発したスクリプト（ＵＳＣＳゲノムブラウザ、ＮＣＢＩゲノムデータベース、Ｅｎｓｅｍｂｌデータベース、他のゲノム配列データベースなどが挙げられるが、これらに限定されない）を用いて切断および保存され得る。

１つの実施形態において、ＤＮＡ配列情報は、ＴＲＡＮＳＦＡＣデータベースから認可を受けたＭＡＴＣＨプログラムを用いてスクリーニングされ得る。このＤＮＡ配列情報スクリーニングは、ＴＦマトリックス、マトリックス類似性のスコア、コア類似性のスコアなどの選択を含み得る。

カットオフを適用し、スクリーニングの間の偽陽性のマッチングおよび偽陰性のマッチングを減少させる。各結合部位のゲノム頻度またはな各結合部位の組織特異的頻度を決定し得る。この頻度は、以下のうちの少なくとも１つの調節領域における特定のＴＦ結合部位の存在であり得る：（ｉ）全ての遺伝子ゲノム範囲、（ｉｉ）全ての遺伝子細胞範囲、（ｉｉｉ）全ての遺伝子特定の組織範囲、（ｉｖ）特定の規定範囲の全ての遺伝子。この頻度は、組織特異的な遺伝子の調節領域における特定のＴＦ結合部位の存在であり得る。さらに、この頻度はまた、保存スコアまたは発現レベルのスコアで考察され得る。対応する目的で、そして限定せずに、同定された結合部位は、それらの保存スコアまたは遺伝子発現レベルの基いて別々に考慮され得る。例えば、高い保存スコアを有する結合部位または高い発現レベルを有する対応遺伝子は、低いスコアを有する結合部位または遺伝子より重要な役割を担い得る。

各結合部位に対する保存スコアが、作製され得る。この保存スコアは、ＴＦ結合部位が同定される領域ならびに２つの種（マウスおよびヒトが挙げられるが、これらに限定されない）の間の保存レベルを示す他の任意の測定を含むように選択される。各結合部位の位置が、決定され得る。この位置は、ヒトゲノム設計図に基き得る。この位置は、ヒトゲノム設計図における位置を変化させる。より多くの配列断片が加えられる場合、各染色体についての全長が増幅される。このことは、染色体上の各塩基について、読み取り位置を移動させる。しかし、この位置は、容易に変化され得、遺伝子の位置についての調節領域の対する相対的な位置は変えられないままである。ゲノムの開始位置および終結位置が、決定され得る。ＴＳＳまでの各結合領域の距離が決定され得る。この距離は、結合部位とＴＳＳとの間の塩基数に比例する。例示の目的により、そして限定せずに、１つの実施形態において、この距離は、規定された結合部位の間の最後の塩基からＴＳＳの２３塩基までの距離である。この例において、これらの２つの特定の塩基の間には、２３塩基が存在する。

本発明の１つの実施形態において、最も５’側のＴＳＳの位置に基いて、自己開発したコンピュータスクリプトおよびプログラムを用いて、全ての利用可能な遺伝子について最新のヒトゲノム設計図から５’制御配列を検索される。これらの検索された配列としては、各遺伝子についてのＴＳＳの５’側２５０塩基上流および３’側５０塩基下流が挙げら
れるが、これらに限定されない。

全ての調節領域は、認可を受けたＴＲＡＮＳＦＡＣデータベース（ＴＲＡＮＳＦＡＣｐｒｏｆｅｓｓｉｏｎａｌ６．３ｖｅｒｓｉｏｎ，Ｗｉｎｇｅｎｄｅｒら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２９，２８１）によって作製されるウェルで特性付けられた（ｗｅｌｌ−ｃｈａｒａｃｔｅｒｉｚｅｄ）転写因子結合コンセンサス配列パターン（または、位置荷重マトリックス（ｐｏｓｉｔｉｏｎｗｅｉｇｈｔｅｄｍａｔｒｉｘ））を用いて分析され得る。結合マトリックスとの一致する高いスコアを有する部位が、選択される。これらの部位は、ゲノムにおけるそれらの位置（特定のゲノム構築バージョンと関連する）およびそれらの長さおよびそれらの側方の部位との相乗作用情報を含む。

上記の結果から得られる全ての結合部位は、それらの保存スコアとマウスとの比較によってさらに分析される。マウスゲノムおよび関連する保存情報は、公共の利用可能なＮＣＢＩおよびＵＣＳＣゲノムデータベースから検索され、ヒト転写因子結合部位の保存の比較は、自社作製のスクリプトおよびプログラムを用いてなされる。

上記から得られた転写因子結合部位配列情報は、それらのゲノムの位置（開始、終結）、長さ、各遺伝子のＴＳＳまでの距離、および側方の領域（５’側１０塩基および３’側１０塩基の両方が挙げられるが、これらに限定されない）がデータベースに蓄積される。これらの関連した参照（例えば、遺伝名、機能、注釈など）もまた、加えられる。

全ての可能性のある転写デコイが、データベースに基づいて計算的に作製され得る。このデコイは、ハイスループット方法（例えば、結合効率最適化についてのオリゴアレイ、キャピラリー電気泳動など）を用いることによって、さらに実験的にスクリーニングされ得る。全ての最適化されたデコイ情報が、データベースに蓄積される。データベース中におけるその部分的な情報が、データベースのさらなるバージョンにおいて用いられ得る。

遺伝子の調節領域のプロファイリングとしては、以下が挙げられるが、これらに限定されない：（ｉ）各制御因子結合部位の確率マッピング、（ｉｉ）各々の既知の制御因子に対する標的遺伝子の同定、（ｉｉｉ）種々の異なる発現遺伝子から同定された遺伝子の制御因子結合プロファイリングの統計的分析など。

１つの実施形態において、各結合部位の長さが決定される。結合部位に隣接する領域についての配列情報もまた、決定される。再度、例図によって、そして限定なく、１つの例は、大文字において、コア結合部位の側方に小文字を伴うａｇｃｇｔｃａｇａＡＧＧＧＧＡＣＴＴＴＣＣＣａａｇａｇａｇｇｃｃｇａｇａ（配列番号３）である。

他の結合部位の共存情報もまた、確認され得る。転写機構は、通常、いくつかの異なる転写関連タンパク質による複合体の形成を必要とし、そしていくつかの異なるＤＮＡ結合因子を含む。本発明の場合、結合部位は、遺伝子の調節領域についてプロファイリングされ、しばしば１を越える結合部位が、単一の領域から同定される。結合部位の数は、例示の方法で、単一の領域につき、１５個〜２０個であり得る。結合部位のクラスターおよびそれらの位置が、決定され得る。

ここで、図５および図６を参照すると、本発明の別の実施形態は、プロファイリングされた同定された結合部位情報を有するデータベースを含む、コンピュータでの読取り可能な媒体に有形的に保存されるデータ構造である。このデータベースは、識別子を有するコアテーブル、結合部位などを含む。結合部位情報としては、配列、長さ、位置、方向、頻度などが挙げられるが、これらに限定されない。１つの支持表は、全ての遺伝子のＴＳＳの位置を含む。配列表は、遺伝子の調節領域の配列を提供する。さらなる支持表としては
、ＴＦの頻度、各ＴＦに対するＴＦの標的遺伝子などが挙げられるが、これらに限定されない。

全ての表は、１つ以上の識別子によって連結される。１つの実施形態において、１つのパールＣＧＩスクリプトの代わりにいくつかのスクリプトを、データベースに達し、検索し、次いで対応する情報を提示するために使用する。ウェブブラウザインターフェイスが提供される。

データベースは、多様な種々の手段（遺伝子識別子、遺伝子記号、または自己で開発した識別子（ｓｅｌｆ−ｄｅｖｅｌｏｐｅｄｉｄｅｎｔｉｆｉｅｒ）などを含む）により検索可能である。遺伝子識別子は、ＮＣＢＩデータベース（ＵｎｉｇｅｎｅＣｌｕｓｔｅｒＩＤ、ＬｏｕｃｓＬｉｎｋＩＤおよび国際的に承認された遺伝子記号などであり得る）から選択され得るから選択され得る。

１つの実施形態において、このデータベースは、ＴＦについてのゲノム頻度情報を含み、そして少なくとも１つのＴＦ名またはＴＦ頻度によって選別され得る。ＴＦ頻度は、ゲノム頻度および組織特異的頻度を含み得る。１つの特定の実施形態において、このデータベースは、全ての既知の遺伝子（合計約１５，４５０）についての調節因子結合部位のプロファイルを含む。

限定でなく説明の目的で、１つの遺伝子（記号：ＤＬＤ、ジヒドロリポアミドデヒドロゲナーゼ）が、データベースをどのように構築するかを簡単に示すために使用される。

（１．配列情報を提供するための例示遺伝子ＤＬＤに関する完全長遺伝子の検索）
図２に示すように、完全長ｍＲＮＡ配列の３つの異なるバージョンを、ＮＣＢＩデータベース（ｒｅｆｓｅｑ）、ＭＧＣデータベース（ＭＧＣ）、ＪａｐａｎＤＢＴＳＳデータベース（ＤＢＴＳＳ）などから検索し得る。ｒｅｆｓｅｑデータベースから検索した遺伝子ＤＬＤの完全配列（配列番号５９）を、図７に列挙し、ＭＧＣから検索した遺伝子ＤＬＤ完全配列（配列番号６０）を、図８に列挙し、そしてＤＢＴＳＳから検索した遺伝子ＤＬＤ完全配列（配列番号６１）を、図９に列挙した。

（２．検索した遺伝子を、最近更新したヒトゲノムにマッピングする）
自己で開発したスクリプト（ｓｅｌｆ−ｄｅｖｅｌｏｐｅｄｓｃｒｉｐｔ）を、ＵＣＳＣゲノムブラウザデータベースに、上記の検索した配列をフェッチするように使用し、それらのゲノム位置をマッピングする。遺伝子ＤＬＤの検索した異なるバージョンを、公共利用し得るＵＣＳＣゲノムブラウザデータベースの少なくとも１つによって提供される手段を用いて、最近更新されたヒトゲノムにマッピングする。

（３．ＴＳＳの位置をマッピングする）
マッピングした位置を、自己で開発したスクリプトを使用して、上で参照したＵＣＳＣゲノムブラウザデータベースから検索する。マッピングの概要を表１に列挙する。例えば、ＮＢＣＩｒｅｆｓｅｑからの完全長遺伝子ＤＬＤ配列を、第７染色体のセンス鎖またはポジティブ鎖でのヒトゲノムワーキングドラフト（ＵＣＳＣゲノムブラウザによって２００２年、６月に発行された）にマッピングした（染色体位置１０６０１５５１０で開始し、染色体位置１０６０４４３０８で終了）。

（４．遺伝子について全利用可能なＴＳＳを比較した後に、各遺伝子の最も５’側のＴＳＳ（５−ｐｒｉｍｅＴＳＳ）を作製することによって、ＴＳＳをマッピングする）
図２を再び参照して、このマッピングは、自己で作製したスクリプトを使用して促進される。遺伝子ＤＬＤについて、この遺伝子は、第７染色体の「＋」鎖上に位置する。開始位置１０６０１５４８８は、遺伝子ＤＬＤのＴＳＳについて最も５’位置にある。

（５．最も５’側のＴＳＳを有する検索された各遺伝子についての調節領域のゲノム配列を、最近更新されたヒトゲノムから検索する）
５’側の調節領域は、ＴＳＳの上流およびＴＳＳの下流の配列である。より詳細には、遺伝子ＤＬＤについて、調節領域またはコアプロモーター領域は、ＴＳＳの２００〜３００塩基上流を含む配列およびＴＳＳの約５０〜１００塩基下流を含む配列である。従って、遺伝子ＤＬＤのＴＳＳに対応する配列を、自己で開発したスクリプトを使用して、ＵＣＳＣゲノムブラウザまたはＮＣＢＩゲノムデータベースの少なくとも１つから切断し、そして保存する。遺伝子ＤＬＤについて保存した配列（配列番号６２）を、図１０に列挙する。

（６．遺伝子ＤＬＤの調節領域について保存された配列を、マッチプログラムを使用してスクリーニングする）
ＭＡＴＣＨプログラムは、ライセンス化されたＴＲＡＮＳＦＡＣデータベース内に組み込まれた配列分析ツールである。この分析を、スクリーニング中の偽陽性マッチングおよび偽陰性マッチングを減少させるために、マトリクス類似性スコアおよびコア類似性スコアの両方について適切な設定を行う。遺伝子ＤＬＤの調節領域についてのスクリーニング結果を表２に示す。表２は、同定された結合部位の位置を列挙する。

（７．各結合部位のゲノム頻度または組織特異的頻度を決定する）
頻度は、全ての遺伝子または組織特異的遺伝子の、調節領域において特異的なＴＦ結合部位の存在である。全ての遺伝子の調節領域の分析後、この頻度またはＴＦ結合部位の存在確立は、容易に確立される。表３において、これらの頻度情報のいくつかを遺伝子ＤＬＤについて列挙する。

（８．各結合部位についての保存スコアを作成する）
ヒトとマウスとで比較した全ゲノムの保存スコアを、ＵＣＳＣゲノムブラウザデータベースから検索する。この保存スコアを、ＴＦ結合部位が同定される領域をカバーするように選択する。遺伝子ＤＬＤの調節領域において同定したＴＦ結合部位についての保存スコアを、表４に列挙する。

（９．結合部位およびその位置のクラスター化を決定がなされる）
隣接または重なる結合部位を、自己で作成したスクリプトを用いてクラスター化し、そして遺伝子ＤＬＤについて対応する位置およびＴＦを、表５に列挙する。

（１０．結合プロファイルをデータベースに集める）
上に列挙した全ての結合プロファイルを、データベースに集める。遺伝子ＤＬＤについての登録の例示的な列挙を表６に示す。

（１１．データベースは遺伝子識別子によって検索可能である）
図１１は、データベースで使用され得る照会形式の一画面を示す。図１２は、データベース照会結果の一画面を示す。

図１３に示されるように、本発明の別の実施形態は、プロファイリングされた（ｐｒｏｆｉｌｅｄ）調節因子結合部位を提示するためのコンピュータ実施システムである。プロファイリングされた同定された結合部位に応じて、このシステムは、データベース、１つ以上の選択可能なユーザー入力を備えるユーザーインターフェース、ユーザーによって操作可能な入力デバイス、および少なくとも１つの出力を提示するためのディスプレイを備える。

出力の例としては、以下が挙げられるか、これらに限定されない：遺伝子名、識別子、同定されたＴＦ結合部位、ＴＦ名、ゲノム位置、長さ、距離、保存スコア、結合スコア、頻度情報および結合部位配列。入力の例としては、遺伝子記号、ｕｎｉｇｅｎｅｃｌｕｓｔｅｒＩＤ、またはｌｏｃｕｓｌｉｎｋＩＤなどのような遺伝子識別子が挙げられる。

このシステムはまた、メモリ、マイクロプロセッサ、データファイル、スクリプト、利用可能な支援ソフトウェア（ＭＳｗｉｎｄｏｗｓ（登録商標）、ｒｅｄｈａｔｌｉｎｕｘ、ＡｐａｃｈｅＨＴＴＰサーバ、Ｐｅｒｌｃｏｍｐｉｌｅｒプログラムなどが挙げられるが、これらに限定されない）を備える。

本発明の好ましい実施形態の上の記載は、例証および説明の目的で示される。開示される正確な形態に、本発明が網羅されるか、または本発明を限定することは意図されない。明らかに、多くの改変およびバリエーションは、当業者に理解される。本発明の範囲は、添付の特許請求の範囲およびその等価物によって規定されることが意図される。

調節因子結合部位をプロファイリングするための方法が提供される。完全な遺伝子は、遺伝子調節領域をマッピングするためにゲノム上に位置される。遺伝子の最も上流の転写開始部位（ＴＳＳ）のゲノム位置が同定される。遺伝子調節領域のゲノム配列は、同定したＴＳＳに基づいて規定され、そして検索される。検索された各遺伝子調節領域のＤＮＡ配列情報は、推定調節因子結合部位を同定するためにスクリーニングされる。推定調節因子結合部位およびそのゲノムの存在がプロファイリングされる。

図１は、調節因子結合部位をプロファイリングするための本発明の１つの実施形態を示すフローチャートである。図２は、遺伝子（例示的遺伝子Ｘ）の転写調節領域を規定する方法を説明するフローチャートである。図３は、ＴＦ結合部位の頻度の算出を説明するフローチャートである。図４は、コアプロモーター領域が、ＴＳＳの２００〜３００塩基上流および約５０〜１００塩基を含み得ることを示す。図５は、本発明のデータベースの構造の１つの実施形態の記載である。図６は、図５のデータベースを説明するフローチャートである。図７は、ｒｅｆｓｅｑデータベースから検索した遺伝子ＤＬＤの完全な配列（配列番号５９）を列挙する。図８は、ＭＧＣデータベースから検索した遺伝子ＤＬＤの完全な配列（配列番号６０）を列挙する。図９は、ＤＢＴＳＳデータベースから検索した遺伝子ＤＬＤの完全な配列（配列番号６１）を列挙する。図１０は、遺伝子ＤＬＤについての保存した配列（配列番号６２）を列挙する。図１１は、図７のデータベースで用いられ得る照会形式の一画面を示す。図１２は、図５のデータベースから得られたデータベース照会の１つ実施形態の一画面である。図１３は、本発明のシステムの１つの実施形態を図示する。

Claims

明細書に記載の発明。