JP2006078313A - タンパク質の結合位置同定方法 - Google Patents

タンパク質の結合位置同定方法 Download PDF

Info

Publication number
JP2006078313A
JP2006078313A JP2004262045A JP2004262045A JP2006078313A JP 2006078313 A JP2006078313 A JP 2006078313A JP 2004262045 A JP2004262045 A JP 2004262045A JP 2004262045 A JP2004262045 A JP 2004262045A JP 2006078313 A JP2006078313 A JP 2006078313A
Authority
JP
Japan
Prior art keywords
sequence
probe
target
cis
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004262045A
Other languages
English (en)
Other versions
JP2006078313A5 (ja
Inventor
Ayako Fujisaki
綾子 藤崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2004262045A priority Critical patent/JP2006078313A/ja
Priority to US11/190,852 priority patent/US20060051793A1/en
Priority to EP05016591A priority patent/EP1634964B1/en
Priority to DE602005007671T priority patent/DE602005007671D1/de
Publication of JP2006078313A publication Critical patent/JP2006078313A/ja
Publication of JP2006078313A5 publication Critical patent/JP2006078313A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract


【課題】 タンパク質が結合するゲノムDNA上の遺伝子非コード領域を検出する方法を提供する。
【解決手段】 既知のDNAなチップを用いた蛍光強度データを使用し、ゲノムの位置情報、遺伝子間配列情報などから、タンパク質の結合領域の表示を行い、結合領域配列からシスエレメントを検出し、シスエレメントがゲノム上における出現頻度を検出し、その結果を表示し、シスエレメントの偽陽性判定を行なう。
【選択図】 図2

Description

本発明は、DNAチップを用いて、タンパク質が結合するゲノムDNA上の位置を同定するための方法に関する。
遺伝子の発現は、複数のタンパク質がゲノムDNAに対して配列特異的な結合をすることにより調節される。遺伝子発現の調節を調べることは、生物が生まれもつ発生、分化、増殖、加齢の仕組みを探求することに相当する。例えば、アクチベータと呼ばれる転写因子(タンパク質)とゲノム配列との結合は生命を維持するための重要な作用として働いていることが知られている。一般に、転写因子は遺伝子の上流にあるプロモーター領域に結合し、下流の遺伝子の発現を活性化するといわれている。しかしながら、転写因子は必ずしも遺伝子の上流領域に結合するわけではなく、エンハンサーまたはサイレンサーと呼ばれる数百〜千塩基も離れた領域に結合して調節を行なうことも報告されている。
近年、DNAチップの開発によって、生命の遺伝子発現を網羅的に調べることができる方法が確立されてきた。遺伝子(コード領域)の一部分であるcDNA配列またはオリゴヌクレオチドを調製し、それをプローブとして、スライドガラス上に高密度にてスポットする。特定の生物種からmRNAを採取し、それをターゲットとして、プローブに添加し、ハイブリダイゼーションさせる。このようなハイブリダイゼーション技術によって、転写量を網羅的に測定することが可能となった。
特許文献1には、この技術を応用して、タンパク質とDNAの相互作用を解析する方法が記載されている。まず、スライドガラス上に、非コード領域(遺伝子間領域)を複製したDNAをスポットし、非コード領域をプローブとするDNAチップを用意する。一方、in vivoでタンパク質とDNAをホルムアルデヒドで架橋し、細胞を破壊後、特異的な転写因子(タンパク質)を認識する抗体を用いて、クロマチン免疫沈降を行なう。これにより、特定の転写因子が結合可能な非コード領域を含むDNA断片が、ターゲットとして得られる。このDNA断片を蛍光色素で標識し、非コード領域をプローブとして配置したDNAチップに対してハイブリダイゼーションさせる。こうして、転写因子の制御遺伝子を網羅的に調べることができる。
また、特許文献2には、コード領域(遺伝子)をプローブとしてスポットしたDNAチップを使用し、タンパク質の結合領域を特定する方法が記載されている。この方法では、非コード領域とその両側のコード領域の一部を含むDNAをターゲットとして使用する。それにより、隣り合う二つのコード領域の間にタンパク質の結合領域が存在することを限定できるようにした。この方法は、新たに非コード領域をプローブとするDNAチップを作成する必要がなく、実験誤差の生じにくいDNA−タンパク質の結合領域を検出することを可能にする。
また、DNA上のタンパク質結合領域を特定するための方法として、コンピューターを利用した様々な方法が研究されている。統計学的なアプローチを行い、配列解析で結合領域を予測するアルゴリズムが開発されている。
特許文献3には、既知の転写因子の情報を格納したデータベースと配列データベースを利用し、計算効率の良いアルゴリズムを使ってタンパク質結合部位を同定するというプログラムが記載されている。転写因子の結合配列は短く、6塩基から15塩基と認識されている。これらの短い配列を、ゲノムの非コード領域全体で検出すると、無数の偽陽性が存在する。従って、タンパク質結合領域の予測はいかに偽陽性の数を減らすかが重要な課題となる。TRANSFACデータベースという転写因子データベースの既知情報を利用し、統計学的に有意な結合配列を予測することが示されている。
特表2003−508066号公報 特開2003−279568号公報 特表2003−535394号公報
特許文献3に記載された例では、コンピュータのみを用いた統計学的な予測を行い、既知データを反映しているとはいえ、実際のタンパク質の結合領域を包括的に確認しているわけではない。
RNAポリメラーゼが結合するプロモーター領域や、転写調節因子(タンパク質)が結合する遺伝子発現領域をシスエレメントというが、特許文献1および特許文献2では、正確なシスエレメントを特定することはできず、結合領域が推定されるだけである。
DNAチップの技術を応用することで、網羅的に遺伝子調節領域を絞り込むことが可能となるが、これらの実験データから正確にシスエレメントを見出し、解析するための機能を備えたシステムはまだ構築されていない。
本発明の目的は、従来技術の問題点を解決し、非コード領域またはコード領域をスポットしたDNAチップを用いて、DNA−タンパク質の結合領域を検出する方法を提供することにある。
本発明によると、ゲノムDNA上におけるタンパク質の結合位置を同定する方法であって、
DNAチップにスポットするプローブとしてゲノムDNA上の遺伝子非コード領域を含むDNA断片を用意し、ターゲットとして特定のタンパク質が結合するDNA上の遺伝子非コード領域を含むDNA断片を用意し、該ターゲットを該プローブにハイブリダイゼーションさせることにより第1の蛍光強度データを入手することと、
DNAチップにスポットするプローブとしてゲノムDNA上の遺伝子コード領域を含むDNA断片を用意し、ターゲットとして特定のタンパク質が結合するDNA上の遺伝子非コード領域とその両側のコード領域の一部を含むDNA断片を用意し、該ターゲットを該プローブにハイブリダイゼーションさせることにより第2の蛍光強度データを入手することと、
上記第1及び第2の蛍光強度データと上記プローブ及び上記ターゲットに関する情報を入力するデータ入力ステップと、
上記第1及び第2の蛍光強度データ及び上記プローブ及び上記ターゲットに関する情報に基づいて、上記特定のタンパク質が結合するプローブのゲノムDNA上の結合領域を検出し、それをプローブのゲノム配列上に視覚的に表示する結合領域表示ステップと、
上記特定のタンパク質が結合するゲノムDNAにおけるシスエレメントの候補を検出するシスエレメント検出ステップと、
上記シスエレメントがゲノムDNA上の遺伝子非コード領域にて出現する頻度を検出するシスエレメント頻度検出ステップと、
を含む。
本発明によれば、特定のタンパク質が結合するゲノムDNA上の位置、即ち、非コード領域を特定することができる。ある転写因子(タンパク質)が制御する遺伝子を網羅的に検出することは、既知の制御遺伝子の発現変化を調べるだけでなく、未知の遺伝子調節の発見にもなる。そしてさらに、特定のタンパク質が認識する特異的なDNA配列を検出することによって、配列特異的な結合の可能性が高まり、様々な未知遺伝子の転写制御を行っていることが明らかとなる。
先ず、DNAチップまたはDNAマイクロアレイを用いたハイブリダイゼーション実験によりハイブリダイゼーション強度、即ち、蛍光強度を求める方法を説明する。以下に、DNAチップ上に貼り付ける(スライドガラス上にスポットする)DNA断片をプローブ、プローブとハイブリダイゼーションを行なうDNA断片をターゲットと呼ぶことにする。
ここでは、既知の2つの方法を用いて、蛍光強度データを取得する。第1の方法は、特許文献1に記載された方法であり、図1aに模式的に示されている。図1dに示すように、ゲノムDNA10は、エキソンと称するコード領域B1、B2、B3…とイントロンと称する非コード領域A1、A2、A3…からなる。以下に、コード領域を単に遺伝子と称し、随時、非コード領域を遺伝子間領域と称する。
プローブとして、ゲノムDNAの非コード領域A1、A2、A3を使用する。非コード領域A1、A2、A3をスライドガラス上にスポットすることにより、DNAチップ20を作成する。次に、特定の生物体11よりDNA結合タンパク質X12をゲノムDNAに結合させ、クロスリンクさせる。それを、超音波破砕機によって破砕する。得られたDNA断片を、タンパク質Xを特異的に認識する抗体13によって抽出する。次に、クロスリンクを外し、DNA結合タンパク質XをDNA断片から分離する。こうして分離されたDNA断片を蛍光色素によってラベリングすることにより、ターゲットが得られる。このターゲットのDNA断片は、タンパク質X12に結合可能な非コード領域A1、A2、A3を含む。このターゲットをDNAチップのプローブにハイブリダイゼーションさせることにより蛍光強度データが得られる。この蛍光強度データより、以下に説明するように、タンパク質Xの結合位置を同定する。
第2の方法は、特許文献2に記載された方法であり、図1bに模式的に示されている。第2の方法では、プローブとして、ゲノムDNAのコード領域B1、B2、B3を使用する。コード領域B1、B2、B3をスライドガラス上にスポットすることにより、DNAチップ20を作成する。ターゲットのDNA断片は、非コード領域A1、A2、A3と、その両側のコード領域の一部B1、B2を含む。このターゲットを、DNAチップのプローブにハイブリダイゼーションさせることにより蛍光強度データが得られる。この蛍光強度データより、以下に説明するように、DNA結合タンパク質Xの結合領域を同定する。
本例では、更に図1cに示すように、対照試験を行った。対照試験では、特定のタンパク質Xを認識する抗体を使用しないでターゲットを作成した。ターゲットのDNA断片は、コード領域B1、B2、B3からなる。このターゲットを、チップのプローブであるコード領域にハイブリダイゼーションさせ、蛍光強度データを測定した。
図2を参照して本発明のタンパク質の結合位置同定システムの例を説明する。本例のシステムは、中央処理装置200、チップデータベース201、キーボード202、マウス203,表示装置204、プログラムメモリ205を有する。
チップデータベース201は、図1を参照して説明した2つの方法による蛍光強度(ハイブリダイゼーション強度)データと対照試験のブランクデータを格納する。キーボード202及びマウス203は、データ入力や出力のためのインターフェースである。表示装置204は、データ入力や出力のためのインターフェースを提供する、と同時に、各種のプログラムの結果を表示する。中央処理装置200は、プログラムメモリ205に格納されたプログラムを処理する。
プログラムメモリ205は、ゲノムDNA上のタンパク質の結合領域の表示を行なうタンパク質結合領域表示プログラム206、ゲノムDNA上のタンパク質の結合領域の配列をリストで表示するタンパク質結合領域配列表示プログラム207、シスエレメントを検索し、その結果を一覧として表示するシスエレメント検索プログラム208、特定のシスエレメントが指定配列中にどのくらいの頻度で出現するかを検出し、それを表示するシスエレメント頻度検出表示プログラム209、特定のシスエレメントが偽陽性であるかどうかを判定し、それを表示するシスエレメント偽陽性判定プログラム210を備える。
シスエレメント検索プログラム208は、既存のEMアルゴリズムを利用したMEME(Multiple Em for Motif Elicitation)を使用する。シスエレメント偽陽性判定プログラム210は、シスエレメントが複数の配列中に出現する場合、蛍光強度が低い配列中に出現する場合には、偽陽性と判定し、特定のタンパク質がゲノム配列中にて特異的に認識している可能性は少ないと判定する。シスエレメントが1つの配列中に多数出現場合には、陽性と判定し、特定のタンパク質がその配列を調節している可能性が高いと判定する。
図3は、チップデータベース201に格納されたデータの内容を示す。「任意の生物種の染色体ごとのゲノム配列」301は、ユーザが入力するターゲットのゲノム配列であり、例えば表310のような形式のデータベースである。表310は、染色体番号311と、それに対するゲノム配列312を含む。「任意の生物種の染色体ごとの各遺伝子の配列位置」302は、ユーザが入力するターゲットのゲノム配列の位置であり、例えば表306のような形式のデータベースである。表306は、遺伝子番号307、遺伝子の開始位置308、及び、終了位置309を含む。
「各プローブの発現データ」303は、DNAチップ上に搭載された各プローブの蛍光強度(ハイブリダイゼーション強度)であり、ユーザが入力する実験データである。「各プローブの配列」304は、各プローブの塩基配列であり、ユーザが入力する実験データである。「各プローブの詳細情報」305は、プローブがコード領域である場合にその遺伝子のアノテーションなどを指す。これは、必要な場合にユーザが入力する。
「タンパク質結合領域の表示結果」313は、タンパク質結合領域表示プログラム206の実行結果である。「タンパク質結合領域配列の表示結果」314は、タンパク質結合領域配列表示プログラム207の実行結果である。「シスエレメント検索結果」315は、シスエレメント検索プログラム208の実行結果である。「シスエレメント出現頻度検出表示結果」316は、シスエレメント頻度検出表示プログラム209及びシスエレメント偽陽性判定プログラム210の実行結果である。これらのプログラムの実行結果は、ユーザが、必要に応じて格納する。
図4及び図5を参照して、プログラムメモリ205に格納されたプログラムの実行の流れを説明する。図4は、本例のシステムを起動したときに表示装置204に表示される画面400の例を示す。画面400の上部にはプログラムを実行するためのツールボタンが表示されている。ツールボタンは、データ入力ボタン401、前処理及び標準化ボタン402、結合領域表示ボタン403、結合領域配列表示ボタン404、シスエレメント検索ボタン405、シスエレメント出現頻度検出表示ボタン406、及び、シスエレメント偽陽性判定ボタン407を有する。
本例のシステム起動後、ステップ500にて、ユーザは、データ入力ボタン401をクリックし、蛍光強度のデータを入力する。更に、図3に示した各種のデータを入力する。画面400の左側には、データのツリーを表示するショートカット408が表示される。画面の右側には、入力データのリスト409〜412が表示される。このリストは、DNAチップ上の各プローブを一意に表すプローブID409、プローブの配列410、蛍光強度411、プローブの染色体(ゲノム配列)上の位置412を含む。ステップ501にて、ユーザが、前処理及び標準化ボタン402をクリックすると、入力した蛍光強度のデータが処理される。
次に、任意のタンパク質Xがゲノム配列中のどの部分に結合したかを視覚的に表示する場合には、ステップ502にて、ユーザは、結合領域表示ボタン403をクリックする。それによりタンパク質結合領域表示プログラム206が実行される。更に、任意のタンパク質Xが結合したゲノム配列中の配列のリストを表示する場合には、ステップ503にて、ユーザは、結合領域配列表示ボタン404をクリックする。それにより、タンパク質結合領域配列表示プログラム207が実行される。こうして、ゲノム配列中において、タンパク質Xが結合した領域を特定することができる。
タンパク質Xが、結合領域中のどのシスエレメントを認識して結合したのかを調べる場合には、ステップ504にて、ユーザは、シスエレメント検索ボタン405をクリックする。それによりシスエレメント検索プログラム208が実行され、結合領域の中に共通して現れる短い配列(シスエレメント)が検索される。
さらに、シスエレメント検索結果から、特定のシスエレメントのゲノム配列中の出現頻度を調べる場合には、ステップ505にて、ユーザは、シスエレメント出現頻度検出表示ボタン406をクリックする。それによりシスエレメント出現頻度検出表示プログラム209が実行される。特定のシスエレメントが偽陽性であるかどうかを判定する場合には、ステップ506にて、ユーザは、シスエレメント偽陽性判定ボタン407をクリックする。それによりシスエレメント偽陽性判定プログラム210が実行され、シスエレメントの偽陽性判定が実行される。
図6は、ステップ502にて、ユーザが、結合領域表示ボタン403をクリックしたときに、表示される画面600を示す。結合領域表示ボタン403をクリックすることにより、タンパク質結合領域表示プログラム206が実行される。この画面600は、タンパク質結合領域の表示の条件設定ダイアログを表す。条件設定ダイアログは、表示データ601及びプルダウンメニュー602を有する。ユーザは、プルダウンメニュー602を操作することにより、既に入力されているデータ408のリストを表示する。ユーザは、表示された情報のリストより、表示データを選択する。
表示データ601及びプルダウンメニュー602の下には、色表示設定603が設けられ、蛍光強度を所定の色のグラデーションによって表示するバー604が表示されている。このバー604の下側には、グラデーションを数値に表した場合の最小値605、平均値606、最大値607が付加されている。これらの値605〜607には、当初、入力されたデータから求めた平均値がデフォルトとして設定されている。ユーザは数値605〜607の値を直接変更することによって、色調を変更することができる。
閾値608は、ハイブリダイゼーションが十分に行なわれなかったと判断するために用いる蛍光強度の下限を示す。蛍光強度が閾値以下の場合には、そのプローブIDはタンパク質結合領域の候補より除去する。閾値以下のデータを持つプローブIDに対して、図10〜図11のプログラム処理による色表示を行なわない。
尚、ユーザは、「タンパク質の結合領域の表示」609と「プローブに対するハイブダイゼーション状態の表示」610のいずれかを選択することができる。
非コード領域のプローブを使用する図1aの実験では、ハイブリダイゼーションによってタンパク質の結合領域(非コード領域)が明らかになる。従って、ユーザは、「タンパク質の結合領域の表示」609を選択する。
コード領域のプローブを使用する図1bの実験では、ハイブリダイゼーションがコード領域で起こるため、蛍光強度が直接的にタンパク質の結合領域(非コード領域)を表すわけではない。従って、ユーザは、「プローブに対するハイブリダイゼーション状態の表示」610を選択する。しかしながら、隣り合うコード領域の蛍光強度が閾値以上である場合には、「タンパク質の結合領域の表示」609を選択してよい。この場合、蛍光強度が閾値以上である2つのコード領域の非コード領域をタンパク質結合領域として表示する。
図7は、ユーザが、図6の画面の「タンパク質の結合領域の表示」609を選択した場合に表示される画面700を示す。画面700の左側には、図3の表310のターゲットのゲノム702及びそれに含まれる染色体番号703が表示される。画面700の右側には、ターゲットの生物種704、染色体番号705、及び、プローブのゲノム配列706が表示される。ゲノム配列706は、左から右に向かって5’から3’の向きに並んでいる。図7では、3行のゲノム配列が並んで表示されているが、1行目の右端の続きは、2行目の左端であり、2行目の右端の続きは、3行目の左端である。一画面に1プローブの全てのゲノム配列706を表示できない場合は、インターフェースを設け、次の画面に移行するためのGUIを用意してもよい。
図3の表306のターゲットの遺伝子番号307、遺伝子の開始位置308、及び、終了位置309から、コード領域707の位置を特定し、そこに、ターゲットの遺伝子番号307を表示する。非コード領域709に図4のプローブID409を表示する。図4の蛍光強度411の値を図6の閾値608と比較し、閾値を超えている場合には、その非コード領域708、709を図6の色表示設定603にて設定された色によって表示する。
図8は、ユーザが図6の画面の「プローブに対するハイブリダイゼーション状態の表示」610を選択した場合に表示される画面800を示す。上述のように、ユーザが「プローブに対するハイブリダイゼーション状態の表示」610を選択するのは、図1bの実験を行なった場合である。
画面800の左側には、図3の表310のターゲットのゲノム802及びそれに含まれる染色体番号803が表示される。画面800の右側には、ターゲットの生物種804、染色体番号805、及び、プローブのゲノム配列806が表示される。ゲノム配列806は、左から右に向かって5’から3’の向きに並んでいる。3行のゲノム配列が並んで表示されているが、1行目の右端の続きは、2行目の左端であり、2行目の右端の続きは、3行目の左端である。
図1bの実験では、コード領域をプローブとしてハイブリダイゼーションを行なうため、プローブのゲノム配列上のコード領域807、808の位置が特定される。コード領域807、808の下側には、コード領域名とターゲットの遺伝子番号809が表示される。
図4の蛍光強度411の値を図6の閾値608と比較し、閾値を超えている場合には、そのコード領域807、808を図6の色表示設定603にて設定された色によって表示する。
図9はツールボタン上の結合領域配列表示ボタン901をクリックした場合に表示される画面900を示す。画面900の左側には、図3の表310のターゲットのゲノム902及びそれに含まれる染色体番号903が表示される。画面900の右側には、図3の「たんぱく質結合領域の表示結果」313の情報が表示される。図1aの実験を行なった場合には、タンパク質が結合した非コード領域が表示される。プローブID904、結合領域であるプローブの配列の開始位置905及び終了位置906を表示する。更に、非コード領域の下流の遺伝子名907、開始位置905から終了位置906までの、染色体上の塩基配列908を表示する。
図10は、図1aの実験によって蛍光強度データを入手した場合に、タンパク質結合領域表示プログラム206の処理の流れを示す図である。ステップ1000にて、図7の画面700上に、ターゲットのゲノム702を表示し、図3の表310の染色体番号311を抽出し、染色体番号703を設定する。ステップ1001にて、各染色体番号703に対するゲノム配列は表310の染色体311に対するゲノム配列312の情報を使用する。ゲノム配列706を、一行の長さが規定値、例えば5千から1万bpとなるように、表示する。ステップ1002にて、各染色体の遺伝子情報は、表306の遺伝子307の情報を使用する。図3の表306の開始点308及び終了点309に基づいて、遺伝子707の描画を行なう。遺伝子707の下側に、遺伝子名307も表示する。
ステップ1003にて、各プローブIDに対して蛍光強度をゲノム上に割り当てて表示する。そのため、Probe IDという変数を設定し、1番目からN番目までデータの位置を決定し、蛍光強度による閾値判定を行い、指定された色による表示を行なう。タンパク質の結合領域であると判定されたプローブIDを、その位置情報と下流の遺伝子名とともに図3のデータ領域313に保存する。Probe IDを1に設定する。
ステップ1004にて、処理の対象であるProbe ID の番号が、Probe IDの全データ数Nより小さいか否かを判定し、Nより小さい場合には、次のステップ1005に進む。
ステップ1005にて、Probe ID 409のプローブのゲノム配列上の位置412に該当する染色体番号311を表310より取り出し、そのゲノム配列312とプローブIDの配列410を用意する。ステップ1006にて、ターゲットのゲノム配列312に対してプローブIDの配列410をマルチプルアライメントのプログラムによって実行する。その結果、スコアの最も高いプローブIDの配列410におけるターゲットのゲノム配列312の開始位置をIndata_startとして、終了位置をIndata_endとして決定する。
ステップ1007にて、Probe IDに対する蛍光強度411が閾値608よりも大きいかどうかを判定する。蛍光強度411が閾値608を越えた場合は、ステップ1008に進む。
ステップ1008にてIndata_start、Indata_endの位置に対して蛍光強度411の値を指定色で描画する。Probe IDも表示する。Probe IDに対するIndata_start、Indata_endの値、下流の遺伝子名を図3のデータ313に保存する。蛍光強度411が閾値608を閾値を越えなかった場合、または閾値を越えて描画、保存処理が終了すると、次のプローブに対して同様の処理を行なう。
図11は、図1bの実験によって蛍光強度データを入手した場合に、タンパク質結合領域表示プログラム206の処理の流れを示す図である。図10のステップ1000からステップ1003までは同じ処理を行なう。ステップ1003の後は、図11のステップ1100から1112までを実行する。ここでは、ステップ1100から1112までを説明する。
ステップ1100にて、処理の対象であるProbe ID の番号が、Probe IDの全数Nより小さいか否かを判定し、Nより小さい場合には、次のステップ1005に進む。
ステップ1101にて、Probe ID 409に対するプローブのゲノム配列上の位置412に該当する染色体番号311に対して、ゲノム配列312とプローブIDの配列情報410を用意する。ステップ1102にて、ターゲットのゲノム配列312に対するプローブIDの配列情報410をマルチプルアライメントのプログラムによって実行し、その結果スコアの最も高いプローブIDの配列情報410のゲノム配列312の開始位置をIndata_startとして、終了位置をIndata_endとして決定する。
ステップ1103にて、ユーザが、図6の「タンパク質の結合領域の表示」609と「プローブに対するハイブダイゼーション状態の表示」610のどちらを選択したかを判定する。「タンパク質の結合領域の表示」609を選択した場合には、ステップ1104に進む。「プローブに対するハイブダイゼーション状態の表示」610を選択した場合には、ステップ1105に進む。
ステップ1105にて、蛍光強度411が閾値608の値よりも大きいか否かを判定する。蛍光強度411が閾値608の値よりも大きい場合は、ステップ1106に進み、蛍光強度411が閾値608の値よりも大きくない場合は、ステップ1112に進む。
ステップ1106にて、Indata_startおよびIndata_endの位置に対して蛍光強度411の値を指定色で描画する。Probe IDも表示する。
ステップ1104にて、蛍光強度411が閾値608の値よりも大きいか否かを判定する。蛍光強度411が閾値608の値よりも大きい場合は、ステップ1107に進み、蛍光強度411が閾値608の値よりも大きくない場合は、ステップ1103に進む。ステップ1103にてFlagを0に設定する。
ステップ1107にて、変数Flagに1を加える。Probe IDが1番目の場合はFlagを1に設定する。ステップ1108にて、Flagが2であるかどうかを判定する。Flagが2でない場合は、ステップ1111にて、Indata_startの値を変数Pre_startに設定し、Indata_startの値を変数Pre_endに設定し、蛍光強度411の値をPre_dataに設定する。
Flagが2の場合、つまり一つ前のProbe IDのハイブリダイゼーションによる蛍光強度が閾値を超え、かつ次のProbe IDの蛍光強度が閾値を超えた場合、ステップ1109に進む。ステップ1109にてPre_endを開始とし、Indata_startを終了とし、この位置に蛍光強度411の値とPre_dataの値の平均値を指定色で描画する。Probe IDも表示する。Probe IDに対するPre_endとIndata_start、下流のGene名を保存する。
ステップ1110にて、Flagを1に設定し、ステップ1111に進み、現在のProbe IDのIndata_startおよびIndata_endをPre_start、Pre_endに設定する。蛍光強度411の値もPre_dataとする。ステップ1112で次のProbe IDに移行し、最初のステップ1101からの処理を繰り返す。
図12は、タンパク質結合領域配列表示プログラム207の処理の流れを示す図である。ステップ1200にて、図10のステップ1008または図11のステップ1109で保存したデータを用いて図9の画面900の左側の染色体番号のリストを表示する。最初にProbe IDを1に設定する。
ステップ1201にて、処理の対象であるProbe ID の番号が、Probe IDの全数Nより小さいか否かを判定し、Nより小さい場合には、次のステップ1203に進む。
ステップ1203にて、図9の画面900のProbe ID904、Probe ID904における結合領域の開始位置905、及び、終了位置906を表示する。ステップ1204にて、Gene名907を表示する。ステップ1205にて、Probe IDのゲノム配列上の位置412から、染色体311に対するゲノム配列312の配列情報を取り出し、染色体上の塩基配列908を表示する。ステップ1206にて、次のProbe IDに関して同じステップを繰り返す。
図13は、ユーザが、シスエレメント検索ボタン405をクリックしたときに、表示される画面1300を示す。シスエレメント検索ボタン405をクリックすることにより、シスエレメント検索プログラム208が実行される。この画面1300は、シスエレメント検索の条件設定ダイアログを表す。検索配列1301には、シスエレメント(モチーフ配列)を検索する対象である配列を入力する。例えば、複数の遺伝子の上流の配列を入力する。通常のDNAチップの実験データから得られた特異的な遺伝子グループの上流配列を使って、モチーフ配列を抽出することも可能である。図9の画面900にて結合領域の下流の遺伝子名907とその配列908が表示されている場合には、それを選択してもよい。
共通検出件数1302には、3つの選択肢が表示されている。各検索対象配列に対して、1つ以上のシスエレメント(モチーフ配列)を検出する場合、0または1つ以上のシスエレメント(モチーフ配列)を検出する場合、いかなる反復も許す場合である。モチーフ検出最大数1303には、全ての検索対象配列に共通して検出するシスエレメント(モチーフ配列)の最大数を指定する。サイト検出数1304は、一つの検索対象配列に対していくつのシスエレメント(モチーフ配列)を検出するかを指定するための設定項目である。モチーフ配列の長さ1305は、検索するシスエレメントの長さを指定するための設定項目である。サイト検出数1304及びモチーフ配列の長さ1305にて設定可能な数値は、2から100までであり、それ以外の値が入力された場合は、エラーメッセージを表示する。
図14は、図13の画面1300の入力が完了したときに表示される画面1400を示す。画面1400には、シスエレメント検索結果が表示される。シスエレメント検索結果は、モチーフ番号1402、モチーフ配列の長さ1403、モチーフ配列1404が含まれる。これらのリストより1行を選択し、クリックすると、図15に示すように、その詳細が別のウィンドウにて表示される。
図15は図14の画面1400にて表示されたシスエレメント検索結果の中から選択されたものについて、詳細データを3つのイメージで表示した例である。シスエレメントを検索するプログラムはEMアルゴリズムを利用したMEMEを使用する。このアルゴリズムを利用することにより、複数の配列データに共通して含まれる短いモチーフ配列を統計的に抽出することが可能となる。このMEMEに準拠した表示方法と同じスタイルで詳細結果を提供する。
画面1500は、モチーフ配列の塩基の出現頻度の棒グラフ1505を示す。横軸1504は、塩基配列、縦軸1503は、E-Value(期待値)の値である。
画面1501は、モチーフ配列が、検索対象の配列中のどの位置に存在するかを示す表である。この表は、検索対象の配列を一意に表すプローブID1506、モチーフ配列がどの向きで存在したかを表すストランド1507、検索対象の配列におけるモチーフ配列の開始位置1508、モチーフのP-Value(有意確率) 1509、モチーフ配列及びその前後10塩基1510を示す。ストランド1507の+プラスは、5’から3’方向へ、−マイナスはその逆を示す。
画面1502は、検索対象の配列におけるモチーフ配列の位置を視覚的に表現したもので、基本的には画面1501の内容と同一である。画面1502は、プローブID 1511、モチーフのP-Value1512、検索対象の配列1513、及び、モチーフ配列1514を含む。
図16はシスエレメント検索プログラム208の処理の概略を示す図である。上述のように、シスエレメント検索プログラム208はMEMEプログラムに準拠する。ステップ1600にて、モチーフ配列を検索するための検索対象の配列を指定する。ここでは、図9の画面900に表示された結合領域リストの全配列を検索配列とする。尚、図13の画面1300の検索配列1301に入力された配列を検索配列としてもよい。次に、ステップ1601にて、全ての検索対象の配列に共通して含まれるモチーフ配列を検索する。検索条件は、図13の画面1300にて指定したように、モチーフ検出最大数1303、各検索配列に含まれるサイト検出数1304 、モチーフ配列の長さ1305等である。
ステップ1602にて、検索結果として得られたシスエレメントを表示する。図14に示したように、モチーフ番号1402、モチーフ配列の長さ1403、モチーフであるシスエレメントの配列1404を表示する。ステップ1603にて、ユーザが、特定のモチーフ配列を選択したか否かを判定する。ユーザが特定のモチーフ配列を選択した場合には、以下に説明するように、ユーザが選択したモチーフ配列に関する情報を表示する。
ステップ1604では、図15の画面1500を表示する。ステップ1605では、図15の画面1501を表示する。ステップ1606では、図15の画面1502を表示する。
図17はユーザが、図14の画面1400のシスエレメント出現頻度検出表示ボタン1405をクリックしたときに、表示される画面1700を示す。シスエレメント出現頻度検出表示ボタン1405をクリックすることにより、シスエレメント頻度検出表示プログラム209が実行される。この画面1700は、シスエレメント頻度検出及び偽陽性判定の条件設定ダイアログを表す。
検索配列1701は、出現頻度を検出する対象のモチーフ配列(シスエレメント)である。画面1700を表示させると、自動的に、図14の画面1400のモチーフ配列1404のリストが表示される。ユーザが、図14の画面1400のモチーフ配列1404のリストから複数行を選択することによって入力してもよい。画面1700は、検索データ1703及びプルダウンメニュー1704を有する。ユーザは、プルダウンメニュー1704を操作することにより、既に入力されているデータより検索対象のデータを表示する。上流1705は、遺伝子上にて、結合領域より上流の塩基対を指定する項目である。500と入力した場合は、上流500塩基対が検索対象となる。
画面1700の下方には、偽陽性判定基準の入力ダイアログが表示されている。偽陽性判定を行なう場合は、3つの基準のいずれかを指定する。第1の基準1708は、検索対象配列全体の指定割合以上出現したモチーフ配列を偽陽性とみなす。第2の基準1709は、データが指定値以下の配列に指定値割合以上出現したモチーフ配列は偽陽性とみなす。第3の基準1710は、一つの配列の中に指定値以上モチーフ配列が存在するものを陽性とみなす。
第1の基準によると、検索した全遺伝子の上流に対し、例えば80%以上出現したモチーフ配列は頻度が高すぎる。従って、タンパク質Xが特異的に認識するための配列とみなすことは難しく、偽陽性とみなす。第2の基準によると、蛍光強度が低いデータの中に高い頻度で含まれていたモチーフ配列は、タンパク質Xが特異的に認識したものとは考えにくい。従って、このような場合は、偽陽性とみなす。第3の基準によると、一つの上流配列の中に高頻度でモチーフ配列が存在する場合は、タンパク質Xがその配列を調節している可能性が高いため、陽性とみなす。
図18aはシスエレメント出現頻度検出表示プログラムを実行することによって得られたシスエレメント出現頻度表1800の例を示す。シスエレメント出現頻度表1800は、遺伝子名1803、コンセンサス配列1804〜1806を含む。遺伝子名1803の先頭1802には、図9の画像900に表示されたタンパク質結合領域であると判定された遺伝子の上流領域に該当する場合に、マークが表示される。マークが表示されている場合、モチーフ配列は、遺伝子名1803の項目に表示されている遺伝子を制御している可能性が高いことを表している。コンセンサス配列1804〜1806は、図17の画面1700の検索配列1701にて指定されたモチーフ配列が各遺伝子名1803の遺伝子の上流領域に含まれているかを表している。図示のように、各遺伝子名1803の遺伝子の上流領域に指定した複数の配列がある場合は、それを表示する。モチーフ配列(シスエレメント)をIUPAC表示(IUPAC : International Union of Pure and Applied Chemistry)によって指定した場合は、その曖昧表示となっている部分は太字で表すことができる。このような表示を行なうことにより、検索データの結合領域および結合配列の出現頻度を一度に認識することが可能となる。
シスエレメント出現頻度表1800の全行は、昇順ソートおよび降順ソートが可能である。例えばマーク1802によって昇順ソートを実行すると、図18bに示す偽陽性判定表1801が得られる。偽陽性判定表1801の第1列1807は、マーク1802の分布を示す。色の濃さは、マークの密度を模式的に示したものである。
第1列1807の上側は濃い色が表示され下側では薄い色が表示されている。従って、タンパク質Xの結合領域が偽陽性判定表1801の上部に集まっていることを示す。偽陽性判定基準として、図17の第2の基準1710を設定した場合、特定の遺伝子上流領域を表すセルが青で表示される。コンセンサス1の列1809は、上側にて青色が濃く表示され、下側にて青色が薄く表示されている。一方、コンセンサス2,3の列1810、1811では、上側と下側では、青色の濃度は一様である。従って、コンセンサス1は、コンセンサス2,3よりも、タンパク質Xが特異的に認識しているシスエレメントである可能性が高いことが判る。
図19はシスエレメント出現頻度検出表示プログラムの処理の概略を示す図である。シスエレメント出現頻度検出表示プログラムは、図17の画面1700にて設定された条件に従って、モチーフ配列(シスエレメント)が全遺伝子の上流配列にどのくらいの頻度で出現しているかを検出する。ステップ1900にて、初期設定としてMotif=1、Gene=1とする。Motif=1 は、図17の画面1700の検索配列1701中の1番目の配列、Gene=1は検索データ1704の遺伝子の1番目を表している。ステップ1901にて、MotifがNより大きい否かを判定する。MotifがNより大きい場合には、このプログラムの処理を終了し、MotifがNより大きくない場合には、ステップ1902に進む。Nは検索配列1701に設定された配列数である。ステップ1902にて、Gene がMより大きい否かを判定する。Gene がMより大きい場合には、ステップ1911に進み、次の配列の処理を行なう。Gene がMより大きくない場合には、ステップ1903に進む。
ステップ1903にて、図3のチップデータベース201より、Gene307に対してStart308より−500塩基対の位置からStartまでの配列をゲノム配列312から取得し、これを検索対象配列とする。ステップ1904にて、Motif配列が検索対象配列内に含まれているかどうかをマルチプルアライメントで検索する。ステップ1905にて、モチーフ配列が含まれている場合は、ステップ1906に進み、モチーフ配列が含まれていない場合は、ステップ1910に進み、次のGene307の処理を行なう。
ステップ1906にて、Motif配列を含む遺伝子名1803をすべて表示する。ステップ1907にて、Motif配列を含む遺伝子名1803を、図9の画面900の結合領域の下流の遺伝子名907の列に対して検索する。ステップ1908にて、Motif配列を含む遺伝子名1803が、結合領域の下流の遺伝子名907にある場合には、ステップ1909に進み、ない場合には、ステップ1910に進み、次のGeneの処理を行なう。ステップ1909にて、該当する遺伝子の左の列1802にマークを表示する。
ステップ1903から1909の処理を、検索データ1704の全ての遺伝子に対して行う。さらに、これらの処理を、検索配列1701中の全てのモチーフ配列に対して行う。
図20は偽陽性判定プログラムの処理の概略を示す図である。ステップ2000にて、図17の画面1700の偽陽性判定基準の第1の基準から第3の基準のいずれかが選択されているか否かを判定する。即ちチェックマーク1707が記入されているか否かを判定する。偽陽性判定基準が設定されていない場合には、このプログラムの処理を終了する。
ステップ2001にて、対象配列に検索配列が一つ以上見つかった場合は、それを1とし、見つかった数/対象配列の数が指定割合以上だったとき、その検索配列シスエレメントを偽陽性と判定する。
ステップ2002にて、指定発現データよりも低い対象配列に対して、検索配列が一つ以上見つかった場合、それを1とし、見つかった数/対象配列の数が指定割合以上だった場合も、検索配列を偽陽性と判定する。ステップ2004にて、偽陽性と判定された配列を赤で表示する。
ステップ2003にて、また、一つの対象配列の中に検索配列が指定数以上含まれている場合には、その検索配列を陽性と判定する。ステップ2005にて、陽性と判定された配列を青で表示する。
以上、本発明の例を説明したが、本発明は上述の例に限定されるものではなく、特許請求の範囲に記載された発明の範囲にて様々な変更が可能であることは当業者に理解されよう。
DNAチップを用いてハイブリダイゼーション強度を測定する方法の例を説明するための説明図である。 本発明のタンパク質の結合位置同定システムの概略を示す図である。 チップデータベースのデータの種類とデータ構造の例を示す図である。 表示装置に表示されたデータ入力後の画面の例を示す図である。 本発明のプログラム全体の処理の流れを示す図である。 タンパク質結合領域表示プログラムを実行するための設定ダイアログを示す図である。 タンパク質結合領域表示プログラムの実行結果の第1の表示例を示す図である。 タンパク質結合領域表示プログラムの実行結果の第2の表示例を示す図である。 タンパク質結合領域リスト表示プログラムの実行結果の表示例を示す図である。 タンパク質結合領域表示プログラムの処理の流れの例を示す図である。 タンパク質結合領域表示プログラムの処理の流れの他の例を示す図である。 タンパク質結合領域リスト表示プログラムの処理の流れを示す図である。 シスエレメント検索プログラムを実行するための設定ダイアログを示す図である。 シスエレメント検索プログラムの実行結果の表示例を示す図である。 シスエレメント検索プログラムの実行結果の詳細の表示例を示す図である。 シスエレメント検索プログラムの処理の流れを示す図である。 シスエレメント出現頻度検出表示プログラムを実行するための設定ダイアログを示す図である。 シスエレメント出現頻度検出表示プログラムの実行結果の表示例を示す図である。 シスエレメント出現頻度検出表示プログラムの処理の流れを示す図である。 シスエレメント偽陽性判定プログラムの処理の流れを示す図である。
符号の説明
200…中央処理装置、201…チップデータデータベース、202…キーボード、203…マウス、204…表示装置、205…プログラムメモリ、206…タンパク質結合領域表示プログラム、207…タンパク質結合領域配列表示プログラム、208…シスエレメント検索プログラム、209…シスエレメント出現頻度検出表示プログラム、210…シスエレメント偽陽性判定プログラム、306…任意の染色体に含まれる遺伝子のゲノム配列上の位置情報、310…任意の生物種における染色体毎のゲノム配列

Claims (11)

  1. ゲノムDNA上におけるタンパク質の結合位置を同定する方法であって、
    DNAチップにスポットするプローブとしてゲノムDNA上の遺伝子非コード領域を含むDNA断片を用意し、ターゲットとして特定のタンパク質が結合するDNA上の遺伝子非コード領域を含むDNA断片を用意し、該ターゲットを該プローブにハイブリダイゼーションさせることにより第1の蛍光強度データを入手することと、
    DNAチップにスポットするプローブとしてゲノムDNA上の遺伝子コード領域を含むDNA断片を用意し、ターゲットとして特定のタンパク質が結合するDNA上の遺伝子非コード領域とその両側のコード領域の一部を含むDNA断片を用意し、該ターゲットを該プローブにハイブリダイゼーションさせることにより第2の蛍光強度データを入手することと、
    上記第1及び第2の蛍光強度データと上記プローブ及び上記ターゲットに関する情報を入力するデータ入力ステップと、
    上記第1及び第2の蛍光強度データ及び上記プローブ及び上記ターゲットに関する情報に基づいて、上記特定のタンパク質が結合するプローブのゲノムDNA上の結合領域を検出し、それをプローブのゲノム配列上に視覚的に表示する結合領域表示ステップと、
    上記特定のタンパク質が結合するゲノムDNAにおけるシスエレメントの候補を検出するシスエレメント検出ステップと、
    上記シスエレメントがゲノムDNA上の遺伝子非コード領域にて出現する頻度を検出するシスエレメント頻度検出ステップと、
    を含むタンパク質の結合位置同定方法。
  2. 更に、上記特定のタンパク質が結合するゲノムDNA上の遺伝子非コード領域の塩基配列のリストを表示するリスト表示ステップを含むことを特徴とする請求項1記載のタンパク質の結合位置同定方法。
  3. 上記結合領域表示ステップは、上記第1の蛍光強度データを用い、上記ターゲットのゲノム配列に対して上記プローブの配列のマルチプルアライメントを実行し、上記プローブの配列上における上記ターゲットのゲノム配列の位置を特定することと、上記特定した位置における上記プローブの配列の蛍光強度を閾値と比較し、閾値より大きいときに、上記プローブの配列の非コード領域を特定の色によって視覚的に表示することと、を含むことを特徴とする請求項1記載の結合位置同定方法。
  4. 上記結合領域表示ステップは、上記第2の蛍光強度データを用い、上記ターゲットのゲノム配列に対して上記プローブの配列のマルチプルアライメントを実行し、上記プローブの配列上における上記ターゲットのゲノム配列の位置を特定することと、上記特定した位置における上記プローブの配列の蛍光強度を閾値と比較し、閾値より大きいときに、上記プローブの配列の非コード領域の両側のコード領域を特定の色によって視覚的に表示することと、を含むことを特徴とする請求項1記載のタンパク質の結合位置同定方法。
  5. 上記データ入力ステップにて入力する上記プローブに関する情報は、上記プローブの塩基配列、及び、上記プローブのゲノムDNA上の位置情報を含み、上記ターゲットに関する情報は、実験に使用した生物種の染色体毎のゲノム配列、染色体毎の遺伝子コード領域の位置を含むことを特徴とする請求項1記載のタンパク質の結合位置同定方法。
  6. 上記シスエレメント頻度検出ステップでは、EMアルゴリズムを利用したMEME(Multiple Em for Motif Elicitation)を用い、シスエレメント検索最大数、シスエレメントの長さ、及び、一つの検索配列に含まれるサイト数を含む条件に合ったシスエレメントを検索することを特徴とする請求項1記載のタンパク質の結合位置同定方法。
  7. 更に、上記シスエレメント頻度検出ステップによって得られた特定のシスエレメントの出現頻度に基づいて各シスエレメントの偽陽性の判定を行なう偽陽性判定ステップと、
    を有することを特徴とする請求項1記載のタンパク質の結合位置同定方法。
  8. 上記偽陽性判定ステップでは、検索対象のシスエレメントが一つ以上含まれる配列を対象配列より検出し、該検出した配列数が対象配列に対して指定割合以上の場合には、そのシスエレメントを、偽陽性と見なすステップと、指定された蛍光強度よりも低い蛍光強度の対象配列に対して、検索対象のシスエレメントが一つ以上含まれる配列を検出し、該検出した配列数が対象配列に対して指定割合以上の場合には、そのシスエレメントを、偽陽性と見なすステップと、一つの対象配列の中に検索対象のシスエレメントが指定数以上含まれる場合は、そのシスエレメントを陽性と見なし、上記特定のタンパク質がその配列を調節していると判定することを特徴とする請求項7記載のタンパク質の結合位置同定方法。
  9. 上記偽陽性判定ステップは、上記偽陽性と判定されたシスエレメントと上記陽性と判定されたシスエレメントを異なる色で表示することを含むことを特徴とする請求項8記載のタンパク質の結合位置同定方法。
  10. 上記偽陽性判定ステップでは、遺伝子名、遺伝子の上流に含まれる検索配列を含むシスエレメント出現頻度表を生成し、該シスエレメント出現頻度表の各列は、行を昇順ソート又は降順ソートすることによって、制御遺伝子の判定を行った結果とシスエレメントの偽陽性判定が色のグラデーションによって表示することを特徴とする請求項7記載のタンパク質の結合位置同定方法。
  11. 請求項1〜10のいずれか1項記載のタンパク質の結合位置同定方法をコンピュータに実行させるためのコンピュータに読み取り可能なプログラム。
JP2004262045A 2004-09-09 2004-09-09 タンパク質の結合位置同定方法 Pending JP2006078313A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004262045A JP2006078313A (ja) 2004-09-09 2004-09-09 タンパク質の結合位置同定方法
US11/190,852 US20060051793A1 (en) 2004-09-09 2005-07-28 Method for determining protein binding sites
EP05016591A EP1634964B1 (en) 2004-09-09 2005-07-29 Method for determining protein binding sites in genomic DNA
DE602005007671T DE602005007671D1 (de) 2004-09-09 2005-07-29 Verfahren zur Bestimmung von Protein-bindenden Stellen in genomischer DNS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004262045A JP2006078313A (ja) 2004-09-09 2004-09-09 タンパク質の結合位置同定方法

Publications (2)

Publication Number Publication Date
JP2006078313A true JP2006078313A (ja) 2006-03-23
JP2006078313A5 JP2006078313A5 (ja) 2007-02-08

Family

ID=35517364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004262045A Pending JP2006078313A (ja) 2004-09-09 2004-09-09 タンパク質の結合位置同定方法

Country Status (4)

Country Link
US (1) US20060051793A1 (ja)
EP (1) EP1634964B1 (ja)
JP (1) JP2006078313A (ja)
DE (1) DE602005007671D1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111349690B (zh) * 2018-12-24 2024-05-10 深圳华大生命科学研究院 检测蛋白质dna结合位点的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995031729A1 (en) * 1994-05-18 1995-11-23 Children's Hospital Medical Center Nucleic acid sequences controlling lung cell-specific gene expression
JP2003508066A (ja) * 1999-09-01 2003-03-04 ホワイトヘッド インスチチュート フォアー バイオメディカル リサーチ タンパク質−dna相互作用の染色体全体の解析
EP1312026A2 (en) * 2000-04-18 2003-05-21 Combimatrix Corporation Automated system and process for custom-designed biological array design and analysis
US20020037519A1 (en) * 2000-05-11 2002-03-28 States David J. Identifying clusters of transcription factor binding sites
CA2432346A1 (en) * 2000-12-21 2002-08-01 Whitehead Institute For Biomedical Research Genome-wide location and function of dna binding proteins
US7031846B2 (en) * 2001-08-16 2006-04-18 Affymetrix, Inc. Method, system, and computer software for the presentation and storage of analysis results
JP3888918B2 (ja) * 2002-03-20 2007-03-07 日立ソフトウエアエンジニアリング株式会社 Dna結合蛋白質の結合領域検出方法

Also Published As

Publication number Publication date
EP1634964B1 (en) 2008-06-25
EP1634964A3 (en) 2006-11-02
DE602005007671D1 (de) 2008-08-07
US20060051793A1 (en) 2006-03-09
EP1634964A2 (en) 2006-03-15

Similar Documents

Publication Publication Date Title
CN109196123B (zh) 用于水稻基因分型的snp分子标记组合及其应用
JP5171254B2 (ja) 多重プローブターゲット相互作用パターンの自動分析:パターンマッチング及び対立遺伝子同定
US9898578B2 (en) Visualizing expression data on chromosomal graphic schemes
JP5464503B2 (ja) 医療分析システム
WO2001005935A2 (en) Iterative probe design and detailed expression profiling with flexible in-situ synthesis arrays
JP2008533558A (ja) 遺伝子型分析のための正規化方法
CN102277351A (zh) 从无基因组参考序列物种获得基因信息及功能基因的方法
CN113278716B (zh) 分析绵羊毛用性状的基因芯片、分子探针组合、试剂盒及应用
US6892141B1 (en) Primer design system
EP1583016A2 (en) Data processing and display method for gene expression analysis system and gene expression analysing system
CN107122625B (zh) 人类短片段串联重复序列高通量测序信息的处理方法
US7272506B2 (en) Computer algorithm for automatic allele determination from fluorometer genotyping device
Hautaniemi et al. A strategy for identifying putative causes of gene expression variation in human cancers
Amir et al. KinSNP software for homozygosity mapping of disease genes using SNP microarrays
EP2175391A2 (en) Mutation detection and identification
JP2006078313A (ja) タンパク質の結合位置同定方法
US20050033520A1 (en) Methods and compositions for utilizing changes of hybridization signals during approach to equilibrium
JP5213009B2 (ja) 遺伝子発現変動解析方法及びシステム、並びにプログラム
CN116312794B (zh) 一种融合单细胞分析方法的甲基化样本聚类方法
CN113284552B (zh) 一种微单倍型的筛选方法及装置
CN116994648A (zh) 一种血液肿瘤rna测序数据自动化分析方法及装置
Symons et al. ResqMi-a versatile algorithm and software for Resequencing Microarrays
JP2006078313A5 (ja)
Tavares et al. Differential hybridization and other strategies to identify novel ovarian genes
CN115747334A (zh) 杂合性缺失的检测方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091201