JP3532911B2 - 遺伝子データ表示方法及び記録媒体 - Google Patents

遺伝子データ表示方法及び記録媒体

Info

Publication number
JP3532911B2
JP3532911B2 JP2002529422A JP2002529422A JP3532911B2 JP 3532911 B2 JP3532911 B2 JP 3532911B2 JP 2002529422 A JP2002529422 A JP 2002529422A JP 2002529422 A JP2002529422 A JP 2002529422A JP 3532911 B2 JP3532911 B2 JP 3532911B2
Authority
JP
Japan
Prior art keywords
gene
cluster
function
dendrogram
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002529422A
Other languages
English (en)
Other versions
JPWO2002025489A1 (ja
Inventor
康行 野崎
亮 中重
卓郎 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Publication of JPWO2002025489A1 publication Critical patent/JPWO2002025489A1/ja
Application granted granted Critical
Publication of JP3532911B2 publication Critical patent/JP3532911B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

【発明の詳細な説明】 技術分野 この発明は、特定の遺伝子とハイブイリダイズさせる
ことによって得られた遺伝子発現データを、視覚的に分
かりやすく、そして遺伝子の機能・役割が推測しやすい
形式によって表示するための表示方式に関する。
背景技術 ゲノム配列が決定された種の増加に伴い、進化に対応
すると見られる遺伝子を見つけ出し、どの生物も共通に
持っていると考えられる遺伝子の集合を探したり、それ
から逆に種に個別な特徴を推測するなど、種間の遺伝子
の違いから何かを見出そうとする、いわゆるゲノム比較
法が盛んに行われてきた。
しかし近年、DNAチップやDNAマイクロアレイ
(以下、バイオチップという)などのインフラストラク
チャの発達によって、分子生物学の興味は、種間の情報
から種内の情報へ、すなわち同時発現解析へと移りつつ
あり、これまでの種間の比較と合わせて、情報の抽出か
ら関連付けの場が大きく広がりを持ち始めている。
例えば、既知の遺伝子と同一の発現パターンを示す未
知の遺伝子が見つかれば、それには既知の遺伝子と同様
の機能があると類推できる。これら遺伝子や蛋白質その
ものの機能的な意味付けは、機能ユニットや機能グルー
プといった形で研究されている。またそれらの間の相互
作用も、既知の酵素反応データや物質代謝データとの対
応付けによって、あるいはより直接的に、ある遺伝子を
破壊あるいは過剰反応させ、その遺伝子の発現をなくす
か、あるいは多量に発現させ、その遺伝子の直接的及び
間接的影響を、全遺伝子の発現パターンを調べることに
よって解析している。
この分野において成功した事例として、スタンフォー
ド大学の P. Brown らのグループによるイースト菌の発
現解析が挙げられる(Michel B. Eisen et. al. :Clust
er analysis and display of genome-wide expression
patterns: Proc. Natl.Acad. Sci. (1998) Dec 8; 95(2
5):14863-8)。彼らは、DNAマイクロアレイを用い
て、細胞から抽出した遺伝子を時系列にハイブリダイズ
させ、遺伝子の発現の度合い(ハイブリダイズした蛍光
シグナルの輝度)を数値化した。数値に色を対応させる
ことで、遺伝子の個々の発現過程をわかりやすく表示さ
せている。このとき、細胞の一連のサイクルにおいて発
現パターンの過程が近い遺伝子どうし(任意の時点での
発現の度合いが近いものどうし)をクラスタリングして
いる。
図27はこの方式によって遺伝子の発現状態を表示し
た標準的クラスタ分析結果表示例の図であり、横方向に
実験ケース、縦方向に遺伝子を並べて表示している。そ
れぞれの実験ケースにおける各遺伝子の発現の度合いは
色濃度で示されており、色が濃いほど発現度合いが高い
ことを示している。また、図の左側には樹状図を表示し
ている。樹状図は、クラスタリングの過程で、最も近い
2つのクラスタ毎に併合されてきた状況を表しており、
各枝の長さは併合時の2つのクラスタ間の相対距離に対
応している。
図28は、遺伝子の発現パターンの類似性を表現した
他の表示例である。図の右側には観測した個々の遺伝子
の情報を列挙しており、図の左側にはこれらの遺伝子の
発現パターンに応じて作成した樹状図が表示されてい
る。
生物学の発展に伴い、遺伝子の機能が徐々に明らかに
されてきており、生物の研究者は、発現データと既知の
情報を組み合わせて、遺伝子解析を行おうとしている。
樹状図における解析では、研究者は、生物学的に意味の
あるクラスタ(遺伝子の集合)を探す。すなわち、クラ
スタに含まれる各遺伝子の発現パターンが類似してお
り、かつ、既知の機能で同じものを持つものが多いなら
ば、それを意味のあるクラスタとして抽出する。このよ
うなクラスタをここでは機能クラスタとよぶ。図28の
縦のバー2801,2802は、機能クラスタを表示し
た例である。例えば、機能クラスタに含まれる遺伝子の
中で、機能が未知のものがあるならば、同一クラスタ内
の機能が既知のものと同様の機能を持つと推測すること
ができる。また、機能クラスタの発現パターンをみるこ
とで、機能に特有の発現過程を見つけ出すことができ
る。
ところで、実際の遺伝子発現パターンの分析では、膨
大な数の遺伝子データを扱うことになる。なぜなら、バ
イオチップは数千から数万のオーダーの遺伝子を同時に
観測することが可能であるからである。バイオチップ技
術の進展から、今後、同時観測可能な遺伝子の数は飛躍
的に伸びていくものと思われ、生命のメカニズムの解明
作業を強力に支援していくと考えられる。
ところが、遺伝子の数が膨大になると、全体の遺伝子
の働きを把握することは非常に困難になる。すなわち、
樹状図には数千〜数万の遺伝子が並ぶことになるので、
図27や図28の樹状図の部分も非常に複雑な、細かな
枝を多量に含んだものになり、どのような分類ができて
いるのかを判断するのは難しい。
そして研究者は、この樹状図に対して機能クラスタを
選び出すために、多大な労力と時間を費やすことにな
る。市販の遺伝子発現クラスタリングツールの中には、
樹状図や遺伝子名の表示機能を備えるものはあるもの
の、どのようなクラスタに着目すべきか示唆を与えるも
のはなかった。
それ故本発明は、従来技術の問題点を鑑み、クラスタ
リングの結果から、同じ機能を持つ遺伝子群とそれらに
類似した発現パターンをもつ遺伝子を抜き出し、これら
の遺伝子に対して、再分析を施すような機能及び表示を
提供することを第1の目的とする。これにより、遺伝子
の機能に特異的な発現パターンの発見や、機能が未知の
遺伝子に対する機能推定、ある機能を持つ遺伝子が他の
遺伝子機能を持つかどうかの推定などを支援することが
できる。
また、本発明は、発現パターンが類似しているもの
で、かつ、同じ機能を持つ遺伝子が凝集しているクラス
タを自動的に選別し、そのクラスタの特徴を研究者にわ
かり易い形で表示する手段を提供することを第2の目的
とする。
発明の開示 前記第1の目的を達成するための、本発明による遺伝
子データ表示方法は、複数の遺伝子の発現パターンと、
その発現パターンをクラスタ分析して得た樹状図とを対
応付けて表示するステップと、注目する遺伝子の機能及
び樹状図上での距離を指定するステップと、指定された
機能を持つ遺伝子を含み、当該遺伝子と樹状図上での距
離が指定された距離以下のノードをルートとする樹状図
の部分木を強調表示するステップとを含むことを特徴と
する。
この遺伝子データ表示方法は、複数の遺伝子発現パタ
ーンデータを視覚的に分かりやすく、そして遺伝子の機
能・役割が推測しやすい形式によって表示するものであ
り、遺伝子の発現データをもとにクラスタリングした
後、結果を表す樹状図中において、同じ機能を持つ遺伝
子群とそれらに類似した発現パターンを持つ遺伝子群に
対応する樹状図の枝を強調表示することで、樹状図全体
でこれらの遺伝子がどこに位置しているのかを把握する
ことができる。
樹状図上での遺伝子からの距離の指定は、樹状図の枝
を横切る直線を引くことによって行うことができる。
前記した遺伝子データ表示方法は、更に樹状図のうち
前記強調表示された部分木及びそれに対応する遺伝子の
発現パターンだけを抽出して表示するステップを含むこ
とができる。
抽出された発現パターンに対してクラスタ分析を行う
ステップを更に含むことができる。
また、抽出された発現パターンに対してクラスタ分析
を行う範囲を指定するステップと、指定された範囲の発
現パターンに対してクラスタ分析を行うステップを更に
含むことができる。
前記第2の目的を達成するための、本発明による遺伝
子データ表示方法は、複数の遺伝子の発現パターンをク
ラスタ分析して得た樹状図を表示するステップと、クラ
スタ抽出すべき遺伝子の機能とクラスタ抽出のための条
件を指定するステップと、前記条件を満足する遺伝子ク
ラスタを樹状図の部分木単位で強調表示するステップと
を含むことを特徴とする。
この遺伝子データ表示方法は、複数の遺伝子発現パタ
ーンデータを視覚的に分かりやすく、そして遺伝子の機
能・役割が推測しやすい形式によって表示するものであ
り、発現パターンが類似しているもので、遺伝子の既知
の機能で同じものが多く集まったクラスタを自動的に抽
出して表示することができる。
クラスタ抽出のための条件は、部分木中における前記
機能を有する遺伝子の最小割合及び1クラスタに含まれ
る前記機能を有する遺伝子の最小個数とすることができ
る。
また、前記第2の目的を達成するための、本発明によ
る遺伝子データ表示方法は、複数の遺伝子の発現パター
ンをクラスタ分析して得た樹状図を表示するステップ
と、樹状図の部分木を選択するステップと、選択された
部分木に含まれる遺伝子のを機能別に割合表示するステ
ップとを含むことを特徴とする。
クラスタ分析によって得られた樹状図の部分木を選択
し、詳細表示することで、そこにどのような遺伝子の機
能が集まっているのがわかり、機能が未知の遺伝子に対
する機能の推定を補助することが可能になる。
さらに、前記第2の目的を達成するための、本発明に
よる遺伝子データ表示方法は、複数の遺伝子の発現パタ
ーンをクラスタ分析して得た樹状図を表示するステップ
と、樹状図の部分木を選択するステップと、選択された
部分木の平均発現パターンをグラフ表示するステップと
を含むことを特徴とする。
クラスタ分析によって得られた樹状図の部分木を選択
し、発現パターンを詳細表示することで、機能に固有の
発現パターンがどのようなものかを理解することができ
るようになる。グラフには発現値の平均と共に分散を表
示するようにしてもよい。
また、本発明によるコンピュータ読み取り可能な記録
媒体は、前述の各方法の複数のステップを実行するため
のコンピュータで実行されるプログラムを記録したこと
を特徴とする。
図面の簡単な説明 図1は、本発明による画面表示例を示す図(機能が同
じものを持つ遺伝子及びそれらに発現パターンが類似し
ている遺伝子を強調表示した画面表示の図)である。
図2は、本発明による画面表示例を示す図(機能が同
じものを持つ遺伝子及びそれらに発現パターンが類似し
た遺伝子だけを抜き出して表示した画面表示の図)であ
る。
図3は、本発明による画面表示例を示す図(図2のデ
ータに対して更に異なるクラスタリング方法を施したと
きの画面表示の図)である。
図4は、本発明による画面表示例を示す図(図3のデ
ータに対して発現パターンが類似している範囲を取り除
いて更にクラスタリングを施した画面表示の図)であ
る。
図5は、本発明によるシステム構成図である。
図6は、遺伝子データの例を示す図である。
図7は、遺伝子機能名リストの例を示す図である。
図8は、クラスタ構造体の例を示す図である。
図9は、クラスタ構造体での機能リストの格納の例を
示す図である。
図10は、クラスタ木構造の生成例を示す図である。
図11は、機能関連遺伝子格納の例を示す図である。
図12は、クラスタリング適用データ範囲の例を示す
図である。
図13は、本システムの概略処理フローを示す図であ
る。
図14は、クラスタ分析の詳細フローを示す図であ
る。
図15は、機能名に関連した遺伝子を抽出する処理の
フローを示す図である。
図16は、クラスタ抽出処理を模式的に表した図であ
る。
図17は、本発明による画面表示例を示す図(樹状図
及び機能クラスタを表示した表示画面の図)である。
図18は、本発明による画面表示例を示す図(部分木
の情報を表示した表示画面の図)である。
図19は、クラスタ構造体の例を示す図である。
図20は、クラスタ構造体での機能リストの格納の例
を示す図である。
図21は、クラスタ木構造の生成例を示す図である。
図22は、結果格納用構造体の例を示す図である。
図23は、本システムの概略フローを示す図である。
図24は、クラスタ分析の詳細フロー(クラスタ木の
生成)を示す図である。
図25は、クラスタ分析の詳細フロー(クラスタ自動
抽出)を示す図である。
図26は、クラスタ抽出処理(処理A)の詳細フロー
を示す図である。
図27は、標準的クラスタ分析結果表示例を示す図で
ある。
図28は、標準的クラスタ分析結果表示例を示す図で
ある。
発明を実施するための最良の形態 本発明をより詳細に説明するために、添付の図面に従
ってこれを説明する。
〔第1の実施形態〕 最初に、本発明の第1の目的を達成するための実施形
態について説明する。
図1は、本発明の第1の目的を達成するシステムの画
面表示例であり、機能が同じものを持つ遺伝子及びそれ
に発現パターンが類似している遺伝子を強調表示した画
面表示例を示す図である。利用者が遺伝子の機能の一つ
を選択すると、その機能をもつ遺伝子及び類似した発現
パターンをもつ遺伝子を樹状図から探し出して強調表示
する。選択した機能を持つ遺伝子は、101で示す印の
ものである。印がついていない遺伝子は、異なる機能の
ものか、機能が未知のものを表している。
ここで発現パターンが類似しているとは、クラスタ間
の距離が小さい、すなわち樹状図において枝の長さが短
いことを意味する。そこで、距離に関する閾値を設け
て、距離がその閾値以下である部分木の遺伝子は互いに
発現パターンが類似しているとみなすことにする。図1
の樹状図上に示した縦の破線100は閾値を示す線であ
り、図示の例の場合、この線100から葉までの範囲
で、同じ部分木を共有する遺伝子は、類似した発現パタ
ーンであるとして樹状図の枝を強調表示している。
このような表示方法をとることにより、同じ機能を持
つ遺伝子群とそれらに類似した発現パターンをもつ遺伝
子を効果的に強調表示し、それらが樹状図全体のどこに
位置しているかも一目で把握することが可能となる。こ
れらの遺伝子群のことを、ここでは機能関連遺伝子とよ
ぶ。
さらに、図1で強調表示した遺伝子を取り出して表示
した画面が図2である。すなわち、同じ機能を持つ遺伝
子及びそれらに発現パターンが類似した遺伝子だけを抜
き出して表示した例である。図2のように、今まで樹状
図中でばらばらに散在していた機能関連遺伝子をまとめ
て表示することによって、機能に固有な発現パターンを
推測することができる。図2の表示例の場合、実験ケー
ス(横軸)の一部の範囲200に各遺伝子に共通した発
現パターンが出ているので、この範囲200が機能に特
異的なパターンではないかと推測できる。
図3は、図2のデータに対して、更に別のクラスタリ
ング方法を適用した時の表示画面例を示している。また
図4は、図3から機能に固有であると思われる発現パタ
ーン(300)を取り除いてから、残ったデータに対し
てクラスタリングを施した場合の表示画面例である。こ
のように、機能関連遺伝子を更に分析し観察し直すこと
で、機能が未知の遺伝子に対する機能推定や、他の遺伝
子機能を持つかどうかの推定などを支援することができ
る。
図5は、本発明のシステム構成例を示す模式図であ
る。このシステムは、遺伝子の情報及び発現過程を記録
した遺伝子データ501と、遺伝子の発現過程に応じて
クラスタリングを行ない、それを樹状図の形式で表示す
るための解析を行なうクラスタリング処理部500と、
樹状図を表示するための表示装置502と、本システム
への値の入力や選択の操作を行うためのキーボード50
3及びマウス504と、機能クラスタを自動抽出するた
めに用いられる遺伝子機能名リスト505を備えて構成
される。クラスタリング処理部500は、コンピュータ
とそのプログラムによって具体化される。プログラムは
CD−ROM等の記録媒体に記録することができ、コン
ピュータでそれを読み取ることによってロードされる。
あるいは、ネットワークを介して他のコンピュータから
ダウンロードされる。また、遺伝子データは、記憶装置
501に記憶されているデータを用いるのに代えて、ネ
ットワーク等を介して遠隔地に設置されたサーバコンピ
ュータが管理しているデータベースから取得してもよ
い。
図6は遺伝子データ501の具体的な構造を示したも
のである。遺伝子情報は、gene[i](i=1,2,...,m)とい
うm個の要素からなる配列に格納されているとする。た
だし、mは遺伝子データに含まれる遺伝子の個数であ
る。遺伝子データは、遺伝子を一意に決める遺伝子ID
(600)、遺伝子を表す属性情報(601)、DNAチ
ップまたはDNAマイクロアレイ等のバイオチップから得
られた発現データ(602)からなる。遺伝子を表す属
性は、例えば遺伝子名(603)、ORF(604)、遺
伝子の機能(605)などがある。これら以外の遺伝子
の属性を、遺伝子情報構造体のメンバとして定義するこ
とも可能である。また発現データ(602)には、各実
験で遺伝子の発現の度合い(ハイブリダイゼーション反
応後の蛍光シグナルの輝度)を数値化したデータを格納
している。本実施形態では、実験の回数をnとし、1つ
の遺伝子の発現データをn次元のベクトルとして扱って
いる。
図7は、遺伝子機能名リスト(505)の具体的な構
造を示したものである。遺伝子機能名リストはfuncList
[]という、func_num個の要素からなる配列で表されてお
り、配列の中身には、機能の名前が入っている。配列fu
ncList[]のインデックスをfuncIdxと表し、機能に対応
するIDとして扱う。機能が未知のものも、例えば「UNKO
WN」という機能名でfuncList[]に登録しておく。
図8は、クラスタリング処理において利用するクラス
タ構造体の例を示している。全てのクラスタ構造体は、
樹状図の各ノードまたは葉と対応している。各クラスタ
を識別するため、clusterNo(800)とclusteringID
(806)のペアで各クラスタ構造体を一意的に表して
いる。clusteringID(806)はクラスタリング方法ご
とに一意に決まるIDである。clusterNo(800)は、
一つのclusteringIDにおけるノードを表すIDとして用い
ている。
クラスタ構造体には2種類あり、葉を表すクラスタと
中間ノードを表すクラスタに対応して、typeメンバ(8
01)の値でleafのもの(左側)とnodeのもの(右側)
に分けている。node型クラスタ構造体は、クラスタリン
グにおける併合処理において逐次生成するもので、併合
前の2つのクラスタをleft(802)の値と、right
(803)の値からたどれるようにし、また、それらの
間の距離((非)類似度)をdistance(804)の値とし
て保持する。left及びrightの値には、clusterNo(80
0)が入っている。一方、leaf型クラスタ構造体は、そ
れぞれ一つの遺伝子に対応しており、geneID(805)
に遺伝子ID(600)を格納することで、遺伝子情報構
造体のデータが参照できるようになっている。
またnode型クラスタ構造体の場合、leafFuncList(8
07)にクラスタに属するleaf型クラスタに対応する遺
伝子の機能を種類ごとにリスト構造で格納する。leaf型
クラスタ構造体の場合は、LeafFuncList(807)に対
応する遺伝子の機能をリスト構造で格納する。1つのリ
ストは、機能のIDを格納するためのIdx(808)、次
のリストへのポインタを格納するためのNextPtr(80
9)からなる。Idxに入る機能IDは、遺伝子機能名リス
トにおけるfuncListのインデックスである。遺伝子の機
能が複数ある場合は、その分だけleafFuncListに追加す
る。例えば、ある遺伝子が機能として「TRANSPORT」と
「TCA CYCLE」と「GLYCOLYSIS」を持っている場合、fun
cListは3つのリストからなる。
図9は、クラスタ構造体に格納した機能リストLeafFu
ncList(807)の例を示したものである。樹状図の右
には各遺伝子の機能名を記してある。ノード900に結
合される葉の遺伝子に、機能「UNKOWN (funcIdx :
1)」、「TRANSPORT (funcIdx : 2)」、「GLYCOLYSIS (f
uncIdx : 3)」、「TCA CYCLE (funcIdx : 4)」があるの
で、クラスタ構造体のleafFuncListは図のような形で表
現される。
図10は、クラスタ分析の過程で生成するデータ構造
を示した図である。クラスタ構造体は、最初leaf型のも
のだけを用意するが、クラスタ分析の過程で2つずつ併
合し、その度にnode型クラスタ構造体を生成してトリー
構造を組み立てる。これらのリンク構造はclusteringID
(806)ごとに管理している。なぜなら、clustering
IDはクラスタリング方法ごとに決めており、クラスタリ
ング方法が変わると、トリーの構造が変わってしまうか
らである。
図11は、機能関連遺伝子を格納するための、en_num
個の要素からなる配列extractNodes[]の例を示したもの
である。ここには、関連機能遺伝子とみなした遺伝子群
の部分木のルートノードのclusterNoを格納する。例え
ば、図11に示すように、ある機能を持つ遺伝子が11
00の位置にあり、発現の類似性を決める閾値を樹状図
上に破線1101で示した位置に設定したとき、閾値を
決める線1101によって切断されるノードのclusterN
oがextractNodes[]に格納される。
図12は、クラスタリング適用データ範囲の情報を格
納するための、dim_num個の要素からなる配列clusterin
g_dims[]の例を示したものである。クラスタリング適用
データ範囲とは、クラスタリングの対象データとするベ
クトルデータ(発現データ)の次元(実験)の範囲のこ
とである。配列clustering_dims[]にはデータ対象の次
元が格納される。例えば、図12に示すように、実験1
から実験11までの発現データがある場合に、1200
で示す発現データ5から7の範囲をクラスタリングの対
象データから除く場合、配列clustering_dims[]の内容
は図のようになる。
図13は、本実施形態の遺伝子クラスタ方式の概略処
理フローを示した図である。
まず、遺伝子発現パターンデータからクラスタリング
処理部500へデータを読み込む(ステップ1300)。
次に、クラスタリング方法を表すIDであるclustIDに1
を、クラスタリング適用データ範囲clustering_dims[]
に先頭要素から1,2,3,...,nを代入して初期化し、クラ
スタ対象のデータの総数を示すgnumにmを代入しておく
(ステップ1301)。そして、クラスタ分析に必要な
各種パラメータを設定する(ステップ1302)。
各種パラメータ初期化・設定の後、クラスタ分析を行
う(ステップ1303)。これについては、後で詳しく
説明する。そして、分析結果の表示を行う(130
4)。ここで、先に収集し、計算しておいた表示用のデ
ータ(クラスタ間の相対距離)を用い樹状図を作成し、
遺伝子名や機能を表示する。
ここで同じ機能をもつ遺伝子を樹状図内で表示するな
らば、発現パターンの類似度合いを示す閾値の設定を行
ない、対象とする機能名を選択する(ステップ130
6,1307)。閾値の設定は、クラスタリング結果の
表示から、(図1に示す閾値の線100をマウスで左右
に動かすなどして)適切な値を選択すればよい。ステッ
プ1305において、同じ機能をもつ遺伝子を表示しな
いのであれば、処理は終了する。
次に、引数を先ほど生成した樹状図のルートに対応す
るクラスタとして、ステップ1307で選択した機能名
をもつ遺伝子及びそれらに類似した発現パターンをもつ
遺伝子を抽出する処理を行う(ステップ1308)。こ
れについては後で詳しく説明する。この処理の後、配列
extractNodes[]には、抽出した遺伝子(機能関連遺伝
子)の部分木のルートのclusterNoが入っているので、
その情報を元に、図1に太線で示すように機能関連遺伝
子に対応する枝を強調表示する(ステップ1309)。
ステップ1307で選択した機能名以外のものに着目
したいのであれば、ステップ1306に戻って、処理を
続ける(ステップ1310)。他の機能名に着目しない
のであれば、図3のように、抽出した遺伝子(機能関連
遺伝子)だけで樹状図を再表示する(ステップ131
1)。
機能関連遺伝子の遺伝子群に対して、更にクリスタリ
ングを施すならば、次の処理を行う。まず、クラスタリ
ング適用データ範囲を絞り込んだ後にクラスタリングを
適用したい場合、配列clustering_dims[]を更新する。
つまり、図12に示したように、クラスタリングの対象
とする次元をclustering_dims[]に書き込む。このクラ
スタリング対象次元の書き込みは、マウス等を用いて表
示画面上で範囲を指定することでも行うことができる。
その後、クラスタリング方法のIDであるclustIDとクラ
スタリング適用データ範囲を再設定する。まず、clustI
Dを1つインクリメントする。また、クラスタリング適
用データ範囲としてクラスタリング処理に読み込ませる
データを、ステップ1308で抽出した機能関連遺伝子
の遺伝子群に置き換え、クラスタ対象のデータの総数を
示すgnumに機能関連遺伝子の個数を代入する。その後、
ステップ1302の処理に戻ってクラスタリングを行
う。ステップ1312において、これ以上クラスタリン
グを適用しないならば処理を終了する。
図14は、図13におけるクラスタ分析(ステップ1
303)の処理の詳細フローである。
まず、図6に示した各遺伝子IDに対応する発現デー
タで構成されるn次元ベクトル(602)において、配
列clustering_dims[]に対応する次元を遺伝子に対応す
るベクトルデータとする。gnum個の各遺伝子に対するle
af型クラスタ構造体を生成して、併合対象クラスタとし
て登録する(ステップ1400)。このときクラスタ構
造体のclusterNoメンバ値(800)には、投入する遺
伝子データの順に1,2,3,・・・と割り当ててゆ
く。また、遺伝子ID(600)をgeneIDメンバ値(80
5)に、clustIDをclusteringIDメンバ値(806)に、le
afFuncListメンバ(807)に対応する遺伝子の機能を
それぞれ登録する。
次に、併合対象クラスタ数cnumの値をgnum、これまで
生成したnode型クラスタ構造体の数nclsを0として初期
化する(ステップ1401)。さらに、併合対象クラス
タの数cnumが1に等しいかどうか判定し(ステップ14
02)、等しくない場合、1になるまで以下の一連の処
理を繰り返す。等しい場合は、処理を終了する。
最初に、登録された併合対象のクラスタから相対距離
最小の2つのクラスタを選択する(ステップ140
3)。次に、node型クラスタCを新規に生成し(ステッ
プ1404)、node型クラスタ数をインクリメントする
(ステップ1405)。新しいnode型クラスタのleftメ
ンバ(802)、rightメンバ(803)、distanceメ
ンバ(804)に、先にステップ1403で選択した2
つのクラスタ、及びその間の距離を登録し、2つのクラ
スタのleafFuncListを加えたものをleafFuncListメンバ
(807)に登録する。さらにclustIDをclusteringID
メンバ(806)に、gnum+nclusをCのclusterNoメン
バ(800)に登録する(ステップ1406)。
ここで、2つのクラスタのどちらをleftメンバとし、
残りをrightメンバとするかについて、予め判定基準を
設けることも可能である。最後に、この2つのクラスタ
を併合対象クラスタから除外、新しいnode型クラスタを
登録し(ステップ1407)、平行対象クラスタ数cnum
の値をデクリメントし(ステップ1408)、ステップ
1402から処理を続ける。
図15は、図13における機能名に関連した遺伝子を
抽出する処理(ステップ1308)の詳細フローであ
る。
まず、引数で与えられたクラスタのtypeメンバ値を調
べ、それがleafなら処理を終了する(ステップ150
0)。次に、引数で与えられたクラスタのrightメンバ
のクラスタ(Cr)をルートとする部分木に、機能関連遺
伝子が含まれるか調べる。すなわち、図13のステップ
1307で選択した機能名の機能IDが、CrのleafFuncLi
st(807)のリストに含まれるか調べる。もし含まれ
ていなければ処理を終了する(ステップ1501)。
クラスタCrに該当する機能が含まれているなら、Crの
distanceメンバ(804)が、図13のステップ130
6で定めた閾値よりも小さいか調べる(ステップ150
2)。小さいならば、関連機能遺伝子を格納する配列
(extractNodes[])にCrのclusterNoメンバ値(80
0)を登録する(ステップ1503)。ステップ150
2において、distanceメンバが閾値よりも大きいなら
ば、クラスタCrを引数として、再度、機能名に関連した
遺伝子を抽出する処理(図15の処理)を行う。
同様な処理を、引数で与えられたクラスタのlightメ
ンバのクラスタにも行い処理を終了する(ステップ15
05〜1508)。
以上の処理によって、図1〜図4に示したようなクラ
スタ分析結果の表示及び分析が可能となる。
〔第2の実施形態〕 次に、本発明の第2の目的を達成するための実施形態
について説明する。本実施の形態のシステム構成は図5
と同様である。また、遺伝子データ及び遺伝子機能名リ
ストとして、第1の実施形態で説明した図7,図8と同
様のものを用いる。
本実施形態では、部分木に属する遺伝子で、各機能が
いくつあるかを算出し、部分木での各機能が占める割合
を求める。部分木でその割合が、予め定めた閾値を超え
るならば、それを機能クラスタとみなし、抽出する処理
を行う。このとき、1遺伝子が単体で機能クラスタとし
てみなされないようにするため、少なくとも1クラスタ
に含まれる遺伝子の個数も閾値として予め定めておく。
このクラスタ抽出処理を模式的に表したのが図16で
ある。ここでは、機能としてGLYCOLYSISをもつ遺伝子に
関する機能クラスタを探索する処理を示している。この
例では、閾値として、図16の右側に示したように、部
分木でGLYCOLYSISの機能をもつ最低の割合を0.40と
し、少なくとも3つ以上の遺伝子を含むクラスタを選び
出すようにしている。
図16の例の場合、まず樹状図のルートノード160
0を見ると、機能GLYCOLYSISを持つ遺伝子の個数は5個
で、部分木に属する遺伝子の全個数(17個)に対して
機能GLYCOLYSISを有する遺伝子の割合は、5/17=
0.29であり、閾値として設定した最低の割合(0.
40)よりも小さいから、ノード1600の部分木は機
能GLYCOLYSISに関する機能クラスタとみなさない。
次に、ノード1600に属する2つの子ノード160
1と1602で、これらのノードをルートとみたときの
部分木に対して、機能GLYCOLYSISを持つ遺伝子の割合を
同様に算出する。これらはそれぞれ0.00及び0.3
6であるので、ノード1601及び1602は機能GLYC
OLYSISに関する機能クラスタとはみなさない。ノード1
601は、左右の子ノードを部分木のルートとしたとき
の遺伝子の個数が2個と1個なので、少なくとも3つ以
上の遺伝子をもつクラスタを選び出すという閾値の条件
に反するため、これ以上探索を続けない。
ノード1602の左右の子ノード1603と1604
についても機能GLYCOLYSISを有する遺伝子の割合を同様
に計算する。ノード1604においては、機能GLYCOLYS
ISを有する遺伝子の割合が0.44であり、閾値で定め
た割合よりも大きいので、これを機能クラスタとみな
す。他方、ノード1603及びその子ノード1605
は、GLYCOLYSISの割合が閾値で定めた割合よりも小さい
ので、機能クラスタとみなさない。このようにして、機
能クラスタを決定していく。
図17は、本実施の形態による画面表示例である。機
能クラスタは、樹状図の横に縦のバーを引いて示してい
る。また、1701,1702のように、バーが重複し
て表示されることがある。これは、遺伝子が複数の機能
を持っているため、その両方の機能に関して、機能クラ
スタの部分を表示しているためである。機能クラスタの
表示はその部分が他から識別できるようにして強調表示
されればよいのであり、バーを引く方法以外にも表示色
を変える方法、枠で囲んで表示するなど種々の方法で強
調表示することができる。
図18は、本実施形態による画面表示の他の例であ
る。この表示例は、部分木の枝をマウスで選択したとき
に、それに含まれる遺伝子の機能の割合を円グラフで表
し、さらに、横軸に実験ケース、例えば時間をとり、ポ
インタ1801で選択した部分木に属する各遺伝子の発
現パターンの平均及び分散を算出してグラフ表示したも
のである。このような表示法を、特に機能クラスタに対
して適用することにより、機能未知の遺伝子の機能推定
に役立ち、また、機能に固有の発現パターンを見つけ出
すことができる。
図19は、本実施の形態のクラスタリング処理におい
て利用するクラスタ構造体の例を示している。全てのク
ラスタ構造体は、樹状図の各ノードまたは葉と対応して
いる。各クラスタを識別するため、clusterNo(190
0)で各クラスタ構造体に一意的に番号を割り振ってい
る。クラスタ構造体には2種類あり、葉を表すクラスタ
と中間ノードを表すクラスタに対応して、typeメンバ
(1901)の値でleafのもの(左側)とnodeのもの
(右側)に分けている。
node型クラスタ構造体は、クラスタリングにおける併
合処理において逐次生成するもので、併合前の2つのク
ラスタをleft(1902)の値と、right(1903)
の値からたどれるようにし、また、それらの間の距離
((非)類似度)をdistance(1904)の値として保持
する。left及びrightは、クラスタを一意に示すcluster
No(1900)が入っている。
leaf型クラスタ構造体は、それぞれ一つの遺伝子に対
応しており、geneID(1905)に遺伝子ID(600)
を格納することで、遺伝子情報構造体のデータが参照で
きるようになっている。またnode型クラスタ構造体の場
合、そのクラスタに属するleaf型のクラスタの個数をle
afNum(1906)に格納し、leafFuncList(190
7)にクラスタに属するleaf型クラスタに対応する遺伝
子における機能を種類ごとにリスト構造で格納する。le
af型クラスタ構造体の場合はleafNum(1906)に1
を格納する。LeafFuncList(1907)には、対応する
遺伝子の機能をリスト構造で格納する。
1つのリストは、機能のIDを格納するためのIdx(1
908)、その機能が部分木中に現れた回数を示すNum
(1909)、次のリストへのポインタを格納するため
のNextPtr(1910)からなる。Idxに入る機能IDは、
遺伝子機能名リストにおけるfuncListのインデックスで
ある。
遺伝子の機能が複数ある場合は、1を機能の個数で割
って、機能が現れた回数Num(1909)を1の等分割
の値として表したり、あるいは、複数の機能をそれぞれ
1としてNumを表したりすればよい。例えば、ある遺伝
子が機能として「TRANSPORT」と「TCA CYCLE」と「GLYC
OLYSIS」を持っている場合、1の等分割で機能が現れた
回数を表すと、funcListは3つのリストからなり、それ
ぞれのNumは0.33ずつとなる。
図20は、図19に示したクラスタ構造体での機能リ
ストLeafFuncList(1907)の格納の例を示したもの
である。樹状図の右には各遺伝子の機能名を記してあ
る。ノード2000に結合される遺伝子に、機能「UNKO
WN (funcIdx : 1)」が4つ、「TRANSPORT (funcIdx :
2)」が4つ、「GLYCOLYSIS (funcIdx : 3)」が7つ、
「TCA CYCLE (funcIdx : 4)」が1つあるので、クラス
タ構造体のleafFuncListは図のような形で表現される。
図21は、クラスタ分析の過程で生成するデータ構造
を示した図である。クラスタ構造体は、最初leaf型のも
のだけを用意するが、クラスタ分析の過程で2つずつ併
合し、その度にnode型クラスタ構造体を生成してトリー
構造を組み立てる。node型クラスタは生成した順に、逐
次、配列node_clusters[]から辿れるようにポインタ
を張ってゆく。変数nclusは、これまで生成したnode型
クラスタ構造体の総数を保持する変数である。
図22は、結果格納用構造体の配列results[i](i=1,
2,3,...,func_num)を表したものである。resluts[i]の
インデックスiは、各機能ID(funcIdx)に対応してい
る。すなわち、機能ごとにresults[]の1要素を割り当
てていく。構造体results[]のメンバは、閾値と抽出結
果で構成されている。閾値は、1つの部分木に含まれる
べき機能の割合をthreshold rate(2200)、部分木
に含まれるべきleaf型クラスタの最小個数をthreshold
leaf(2201)からなる。また抽出結果は、reslut
(2202)で表す。ここには、機能クラスタを示す中
間ノード(type型クラスタ)のclusterNoを格納する。
閾値の設定は、キーボードやマウスを操作して利用者
が行うことも可能である。特にthreshold rate(220
0)は、各機能を一律にある値で決めてもよいし、もと
もとある機能の割合が全体的に大きければ、それに応じ
て割合を変えるなど、いくつかの利用形態が考えられ
る。
図23は、本実施形態の遺伝子クラスタ方式の概略処
理フローを示した図である。
まず、遺伝子発現パターンデータからクラスタリング
処理部500へデータを読み込む(ステップ230
0)。次に、クラスタ分析に必要な各種パラメータと閾
値を設定する(ステップ2301、2302)。各種パ
ラメータ設定の後、クラスタ分析を行う(ステップ23
03)。このクラスタ分析の処理の間に、本発明の機能
クラスタ表示に必要な情報を収集し、表示用データの計
算を行う。これについては、後で詳しく説明する。
そして、分析結果の表示を行う(2304)。ここ
で、先に収集し、計算しておいた表示用のデータ(クラ
スタ間の相対距離)を用い樹状図を作成し、遺伝子名や
機能を表示する。また、results[]配列のresultメンバ
の指す中間ノード(node型クラスタ構造体)に結合され
る葉ノード(leaf型クラスタ構造体)に、図17の17
01,1702に示すようなバーの表示を行う。
ここで部分木を選択して表示するならば、図18に示
すように、選択した部分木に含まれる葉ノードの遺伝子
の機能の分布を表示し、それらの遺伝子の平均発現パタ
ーンを表示する(ステップ2305,2306)。表示
には、選択した部分木に対応する中間ノード(node型ク
ラスタ)のleafFuncList(1907)に機能の分布が格
納されているので、それを元に機能分布を作成し、さら
に、leaf型クラスタまでたどり、遺伝子データ配列gene
[]の発現データ(602)を元に平均発現パターンを作
成すればよい。部分木の選択がなければ、処理を終え
る。
図24は、図23におけるクラスタ分析(ステップ2
303)の処理の詳細フローであり、第一段階処理とし
てのクラスタ木の生成処理に関するフロー図である。
まず、図6に示した各遺伝子IDに対応するm個のn
次元ベクトルデータ(602)をm個のleaf型クラスタ
構造体とし、併合対象クラスタとして登録する(ステッ
プ2400)。このとき、clusterNoをgene[]のインデ
ックスに、geneID(1905)を遺伝子ID(600)
に、leafNum(1906)を1に、leafFuncList(19
07)に対応する遺伝子の機能を追加する。
次に、併合対象クラスタ数cnumの値をm、これまで生
成したnode型クラスタ構造体の数nclsを0として初期化
する(ステップ2401)。さらに、併合対象クラスタ
の数cnumが1に等しいかどうか判定し(ステップ240
2)、等しくない場合、1になるまで以下の一連の処理
を繰り返す。
最初に、登録された併合対象のクラスタから相対距離
最小の2つのクラスタを選択する(ステップ240
3)。次に、node型クラスタCを新規に生成し(ステッ
プ2404)、node型クラスタ数をインクリメントする
(ステップ2405)。そして、配列node_clusters[]
の第ncls番成分に新しいnode型クラスタを登録する(ス
テップ2406)。さらに、新しいnode型クラスタのle
ftメンバ(1902)、rightメンバ(1903)、dis
tanceメンバ(1904)に、先にステップ2403で
選択した2つのクラスタ、及びその間の距離を登録し、
2つのクラスタのleafNumを加えたものをleafNumメンバ
(1906)に、leafFuncListを加えたものをleafFunc
Listメンバ(1907)に登録する。m+nclusをCのc
lusterNoメンバに登録する(ステップ2407)。
ここで、2つのクラスタのどちらをleftメンバとし、
残りをrightメンバとするかについて、予め判定基準を
設けることも可能である。最後に、この2つのクラスタ
を併合対象クラスタから除外、新しいnode型クラスタを
登録し(ステップ2408)、併合対象クラスタ数cnum
の値をデクリメントする(ステップ2409)。ステッ
プ2402の判定においてcnumの値が1に等しくな
ったら、図25のフローに継続する。
図25は、図23におけるクラスタ分析(ステップ2
303)の処理の詳細フローであり、第二段階処理とし
ての機能クラスタの自動抽出処理に関するフロー図であ
る。
まず遺伝子機能名リストのインデックスを表すidxを
1に初期化しておく(ステップ2500)。今までの処
理によって、Cは樹状図のルートのノードになってい
る。樹状図に属する全遺伝子の中で、機能がfuncList[i
dx]であるものの割合が、部分木に含まれるべき機能の
割合(result[idx]のthreshold rateメンバ値)よりも
大きいかどうか判定する(ステップ2501)。もし大
きいならば、CのclusterNoメンバ値をresults[idx]のr
esultメンバ値に登録する(ステップ2502)。小さ
いならば、Cとidxを引数としてクラスタ抽出処理(処
理A)を行う(ステップ2503)。処理Aについて
は、後で詳しく述べる。
idxを1つインクリメントし、これがfunc_numになる
まで、すなわち、遺伝子機能名リストにあるすべての機
能について、ステップ2501〜2504の処理を行う
(ステップ2504,2505)。idxがfunc_numにな
った時点で全体の処理を終了する。
図26は、図25における処理A(ステップ250
3)の詳細フローである。
まず、引数で与えられたクラスタのtypeメンバ値を調
べ、それがleafなら処理を終了する(ステップ260
0)。次に、引数で与えられたクラスタのrightメンバ
のクラスタが、機能クラスタかどうか調べる。まず引数
クラスタのrightメンバの指すクラスタ(Cr)のleafNum
が、閾値の最小leaf数、すなわちresult[idx]のthresho
ld leaf(2201)メンバ値よりも大きいかどうか調
べる(ステップ2601)。もし小さいなら処理Aを終
了する。
大きいとき、クラスタCrをルートとする部分木に対し
て、その部分木に属する遺伝子で、機能がfuncList[id
x]であるものの割合が閾値よりも大きいか調べる。すな
わち、CrのleafFuncList(1907)のfuncList[idx]
に対応する機能の数を調べ、それをleafNum(190
6)で割った値が、result[idx]のthreshold rateのメ
ンバ値(2200)よりも大きいかどうか調べる(ステ
ップ2602)。もし大きいならば、CのclusterNoメ
ンバ値をresults[idx]のresultメンバ値に登録する(ス
テップ2603)。小さいならば、Crとidxを引数とし
てクラスタ抽出処理(処理A)を行う(ステップ260
4)。
次に、引数で与えられたクラスタのlightメンバのク
ラスタが、機能クラスタかどうかを、ステップ2601
〜2604と同様に調べる。以上、一連の処理が終了し
た場合、処理Aは終了する。
以上の処理によって、図17、図18に示したような
クラスタ分析結果の表示が可能となる。
産業上の利用可能性 以上説明したように、本発明によれば、クラスタリン
グの結果から、同じ機能を持つ遺伝子群とそれらに類似
した発現パターンを持つ遺伝子を強調表示することで、
これらの遺伝子が樹状図全体のどこに位置しているかを
把握することが可能となる。また、これらの遺伝子を抜
き出して発現パターンを比較することで、機能に特異的
な発現パターンを発見することができる。さらに、抜き
出した遺伝子に対して、別のクラスタリング方法でクラ
スタ分析するなどの処理を施すことによって、機能が未
知の遺伝子に対する機能推定や、他の遺伝子機能を持つ
かどうかの推定を支援することができる。
また、本発明によれば、遺伝子間の発現パターンが類
似しているもので、遺伝子の既知の機能で同じものが多
く集まった遺伝子の集合を自動的に抽出することができ
る。さらに、機能クラスタの部分木を選択し、詳細表示
することで、そこにどのような遺伝子の機能が集まって
いるのかがわかり、機能が未知の遺伝子に対して機能を
推定する手助けとなる。また、機能に固有の発現パター
ンがどのようなものかを理解することができるようにな
る。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 田村 卓郎 日本国神奈川県横浜市中区尾上町6丁目 81番地 日立ソフトウエアエンジニアリ ング株式会社内 (56)参考文献 特開 平7−274965(JP,A) ROSS D.T. et al., Systematic cariati on in gene express ion patterns in hu man cancer cell li nes,nature genetic s,2000年 3月10日,Vol.24,N o.3,p.227−235 (58)調査した分野(Int.Cl.7,DB名) G06F 19/00 G06F 17/30 C12N 15/09 JICSTファイル(JOIS)

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 遺伝子の情報及び発現過程を記録した遺
    伝子データを保持する記憶装置と、遺伝子の発現過程に
    応じてクラスタリングを行ない、それを樹状図の形式で
    表示するための解析を行なうクラスタリング処理部と、
    表示装置と、入力部と、機能クラスタを自動抽出するた
    めに用いられる遺伝子機能名リストを登録した遺伝子機
    能名リスト登録部とを備えたシステムの遺伝子データ表
    示方法であって、 前記クラスタリング処理部が、 前記記憶装置に記憶された複数の遺伝子の発現パターン
    と、その発現パターンをクラスタ分析して得た樹状図と
    を対応付けて前記表示装置に表示するステップと、 前記入力部から、前記遺伝子機能名リスト登録部に登録
    された注目する遺伝子の機能及び前記表示装置に表示さ
    れた前記樹状図上における距離の指定を受け付けるステ
    ップと、 指定された機能を持つ遺伝子を含み、当該遺伝子と前記
    樹状図上での距離が指定された距離以下のノードをルー
    トとする前記樹状図の部分木を前記表示装置に強調表示
    するステップと を実行する遺伝子データ表示方法。
  2. 【請求項2】 請求項1記載の遺伝子データ表示方法に
    おいて、前記クラスタリング処理部は、前記入力手段か
    ら入力された前記樹状図の枝を横切る直線によって前記
    樹状図上での遺伝子からの距離の指定を受け付ける遺伝
    子データ表示方法。
  3. 【請求項3】 請求項1又は2記載の遺伝子データ表示
    方法において、前記クラスタリング処理部は、前記樹状
    図のうち前記強調表示された部分木及びそれに対応する
    遺伝子の発現パターンだけを抽出して前記表示装置に表
    示するステップを実行する遺伝子データ表示方法。
  4. 【請求項4】 請求項3記載の遺伝子データ表示方法に
    おいて、前記クラスタリング処理部は、前記抽出された
    発現パターンに対してクラスタ分析を行うステップを実
    行する遺伝子データ表示方法。
  5. 【請求項5】 請求項3記載の遺伝子データ表示方法に
    おいて、前記クラスタリング処理部は、前記入力手段か
    ら、前記抽出された発現パターンに対してクラスタ分析
    を行う範囲の指定を受け付けるステップと、前記指定さ
    れた範囲の発現パターンに対してクラスタ分析を行うス
    テップを実行する遺伝子データ表示方法。
  6. 【請求項6】 遺伝子の情報及び発現過程を記録した遺
    伝子データを保持する記憶装置と、遺伝子の発現過程に
    応じてクラスタリングを行ない、それを樹状図の形式で
    表示するための解析を行なうクラスタリング処理部と、
    表示装置と、入力部と、機能クラスタを自動抽出するた
    めに用いられる遺伝子機能名リストを登録した遺伝子機
    能名リスト登録部とを備えたシステムの遺伝子データ表
    示方法であって、 前記クラスタリング処理部が、 前記記憶装置に記憶された複数の遺伝子の発現パターン
    をクラスタ分析して得た樹状図を前記表示装置に表示す
    るステップと、 前記入力部から、前記遺伝子機能名リスト登録部に登録
    されたクラスタ抽出すべき遺伝子の機能とクラスタ抽出
    のための条件の指定を受け付けるステップと、 前記条件を満足する遺伝子クラスタを前記樹状図の部分
    木単位で前記表示装置に強調表示するステップと を実行する遺伝子データ表示方法。
  7. 【請求項7】 請求項6記載の遺伝子クラスタ抽出方法
    において、前記クラスタ抽出のための条件は、部分木中
    における前記機能を有する遺伝子の最小割合及び1クラ
    スタに含まれる前記機能を有する遺伝子の最小個数であ
    る遺伝子データ表示方法。
  8. 【請求項8】 遺伝子の情報及び発現過程を記録した遺
    伝子データを保持する記憶装置と、遺伝子の発現過程に
    応じてクラスタリングを行ない、それを樹状図の形式で
    表示するための解析を行なうクラスタリング処理部と、
    表示装置と、入力部と、機能クラスタを自動抽出するた
    めに用いられる遺伝子機能名リストを登録した遺伝子機
    能名リスト登録部とを備えたシステムの遺伝子データ表
    示方法であって、 前記クラスタリング処理部が、 前記記憶装置に記憶された複数の遺伝子の発現パターン
    をクラスタ分析して得た樹状図を前記表示装置に表示す
    るステップと、 前記入力部から、前記表示装置に表示された前記樹状図
    の部分木の選択指示を受け付けるステップと、 前記選択された部分木に含まれる遺伝子を遺伝子機能名
    リスト登録部に登録された遺伝子機能名リストを参照し
    て機能別に前記表示装置に割合表示するステップと を実行する遺伝子データ表示方法。
  9. 【請求項9】 遺伝子の情報及び発現過程を記録した遺
    伝子データを保持する記憶装置と、遺伝子の発現過程に
    応じてクラスタリングを行ない、それを樹状図の形式で
    表示するための解析を行なうクラスタリング処理部と、
    表示装置と、入力部とを備えたシステムの遺伝子データ
    表示方法であって、 前記クラスタリング処理部が、 前記記憶装置に記憶された複数の遺伝子の発現パターン
    をクラスタ分析して得た樹状図を前記表示装置に表示す
    るステップと、 前記入力部から、前記表示装置に表示された前記樹状図
    の部分木の選択指示を受け付けるステップと、 前記選択された部分木の平均発現パターンを前記表示装
    置にグラフ表示するステップと を実行する遺伝子データ表示方法。
  10. 【請求項10】 請求項1〜9のいずれか1項記載の遺
    伝子データ表示方法をコンピュータに実行させるための
    プログラムを記録したことを特徴とするコンピュータ読
    み取り可能な記録媒体。
JP2002529422A 2000-09-19 2000-09-19 遺伝子データ表示方法及び記録媒体 Expired - Fee Related JP3532911B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2000/006385 WO2002025489A1 (fr) 2000-09-19 2000-09-19 Technique d'affichage de donnees genetiques et support d'enregistrement a cet effet

Publications (2)

Publication Number Publication Date
JPWO2002025489A1 JPWO2002025489A1 (ja) 2004-01-29
JP3532911B2 true JP3532911B2 (ja) 2004-05-31

Family

ID=11736468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002529422A Expired - Fee Related JP3532911B2 (ja) 2000-09-19 2000-09-19 遺伝子データ表示方法及び記録媒体

Country Status (4)

Country Link
US (1) US7127354B1 (ja)
EP (1) EP1321858A4 (ja)
JP (1) JP3532911B2 (ja)
WO (1) WO2002025489A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003042780A2 (en) * 2001-11-09 2003-05-22 Gene Logic Inc. System and method for storage and analysis of gene expression data
US20050027729A1 (en) * 2002-05-22 2005-02-03 Allan Kuchinsky System and methods for visualizing and manipulating multiple data values with graphical views of biological relationships
JP2007011996A (ja) 2005-07-04 2007-01-18 Fujitsu Ltd 発現情報の解析方法及びそのシステム
JP2007207113A (ja) * 2006-02-03 2007-08-16 Hitachi Software Eng Co Ltd 系統樹表示システム
JP4555256B2 (ja) * 2006-05-24 2010-09-29 Necソフト株式会社 時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置
JP5286594B2 (ja) * 2009-03-16 2013-09-11 学校法人明治大学 発現プロファイル解析システム及びそのプログラム
US10552710B2 (en) * 2009-09-28 2020-02-04 Oracle International Corporation Hierarchical sequential clustering
US20110078194A1 (en) * 2009-09-28 2011-03-31 Oracle International Corporation Sequential information retrieval
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
CA2740334C (en) 2010-05-14 2015-12-08 National Research Council Order-preserving clustering data analysis system and method
TWI584143B (zh) 2014-10-30 2017-05-21 Toshiba Kk Genotyping devices, methods, and memory media
SG10201503755QA (en) * 2015-05-13 2016-12-29 Dataesp Private Ltd Searching large data space for statistically significant patterns

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2283840B (en) * 1993-11-12 1998-07-22 Fujitsu Ltd Genetic motif extracting method and apparatus
JP3353263B2 (ja) * 1993-11-12 2002-12-03 国立遺伝学研究所長 遺伝子のモチーフ抽出処理装置及び処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROSS D.T. et al.,Systematic cariation in gene expression patterns in human cancer cell lines,nature genetics,2000年 3月10日,Vol.24,No.3,p.227−235

Also Published As

Publication number Publication date
EP1321858A1 (en) 2003-06-25
JPWO2002025489A1 (ja) 2004-01-29
WO2002025489A1 (fr) 2002-03-28
EP1321858A4 (en) 2005-06-01
US7127354B1 (en) 2006-10-24

Similar Documents

Publication Publication Date Title
Cheema et al. Computational approaches and software tools for genetic linkage map estimation in plants
JP3532911B2 (ja) 遺伝子データ表示方法及び記録媒体
Karp Mathematical challenges from genomics and molecular biology
US20070143031A1 (en) Method of analyzing a bio chip
JP3530842B2 (ja) 核酸塩基配列アセンブル装置及びその動作方法
JP3563315B2 (ja) 樹状図表示方法及び樹状図表示システム
CN106980775B (zh) 基于全部连续列一致演化型的时序基因芯片数据挖掘方法
JP3773092B2 (ja) 遺伝子発現パターン表示方法および装置並びに記録媒体
Guzzi et al. Challenges in microarray data management and analysis
Davenport et al. Using bioinformatics to analyse germplasm collections
Albrecht Computing hybridization networks using agreement forests
JP4021406B2 (ja) 樹状図表示方法及び樹状図表示システム
JP3628005B2 (ja) 遺伝子発現パターン表示方法および装置
Cole Machine learning methods for next generation sequencing data: applications to MLL-AF4 leukemia and demographic inference
Bruskiewich et al. Bioinformatics and crop information systems in rice research
KR100504039B1 (ko) ncRNA 서열의 컴퓨터적 동정 방법
Harley Graph algorithms for assembling integrated genome maps
US20030077643A1 (en) Method for analyzing trait map
Tamilpavai et al. A computational perception of locating multiple longest common subsequence in DNA sequences
Haasl Demographic Change
CN114694754A (zh) 一种基于图的多序列比对方法及其系统
van der Zon Adding robustness and scalability to existing data mining algorithms for successful handling of large data sets
CN117935910A (zh) 玉米snp位点的筛选方法、装置、电子设备及介质
JP2005276234A (ja) 形質マップの解析方法
Sridhar et al. FPT algorithms for binary near-perfect phylogenetic trees

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040304

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160312

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees