JP2001175660A - 樹状図表示方法及び樹状図表示システム - Google Patents

樹状図表示方法及び樹状図表示システム

Info

Publication number
JP2001175660A
JP2001175660A JP35440199A JP35440199A JP2001175660A JP 2001175660 A JP2001175660 A JP 2001175660A JP 35440199 A JP35440199 A JP 35440199A JP 35440199 A JP35440199 A JP 35440199A JP 2001175660 A JP2001175660 A JP 2001175660A
Authority
JP
Japan
Prior art keywords
dendrogram
displaying
subtree
biopolymers
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP35440199A
Other languages
English (en)
Other versions
JP3563315B2 (ja
Inventor
Yasuyuki Nozaki
康行 野崎
Tsunehiko Watanabe
恒彦 渡辺
Akira Nakashige
亮 中重
Takuro Tamura
卓郎 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP35440199A priority Critical patent/JP3563315B2/ja
Priority to US09/890,929 priority patent/US7315785B1/en
Priority to EP00976334A priority patent/EP1194877A2/en
Priority to PCT/JP2000/008133 priority patent/WO2001045026A2/en
Publication of JP2001175660A publication Critical patent/JP2001175660A/ja
Application granted granted Critical
Publication of JP3563315B2 publication Critical patent/JP3563315B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 樹状図全体の枝の状態を大域的に把握すると
共に個々の部分木の状態を詳細に知り、分類の絞り込み
や、クラスタリング方法の選択の支援をする。 【解決手段】 樹状図の枝を選択し、選択した枝から葉
の部分木に対して、別の表示ウィンドウで表示する機
能、アイコン化する機能、アイコン化したものを元に戻
す機能、部分木に含まれるキーワードを収集し表示する
機能を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、特定の生体高分
子、例えば遺伝子とハイブリダイズさせることによって
得られたデータ(遺伝子発現データ)を、視覚的にわか
りやすく、そして生体高分子(遺伝子)の機能・役割が
推測しやすい形式によって表示するための表示方法及び
表示システムに関する。
【0002】
【従来の技術】ゲノム配列が決定された種の増加に伴
い、進化に対応すると見られる遺伝子を見つけ出し、ど
の生物にも共通に持っていると考えられる遺伝子の集合
を探したり、それから逆に種に個別な特徴を推測するな
ど、種間の違いから何かを見出そうとする、いわゆるゲ
ノム比較法が盛んに行われてきた。しかし近年、DNAチ
ップやDNAマイクロアレイなどのインフラストラクチャ
の発達によって、分子生物学の興味は、種間の情報から
種内の情報へ、すなわち同時発生解析へと移りつつあ
り、これまでの種内の比較と併せて、情報の抽出から関
連付けの場が大きく広がりを持ち始めている。
【0003】例えば、既知の遺伝子と同一の発現パター
ンを示す未知の遺伝子が見つかれば、それが既知の遺伝
子と同様の機能があると推測できる。これら遺伝子や蛋
白質そのものの機能的な意味付けは、機能ユニットや機
能グループといった形で研究されている。またそれらの
間の相互作用も、既知の酵素反応データや物質代謝デー
タとの対応づけによって、あるいはより直接的に、ある
遺伝子を破壊あるいは過剰反応させ、その遺伝子の発現
をなくすか、あるいは多量に発現させ、その遺伝子の直
接的及び間接的影響を、全遺伝子の発現パターンを調べ
ることによって解析している。
【0004】この分野に成功した事例として、スタンフ
ォード大学のP. Brownらのグループによるイースト菌の
発現解析が挙げられる(Michel B. Eisen et al.: Clus
teranalysis and display of genome-wide expression
patterns: Proc. Natl. Acad. Sci. (1998) Dec 8;95(2
5):14863-8)。彼らは、DNAマイクロアレイを用いて、
細胞から抽出した遺伝子を時系列にハイブリダイズさ
せ、遺伝子の発現の度合い(ハイブリダイズした蛍光シ
グナルの輝度)を数値化した。そしてこの数値に応じ
て、細胞の一連のサイクルで発現パターンの過程が近い
遺伝子どうし(任意の時点での発現の度合いが近いもの
どうし)をクラスタリングしている。
【0005】図1は、この方式にそって遺伝子の発現パ
ターンの類似性を表現した表示例である。右側には観測
した個々の遺伝子の情報が列挙されており、左側にはこ
れらの遺伝子の発現パターンに応じて作成された樹状図
が示されている。樹状図は、クラスタリングの過程で、
最も近い2つのクラスタ毎に併合されてきた状況を表し
ており、各枝の長さは併合時の2つのクラスタ間距離
(クラスタ間の非類似度)に対応している。このような
表示方法をとることで、共通のクラスタに属する遺伝子
は、共通の機能的性質をもつ可能性があると推測するこ
とができる。
【0006】
【発明が解決しようとする課題】実際の遺伝子発現パタ
ーンの分析では、大量のデータをクラスタリングするこ
とになる。通常、DNAチップやDNAマイクロアレイは、数
千から数万の遺伝子を同時に観測することが可能であ
る。一般に遺伝子の発現過程は、ある遺伝子の発現が別
の遺伝子の発現を誘導したり、あるいは、発現を阻害す
るなど、遺伝子間で複雑なネットワークを形成してい
る。それ故、観測する遺伝子の数が多ければ、より複雑
で詳細なネットワークを調べることができる。
【0007】ところが、遺伝子の数が膨大になると、全
体の遺伝子の働きを把握することは非常に困難になる。
すなわち、樹状図には数千〜数万の遺伝子が並ぶことに
なるので、この表示から、どのような分類ができている
のかを判断するのは難しい。また、クラスタリング手法
の違いにより、樹状図の枝の長さは一般的に異なる。例
えばクラスタ併合アルゴリズムとして、最長距離法を選
択したとき、枝の長さの平均は、最短距離法を選択した
ときの長さの平均よりも長い。したがって、樹状図全体
としてみたとき、図2のように、根から葉までの長さも
また、クラスタリング手法によって異なる。遺伝子の発
現データに対するクラスタリングでは、枝の長さより
も、どのように分類されているのかを調べることが重要
である。それゆえ、通常、樹状図の表示を行なうとき
は、図3のように、樹状図の根から葉までの長さを一定
値に定め、各枝の長さは根から葉までの長さに対する相
対的な長さで表し、クラスタリング手法に応じて枝の長
さの縮尺を変更して表示する。
【0008】ここで、上記のような樹状図の表示方法を
採用したとき、樹状図の中に発現パターンが類似してい
る遺伝子を多数含んでいると、枝の長さが小さい樹状図
が形成されるが、これらの枝の長さが樹状図の根から葉
までの長さに比べて非常に小さいと、図4の401に示
すように遺伝子間の枝の詳細な関係を知るのが非常に困
難になる。また、従来の遺伝子発現解析に関するクラス
タリングでは、部分木を選択し、これに対して別のクラ
スタリング手法を適用するなど、対話的な操作ができな
かった。また、従来の遺伝子発現解析に関するクラスタ
リングでは、分類が成功しているかどうかを調べる手段
として、遺伝子の機能や遺伝子名のキーワードに着目
し、それらが部分木に集まっているかどうかによって判
断していた。しかし、解析する遺伝子の数が膨大なもの
になると、どのような機能やキーワードに着目すべきか
を判断するのは、非常に困難な作業である。本発明は、
このような従来技術の問題点に鑑み、樹状図全体の枝の
状態を大域的に把握でき、かつ個々の部分木の状態を詳
細に知ることができるような樹状図表示方法及び樹状図
表示システムを提供することを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本発明では、樹状図の枝を選択し、選択した枝から
葉の部分木に対して、別の表示ウィンドウで表示する機
能、アイコン化する機能、アイコン化したものを元に戻
す機能、部分木に含まれるキーワードを収集し表示する
機能、を備えた樹状図表示システムを提案する。本発明
によると、作成された樹状図の部分木に対して、異なる
クラスタリング方法を対話的に適用する処理を実現する
ことができる。また、クラスタリングが成功しているか
どうかを判別するため、部分木にどのようなキーワード
が多く含まれているかを表示し、分類の絞り込みや、ク
ラスタリング方法の選択の支援を行うることができる。
【0010】以下、理解を容易にするため、本発明を遺
伝子のクラスタリングに適用した場合を例にとって、本
発明の樹状図表示システムによる樹状図の表示例につい
て説明する。ただし、本発明は遺伝子のクラスタリング
にのみ適用されるものでなく、他の生体高分子、例えば
cDNA、RNA、DNA断片等についても同様に適用
可能である。
【0011】図5は、本発明の樹状図表示システムによ
る樹状図の表示例を示している。分類アルゴリズムの選
択メニュー501、及び(非)類似度の選択メニュー5
02を備えている。遺伝子発現データを読み込み、分類
アルゴリズム及び(非)類似度を選択すると、樹状図が
作成される。また、本システムは、図1のように遺伝子
名などの遺伝子情報を樹状図の葉の先に付加して表示す
る形式も選択できる。
【0012】作成された樹状図において、任意の枝を選
択すると、選択した枝から葉までの部分木に対する操
作、すなわち、この部分木を別のウィンドウで表示す
る、この部分木をアイコン化する、この部分木のアイコ
ンを元に戻す、この部分木に含まれる単語を検索する、
というメニューが選択できる。図は、画面中央の枝50
5を矢印で図示されているマウスカーソル504等で選
択した状態を示しており、このとき開くメニューウィン
ドウ503には選択可能なメニューが表示されている。
マウスカーソル504をメニューウィンドウ503内に
移動して、所望の処理項目をクリックすると選択された
処理が実行される。
【0013】分類アルゴリズムは、図5の状態ではウォ
ード法が選択されているが、選択メニュー501を開く
ことによって例えば、最短距離法、最長距離法、群平均
法、重心法、メディアン法、可変法など他のアルゴリズ
ムを選択することができる。(非)類似度は、個体間の
類似の程度を表す指標である。この指標には、距離のよ
うに値の小さい方が類似性が高いことを表す場合と、相
関係数のように値の大きい方が類似性が高いことを表す
場合がある。前者の指標を非類似度、後者の指標を類似
度という。図5の状態では非類似度としてユークリッド
距離が選択されているが、選択メニュー502から他の
(非)類似度、例えば標準化ユークリッド平方距離、マ
ハラノビスの(汎)距離、ミンコフスキー距離等を選択
することができる。このとき、分類アルゴリズムとして
重心法、メディアン法、可変法を選択したとき、非類似
度としてユークリッド平方距離以外に選択できないな
ど、分類アルゴリズムと非類似度との組み合わせが妥当
なものである必要がある。
【0014】図6は、図5に示した表示画面において、
「部分木を別のウィンドウで表示する」メニューを選択
したときの表示例である。図6に示すように、選択した
部分木を、根から葉までの長さに応じて縮尺を変更し表
示し直す。このような表示手法をとることで、利用者は
部分木の詳細な枝の状態を調べることが出来る。また、
本システムでは、選択した部分木に対して、分類アルゴ
リズム及び/又は(非)類似度を選択して、再度クラス
タリングを行なうことが出来る。このようにすること
で、例えば、はじめのクラスタリング結果からクラスタ
間の距離が大きいもの(図4において、401と40
2、401と403の関係)を見つけ出し、これを除外
して、興味のある部分木のみ詳しく調べることが出来
る。分類アルゴリズム及び/又は(非)類似度の選択
は、分類アルゴリズムの選択メニュー501、及び
(非)類似度の選択メニュー502によって行う。
【0015】図7は、図5に示した表示画面おいて、
「部分木をアイコン化する」メニューを選択したときの
表示例である。部分木505を701のようにアイコン
にすることで、樹状図の大域的な状態を容易に知ること
が出来る。例えば、同様の機能をもつ遺伝子群や、発現
がほとんど観測されなかった遺伝子群を一つのアイコン
としてまとめるなどの利用法が可能である。
【0016】図8は、図5に示した表示画面おいて、
「部分木に含まれる単語を検索する」メニューを選択し
た時の表示例である。この機能を適用すると、選択した
部分木に含まれる遺伝子の中で、遺伝子に対応する遺伝
子情報に予め定めたキーワードが含まれるものを数え上
げ、検索結果801として表示する。更に検索結果80
1から、マウスカーソル804等で一つのキーワード8
02を選択すると、そのキーワード(図の場合、"ribos
omal")を持つ遺伝子を、マーク803等によって樹状
図上の位置として表示する。これにより、選択した部分
木にどのような遺伝子が集まっているかを容易に知るこ
とができる。また、この結果、分類がうまくいっていな
いのであれば、別の分類アルゴリズムや(非)類似度を
選択して再度クラスタリングを行なうなど、より適切な
クラスタリング方法の選択の支援をすることができる。
このように、本発明によると、作成された樹状図から、
効果的に意味を抽出することができる。
【0017】すなわち、本発明による樹状図表示方法
は、複数種類の生体高分子に対して複数の異なる条件で
実験を行って得られたデータの組に基づいて前記複数の
生体高分子のクラスタリング処理を行い、その結果を樹
状図の形式で表示するステップと、前記樹状図の部分木
を選択するステップと、選択された部分木を別ウィンド
ウで表示するステップとを含むことを特徴とする。本発
明は、別ウィンドウに表示された部分木に含まれる生体
高分子に対するクラスタリング手法の変更を指示するス
テップと、指示されたクラスタリング手法によって前記
部分木に含まれる生体高分子に対して再度クラスタリン
グ処理を行い、その結果を樹状図の形式で表示するステ
ップとを含んでもよい。
【0018】本発明の樹状図表示方法は、また、複数種
類の生体高分子に対して複数の異なる条件で実験を行っ
て得られたデータの組に基づいて前記複数の生体高分子
のクラスタリング処理を行い、その結果を樹状図の形式
で表示するステップと、前記樹状図の部分木を選択する
ステップと、選択された部分木をアイコン化して表示す
るステップを含むことを特徴とする。必要により、アイ
コン化されて表示されている部分木を元の樹状図の形式
に戻して再表示するステップを含むこともできる。
【0019】本発明による樹状図表示方法は、また、複
数種類の生体高分子に対して複数の異なる条件で実験を
行って得られたデータの組に基づいて前記複数の生体高
分子のクラスタリング処理を行い、その結果を樹状図の
形式で表示するステップと、前記樹状図の部分木を選択
するステップと、選択された部分木に含まれる生体高分
子を対象として、生体高分子に関する情報の中に予め用
意されたキーワード辞書ファイルに格納されたキーワー
ドが含まれている生体高分子の数を計数して表示するス
テップとを含むことを特徴とする。
【0020】本発明による樹状図表示方法は、また、複
数種類の生体高分子に対して複数の異なる条件で実験を
行って得られたデータの組に基づいて前記複数の生体高
分子のクラスタリング処理を行い、その結果を樹状図の
形式で表示するステップと、前記樹状図の部分木を選択
するステップと、キーワードを指定するステップと、生
体高分子に関する情報の中に指定されたキーワードが含
まれている生体高分子の前記部分木内での位置を表示す
るステップとを含むことを特徴とする。上記樹状図表示
システムにおいて、生体高分子はcDNA、RNA、D
NA断片又は遺伝子とすることができる。
【0021】本発明による樹状図表示システムは、複数
種類の生体高分子に対して複数の異なる条件で実験を行
って得られたデータの組に基づいて前記複数の生体高分
子のクラスタリング処理を行い、その結果を樹状図の形
式で表示するための解析を行うクラスタリング処理部
と、樹状図を表示するための表示部と、入力手段と、生
体高分子に関する情報のキーワードを保持しているキー
ワード辞書ファイルとを備えることを特徴とする。入力
手段は、樹状図の枝の選択や、クラスタリング手法の選
択などに用いられるもので、例えばキーボードやマウス
とすることができる。キーワード辞書ファイルは、クラ
スタリングの結果に対し利用者が望む形になっているか
を判断するために用いることができる。
【0022】この樹状図表示システムは、入力手段によ
って選択された部分木を別ウィンドウで表示する機能を
有することができる。また、別ウィンドウに表示された
部分木に対してクラスタリング手法を変更して再度クラ
スタリング処理を行い、再クラスタリング処理によって
得られた樹状図を表示する機能を有することができる。
この樹状図表示システムは、入力手段によって選択され
た部分木をアイコン化して表示する機能、及びアイコン
化されて表示されている部分木を元の樹状図の形式に戻
して再表示する機能を有することができる。
【0023】この樹状図表示システムは、入力手段によ
って選択された部分木に含まれる生体高分子に対して、
当該生体高分子に関する情報の中にキーワード辞書ファ
イルに格納されたキーワードが含まれている生体高分子
の数を計数して表示する機能及び/又は選択されたキー
ワードを有する生体高分子の樹状図上の位置を表示する
機能を有することができる。本発明の樹状図表示システ
ムにおいて、前記生体高分子はcDNA、RNA、DN
A断片又は遺伝子とすることができる。
【0024】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。以下では、遺伝子のクラスタリン
グを例にとって説明するが、本発明の適用範囲は遺伝子
のクラスタリングのみに限定されるわけではなく、cD
NA、RNA、DNA断片など生体高分子一般に対して
同様に適用することができる。
【0025】図9は、本発明による樹状図表示システム
の一例を示す構成図である。このシステムは、遺伝子の
情報及び発現過程を記録した遺伝子データ901と、遺
伝子の発現過程に応じてクラスタリングを行ない、それ
を樹状図の形式で表示するための解析を行なうクラスタ
リング処理部902と、樹状図を表示するための表示装
置903と、樹状図の枝や、クラスタリング手法の選択
などに用いるキーボード904及びマウス905等の入
力手段と、クラスタリングの結果に対し利用者が望む形
になっているかを判断するための遺伝子情報のキーワー
ドを保持しているキーワード辞書ファイル906から構
成される。このクラスタリング処理部902は、コンピ
ュータとそのプログラムによって具体化されるものであ
る。なお、記憶装置901に代えて、ネットワーク等を
介して遠隔地に設置されたサーバコンピュータが管理し
ているデータベースから遺伝子データを取得する構成を
とってもよい。
【0026】図10は、遺伝子データ901に格納され
た遺伝子発現パターンデータの具体的な構造を示したも
のである。本アルゴリズムでは、これを2次元配列によ
って格納する。すなわち、遺伝子ID(id)をもつ遺伝子
が実験ケース(no)における発現の度合い(ハイブリダ
イズした蛍光シグナルの輝度)を数値化したデータを、
Exp[id][no]に格納する。m種類の遺伝子をそれぞれ異
なる位置にスポットしたDNAチップから得られる1回の
実験は、1つの実験ケースに対応する。
【0027】図11は、遺伝子データ901に格納され
た遺伝子に関する情報を格納するための、遺伝子情報構
造体の例を示している。この遺伝子構造体は、遺伝子ID
(1101)、遺伝子のORF(1102)、遺伝子名
(1103)、遺伝子の機能(1104)のメンバから
構成される。図11はあくまでも説明のための例であ
り、ここに示した遺伝子の属性以外の情報も、遺伝子情
報構造体のメンバとして定義することももちろん可能で
ある。
【0028】図12は、クラスタリング処理において利
用するクラスタを表す構造体の例を示している。全ての
クラスタ構造体は、樹状図の各ノードまたは葉と対応し
ている。クラスタ構造体は、ウィンドウ単位で管理さ
れ、同じウィンドウのノードまたは葉であれば、同一の
windowID(1207)をもつ。また、同じウィンドウ内
でノードまたは葉を識別するため、clusterNo(120
5)で各クラスタ構造体に一意に番号を割り振ってい
る。クラスタ構造体には3種類あり、type(1201)
の値が、leafのもの、nodeのもの及びiconのものに分か
れる。
【0029】各leaf型クラスタ構造体は、それぞれひと
つのgeneID(1206)に対応している。すなわち、ひ
とつの遺伝子に対応している。更にgeneIDから、遺伝子
情報構造体のデータが参照できる。node型クラスタ構造
体は、クラスタリングにおける併合処理において逐次生
成するもので、併合前の2つのクラスタをleft(120
2)の値と、right(1203)の値からたどれるよう
にし、また、それらの間の距離((非)類似度)をdist
ance(1204)の値として保持する。left及びright
の値には、クラスタを一意に示すclusterNo(120
5)が入っている。icon型クラスタ構造体は、部分木を
アイコンに置き換えるときに生成され、表示では葉の場
合と同様に扱う。そして枝の先端には部分木を示すアイ
コンを付して表示する。実際の部分木のルートのクラス
タは、left(1202)の値からたどることができる。
【0030】図13は、図12に例示したクラスタ構造
体のデータ構造を示した図である。これらはクラスタ分
析の過程で生成される。クラスタ構造体は、最初leaf型
のものだけを用意するが、クラスタリングの過程で2つ
ずつ併合し、その度にnode型クラスタ構造体を生成して
トリー構造を組み立てる。node型クラスタ構造体には、
併合した2つの子ノードのclusterNoと、それらの間の距
離((非)類似度)の情報が登録されている。またleaf
型クラスタ構造体に登録されているgeneIDにより、対応
する遺伝子情報を参照することができる。アイコン化す
る処理があれば、トリーの途中にicon型のクラスタを挿
入し、あたかも葉であるかのように表示する(表示に当
たっては、icon型のクラスタより先に位置するクラスタ
は表示しない)。アイコンを解除するときは、icon型ク
ラスタの上下のクラスタのリンクを繋ぎ直す操作を行
う。
【0031】図14は、クラスタ分析の過程でクラスタ
間の距離である非類似度を格納するための配列の例であ
る。図に示すように、2次元配列dist[ ][ ]を用いてこ
れを格納する。また、2次元配列dist[ ][ ]のインデッ
クスの数字に対応するクラスタのclusterNo(120
5)を格納した配列を、clust_idx[ ]に格納する。すな
わち、非類似度dist[i][j]の値は、clusterNoがclust_i
dx[i]とclust_idx[j]であるクラスタ間の値を示す。図
14から、例えばclust_idx[3]であるclusterNo:9のク
ラスタとclust_idx[4]であるclusterNo:25のクラスタ間
の非類似度dist[3][4]の値は21であることが分かる。
【0032】図15は、各ウィンドウのルートノードを
格納する配列の例を示している。すなわち、各表示ウィ
ンドウに対するルートノードのクラスタのclusterNo
は、配列RootNode[ ]に格納される。図15に示した例
では、RootNode[1]の値が569であることからwindowID:1
の表示ウィンドウに表示される樹状図のルートノードは
clusterNo:569のクラスタであることが分かり、RootNod
e[2]の値が312であることからwindowID:2の表示ウィン
ドウに表示される樹状図のルートノードはclusterNo:31
2のクラスタであることが分かる。
【0033】図16は、検索の問合せ及び結果を格納す
るためのsearch構造体の例を示している。キーワード辞
書ファイル906に登録されている各キーワードに対し
て、構造体を一つ生成する。また、キーワードで同義語
のものがいくつか存在するとき、それらをひとつのもの
を指すこととして扱うこともできる。search構造体は、
検索項目のキーワードを入力しておくkeyword(160
1)、そのキーワードが部分木の中でいくつあったかを
示すtimes(1602)、キーワードが遺伝子情報の中
にあったとき、その遺伝子の樹状図上の位置を格納する
place(1603)をメンバとしてもつ。図16に図示
する例のように、Rat、Mouse、Musのような同義語をま
とめてkeywordメンバに登録しておくことで、これら3つ
のキーワードのどれをも同じ検索項目として扱うことが
出来る。
【0034】図17は、本システムの概略フローを示し
た図である。まず、遺伝子データ901からクラスタリ
ング処理部902へデータを読み込む(ステップ170
1)。これについては、後で詳しく説明する。次に、ク
ラスタ分析、及び結果表示に必要な各種パラメータを設
定する(ステップ1702)。ここでは、分類アルゴリ
ズム及び(非)類似度の設定、個々の遺伝子情報を表示
するか否かなどの設定を行う。
【0035】次にクラスタ分析を行い(ステップ170
3)、結果を表示する(ステップ1704)。クラスタ
分析については、後で詳しく説明する。このクラスタ分
析の処理の中で、樹状図表示に必要な情報を収集し、ク
ラスタ構造体に入力する。分析結果表示では、このクラ
スタ構造体と、個々のウィンドウのルートノードのclus
terNoを表すRootNode[ ]の情報をもとに、結果を表示す
る。クラスタ構造体のtypeがiconのときは、それを葉の
ように扱い、枝の先端に部分木を表すアイコンを付加す
る。
【0036】表示された樹状図の中のある部分木をアイ
コン化してまとめる、あるいはアイコン化を解除して元
の部分木に戻す場合、以下の処理を実行する(ステップ
1705)。すなわち、樹状図の枝をマウスで選択し
(ステップ1706)、部分木のアイコン化、または非
アイコン化処理を行う(ステップ1707)。アイコン
化、非アイコン化処理に関しては、後で詳しく説明す
る。処理の後、再び分析結果表示(ステップ1704)
を行う。
【0037】表示された樹状図に対して、キーワード辞
書ファイル906に格納されたキーワードをもとに検索
を行う場合、以下の処理を実行する(ステップ170
8)。すなわち、樹状図の枝をマウスで選択し(ステッ
プ1709)、検索処理を行う(ステップ1710)。
検索処理に関しては、後で詳しく説明する。検索処理1
710で、表示に必要な情報がsearch構造体に格納され
るので、それをもとに新たに検索結果ウィンドウを生成
し結果を表示する(ステップ1711)。このとき、マ
ウスなどで検索結果ウィンドウのあるキーワードを選択
すると、search構造体のplaceメンバの情報をもとに、
樹状図上のキーワードのある箇所にマーカーを付与す
る。
【0038】表示された樹状図に対して、他の併合アル
ゴリズム、(非)類似度で再びクラスタリングを適用し
たいときは、ステップ1702に戻る(ステップ171
2)。 クラスタ併合アルゴリズムとしては、例えば、
最短距離法、最長距離法、群平均法、重心法、メディア
ン法、ウォード法、可変法等がある。最短距離法、最長
距離法、群平均法、ウォード法、可変法には、次々にク
ラスターを融合していくときの非類似度が単調に大きく
なる特性がある。また、2つのクラスターを融合して1
つのクラスターを作ると、他のクラスターとの距離が近
づく場合と遠ざかる場合があり、前者を空間の収縮、後
者を空間の膨張、距離が変わらない場合を空間の保存と
呼ぶが、最短距離法は空間が収縮する特性を有し、最長
距離法やウォード法は空間が膨張する特性を有する。ま
た、群平均法、重心法、メディアン法は、空間が保存さ
れ、可変法の場合はパラメータの設定によっていずれに
もなりうる。(非)類似度にも種々のものがあり、例え
ば非類似度の代表的なものとしてはユークリッド平方距
離、標準化ユークリッド平方距離、マハラノビスの
(汎)距離、ミンコフスキー距離等がある。従って、前
述の特性等を勘案して、これらの中から適宜のものを選
択すればよい。
【0039】表示された樹状図に対して、ある部分木を
別のウィンドウで表示させたい時(ステップ1713)
は、別ウィンドウに表示したい樹状図の枝をマウスで選
択し(ステップ1714)、選択した樹状図の部分木に
対するデータの読み込みを行い(ステップ1715)、
再びステップ1702に戻る。選択した樹状図の部分木
に対するデータの読み込み処理については、あとで詳し
く説明する。以上の選択が無かった場合には、処理を終
了する。
【0040】図18は、図17における遺伝子データの
読み込み処理1701の詳細フローである。まず、遺伝
子数、実験ケースの総数をそれぞれgene_num、exp_num
に登録する(ステップ1801)。次に、遺伝子データ
901から遺伝子情報を読み取り、遺伝子情報構造体ge
ne_info[i](i = 1,…,gene_num)に登録する(ステップ
1802)。遺伝子データ901から遺伝子発現データ
を読み取り、Exp[i][j](i =1,…,gene_num, j = 1,…,e
xp_num)に登録する(ステップ1803)。樹状図の葉
の総数を表すleaf_numにgene_numを代入する(ステップ
1804)。
【0041】次に、初期値となるleaf型クラスタ構造体
を生成する。クラスタ構造体clusterをleaf_num個生成
し、i = 1,…, leaf_numに対して、typeをleafに、clus
terNoをiに、 geneIDをiに、 windowIDを1として登録す
る(ステップ1805)。次に、キーワード辞書ファイ
ル906に格納されたキーワードを読み出し、それぞれ
のキーワードに対してsearch構造体を生成し、キーワー
ドをsearch[].keywordに登録する(ステップ180
6)。キーワードの総数をkey_numに代入する(ステッ
プ1807)。windowIDを表すwidに1を登録し(ステ
ップ1808)、処理を終わる。
【0042】図19、図20は、図17におけるクラス
タ分析処理1703の詳細フローである。windowIDがwi
dに対応するウィンドウ内の遺伝子間の発現度の非類似
度を求める。clusterNoがi,jに対応する遺伝子の非類似
度をdist[i][j]に登録する(ステップ1901)。本ア
ルゴリズムでは、クラスタが1つ生成されるごとにclus
terNoを1から順に割り振っている。そこで、次のクラ
スタが生成されたとき、そのクラスタの番号を表すnewc
lusterNoにleaf_num + 1を代入しておく(ステップ19
02)。また、クラスタ間距離(非類似度)を格納する
配列の情報として、併合対象クラスタ数を示すall_clus
tにleaf_numを代入し、i = 1,…,leaf_numに対し、clus
ter_idx[i]にiを代入して初期化しておく。併合対象ク
ラスタの数all_clustが1に等しいかどうか判定し、等
しくない場合、1になるまで以下の一連の処理を繰り返
す(ステップ1905)。
【0043】最初に、先に求めたクラスタ間距離(非類
似度)から、次に併合されるべきクラスタを決定する。
すなわち、i < j かつi, j = 1,2,…, all_clustに対
して、dist[i][j]の最小値、最小値を与えるi、最小値
を与えるjを求め、d_min、i_min、j_minにそれぞれ代入
する。clusterNoが、cluster_idx[i_min]、cluster_idx
[j_min]のクラスタが次に併合されるべきクラスタとな
る。clusterを新規に生成し、typeにnode、leftにclust
er_idx[i_min]、rightに cluster[j_min]、distanceにd
_min、clusterNoにnewclusterNo、windowIDにwidを登録
していく(ステップ1907)。ここで、2つのクラス
タのどちらをleftメンバとし、残りをrightメンバとす
るかについては、発現量で比較するなど予め判定基準を
設ける方式をとることも可能である。
【0044】次に、クラスタ間距離を格納している配列
の情報を更新する。まず、新しく生成したクラスタと他
のクラスタとの距離((非)類似度)を求め、それをi_
minのクラスタと他のクラスタ間の距離が格納されてい
たdist[][]の配列位置に上書きする。i = 1,2,…,i_min
−1に対し、新しく生成したクラスタと、clusterNoがcl
uster_idx[i]に対応するクラスタとの非類似度をdist
[i][i_min]に登録し、j= i_min + 1, …, j_min_1, j_m
in + 1, … , all_clustに対し、新しく生成したクラス
タと、cluster_idx[j]に対応するクラスタとの非類似度
をdist[i_min][j]に登録する(ステップ2001、20
02)。
【0045】次に、j_minに関する情報を削除して、j_m
in以降のすべての配列データを一つ前に移動する処理を
行なう。i = min_j,…,all_clust−1に対し、clust_idx
[i]にclust_idx[i +1]を代入する(ステップ200
3)。次にi < j、i, j = j_min, …, all_clustを満
たすi ,jに対し、dist[i][j]にdist[i + 1][j]を代入
し、その後i< j、i = 1,…, all_clust−1、j = j_mi
n,…,all_clust−1を満たすi ,jに対し、dist[i][j]に
dist[i][j + 1]を代入する(ステップ2004、200
5)。
【0046】最後に、併合対象クラスタ数を示すall_cl
ustから1を引き、新しいクラスタ構造体に割り振るclu
sterNoを表すnewclusterNoに1を加える(ステップ20
06,2007)。以上の操作をall_clustが1になる
まで繰り返す。all_clustが1になれば、RootNode[wid]
に、このウィンドウのルートノードのclusterNoを表すc
luster_idx[1]を代入し、処理を終える(ステップ19
08)。
【0047】図21は、図17におけるアイコン化す
る、または(非)アイコン化(アイコンを解除)する処
理1707の詳細フローである。6において選択した枝
の両端に対応するクラスタを登録する。下(leaf側)の
clusterをchildClustに代入し、枝の上(root側)のclu
sterをparentClustに代入する(ステップ2101,2
102)。次に、新しくicon型clusterを生成し、child
ClustとparentClustの間に挿入する処理を行なう。すな
わち、clusterを生成し、typeにiconを、leftにchildCl
ust.clusterNo、をclusterNoにnewclusterNoを、window
IDにwidをそれぞれ登録する(ステップ2103)。そ
して、ポインタの付け替え操作として、parentClust.le
ftまたはparentClust.rightに登録されているchildClus
tのclusterNoをnewclusterNoに変更する(ステップ21
04)。全体のクラスタ数がひとつ増加したので、新し
いクラスタ構造体に割り振るclusterNoを示すnewcluste
rNoに1を加えて処理を終了する。(ステップ210
5)
【0048】また、部分木をアイコン化したものを元に
戻すメニューを選択すると、まず図17におけるステッ
プ1706で選択した枝の両端に対応するクラスタを登
録する。ステップ1706で選択した枝の下(leaf側)
にあるアイコンのcluster、アイコンの親ノードのclust
erをそれぞれiconClust、parentClustに代入する(ステ
ップ2101,2106)。アイコンのクラスタと、部
分木のクラスタとのポインタを繋ぎ替え、アイコンのク
ラスタを削除する処理を行なう。すなわち、parentClus
t.leftまたはparentClust.rightに登録されているiconC
lustのclusterNoをiconClust.leftに変更する(ステッ
プ2107)。その後、iconClustを削除して処理を終
了する(ステップ2108)。
【0049】図22は、図17における検索処理171
0の詳細フローである。選択した枝以下に対応する部分
木のルートノードのクラスタのclusterNoをclustNoに代
入する(ステップ2201)。また、部分木の先頭から
のインデックスを表すleafNoを1で初期化しておく(ス
テップ2202)。またi =1,…,key_numに対して、sea
rch[i].timesを0 、search[i].placeをnullで初期化し
ておく(ステップ2203)。次に、再帰的にクラスタ
木に対するトリーウォークを実行し、searchで指定した
キーワードをもつ遺伝子の単語検索処理(処理A)を行
なう(ステップ2205)。引数としてclustNo、leafN
oを渡す。単語検索処理については、後で詳しく説明す
る。処理Aを終えると、search構造体に検索結果が入力
され、処理を終了する。
【0050】図23は、図22の単語検索処理(処理
A)の詳細フローである。引数で渡されたclustNo、leaf
NoをそれぞれclustNo、leafNoに代入する(ステップ2
300)。また、clusterNoの指すclusterをtargetClus
tに代入する(ステップ2301)。キーワード検索の
カウンタを示すi を0に設定しておく(ステップ230
2)。
【0051】次に、targetCluster.typeがleafかどうか
を判定する(ステップ2303)。leafであるとき、le
afに対応する遺伝子情報とキーワード辞書ファイルから
読み込んだキーワードとの比較が終わるまで、以下の処
理を繰り返し行なう。すなわち、iがkey_numになるまで
繰り返し行なう(ステップ2304)。まず、targetCl
ust.geneIDのgeneIDに対応する遺伝子情報構造体gene_i
nfoの属性の中に、search[i].keywordの用語が入ってい
るか判別する(ステップ2305)。もし入っていた
ら、部分木でキーワード(search[i].keyword)が発見
された回数を示すsearch[i].timesをひとつインクリメ
ントし、部分木での発見した位置のインデックスを示す
search[i].placeに現在位置のleafNoを登録する(ステ
ップ2307)。キーワードの検索カウンタi をひとつ
インクリメントし、ステップ2304に戻る。ステップ
2304において、iがkey_numになったとき、即ちすべ
てのキーワードとの比較が終わったら、部分木のインデ
ックスであるleafNoをひとつインクリメントし、処理を
終わる(ステップ2309)。
【0052】また、ステップ2303において、target
Cluster.typeがleafではなかった場合、子供のノードを
たどる処理を行なう。targetClust.leftをclustNoに代
入し(ステップ2310)、左の子ノードに対しclustN
oとleafNoとを引数として再び単語検索処理(処理A)を
行なう(ステップ2311)。targetCluster.typeがic
onのときは、targetCluster.rightには子供ノードがな
いので、処理を終了する(ステップ2312)。ステッ
プ2312において、targetCluster.typeがiconでない
場合、これはnode型clusterを表す。clustNoにtargetCl
ust.rightを代入し(ステップ2313)、右の子ノー
ドに対しclustNoとleafNoとを引数として再び単語検索
処理(処理A)を行ない、処理を終了する(ステップ2
314)。
【0053】図24は、図17における部分木の遺伝子
データの読み込み処理1715の詳細フローである。新
しく部分木を読み込んでウィンドウを作成するので、新
しいウィンドウIDを示すwidをひとつインクリメントし
ておく(ステップ2401)。また、樹状図の葉の総数
を表すleaf_numを0に初期化しておく(ステップ240
2)。選択した枝以下に対応する部分木のルートノード
のクラスタにおけるclusterNoをclustNoに代入する(ス
テップ2403)。最後に、部分木のleaf型クラスタに
対して、新規clusterを生成する処理(処理B)を行なう
(ステップ2404)。現在のクラスタを示すclustNo
をこの処理の引数として渡す。この処理の詳細は後で説
明する。すべてのleafを読み込み、leafに対応するclus
terをすべて生成し処理を終了する。
【0054】図25は、図24における部分木のleafに
対して新規にクラスタを生成する処理2404の詳細フ
ローである。引数で渡されたclustNoをclustNoとし、cl
ustNoの指すclusterをtargetClustとする(ステップ2
501,2502)。次に、targetCluster.typeがleaf
かどうかを判定する(ステップ2503)。leafである
ならば、部分木のleafの数のカウンタであるleaf_numを
ひとつインクリメントする(ステップ2504)。次に
新しいウィンドウの初期値となるleaf型クラスタ構造体
を生成する。すなわち、clusterを生成し、typeにleaf
を、clusterNoにleaf_numを、geneIDにtargetCluster.g
eneIDを、windowIDにwidを登録し処理を終了する(ステ
ップ2505)。
【0055】またステップ2503において、targetCl
uster.typeがleafではなかった場合、子供のノードをた
どる処理を行なう。すなわち、targetClust.leftをclus
tNoに代入し(ステップ2506)、左の子ノードに対
し、clustNoを引数として再び新規にクラスタを生成す
る処理(処理B)を行なう(ステップ2507)。targe
tCluster.typeがiconのときは、targetCluster.rightに
子供ノードはないので、これで処理を終了する(ステッ
プ2508)。ステップ2508において、targetClus
ter.typeがiconでない場合、これはnode型clusterを表
している。従って、clustNoにtargetClust.rightを代入
し(ステップ2509)、右の子ノードに対しclustNo
を引数として再び新規にクラスタを生成する処理(処理
B)を行い、処理を終了する(ステップ2510)。以
上では解析結果を表示装置画面に表示する例を説明した
が、多色プリンタで印刷出力する構成であってもよい。
すなわち、本発明でいう表示とは、プリンタによって視
覚的に印刷出力する概念を含むものである。
【0056】
【発明の効果】以上示したように、本発明によると、樹
状図に対して様々なクラスタリング手法を適用し、部分
木をアイコン化したり、別ウィンドウで表示するなど、
遺伝子の発現解析等を支援する方法を提供することがで
きる。
【図面の簡単な説明】
【図1】標準的クラスタ分析結果の表示例を示す図。
【図2】クラスタリング方法の違いの例の説明図。
【図3】クラスタリング方法によらない樹状図の表示例
を示す図。
【図4】発現パターンが類似している遺伝子群を含む樹
状図の例を示す図。
【図5】本発明の樹状図表示システムによる画面表示例
を示す図。
【図6】本発明の樹状図表示システムによる他の画面表
示例を示す図。
【図7】本発明の樹状図表示システムによる他の画面表
示例を示す図。
【図8】本発明の樹状図表示システムによる他の画面表
示例を示す図。
【図9】本発明による樹状図表示システムの構成例を示
す図。
【図10】遺伝子発現パターンデータの例を示す図。
【図11】遺伝子情報構造体の例を示す図。
【図12】クラスタ構造体の例を示す図。
【図13】クラスタ木構造の生成例を示す図。
【図14】クラスタ間距離を格納する配列の例を示す
図。
【図15】各ウィンドウのルートノードを格納する配列
の例を示す図。
【図16】検索の問合せ及び結果を格納する構造体の例
を示す図。
【図17】本システムの概略処理フロー例を示す図。
【図18】遺伝子データの読み込み処理のフローを示す
図。
【図19】クラスタ分析処理のフローを示す図。
【図20】クラスタ分析処理のフローを示す図。
【図21】(非)アイコン化処理のフローを示す図。
【図22】遺伝子情報を検索対象とした検索処理のフロ
ーを示す図。
【図23】単語検索処理(処理A)のフローをを示す
図。
【図24】部分木の遺伝子データの読み込み処理の説明
図。
【図25】部分木のleafに対して新規にclusterを生成
する処理(処理B)の説明図。
【符号の説明】
401…樹状図の中で発現過程が類似した遺伝子群の
例、402…樹状図の中で発現過程が401の遺伝子群
と大きく異なる遺伝子の例(その1)、403…樹状図
の中で発現過程が401と大きく異なる遺伝子の例(そ
の2)、501…クラスタリングにおける分類アルゴリ
ズムの選択メニュー、502…クラスタリングにおける
(非)類似度の選択メニュー、503…メニューウィン
ドウ、504…マウスカーソル、505…選択された枝
(部分木)、701…アイコン化した部分木の例、80
1…キーワード検索結果のウィンドウ例、802…選択
されたキーワード、803…遺伝子情報の中に予め定め
たキーワードが含まれる遺伝子に対するマーク、804
…マウスカーソル
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/419 310 (72)発明者 渡辺 恒彦 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 (72)発明者 中重 亮 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 (72)発明者 田村 卓郎 神奈川県横浜市中区尾上町6丁目81番地 日立ソフトウエアエンジニアリング株式会 社内 Fターム(参考) 4B024 AA11 AA20 CA01 CA11 HA11 HA19 5B075 ND20 ND35 NR12 PP03 PP13 PQ02 PQ13 PQ32 UU19 5E501 AC15 BA03 EB05 FA04 FA06 FB04

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 複数種類の生体高分子に対して複数の異
    なる条件で実験を行って得られたデータの組に基づいて
    前記複数の生体高分子のクラスタリング処理を行い、そ
    の結果を樹状図の形式で表示するステップと、 前記樹状図の部分木を選択するステップと、 選択された部分木を別ウィンドウで表示するステップと
    を含むことを特徴とする樹状図表示方法。
  2. 【請求項2】 請求項1記載の樹状図表示方法におい
    て、 前記別ウィンドウに表示された部分木に含まれる生体高
    分子に対するクラスタリング手法の変更を指示するステ
    ップと、 指示されたクラスタリング手法によって前記部分木に含
    まれる生体高分子に対して再度クラスタリング処理を行
    い、その結果を樹状図の形式で表示するステップとを含
    むことを特徴とする樹状図表示方法。
  3. 【請求項3】 複数種類の生体高分子に対して複数の異
    なる条件で実験を行って得られたデータの組に基づいて
    前記複数の生体高分子のクラスタリング処理を行い、そ
    の結果を樹状図の形式で表示するステップと、 前記樹状図の部分木を選択するステップと、 選択された部分木をアイコン化して表示するステップを
    含むことを特徴とする樹状図表示方法。
  4. 【請求項4】 請求項3記載の樹状図表示方法におい
    て、アイコン化されて表示されている部分木を元の樹状
    図の形式に戻して再表示するステップを含むことを特徴
    とする樹状図表示方法。
  5. 【請求項5】 複数種類の生体高分子に対して複数の異
    なる条件で実験を行って得られたデータの組に基づいて
    前記複数の生体高分子のクラスタリング処理を行い、そ
    の結果を樹状図の形式で表示するステップと、 前記樹状図の部分木を選択するステップと、 選択された部分木に含まれる生体高分子を対象として、
    生体高分子に関する情報の中に予め用意されたキーワー
    ド辞書ファイルに格納されたキーワードが含まれている
    生体高分子の数を計数して表示するステップとを含むこ
    とを特徴とする樹状図表示方法。
  6. 【請求項6】 複数種類の生体高分子に対して複数の異
    なる条件で実験を行って得られたデータの組に基づいて
    前記複数の生体高分子のクラスタリング処理を行い、そ
    の結果を樹状図の形式で表示するステップと、 前記樹状図の部分木を選択するステップと、 キーワードを指定するステップと、 生体高分子に関する情報の中に指定されたキーワードが
    含まれている生体高分子の前記部分木内での位置を表示
    するステップとを含むことを特徴とする樹状図表示方
    法。
  7. 【請求項7】 請求項1〜6のいずれか1項記載の樹状
    図表示方法において、前記生体高分子はcDNA、RN
    A、DNA断片又は遺伝子であることを特徴とする樹状
    図表示方法。
  8. 【請求項8】 複数種類の生体高分子に対して複数の異
    なる条件で実験を行って得られたデータの組に基づいて
    前記複数の生体高分子のクラスタリング処理を行い、そ
    の結果を樹状図の形式で表示するための解析を行うクラ
    スタリング処理部と、 樹状図を表示するための表示部と、 入力手段と、 前記生体高分子に関する情報のキーワードを保持してい
    るキーワード辞書ファイルとを備えることを特徴とする
    樹状図表示システム。
  9. 【請求項9】 請求項8記載の樹状図表示システムにお
    いて、前記入力手段によって選択された部分木を別ウィ
    ンドウで表示する機能を有することを特徴とする樹状図
    表示システム。
  10. 【請求項10】 請求項9記載の樹状図表示システムに
    おいて、前記別ウィンドウに表示された部分木に対して
    クラスタリング手法を変更して再度クラスタリング処理
    を行い、再クラスタリング処理によって得られた樹状図
    を表示する機能を有することを特徴とする樹状図表示シ
    ステム。
  11. 【請求項11】 請求項8,9又は10記載の樹状図表
    示システムにおいて、前記入力手段によって選択された
    部分木をアイコン化して表示する機能、及びアイコン化
    されて表示されている部分木を元の樹状図の形式に戻し
    て再表示する機能を有することを特徴とする樹状図表示
    システム。
  12. 【請求項12】 請求項8〜11のいずれか1項記載の
    樹状図表示システムにおいて、前記入力手段によって選
    択された部分木に含まれる生体高分子に対して、当該生
    体高分子に関する情報の中に前記キーワード辞書ファイ
    ルに格納されたキーワードが含まれている生体高分子の
    数を計数して表示する機能及び/又は選択されたキーワ
    ードを有する生体高分子の樹状図上の位置を表示する機
    能を有することを特徴とする樹状図表示システム。
  13. 【請求項13】 請求項8〜12のいずれか1項記載の
    樹状図表示システムにおいて、前記生体高分子はcDN
    A、RNA、DNA断片又は遺伝子であることを特徴と
    する樹状図表示システム。
JP35440199A 1999-12-14 1999-12-14 樹状図表示方法及び樹状図表示システム Expired - Fee Related JP3563315B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP35440199A JP3563315B2 (ja) 1999-12-14 1999-12-14 樹状図表示方法及び樹状図表示システム
US09/890,929 US7315785B1 (en) 1999-12-14 2000-11-17 Method and system for displaying dendrogram
EP00976334A EP1194877A2 (en) 1999-12-14 2000-11-17 Method and system for displaying dendrograms
PCT/JP2000/008133 WO2001045026A2 (en) 1999-12-14 2000-11-17 Method and system for displaying dendrogram

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35440199A JP3563315B2 (ja) 1999-12-14 1999-12-14 樹状図表示方法及び樹状図表示システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003413205A Division JP4021406B2 (ja) 2003-12-11 2003-12-11 樹状図表示方法及び樹状図表示システム

Publications (2)

Publication Number Publication Date
JP2001175660A true JP2001175660A (ja) 2001-06-29
JP3563315B2 JP3563315B2 (ja) 2004-09-08

Family

ID=18437320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35440199A Expired - Fee Related JP3563315B2 (ja) 1999-12-14 1999-12-14 樹状図表示方法及び樹状図表示システム

Country Status (4)

Country Link
US (1) US7315785B1 (ja)
EP (1) EP1194877A2 (ja)
JP (1) JP3563315B2 (ja)
WO (1) WO2001045026A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3907161B2 (ja) * 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
WO2010033383A1 (en) 2008-09-16 2010-03-25 Beckman Coulter, Inc. Interactive tree plot for flow cytometry data
US20110078194A1 (en) * 2009-09-28 2011-03-31 Oracle International Corporation Sequential information retrieval
US10552710B2 (en) * 2009-09-28 2020-02-04 Oracle International Corporation Hierarchical sequential clustering
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
US9239967B2 (en) * 2011-07-29 2016-01-19 Hewlett-Packard Development Company, L.P. Incremental image clustering

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0214873A (ja) 1988-06-07 1990-01-18 Ngk Insulators Ltd β−アルミナ磁器の製造方法
US5065347A (en) * 1988-08-11 1991-11-12 Xerox Corporation Hierarchical folders display
JP2853144B2 (ja) 1989-02-27 1999-02-03 富士ゼロックス株式会社 画像処理装置
JP3374294B2 (ja) 1993-09-20 2003-02-04 富士通株式会社 階層表示装置
GB9517988D0 (en) * 1995-09-04 1995-11-08 Ibm Interactive visualisation aid
ATE280246T1 (de) * 1997-08-15 2004-11-15 Affymetrix Inc Polymorphismuserkennung mit hilfe cluster-analyse

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716169B2 (en) 2005-12-08 2010-05-11 Electronics And Telecommunications Research Institute System for and method of extracting and clustering information

Also Published As

Publication number Publication date
WO2001045026A3 (en) 2002-02-07
US7315785B1 (en) 2008-01-01
WO2001045026A2 (en) 2001-06-21
EP1194877A2 (en) 2002-04-10
JP3563315B2 (ja) 2004-09-08

Similar Documents

Publication Publication Date Title
US10275711B2 (en) System and method for scientific information knowledge management
Tseng et al. Tight clustering: a resampling-based approach for identifying stable and tight patterns in data
US10891315B2 (en) Landmark point selection
US7243112B2 (en) Multidimensional biodata integration and relationship inference
US20160232224A1 (en) Categorization and filtering of scientific data
US20020067358A1 (en) Data analysis software
Sallaberry et al. Sequential patterns mining and gene sequence visualization to discover novelty from microarray data
CN115428088A (zh) 用于基因表达和dna染色质可及性的联合交互式可视化的系统和方法
Fang et al. Knowledge guided analysis of microarray data
JP2003162545A (ja) ファイル検索装置、インデックスファイル作成装置及びファイル検索プログラム
Yu et al. DDOT: a Swiss army knife for investigating data-driven biological ontologies
JP3532911B2 (ja) 遺伝子データ表示方法及び記録媒体
JP3563315B2 (ja) 樹状図表示方法及び樹状図表示システム
EP1251435A2 (en) Knowledge database and method for constructing and merging knowledge database
US6741976B1 (en) Method and system for the creation, application and processing of logical rules in connection with biological, medical or biochemical data
Kaushal et al. Analyzing and visualizing expression data with Spotfire
Markowitz et al. Applying data warehouse concepts to gene expression data management
JP4021406B2 (ja) 樹状図表示方法及び樹状図表示システム
US20140074408A1 (en) Identifying biological response pathways
JP4167417B2 (ja) 生体高分子間の相互関係表示方法、生体高分子間相互関係データベース及び生体高分子間相互関係データベースの構築方法
JP2001178463A (ja) 類似発現パターン抽出方法及び関連生体高分子抽出方法
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
Davenport et al. Using bioinformatics to analyse germplasm collections
JP3773092B2 (ja) 遺伝子発現パターン表示方法および装置並びに記録媒体
Engelhorn et al. Meta-analysis of genome-wide chromatin data

Legal Events

Date Code Title Description
A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040602

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160611

Year of fee payment: 12

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees