JP2001175660A

JP2001175660A - 樹状図表示方法及び樹状図表示システム

Info

Publication number: JP2001175660A
Application number: JP35440199A
Authority: JP
Inventors: Yasuyuki Nozaki; 康行野崎; Tsunehiko Watanabe; 恒彦渡辺; Akira Nakashige; 亮中重; Takuro Tamura; 卓郎田村
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 1999-12-14
Filing date: 1999-12-14
Publication date: 2001-06-29
Anticipated expiration: 2019-12-14
Also published as: WO2001045026A3; US7315785B1; WO2001045026A2; EP1194877A2; JP3563315B2

Abstract

(57)【要約】【課題】樹状図全体の枝の状態を大域的に把握すると
共に個々の部分木の状態を詳細に知り、分類の絞り込み
や、クラスタリング方法の選択の支援をする。【解決手段】樹状図の枝を選択し、選択した枝から葉
の部分木に対して、別の表示ウィンドウで表示する機
能、アイコン化する機能、アイコン化したものを元に戻
す機能、部分木に含まれるキーワードを収集し表示する
機能を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、特定の生体高分
子、例えば遺伝子とハイブリダイズさせることによって
得られたデータ（遺伝子発現データ）を、視覚的にわか
りやすく、そして生体高分子（遺伝子）の機能・役割が
推測しやすい形式によって表示するための表示方法及び
表示システムに関する。

【０００２】

【従来の技術】ゲノム配列が決定された種の増加に伴
い、進化に対応すると見られる遺伝子を見つけ出し、ど
の生物にも共通に持っていると考えられる遺伝子の集合
を探したり、それから逆に種に個別な特徴を推測するな
ど、種間の違いから何かを見出そうとする、いわゆるゲ
ノム比較法が盛んに行われてきた。しかし近年、DNAチ
ップやDNAマイクロアレイなどのインフラストラクチャ
の発達によって、分子生物学の興味は、種間の情報から
種内の情報へ、すなわち同時発生解析へと移りつつあ
り、これまでの種内の比較と併せて、情報の抽出から関
連付けの場が大きく広がりを持ち始めている。

【０００３】例えば、既知の遺伝子と同一の発現パター
ンを示す未知の遺伝子が見つかれば、それが既知の遺伝
子と同様の機能があると推測できる。これら遺伝子や蛋
白質そのものの機能的な意味付けは、機能ユニットや機
能グループといった形で研究されている。またそれらの
間の相互作用も、既知の酵素反応データや物質代謝デー
タとの対応づけによって、あるいはより直接的に、ある
遺伝子を破壊あるいは過剰反応させ、その遺伝子の発現
をなくすか、あるいは多量に発現させ、その遺伝子の直
接的及び間接的影響を、全遺伝子の発現パターンを調べ
ることによって解析している。

【０００４】この分野に成功した事例として、スタンフ
ォード大学のP. Brownらのグループによるイースト菌の
発現解析が挙げられる（Michel B. Eisen et al.: Clus
teranalysis and display of genome-wide expression
patterns: Proc. Natl. Acad. Sci. (1998) Dec 8;95(2
5):14863-8）。彼らは、DNAマイクロアレイを用いて、
細胞から抽出した遺伝子を時系列にハイブリダイズさ
せ、遺伝子の発現の度合い（ハイブリダイズした蛍光シ
グナルの輝度）を数値化した。そしてこの数値に応じ
て、細胞の一連のサイクルで発現パターンの過程が近い
遺伝子どうし（任意の時点での発現の度合いが近いもの
どうし）をクラスタリングしている。

【０００５】図１は、この方式にそって遺伝子の発現パ
ターンの類似性を表現した表示例である。右側には観測
した個々の遺伝子の情報が列挙されており、左側にはこ
れらの遺伝子の発現パターンに応じて作成された樹状図
が示されている。樹状図は、クラスタリングの過程で、
最も近い2つのクラスタ毎に併合されてきた状況を表し
ており、各枝の長さは併合時の2つのクラスタ間距離
（クラスタ間の非類似度）に対応している。このような
表示方法をとることで、共通のクラスタに属する遺伝子
は、共通の機能的性質をもつ可能性があると推測するこ
とができる。

【０００６】

【発明が解決しようとする課題】実際の遺伝子発現パタ
ーンの分析では、大量のデータをクラスタリングするこ
とになる。通常、DNAチップやDNAマイクロアレイは、数
千から数万の遺伝子を同時に観測することが可能であ
る。一般に遺伝子の発現過程は、ある遺伝子の発現が別
の遺伝子の発現を誘導したり、あるいは、発現を阻害す
るなど、遺伝子間で複雑なネットワークを形成してい
る。それ故、観測する遺伝子の数が多ければ、より複雑
で詳細なネットワークを調べることができる。

【０００７】ところが、遺伝子の数が膨大になると、全
体の遺伝子の働きを把握することは非常に困難になる。
すなわち、樹状図には数千〜数万の遺伝子が並ぶことに
なるので、この表示から、どのような分類ができている
のかを判断するのは難しい。また、クラスタリング手法
の違いにより、樹状図の枝の長さは一般的に異なる。例
えばクラスタ併合アルゴリズムとして、最長距離法を選
択したとき、枝の長さの平均は、最短距離法を選択した
ときの長さの平均よりも長い。したがって、樹状図全体
としてみたとき、図２のように、根から葉までの長さも
また、クラスタリング手法によって異なる。遺伝子の発
現データに対するクラスタリングでは、枝の長さより
も、どのように分類されているのかを調べることが重要
である。それゆえ、通常、樹状図の表示を行なうとき
は、図３のように、樹状図の根から葉までの長さを一定
値に定め、各枝の長さは根から葉までの長さに対する相
対的な長さで表し、クラスタリング手法に応じて枝の長
さの縮尺を変更して表示する。

【０００８】ここで、上記のような樹状図の表示方法を
採用したとき、樹状図の中に発現パターンが類似してい
る遺伝子を多数含んでいると、枝の長さが小さい樹状図
が形成されるが、これらの枝の長さが樹状図の根から葉
までの長さに比べて非常に小さいと、図４の４０１に示
すように遺伝子間の枝の詳細な関係を知るのが非常に困
難になる。また、従来の遺伝子発現解析に関するクラス
タリングでは、部分木を選択し、これに対して別のクラ
スタリング手法を適用するなど、対話的な操作ができな
かった。また、従来の遺伝子発現解析に関するクラスタ
リングでは、分類が成功しているかどうかを調べる手段
として、遺伝子の機能や遺伝子名のキーワードに着目
し、それらが部分木に集まっているかどうかによって判
断していた。しかし、解析する遺伝子の数が膨大なもの
になると、どのような機能やキーワードに着目すべきか
を判断するのは、非常に困難な作業である。本発明は、
このような従来技術の問題点に鑑み、樹状図全体の枝の
状態を大域的に把握でき、かつ個々の部分木の状態を詳
細に知ることができるような樹状図表示方法及び樹状図
表示システムを提供することを目的とする。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に、本発明では、樹状図の枝を選択し、選択した枝から
葉の部分木に対して、別の表示ウィンドウで表示する機
能、アイコン化する機能、アイコン化したものを元に戻
す機能、部分木に含まれるキーワードを収集し表示する
機能、を備えた樹状図表示システムを提案する。本発明
によると、作成された樹状図の部分木に対して、異なる
クラスタリング方法を対話的に適用する処理を実現する
ことができる。また、クラスタリングが成功しているか
どうかを判別するため、部分木にどのようなキーワード
が多く含まれているかを表示し、分類の絞り込みや、ク
ラスタリング方法の選択の支援を行うることができる。

【００１０】以下、理解を容易にするため、本発明を遺
伝子のクラスタリングに適用した場合を例にとって、本
発明の樹状図表示システムによる樹状図の表示例につい
て説明する。ただし、本発明は遺伝子のクラスタリング
にのみ適用されるものでなく、他の生体高分子、例えば
ｃＤＮＡ、ＲＮＡ、ＤＮＡ断片等についても同様に適用
可能である。

【００１１】図５は、本発明の樹状図表示システムによ
る樹状図の表示例を示している。分類アルゴリズムの選
択メニュー５０１、及び（非）類似度の選択メニュー５
０２を備えている。遺伝子発現データを読み込み、分類
アルゴリズム及び（非）類似度を選択すると、樹状図が
作成される。また、本システムは、図１のように遺伝子
名などの遺伝子情報を樹状図の葉の先に付加して表示す
る形式も選択できる。

【００１２】作成された樹状図において、任意の枝を選
択すると、選択した枝から葉までの部分木に対する操
作、すなわち、この部分木を別のウィンドウで表示す
る、この部分木をアイコン化する、この部分木のアイコ
ンを元に戻す、この部分木に含まれる単語を検索する、
というメニューが選択できる。図は、画面中央の枝５０
５を矢印で図示されているマウスカーソル５０４等で選
択した状態を示しており、このとき開くメニューウィン
ドウ５０３には選択可能なメニューが表示されている。
マウスカーソル５０４をメニューウィンドウ５０３内に
移動して、所望の処理項目をクリックすると選択された
処理が実行される。

【００１３】分類アルゴリズムは、図５の状態ではウォ
ード法が選択されているが、選択メニュー５０１を開く
ことによって例えば、最短距離法、最長距離法、群平均
法、重心法、メディアン法、可変法など他のアルゴリズ
ムを選択することができる。（非）類似度は、個体間の
類似の程度を表す指標である。この指標には、距離のよ
うに値の小さい方が類似性が高いことを表す場合と、相
関係数のように値の大きい方が類似性が高いことを表す
場合がある。前者の指標を非類似度、後者の指標を類似
度という。図５の状態では非類似度としてユークリッド
距離が選択されているが、選択メニュー５０２から他の
（非）類似度、例えば標準化ユークリッド平方距離、マ
ハラノビスの（汎）距離、ミンコフスキー距離等を選択
することができる。このとき、分類アルゴリズムとして
重心法、メディアン法、可変法を選択したとき、非類似
度としてユークリッド平方距離以外に選択できないな
ど、分類アルゴリズムと非類似度との組み合わせが妥当
なものである必要がある。

【００１４】図６は、図５に示した表示画面において、
「部分木を別のウィンドウで表示する」メニューを選択
したときの表示例である。図６に示すように、選択した
部分木を、根から葉までの長さに応じて縮尺を変更し表
示し直す。このような表示手法をとることで、利用者は
部分木の詳細な枝の状態を調べることが出来る。また、
本システムでは、選択した部分木に対して、分類アルゴ
リズム及び／又は（非）類似度を選択して、再度クラス
タリングを行なうことが出来る。このようにすること
で、例えば、はじめのクラスタリング結果からクラスタ
間の距離が大きいもの（図４において、４０１と４０
２、４０１と４０３の関係）を見つけ出し、これを除外
して、興味のある部分木のみ詳しく調べることが出来
る。分類アルゴリズム及び／又は（非）類似度の選択
は、分類アルゴリズムの選択メニュー５０１、及び
（非）類似度の選択メニュー５０２によって行う。

【００１５】図７は、図５に示した表示画面おいて、
「部分木をアイコン化する」メニューを選択したときの
表示例である。部分木５０５を７０１のようにアイコン
にすることで、樹状図の大域的な状態を容易に知ること
が出来る。例えば、同様の機能をもつ遺伝子群や、発現
がほとんど観測されなかった遺伝子群を一つのアイコン
としてまとめるなどの利用法が可能である。

【００１６】図８は、図５に示した表示画面おいて、
「部分木に含まれる単語を検索する」メニューを選択し
た時の表示例である。この機能を適用すると、選択した
部分木に含まれる遺伝子の中で、遺伝子に対応する遺伝
子情報に予め定めたキーワードが含まれるものを数え上
げ、検索結果８０１として表示する。更に検索結果８０
１から、マウスカーソル８０４等で一つのキーワード８
０２を選択すると、そのキーワード（図の場合、"ribos
omal"）を持つ遺伝子を、マーク８０３等によって樹状
図上の位置として表示する。これにより、選択した部分
木にどのような遺伝子が集まっているかを容易に知るこ
とができる。また、この結果、分類がうまくいっていな
いのであれば、別の分類アルゴリズムや（非）類似度を
選択して再度クラスタリングを行なうなど、より適切な
クラスタリング方法の選択の支援をすることができる。
このように、本発明によると、作成された樹状図から、
効果的に意味を抽出することができる。

【００１７】すなわち、本発明による樹状図表示方法
は、複数種類の生体高分子に対して複数の異なる条件で
実験を行って得られたデータの組に基づいて前記複数の
生体高分子のクラスタリング処理を行い、その結果を樹
状図の形式で表示するステップと、前記樹状図の部分木
を選択するステップと、選択された部分木を別ウィンド
ウで表示するステップとを含むことを特徴とする。本発
明は、別ウィンドウに表示された部分木に含まれる生体
高分子に対するクラスタリング手法の変更を指示するス
テップと、指示されたクラスタリング手法によって前記
部分木に含まれる生体高分子に対して再度クラスタリン
グ処理を行い、その結果を樹状図の形式で表示するステ
ップとを含んでもよい。

【００１８】本発明の樹状図表示方法は、また、複数種
類の生体高分子に対して複数の異なる条件で実験を行っ
て得られたデータの組に基づいて前記複数の生体高分子
のクラスタリング処理を行い、その結果を樹状図の形式
で表示するステップと、前記樹状図の部分木を選択する
ステップと、選択された部分木をアイコン化して表示す
るステップを含むことを特徴とする。必要により、アイ
コン化されて表示されている部分木を元の樹状図の形式
に戻して再表示するステップを含むこともできる。

【００１９】本発明による樹状図表示方法は、また、複
数種類の生体高分子に対して複数の異なる条件で実験を
行って得られたデータの組に基づいて前記複数の生体高
分子のクラスタリング処理を行い、その結果を樹状図の
形式で表示するステップと、前記樹状図の部分木を選択
するステップと、選択された部分木に含まれる生体高分
子を対象として、生体高分子に関する情報の中に予め用
意されたキーワード辞書ファイルに格納されたキーワー
ドが含まれている生体高分子の数を計数して表示するス
テップとを含むことを特徴とする。

【００２０】本発明による樹状図表示方法は、また、複
数種類の生体高分子に対して複数の異なる条件で実験を
行って得られたデータの組に基づいて前記複数の生体高
分子のクラスタリング処理を行い、その結果を樹状図の
形式で表示するステップと、前記樹状図の部分木を選択
するステップと、キーワードを指定するステップと、生
体高分子に関する情報の中に指定されたキーワードが含
まれている生体高分子の前記部分木内での位置を表示す
るステップとを含むことを特徴とする。上記樹状図表示
システムにおいて、生体高分子はｃＤＮＡ、ＲＮＡ、Ｄ
ＮＡ断片又は遺伝子とすることができる。

【００２１】本発明による樹状図表示システムは、複数
種類の生体高分子に対して複数の異なる条件で実験を行
って得られたデータの組に基づいて前記複数の生体高分
子のクラスタリング処理を行い、その結果を樹状図の形
式で表示するための解析を行うクラスタリング処理部
と、樹状図を表示するための表示部と、入力手段と、生
体高分子に関する情報のキーワードを保持しているキー
ワード辞書ファイルとを備えることを特徴とする。入力
手段は、樹状図の枝の選択や、クラスタリング手法の選
択などに用いられるもので、例えばキーボードやマウス
とすることができる。キーワード辞書ファイルは、クラ
スタリングの結果に対し利用者が望む形になっているか
を判断するために用いることができる。

【００２２】この樹状図表示システムは、入力手段によ
って選択された部分木を別ウィンドウで表示する機能を
有することができる。また、別ウィンドウに表示された
部分木に対してクラスタリング手法を変更して再度クラ
スタリング処理を行い、再クラスタリング処理によって
得られた樹状図を表示する機能を有することができる。
この樹状図表示システムは、入力手段によって選択され
た部分木をアイコン化して表示する機能、及びアイコン
化されて表示されている部分木を元の樹状図の形式に戻
して再表示する機能を有することができる。

【００２３】この樹状図表示システムは、入力手段によ
って選択された部分木に含まれる生体高分子に対して、
当該生体高分子に関する情報の中にキーワード辞書ファ
イルに格納されたキーワードが含まれている生体高分子
の数を計数して表示する機能及び／又は選択されたキー
ワードを有する生体高分子の樹状図上の位置を表示する
機能を有することができる。本発明の樹状図表示システ
ムにおいて、前記生体高分子はｃＤＮＡ、ＲＮＡ、ＤＮ
Ａ断片又は遺伝子とすることができる。

【００２４】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。以下では、遺伝子のクラスタリン
グを例にとって説明するが、本発明の適用範囲は遺伝子
のクラスタリングのみに限定されるわけではなく、ｃＤ
ＮＡ、ＲＮＡ、ＤＮＡ断片など生体高分子一般に対して
同様に適用することができる。

【００２５】図９は、本発明による樹状図表示システム
の一例を示す構成図である。このシステムは、遺伝子の
情報及び発現過程を記録した遺伝子データ９０１と、遺
伝子の発現過程に応じてクラスタリングを行ない、それ
を樹状図の形式で表示するための解析を行なうクラスタ
リング処理部９０２と、樹状図を表示するための表示装
置９０３と、樹状図の枝や、クラスタリング手法の選択
などに用いるキーボード９０４及びマウス９０５等の入
力手段と、クラスタリングの結果に対し利用者が望む形
になっているかを判断するための遺伝子情報のキーワー
ドを保持しているキーワード辞書ファイル９０６から構
成される。このクラスタリング処理部９０２は、コンピ
ュータとそのプログラムによって具体化されるものであ
る。なお、記憶装置９０１に代えて、ネットワーク等を
介して遠隔地に設置されたサーバコンピュータが管理し
ているデータベースから遺伝子データを取得する構成を
とってもよい。

【００２６】図１０は、遺伝子データ９０１に格納され
た遺伝子発現パターンデータの具体的な構造を示したも
のである。本アルゴリズムでは、これを２次元配列によ
って格納する。すなわち、遺伝子ID（id）をもつ遺伝子
が実験ケース（no）における発現の度合い（ハイブリダ
イズした蛍光シグナルの輝度）を数値化したデータを、
Exp[id][no]に格納する。ｍ種類の遺伝子をそれぞれ異
なる位置にスポットしたDNAチップから得られる１回の
実験は、１つの実験ケースに対応する。

【００２７】図１１は、遺伝子データ９０１に格納され
た遺伝子に関する情報を格納するための、遺伝子情報構
造体の例を示している。この遺伝子構造体は、遺伝子ID
（１１０１）、遺伝子のORF（１１０２）、遺伝子名
（１１０３）、遺伝子の機能（１１０４）のメンバから
構成される。図１１はあくまでも説明のための例であ
り、ここに示した遺伝子の属性以外の情報も、遺伝子情
報構造体のメンバとして定義することももちろん可能で
ある。

【００２８】図１２は、クラスタリング処理において利
用するクラスタを表す構造体の例を示している。全ての
クラスタ構造体は、樹状図の各ノードまたは葉と対応し
ている。クラスタ構造体は、ウィンドウ単位で管理さ
れ、同じウィンドウのノードまたは葉であれば、同一の
windowID（１２０７）をもつ。また、同じウィンドウ内
でノードまたは葉を識別するため、clusterNo（１２０
５）で各クラスタ構造体に一意に番号を割り振ってい
る。クラスタ構造体には3種類あり、type（１２０１）
の値が、leafのもの、nodeのもの及びiconのものに分か
れる。

【００２９】各leaf型クラスタ構造体は、それぞれひと
つのgeneID（１２０６）に対応している。すなわち、ひ
とつの遺伝子に対応している。更にgeneIDから、遺伝子
情報構造体のデータが参照できる。node型クラスタ構造
体は、クラスタリングにおける併合処理において逐次生
成するもので、併合前の2つのクラスタをleft（１２０
２）の値と、right（１２０３）の値からたどれるよう
にし、また、それらの間の距離（（非）類似度）をdist
ance（１２０４）の値として保持する。left及びright
の値には、クラスタを一意に示すclusterNo（１２０
５）が入っている。icon型クラスタ構造体は、部分木を
アイコンに置き換えるときに生成され、表示では葉の場
合と同様に扱う。そして枝の先端には部分木を示すアイ
コンを付して表示する。実際の部分木のルートのクラス
タは、left（１２０２）の値からたどることができる。

【００３０】図１３は、図１２に例示したクラスタ構造
体のデータ構造を示した図である。これらはクラスタ分
析の過程で生成される。クラスタ構造体は、最初leaf型
のものだけを用意するが、クラスタリングの過程で2つ
ずつ併合し、その度にnode型クラスタ構造体を生成して
トリー構造を組み立てる。node型クラスタ構造体には、
併合した2つの子ノードのclusterNoと、それらの間の距
離（（非）類似度）の情報が登録されている。またleaf
型クラスタ構造体に登録されているgeneIDにより、対応
する遺伝子情報を参照することができる。アイコン化す
る処理があれば、トリーの途中にicon型のクラスタを挿
入し、あたかも葉であるかのように表示する（表示に当
たっては、icon型のクラスタより先に位置するクラスタ
は表示しない）。アイコンを解除するときは、icon型ク
ラスタの上下のクラスタのリンクを繋ぎ直す操作を行
う。

【００３１】図１４は、クラスタ分析の過程でクラスタ
間の距離である非類似度を格納するための配列の例であ
る。図に示すように、2次元配列dist[ ][ ]を用いてこ
れを格納する。また、２次元配列dist[ ][ ]のインデッ
クスの数字に対応するクラスタのclusterNo（１２０
５）を格納した配列を、clust_idx[ ]に格納する。すな
わち、非類似度dist[i][j]の値は、clusterNoがclust_i
dx[i]とclust_idx[j]であるクラスタ間の値を示す。図
１４から、例えばclust_idx[3]であるclusterNo:9のク
ラスタとclust_idx[4]であるclusterNo:25のクラスタ間
の非類似度dist[3][4]の値は２１であることが分かる。

【００３２】図１５は、各ウィンドウのルートノードを
格納する配列の例を示している。すなわち、各表示ウィ
ンドウに対するルートノードのクラスタのclusterNo
は、配列RootNode[ ]に格納される。図１５に示した例
では、RootNode[1]の値が569であることからwindowID:1
の表示ウィンドウに表示される樹状図のルートノードは
clusterNo:569のクラスタであることが分かり、RootNod
e[2]の値が312であることからwindowID:2の表示ウィン
ドウに表示される樹状図のルートノードはclusterNo:31
2のクラスタであることが分かる。

【００３３】図１６は、検索の問合せ及び結果を格納す
るためのsearch構造体の例を示している。キーワード辞
書ファイル９０６に登録されている各キーワードに対し
て、構造体を一つ生成する。また、キーワードで同義語
のものがいくつか存在するとき、それらをひとつのもの
を指すこととして扱うこともできる。search構造体は、
検索項目のキーワードを入力しておくkeyword（１６０
１）、そのキーワードが部分木の中でいくつあったかを
示すtimes（１６０２）、キーワードが遺伝子情報の中
にあったとき、その遺伝子の樹状図上の位置を格納する
place（１６０３）をメンバとしてもつ。図１６に図示
する例のように、Rat、Mouse、Musのような同義語をま
とめてkeywordメンバに登録しておくことで、これら3つ
のキーワードのどれをも同じ検索項目として扱うことが
出来る。

【００３４】図１７は、本システムの概略フローを示し
た図である。まず、遺伝子データ９０１からクラスタリ
ング処理部９０２へデータを読み込む（ステップ１７０
１）。これについては、後で詳しく説明する。次に、ク
ラスタ分析、及び結果表示に必要な各種パラメータを設
定する（ステップ１７０２）。ここでは、分類アルゴリ
ズム及び（非）類似度の設定、個々の遺伝子情報を表示
するか否かなどの設定を行う。

【００３５】次にクラスタ分析を行い（ステップ１７０
３）、結果を表示する（ステップ１７０４）。クラスタ
分析については、後で詳しく説明する。このクラスタ分
析の処理の中で、樹状図表示に必要な情報を収集し、ク
ラスタ構造体に入力する。分析結果表示では、このクラ
スタ構造体と、個々のウィンドウのルートノードのclus
terNoを表すRootNode[ ]の情報をもとに、結果を表示す
る。クラスタ構造体のtypeがiconのときは、それを葉の
ように扱い、枝の先端に部分木を表すアイコンを付加す
る。

【００３６】表示された樹状図の中のある部分木をアイ
コン化してまとめる、あるいはアイコン化を解除して元
の部分木に戻す場合、以下の処理を実行する（ステップ
１７０５）。すなわち、樹状図の枝をマウスで選択し
（ステップ１７０６）、部分木のアイコン化、または非
アイコン化処理を行う（ステップ１７０７）。アイコン
化、非アイコン化処理に関しては、後で詳しく説明す
る。処理の後、再び分析結果表示（ステップ１７０４）
を行う。

【００３７】表示された樹状図に対して、キーワード辞
書ファイル９０６に格納されたキーワードをもとに検索
を行う場合、以下の処理を実行する（ステップ１７０
８）。すなわち、樹状図の枝をマウスで選択し（ステッ
プ１７０９）、検索処理を行う（ステップ１７１０）。
検索処理に関しては、後で詳しく説明する。検索処理１
７１０で、表示に必要な情報がsearch構造体に格納され
るので、それをもとに新たに検索結果ウィンドウを生成
し結果を表示する（ステップ１７１１）。このとき、マ
ウスなどで検索結果ウィンドウのあるキーワードを選択
すると、search構造体のplaceメンバの情報をもとに、
樹状図上のキーワードのある箇所にマーカーを付与す
る。

【００３８】表示された樹状図に対して、他の併合アル
ゴリズム、（非）類似度で再びクラスタリングを適用し
たいときは、ステップ１７０２に戻る（ステップ１７１
２）。クラスタ併合アルゴリズムとしては、例えば、
最短距離法、最長距離法、群平均法、重心法、メディア
ン法、ウォード法、可変法等がある。最短距離法、最長
距離法、群平均法、ウォード法、可変法には、次々にク
ラスターを融合していくときの非類似度が単調に大きく
なる特性がある。また、２つのクラスターを融合して１
つのクラスターを作ると、他のクラスターとの距離が近
づく場合と遠ざかる場合があり、前者を空間の収縮、後
者を空間の膨張、距離が変わらない場合を空間の保存と
呼ぶが、最短距離法は空間が収縮する特性を有し、最長
距離法やウォード法は空間が膨張する特性を有する。ま
た、群平均法、重心法、メディアン法は、空間が保存さ
れ、可変法の場合はパラメータの設定によっていずれに
もなりうる。（非）類似度にも種々のものがあり、例え
ば非類似度の代表的なものとしてはユークリッド平方距
離、標準化ユークリッド平方距離、マハラノビスの
（汎）距離、ミンコフスキー距離等がある。従って、前
述の特性等を勘案して、これらの中から適宜のものを選
択すればよい。

【００３９】表示された樹状図に対して、ある部分木を
別のウィンドウで表示させたい時（ステップ１７１３）
は、別ウィンドウに表示したい樹状図の枝をマウスで選
択し（ステップ１７１４）、選択した樹状図の部分木に
対するデータの読み込みを行い（ステップ１７１５）、
再びステップ１７０２に戻る。選択した樹状図の部分木
に対するデータの読み込み処理については、あとで詳し
く説明する。以上の選択が無かった場合には、処理を終
了する。

【００４０】図１８は、図１７における遺伝子データの
読み込み処理１７０１の詳細フローである。まず、遺伝
子数、実験ケースの総数をそれぞれgene_num、exp_num
に登録する（ステップ１８０１）。次に、遺伝子データ
９０１から遺伝子情報を読み取り、遺伝子情報構造体ge
ne_info[i](i = 1,…,gene_num)に登録する（ステップ
１８０２）。遺伝子データ９０１から遺伝子発現データ
を読み取り、Exp[i][j](i =1,…,gene_num, j = 1,…,e
xp_num)に登録する（ステップ１８０３）。樹状図の葉
の総数を表すleaf_numにgene_numを代入する（ステップ
１８０４）。

【００４１】次に、初期値となるleaf型クラスタ構造体
を生成する。クラスタ構造体clusterをleaf_num個生成
し、i = 1,…, leaf_numに対して、typeをleafに、clus
terNoをiに、 geneIDをiに、 windowIDを1として登録す
る（ステップ１８０５）。次に、キーワード辞書ファイ
ル９０６に格納されたキーワードを読み出し、それぞれ
のキーワードに対してsearch構造体を生成し、キーワー
ドをsearch[].keywordに登録する（ステップ１８０
６）。キーワードの総数をkey_numに代入する（ステッ
プ１８０７）。windowIDを表すwidに１を登録し（ステ
ップ１８０８）、処理を終わる。

【００４２】図１９、図２０は、図１７におけるクラス
タ分析処理１７０３の詳細フローである。windowIDがwi
dに対応するウィンドウ内の遺伝子間の発現度の非類似
度を求める。clusterNoがi,jに対応する遺伝子の非類似
度をdist[i][j]に登録する（ステップ１９０１）。本ア
ルゴリズムでは、クラスタが１つ生成されるごとにclus
terNoを１から順に割り振っている。そこで、次のクラ
スタが生成されたとき、そのクラスタの番号を表すnewc
lusterNoにleaf_num + 1を代入しておく（ステップ１９
０２）。また、クラスタ間距離（非類似度）を格納する
配列の情報として、併合対象クラスタ数を示すall_clus
tにleaf_numを代入し、i = 1,…,leaf_numに対し、clus
ter_idx[i]にiを代入して初期化しておく。併合対象ク
ラスタの数all_clustが１に等しいかどうか判定し、等
しくない場合、１になるまで以下の一連の処理を繰り返
す（ステップ１９０５）。

【００４３】最初に、先に求めたクラスタ間距離（非類
似度）から、次に併合されるべきクラスタを決定する。
すなわち、i ＜ j かつi, j = 1,2,…, all_clustに対
して、dist[i][j]の最小値、最小値を与えるi、最小値
を与えるjを求め、d_min、i_min、j_minにそれぞれ代入
する。clusterNoが、cluster_idx[i_min]、cluster_idx
[j_min]のクラスタが次に併合されるべきクラスタとな
る。clusterを新規に生成し、typeにnode、leftにclust
er_idx[i_min]、rightに cluster[j_min]、distanceにd
_min、clusterNoにnewclusterNo、windowIDにwidを登録
していく（ステップ１９０７）。ここで、２つのクラス
タのどちらをleftメンバとし、残りをrightメンバとす
るかについては、発現量で比較するなど予め判定基準を
設ける方式をとることも可能である。

【００４４】次に、クラスタ間距離を格納している配列
の情報を更新する。まず、新しく生成したクラスタと他
のクラスタとの距離（（非）類似度）を求め、それをi_
minのクラスタと他のクラスタ間の距離が格納されてい
たdist[][]の配列位置に上書きする。i = 1,2,…,i_min
−1に対し、新しく生成したクラスタと、clusterNoがcl
uster_idx[i]に対応するクラスタとの非類似度をdist
[i][i_min]に登録し、j= i_min + 1, …, j_min_1, j_m
in + 1, … , all_clustに対し、新しく生成したクラス
タと、cluster_idx[j]に対応するクラスタとの非類似度
をdist[i_min][j]に登録する（ステップ２００１、２０
０２）。

【００４５】次に、j_minに関する情報を削除して、j_m
in以降のすべての配列データを一つ前に移動する処理を
行なう。i = min_j,…,all_clust−1に対し、clust_idx
[i]にclust_idx[i +1]を代入する（ステップ２００
３）。次にi ＜ j、i, j = j_min, …, all_clustを満
たすi ,jに対し、dist[i][j]にdist[i + 1][j]を代入
し、その後i＜ j、i = 1,…, all_clust−１、j = j_mi
n,…,all_clust−１を満たすi ,jに対し、dist[i][j]に
dist[i][j + 1]を代入する（ステップ２００４、２００
５）。

【００４６】最後に、併合対象クラスタ数を示すall_cl
ustから１を引き、新しいクラスタ構造体に割り振るclu
sterNoを表すnewclusterNoに１を加える（ステップ２０
０６，２００７）。以上の操作をall_clustが１になる
まで繰り返す。all_clustが１になれば、RootNode[wid]
に、このウィンドウのルートノードのclusterNoを表すc
luster_idx[1]を代入し、処理を終える（ステップ１９
０８）。

【００４７】図２１は、図１７におけるアイコン化す
る、または（非）アイコン化（アイコンを解除）する処
理１７０７の詳細フローである。６において選択した枝
の両端に対応するクラスタを登録する。下（leaf側）の
clusterをchildClustに代入し、枝の上（root側）のclu
sterをparentClustに代入する（ステップ２１０１，２
１０２）。次に、新しくicon型clusterを生成し、child
ClustとparentClustの間に挿入する処理を行なう。すな
わち、clusterを生成し、typeにiconを、leftにchildCl
ust.clusterNo、をclusterNoにnewclusterNoを、window
IDにwidをそれぞれ登録する（ステップ２１０３）。そ
して、ポインタの付け替え操作として、parentClust.le
ftまたはparentClust.rightに登録されているchildClus
tのclusterNoをnewclusterNoに変更する（ステップ２１
０４）。全体のクラスタ数がひとつ増加したので、新し
いクラスタ構造体に割り振るclusterNoを示すnewcluste
rNoに１を加えて処理を終了する。（ステップ２１０
５）

【００４８】また、部分木をアイコン化したものを元に
戻すメニューを選択すると、まず図１７におけるステッ
プ１７０６で選択した枝の両端に対応するクラスタを登
録する。ステップ１７０６で選択した枝の下（leaf側）
にあるアイコンのcluster、アイコンの親ノードのclust
erをそれぞれiconClust、parentClustに代入する（ステ
ップ２１０１，２１０６）。アイコンのクラスタと、部
分木のクラスタとのポインタを繋ぎ替え、アイコンのク
ラスタを削除する処理を行なう。すなわち、parentClus
t.leftまたはparentClust.rightに登録されているiconC
lustのclusterNoをiconClust.leftに変更する（ステッ
プ２１０７）。その後、iconClustを削除して処理を終
了する（ステップ２１０８）。

【００４９】図２２は、図１７における検索処理１７１
０の詳細フローである。選択した枝以下に対応する部分
木のルートノードのクラスタのclusterNoをclustNoに代
入する（ステップ２２０１）。また、部分木の先頭から
のインデックスを表すleafNoを１で初期化しておく（ス
テップ２２０２）。またi =1,…,key_numに対して、sea
rch[i].timesを0 、search[i].placeをnullで初期化し
ておく（ステップ２２０３）。次に、再帰的にクラスタ
木に対するトリーウォークを実行し、searchで指定した
キーワードをもつ遺伝子の単語検索処理（処理A）を行
なう（ステップ２２０５）。引数としてclustNo、leafN
oを渡す。単語検索処理については、後で詳しく説明す
る。処理Aを終えると、search構造体に検索結果が入力
され、処理を終了する。

【００５０】図２３は、図２２の単語検索処理（処理
A）の詳細フローである。引数で渡されたclustNo、leaf
NoをそれぞれclustNo、leafNoに代入する（ステップ２
３００）。また、clusterNoの指すclusterをtargetClus
tに代入する（ステップ２３０１）。キーワード検索の
カウンタを示すi を０に設定しておく（ステップ２３０
２）。

【００５１】次に、targetCluster.typeがleafかどうか
を判定する（ステップ２３０３）。leafであるとき、le
afに対応する遺伝子情報とキーワード辞書ファイルから
読み込んだキーワードとの比較が終わるまで、以下の処
理を繰り返し行なう。すなわち、iがkey_numになるまで
繰り返し行なう（ステップ２３０４）。まず、targetCl
ust.geneIDのgeneIDに対応する遺伝子情報構造体gene_i
nfoの属性の中に、search[i].keywordの用語が入ってい
るか判別する（ステップ２３０５）。もし入っていた
ら、部分木でキーワード（search[i].keyword）が発見
された回数を示すsearch[i].timesをひとつインクリメ
ントし、部分木での発見した位置のインデックスを示す
search[i].placeに現在位置のleafNoを登録する（ステ
ップ２３０７）。キーワードの検索カウンタi をひとつ
インクリメントし、ステップ２３０４に戻る。ステップ
２３０４において、iがkey_numになったとき、即ちすべ
てのキーワードとの比較が終わったら、部分木のインデ
ックスであるleafNoをひとつインクリメントし、処理を
終わる（ステップ２３０９）。

【００５２】また、ステップ２３０３において、target
Cluster.typeがleafではなかった場合、子供のノードを
たどる処理を行なう。targetClust.leftをclustNoに代
入し（ステップ２３１０）、左の子ノードに対しclustN
oとleafNoとを引数として再び単語検索処理（処理A）を
行なう（ステップ２３１１）。targetCluster.typeがic
onのときは、targetCluster.rightには子供ノードがな
いので、処理を終了する（ステップ２３１２）。ステッ
プ２３１２において、targetCluster.typeがiconでない
場合、これはnode型clusterを表す。clustNoにtargetCl
ust.rightを代入し（ステップ２３１３）、右の子ノー
ドに対しclustNoとleafNoとを引数として再び単語検索
処理（処理A）を行ない、処理を終了する（ステップ２
３１４）。

【００５３】図２４は、図１７における部分木の遺伝子
データの読み込み処理１７１５の詳細フローである。新
しく部分木を読み込んでウィンドウを作成するので、新
しいウィンドウIDを示すwidをひとつインクリメントし
ておく（ステップ２４０１）。また、樹状図の葉の総数
を表すleaf_numを0に初期化しておく（ステップ２４０
２）。選択した枝以下に対応する部分木のルートノード
のクラスタにおけるclusterNoをclustNoに代入する（ス
テップ２４０３）。最後に、部分木のleaf型クラスタに
対して、新規clusterを生成する処理（処理B）を行なう
（ステップ２４０４）。現在のクラスタを示すclustNo
をこの処理の引数として渡す。この処理の詳細は後で説
明する。すべてのleafを読み込み、leafに対応するclus
terをすべて生成し処理を終了する。

【００５４】図２５は、図２４における部分木のleafに
対して新規にクラスタを生成する処理２４０４の詳細フ
ローである。引数で渡されたclustNoをclustNoとし、cl
ustNoの指すclusterをtargetClustとする（ステップ２
５０１，２５０２）。次に、targetCluster.typeがleaf
かどうかを判定する（ステップ２５０３）。leafである
ならば、部分木のleafの数のカウンタであるleaf_numを
ひとつインクリメントする（ステップ２５０４）。次に
新しいウィンドウの初期値となるleaf型クラスタ構造体
を生成する。すなわち、clusterを生成し、typeにleaf
を、clusterNoにleaf_numを、geneIDにtargetCluster.g
eneIDを、windowIDにwidを登録し処理を終了する（ステ
ップ２５０５）。

【００５５】またステップ２５０３において、targetCl
uster.typeがleafではなかった場合、子供のノードをた
どる処理を行なう。すなわち、targetClust.leftをclus
tNoに代入し（ステップ２５０６）、左の子ノードに対
し、clustNoを引数として再び新規にクラスタを生成す
る処理（処理B）を行なう（ステップ２５０７）。targe
tCluster.typeがiconのときは、targetCluster.rightに
子供ノードはないので、これで処理を終了する（ステッ
プ２５０８）。ステップ２５０８において、targetClus
ter.typeがiconでない場合、これはnode型clusterを表
している。従って、clustNoにtargetClust.rightを代入
し（ステップ２５０９）、右の子ノードに対しclustNo
を引数として再び新規にクラスタを生成する処理（処理
B）を行い、処理を終了する（ステップ２５１０）。以
上では解析結果を表示装置画面に表示する例を説明した
が、多色プリンタで印刷出力する構成であってもよい。
すなわち、本発明でいう表示とは、プリンタによって視
覚的に印刷出力する概念を含むものである。

【００５６】

【発明の効果】以上示したように、本発明によると、樹
状図に対して様々なクラスタリング手法を適用し、部分
木をアイコン化したり、別ウィンドウで表示するなど、
遺伝子の発現解析等を支援する方法を提供することがで
きる。

【図面の簡単な説明】

【図１】標準的クラスタ分析結果の表示例を示す図。

【図２】クラスタリング方法の違いの例の説明図。

【図３】クラスタリング方法によらない樹状図の表示例
を示す図。

【図４】発現パターンが類似している遺伝子群を含む樹
状図の例を示す図。

【図５】本発明の樹状図表示システムによる画面表示例
を示す図。

【図６】本発明の樹状図表示システムによる他の画面表
示例を示す図。

【図７】本発明の樹状図表示システムによる他の画面表
示例を示す図。

【図８】本発明の樹状図表示システムによる他の画面表
示例を示す図。

【図９】本発明による樹状図表示システムの構成例を示
す図。

【図１０】遺伝子発現パターンデータの例を示す図。

【図１１】遺伝子情報構造体の例を示す図。

【図１２】クラスタ構造体の例を示す図。

【図１３】クラスタ木構造の生成例を示す図。

【図１４】クラスタ間距離を格納する配列の例を示す
図。

【図１５】各ウィンドウのルートノードを格納する配列
の例を示す図。

【図１６】検索の問合せ及び結果を格納する構造体の例
を示す図。

【図１７】本システムの概略処理フロー例を示す図。

【図１８】遺伝子データの読み込み処理のフローを示す
図。

【図１９】クラスタ分析処理のフローを示す図。

【図２０】クラスタ分析処理のフローを示す図。

【図２１】（非）アイコン化処理のフローを示す図。

【図２２】遺伝子情報を検索対象とした検索処理のフロ
ーを示す図。

【図２３】単語検索処理（処理A）のフローをを示す
図。

【図２４】部分木の遺伝子データの読み込み処理の説明
図。

【図２５】部分木のleafに対して新規にclusterを生成
する処理（処理Ｂ）の説明図。

【符号の説明】

４０１…樹状図の中で発現過程が類似した遺伝子群の
例、４０２…樹状図の中で発現過程が４０１の遺伝子群
と大きく異なる遺伝子の例（その１）、４０３…樹状図
の中で発現過程が４０１と大きく異なる遺伝子の例（そ
の２）、５０１…クラスタリングにおける分類アルゴリ
ズムの選択メニュー、５０２…クラスタリングにおける
（非）類似度の選択メニュー、５０３…メニューウィン
ドウ、５０４…マウスカーソル、５０５…選択された枝
（部分木）、７０１…アイコン化した部分木の例、８０
１…キーワード検索結果のウィンドウ例、８０２…選択
されたキーワード、８０３…遺伝子情報の中に予め定め
たキーワードが含まれる遺伝子に対するマーク、８０４
…マウスカーソル

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 15/419 ３１０ (72)発明者渡辺恒彦神奈川県横浜市中区尾上町６丁目81番地日立ソフトウエアエンジニアリング株式会社内 (72)発明者中重亮神奈川県横浜市中区尾上町６丁目81番地日立ソフトウエアエンジニアリング株式会社内 (72)発明者田村卓郎神奈川県横浜市中区尾上町６丁目81番地日立ソフトウエアエンジニアリング株式会社内Ｆターム(参考） 4B024 AA11 AA20 CA01 CA11 HA11 HA19 5B075 ND20 ND35 NR12 PP03 PP13 PQ02 PQ13 PQ32 UU19 5E501 AC15 BA03 EB05 FA04 FA06 FB04

Claims

【特許請求の範囲】

【請求項１】複数種類の生体高分子に対して複数の異
なる条件で実験を行って得られたデータの組に基づいて
前記複数の生体高分子のクラスタリング処理を行い、そ
の結果を樹状図の形式で表示するステップと、前記樹状図の部分木を選択するステップと、選択された部分木を別ウィンドウで表示するステップと
を含むことを特徴とする樹状図表示方法。
【請求項２】請求項１記載の樹状図表示方法におい
て、前記別ウィンドウに表示された部分木に含まれる生体高
分子に対するクラスタリング手法の変更を指示するステ
ップと、指示されたクラスタリング手法によって前記部分木に含
まれる生体高分子に対して再度クラスタリング処理を行
い、その結果を樹状図の形式で表示するステップとを含
むことを特徴とする樹状図表示方法。
【請求項３】複数種類の生体高分子に対して複数の異
なる条件で実験を行って得られたデータの組に基づいて
前記複数の生体高分子のクラスタリング処理を行い、そ
の結果を樹状図の形式で表示するステップと、前記樹状図の部分木を選択するステップと、選択された部分木をアイコン化して表示するステップを
含むことを特徴とする樹状図表示方法。
【請求項４】請求項３記載の樹状図表示方法におい
て、アイコン化されて表示されている部分木を元の樹状
図の形式に戻して再表示するステップを含むことを特徴
とする樹状図表示方法。
【請求項５】複数種類の生体高分子に対して複数の異
なる条件で実験を行って得られたデータの組に基づいて
前記複数の生体高分子のクラスタリング処理を行い、そ
の結果を樹状図の形式で表示するステップと、前記樹状図の部分木を選択するステップと、選択された部分木に含まれる生体高分子を対象として、
生体高分子に関する情報の中に予め用意されたキーワー
ド辞書ファイルに格納されたキーワードが含まれている
生体高分子の数を計数して表示するステップとを含むこ
とを特徴とする樹状図表示方法。
【請求項６】複数種類の生体高分子に対して複数の異
なる条件で実験を行って得られたデータの組に基づいて
前記複数の生体高分子のクラスタリング処理を行い、そ
の結果を樹状図の形式で表示するステップと、前記樹状図の部分木を選択するステップと、キーワードを指定するステップと、生体高分子に関する情報の中に指定されたキーワードが
含まれている生体高分子の前記部分木内での位置を表示
するステップとを含むことを特徴とする樹状図表示方
法。
【請求項７】請求項１〜６のいずれか１項記載の樹状
図表示方法において、前記生体高分子はｃＤＮＡ、ＲＮ
Ａ、ＤＮＡ断片又は遺伝子であることを特徴とする樹状
図表示方法。
【請求項８】複数種類の生体高分子に対して複数の異
なる条件で実験を行って得られたデータの組に基づいて
前記複数の生体高分子のクラスタリング処理を行い、そ
の結果を樹状図の形式で表示するための解析を行うクラ
スタリング処理部と、樹状図を表示するための表示部と、入力手段と、前記生体高分子に関する情報のキーワードを保持してい
るキーワード辞書ファイルとを備えることを特徴とする
樹状図表示システム。
【請求項９】請求項８記載の樹状図表示システムにお
いて、前記入力手段によって選択された部分木を別ウィ
ンドウで表示する機能を有することを特徴とする樹状図
表示システム。
【請求項１０】請求項９記載の樹状図表示システムに
おいて、前記別ウィンドウに表示された部分木に対して
クラスタリング手法を変更して再度クラスタリング処理
を行い、再クラスタリング処理によって得られた樹状図
を表示する機能を有することを特徴とする樹状図表示シ
ステム。
【請求項１１】請求項８，９又は１０記載の樹状図表
示システムにおいて、前記入力手段によって選択された
部分木をアイコン化して表示する機能、及びアイコン化
されて表示されている部分木を元の樹状図の形式に戻し
て再表示する機能を有することを特徴とする樹状図表示
システム。
【請求項１２】請求項８〜１１のいずれか１項記載の
樹状図表示システムにおいて、前記入力手段によって選
択された部分木に含まれる生体高分子に対して、当該生
体高分子に関する情報の中に前記キーワード辞書ファイ
ルに格納されたキーワードが含まれている生体高分子の
数を計数して表示する機能及び／又は選択されたキーワ
ードを有する生体高分子の樹状図上の位置を表示する機
能を有することを特徴とする樹状図表示システム。
【請求項１３】請求項８〜１２のいずれか１項記載の
樹状図表示システムにおいて、前記生体高分子はｃＤＮ
Ａ、ＲＮＡ、ＤＮＡ断片又は遺伝子であることを特徴と
する樹状図表示システム。