JP3532911B2

JP3532911B2 - 遺伝子データ表示方法及び記録媒体

Info

Publication number: JP3532911B2
Application number: JP2002529422A
Authority: JP
Inventors: 康行野崎; 亮中重; 卓郎田村
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2000-09-19
Filing date: 2000-09-19
Publication date: 2004-05-31
Anticipated expiration: 2020-09-19
Also published as: EP1321858A1; JPWO2002025489A1; WO2002025489A1; EP1321858A4; US7127354B1

Description

【発明の詳細な説明】技術分野この発明は、特定の遺伝子とハイブイリダイズさせる
ことによって得られた遺伝子発現データを、視覚的に分
かりやすく、そして遺伝子の機能・役割が推測しやすい
形式によって表示するための表示方式に関する。

背景技術ゲノム配列が決定された種の増加に伴い、進化に対応
すると見られる遺伝子を見つけ出し、どの生物も共通に
持っていると考えられる遺伝子の集合を探したり、それ
から逆に種に個別な特徴を推測するなど、種間の遺伝子
の違いから何かを見出そうとする、いわゆるゲノム比較
法が盛んに行われてきた。

しかし近年、ＤＮＡチップやＤＮＡマイクロアレイ
（以下、バイオチップという）などのインフラストラク
チャの発達によって、分子生物学の興味は、種間の情報
から種内の情報へ、すなわち同時発現解析へと移りつつ
あり、これまでの種間の比較と合わせて、情報の抽出か
ら関連付けの場が大きく広がりを持ち始めている。

例えば、既知の遺伝子と同一の発現パターンを示す未
知の遺伝子が見つかれば、それには既知の遺伝子と同様
の機能があると類推できる。これら遺伝子や蛋白質その
ものの機能的な意味付けは、機能ユニットや機能グルー
プといった形で研究されている。またそれらの間の相互
作用も、既知の酵素反応データや物質代謝データとの対
応付けによって、あるいはより直接的に、ある遺伝子を
破壊あるいは過剰反応させ、その遺伝子の発現をなくす
か、あるいは多量に発現させ、その遺伝子の直接的及び
間接的影響を、全遺伝子の発現パターンを調べることに
よって解析している。

この分野において成功した事例として、スタンフォー
ド大学の P. Brown らのグループによるイースト菌の発
現解析が挙げられる（Michel B. Eisen et. al. :Clust
er analysis and display of genome-wide expression
patterns: Proc. Natl.Acad. Sci. (1998) Dec 8; 95(2
5):14863-8）。彼らは、ＤＮＡマイクロアレイを用い
て、細胞から抽出した遺伝子を時系列にハイブリダイズ
させ、遺伝子の発現の度合い（ハイブリダイズした蛍光
シグナルの輝度）を数値化した。数値に色を対応させる
ことで、遺伝子の個々の発現過程をわかりやすく表示さ
せている。このとき、細胞の一連のサイクルにおいて発
現パターンの過程が近い遺伝子どうし（任意の時点での
発現の度合いが近いものどうし）をクラスタリングして
いる。

図２７はこの方式によって遺伝子の発現状態を表示し
た標準的クラスタ分析結果表示例の図であり、横方向に
実験ケース、縦方向に遺伝子を並べて表示している。そ
れぞれの実験ケースにおける各遺伝子の発現の度合いは
色濃度で示されており、色が濃いほど発現度合いが高い
ことを示している。また、図の左側には樹状図を表示し
ている。樹状図は、クラスタリングの過程で、最も近い
２つのクラスタ毎に併合されてきた状況を表しており、
各枝の長さは併合時の２つのクラスタ間の相対距離に対
応している。

図２８は、遺伝子の発現パターンの類似性を表現した
他の表示例である。図の右側には観測した個々の遺伝子
の情報を列挙しており、図の左側にはこれらの遺伝子の
発現パターンに応じて作成した樹状図が表示されてい
る。

生物学の発展に伴い、遺伝子の機能が徐々に明らかに
されてきており、生物の研究者は、発現データと既知の
情報を組み合わせて、遺伝子解析を行おうとしている。
樹状図における解析では、研究者は、生物学的に意味の
あるクラスタ（遺伝子の集合）を探す。すなわち、クラ
スタに含まれる各遺伝子の発現パターンが類似してお
り、かつ、既知の機能で同じものを持つものが多いなら
ば、それを意味のあるクラスタとして抽出する。このよ
うなクラスタをここでは機能クラスタとよぶ。図２８の
縦のバー２８０１，２８０２は、機能クラスタを表示し
た例である。例えば、機能クラスタに含まれる遺伝子の
中で、機能が未知のものがあるならば、同一クラスタ内
の機能が既知のものと同様の機能を持つと推測すること
ができる。また、機能クラスタの発現パターンをみるこ
とで、機能に特有の発現過程を見つけ出すことができ
る。

ところで、実際の遺伝子発現パターンの分析では、膨
大な数の遺伝子データを扱うことになる。なぜなら、バ
イオチップは数千から数万のオーダーの遺伝子を同時に
観測することが可能であるからである。バイオチップ技
術の進展から、今後、同時観測可能な遺伝子の数は飛躍
的に伸びていくものと思われ、生命のメカニズムの解明
作業を強力に支援していくと考えられる。

ところが、遺伝子の数が膨大になると、全体の遺伝子
の働きを把握することは非常に困難になる。すなわち、
樹状図には数千〜数万の遺伝子が並ぶことになるので、
図２７や図２８の樹状図の部分も非常に複雑な、細かな
枝を多量に含んだものになり、どのような分類ができて
いるのかを判断するのは難しい。

そして研究者は、この樹状図に対して機能クラスタを
選び出すために、多大な労力と時間を費やすことにな
る。市販の遺伝子発現クラスタリングツールの中には、
樹状図や遺伝子名の表示機能を備えるものはあるもの
の、どのようなクラスタに着目すべきか示唆を与えるも
のはなかった。

それ故本発明は、従来技術の問題点を鑑み、クラスタ
リングの結果から、同じ機能を持つ遺伝子群とそれらに
類似した発現パターンをもつ遺伝子を抜き出し、これら
の遺伝子に対して、再分析を施すような機能及び表示を
提供することを第１の目的とする。これにより、遺伝子
の機能に特異的な発現パターンの発見や、機能が未知の
遺伝子に対する機能推定、ある機能を持つ遺伝子が他の
遺伝子機能を持つかどうかの推定などを支援することが
できる。

また、本発明は、発現パターンが類似しているもの
で、かつ、同じ機能を持つ遺伝子が凝集しているクラス
タを自動的に選別し、そのクラスタの特徴を研究者にわ
かり易い形で表示する手段を提供することを第２の目的
とする。

発明の開示前記第１の目的を達成するための、本発明による遺伝
子データ表示方法は、複数の遺伝子の発現パターンと、
その発現パターンをクラスタ分析して得た樹状図とを対
応付けて表示するステップと、注目する遺伝子の機能及
び樹状図上での距離を指定するステップと、指定された
機能を持つ遺伝子を含み、当該遺伝子と樹状図上での距
離が指定された距離以下のノードをルートとする樹状図
の部分木を強調表示するステップとを含むことを特徴と
する。

この遺伝子データ表示方法は、複数の遺伝子発現パタ
ーンデータを視覚的に分かりやすく、そして遺伝子の機
能・役割が推測しやすい形式によって表示するものであ
り、遺伝子の発現データをもとにクラスタリングした
後、結果を表す樹状図中において、同じ機能を持つ遺伝
子群とそれらに類似した発現パターンを持つ遺伝子群に
対応する樹状図の枝を強調表示することで、樹状図全体
でこれらの遺伝子がどこに位置しているのかを把握する
ことができる。

樹状図上での遺伝子からの距離の指定は、樹状図の枝
を横切る直線を引くことによって行うことができる。

前記した遺伝子データ表示方法は、更に樹状図のうち
前記強調表示された部分木及びそれに対応する遺伝子の
発現パターンだけを抽出して表示するステップを含むこ
とができる。

抽出された発現パターンに対してクラスタ分析を行う
ステップを更に含むことができる。

また、抽出された発現パターンに対してクラスタ分析
を行う範囲を指定するステップと、指定された範囲の発
現パターンに対してクラスタ分析を行うステップを更に
含むことができる。

前記第２の目的を達成するための、本発明による遺伝
子データ表示方法は、複数の遺伝子の発現パターンをク
ラスタ分析して得た樹状図を表示するステップと、クラ
スタ抽出すべき遺伝子の機能とクラスタ抽出のための条
件を指定するステップと、前記条件を満足する遺伝子ク
ラスタを樹状図の部分木単位で強調表示するステップと
を含むことを特徴とする。

この遺伝子データ表示方法は、複数の遺伝子発現パタ
ーンデータを視覚的に分かりやすく、そして遺伝子の機
能・役割が推測しやすい形式によって表示するものであ
り、発現パターンが類似しているもので、遺伝子の既知
の機能で同じものが多く集まったクラスタを自動的に抽
出して表示することができる。

クラスタ抽出のための条件は、部分木中における前記
機能を有する遺伝子の最小割合及び１クラスタに含まれ
る前記機能を有する遺伝子の最小個数とすることができ
る。

また、前記第２の目的を達成するための、本発明によ
る遺伝子データ表示方法は、複数の遺伝子の発現パター
ンをクラスタ分析して得た樹状図を表示するステップ
と、樹状図の部分木を選択するステップと、選択された
部分木に含まれる遺伝子のを機能別に割合表示するステ
ップとを含むことを特徴とする。

クラスタ分析によって得られた樹状図の部分木を選択
し、詳細表示することで、そこにどのような遺伝子の機
能が集まっているのがわかり、機能が未知の遺伝子に対
する機能の推定を補助することが可能になる。

さらに、前記第２の目的を達成するための、本発明に
よる遺伝子データ表示方法は、複数の遺伝子の発現パタ
ーンをクラスタ分析して得た樹状図を表示するステップ
と、樹状図の部分木を選択するステップと、選択された
部分木の平均発現パターンをグラフ表示するステップと
を含むことを特徴とする。

クラスタ分析によって得られた樹状図の部分木を選択
し、発現パターンを詳細表示することで、機能に固有の
発現パターンがどのようなものかを理解することができ
るようになる。グラフには発現値の平均と共に分散を表
示するようにしてもよい。

また、本発明によるコンピュータ読み取り可能な記録
媒体は、前述の各方法の複数のステップを実行するため
のコンピュータで実行されるプログラムを記録したこと
を特徴とする。

図面の簡単な説明図１は、本発明による画面表示例を示す図（機能が同
じものを持つ遺伝子及びそれらに発現パターンが類似し
ている遺伝子を強調表示した画面表示の図）である。

図２は、本発明による画面表示例を示す図（機能が同
じものを持つ遺伝子及びそれらに発現パターンが類似し
た遺伝子だけを抜き出して表示した画面表示の図）であ
る。

図３は、本発明による画面表示例を示す図（図２のデ
ータに対して更に異なるクラスタリング方法を施したと
きの画面表示の図）である。

図４は、本発明による画面表示例を示す図（図３のデ
ータに対して発現パターンが類似している範囲を取り除
いて更にクラスタリングを施した画面表示の図）であ
る。

図５は、本発明によるシステム構成図である。

図６は、遺伝子データの例を示す図である。

図７は、遺伝子機能名リストの例を示す図である。

図８は、クラスタ構造体の例を示す図である。

図９は、クラスタ構造体での機能リストの格納の例を
示す図である。

図１０は、クラスタ木構造の生成例を示す図である。

図１１は、機能関連遺伝子格納の例を示す図である。

図１２は、クラスタリング適用データ範囲の例を示す
図である。

図１３は、本システムの概略処理フローを示す図であ
る。

図１４は、クラスタ分析の詳細フローを示す図であ
る。

図１５は、機能名に関連した遺伝子を抽出する処理の
フローを示す図である。

図１６は、クラスタ抽出処理を模式的に表した図であ
る。

図１７は、本発明による画面表示例を示す図（樹状図
及び機能クラスタを表示した表示画面の図）である。

図１８は、本発明による画面表示例を示す図（部分木
の情報を表示した表示画面の図）である。

図１９は、クラスタ構造体の例を示す図である。

図２０は、クラスタ構造体での機能リストの格納の例
を示す図である。

図２１は、クラスタ木構造の生成例を示す図である。

図２２は、結果格納用構造体の例を示す図である。

図２３は、本システムの概略フローを示す図である。

図２４は、クラスタ分析の詳細フロー（クラスタ木の
生成）を示す図である。

図２５は、クラスタ分析の詳細フロー（クラスタ自動
抽出）を示す図である。

図２６は、クラスタ抽出処理（処理Ａ）の詳細フロー
を示す図である。

図２７は、標準的クラスタ分析結果表示例を示す図で
ある。

図２８は、標準的クラスタ分析結果表示例を示す図で
ある。

発明を実施するための最良の形態本発明をより詳細に説明するために、添付の図面に従
ってこれを説明する。

〔第１の実施形態〕最初に、本発明の第１の目的を達成するための実施形
態について説明する。

図１は、本発明の第１の目的を達成するシステムの画
面表示例であり、機能が同じものを持つ遺伝子及びそれ
に発現パターンが類似している遺伝子を強調表示した画
面表示例を示す図である。利用者が遺伝子の機能の一つ
を選択すると、その機能をもつ遺伝子及び類似した発現
パターンをもつ遺伝子を樹状図から探し出して強調表示
する。選択した機能を持つ遺伝子は、１０１で示す印の
ものである。印がついていない遺伝子は、異なる機能の
ものか、機能が未知のものを表している。

ここで発現パターンが類似しているとは、クラスタ間
の距離が小さい、すなわち樹状図において枝の長さが短
いことを意味する。そこで、距離に関する閾値を設け
て、距離がその閾値以下である部分木の遺伝子は互いに
発現パターンが類似しているとみなすことにする。図１
の樹状図上に示した縦の破線１００は閾値を示す線であ
り、図示の例の場合、この線１００から葉までの範囲
で、同じ部分木を共有する遺伝子は、類似した発現パタ
ーンであるとして樹状図の枝を強調表示している。

このような表示方法をとることにより、同じ機能を持
つ遺伝子群とそれらに類似した発現パターンをもつ遺伝
子を効果的に強調表示し、それらが樹状図全体のどこに
位置しているかも一目で把握することが可能となる。こ
れらの遺伝子群のことを、ここでは機能関連遺伝子とよ
ぶ。

さらに、図１で強調表示した遺伝子を取り出して表示
した画面が図２である。すなわち、同じ機能を持つ遺伝
子及びそれらに発現パターンが類似した遺伝子だけを抜
き出して表示した例である。図２のように、今まで樹状
図中でばらばらに散在していた機能関連遺伝子をまとめ
て表示することによって、機能に固有な発現パターンを
推測することができる。図２の表示例の場合、実験ケー
ス（横軸）の一部の範囲２００に各遺伝子に共通した発
現パターンが出ているので、この範囲２００が機能に特
異的なパターンではないかと推測できる。

図３は、図２のデータに対して、更に別のクラスタリ
ング方法を適用した時の表示画面例を示している。また
図４は、図３から機能に固有であると思われる発現パタ
ーン（３００）を取り除いてから、残ったデータに対し
てクラスタリングを施した場合の表示画面例である。こ
のように、機能関連遺伝子を更に分析し観察し直すこと
で、機能が未知の遺伝子に対する機能推定や、他の遺伝
子機能を持つかどうかの推定などを支援することができ
る。

図５は、本発明のシステム構成例を示す模式図であ
る。このシステムは、遺伝子の情報及び発現過程を記録
した遺伝子データ５０１と、遺伝子の発現過程に応じて
クラスタリングを行ない、それを樹状図の形式で表示す
るための解析を行なうクラスタリング処理部５００と、
樹状図を表示するための表示装置５０２と、本システム
への値の入力や選択の操作を行うためのキーボード５０
３及びマウス５０４と、機能クラスタを自動抽出するた
めに用いられる遺伝子機能名リスト５０５を備えて構成
される。クラスタリング処理部５００は、コンピュータ
とそのプログラムによって具体化される。プログラムは
ＣＤ−ＲＯＭ等の記録媒体に記録することができ、コン
ピュータでそれを読み取ることによってロードされる。
あるいは、ネットワークを介して他のコンピュータから
ダウンロードされる。また、遺伝子データは、記憶装置
５０１に記憶されているデータを用いるのに代えて、ネ
ットワーク等を介して遠隔地に設置されたサーバコンピ
ュータが管理しているデータベースから取得してもよ
い。

図６は遺伝子データ５０１の具体的な構造を示したも
のである。遺伝子情報は、gene[i]（i=1,2,...,m）とい
うｍ個の要素からなる配列に格納されているとする。た
だし、ｍは遺伝子データに含まれる遺伝子の個数であ
る。遺伝子データは、遺伝子を一意に決める遺伝子ID
（６００）、遺伝子を表す属性情報（６０１）、DNAチ
ップまたはDNAマイクロアレイ等のバイオチップから得
られた発現データ（６０２）からなる。遺伝子を表す属
性は、例えば遺伝子名（６０３）、ORF（６０４）、遺
伝子の機能（６０５）などがある。これら以外の遺伝子
の属性を、遺伝子情報構造体のメンバとして定義するこ
とも可能である。また発現データ（６０２）には、各実
験で遺伝子の発現の度合い（ハイブリダイゼーション反
応後の蛍光シグナルの輝度）を数値化したデータを格納
している。本実施形態では、実験の回数をｎとし、１つ
の遺伝子の発現データをｎ次元のベクトルとして扱って
いる。

図７は、遺伝子機能名リスト（５０５）の具体的な構
造を示したものである。遺伝子機能名リストはfuncList
[]という、func_num個の要素からなる配列で表されてお
り、配列の中身には、機能の名前が入っている。配列fu
ncList[]のインデックスをfuncIdxと表し、機能に対応
するIDとして扱う。機能が未知のものも、例えば「UNKO
WN」という機能名でfuncList[]に登録しておく。

図８は、クラスタリング処理において利用するクラス
タ構造体の例を示している。全てのクラスタ構造体は、
樹状図の各ノードまたは葉と対応している。各クラスタ
を識別するため、clusterNo（８００）とclusteringID
（８０６）のペアで各クラスタ構造体を一意的に表して
いる。clusteringID（８０６）はクラスタリング方法ご
とに一意に決まるIDである。clusterNo（８００）は、
一つのclusteringIDにおけるノードを表すIDとして用い
ている。

クラスタ構造体には２種類あり、葉を表すクラスタと
中間ノードを表すクラスタに対応して、typeメンバ（８
０１）の値でleafのもの（左側）とnodeのもの（右側）
に分けている。node型クラスタ構造体は、クラスタリン
グにおける併合処理において逐次生成するもので、併合
前の２つのクラスタをleft（８０２）の値と、right
（８０３）の値からたどれるようにし、また、それらの
間の距離（(非)類似度）をdistance（８０４）の値とし
て保持する。left及びrightの値には、clusterNo（８０
０）が入っている。一方、leaf型クラスタ構造体は、そ
れぞれ一つの遺伝子に対応しており、geneID（８０５）
に遺伝子ID（６００）を格納することで、遺伝子情報構
造体のデータが参照できるようになっている。

またnode型クラスタ構造体の場合、leafFuncList（８
０７）にクラスタに属するleaf型クラスタに対応する遺
伝子の機能を種類ごとにリスト構造で格納する。leaf型
クラスタ構造体の場合は、LeafFuncList（８０７）に対
応する遺伝子の機能をリスト構造で格納する。１つのリ
ストは、機能のIDを格納するためのIdx（８０８）、次
のリストへのポインタを格納するためのNextPtr（８０
９）からなる。Idxに入る機能IDは、遺伝子機能名リス
トにおけるfuncListのインデックスである。遺伝子の機
能が複数ある場合は、その分だけleafFuncListに追加す
る。例えば、ある遺伝子が機能として「TRANSPORT」と
「TCA CYCLE」と「GLYCOLYSIS」を持っている場合、fun
cListは３つのリストからなる。

図９は、クラスタ構造体に格納した機能リストLeafFu
ncList（８０７）の例を示したものである。樹状図の右
には各遺伝子の機能名を記してある。ノード９００に結
合される葉の遺伝子に、機能「UNKOWN (funcIdx :
1)」、「TRANSPORT (funcIdx : 2)」、「GLYCOLYSIS (f
uncIdx : 3)」、「TCA CYCLE (funcIdx : 4)」があるの
で、クラスタ構造体のleafFuncListは図のような形で表
現される。

図１０は、クラスタ分析の過程で生成するデータ構造
を示した図である。クラスタ構造体は、最初leaf型のも
のだけを用意するが、クラスタ分析の過程で２つずつ併
合し、その度にnode型クラスタ構造体を生成してトリー
構造を組み立てる。これらのリンク構造はclusteringID
（８０６）ごとに管理している。なぜなら、clustering
IDはクラスタリング方法ごとに決めており、クラスタリ
ング方法が変わると、トリーの構造が変わってしまうか
らである。

図１１は、機能関連遺伝子を格納するための、en_num
個の要素からなる配列extractNodes[]の例を示したもの
である。ここには、関連機能遺伝子とみなした遺伝子群
の部分木のルートノードのclusterNoを格納する。例え
ば、図１１に示すように、ある機能を持つ遺伝子が１１
００の位置にあり、発現の類似性を決める閾値を樹状図
上に破線１１０１で示した位置に設定したとき、閾値を
決める線１１０１によって切断されるノードのclusterN
oがextractNodes[]に格納される。

図１２は、クラスタリング適用データ範囲の情報を格
納するための、dim_num個の要素からなる配列clusterin
g_dims[]の例を示したものである。クラスタリング適用
データ範囲とは、クラスタリングの対象データとするベ
クトルデータ（発現データ）の次元（実験）の範囲のこ
とである。配列clustering_dims[]にはデータ対象の次
元が格納される。例えば、図１２に示すように、実験１
から実験１１までの発現データがある場合に、１２００
で示す発現データ５から７の範囲をクラスタリングの対
象データから除く場合、配列clustering_dims[]の内容
は図のようになる。

図１３は、本実施形態の遺伝子クラスタ方式の概略処
理フローを示した図である。

まず、遺伝子発現パターンデータからクラスタリング
処理部５００へデータを読み込む(ステップ１３００)。
次に、クラスタリング方法を表すIDであるclustIDに１
を、クラスタリング適用データ範囲clustering_dims[]
に先頭要素から1,2,3,...,nを代入して初期化し、クラ
スタ対象のデータの総数を示すgnumにｍを代入しておく
（ステップ１３０１）。そして、クラスタ分析に必要な
各種パラメータを設定する（ステップ１３０２）。

各種パラメータ初期化・設定の後、クラスタ分析を行
う（ステップ１３０３）。これについては、後で詳しく
説明する。そして、分析結果の表示を行う（１３０
４）。ここで、先に収集し、計算しておいた表示用のデ
ータ（クラスタ間の相対距離）を用い樹状図を作成し、
遺伝子名や機能を表示する。

ここで同じ機能をもつ遺伝子を樹状図内で表示するな
らば、発現パターンの類似度合いを示す閾値の設定を行
ない、対象とする機能名を選択する（ステップ１３０
６，１３０７）。閾値の設定は、クラスタリング結果の
表示から、（図１に示す閾値の線１００をマウスで左右
に動かすなどして）適切な値を選択すればよい。ステッ
プ１３０５において、同じ機能をもつ遺伝子を表示しな
いのであれば、処理は終了する。

次に、引数を先ほど生成した樹状図のルートに対応す
るクラスタとして、ステップ１３０７で選択した機能名
をもつ遺伝子及びそれらに類似した発現パターンをもつ
遺伝子を抽出する処理を行う（ステップ１３０８）。こ
れについては後で詳しく説明する。この処理の後、配列
extractNodes[]には、抽出した遺伝子（機能関連遺伝
子）の部分木のルートのclusterNoが入っているので、
その情報を元に、図１に太線で示すように機能関連遺伝
子に対応する枝を強調表示する（ステップ１３０９）。

ステップ１３０７で選択した機能名以外のものに着目
したいのであれば、ステップ１３０６に戻って、処理を
続ける（ステップ１３１０）。他の機能名に着目しない
のであれば、図３のように、抽出した遺伝子（機能関連
遺伝子）だけで樹状図を再表示する（ステップ１３１
１）。

機能関連遺伝子の遺伝子群に対して、更にクリスタリ
ングを施すならば、次の処理を行う。まず、クラスタリ
ング適用データ範囲を絞り込んだ後にクラスタリングを
適用したい場合、配列clustering_dims[]を更新する。
つまり、図１２に示したように、クラスタリングの対象
とする次元をclustering_dims[]に書き込む。このクラ
スタリング対象次元の書き込みは、マウス等を用いて表
示画面上で範囲を指定することでも行うことができる。
その後、クラスタリング方法のIDであるclustIDとクラ
スタリング適用データ範囲を再設定する。まず、clustI
Dを１つインクリメントする。また、クラスタリング適
用データ範囲としてクラスタリング処理に読み込ませる
データを、ステップ１３０８で抽出した機能関連遺伝子
の遺伝子群に置き換え、クラスタ対象のデータの総数を
示すgnumに機能関連遺伝子の個数を代入する。その後、
ステップ１３０２の処理に戻ってクラスタリングを行
う。ステップ１３１２において、これ以上クラスタリン
グを適用しないならば処理を終了する。

図１４は、図１３におけるクラスタ分析（ステップ１
３０３）の処理の詳細フローである。

まず、図６に示した各遺伝子ＩＤに対応する発現デー
タで構成されるｎ次元ベクトル（６０２）において、配
列clustering_dims[]に対応する次元を遺伝子に対応す
るベクトルデータとする。gnum個の各遺伝子に対するle
af型クラスタ構造体を生成して、併合対象クラスタとし
て登録する（ステップ１４００）。このときクラスタ構
造体のclusterNoメンバ値（８００）には、投入する遺
伝子データの順に１，２，３，・・・と割り当ててゆ
く。また、遺伝子ID（６００）をgeneIDメンバ値(８０
５)に、clustIDをclusteringIDメンバ値(８０６)に、le
afFuncListメンバ（８０７）に対応する遺伝子の機能を
それぞれ登録する。

次に、併合対象クラスタ数cnumの値をgnum、これまで
生成したnode型クラスタ構造体の数nclsを０として初期
化する（ステップ１４０１）。さらに、併合対象クラス
タの数cnumが１に等しいかどうか判定し（ステップ１４
０２）、等しくない場合、１になるまで以下の一連の処
理を繰り返す。等しい場合は、処理を終了する。

最初に、登録された併合対象のクラスタから相対距離
最小の２つのクラスタを選択する（ステップ１４０
３）。次に、node型クラスタＣを新規に生成し（ステッ
プ１４０４）、node型クラスタ数をインクリメントする
（ステップ１４０５）。新しいnode型クラスタのleftメ
ンバ（８０２）、rightメンバ（８０３）、distanceメ
ンバ（８０４）に、先にステップ１４０３で選択した２
つのクラスタ、及びその間の距離を登録し、２つのクラ
スタのleafFuncListを加えたものをleafFuncListメンバ
（８０７）に登録する。さらにclustIDをclusteringID
メンバ（８０６）に、gnum＋nclusをＣのclusterNoメン
バ（８００）に登録する（ステップ１４０６）。

ここで、２つのクラスタのどちらをleftメンバとし、
残りをrightメンバとするかについて、予め判定基準を
設けることも可能である。最後に、この２つのクラスタ
を併合対象クラスタから除外、新しいnode型クラスタを
登録し（ステップ１４０７）、平行対象クラスタ数cnum
の値をデクリメントし（ステップ１４０８）、ステップ
１４０２から処理を続ける。

図１５は、図１３における機能名に関連した遺伝子を
抽出する処理（ステップ１３０８）の詳細フローであ
る。

まず、引数で与えられたクラスタのtypeメンバ値を調
べ、それがleafなら処理を終了する（ステップ１５０
０）。次に、引数で与えられたクラスタのrightメンバ
のクラスタ（Cr）をルートとする部分木に、機能関連遺
伝子が含まれるか調べる。すなわち、図１３のステップ
１３０７で選択した機能名の機能IDが、CrのleafFuncLi
st（８０７）のリストに含まれるか調べる。もし含まれ
ていなければ処理を終了する（ステップ１５０１）。

クラスタCrに該当する機能が含まれているなら、Crの
distanceメンバ（８０４）が、図１３のステップ１３０
６で定めた閾値よりも小さいか調べる（ステップ１５０
２）。小さいならば、関連機能遺伝子を格納する配列
（extractNodes[]）にCrのclusterNoメンバ値（８０
０）を登録する（ステップ１５０３）。ステップ１５０
２において、distanceメンバが閾値よりも大きいなら
ば、クラスタCrを引数として、再度、機能名に関連した
遺伝子を抽出する処理（図１５の処理）を行う。

同様な処理を、引数で与えられたクラスタのlightメ
ンバのクラスタにも行い処理を終了する（ステップ１５
０５〜１５０８）。

以上の処理によって、図１〜図４に示したようなクラ
スタ分析結果の表示及び分析が可能となる。

〔第２の実施形態〕次に、本発明の第２の目的を達成するための実施形態
について説明する。本実施の形態のシステム構成は図５
と同様である。また、遺伝子データ及び遺伝子機能名リ
ストとして、第１の実施形態で説明した図７，図８と同
様のものを用いる。

本実施形態では、部分木に属する遺伝子で、各機能が
いくつあるかを算出し、部分木での各機能が占める割合
を求める。部分木でその割合が、予め定めた閾値を超え
るならば、それを機能クラスタとみなし、抽出する処理
を行う。このとき、１遺伝子が単体で機能クラスタとし
てみなされないようにするため、少なくとも１クラスタ
に含まれる遺伝子の個数も閾値として予め定めておく。

このクラスタ抽出処理を模式的に表したのが図１６で
ある。ここでは、機能としてGLYCOLYSISをもつ遺伝子に
関する機能クラスタを探索する処理を示している。この
例では、閾値として、図１６の右側に示したように、部
分木でGLYCOLYSISの機能をもつ最低の割合を０．４０と
し、少なくとも３つ以上の遺伝子を含むクラスタを選び
出すようにしている。

図１６の例の場合、まず樹状図のルートノード１６０
０を見ると、機能GLYCOLYSISを持つ遺伝子の個数は５個
で、部分木に属する遺伝子の全個数（１７個）に対して
機能GLYCOLYSISを有する遺伝子の割合は、５／１７＝
０．２９であり、閾値として設定した最低の割合（０．
４０）よりも小さいから、ノード１６００の部分木は機
能GLYCOLYSISに関する機能クラスタとみなさない。

次に、ノード１６００に属する２つの子ノード１６０
１と１６０２で、これらのノードをルートとみたときの
部分木に対して、機能GLYCOLYSISを持つ遺伝子の割合を
同様に算出する。これらはそれぞれ０．００及び０．３
６であるので、ノード１６０１及び１６０２は機能GLYC
OLYSISに関する機能クラスタとはみなさない。ノード１
６０１は、左右の子ノードを部分木のルートとしたとき
の遺伝子の個数が２個と１個なので、少なくとも３つ以
上の遺伝子をもつクラスタを選び出すという閾値の条件
に反するため、これ以上探索を続けない。

ノード１６０２の左右の子ノード１６０３と１６０４
についても機能GLYCOLYSISを有する遺伝子の割合を同様
に計算する。ノード１６０４においては、機能GLYCOLYS
ISを有する遺伝子の割合が０．４４であり、閾値で定め
た割合よりも大きいので、これを機能クラスタとみな
す。他方、ノード１６０３及びその子ノード１６０５
は、GLYCOLYSISの割合が閾値で定めた割合よりも小さい
ので、機能クラスタとみなさない。このようにして、機
能クラスタを決定していく。

図１７は、本実施の形態による画面表示例である。機
能クラスタは、樹状図の横に縦のバーを引いて示してい
る。また、１７０１，１７０２のように、バーが重複し
て表示されることがある。これは、遺伝子が複数の機能
を持っているため、その両方の機能に関して、機能クラ
スタの部分を表示しているためである。機能クラスタの
表示はその部分が他から識別できるようにして強調表示
されればよいのであり、バーを引く方法以外にも表示色
を変える方法、枠で囲んで表示するなど種々の方法で強
調表示することができる。

図１８は、本実施形態による画面表示の他の例であ
る。この表示例は、部分木の枝をマウスで選択したとき
に、それに含まれる遺伝子の機能の割合を円グラフで表
し、さらに、横軸に実験ケース、例えば時間をとり、ポ
インタ１８０１で選択した部分木に属する各遺伝子の発
現パターンの平均及び分散を算出してグラフ表示したも
のである。このような表示法を、特に機能クラスタに対
して適用することにより、機能未知の遺伝子の機能推定
に役立ち、また、機能に固有の発現パターンを見つけ出
すことができる。

図１９は、本実施の形態のクラスタリング処理におい
て利用するクラスタ構造体の例を示している。全てのク
ラスタ構造体は、樹状図の各ノードまたは葉と対応して
いる。各クラスタを識別するため、clusterNo（１９０
０）で各クラスタ構造体に一意的に番号を割り振ってい
る。クラスタ構造体には２種類あり、葉を表すクラスタ
と中間ノードを表すクラスタに対応して、typeメンバ
（１９０１）の値でleafのもの（左側）とnodeのもの
（右側）に分けている。

node型クラスタ構造体は、クラスタリングにおける併
合処理において逐次生成するもので、併合前の２つのク
ラスタをleft（１９０２）の値と、right（１９０３）
の値からたどれるようにし、また、それらの間の距離
（(非)類似度）をdistance（１９０４）の値として保持
する。left及びrightは、クラスタを一意に示すcluster
No（１９００）が入っている。

leaf型クラスタ構造体は、それぞれ一つの遺伝子に対
応しており、geneID（１９０５）に遺伝子ID（６００）
を格納することで、遺伝子情報構造体のデータが参照で
きるようになっている。またnode型クラスタ構造体の場
合、そのクラスタに属するleaf型のクラスタの個数をle
afNum（１９０６）に格納し、leafFuncList（１９０
７）にクラスタに属するleaf型クラスタに対応する遺伝
子における機能を種類ごとにリスト構造で格納する。le
af型クラスタ構造体の場合はleafNum（１９０６）に１
を格納する。LeafFuncList（１９０７）には、対応する
遺伝子の機能をリスト構造で格納する。

１つのリストは、機能のIDを格納するためのIdx（１
９０８）、その機能が部分木中に現れた回数を示すNum
（１９０９）、次のリストへのポインタを格納するため
のNextPtr（１９１０）からなる。Idxに入る機能IDは、
遺伝子機能名リストにおけるfuncListのインデックスで
ある。

遺伝子の機能が複数ある場合は、１を機能の個数で割
って、機能が現れた回数Num（１９０９）を１の等分割
の値として表したり、あるいは、複数の機能をそれぞれ
１としてNumを表したりすればよい。例えば、ある遺伝
子が機能として「TRANSPORT」と「TCA CYCLE」と「GLYC
OLYSIS」を持っている場合、１の等分割で機能が現れた
回数を表すと、funcListは３つのリストからなり、それ
ぞれのNumは0.33ずつとなる。

図２０は、図１９に示したクラスタ構造体での機能リ
ストLeafFuncList（１９０７）の格納の例を示したもの
である。樹状図の右には各遺伝子の機能名を記してあ
る。ノード２０００に結合される遺伝子に、機能「UNKO
WN (funcIdx : 1)」が４つ、「TRANSPORT (funcIdx :
2)」が４つ、「GLYCOLYSIS (funcIdx : 3)」が７つ、
「TCA CYCLE (funcIdx : 4)」が１つあるので、クラス
タ構造体のleafFuncListは図のような形で表現される。

図２１は、クラスタ分析の過程で生成するデータ構造
を示した図である。クラスタ構造体は、最初leaf型のも
のだけを用意するが、クラスタ分析の過程で２つずつ併
合し、その度にnode型クラスタ構造体を生成してトリー
構造を組み立てる。node型クラスタは生成した順に、逐
次、配列node_clusters［］から辿れるようにポインタ
を張ってゆく。変数nclusは、これまで生成したnode型
クラスタ構造体の総数を保持する変数である。

図２２は、結果格納用構造体の配列results[i]（i=1,
2,3,...,func_num）を表したものである。resluts[i]の
インデックスｉは、各機能ID（funcIdx）に対応してい
る。すなわち、機能ごとにresults[]の１要素を割り当
てていく。構造体results[]のメンバは、閾値と抽出結
果で構成されている。閾値は、１つの部分木に含まれる
べき機能の割合をthreshold rate（２２００）、部分木
に含まれるべきleaf型クラスタの最小個数をthreshold
leaf（２２０１）からなる。また抽出結果は、reslut
（２２０２）で表す。ここには、機能クラスタを示す中
間ノード（type型クラスタ）のclusterNoを格納する。

閾値の設定は、キーボードやマウスを操作して利用者
が行うことも可能である。特にthreshold rate（２２０
０）は、各機能を一律にある値で決めてもよいし、もと
もとある機能の割合が全体的に大きければ、それに応じ
て割合を変えるなど、いくつかの利用形態が考えられ
る。

図２３は、本実施形態の遺伝子クラスタ方式の概略処
理フローを示した図である。

まず、遺伝子発現パターンデータからクラスタリング
処理部５００へデータを読み込む（ステップ２３０
０）。次に、クラスタ分析に必要な各種パラメータと閾
値を設定する（ステップ２３０１、２３０２）。各種パ
ラメータ設定の後、クラスタ分析を行う（ステップ２３
０３）。このクラスタ分析の処理の間に、本発明の機能
クラスタ表示に必要な情報を収集し、表示用データの計
算を行う。これについては、後で詳しく説明する。

そして、分析結果の表示を行う（２３０４）。ここ
で、先に収集し、計算しておいた表示用のデータ（クラ
スタ間の相対距離）を用い樹状図を作成し、遺伝子名や
機能を表示する。また、results[]配列のresultメンバ
の指す中間ノード（node型クラスタ構造体）に結合され
る葉ノード（leaf型クラスタ構造体）に、図１７の１７
０１，１７０２に示すようなバーの表示を行う。

ここで部分木を選択して表示するならば、図１８に示
すように、選択した部分木に含まれる葉ノードの遺伝子
の機能の分布を表示し、それらの遺伝子の平均発現パタ
ーンを表示する（ステップ２３０５，２３０６）。表示
には、選択した部分木に対応する中間ノード（node型ク
ラスタ）のleafFuncList（１９０７）に機能の分布が格
納されているので、それを元に機能分布を作成し、さら
に、leaf型クラスタまでたどり、遺伝子データ配列gene
[]の発現データ（６０２）を元に平均発現パターンを作
成すればよい。部分木の選択がなければ、処理を終え
る。

図２４は、図２３におけるクラスタ分析（ステップ２
３０３）の処理の詳細フローであり、第一段階処理とし
てのクラスタ木の生成処理に関するフロー図である。

まず、図６に示した各遺伝子ＩＤに対応するｍ個のｎ
次元ベクトルデータ（６０２）をｍ個のleaf型クラスタ
構造体とし、併合対象クラスタとして登録する（ステッ
プ２４００）。このとき、clusterNoをgene[]のインデ
ックスに、geneID（１９０５）を遺伝子ID（６００）
に、leafNum（１９０６）を１に、leafFuncList（１９
０７）に対応する遺伝子の機能を追加する。

次に、併合対象クラスタ数cnumの値をｍ、これまで生
成したnode型クラスタ構造体の数nclsを０として初期化
する（ステップ２４０１）。さらに、併合対象クラスタ
の数cnumが１に等しいかどうか判定し（ステップ２４０
２）、等しくない場合、１になるまで以下の一連の処理
を繰り返す。

最初に、登録された併合対象のクラスタから相対距離
最小の２つのクラスタを選択する（ステップ２４０
３）。次に、node型クラスタＣを新規に生成し（ステッ
プ２４０４）、node型クラスタ数をインクリメントする
（ステップ２４０５）。そして、配列node_clusters[]
の第ncls番成分に新しいnode型クラスタを登録する（ス
テップ２４０６）。さらに、新しいnode型クラスタのle
ftメンバ（１９０２）、rightメンバ（１９０３）、dis
tanceメンバ（１９０４）に、先にステップ２４０３で
選択した２つのクラスタ、及びその間の距離を登録し、
２つのクラスタのleafNumを加えたものをleafNumメンバ
（１９０６）に、leafFuncListを加えたものをleafFunc
Listメンバ（１９０７）に登録する。ｍ＋nclusをＣのc
lusterNoメンバに登録する（ステップ２４０７）。

ここで、２つのクラスタのどちらをleftメンバとし、
残りをrightメンバとするかについて、予め判定基準を
設けることも可能である。最後に、この２つのクラスタ
を併合対象クラスタから除外、新しいnode型クラスタを
登録し（ステップ２４０８）、併合対象クラスタ数cnum
の値をデクリメントする（ステップ２４０９）。ステッ
プ２４０２の判定においてｃｎｕｍの値が１に等しくな
ったら、図２５のフローに継続する。

図２５は、図２３におけるクラスタ分析（ステップ２
３０３）の処理の詳細フローであり、第二段階処理とし
ての機能クラスタの自動抽出処理に関するフロー図であ
る。

まず遺伝子機能名リストのインデックスを表すidxを
１に初期化しておく（ステップ２５００）。今までの処
理によって、Ｃは樹状図のルートのノードになってい
る。樹状図に属する全遺伝子の中で、機能がfuncList[i
dx]であるものの割合が、部分木に含まれるべき機能の
割合（result[idx]のthreshold rateメンバ値）よりも
大きいかどうか判定する（ステップ２５０１）。もし大
きいならば、ＣのclusterNoメンバ値をresults[idx]のr
esultメンバ値に登録する（ステップ２５０２）。小さ
いならば、Ｃとidxを引数としてクラスタ抽出処理（処
理Ａ）を行う（ステップ２５０３）。処理Ａについて
は、後で詳しく述べる。

idxを１つインクリメントし、これがfunc_numになる
まで、すなわち、遺伝子機能名リストにあるすべての機
能について、ステップ２５０１〜２５０４の処理を行う
（ステップ２５０４，２５０５）。idxがfunc_numにな
った時点で全体の処理を終了する。

図２６は、図２５における処理Ａ（ステップ２５０
３）の詳細フローである。

まず、引数で与えられたクラスタのtypeメンバ値を調
べ、それがleafなら処理を終了する（ステップ２６０
０）。次に、引数で与えられたクラスタのrightメンバ
のクラスタが、機能クラスタかどうか調べる。まず引数
クラスタのrightメンバの指すクラスタ(Cr)のleafNum
が、閾値の最小leaf数、すなわちresult[idx]のthresho
ld leaf（２２０１）メンバ値よりも大きいかどうか調
べる（ステップ２６０１）。もし小さいなら処理Ａを終
了する。

大きいとき、クラスタCrをルートとする部分木に対し
て、その部分木に属する遺伝子で、機能がfuncList[id
x]であるものの割合が閾値よりも大きいか調べる。すな
わち、CrのleafFuncList（１９０７）のfuncList[idx]
に対応する機能の数を調べ、それをleafNum（１９０
６）で割った値が、result[idx]のthreshold rateのメ
ンバ値（２２００）よりも大きいかどうか調べる（ステ
ップ２６０２）。もし大きいならば、ＣのclusterNoメ
ンバ値をresults[idx]のresultメンバ値に登録する（ス
テップ２６０３）。小さいならば、Crとidxを引数とし
てクラスタ抽出処理（処理Ａ）を行う（ステップ２６０
４）。

次に、引数で与えられたクラスタのlightメンバのク
ラスタが、機能クラスタかどうかを、ステップ２６０１
〜２６０４と同様に調べる。以上、一連の処理が終了し
た場合、処理Ａは終了する。

以上の処理によって、図１７、図１８に示したような
クラスタ分析結果の表示が可能となる。

産業上の利用可能性以上説明したように、本発明によれば、クラスタリン
グの結果から、同じ機能を持つ遺伝子群とそれらに類似
した発現パターンを持つ遺伝子を強調表示することで、
これらの遺伝子が樹状図全体のどこに位置しているかを
把握することが可能となる。また、これらの遺伝子を抜
き出して発現パターンを比較することで、機能に特異的
な発現パターンを発見することができる。さらに、抜き
出した遺伝子に対して、別のクラスタリング方法でクラ
スタ分析するなどの処理を施すことによって、機能が未
知の遺伝子に対する機能推定や、他の遺伝子機能を持つ
かどうかの推定を支援することができる。

また、本発明によれば、遺伝子間の発現パターンが類
似しているもので、遺伝子の既知の機能で同じものが多
く集まった遺伝子の集合を自動的に抽出することができ
る。さらに、機能クラスタの部分木を選択し、詳細表示
することで、そこにどのような遺伝子の機能が集まって
いるのかがわかり、機能が未知の遺伝子に対して機能を
推定する手助けとなる。また、機能に固有の発現パター
ンがどのようなものかを理解することができるようにな
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者田村卓郎日本国神奈川県横浜市中区尾上町６丁目 81番地日立ソフトウエアエンジニアリング株式会社内 (56)参考文献特開平７−274965（ＪＰ，Ａ) ＲＯＳＳＤ．Ｔ．ｅｔａｌ．, Ｓｙｓｔｅｍａｔｉｃｃａｒｉａｔｉｏｎｉｎｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐａｔｔｅｒｎｓｉｎｈｕｍａｎｃａｎｃｅｒｃｅｌｌｌｉｎｅｓ，ｎａｔｕｒｅｇｅｎｅｔｉｃｓ，2000年３月10日，Ｖｏｌ．24，Ｎｏ．３，ｐ．227−235 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 19/00 G06F 17/30 C12N 15/09 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】遺伝子の情報及び発現過程を記録した遺
伝子データを保持する記憶装置と、遺伝子の発現過程に
応じてクラスタリングを行ない、それを樹状図の形式で
表示するための解析を行なうクラスタリング処理部と、
表示装置と、入力部と、機能クラスタを自動抽出するた
めに用いられる遺伝子機能名リストを登録した遺伝子機
能名リスト登録部とを備えたシステムの遺伝子データ表
示方法であって、前記クラスタリング処理部が、前記記憶装置に記憶された複数の遺伝子の発現パターン
と、その発現パターンをクラスタ分析して得た樹状図と
を対応付けて前記表示装置に表示するステップと、前記入力部から、前記遺伝子機能名リスト登録部に登録
された注目する遺伝子の機能及び前記表示装置に表示さ
れた前記樹状図上における距離の指定を受け付けるステ
ップと、指定された機能を持つ遺伝子を含み、当該遺伝子と前記
樹状図上での距離が指定された距離以下のノードをルー
トとする前記樹状図の部分木を前記表示装置に強調表示
するステップとを実行する遺伝子データ表示方法。
【請求項２】請求項１記載の遺伝子データ表示方法に
おいて、前記クラスタリング処理部は、前記入力手段か
ら入力された前記樹状図の枝を横切る直線によって前記
樹状図上での遺伝子からの距離の指定を受け付ける遺伝
子データ表示方法。
【請求項３】請求項１又は２記載の遺伝子データ表示
方法において、前記クラスタリング処理部は、前記樹状
図のうち前記強調表示された部分木及びそれに対応する
遺伝子の発現パターンだけを抽出して前記表示装置に表
示するステップを実行する遺伝子データ表示方法。
【請求項４】請求項３記載の遺伝子データ表示方法に
おいて、前記クラスタリング処理部は、前記抽出された
発現パターンに対してクラスタ分析を行うステップを実
行する遺伝子データ表示方法。
【請求項５】請求項３記載の遺伝子データ表示方法に
おいて、前記クラスタリング処理部は、前記入力手段か
ら、前記抽出された発現パターンに対してクラスタ分析
を行う範囲の指定を受け付けるステップと、前記指定さ
れた範囲の発現パターンに対してクラスタ分析を行うス
テップを実行する遺伝子データ表示方法。
【請求項６】遺伝子の情報及び発現過程を記録した遺
伝子データを保持する記憶装置と、遺伝子の発現過程に
応じてクラスタリングを行ない、それを樹状図の形式で
表示するための解析を行なうクラスタリング処理部と、
表示装置と、入力部と、機能クラスタを自動抽出するた
めに用いられる遺伝子機能名リストを登録した遺伝子機
能名リスト登録部とを備えたシステムの遺伝子データ表
示方法であって、前記クラスタリング処理部が、前記記憶装置に記憶された複数の遺伝子の発現パターン
をクラスタ分析して得た樹状図を前記表示装置に表示す
るステップと、前記入力部から、前記遺伝子機能名リスト登録部に登録
されたクラスタ抽出すべき遺伝子の機能とクラスタ抽出
のための条件の指定を受け付けるステップと、前記条件を満足する遺伝子クラスタを前記樹状図の部分
木単位で前記表示装置に強調表示するステップとを実行する遺伝子データ表示方法。
【請求項７】請求項６記載の遺伝子クラスタ抽出方法
において、前記クラスタ抽出のための条件は、部分木中
における前記機能を有する遺伝子の最小割合及び１クラ
スタに含まれる前記機能を有する遺伝子の最小個数であ
る遺伝子データ表示方法。
【請求項８】遺伝子の情報及び発現過程を記録した遺
伝子データを保持する記憶装置と、遺伝子の発現過程に
応じてクラスタリングを行ない、それを樹状図の形式で
表示するための解析を行なうクラスタリング処理部と、
表示装置と、入力部と、機能クラスタを自動抽出するた
めに用いられる遺伝子機能名リストを登録した遺伝子機
能名リスト登録部とを備えたシステムの遺伝子データ表
示方法であって、前記クラスタリング処理部が、前記記憶装置に記憶された複数の遺伝子の発現パターン
をクラスタ分析して得た樹状図を前記表示装置に表示す
るステップと、前記入力部から、前記表示装置に表示された前記樹状図
の部分木の選択指示を受け付けるステップと、前記選択された部分木に含まれる遺伝子を遺伝子機能名
リスト登録部に登録された遺伝子機能名リストを参照し
て機能別に前記表示装置に割合表示するステップとを実行する遺伝子データ表示方法。
【請求項９】遺伝子の情報及び発現過程を記録した遺
伝子データを保持する記憶装置と、遺伝子の発現過程に
応じてクラスタリングを行ない、それを樹状図の形式で
表示するための解析を行なうクラスタリング処理部と、
表示装置と、入力部とを備えたシステムの遺伝子データ
表示方法であって、前記クラスタリング処理部が、前記記憶装置に記憶された複数の遺伝子の発現パターン
をクラスタ分析して得た樹状図を前記表示装置に表示す
るステップと、前記入力部から、前記表示装置に表示された前記樹状図
の部分木の選択指示を受け付けるステップと、前記選択された部分木の平均発現パターンを前記表示装
置にグラフ表示するステップとを実行する遺伝子データ表示方法。
【請求項１０】請求項１〜９のいずれか１項記載の遺
伝子データ表示方法をコンピュータに実行させるための
プログラムを記録したことを特徴とするコンピュータ読
み取り可能な記録媒体。