JP3628005B2 - 遺伝子発現パターン表示方法および装置 - Google Patents
遺伝子発現パターン表示方法および装置 Download PDFInfo
- Publication number
- JP3628005B2 JP3628005B2 JP27791899A JP27791899A JP3628005B2 JP 3628005 B2 JP3628005 B2 JP 3628005B2 JP 27791899 A JP27791899 A JP 27791899A JP 27791899 A JP27791899 A JP 27791899A JP 3628005 B2 JP3628005 B2 JP 3628005B2
- Authority
- JP
- Japan
- Prior art keywords
- expression pattern
- clustering
- time
- genes
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000014509 gene expression Effects 0.000 title claims description 126
- 238000000034 method Methods 0.000 title claims description 73
- 108090000623 proteins and genes Proteins 0.000 claims description 73
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000005192 partition Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 238000000018 DNA microarray Methods 0.000 description 3
- 230000022131 cell cycle Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008558 metabolic pathway by substance Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、特定の遺伝子とハイブイリダイズさせることによって得られた時系列の遺伝子発現パターンを視覚的に分かり易く、そして遺伝子の機能・役割が推測し易い表示形式(または出力形式)によって表示するための表示方法および装置に関するものである。
【0002】
【従来の技術】
ゲノム配列が決定された種の増加に伴い、進化に対応するとみられる遺伝子を見つけ出し、どの生物にも共通に持っていると考えられる遺伝子の集合を探したり、それから逆に種に個別な特徴を推測するなど、種間の遺伝子の違いから何かを見出そうとする、いわゆるゲノム比較法が盛んに行われてきた。
【0003】
しかし近年、DNAチップやDNAマイクロアレイなどのインフラストラクチャの発達によって、分子生物学の興味は、種間の情報から種内の情報へ、すなわち同時発生解析へと移りつつあり、これまでの種間の比較と合わせて、情報の抽出から関連付けの場が大きく広がりを持ち始めている。
【0004】
例えば、既知の遺伝子と同一の発現パターンを示す未知の遺伝子が見つかれば、それが既知の遺伝子と同様の機能があると類推できる。これら遺伝子や蛋白質そのものの機能的な意味付けは、機能ユニットや機能グループといった形で研究されている。またそれらの間の相互作用も、既知の酵素反応データや物質代謝データとの対応付けによって、あるいはより直接的に、ある遺伝子を破壊あるいは過剰反応させ、その遺伝子の発現をなくすか、あるいは多量に発現させ、その遺伝子の直接的および間接的影響を、全遺伝子の発現パターンを調べることによって解析している。
【0005】
この分野において成功した事例として、スタンフォード大学のP.Brownらのグループによるイースト菌の発現解析が挙げられる(Michel B.Eisen et. al.: Cluster analysis and display of genome−wide expression patterns: Proc.Natl.Acad.Sci.(1998) Dec 8;95(25):14863−8)。彼らは、DNAマイクロアレイを用いて、細胞から抽出した遺伝子を時系列にハイブリダイズさせ、遺伝子の発現の度合い(ハイブリダイズした蛍光シグナルの輝度)を数値化した。数値に色を対応させることで、遺伝子の個々の発現過程を分かり易く表示させている。このとき、細胞の一連のサイクルにおいて発現パターンの過程が近い遺伝子同士(任意の時点での発現の度合いが近いもの同士)をクラスタリングしている。
【0006】
図13は、この手法に従って遺伝子の発現状態1300を表示した例を示す図であり、横方向に時間軸、縦方向に遺伝子を並べている。このような表示方法をとることで、共通のクラスタに属する遺伝子は、共通の機能的性質をもつと類推することができる。なお、図13における1つ1つの枠1301が1つの遺伝子のある時刻における発現状態を示すものであり、図13では白黒の濃度を変えて発現状態を模式的に示している。
【0007】
【発明が解決しようとする課題】
ところが、実際の遺伝子間の発現過程では、細胞の全サイクルにおいて同様の発現パターンを持つ幾つかの遺伝子グループを見つけ出すことで、その細胞全ての遺伝子間の関連が解明されるというほど単純ではない。
【0008】
例えば、ある時点において異なる遺伝子が同じ機能のために同様に発現しているが、その後、次のある時点では別々の役割を持つような場合がある。当然この場合、遺伝子の発現過程は異なる。細胞の全サイクルにおいて発現のパターンが近いもの同士をクラスタリングして表示させる従来技術の手法では、これらの遺伝子は別々のクラスタとして分類されるため、こういった性質を見つけ難いという難点があった。
【0009】
本発明は、このような従来技術の問題点を鑑み、ある時点において異なる遺伝子が同じ機能のために同様に発現しているが、ある時点では別々の役割を持つような場合を見つけ出し、これを効果的に表示することが可能な遺伝子発現パターン表示方法および装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明では、前記目的を達成するために、本発明は、時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンを視覚的に表示する遺伝子発現パターン表示方法であって、
記憶装置から時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンデータを取得する第1のステップと、取得した前記複数の遺伝子の時系列発現パターンデータの任意の時間区間の指定を入力装置から受付ける第2のステップと、クラスタリング用の基準値を入力装置から受付ける第3のステップと、前記第2のステップで指定された時間区間に対応するスリットを設定し、前記第1のステップで前記記憶装置から取得した遺伝子の時系列発現パターンデータのうち当該スリット内における時系列発現パターンデータをクラスタリング対象として前記第3のステップで指定された基準値を用いた類似度演算アルゴリズムまたは非類似度演算アルゴリズムによってクラスタリングを行い、クラスタリングされたそれぞれのクラスタ内において前記スリットを正または負の時間方向に移動し、スリット内のデータを対象としてクラスタリングを行う処理を逐次実行する第4のステップと、クラスタリング結果の遺伝子の時系列発現パターンを表示装置に予め定めた表示形式で表示させる第5のステップとを備えることを特徴とする
また、前記基準値は、異なる遺伝子において発現のパターンが同じまたは異なるとみなすべき値であることを特徴とする。
【0011】
また、前記時間区間において、異なる2つ以上の遺伝子が、初め同じ発現パターンを示し、途中から異なる発現パターンを示すものを予め定めた表示形式で表示することを特徴とする。
【0012】
また、前記時間区間において、異なる2つ以上の遺伝子が、初め異なる発現パターンを示し、途中から同じ発現パターンを示すものを予め定めた表示形式で表示することを特徴とする。
【0013】
また、時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンを表示装置の画面に視覚的に表示する遺伝子発現パターン解析装置であって、
記憶装置から時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンを取得する第1の手段と、取得した前記複数の遺伝子の時系列発現パターンデータの任意の時間区間の指定を入力装置から受付ける第2の手段と、クラスタリング用の基準値を入力装置から受付ける第3の手段と、前記第2の手段で指定された時間区間に対応するスリットを設定し、前記第1のステップで前記記憶装置から取得した遺伝子の時系列発現パターンデータのうち当該スリット内における時系列発現パターンデータをクラスタリング対象として前記第3の手段で指定された基準値を用いた類似度演算アルゴリズムまたは非類似度演算アルゴリズムによってクラスタリングを行い、クラスタリングされたそれぞれのクラスタ内において前記スリットを正または負の時間方向に移動し、スリット内のデータを対象としてクラスタリングを行う処理を逐次実行する第4の手段と、クラスタリング結果を予め定めた表示形式で前記表示装置の画面に表示させる第5の手段とを備えることを特徴とする。
【0014】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の遺伝子発現パターン表示方法を適用した遺伝子発現パターン解析装置の一実施形態を示すシステム構成図である。この実施形態の解析装置は、一連の細胞のプロセスにおいて遺伝子の発現の度合いを数値化した遺伝子発現パターンデータを格納した記憶装置(またはデータベース)101、発現パターンデータを視覚化して表示するための表示装置102、本システムへの値の入力や選択の操作を行なうためのキーボード103およびマウス104、遺伝子の発現過程に応じて発現パターンデータのクラスタリングを行なうクラスタリング処理部105から構成される。このクラスタリング処理部105は、コンピュータとそのプログラムによって具体化されるものである。
【0015】
ここで、記憶装置101に代えて、ネットワーク等を介して遠隔地に設置されたサーバコンピュータが管理しているデータベースから遺伝子発現パターンデータを取得する構成にする実施形態がある。
【0016】
本実施形態においては、細胞の一連のサイクルにおいて特定の時間区間を指定し、その時間区間において細かい粒度でクラスタリングを行なう。
【0017】
すなわち、同一のクラスタに属する遺伝子は1つに束ね、異なるクラスタとの間には線を引き、さらに、クラスタ内の遺伝子において更にクラスタリングを行なう。細かい粒度のクラスタリングを範囲の始めから正の時間方向へ繰り返し行なうと、図2に示すように、遺伝子の発現過程が木構造のように分岐して表現できる。図2において、201は、指定された時間区間、すなわちクラスタリング範囲である。
【0018】
これは、指定された時間区間の始めにおいて同じ発現パターンを示し、時間区間の途中で異なる発現パターンを示したことを意味している。このような表示が得られた場合、始めの時点では異なる遺伝子が同じ機能のために同様に発現しているが、ある時点において別々の役割を持つため異なって発現したと類推することができる。
【0019】
同様に、細かい粒度のクラスタリングを範囲の終端から負の時間方向へ繰り返し行なうと、遺伝子の発現の過程が、図3のように、逆の木構造のような分岐構造として表現することができる。
【0020】
これは、範囲の始めにおいて異なる発現パターンを示し、範囲の途中で同じ発現パターンを示したことを意味している。このような表示が得られた場合、始めの時点では異なる遺伝子が異なる機能を持っていたが、ある時点において同様の役割を持ったと類推することができる。
【0021】
図4は、遺伝子の発現パターンデータをクラスタリングして表示するクラスタリング処理部105におけるアルゴリズムの概要を示すフローチャートである。
【0022】
ここではまず、初期パラメータを設定し(ステップ401)、表示位置決定処理を行なう(ステップ402)。初期パラメータについては、後述する。その後、表示処理を行ない、処理を終了する(ステップ403)。本アルゴリズムは、図2に示したように、異なる遺伝子が、ある時間区間において、始めにおいて同じ発現パターンを示し、途中で異なる発現パターンを示したことを表示するものである。
【0023】
図5は、本アルゴリズムで使われる変数と実データとの対応関係を示す説明図である。図6は、図4中の初期パラメータ設定処理(ステップ401)に関するアルゴリズムの詳細を示している。
【0024】
まず、遺伝子発現パターンデータを記憶装置101から読み込む。この遺伝子発現パターンデータには、図5に示すようにm+1個のサンプル遺伝子g0,g1,...gmについて、時刻T0,T1,...Tnにおいて実験した結果の発現パターンデータが入っているものとする。そこで、時刻Tjにおける遺伝子giの発現の観測値をg[j][i]とおく(ステップ601)。
【0025】
次に、キーボード103、マウス104を使って、クラスタリング適用範囲(開始時刻Tstart、終了時刻Tend)、異なるクラスタとみなすべき基準を示す正数値(Kstart,Kstart+1,…,Kend)、クラスタリングの粒度を示す整数(S)、クラスタリング手法をそれぞれ入力する(ステップ602)。
【0026】
クラスタリング適用範囲とは、図2、図3に太枠実線201で示すように、細胞の一連のプロセスにおいて、より詳しくクラスタリングする時間区間を示す。例えば細胞の一連のプロセスにおいて、ある時刻で細胞に特殊な発現パターンがみられた場合、その時刻の前後をクラスタリング適用範囲に指定することで、全遺伝子の発現状態をより詳しくモニタリングするように選択する。従来のクラスタリングとの基本的な相違点は、図13のような細胞の全プロセスにおいて発現状態の近いもの同士をクラスタリングするのではなく、図2に示すような相異なる遺伝子が範囲の始めにおいて同じ発現パターンを示し、範囲の途中で異なる発現パターンを示したことを表示するところにある。
【0027】
異なるクラスタとみなす基準とは、異なるクラスタの間の非類似度が最低でもどれくらいの値をとるかを示すものである。すなわち、クラスタ間の閾値Kを示している。閾値がKstart,Kstart+1,…,Kendと可変に設定できることで、時間によって粗いクラスタリングから細かいクラスタリングまで調節できる。
【0028】
また、クラスタリングを行なうときの非類似度の計算において、本システムでは、発現データの時刻T0,T1,...Tnにおける全てのデータを非類似度の計算の対象とせずに、ある時間区間を設けて、その時間区間内におけるデータを非類似度の計算の対象とする。この時間区間を図5に示すようにスリット501、このスリット501の長さ(時間軸方向の幅)Sをクラスタリングの粒度とよぶ。本アルゴリズムでは、まずスリット501の先頭をTstartに合わせてデータをTstartからTstart+Sの範囲でクラスタリングを行ない、そこで分割された各々のクラスタ内において、スリット501を時刻が正の方向へ1つずらし、Tstart+1からTstart+S+1の範囲でクラスタリングを行なう。このような操作をスリットの後端がTendになるまで逐次実行する。したがって、粒度が細かいほど、すなわち時間区間の幅が短いほど、より細かい遺伝子間の発現の違いを表すことができる。
【0029】
クラスタリング手法では、クラスタリングにおいて個体同士の相関関係を表す類似度または非類似度(ピアソンの相関係数、ユークリッド平方距離、標準化ユークリッド平方距離、マハラノビスの距離、ミンコフスキー距離など)及びクラスタ合併のアルゴリズム(最短距離法、最長距離法、群平均法、重心法、メディアン法、ウォード法、可変法など)を指定する。本アルゴリズムは非類似度を対象としているが、クラスタリング手法において類似度を選択した場合は、計算した類似度に負符号を付けたり、逆数をとるなどの操作を施し、非類似度に変換すればよい。
【0030】
これらの値を設定したら、それぞれの項目が正しいかどうか調べる。クラスタリング適用範囲Tstart、TendがT0からTnの範囲に含まれているか(ステップ603)、クラスタリングの粒度Sがクラスタリング適用範囲の幅を超えてないか(S≦ end−start)(ステップ604)、また設定したクラスタリング手法において、合併アルゴリズムを重心法、メディアン法、ウォード法を選択した時、非類似度においてユークリッド平方距離を選択したかなど、類似度または非類似度と合併アルゴリズムは妥当な組み合わせか(ステップ606)を調べる。もし、これらの値で正当なものが入っていないならば、表示装置102にエラーを出力し、再入力を促す(ステップ607)。
【0031】
しかし、設定項目が適切であった場合、次に、i=1,2,…,mに対して遺伝子giの平均発現度Gi=(g[0][i]+g[1][i]+…g[n][i])/nを求める(ステップ608)。
【0032】
次に、個々の遺伝子の表示情報を格納するために図5に示すような配列l[I](I=0,1,…,m)502と整数値変数lmaxを用意する。各l[I]は構造体データで、図5に示すように遺伝子のインデックスを表すメンバ(index)と異なるクラスタ間の仕切り線の位置を表すメンバ(linepos)からなる。構造体のメンバは、l[I].index,l[I].lineposという形で値を代入・参照できる。そこで、全てのIに対してl[I].lineposの値をTendとして初期化し(ステップ609)、さらにlmaxの値を「0」としておく(ステップ610)。次に、変数tにstartの値を設定する(ステップ611)。
【0033】
本アルゴリズムでは、整数値の集合を表す“クラスタ”と呼ばれる抽象データ型を使っている。クラスタには、整数の登録、削除、登録データの参照のインタフェースを備えているものとする。
【0034】
クラスタBを生成し、そこに{0,1,2,…,m}を登録し処理を終了する(ステップ612)。
【0035】
以上のように初期設定をした後、クラスタリング適用範囲201に対して処理を行なう。すなわち、上で定めたtとBとを引数として表示位置決定処理(図4のステップ402の処理A)を行なう。
【0036】
図7は、図4中の表示位置決定処理(処理A)の詳細を示すフローチャートであり、この処理Aの中で配列lに表示情報を登録する。
【0037】
まず、引数として渡されたクラスタをB、時刻をtとする(ステップ701)。ここでBを更にクラスタリングする(処理B)。このときtとBを引数として与える。処理Bの結果として、総クラスタ数がcmaxに、クラスタリング結果がA[J](J=1,2,…,cmax)に設定される(ステップ702)。処理Bの詳細については後述する。
【0038】
次に、「t+S」がendと等しいかどうか判定する(ステップ703)。endの時はスリット501の終端がクラスタリング適用範囲201の終わりに来たことを意味し、ここでクラスタリング処理を終了する。このとき、J=1としてJがcmaxを超えるまで、各々のクラスタに対して次の処理を実行する(ステップ704,705)。クラスタA[J]の要素が{i1,…,ik}であるとき、これらの要素を一定の基準の下に並べて表示する。ここでは各要素に対応する遺伝子の平均発現度Gi1,...Gikを値の降順に並べて、それをGj1,...Gjkとおく(ステップ706)。
【0039】
次に配列lの値を入力する。すなわち、発現パターンデータの位置情報を表すl[].indexに平均輝度が降順になるように l[lmax].index=j1、l[lmax+1].index=j2、…、l[lmax+k−1].index=jkと設定し(ステップ707)、異なるクラスタとの仕切り線(図2の202で代表して示す横方向の太実線)を表す l[lmax+k−1].lineposに時刻tからt+S(=Tend)の範囲まで線を引くことを示すtの値を入力する(ステップ708)。
【0040】
次に、配列lの入力済みデータの最大数を示すlmaxにkを加算する(ステップ709)。次に、Jを1つインクリメントし、次のクラスタの処理に移る(ステップ710)。
【0041】
一方、ステップ703において、「t+S」がendと一致しない場合、すなわちスリット501の終端がクラスタリング適用範囲201の終わりに来ていないとき、tを1つインクリメントし、Jに「1」を設定する(ステップ711)。Jがcmaxを超えるまで、各々のクラスタに対して次の処理を行なう(ステップ712)。すなわちBにA[J]を代入し(ステップ713)、引数として時刻t、クラスタBを与えて表示位置決定処理(処理A)を行なう(ステップ714)。次に、異なるクラスタとの仕切り線を表す l[lmax−1].lineposに時刻tからTendの範囲まで線を引くことを示すtを入力する(ステップ715)。そして、Jを1つインクリメントし、次のクラスタの処理に移る(ステップ716)。全てのクラスタA[J](J=1,…,cmax)に関する処理が終われば終了する。
【0042】
図8および図9は、クラスタリング処理(処理B)のアルゴリズムを示すフローチャートである。
まず、引数として入力されたクラスタをB、入力された時刻をtに入れる(ステップ801)。
【0043】
次に、クラスタBの要素がi1,…,ikであるとき、i1,…,ikに対応する遺伝子間の時刻tから時刻t+Sにおける類似度または非類似度dij(i<jかつi,j∈{i1,i2,…,ik})を求める(ステップ802)。
【0044】
ここで、遺伝子gi,gjに対する遺伝子発現データ{g[0][i],g[1][i],…,g[n][i]}、{g[0][j],g[1][j],…,g[n][j]}の時刻tから時刻t+Sにおける類似度(非類似度)とは、例えば以下のような計算で求める量である(ステップ802)。
【0045】
(1)類似度としてピアソンの相関係数を指定したとき
【0046】
【数1】
【0047】
となる。本アルゴリズムでは非類似度を対象にしているので、類似度を適用する場合には負符号を付ける、逆数をとるなどの操作をして非類似度に変換しなければならない。
【0048】
(2)非類似度としてユークリッド平方距離を指定したとき、
【0049】
【数2】
【0050】
(3)標準化ユークリッド平方距離を指定したとき、
【0051】
【数3】
【0052】
(4)マハラノビスの距離を指定したとき、
【0053】
【数4】
【0054】
(5)ミンコフスキー距離を指定したとき、
【0055】
【数5】
【0056】
クラスタC[1],…,C[k]を生成し、それぞれのクラスタにC[1]←{i1},……,C[k]←{ik}を登録しておく(ステップ803)。そして、生成したクラスタの数を表す変数ccntにkを代入しておく(ステップ804)。次に、空集合のクラスタDを生成する(ステップ805)。
【0057】
次に、ここまでで計算した非類似度di,j(i,j ∈{1,2,…,ccnt}−D)の値の最小値dp,qを求め、先に設定した閾値Kt以下かどうか判定する(ステップ806、807)。dp,qがKt以下のとき次のことを実行する。クラスタC[ccnt+1]を新たに生成し、クラスタC[p]とクラスタC[q]に含まれる要素の和集合をクラスタC[ccnt+1]に登録し(ステップ808)、クラスタC[p]とクラスタC[q]に含まれる要素を削除する(ステップ809)。次に、C[p]とC[q]はもう必要ないので、Dにp、qを登録する(ステップ810)。次に、クラスタC[h] (h ∈{1,2,…,ccnt}−D)とクラスタC[ccnt+1]間の時刻tから時刻「t+S」における非類似度 dh,ccnt+1を求める(ステップ811)。ここでdh,ccnt+1は、次の計算式で求めることができる。すなわち
【0058】
【数6】
【0059】
ここでα、β、γ、δは、n(k)をクラスタC[k]内の要素の個数としたとき、クラスタリング手法が
(1)最短距離法のときα=0.5、β=0.5、γ=0、δ=−0.5
(2)最長距離法のときα=0.5、β=0.5、γ=0、δ=0.5
(3)群平均法のときα=n(p)/n(ccnt+1)、β=n(q)/n(ccnt+1)、γ=0、δ=0
(4)重心法のときα=n(p)/n(ccnt+1)、β=n(q)/n(ccnt+1)、γ=−n(p)n(q)/n(ccnt+1)2、δ=0
(5)メディアン法のときα=0.5、β=0.5、γ=−0.25、δ=0
(6)ウォード法のときα={n(h)+n(p)}/{n(h)+n(ccnt+1)}、
β={n(h)+n(q)}/{n(h)+n(ccnt+1)}、γ=−n(h)/{n(h)+n(ccnt+1)}、δ=0
である。
【0060】
次に、生成したクラスタの数を表す変数ccntに「1」を加える(ステップ812)。これらの処理を更新したdi,j(i,j∈{1,2,…,ccnt}−D)の最小値がKtより大きくなるまで続ける。
【0061】
ステップ807においてdi,jの最小値dp,qがKtより大きいとき、クラスタリングを終えて、結果の出力処理を行なう。まず、クラスタC[1]からC[ccnt]で、空集合でないものを判定し、この総数をcmaxに入力する(ステップ813)。そして、cmax個のクラスタA[1],…,A[cmax]を生成する(ステップ814)。空集合でないクラスタに対し、それに含まれる遺伝子の平均発現度の平均をとる。すなわち、クラスタC[p]={i1,…,ik}に対して、G’p=(Gi1+...+Gik)/kを求める。この値を降順に並べたものを、G’p1,,…,G’pcmaxとしたときA[1] ← C[p1],…,A[cmax] ← C[pcmax]を登録する(ステップ815)。最後に、総クラスタ数cmaxとクラスタA[1],…,A[cmax]を出力し(ステップ816)、処理を終了する。
【0062】
図10は、図4における表示処理のアルゴリズムの詳細を示すフローチャートである。このアルゴリズムは、配列l[I]を読み込み、対応する遺伝子の発現データを表示する処理である。
【0063】
まずiの値を「0」とし(ステップ1000)、iの値がlmaxと等しくなるまで、各々の遺伝子発現データに対して以下の操作を続ける(ステップ1001)。次に、x=l[i].indexが指す遺伝子1行分の発現データg[k][x](k=0,1,…,n)の数値を対応する表示色に置き換え、第i行として1行にわたり表示する(ステップ1002)。更に、クラスタ間の仕切り線を、今表示した第i行のすぐ下の時刻l[i].lineposからTendの範囲に引く(ステップ1003)。
【0064】
ここで、l[i].lineposの値が、初期値Tendの場合は、クラスタ間の仕切り線は存在せず線も書く必要が無い。iを1つずつインクリメントし(ステップ1004)、ステップ1001においてiがlmaxになったら、処理を終える。
【0065】
以上の処理によって、図2に示したような、相異なる遺伝子がクラスタリング適用範囲の始めにおいて同じ遺伝子発現パターンを示し、範囲の途中で異なる発現パターンを示すような状況を効果的に表示することができる。
【0066】
また、図3に示したような、相異なる遺伝子がクラスタリング適用範囲の始めにおいて異なる遺伝子発現パターンを示し、範囲の途中で同じ発現パターンを示すような状況を効果的に表示する場合には、ステップ609(図6)においてl[i].lineposにTstartを、ステップ611においてtにendを設定し、ステップ703(図7)においてt+S=endの判定条件をt−S=startにし、ステップ711においてt←t+1をt←t−1に置き換え、ステップ1003(図10)においてクラスタ間の仕切り線を、Tstartからl[i].lineposの範囲に引けばよい。これは、はじめスリットの終端部分をTendに設定しておき、時間軸の負の方向へ1つずつスリットを移動してクラスタリングすることを意味している。
【0067】
また、これらの詳細なクラスタリング手法の応用例として、クラスタリング適用範囲の前方から時間軸の正の方向へスリットを動かしてクラスタリングを行ない、図11に示したような表示が得られた場合を考える。このとき、図11の点線1101,1102で囲んだような似通った発現パターンが見られた場合、それらの遺伝子をマーキング(1103)しておき、クラスタリング適用範囲201の後方から時間軸の負の方向に向けてクラスタリングを行なう。もし、図12に示したようにマーキング(1103)した遺伝子が互いに近い位置にあるものが見つかる(例えば▲1▼と▲4▼、▲3▼と▲6▼など)ならば、これらの遺伝子は始め異なる遺伝子発現パターンを示し、途中で同じ発現パターンを示すことを意味しており、このような双方向のクラスタリングによって個々の遺伝子の発現状態を容易に推測することが出来る。
【0068】
更に、TstartをT0にTendをTnに、スリット幅Sをnに設定すれば、従来の技術の中で説明したP.Brownらの結果と同様の表示を得ることが出来る。
【0069】
なお、本発明は、上記実施形態に限定されるものではなく、実施に際しては、細部を種々変更して実施することができる。例えば、途中から発現パターンが変わった部分あるいは境界においては、フリッカ表示、高輝度表示、色反転表示などの既知の表示形態を各種組み合わせて表示することができる。
【0070】
また、クラスタリング処理部105の処理は、プログラムとしてCD−ROM等の記録媒体に記録してコンピュータユーザに提供することができる。
【0071】
また、遺伝子のデータとしては、時系列の発現データに限定されるものではなく、図3または図4における横軸(時間軸)を他の基準にとり変えることによって、例えば異なる実験間について比較を行うなどの利用が考えられる。
【0072】
また、解析結果を表示装置画面に表示する例を説明したが、最近においては多色プリンタの精度が向上しているため、多色プリンタで印刷出力する構成であってもよい。本発明の表示とは、プリンタで視覚的に印刷出力する概念を含むものである。
【0073】
【発明の効果】
以上説明したように、本発明によれば、細胞の発現サイクルの一部区間を指定し、その範囲において細かい粒度でクラスタリングを行なうことができる。そして、この表示結果に基づいて、利用者は遺伝子の発現経過の状態をより詳細に観測することができ、遺伝子の発現状態から生物学的機能を効率的よく推測することができる。
【図面の簡単な説明】
【図1】本発明を適用した解析装置の一実施形態を示すシステム構成図である。
【図2】クラスタリングの範囲を制限して細かい粒度でクラスタリングしたときの遺伝子発現パターン表示例(その1)を示す模式図である。
【図3】クラスタリングの範囲を制限して細かい粒度でクラスタリングしたときの遺伝子発現パターン表示例(その2)を示す模式図である。
【図4】クラスタリング処理の概要を示すフローチャートである。
【図5】クラスタリング処理で使用する変数と実データの関係を示す説明図である。
【図6】初期パラメータの設定に関するアルゴリズムを示すフローチャートである。
【図7】表示位置決定処理のアルゴリズムを示すフローチャートである。
【図8】クラスタリングのアルゴリズムを示すフローチャートである。
【図9】図8の続きを示すフローチャートである。
【図10】表示処理のアルゴリズムの概要を示すフローチャートである。
【図11】クラスタリング適用範囲の前方から時間軸の正の方向へスリットを動かしてクラスタリングを行ったときの遺伝子発現パターン表示例を示す説明図である。
【図12】クラスタリング適用範囲の後方から時間軸の負の方向へスリットを動かしてクラスタリングを行ったときの遺伝子発現パターン表示例を示す説明図である。
【図13】細胞の全プロセスにおいて発現状態の近いものどうしをクラスタリングしたときの遺伝子発現パターン表示例を示す説明図である。
【符号の説明】
101…遺伝子発現パターンデータの記憶装置、102…表示装置、103…キーボード、104…マウス、105…クラスタリング処理部、201…クラスタリング範囲、501…スリット。
Claims (5)
- 時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンを視覚的に表示する遺伝子発現パターン表示方法であって、
記憶装置から時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンデータを取得する第1のステップと、取得した前記複数の遺伝子の時系列発現パターンデータの任意の時間区間の指定を入力装置から受付ける第2のステップと、クラスタリング用の基準値を入力装置から受付ける第3のステップと、前記第2のステップで指定された時間区間に対応するスリットを設定し、前記第1のステップで前記記憶装置から取得した遺伝子の時系列発現パターンデータのうち当該スリット内における時系列発現パターンデータをクラスタリング対象として前記第3のステップで指定された基準値を用いた類似度演算アルゴリズムまたは非類似度演算アルゴリズムによってクラスタリングを行い、クラスタリングされたそれぞれのクラスタ内において前記スリットを正または負の時間方向に移動し、スリット内のデータを対象としてクラスタリングを行う処理を逐次実行する第4のステップと、クラスタリング結果の遺伝子の時系列発現パターンを表示装置に予め定めた表示形式で表示させる第5のステップとを備えることを特徴とする遺伝子発現パターン表示方法。 - 前記基準値は、異なる遺伝子において発現のパターンが同じまたは異なるとみなすべき値である」ことを特徴とする請求項1記載の遺伝子発現パターン表示方法。
- 前記第5のステップにおいて、異なる2つ以上の遺伝子が、前記時間区間において初め同じ発現パターンを示し、途中から異なる発現パターンを示すものを予め定めた表示形式で表示することを特徴とする請求項1または2記載の遺伝子発現パターン表示方法。
- 前記第5のステップにおいて、異なる2つ以上の遺伝子が、前記時間区間において初め異なる発現パターンを示し、途中から同じ発現パターンを示すものを予め定めた表示形式で表示することを特徴とする請求項1または2記載の遺伝子発現パターン表示方法。
- 時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンを表示装置の画面に視覚的に表示する遺伝子発現パターン解析装置であって、
記憶装置から時間経過に伴って発現の度合いが変化する複数の遺伝子の時系列発現パターンを取得する第1の手段と、取得した前記複数の遺伝子の時系列発現パターンデータの任意の時間区間の指定を入力装置から受付ける第2の手段と、クラスタリング用の基準値を入力装置から受付ける第3の手段と、前記第2の手段で指定された時間区間に対応するスリットを設定し、前記第1のステップで前記記憶装置から取得した遺伝子の時系列発現パターンデータのうち当該スリット内における時系列発現パターンデータをクラスタリング対象として前記第3の手段で指定された基準値を用いた類似度演算アルゴリズムまたは非類似度演算アルゴリズムによってクラスタリングを行い、クラスタリングされたそれぞれのクラスタ内において前記スリットを正または負の時間方向に移動し、スリット内のデータを対象としてクラスタリングを行う処理を逐次実行する第4の手段と、クラスタリング結果を予め定めた表示形式で前記表示装置の画面に表示させる第5の手段とを備えることを特徴とする遺伝子発現パターン解析装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27791899A JP3628005B2 (ja) | 1999-09-30 | 1999-09-30 | 遺伝子発現パターン表示方法および装置 |
DE60024029T DE60024029T2 (de) | 1999-09-30 | 2000-09-28 | Verfahren und Vorrichtung zur Darstellung von Gen-Expressionsmustern |
EP00121116A EP1089211B1 (en) | 1999-09-30 | 2000-09-28 | Method and apparatus for displaying gene expression patterns |
US09/677,042 US7031847B1 (en) | 1999-09-30 | 2000-09-29 | Method and apparatus for displaying gene expression patterns |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27791899A JP3628005B2 (ja) | 1999-09-30 | 1999-09-30 | 遺伝子発現パターン表示方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001095568A JP2001095568A (ja) | 2001-04-10 |
JP3628005B2 true JP3628005B2 (ja) | 2005-03-09 |
Family
ID=17590113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27791899A Expired - Fee Related JP3628005B2 (ja) | 1999-09-30 | 1999-09-30 | 遺伝子発現パターン表示方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3628005B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5278388B2 (ja) * | 2010-07-06 | 2013-09-04 | ソニー株式会社 | 生体物質情報に係わる可視化方法、可視化装置、並びに情報記憶媒体 |
-
1999
- 1999-09-30 JP JP27791899A patent/JP3628005B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001095568A (ja) | 2001-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102273717B1 (ko) | 심층 학습 기반 변이체 분류자 | |
Sebastiani et al. | Statistical challenges in functional genomics | |
Archer et al. | Empirical characterization of random forest variable importance measures | |
AU2019272065B2 (en) | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs) | |
US8600718B1 (en) | Computer systems and methods for identifying conserved cellular constituent clusters across datasets | |
WO2015173435A1 (en) | Method for predicting a phenotype from a genotype | |
JP2003021630A (ja) | 臨床診断サービスを提供するための方法 | |
CN111913999B (zh) | 基于多组学与临床数据的统计分析方法、系统和存储介质 | |
McShane et al. | Statistical issues in the design and analysis of gene expression microarray studies of animal models | |
JP3532911B2 (ja) | 遺伝子データ表示方法及び記録媒体 | |
EP1089211B1 (en) | Method and apparatus for displaying gene expression patterns | |
JP3628005B2 (ja) | 遺伝子発現パターン表示方法および装置 | |
EP1190366B1 (en) | Mathematical analysis for the estimation of changes in the level of gene expression | |
JP3563315B2 (ja) | 樹状図表示方法及び樹状図表示システム | |
JP2004030093A (ja) | 遺伝子発現データ解析方法 | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
Rubinstein et al. | Machine learning in low-level microarray analysis | |
US6994965B2 (en) | Method for displaying results of hybridization experiment | |
JP3773092B2 (ja) | 遺伝子発現パターン表示方法および装置並びに記録媒体 | |
Krishna et al. | Various versions of K-means clustering algorithm for segmentation of microarray image | |
Dudoit et al. | Cluster analysis in DNA microarray experiments | |
JPWO2002048915A1 (ja) | 遺伝子間の関連を検出する方法 | |
CN110832510B (zh) | 基于深度学习的变体分类器 | |
US20230316054A1 (en) | Machine learning modeling of probe intensity | |
JP2004355269A (ja) | クラスタ判別結果表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041206 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |