JP2009048562A - 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法 - Google Patents

遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法 Download PDF

Info

Publication number
JP2009048562A
JP2009048562A JP2007216300A JP2007216300A JP2009048562A JP 2009048562 A JP2009048562 A JP 2009048562A JP 2007216300 A JP2007216300 A JP 2007216300A JP 2007216300 A JP2007216300 A JP 2007216300A JP 2009048562 A JP2009048562 A JP 2009048562A
Authority
JP
Japan
Prior art keywords
profile
gene
shift amount
genes
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007216300A
Other languages
English (en)
Other versions
JP5247089B2 (ja
Inventor
Shigeyuki Mitsui
重之 三井
Hiroya Nobori
博也 昇
Katsumi Sakata
克己 坂田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Space Software Co Ltd
Original Assignee
Mitsubishi Space Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Space Software Co Ltd filed Critical Mitsubishi Space Software Co Ltd
Priority to JP2007216300A priority Critical patent/JP5247089B2/ja
Publication of JP2009048562A publication Critical patent/JP2009048562A/ja
Application granted granted Critical
Publication of JP5247089B2 publication Critical patent/JP5247089B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】測定誤差に対して頑健性を有する適切なクラスタリング結果を得られるようにする。
【解決手段】シフト量算出部110は、プロファイル記憶部191に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量αを遺伝子の組み合わせ毎に算出する。距離算出部120は、シフト量αだけプロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離dαを遺伝子の組み合わせ毎に算出する。クラスタリング部130は、各遺伝子間距離dαに基づいて各遺伝子に対する任意のクラスタリング処理(例えば、UPGMA[非加重結合法])を行い、各遺伝子のクラスタ情報を出力する。クラスタリング部130が生成した各遺伝子のクラスタ情報は、類似の特性を有する複数の遺伝子の特定など、各種の遺伝子解析に用いることができる。
【選択図】図1

Description

本発明は、例えば、遺伝子をクラスタリングするために遺伝子プロファイルを処理する遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法に関するものである。
遺伝子解析において、類似の特性を有する複数の遺伝子を特定するために、遺伝子の発現量を時系列に示すプロファイルデータ(タイムコースデータともいう。以下、プロファイルという)を遺伝子間で比較し、発現量の変化特性の類似性に基づいて遺伝子のクラスタリングが行われている。
このとき、遺伝子の発現量(絶対量)は測定条件によって変動するため、測定開始時点の発現量を基準として発現量の変化割合を示すように、プロファイルの正規化が行われている。以下、測定環境による発現量の差を「測定誤差」とし、測定開始時点の発現量を基準として発現量の変化割合を求める正規化を「Log−ratio」とする。
例えば、プロファイルは、以下の配列aに示すように、l〜m番目の各遺伝子について、各時刻T(T:t〜t)の発現量xを示す。
Figure 2009048562
ここで、i番目の遺伝子の発現量xとj番目の遺伝子の発現量xとを比較する際、観測開始時点の発現量に対する各時刻の発現量の割合x(t)/x(t)、x(t)/x(t)を求め(Log−ratioによる正規化)、求めた値x(t)/x(t)、x(t)/x(t)の差の累積値を以下の式bに示す距離関数dcijで算出する。
Figure 2009048562
そして、各遺伝子の組み合わせについて距離関数dcijにより算出した値を用いてクラスタリングが行われる。
特表2001−503546号公報 特開平7−64948号公報 特開平6−12495号公報
しかし、Log−ratioによる正規化は、観測開始時点の発現量に依存するため、観測開始時点と以降の時刻との測定誤差の影響により、プロファイルの比較に適した値が得られず、適切なクラスタリング結果が得られない場合がある。また、観測開始時点の発現量は微量であるため測定誤差の影響は大きい。
本発明は、例えば、測定誤差に対して頑健性を有する適切なクラスタリング結果を得られるようにすることを目的とする。
本発明の遺伝子プロファイル処理装置は、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出部と、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にCPUを用いて算出する距離算出部と、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をCPUを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング部とを備えることを特徴とする。
また、本発明の遺伝子プロファイル処理装置において、前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出することを特徴とする。
また、本発明の遺伝子プロファイル処理装置において、前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出することを特徴とする。
また、本発明の遺伝子プロファイル処理装置において、前記シフト量算出部は、以下の式1で表される遺伝子iと遺伝子jとの前記遺伝子間距離dαijに対して、以下の式2により遺伝子iの各発現量x(t)に対して遺伝子jの各発現量x(t)に加算する前記シフト量αijを算出することを特徴とする。
Figure 2009048562
本発明の遺伝子プロファイル処理装置は、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPUを用いて算出するシフト量算出部と、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化部とを備えることを特徴とする。
本発明の遺伝子プロファイル処理プログラムは、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPUを用いて算出するシフト量算出処理と、距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にCPUを用いて算出する距離算出処理と、クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をCPUを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理とをコンピュータに実行させることを特徴とする。
また、本発明の遺伝子プロファイル処理プログラムにおいて、前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出する
ことを特徴とする。
また、本発明の遺伝子プロファイル処理プログラムにおいて、前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出することを特徴とする。
また、本発明の遺伝子プロファイル処理プログラムにおいて、前記シフト量算出部は、以下の式1で表される遺伝子iと遺伝子jとの前記遺伝子間距離dαijに対して、以下の式2により遺伝子iの各発現量x(t)に対して遺伝子jの各発現量x(t)に加算する前記シフト量αijを算出することを特徴とする。
Figure 2009048562
本発明の遺伝子プロファイル処理プログラムは、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPUを用いて算出するシフト量算出処理と、正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理とをコンピュータに実行させることを特徴とする。
本発明の遺伝子プロファイル処理方法は、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPUを用いて算出するシフト量算出処理を行い、距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にCPUを用いて算出する距離算出処理を行い、クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をCPUを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理を行うことを特徴とする。
本発明の遺伝子プロファイル処理方法は、シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPUを用いて算出するシフト量算出処理を行い、正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理を行うことを特徴とする。
本発明によれば、プロファイルの正規化のためのシフト量を算出し、シフトしたプロファイルを比較して遺伝子間距離を算出し、遺伝子間距離に基づいて各遺伝子をクラスタリングすることにより、例えば、測定誤差に対して頑健性を有する適切なクラスタリング結果を得ることができる。そして、適切なクラスタリング結果を用いることにより、類似の特性を有する複数の遺伝子を特定するなど、各種の遺伝子解析を行うことができる。
実施の形態1.
図1は、実施の形態1における遺伝子プロファイル処理装置100の機能構成図である。
実施の形態1における遺伝子プロファイル処理装置100の機能構成について、図1に基づいて以下に説明する。
遺伝子プロファイル処理装置100はシフト量算出部110、距離算出部120、クラスタリング部130およびプロファイル記憶部191を備える。
プロファイル記憶部191は、複数の遺伝子について、発現量を時系列に示すプロファイル(例えば、前記配列a)を記憶機器を用いて記憶する。
シフト量算出部110は、プロファイル記憶部191に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量αを遺伝子の組み合わせ毎にCPUを用いて算出する。
距離算出部120(正規化部)は、シフト量算出部110が算出したシフト量αだけプロファイルをシフトさせ、シフトさせたプロファイルに基づいて後述する遺伝子間距離dαを遺伝子の組み合わせ毎にCPUを用いて算出する。このとき、距離算出部120は正規化したプロファイルとしてシフト後のプロファイルを記憶機器(出力機器の一例)に記憶する。
クラスタリング部130は、距離算出部120が算出した各遺伝子間距離dαに基づいて各遺伝子に対する任意のクラスタリング処理(例えば、UPGMA:Unweighted Pair Group Method with Arithmetic mean[非加重結合法])をCPUを用いて行い、各遺伝子のクラスタ情報を記憶機器(出力機器の一例)に記憶する。
クラスタリング部130が生成した各遺伝子のクラスタ情報は、類似の特性を有する複数の遺伝子の特定など、各種の遺伝子解析に用いることができる。
図2は、実施の形態1における遺伝子プロファイル処理装置100のハードウェア資源の一例を示す図である。
図2において、遺伝子プロファイル処理装置100は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、表示装置901(例えば、CRT(Cathode・Ray・Tube)ディスプレイや液晶ディスプレイ)、キーボード902(Key・Board:K/B)、マウス903、FDD904(Flexible・Disk・Drive)、CDD905(コンパクトディスク装置)、プリンタ装置906、スキャナ装置907、マイク908、スピーカー909、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶機器、記憶装置あるいは記憶部の一例である。また、入力データが記憶されている記憶機器は入力機器、入力装置あるいは入力部の一例であり、出力データが記憶される記憶機器は出力機器、出力装置あるいは出力部の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力機器、入力装置あるいは入力部の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力機器、出力装置あるいは出力部の一例である。
通信ボード915は、有線または無線により、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)、電話通信回線などのデータ通信網に接続されている。
磁気ディスク装置920には、OS921(オペレーティングシステム)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、OS921、ウィンドウシステム922により実行される。
上記プログラム群923には、実施の形態において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態において、「〜部」の機能を実行した際の「〜の判定結果」、「〜の計算結果」、「〜の処理結果」などの結果データ、「〜部」の機能を実行するプログラム間で受け渡しするデータ、その他の情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。正規化前・正規化後のプロファイル、シフト量α、後述する比較量logαx、遺伝子間距離dα、クラスタ情報などはファイル群924に含まれるものの一例である。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、実施の形態において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disc)等の記録媒体に記録される。また、データや信号値は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、実施の形態において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、遺伝子プロファイル処理プログラムは、「〜部」としてコンピュータを機能させるものである。あるいは、「〜部」の手順や方法をコンピュータに実行させるものである。
図3は、実施の形態1における遺伝子プロファイル処理方法を示すフローチャートである。
実施の形態1における遺伝子プロファイル処理方法の処理の流れについて、図3に基づいて以下に説明する。
遺伝子プロファイル処理装置100の各部は以下に説明する各処理をCPUを用いて実行する。
<S110:シフト量算出処理>
シフト量算出部110は、プロファイル記憶部191に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量αを遺伝子の組み合わせ毎に算出する。
以下に、シフト量算出処理(S110)の詳細について説明する。
まず、シフト量算出部110はプロファイル記憶部191から各遺伝子のプロファイルを入力する。プロファイルは、予め、任意の方法により遺伝子の発現量を測定した結果として生成され、プロファイル記憶部191に記憶されているものとする。
図4は、実施の形態1におけるグラフ化したプロファイルの一例を示す。
プロファイル記憶部191に記憶されたプロファイルをグラフ化すると、l番目の遺伝子(以下、遺伝子lとする)の発現量x(t)およびm番目の遺伝子(以下、遺伝子mとする)の発現量x(t)は、例えば、図4に示すような折れ線グラフ(波形グラフ)で表される。図4において、横軸は測定開始時からの経過時間t(目盛り:1時間単位)を示し、縦軸は発現量xの対数値(logx)を示している。以下において、プロファイルをグラフ化した各図の見方は図4と同様である。
図4では、実線で示す遺伝子lの発現量logx(t)は測定開始から1時間の間に急激に増大し、以後、微増し続けている。また、点線で示す遺伝子mの発現量logx(t)は測定開始から3時間経過時にピークとなり、6時間経過時まで減少を続け、以後、微増し続けている。
このように、各遺伝子は特性に応じて異なる発現の仕方を示す。
そして、シフト量算出部110は入力した各プロファイルに基づいてプロファイルを正規化するためのシフト量αを算出する。
ここで、プロファイルが示す遺伝子の発現量(絶対量)は測定環境(例えば、蛍光色素による標識誤差)によって変動するため、各遺伝子のプロファイルを単純に比較することはできない。そこで、シフト量算出部110は各遺伝子のプロファイルを比較可能に正規化するためにシフト量αを算出する。以下、シフト量αを「正規化係数」ともいう。
図5は、実施の形態1におけるシフト前のプロファイルとシフト量αによるシフト後のプロファイルとを示す。
例えば、図5において、実線で示す遺伝子iの発現量logx(t)と点線で示すシフト前の遺伝子jの発現量logx(t)とを比較する場合、遺伝子jの発現量logx(t)をシフト量logαijだけシフトすることにより、遺伝子iのプロファイルと遺伝子jのプロファイルとの比較が容易になる。一点鎖線がシフト量logαijだけシフトしたシフト後の遺伝子jの発現量logαij(t)を示す。
シフト量αij(または、logαij)は、図5に示すように、遺伝子iのプロファイルに対してシフトする遺伝子jのプロファイルのシフト量であり、遺伝子jのプロファイルを発現量の増減方向にシフトさせることにより遺伝子iと遺伝子jとのプロファイルを近似させるシフト量である。但し、シフト量αijに基づいて遺伝子iのプロファイルをシフトさせても構わない。以下、シフト量αijを加算したシフト後の遺伝子jの発現量logαij(または、logx+logαij)を遺伝子iに対する遺伝子jの「比較量」ともいう。
図6は、実施の形態1におけるプロファイルに基づく遺伝子間距離dαの一例を示す。
ここで、「遺伝子間距離dαij」は、遺伝子iのプロファイルとシフト後の遺伝子jのプロファイルとの差を示し、遺伝子iの発現量logx(t)とシフト後の遺伝子jの発現量logαij(t)(遺伝子jの比較量)との差を測定時刻毎に合計した値とする。例えば、図6では、発現量を6回測定した際の各測定時刻(経過時間:30分,1時間,3時間,6時間,12時間、24時間)における遺伝子iとシフト後の遺伝子jとの発現量の差の合計値(=(d +d +d +d +d +d 1/2)が遺伝子間距離dαijとなる。
遺伝子間距離dαijは以下の式1に示す距離関数dαijとして表される。以下、「遺伝子間距離dαij」と「距離関数dαij」とを同義とする。
Figure 2009048562
シフト量算出部110は遺伝子iのプロファイルと遺伝子jのプロファイルとを比較できるようにするために、距離関数dαijを最小にする正規化係数αij(シフト量)を算出する。つまり、シフト量算出部110は以下の式1’を満たす正規化係数αijを算出する。
Figure 2009048562
式1において、距離関数dαijを最小にする正規化係数αijは二乗した距離関数dαijを最小にする正規化係数αijに等しい。以下に、式1の距離関数dαijを二乗した式1(a)を示す。
Figure 2009048562
ここで、式1(a)は以下の式1(b)に置き換えることができ、式1(b)においてyを最小にするxは式1(c)で表すことができる。
Figure 2009048562
つまり、式1(b)において二乗した距離関数dαij を最小にするlogαijは以下の式1(d)で表すことができ、正規化係数αijは以下の式2で表すことができる。
Figure 2009048562
シフト量算出部110は各遺伝子の組み合わせについて式2を計算して遺伝子の組み合わせ毎に正規化係数αij(シフト量)を算出する。
図3に基づいて、実施の形態1における遺伝子プロファイル処理方法の説明を続ける。
<S120:距離算出処理>
距離算出部120は、シフト量算出部110が算出したシフト量αだけプロファイルをシフトさせ、シフトさせたプロファイル(正規化したプロファイル)に基づいて遺伝子間距離dαを遺伝子の組み合わせ毎に算出する。
以下に、距離算出処理(S120)の詳細について説明する。
まず、距離算出部120はシフト量算出部110が算出したシフト量αだけプロファイルをシフトさせ、正規化したプロファイルを生成する。このとき、距離算出部120は、遺伝子iに対してシフト後の遺伝子jの発現量logαij(t)(比較量)を測定時刻t毎に算出し、算出した各比較量logαij(t)を正規化したプロファイルとする。距離算出部120は各遺伝子の組み合わせについてプロファイルを正規化する。
そして、距離算出部120は正規化したプロファイルに基づいて遺伝子間距離dαを算出する。このとき、距離算出部120は、各比較量logαij(t)に基づいて遺伝子iと遺伝子jとの遺伝子間距離dαijを以下の式3を計算して算出する。式3は前記式1を時刻変数tを用いて表した式である。距離算出部120は各遺伝子の組み合わせについて遺伝子間距離dαijを算出する。
Figure 2009048562
図7は、実施の形態1におけるシフト量算出処理(S110)の処理結果の一例を示す。
図8は、実施の形態1の距離算出処理(S120)における比較量logαxについての処理結果の一例を示す。
図9は、実施の形態1の距離算出処理(S120)における遺伝子間距離dαについての処理結果の一例を示す。
シフト量算出処理(S110)において、シフト量算出部110は、図7に示すように、遺伝子の組み合わせ毎にシフト量αを算出し、算出した各シフト量αを記憶機器に記憶する。
また、距離算出処理(S120)において、距離算出部120は、図8に示すように、遺伝子の組み合わせ毎および測定時刻毎に比較量logαxを算出し、算出した各比較量logαxを正規化したプロファイルとして記憶機器に記憶する。
また、距離算出処理(S120)において、距離算出部120は、図9に示すように、遺伝子の組み合わせ毎に遺伝子間距離dαを算出し、算出した各遺伝子間距離dαを記憶機器に記憶する。
図7、図8および図9では、遺伝子の数を“5”、測定数を“3”としている。
シフト量算出部110、距離算出部120は算出したシフト量α、比較量logαx、遺伝子間距離dαをテーブルデータや配列データとして記憶する。
図3に基づいて、実施の形態1における遺伝子プロファイル処理方法の説明を続ける。
<S130:クラスタリング処理>
クラスタリング部130は距離算出部120が算出した各遺伝子間距離dαに基づいて各遺伝子に対する任意のクラスタリング処理を行い、各遺伝子のクラスタ情報を出力する。
例えば、クラスタリング部130は各遺伝子間距離dαに基づいてUPGMA(非加重結合法)でクラスタリングを行い、各遺伝子を複数のクラスタにグループ分けする。ここで、UPGMAとは、各遺伝子がそれぞれ1つのクラスタを構成するものとし、最も近いクラスタを段階的に結合していく方法である。結合したクラスタと他のクラスタとの遺伝子間距離dαは、結合したクラスタに含まれる各遺伝子と他のクラスタの遺伝子との遺伝子間距離dαの平均値となる。
クラスタリング部130は各遺伝子のクラスタ情報を記憶機器に記憶したり、プリンタ装置906から印刷したり、表示装置901に表示したりする。
クラスタリング部130が生成した各遺伝子のクラスタ情報は、類似の特性を有する複数の遺伝子の特定など、各種の遺伝子解析に用いることができる。
クラスタリング部130はUPGMA以外の方法によりクラスタリングしても構わず、例えば、K−平均値法(K−means)によりクラスタリングしても構わない。
次に、実施の形態1におけるシフト量αを用いた正規化の評価結果として、遺伝子プロファイルのクラスタリング処理結果を示す。
図10は、実施の形態1における正規化前の遺伝子Aと遺伝子Bとのプロファイルの一例を示す。
ここでは、評価用データの一例として、図10において実線で表す10個のプロファイルと点線で表す10個のプロファイルとの計20個のプロファイルを用いた。実線で表す各プロファイルは遺伝子Aのプロファイルを示し、点線で表す各プロファイルは遺伝子Bのプロファイルを示す。そして、シフト量αを用いた正規化により、遺伝子Aのプロファイルと遺伝子Bのプロファイルとにグループ分けするクラスタリング処理結果を得ることを目的とする。
なお、実線で表す遺伝子Aの10個のプロファイルは、実験により実際に得られた1つの標本的なプロファイルに対して測定時刻毎に0.5〜2.0倍の範囲でランダムに変動させた擬似的なプロファイルである。また、点線で表す遺伝子Bの10個のプロファイルも同様である。
ここで、遺伝子発現量の測定値には測定環境(蛍光色素による識別誤差など)の変化に応じて一般的に0.5〜2.0倍程度の測定誤差が含まれる。そこで、測定誤差の範囲(0.5〜2.0倍)で変動させた擬似プロファイルが正しくクラスタリングできれば、実施の形態1におけるシフト量αを用いた遺伝子プロファイルの正規化方法が測定誤差に対して頑健性を有するクラスタリング結果を得ることができる方法であると考えられる。
図11は、実施の形態1におけるシフト量αを用いた正規化後のプロファイルのクラスタリング処理結果を示す。
実施の形態1におけるシフト量αを用いて正規化した各プロファイルは、図11に示すように実線で表す遺伝子Aのプロファイル同士と点線で表す遺伝子Bのプロファイル同士とがそれぞれ比較的良くまとまっており、UPGMAによりクラスタリングした結果、図11に示すように遺伝子Aのプロファイル(実線)と遺伝子Bのプロファイル(点線)とに正しくグループ分けすることができた。つまり、クラスタリングの誤り率は「0%」であった。
なお、図11において、太い実線と太い点線とはそれぞれ擬似プロファイル(細い実線および細い点線)の生成に用いた遺伝子Aの標本プロファイル(ノミナル値)と遺伝子Bの標本プロファイル(ノミナル値)とを示している。ここでは、標本プロファイルに近似させるシフト量αを用いて各擬似プロファイルを正規化した。また、記号付き実線と記号付き点線とは各プロファイルの中央値を取ったプロファイルを示している。
図12は、実施の形態1におけるLog−ratioによる正規化後のプロファイルのクラスタリング処理結果を示す。
一方、測定開始時点の発現量を基準として発現量の変化割合を求める正規化(Log−tatio)による各プロファイルは、図12に示すように遺伝子Aのプロファイルと遺伝子Bのプロファイルとが重なり合っており、UPGMAによりクラスタリングした結果、図12に示すように遺伝子Bのプロファイルの一部が遺伝子Aのプロファイルのグループに含まれ、実線で表す16個のプロファイルと点線で表す4個のプロファイルとに誤ってグループ分けされた。つまり、クラスタリングの誤り率は「30%(=6/20)」であった。
なお、太線、記号付き線の意味は図11と同じである。
図13は、実施の形態1におけるシフト量αを用いた正規化方法および従来の各正規化方法により正規化したプロファイルに対するクラスタリング処理結果を示す。
実施の形態1におけるシフト量αを用いた正規化方法(以下、Alphaとする)と従来方法のLog−ratioの他、従来方法のPearson法およびUncentered Pearson法についても上記図10〜図12で説明した評価実験を行った結果を図13に示す。
図13において、横軸は標本プロファイルに対するランダム変動の範囲を示している。例えば、「1.5」の変動範囲は「0.67(=1/1.5)〜1.5倍」である。また、縦軸は複数回行った実験結果におけるクラスタリングの誤り率(=誤ったプロファイルの数/プロファイルの総数)の平均値を示している。
図13に示すように、実施の形態1におけるシフト量αを用いた正規化方法(Alpha)は、いずれの変動範囲においてもクラスタリングの誤り率が一番低い。つまり、実施の形態1におけるシフト量αを用いた正規化方法は、他の正規化方法に比べて、遺伝子のプロファイルをより適切に正規化し、各遺伝子を適切にクラスタリングすることができる。
実施の形態1では、正規化係数αを用い、波形の対数グラフ(例えば、図4に示すようなプロファイル)が良く重なるように正規化することを特徴とする。この正規化係数αの最適値は、2枚の対数グラフに別々のプロファイルを波形で描き、2枚の対数グラフを垂直方向(発現量の軸方向)にシフトさせたときに、図5に示すように、対数グラフが最もよく重なるようなシフト量である。
上記において、遺伝子のプロファイルは時系列データ(タイムコース)でなくても構わない。
例えば、遺伝子のプロファイルは農薬や肥料などの薬品の濃度毎に発現量を示すものでもよいし、気温や湿度などの環境ストレスに応じた発現量を示すものでもよい。つまり、プロファイルは、測定時刻、薬品濃度、気温、湿度などについて、各時刻、各濃度、各気温、各湿度を項目(要素)として、項目毎に遺伝子の発現量を示すものである。例えば、図4のようにプロファイルをグラフ化した場合、時間の経過、濃度の大小、気温の大小、湿度の大小が横軸項目となる。
実施の形態1における遺伝子プロファイル処理装置100の機能構成図。 実施の形態1における遺伝子プロファイル処理装置100のハードウェア資源の一例を示す図。 実施の形態1における遺伝子プロファイル処理方法を示すフローチャート。 実施の形態1におけるグラフ化したプロファイルの一例を示す。 実施の形態1におけるシフト前のプロファイルとシフト量αによるシフト後のプロファイルとを示す。 実施の形態1におけるプロファイルに基づく遺伝子間距離dαの一例を示す。 実施の形態1におけるシフト量算出処理(S110)の処理結果の一例を示す。 実施の形態1の距離算出処理(S120)における比較量αxについての処理結果の一例を示す。 実施の形態1の距離算出処理(S120)における遺伝子間距離dαについての処理結果の一例を示す。 実施の形態1における正規化前の遺伝子Aと遺伝子Bとのプロファイルの一例を示す。 実施の形態1におけるシフト量αを用いた正規化後のプロファイルのクラスタリング処理結果を示す。 実施の形態1におけるLog−ratioによる正規化後のプロファイルのクラスタリング処理結果を示す。 実施の形態1におけるシフト量αを用いた正規化方法および従来の各正規化方法により正規化したプロファイルに対するクラスタリング処理結果を示す。
符号の説明
100 遺伝子プロファイル処理装置、110 シフト量算出部、120 距離算出部、130 クラスタリング部、191 プロファイル記憶部、901 表示装置、902 キーボード、903 マウス、904 FDD、905 CDD、906 プリンタ装置、907 スキャナ装置、908 マイク、909 スピーカー、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群。

Claims (12)

  1. 複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、
    前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出部と、
    前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にCPUを用いて算出する距離算出部と、
    前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をCPUを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング部と
    を備えることを特徴とする遺伝子プロファイル処理装置。
  2. 前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出する
    ことを特徴とする請求項1記載の遺伝子プロファイル処理装置。
  3. 前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、
    前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出する
    ことを特徴とする請求項2記載の遺伝子プロファイル処理装置。
  4. 前記シフト量算出部は、以下の式1で表される遺伝子iと遺伝子jとの前記遺伝子間距離dαijに対して、以下の式2により遺伝子iの各発現量x(t)に対して遺伝子jの各発現量x(t)に加算する前記シフト量αijを算出する
    ことを特徴とする請求項3記載の遺伝子プロファイル処理装置。
    Figure 2009048562
  5. 複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部と、
    前記プロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出部と、
    前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化部と
    を備えることを特徴とする遺伝子プロファイル処理装置。
  6. シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出処理と、
    距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にCPUを用いて算出する距離算出処理と、
    クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をCPUを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理と
    をコンピュータに実行させることを特徴とする遺伝子プロファイル処理プログラム。
  7. 前記シフト量算出部は前記遺伝子間距離を最小にする前記シフト量を算出する
    ことを特徴とする請求項6記載の遺伝子プロファイル処理プログラム。
  8. 前記プロファイル記憶部は、複数の項目について項目毎に発現量を示すプロファイルを前記発現量のプロファイルとして記憶し、
    前記シフト量算出部は、一方の遺伝子の各発現量と他方の遺伝子の各発現量に前記シフト量を加算した各比較量との差を項目毎に合計した値を前記遺伝子間距離として前記シフト量を算出する
    ことを特徴とする請求項7記載の遺伝子プロファイル処理プログラム。
  9. 前記シフト量算出部は、以下の式1で表される遺伝子iと遺伝子jとの前記遺伝子間距離dαijに対して、以下の式2により遺伝子iの各発現量x(t)に対して遺伝子jの各発現量x(t)に加算する前記シフト量αijを算出する
    ことを特徴とする請求項8記載の遺伝子プロファイル処理プログラム。
    Figure 2009048562
  10. シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出処理と、
    正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理と
    をコンピュータに実行させることを特徴とする遺伝子プロファイル処理プログラム。
  11. シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出処理を行い、
    距離算出部が、前記シフト量算出部が算出したシフト量だけ前記プロファイルをシフトさせ、シフトさせたプロファイルに基づいて遺伝子間距離を遺伝子の組み合わせ毎にCPUを用いて算出する距離算出処理を行い、
    クラスタリング部が、前記距離算出部が算出した各遺伝子間距離に基づいて各遺伝子に対する任意のクラスタリング処理をCPUを用いて行い、各遺伝子のクラスタ情報を出力機器に出力するクラスタリング処理を行う
    ことを特徴とする遺伝子プロファイル処理方法。
  12. シフト量算出部が、複数の遺伝子について発現量のプロファイルを記憶機器を用いて記憶するプロファイル記憶部に記憶された各プロファイルに基づいて、プロファイルを発現量の増減方向にシフトさせることにより遺伝子間でプロファイルを近似させるシフト量を遺伝子の組み合わせ毎にCPU(Central Proccessing Unit)を用いて算出するシフト量算出処理を行い、
    正規化部が、前記シフト量算出部が算出したシフト量だけプロファイルをシフトさせ、正規化したプロファイルとしてシフト後のプロファイルを出力機器に出力する正規化処理を行う
    ことを特徴とする遺伝子プロファイル処理方法。
JP2007216300A 2007-08-22 2007-08-22 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法 Expired - Fee Related JP5247089B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007216300A JP5247089B2 (ja) 2007-08-22 2007-08-22 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007216300A JP5247089B2 (ja) 2007-08-22 2007-08-22 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法

Publications (2)

Publication Number Publication Date
JP2009048562A true JP2009048562A (ja) 2009-03-05
JP5247089B2 JP5247089B2 (ja) 2013-07-24

Family

ID=40500686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007216300A Expired - Fee Related JP5247089B2 (ja) 2007-08-22 2007-08-22 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法

Country Status (1)

Country Link
JP (1) JP5247089B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014041453A (ja) * 2012-08-22 2014-03-06 Yokogawa Electric Corp データ類似度算出方法およびデータ類似度算出装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149037A (ja) * 2003-11-14 2005-06-09 Mitsubishi Space Software Kk 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム
JP2006285517A (ja) * 2005-03-31 2006-10-19 Intec Web & Genome Informatics Corp 生命情報解析装置、生命情報解析方法および生命情報解析プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005149037A (ja) * 2003-11-14 2005-06-09 Mitsubishi Space Software Kk 遺伝子発現作用推定方法、遺伝子発現作用推定装置及び遺伝子発現作用推定プログラム
JP2006285517A (ja) * 2005-03-31 2006-10-19 Intec Web & Genome Informatics Corp 生命情報解析装置、生命情報解析方法および生命情報解析プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700425029; 昇 博也 外7名: '植物遺伝子の発現ネットワーク推定法' 情報処理学会研究報告 Vol.2006 No.135, 20061222, pp.143-147, 社団法人情報処理学会 *
JPN6012041107; 昇 博也 外7名: '植物遺伝子の発現ネットワーク推定法' 情報処理学会研究報告 Vol.2006 No.135, 20061222, pp.143-147, 社団法人情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014041453A (ja) * 2012-08-22 2014-03-06 Yokogawa Electric Corp データ類似度算出方法およびデータ類似度算出装置
US9189198B2 (en) 2012-08-22 2015-11-17 Yokogawa Electric Corporation Data similarity calculation method and data similarity calculation apparatus

Also Published As

Publication number Publication date
JP5247089B2 (ja) 2013-07-24

Similar Documents

Publication Publication Date Title
US11004012B2 (en) Assessment of machine learning performance with limited test data
Wang et al. An experimental study of the intrinsic stability of random forest variable importance measures
US10747637B2 (en) Detecting anomalous sensors
JP5142135B2 (ja) データを分類する技術
JP5079019B2 (ja) 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム
Scheel et al. The influence of missing value imputation on detection of differentially expressed genes from microarray data
EP3462386A2 (en) Learning data selection program, learning data selection method, and learning data selection device
US20040002929A1 (en) System and method for mining model accuracy display
US12039443B2 (en) Distance-based learning confidence model
CN108491875A (zh) 一种数据异常检测方法、装置、设备及介质
JP5189438B2 (ja) 波形解析装置、波形解析方法及び波形解析プログラム
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
JP5247089B2 (ja) 遺伝子プロファイル処理装置、遺伝子プロファイル処理プログラムおよび遺伝子プロファイル処理方法
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
Su et al. An online outlier detection method based on wavelet technique and robust RBF network
CN110297989B (zh) 异常检测的测试方法、装置、设备和介质
US11177018B2 (en) Stable genes in comparative transcriptomics
TWI694344B (zh) 為一作業環境檢測影響因子之裝置及方法
US11080612B2 (en) Detecting anomalous sensors
US20200357484A1 (en) Method for simultaneous multivariate feature selection, feature generation, and sample clustering
JP3800545B2 (ja) 解析装置、解析方法、プログラム、及び記録媒体
JP2018151913A (ja) 情報処理システム、情報処理方法、及びプログラム
JP5826893B1 (ja) 変化点予測装置、変化点予測方法、及びコンピュータプログラム
US9111025B2 (en) Providing automated performance test execution
CN107122283A (zh) 温度监测方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100407

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130409

R150 Certificate of patent or registration of utility model

Ref document number: 5247089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees