JP2007334719A

JP2007334719A - 遺伝子発現解析の欠損値補完システム

Info

Publication number: JP2007334719A
Application number: JP2006167020A
Authority: JP
Inventors: Atsushi Mori; 敦森
Original assignee: Hitachi Software Engineering Co Ltd
Current assignee: Hitachi Software Engineering Co Ltd
Priority date: 2006-06-16
Filing date: 2006-06-16
Publication date: 2007-12-27

Abstract

【課題】遺伝子発現解析結果のデータに含まれる欠損値に対して意味のあるデータを予測することができる遺伝子発現解析の欠損値補完システムを提供する。
【解決手段】遺伝子発現解析の欠損値補完システムは、欠損値補完処理を行う対象のデータセットから仮データセットを生成する仮データセット生成部と、上記仮データセットに対してクラスタ解析を行い、非類似のデータを除去するクラスタ解析部と、上記クラスタ解析結果に基づいて、トレーニングデータを生成するトレーニングデータ生成部と、上記トレーニングデータをデータ学習プログラムに入力して分類器を作成する分類器作成部と、上記欠損値を含むデータから生成した入力データを上記分類器に入力して、欠損値を予測する欠損値予測部と、を有する。
【選択図】図１

Description

本発明は、計測データの欠損値補完技術に関し、特にマイクロアレイによる遺伝子発現解析結果のデータにおける欠損値補完技術に関する。

マイクロアレイ実験では、実験ミスによる外れ値などのデータや、低発現値のため信頼性の低いデータなどが発生する。このようなデータは、解析に使用すべきでない。そのため、フラグを付けて欠損値データとすることが一般的である。

特許文献１にはルールインダクション法を用いたデータ分析方法において欠損値を補完する手法が記載されている。

特開2000-40000 (P2000-40000A)

従来のデータ分析方法では、欠損値に対して０を入力するか、又は、欠損値の代わりに欠損値以外のデータの平均値又は中央値を用いる。しかしながら、従来の方法では、信頼性のある解析結果を得ることは困難である。

本発明の目的は、遺伝子発現解析結果のデータに含まれる欠損値に対して意味のあるデータを予測することができる遺伝子発現解析の欠損値補完システムを提供することにある。

本発明の遺伝子発現解析の欠損値補完システムによると、遺伝子発現データから欠損値補完処理を行う対象のデータセットを取得するデータセット取得部と、上記データセットをフィルタリング処理し、欠損値を検出するフィルタリング部と、上記検出した欠損値に基づいて仮データセットを生成する仮データセット生成部と、上記仮データセットに対してクラスタ解析を行い、非類似のデータを除去するクラスタ解析部と、上記クラスタ解析結果に基づいて、トレーニングデータを生成するトレーニングデータ生成部と、上記トレーニングデータをデータ学習プログラムに入力して分類器を作成する分類器作成部と、上記欠損値を含むデータから生成した入力データを上記分類器に入力して、欠損値を予測する欠損値予測部と、を有する。

本発明によると、遺伝子発現解析結果のデータに含まれる欠損値に対して意味のあるデータを予測することができる。

以下、本発明による遺伝子発現解析の欠損値補完システムの一実施の形態について説明する。図１は、本発明による遺伝子発現解析の欠損値補完システムの例を示す。本例の遺伝子発現解析の欠損値補完システムは、キャラクタ及びグラフィック画面を有するディスプレイ装置101、キーボード102、マウス103、遺伝子発現データの選択、学習、予測、解析を行う中央処理装置104、及び、遺伝子発現データ106を格納する外部記憶装置105を備える。中央処理装置104は、データセット取得部110、フィルタリング部111、仮データセット生成部112、クラスタ解析部113、トレーニングデータ生成部114、分類器作成部115は、及び、欠損値予測部116を有する。

データセット取得部110は、外部記憶装置105に記憶された遺伝子発現データ106から、欠損値補完処理を行う対象のデータセットを取得する。フィルタリング部111は、データセット取得部110によって取得されたデータセットをフィルタリング処理し、欠損値を検出する。仮データセット生成部112は、欠損値を含むデータセットから仮データセットを生成する。クラスタ解析部113は、仮データセットに対してクラスタ解析を行い、非類似のデータを除去する。トレーニングデータ生成部114は、クラスタ解析後のデータからトレーニングデータを生成する。分類器作成部115は、データ学習プログラムを用いて分類器を作成する。欠損値予測部116は、欠損値を含むデータを分類器に入力して、欠損値を予測する。

データセット取得部110、フィルタリング部111、仮データセット生成部112、クラスタ解析部113、トレーニングデータ生成部114、分類器作成部115は、及び、欠損値予測部116は、いずれもコンピュータプログラムによって実現することができる。

図２を参照して本例の遺伝子発現解析の欠損値補完システムにて用いるデータの例を説明する。図２（ａ）は、データセット取得部110が取得した遺伝子発現データ110のデータセットの例を示す。本例の遺伝子発現データ110のデータセットは、プローブデータの行とサンプルデータの列からなる二次元のマトリックス状であり、上端の行にはSample名201が表示され、左端の列にProbe名202が表示されている。このデータセットには、欠損値203、204が含まれる。欠損値203、204は、低発現や実験又は計測ミスによってデータが不採用となった場合、又は、データが無い場合を示す。ここでは、欠損値203が補完対象の欠損値であると仮定する。

図２（ｂ）は、仮データセット生成部112が生成した仮データセットを示す。図示のように、仮データセットは、図２（ａ）のデータセットから、補完対象の欠損値203が含まれるサンプルデータ（Sample Bの列）と、他の欠損値204が含まれるプローブデータ（Probe dの行）を除去することによって得られる。

図２（ｃ）は、クラスタ解析部113がクラスタ解析を行った結果のデータを示す。クラスタ解析部113は、仮データセットに対してプローブ方向に沿ってクラスタ解析を行い、非類似のプローブデータを除去する。ここでは、Probe eの行が非類似であると判定され削除されている。

図２（ｄ）は、トレーニングデータ生成部114が生成したトレーニングデータを示す。図示のように、トレーニングデータは、図２（ｃ）のクラスタ解析の結果のデータから、補完対象の欠損値203が含まれるプローブデータ（Probe cの行）を除去することによって得られる。

図２（ｅ）は、データ学習アルゴリズムにトレーニングデータを入力して得られた出力である。データ学習アルゴリズムでは、トレーニングデータに対する出力を教師信号と比較する。教師信号は正解値を意味する。両者が異なるときは、結合荷重と閾値を変更する。こうして、出力が教師信号と等しくなるように、結合荷重と閾値を変更することを学習と呼ぶ。学習後のデータ学習アルゴリズムは分類器と呼ばれる。図２（ｅ）は、学習後の出力値を示し、これは教師信号に等しい。

図２（ｄ）は、分類器の入力データである。入力データは、補完対象の欠損値203が含まれるプローブデータ（Probe cの行）から、欠損値203を除去することによって得られる。図２（ｅ）は、分類器の出力データである。出力データとして補完対象の欠損値203の予測値が得られる。

図３は、階層型ニューラルネットワークであるパーセプトロンの模式図である。本例の遺伝子発現解析の欠損値補完システムにおける欠損値補完処理では、データ学習アルゴリズムを用いる。データ学習アルゴリズムには様々な例が知られているが、ここでは、階層型ニューラルネットワークであるパーセプトロンを説明する。パーセプトロンは、入力層302、中間層303、及び、出力層304を有する。学習時には、入力データ301はトレーニングデータである。出力データ305が、教師信号（正解値）と等しくなるまで、結合荷重と閾値を変更する。これを学習と称する。出力データ305は、最終的には教師信号に等しくなる。学習後のデータ学習アルゴリズムは分類器と称される。予測時には、入力データ301は、図２（ｄ）に示すように、補完対象の欠損値が含まれるProbeデータから補完対象の欠損値を除いたデータであり、出力データ305は欠損値の予測値である。

データ学習アルゴリズムを用いることによって、単なる線形回帰では得られない予測値が得られる。ここではデータ学習アルゴリズムとしてパーセプトロンを説明したが、バックプロパゲーションを用いてもよい。また、データ学習アルゴリズムの代わりに、類似の結果が得られる他のアルゴリズムを用いてもよい。そのようなアルゴリズムとして、例えば最適解が得られることが保障されているSVMにガウシアンカーネルを用いて回帰予測するアルゴリズムがある。

図４を参照して本発明による遺伝子発現解析の欠損値補完システムにおける欠損値補完処理を説明する。ステップＳ401にて、データセット取得部110は、外部記憶装置105に格納された遺伝子発現データ110から欠損値補完処理の対象であるデータセットを取得する。こうして取得したデータセットの例は図２（ａ）に示す。ステップＳ402にて、補完対象の欠損値の１つを自動的に選択する。ここでは、図２（ａ）のデータセットからProbe cに対するSample Bを選択する。ステップＳ403にて、フィルタリング部111は、フィルタリング処理によって、欠損値をデータセットから検出する。例えば、欠損値に付したフラグを検出することによって欠損値を検出してよい。ここでは、図２（ａ）のデータセットから補完対象の欠損値203を検出する。ステップＳ404にて、仮データセット生成部112は、データセットから仮データセットを生成する。仮データセットの生成方法は、図２（ｂ）を参照して既に説明した。こうして、図２（ｂ）に示す仮データセットが得られる。ステップＳ405にて、クラスタ解析部113は仮データセットをクラスタ解析し、非類似のプローブデータを除去する。クラスタ解析によって非類似のプローブデータを除去する方法は、図２（ｃ）を参照して既に説明した。こうして、図２（ｃ）に示すデータセットが得られる。クラスタリングアルゴリズムの種類はデンドログラムでもSOMでもその他の手法でも構わないが、ブートストラップ法などで安定なクラスタが求まるものが望ましい。

ステップＳ406にて、トレーニングデータ生成部114は、トレーニングデータを生成する。トレーニングデータの生成方法は、図２（ｄ）を参照して既に説明した。こうして、図２（ｄ）に示すトレーニングデータが得られる。ステップＳ407にて、分類器作成部115は、分類器を作成する。分類器の作成方法は、図２（ｄ）及び図２（ｅ）を参照して既に説明した。

ステップＳ408にて、欠損値予測部116は、補完対象の欠損値203の予測値を求める。予測値を求める方法は、図２（ｆ）及び図（ｇ）を参照して既に説明した。こうして図（ｇ）に示す予測値が得られる。

ステップＳ409にて、データセットに含まれる全ての欠損値が補完されたか否かを判定する。更に、データセットに含まれるプローブデータのうち、欠損値の割合が多すぎるプローブの判定を行う。更に欠損値補完を行う場合はステップＳ402に戻る。ステップＳ402では、次の欠損値204を補完対象の欠損値とする。更に欠損値補完を行わない場合はこの処理を終了する。

以上のように、本発明による遺伝子発現解析の欠損値補完システムによれば、次のような効果がある。遺伝子発現解析の欠損値欠損値補完において、従来のサンプルやプローブの平均値などで補完する方法に比較して、例えば、増幅作用を内部に持つ遺伝子ネットワークの上流にあるため重要であるが低発現による欠損値の多さから解析前に除外されていたような遺伝子の発見の漏れを防ぐ可能性が高まる。

以上本発明の例を説明したが本発明は上述の例に限定されるものではなく、特許請求の範囲に記載された発明の範囲にて様々な変更が可能であることは当業者に容易に理解されよう。

本発明の遺伝子発現解析の欠損値補完システムの例を示す図である。本発明の遺伝子発現解析の欠損値補完システムにて用いるデータの例を示す図である。階層型ニューラルネットワークであるパーセプトロンの模式図である。本発明の遺伝子発現解析の欠損値補完システムにおける処理を示す図である。

符号の説明

101…ディスプレイ装置、102…キーボード、103…マウス、104…中央処理装置、105…外部記憶装置、106…遺伝子発現データ、110…データセット取得部、111…フィルタリング部、112…仮データセット生成部、113…クラスタ解析部、114…トレーニングデータ生成部、115…分類器作成部、116…欠損値予測部

Claims

遺伝子発現データから欠損値補完処理を行う対象のデータセットを取得するデータセット取得部と、上記データセットをフィルタリング処理し、欠損値を検出するフィルタリング部と、上記検出した欠損値に基づいて仮データセットを生成する仮データセット生成部と、上記仮データセットに対してクラスタ解析を行い、非類似のデータを除去するクラスタ解析部と、上記クラスタ解析結果に基づいて、トレーニングデータを生成するトレーニングデータ生成部と、上記トレーニングデータをデータ学習プログラムに入力して分類器を作成する分類器作成部と、上記欠損値を含むデータから生成した入力データを上記分類器に入力して、欠損値を予測する欠損値予測部と、を有する遺伝子発現解析の欠損値補完システム。