JP2004139199A

JP2004139199A - データ解析方法

Info

Publication number: JP2004139199A
Application number: JP2002301225A
Authority: JP
Inventors: Hideyuki Maki; 牧　　秀行; Toyohisa Morita; 森田　豊久; Hiroyuki Tomita; 富田　裕之; Yukiyasu Ito; 伊藤　幸康
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2002-10-16
Filing date: 2002-10-16
Publication date: 2004-05-13

Abstract

【課題】ＤＮＡマイクロアレイの登場により、多数の遺伝子についての発現データを一度に測定することが可能となったが、一方で、これら大量データを扱う解析手法が十分に効果的でない。
【解決手段】（１）解析対象データ中の複数の属性の中から、説明属性と目的属性を選択するステップ、（２）説明属性と目的属性の関係を解析し、その結果を保存するステップ、（３）解析結果を使用者に提示するステップ、（４）解析結果に含まれる説明属性の中から、１個または複数の属性を使用者が選択するステップ、（５）前記ステップにおいて使用者によって選択された属性を説明属性から除外し、新たな目的属性とするステップ、で構成され、使用者の操作により、（２）から（５）のステップを繰り返す。
【選択図】　図３

Description

【０００１】
【発明の属する技術分野】
本発明は、データ分析技術に関する。
【０００２】
【従来の技術】
遺伝子発現データを解析することによって遺伝子機能を解明しようという試みがなされている。遺伝子発現データの解析にはいくつかの種類がある。その１つは、遺伝子相互の関係を調べることである。遺伝子の同士の間には、同時に発現したり、逆に一方が発現すると他方が発現しないなどの相関が見られる。このような、遺伝子間の発現の規則性を解析する代表的な手法として、ベイジアンネットワークがある。ベイジアンネットワークを用いた遺伝子発現データ解析の例には、下記する非特許文献１や、非特許文献２がある。
【０００３】
【非特許文献１】
「遺伝子ネットワークと確率モデル」（人工知能学会、ベイジアンネットチュートリアルＢＮ２００１講演論文集、ｐ．５０〜５３）
【非特許文献２】
「Ｕｓｉｎｇ　Ｂａｙｅｓｉａｎ　Ｎｅｔｗｏｒｋｓ　ｔｏ　Ａｎａｌｙｚｅ　Ｅｘｐｒｅｓｓｉｏｎ　Ｄａｔａ」（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ｆｏｕｒｔｈ　ａｎｎｕａｌ　ｉｎｔｅｒｎａｔｉｏｎａｌ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　ｍｏｌｅｃｕｌａｒ　ｂｉｏｌｏｇｙ、ｐ．１２７〜１３５）
【０００４】
【発明が解決しようとする課題】
ＤＮＡマイクロアレイ（またはＤＮＡチップ）の登場により、数千から一万個程度の遺伝子についての発現データを一度に測定することが可能となった。これにより、多量の測定データを利用することができるようになったが、一方で、これら大量データを扱う解析手法の方が十分に効果的でないという問題がある。
【０００５】
遺伝子の相互作用を表現するには有向グラフが直観的にも適しており、ベイジアンネットワークはそれに適した解析方法である。しかし、数千個もの遺伝子の相互作用を表すネットワーク構造の全体をベイジアンネットワークの手法によって導出するのは現実的には不可能である。関係する遺伝子の数が多く、計算に時間がかかることと、一般に、遺伝子の数に比べてサンプル（検体）の数が少ないからである。このように、多数の遺伝子の相互作用に関する巨大なネットワークを導出しようとすることは無理がある。それよりも、使用者が着目している遺伝子の周辺の部分的なネットワークを効率的に導出する方が有用であると考える。
【０００６】
本発明は、遺伝子相互作用を表す部分的なネットワークを、使用者の興味に従って導出することにより、使用者が遺伝子の相互作用を認識するのを助けることを目的とする。
【０００７】
【課題を解決するための手段】
本発明における解析対象データは、複数の属性を持つサンプルの集合である。本発明は以下の処理ステップから構成される。（１）解析対象データ中の複数の属性の中から、説明属性と目的属性を選択するステップと、（２）説明属性と目的属性の関係を解析し、その結果を保存するステップと、（３）解析結果を使用者に提示するステップと、（４）解析結果に含まれる説明属性の中から、１個または複数の属性を使用者が選択するステップと、（５）前記ステップにおいて使用者によって選択された属性を説明属性から除外し、新たな目的属性とするステップである。そして、使用者の操作により、（２）から（５）のステップを繰り返す。また、別の方法として、上記（２）のステップを可能な全ての目的属性について実行しておき、使用者の操作により、（３）から（５）のステップを繰り返すというやり方も考えられる。
【０００８】
上記の処理ステップは、解析対象データや、解析結果を保持するための記憶手段、使用者に解析結果を提示するための表示手段、使用者が属性を選択するための入力手段、解析を行うための演算手段によって実行される。
【０００９】
【発明の実施の形態】
本発明の第一の実施の形態を説明する。
【００１０】
図１に解析対象データの形式を示す。これは複数の属性を持つサンプルの集合であり、各列が属性、各行がサンプルに対応した表形式になっている。各属性は、遺伝子の発現量や表現型（フェノタイプ）を表している。図１では、これを「Ｇｅｎｅ１」や「Ｐｈｅｎｏ１」などと表している。また、各サンプルは検体に該当する。遺伝子発現量はＤＮＡマイクロアレイなどを用いて計測され、通常は、１つのマイクロアレイが１つのサンプルに対応する。データの値は、実数値や記号値である。図中では一部を省略し、「．．．」と表記した。
【００１１】
図２に、遺伝子の相互作用、および表現型との関係を表現した遺伝子ネットワークの例を示す。この遺伝子ネットワークは、表現型「Ｐｈｅｎｏ１」の発現は「Ｇｅｎｅ１」、「Ｇｅｎｅ３」、「Ｇｅｎｅ４」の３個の遺伝子によって制御されており、さらに、「Ｇｅｎｅ１」の発現は「Ｇｅｎｅ２」と「Ｇｅｎｅ５」に、「Ｇｅｎｅ３」の発現は「Ｇｅｎｅ５」に制御されていることを表している。遺伝子発現データ解析の目的の一つは、このような遺伝子ネットワークを導出することである。
【００１２】
図３に、遺伝子発現データの解析処理の流れを示す。「データ入力」３０１のステップでは、解析対象データを読み込む。典型的には、記憶装置、通信路などから読み込む。「属性の初期選択」３０２のステップでは、解析対象データ中の属性の中から、目的属性と説明属性を選択する。どの属性を選択するかは、あらかじめ用意したルールによって一意に決められる。例えば、入力したデータが表形式のデータであり、各行がサンプル、各列が属性に対応しているとした場合、「表の第１列を目的属性とし、第２列以降を全て説明属性とする」というルールや、「表の最終列を目的属性とし、それ以外の全ての列を説明属性とする」というルールが典型的である。
【００１３】
「解析と結果保存」３０３のステップでは、選択された目的属性と説明属性の関係を解析し、その結果を保存する。解析手法としては種々の手法を適用できる。以下、手法の例を三つ説明する。
【００１４】
第一の手法例は重回帰分析である。重回帰分析では、目的属性値を説明属性値の線形和とする回帰式を仮定し、その回帰係数を解析対象データから推定する。目的属性値、説明属性値は数値であることが前提となる。
【００１５】
【数１】

【００１６】
ここで、ｙ　は目的属性値、ｘ＿ｉ　は説明属性値、ａ＿０　および　ａ＿ｉ　は回帰係数であり、ここでは、ｘ＿１　から　ｘ＿ｋ　の、ｋ個の説明属性があるものとしている。推定された回帰係数　ａ＿０，　ａ＿１，　．．．　，ａ＿ｋ　が重回帰分析の結果となる。
【００１７】
第二の手法例は判別分析である。判別分析は、サンプルが属する母集団の存在を前提とし、母集団同士の境界を表す判別関数を解析対象データから推定することを目的とする。目的属性値はサンプルが属する母集団を表す記号値、説明属性値は数値であることが前提となる。前述の重回帰分析で用いられるような説明属性の一次式を判別関数とすることが多い。この場合、やはり重回帰分析の場合と同様に判別関数の係数が判別分析の結果となる。
【００１８】
第三の手法例は特徴ルール生成である。特徴ルール生成は特開平８−７７０１０に、データ分析方法として開示されている。特徴ルール生成では、解析対象データ中の属性のそれぞれが取り得る属性値はサンプル数と比較して少数の離散値であることが要求される。典型的には、３通り程度の記号値である。元の解析対象データが実数値データである場合、適当な境界で値の範囲を区切り、「大」「中」「小」といった記号値に置き換える等の方法で離散化する。なお、特徴ルール生成では「結論項目」、「条件項目」という呼び名を用いることが多いが、「結論項目」が目的属性、「条件項目」が説明属性に相当する。特徴ルール生成を実施する際には、結論項目の取り得る属性値のうちの１個を選択し、これを「結論項目値」とする。特徴ルール生成では、「ＩＦ（条件部）ＴＨＥＮ（結論部）」という形式のＩＦ−ＴＨＥＮルールを生成する。ルールの条件部は、条件項目とその属性値の組、すなわち述語であり、複数の述語が同時に条件部に現れることを許すが、典型的には３個程度以下に制限する。また、結論部は、結論項目と結論項目値からなる述語である。これにより、結論部の述語はただ１つに決定され、一方、条件部は様々な述語の組み合わせを取り得る。したがって、生成し得るＩＦ−ＴＨＥＮルールの数は、一般に多数になる。これら多数のＩＦ−ＴＨＥＮルールの中から、対象データの特徴をよく表している比較的少数のルールを探索することが特徴ルール生成の目的である。各ＩＦ−ＴＨＥＮルールが対象データの特徴をどの程度よく表しているかを評価するために、以下の評価尺度を用いる。条件部をＡ（複数の述語の組み合わせを含む）、結論部をＢとする、「ＩＦ　Ａ　ＴＨＥＮ　Ｂ」というルールの評価尺度μ（Ａ→Ｂ）を次式のように定義する。
【００１９】
【数２】

【００２０】
ここで、Ｐ（Ａ）＾β　は　Ｐ（Ａ）のβ乗を意味する。Ｐ（Ａ）は対象データの中で条件部Ａが満足される確率、すなわち、対象データ全体の中で、Ａという条件を満たすサンプルの割合を表す。同様に、Ｐ（Ｂ）は結論部Ｂが満足される確率、Ｐ（Ｂ｜Ａ）は、Ａを満たすという条件の下で結論部Ｂが満足される条件付確率を表す。βは使用者が指定するパラメータで、０以上、１以下の実数値である。この評価尺度によって与えられる評価値が大きいルールほど、対象データの特徴をよく表していると見なす。また、上記の評価尺度の定義式におけるＰ（Ａ）をカバー率、Ｐ（Ｂ｜Ａ）をヒット率と呼び、これらは、取り出されたルールを使用者が解釈する際の手がかりとして用いられることがある。生成され得る多数のＩＦ−ＴＨＥＮルールの中から、評価値の大きい、比較的少数のルールを取り出すアルゴリズムはいくつか考えられるが、「総当たり法」は、そのうちでも最も単純な方法の１つである。これは、取り出すルール数（例えば、１０）をあらかじめ定めておき、そして、条件部に同時に現れる述語数の上限（例えば、３）を定め、その範囲内で可能な全てのＩＦ−ＴＨＥＮルールを生成、評価し、その中で評価値の大きい上位のルールを、あらかじめ定めた数だけ取り出すというものである。
【００２１】
これらの解析手法により、目的属性と関係の強い説明属性の組を１個、または複数個得る。得られた説明属性の組は、解析結果として保存する。
「結果表示」３０４のステップでは、「解析と結果保存」３０３のステップで保存しておいた解析結果を、ディスプレイモニタなどの表示装置を介して使用者に提示する。図４には、重回帰分析の結果の表示例を示す。ここでは、各説明属性に対応した回帰係数が一覧表の形で表示されている。なお、重回帰分析の過程で、変数選択により、いくつかの説明属性が回帰式から除外されることがあるが、そうして除外された説明属性については、回帰係数を０として表示している。また、一覧表中の説明属性の並び順については、回帰係数の大きさの順、説明属性の名前順、解析対象データ中での、各説明属性に対応した列の並び順、などにする。また、判別分析の結果も、図４と同様に説明属性に対応した係数の一覧表の形式で表示する。変数選択によって除外された説明属性に対応した係数を０として表示する点も同様である。図５には、特徴ルール生成の結果の表示例を示す。ここでは、１つの行が１個の特徴ルールに対応した一覧表の形式でルール生成結果が表示されている。第１列はルールのヒット率、第２列はカバー率を示している。また、「ＩＦ」と書かれた列にはルールの条件部が表示されるが、条件部には複数の述語が現れる場合があるので、複数の列から構成されている。「ＴＨＥＮ」と書かれた列にはルールの結論部が表示されるが、結論部は全てのルールで同一である。例えば、第１行のルール（「ヒット率」などの見出しの次の行）は、「ＩＦ　Ｇｅｎｅ１＝大　ＡＮＤ　Ｇｅｎｅ５＝大　ＴＨＥＮ　Ｐｈｅｎｏ１＝１」というルールで、ヒット率が０．７８、カバー率が０．６０である。これは、「遺伝子Ｇｅｎｅ１の発現量が大で、かつ、遺伝子Ｇｅｎｅ５の発現量が大ならば、表現型Ｐｈｅｎｏ１の状態は１となる傾向がある」ことを意味している。なお、一覧表中のルールの並び順は、評価値、ヒット率、カバー率などの順である。
【００２２】
図６には、重回帰分析の結果を有向グラフで表示した例を示す。グラフは節と枝で構成され、節は目的属性、または説明属性に対応し、枝は目的属性と説明属性の間の関係、すなわち、回帰係数に対応する。回帰係数の絶対値の大きさに応じて枝は太く表示され、回帰係数が０である説明属性については、目的属性との間に枝は表示されない。また、回帰係数の正負によって、枝を異なる色で表示するというやり方も考えられる。なお、判別分析の結果（すなわち、判別関数の係数）も同様の方法で有向グラフ形式で表示できる。
【００２３】
図７には、特徴ルール生成の結果を有向グラフで表示した例を示す。グラフの節はルールの条件部、または結論部に対応し、１つの枝が１つのルールに対応する。枝の太さはルールの評価値、ヒット率、カバー率などに対応する。１つのルールの条件部の中に複数の条件項目が含まれる場合は、１つの節の中に複数の条件項目が表示される。
【００２４】
使用者はこれらの解析結果表示を見た後、解析をここで終了するか、さらに続けるかを選択し（図３のステップ３０５）、続ける場合は「属性の選択」３０６のステップへ進む。「属性の選択」３０６のステップでは、解析結果に示された説明属性の中から、新たな目的属性を使用者が選択し、指示する。結果表示画面の上でマウスなどのポインティングデバイスを用いて、選択した説明属性を指示するというのが、典型的な方法である。選択され、新たに目的属性となった属性は説明属性から除外される。そして、「解析と結果保存」３０３のステップへ戻り、これら新たな目的属性と説明属性を対象として再解析を行う。
【００２５】
再解析の結果は、その前の解析結果と画面を切り替えて表示するか、または、その前の解析結果とともに表示する。図８に、再解析の結果を前の解析結果とともに有向グラフで表示する例を示す。ここでは、解析手法には特徴ルール生成を用いている。最初の解析で、表現型「Ｐｈｅｎｏ１＝大」を結論部として解析を行い、得られた結果の中から、「Ｇｅｎｅ４＝小」を次の結論部として再解析をした結果を表したものである。図中の左上の四角８０１で囲んだ部分が、再解析の結果を表す部分グラフである。
【００２６】
以後、使用者による新たな目的属性の選択と、これを対象とした解析、結果表示を繰り返す。なお、新たな目的属性を選択すると、それが説明属性から除外されるが、その際に、その前の解析で目的属性となっていた属性を説明属性に戻すやり方と、説明属性に戻すことをせず、したがって、説明属性の数が減っていくやり方の両方が可能である。
【００２７】
以上で述べた実施形態を実行するための装置構成を図９に示す。装置は、記憶装置、通信装置、演算装置、表示装置、入力装置で構成されている。表示装置、入力装置はユーザインターフェースであり、解析結果を使用者に提示したり、使用者が目的属性を選択するのに用いられる。また、上記装置は、通信装置を介して通信路に接続されている。
【００２８】
次に、本発明の第二の実施の形態を説明する。図１０に処理の流れを示す。第一の実施の形態における処理の流れ（図３）と似ているが、異なっているのは、可能な全ての目的属性についてあらかじめ解析を実行して結果を保存しておく点である。図中のステップ１００３、１００４、１００５が、この処理に該当する。そして、結果表示画面において、使用者が説明属性の１つを新たな目的属性として指示すると、あらかじめ保存してあった解析結果の中から、指示された目的属性に対応する解析結果を読み出し、画面に表示する。図中のステップ１００６、１００７、１００８が、この処理に該当する。
【００２９】
【発明の効果】
一般に、遺伝子発現データなど、解析対象データの多数の属性の相互の関係の全体像を一度に解析することは困難であり、また、解析できたとしても、使用者にとっても理解しにくい。本発明では、属性の相互の関係を使用者の興味に従って１つ１つ解析することにより、使用者に理解しやすい形態で解析を進めることができる。
【図面の簡単な説明】
【図１】解析対象データの形式を示す図。
【図２】遺伝子ネットワーク。
【図３】第一の実施形態の処理の流れ。
【図４】重回帰分析の結果を一覧表形式で表示したもの。
【図５】特徴ルール生成の結果を一覧表形式で表示したもの。
【図６】重回帰分析の結果をグラフ形式で表示したもの。
【図７】特徴ルール生成の結果をグラフ形式で表示したもの。
【図８】再解析の結果をグラフ形式で表示したもの。
【図９】実施するための装置構成。
【図１０】第二の実施形態の処理の流れ。
【符号の説明】
８０１…再解析の結果を示している部分グラフ。

Claims

複数の属性を持つ複数のサンプルからなるデータを対象とするデータ解析方法であって、複数の説明属性と１個または複数の目的属性の関係を解析した結果を使用者に提示するステップと、該説明属性の中の１個を使用者が選択するステップと、選択された説明属性を新たな目的属性とし、選択されなかった説明属性と、新たな目的属性との関係を解析した結果を使用者に提示するステップを有することを特徴とするデータ解析方法。
請求項１に記載のデータ解析方法において、使用者が選択した目的属性を受け取り、該目的属性と説明属性との関係の解析を実行することを特徴とするデータ解析方法。
請求項１に記載のデータ解析方法において、複数の属性について、それらの各々を目的属性として、その他の説明属性との関係の解析を実行し、その解析結果を保存しておき、使用者が目的属性を指定した時に、該当する解析結果を提示することを特徴とするデータ解析方法。
１個または複数の属性と、他の属性との関係を表すグラフを表示するステップと、該グラフに表された属性のうちの１個または複数の属性を使用者が選択するステップと、該選択された１個または複数の属性と、他の属性との関係を表すグラフを表示するステップを有することを特徴とするデータ解析方法。
請求項１から４に記載のデータ解析方法を汎用のコンピュータで実行するためのプログラムを格納した記憶媒体。