JP2004139199A - データ解析方法 - Google Patents

データ解析方法 Download PDF

Info

Publication number
JP2004139199A
JP2004139199A JP2002301225A JP2002301225A JP2004139199A JP 2004139199 A JP2004139199 A JP 2004139199A JP 2002301225 A JP2002301225 A JP 2002301225A JP 2002301225 A JP2002301225 A JP 2002301225A JP 2004139199 A JP2004139199 A JP 2004139199A
Authority
JP
Japan
Prior art keywords
attributes
attribute
analysis
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002301225A
Other languages
English (en)
Inventor
Hideyuki Maki
牧  秀行
Toyohisa Morita
森田 豊久
Hiroyuki Tomita
富田 裕之
Yukiyasu Ito
伊藤 幸康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002301225A priority Critical patent/JP2004139199A/ja
Publication of JP2004139199A publication Critical patent/JP2004139199A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】DNAマイクロアレイの登場により、多数の遺伝子についての発現データを一度に測定することが可能となったが、一方で、これら大量データを扱う解析手法が十分に効果的でない。
【解決手段】(1)解析対象データ中の複数の属性の中から、説明属性と目的属性を選択するステップ、(2)説明属性と目的属性の関係を解析し、その結果を保存するステップ、(3)解析結果を使用者に提示するステップ、(4)解析結果に含まれる説明属性の中から、1個または複数の属性を使用者が選択するステップ、(5)前記ステップにおいて使用者によって選択された属性を説明属性から除外し、新たな目的属性とするステップ、で構成され、使用者の操作により、(2)から(5)のステップを繰り返す。
【選択図】 図3

Description

【0001】
【発明の属する技術分野】
本発明は、データ分析技術に関する。
【0002】
【従来の技術】
遺伝子発現データを解析することによって遺伝子機能を解明しようという試みがなされている。遺伝子発現データの解析にはいくつかの種類がある。その1つは、遺伝子相互の関係を調べることである。遺伝子の同士の間には、同時に発現したり、逆に一方が発現すると他方が発現しないなどの相関が見られる。このような、遺伝子間の発現の規則性を解析する代表的な手法として、ベイジアンネットワークがある。ベイジアンネットワークを用いた遺伝子発現データ解析の例には、下記する非特許文献1や、非特許文献2がある。
【0003】
【非特許文献1】
「遺伝子ネットワークと確率モデル」(人工知能学会、ベイジアンネットチュートリアルBN2001講演論文集、p.50〜53)
【非特許文献2】
「Using Bayesian Networks to Analyze Expression Data」(Proceedings of the fourth annual international conference on Computational molecular biology、p.127〜135)
【0004】
【発明が解決しようとする課題】
DNAマイクロアレイ(またはDNAチップ)の登場により、数千から一万個程度の遺伝子についての発現データを一度に測定することが可能となった。これにより、多量の測定データを利用することができるようになったが、一方で、これら大量データを扱う解析手法の方が十分に効果的でないという問題がある。
【0005】
遺伝子の相互作用を表現するには有向グラフが直観的にも適しており、ベイジアンネットワークはそれに適した解析方法である。しかし、数千個もの遺伝子の相互作用を表すネットワーク構造の全体をベイジアンネットワークの手法によって導出するのは現実的には不可能である。関係する遺伝子の数が多く、計算に時間がかかることと、一般に、遺伝子の数に比べてサンプル(検体)の数が少ないからである。このように、多数の遺伝子の相互作用に関する巨大なネットワークを導出しようとすることは無理がある。それよりも、使用者が着目している遺伝子の周辺の部分的なネットワークを効率的に導出する方が有用であると考える。
【0006】
本発明は、遺伝子相互作用を表す部分的なネットワークを、使用者の興味に従って導出することにより、使用者が遺伝子の相互作用を認識するのを助けることを目的とする。
【0007】
【課題を解決するための手段】
本発明における解析対象データは、複数の属性を持つサンプルの集合である。本発明は以下の処理ステップから構成される。(1)解析対象データ中の複数の属性の中から、説明属性と目的属性を選択するステップと、(2)説明属性と目的属性の関係を解析し、その結果を保存するステップと、(3)解析結果を使用者に提示するステップと、(4)解析結果に含まれる説明属性の中から、1個または複数の属性を使用者が選択するステップと、(5)前記ステップにおいて使用者によって選択された属性を説明属性から除外し、新たな目的属性とするステップである。そして、使用者の操作により、(2)から(5)のステップを繰り返す。また、別の方法として、上記(2)のステップを可能な全ての目的属性について実行しておき、使用者の操作により、(3)から(5)のステップを繰り返すというやり方も考えられる。
【0008】
上記の処理ステップは、解析対象データや、解析結果を保持するための記憶手段、使用者に解析結果を提示するための表示手段、使用者が属性を選択するための入力手段、解析を行うための演算手段によって実行される。
【0009】
【発明の実施の形態】
本発明の第一の実施の形態を説明する。
【0010】
図1に解析対象データの形式を示す。これは複数の属性を持つサンプルの集合であり、各列が属性、各行がサンプルに対応した表形式になっている。各属性は、遺伝子の発現量や表現型(フェノタイプ)を表している。図1では、これを「Gene1」や「Pheno1」などと表している。また、各サンプルは検体に該当する。遺伝子発現量はDNAマイクロアレイなどを用いて計測され、通常は、1つのマイクロアレイが1つのサンプルに対応する。データの値は、実数値や記号値である。図中では一部を省略し、「...」と表記した。
【0011】
図2に、遺伝子の相互作用、および表現型との関係を表現した遺伝子ネットワークの例を示す。この遺伝子ネットワークは、表現型「Pheno1」の発現は「Gene1」、「Gene3」、「Gene4」の3個の遺伝子によって制御されており、さらに、「Gene1」の発現は「Gene2」と「Gene5」に、「Gene3」の発現は「Gene5」に制御されていることを表している。遺伝子発現データ解析の目的の一つは、このような遺伝子ネットワークを導出することである。
【0012】
図3に、遺伝子発現データの解析処理の流れを示す。「データ入力」301のステップでは、解析対象データを読み込む。典型的には、記憶装置、通信路などから読み込む。「属性の初期選択」302のステップでは、解析対象データ中の属性の中から、目的属性と説明属性を選択する。どの属性を選択するかは、あらかじめ用意したルールによって一意に決められる。例えば、入力したデータが表形式のデータであり、各行がサンプル、各列が属性に対応しているとした場合、「表の第1列を目的属性とし、第2列以降を全て説明属性とする」というルールや、「表の最終列を目的属性とし、それ以外の全ての列を説明属性とする」というルールが典型的である。
【0013】
「解析と結果保存」303のステップでは、選択された目的属性と説明属性の関係を解析し、その結果を保存する。解析手法としては種々の手法を適用できる。以下、手法の例を三つ説明する。
【0014】
第一の手法例は重回帰分析である。重回帰分析では、目的属性値を説明属性値の線形和とする回帰式を仮定し、その回帰係数を解析対象データから推定する。目的属性値、説明属性値は数値であることが前提となる。
【0015】
【数1】
Figure 2004139199
【0016】
ここで、y は目的属性値、x_i は説明属性値、a_0 および a_i は回帰係数であり、ここでは、x_1 から x_k の、k個の説明属性があるものとしている。推定された回帰係数 a_0, a_1, ... ,a_k が重回帰分析の結果となる。
【0017】
第二の手法例は判別分析である。判別分析は、サンプルが属する母集団の存在を前提とし、母集団同士の境界を表す判別関数を解析対象データから推定することを目的とする。目的属性値はサンプルが属する母集団を表す記号値、説明属性値は数値であることが前提となる。前述の重回帰分析で用いられるような説明属性の一次式を判別関数とすることが多い。この場合、やはり重回帰分析の場合と同様に判別関数の係数が判別分析の結果となる。
【0018】
第三の手法例は特徴ルール生成である。特徴ルール生成は特開平8−77010に、データ分析方法として開示されている。特徴ルール生成では、解析対象データ中の属性のそれぞれが取り得る属性値はサンプル数と比較して少数の離散値であることが要求される。典型的には、3通り程度の記号値である。元の解析対象データが実数値データである場合、適当な境界で値の範囲を区切り、「大」「中」「小」といった記号値に置き換える等の方法で離散化する。なお、特徴ルール生成では「結論項目」、「条件項目」という呼び名を用いることが多いが、「結論項目」が目的属性、「条件項目」が説明属性に相当する。特徴ルール生成を実施する際には、結論項目の取り得る属性値のうちの1個を選択し、これを「結論項目値」とする。特徴ルール生成では、「IF(条件部)THEN(結論部)」という形式のIF−THENルールを生成する。ルールの条件部は、条件項目とその属性値の組、すなわち述語であり、複数の述語が同時に条件部に現れることを許すが、典型的には3個程度以下に制限する。また、結論部は、結論項目と結論項目値からなる述語である。これにより、結論部の述語はただ1つに決定され、一方、条件部は様々な述語の組み合わせを取り得る。したがって、生成し得るIF−THENルールの数は、一般に多数になる。これら多数のIF−THENルールの中から、対象データの特徴をよく表している比較的少数のルールを探索することが特徴ルール生成の目的である。各IF−THENルールが対象データの特徴をどの程度よく表しているかを評価するために、以下の評価尺度を用いる。条件部をA(複数の述語の組み合わせを含む)、結論部をBとする、「IF A THEN B」というルールの評価尺度μ(A→B)を次式のように定義する。
【0019】
【数2】
Figure 2004139199
【0020】
ここで、P(A)^β は P(A)のβ乗を意味する。P(A)は対象データの中で条件部Aが満足される確率、すなわち、対象データ全体の中で、Aという条件を満たすサンプルの割合を表す。同様に、P(B)は結論部Bが満足される確率、P(B|A)は、Aを満たすという条件の下で結論部Bが満足される条件付確率を表す。βは使用者が指定するパラメータで、0以上、1以下の実数値である。この評価尺度によって与えられる評価値が大きいルールほど、対象データの特徴をよく表していると見なす。また、上記の評価尺度の定義式におけるP(A)をカバー率、P(B|A)をヒット率と呼び、これらは、取り出されたルールを使用者が解釈する際の手がかりとして用いられることがある。生成され得る多数のIF−THENルールの中から、評価値の大きい、比較的少数のルールを取り出すアルゴリズムはいくつか考えられるが、「総当たり法」は、そのうちでも最も単純な方法の1つである。これは、取り出すルール数(例えば、10)をあらかじめ定めておき、そして、条件部に同時に現れる述語数の上限(例えば、3)を定め、その範囲内で可能な全てのIF−THENルールを生成、評価し、その中で評価値の大きい上位のルールを、あらかじめ定めた数だけ取り出すというものである。
【0021】
これらの解析手法により、目的属性と関係の強い説明属性の組を1個、または複数個得る。得られた説明属性の組は、解析結果として保存する。
「結果表示」304のステップでは、「解析と結果保存」303のステップで保存しておいた解析結果を、ディスプレイモニタなどの表示装置を介して使用者に提示する。図4には、重回帰分析の結果の表示例を示す。ここでは、各説明属性に対応した回帰係数が一覧表の形で表示されている。なお、重回帰分析の過程で、変数選択により、いくつかの説明属性が回帰式から除外されることがあるが、そうして除外された説明属性については、回帰係数を0として表示している。また、一覧表中の説明属性の並び順については、回帰係数の大きさの順、説明属性の名前順、解析対象データ中での、各説明属性に対応した列の並び順、などにする。また、判別分析の結果も、図4と同様に説明属性に対応した係数の一覧表の形式で表示する。変数選択によって除外された説明属性に対応した係数を0として表示する点も同様である。図5には、特徴ルール生成の結果の表示例を示す。ここでは、1つの行が1個の特徴ルールに対応した一覧表の形式でルール生成結果が表示されている。第1列はルールのヒット率、第2列はカバー率を示している。また、「IF」と書かれた列にはルールの条件部が表示されるが、条件部には複数の述語が現れる場合があるので、複数の列から構成されている。「THEN」と書かれた列にはルールの結論部が表示されるが、結論部は全てのルールで同一である。例えば、第1行のルール(「ヒット率」などの見出しの次の行)は、「IF Gene1=大 AND Gene5=大 THEN Pheno1=1」というルールで、ヒット率が0.78、カバー率が0.60である。これは、「遺伝子Gene1の発現量が大で、かつ、遺伝子Gene5の発現量が大ならば、表現型Pheno1の状態は1となる傾向がある」ことを意味している。なお、一覧表中のルールの並び順は、評価値、ヒット率、カバー率などの順である。
【0022】
図6には、重回帰分析の結果を有向グラフで表示した例を示す。グラフは節と枝で構成され、節は目的属性、または説明属性に対応し、枝は目的属性と説明属性の間の関係、すなわち、回帰係数に対応する。回帰係数の絶対値の大きさに応じて枝は太く表示され、回帰係数が0である説明属性については、目的属性との間に枝は表示されない。また、回帰係数の正負によって、枝を異なる色で表示するというやり方も考えられる。なお、判別分析の結果(すなわち、判別関数の係数)も同様の方法で有向グラフ形式で表示できる。
【0023】
図7には、特徴ルール生成の結果を有向グラフで表示した例を示す。グラフの節はルールの条件部、または結論部に対応し、1つの枝が1つのルールに対応する。枝の太さはルールの評価値、ヒット率、カバー率などに対応する。1つのルールの条件部の中に複数の条件項目が含まれる場合は、1つの節の中に複数の条件項目が表示される。
【0024】
使用者はこれらの解析結果表示を見た後、解析をここで終了するか、さらに続けるかを選択し(図3のステップ305)、続ける場合は「属性の選択」306のステップへ進む。「属性の選択」306のステップでは、解析結果に示された説明属性の中から、新たな目的属性を使用者が選択し、指示する。結果表示画面の上でマウスなどのポインティングデバイスを用いて、選択した説明属性を指示するというのが、典型的な方法である。選択され、新たに目的属性となった属性は説明属性から除外される。そして、「解析と結果保存」303のステップへ戻り、これら新たな目的属性と説明属性を対象として再解析を行う。
【0025】
再解析の結果は、その前の解析結果と画面を切り替えて表示するか、または、その前の解析結果とともに表示する。図8に、再解析の結果を前の解析結果とともに有向グラフで表示する例を示す。ここでは、解析手法には特徴ルール生成を用いている。最初の解析で、表現型「Pheno1=大」を結論部として解析を行い、得られた結果の中から、「Gene4=小」を次の結論部として再解析をした結果を表したものである。図中の左上の四角801で囲んだ部分が、再解析の結果を表す部分グラフである。
【0026】
以後、使用者による新たな目的属性の選択と、これを対象とした解析、結果表示を繰り返す。なお、新たな目的属性を選択すると、それが説明属性から除外されるが、その際に、その前の解析で目的属性となっていた属性を説明属性に戻すやり方と、説明属性に戻すことをせず、したがって、説明属性の数が減っていくやり方の両方が可能である。
【0027】
以上で述べた実施形態を実行するための装置構成を図9に示す。装置は、記憶装置、通信装置、演算装置、表示装置、入力装置で構成されている。表示装置、入力装置はユーザインターフェースであり、解析結果を使用者に提示したり、使用者が目的属性を選択するのに用いられる。また、上記装置は、通信装置を介して通信路に接続されている。
【0028】
次に、本発明の第二の実施の形態を説明する。図10に処理の流れを示す。第一の実施の形態における処理の流れ(図3)と似ているが、異なっているのは、可能な全ての目的属性についてあらかじめ解析を実行して結果を保存しておく点である。図中のステップ1003、1004、1005が、この処理に該当する。そして、結果表示画面において、使用者が説明属性の1つを新たな目的属性として指示すると、あらかじめ保存してあった解析結果の中から、指示された目的属性に対応する解析結果を読み出し、画面に表示する。図中のステップ1006、1007、1008が、この処理に該当する。
【0029】
【発明の効果】
一般に、遺伝子発現データなど、解析対象データの多数の属性の相互の関係の全体像を一度に解析することは困難であり、また、解析できたとしても、使用者にとっても理解しにくい。本発明では、属性の相互の関係を使用者の興味に従って1つ1つ解析することにより、使用者に理解しやすい形態で解析を進めることができる。
【図面の簡単な説明】
【図1】解析対象データの形式を示す図。
【図2】遺伝子ネットワーク。
【図3】第一の実施形態の処理の流れ。
【図4】重回帰分析の結果を一覧表形式で表示したもの。
【図5】特徴ルール生成の結果を一覧表形式で表示したもの。
【図6】重回帰分析の結果をグラフ形式で表示したもの。
【図7】特徴ルール生成の結果をグラフ形式で表示したもの。
【図8】再解析の結果をグラフ形式で表示したもの。
【図9】実施するための装置構成。
【図10】第二の実施形態の処理の流れ。
【符号の説明】
801…再解析の結果を示している部分グラフ。

Claims (5)

  1. 複数の属性を持つ複数のサンプルからなるデータを対象とするデータ解析方法であって、複数の説明属性と1個または複数の目的属性の関係を解析した結果を使用者に提示するステップと、該説明属性の中の1個を使用者が選択するステップと、選択された説明属性を新たな目的属性とし、選択されなかった説明属性と、新たな目的属性との関係を解析した結果を使用者に提示するステップを有することを特徴とするデータ解析方法。
  2. 請求項1に記載のデータ解析方法において、使用者が選択した目的属性を受け取り、該目的属性と説明属性との関係の解析を実行することを特徴とするデータ解析方法。
  3. 請求項1に記載のデータ解析方法において、複数の属性について、それらの各々を目的属性として、その他の説明属性との関係の解析を実行し、その解析結果を保存しておき、使用者が目的属性を指定した時に、該当する解析結果を提示することを特徴とするデータ解析方法。
  4. 1個または複数の属性と、他の属性との関係を表すグラフを表示するステップと、該グラフに表された属性のうちの1個または複数の属性を使用者が選択するステップと、該選択された1個または複数の属性と、他の属性との関係を表すグラフを表示するステップを有することを特徴とするデータ解析方法。
  5. 請求項1から4に記載のデータ解析方法を汎用のコンピュータで実行するためのプログラムを格納した記憶媒体。
JP2002301225A 2002-10-16 2002-10-16 データ解析方法 Pending JP2004139199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002301225A JP2004139199A (ja) 2002-10-16 2002-10-16 データ解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002301225A JP2004139199A (ja) 2002-10-16 2002-10-16 データ解析方法

Publications (1)

Publication Number Publication Date
JP2004139199A true JP2004139199A (ja) 2004-05-13

Family

ID=32449620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002301225A Pending JP2004139199A (ja) 2002-10-16 2002-10-16 データ解析方法

Country Status (1)

Country Link
JP (1) JP2004139199A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146059A (ja) * 2008-12-16 2010-07-01 Yamatake Corp 推定用多項式生成装置、入力パラメータ極性通知装置、推定装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146059A (ja) * 2008-12-16 2010-07-01 Yamatake Corp 推定用多項式生成装置、入力パラメータ極性通知装置、推定装置および方法

Similar Documents

Publication Publication Date Title
Lin et al. Analysis of microbial compositions: a review of normalization and differential abundance analysis
Koskinen et al. Bayesian inference for dynamic social network data
Brohée et al. Network Analysis Tools: from biological networks to clusters and pathways
WO2010016110A1 (ja) 重回帰分析による予測モデルの作成方法、作成システムおよび作成プログラム
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
Fu et al. Survival trees for left-truncated and right-censored data, with application to time-varying covariate data
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
JPWO2008126209A1 (ja) 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
WO2007078814A2 (en) Apparatus and method for strategy map validation and visualization
Thorne et al. Inference of temporally varying Bayesian networks
CN106681299A (zh) 事件解析装置、事件解析系统、事件解析方法及事件解析程序
Haag et al. From easy to hopeless—predicting the difficulty of phylogenetic analyses
Heydari et al. Fast Bayesian parameter estimation for stochastic logistic growth models
Fung et al. Automation of QIIME2 metagenomic analysis platform
JP7423998B2 (ja) 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム
US20190197043A1 (en) System and method for analysis and represenation of data
JP2004037086A (ja) データ解析方法及び装置
JP2007323315A (ja) 協調フィルタリング方法、協調フィルタリング装置、および協調フィルタリングプログラムならびにそのプログラムを記録した記録媒体
Parag et al. Exact Bayesian inference for phylogenetic birth-death models
Koç et al. Particle swarm optimization-based variable selection in Poisson regression analysis via information complexity-type criteria
JP2012194741A (ja) 行列形データの欠損値予測装置、欠損値予測計算方法および欠損値予測プログラム
JP2004139199A (ja) データ解析方法
JP2002175305A (ja) 遺伝子ネットワークを推測するためのグラフィカルモデリング法及びそのための装置
JP2013168020A (ja) プロセスの状態予測方法
Curry et al. Designing for system value sustainment using interactive epoch era analysis: a case study for on-orbit servicing vehicles