JP6330665B2

JP6330665B2 - 可視化装置、可視化方法および可視化プログラム

Info

Publication number: JP6330665B2
Application number: JP2014551875A
Authority: JP
Inventors: 健児青木; 森永　聡; 聡森永
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-12-13
Filing date: 2013-12-03
Publication date: 2018-05-30
Anticipated expiration: 2033-12-03
Also published as: US10013469B2; WO2014091712A1; US20150339364A1; JPWO2014091712A1

Description

本発明は、高次元データに対してデータ分析を行う際に、適用すべき前処理や分析手法の検討のためにデータ構造、特にデータ分布の概要を把握できるようにするための可視化装置、可視化方法および可視化プログラムに関する。

データ分析作業において効率的に作業を進めるために、データ可視化技術は必須の技術である。センシング技術および情報管理技術の発達に伴い、データの巨大化・複雑化が進む昨今その必要性はさらに増大している。

データ分析の分野におけるデータ可視化技術の代表的な適用場面として以下の場面が考えられる。（１）分析の前段階としてデータ構造を概観する場面、（２）機械学習の技術などによってデータ構造をモデルとして学習した際に学習結果を解釈する場面、（３）学習したモデルを用いて予測を行なった際に予測結果を考察する場面。

（１）の場面において、データ構造を概観するために用いられる代表的な可視化手段として、例えば、主成分分析や多次元尺度法などの多変量解析手法を用いて高次元データを低次元に圧縮した後に、その圧縮されたデータを二次元散布図などで表示する方法がある。また、もとの高次元データから得られる二次元データの全組み合わせに対する二次元散布図を行列形式に並べるＳｃａｔｔｅｒＰｌｏｔＭａｔｒｉｘ（以下、ＳＰＭという。）と呼ばれる可視化手法がある。また、各次元に対応する軸を縦に平行に配置して全ての次元で最小値が下端に、最大値が上端になるように観測値をプロットして隣接する軸上の観測値を線分で結ぶＰａｒａｌｌｅｌＣｏｏｒｄｉｎａｔｅＰｌｏｔ（以下、ＰＣＰ、または平行座標プロットという。）と呼ばれる可視化手法がある。

主成分分析や多次元尺度法は、多次元空間上でのデータ点の散らばりを示す情報を可能な限り保存して視覚化するという点で有用である。また、ＳＰＭやＰＣＰは、高次元中に存在する特定の少数次元間の関係を全体として一つの図によって視覚化するという点で有用である。

特許文献１には、連続数値属性にある学習データをデータ分布特徴に基づいて決定木により分類し、モデル構造の決定や変更を容易にする方法が記載されている。特許文献１に記載された方法では、データの分布特徴を理解できるようにするために、生成した決定木における各ノードを、ある一の属性に係るデータ群である目的関数と、残りの複数属性に係るデータ群である説明関数との散布図として表示する。

特開２００４−１５７８１４号公報

主成分分析においては、例えば、データによっては比較的低次元であっても可視化された内容の解釈が困難になる、という問題が存在する。また、多次元尺度法においては、例えば、データ数・次元数が大きくなると図そのものが煩雑になる、という問題が存在する。従って、これらの可視化手法は万能であるとは言えない。

また、特許文献１に記載された方法では、散布図として表示する属性が、目的変数とある一つの説明変数とに固定されている。従って、表示する属性をノードごとに設定することができない。そのため、例えば高次元データに存在するデータ構造を分析しようとした場合に、ユーザ（分析者）が概観できるデータ構造はそのうちの一部に限定される。

そこで、本発明は、ユーザが高次元データを分析する際に、分析対象となる高次元データに存在する特徴的なデータ構造についてより多くのデータ構造を概観することができる可視化装置、可視化方法および可視化プログラムを提供することを目的とする。

本発明による可視化装置は、可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する評価指標算出部と、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する可視化処理部とを備え、画像情報が、条件付けを行うための分岐条件を含むことを特徴とする。

具体的には、本発明による可視化装置は、可視化処理そのものを行う前に、高次元データの中で特徴的な構造を持つデータを絞り込む。ここで、データは［サンプル×属性］の行列形式で与えられていると仮定する。以下、属性と次元は同義とする。次に、可視化装置はその絞り込んだデータに可視化処理そのものを適用する。特徴的な構造を持つデータを絞り込む方法として、いくつかの属性（第一の属性群）で条件付けられた、別のいくつかの属性（第二の属性群）に関するデータに注目することを考える。ここで、第一の属性群と第二の属性群との組み合わせは複数存在することが前提となっている。そのため、できる限り多くのデータ構造を分析者が概観できるような可視化を行うという観点からは、なるべく多くの組み合わせを抽出できる方が望ましい。できる限り多くのデータ構造を分析者が概観できるようにするための方法として、例えば、データ構造の特徴度合いを表す何らかの評価指標を定義し、第一の属性群と第二の属性群との各組み合わせに対してその評価指標の値を計算し、その値が特に大きい第一の属性群と第二の属性群との組み合わせに対して適切な可視化手法を適用する方法がある。ここで、評価指標として、例えば、相関係数や、クラス情報が与えられているときの分離度・相互情報量といった量が考えられる。クラス情報は、データ分析において予測したい量を表す属性である。例えば、ＣＲＭ（ＣｕｓｔｏｍｅｒＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ）におけるマーケティングにおいては、顧客の購買行動を表す属性がクラス情報に相当する。分離度とは、具体的にはクラス分類の正解率である。評価指標の大きな属性群の組み合わせが複数存在する場合には、可視化装置は、分析者がそれらの組み合わせ全体をできる限り一度に概観できるようなインタフェースを提供する。属性群の組み合わせ全体を一度に概観できるようにするための方法の例として、後述するツリービュー（ＴｒｅｅＶｉｅｗ）形式でグラフを並べる方法が挙げられる。

本発明による可視化方法は、可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出し、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力し、画像情報が、条件付けを行うための分岐条件を含むことを特徴とする。

本発明による可視化プログラムは、コンピュータに、可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する処理と、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する処理とを実行させ、画像情報が、条件付けを行うための分岐条件を含むことを特徴とする。

本発明によれば、ユーザが高次元データを分析する際に、分析対象となる高次元データに存在する特徴的なデータ構造についてより多くのデータ構造を概観することができる。

５次元データをＳＰＭで可視化した結果の一例を示す説明図である。図１に示す５次元データをもとに作成された決定木の一例を示す説明図である。図１で示す５次元データに対する可視化装置の出力結果の一例を示す説明図である。本発明による可視化装置の第１の実施形態の構成を示すブロック図である。本発明による可視化装置の第１の実施形態の動作を示すフローチャートである。本発明による可視化装置の最小構成を示すブロック図である。

実施形態１．
以下、本発明の第１の実施形態を図面を参照して説明する。

図１は、５次元データをＳＰＭで可視化した結果の一例を示す説明図である。ここでは、図１に示すＳＰＭにおける５次元データに対して、サンプルの一方を示す「○」とサンプルの他方を示す「×」とを分類する問題を考える。サンプルは、例えば、クラス情報が購買行動である場合は一人一人の顧客を表す。図１には、５次元のうち任意の２次元の組み合わせに対する散布図が示されている。

分析者は、図１に示す散布図により、任意の２次元空間上でのデータの分布を概観することができる。例えば、分析者は、図１から、第一次元（属性Ｖ１）に関して、「○」が比較的大きな値に、「×」が比較的小さな値に集中して分布していることを読み取ることができる。しかし、「○」と「×」の分類情報に関してそれ以上の情報を図１に示す散布図からすぐに読み取ることは困難である。

本実施形態では、データを絞り込むための方法として決定木を用いる。また、ここでは分類問題を考えているので、特徴度合いを表す指標として「○」と「×」との分離度を考える。

図２は、図１に示す５次元データをもとに作成された決定木の一例を示す説明図である。図２に示す決定木における不等式は分岐の条件、葉の数字は「○の数」または「×の数」を表す。

本実施形態では、可視化装置は、決定木の作成において、「○」と「×」とを最も良く分離する次元ほど木の根に近いノード、つまり図２の上部に近いノードとして抽出する。従って、例えば、図２に示す決定木から、図１に示す散布図と同様に「○」と「×」とを最も良く分離するのは属性Ｖ１であることを読み取ることができる。また、属性Ｖ１の値が０．０２３３５以上のデータに関して、「○」と「×」とを最もよく分離するのは属性Ｖ２であることを読み取ることができる。また、属性Ｖ１の値が０．０２３３５未満のデータに関して、「○」と「×」とを最もよく分離するのは属性Ｖ３であることを読み取ることができる。

また、本実施形態では、「○」と「×」との分類に関するこれらの情報を一度に概観できるようにするために、可視化装置は出力結果として、図３に示すようなインタフェースを提供する。図３は、図１で示す５次元データに対する可視化装置の出力結果の一例を示す説明図である。図３では、図２に示す決定木の構造に対応するように３つの散布図が並べられている。図３に示す各散布図における点線は、図２に示す各ノードにおける不等式の左辺の値に対応する位置に描画される。

図３に示す散布図Ａは、図２に示す、分岐条件が「０．０２３３５＜＝Ｖ１」であるノード、「−１．２２７＜＝Ｖ２」であるノード、および「−０．２７４６＜＝Ｖ３」であるノードに対応する。

図３に示す散布図Ｂは、図２に示す、分岐条件が「−０．２７４６＜＝Ｖ３」であるノード、「０．１１１７＜＝Ｖ５」であるノード、および「−３．４６４＜＝Ｖ４」であるノードに対応する。つまり、散布図Ｂは、属性Ｖ１の値が小さいサンプルに限定した、つまり属性Ｖ１で条件付けされた、属性Ｖ３、属性Ｖ５および属性Ｖ４に関するデータを表す。散布図Ｂの場合、属性Ｖ１が第一の属性群に相当し、属性Ｖ３、属性Ｖ５および属性Ｖ４が第二の属性群に相当する。

図３に示す散布図Ｃは、図２に示す、分岐条件が「−１．２２７＜＝Ｖ２」であるノード、「−１．０９８＜＝Ｖ４」であるノード、および「１.８６８＜＝Ｖ５」であるノードに対応する。つまり、散布図Ｃは、属性Ｖ１の値が大きいサンプルに限定した、つまり属性Ｖ１で条件付けされた、属性Ｖ２、属性Ｖ４および属性Ｖ５に関するデータを表す。散布図Ｃの場合、属性Ｖ１が第一の属性群に相当し、属性Ｖ２、属性Ｖ４および属性Ｖ５が第二の属性群に相当する。

なお、図３には、３つの散布図が含まれているが、出力結果にはいくつ散布図が含まれていてもよい。例えば、散布図の数を木の深さに応じて変更してもよいし、また、「○」と「×」とを良く分離するノード、つまり評価指標の値が特に大きいノードに対応する散布図のみを出力結果に含ませるようにしてもよい。なお、ノードが「○」と「×」とを良く分離するか否かの判定は、例えば、評価指標の値が予め定められた基準よりも大きいか否かで判定すればよい。

分析者は、図３に示す散布図Ａから、属性Ｖ１に関して大きな値をとるサンプルにデータを絞り込むと、属性Ｖ２に関して「○」が比較的大きな値に、「×」が比較的小さな値に偏って分布していることを読み取ることができる。一方、分析者は、属性Ｖ１に関して小さな値をとるサンプルにデータを絞り込むと、属性Ｖ３に関して「○」が比較的大きな値に、「×」が比較的小さな値に偏って分布していることを読み取ることができる。

同様に散布図Ｂから、分析者は、属性Ｖ１に関して小さな値をとり、さらに属性Ｖ３に関して大きな値をとるサンプルにデータを絞り込むと、属性Ｖ５に関して「○」と「×」とが比較的分離していることを読み取ることができる。

同様に散布図Ｃから、分析者は、属性Ｖ１に関して大きな値をとり、さらに属性Ｖ２に関しても大きな値をとるサンプルにデータを絞り込むと、属性Ｖ４に関して「○」と比較して「×」が小さな値に集中して分布していることを読み取ることができる。

図３に示す各散布図から読み取ることができる上記のようなデータ構造の情報は、前述した代表的な可視化手段では発見することができない。また、図３に示す結果と分析者が持つデータに関する背景知識とを組み合わせることにより、分析者は、例えば、一部のデータを分析から取り除くことや、一部のデータに関しては別の分析手法を適用するといった分析方針を立てることができる。

図４は、本発明による可視化装置の第１の実施形態の構成を示すブロック図である。

図４に示すように、可視化装置は、データ・パラメータ入力部１０１と、決定木作成部１０２と、決定木記憶部１０３と、ツリービュー形式散布図作成部１０４と、画像出力部１０５とを含む。

データ・パラメータ入力部１０１は、可視化対象となる高次元データ、決定木パラメータおよび散布図パラメータを装置外部から入力する。決定木パラメータは、決定木の作成を行う際に必要なパラメータである。散布図パラメータは、画像出力を行う際に必要なパラメータである。データ・パラメータ入力部１０１は、決定木パラメータとして、例えば、分割の良さを評価する指標や決定木を作成するためのアルゴリズムや、木の深さや葉に属するデータの最小サイズなどを入力する。データ・パラメータ入力部１０１は、入力したデータとパラメータを、決定木作成部１０２とツリービュー形式散布図作成部１０４とに出力する。

決定木作成部１０２は、可視化対象のデータと決定木パラメータとをデータ・パラメータ入力部１０１から入力する。決定木作成部１０２は、入力したデータに対して、入力した決定木パラメータの情報に従って、図２に示すような決定木を作成する。なお、図２に示す不等式における「０．０２３３５」、「−１．２２７」等の数値は、決定木作成部１０２によって算出される数値であって、その一例である。決定木作成部１０２は、作成した決定木に関する情報を決定木記憶部１０３に出力する。

決定木記憶部１０３は、決定木作成部１０２から入力した決定木に関する情報を記憶する。

ツリービュー形式散布図作成部１０４は、可視化対象のデータと散布図パラメータとをデータ・パラメータ入力部１０１から入力する。また、ツリービュー形式散布図作成部１０４は、決定木に関する情報を決定木記憶部１０３から取得する。ツリービュー形式散布図作成部１０４は、散布図パラメータと決定木に関する情報とをもとに、図１に示すような可視化対象のデータに関して、図３に示すようなツリービュー形式で並べられた散布図を作成する。ツリービュー形式散布図作成部１０４は、作成した散布図を含む画像情報を画像出力部１０５に出力する。ここで、散布図パラメータは、例えば、図３に示す散布図におけるサンプルの色や形、軸のラベルや目盛りの有無、点線の表示の有無、などを指定するためのパラメータである。

画像出力部１０５は、例えば、ディスプレイ装置やプリンタである。画像出力部１０５は、ツリービュー形式散布図作成部１０４から入力したツリービュー形式散布図を含む画像情報を出力する。

なお、データ・パラメータ入力部１０１、決定木作成部１０２およびツリービュー形式散布図作成部１０４は、例えば、可視化プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが可視化プログラムを読み込み、そのプログラムに従って、データ・パラメータ入力部１０１、決定木作成部１０２およびツリービュー形式散布図作成部１０４として動作すればよい。また、データ・パラメータ入力部１０１、決定木作成部１０２およびツリービュー形式散布図作成部１０４が別々のハードウェアで実現されていてもよい。

また、決定木記憶部１０３は、可視化装置が備えるメモリ等の記憶装置によって実現される。

次に、本実施形態の動作を説明する。

図５は、本発明による可視化装置の第１の実施形態の動作を示すフローチャートである。

データ・パラメータ入力部１０１は、可視化対象となる高次元データ、決定木パラメータおよび散布図パラメータを入力する（ステップＳ１０１）。当該データおよび当該パラメータを、例えば分析者がデータ・パラメータ入力部１０１に対して入力する。データ・パラメータ入力部１０１は、可視化対象となる高次元データと決定木パラメータとを決定木作成部１０２に出力する。データ・パラメータ入力部１０１は、可視化対象となる高次元データと散布図パラメータとをツリービュー形式散布図作成部１０４に出力する。

次に、決定木作成部１０２が、データ・パラメータ入力部１０１から入力した可視化対象のデータと決定木パラメータの情報にしたがって決定木を作成し、作成した決定木に関する情報を決定木記憶部１０３に記憶する（ステップＳ１０２）。

ツリービュー形式散布図作成部１０４は、データ・パラメータ入力部１０１から入力した可視化対象のデータおよび散布図パラメータと、決定木記憶部１０３が記憶する決定木に関する情報とをもとに、図３に示すような散布図、つまり、ツリービュー形式で並べられた散布図を作成する（ステップＳ１０３）。ツリービュー形式散布図作成部１０４は、作成した散布図を含む画像情報を画像出力部１０５に出力する。

画像出力部１０５は、ツリービュー形式散布図を含む画像情報を出力する（ステップＳ１０４）。

以上に説明したように、本実施形態では、可視化処理そのものを行う前に、高次元データの中で特徴的な構造を持つデータを絞り込む。また、本実施形態では、高次元データに存在する特徴的なデータ構造を一度により多く概観できるようにするために、データを絞り込む際に用いた決定木に関する情報をもとに作成したツリービュー形式の散布図を出力する。従って、分析者は、高次元データを分析する際に、そのデータ内に存在する複数の特徴的なデータ構造を把握することができる。それにより、分析者は、どのような前処理や分析手法を適用すべきかといった指針を立てることができる。

また、本実施形態では、条件付きのデータ構造を抽出することに主眼を置いているため、高次元データを分析する際の前処理として特徴的なデータ構造を持つサンプルを予め取り出し別々に分析するといったことが可能になる。また、分析手段として混合正規分布のような多峰形のモデルをデータに適用する際の混合数や各コンポーネント内のモデルを決定するための情報を提供することが可能になる。

なお、本実施形態では、可視化装置が画像出力部を含む場合について説明したが、画像出力部は可視化装置に含まれていなくてもよい。その場合には、ツリービュー形式散布図作成部１０４は、可視化装置と通信可能な外部のディスプレイやプリンタ等に画像情報を出力すればよい。そのような構成によれば、可視化装置の構成をより簡素化することができる。

また、本実施形態では、特徴度合いを表す評価指標として分離度を用いる場合について説明したが、相関係数を用いるようにしてもよい。また、可視化対象となるデータに関してクラス情報が与えられているときには、特徴度合いを表す評価指標としてエントロピーを用いるようにしてもよい。

また、本実施形態では、散布図をツリービュー形式で並べて表示する場合について説明したが、ＰＣＰをツリービュー形式で並べて表示するようにしてもよい。また、本実施形態では、決定木作成部１０２が二分木を用いて、決定木を作成する場合について説明したが、決定木作成部１０２は二分木以外の多分木を用いて、決定木を作成するようにしてもよい。その場合には、ツリービュー形式散布図作成部１０４は、決定木の構成に応じたツリービュー形式の散布図を作成すればよい。

本発明は、高次元データから知識発見を行う場面全般に適用可能である。例えば、自動車や家電などの工業製品の故障原因を、当該工業製品の内部に組み込まれた多数のセンサの値の情報から機械学習技術を用いて特定しようとする場合に、本発明による可視化装置を利用することができる。その場合、分析手法の検討段階で、特定の故障原因の種類に関するデータとセンサの種類に関するデータとの間に特徴的な構造がないかどうかを予め概観することができる。他の例として、ＣＲＭにおけるマーケティングにおいて、顧客の個人情報と購買行動との関係を調べるような場合にも同様に本発明による可視化装置を利用することができる。

図６は、本発明による可視化装置の最小構成を示すブロック図である。図６に示すように、可視化装置は、可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する評価指標算出部１１（図４に示す決定木作成部１０２に相当。）と、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせを提示するための画像情報を生成する可視化処理部１２（図４に示すツリービュー形式散布図作成部１０４に相当。）とを備える。

そのような構成によれば、評価指標の値が特に大きい属性群の組み合わせに関する情報をユーザに提示することができる。従って、高次元データを分析する際に、分析者は、そのデータ内に存在する複数の特徴的なデータ構造を把握することができる。それにより、分析者は、どのような前処理や分析手法を適用すべきかといった指針を立てることができる。

上記の実施形態には、以下のような可視化装置も開示されている。

（１）評価指標算出部１１が、第一の属性群で第二の属性群を条件付けする基準として二分木を用いる可視化装置。

そのような構成によれば、図３に示すようなツリービュー形式の散布図を含むインタフェースを分析者に提供することが可能となる。

（２）評価指標算出部１１が、第一の属性群で第二の属性群を条件付けする基準として多分木を用いる可視化装置。

そのような構成によれば、高次元データについて、当該高次元データをもとに作成した多分木に関する情報をもとに、ツリービュー形式の散布図を作成することが可能となる。従って、決定木の作成において、より複雑な条件付けにも対応することが可能となる。

（３）評価指標算出部１１が、特徴度合いを表す評価指標として相関係数を用いる可視化装置。

（４）評価指標算出部１１が、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、クラス分類の正解率を用いる可視化装置。

（５）評価指標算出部１１が、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、エントロピーを用いる可視化装置。

そのような構成によれば、データ構造の特徴度合いを表す評価指標を数値として表現することができるので、第一の属性群と第二の属性群との組み合わせそれぞれについての評価指標の比較をより正確に行うことができる。

（６）可視化処理部１２が、評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する可視化装置。

（７）可視化処理部１２が、評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する平行座標プロットをツリービュー形式で並べた画像情報を出力する可視化装置。

そのような構成によれば、分析者は、可視化対象となる高次元データに存在する特徴的なデータ構造を一度により多く概観することができる。また、評価指標の値が大きい属性群の組み合わせほどツリービューの上部に近い位置に表示されるので、分析者は、可視化された内容を容易に解釈することができる。また、評価指標の値が特に大きい属性群の組み合わせに対応する散布図のみをユーザに提示することができるので、可視化対象の高次元データのデータ数・次元数が大きくなっても、図そのものが煩雑になることがない。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１２年１２月１３日に出願された日本特許出願２０１２−２７２４１３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１１評価指標算出部
１２可視化処理部
１０１データ・パラメータ入力部
１０２決定木作成部
１０３決定木記憶部
１０４ツリービュー形式散布図作成部
１０５画像出力部

Claims

可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、前記第一の属性群と前記第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する評価指標算出部と、
予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する可視化処理部とを備え、
前記画像情報は、前記条件付けを行うための分岐条件を含む
ことを特徴とする可視化装置。
評価指標算出部は、第一の属性群で第二の属性群を条件付けする基準として二分木を用いる
請求項１に記載の可視化装置。
評価指標算出部は、第一の属性群で第二の属性群を条件付けする基準として多分木を用いる
請求項１に記載の可視化装置。
評価指標算出部は、特徴度合いを表す評価指標として相関係数を用いる
請求項１から請求項３のうちのいずれか１項に記載の可視化装置。
評価指標算出部は、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、クラス分類の正解率を用いる
請求項１から請求項３のうちのいずれか１項に記載の可視化装置。
評価指標算出部は、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、エントロピーを用いる
請求項１から請求項３のうちのいずれか１項に記載の可視化装置。
可視化処理部は、評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する平行座標プロットをツリービュー形式で並べた画像情報を出力する
請求項１から請求項６のうちのいずれか１項に記載の可視化装置。
可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、前記第一の属性群と前記第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出し、
予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力し、
前記画像情報は、前記条件付けを行うための分岐条件を含む
ことを特徴とする可視化方法。
コンピュータに、
可視化対象となる高次元データのうち、１つまたは複数の属性を含む第一の属性群で条件付けした、１つまたは複数の属性を含む第二の属性群に関するデータについて、前記第一の属性群と前記第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する処理と、
予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する処理とを実行させ、
前記画像情報は、前記条件付けを行うための分岐条件を含む
ことを特徴とする可視化プログラム。