JP6330665B2 - 可視化装置、可視化方法および可視化プログラム - Google Patents

可視化装置、可視化方法および可視化プログラム Download PDF

Info

Publication number
JP6330665B2
JP6330665B2 JP2014551875A JP2014551875A JP6330665B2 JP 6330665 B2 JP6330665 B2 JP 6330665B2 JP 2014551875 A JP2014551875 A JP 2014551875A JP 2014551875 A JP2014551875 A JP 2014551875A JP 6330665 B2 JP6330665 B2 JP 6330665B2
Authority
JP
Japan
Prior art keywords
attribute group
evaluation index
visualization
data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014551875A
Other languages
English (en)
Other versions
JPWO2014091712A1 (ja
Inventor
健児 青木
健児 青木
森永 聡
聡 森永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014091712A1 publication Critical patent/JPWO2014091712A1/ja
Application granted granted Critical
Publication of JP6330665B2 publication Critical patent/JP6330665B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、高次元データに対してデータ分析を行う際に、適用すべき前処理や分析手法の検討のためにデータ構造、特にデータ分布の概要を把握できるようにするための可視化装置、可視化方法および可視化プログラムに関する。
データ分析作業において効率的に作業を進めるために、データ可視化技術は必須の技術である。センシング技術および情報管理技術の発達に伴い、データの巨大化・複雑化が進む昨今その必要性はさらに増大している。
データ分析の分野におけるデータ可視化技術の代表的な適用場面として以下の場面が考えられる。(1)分析の前段階としてデータ構造を概観する場面、(2)機械学習の技術などによってデータ構造をモデルとして学習した際に学習結果を解釈する場面、(3)学習したモデルを用いて予測を行なった際に予測結果を考察する場面。
(1)の場面において、データ構造を概観するために用いられる代表的な可視化手段として、例えば、主成分分析や多次元尺度法などの多変量解析手法を用いて高次元データを低次元に圧縮した後に、その圧縮されたデータを二次元散布図などで表示する方法がある。また、もとの高次元データから得られる二次元データの全組み合わせに対する二次元散布図を行列形式に並べるScatter Plot Matrix(以下、SPMという。)と呼ばれる可視化手法がある。また、各次元に対応する軸を縦に平行に配置して全ての次元で最小値が下端に、最大値が上端になるように観測値をプロットして隣接する軸上の観測値を線分で結ぶParallel Coordinate Plot(以下、PCP、または平行座標プロットという。)と呼ばれる可視化手法がある。
主成分分析や多次元尺度法は、多次元空間上でのデータ点の散らばりを示す情報を可能な限り保存して視覚化するという点で有用である。また、SPMやPCPは、高次元中に存在する特定の少数次元間の関係を全体として一つの図によって視覚化するという点で有用である。
特許文献1には、連続数値属性にある学習データをデータ分布特徴に基づいて決定木により分類し、モデル構造の決定や変更を容易にする方法が記載されている。特許文献1に記載された方法では、データの分布特徴を理解できるようにするために、生成した決定木における各ノードを、ある一の属性に係るデータ群である目的関数と、残りの複数属性に係るデータ群である説明関数との散布図として表示する。
特開2004−157814号公報
主成分分析においては、例えば、データによっては比較的低次元であっても可視化された内容の解釈が困難になる、という問題が存在する。また、多次元尺度法においては、例えば、データ数・次元数が大きくなると図そのものが煩雑になる、という問題が存在する。従って、これらの可視化手法は万能であるとは言えない。
また、特許文献1に記載された方法では、散布図として表示する属性が、目的変数とある一つの説明変数とに固定されている。従って、表示する属性をノードごとに設定することができない。そのため、例えば高次元データに存在するデータ構造を分析しようとした場合に、ユーザ(分析者)が概観できるデータ構造はそのうちの一部に限定される。
そこで、本発明は、ユーザが高次元データを分析する際に、分析対象となる高次元データに存在する特徴的なデータ構造についてより多くのデータ構造を概観することができる可視化装置、可視化方法および可視化プログラムを提供することを目的とする。
本発明による可視化装置は、可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する評価指標算出部と、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する可視化処理部とを備え、画像情報が、条件付けを行うための分岐条件を含むことを特徴とする。
具体的には、本発明による可視化装置は、可視化処理そのものを行う前に、高次元データの中で特徴的な構造を持つデータを絞り込む。ここで、データは[サンプル×属性]の行列形式で与えられていると仮定する。以下、属性と次元は同義とする。次に、可視化装置はその絞り込んだデータに可視化処理そのものを適用する。特徴的な構造を持つデータを絞り込む方法として、いくつかの属性(第一の属性群)で条件付けられた、別のいくつかの属性(第二の属性群)に関するデータに注目することを考える。ここで、第一の属性群と第二の属性群との組み合わせは複数存在することが前提となっている。そのため、できる限り多くのデータ構造を分析者が概観できるような可視化を行うという観点からは、なるべく多くの組み合わせを抽出できる方が望ましい。できる限り多くのデータ構造を分析者が概観できるようにするための方法として、例えば、データ構造の特徴度合いを表す何らかの評価指標を定義し、第一の属性群と第二の属性群との各組み合わせに対してその評価指標の値を計算し、その値が特に大きい第一の属性群と第二の属性群との組み合わせに対して適切な可視化手法を適用する方法がある。ここで、評価指標として、例えば、相関係数や、クラス情報が与えられているときの分離度・相互情報量といった量が考えられる。クラス情報は、データ分析において予測したい量を表す属性である。例えば、CRM(Customer Relationship Management)におけるマーケティングにおいては、顧客の購買行動を表す属性がクラス情報に相当する。分離度とは、具体的にはクラス分類の正解率である。評価指標の大きな属性群の組み合わせが複数存在する場合には、可視化装置は、分析者がそれらの組み合わせ全体をできる限り一度に概観できるようなインタフェースを提供する。属性群の組み合わせ全体を一度に概観できるようにするための方法の例として、後述するツリービュー(Tree View)形式でグラフを並べる方法が挙げられる。
本発明による可視化方法は、可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出し、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力し、画像情報が、条件付けを行うための分岐条件を含むことを特徴とする。
本発明による可視化プログラムは、コンピュータに、可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する処理と、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する処理とを実行させ、画像情報が、条件付けを行うための分岐条件を含むことを特徴とする。
本発明によれば、ユーザが高次元データを分析する際に、分析対象となる高次元データに存在する特徴的なデータ構造についてより多くのデータ構造を概観することができる。
5次元データをSPMで可視化した結果の一例を示す説明図である。 図1に示す5次元データをもとに作成された決定木の一例を示す説明図である。 図1で示す5次元データに対する可視化装置の出力結果の一例を示す説明図である。 本発明による可視化装置の第1の実施形態の構成を示すブロック図である。 本発明による可視化装置の第1の実施形態の動作を示すフローチャートである。 本発明による可視化装置の最小構成を示すブロック図である。
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
図1は、5次元データをSPMで可視化した結果の一例を示す説明図である。ここでは、図1に示すSPMにおける5次元データに対して、サンプルの一方を示す「○」とサンプルの他方を示す「×」とを分類する問題を考える。サンプルは、例えば、クラス情報が購買行動である場合は一人一人の顧客を表す。図1には、5次元のうち任意の2次元の組み合わせに対する散布図が示されている。
分析者は、図1に示す散布図により、任意の2次元空間上でのデータの分布を概観することができる。例えば、分析者は、図1から、第一次元(属性V1)に関して、「○」が比較的大きな値に、「×」が比較的小さな値に集中して分布していることを読み取ることができる。しかし、「○」と「×」の分類情報に関してそれ以上の情報を図1に示す散布図からすぐに読み取ることは困難である。
本実施形態では、データを絞り込むための方法として決定木を用いる。また、ここでは分類問題を考えているので、特徴度合いを表す指標として「○」と「×」との分離度を考える。
図2は、図1に示す5次元データをもとに作成された決定木の一例を示す説明図である。図2に示す決定木における不等式は分岐の条件、葉の数字は「○の数」または「×の数」を表す。
本実施形態では、可視化装置は、決定木の作成において、「○」と「×」とを最も良く分離する次元ほど木の根に近いノード、つまり図2の上部に近いノードとして抽出する。従って、例えば、図2に示す決定木から、図1に示す散布図と同様に「○」と「×」とを最も良く分離するのは属性V1であることを読み取ることができる。また、属性V1の値が0.02335以上のデータに関して、「○」と「×」とを最もよく分離するのは属性V2であることを読み取ることができる。また、属性V1の値が0.02335未満のデータに関して、「○」と「×」とを最もよく分離するのは属性V3であることを読み取ることができる。
また、本実施形態では、「○」と「×」との分類に関するこれらの情報を一度に概観できるようにするために、可視化装置は出力結果として、図3に示すようなインタフェースを提供する。図3は、図1で示す5次元データに対する可視化装置の出力結果の一例を示す説明図である。図3では、図2に示す決定木の構造に対応するように3つの散布図が並べられている。図3に示す各散布図における点線は、図2に示す各ノードにおける不等式の左辺の値に対応する位置に描画される。
図3に示す散布図Aは、図2に示す、分岐条件が「0.02335<=V1」であるノード、「−1.227<=V2」であるノード、および「−0.2746<=V3」であるノードに対応する。
図3に示す散布図Bは、図2に示す、分岐条件が「−0.2746<=V3」であるノード、「0.1117<=V5」であるノード、および「−3.464<=V4」であるノードに対応する。つまり、散布図Bは、属性V1の値が小さいサンプルに限定した、つまり属性V1で条件付けされた、属性V3、属性V5および属性V4に関するデータを表す。散布図Bの場合、属性V1が第一の属性群に相当し、属性V3、属性V5および属性V4が第二の属性群に相当する。
図3に示す散布図Cは、図2に示す、分岐条件が「−1.227<=V2」であるノード、「−1.098<=V4」であるノード、および「1.868<=V5」であるノードに対応する。つまり、散布図Cは、属性V1の値が大きいサンプルに限定した、つまり属性V1で条件付けされた、属性V2、属性V4および属性V5に関するデータを表す。散布図Cの場合、属性V1が第一の属性群に相当し、属性V2、属性V4および属性V5が第二の属性群に相当する。
なお、図3には、3つの散布図が含まれているが、出力結果にはいくつ散布図が含まれていてもよい。例えば、散布図の数を木の深さに応じて変更してもよいし、また、「○」と「×」とを良く分離するノード、つまり評価指標の値が特に大きいノードに対応する散布図のみを出力結果に含ませるようにしてもよい。なお、ノードが「○」と「×」とを良く分離するか否かの判定は、例えば、評価指標の値が予め定められた基準よりも大きいか否かで判定すればよい。
分析者は、図3に示す散布図Aから、属性V1に関して大きな値をとるサンプルにデータを絞り込むと、属性V2に関して「○」が比較的大きな値に、「×」が比較的小さな値に偏って分布していることを読み取ることができる。一方、分析者は、属性V1に関して小さな値をとるサンプルにデータを絞り込むと、属性V3に関して「○」が比較的大きな値に、「×」が比較的小さな値に偏って分布していることを読み取ることができる。
同様に散布図Bから、分析者は、属性V1に関して小さな値をとり、さらに属性V3に関して大きな値をとるサンプルにデータを絞り込むと、属性V5に関して「○」と「×」とが比較的分離していることを読み取ることができる。
同様に散布図Cから、分析者は、属性V1に関して大きな値をとり、さらに属性V2に関しても大きな値をとるサンプルにデータを絞り込むと、属性V4に関して「○」と比較して「×」が小さな値に集中して分布していることを読み取ることができる。
図3に示す各散布図から読み取ることができる上記のようなデータ構造の情報は、前述した代表的な可視化手段では発見することができない。また、図3に示す結果と分析者が持つデータに関する背景知識とを組み合わせることにより、分析者は、例えば、一部のデータを分析から取り除くことや、一部のデータに関しては別の分析手法を適用するといった分析方針を立てることができる。
図4は、本発明による可視化装置の第1の実施形態の構成を示すブロック図である。
図4に示すように、可視化装置は、データ・パラメータ入力部101と、決定木作成部102と、決定木記憶部103と、ツリービュー形式散布図作成部104と、画像出力部105とを含む。
データ・パラメータ入力部101は、可視化対象となる高次元データ、決定木パラメータおよび散布図パラメータを装置外部から入力する。決定木パラメータは、決定木の作成を行う際に必要なパラメータである。散布図パラメータは、画像出力を行う際に必要なパラメータである。データ・パラメータ入力部101は、決定木パラメータとして、例えば、分割の良さを評価する指標や決定木を作成するためのアルゴリズムや、木の深さや葉に属するデータの最小サイズなどを入力する。データ・パラメータ入力部101は、入力したデータとパラメータを、決定木作成部102とツリービュー形式散布図作成部104とに出力する。
決定木作成部102は、可視化対象のデータと決定木パラメータとをデータ・パラメータ入力部101から入力する。決定木作成部102は、入力したデータに対して、入力した決定木パラメータの情報に従って、図2に示すような決定木を作成する。なお、図2に示す不等式における「0.02335」、「−1.227」等の数値は、決定木作成部102によって算出される数値であって、その一例である。決定木作成部102は、作成した決定木に関する情報を決定木記憶部103に出力する。
決定木記憶部103は、決定木作成部102から入力した決定木に関する情報を記憶する。
ツリービュー形式散布図作成部104は、可視化対象のデータと散布図パラメータとをデータ・パラメータ入力部101から入力する。また、ツリービュー形式散布図作成部104は、決定木に関する情報を決定木記憶部103から取得する。ツリービュー形式散布図作成部104は、散布図パラメータと決定木に関する情報とをもとに、図1に示すような可視化対象のデータに関して、図3に示すようなツリービュー形式で並べられた散布図を作成する。ツリービュー形式散布図作成部104は、作成した散布図を含む画像情報を画像出力部105に出力する。ここで、散布図パラメータは、例えば、図3に示す散布図におけるサンプルの色や形、軸のラベルや目盛りの有無、点線の表示の有無、などを指定するためのパラメータである。
画像出力部105は、例えば、ディスプレイ装置やプリンタである。画像出力部105は、ツリービュー形式散布図作成部104から入力したツリービュー形式散布図を含む画像情報を出力する。
なお、データ・パラメータ入力部101、決定木作成部102およびツリービュー形式散布図作成部104は、例えば、可視化プログラムに従って動作するコンピュータによって実現される。この場合、CPUが可視化プログラムを読み込み、そのプログラムに従って、データ・パラメータ入力部101、決定木作成部102およびツリービュー形式散布図作成部104として動作すればよい。また、データ・パラメータ入力部101、決定木作成部102およびツリービュー形式散布図作成部104が別々のハードウェアで実現されていてもよい。
また、決定木記憶部103は、可視化装置が備えるメモリ等の記憶装置によって実現される。
次に、本実施形態の動作を説明する。
図5は、本発明による可視化装置の第1の実施形態の動作を示すフローチャートである。
データ・パラメータ入力部101は、可視化対象となる高次元データ、決定木パラメータおよび散布図パラメータを入力する(ステップS101)。当該データおよび当該パラメータを、例えば分析者がデータ・パラメータ入力部101に対して入力する。データ・パラメータ入力部101は、可視化対象となる高次元データと決定木パラメータとを決定木作成部102に出力する。データ・パラメータ入力部101は、可視化対象となる高次元データと散布図パラメータとをツリービュー形式散布図作成部104に出力する。
次に、決定木作成部102が、データ・パラメータ入力部101から入力した可視化対象のデータと決定木パラメータの情報にしたがって決定木を作成し、作成した決定木に関する情報を決定木記憶部103に記憶する(ステップS102)。
ツリービュー形式散布図作成部104は、データ・パラメータ入力部101から入力した可視化対象のデータおよび散布図パラメータと、決定木記憶部103が記憶する決定木に関する情報とをもとに、図3に示すような散布図、つまり、ツリービュー形式で並べられた散布図を作成する(ステップS103)。ツリービュー形式散布図作成部104は、作成した散布図を含む画像情報を画像出力部105に出力する。
画像出力部105は、ツリービュー形式散布図を含む画像情報を出力する(ステップS104)。
以上に説明したように、本実施形態では、可視化処理そのものを行う前に、高次元データの中で特徴的な構造を持つデータを絞り込む。また、本実施形態では、高次元データに存在する特徴的なデータ構造を一度により多く概観できるようにするために、データを絞り込む際に用いた決定木に関する情報をもとに作成したツリービュー形式の散布図を出力する。従って、分析者は、高次元データを分析する際に、そのデータ内に存在する複数の特徴的なデータ構造を把握することができる。それにより、分析者は、どのような前処理や分析手法を適用すべきかといった指針を立てることができる。
また、本実施形態では、条件付きのデータ構造を抽出することに主眼を置いているため、高次元データを分析する際の前処理として特徴的なデータ構造を持つサンプルを予め取り出し別々に分析するといったことが可能になる。また、分析手段として混合正規分布のような多峰形のモデルをデータに適用する際の混合数や各コンポーネント内のモデルを決定するための情報を提供することが可能になる。
なお、本実施形態では、可視化装置が画像出力部を含む場合について説明したが、画像出力部は可視化装置に含まれていなくてもよい。その場合には、ツリービュー形式散布図作成部104は、可視化装置と通信可能な外部のディスプレイやプリンタ等に画像情報を出力すればよい。そのような構成によれば、可視化装置の構成をより簡素化することができる。
また、本実施形態では、特徴度合いを表す評価指標として分離度を用いる場合について説明したが、相関係数を用いるようにしてもよい。また、可視化対象となるデータに関してクラス情報が与えられているときには、特徴度合いを表す評価指標としてエントロピーを用いるようにしてもよい。
また、本実施形態では、散布図をツリービュー形式で並べて表示する場合について説明したが、PCPをツリービュー形式で並べて表示するようにしてもよい。また、本実施形態では、決定木作成部102が二分木を用いて、決定木を作成する場合について説明したが、決定木作成部102は二分木以外の多分木を用いて、決定木を作成するようにしてもよい。その場合には、ツリービュー形式散布図作成部104は、決定木の構成に応じたツリービュー形式の散布図を作成すればよい。
本発明は、高次元データから知識発見を行う場面全般に適用可能である。例えば、自動車や家電などの工業製品の故障原因を、当該工業製品の内部に組み込まれた多数のセンサの値の情報から機械学習技術を用いて特定しようとする場合に、本発明による可視化装置を利用することができる。その場合、分析手法の検討段階で、特定の故障原因の種類に関するデータとセンサの種類に関するデータとの間に特徴的な構造がないかどうかを予め概観することができる。他の例として、CRMにおけるマーケティングにおいて、顧客の個人情報と購買行動との関係を調べるような場合にも同様に本発明による可視化装置を利用することができる。
図6は、本発明による可視化装置の最小構成を示すブロック図である。図6に示すように、可視化装置は、可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、第一の属性群と第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する評価指標算出部11(図4に示す決定木作成部102に相当。)と、予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせを提示するための画像情報を生成する可視化処理部12(図4に示すツリービュー形式散布図作成部104に相当。)とを備える。
そのような構成によれば、評価指標の値が特に大きい属性群の組み合わせに関する情報をユーザに提示することができる。従って、高次元データを分析する際に、分析者は、そのデータ内に存在する複数の特徴的なデータ構造を把握することができる。それにより、分析者は、どのような前処理や分析手法を適用すべきかといった指針を立てることができる。
上記の実施形態には、以下のような可視化装置も開示されている。
(1)評価指標算出部11が、第一の属性群で第二の属性群を条件付けする基準として二分木を用いる可視化装置。
そのような構成によれば、図3に示すようなツリービュー形式の散布図を含むインタフェースを分析者に提供することが可能となる。
(2)評価指標算出部11が、第一の属性群で第二の属性群を条件付けする基準として多分木を用いる可視化装置。
そのような構成によれば、高次元データについて、当該高次元データをもとに作成した多分木に関する情報をもとに、ツリービュー形式の散布図を作成することが可能となる。従って、決定木の作成において、より複雑な条件付けにも対応することが可能となる。
(3)評価指標算出部11が、特徴度合いを表す評価指標として相関係数を用いる可視化装置。
(4)評価指標算出部11が、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、クラス分類の正解率を用いる可視化装置。
(5)評価指標算出部11が、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、エントロピーを用いる可視化装置。
そのような構成によれば、データ構造の特徴度合いを表す評価指標を数値として表現することができるので、第一の属性群と第二の属性群との組み合わせそれぞれについての評価指標の比較をより正確に行うことができる。
(6)可視化処理部12が、評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する可視化装置。
(7)可視化処理部12が、評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する平行座標プロットをツリービュー形式で並べた画像情報を出力する可視化装置。
そのような構成によれば、分析者は、可視化対象となる高次元データに存在する特徴的なデータ構造を一度により多く概観することができる。また、評価指標の値が大きい属性群の組み合わせほどツリービューの上部に近い位置に表示されるので、分析者は、可視化された内容を容易に解釈することができる。また、評価指標の値が特に大きい属性群の組み合わせに対応する散布図のみをユーザに提示することができるので、可視化対象の高次元データのデータ数・次元数が大きくなっても、図そのものが煩雑になることがない。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年12月13日に出願された日本特許出願2012−272413を基礎とする優先権を主張し、その開示の全てをここに取り込む。
11 評価指標算出部
12 可視化処理部
101 データ・パラメータ入力部
102 決定木作成部
103 決定木記憶部
104 ツリービュー形式散布図作成部
105 画像出力部

Claims (9)

  1. 可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、前記第一の属性群と前記第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する評価指標算出部と、
    予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する可視化処理部とを備え
    前記画像情報は、前記条件付けを行うための分岐条件を含む
    ことを特徴とする可視化装置。
  2. 評価指標算出部は、第一の属性群で第二の属性群を条件付けする基準として二分木を用いる
    請求項1に記載の可視化装置。
  3. 評価指標算出部は、第一の属性群で第二の属性群を条件付けする基準として多分木を用いる
    請求項1に記載の可視化装置。
  4. 評価指標算出部は、特徴度合いを表す評価指標として相関係数を用いる
    請求項1から請求項3のうちのいずれか1項に記載の可視化装置。
  5. 評価指標算出部は、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、クラス分類の正解率を用いる
    請求項1から請求項3のうちのいずれか1項に記載の可視化装置。
  6. 評価指標算出部は、可視化対象となるデータに関してクラス情報が与えられているとき、特徴度合いを表す評価指標として、エントロピーを用いる
    請求項1から請求項3のうちのいずれか1項に記載の可視化装置。
  7. 可視化処理部は、評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する平行座標プロットをツリービュー形式で並べた画像情報を出力する
    請求項1から請求項6のうちのいずれか1項に記載の可視化装置。
  8. 可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、前記第一の属性群と前記第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出し、
    予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力し、
    前記画像情報は、前記条件付けを行うための分岐条件を含む
    ことを特徴とする可視化方法。
  9. コンピュータに、
    可視化対象となる高次元データのうち、1つまたは複数の属性を含む第一の属性群で条件付けした、1つまたは複数の属性を含む第二の属性群に関するデータについて、前記第一の属性群と前記第二の属性群との組み合わせそれぞれに対して特徴度合いを表す評価指標の値を算出する処理と、
    予め定められた基準をもとに評価指標の値が大きいと判断した、第一の属性群と第二の属性群との組み合わせに対応する二次元散布図をツリービュー形式で並べた画像情報を出力する処理とを実行させ
    前記画像情報は、前記条件付けを行うための分岐条件を含む
    ことを特徴とする可視化プログラム。
JP2014551875A 2012-12-13 2013-12-03 可視化装置、可視化方法および可視化プログラム Active JP6330665B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012272413 2012-12-13
JP2012272413 2012-12-13
PCT/JP2013/007078 WO2014091712A1 (ja) 2012-12-13 2013-12-03 可視化装置、可視化方法および可視化プログラム

Publications (2)

Publication Number Publication Date
JPWO2014091712A1 JPWO2014091712A1 (ja) 2017-01-05
JP6330665B2 true JP6330665B2 (ja) 2018-05-30

Family

ID=50934020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014551875A Active JP6330665B2 (ja) 2012-12-13 2013-12-03 可視化装置、可視化方法および可視化プログラム

Country Status (3)

Country Link
US (1) US10013469B2 (ja)
JP (1) JP6330665B2 (ja)
WO (1) WO2014091712A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016079909A1 (ja) * 2014-11-19 2016-05-26 日本電気株式会社 可視化装置、可視化方法および可視化プログラム
US11244401B2 (en) * 2015-10-30 2022-02-08 Hartford Fire Insurance Company Outlier system for grouping of characteristics
US10628456B2 (en) 2015-10-30 2020-04-21 Hartford Fire Insurance Company Universal analytical data mart and data structure for same
US10942929B2 (en) 2015-10-30 2021-03-09 Hartford Fire Insurance Company Universal repository for holding repeatedly accessible information
JP6567720B1 (ja) * 2018-03-27 2019-08-28 西日本電信電話株式会社 データ前処理装置、データ前処理方法及びデータ前処理プログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6750864B1 (en) * 1999-11-15 2004-06-15 Polyvista, Inc. Programs and methods for the display, analysis and manipulation of multi-dimensional data implemented on a computer
ATE488806T1 (de) 2000-03-16 2010-12-15 Poly Vista Inc System und methode zur analyse einer anfrage und zur erzeugung von antworten und damit verbundenen fragen
US6661362B2 (en) * 2000-09-11 2003-12-09 Broadcom Corporation Methods and systems for high speed quantizers
US6819344B2 (en) * 2001-03-12 2004-11-16 Microsoft Corporation Visualization of multi-dimensional data having an unbounded dimension
JP3897169B2 (ja) 2002-11-07 2007-03-22 富士電機ホールディングス株式会社 決定木生成方法およびモデル構造生成装置
US7557805B2 (en) * 2003-04-01 2009-07-07 Battelle Memorial Institute Dynamic visualization of data streams
US7797320B2 (en) * 2005-03-15 2010-09-14 Hyperion Solutions Corporation Dimensionality reduction
US20070005582A1 (en) * 2005-06-17 2007-01-04 Honeywell International Inc. Building of database queries from graphical operations
US20080071843A1 (en) * 2006-09-14 2008-03-20 Spyridon Papadimitriou Systems and methods for indexing and visualization of high-dimensional data via dimension reorderings
US20080111826A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Displaying resources using multiple visualization dimensions
US8640056B2 (en) * 2007-07-05 2014-01-28 Oracle International Corporation Data visualization techniques
JP5062556B2 (ja) 2007-05-29 2012-10-31 国立大学法人お茶の水女子大学 データベースを可視化するための画像生成方法を実行させるためのプログラム並びにデータベース表示装置
US8935249B2 (en) * 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8446412B2 (en) * 2008-06-26 2013-05-21 Microsoft Corporation Static visualization of multiple-dimension data trends
WO2010064939A1 (en) * 2008-12-05 2010-06-10 Business Intelligence Solutions Safe B.V. Methods, apparatus and systems for data visualization and related applications
US20100194778A1 (en) * 2009-01-30 2010-08-05 Microsoft Corporation Projecting data dimensions on a visualization data set
US20110029926A1 (en) * 2009-07-30 2011-02-03 Hao Ming C Generating a visualization of reviews according to distance associations between attributes and opinion words in the reviews
US7812838B1 (en) * 2010-01-12 2010-10-12 Rana Ian Typed data graph visualization system in three dimensions
CA2709507A1 (en) * 2010-07-14 2012-01-14 Oculus Info Inc. System and method for visualizing multi-dimensional data using shape attributes
US20120013619A1 (en) * 2010-07-14 2012-01-19 Richard Brath System and method for visualizing multi-dimensional data using shape attributes
US9799004B2 (en) * 2010-07-30 2017-10-24 Avaya Inc. System and method for multi-model, context-aware visualization, notification, aggregation and formation
US8615511B2 (en) * 2011-01-22 2013-12-24 Operational Transparency LLC Data visualization interface
US9342579B2 (en) * 2011-05-31 2016-05-17 International Business Machines Corporation Visual analysis of multidimensional clusters
US9064245B2 (en) * 2012-02-22 2015-06-23 Hewlett-Packard Development Company, L.P. Generating a calendar graphical visualization including pixels representing data records containing user feedback

Also Published As

Publication number Publication date
US10013469B2 (en) 2018-07-03
WO2014091712A1 (ja) 2014-06-19
US20150339364A1 (en) 2015-11-26
JPWO2014091712A1 (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
JP6330665B2 (ja) 可視化装置、可視化方法および可視化プログラム
Pagliosa et al. Projection inspector: Assessment and synthesis of multidimensional projections
Heimerl et al. embcomp: Visual interactive comparison of vector embeddings
Halim et al. Quantifying and optimizing visualization: An evolutionary computing-based approach
US10936971B2 (en) Optimization apparatus and optimization method for hyper parameter
Giannetti et al. A novel variable selection approach based on co-linearity index to discover optimal process settings by analysing mixed data
Young et al. Descriptive statistics, graphs, and visualisation
CN113158391A (zh) 多维网络节点分类的可视化方法、系统、设备和存储介质
JP5882272B2 (ja) 資料評価プログラムおよび資料評価装置
Kikuchi et al. Generative colorization of structured mobile web pages
Areosa et al. Explaining the performance of black box regression models
KR101774712B1 (ko) 특허청구범위 분석 방법 및 그 장치
JP7142325B2 (ja) 探索支援システム、探索システム及び探索支援方法
US11886513B2 (en) Data analysis system, data analysis method, and computer program product
WO2020054819A1 (ja) データ解析装置、データ解析方法及びプログラム
CN110168484B (zh) 信息提示装置、信息提示方法及计算机可读取的存储介质
Arastehfar et al. An evaluation methodology for design concept communication using digital prototypes
US10163236B1 (en) Visualization of data via manipulation of an object representing the data
JP7455086B2 (ja) 機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラム
Pimentel et al. Subgroup mining for performance analysis of regression models
Chandrasekar et al. Data Exploratory Analysis for Classification in Machine Learning Algorithms
Zhou et al. Visualizing confusion matrices for multidimensional signal detection correlational methods
Schader et al. LayoutExOmizer: Interactive exploration and optimization of 2d data layouts
JP6611865B1 (ja) 学習済みモデルを選定する方法、訓練データを生成する方法、学習済みモデルを生成する方法、コンピュータおよびプログラム
JP7095744B2 (ja) 予測状況可視化装置、予測状況可視化方法および予測状況可視化プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180409

R150 Certificate of patent or registration of utility model

Ref document number: 6330665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150