JP5392635B2 - 多次元データ可視化装置、方法およびプログラム - Google Patents

多次元データ可視化装置、方法およびプログラム Download PDF

Info

Publication number
JP5392635B2
JP5392635B2 JP2012022112A JP2012022112A JP5392635B2 JP 5392635 B2 JP5392635 B2 JP 5392635B2 JP 2012022112 A JP2012022112 A JP 2012022112A JP 2012022112 A JP2012022112 A JP 2012022112A JP 5392635 B2 JP5392635 B2 JP 5392635B2
Authority
JP
Japan
Prior art keywords
dimensional
low
parallel coordinate
data
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012022112A
Other languages
English (en)
Other versions
JP2013161226A (ja
Inventor
聡 森永
吉伸 河原
貴之 伊藤
雲珠 鄭
はるか 末松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OCHANOMIZU UNIVERSITY
NEC Corp
Original Assignee
OCHANOMIZU UNIVERSITY
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OCHANOMIZU UNIVERSITY, NEC Corp filed Critical OCHANOMIZU UNIVERSITY
Priority to JP2012022112A priority Critical patent/JP5392635B2/ja
Priority to PCT/JP2012/008195 priority patent/WO2013114509A1/ja
Priority to US13/977,186 priority patent/US20170032017A1/en
Priority to CN201280008211.9A priority patent/CN103354928B/zh
Publication of JP2013161226A publication Critical patent/JP2013161226A/ja
Application granted granted Critical
Publication of JP5392635B2 publication Critical patent/JP5392635B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Description

本発明は、多次元データ可視化装置、多次元データ可視化方法および多次元データ可視化プログラムに関し、特に、人間が一度に全体を把握することが困難な高次元データの分布を、複数のPCP(Parallel Coordinates Plot )で表現することで可視化する多次元データ可視化装置、方法およびプログラムに関する。
近年の急速なデータインフラストラクチャの整備に伴い、大規模で大量なデータを効率的に処理することが、産業の重要課題の一つとなっている。データ分析においてはデータの分布や統計的な性質を分析者が理解することが極めて重要であり、そのためにデータを可視化する技術が重要である。そして、データの次元が3次元より大きい場合には、散布図等を用いてデータを直接可視化することができないため、高次元データを可視化する方法を実現することは、可視化技術の大きな課題の一つである。
多次元データの可視化技術として、Scatter Plot Matrix (以下、SP Matrix と記す。)が挙げられる。SP Matrix では、画面を格子状に分割し、多次元データから得られる複数の二次元散布図(Scatter Plot。以下、SPと記す場合がある。)を、分割後の領域に配置する。Scatter Plot Matrix による多次元データの可視化の例を図7に例示する。図7は、13次元データをScatter Plot Matrix によって可視化した場合の例を示す。
また、多次元データの可視化技術の他の例として、PCP(Parallel Coordinates Plot :平行座標プロット)が挙げられる(非特許文献1参照)。PCPは、個々の次元に対する軸を平行に配置し、各軸上の値を軸間の線分で結ぶことによって多次元データを可視化するグラフである。図8は、図7で表した13次元データを表現したPCPの例である。
また、複数のグラフのレイアウトに関する技術が、非特許文献2に記載されている。
また、本発明に関連する技術として、Isomapが非特許文献3に記載されている。
Alfred Inselberg, Bernard Dimsdale, "Parallel Coordinates: A Tool for Visualizing Multi-dimensional Geometry", IEEE Visualization ‘90 T.Itoh, C.Muelder, K.-L.Ma, J.Sese, "A Hybrid Space-Filling and Force-Directed Layout Method for Visualizing Multiple-Category Graphs", IEEE Pacific Visualization Symposium, pp.121-128, 2009年 J.B.Tenenbaum, V.de Silva, C.Langford, "A Global Geometric Framework for Nonlinear Dimensionality Reduction", Science Vol.290(5500) pp.2319-2323, 2000年12月22日
SP Matrix では、多次元データから得られる複数の二次元散布図を格子状に配置するので、データの次元が高くなると(例えば、データが数十次元を超えると)各格子のサイズが小さくなり、可視性が低下してしまう。
そのため、SP Matrix と次元選択とを組み合わせることも考えられる。例えば、入力データが100次元である場合、そのうちの10次元のみを選択してSP Matrix で表示することも考えられる。しかし、選択された次元のほとんどのペアには情報が少ないケースが多いという問題や、二次元散布図間の関係性(すなわち、入力次元の間の関係性)が理解しにくいという問題がある。以下、このような問題の例を示す。図9は、図7に示すデータと同様のデータに関し、クラスラベルエントロピーが低いサブプロット(換言すれば、各クラスのデータが良好に分離できているサブプロット)の上位5件をハイライト表示によって示す図である。図9からわかるように、SP Matrix では同様の情報を持っているサブプロットが必ずしも近い位置に表示されない。そのため、各入力次元(すなわち、入力された多次元データにおける各次元)間の関係性を理解することが極めて困難である。
また、PCP(図8参照)では、以下のような問題がある。PCPでは、隣り合わない軸の関係がわかりにくいため、3軸以上と高い相関性を有するデータにおいて、現象を十分に表現できない。また、次元数が大きくなると、横方向に非常に長い画面空間を必要とするという問題も生じる。
そこで、本発明は、高次元データの入力空間におけるデータの分布を入力次元間の関係性がわかるように可視化することができる多次元データ可視化装置、多次元データ可視化方法および多次元データ可視化プログラムを提供することを目的とする。
本発明による多次元データ可視化装置は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成手段と、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出手段と、特徴量算出手段によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出手段とを備えることを特徴とする。
また、本発明による多次元データ可視化方法は、多次元データ可視化装置が、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成するステップと、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出するステップと、その特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出するステップとを実行することを特徴とする。
また、本発明による多次元データ可視化プログラムは、コンピュータに、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成処理、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出処理、および、特徴量算出処理で算出した特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出処理を実行させることを特徴とする。
本発明によれば、高次元データの入力空間におけるデータの分布を、入力次元間の関係性がわかるように可視化することができる。
本発明によって出力される画面の例を模式的に示す模式図である。 本発明の多次元データ可視化装置の例を示すブロック図である。 高次元データのPCP、およびその高次元データから得られる複数の低次元PCPの例を示す説明図である。 本発明の処理経過の例を示すフローチャートである。 低次元PCP生成装置103の構成例を示すブロック図である。 本発明の多次元データ可視化装置の最小構成の例を示すブロック図である。 Scatter Plot Matrix による多次元データの可視化の例を示す説明図である。 PCPの例を示す説明図である。 図7に示すデータと同様のデータに関し、クラスラベルエントロピーが低いサブプロットの上位5件をハイライト表示した図である。
以下、本発明の実施形態を図面を参照して説明する。
本発明による多次元データ可視化装置は、多次元データから、その多次元データの次元数よりも低い次元のPCP(低次元PCPまたは低次元平行座標プロットと記す場合がある。)を複数生成する。そして、多次元データ可視化装置は、図1に例示するように、複数の低次元PCPを画面上に配置することによって、多次元データを可視化する。
また、本発明による多次元データ可視化装置は、複数の低次元PCPを画面上に配置する際、類似した特徴を持つ低次元PCP同士を近くに配置する。その結果、低次元PCPの配置によって入力次元(入力された多次元データにおける各次元)の関係性を表現することができる。
図2は、本発明の多次元データ可視化装置の例を示すブロック図である。本発明の多次元データ可視化装置1は、データ入力装置101と、入力データ記憶部102と、低次元PCP生成装置103と、PCP間特徴量算出装置104と、座標最適化装置105と、出力装置106とを備える。
多次元データ可視化装置1には、入力データ107が入力され、最適可視化出力108を出力する。入力データ107は多次元データであり、最適可視化出力108は、その多次元データに基づいて生成した複数の低次元PCPの配置結果である。
データ入力装置101は、入力データ107を入力するためのインタフェース装置である。上記のように、入力データ107は多次元データである。入力データ107として入力される多次元データがD次元の多次元データであるものとして説明する。また、入力データ107として入力される多次元データのデータ数をNとする。
多次元データの例として、以下のようなデータが挙げられる。例えば、D個のセンサを有するN台の自動車から、N個の点を有するD次元データが得られる。また、例えば、D種類の健康診断情報を有するN人の患者から、N個の点を有するD次元データが得られる。このような、N個のD次元データを入力データ107として用いることができる。ただし、ここで示した2種類のD次元データは例示であり、入力データ107は、上記の例に限定されない。
データ入力装置101には、入力データ107の入力時に、分析に必要なパラメータが合わせて入力されてもよい。分析に必要なパラメータの例として、例えば、後述するPCP間特徴量の種類を指定するパラメータ等が挙げられる。また、例えば、座標最適化装置105が主成分分析またはIsomapを利用する場合には、主成分分析またはIsomapの入力パラメータ等が挙げられる。ただし、入力データ107とともに入力されるパラメータの種類は、特に限定されない。
入力データ記憶部102は、データ入力装置101に入力された入力データ107を記憶する記憶装置である。
低次元PCP生成装置103は、予め定められた方法で、高次元データ(具体的には、入力データ107として入力されたD次元データ)に対する低次元PCPを生成する。
図3は、高次元データのPCP、およびその高次元データから得られる複数の低次元PCPの例を示す説明図である。図3の上段は、高次元データのPCPとして、10次元データのPCPを表している。この10次元データのPCPにおいて、軸1〜10は、相関性の高いものが隣同士になるように配置されている。しかし、この10次元データのPCP(図3の上段参照)において、軸3は軸2,4以外の軸とも高い相関性を有しているが、図3の上段に示すPCPからそのことを読み取ることは難しい。一方、例えば、図3の下段に示すように、軸3が複数の低次元データで重複するようにして、上記の10次元データのPCPを3つの低次元PCPに分割したとする。この場合、多くの軸と相関性を有する軸3の特性を適切に表現することができる。
低次元PCP生成装置103は、低次元PCPを生成する際に、どの軸とも相関性を有さない軸を表示から割愛してもよい。このようにどの軸とも相関性を有さない軸をいずれの低次元PCPにも含めないことで、可視化する意義の高い情報だけを表示することができる。
また、図3の上段に示すように10次元データのPCPは横長のグラフとなるが、低次元PCPに分割することで、例えば、表示用ディスプレイ装置の大きさや縦横比に合わせて、効率的な画面空間の活用が可能となる。
PCP間特徴量算出装置104は、低次元PCP生成装置103によって生成された各低次元PCP間に対して、低次元PCP間の関係性を表す特徴量(以下、PCP間特徴量と記す。)を、予め定められた方法で算出する。すなわち、PCP間特徴量算出装置104は、一対の低次元PCPの組毎に、対をなす低次元PCPにおけるPCP間特徴量を算出する。PCP間特徴量は、どのような観点で低次元PCPを画面上に配置して可視化するかに応じて定められる。
PCP間特徴量の例について、図1を参照して説明する。図1に示すPCP1,2,3や、図1内の他のPCPは、それぞれ低次元PCPである。また、説明を簡単にするため、図1においてPCP1,2の軸に軸番号を付している。PCP1とPCP2は、多くの軸を共有する。具体的には、PCP1,2はともに5本の軸を有するが、5本中、3本の軸(すなわち、軸1,4,6)が共通である。従って、画面上でPCP1,2を近くに配置することで、どのような部分空間で相関が現れているかを可視化することが可能となる。一方、PCP3は、PCP1およびPCP2とは相関の傾向が異なるため、PCP3は、画面内においてPCP1およびPCP2から離れた位置に配置することが好ましい。PCP間特徴量算出装置104は、このような配置を可能にするためのPCP間特徴量を、例えば、以下のように算出すればよい。PCP間特徴量算出装置104は、各低次元PCPに対してクラスラベル毎に相関係数を算出し、クラスラベル毎の相関係数をベクトル化したベクトル(以下、相関係数ベクトルと記す。)を算出する。そして、PCP間特徴量算出装置104は、一対の低次元PCPの組毎に相関係数ベクトルの距離を算出すればよい。このようにして算出した相関係数ベクトルの距離は、PCP間特徴量として利用することができる。
PCP間特徴量算出装置104によるクラスラベル毎の相関係数の算出例を説明する。ここでは、3つの軸(軸a〜cとする。)に着目した場合を例にして説明する。また、軸a〜cは、低次元PCP内で、例えば左側から順序付けられているものとする。
PCP間特徴量算出装置104は、この3軸について、順序が隣り合う軸間の相関係数をそれぞれ算出し、その相関係数の平均を算出してもよい。本例では、PCP間特徴量算出装置104は、軸a,b間の相関係数、および、軸b,c間の相関係数を算出し、その相関係数の平均を算出してもよい。
あるいは、PCP間特徴量算出装置104は、上記の3軸について、対になる軸の全ての組について軸間の相関係数を算出し、その相関係数の平均を算出してもよい。本例では、PCP間特徴量算出装置104は、軸a,b間の相関係数、軸b,c間の相関係数、および、軸a,c間の相関係数を算出し、その相関係数の平均を算出してもよい。
あるいは、PCP間特徴量算出装置104は、共分散行列の固有値を相関係数として利用してもよい。本例では、PCP間特徴量算出装置104は、上記の3本の軸a〜cから、共分散行列(この場合、3×3の行列)を算出し、その共分散行列の固有値、あるいはその共分散行列の固有値の平方根を相関係数として利用してもよい。
なお、上記の相関係数の各算出方法は例示であり、相関係数の算出方法は上記の例に限定されない。
また、上述の相関係数ベクトルの距離は、PCP間特徴量の一例であり、PCP間特徴量として、相関係数ベクトルの距離以外の値を算出してもよい。なお、上記の例では、PCP間特徴量を求めるために相関係数ベクトルを用いる場合を説明したが、相関係数ベクトル以外のベクトルからPCP間特徴量を算出してもよい。PCP間特徴量を算出するために低次元PCP毎に求めるベクトルを、PCP間特徴量ベクトルと記す。上記の相関係数ベクトルは、PCP間特徴量ベクトルの一例である。
また、PCP間特徴量算出装置104は、データ入力装置101に入力されるパラメータに応じて、算出するPCP間特徴量の種類を変更してもよい。
座標最適化装置105は、PCP間特徴量算出装置104によって算出されたPCP間特徴量に基づいて、低次元座標空間における各低次元PCPの配置を最適化する。例えば、二次元空間において各低次元PCPを配置するために最適な座標を決定する。
各低次元PCPの最適な座標の算出方法として、主成分分析やIsomap(非特許文献3参照)等に代表される次元圧縮技術を利用することができる。以下、各低次元PCPを配置するための最適な座標の算出方法の例を説明する。
まず、主成分分析を利用した座標算出方法の例を説明する。この方法では、座標最適化装置105は、PCP間特徴量ベクトルから共分散行列を算出する。次に、座標最適化装置105は、その共分散行列の固有値問題を解くことによって、主成分ベクトルを算出する。そして、座標最適化装置105は、指定された主成分ベクトル(例えば、上位2次元主成分ベクトル)の方向にPCP間特徴量ベクトルを射影することによって、低次元PCPの最適な座標を算出すればよい。
次に、Isomapを利用した座標算出方法の例を説明する。この方法では、座標最適化装置105は、PCP間特徴量ベクトルから距離行列を算出する。距離行列を求めるために用いる距離として、例えば、ユークリッド距離やグラフを利用した測地距離が代表例として挙げられる。座標最適化装置105は、算出した距離行列に対する固有値問題を解くことにより、PCP間特徴量ベクトルの埋め込み座標(低次元の座標)を算出すればよい。
また、非特許文献2に記載された技術を利用して各低次元PCPを配置するための座標を算出してもよい。この方法では、座標最適化装置105は、各低次元PCPを連結するネットワーク構造を生成する。このネットワーク構造の生成方法の例として、例えば、任意の低次元PCPのペアのうち、相関係数ベクトルの距離が近い一定個数のペアをリンクで連結する方法が挙げられる。なお、相関係数ベクトルの距離が近いか否かは、相関係数ベクトルの距離と閾値とを比較することによって判定すればよい。続いて、座標最適化装置105は、生成したリンクにバネと同様の力学を想定し、運動方程式の反復計算によって、低次元空間における各PCPの仮の位置を決定する。さらに、座標最適化装置105は、この仮の位置を参照して長方形空間充填手法を適用することで、低次元空間における各低次元PCPの位置を決定すればよい。
また、主成分分析またはIsomapを利用して各低次元PCPの座標を算出した後、非特許文献2に記載された技術を適用してもよい。この場合、主成分分析またはIsomapを利用して算出した座標に配置した低次元PCPを連結するネットワーク構造を生成して、上記と同様の処理を行えばよい。このように、主成分分析またはIsomapを利用して各低次元PCPの座標を算出した後、ネットワーク構造を生成し、上記のように各低次元PCPの位置を決定することにより、低次元PCPの配置位置を最適化することができ、各低次元PCPの見やすさを向上させることができる。
出力装置106は、算出された低次元PCPおよびその配置を、最適可視化出力108として出力する。例えば、出力装置106は、各低次元PCPをその最適な座標に配置した画像を出力すればよい。なお、出力装置106は、そのような画像を例えばディスプレイ装置上に表示すればよいが、出力装置106による出力態様は特に限定されない。例えば、出力装置106は、画像を印刷によって出力してもよい。
データ入力装置101,入力データ記憶部102、低次元PCP生成装置103、PCP間特徴量算出装置104、座標最適化装置105および出力装置106は、それぞれ独立した装置であってもよい。あるいは、これらの各装置が、データ入力装置101となるインタフェース装置や入力データ記憶部102となる記憶装置を備えたコンピュータによって実現されてもよい。この場合、コンピュータが多次元データ可視化プログラムを読み込み、そのプログラムに従って、上記の各装置の動作を実現すればよい。
次に、本発明の処理経過について説明する。図4は、本発明の処理経過の例を示すフローチャートである。データ入力装置101に入力データ107が入力されると、入力データ記憶部102はその入力データ107を記憶する(ステップS1)。
次に、低次元PCP生成装置103が、その入力データ107に基づいて、複数の低次元PCPを算出する(ステップS2)。
次に、プロット間特徴量算出装置104が、一対の低次元の組毎に、PCP間特徴量を算出する(ステップS3)。
次に、座標最適化装置105が、ステップS3で算出されたPCP間特徴量を用いて、各低次元PCPの低次元座標を算出する(ステップS4)。
そして、出力装置106が最適可視化出力108を出力する(ステップS5)。出力装置106は、各低次元PCPをその最適な低次元座標に配置した画像を出力する。
次に、複数の低次元PCPを算出する低次元PCP生成装置103の構成例について説明する。図5は、低次元PCP生成装置103の構成例を示すブロック図である。低次元PCP生成装置103は、データ入力装置201と、入力データ記憶部202と、次元分割装置203と、低次元PCP構築装置204と、出力装置205とを備える。
データ入力装置201は、入力データ206を入力するためのインタフェース装置である。ここで、入力データ206は、入力データ記憶部102(図1参照)に記憶された多次元データ(D次元データ)である。この多次元データは、多次元データ可視化装置1(図1参照)に入力された多次元データであり、この多次元データのデータ数はNである。なお、データ入力装置201には、分析に必要なパラメータが合わせて入力されてもよい。
入力データ記憶部202は、入力データ206として入力された多次元データを記憶する低次元PCP生成装置103内の記憶装置である。
次元分割装置203は、多次元データを構成するD個の次元を、少数の次元で構成される複数のグループに分割する。このグループの数をMとする。また、次元分割装置203は、D個の次元を複数のグループに分割する場合、以下の第1および第2の条件を満たすように分割する。第1の条件は、分割された個々のグループにおいて、同一のグループに属する次元同士は、できるだけ情報(例えば、相関性や分離性)を有するという条件である。第2の条件は、異なるグループに属する次元同士は、できるだけ情報を有さないという条件である。
このような条件を満たすようにD個の次元を複数のグループに分割する場合、次元分割装置203は、以下のように動作すればよい。以下に示す次元分割装置203の動作では、条件付き独立性の概念を導入している。また、ここでは、観測データの各次元に対応する変数の数をD個として説明する。次元分割装置203は、D個の変数の任意の組み合わせに対して条件付き独立性となるか否かを判定する。そして、次元分割装置203は、任意の変数集合を与えたときに互いに独立とならない2変数が同じグループに属するようにグループを生成する。その際、変数が多いときには変数の組み合わせの数が多くなり、計算量が極めて多くなることを防ぐため、劣モジュラ性の概念を導入してもよい。
次元分割装置203は、以下のように条件付き独立性を判定する。D個の変数において互いに重ならない任意の3つの部分集合を与えたとき、その3つの集合をX_A,X_B,X_Cとする。次元分割装置203は、それらの集合を用い手計算される条件付き相互情報量I(X_A,X_B|X_C)を計算する。そして、その条件付き相互情報量の値が極めて0に近い値である場合、次元分割装置203は、変数集合X_AとX_Bは、X_Cを与えたときに条件付き独立になると判定すればよい。なお、条件付き相互情報量の値が極めて0に近い値であるか否かは、条件付き相互情報量の値と、予め定められた閾値との比較により判定すればよい。
具体例として、次元分割装置203が5個の変数{X_1,X_2,・・・,X_5}をグループ分けする場合を例示する。まず、次元分割装置203は、条件とする変数集合を{X_1,X_2}とする。なお、「条件とする変数集合」は、上記のX_Cに相当する。次元分割装置203は、条件とする変数集合を貪欲的に定める。次元分割装置203は、条件付き相互情報量I(X_3,{X_4,X_5}|{X_1,X_2})を計算し、この値が0(0に極めて近い値でもよい。)になったとする。この場合、次元分割装置203は、「条件とする変数集合」以外の2つの集合にそれぞれ、「条件とする変数集合」を追加することによって、元の変数の集合を2つの集合に分解する。本例では、次元分割装置203は、5個の変数の集合を、{X_1,X_2,X_3}と、{X_1,X_2,X_4,X_5}とに分解する。そして、次元分割装置203は、分解によって得られた変数の集合に対して、同様の処理を繰り返す。分解後の変数の集合について、それ以上分解を行えない場合には、その変数の集合については、上記の繰り返し処理を終了すればよい。例えば、上記の例において、次元分割装置203が、{X_1,X_2,X_4,X_5}をさらに、{X_1,X_4}と、{X_2,X_4,X_5}とに分解したとする。そして、例えば、{X_1,X_2,X_3},{X_1,X_4},{X_2,X_4,X_5}のいずれについてもそれ以上分解できなくなったならば、次元分割装置203は、変数の集合の分解を終了する。この例では、5個の変数が3つのグループに分けられることになる。
低次元PCP構築装置204は、次元分割装置203の分割処理によって得られた個々のグループ毎に、グループに属する変数に対応する次元を用いて、低次元PCPを構築する。例えば、1つのグループ{X_1,X_4}に関して、低次元PCP構築装置204は、変数X_1に対応する軸と、変数X_4に対応する軸とを含む低次元PCPを生成する。他のグループに関しても、それぞれ同様に低次元PCPを生成する。
出力装置205は、低次元PCP構築装置204によって得られた低次元PCP生成結果207(すなわち、低次元PCP構築装置204が生成した各低次元PCP)を、PCP間特徴量算出装置104(図2参照)に出力する。
このように、図5に例示する構成の低次元PCP生成装置103によって、D次元データから複数の低次元PCPを生成することができる。
また、低次元PCP生成装置103において、データ入力装置201、入力データ記憶部202、次元分割装置203、低次元PCP構築装置204、出力装置205は、それぞれ独立した装置であってもよい。あるいは、これらの各装置が、図2に示す各装置とともに、多次元データ可視化プログラムに従って動作するコンピュータによって実現されてもよい。
本発明によれば、低次元PCPを所望の観点で配置するための指標となる特徴量をPCP間特徴量算出装置104が算出する。そして、座標最適化手段105が、その特徴量を用いて、低次元空間において低次元PCPを配置するための座標を算出する。従って、入力された多次元データにおける入力次元間の関係性がわかるようにデータの分布を可視化することができる。また、特徴量の種類を変更することによって、どのような観点で高次元データを可視化するかを調整することができる。
また、多次元データをそのままPCPで表すと、一画面内に収まらないほど横方向に長いPCPが生成されることになる。本発明では、多次元データから複数の低次元PCPを生成するので、個々の低次元PCPの横幅が長くなることを防ぐことができる。そして、そのような低次元PCPを画面内に配置するので、多次元データを可視化する際に、一画面に収まらないような横長のPCPで多次元データを提示することを防ぐことができる。
また、本発明では、複数の低次元PCPで同一の軸を重複させることによって、3軸以上との間で高い相関性を有する軸であっても、各軸との相関性を適切に表現することができる。
以下、本発明の最小構成について説明する。図6は、本発明の多次元データ可視化装置の最小構成の例を示すブロック図である。多次元データ可視化装置は、低次元平行座標プロット生成手段71と、特徴量算出手段72と、座標算出手段73とを備える。
低次元平行座標プロット生成手段71(例えば、低次元PCP生成装置103)は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロット(低次元PCP)を複数生成する。
特徴量算出手段72(例えば、PCP間特徴量算出装置104)は、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する。
座標算出手段73(例えば、座標最適化装置105)は、特徴量算出手段72によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する。
そのような構成によって、高次元データの入力空間におけるデータの分布を、入力次元間の関係性がわかるように可視化することができる。
また、低次元平行座標プロット生成手段71が、入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化手段(例えば、次元分割装置203)と、変数グループ化手段によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出手段(例えば、低次元PCP構築装置204)とを含み、変数グループ化手段が、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるようにその複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、分割処理を行うことを繰り返す構成であってもよい。
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成部と、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出部とを備えることを特徴とする多次元データ可視化装置。
(付記2)低次元平行座標プロット生成部は、入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化部と、前記変数グループ化部によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出部とを含み、前記変数グループ化部は、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す請求項1に記載の多次元データ可視化装置。
本発明は、多次元データを人間が把握しやすくするように可視化する多次元データ可視化装置に好適に適用される。
1 多次元データ可視化装置
101 データ入力装置
102 入力データ記憶部
103 低次元PCP生成装置
104 PCP間特徴量算出装置
105 座標最適化装置
106 出力装置
201 データ入力装置
202 入力データ記憶部
203 次元分割装置
204 低次元PCP構築装置
205 出力装置

Claims (6)

  1. 入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成手段と、
    一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出手段と、
    前記特徴量算出手段によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出手段とを備える
    ことを特徴とする多次元データ可視化装置。
  2. 低次元平行座標プロット生成手段は、
    入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化手段と、
    前記変数グループ化手段によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出手段とを含み、
    前記変数グループ化手段は、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す
    請求項1に記載の多次元データ可視化装置。
  3. 多次元データ可視化装置が、
    入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成するステップと
    一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出するステップと
    前記特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出するステップと
    を実行することを特徴とする多次元データ可視化方法。
  4. 多次元データ可視化装置が、
    入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化処理を実行するステップと
    前記変数グループ化処理で得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出するステップとを実行し
    前記変数グループ化処理で、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す
    請求項3に記載の多次元データ可視化方法。
  5. コンピュータに、
    入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成処理、
    一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出処理、および、
    前記特徴量算出処理で算出した特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出処理
    を実行させるための多次元データ可視化プログラム。
  6. コンピュータに、
    低次元平行座標プロット生成処理で、
    入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化処理、および、
    前記変数グループ化処理で得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出処理を実行させ、
    前記変数グループ化処理で、
    複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を実行させ、分割処理後の各グループに属する変数に対して、前記分割処理を実行することを繰り返させる
    請求項5に記載の多次元データ可視化プログラム。
JP2012022112A 2012-02-03 2012-02-03 多次元データ可視化装置、方法およびプログラム Active JP5392635B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012022112A JP5392635B2 (ja) 2012-02-03 2012-02-03 多次元データ可視化装置、方法およびプログラム
PCT/JP2012/008195 WO2013114509A1 (ja) 2012-02-03 2012-12-21 多次元データ可視化装置、方法およびプログラム
US13/977,186 US20170032017A1 (en) 2012-02-03 2012-12-21 Multidimensional data visualization apparatus, method, and program
CN201280008211.9A CN103354928B (zh) 2012-02-03 2012-12-21 多维度数据可视化设备、方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012022112A JP5392635B2 (ja) 2012-02-03 2012-02-03 多次元データ可視化装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013161226A JP2013161226A (ja) 2013-08-19
JP5392635B2 true JP5392635B2 (ja) 2014-01-22

Family

ID=48904598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012022112A Active JP5392635B2 (ja) 2012-02-03 2012-02-03 多次元データ可視化装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20170032017A1 (ja)
JP (1) JP5392635B2 (ja)
CN (1) CN103354928B (ja)
WO (1) WO2013114509A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6018014B2 (ja) * 2013-04-24 2016-11-02 日本電信電話株式会社 情報処理装置、特徴量変換システム、表示制御方法及び表示制御プログラム
WO2015017632A1 (en) * 2013-07-31 2015-02-05 The Johns Hopkins University Advanced treatment response prediction using clinical parameters and advanced unsupervised machine learning: the contribution scattergram
CN103700060B (zh) * 2013-12-26 2016-09-21 北京大学 一种海量任意形状多边形的快速可视化方法
CN104484326B (zh) * 2014-09-30 2018-08-21 天津大学 一种基于可视分析的文物集成信息的交互探索方法
JP6336881B2 (ja) * 2014-10-20 2018-06-06 日本電子株式会社 散布図表示装置、散布図表示方法、および表面分析装置
CN104750847B (zh) * 2015-04-10 2018-07-06 河海大学 一种基于动态平行坐标的关联规则可视化系统及方法
JP6532762B2 (ja) * 2015-06-02 2019-06-19 株式会社東芝 情報生成システム、装置、方法、及びプログラム
CN106599234A (zh) * 2016-12-20 2017-04-26 深圳飓风传媒科技有限公司 基于多维标识的数据可视化处理方法和系统
CN106845314B (zh) * 2016-12-28 2019-07-12 广州智慧城市发展研究院 一种二维码的快速定位方法
US11164082B2 (en) 2017-02-28 2021-11-02 Anixa Diagnostics Corporation Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis
US9934364B1 (en) 2017-02-28 2018-04-03 Anixa Diagnostics Corporation Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis
US11620315B2 (en) * 2017-10-09 2023-04-04 Tableau Software, Inc. Using an object model of heterogeneous data to facilitate building data visualizations
WO2019173233A1 (en) * 2018-03-05 2019-09-12 Anixa Diagnostics Corporation Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis
CN108428209B (zh) * 2018-03-28 2022-02-15 深圳大学 高维数据可视化方法、装置及系统
CN109753547B (zh) * 2018-11-19 2020-09-11 浙江财经大学 基于平行坐标轴排列地理空间多维数据可视分析方法
US11275346B2 (en) 2018-12-03 2022-03-15 DSi Digital, LLC Data interaction platforms utilizing dynamic relational awareness
US11016988B1 (en) 2018-12-19 2021-05-25 Airspeed Systems LLC Matched array flight alignment system and method
US10803085B1 (en) 2018-12-19 2020-10-13 Airspeed Systems LLC Matched array airspeed and angle of attack alignment system and method
US11010940B2 (en) 2018-12-19 2021-05-18 EffectiveTalent Office LLC Matched array alignment system and method
US10896529B1 (en) 2018-12-19 2021-01-19 EffectiveTalent Office LLC Matched array talent architecture system and method
US11010941B1 (en) 2018-12-19 2021-05-18 EffectiveTalent Office LLC Matched array general talent architecture system and method
US11574560B2 (en) 2019-04-16 2023-02-07 International Business Machines Corporation Quantum state visualization device
CN110096500B (zh) * 2019-05-07 2022-10-14 上海海洋大学 一种面向海洋多维数据的可视分析方法及系统
CN111488502A (zh) * 2020-04-10 2020-08-04 山西大学 基于Isomap算法布局的低维平行坐标图构建方法
US11893666B2 (en) * 2022-01-19 2024-02-06 International Business Machines Corporation Parallel chart generator

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4155363B2 (ja) * 1997-06-19 2008-09-24 富士通株式会社 データ表示装置、データ表示方法、およびデータ表示用プログラムを記録した記録媒体
US5917500A (en) * 1998-01-05 1999-06-29 N-Dimensional Visualization, Llc Intellectual structure for visualization of n-dimensional space utilizing a parallel coordinate system
JP2001282819A (ja) * 2000-01-28 2001-10-12 Fujitsu Ltd データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム
CN101510291A (zh) * 2008-02-15 2009-08-19 国际商业机器公司 多维数据的可视化方法及装置
CN101266607A (zh) * 2008-05-09 2008-09-17 东北大学 基于最大间隙空间映射的高维数据索引方法
CN102707917B (zh) * 2012-05-23 2015-03-25 中国科学院对地观测与数字地球科学中心 一种高维数据可视化方法及装置

Also Published As

Publication number Publication date
CN103354928A (zh) 2013-10-16
CN103354928B (zh) 2015-06-24
US20170032017A1 (en) 2017-02-02
WO2013114509A1 (ja) 2013-08-08
JP2013161226A (ja) 2013-08-19

Similar Documents

Publication Publication Date Title
JP5392635B2 (ja) 多次元データ可視化装置、方法およびプログラム
Amaro et al. Filtering variational quantum algorithms for combinatorial optimization
Ibrahim et al. 3D-RadVis: Visualization of Pareto front in many-objective optimization
Le et al. A flexible representation of quantum images for polynomial preparation, image compression, and processing operations
Lespinats et al. DD-HDS: A method for visualization and exploration of high-dimensional data
Figueira et al. A parallel multiple reference point approach for multi-objective optimization
Furukawa SOM of SOMs
JPWO2013114510A1 (ja) 多次元データ可視化装置、方法およびプログラム
Heinrich et al. The Parallel Coordinates Matrix.
Paetznick et al. Quantum circuit optimization by topological compaction in the surface code
Krivulin An algebraic approach to multidimensional minimax location problems with Chebyshev distance
Salazar-Castro et al. Interactive interface for efficient data visualization via a geometric approach
US8583719B2 (en) Method and apparatus for arithmetic operation by simultaneous linear equations of sparse symmetric positive definite matrix
Molnár et al. Transformations on positive definite matrices preserving generalized distance measures
Zhu et al. Computer-aided mobility analysis of parallel mechanisms
JP2018163396A (ja) 区分線形近似関数生成装置および方法
Rams et al. Heuristic optimization and sampling with tensor networks for quasi-2D spin glass problems
Lespinats et al. RankVisu: Mapping from the neighborhood network
Hassan et al. A novel scalable multi-class ROC for effective visualization and computation
Olteanu et al. Using SOMbrero for clustering and visualizing graphs
Prusinkiewicz et al. L-systems in geometric modeling
JP6104469B2 (ja) 行列生成装置及び行列生成方法及び行列生成プログラム
Nasrolahzadeh et al. Pareto-radvis: A novel visualization scheme for many-objective optimization
Kwon et al. A deep generative model for reordering adjacency matrices
Kurapov et al. The topological drawing of a graph: Construction methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130621

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130621

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131003

R150 Certificate of patent or registration of utility model

Ref document number: 5392635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250