JP2019174947A - 視覚化装置、方法およびプログラム - Google Patents

視覚化装置、方法およびプログラム Download PDF

Info

Publication number
JP2019174947A
JP2019174947A JP2018059929A JP2018059929A JP2019174947A JP 2019174947 A JP2019174947 A JP 2019174947A JP 2018059929 A JP2018059929 A JP 2018059929A JP 2018059929 A JP2018059929 A JP 2018059929A JP 2019174947 A JP2019174947 A JP 2019174947A
Authority
JP
Japan
Prior art keywords
dimension
cluster
graph
node
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018059929A
Other languages
English (en)
Inventor
浩嗣 玉野
Koji Tamano
浩嗣 玉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2018059929A priority Critical patent/JP2019174947A/ja
Publication of JP2019174947A publication Critical patent/JP2019174947A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 2次元バイナリデータが示す内容であって2つの次元にまたがる要素間の関係性を含む内容を、人が容易に把握できるようにする。【解決手段】 本発明の視覚化装置60は、2次元バイナリデータを入力するデータ入力手段61と、2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成するクラスタリング手段62と、クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成するグラフ作成手段63とを備える。【選択図】図17

Description

本発明は、2次元バイナリデータを視覚化するための視覚化装置、2次元バイナリデータの視覚化方法および2次元バイナリデータの視覚化プログラムに関する。
世の中には、0と1で表される2次元バイナリデータが数多く存在している。図18は、2次元バイナリデータの一例を示す説明図である。なお、図18では、2次元バイナリデータの表記方法として、バイナリ行列データを利用している。
図18(a)に示す例は、学習者(人)と問題(事柄)の2つの次元を有するテストの正解/不正解データである。また、図18(b)に示す例は、ユーザ(人)と商品(物)の2つの次元を有する、商品の購入履歴データである。この他にも、ユーザの視聴履歴データのように、ユーザと対象物(映像、楽曲、番組、レンタルDVD等)の2つの次元を有する2次元バイナリデータや、旅行先の統計データのように、人(またはその属性)と場所(国や地域)の2つの次元を有する2次元バイナリデータなども一例として挙げられる。なお、2次元バイナリデータは、バイナリ行列としたときに要素に欠損があってもよい。その際、欠損位置は特に限定されない。以下、このような2つの物事の掛け合わせ(組み合わせ)で示される現象が0と1のような二値のみで表現されるデータを、2次元バイナリデータと呼ぶ。
このような多種多様な2次元バイナリデータを、人が容易に理解できるように視覚的に表現する(視覚化する)ことが望まれている。特に、2次元バイナリデータ全体が示す内容(例えば、2つの次元の各要素の組み合わせからなる現象全体における物事(要素)間の関係性(類否関係や相関関係等))を、人が理解できるように視覚化することが望まれている。
2次元バイナリデータの視覚化方法のうち簡易な方法としては、各次元で統計情報を取り、それらを2次元バイナリデータに付与して表示する方法や(図19参照)、2次元マッピングして表示する方法がある。また、他の方法としては、各次元に対応した単層または階層型のクラスタリングを行い、その結果を表示する方法(図20参照)が挙げられる。
また、多次元データの可視化技術に関して、例えば、特許文献1には、複数の文書の分類結果を、文書集合全体に対する一貫性を損なうことなく表示するための方法が記載されている。特許文献1に記載の方法は、例えば、2つの文書ユニットの集合がある場合に、それぞれの集合から抽出される単語に基づく関連度の強さに応じて、二つの軸に各文書集合の要素(文書)を二次元配置する際、各文書間の関連度の強さをプロットしてグラフ表示する。このとき、縦軸方向、横軸方向のどちらか一方、あるいは両方についてクラスタリングして並び替えを行った結果、関連度の高い文書を近くにまとめて2次元座標上に表示(配置)する例が示されている。
また、特許文献2には、階層型多変数データの可視化方法として、階層構造のデータベース中の各データのアイコンを、再帰的な入れ子構造となるように二次元平面に配置する方法が記載されている。特許文献2に記載の方法は、葉ノードに対応する長方形または正方形のアイコンを、葉ノード数に応じて定められる格子状の小領域に分割しつつ、少領域のそれぞれに互いに異なる色を割り当てる。
特開2006−127523号公報 特開2008−299363号公報
特許文献1に記載の方法は、並び順から複数のクラスタ間の関係性の強弱は把握できても、強弱以外のクラスタ間の関係性(各クラスタに含まれる文書群の特徴の違いなど)は各軸上の要素間の関係性から個別に把握するしかなく、その2次元配置から、縦軸方向と横軸方向の2つの次元にまたがるクラスタ間の関係性を把握するのは困難である。また、特許文献2に記載の方法も、木構造における親子関係は把握できても、同じ階層にあるノード(クラスタ)間の違いなどは把握できず、やはりその2次元配置から、人が、木構造におけるノード配置の縦方向の関係性における特徴の他に、横方向の関係性における特徴等、2つの次元にまたがるノード間の関係性を把握するのは困難である。
なお、図19や図20に示す方法も同様である。例えば、図19に示す方法によれば、学習者ごとの正解率や問題ごとの正解率等の次元ごとの統計データを表示することにより、各次元(学習者または問題)における大まかな特徴を把握することはできる。しかし、例えば、正解率の多かった問題群と正解率の少なかった問題群との間でそれらに属する学習者群にどのような特徴の違いがあるかや、正解率の多かった学習者群と正解率の少なかった学習者群との間でそれらに属する問題群にどのような特徴の違いがあるかまでを、人が、表示された内容から把握するのは困難である。図20に示す方法も同様、クラスタの分類に用いた次元における要素間の関係性は把握できても、それらクラスタに属する要素間における他の次元の関係性までは把握できない。このように、2次元配置の多くでは、各次元における要素間の特徴(クラスタ等)を個別に表示することは比較的容易に実現できる。しかし、それら次元別の要素の特徴間の関係性といった2つの次元にまたがる全体的な特徴を人が容易に理解可能なように視覚化することを考えた場合、次元ごとに軸を割り当てる一般的な2次元配置や、階層の上下方向の関係性のみが具体的に表現される一般的な木構造や入れ子構造を適用するだけでは困難である。
そこで、本発明は、2次元バイナリデータが示す内容であって2つの次元のそれぞれにおける要素間の関係性だけでなく、2つの次元にまたがる要素間の関係性を含む内容を、人が容易に把握できるように2次元バイナリデータを視覚化する視覚化装置、2次元バイナリデータの視覚化方法および2次元バイナリデータの視覚化プログラムを提供することを目的とする。
本発明による視覚化装置は、2次元バイナリデータを入力するデータ入力手段と、2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成するクラスタリング手段と、クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成するグラフ作成手段とを備えたことを特徴とする。
本発明による2次元バイナリデータの視覚化方法は、情報処理装置が、2次元バイナリデータを入力し、2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成し、クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成することを特徴とする。
本発明による2次元バイナリデータの視覚化プログラムは、コンピュータに、2次元バイナリデータを入力する処理、2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成する処理、およびクラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成する処理を実行させることを特徴とする。
本発明によれば、2次元バイナリデータが示す内容であって2つの次元にまたがる要素間の関係性を含む内容を、人が容易に把握できる。
第1の実施形態の視覚化装置の構成例を示すブロック図である。 行列分解の例を示す説明図である。 要約グラフの例を示す説明図である。 具体的なバイナリ行列データおよびその要約グラフの例を示す説明図である。 要約グラフの他の例を示す説明図である。 要約グラフの他の例を示す説明図である。 補助情報が追加された要約グラフの例を示す説明図である。 補助情報が追加された要約グラフの具体例を示す説明図である。 補助情報が追加された要約グラフの他の例を示す説明図である。 第1の実施形態の視覚化装置の動作例を示すフローチャートである。 グラフ作成部の要約グラフ作成処理の一例を示すフローチャートである。 要約グラフの作成手順を模式的に示す説明図である。 次元グループの特徴値に制約を加えた場合の要約グラフのグラフ形状の例を示す説明図である。 次元グループの特徴値に制約を加えた場合の要約グラフのグラフ形状の例を示す説明図である。 次元グループの特徴値に制約を加えた場合の要約グラフのグラフ形状の例を示す説明図である。 本発明の実施形態にかかるコンピュータの構成例を示す概略ブロック図である。 本発明の視覚化装置の概要を示すブロック図である。 2次元バイナリデータの一例を示す説明図である。 2次元バイナリデータの視覚化方法の一例を示す説明図である。 2次元バイナリデータの視覚化方法の一例を示す説明図である。
以下、図面を参照して本発明の実施形態について説明する。図1は、第1の実施形態の視覚化装置の構成例を示すブロック図である。図1に示す視覚化装置10は、データ入力部11と、次元別要素分類部12と、グラフ作成部13と、グラフ表示部14とを備える。
データ入力部11は、視覚化対象とする2次元バイナリデータを入力する。例えば、データ入力部11は、ユーザ等から2次元バイナリデータとして行列形式のデータを受け付けてもよい。また、データ入力部11は、所定のデータベースから指定された行データと列データとを読み出し、読み出した行データと列データとに基づいて、自身で2次元バイナリデータを生成することも可能である。本例では、データ入力部11は、そのようにして取得された2次元バイナリデータを、n×mの行列形式に変換した上で、後段の次元別要素分類部12に出力する。以下では、行列形式の2次元バイナリデータを、バイナリ行列データという。
次元別要素分類部12は、データ入力部11により入力されたバイナリ行列データに対して、行方向と列方向のそれぞれでクラスタリングを行い、行クラスタと列クラスタとを求める。より具体的に、次元別要素分類部12は、バイナリ行列データにおける行の次元の要素集合(例えば、学習者集合)に対して、各要素と対応づけられた成分組(各行ベクトル)の値に基づきクラスタリングを行って、第1の次元グループ(行クラスタ)を求めるとともに、列の次元の要素集合(例えば、問題集合)に対して、各要素と対応づけられた成分組(各列ベクトル)の値に基づきクラスタリングを行って、第2の次元グループ(列クラスタ)を求める。
また、次元別要素分類部12は、少なくとも後述する要約グラフにおいてノードに関連付ける次元の次元グループの各々を対象に、特徴値を決定する。ここで、特徴値は、その次元グループの識別子を与えるものであればよく、さらに、ノードに関連付ける次元の次元グループに対しては、その次元グループに属する要素群が備える特徴を表すものである。例えば、図2に示す例において、行列Rの各行ベクトルの成分組(RCであれば“010”、RCであれば“011”、RCであれば“110”等)や、行列Cの各列ベクトルの成分組(CCであれば“100”、CCであれば“010”、CCであれば“001”等)をそのまま、それらベクトルが属する次元グループの特徴値としてもよい。以下に示す例では、特徴値は、図2に示す例と同様、行列表記したときのその次元の要素の成分組における成分の数(すなわち他方の次元の要素数)と同じまたはそれ以下の桁の数値で表現されるものとする。具体的に、特徴値は、各桁によりクラスタの識別子を与えるものや、単にクラスタの識別子を与えるものだけでなく、さらに、図2に示すような、各桁が他方の次元の各クラスタに対応するなど、他方の次元の各クラスタに対応する成分の集合で表されるものであってもよい。例えば、図2に示す例では、行列Rの各行クラスタ(RC,RC,RC)の特徴値の各桁は、行列Cの各列クラスタ(CC,CC,CC)のいずれかに対応している。
このような行クラスタおよび列クラスタは、バイナリ行列データを2つのバイナリ行列の積に分解する行列分解を行うことにより求めることができる。例えば、図2に示すように、元のバイナリ行列であるn行m列の行列Xを、n行k列の小行列Rとk行m列の小行列Cの積に分解することにより、行クラスタおよび列クラスタを求めてもよい。ここで、k≦min(n,m)とする。
図2に示す例において、行列分解後のn行k列の小行列Rにおける行ベクトルの種類数(要素の並びが一致しない行ベクトルの数)が分類後の行クラスタの数に対応し、k行m列の小行列Cにおける列ベクトルの種類数(要素の並びが一致しない列ベクトルの数)が分類後の列クラスタの数に対応している。なお、図2には、4×4の行列Xが、4×3の小行列Rと3×4の小行列Cの積に分解された例が示されている。なお、小行列Rにおける行ベクトルの種類数=3、小行列Cにおける列ベクトルの種類数=3である。図2では、小行列Rにおけるそれら3種の行ベクトルを行クラスタRC〜RCとし、小行列Cにおけるそれら3種の列ベクトルを列クラスタCC〜CCとしている。なお、行クラスタRC〜RCが、2次元バイナリデータの行の次元でのグループ分けの結果得られた次元グループに相当する。また、列クラスタCC〜CCが、2次元バイナリデータの列の次元でのグループ分けの結果得られた次元グループに相当する。
行列積への分解方法は、特に限定されないが、例えば、以下の式(1)に示す最適化問題を解くことにより求めてもよい。式(1)において、Rはn行k列の任意の小行列、Cはk行m列の任意の小行列を表す。また、ハット付きのC,Rは上記任意の小行列のうち式(1)を満たすC,R(すなわち最適解)を表す。また、“||”は行列のフロべニウスノルムを取ることを表す。
Figure 2019174947
式(1)に示す最適化問題を解くにあたり、例えば、次元別要素分類部12は、RとCをランダムに初期化し、Cを固定してRを最適化する処理と、Rを固定してCを最適化する処理とを繰り返して、CとRについての最適解を得てもよい。
また、行列積への分解方法の他の例として、特願2017−199796号明細書に記載の方法を用いることも可能である。このとき、以下の2つの設定を行った上でスキル推定を行って、行列積を得てもよい。
・(1)スキル遷移確率μを表すβ分布のパラメータξ、ζをスキル遷移が起きない設定にする。
・(2)各問題のスキルパタンの出方の確率vを表すディリクレ分布のパラメータαを各問題について1つしかスキルがない設定にする。
上記(1)に関して
例えば、ξを非常に大きく、かつζを非常に小さくしてもよい。また、上記(2)に関して、例えば、二以上のスキルを必要とする問題がでる確率を0に設定してもよい。
なお、上記文献の方法は、学習者が問題を解いた回答の正誤を2値のデータで示す正誤データについて、事後確率を最大化する解探索を行うことにより、問題を解くために必要なスキルおよび学習者が保持しているスキルを推定する方法である。なお、本発明では、当該方法における正誤データを2次元バイナリデータと読み替え、各学習者および各問題を2次元バイナリデータの各次元の要素(以下、次元要素という)と読み替えればよい。また、問題を解くために必要なスキルの推定が、図2の例でいう列ベクトルのクラスタリング(列クラスタCC〜CCへのグループ分け)と各列クラスタの特徴値の決定に相当し、学習者が保持しているスキルの推定が、図2の例でいう行ベクトルのクラスタリング(行クラスタRC〜RCへのグループ分け)と各行クラスタの特徴値の決定に相当する。
行列積への分解は上記2つの方法以外の方法で行ってもよく、具体的な方法は特に限定されない。例えば、欠損がある場合、式(1)は、以下の式(2)に示すように、欠損願ないところだけで計算してもよい。なお、式(2)において、<Ri*,C*j>は、行列Rのi行目と行列Cのj列目との内積を表す。
Figure 2019174947
また、次元別要素分類部12は、バイナリ行列の要素群に対して行クラスタと列クラスタを求める際、後段のグラフ作成部13が作成する要約グラフの構造を限定するための制約(以下、グラフ構造制約という)を与えてもよい。なお、グラフ構造制約については後述する。
グラフ作成部13は、次元別要素分類部12による分類結果(各行クラスタおよび各列クラスタとそれらの特徴値)または該分類結果を表現した2つのバイナリ行列CおよびRを受け取ると、該分類結果に基づいて要約グラフを生成する。ここで、要約グラフは、ノードに一方の次元の次元グループに関する情報を関連付け、ノードの接続関係を示すエッジに他方の次元の次元グループに関する情報を関連付けたグラフである。ここで、エッジに関連付けられる他方の次元の次元グループに関する情報は、接続元ノードと接続先ノードの違いを示す情報として用いられる。
なお、ノードおよびエッジに対して、いずれの次元の次元グループに関する情報を関連付けるかは特に限定されない。以下では、式(1)に示す行列分解を行って行次元と列次元の次元グループを得た場合を例に用いて、ノードに行次元の次元グループ(行クラスタ)に関する情報を関連付け、エッジに列次元の次元グループ(列クラスタ)に関する情報を関連付ける例を示す。上記の行列分解でRC分解した際、Cに制約をつけて分解したためである。この場合、ノードには必ずRの行クラスタを対応づけ、エッジにはCの列クラスタを対応づける。なお、Xの行をエッジ、列をノードに対応づけたい場合には、Xを置換してから行列分解を行えばよい。
グラフ作成部13は、例えば、一方の次元(第1の次元)の次元グループのうち全てが0の成分の特徴値をもつ次元グループに対応するノードをルートノードとして、当該ルートノードから徐々に特徴値における1の成分が増える方向に、そのような成分の組合せを示す特徴値を有する次元グループに対応するノードを追加していく増加グラフ方式で要約グラフを作成してもよい(図3参照)。このとき、各エッジには、接続元ノードの次元グループと接続先ノードの次元グループとの差分(違い)を示す情報として、接続先ノードにおいて新たに増えた1の成分に対応する第2の次元の次元グループに関する情報が付加される。
図3は、要約グラフの例を示す説明図である。図3に示す例において、RCは、全ての要素が0の行クラスタを表している。図3に示す例では、行クラスタRCに対応するノードをルートノードとし、そこから行クラスタRCに対応するノードが派生している。このとき、ルートノードと行クラスタRCに対応するノードとを結ぶエッジには、接続元ノードが対応する行クラスタと接続先ノードが対応する行クラスタ間の違いを示す情報として、列クラスタCCが示されている。これは、接続先ノードが対応する行クラスタRC(特徴値は010)が、接続元ノードが対応する行クラスタRC(特徴値は000)に対し、特徴値において左から2ビット目に1があるため、列クラスタCCの特徴をさらに具備する行クラスタであることを表している。
また、図3に示す例では、行クラスタRCに対応するノードから、行クラスタRCに対応するノードと行クラスタRCに対応するノードとが派生するとともに、それらのエッジには、列クラスタCC、列クラスタCCがそれぞれ付されている。なお、これらエッジに付された情報により、例えば、行クラスタRC(特徴値は011)が、行クラスタRC(特徴値は010)に属する行ベクトルが有する特徴に対してさらに列クラスタCCの特徴を具備する行ベクトルが主に属するクラスタであることがわかる。また、例えば、行クラスタRC(特徴値は110)が、行クラスタRC(特徴値は010)に属する行ベクトルが有する特徴に対してさらに列クラスタCCの特徴を具備する行ベクトルが主に属するクラスタであることがわかる。
また、各ノードには、対応する行クラスタの識別子とともに、当該ノードが対応する行クラスタに属する要素数(行ベクトル数)が付与されてもよい。
また、要約グラフにおける各階層は、ノードが対応するクラスタの特徴値が有する1の数または0の数に対応するレベルに基づいて定められてもよい。なお、特徴値が有する1の数または0の数は、特徴値が示す当該クラスタに属する要素群が具備する特徴または具備しない特徴としての他方の次元のクラスタの数と読み替えることができる。
次に、要約グラフの具体例を示す。図4は、具体的なバイナリ行列データおよびその要約グラフの例を示す説明図である。図4に示す例は、4人の学習者それぞれの4つの問題に対する正誤データを表現した4×4のバイナリ行列に対する要約グラフの作成例である。今、そのような4×4のバイナリ行列に対して、図4(a)に示すような行列分解がなされたとする。図4(a)には、行方向の分類の結果、学習者1〜4は3つの学習者グループ学G1〜学G3のいずれかに分類され、問題1〜4は3つの問題グループ問G1〜G3のいずれかに分類されたことが示されている。具体的には、学習者1は学G1に分類され、学習者2は学G2に分類され、学習者3および4は学G3に分類されている。また、問題1は問G1に分類され、問題2および3は問G2に分類され、問題4は問G3に分類されている。このとき、学習者の次元グループの特徴値は次に示す通りである。
すなわち、
・学G1={@問G1,@問G2,@問G3}={0,1,0}
・学G2={@問G1,@問G2,@問G3}={0,1,1}
・学G3={@問G1,@問G2,@問G3}={1,1,0}
である。
ここで、“@問Gx”は、その学習者グループに属する学習者群の特徴の1つとして、問Gxに属する問題群に対する当該学習者群の正誤(1:正解/0:不正解)を表している。
例えば、上記の分類結果により、学G1は、問G1に属する問題(本例では問題1)に対する正誤が主に不正解(0)であり、かつ問G2に属する問題(本例では問題2,3)に対する正誤が主に正解(1)であり、かつ問G3に属する問題(本例では問題4)に対する正誤が主に不正解(0)である学習者(本例では、学習者1)が主に属するグループであることがわかる。
そのような分類結果を基に、グラフ作成部13は、例えば、図4(b)に示すような要約グラフを作成してもよい。図4(b)は、ノードに、学習者の次元のグループ情報を割り当て、エッジに、対応する学習者の次元のグループ間の差分を表現する問題の次元のグループ情報を割り当てた例である。
図4(b)によれば、ユーザは、各学習者が各問題の正解/不正解に応じて4つのグループに分けられ、全問不正解の学習者グループ学G0に属する学習者が0人であることがわかる。加えて、学G0よりもさらに問題グループ問G2に属する問題の正解率が高い学習者グループである学G1があり、それに属する学習者が1人であることがわかる。加えて、学G1よりもさらに問題グループ問G3に属する問題の正解率が高い学習者グループである学G2があり、それに属する学習者が1人であることがわかる。また、学G1よりもさらに問題グループ問G1に属する問題の正解率が高い学習者グループである学G3があり、それに属する学習者が2人であることがわかる。
なお、ノードに付す情報は、当該ノードが対応する次元グループの情報であれば、特に限定されない。また、エッジに付す情報は、接続ノードの違いを表す情報であって、他方の次元グループから得られる情報であれば、特に限定されない。他方の次元のグループの識別子以外に、例えば、該グループの特徴や、該グループに属する要素の情報や要素数などを付すことも可能である。
なお、図3および図4では、増加方向のグラフ化方式で要約グラフを作成する例を示したが、要約グラフは、例えば、一方の次元(第1の次元)の次元グループのうち全てが1の成分の特徴値をもつ次元グループに対応するノードをルートノードとして、当該ルートノードから徐々に特徴値における1の成分が減る方向に、そのような成分の組合せを示す特徴値を有する次元グループに対応するノードを追加していく減少グラフ方式で要約グラフを作成してもよい(図5参照)。このとき、各エッジには、接続元ノードの次元グループと接続先ノードの次元グループとの差分(違い)を示す情報として、接続先ノードにおいて新たに減った1の成分に対応する第2の次元の次元グループに関する情報が付加される。グラフ作成部13は、減少グラフ方式の要約グラフにエッジを追加する際、増加グラフ方式でのエッジの向きと逆向きにしてエッジを追加してもよいし、エッジに付す情報に追加または減少かがわかる情報(プラス符号やマイナス符号等)を付してもよい。
また、グラフ作成部13は、ノード数が少ない場合や表示中の要約グラフの一部を切り出して表示する場合など、エッジに増加方向と減少方向の両方の差分情報を待たせた双方向グラフ方式で要約グラフを作成してもよい(図6参照)。なお、図5および図6では、各ノードに、当該ノードが対応するクラスタの特徴値として、対応する小行列における要素集合(図中のR=[000]等)を付しているが、これらの有無は特に限定されない。なお、以下では、行クラスタの特徴値をR値という場合がある。
グラフ表示部14は、グラフ作成部13が作成した要約グラフを表示する。グラフ表示部14は、要約グラフを表示する際、図7に示すように、ノードやエッジにさらに補助情報を追加して表示してもよい。
ここで、補足情報は、追加先のノードやエッジが対応する次元グループに関する情報であって、2次元バイナリデータから直接得られる情報以外の情報であれば特に限定されない。補足情報は、例えば、所定のデータベースにおいて、各次元要素に対応づけられている情報であってもよい。図7に示す例は、行ベクトルおよび列ベクトルの各要素である次元要素の各々に、予め属性情報として1つまたは複数のキーワードが付されている場合に、当該キーワードを補助情報として追加した例である。このとき、追加先のノードやエッジが対応する次元グループに属する各次元要素に付されたキーワードを、それらの重複度合いに応じた強弱を付けた表示態様で表示してもよい。図7には、グループ内の要素間での重複度合いが高いキーワードほど大きな文字で表示する例が示されている。なお、例えば、テキスト形式で各次元要素の属性情報が付されている場合に、当該テキスト形式の属性情報に対して構文解析や単語解析等を行うことにより、各次元要素のキーワードを抽出することも可能である。なお、このような属性情報は、例えば、データ入力部11が、2次元バイナリデータと併せて取得してもよい。
図8に、強弱を付けたキーワードが補助情報として追加された要約グラフの具体的な表示例を示す。図8に示す例では、学習者次元の次元要素である各学習者の属性情報として当該学習者が属する学部名が取得可能な場合に、該学部名を学習者次元の次元グループ(行クラスタ)の補助情報として利用している。また、図8に示す例では、問題次元の次元要素である各問題の属性情報として当該問題が属する分野等を表すキーワードが取得可能な場合に、当該キーワードを問題次元の次元グループ(列クラスタ)の補助情報として利用している。
また、各次元に対して2以上の項目が対応づけられた関係データを取得可能な場合、次元グループごとに関係データの項目別の統計情報を生成して、それらをグラフ化したものを補助情報として対応するノードやエッジに追加して表示してもよい。補助情報のグラフは、特に限定されず、例えば、円グラフ、棒グラフ、散布図等でもよい。
図9は、そのような関係データを基に統計情報をグラフ化して追加表示した例である。図9に示す例は、ユーザと商品の掛け合わせで示される購入履歴データとしての2次元バイナリデータに対して要約グラフを作成・表示した例である。本例では、図9(a)および(b)に示すように、一方の次元である「ユーザ」に関する属性情報として、「性別」と「住所」の2つの項目を含む関係データが取得可能であるとともに、他方の次元である「商品」に関する属性情報として、「カテゴリ」と「メーカー」の2つの項目を含む関係データが取得可能であったとする。グラフ表示部14は、例えば、これら関係データを用いてユーザ次元の各次元グループ(本例では、ユーザG1、ユーザG2)に対して「性別」と「住所」に関する統計情報を生成し、該統計情報をグラフ化したものを、対応するノードの補助情報として追加してもよい。また、グラフ表示部14は、例えば、これら関係データを用いて商品次元の各次元グループ(本例では、商品G1、商品G2)に対して「カテゴリ」と「メーカー」に関する統計情報を生成し、該統計情報をグラフ化したものを、対応するエッジの補助情報として追加してもよい。
次に、本実施形態の動作を説明する。図10は、本実施形態の視覚化装置の動作例を示すフローチャートである。
図10に示すように、まず、データ入力部11が、可視化の対象とする2次元バイナリデータを入力する(ステップS11)。
次いで、次元別要素分類部12が、次元ごとに当該次元要素をグループ分けする(ステップS12)。次元別要素分類部12は、グループ分けの結果、次元要素数以下の次元グループ(上記の行クラスタおよび列クラスタ)を生成する。
次いで、グラフ作成部13が、各次元の次元グループの特徴を基に、ノードに一方の次元の次元グループに関する情報を関連づけ、エッジに他方の次元の次元グループに関する情報を関連づけることにより、要約グラフを作成する(ステップS13)。
最後に、グラフ表示部14が、作成された要約グラフを表示する(ステップS14)。このとき、グラフ表示部14は必要に応じてノードやエッジに補助情報を追加して表示してもよい。
また、図11は、グラフ作成部13における要約グラフ作成処理の一例を示すフローチャートである。図11に示す例では、グラフ作成部13は、まず、2次元のグラフ領域に、行クラスタ(行次元の次元グループ)の各々に対応したノードを配置する(ステップS101)。
図12(a)に、2次元のグラフ領域に各行クラスタに対応するノードを配置した例を示す。図12(a)に示す例では、図2に示す行列分解後の小行列Rの各行の値でのクラスタリングの結果得られた3つの行クラスタRC〜RCに、全ての要素が0の行クラスタRCを加えた計4つの行クラスタRC〜RCのそれぞれに対応するノードn0〜n3を配置している。グラフ作成部13は、例えば、各行クラスタの特徴値(R値)における1の個数をそのノードのレベルとして、レベル別に階層化して各ノードを配置してもよい。また、グラフ作成部13は、各ノードに、当該ノードが対応する行クラスタの識別子とともに、当該行クラスタに属する行ベクトルの数(要素数)を付与してもよい。
次いで、グラフ作成部13は、2つのノード間を接続するエッジを追加する(ステップS102)。
図12(b)に、図12(a)のノード配置に対するエッジの追加例を示す。グラフ作成部13は、まずレベル0のノードから始めて、当該ノード(接続元ノード)のレベル+1のノードを接続先候補ノードとする。そして、接続先候補ノードのうちR値が当該接続元ノードの特徴値における値“1”を全て包含している、すなわち少なくとも接続元ノードの特徴値で“1”となっている位置と同じ位置で“1”となっているノードがあれば、そのノードを全て接続先ノードとし、接続先ノードのそれぞれにエッジを配置する。ここで、仮に+1レベルのノードに、上記条件すなわち接続元のノードの特徴値に含まれる全ての”1”を包含するとの条件)を満たすノードがない場合、接続先候補ノードとするレベルを上げていき、接続先ノードが見つかるまで当該接続元ノードにおける接続先ノードの探索処理を繰り返す。1つの接続元ノードに対する接続先ノードの探索処理を終えると、同じレベルに属する他のノードがあれば、当該他のノードを次の接続元ノードに設定して同様の処理を繰り返す。同じレベルに属する全てのノードについて接続先ノードの探索処理が完了すると、次のレベルのノードの中から接続元ノードを設定して、以降、最上位レベルのノードが全て接続されるまで同様の処理を繰り返す。なお、いずれのノードとも接続されていないノードがあれば、レベルを一つずつ下げていきながら、当該ノードの特徴値において値が“0”となっている位置に少なくとも値“1”を有しない特徴値を有するノードを探索して、それを接続元ノード(始点ノード)とすればよい。例えば、当該ノードの特徴値が[0011]であれば、[00xx](xは0でも1でも可)を特徴値として有するノードを探索する。
図12(b)に示す例では、まず、レベル0の行クラスタRCに対応するノードn0を接続元ノードとして、接続先ノードとしてレベル1のノードn1(行クラスタRCに対応するノード)が発見され、ノードn0とノードn1を接続するエッジe01が追加される。また、レベル1のノードn1を接続元ノードとして、接続先ノードとして、レベル2のノードn2(行クラスタRCに対応するノード)およびノードn3(行クラスタRCに対応するノード)がそれぞれ発見される。それにより、ノードn1とノードn2を接続するエッジe12およびノードn1とノードn3を接続するエッジe13が追加される。
次いで、グラフ作成部13は、追加したエッジの各々に、列クラスタ(列次元の次元グループ)を対応づける(ステップS103)。
図12(c)に、図12(a)で追加された各エッジに列クラスタを対応づけた例を示す。図12(c)に示す例では、エッジe01に列クラスタCが対応づけられ、エッジe12に列クラスタCが対応づけられ、エッジe13に列クラスタCが対応づけられている。グラフ作成部13は、このような対応づけを、例えば、エッジの始点(接続先)と終点(接続元)に配置されたノードの特徴値(R値)を比べて、新たに“1”となった位置から求めることができる。すなわち、エッジの両端ノードの特徴値において新たに“1”となった位置に対応する列クラスタが、当該エッジに対応する列クラスタとされる。なお、新たに値“1”となった位置が複数ある場合は、それぞれの位置に対応する列クラスタすなわち複数の列クラスタが当該エッジに対応する列クラスタとなる。なお、本例では、行クラスタの特徴値において、左から1番目の値が列クラスタCCに対応し、2番目の値が列クラスタCCに対応し、3番目の値が列クラスタCCに対応する。
グラフ作成部13は、各エッジについて、対応する列クラスタが特定されると、当該エッジに、対応する列クラスタの識別子を付与する。これにより、エッジが接続する2つのノード間の違いが別次元の特徴を用いて表される。
次に、次元別要素分類部12が、次元ごとに要素をグループ化する際に与えるグラフ構造制約について説明する。次元別要素分類部12は、上述したように、行クラスタと列クラスタを求める際、グラフ構造制約を与えることができる。グラフ構造制約の例としては、直線制約や木制約が挙げられる。なお、(1)制約なし、(2)直線制約、(3)木制約の3つのパターンのそれぞれに対して、さらにサンプル数の少ないクラスタを収縮(Shrink)させる拡張が可能である。
上記の(2)直線制約は、要約グラフが、図13に示すような直線状になるように、ノードに対応する次元の次元グループへの分類の際、各次元グループがとり得る特徴値に対して制約を与えるものである。具体的には、ノードに対応づける次元グループ間において、包含関係が必ず1対1で成立するような制約を与えればよい。図13に示す例は、行クラスタの特徴値となる小行列Rの行ベクトルの成分組が取り得る値(R値)に対して[000]、[100]、[110]、[111]のみを取るように制限を加えた例である。例えば、次元別要素分類部12は、行列分解を行う際に、R値に対して与えられた制約の下で最適解を推定することで、要約グラフのグラフ構造を直線構造に制限できる。
このようにして、要約グラフを直線状に制限することにより、ノードに対応する次元グループ間の関係性が単純になるため、わかりやすいという利点がある。ただし、行列分解後のデータRCと元のバイナリ行列データXとの乖離が大きくなるおそれがある。なお、当該制約は、元々の2次元バイナリデータがおおよそそのような性質を有するものである場合にのみ適用してもよい。その場合、もし2次元バイナリデータの一部に外れ値が含まれていた場合でも、その外れ値によって次元グループ間の関係性が崩れることを防止できる。
また、上記の(3)木制約は、図14および図15に示すような木構造になるように、ノードに対応する次元の次元グループへの分類の際、各次元グループがとり得る特徴値に対して制約を与えるものである。具体的には、ノードに対応づける次元グループ間において、包含関係が成立する接続元ノードが必ず1つになるような制約を与えればよい。図14および図15は、そのような制約として、各行クラスタの特徴値となる小行列Rの行ベクトルの成分組が取り得る値(R値)に対して図示するような制限を加えた例である。本例においても、次元別要素分類部12は、行列分解を行う際に、R値に対して与えられた制約の下で最適解を推定することで、要約グラフのグラフ形状を木構造に制限できる。なお、図14は、増加グラフ方式で作成される木構造の要約グラフの例であるが、減少グラフ方式で作成する場合はエッジの向きを反対にし、かつエッジに対応づける次元グループの識別子等に付す符号の正負を入れ替えればよい。図15も同様に、増加グラフ方式で作成される木構造の要約グラフの例であるが、減少グラフ方式で作成する場合は図14と同様の変換を行えばよい。
このようにして、要約グラフを木構造に制限することにより、ノードに対応する次元グループ間の関係性が単純になるため、わかりやすいという利点がある。ただし、行列分解後のデータRCと元のバイナリ行列データXとの乖離が大きくなるおそれがある。なお、当該制約は、元々の2次元バイナリデータがおおよそそのような性質を有するものである場合にのみ適用してもよい。その場合、もし2次元バイナリデータの一部に外れ値が含まれていた場合でも、その外れ値によって次元グループ間の関係性が崩れることを防止できる。
また、グラフ形状に関連する他の制約として、次元別要素分類部12は、ノードに対応づける次元のグループ化の際、属する要素数が少ないグループを除外する制約を入れてもよい。例えば、次元別要素分類部12は、行列分解した結果、行ベクトルの種類数が少ない小行列Rが生成された場合、その小行列Rのパターンを除外する制約を入れて、再度行列分解を行ってもよい。ノードに対応づける次元の次元グループ化において、属する要素数が少ないグループを許すと、グラフ形状が複雑になりやすく、人が理解しにくくなるおそれがある。そこで、属する要素数が少ないグループが生成されないよう、そのようなグループが生成された場合は該グループを収縮(Shrink)させてもよい。
以上のように、本実施形態によれば、2次元バイナリデータが示す2つの次元のそれぞれにおける要素の特徴だけでなく、それら特徴間の関係性など、2次元バイナリデータが示す2つの次元にまたがる全体的な特徴を人が容易に把握できる。
また、図16は、本発明の実施形態にかかるコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005と、入力デバイス1006とを備える。
上述の実施形態の視覚化装置は、コンピュータ1000に実装されてもよい。その場合、該装置の動作は、プログラムの形式で補助記憶装置1003に記憶されていてもよい。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って実施形態における所定の処理を実施する。なお、CPU1001は、プログラムに従って動作する情報処理装置の一例であり、CPU(Central Processing Unit)以外にも、例えば、MPU(Micro Processing Unit)やMCU(Memory Control Unit)やGPU(Graphics Processing Unit)などを備えていてもよい。
補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータは1000がそのプログラムを主記憶装置1002に展開し、各実施形態における所定の処理を実行してもよい。
また、プログラムは、実施形態における所定の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実施形態における所定の処理を実現する差分プログラムであってもよい。
インタフェース1004は、他の装置との間で情報の送受信を行う。また、ディスプレイ装置1005は、ユーザに情報を提示する。また、入力デバイス1006は、ユーザからの情報の入力を受け付ける。
また、実施形態における処理内容によっては、コンピュータ1000の一部の要素は省略可能である。例えば、コンピュータ1000がユーザに情報を提示しないのであれば、ディスプレイ装置1005は省略可能である。例えば、コンピュータ1000がユーザから情報入力を受け付けないのであれば、入力デバイス1006は省略可能である。
また、上記の各構成要素の一部または全部は、汎用または専用の回路(Circuitry)、プロセッサ等やこれらの組み合わせによって実施される。これらは単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、上記の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
上記の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本発明の概要を説明する。図17は、本発明の視覚化装置の概要を示すブロック図である。図17に示す視覚化装置60は、データ入力手段61と、クラスタリング手段62と、グラフ作成手段63とを備える。
データ入力手段61(例えば、データ入力部11)は、2次元バイナリデータを入力する。
クラスタリング手段62(例えば、次元別要素分類部12)は、2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成する。
グラフ作成手段63(例えば、グラフ作成部13)は、クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成する。
このような構成によれば、2次元バイナリデータが示す内容であって2つの次元にまたがる要素間の関係性を含む内容を、人が容易に把握できる。
なお、上記の実施形態は以下の付記のようにも記載できる。
(付記1)2次元バイナリデータを入力するデータ入力手段と、前記2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成するクラスタリング手段と、前記クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつ前記ノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成するグラフ作成手段とを備えることを特徴とする視覚化装置。
(付記2)前記クラスタリング手段は、少なくとも第1の次元のクラスタの各々に対して、当該第1の次元のクラスタに属する要素群が備える特徴が第2の次元のクラスタに対応する成分の集合で表現された特徴値を決定し、前記グラフ作成手段は、各ノードを、第1の次元のクラスタの特徴値が示す、当該第1の次元のクラスタに属する要素群が具備する特徴とされる第2の次元のクラスタの数に応じてレベル分けし、前記レベルに基づいて各ノードが階層化された要約グラフを作成する付記1に記載の視覚化装置。
(付記3)前記グラフ作成手段は、第2の次元のいずれのクラスタに対応する特徴をも具備しないクラスタに対応するノードをルートノードとして、前記ルートノードから、対応する第1の次元のクラスタにおいて要素群が特徴として具備する第2の次元のクラスタが増加する方向にノードが伸びていく増加グラフ方式の要約グラフを作成し、前記グラフ作成手段は、前記増加グラフ方式の要約グラフにおいて、各エッジに、接続元ノードに対応する第1の次元のクラスタと比較して接続先ノードに対応する第1の次元のクラスタの要素群における特徴として増加した第2の次元のクラスタに関する情報を関連付ける付記2に記載の視覚化装置。
(付記4)前記グラフ作成手段は、第2の次元の全てのクラスタに対応する特徴を具備するクラスタに対応するノードをルートノードとして、前記ルートノードから、対応する第1の次元のクラスタにおいて要素群が特徴として具備する第2の次元のクラスタが減少する方向にノードが伸びていく減少グラフ方式の要約グラフを作成し、前記グラフ作成手段は、前記減少グラフ方式の要約グラフにおいて、各エッジに、接続元ノードに対応する第1の次元のクラスタと比較して接続先ノードに対応する第1の次元のクラスタの要素群における特徴として減少した第2の次元のクラスタに関する情報を関連付ける付記2に記載の視覚化装置。
(付記5)前記グラフ作成手段は、あるノード集合に対して、対応する第1の次元のクラスタにおいて要素群が特徴として具備する第2の次元のクラスタが増加する方向と減少する方向の双方向でノード同士を接続させる双方向グラフ方式の要約グラフを作成し、前記グラフ作成手段は、前記双方向グラフ方式の要約グラフにおいて、各エッジに、接続元ノードに対応する第1の次元のクラスタと比較して接続先ノードに対応する第1の次元のクラスタの要素群における特徴として増加した第2の次元のクラスタがあればそのクラスタに関する情報を関連付けるとともに、減少した第2の次元のクラスタがあればそのクラスタに関する情報を関連付ける付記2に記載の視覚化装置。
(付記6)前記特徴値が、各桁が第2の次元の各クラスタに対応する数値成分の集合からなる数値であり、前記グラフ作成手段は、各ノードを、第1の次元のクラスタの特徴値に含まれる0の数または1の数に応じてレベル分けし、前記レベルに基づいて各ノードが階層化された要約グラフを作成する付記2から付記5のうちのいずれかに記載の視覚化装置。
(付記7)前記クラスタリング手段は、特徴値が取り得る値に制約を加えて、第1の次元のクラスタを生成する付記1から付記6のうちのいずれかに記載の視覚化装置。
(付記8)作成された要約グラフを表示するグラフ表示手段を備えた付記1から付記7のうちのいずれかに記載の視覚化装置。
(付記9)前記グラフ表示手段は、要約グラフを表示する際に、ノードまたはエッジに、そのノードまたはそのエッジが対応するクラスタに関する情報であって、前記2次元バイナリデータから直接得られる情報以外の情報である補助情報を追加する付記8に記載の視覚化装置。
(付記10)前記ノードに関連付けられる第1の次元のクラスタに関する情報に、当該クラスタの識別情報および当該クラスタに属する要素数の少なくともいずれかが含まれ、前記エッジに関連付けられる第2の次元のクラスタに関する情報に、当該クラスタの識別情報が少なくとも含まれる付記1から付記9のうちのいずれかに記載の視覚化装置。
(付記11)前記クラスタリング手段は、前記2次元バイナリデータが示すバイナリ行列を、2つの行列積に分解することにより、各次元の要素集合に対するクラスタを生成する付記1から付記9のうちのいずれかに記載の視覚化装置。
(付記12)情報処理装置が、2次元バイナリデータを入力し、前記2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成し、前記クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつ前記ノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成することを特徴とする2次元バイナリデータの視覚化方法。
(付記13)コンピュータに、2次元バイナリデータを入力する処理、前記2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成する処理、および前記クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつ前記ノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成する処理を実行させるための2次元バイナリデータの視覚化プログラム。
以上、本実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、2次元バイナリデータの可視化用途であれば、2次元バイナリデータにおける要素数や次元の内容を問わず、好適に適用可能である。
10 視覚化装置
11 データ入力部
12 次元別要素分類部
13 グラフ作成部
14 グラフ表示部
1000 コンピュータ
1001 CPU
1002 主記憶装置
1003 補助記憶装置
1004 インタフェース
1005 ディスプレイ装置
1006 入力デバイス
60 視覚化装置
61 データ入力手段
62 クラスタリング手段
63 グラフ作成手段

Claims (10)

  1. 2次元バイナリデータを入力するデータ入力手段と、
    前記2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成するクラスタリング手段と、
    前記クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつ前記ノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成するグラフ作成手段とを備える
    ことを特徴とする視覚化装置。
  2. 前記クラスタリング手段は、少なくとも第1の次元のクラスタの各々に対して、当該第1の次元のクラスタに属する要素群が備える特徴が第2の次元のクラスタに対応する成分の集合で表現された特徴値を決定し、
    前記グラフ作成手段は、各ノードを、第1の次元のクラスタの特徴値が示す、当該第1の次元のクラスタに属する要素群が具備する特徴とされる第2の次元のクラスタの数に応じてレベル分けし、前記レベルに基づいて各ノードが階層化された要約グラフを作成する
    請求項1に記載の視覚化装置。
  3. 前記グラフ作成手段は、第2の次元のいずれのクラスタに対応する特徴をも具備しないクラスタに対応するノードをルートノードとして、前記ルートノードから、対応する第1の次元のクラスタにおいて要素群が特徴として具備する第2の次元のクラスタが増加する方向にノードが伸びていく増加グラフ方式の要約グラフを作成し、
    前記グラフ作成手段は、前記増加グラフ方式の要約グラフにおいて、各エッジに、接続元ノードに対応する第1の次元のクラスタと比較して接続先ノードに対応する第1の次元のクラスタの要素群における特徴として増加した第2の次元のクラスタに関する情報を関連付ける
    請求項2に記載の視覚化装置。
  4. 前記グラフ作成手段は、第2の次元の全てのクラスタに対応する特徴を具備するクラスタに対応するノードをルートノードとして、前記ルートノードから、対応する第1の次元のクラスタにおいて要素群が特徴として具備する第2の次元のクラスタが減少する方向にノードが伸びていく減少グラフ方式の要約グラフを作成し、
    前記グラフ作成手段は、前記減少グラフ方式の要約グラフにおいて、各エッジに、接続元ノードに対応する第1の次元のクラスタと比較して接続先ノードに対応する第1の次元のクラスタの要素群における特徴として減少した第2の次元のクラスタに関する情報を関連付ける
    請求項2に記載の視覚化装置。
  5. 前記特徴値が、各桁が第2の次元の各クラスタに対応する数値成分の集合からなる数値であり、
    前記グラフ作成手段は、各ノードを、第1の次元のクラスタの特徴値に含まれる0の数または1の数に応じてレベル分けし、前記レベルに基づいて各ノードが階層化された要約グラフを作成する
    請求項2から請求項4のうちのいずれかに記載の視覚化装置。
  6. 前記クラスタリング手段は、特徴値が取り得る値に制約を加えて、第1の次元のクラスタを生成する
    請求項1から請求項5のうちのいずれかに記載の視覚化装置。
  7. 作成された要約グラフを表示するグラフ表示手段を備えた
    請求項1から請求項6のうちのいずれかに記載の視覚化装置。
  8. 前記グラフ表示手段は、要約グラフを表示する際に、ノードまたはエッジに、そのノードまたはそのエッジが対応するクラスタに関する情報であって、前記2次元バイナリデータから直接得られる情報以外の情報である補助情報を追加する
    請求項7に記載の視覚化装置。
  9. 情報処理装置が、
    2次元バイナリデータを入力し、
    前記2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成し、
    前記クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつ前記ノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成する
    ことを特徴とする2次元バイナリデータの視覚化方法。
  10. コンピュータに、
    2次元バイナリデータを入力する処理、
    前記2次元バイナリデータの次元ごとに、当該次元の要素集合に対して、各要素と対応づけられた成分組の特徴に基づいてクラスタリングを行い、2以上のクラスタを生成する処理、および
    前記クラスタリングの結果に基づいて、ノードに一方の次元である第1の次元のクラスタに関する情報が関連付けられ、かつ前記ノードの接続関係を示すエッジに、接続元ノードと接続先ノードの違いを示す情報として他方の次元である第2の次元のクラスタに関する情報が関連付けられたグラフである要約グラフを作成する処理
    を実行させるための2次元バイナリデータの視覚化プログラム。
JP2018059929A 2018-03-27 2018-03-27 視覚化装置、方法およびプログラム Pending JP2019174947A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018059929A JP2019174947A (ja) 2018-03-27 2018-03-27 視覚化装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018059929A JP2019174947A (ja) 2018-03-27 2018-03-27 視覚化装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2019174947A true JP2019174947A (ja) 2019-10-10

Family

ID=68168865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018059929A Pending JP2019174947A (ja) 2018-03-27 2018-03-27 視覚化装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2019174947A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255308A (zh) * 2021-05-27 2021-08-13 平安国际智慧城市科技股份有限公司 图表下钻实现方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255308A (zh) * 2021-05-27 2021-08-13 平安国际智慧城市科技股份有限公司 图表下钻实现方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11868411B1 (en) Techniques for compiling and presenting query results
US7584189B2 (en) Sentence classification device and method
WO2019102533A1 (ja) 文献分類装置
CN105518658A (zh) 用于将数据记录分组的设备、系统以及方法
US20220164363A1 (en) Data extraction system
JP2015230570A (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
Chen et al. Sunburst with ordered nodes based on hierarchical clustering: a visual analyzing method for associated hierarchical pesticide residue data
JP5898584B2 (ja) 六面体メッシュ生成装置
Aurisano et al. Visual Analytics for Ontology Matching Using Multi-linked Views.
CN110674183A (zh) 科研社群划分及核心学者发现方法、系统、介质及终端
US10769161B2 (en) Generating business intelligence analytics data visualizations with genomically defined genetic selection
JP2015191617A (ja) 算出プログラム、算出装置および算出方法
JP2019174947A (ja) 視覚化装置、方法およびプログラム
JP7384713B2 (ja) データ補完システム、およびデータ補完方法
CN116089504B (zh) 一种关系型表格数据生成方法和系统
CN112508119A (zh) 特征挖掘组合方法、装置、设备及计算机可读存储介质
CN114610751B (zh) 地理计算语言的结构化参数解析方法、装置、设备及介质
US20180329934A1 (en) Chart engine
WO2023037399A1 (ja) 情報処理装置、情報処理方法及びプログラム
Abdelfattah Variables Selection Procedure for the DEA Overall Efficiency Assessment Based Plithogenic Sets and Mathematical Programming
Novitasari et al. A method of discovering interesting association rules from student admission dataset
EP4231276A1 (en) Hidden decision tree test device, hidden decision tree test system, hidden decision tree test method, and program
Cunha et al. Tweeprofiles: detection of spatio-temporal patterns on twitter
Venkatesan et al. An ID3 Algorithm for Performance of Decision Tree in Predicting Student’ s Absenteeism in an Academic Year using Categorical Datasets
US11775270B1 (en) Method and apparatus for parsing structured parameters of geocomputation language, device and medium