JP2014056573A - 初期データ可視化に基づいた、データのための代替可視化の決定方法 - Google Patents

初期データ可視化に基づいた、データのための代替可視化の決定方法 Download PDF

Info

Publication number
JP2014056573A
JP2014056573A JP2013175434A JP2013175434A JP2014056573A JP 2014056573 A JP2014056573 A JP 2014056573A JP 2013175434 A JP2013175434 A JP 2013175434A JP 2013175434 A JP2013175434 A JP 2013175434A JP 2014056573 A JP2014056573 A JP 2014056573A
Authority
JP
Japan
Prior art keywords
visualization
data
data set
alternative
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013175434A
Other languages
English (en)
Other versions
JP6278639B2 (ja
Inventor
Daniel J Rope
ダニエル・ジェイ・ロープ
Graham John Wills
グラハム・ジョン・ウィルス
Stephen David Gibson
スティーブン・デービッド・ギブソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2014056573A publication Critical patent/JP2014056573A/ja
Application granted granted Critical
Publication of JP6278639B2 publication Critical patent/JP6278639B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 選択された初期データ可視化の仕様に基づいて、そのデータのための代替的可視化を決定すること。
【解決手段】 本発明の1つの実施形態によれば、コンピュータにより実行される方法は、データ・セットの選択された第1の可視化の仕様と、データ・セットに関する情報を含むパラメータとに基づいて、データ・セットの代替可視化を作成することを含む。更に、第1の可視化の前記仕様にヒューリスティック・ルールを適用することにより、複数の新たな可視化の仕様を作成することと、新たな可視化の各々にスコアを割り当てることと、スコアに基づいて、前記新たな可視化のサブセットを生成することとを含む。
【選択図】 図2

Description

本発明の実施形態は、データ可視化に関し、より具体的には、選択された初期データ可視化の仕様に基づいて、そのデータのための代替的可視化を決定することに関する。
データを可視化する適切な方法を選択することは、そのデータについての知識と、データ可視化技術についての知識との組み合わせを伴う。しかしながら、特定の分野を専門とするビジネス・ユーザは、データ可視化技術における専門知識を持っていないことが普通である。研究によれば、ユーザが選択するデータの視覚表現と、利用可能な可視化のリスト内でのその位置との間には高度の相関があることが示されている。換言すれば、人は、かならずしもそのデータについての最適な可視化をもたらすとはいえない、単に利用可能な最も手近な可視化を選択する傾向がある
本発明の目的は、選択された初期データ可視化の仕様に基づいて、そのデータのための代替的可視化を決定する方法、システム、及びプログラムを提供することにある。
本発明の1つの実施形態によれば、コンピュータによって実行される方法は、データ・セットの選択された第1の可視化の仕様と、データ・セットに関する情報を含むパラメータとに基づいて、データ・セットの代替可視化を生成することを含む。本発明の実施形態は、上記の方式と実質的に同じ方式でデータを可視化するためのシステム及びコンピュータ・プログラム製品をさらに含む。
概ね、種々の図面中の同様の参照番号は、同様の構成要素を示すために使用される。
本発明の一実施形態と共に使用するための例示的なコンピューティング環境の線図である。 本発明の一実施形態による、データの基本可視化を解析して、データの代替可視化を生成する方式を示す流れ図である。 本発明の一実施形態による、図2の流れ図について可視化目的及び統計的関係発見の方式を示す流れ図である。 本発明の一実施形態による、図2の流れ図について可視化推奨の方式を示す流れ図である。 本発明の一実施形態による、図4の流れ図についてルール実行の方式を示す流れ図である。 実施例の初期データ可視化の図である。 本発明の一実施形態による、図6の初期データ可視化に対して推奨される実施例の代替可視化を示す。 本発明の一実施形態による、図6の初期データ可視化に対して推奨される実施例の代替可視化を示す。
可視化は、一般に、データ・セットからのデータの視覚表現を指す。データ・セットからの変数は、典型的には、視覚表現のコンポーネントの組にマッピングされる。コンポーネントの例として、位置(例えば、グラフのX、Y、Z座標)、美的要素(例えば、色、サイズ、ラベル付け、形状など)及びファセット化(faceting)(例えば、図表のための行、列、外側行、外側列など)が挙げられる。リレーショナル・モデルにおける例示的なデータ・セットは、各レコード(即ち、データの各行)が、各列がデータ変数(フィールドとも呼ばれる)である列の組によって記述されるデータ・テーブルを含むことができる。
本発明の実施形態は、ユーザによって選択されたデータのための初期可視化に基づいて、そのデータのための推奨される代替可視化をユーザに提供する。本発明の一実施形態は、ユーザの初期可視化仕様、データ・セット、及びメタデータを解析する。この実施形態はさらに、データの更なる局面を記述する新たな可視化候補をユーザに供給し、又はより優れたデータの表現を提供する。
例えば、ユーザが最初に変数X及びYの散布図を選択し、XとYとの間に高度の相関が存在する場合、本発明の一実施形態は、元の散布図に重ね合わせた統計的平滑化の結果を示す可視化候補をユーザに供給することができる。同様に、データが付加的なカテゴリ情報を含む場合、可視化候補は、各(X、Y)対のカテゴリを色、陰影付け、又はマーカ形状によって識別する散布図(凡例付き)を含むことができる。可視化候補の組は、元のものとは異なる型式の可視化を含むことができる。例えば、ユーザは、階層型データに対して最初に棒グラフを選択し、その階層型構造を表示するツリーマップを受け取る場合があり得る。同様に、金融時系列を表すために最初に棒グラフを選択したユーザが折れ線グラフを受け取る場合もあり、最初に集合棒グラフ(clustered bar chart)を選択したユーザがドットプロット又はパネル化棒グラフ(paneled bar chart)を受け取る場合もあり、データが米国の州名を含む場合に最初に棒グラフを選択したユーザに地図が提供される場合もある。代替可視化の具体的な推奨は、文脈(例えば、ビジネス分野、データ、及び慣習的ルール)及びユーザの初期可視化に依存する。
本発明の実施形態と共に使用するための例示的な環境を図1に示す。詳細には、この環境は、1つ又は複数のサーバ・システム10と、1つ又は複数のクライアント又はエンドユーザ・システム14とを含む。サーバ・システム10及びクライアント・システム14は、互いに遠隔であってもよく、ネットワーク12上で通信することができる。ネットワークは、任意の数のいずれかの適切な通信媒体(例えば、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、インターネット、イントラネットなど)によって実装することができる。あるいは、サーバ・システム10及びクライアント・システム14は、互いにローカルであってもよく、いずれかの適切なローカル通信媒体(例えば、ローカル・エリア・ネットワーク(LAN)、有線、無線リンク、イントラネットなど)を介して通信することができる。
クライアント・システム14は、ユーザが種々のアプリケーションについてサーバ・システム10と対話することを可能にする。サーバ・システムは、ユーザが選択した初期データ可視化に基づいてデータの代替可視化を提供するための可視化モジュール16を含む。可視化モジュールは、ユーザから、クライアント・システム14を介して初期可視化選択を受け取る。可視化モジュールは、データ・セット及び他の入力(例えば、メタデータ及びルール・セット)をさらに受け取り、これらはデータベース・システム18又は他のソース内に格納されたものであり得る。データベース・システムは、任意の従来型又は他のデータベース又はストレージ・ユニットにより実装することができ、サーバ・システム10及びクライアント・システム14に対してローカルとすることも又は遠隔とすることもでき、いずれかの適切な通信媒体(例えば、ローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)、インターネット、有線、無線リンク、イントラネットなど)を介して通信することができる。
クライアント・システム14は、所望のデータの可視化の初期選択並びに所望のデータ及び解析に関する他の情報をユーザから募るために、グラフィカル・ユーザ・インターフェース(例えば、GUIなど)又は他のインターフェース(例えば、コマンド・ライン・プロンプト、メニュー画面など)を提示することができ、かつ、初期可視化及び推奨される代替的可視化の組、並びにその他の生成チャート及び他のいずれかの型式の解析結果を含むレポートを表示することができる。
サーバ・システム10及びクライアント・システム14は、ディスプレイ又はモニタ、本体(例えば、プロセッサ、メモリ及び/又は内部若しくは外部通信デバイス(例えば、モデム、ネットワーク・カードなど)を含む)、随意的な入力デバイス(例えば、キーボード、マウス又は他の入力デバイス)、並びに、任意の市販及び/又は特注ソフトウェア(例えば、サーバ/通信ソフトウェア、可視化モジュール、ブラウザ/インターフェース・ソフトウェア)を装備することが好ましい、任意の従来型又は他のコンピュータ・システムにより実装することができる。さらに、可視化モジュール16は、後述の種々の機能を実行するための1つ又は複数のモジュール又はユニットを含むことができ、任意の数量のソフトウェア及び/又はハードウェア・モジュール又はユニットの任意の組み合わせで実装することができる。
あるいは、1つ又は複数のクライアント・システム14は、独立型ユニットとして動作するときにデータを解析することができる。独立型動作モードにおいて、クライアント・システムは、データを格納するか又はデータへのアクセスを有しており、データを解析して、ユーザが選択した初期データ可視化に基づいて推奨される代替的データ可視化を提供する、可視化モジュール16を含む。
本発明の一実施形態による、初期データ可視化からそのデータのための代替可視化を決定する方式(例えば、可視化モジュール16及びサーバ・システム10及び/又はクライアント・システム14による)を図2に示す。具体的には、可視化モジュール16は、入力として、初期可視化仕様210(ユーザが選択した可視化を記述し、ソース・データ・セットを識別する)と、データ・セット230と、ビジネス・メタデータ220と、代替可視化を決定するためのヒューリスティック・ルール260の組とを受け取る。可視化モジュールは、可視化目的及び統計的関係発見段階240と、可視化推奨段階270とを含む段階で動作する。発見段階240は、仕様210、データ・セット230及びビジネス・メタデータ220を解析して、データ可視化に関するユーザの目的についての情報を見分け、データ・セット内の変数間の統計的関係を見つけ出す。その結果は、可視化推奨段階270にエンリッチ・メタデータ250の形で渡される。可視化推奨段階270は、エンリッチ・メタデータ250、仕様210及びヒューリスティック・ルール260を受け取り、ヒューリスティック・ルールを適用して、改善された可視化のための代替可視化候補290を生成する。可視化推奨段階の出力は、代替可視化候補290の組である。各々の最終可視化候補は、候補とした理由を述べた説明に関連付けられる。
本発明の一実施形態による、発見段階240が可視化推奨段階270のために情報をコンパイルする方式(例えば、可視化モジュール16及びサーバ・システム10及び/又はクライアント・システム14による)を図3に示す。具体的には、可視化解析310は、初期可視化仕様210の意味構造を検査して、データ可視化に関するユーザの目的、及び、データの可視化コンポーネントに対する既存のマッピングを発見する。仕様は、初期可視化を十分に説明するものであり、変数の位置、変数の美的表現(例えば、色、サイズ、形状、又はラベルなど)、要素(例えば、棒、線、又は点など)、ファセット化、及び/又は事前計算された統計量のような情報を含む。このような情報は、ユーザの意図を反映する。例えば、位置によって表されるように選択されたフィールドは、おそらくユーザにとって重要度が高いフィールドであり、棒要素の使用は、傾向(トレンド)に対比して要旨(サマリ)の選好(preference)を示すものであり得る。
さらに、可視化は、データの統計的モデルと考えることができる。例えば、図表のY軸上の変数は、典型的にはX軸上の変数に従属すると想定される。後述の多変量モデル化における使用のために、前者を「目標(target)」変数、後者を「予測子(predictor)」変数としてラベル付けすることができる。データを区分化するために用いられる変数、例えば図表をパネル化するため又は図表の点若しくは線を色付けするために用いられるような変数は、Y変数が条件付け変数の値に応じて異なる様式でX変数に従属する条件付き関係を示す。
メタデータ解析320は、ビジネス・レベルのメタデータ220を収集し、このメタデータを解析して文脈を見分ける。ビジネス・メタデータ220は、例えば、変数を通貨型として識別することができ、さらにこの変数を支出フィールド又は収入フィールドとして分類することができる。収入フィールド及び支出フィールドは、それぞれ目標及び予測子として指定することができる。
統計的解析330は、個々の変数について統計量を計算し、データ・セットの変数間の統計的関係を発見する。変数の対について、多変数統計モデルを関連性尺度と共に生成することができる。最初に、一変量解析331が、各変数について統計的記述的データを独立に計算する。一変量解析は、平均、標準偏差、カウント、欠測値カウント、歪度、尖度、順序統計量(中央値、四分位数など)のような標準的な統計的尺度、及び、その変数が識別子であると判定された場合に真としてマーク付けされるフラグを含む特別なインジケータを含む。これは、変数が文字列又は整数の一意の値を有し、各データ行が一意の値を含んでいる場合である。これらの変数は、テキスト・コンポーネントを除いて、可視化のコンポーネントにマッピングされない。
さらに、統計的図表の作成での使用に適した、データの有界サイズの要旨(サマリ)が作成される。カテゴリ的データの場合、この要旨は、ある変数の一意のカテゴリについての度数表を含み、その一方で、その度数が上位の一定数(例えば、上位100)に入らないカテゴリについては全ての最低度数の項目を単一の「その他」カテゴリに集約することによって、高々一定数のカテゴリ(例えば、最大で100カテゴリ)しか生じないことを保証する。
数値データの場合は、同じ度数表が生成されるが、但し、統計的ビニング(binning)を用いて、値の範囲についての度数を作り出す。例えば、可変サイズのビンを形成して(可変ビン・ヒストグラム・アルゴリズム又は他のいずれかの適切な方法を利用して)、ある変数について一定数のビンを生成する(例えば、ビンの最大数を100とする)ことができる。
可視化解析310(仕様の解析)、メタデータ解析320、及び個々の変数の統計量331の結果を用いて、二変量解析332のための変数の対を選択し、かつ、多変量予測子モデルのための目標及び予測子としての変数を識別する。二変量解析は、変数の対の間の関係の強さを決定する。他の変数に対して強い関連性を有する変数は、多変量予測子モデル化333に対する優先順位を与えられる。多変量予測子モデル化は、2つより多くの変数間の関係を決定する。得られた多変量予測子モデルは、可視化候補を生成するために用いることができる既知の統計的関係を有する変数の組を含む。
二変量解析322は、各々の選択された変数対について、関係の強さの尺度及びその統計的な確からしさの尺度を生成する。対になった値の各々の選択された組の度数を定める、有界サイズのクロス集計表が生成される。このクロス集計表は、変数対の同時分布を定める。表を解析して関連性の尺度が提供され、この尺度は、その関係が実在する統計的確率を決定するロバスト相関尺度、及び、説明分散(variance explained)における改善として測定される、関係の強さを含む。計算された尺度は、後で使用するために保存される。クロス集計表を用いて、二変量可視化を作成することができる。
統計的関係の強さは、変数間の関係の強さを計算するための従来の統計学的方法論に勝る幾つかの長所を提供する技術を用いて評価される。これは、カテゴリ的変数と連続変数との間の関係を容易に比較することを可能にするという長所、及び、一旦クロス集計が実行されると、結果として得られる解析はデータのスケールにしないので、所与の数の変数に対して一定の計算時間を有するという実施上の長所を提供する。アルゴリズムの詳細は後述する。
多数の変数の場合、得られる対の数は、過度に大きいものになることがある。従って、その解析は、可視化解析310(仕様の解析)、メタデータ解析320、及び個々の変数の統計量331の結果に基づいて、統計的に有意な最高の関係の強さを有する変数と、ユーザが関心を持っていると識別された変数とを選択することで、一定数の二変量可視化の生成に限定することが可能である。
クロス集計表の生成は、以下のようにより詳細に説明される。前述のように、データ・セットの各変数は、数値であってもカテゴリであっても、計算された有界サイズの度数表現を有することができる。この結果、各変数に対して、高々所与の数のビン(数値又はカテゴリ)が定義される。従って、一対の変数が、有界数のセルを有する1つの表を定めることになる(例えば、一変数あたり100カテゴリの限度が与えられたとすると、その結果として一対の変数に対して高々10,000セルとなる)。アルゴリズムをデータ全体にわたって繰り返し、各対に対して、第1の変数(変数1)についてのビンと第2の変数(変数2)についてのビンとの交差により定められるセルを計算する。次いでそのセルについての度数がインクリメントされる。有界カテゴリの数(例えば100カテゴリ)より少ないデータの場合、クロス集計表は、真の二変量分布の完全な表現になるはずである。
効率のため、クロス集計は、ゼロ値は格納されず、非ゼロの組み合わせのみが記録されるように生成することができる。
データが多様である場合、変数対の間のクロス集計は近似になる。数値データについてのビニング・アルゴリズムの選択は、この技術の有用性に強く影響を与えることになる。例示的な実施において、高度に非一様なデータの場合、周辺のビン度数がより一様になるように、従って一定幅のビンよりも解析のためにより有用なものになるように、可変幅のビンが用いられる。
変数メタデータ(可視化解析310及び/又はメタデータ解析320からの)は、選好により、Y次元上を目標変数及びX次元上を予測子として、どの変数がY次元のために用いられ、どの変数がX次元のために用いられるかを示すために用いることができる。
ロバスト相関尺度を計算するために、二元表のための標準的な分散分析(ANOVA)技術を用いてクロス集計表が解析される。カイ二乗尺度を用いて、関係が実在する統計的確率を計算する。関係の強さは、説明分散率(標準的なANOVA用語における分数SSE/SSTOの平方根)として評価される。
データのロバスト相関尺度は、独立性についての標準的な統計的カイ二乗検定を用いて計算される。これは、カウントにおける変動の統計的有意性及び予測(周辺度数を用いてカウントを予測する場合の二乗誤差項の和であるSSEを、全てのセルが等しい度数を有すると仮定した場合の二乗誤差項の和SSTOで除することにより測定される)を含む、尺度を生成する。
多変量解析333は、2つ又はそれ以上の変数間の統計的関係を探す。一実施形態において、標準的な統計技術である「ランダムフォレスト」を使用して、予測子変数の組に対する目標変数の従属性がモデル化される。この技術は、全ての可能な組み合わせを検討するには変数の数が多すぎる場合でも有用である。この手法に関与する技術は、以下の通りである。
1.各目標変数Yについて、この変数を他の変数のサブセットを用いて予測するランダムフォレスト・モデルを構築する。
a.使用目的(usage)が「未知」又は「予測子」の変数のみが変数を予測するために用いられることを保証するために、変数メタデータを使用する。
b.このような変数が多数(モデルのフィッティングが過度に長くなるほど)存在する場合、二変量関連付けの間に計算された関連性データを用いて、目標変数との関係の強さが最大である変数を選択し、及び、初期可視化及びメタデータの解析に基づいてユーザが関心を持っていると識別された変数を選択する。
2.各モデルについて、(i)関係が実在する統計的確率、及び(ii)説明分散における改善として測定される関係の強さ、を記録する。
3.モデルが統計的に有効であるならば、目標変数Yについてのモデルに対する、各変数Xの寄与を記録する。これは、標準的又は典型的なランダムフォレスト・モデルについて説明されている手法のような多くの手法で行うことができる。例示的な実施において、モデルに、そのモデルから除外された変数Xが再フィッティングされ、関係の強さの差が寄与尺度として用いられる。その結果は、各変数について、多変量的意味でこの変数に関連付けられる他の変数を、多変量モデルへのその寄与によって順序付け及びスコア付けしたリストである。
発見段階240の結果は、エンリッチ・メタデータ250としてコンパイルされ、このエンリッチ・メタデータは、ビジネス・メタデータ及びデータ・セット230内からの何らかのメタデータを含み、統計的情報(例えば、他のフィールドとの最も強い関連性)及びユーザにとってのフィールドの重要さの尺度(例えば、初期にy軸上で用いられたフィールドは、ユーザにとって非常に重要であると考えられる)で強化される。エンリッチ・メタデータ250は、可視化推奨段階270に提供される。
本発明の一実施形態による、可視化推奨段階270が新たな可視化候補を生成する方式(例えば、可視化モジュール16及びサーバ・システム10及び/又はクライアント・システム14による)を図4に示す。具体的には、ルール実行410が、ヒューリスティック・ルール260、初期可視化仕様210、及びエンリッチ・メタデータ250を受け取り、暫定候補420を生成する。各暫定候補420には、プレーンテキストの説明と、候補を順序付けることができる1つ又は複数のスコアとが付属する。暫定候補420は、可視化の実際のレンダリングではないが、その代わり、ヒューリスティック・ルールを適用することが可能な可視化の仕様である。処理中、これらの仕様は、ルール実行410に対して更なる入力を提供するプール内に置かれる。ルールは、エキスパート・システム様式で、例えば前向き連鎖又は他の型式のエキスパート・システムで実行される。例えば、ルールを各々の新たな暫定候補に対して実行して、全ての一意の候補が見出されるまで又は限界に達するまで、更なる暫定候補を生成することができる。フィルタリング430は、暫定候補420から代替可視化候補290の最終組を(例えば、スコアを用いて)選択する。
本発明の一実施形態による、ルール実行41及びフィルタリング430が暫定候補及び最終候補を生成する手法を図5に示す。具体的には、ヒューリスティック・ルール適用540は、ヒューリスティック・ルール260を適用することにより、新たな可視化候補を作成する。例えば、目的が「収益についての傾向を示す」ことであると判定され、かつ、収益と店舗についての識別子との間に強い関連性が存在する場合、線要素又は領域(area)要素が、既に存在していなければ元の可視化に追加され、その線に対して平滑化関数を適用して傾向をより明らかにすることができる。ルール260は、エンリッチ・メタデータ250及び/又は初期可視化仕様210を評価して、可視化に対して改善を行うか又は改善された新たな可視化を作成するように設計される。ルールは、事前定義ルール、汎用ルール、分野の専門家により定められたルール(例えば金融ルール)、特定のデータ・セットに対して定められたルール、及び/又はユーザが特定の解析に対して定めたルールを含むことができる。システムのためのルールは、種々異なる目的に合わせて、例えば、初心者が犯す一般的な誤りに基づいて改善された可視化を作成すること、又は、特定の産業工業分野においてより妥当な表現に引き寄せるように調整することができる。各ルールは、典型的には、例えば、あるフィールドを表すために色を適用すること、又は、データを表すために棒の使用に対して点の使用を選択することなど、可視化のコンポーネント局面のみを修正する。
プレーンテキスト説明550は、新たな候補を生成する各ルールについて、プレーンテキストで正当性理由を提供する。これらの説明は、ルールが適用されるにときに生成され、キャプチャされる。プロセスの最後に、これらのセンテンスはパラグラフにまとめられてユーザに提示される。例えば、あるルールがグラフィックに統計的平滑子を追加することを決定した場合に、平滑化された表現が、全体的な傾向を見ることをどのようにより簡単にするかを説明するセンテンスを追加することができる。
スコア付け560は、暫定可視化候補420にスコアを割り当てる。いずれかの適切なスコア付けシステムを用いることができる。スコア付けシステムは、産業特有のルールを用いることができる。種々の所望の特徴を表す幾つかの異なるスコアを作成して割り当てることができる。例として、関連性の強さ、複雑さ/単純さ、及び表されるデータの次元のパネル化又は数を表すスコアが挙げられる。このような因子の重み付けされた組み合わせを用いて総合スコアを生成することができ、次にこれを用いて、可能な候補の中から最も情報を与える(informative)可視化候補が選択される。
関連性の強さは、可視化の各コンポーネントにより示される統計的関係の強さ、及び、所与のタイプの統計的関係に対する各可視化コンポーネントの適性に基づいてスコア付けすることができる。コンポーネント毎のデータ適性の尺度は、データのメタ特性(カテゴリ数、歪度及び一様性など)と共に統計的特性に基づくものであり、所与のコンポーネントがある変数に対してどれほど適切であるかの尺度を提供する。例えば、5つの事例を伴うカテゴリ的変数は、歪んだ数値変数よりも色に対して用いるのに適している。具体的には、可視化候補は、例として下記の表1で与えられる予測子変数についての好ましい使用順序との適合性に従ってランク付けすることができる。
Figure 2014056573
多変量可視化候補は、コンポーネントの複雑さ及びコンポーネントの組み合わせを想定して、その可視化をユーザが解釈することがどれほど容易であるかに基づいてスコア付けすることができる。例えば、X位置コンポーネントは、色コンポーネントよりも解釈が容易である。さらに、1ファセット化コンポーネントは比較的解釈し易いのに対し、2ファセット化コンポーネントは解釈がより難しい。例示的な実施形態において、複雑さは、制御された実験から導出された線形統計モデルを用いて測定され、この場合、モデルにおける複雑さの予測子は、存在するグラフィック要素のカウント数である。しかしながら、いかなるモデル化技術も、何らかの多変量可視化記述をスコア付けすることを可能にする限りにおいて使用することができる。例えば、モデルは、経験、ユーザの研究、又は他の技術に基づいて事前に構築することができる。
フィルタリング430(図4)において多変量可視化候補を選択するために使用するための例示的なアルゴリズムは、複雑性モデルを考慮に入れるが、単純に複雑さが最良又は最小の可視化を選択するわけではなく、このアルゴリズムは以下のことを反復的に実行する。
1.潜在的候補のリストから、スコアが最も高いモデルを選択する。
2.他の各々のモデルについて、選択されたモデルとの類似の程度に基づいてそのモデルについてのスコアを小さくする。好ましい実施において、これは以下のようにして達成される。
a.類似性Sは、2つの候補間で、共通の変数の数を変数の数の平均で除したものとして計算され、値は0と1との間にある。
b.他方のモデルについてのスコアをSの一定倍数(0.25)を掛けて小さくする。
3.残りの全てのモデルがゼロを下回るスコアを有するまで、プロセスを繰り返す。
上述のアルゴリズムは、候補モデルの代表の組が選択されることを保証する。これは、最良の候補が、既に選択された候補に類似した候補の有用性を減らしていく「収穫逓減」ポリシーに従って選択されることを保証する。
各可視化仕様候補は、変数から可視化コンポーネントへのマッピングを記述する。これを直接的に用いて、適切な可視化システムを使用して可視化を構築する。要素の選択及び位置変数を用いて基本的な可視化型式を定義することができ、ここで色、サイズ及び形状の変数を用いてその可視化を修正する。最後に、ファセットに割り当てられた変数を用いて、可視化をパネル化する。
ユーザ・インターフェース制御を使用して、これらのスコアの値に基づいて可視化候補のリストを順序付け又はフィルタリングする。例えば、生成された図表のうち最高又は最良のランクを有する上位10個のリスト又は他の適切な数のリストをユーザに提示することができる。ユーザは次に、提示されたものの中から1つ又は複数の図表を選択することができる。ユーザは、図表の生成のための探索空間及び/又は生成された図表の提示をいずれかの適切な方式で(例えば、特定の変数が二次元図表のX軸上に配置されることを要求することにより)さらに限定することができ、この場合、生成された図表は、ユーザにより実施された限定に基づいてランク付けされ、ユーザに提示される。
プロセスの結果は、当初に供給されたグラフィックに基づく様々な代替的視覚表現である。各候補には、そのグラフィックについての説明及び特定の局面が妥当である理由を与える数個のセンテンスが付属する。
実施例は、本発明の一実施形態による可視化推奨の態様を例証する。この実施例において、ユーザは最初に、図6に示されるような販売員に対する売上の単純な棒グラフを作成する。この図表のための例示的なデータ・セットを下記の表2に示す。
Figure 2014056573
表の第1列は、売上高を含み、第2列は販売量を含み、最後の列は販売員の索引である(人名リスト「Bob」、「Nancy」、「Ed」、「Pat」、「Ann」、「Bill」、「Janet」、「Brad」、「Mary」、「Roger」、「Melissa」、「Jack」、「Bo」、「Kate」、「Tina」、「Jonah」に対応している)。
この例についてのヒューリスティック・ルール260は、下記のように表3において各ルールが起動されたときの重要度についての重みと共に定められる。
Figure 2014056573
発見段階240は、量及び売上を数値変数として識別し、販売員索引をカテゴリ的変数として識別する。売上と量との間には、強い統計的相関が見出される。
初期可視化にヒューリスティック・ルールを適用すると、[A]、[B]、[C]、及び[F]とラベルされたルールが起動される。ルール[D]は、州のIDが見出されなかったので起動されず、ルール[E]は、表示されている数値データ間に関係が存在しないので起動されない。
例として、上位2つの結果のみが用いられる。表3における重みに従えば、これらはルール[A]及びルール[C]の結果である。結果として、2つの暫定可視化候補、即ち
[N1] 基本+[A]:ソートされた棒グラフ、
[N2] 基本+[C]:X軸上にプロットされた量(不規則な間隔の棒と共に)
が作成され、ここで[N1]及び[N2]は新たな可視化をラベルで表したものであり、基本+[ルール・ラベル]は、そのルール・ラベルに対応するヒューリスティック・ルールに従って修正された基本の可視化を示す。
ヒューリスティックは、これらの各々に対して再実行される。[N1]に対して、ルール[C]が起動するが、[N2]と同じ図表を生成することになるので棄却される。ルール[F]もまた起動し、新たな候補、
[N3] 基本+[A]+[F]:棒の幅(「サイズ」)に対してマッピングされた量を伴う、ソートされた棒グラフ
を生成する。
ヒューリスティックを[N2]に適用すると、ルール[B]が始動し、及び、ルール[E]が始動し、その結果、2つの新たな候補、
[N4]:基本+[C]+[B]:x軸が量である、色付き棒グラフ、
[N5]:基本+[C]+[E]:棒を点で置き換えて散布図を作成、
が得られる。
[N3]、[N4]、及び[N5]にヒューリスティック・ルールを適用すると、1つだけ新たな可能性、即ち、
[N6]:基本+[C]+[B]+[E]:色付き散布図
を生成する。
この例において、6つの候補は、その重みを計算することによりスコア付けされる。ここでも、上位2つのみが用いられ、最終可視化候補[N3]及び[N6]が得られ、これらはそれぞれ図7及び図8で示される(図8において、色は記号で置き換えられている)。候補[N3]は、販売員別の売上げのソートされた棒グラフであり、棒の幅が量を示す。ルール[A]及び[F]は、プレーンテキストの正当性理由「人員を売上の値により順序付けすることで、売上の最大値及び最小値を見ることがより容易になる。量は数値であるので、量をサイズとして符号化した。」を自動的に生成する。候補[N6]は、販売員別に色付けした、量対売上の散布図である。テキストの正当性理由「量をX軸に置くことで、量と売上との間の強い関連性を示す。両方の軸が数値データを示しているので点を選択した。販売員はカテゴリ的であるので、販売員を色としてコード化した。」は、ルール[C]、[B]、[E]により自動的に生成される。これらの最終可視化候補は、元の図表と共にユーザに提示される。
このようにして、本発明の実施形態は、多変量データ・セットからのデータの初期可視化に対して複数の代替可視化を自動的に生成し、検討用のサブセット(初期可視化の組のランク付け又はスコア付けに基づく)をユーザに提供し、その結果として、改善されたデータ可視化をもたらし、同時に、さもなければデータを表示する最良の方式を決定しようと試みるためにユーザが要したであろう時間及び労力を最小化する。
上で説明し、図面で示した実施形態は、初期可視化に基づいてデータ・セットの推奨される可視化の組をユーザに提供する実施形態を実施するための多くの方法のうちのごく少数を表したものであることが認識されるであろう。
推奨モジュールは、独立型のアプリケーションとして動作することもでき、又は可視化、報告、解析などのためのアプリケーションに対するアドオン若しくはそれらのアプリケーションの構成要素として動作することもできる。ユーザの初期可視化の仕様は、可視化アプリケーションの生成物とすることもでき、又は、可視化アプリケーションに対するユーザのコマンドを翻訳することにより、若しくは、可視化アプリケーションにより作成されるデータ構造若しくは他の可視化仕様を翻訳することにより作成することもできる。
ユーザの初期可視化は、任意の形態(例えば、棒グラフ、散布図など)を有することができる。代替的な又は推奨される可視化は、任意の形態(例えば、棒グラフ、散布図など)を有することができ、ユーザの初期可視化と同じ形態又は異なる形態を有することができる。
可視化仕様は、可視化をルール適用のために記述するのに適した任意のフォーマットを有することができる。このフォーマットは、可視化コンポーネントを付加可能な又は交換可能な部品として扱うことを可能にすることができる。メタデータ(エンリッチ・メタデータを含む)を可視化仕様に組み入れることができる。可視化仕様は、メタデータの形を取ることができる。
エンリッチ・メタデータは、変数の使用目的(usage)に関する情報(例えば、目標又は予測子)、統計的情報(例えば、単変数統計量、及び、多変数モデル、表、ヒストグラムを含む統計的関係など)、分野情報(例えば、「時系列」、「バンキング」、「電子商取引」など)、格納型式(例えば、整数、浮動小数点、文字列、日付など)、尺度型式(例えば、比率、序数、二値など)のような任意の型式のメタデータを含むことができる。エンリッチ・メタデータは、既存のメタデータ、ユーザにより提供される情報、並びに、可視化の目的及び統計的関係の発見により決定される(例えば、変数名と正規表現とを比較することによる)情報などの、任意のソースから収集することができる。メタデータは、任意の型式の値(例えば、ブール型、英数字、数値、文字、記号など)により表すことができる。
統計的解析は、ユーザの初期可視化において示されたデータに加えて、例えば、ユーザの変数を含む表の付加的な列及び関連した表内の列などの、任意のデータを包含することができる。事前計算された統計量(例えば、メタデータから)を含む任意の統計的尺度(例えば、標準的相関)及び方法を用いることができる。統計量は、いずれかの型式のビニング(例えば、変数又は定数のビン・サイズ、ビニングされていないデータ、切り捨て範囲など)有り又はビニングなしで計算することができる。任意の型式のデータ・モデルを生成することができる(例えば、ランダムフォレスト・モデル、ニューラル・ネットワーク、パラメータ化モデルなど)。モデルは、可視化解析及び/又はメタデータ解析に基づいて選択することができる(例えば、重要であると識別された変数は、より大きな組み合わせでモデル化することができ、又は、追加の若しくはより詳細なモデルによってモデル化することができる)。統計的解析(例えば、個々の変数、変数対、多変量モデルなどについて)は、並列処理又は分散解析フレームワーク(クラウド・コンピューティング、HADOOP、又は同様の環境上に構築される)を利用することができる。しかしながら、処理は、単一の処理スレッド内で又は他のいずれかの処理システム内で解析を実行することにより実施することもできる。
可視化推奨は、任意の手順に従って代替可視化候補を生成することができる。各ルールは、1つ又は複数の可視化の候補を生成することができる。ルール実行は、シングルパス、反復、エキスパート・システムなどのような任意の方式で行われることができる。代替可視化についての説明は、任意のフォーマットを取ることができ、任意の型式のテキスト、記号、及びグラフィックを含むことができる。説明は、任意の時点(例えば、新たな候補と同時、最終候補の選択後、など)で生成させることができる。任意の型式のスコア及びスコア付けシステムを用いることができる。スコアは、任意のユーザ入力及びメタデータを考慮に入れることができる。
最終代替可視化候補は、任意の時点(例えば、可視化推奨中、ユーザへの提示の前又は後、など)でレンダリングすることができ、可視化モジュール又は他のモジュール若しくはアプリケーションによりレンダリングすることができる。
本発明の実施形態のトポロジ又は環境は、任意の所望の様式で配置された任意の数のコンピュータ又は他の処理システム(例えば、クライアント又はエンドユーザ・システム、サーバ・システムなど)及びデータベース又は他のリポジトリを含むことができ、本発明の実施形態は、任意の所望の型式のコンピューティング環境(例えば、クラウド・コンピューティング、クライアント・サーバ、ネットワーク・コンピューティング、メインフレーム、独立型システムなど)に適用することができる。本発明の実施形態により使用されるコンピュータ又は他の処理システムは、任意の数の任意のパーソナル・コンピュータ又は他の型式のコンピュータ又は処理システム(例えば、デスクトップ、ラップトップ、PDA、移動体デバイスなど)により実装することができ、任意の市販のオペレーティング・システム、及び市販又は特注のソフトウェア(例えば、ブラウザ・ソフトウェア、通信ソフトウェア、サーバ・ソフトウェア、可視化モジュールなど)を含むことができる。これらのシステムは、情報を入力し及び/又は閲覧するための任意の型式のモニタ及び入力デバイス(例えば、キーボード、マウス、音声認識など)を含むことができる。
本発明の実施形態のソフトウェア(例えば、クライアント・システム及びサーバ・システムの可視化モジュール)は、任意の所望のコンピュータ言語で実装することができ、本明細書内に含まれる機能的説明及び図面において示されるフローチャートに基づいて、コンピュータ技術の当業者によって開発することができることを理解されたい。さらに、本明細書における種々の機能を実行するソフトウェアへのいずれの言及も、これらの機能をソフトウェア制御下で実行するコンピュータ・システム又はプロセッサを一般的に指す。本発明の実施形態のコンピュータ・システムは、代替的に、いずれかの型式のハードウェア及び/又は他の処理回路により実装することができる。
コンピュータ又は他の処理システムの種々の機能は、任意の方式で任意の数のソフトウェア及び/又はハードウェア・モジュール又はユニット、処理システム又はコンピュータ・システム及び/又は回路の間に分散させることができ、コンピュータ又は処理システムは、互いにローカルに又は遠隔に配置することができ、いずれかの適切な通信媒体(例えば、LAN、WAN、イントラネット、インターネット、有線、モデム接続、無線など)を介して通信することができる。例えば、本発明の実施形態の機能は、任意の方式で、種々のエンド・ユーザ/クライアント及びサーバ・システム、及び/又は他のいずれかの中間処理デバイスの間に分散させることができる。上で説明し、流れ図で図示されたソフトウェア及び/又はアルゴリズムは、本明細書において説明された機能を達成するいずれかの方式で修正することができる。さらに、流れ図又は説明内の機能は、所望の操作を達成する任意の順序で実行することができる。
本発明の実施形態のソフトウェア(例えば、クライアント・システム及びデータベース・システムの可視化モジュール)は、独立型システム上、又はネットワーク若しくは他の通信媒体により接続されたシステム上での使用のために、記録可能媒体(例えば、磁気又は光媒体、光磁気媒体、フロッピィ・ディスケット、CD−ROM、DVD、メモリ・デバイスなど)上で利用可能とすることができる。
通信ネットワークは、任意の数の任意の型式の通信ネットワーク(例えば、LAN、WAN、インターネット、イントラネット、VPNなど)により実装することができる。本発明の実施形態のコンピュータ又は他の処理システムは、このネットワーク上でいずれかの従来型又は他のプロトコルによって通信するためのいずれかの従来型又は他の通信デバイスを含むことができる。コンピュータ又は他の処理システムは、ネットワークへのアクセスのために任意の型式の接続(例えば、有線、無線など)を用いることができる。ローカル通信媒体は、いずれかの適切な通信媒体(例えば、ローカル・エリア・ネットワーク(LAN)、有線、無線リンク、イントラネットなど)により実装することができる。
システムは、情報(例えば、統計データ又は他のデータ、モデル、可視化仕様、可視化、ルールなど)を格納するために任意の数の任意の従来型又は他のデータベース、データ・ストア又はストレージ構造(例えば、ファイル、データベース、データ構造、データ又は他のリポジトリなど)を用いることができる。データベース・システムは、情報(例えば、統計データ又は他のデータ、モデル、可視化仕様、可視化、ルールなど)を格納するための任意の数の任意の従来型又は他のデータベース、データ・ストア又はストレージ構造(例えば、ファイル、データベース、データ構造、データ又は他のリポジトリなど)により実装することができる。これらのシステムは、サーバ及び/又はクライアント・システム内に含めることもでき、又はこれらに結合することもできる。データベース・システム及び/又はストレージ構造は、コンピュータ又は他の処理システムから遠隔とすることもローカルとすることもでき、任意の所望のデータ(例えば、ルール、モデル、統計データ又は他のデータ、可視化仕様、可視化など)を格納することができる。
本発明の実施形態は、任意の情報を表す任意の型式(例えば、ブール型、文字、英数字、記号など)のデータの代替可視化を推奨するために利用することができる。さらに、本発明の実施形態は、任意の型式のストレージ・ユニット、システム又はデバイス(例えば、データベース、ファイル、メモリ・デバイス、データ構造、処理デバイス、種々の型式の固定の又は移動体コンピュータ又は処理システム又は処理デバイスなど)からのデータの代替可視化を推奨するために利用することができる。データ・セットは、1つ又は複数のデータ・セットを含むことができ、任意のサイズとすることができ、任意の型式のデータ及びメタデータを含むことができる。
本発明の実施形態は、情報を取得又は提供する(例えば、実行される所望の解析のための情報を取得する、図表又は他のデータ可視化を提供する、など)ために、任意の数の任意の型式のユーザ・インターフェース(例えば、グラフィカル・ユーザ・インターフェース(GUI)、コマンドライン、プロンプトなど)を使用することができ、インターフェースは、任意の様式で配置された任意の情報を含むことができる。インターフェースは、いずれかの適切な入力デバイス(例えば、マウス、キーボードなど)により情報を入力/表示するため及び所望の動作を開始するための、任意の位置に配置された任意の数の任意の型式の入力機構又は作動機構(例えば、ボタン、アイコン、フィールド、ボックス、リンクなど)を含むことができる。インターフェース画面は、画面間をいずれかの方式でナビゲートするための任意の適切なアクチュエータ(例えば、リンク、タブなど)を含むことができる。
本発明の実施形態は、上記で説明された特定のタスク又はアルゴリズムに限定されるものではなく、任意の型式のプロセスのための任意のデータ・ソースからのデータの解析、及び可視化生成のために利用することができる。
本明細書において用いられる用語は、特定の実施形態を説明する目的のためのものにすぎず、本発明を限定することを意図するものではない。本明細書で用いられるとき、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈が明らかにそうでないことを示していない限り、複数形も含むことが意図されている。本明細書で用いられるとき、「含む(comprise)」、「含んでいる(comprising)」、「含む(include)」、「含んでいる(including)」、「有する(has)」、「有する(have)」、「有している(having)」、「備える(with)」などの用語は、提示された特徴、整数、ステップ、動作、要素、及び/又はコンポーネントが存在することを規定するものであるが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はそれらの群の存在又は追加を排除するものではないことがさらに理解されるであろう。
本明細書において用いられる用語は、特定の実施形態を説明する目的のためのものにすぎず、本発明を限定することを意図するものではない。本明細書で用いられるとき、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈が明らかにそうでないことを示していない限り、複数形も含むことが意図されている。本明細書で用いられるとき、「含む(comprise)」、「含んでいる(comprising)」、「含む(include)」、「含んでいる(including)」、「有する(has)」、「有する(have)」、「有している(having)」、「備える(with)」などの用語は、提示された特徴、整数、ステップ、動作、要素、及び/又はコンポーネントが存在することを規定するものであるが、1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はそれらの群の存在又は追加を排除するものではないことがさらに理解されるであろう。
当業者であればわかるように、本発明の態様は、システム、方法又はコンピュータ・プログラム製品として具体化することができる。従って、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、又はソフトウェア及びハードウェア態様を組み合わせる実施形態の形式を取ることができ、これらはすべて本明細書において一般的に「回路」、「モジュール」、若しくは「システム」と呼ばれる。さらに、本発明の態様は、その上に具体化されたコンピュータ可読プログラム・コードを有する1つ又は複数のコンピュータ可読媒体において具体化されたコンピュータ・プログラム製品の形式を取ることができる。
1つ又は複数のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体とすることができる。コンピュータ可読信号媒体は、例えば、電子、磁気、光、電磁気、赤外線若しくは半導体のシステム、装置、若しくはデバイス、又はこれらの任意の適切な組み合わせとすることができるがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数の配線を有する電気接続、携帯型コンピュータ・ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み出し専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。本文書の文脈においては、コンピュータ可読記憶媒体は、命令実行システム、装置若しくはデバイスにより又はこれらとの関連で用いられるプログラムを含むか又は記憶することができる任意の有形媒体とすることができる。
コンピュータ可読信号媒体は、コンピュータ可読プログラム・コードが例えばベースバンド内に又は搬送波の一部として具体化された伝搬データ信号を含むことができる。こうした伝搬信号は、電磁気、光又はこれらの任意の適切な組み合わせを含むがこれらに限定されない、様々な形式のいずれかを取ることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、かつ、命令実行システム、装置若しくはデバイスにより又はこれらとの関連で用いられるプログラムを通信し、伝搬し、又は搬送することができる、任意のコンピュータ可読媒体とすることができる。
コンピュータ可読媒体上に具体化されたプログラム・コードは、無線、有線、光ファイバ・ケーブル、RF等、又はこれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体を用いて送信することができる。
本発明の態様についての動作を実行するためのコンピュータ・プログラム・コードは、Java(Java及び全てのJavaベースの商標及びロゴは、米国、他の国、又はその両方においてSun Microsystems,Inc.の商標である)、Smalltalk、C++等のオブジェクト指向プログラム言語及び「C」プログラム言語又は類似のプログラム言語等の従来の手続き型言語を含む、1つ又は複数のプログラム言語の任意の組み合わせで記述することができる。プログラム・コードは、全体をユーザのコンピュータ上で実行するか、独立型ソフトウェア・パッケージとして一部をユーザのコンピュータ上で実行するか、一部をユーザのコンピュータ上で実行し一部をリモート・コンピュータ上で実行するか、又は、全体をリモート・コンピュータ若しくはサーバ上で実行することができる。後者のシナリオにおいては、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意のタイプのネットワークを通してユーザのコンピュータに接続することができ、又は(例えば、インターネット・サービス・プロバイダを用いてインターネットを通して)外部コンピュータへの接続を確立することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して、本明細書において説明される。フローチャート図及び/又はブロック図の各ブロック、及びフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ・プログラム命令により実装できることが理解されるであろう。これらのコンピュータ・プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実装する手段を作成するようにすることができる。
これらのコンピュータ・プログラム命令を、特定の方式で機能するようにコンピュータ、他のプログラム可能データ処理装置、又は他のデバイスに指示することができるコンピュータ可読媒体内に格納して、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実装する命令を含む製品を製造するようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスにロードし、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で実行させて、コンピュータ実施プロセスを生成し、それにより、コンピュータ又は他のプログラム可能データ処理装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実装するプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法及びコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能及び動作を示す。この点に関して、フローチャート又はブロック図中の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部を表す。また、いくつかの代替的な実装においては、ブロック内に記された機能は、その図に記された順序とは異なる順序で行われる場合があることに留意されたい。例えば、連続して示された2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又は、ブロックがときには逆順で実行されることもある。また、ブロック図及び/又はフローチャート図の各ブロック、及び、ブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を行う専用ハードウェアベースのシステムによって実装することも、又は、専用ハードウェアとコンピュータ命令との組み合わせによって実装することもできることにも留意されたい。

Claims (13)

  1. データ・セットのための代替的可視化を決定する方法であって、
    データ・セットの選択された第1の可視化の仕様と前記データ・セットに関する情報を含むパラメータとに基づいて、前記データ・セットの代替可視化を作成すること、
    を含む、代替的可視化を決定する方法。
  2. 前記パラメータは、前記データ・セットについてのメタデータをさらに含む、請求項1に記載の方法。
  3. 前記パラメータは、前記データ・セットの2つ又はそれ以上の変数間の統計的関係をさらに含む、請求項1に記載の方法。
  4. 前記代替可視化についての説明を作成することをさらに含む、請求項1に記載の方法。
  5. 前記第1の可視化の前記仕様は、可視化コンポーネントの組を含み、
    事前定義されたヒューリスティック・ルールを適用して前記可視化コンポーネントの組の修正されたインスタンスを作成することにより、代替可視化の仕様が作成される、
    請求項1に記載の方法。
  6. 前記第1の可視化の前記仕様にヒューリスティック・ルールを適用することにより、複数の新たな可視化の仕様を作成することと、
    前記新たな可視化の各々にスコアを割り当てることと、
    前記スコアに基づいて、前記新たな可視化のサブセットを生成することと
    をさらに含む、請求項1に記載の方法。
  7. データ・セットのための代替的可視化を決定するコンピュータ・システムであって、
    データ・セットの選択された第1の可視化の仕様と前記データ・セットに関する情報を含むパラメータとに基づいて前記データ・セットの代替可視化を作成するように構成された少なくとも1つのプロセッサを含む、コンピュータ・システム
    を含む、システム。
  8. 前記パラメータは、前記データ・セットについてのメタデータをさらに含む、請求項7に記載のシステム。
  9. 前記パラメータは、前記データ・セットの2つ又はそれ以上の変数間の統計的関係をさらに含む、請求項7に記載のシステム。
  10. 前記少なくとも1つのプロセッサは、前記代替可視化についての説明を作成するようにさらに構成される、請求項7に記載のシステム。
  11. 前記第1の可視化の前記仕様は、可視化コンポーネントの組を含み、
    事前定義されたヒューリスティック・ルールを適用して前記可視化コンポーネントの組の修正されたインスタンスを作成することにより、代替可視化の仕様が作成される、
    請求項7に記載のシステム。
  12. 前記少なくとも1つのプロセッサは、
    初期可視化仕様にヒューリスティック・ルールを適用することにより、複数の新たな可視化の仕様を作成し、
    前記新たな可視化の各々にスコアを割り当て、
    前記スコアに基づいて、前記新たな可視化のサブセットを生成する
    ようにさらに構成される、請求項7に記載のシステム。
  13. データ・セットのための代替的可視化を決定するコンピュータ・プログラムであって
    データ・セットの選択された第1の可視化の仕様と前記データ・セットに関する情報を含むパラメータとに基づいて前記データ・セットの代替可視化を生成するように構成されたプログラム・コードを含むコンピュータ・プログラム。
JP2013175434A 2012-09-11 2013-08-27 初期データ可視化に基づいた、データのための代替可視化の決定方法 Active JP6278639B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/610,198 US9824469B2 (en) 2012-09-11 2012-09-11 Determining alternative visualizations for data based on an initial data visualization
US13/610198 2012-09-11

Publications (2)

Publication Number Publication Date
JP2014056573A true JP2014056573A (ja) 2014-03-27
JP6278639B2 JP6278639B2 (ja) 2018-02-14

Family

ID=50232821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013175434A Active JP6278639B2 (ja) 2012-09-11 2013-08-27 初期データ可視化に基づいた、データのための代替可視化の決定方法

Country Status (3)

Country Link
US (2) US9824469B2 (ja)
JP (1) JP6278639B2 (ja)
CN (1) CN103678457B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017537367A (ja) * 2014-09-26 2017-12-14 オラクル・インターナショナル・コーポレイション 視覚化エッジに対するデータ要素の、意味的距離に基づいた割当て
US10528589B2 (en) 2014-09-26 2020-01-07 Oracle International Corporation Cross visualization interaction between data visualizations
JP2021500639A (ja) * 2017-10-24 2021-01-07 ティブコ ソフトウェア インク 多段階パターン発見およびビジュアル分析推奨のための予測エンジン
WO2023037399A1 (ja) * 2021-09-07 2023-03-16 日本電気株式会社 情報処理装置、情報処理方法及びプログラム

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9299173B2 (en) 2011-06-07 2016-03-29 International Business Machines Corporation Automatic selection of different visualizations for the organization of multivariate data
US9824469B2 (en) 2012-09-11 2017-11-21 International Business Machines Corporation Determining alternative visualizations for data based on an initial data visualization
EP2904488A4 (en) * 2012-10-08 2016-06-01 John Bantivoglio METHOD AND SYSTEM FOR MANAGING METADATA
US20150278315A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Data fitting selected visualization type
US20160246485A1 (en) * 2014-04-07 2016-08-25 Benjamin Rigler Halpern Visual representations of multivariate data indicating elements of contribution
US20150302051A1 (en) * 2014-04-21 2015-10-22 Microsoft Corporation Data filtering to fit selected visualization type
US10192022B2 (en) * 2014-06-04 2019-01-29 IronCAD, LLC Geometric modeling system with intelligent behaviors of design components
CN104134108A (zh) * 2014-06-25 2014-11-05 上海艾瑞市场咨询有限公司 电子商务网站销售数据分析方法
US20160012129A1 (en) * 2014-07-14 2016-01-14 Microsoft Technology Licensing, Llc Visualization suggestions
US10347027B2 (en) 2014-09-08 2019-07-09 Tableau Software, Inc. Animated transition between data visualization versions at different levels of detail
US10347018B2 (en) 2014-09-08 2019-07-09 Tableau Software, Inc. Interactive data visualization user interface with hierarchical filtering based on gesture location on a chart
US10521092B2 (en) 2014-09-08 2019-12-31 Tableau Software, Inc. Methods and devices for adjusting chart magnification asymmetrically
US10635262B2 (en) 2014-09-08 2020-04-28 Tableau Software, Inc. Interactive data visualization user interface with gesture-based data field selection
US10380770B2 (en) * 2014-09-08 2019-08-13 Tableau Software, Inc. Interactive data visualization user interface with multiple interaction profiles
US9830370B2 (en) * 2014-09-18 2017-11-28 Business Objects Software Ltd. Visualization suggestion application programming interface
US10031939B2 (en) 2014-09-30 2018-07-24 Microsoft Technology Licensing, Llc Automated supplementation of data model
US11030552B1 (en) * 2014-10-31 2021-06-08 Tibco Software Inc. Context aware recommendation of analytic components
US10007708B2 (en) * 2014-10-31 2018-06-26 Business Objects Software Ltd. System and method of providing visualization suggestions
CN105631684A (zh) * 2014-11-03 2016-06-01 东方钢铁电子商务有限公司 用于电子平台的数据分析系统
JP6531820B2 (ja) * 2015-03-23 2019-06-26 日本電気株式会社 推定器可視化システム
US10387444B2 (en) * 2015-08-10 2019-08-20 Successfactors, Inc. Tools for auto-visualizations of data
AU2016222401B1 (en) 2015-08-31 2017-02-23 Accenture Global Solutions Limited Intelligent data munging
US11150921B2 (en) * 2015-09-01 2021-10-19 International Business Machines Corporation Data visualizations selection
US10896532B2 (en) 2015-09-08 2021-01-19 Tableau Software, Inc. Interactive data visualization user interface with multiple interaction profiles
US10607139B2 (en) * 2015-09-23 2020-03-31 International Business Machines Corporation Candidate visualization techniques for use with genetic algorithms
WO2017054004A1 (en) 2015-09-24 2017-03-30 California Instutute Of Technology Systems and methods for data visualization using tree-dimensional displays
CN107168939A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种数据到图表的转换方法和装置
US10776569B2 (en) 2016-07-29 2020-09-15 International Business Machines Corporation Generation of annotated computerized visualizations with explanations for areas of interest
US11093703B2 (en) 2016-09-29 2021-08-17 Google Llc Generating charts from data in a data table
US10628978B2 (en) * 2017-02-23 2020-04-21 Wipro Limited Method and system for processing input data for display in an optimal visualization format
US10970053B2 (en) 2017-08-07 2021-04-06 International Business Machines Corporation Generating semi-automated visual analytics solutions
US20190087474A1 (en) * 2017-09-19 2019-03-21 Dharma Platform, Inc. Automatic ingestion of data
US11023826B2 (en) 2017-09-29 2021-06-01 Oracle International Corporation System and method for data visualization using machine learning and automatic insight of facts associated with a set of data
US10621762B2 (en) * 2018-05-14 2020-04-14 Virtualitics, Inc. Systems and methods for high dimensional 3D data visualization
US11232139B2 (en) * 2018-06-29 2022-01-25 Lucid Software, Inc. Custom interactions with visualizations
KR20210122311A (ko) 2019-02-22 2021-10-08 루씨드 소프트웨어 인코포레이티드 가역 데이터 변환
US11100173B2 (en) 2019-06-18 2021-08-24 Lucid Software, Inc. Autolayout of visualizations based on graph data
US11263105B2 (en) 2019-11-26 2022-03-01 Lucid Software, Inc. Visualization tool for components within a cloud infrastructure
US11169671B2 (en) 2019-11-26 2021-11-09 Lucid Software, Inc. Alteration of a source data visualization based on user input
US20210279633A1 (en) * 2020-03-04 2021-09-09 Tibco Software Inc. Algorithmic learning engine for dynamically generating predictive analytics from high volume, high velocity streaming data
US11579760B2 (en) * 2020-09-08 2023-02-14 Tableau Software, LLC Automatic data model generation
CN112612957B (zh) * 2020-12-24 2023-09-29 北京百度网讯科技有限公司 兴趣点的推荐方法、兴趣点推荐模型的训练方法、装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581677A (en) * 1994-04-22 1996-12-03 Carnegie Mellon University Creating charts and visualizations by demonstration
JP2004259175A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 学習履歴可視化方法及び装置及び学習履歴可視化プログラム及び学習履歴可視化プログラムを格納した記憶媒体
US20080005677A1 (en) * 2006-06-30 2008-01-03 Business Objects, S.A. Apparatus and method for visualizing data
JP2009508210A (ja) * 2005-09-09 2009-02-26 タブリュー ソフトウェア エルエルシー 多次元データベースを自動的に表示するためのコンピュータシステムおよび方法
JP2010225053A (ja) * 2009-03-25 2010-10-07 Hitachi Information Systems Ltd 数値解析結果レポート作成方法とシステムおよびプログラム
JP2011113564A (ja) * 2009-11-23 2011-06-09 Fisher-Rosemount Systems Inc プロセス制御システムと関連付けられたデータを動的に表示する方法および装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014661A (en) * 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6995768B2 (en) 2000-05-10 2006-02-07 Cognos Incorporated Interactive business data visualization system
US8255791B2 (en) 2000-11-29 2012-08-28 Dov Koren Collaborative, flexible, interactive real-time displays
US7002580B1 (en) 2003-05-14 2006-02-21 At&T Corp Method and apparatus for automatically generating charts
US20060070013A1 (en) 2004-09-29 2006-03-30 Peter Vignet Method and system to drill down graphically
US7523417B2 (en) 2004-11-18 2009-04-21 International Business Machines Corporation Changing display of data based on a time-lapse widget
US20070168154A1 (en) * 2005-12-23 2007-07-19 Ericson Richard E User interface for statistical data analysis
US7714862B1 (en) 2005-12-30 2010-05-11 At & T Intellectual Property Ii, L.P. Dig-Cola: directed graph layout through constrained energy minimization
US20080082908A1 (en) 2006-09-29 2008-04-03 Business Objects, S.A. Apparatus and method for data charting with adaptive learning
US9477732B2 (en) 2007-05-23 2016-10-25 Oracle International Corporation Filtering for data visualization techniques
US20090006241A1 (en) 2007-06-30 2009-01-01 Xirong Zhao System and Method for Displaying Multiple Charts of Related Stock Candidates and its Method
US8013864B2 (en) * 2007-07-19 2011-09-06 Honeywell International Inc. Method and system for visualizing multivariate statistics
US8881040B2 (en) 2008-08-28 2014-11-04 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US8677235B2 (en) * 2008-05-13 2014-03-18 Microsoft Corporation Ranking visualization types based upon fitness for visualizing a data set
US9165044B2 (en) 2008-05-30 2015-10-20 Ethority, Llc Enhanced user interface and data handling in business intelligence software
US20100049686A1 (en) * 2008-08-20 2010-02-25 International Business Machines Corporation Methods and apparatus for visual recommendation based on user behavior
US20100169137A1 (en) 2008-12-31 2010-07-01 Ebay Inc. Methods and systems to analyze data using a graph
US8346682B2 (en) * 2009-01-23 2013-01-01 The United States Of America, As Represented By The Secretary Of The Navy Information assisted visual interface, system, and method for identifying and quantifying multivariate associations
US8972899B2 (en) 2009-02-10 2015-03-03 Ayasdi, Inc. Systems and methods for visualization of data analysis
US20100262949A1 (en) 2009-04-08 2010-10-14 Microsoft Corporation Visualized Modeling Language Connector Selection
AU2010259032B2 (en) 2009-06-08 2014-03-20 Research Now Limited Systems for applying quantitative marketing research principles to qualitative internet data
US8947435B2 (en) 2009-12-18 2015-02-03 Samsung Electronics Co., Ltd. Host apparatus connected to image forming apparatus and information displaying method thereof
US20120078840A1 (en) 2010-09-27 2012-03-29 General Electric Company Apparatus, system and methods for comparing drug safety using holistic analysis and visualization of pharmacological data
US9299173B2 (en) 2011-06-07 2016-03-29 International Business Machines Corporation Automatic selection of different visualizations for the organization of multivariate data
US9824469B2 (en) 2012-09-11 2017-11-21 International Business Machines Corporation Determining alternative visualizations for data based on an initial data visualization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581677A (en) * 1994-04-22 1996-12-03 Carnegie Mellon University Creating charts and visualizations by demonstration
JP2004259175A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 学習履歴可視化方法及び装置及び学習履歴可視化プログラム及び学習履歴可視化プログラムを格納した記憶媒体
JP2009508210A (ja) * 2005-09-09 2009-02-26 タブリュー ソフトウェア エルエルシー 多次元データベースを自動的に表示するためのコンピュータシステムおよび方法
US20080005677A1 (en) * 2006-06-30 2008-01-03 Business Objects, S.A. Apparatus and method for visualizing data
JP2010225053A (ja) * 2009-03-25 2010-10-07 Hitachi Information Systems Ltd 数値解析結果レポート作成方法とシステムおよびプログラム
JP2011113564A (ja) * 2009-11-23 2011-06-09 Fisher-Rosemount Systems Inc プロセス制御システムと関連付けられたデータを動的に表示する方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
きたみあきこ: ""グラフ作成後に修正して見栄え良く データの追加・削除や並び順も自在"", 日経PC21, vol. 第17巻, 第14号, JPN6017030762, 24 July 2012 (2012-07-24), JP, pages 104 - 109, ISSN: 0003621607 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017537367A (ja) * 2014-09-26 2017-12-14 オラクル・インターナショナル・コーポレイション 視覚化エッジに対するデータ要素の、意味的距離に基づいた割当て
US10528589B2 (en) 2014-09-26 2020-01-07 Oracle International Corporation Cross visualization interaction between data visualizations
US10592588B2 (en) 2014-09-26 2020-03-17 Oracle International Corporation Semantic distance-based assignment of data elements to visualization edges
JP2021500639A (ja) * 2017-10-24 2021-01-07 ティブコ ソフトウェア インク 多段階パターン発見およびビジュアル分析推奨のための予測エンジン
WO2023037399A1 (ja) * 2021-09-07 2023-03-16 日本電気株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US9824472B2 (en) 2017-11-21
US20140198105A1 (en) 2014-07-17
CN103678457B (zh) 2017-05-24
US9824469B2 (en) 2017-11-21
US20140071138A1 (en) 2014-03-13
CN103678457A (zh) 2014-03-26
JP6278639B2 (ja) 2018-02-14

Similar Documents

Publication Publication Date Title
JP6278639B2 (ja) 初期データ可視化に基づいた、データのための代替可視化の決定方法
US9299173B2 (en) Automatic selection of different visualizations for the organization of multivariate data
US20230079109A1 (en) Systems and Methods for Ranking Data Visualizations
US9424318B2 (en) Systems and methods for ranking data visualizations
US10395215B2 (en) Interpretation of statistical results
US9613102B2 (en) Systems and methods for ranking data visualizations
KR101773574B1 (ko) 데이터 테이블의 차트 시각화 방법
CN113011400A (zh) 对数据的自动识别和洞察
Halim et al. Quantifying and optimizing visualization: An evolutionary computing-based approach
JP2023526116A (ja) 高速スクリーニングのためのドメイン固有言語インタープリタ及び対話型視覚インターフェース
JP2021500639A (ja) 多段階パターン発見およびビジュアル分析推奨のための予測エンジン
Cancino et al. Evographdice: Interactive evolution for visual analytics
US20240078473A1 (en) Systems and methods for end-to-end machine learning with automated machine learning explainable artificial intelligence
Liu et al. Design and evaluation of visualization support to facilitate decision trees classification
AU2021200402B2 (en) Systems and methods for ranking data visualizations
Kammer et al. Exploring big data landscapes with elastic displays
Bandaru et al. Trend mining: A visualization technique to discover variable trends in the objective space
KR101985014B1 (ko) 탐색적 데이터 시각화 시스템 및 그 방법
US11782576B2 (en) Configuration of user interface for intuitive selection of insight visualizations
US20030208322A1 (en) Apparatus, method, and computer program product for plotting proteomic and genomic data
US11734864B2 (en) Histogram bin interval approximation
US20240119421A1 (en) Natural language processing and classification methods for a veteran&#39;s status search engine for an online search tool
US20240220907A1 (en) Data distillery for signal detection
Azuar et al. Interactive Dashboard For Tracking System Dashboard Using Power Bi
Wang Enabling effective visual data exploration for solvent discovery in material science

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180116

R150 Certificate of patent or registration of utility model

Ref document number: 6278639

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150