JP6637968B2 - ガイド付きデータ探索 - Google Patents

ガイド付きデータ探索 Download PDF

Info

Publication number
JP6637968B2
JP6637968B2 JP2017515979A JP2017515979A JP6637968B2 JP 6637968 B2 JP6637968 B2 JP 6637968B2 JP 2017515979 A JP2017515979 A JP 2017515979A JP 2017515979 A JP2017515979 A JP 2017515979A JP 6637968 B2 JP6637968 B2 JP 6637968B2
Authority
JP
Japan
Prior art keywords
data
attributes
entropy
interest
sorting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017515979A
Other languages
English (en)
Other versions
JP2017532675A (ja
JP2017532675A5 (ja
Inventor
シェファー,ウリ
ポコック,アダム・クレイグ
スティーブンス,ブルック
イスハーク,マッシュフッド
ゼレビンスキー,ブラディミール
スポールディング,トリスタン・アール
Original Assignee
オラクル・インターナショナル・コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オラクル・インターナショナル・コーポレイション filed Critical オラクル・インターナショナル・コーポレイション
Publication of JP2017532675A publication Critical patent/JP2017532675A/ja
Publication of JP2017532675A5 publication Critical patent/JP2017532675A5/ja
Application granted granted Critical
Publication of JP6637968B2 publication Critical patent/JP6637968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

関連出願の相互参照
本願は、2014年9月24日に出願された仮特許出願番号第62/054,517号の優先権を主張し、その内容は、引用によって本明細書に援用される。
分野
一実施例は、一般にコンピュータシステムに向けられ、特にガイド付きデータ探索によりデータの分析を提供するコンピュータシステムに向けられる。
背景情報
近年、コンピュータシステムにより、個人および組織は大量のデータを取り込んで保存することができるようになってきた。データの急増は、時には「ビッグデータ」と呼ばれ、これは、従来のデータ処理アプリケーションで処理することが困難になるほど巨大または複雑なデータセットの集合体を表わす包括的な語である。
ビッグデータの課題としては、分析、取り込み、キュレーション、検索、共有、保存、転送、視覚化およびプライバシの問題が挙げられる。そのような大量のデータの存在により、データを分析および探索するシステムおよび方法を改良する必要性がさらに高まってきている。
概要
一実施例は、データを探索するためのシステムである。上記システムは、データベースから上記データを受信し、上記データをサーバ内に索引付けする。上記システムは、上記索引付けされたデータから1つ以上の選択可能なデータセットを表示し、上記選択されたデータセットは、1つ以上の属性を含む。上記システムは、次いで、興味深さのレベルによって上記1つ以上の属性をソートし、上記ソートされた属性を表示する。
本発明の実施例に係るコンピュータサーバ/システムのブロック図である。 本発明の一実施例に係る図1のガイド付きデータ探索モジュールおよび他の要素の機能のフロー図である。 一実施例に係る利用可能なデータセットを表示する例示的なユーザインターフェイスを示す。 実施例に係る図3の「ワイン売上」データセットの選択後にソートされた「タイル」型として示される属性を表示する例示的なユーザインターフェイスを示す。 一実施例に係る正規化されたエントロピに対する興味深さのグラフを示す。 本発明の一実施例に係る図1のガイド付きデータ探索モジュールおよび他の要素の機能のフロー図である。
詳細な説明
本発明の実施例は、ガイド付きデータ探索を提供する。実施例のうちの1つでは、索引付けされたデータセット(すなわちデータまたはデータレコードの集合体)を表示してユーザがデータセットのうちの1つを選択することを可能にするユーザインターフェイスを生成する。それに応答して、ユーザインターフェイスは、選択されたデータセットの属性を興味深さの順に表示する。次いで、ユーザは、属性の1つ以上の値をさらに選択することができ、その結果、ユーザが所望のデータを選択および表示することを助けるようにデータセットがリファイン(絞り込み)される。
図1は、本発明の実施例に係るコンピュータサーバ/システム10のブロック図である。システム10の機能は、単一のシステムとして示されているが、分散型システムとして実現されてもよい。さらに、本明細書に開示されている機能は、ネットワークを介して結合され得る別々のサーバまたは装置上で実現されてもよい。さらに、システム10の1つ以上のコンポーネントは、含まれなくてもよい。例えば、ユーザクライアントの機能のために、システム10は、プロセッサとメモリとディスプレイとを含むスマートフォンであってもよいが、図1に示される他のコンポーネントのうちの1つ以上を含まなくてもよい。
システム10は、情報を通信するためのバス12または他の通信機構と、バス12に結合されて情報を処理するためのプロセッサ22とを含む。プロセッサ22は、任意のタイプの汎用プロセッサまたは特殊用途プロセッサであってもよい。システム10は、情報およびプロセッサ22によって実行される命令を格納するためのメモリ14をさらに含む。メモリ14は、ランダムアクセスメモリ(random access memory:RAM)、リードオンリメモリ(read only memory:ROM)、磁気ディスクもしくは光ディスクなどのスタティックストレージ、またはその他のタイプのコンピュータ読取可能な媒体の任意の組み合わせで構成され得る。システム10は、ネットワークへのアクセスを提供するためのネットワークインターフェイスカードなどの通信装置20をさらに含む。したがって、ユーザは、直接的に、またはネットワークを介してリモートで、またはその他の方法で、システム10と接続することができる。
コンピュータ読取可能な媒体は、プロセッサ22によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体および不揮発性媒体、取外し可能な媒体および取外し不可能な媒体、ならびに通信媒体を含む。通信媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の搬送機構などの変調されたデータ信号の状態で含んでもよく、任意の情報送達媒体を含む。
さらに、プロセッサ22は、バス12によって液晶ディスプレイ(Liquid Crystal Display:LCD)などのディスプレイ24に結合される。さらに、ユーザがシステム10と接続することができるように、キーボード26およびコンピュータマウスなどのカーソル制御装置28がバス12に結合される。
一実施例では、メモリ14は、プロセッサ22によって実行されたときに機能を提供するソフトウェアモジュールを格納する。当該モジュールは、オペレーティングシステム機能をシステム10に提供するオペレーティングシステム15を含む。当該モジュールは、ガイド付きデータ探索機能を提供するためのガイド付きデータ探索モジュール16および本明細書に開示されている全ての他の機能をさらに含む。システム10は、より大きなシステムの一部であってもよい。したがって、システム10は、モジュール16によって探索される企業資源計画(enterprise resource planning:ERP)データを生成するERPモジュールなどの、さらなる機能を含むための1つ以上のさらなる機能のモジュール18を含んでもよい。データベース17は、モジュール16および18に対して集中型ストレージを提供して非構造化データ、構造化データなどを格納するようにバス12に結合される。
各モジュールは、複数のモジュールを含み得る。一実施例では、モジュール16は、データベースからデータを受信して当該データを索引付けする索引付けモジュールと、索引付けされたデータから1つ以上の選択可能なデータセットを表示する表示モジュールと、選択可能なデータセットのうちの1つ以上の選択を受信して興味深さのレベルによって1つ以上の属性をソートするソートモジュールとを含む。
図2は、本発明の一実施例に係るガイド付きデータ探索モジュール16および他の要素の機能のフロー図である。一実施例では、図2および図6のフロー図の機能は、メモリまたは他のコンピュータ読取可能なもしくは有形の媒体に格納されてプロセッサによって実行されるソフトウェアによって実現される。他の実施例では、当該機能は、ハードウェア(例えば、特定用途向け集積回路(application-specific integrated circuit:ASIC)、プログラマブルゲートアレイ(programmable gate array:PGA)、フィールドプログラマブルゲートアレイ(field programmable gate array:FPGA)など)またはハードウェアとソフトウェアとの任意の組み合わせによって実行されてもよい。
202において、非構造化データまたは部分的に構造化されたデータを図1のデータベース17に格納する。一実施例では、データは、アパッチハイブに格納され、アパッチハイブとは、データ要約、クエリおよび分析を提供するためにハドゥープの上に構築されるデータウェアハウスインフラストラクチャである。しかし、202において任意のタイプの非構造化データまたは構造化データが受信および格納されてもよい。例えば、一実施例では、データは、大量のツイッター(登録商標)の「ツイート」である。一実施例では、データは、ハドゥープ分散ファイルシステム(Hadoop Distributed File System:HDFS)に格納される。
204において、202からのデータに対してメタデータの特定(discover:ディスカバ)を実行し、次いでメタデータの特定の結果に従ってデータを補強する。一実施例では、メタデータの特定は、データの濃度を含むデータの性質/タイプをデータ自体から判断する(例えば、データは数字である?ジオコード(地理的コード)である?など)ように実行される。一実施例では、メタデータの特定は、オラクル社からの「エンデカ情報ディスカバスタジオプロビジョニングサービス(Endeca Information Discovery Studio Provisioning Service)」によって実行される。メタデータの特定は、ユーザインターフェイスに送り込まれるメタデータの一覧を生成する。一実施例では、補強は実行されない。別の実施例では、タイプの特定も補強も実行されない。
以下の表1は、いくつかの例示的なメタデータを示す。
206において、204からのデータをサーバ内に索引付けして、ユーザインターフェイスに発行する。一実施例では、データは、206においてオラクル社からの「MDEX」エンジンにおけるエンデカ索引として索引付けされる。
208において、サーバ上で索引付けされている全ての利用可能なデータセット/データレコードまたはデータセットのカタログを表示するユーザインターフェイスを生成する。図3は、一実施例に係る301における利用可能なデータセットを表示する例示的なユーザインターフェイス300を示す。合計675個のデータセットがインターフェイスを介して利用可能である(図3に全てが図示されているわけではない)。各データセットは、ユーザによって選択可能である。一実施例では、単一のデータセットのみが利用可能であり、208において表示されてもよい。データセットのうちの1つの選択も208において受信され得る。一実施例では、208において選択は必要ではない。
208におけるデータセットの選択に応答して、210において興味深さのレベルによって属性をソートし、212において選択されたデータセットについて「エクスプローラ」ユーザインターフェイスを生成する。データセットの属性は、さらなる探索/選択のために一覧表示される。図4は、実施例に係る図3の「ワイン売上」データセット305の選択後にソートされた「タイル」型として示される属性を表示する例示的なユーザインターフェイス400を示す。例示的なタイルは、「配達日」タイル401、「郵便番号」タイル402、「受渡日」タイル403などを含む。各タイルは、選択されたデータセットからの変数/属性を要約し、タイルは、興味深さの順に(すなわち、ユーザが各属性および当該属性についての対応する代表的なタイルに興味を持つ可能性がどの程度であるかの予測子の計算によって)ソートされ、その結果、データセットを最も説明する属性が最初に表示される。一実施例では、以下で詳細に説明するように、興味深さのレベルによるソートの判断にエントロピが使用される。別の実施例では、代表的なタイルは、アルファベット順にソートされる。別の実施例では、代表的なタイルは、データ内でタイルが発生する順に(すなわちソートすることなく)一覧表示される。
ユーザインターフェイス400は、左側に410で示される利用可能なリファインメント(絞り込みの項目)の一覧をさらに含む。212におけるタイルの生成の一部として、視覚化のタイプ(例えば棒グラフ、グラフ、地図など)も決定される。一実施例では、視覚化のタイプの決定にハードコードされた決定木が使用される。図4では、各タイルは、データセットの属性(すなわちデータベース属性の列)を表わす。ユーザは、特定のタイル/列を拡大することもできる。したがって、ユーザは、メタデータを含む各々の特定の列/タイルを一目で見ることができる。
再び図2を参照して、214において、ユーザは、属性のうちの1つ以上からの1つ以上の値を、利用可能なリファインメントの一覧410から選択し(または選択解除し)、データセットをリファインする。
216において、現在のデータセットに基づいて興味深さのレベルによって属性/タイルを再びソートし、212において、選択可能なデータレコードの改訂セットを表示するユーザインターフェイスを生成する。214および216は、必要に応じて何度でも繰り返すことができ、その結果、データセットからのレコードの選択は、繰り返しリファイン可能である。
図2の実施例は、「一変量」であると考えられる。なぜなら、各列が別々に検討されるからである。
一実施例では、図2の210におけるタイル/属性の興味深さのレベルの判断にエントロピが使用される。「エントロピ」は、確率変数における不確実性の大きさである。エントロピで使用される一般的な測定単位は、「ビット」である。確率変数の結果が不確実になればなるほど、さまざまな値を表わすためにより多くのビットが必要になる。
一例として、「1000」または「2000」であり得る実験結果を記録する必要があるとする。第1に、考えられる結果は2つだけであるので、メモリ全体の(ビット単位の)表示「1000」または「2000」は必要ない。その代わり、前者を表示するための「0」および後者を表示するための「1」という表記法を使用することができる。したがって、結果の実際の表示は、1ビットのみであり、この確率変数のエントロピに対する上限を構成する。
第2に、実験結果の確率が分かっている場合には、この変数に固有の不確実性が減少しているのでエントロピ値をさらに減少させることができる。例えば、偏りのないコインを投げると、表または裏の結果の可能性(確率)は等しく0.5である。不確実性が高いので、エントロピはその最高値(すなわち1)を反映するであろう。しかし、女性が妊娠しているか否かを結果が記録し、妊娠している女性が女性母集団の5%を占めることが分かっている場合、エントロピは低下して、0.2864ビットの値を示すであろう。
図3のデータセット301などのデータセットのあらゆる属性は、それ自体のエントロピ値(「自己情報量」とも呼ばれる)を有し、どれぐらいの情報がこの属性によって与えられるかを表わす。この情報(「情報ゲイン」としても知られている)は、属性の不確実性に基づいて決定されることができる。例えば、特定の属性の全ての値が同じ(単一値結果)である場合には、当該属性は、信号を伝達せず、そのため情報ゲインがゼロである。
単一属性について計算されるエントロピ値は、非負数であり、0からログ|x|(「xの個数のログ」と発音される)までの範囲であり、|x|は、この属性のさまざまな値の個数である。ビットで表現されるエントロピ値では、対数は2を基数とする。このような場合には、例えば、4つの等しく分散された値を有する列は、ログ4=2ビットの情報を伝達する。異なる例として、結果が常にゼロである変数では、当該変数は、結果値を1つだけ有し、情報を伝達せず、そのエントロピ値は、ログ1=0である。別の例として、xが0〜65536の間の均一に分散された値を表わしている場合には、各値の不確実性は高い。この例では、65536=216の結果があり、そのため16ビットのエントロピがある。
いくつかの実施例では、以下の式に従ってシャノンエントロピとしてエントロピを計算する。
式中、H(X)は、変数Xのエントロピであり、添え字iは、全ての考えられるn個の結果にわたってループし、xは、考えられる結果を表わし、p(x)は、結果xの確率である。一実施例では、二進(2を基数とする)対数が使用され、その場合、結果として生じるエントロピは、ビットで測定される。
全ての確率が0〜1の範囲の値として示されるので、全てのログ結果は負になり、したがって加算の外側での否定である。また、結果の確率が低くなればなるほど、確率値は小さくなり、したがってログ値は高くなる。言い換えれば、実際には、まれに発生する値がエントロピ値の最大の寄与因子である。
いくつかの実施例では、エントロピをログ|n|で除算することによってエントロピを正規化し、結果として生じる正規化されたエントロピを0〜1の範囲内に入るようにしてもよい。
一般に、エントロピは、任意の離散変数について評価され得る。数値変数の場合、(計算的に複雑な微分アプローチによって)エントロピを直接計算してもよく、またはデータを離散化またはビニングして当該データをカテゴリ変数に変換してもよい。後者のアプローチは、場合によってはわずかな精度の損失を引き起こすが、計算の簡単さおよび速度を大幅に向上させる。
離散変数の場合、確率は、データセット内の属性の頻度である。一実施例では、高濃度データ(例えば、システム内のレコードの数に相当するさまざまな値の数を有する変数であり、製品レビューは、いかなるレビューもさまざまであると当然予想できるので、このような高濃度データの一例である)は、興味をそそらないものであると見なされ得る。自然言語テキストを含む変数の場合、このような高濃度変数を濃度がより低い(したがってより興味深い)変数に変換するのに抽出という語を使用することができる。
一実施例では、エントロピ値の使用は、0〜1の範囲に正規化されたデータセットのあらゆる属性のエントロピを計算することを含む。さらなる使用は、以下で説明するように、より興味深い属性を目立たせようと試みながら興味深さ関数の結果の降順に基づいて属性をソートすることを含む。
一般に、一人のデータアナリスト(または科学者)にとって興味深いかもしれないものは、別の人にとってはそれほど興味深くないかもしれない。しかし、単にもともと興味深くない2つの劣化事例がある。エントロピ範囲のローエンド(0の近く)には、単一の結果のみを保持する属性がある。直感的に、これらのタイプは、データセットの全体的理解には寄与しない。同様に、エントロピ値のハイエンド(1という正規化された値の近く)には、高濃度属性(例えば、製品ごとに異なっていると予想される製品在庫数の列)が存在する。このような属性は、情報を伝達することも期待できない。
ローエンド劣化事例を上回る値では、興味深い信号が出現し、この変数の結果の変化を知らせる。同様に、ハイエンド劣化事例を下回る値にも興味深い信号がある。
特定の実施例では、まずローエンドおよびハイエンドカットオフを適用し、次いでエントロピの極端な(小さいおよび大きい)値を高い興味深さにマッピングする一方、中間値を低い興味深さにマッピングすることによって、正確に計算されたエントロピを興味深さに変換する方法を仮定する。
図5は、正規化されたエントロピに対する興味深さの1つの考えられるグラフを示す。図5では、x軸は、0〜1の正規化されたエントロピであり、0.5は、マッピング曲線の最小値である。y軸は、属性がどれぐらい興味深いものであるかを表わす。いくつかの実施例では、低レベルのエントロピのカットオフと高レベルのエントロピのカットオフとは異なっており、独立して調整可能である。
エントロピの値が0〜ログ|n|の範囲であり、nは、各々の特定の列または属性についてのさまざまな結果(または値)の数であるので、結果の数が異なる属性のエントロピ値を比較することは、難題である。いくつかの実施例では、各々の特定の列のエントロピをログ|n|で除算することによってエントロピ正規化を実行する。正規化されたエントロピの値は、0〜1の範囲内であり、そのため直接比較することができる。
例えば、0.5という同一のエントロピ値を有する2つの列を考えてみる。第1の列が「真」および「偽」という値のみを含む場合、それはn=2を有し、正規化されたエントロピは、0.5/ログ(2)=0.5である。0.5という同一のエントロピ値を有するが4つの異なる値を有する別の列に同一のプロセスを適用すると、正規化されたエントロピは、0.5/ログ(4)=0.25になるであろう。この例では、正規化以前は同一のエントロピ値を有していた2つの列は、正規化後のエントロピ値が異なり、したがって興味深さが異なるであろう。
他の実施例では、興味深さへのエントロピのさまざまなマッピングを利用してもよい。例えば、0〜1の範囲内の大域的最小値を有する放物曲線も上記の検討事項を満たすであろう。
特定の実施例では、各属性タイプに基づいて興味深さへのエントロピのさまざまなマッピングを適用することができる。例えば、ジオコードは、それらの属性の分布に関係なく、常に興味深いと見なされてもよい。
いくつかの実施例では、ユーザは、興味深さに従ってソートされた属性の一覧を動的に変更することが可能である。可能性は、選択された属性を対応して除外および奨励するための「削除」ボタンおよび「いいね」ボタンなどのユーザインターフェイス要素を含む。
いくつかの実施例では、ユーザによって示される興味に基づいて劣化事例の具体的な範囲/閾値をさらに求めるための機械学習アプローチの利用を追加する。
上記の実施例では、各々の属性のエントロピを単独で計算する。他の実施例では、エントロピの計算は、一変量レベルの代わりに二変量分析レベルで実行される。これにより、2つの異なる属性の間でエントロピを計算することができる(相互および条件付きエントロピ)。この実施例では、ユーザは、興味深さに基づくソートの前に属性を選択することができる。このシナリオでは、選択された列に対して、エントロピが計算され、興味深さが判断される。
別の実施例では、ユーザは、最初の一変量興味深さソートが実行された後に何らかのユーザジェスチャを介して属性または属性セットへの興味を示してもよい。このシナリオでは、このユーザジェスチャに続いて、新たな情報を考慮に入れてデータセットの属性がソートし直される。
二変量実施例では、エントロピ計算は、相互情報量に基づき得る。2つの属性XおよびYについて、相互情報量Iは、以下のように表現することができる。
式中、xおよびyは、対応して属性XおよびYの考えられる結果であり、p(x)およびp(y)は、対応して結果xおよびyの確率であり、p(x,y)は、(データの同一の行において)一緒に生じる結果xおよびyの結合確率であり、全ての考えられる結果に対してダブル加算が行われる。
二変量実施例の一例として、データが4つの属性、すなわちx1,x2,x3,x4を有するとする。属性は、離散的であってもよく、または数値的であってもよく、その場合それらはビニングによって離散化され得る。各属性ごとに、選択された属性に対して相対的エントロピ(相互情報量)が計算される。x1が選択された属性を表わす場合、他の全ての属性x2,x3,x4について、実施例は、x1に対する相互情報量を計算し得る。次いで、3つの属性は、選択された列x1に対する相互情報量の計算された値に従ってソートされ得る。例えば、相互情報量の値がI(x1,x2)=0.4、I(x1,x3)=0.6、I(x1,x4)=0.2である場合、この相互情報量に従った属性のソートの結果、属性の順序付けは、x3,x2,x4となるであろう。他の実施例では、このソートを他の検討事項と組み合わせてもよい。例えば、都市、国および郵便番号の属性が互いに関連していることが分かっている場合、そのような属性は、ソートプロセス中は一緒にまとめられるであろう。
別の実施例では、条件付き相互情報量が使用されてもよく、当該条件付き相互情報量は、一例では、第3のものの値を仮定した2つの確率変数の相互情報量の期待値である。
図6は、本発明の一実施例に係るガイド付きデータ探索モジュール16および他の要素の機能のフロー図である。図6は、二変量の実施例を示している。図6の実施例は、202,204,206,208,210および212における図2の実施例の機能と同様の機能を有している。614において、タイルの選択を受信する。616において、選択されたタイルに対する興味深さのレベルによって属性をソートする。
開示されているように、実施例は、データセットの探索のためのガイド付き分析を提供する。選択されたデータセットの属性は、興味深さのレベルによってソートされ、ユーザは、反復プロセスを介してさらなるソートを提供することができる。
いくつかの実施例が本明細書に具体的に示され、および/または、記載されている。しかし、開示されている実施例の変形例および変更例も、本発明の精神および所期の範囲から逸脱することなく、添付の特許請求の範囲の範囲内で、上記の教示によって包含される、ということが理解されるであろう。

Claims (11)

  1. データを探索するための方法であって、
    データベースから前記データを受信するステップと、
    前記データをサーバ内に索引付けするステップと、
    前記索引付けされたデータから1つ以上の選択可能なデータセットを表示するステップとを備え、前記データセットの各々は、1つ以上の属性を備え、前記方法はさらに、
    前記属性についてのエントロピを用いて興味深さのレベルによって前記1つ以上の属性をソートするステップと、
    前記ソートされた1つ以上の属性を表示するステップとを備え
    前記ソートするステップは、
    決定されたエントロピ範囲にローエンドカットオフを適用し、前記決定されたエントロピ範囲にハイエンドカットオフを適用し、前記ローエンドカットオフおよび前記ハイエンドカットオフに基づいて前記エントロピをフィルタリングするステップと、
    前記フィルタリングされたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングするステップとを備える、方法。
  2. 前記データベース内の前記データのうちの少なくともいくつかは、非構造化データである、請求項1に記載の方法。
  3. 前記ソートされた属性を表示するステップは、各々のソートされた属性ごとにタイルを表示するステップを備え、前記タイルは、前記属性の視覚化を備える、請求項1または2に記載の方法。
  4. 前記ソートされた1つ以上の属性の表示から1つ以上の属性の選択を受信するステップと、
    それに応答して、
    前記選択された1つ以上の属性を備えるデータセットを前記データから選択するステップと、
    選択された前記ータセットの前記1つ以上の属性について前記ソートし直すステップとをさらに備える、請求項1からのいずれか1項に記載の方法。
  5. 前記データベースから受信された前記データに対してメタデータの特定を実行するステップをさらに備える、請求項1からのいずれか1項に記載の方法。
  6. 前記選択可能なデータセットのうちの1つ以上の選択を受信するステップをさらに備える、請求項1からのいずれか1項に記載の方法。
  7. 前記属性の各々は、データベース列で構成される、請求項1からのいずれか1項に記載の方法。
  8. 命令を含むコンピュータ読取可能なプログラムであって、前記命令は、プロセッサによって実行されたときに前記プロセッサに請求項1からのいずれか1項に記載の方法を実行させる、プログラム。
  9. ガイド付きデータ探索システムであって、
    データベースからデータを受信して前記データをサーバ内に索引付けする索引付けモジュールと、
    前記索引付けされたデータから1つ以上の選択可能なデータセットを表示する表示モジュールとを備え、各々の選択可能なデータセットは、1つ以上の属性を備え、前記システムはさらに、
    前記属性についてのエントロピを用いて興味深さのレベルによって前記1つ以上の属性をソートするソートモジュールを備え、
    前記表示モジュールは、前記ソートされた1つ以上の属性をさらに表示し、
    前記ソートすることは、
    決定されたエントロピ範囲にローエンドカットオフを適用し、前記決定されたエントロピ範囲にハイエンドカットオフを適用し、前記ローエンドカットオフおよび前記ハイエンドカットオフに基づいて前記エントロピをフィルタリングすることと、
    前記フィルタリングされたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングすることとを備える、システム。
  10. 前記ソートモジュールはさらに、
    前記ソートされた1つ以上の属性の表示から1つ以上の属性の選択を受信し、
    それに応答して、
    前記選択された1つ以上の属性を備えるデータセットを前記データから選択し、
    選択されたデータセットの前記1つ以上の属性について前記ソートし直す、請求項に記載のシステム。
  11. 前記ソートモジュールはさらに、前記選択可能なデータセットのうちの1つ以上の選択を受信する、請求項9または10に記載のシステム。
JP2017515979A 2014-09-24 2015-09-22 ガイド付きデータ探索 Active JP6637968B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462054517P 2014-09-24 2014-09-24
US62/054,517 2014-09-24
US14/678,218 US10387494B2 (en) 2014-09-24 2015-04-03 Guided data exploration
US14/678,218 2015-04-03
PCT/US2015/051462 WO2016049034A1 (en) 2014-09-24 2015-09-22 Guided data exploration

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019231678A Division JP6862531B2 (ja) 2014-09-24 2019-12-23 ガイド付きデータ探索

Publications (3)

Publication Number Publication Date
JP2017532675A JP2017532675A (ja) 2017-11-02
JP2017532675A5 JP2017532675A5 (ja) 2018-08-02
JP6637968B2 true JP6637968B2 (ja) 2020-01-29

Family

ID=55525958

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017515979A Active JP6637968B2 (ja) 2014-09-24 2015-09-22 ガイド付きデータ探索
JP2019231678A Active JP6862531B2 (ja) 2014-09-24 2019-12-23 ガイド付きデータ探索

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019231678A Active JP6862531B2 (ja) 2014-09-24 2019-12-23 ガイド付きデータ探索

Country Status (5)

Country Link
US (2) US10387494B2 (ja)
EP (1) EP3198489A4 (ja)
JP (2) JP6637968B2 (ja)
CN (1) CN106605222B (ja)
WO (1) WO2016049034A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014228991A (ja) * 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US10770171B2 (en) 2018-04-12 2020-09-08 International Business Machines Corporation Augmenting datasets using de-identified data and selected authorized records
US11093640B2 (en) 2018-04-12 2021-08-17 International Business Machines Corporation Augmenting datasets with selected de-identified data records
CN110007989A (zh) * 2018-12-13 2019-07-12 国网信通亿力科技有限责任公司 数据可视化平台系统
CN110362303B (zh) * 2019-07-15 2020-08-25 深圳市宇数科技有限公司 数据探索方法和系统
US11893038B2 (en) 2021-10-21 2024-02-06 Treasure Data, Inc. Data type based visual profiling of large-scale database tables

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6035294A (en) 1998-08-03 2000-03-07 Big Fat Fish, Inc. Wide access databases and database systems
AU5251099A (en) 1998-08-03 2000-02-28 Robert D. Fish Self-evolving database and method of using same
US20020138492A1 (en) * 2001-03-07 2002-09-26 David Kil Data mining application with improved data mining algorithm selection
US7383257B2 (en) * 2003-05-30 2008-06-03 International Business Machines Corporation Text explanation for on-line analytic processing events
US7587685B2 (en) 2004-02-17 2009-09-08 Wallace James H Data exploration system
JP2005327172A (ja) 2004-05-17 2005-11-24 Canon Inc オブジェクト検索装置(検索式の再構成)
US9798781B2 (en) 2005-10-25 2017-10-24 Angoss Software Corporation Strategy trees for data mining
US7493330B2 (en) 2006-10-31 2009-02-17 Business Objects Software Ltd. Apparatus and method for categorical filtering of data
US7912875B2 (en) 2006-10-31 2011-03-22 Business Objects Software Ltd. Apparatus and method for filtering data using nested panels
US7873220B2 (en) 2007-01-03 2011-01-18 Collins Dennis G Algorithm to measure symmetry and positional entropy of a data set
US8051073B2 (en) 2007-06-26 2011-11-01 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US8935249B2 (en) * 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8417715B1 (en) 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US9183203B1 (en) 2009-07-01 2015-11-10 Quantifind, Inc. Generalized data mining and analytics apparatuses, methods and systems
US20110055246A1 (en) * 2009-09-01 2011-03-03 Yann Le Biannic Navigation and visualization of relational database
US9336263B2 (en) 2010-06-04 2016-05-10 Yale University Data loading systems and methods
US8336539B2 (en) * 2010-08-03 2012-12-25 Sunpower Corporation Opposing row linear concentrator architecture
US9299173B2 (en) 2011-06-07 2016-03-29 International Business Machines Corporation Automatic selection of different visualizations for the organization of multivariate data
JP2013021496A (ja) * 2011-07-11 2013-01-31 Fujitsu Ltd 移動局、及び送信制御方法
JP2013037515A (ja) 2011-08-08 2013-02-21 Sony Corp 情報処理装置、情報処理方法、プログラム、及び情報処理システム
JP6096781B2 (ja) 2011-09-22 2017-03-15 バイオ−ラッド ラボラトリーズ,インコーポレイティド 生化学データ分析システム及び方法
CN107451225B (zh) 2011-12-23 2021-02-05 亚马逊科技公司 用于半结构化数据的可缩放分析平台
US9201934B2 (en) 2012-10-02 2015-12-01 Oracle International Corporation Interactive data mining
US10395215B2 (en) 2012-10-19 2019-08-27 International Business Machines Corporation Interpretation of statistical results
US9934299B2 (en) * 2012-10-22 2018-04-03 Workday, Inc. Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations
US9495777B2 (en) 2013-02-07 2016-11-15 Oracle International Corporation Visual data analysis for large data sets
US9367853B2 (en) 2013-03-13 2016-06-14 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing data upload, processing, and predictive query API exposure
US20140344235A1 (en) * 2013-05-17 2014-11-20 Emmanuel Zarpas Determination of data modification

Also Published As

Publication number Publication date
EP3198489A1 (en) 2017-08-02
US10552484B2 (en) 2020-02-04
US10387494B2 (en) 2019-08-20
EP3198489A4 (en) 2018-02-28
JP2017532675A (ja) 2017-11-02
US20160085880A1 (en) 2016-03-24
JP6862531B2 (ja) 2021-04-21
CN106605222B (zh) 2020-09-04
CN106605222A (zh) 2017-04-26
WO2016049034A1 (en) 2016-03-31
US20160085851A1 (en) 2016-03-24
JP2020074105A (ja) 2020-05-14

Similar Documents

Publication Publication Date Title
JP6862531B2 (ja) ガイド付きデータ探索
US9607048B2 (en) Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects
US9436919B2 (en) System and method of tuning item classification
US9773010B1 (en) Information-driven file system navigation
US20150213631A1 (en) Time-based visualization of the number of events having various values for a field
US20100169326A1 (en) Method, apparatus and computer program product for providing analysis and visualization of content items association
US10140325B2 (en) Data source identification mapping in blended data operations
US9002755B2 (en) System and method for culture mapping
US10268737B2 (en) System and method for performing blended data operations
US9977818B2 (en) Local extrema based data sampling system
CN108897874B (zh) 用于处理数据的方法和装置
Vijayarani et al. Research in big data: an overview
US10915586B2 (en) Search engine for identifying analogies
US10437793B2 (en) BI cloud services data modeling denormalized table introspection algorithm
US20170091244A1 (en) Searching a Data Structure
JP4287464B2 (ja) システム基盤構成策定支援システム及び支援方法
CN113761185A (zh) 主键提取方法、设备及存储介质
CN104123307A (zh) 数据加载方法及系统
Cromley et al. A concentration-based approach to data classification for choropleth mapping
CN115098568A (zh) 数据处理方法、装置、设备、介质和程序产品
CN113051293A (zh) 基于树形结构的资源查询方法、装置和电子设备
US20190163810A1 (en) Search User Interface
Azam et al. Three Steps Strategy to Search for Optimum Classification Trees
US11776176B2 (en) Visual representation of directional correlation of service health
CN114417183B (zh) 基于大数据汇总的保险产品智能营销方法与系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191223

R150 Certificate of patent or registration of utility model

Ref document number: 6637968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250