JP6637968B2

JP6637968B2 - ガイド付きデータ探索

Info

Publication number: JP6637968B2
Application number: JP2017515979A
Authority: JP
Inventors: シェファー，ウリ; ポコック，アダム・クレイグ; スティーブンス，ブルック; イスハーク，マッシュフッド; ゼレビンスキー，ブラディミール; スポールディング，トリスタン・アール
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2014-09-24
Filing date: 2015-09-22
Publication date: 2020-01-29
Anticipated expiration: 2035-09-22
Also published as: EP3198489A1; US10552484B2; US10387494B2; EP3198489A4; JP2017532675A; US20160085880A1; JP6862531B2; CN106605222B; CN106605222A; WO2016049034A1; US20160085851A1; JP2020074105A

Description

関連出願の相互参照
本願は、２０１４年９月２４日に出願された仮特許出願番号第６２／０５４，５１７号の優先権を主張し、その内容は、引用によって本明細書に援用される。

分野
一実施例は、一般にコンピュータシステムに向けられ、特にガイド付きデータ探索によりデータの分析を提供するコンピュータシステムに向けられる。

背景情報
近年、コンピュータシステムにより、個人および組織は大量のデータを取り込んで保存することができるようになってきた。データの急増は、時には「ビッグデータ」と呼ばれ、これは、従来のデータ処理アプリケーションで処理することが困難になるほど巨大または複雑なデータセットの集合体を表わす包括的な語である。

ビッグデータの課題としては、分析、取り込み、キュレーション、検索、共有、保存、転送、視覚化およびプライバシの問題が挙げられる。そのような大量のデータの存在により、データを分析および探索するシステムおよび方法を改良する必要性がさらに高まってきている。

概要
一実施例は、データを探索するためのシステムである。上記システムは、データベースから上記データを受信し、上記データをサーバ内に索引付けする。上記システムは、上記索引付けされたデータから１つ以上の選択可能なデータセットを表示し、上記選択されたデータセットは、１つ以上の属性を含む。上記システムは、次いで、興味深さのレベルによって上記１つ以上の属性をソートし、上記ソートされた属性を表示する。

本発明の実施例に係るコンピュータサーバ／システムのブロック図である。本発明の一実施例に係る図１のガイド付きデータ探索モジュールおよび他の要素の機能のフロー図である。一実施例に係る利用可能なデータセットを表示する例示的なユーザインターフェイスを示す。実施例に係る図３の「ワイン売上」データセットの選択後にソートされた「タイル」型として示される属性を表示する例示的なユーザインターフェイスを示す。一実施例に係る正規化されたエントロピに対する興味深さのグラフを示す。本発明の一実施例に係る図１のガイド付きデータ探索モジュールおよび他の要素の機能のフロー図である。

詳細な説明
本発明の実施例は、ガイド付きデータ探索を提供する。実施例のうちの１つでは、索引付けされたデータセット（すなわちデータまたはデータレコードの集合体）を表示してユーザがデータセットのうちの１つを選択することを可能にするユーザインターフェイスを生成する。それに応答して、ユーザインターフェイスは、選択されたデータセットの属性を興味深さの順に表示する。次いで、ユーザは、属性の１つ以上の値をさらに選択することができ、その結果、ユーザが所望のデータを選択および表示することを助けるようにデータセットがリファイン（絞り込み）される。

図１は、本発明の実施例に係るコンピュータサーバ／システム１０のブロック図である。システム１０の機能は、単一のシステムとして示されているが、分散型システムとして実現されてもよい。さらに、本明細書に開示されている機能は、ネットワークを介して結合され得る別々のサーバまたは装置上で実現されてもよい。さらに、システム１０の１つ以上のコンポーネントは、含まれなくてもよい。例えば、ユーザクライアントの機能のために、システム１０は、プロセッサとメモリとディスプレイとを含むスマートフォンであってもよいが、図１に示される他のコンポーネントのうちの１つ以上を含まなくてもよい。

システム１０は、情報を通信するためのバス１２または他の通信機構と、バス１２に結合されて情報を処理するためのプロセッサ２２とを含む。プロセッサ２２は、任意のタイプの汎用プロセッサまたは特殊用途プロセッサであってもよい。システム１０は、情報およびプロセッサ２２によって実行される命令を格納するためのメモリ１４をさらに含む。メモリ１４は、ランダムアクセスメモリ（random access memory：ＲＡＭ）、リードオンリメモリ（read only memory：ＲＯＭ）、磁気ディスクもしくは光ディスクなどのスタティックストレージ、またはその他のタイプのコンピュータ読取可能な媒体の任意の組み合わせで構成され得る。システム１０は、ネットワークへのアクセスを提供するためのネットワークインターフェイスカードなどの通信装置２０をさらに含む。したがって、ユーザは、直接的に、またはネットワークを介してリモートで、またはその他の方法で、システム１０と接続することができる。

コンピュータ読取可能な媒体は、プロセッサ２２によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体および不揮発性媒体、取外し可能な媒体および取外し不可能な媒体、ならびに通信媒体を含む。通信媒体は、コンピュータ読取可能な命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の搬送機構などの変調されたデータ信号の状態で含んでもよく、任意の情報送達媒体を含む。

さらに、プロセッサ２２は、バス１２によって液晶ディスプレイ（Liquid Crystal Display：ＬＣＤ）などのディスプレイ２４に結合される。さらに、ユーザがシステム１０と接続することができるように、キーボード２６およびコンピュータマウスなどのカーソル制御装置２８がバス１２に結合される。

一実施例では、メモリ１４は、プロセッサ２２によって実行されたときに機能を提供するソフトウェアモジュールを格納する。当該モジュールは、オペレーティングシステム機能をシステム１０に提供するオペレーティングシステム１５を含む。当該モジュールは、ガイド付きデータ探索機能を提供するためのガイド付きデータ探索モジュール１６および本明細書に開示されている全ての他の機能をさらに含む。システム１０は、より大きなシステムの一部であってもよい。したがって、システム１０は、モジュール１６によって探索される企業資源計画（enterprise resource planning：ＥＲＰ）データを生成するＥＲＰモジュールなどの、さらなる機能を含むための１つ以上のさらなる機能のモジュール１８を含んでもよい。データベース１７は、モジュール１６および１８に対して集中型ストレージを提供して非構造化データ、構造化データなどを格納するようにバス１２に結合される。

各モジュールは、複数のモジュールを含み得る。一実施例では、モジュール１６は、データベースからデータを受信して当該データを索引付けする索引付けモジュールと、索引付けされたデータから１つ以上の選択可能なデータセットを表示する表示モジュールと、選択可能なデータセットのうちの１つ以上の選択を受信して興味深さのレベルによって１つ以上の属性をソートするソートモジュールとを含む。

図２は、本発明の一実施例に係るガイド付きデータ探索モジュール１６および他の要素の機能のフロー図である。一実施例では、図２および図６のフロー図の機能は、メモリまたは他のコンピュータ読取可能なもしくは有形の媒体に格納されてプロセッサによって実行されるソフトウェアによって実現される。他の実施例では、当該機能は、ハードウェア（例えば、特定用途向け集積回路（application-specific integrated circuit：ＡＳＩＣ）、プログラマブルゲートアレイ（programmable gate array：ＰＧＡ）、フィールドプログラマブルゲートアレイ（field programmable gate array：ＦＰＧＡ）など）またはハードウェアとソフトウェアとの任意の組み合わせによって実行されてもよい。

２０２において、非構造化データまたは部分的に構造化されたデータを図１のデータベース１７に格納する。一実施例では、データは、アパッチハイブに格納され、アパッチハイブとは、データ要約、クエリおよび分析を提供するためにハドゥープの上に構築されるデータウェアハウスインフラストラクチャである。しかし、２０２において任意のタイプの非構造化データまたは構造化データが受信および格納されてもよい。例えば、一実施例では、データは、大量のツイッター（登録商標）の「ツイート」である。一実施例では、データは、ハドゥープ分散ファイルシステム（Hadoop Distributed File System：ＨＤＦＳ）に格納される。

２０４において、２０２からのデータに対してメタデータの特定（discover：ディスカバ）を実行し、次いでメタデータの特定の結果に従ってデータを補強する。一実施例では、メタデータの特定は、データの濃度を含むデータの性質／タイプをデータ自体から判断する（例えば、データは数字である？ジオコード（地理的コード）である？など）ように実行される。一実施例では、メタデータの特定は、オラクル社からの「エンデカ情報ディスカバスタジオプロビジョニングサービス（Endeca Information Discovery Studio Provisioning Service）」によって実行される。メタデータの特定は、ユーザインターフェイスに送り込まれるメタデータの一覧を生成する。一実施例では、補強は実行されない。別の実施例では、タイプの特定も補強も実行されない。

以下の表１は、いくつかの例示的なメタデータを示す。

２０６において、２０４からのデータをサーバ内に索引付けして、ユーザインターフェイスに発行する。一実施例では、データは、２０６においてオラクル社からの「ＭＤＥＸ」エンジンにおけるエンデカ索引として索引付けされる。

２０８において、サーバ上で索引付けされている全ての利用可能なデータセット／データレコードまたはデータセットのカタログを表示するユーザインターフェイスを生成する。図３は、一実施例に係る３０１における利用可能なデータセットを表示する例示的なユーザインターフェイス３００を示す。合計６７５個のデータセットがインターフェイスを介して利用可能である（図３に全てが図示されているわけではない）。各データセットは、ユーザによって選択可能である。一実施例では、単一のデータセットのみが利用可能であり、２０８において表示されてもよい。データセットのうちの１つの選択も２０８において受信され得る。一実施例では、２０８において選択は必要ではない。

２０８におけるデータセットの選択に応答して、２１０において興味深さのレベルによって属性をソートし、２１２において選択されたデータセットについて「エクスプローラ」ユーザインターフェイスを生成する。データセットの属性は、さらなる探索／選択のために一覧表示される。図４は、実施例に係る図３の「ワイン売上」データセット３０５の選択後にソートされた「タイル」型として示される属性を表示する例示的なユーザインターフェイス４００を示す。例示的なタイルは、「配達日」タイル４０１、「郵便番号」タイル４０２、「受渡日」タイル４０３などを含む。各タイルは、選択されたデータセットからの変数／属性を要約し、タイルは、興味深さの順に（すなわち、ユーザが各属性および当該属性についての対応する代表的なタイルに興味を持つ可能性がどの程度であるかの予測子の計算によって）ソートされ、その結果、データセットを最も説明する属性が最初に表示される。一実施例では、以下で詳細に説明するように、興味深さのレベルによるソートの判断にエントロピが使用される。別の実施例では、代表的なタイルは、アルファベット順にソートされる。別の実施例では、代表的なタイルは、データ内でタイルが発生する順に（すなわちソートすることなく）一覧表示される。

ユーザインターフェイス４００は、左側に４１０で示される利用可能なリファインメント（絞り込みの項目）の一覧をさらに含む。２１２におけるタイルの生成の一部として、視覚化のタイプ（例えば棒グラフ、グラフ、地図など）も決定される。一実施例では、視覚化のタイプの決定にハードコードされた決定木が使用される。図４では、各タイルは、データセットの属性（すなわちデータベース属性の列）を表わす。ユーザは、特定のタイル／列を拡大することもできる。したがって、ユーザは、メタデータを含む各々の特定の列／タイルを一目で見ることができる。

再び図２を参照して、２１４において、ユーザは、属性のうちの１つ以上からの１つ以上の値を、利用可能なリファインメントの一覧４１０から選択し（または選択解除し）、データセットをリファインする。

２１６において、現在のデータセットに基づいて興味深さのレベルによって属性／タイルを再びソートし、２１２において、選択可能なデータレコードの改訂セットを表示するユーザインターフェイスを生成する。２１４および２１６は、必要に応じて何度でも繰り返すことができ、その結果、データセットからのレコードの選択は、繰り返しリファイン可能である。

図２の実施例は、「一変量」であると考えられる。なぜなら、各列が別々に検討されるからである。

一実施例では、図２の２１０におけるタイル／属性の興味深さのレベルの判断にエントロピが使用される。「エントロピ」は、確率変数における不確実性の大きさである。エントロピで使用される一般的な測定単位は、「ビット」である。確率変数の結果が不確実になればなるほど、さまざまな値を表わすためにより多くのビットが必要になる。

一例として、「１０００」または「２０００」であり得る実験結果を記録する必要があるとする。第１に、考えられる結果は２つだけであるので、メモリ全体の（ビット単位の）表示「１０００」または「２０００」は必要ない。その代わり、前者を表示するための「０」および後者を表示するための「１」という表記法を使用することができる。したがって、結果の実際の表示は、１ビットのみであり、この確率変数のエントロピに対する上限を構成する。

第２に、実験結果の確率が分かっている場合には、この変数に固有の不確実性が減少しているのでエントロピ値をさらに減少させることができる。例えば、偏りのないコインを投げると、表または裏の結果の可能性（確率）は等しく０．５である。不確実性が高いので、エントロピはその最高値（すなわち１）を反映するであろう。しかし、女性が妊娠しているか否かを結果が記録し、妊娠している女性が女性母集団の５％を占めることが分かっている場合、エントロピは低下して、０．２８６４ビットの値を示すであろう。

図３のデータセット３０１などのデータセットのあらゆる属性は、それ自体のエントロピ値（「自己情報量」とも呼ばれる）を有し、どれぐらいの情報がこの属性によって与えられるかを表わす。この情報（「情報ゲイン」としても知られている）は、属性の不確実性に基づいて決定されることができる。例えば、特定の属性の全ての値が同じ（単一値結果）である場合には、当該属性は、信号を伝達せず、そのため情報ゲインがゼロである。

単一属性について計算されるエントロピ値は、非負数であり、０からログ｜ｘ｜（「ｘの個数のログ」と発音される）までの範囲であり、｜ｘ｜は、この属性のさまざまな値の個数である。ビットで表現されるエントロピ値では、対数は２を基数とする。このような場合には、例えば、４つの等しく分散された値を有する列は、ログ４＝２ビットの情報を伝達する。異なる例として、結果が常にゼロである変数では、当該変数は、結果値を１つだけ有し、情報を伝達せず、そのエントロピ値は、ログ１＝０である。別の例として、ｘが０〜６５５３６の間の均一に分散された値を表わしている場合には、各値の不確実性は高い。この例では、６５５３６＝２^１６の結果があり、そのため１６ビットのエントロピがある。

いくつかの実施例では、以下の式に従ってシャノンエントロピとしてエントロピを計算する。

式中、Ｈ（Ｘ）は、変数Ｘのエントロピであり、添え字ｉは、全ての考えられるｎ個の結果にわたってループし、ｘ_ｉは、考えられる結果を表わし、ｐ（ｘ_ｉ）は、結果ｘ_ｉの確率である。一実施例では、二進（２を基数とする）対数が使用され、その場合、結果として生じるエントロピは、ビットで測定される。

全ての確率が０〜１の範囲の値として示されるので、全てのログ結果は負になり、したがって加算の外側での否定である。また、結果の確率が低くなればなるほど、確率値は小さくなり、したがってログ値は高くなる。言い換えれば、実際には、まれに発生する値がエントロピ値の最大の寄与因子である。

いくつかの実施例では、エントロピをログ｜ｎ｜で除算することによってエントロピを正規化し、結果として生じる正規化されたエントロピを０〜１の範囲内に入るようにしてもよい。

一般に、エントロピは、任意の離散変数について評価され得る。数値変数の場合、（計算的に複雑な微分アプローチによって）エントロピを直接計算してもよく、またはデータを離散化またはビニングして当該データをカテゴリ変数に変換してもよい。後者のアプローチは、場合によってはわずかな精度の損失を引き起こすが、計算の簡単さおよび速度を大幅に向上させる。

離散変数の場合、確率は、データセット内の属性の頻度である。一実施例では、高濃度データ（例えば、システム内のレコードの数に相当するさまざまな値の数を有する変数であり、製品レビューは、いかなるレビューもさまざまであると当然予想できるので、このような高濃度データの一例である）は、興味をそそらないものであると見なされ得る。自然言語テキストを含む変数の場合、このような高濃度変数を濃度がより低い（したがってより興味深い）変数に変換するのに抽出という語を使用することができる。

一実施例では、エントロピ値の使用は、０〜１の範囲に正規化されたデータセットのあらゆる属性のエントロピを計算することを含む。さらなる使用は、以下で説明するように、より興味深い属性を目立たせようと試みながら興味深さ関数の結果の降順に基づいて属性をソートすることを含む。

一般に、一人のデータアナリスト（または科学者）にとって興味深いかもしれないものは、別の人にとってはそれほど興味深くないかもしれない。しかし、単にもともと興味深くない２つの劣化事例がある。エントロピ範囲のローエンド（０の近く）には、単一の結果のみを保持する属性がある。直感的に、これらのタイプは、データセットの全体的理解には寄与しない。同様に、エントロピ値のハイエンド（１という正規化された値の近く）には、高濃度属性（例えば、製品ごとに異なっていると予想される製品在庫数の列）が存在する。このような属性は、情報を伝達することも期待できない。

ローエンド劣化事例を上回る値では、興味深い信号が出現し、この変数の結果の変化を知らせる。同様に、ハイエンド劣化事例を下回る値にも興味深い信号がある。

特定の実施例では、まずローエンドおよびハイエンドカットオフを適用し、次いでエントロピの極端な（小さいおよび大きい）値を高い興味深さにマッピングする一方、中間値を低い興味深さにマッピングすることによって、正確に計算されたエントロピを興味深さに変換する方法を仮定する。

図５は、正規化されたエントロピに対する興味深さの１つの考えられるグラフを示す。図５では、ｘ軸は、０〜１の正規化されたエントロピであり、０．５は、マッピング曲線の最小値である。ｙ軸は、属性がどれぐらい興味深いものであるかを表わす。いくつかの実施例では、低レベルのエントロピのカットオフと高レベルのエントロピのカットオフとは異なっており、独立して調整可能である。

エントロピの値が０〜ログ｜ｎ｜の範囲であり、ｎは、各々の特定の列または属性についてのさまざまな結果（または値）の数であるので、結果の数が異なる属性のエントロピ値を比較することは、難題である。いくつかの実施例では、各々の特定の列のエントロピをログ｜ｎ｜で除算することによってエントロピ正規化を実行する。正規化されたエントロピの値は、０〜１の範囲内であり、そのため直接比較することができる。

例えば、０．５という同一のエントロピ値を有する２つの列を考えてみる。第１の列が「真」および「偽」という値のみを含む場合、それはｎ＝２を有し、正規化されたエントロピは、０．５／ログ（２）＝０．５である。０．５という同一のエントロピ値を有するが４つの異なる値を有する別の列に同一のプロセスを適用すると、正規化されたエントロピは、０．５／ログ（４）＝０．２５になるであろう。この例では、正規化以前は同一のエントロピ値を有していた２つの列は、正規化後のエントロピ値が異なり、したがって興味深さが異なるであろう。

他の実施例では、興味深さへのエントロピのさまざまなマッピングを利用してもよい。例えば、０〜１の範囲内の大域的最小値を有する放物曲線も上記の検討事項を満たすであろう。

特定の実施例では、各属性タイプに基づいて興味深さへのエントロピのさまざまなマッピングを適用することができる。例えば、ジオコードは、それらの属性の分布に関係なく、常に興味深いと見なされてもよい。

いくつかの実施例では、ユーザは、興味深さに従ってソートされた属性の一覧を動的に変更することが可能である。可能性は、選択された属性を対応して除外および奨励するための「削除」ボタンおよび「いいね」ボタンなどのユーザインターフェイス要素を含む。

いくつかの実施例では、ユーザによって示される興味に基づいて劣化事例の具体的な範囲／閾値をさらに求めるための機械学習アプローチの利用を追加する。

上記の実施例では、各々の属性のエントロピを単独で計算する。他の実施例では、エントロピの計算は、一変量レベルの代わりに二変量分析レベルで実行される。これにより、２つの異なる属性の間でエントロピを計算することができる（相互および条件付きエントロピ）。この実施例では、ユーザは、興味深さに基づくソートの前に属性を選択することができる。このシナリオでは、選択された列に対して、エントロピが計算され、興味深さが判断される。

別の実施例では、ユーザは、最初の一変量興味深さソートが実行された後に何らかのユーザジェスチャを介して属性または属性セットへの興味を示してもよい。このシナリオでは、このユーザジェスチャに続いて、新たな情報を考慮に入れてデータセットの属性がソートし直される。

二変量実施例では、エントロピ計算は、相互情報量に基づき得る。２つの属性ＸおよびＹについて、相互情報量Ｉは、以下のように表現することができる。

式中、ｘおよびｙは、対応して属性ＸおよびＹの考えられる結果であり、ｐ（ｘ）およびｐ（ｙ）は、対応して結果ｘおよびｙの確率であり、ｐ（ｘ，ｙ）は、（データの同一の行において）一緒に生じる結果ｘおよびｙの結合確率であり、全ての考えられる結果に対してダブル加算が行われる。

二変量実施例の一例として、データが４つの属性、すなわちｘ１，ｘ２，ｘ３，ｘ４を有するとする。属性は、離散的であってもよく、または数値的であってもよく、その場合それらはビニングによって離散化され得る。各属性ごとに、選択された属性に対して相対的エントロピ（相互情報量）が計算される。ｘ１が選択された属性を表わす場合、他の全ての属性ｘ２，ｘ３，ｘ４について、実施例は、ｘ１に対する相互情報量を計算し得る。次いで、３つの属性は、選択された列ｘ１に対する相互情報量の計算された値に従ってソートされ得る。例えば、相互情報量の値がＩ（ｘ１，ｘ２）＝０．４、Ｉ（ｘ１，ｘ３）＝０．６、Ｉ（ｘ１，ｘ４）＝０．２である場合、この相互情報量に従った属性のソートの結果、属性の順序付けは、ｘ３，ｘ２，ｘ４となるであろう。他の実施例では、このソートを他の検討事項と組み合わせてもよい。例えば、都市、国および郵便番号の属性が互いに関連していることが分かっている場合、そのような属性は、ソートプロセス中は一緒にまとめられるであろう。

別の実施例では、条件付き相互情報量が使用されてもよく、当該条件付き相互情報量は、一例では、第３のものの値を仮定した２つの確率変数の相互情報量の期待値である。

図６は、本発明の一実施例に係るガイド付きデータ探索モジュール１６および他の要素の機能のフロー図である。図６は、二変量の実施例を示している。図６の実施例は、２０２，２０４，２０６，２０８，２１０および２１２における図２の実施例の機能と同様の機能を有している。６１４において、タイルの選択を受信する。６１６において、選択されたタイルに対する興味深さのレベルによって属性をソートする。

開示されているように、実施例は、データセットの探索のためのガイド付き分析を提供する。選択されたデータセットの属性は、興味深さのレベルによってソートされ、ユーザは、反復プロセスを介してさらなるソートを提供することができる。

いくつかの実施例が本明細書に具体的に示され、および／または、記載されている。しかし、開示されている実施例の変形例および変更例も、本発明の精神および所期の範囲から逸脱することなく、添付の特許請求の範囲の範囲内で、上記の教示によって包含される、ということが理解されるであろう。

Claims

データを探索するための方法であって、
データベースから前記データを受信するステップと、
前記データをサーバ内に索引付けするステップと、
前記索引付けされたデータから１つ以上の選択可能なデータセットを表示するステップとを備え、前記データセットの各々は、１つ以上の属性を備え、前記方法はさらに、
前記属性についてのエントロピを用いて興味深さのレベルによって前記１つ以上の属性をソートするステップと、
前記ソートされた１つ以上の属性を表示するステップとを備え、
前記ソートするステップは、
決定されたエントロピ範囲にローエンドカットオフを適用し、前記決定されたエントロピ範囲にハイエンドカットオフを適用し、前記ローエンドカットオフおよび前記ハイエンドカットオフに基づいて前記エントロピをフィルタリングするステップと、
前記フィルタリングされたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングするステップとを備える、方法。
前記データベース内の前記データのうちの少なくともいくつかは、非構造化データである、請求項１に記載の方法。
前記ソートされた属性を表示するステップは、各々のソートされた属性ごとにタイルを表示するステップを備え、前記タイルは、前記属性の視覚化を備える、請求項１または２に記載の方法。
前記ソートされた１つ以上の属性の表示から１つ以上の属性の選択を受信するステップと、
それに応答して、
前記選択された１つ以上の属性を備えるデータセットを前記データから選択するステップと、
選択された前記データセットの前記１つ以上の属性について前記ソートをし直すステップとをさらに備える、請求項１から３のいずれか１項に記載の方法。
前記データベースから受信された前記データに対してメタデータの特定を実行するステップをさらに備える、請求項１から４のいずれか１項に記載の方法。
前記選択可能なデータセットのうちの１つ以上の選択を受信するステップをさらに備える、請求項１から５のいずれか１項に記載の方法。
前記属性の各々は、データベース列で構成される、請求項１から６のいずれか１項に記載の方法。
命令を含むコンピュータ読取可能なプログラムであって、前記命令は、プロセッサによって実行されたときに前記プロセッサに請求項１から７のいずれか１項に記載の方法を実行させる、プログラム。
ガイド付きデータ探索システムであって、
データベースからデータを受信して前記データをサーバ内に索引付けする索引付けモジュールと、
前記索引付けされたデータから１つ以上の選択可能なデータセットを表示する表示モジュールとを備え、各々の選択可能なデータセットは、１つ以上の属性を備え、前記システムはさらに、
前記属性についてのエントロピを用いて興味深さのレベルによって前記１つ以上の属性をソートするソートモジュールを備え、
前記表示モジュールは、前記ソートされた１つ以上の属性をさらに表示し、
前記ソートすることは、
決定されたエントロピ範囲にローエンドカットオフを適用し、前記決定されたエントロピ範囲にハイエンドカットオフを適用し、前記ローエンドカットオフおよび前記ハイエンドカットオフに基づいて前記エントロピをフィルタリングすることと、
前記フィルタリングされたエントロピの小さい値および大きい値を高レベルの興味深さにマッピングし、中間値を低レベルの興味深さにマッピングすることとを備える、システム。
前記ソートモジュールはさらに、
前記ソートされた１つ以上の属性の表示から１つ以上の属性の選択を受信し、
それに応答して、
前記選択された１つ以上の属性を備えるデータセットを前記データから選択し、
選択された前記データセットの前記１つ以上の属性について前記ソートをし直す、請求項９に記載のシステム。
前記ソートモジュールはさらに、前記選択可能なデータセットのうちの１つ以上の選択を受信する、請求項９または１０に記載のシステム。