JP5612047B2 - データのカテゴリフィルタ処理のための装置及び方法 - Google Patents

データのカテゴリフィルタ処理のための装置及び方法 Download PDF

Info

Publication number
JP5612047B2
JP5612047B2 JP2012200252A JP2012200252A JP5612047B2 JP 5612047 B2 JP5612047 B2 JP 5612047B2 JP 2012200252 A JP2012200252 A JP 2012200252A JP 2012200252 A JP2012200252 A JP 2012200252A JP 5612047 B2 JP5612047 B2 JP 5612047B2
Authority
JP
Japan
Prior art keywords
attribute
computer
category
readable storage
storage medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012200252A
Other languages
English (en)
Other versions
JP2013020633A (ja
Inventor
ダヴォール・キュブラニック
Original Assignee
ビジネス・オブジェクツ・ソシエテ・アノニム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビジネス・オブジェクツ・ソシエテ・アノニム filed Critical ビジネス・オブジェクツ・ソシエテ・アノニム
Publication of JP2013020633A publication Critical patent/JP2013020633A/ja
Application granted granted Critical
Publication of JP5612047B2 publication Critical patent/JP5612047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

関連出願の相互参照
本出願は、同時申請された共同所有の下記米国特許出願、2006年10月31日申請した米国特許出願第11/555,234号、「入れ子式パネルを用いてデータをフィルタ処理するための装置及び方法」に関連し、その全体を本明細書に引用・参照する。
発明の分野
本発明は、一般的に、データのフィルタ処理に関する。特に、本発明は、データを効率的にフィルタ処理するフィルタ処理カテゴリの決定に関する。
多数の関連カテゴリを有する大規模データセットを迅速に移動して見るのは、困難である。場合によっては、或るカテゴリに基づくフィルタ処理は、データセットから1つ又は2つのレコードしか除去しない。従来技術による技法は、一般的に、フィルタ処理の際に基準となるカテゴリ及び属性のリストを提供するが、これは、フィルタが、結果的に生じるデータセットにどのような影響を及ぼすかを示したり判断したりせずに行われる。多くの場合、従来技術は、レコードが索引付けされる所定の階層構造のカテゴリを提供する。
上記を考慮すると、どのカテゴリが、データを効率的にフィルタ処理するか判断するための強化技法を提供することは、極めて望ましい。
本発明には、データソースからデータセットを検索して取り出すための実行可能な命令を有するコンピュータ判読可能記憶媒体が含まれ、データセットは、第1組のカテゴリを含む。データセットを表すデータ構造が、構築される。第1組のカテゴリ用の第1組のメリット値が、計算される。第1組のカテゴリは、判断基準に基づき配列される。第1組のカテゴリが返される。
本発明には、更に、データソースからデータセットを検索して取り出すための実行可能な命令を有するコンピュータ判読可能記憶媒体が含まれる。データセットは、第1組のカテゴリ内の各カテゴリに基づき、連続的にグループ化することによって再配列される。列挙木が構築される。第1組のカテゴリ用のメリット値の組を計算する。第2組のカテゴリを決定するが、この場合、メリット値は、判断基準を満たす。第2組のカテゴリを返す。
本発明は、後述の詳細な説明において、以下の添付図面と共に解釈すると更に理解が深まる。
本発明の一実施形態に基づき構築されたコンピュータを示す図である。 本発明の一実施形態に関連する必要な列挙木データ構造を構築するための処理動作を示す図である。 本発明の一実施形態に基づく列挙木データ構造へのデータセットの変換を示す図である。 本発明の一般的な実施形態に基づき、一組のカテゴリフィルタ処理オプションを決定するための処理動作を示す図である。 本発明の特定の実施形態に基づき、一組のカテゴリフィルタ処理オプションを決定するための処理動作を示す図である。 本発明の一実施形態に基づき構成されたサンプルデータセット及び対応する列挙木データ構造を示す図である。 供給されたフィルタに基づき再構築した後の図6の列挙木データ構造を示す図である。
同様な参照数字は、幾つかの図面の図における対応部分を指す。
本発明の実施形態を開示する際、以下の用語を用いる。
属性は、データセットにおける任意の非ヌル値である。
属性の組合せは、データセットにおける特定のレコードに関連付けられた属性の組又は下位の組である。
属性計数値は、単一のカテゴリ内に固有の属性が出現する回数である。
属性計数値データ構造は、データセットの全属性用の属性計数値を記憶するデータ構造(例えば、一時的な参照表、リスト、ハッシュ表、又はツリー(木))である。このデータ構造は、内部で記述されたカテゴリフィルタ処理プロセスの任意の構成要素である。
カテゴリは、互いに関連する属性のグループで構成される。カテゴリは、データソースにおける属性の類似の位置によって定義される。例えば、カテゴリは、データベース表又はスプレッドシートの列、XMLファイル内で同じタグを共有する一組のフィールド、又は階層データソース内において相対的な位置を共有する一組のフィールドである。
共通先行属性は、カテゴリ配列における最初の識別属性の前に来る2つのレコード間で共有される一組の属性である。
エントロピーは、情報理論からの評価基準であり、カテゴリにおける属性が、どのように分散されているか記述する。この公知の評価基準は、属性分布のランダム性に関連する。
列挙木は、ノードがエッジによって接続されたデータ構造である。列挙木は、データセットから得られたデータ及びメタデータでデータセットを表し得る。
フィルタには、同じカテゴリに属する1つ又は複数の属性が含まれるが、これらの属性は、そのカテゴリに対して要求される値(1つ又は複数)として指定されているものである。
メリット値又はメリットは、データをフィルタ処理する際、カテゴリがどれくらい効率的であるかの評価基準である。
ノードの属性計数値は、列挙木ノードに記憶された計数値であり、データセットにおける親ノード属性の先行シーケンス終端に属性が何回出現したかを追跡する。所定の属性に対する全ノードの属性計数値の合計は、関連する属性計数値になる。
図1は、本発明の一実施形態に基づき構成されたコンピュータ100を示す。コンピュータ100には、標準的な構成要素、例えば、中央処理装置102や入出力装置104が含まれ、これらは、バス106によって接続されている。入出力装置104には、キーボード、マウス、タッチスクリーン、モニタ、プリンタ等を含み得る。更に、ネットワークインターフェイス回路108もバス106に接続されている。ネットワークインターフェイス回路108は、ネットワーク(図示せず)への接続性を提供し、これによって、コンピュータ100は、ネットワーク環境で動作し得る。
更に、メモリ110が、バス106に接続されている。メモリ110は、本発明の動作を実現するための実行可能な命令を記憶する。一実施形態において、実行可能な命令には、以下のモジュールの1つ又は複数が含まれる。即ち、オペレーティングシステム・モジュール112、データアクセス・モジュール114、データ構造モジュール116、カテゴリ計算モジュール118及び任意のグラフィカルユーザーインターフェイス(GUI)モジュール120の1つ又は複数が含まれる。
オペレーティングシステム・モジュール112には、ファイルサービス等の様々なシステムサービスを取り扱ったり、ハードウェア依存のタスクを実施したりするための実行可能な命令が含まれる。
データアクセス・モジュール114には、データソースクエリ(例えば、構造化問い合わせ言語(SQL)クエリ、多次元表現(MDX)クエリ、データマイニング拡張(DMX)クエリ)を修正して、指定フィルタを含むための実行可能な命令が含まれる。データアクセス・モジュール114は、更に、根底にあるデータソースに生成されたデータソースクエリを適用するための実行可能な命令が含まれるが、これは、コンピュータ100の一部を形成可能であり、又は、ネットワークインターフェイス回路108を介して、別個のネットワーク化されたマシンとしてアクセスし得る。
データ構造モジュール116には、列挙木データ構造を構築するための実行可能な命令が含まれる。このモジュールは、更に、本発明の一実施形態に基づき列挙木を解析するための命令を含む。
カテゴリ計算モジュール118には、効率的にデータセットをフィルタ処理するカテゴリを決定し、また、カテゴリ情報を整理するための実行可能な命令が含まれる。一実施形態において、カテゴリ情報は、GUIモジュール120に渡される。他の実施形態では、カテゴリ情報は、他のプロセスに渡される。
GUIモジュール120は、任意の構成要素であり、また、ユーザインターフェイスのグラフィカル構成要素、例えば、窓、アイコン、ボタン、メニュー等を生成する標準的な技法に依拠し得る。GUIモジュール120は、ユーザに対して、連続的な組のフィルタ処理カテゴリ、フィルタ処理済みデータセット結果等を表示する。
メモリ110に格納された実行可能モジュールは、代表例である。モジュールの機能は、組み合わせられることを認識されたい。更に、モジュールの機能は、単一のマシン上で実施する必要はない。その代わり、望まれる場合、機能は、ネットワーク内に分散し得る。実際、本発明は、クライアント・サーバ環境において共通に実現され、様々な構成要素が、クライアント側及び/又はサーバ側で実現される。重要なことは、本発明の機能であり、それらの実施場所や特定の実施方法ではない。
図2は、データアクセス・モジュール114又はデータ構造モジュール116からの命令を実行しつつ、コンピュータ100によって実現し得る列挙木データ構造を構築するための処理動作200を示す。図2の最初の処理動作において、データアクセス・モジュールは、データソースからデータセットを検索して取り出し(202)、オプションとして、それを一時的な表に格納する。
一実施形態において、データ構造モジュール116は、次に、オプションとして、固有属性の数の昇順にカテゴリを再配列する(206)。一実施形態において、複数のカテゴリは、同数の固有属性を有する場合、元の順番でグループ化される。カテゴリは、物理的に再配列される必要はないことに留意されたい。一実施形態では、カテゴリを物理的に再配列するのが効率的か、又は、データアクセス・モジュール114との対話時、それらが再配列されて見えるように番号を付けるのが効率的か、判断する。これは、任意の動作であり、このプロセスでの動作は、この動作206に左右されない。
次の処理動作は、属性を降順にグループ化することによってレコードを再配列することである(208)。データ構造モジュール116は、先頭のカテゴリでのグループ化により、また、上記配列を通って進行することにより始まる。
この再構築が一旦完了すると、データ構造モジュール116は、列挙木を構築する(210)。データ構造は、木構造であり、単一の木又は複数の木からなり、先頭カテゴリにおける各固有属性に対して、1つの根ノードが存在する。
データ構造モジュール116は、第1レコードの先頭カテゴリの属性を選択し、それを根ノード属性として設定することによって始まる。一実施形態において、列挙木のノードは、属性、親ノードのID、及びノードの属性計数値を含む。レコードの残りは、各属性に1つ、一連のノードとしてツリーに追加され、単一の枝を生成する。データ構造モジュール116は、列挙木に追加された最後のレコードを追跡する。このレコード情報は、後続のレコードを列挙木に追加する際に用いられる。
更にレコードを列挙木に追加する場合、データ構造モジュール116は、データセット内の次のレコードを選択する。このレコードは、以前追加されたレコードと比較され、共通先行属性の有無をチェックする。全ての共通先行属性は、接頭辞木の場合と非常によく似ているが、同じノードを共有しており、ノードの属性計数値は、幾つのレコードが単一のノードを共有しているか追跡する。レコードの残りの属性は、最後の共通先行属性のノードで始まる小枝として追加される。あるレコードと以前追加されたレコードに対して共通先行属性が存在しない場合、新しい根ノードが生成される。ヌル値は、列挙木に記憶されないことに留意されたい。先頭カテゴリにヌル値を有するレコードは、非ヌル値を有する最初のカテゴリからそれらの根ノード属性を選択する。
図3は、テーブル300のデータセット例に基づき、本発明の一実施形態において、列挙木を構築するプロセスを示す。まず、テーブル300の列が、オプションとして、固有属性の数に基づき、再配列される(301)。次に、結果的に生じるテーブル302のレコードは、属性をグループ化することによって再配列される(303)。そして、結果的に生じるテーブル304が、列挙木315を構築するために用いられる。
データ構造モジュール116は、最初の属性306を一時的なテーブル304の左端の列から選択し、それを根ノード309として設定する。列挙木の第1枝が生成され(307)、列挙木308になる。ヌル値は、列挙木に格納されないことに留意されたい。
そこから、枝が、根ノード309の属性c1を左端の列に有する各更なるレコードに対して生成される(310)。レコード305は、以前追加されたレコードと比較され、共通先行属性が判断される。共通先行属性ノード、ここでは、属性c1及びノード311が、共有される。ノードの属性計数値は、上付き文字で示すが(例えば、313)、1だけインクレメントされる。そして、図示のように、レコード305の残りは、小枝として、列挙木312に格納される。
データ構造315の残りが、左端の列にある残りの固有属性に対して、このプロセスを繰返すことによって生成される(314)。これにより列挙木316が完成する。上述したように、全ての共通先行属性は、同じノード、従って、共有ノード318を使用する。
図4は、一般的な一実施形態において、データアクセス・モジュール114、データ構造モジュール116、又はカテゴリ計算モジュール118からの命令を実行しつつ、コンピュータ100によって実現し得る一組のカテゴリフィルタ処理オプションを決定するための処理動作400を示す。図示するように、本プロセスは、図2の列挙木データ構造構築プロセス200から継続している。次の動作は、所定の式及びプロセスを用いて、各カテゴリのメリットを計算することである(402)。次に、カテゴリが、配列され(404)、そして、各カテゴリの属性が、配列される(405)。
一実施形態において、カテゴリは、メリットの昇順に配列され、また他の実施形態では、メリットの降順に配列される。一実施形態において、カテゴリは、メリット、及びデータ又は関連するメタデータから導出された他の値によって配列される。一実施形態において、カテゴリ属性は、出現頻度の昇順に配列され、また他の実施形態では、出現頻度の降順に配列される。他の実施形態には、これらに限定するものではないが、カテゴリ属性を、アルファベット順に配列する段階、数字順に配列する段階、GUIモジュール120を介して実行依頼されたユーザ指定に従って配列する段階、又は属性を未配列のままにしておく段階が含まれる。
次に、指定されたフィルタを用いて、データソース406に問い合わせ、そして、適用可能なデータセット及びカテゴリを検索して取り出す(408)。そして、オプションとして、そのデータセット及びカテゴリを記憶するか、又はそれらを他のプロセス又はGUIモジュール120に渡すことができる(409)。元の組のカテゴリ内の任意の下位の組のものを渡してよい。この下位組は、データ構造モジュール116によって設定される判断基準(例えば、最高メリット、最低メリット、対象値に最も近いメリット)、GUIモジュール120によって指定された同様な判断基準、又はユーザからの要求に基づき得る。
コンピュータ100は、ユーザ又は他のエージェントがフィルタを選択するのを待つ(410)。フィルタが選択された場合(410−はい)、カテゴリ計算モジュール118は、フィルタを受け取り(412)、そして列挙木を再構築する(414)。列挙木の再構築では、データ構造モジュール116は、現在の列挙木から、関連するカテゴリ内の選択されたフィルタの属性を有する枝をコピーする。そして、動作402から409を再び繰り返すが、今回は、指定されたフィルタを用いて、動作406の実行中、フィルタ処理済みデータセットに対して問い合わせを行う。フィルタが、複数の属性から構成される場合、クエリ内では、“OR”文を用いる。フィルタが選択されない場合(410−いいえ)、プロセスは、フィルタが選択されるまで停止する。
図5は、本発明の特定の一実施形態において、データアクセス・モジュール114、データ構造モジュール116、又はカテゴリ計算モジュール118からの命令を実行しつつ、コンピュータ100によって実現し得る一組のカテゴリフィルタ処理オプションを決定するための処理動作500を示す。図5は、他の選択肢としての本発明の実施形態に関連付けられた処理動作を示す。これらの動作の多くは、図4に関連して既に議論した。従って、新しい動作だけを議論する。
メリットを計算する第1の下位動作502、即ち、属性計数値の計算は、任意である。一実施形態において、属性計数値を計算する(502)場合、データ構造モジュール116は、列挙木を解析し、カテゴリ計算モジュール118は、各固有ノード属性についてノードの属性計数値を合計する。最初に属性計数値を計算すると、カテゴリ計算モジュール118による今後の計算のための合計データ取り込み用のデータ構造(例えば、一時的な参照表、リスト、ハッシュ表、又は木)が提供される。他の実施形態では、この下位動作は、実施されず、カテゴリ計算モジュール118は、特定の属性計数値が必要になるたびに、データ構造モジュール116が、列挙木を解析し、それを導出することを要求する。
次の下位動作は、カテゴリのエントロピー(E)を計算することであり(504)、次のようなエントロピーの式を用いる。
上式において、
Kは、任意の定数であり、
nは、カテゴリにおける固有属性の数であり、
logは、対数関数であり、その底は、個別の実施形態に応じて変わり、また、自然対数、常用対数、2を底とする対数、又は不定対数を含み得る。
catは、カテゴリにおけるi番目の固有属性であり、
p(cat)は、属性がcatである確率であり、これは、catの出現回数をデータセットにおけるレコード数で除算したものに等しい。p(cat)を計算するために用いる値は、前の下位動作502で構築された属性計数値データ構造から検索して取り出すか、又は要求された時、列挙木から導出する。
次の下位動作は、カテゴリ網羅率を計算することである(506)。カテゴリ網羅率は、カテゴリにおける属性の割合によって決定される。一実施形態において、カテゴリ計算モジュール118は、属性計数値データ構造から属性計数値を、また、データソースからデータセットにおけるレコード数を検索して取り出す。他の実施形態において、属性計数値は、列挙木から導出される。そして、カテゴリエントロピーに対して、対応するカテゴリ網羅率の値を乗算する(508)。
次の下位動作は、前の下位動作からの結果を正規化すること(510)である。正規化は、エントロピーと網羅率の積を正規化値zで除算することによって実施し得るが、zは、カテゴリ内の固有属性の数nと相関関係にある。一実施形態では、zは、nについて単調である。zがnについて単調である一実施形態では、zは、nについて超線形である。zがnについて超線形である一実施形態では、zは、nlog(n)に等しい。対数の底の例には、2、e(即ち、2.718281828であり、この場合、logeは、lnで示す)、及び10が含まれる。zがnについて単調である一実施形態では、zはnについて線形である。zがnに対して線形である一実施形態では、zはnに等しい。nの値は、属性計数値データ構造又は列挙木の解析から求められる。
正規化の結果は、メリット値(M)である。メリット値は、エントロピー及び網羅率に比例し、カテゴリにおける固有属性の数に反比例することに留意されたい。
図6は、図5の処理動作500の下記例に用いられるサンプルデータセット600を示す。対応する列挙木602は、図2の処理動作200毎に構築した。
データ構造モジュール116が列挙木を構築した後、カテゴリ計算モジュール118は、処理を引き継ぎ、データ構造モジュール116に対して、列挙木を解析して情報を取得せよという要求を定期的に送る。第1動作502は、属性計数値を計算することである。この動作502は、任意である。データセット600に対する属性計数値は、次の通りである。
そして、エントロピー値は、動作504により計算される。
E(B)=−(1)[(4/7)ln(4/7)+(3/7)ln(3/7)]=0.683
E(A)=−(1)[(l/7)ln(l/7)]=0.278
E(D)=−(1)[(2/7)ln(2/7)+(2/7)ln(2/7)+(2/7)ln(2/7)+(l/7)ln(l/7)]=1.352
E(E)=−(1)[(2/7)ln(2/7)+(2/7)ln(2/7)+(l/7)ln(l/7)+(l/7)ln(l/7)]=1.272
E(C)=−(1)[(l/7)ln(l/7)]=0.278
次の動作は、網羅率の値を計算することである(506)。
c(B)=7/7=1
c(A)=1/7=0.143
c(D)=7/7=1
c(E)=6/7=0.857
c(C)=1/7=0.143
そして、エントロピーと網羅率の値を乗算する(508)。
E(B)*c(B)=0.683*1=0.683
E(A)*c(A)=0.278*0.143=0.0398
(D)*c(D)=1.352*1=1.352
E(E)*c(E)=1.272*0.857=1.090
E(C)*c(C)=0.278*0.143=0.0398
次の動作は、以前の動作の結果を正規化すること(510)である。
M(B)=[E(B)*c(B)]/nln(n)=0.683/(2*ln2)=0.493
M(A)=[E(A)*c(A)]/nln(n)=0.0398/(1*ln1)=NaN
M(D)=[E(D)*c(D)]/nln(n)=1.352/(4*ln4)=0.244
M(E)=[E(E)*c(E)]/nln(n)=1.090/(4*ln4)=0.196
M(C)=[E(C)*c(C)]/nln(n)=0.0398/(1*ln1)=NaN
ここで、NaNは“数値でない”ことを示し、ゼロによる除算に起因する。
次に、カテゴリを配列する(404)が、この場合、メリットの降順に行う。
M(B)=0.493
M(D)=0.244
M(E)=0.196
M(A)=NaN
M(C)=NaN
NaNのメリット値の序列は、他の全ての値の後である。正規化値zとしてnln(n)を用いる側面は、ただ1つの固有属性を有するカテゴリには、NaNのメリット値があることである。
次の動作は、これは任意であるが、図5の各カテゴリの属性を配列すること(405)であり、この場合、出現頻度の降順に配列する。
次に、データアクセス・モジュール114は、データセット600についてデータソースに問い合わせ(図5の406)、そして、適用可能なデータセット及びカテゴリを検索して取り出す(図5の408)。そして、オプションとして、データセット及び配列済みカテゴリを記憶するか又はそれらを他のプロセス又はGUIモジュール120に送る(図5の409)。一実施形態において、GUIモジュール120は、ゼロより大きいメリット値を有するカテゴリをユーザに提供する。例えば、この場合、GUIモジュール120は、カテゴリB、D及びEを表示する。そして、プロセス500は、継続する前に、他のフィルタが指定されるのを待つ。
フィルタが選択されると、データ構造モジュール116は、そのフィルタを受け取り、適切な枝を新しい列挙木にコピーすることによって、列挙木を再構築する。例えば、選択されたフィルタがB=bである場合、列挙木(図7の700)が生成される。
次に、カテゴリ計算モジュール118は、一連の処理動作を実施し(図5の402)、メリット値が以下のようになる。
M(A)=NaN
M(D)=0.459
M(E)=0.352
M(C)=NaN
そして、カテゴリは、配列され(図5の404)、この場合、メリットの降順に配列される。
M(D)=0.459
M(E)=0.352
M(A)=NaN
M(C)=NaN
そして、カテゴリ属性は、オプションとして、配列され(図5の405)、この場合、出現頻度の降順に配列される。
そして、データアクセス・モジュール116は、新しいデータセットについてデータソースに問い合わせ(図5の406)、B=bでフィルタ処理を行い、適用可能なデータセット及びカテゴリを検索して取り出す(図5の408)。そして、オプションとして、新しい組の配列済みカテゴリ及びフィルタ処理済みデータセットを記憶するか又はそれらを他のプロセス又はGUIモジュール120に送る(図5の409)。プロセス500は、継続する前に、他のフィルタが指定されるのを待つ。
カテゴリ及びデータセットは、任意の数の技法に基づき、GUIモジュール120によって表示し得るが、これらの技法には、本明細書にその全体を引用・参照する以下の同時申請・共同所有の特許出願、2006年10月31日に出願した米国特許出願第“_/___,___”号、「入れ子式パネルを用いてデータをフィルタ処理するための装置及び方法」に記載されたものが含まれる。
本発明の実施形態には、実行可能な命令を記憶するコンピュータ判読可能記憶媒体が含まれる。コンピュータ判読可能記憶媒体には、データソースからデータセットを検索して取り出す命令が含まれる。データセットには、一組のレコード及び一組のカテゴリが含まれる。命令には、一組のカテゴリの各カテゴリに基づき連続的にグループ化することによって、一組のレコードを再配列する命令が含まれる。命令には、列挙木を構築する命令が含まれる。一実施形態において、コンピュータ判読可能媒体のカテゴリには、一組の属性が含まれる。一実施形態において、コンピュータ判読可能媒体には、更に、実行可能な命令が含まれるが、これらは、一組のカテゴリにおける各カテゴリの固有属性の数を計算し、また、固有属性の数の昇順にカテゴリを再配列する命令である。一実施形態において、コンピュータ判読可能媒体には、更に、実行可能な命令が含まれるが、これらは、フィルタを受け取り、一組の適用可能な枝を列挙木からコピーし、この場合、適用可能な枝の組における適用可能な枝は、フィルタに準拠し、また、その組の適用可能な枝を用いて新しい列挙木を構築する。
本発明の実施形態は、コンピュータ記憶製品に関し、コンピュータ判読可能媒体が、コンピュータにより実行される様々な動作を実施するためのコンピュータコードをそれ上に有する。媒体及びコンピュータコードは、本発明の目的のために特別に設計され構築されたものであってよく、あるいは、コンピュータソフトウェア分野の当業者に公知で利用可能な種類のものであってよい。コンピュータ判読可能媒体の例には、これらに限定するものではないが、次のようなものが含まれる。即ち、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープ等の磁気媒体、CD−ROM、DVD、及びホログラフィー装置等の光学媒体、光磁気媒体、及び特定用途向け集積回路(ASIC)、プログラム可能な論理装置(PLD)及びROM及びRAM装置等、プログラムコードを記憶し実行するように特別に構成されたハードウェア装置が含まれる。コンピュータコードの例には、コンパイラによって生成されるマシンコードや、コンピュータがインタプリタを用いて実行する高級なコードを含むファイルが含まれる。例えば本発明の実施形態は、Java(登録商標)、C++、又は他のオブジェクト指向プログラミング言語及び開発ツールを用いて、実現し得る。本発明の他の実施形態は、機械実行可能なソフトウェア命令の代わりに又はこれらと組み合わせて、ハードウェア的に組み込まれる回路で実現し得る。
上記の記述では、説明目的で、本発明の完全な理解を提供するために特定の用語を用いた。しかしながら、本発明を実践するために、具体的な細目が必要でないことは、当業者には明らかである。従って、本発明の特定の実施形態についての上記記述は、例示及び説明目的のために提示されている。これらは網羅的であったり、開示された厳密な形態に本発明を限定したりすることを意図するものではなく、明らかに、上述の教示内容に鑑みて、多くの修正や変更が可能である。実施形態については、本発明の原理及びその実用的な用途を最適に説明するために、選択・記述したものであって、それによって、当業者が、本発明と、考案される実用的用途に適応した様々な実施形態と、を最適に利用できるようにするものである。以下の請求項及びそれらの等価物が、本発明の範囲を規定するものである。
200 列挙木データ構造構築のための処理動作

Claims (8)

  1. コンピュータ判読可能記憶媒体であって、
    データソースから第1組のカテゴリを含むデータセットを検索して取り出す段階と、
    該第1組のカテゴリにおける各カテゴリについて連続的にグループ化することによって、前記データセットを再配列する段階と、
    前記データセットを表すデータ構造の列挙木を構築する段階と、
    カテゴリエントロピーを計算し、カテゴリ網羅率を計算し、そしてカテゴリエントロピーに対して、対応するカテゴリ網羅率の値を乗算した結果を正規化することにより、前記第1組のカテゴリ用の複数のメリット値を計算する段階と、
    前記メリット値が、判断基準を満たす第2組のカテゴリを決定する段階と、
    前記第2組のカテゴリを返す段階と、
    を実行可能な命令が含まれるコンピュータ判読可能記憶媒体。
  2. 請求項1に記載のコンピュータ判読可能記憶媒体であって、カテゴリには、一組の属性が含まれるコンピュータ判読可能記憶媒体。
  3. 請求項1に記載のコンピュータ判読可能記憶媒体であって、
    列挙木ノードは、属性ID、親ノードID及びノードの属性計数値の内の少なくとも1つから選択された一組の変数を記憶するコンピュータ判読可能記憶媒体。
  4. 請求項3に記載のコンピュータ判読可能記憶媒体であって、前記属性IDとは、前記組のカテゴリの各カテゴリにおける各属性用のID属性対を記憶する一時的な表を指すコンピュータ判読可能記憶媒体。
  5. 請求項1に記載のコンピュータ判読可能記憶媒体であって、
    前記列挙木は、複数の属性の組合せ及び複数の計数値を記憶し、前記複数の計数値における代表的な計数値は、対応する属性が前記データセットに何回発生するか示すコンピュータ判読可能記憶媒体。
  6. 請求項5に記載のコンピュータ判読可能記憶媒体であって、
    前記複数の属性の組合せの各属性の組合せは、前記データセットのレコード及び前記データセットの部分的なレコードから選択されるコンピュータ判読可能記憶媒体。
  7. 請求項1に記載のコンピュータ判読可能記憶媒体であって、更に、
    フィルタを受け取る段階と、
    前記列挙木から一組の適用可能な枝をコピーする段階と、
    前記組の適用可能な枝を用いて、新しい列挙木を構築する段階と、
    新しい複数のメリット値を計算する段階と、
    新しい組のカテゴリを決定する段階であって、前記メリット値が新しい判断基準を満たす前記段階と、
    フィルタ処理したデータセットを前記データソースから検索して取り出す段階と、
    前記フィルタ処理されたデータセット及び前記新しい組のカテゴリを返す段階と、
    を実行可能な命令が含まれるコンピュータ判読可能記憶媒体。
  8. 請求項1に記載のコンピュータ判読可能記憶媒体であって、
    前記データセットには、複数のレコードが含まれ、各レコードは、複数の属性を含み、
    前記列挙木には、属性及び計数値を含む複数のノードが含まれ、
    前記列挙木の前記ノードは、枝状に構成され、
    列挙木を構築する前記実行可能な命令には、更に、
    各属性を第1レコードから前記第1枝における各ノードにマッピングすることによって、第1枝を前記列挙木に追加する段階と、
    前の枝において前記列挙木に追加された前記属性を記憶する段階であって、前記前の枝の属性は、前のレコードからの属性に対応する前記段階と、
    実行可能な命令により、更なる枝を前記列挙木に追加する段階であって、前記実行可能な命令は、
    前記前のレコードの属性を現レコードの属性と比較する段階と、
    前記共通先行属性の属性に対応する各ノードの前記計数値をインクレメントする段階と、
    前記現レコードにおける各残りの属性を小枝における新しいノードにマッピングする段階であって、前記小枝は、枝ノードから生じ、前記枝ノードは、前記共通先行属性における前記最後属性に対応する前記段階と、を実行する前記追加する段階と、
    を実行可能な命令が含まれるコンピュータ判読可能記憶媒体。
JP2012200252A 2006-10-31 2012-09-12 データのカテゴリフィルタ処理のための装置及び方法 Active JP5612047B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/555,234 2006-10-31
US11/555,234 US7493330B2 (en) 2006-10-31 2006-10-31 Apparatus and method for categorical filtering of data

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009534925A Division JP2010508593A (ja) 2006-10-31 2007-10-29 データのカテゴリフィルタ処理のための装置及び方法

Publications (2)

Publication Number Publication Date
JP2013020633A JP2013020633A (ja) 2013-01-31
JP5612047B2 true JP5612047B2 (ja) 2014-10-22

Family

ID=39331573

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009534925A Pending JP2010508593A (ja) 2006-10-31 2007-10-29 データのカテゴリフィルタ処理のための装置及び方法
JP2012200252A Active JP5612047B2 (ja) 2006-10-31 2012-09-12 データのカテゴリフィルタ処理のための装置及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009534925A Pending JP2010508593A (ja) 2006-10-31 2007-10-29 データのカテゴリフィルタ処理のための装置及び方法

Country Status (6)

Country Link
US (4) US7493330B2 (ja)
EP (1) EP2078266A4 (ja)
JP (2) JP2010508593A (ja)
CN (1) CN101606149B (ja)
CA (1) CA2667774C (ja)
WO (1) WO2008055114A2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912875B2 (en) 2006-10-31 2011-03-22 Business Objects Software Ltd. Apparatus and method for filtering data using nested panels
US7953685B2 (en) * 2007-12-27 2011-05-31 Intel Corporation Frequent pattern array
US8583618B2 (en) * 2008-11-24 2013-11-12 Business Objects S.A. Determination of graphical format to present search results
US8539343B2 (en) * 2008-12-16 2013-09-17 SAP France S.A. Calculating uniqueness coefficients for data objects and displaying the data objects in a layout based on the uniqueness coefficient
US20110055246A1 (en) * 2009-09-01 2011-03-03 Yann Le Biannic Navigation and visualization of relational database
US9208195B2 (en) * 2011-01-31 2015-12-08 International Business Machines Corporation Retrieving information from a relational database using user defined facets in a faceted query
CN103377263B (zh) * 2012-04-28 2017-03-01 阿里巴巴集团控股有限公司 一种业务对象的筛选方法以及装置
US10156961B1 (en) * 2013-09-24 2018-12-18 EMC IP Holding Company LLC Dynamically building a visualization filter
US9384287B2 (en) * 2014-01-15 2016-07-05 Sap Portals Isreal Ltd. Methods, apparatus, systems and computer readable media for use in keyword extraction
GB2524073A (en) * 2014-03-14 2015-09-16 Ibm Communication method and system for accessing media data
US9811931B2 (en) 2014-06-02 2017-11-07 Business Objects Software Limited Recommendations for creation of visualizations
US9881032B2 (en) 2014-06-13 2018-01-30 Business Objects Software Limited Personal objects using data specification language
US10387494B2 (en) 2014-09-24 2019-08-20 Oracle International Corporation Guided data exploration
CN105550241B (zh) * 2015-12-07 2019-06-25 珠海多玩信息技术有限公司 多维数据库查询方法及装置
US20190253357A1 (en) * 2018-10-15 2019-08-15 Intel Corporation Load balancing based on packet processing loads

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4725658A (en) 1985-09-12 1988-02-16 General Electric Company Novel silicone-ester waxes
JP3656261B2 (ja) * 1994-10-24 2005-06-08 住友電気工業株式会社 GaAs結晶の熱処理方法
US5926806A (en) 1996-10-18 1999-07-20 Apple Computer, Inc. Method and system for displaying related information from a database
US6169985B1 (en) * 1998-05-29 2001-01-02 Epiphany, Inc. Method and apparatus for determining a set of database entries
US6348932B1 (en) 1999-03-01 2002-02-19 Sony Corporation Provide two different types of service in a menu
US6963867B2 (en) 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US20020038299A1 (en) 2000-03-20 2002-03-28 Uri Zernik Interface for presenting information
US20040230461A1 (en) 2000-03-30 2004-11-18 Talib Iqbal A. Methods and systems for enabling efficient retrieval of data from data collections
JP4920815B2 (ja) 2000-06-01 2012-04-18 信越化学工業株式会社 化粧料
US7603632B1 (en) * 2000-11-01 2009-10-13 Microsoft Corporation System and method for creating customizable nodes in a network diagram
WO2002044942A1 (en) * 2000-12-01 2002-06-06 Mark Hopkins Product selection apparatus and method
JP3938872B2 (ja) 2001-02-02 2007-06-27 松下電器産業株式会社 データ分類装置および物体認識装置
US7805339B2 (en) 2002-07-23 2010-09-28 Shopping.Com, Ltd. Systems and methods for facilitating internet shopping
US7461051B2 (en) 2002-11-11 2008-12-02 Transparensee Systems, Inc. Search method and system and system using the same
US7117453B2 (en) 2003-01-21 2006-10-03 Microsoft Corporation Media frame object visualization system
US20050032066A1 (en) * 2003-08-04 2005-02-10 Heng Chew Kiat Method for assessing risk of diseases with multiple contributing factors
US7516115B2 (en) * 2003-08-20 2009-04-07 International Business Machines Corporation Method and system for optimizing performance in non-relational databases
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
EP1738251A2 (en) 2004-04-16 2007-01-03 Cascade Basic Research Corp. Modelling relationships within an on-line connectivity universe
US7665022B1 (en) * 2004-07-23 2010-02-16 Adobe Systems Incorporated Media management interfacing with refined data structures
WO2006037613A2 (en) * 2004-10-04 2006-04-13 Clearpace Software Limited Method and system for implementing an enhanced database
US7340686B2 (en) 2005-03-22 2008-03-04 Microsoft Corporation Operating system program launch menu search
US20070179967A1 (en) 2005-11-22 2007-08-02 Zhang Xiaoge G Intuitive and Dynamic File Retrieval Method and User Interface System
US7580918B2 (en) * 2006-03-03 2009-08-25 Adobe Systems Incorporated System and method of efficiently representing and searching directed acyclic graph structures in databases
US7734576B2 (en) 2006-05-02 2010-06-08 Business Objects Software Ltd. Apparatus and method for relating graphical representations of data tables
US7689666B2 (en) 2006-08-31 2010-03-30 Richard Commons System and method for restricting internet access of a computer

Also Published As

Publication number Publication date
EP2078266A2 (en) 2009-07-15
US20120221575A1 (en) 2012-08-30
WO2008055114A3 (en) 2008-10-02
JP2013020633A (ja) 2013-01-31
US20130304766A1 (en) 2013-11-14
CA2667774C (en) 2015-02-17
CA2667774A1 (en) 2008-05-08
CN101606149B (zh) 2012-07-04
WO2008055114A2 (en) 2008-05-08
US20080104053A1 (en) 2008-05-01
US7493330B2 (en) 2009-02-17
US8195695B2 (en) 2012-06-05
US20090112904A1 (en) 2009-04-30
EP2078266A4 (en) 2010-08-25
US8832153B2 (en) 2014-09-09
CN101606149A (zh) 2009-12-16
US8504589B2 (en) 2013-08-06
JP2010508593A (ja) 2010-03-18

Similar Documents

Publication Publication Date Title
JP5612047B2 (ja) データのカテゴリフィルタ処理のための装置及び方法
US7899832B2 (en) Apparatus and method for assessing relevant categories and measures for use in data analyses
US20210073188A1 (en) System and method for automatic inference of a cube schema from a tabular data for use in a multidimensional database environment
Kang et al. Hadi: Fast diameter estimation and mining in massive graphs with hadoop
US20040015486A1 (en) System and method for storing and retrieving data
US20210271677A1 (en) Class specific query processing
JP4114653B2 (ja) クエリ処理操作中に補助属性を用いてクエリをリライトするための方法および装置
US11461333B2 (en) Vertical union of feature-based datasets
Bhowmick et al. VOGUE: Towards A Visual Interaction-aware Graph Query Processing Framework.
Kim et al. Supporting set-valued joins in NoSQL using MapReduce
Visheratin et al. Peregreen–modular database for efficient storage of historical time series in cloud environments
US11449504B2 (en) Database partition pruning using dependency graph
US11481392B2 (en) Transformation reconstruction for optimized database query
US20160117350A1 (en) Column group selection method and apparatus for efficiently storing data in mixed olap/oltp workload environment
US20200311067A1 (en) Database partition pruning using dependency graph
Khurana An introduction to temporal graph data management
US11907263B1 (en) Automated interleaved clustering recommendation for database zone maps
US20170124198A1 (en) Transforms using column dictionaries
Abdelhamid et al. Network services and their compositions for network science applications
Charlot Providing an infrastructure for a cross database management tool
Burlaca A flexible navigation mechanism for complex data models
Aramco et al. Querying and Mining Strings Made Easy
US20180113954A1 (en) Query-based determination of data visualization
Sundjaja Check Evaluation of sub query performance in SOL server. pdf

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140320

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140903

R150 Certificate of patent or registration of utility model

Ref document number: 5612047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250