JP2004532488A

JP2004532488A - データバンク操作の性能を向上させるための統計モデル

Info

Publication number: JP2004532488A
Application number: JP2003504273A
Authority: JP
Inventors: ホフマンライマー; ハフトミヒャエル
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2001-06-08
Filing date: 2002-05-15
Publication date: 2004-10-21
Also published as: WO2002101581A2; US20040186684A1; EP1395924A2; US7149649B2; WO2002101581A3; US20070083343A1

Abstract

本発明は複数の統計的な変数に対応付けられるべきデータバンクのデータを、自動的にソフトウェア制御により統計的に評価するための方法に関する。この方法は、変数の状態の相対的な頻度及び変数の状態の間の統計的な依存関係を近似的に表すための統計的なモデルがデータバンクに記憶されているデータを用いて学習され、この統計的なモデルに基づいて変数の状態の近似的な相対的な頻度並びに、変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の近似的な相対的な頻度及び期待値が求められることを特徴とする。

Description

【技術分野】
【０００１】
本発明は、複数の統計的な変数に対応付けられるべき、データバンクのデータを、自動的にソフトウェア制御により統計的に評価するための方法に関する。評価すべきデータを例えば１つまたは複数のクラスタに包含することができる。
【０００２】
今日ではデータバンクは莫大な量のデータを記憶することができる。記憶されたデータを評価し、且つ有益な情報を抽出できるようにするためには、データが大量である結果、効果的すなわち迅速且つ所期のデータバンクアクセスが必要である。
【０００３】
評価のために一般的に、所定の条件と合致する全てのデータを発見すべきである。この際しばしば、発見されたデータ自体を知ることは問題にならず、むしろデータを基礎とする統計の知識のみを得ようとされる。
【０００４】
例えば、顧客のデータがファイルされている顧客関係管理（ＣＲＭ、Customer-Relationship-Management）システムにおいて、いずれの顧客が所定の特徴でもって所定の製品を購入したかを探し出す場合には、データバンクにおける全ての顧客エントリにアクセスし、顧客の特徴を問い合わせ、所望の特徴を有する「適合する」エントリ中で顧客が所定の商品を購入したというエントリを見つけ出してカウントするという簡単なやり方で構成できるであろう。例えばデータバンクへのそのような照会は以下のような内容であっても良い：どれ程の頻度で移動電話が少なくとも３０歳である男性の顧客によって購入されたか？すなわち、「男性」及び「少なくとも３０歳」という条件を充足する全ての顧客エントリを発見することができ、発見された適合するエントリについて、どの移動電話がどれぐらい購入されたかを検査することができる。
【０００５】
しかしながらこのやり方の欠点は、合致するエントリを見つけるためにデータバンク全体を読み出さなければならないことである。この読み出しは大きなデータバンクではしばしば非常に時間がかかる可能性がある。
【０００６】
全ての変数に選択的に問い合わせ可能なインデクスが設けられる場合には、データバンク検索を的確且つ効果的に行うことができる。この際、データバンクの使用されるインデックス技術が正確且つ綿密であればあるほど、データバンクへのアクセスをより迅速に実行できる。データバンクエントリに関する統計的なステートメントも相応により効果的なものにすることができる。このことは殊に、データバンクに固有のインデックス技術によって所期に期待すべき照会が準備される場合に当てはまる。
【０００７】
択一的にまたはインデックス技術と組み合わせて、期待すべき全ての統計的なステートメントの結果を事前計算することができるが、このことは結果の計算及び記憶の大きな手間という欠点をもたらす。
【０００８】
データバンクのデータから統計的な情報を抽出するための方法の１つのクラスは、「オンライン分析処理」（ＯＬＡＰ）という概念でもって示されている。一般的にそのような方法は「関係オンライン分析処理」（ＲＯＬＡＰ）及び「多次元オンライン分析処理」（ＭＯＬＡＰ）に分けることができる。
【０００９】
ＲＯＬＡＰ方法では僅かにして事前計算は行われない。統計を照会する際には、照会の応答のために必要とされるデータにインデックス技術を介してアクセスされ、次いで統計がデータから計算される。ＲＯＬＡＰの重点は、必要なデータの発見及びロードを可能な限り迅速に行うために、データを的確に組織及びインデクシングすることにある。データ量が多い場合にはこのことに関する手間はそれにもかかわらずさらに相当なものとなる可能性があり、さらには選択されたインデクシングが場合によっては全ての問い合わせとって最適ではない。
【００１０】
ＭＯＬＡＰ方法では、考えられる複数の照会についての結果の事前計算が焦点となる。事前計算された照会に対する応答時間はこれによって非常に短くなる。事前計算されなかった照会に関しては、所望の量を事前計算された結果から計算できる場合には、事前計算された値が部分的に速めることもでき、このことはデータに直接アクセスするよりも僅かな手間であることを意味している。考えられる全ての問い合わせの量は変数の数及びこの変数の状態の数が増すと共に多くなり、その結果、事前計算はメモリスペース及び計算時間に関する目下の実現可能性の限界に突き当たる。この場合、考察される変数、この変数の種々の状態ないし許容される照会に関する制限を甘受しなければならない。
【００１１】
ＯＬＡＰ方法は各データバンクエントリへの単なるアクセスに比べ効率の上昇を保証しているにもかかわらず、多数の冗長的な情報が生成されてしまうという欠点を有する。つまり統計は事前計算すべき広範なインデックスリストを作成すべきでものである。それに加え、ＯＬＡＰ方法の効率的な使用は一般的に、この方法が所定の照会に基づいて最適化されることを要するが、この際しかしながらＯＬＡＰ方法はこの選択された制限も受ける。すなわち、もはやデータバンクには任意に照会することができない。
【００１２】
さらにＯＬＡＰ方法では、情報がより迅速に提供されるべきであればあるほど、またこれらの情報が多様であればあるほど、より多くの構造を事前計算し、記憶しなければならない。したがってＯＬＡＰシステムは非常に大きくなる可能性があり、所望したものよりもはるかに効率的ではない。１秒以下の応答時間は大きなデータバンクへの任意で統計的に照会する場合には、実際的に実現することができない。それどころか応答時間は頻繁に実質的に１秒を上回る。
【００１３】
したがってデータバンクエントリを統計的に評価するための効率的な方法の要求が生じる。この際照会は可能な限り制限を受けるべきではない。
【００１４】
本発明の課題は従来技術において公知である方法の欠点、殊にデータバンクエントリを統計的に評価するためのＯＬＡＰ方法の欠点を克服することである。
【００１５】
この課題は本発明によれば独立請求項記載の方法によって解決される。本発明の有利な構成は従属請求項に記載されている。
【００１６】
本発明によれば、複数の統計的な変数に対応付けられているデータバンクのデータ、殊に１つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法が示され、この方法は、変数の状態の相対的な頻度及び変数の状態の間の統計的な依存関係を近似的に表すための統計モデルがデータバンクに記憶されているデータを用いて学習され、統計モデルに基づいて変数の状態の近似的な相対的な頻度、並びに変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の近似的な相対的な頻度及び期待値が求められることを特徴としている。
【００１７】
モデルは、データバンクのデータを統計的に評価するための従来の方式と異なり、データの統計の正確な結像ではない。このやり方では一般的に正確なステートメントではなく、単に近似的な統計的なステートメントが得られる。しかしながら統計モデルは、例えば従来のＯＬＡＰ方法よりも僅かな制限を受けるに過ぎない。
【００１８】
近似的な統計的なステートメントを得るために、データバンクにおけるエントリは先ず統計モデルに「凝縮され」、この際統計モデルはいわばデータバンクエントリの「共通の確率分布」の近似を表す。具体的にはこのことは、データバンクのエントリに基づいて統計モデルを学習することにより行われ、これにより結果としてデータバンクエントリの変数の状態の相対的な頻度を近似的に表すことができる。変数は種々の相対的な頻度を有する複数の状態を取ることができる。そのような統計モデルを使用できるようになると直ぐに、この統計モデルを変数の状態の間の相対的な依存関係を学習するために使用することができる。変数の状態の相対的な頻度を所定の条件に応じて事前設定することができ、変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の相対的な頻度を求めることができる。
【００１９】
データバンクへの統計的な照会を、変数の所定の状態の相対的な頻度についての条件の形態で行うことができ、統計的な照会への応答は変数の状態の所定の相対的な頻度に属する、この頻度に依存する別の変数の状態の相対的な頻度が求められた形態で行うことができる。
【００２０】
統計モデルとして有利にはグラフィック確率モデル（Graphical Probabilistic Model）が使用される（例えば：Castillo, Jose Manuel Gutierrez, Ali S. hadi, Expert Systems and Probabilistic Network Models, Springer, New Yorkを参照されたい）。グラフィック確率モデルには例えばベイジアンネット（ベイジアンネットワークまたは信念ネットワーク）及びマルコフネットが属する。
【００２１】
統計モデルを例えばベイジアンネットにおける構造学習によって形成することができる（例えば：Reimar Hofmann, Lernen der Struktur nichtlinearer Abhaengigkeiten mit graphischen Modellen, Dissertation, BerlinまたはDavid Heckermann, A tutorial on lerning Bayesian networks, Technical Report MSR-TR-95-06, Microsoft Researchを参照されたい）。
【００２２】
別の可能性は一定の構造に関するパラメータを学習することにある（例えば：Martin A. Tanner : Tools for Statistical Inference, Springer New York, 1996を参照されたい）。
【００２３】
多くの学習方法はモデルのパラメータに対する最適化判定基準として尤度関数を使用する。この際の特別な実現は期待値最大化（ＥＭ）学習方法であり、この学習方法を以下では特別なモデルに基づいて詳細に記述する。基本的には、主としてモデルの一般化は問題ではなく、単にデータへのモデルの良好な適合を達成しようとすることが重要である。
【００２４】
統計モデルとして有利には統計的なクラスタモデル、殊にデータを複数のクラスタに分割するベイジアンクラスタモデルが使用される。
【００２５】
同様にして統計モデルと組み合わせて、データを同様に複数のクラスタに分割する距離尺度（Distanzmass）を基礎とするクラスタモデルを使用することができる。
【００２６】
クラスタモデルを使用することによって、非常に大きなデータバンクは比較的小さい部分に分けられ、これらの部分は独立したデータバンクと解することができ、比較的僅かな量を基礎として効果的に処理することができる。このためにデータバンクを統計的に評価する際に、所定の条件を統計モデルを介して１つまたは複数のクラスタへと結像できるか否かが検査される。このことが該当する場合には、評価されるデータは１つまたは複数のクラスタに制限される。同様にして、少なくとも１つの所定の相対的な頻度を有し、所定の条件を充足するデータを包含しているクラスタへの制限を行うことができる。所定の条件に応じるデータが比較的僅かな部分にしか包含されていないその他のクラスタを無視することができる。何故ならば考察するやり方においては近似的なステートメントのみが得ようとされるからである。
【００２７】
統計的なクラスタモデルとして例えばベイジアンクラスタモデル（離散的で潜在的な変数を有するモデル）が使用される。
【００２８】
このことを以下詳細に説明する。
【００２９】
統計的な変数｛Ａ，Ｂ，Ｃ，Ｄ，．．．｝のセット、換言すればデータバンクのテーブルの多数の領域が与えられているとする。変数の状態はそれぞれの小文字によって表される。すなわち変数Ａは状態｛ａ_１，ａ_２，．．．｝を取ることができる。状態は離散的なものとする。しかしながら一般的には連続的な（実数の）変数も許容される。
【００３０】
データバンクのテーブルにおけるエントリは全ての変数についての値から成り、１つのエントリに属する、全ての変数についての値は１つのデータセットＤに統合される。例えば、ｘ^Π＝（ａ^Π，ｂ^Π，ｃ^Π，ｄ^Π，．．．）はΠ番目のデータセットを表す。テーブルはＭ個のエントリを持つ。すなわちＤ＝｛ｘ^Π，Π＝１，．．．，Ｍ｝。
【００３１】
付加的に隠れた変数（クラスタ変数）も存在し、Ωと表される。クラスタ変数は値｛ω_ｉ，ｉ＝１，．．．，Ｎ｝を取ることができる。すなわちＮ個のクラスタが存在する。
【００３２】
ここで、Ｐ（Ω｜Θ）はクラスタの先験的な分布を表し、Ｐ（ω_ｉ｜Θ）によってｉ番目のクラスタの先験的な重みが与えられており、Θはモデルのパラメータを表す。先験的な分布は、データのどの部分がそれぞれのクラスタに対応付けられているかを表す。
【００３３】
Ｐ（Ａ，Ｂ，Ｃ，Ｄ．．．｜ω_ｉ, ｜Θ）によって、ｉ番目のクラスタの構造ないしｉ番目のクラスタにおける変数セット｛Ａ，Ｂ，Ｃ，Ｄ，．．．｝の変数の条件付き分布が表される。
【００３４】
先験的な分布及び各クラスタの条件付き確率の分布は一緒に、すなわち｛Ａ，Ｂ，Ｃ，Ｄ，．．．｝∪Ωないし｛Ａ，Ｂ，Ｃ，Ｄ，．．．｝に基づく共通の確率モデルにパラメータ化される。確率モデルは先験的な分布と条件付き分布との積
Ｐ（Ａ，Ｂ，Ｃ，．．．，Ω｜Θ）＝Ｐ（Ω｜Θ）Ｐ（Ａ，Ｂ，Ｃ，．．．｜Ω，Θ）
ないし、
Ｐ（Ａ，Ｂ，Ｃ，．．．｜Θ）＝Σ_ｉＰ（ω_ｉ｜Θ）Ｐ（Ａ，Ｂ，Ｃ，．．．｜ω_ｉ，Θ）
によって与えられている。
【００３５】
データセットＤのパラメータΘの対数尤度関数Ｌは、
Ｌ（Θ）＝ｌｏｇＰ（Ｄ｜Θ）＝Σ_ΠｌｏｇＰ（ｘ^Π｜Θ）
によって与えられている。
【００３６】
期待値最大化（ＥＭ）学習の範囲においては、一連のパラメータΘ^（ｔ）は以下の一般則に応じて構成される。すなわち、
Θ^{（ｔ＋１）}＝ａｒｇｍａｘ_ΘΣ_ΠΣ_ｉＰ（ω_ｉ｜ｘ^Π，Θ^（ｔ））ｌｏｇＰ（ｘ^Π，ω_ｉ｜Θ）
この反復規則でもって尤度関数の段階的な最大化が行われる。
【００３７】
条件付き分布Ｐ（Ａ，Ｂ，Ｃ，Ｄ，．．．□ωi，Θ）に対して、制限された仮定（Annhame）を行うことができる（場合によっては行わねばならない）。そのような制限された仮定の一例は以下のファクタ化仮定である。
【００３８】
変数セット｛Ａ，Ｂ，Ｃ，Ｄ｝の変数の条件付き確率Ｐ（Ａ，Ｂ，Ｃ，Ｄ，．．．□ω_ｉ，Θ）の分布に関して例えばファクタ化をＰ（Ａ，Ｂ，Ｃ，Ｄ，．．．□ω_ｉ，Θ）＝Ｐ（Ａ□ω_ｉΘ）Ｐ（Ｂ□ω_ｉΘ）Ｐ（Ｃ□ω_ｉΘ）Ｐ（Ｄ□ω_ｉΘ）．．．とするならば、確率モデルは簡単なベイジアンネット（ナイーブベイジアンネット）に対応する。高次元のテーブルの代わりに、むしろ一次元のテーブル（それぞれ１つの変数のためのテーブル）と対比されている。
【００３９】
分布のパラメータを上述のように、期待値最大化（ＥＭ）学習方法を用いてデータから学習することができる。学習後には各データセットｘ^Π＝（ａ^Π，ｂ^Π，ｃ^Π，ｄ^Π，．．．）に１つのクラスタを対応付けることができる。対応付けを先験的な分布Ｐ（Ω□ａ^Π，ｂ^Π，ｃ^Π，ｄ^Π，．．．，Θ）を介して行うことができ、データセットｘ^Πは最大の重みＰ（ω_ｉ□ａ^Π，ｂ^Π，ｃ^Π，ｄ^Π，．．．，Θ）を有するクラスタω_ｉに対応付けられる。
【００４０】
データバンクにおける各エントリのクラスタ属性を付加的な領域としてデータバンクに記憶することができ、所定のクラスタに属するデータに迅速にアクセスできるようにするために相応のインデクスを準備することができる。
【００４１】
例えば「Ａ＝ａ_１及びＢ＝ｂ_３を有する全てのデータセット、並びにこのデータセットに属するＣ及びＤに関する分布（すなわちＰ（Ｃ｜ａ_１，ｂ_３）及びＰ（Ｄ｜ａ_１，ｂ_３））を与えよ」という統計的な照会がデータバンクになされると、以下のように行われる。
【００４２】
先ず先験的な分布Ｐ（Ω□ａ_１，ｂ_３）が求められる。この分布から、課された条件に応じるデータのどの部分をデータバンクのどのクラスタにおいて見つけることができるかが（近似的に）明らかになる。つまり後続の全ての過程では、所望の精度に応じて、Ｐ（Ω□ａ_１，ｂ_３）に従い高い先験的な重みを有するデータバンクの部分に制限することが可能である。
【００４３】
理想的な場合は、Ｐ（Ω□ａ_１，ｂ_３）＝１がｉに、また相応にＰ（Ω□ａ_１，ｂ_３）＝０が全てのｊ≠ｉに当てはまる場合、すなわち課された条件に応じる全てのデータが１つのクラスタ内にある場合に与えられている。そのような場合にはさらなる評価の際の精度を損なうことなくｉ番目のクラスタに制限することができる。
【００４４】
Ｃ及びＤに対する（近似的な）分布を得るために、さらにモデルを使用することもできる。すなわち、所望の分布Ｐ（Ｃ｜ａ_１，ｂ_３）及びＰ（Ｄ｜ａ_１，ｂ_３）をモデルのパラメータに基づいて近似的に求めることができる。
【００４５】
【数１】

【００４６】
しかしながら択一的にモデルを、目下の照会に関連するクラスタを求めることにのみ使用することもできる。
【００４７】
このクラスタに制限した後では、クラスタ内部においてはより正確なメソッドを使用することができる。例えばクラスタにおける統計の正確なカウントを（付加的なインデックスないしクラスタ属性を使用して、または従来のデータバンクレポーティング方法またはＯＬＡＰ方法を基礎として）行うことができるか、特別にクラスタに適合された別の統計モデルを使用することができる。ＯＬＡＰとの僅かな照応は殊に利点を有し、何故ならば高次元におけるいわゆるデータの「希薄性」（まばらであること）は統計的なクラスタモデルによって十分に使用され、ＯＬＡＰ方法は効率的な低次元クラスタにおいてのみ使用されるからである。
【００４８】
評価の際の速度と精度のトレードオフは、評価から除外されたデータの量から生じる。すなわち、より多くのクラスタが評価から除外されればされるほど評価はより迅速になるが、しかしながら評価は不正確にもなり、統計的な照会への応答は行われない。ユーザには精度と速度との間のトレードオフ自体を決定する可能性を与えることができる。付加的に、モデルの評価の精度が不十分である場合にはより自動的で正確な方法をトリガすることができる。
【００４９】
一般的に、所定の最小重みを下回るクラスタは評価から除外される。正確な結果を、０である先験的な重みを受け取ったクラスタのみが評価から除外されることによって達成することができる。この際クラスタの正確な「インデクシング」、また結果としてデータバンクの正確なインデクシングを達成することができ、さらに多くの場合において評価を速めることができる。しかしながら一般的に可能な限り多数のクラスタが評価に使用される。
【００５０】
クラスタモデルのオーバートレーニングは重要ではない。何故ならば逆に、履歴データの可能な限り正確な再現を得ようとされているからであり、将来の予測は得ようとされていないからである。同時に、過度にオーバートレーニングされたクラスタモデルは、照会のクラスタへの可能な限り一義的な対応付けを供給する傾向があり、そのために更なる操作時には非常に迅速にデータバンクの小さい部分へと制限することが可能である。
【００５１】
有利には、使用されるデータバンク媒体では、クラスタに属するデータがクラスタ属性に応じたやり方で記憶される。例えばクラスタに属するデータをハードディスクの１つのセクションに記憶することができ、関連するデータをブロックでより速く読み出すことができる。
【００５２】
既述のように本発明による方法では、近似的なステートメントが十分なものと見なされない場合には、データバンクのデータを統計的に評価するための従来の方法も補完的に使用することができる。殊に、変数の状態の相対的な頻度を求めるための従来のデータバンクレポーティング方法ないしＯＬＡＰ方法を使用することができる。
【００５３】
従来のデータバンク技術を補完的に使用することは例えば、規定可能はテスト変数が所定の値を取るか、所定の値を上回る場合に自動的に開始することができる。
【００５４】
さらに本発明によれば、複数の統計的な変数に対応付けられるべきデータバンクのデータ、殊に１つまたは複数のクラスタに包含されているデータを、ソフトウェア制御により自動的で統計的に評価するための方法が示され、この方法は、データが距離尺度を基礎とするクラスタモデルによって複数のクラスタに分割され、必要に応じて考察されるデータをクラスタに包含されているデータの内の１つまたは複数のデータへの制限が行われ、変数の状態の相対的な頻度及び期待値を求めるデータバンクレポーティング方法及びＯＬＡＰ方法が使用されることを特徴としている。
【００５５】
本発明において示される方法によって、データバンクのデータのクラスタへの分割、並びに必要に応じて１つまたは複数のクラスタへの制限を行うことができる。本発明による方法が既に１つまたは複数のクラスタに包含されているデータに適用される場合には、これによってクラスタのサブクラスタへの分割が達成される。１つまたは複数のサブクラスタへの制限が行われる場合には、本発明による方法をサブクラスタに包含されているデータに適用することができ、必要に応じてより正確に適合された統計モデルを使用することができる。このやり方を一般的に任意に何度も繰り返すことができる。すなわち、クラスタのサブクラスタへの任意の頻度での分割、ないしサブクラスタのサブサブクラスタへの任意の頻度での分割、必要に応じてクラスタに包含されているデータへのその都度の制限を行うことができ、並びに考察すべきクラスタに包含されているデータに本発明による方法を（より正確に適合させて）適用することができる。
【００５６】
以下では本発明の実施例を、付属の図面に関連させてウェブレポーティング／ウェブマイニング（mining）の領域において説明する。
【００５７】
図１はあるウェブサイトのゲストを表すための変数が示されている種々のモニタウィンドウを示す。
【００５８】
図２は、図１の変数の種々のモニタウィンドウを示し、ここでは所定のレファラのゲストの特性が検査される。
【００５９】
図３は、図１の変数の種々のモニタウィンドウを示し、ここでは先ずホームページを呼び出し、次いでニュースを読み、続いて再びホームページを呼び出すゲストの特性が検査される。
【００６０】
ウェブレポーティング／ウェブマイニングの領域においては、一般的に大量のデータの評価が必要である。ユーザがあるウェブサイトを訪れると、通常の場合ゲストのあらゆるアクションがウェブログファイルに記録される。このことはそのようなウェブログファイルが非常に急速に数ギガバイトの範囲のオーダにまで増大する可能性があるので、データが非常に集中する。
【００６１】
ウェブログファイルの評価の準備のために、まず「セッション」ないしゲストの訪問が抽出された。すなわち、一人のゲストに属する連続する全てのエントリ（頁の呼出ないしクリック）が統合された。
【００６２】
ゲストの各セッションは種々の変数のセットすなわち、例えば「開始時間」、「セッション継続時間」、「照会回数」、「レファラ」、「最初に訪れたカテゴリ」、「２番目に訪れたカテゴリ」、「３番目に訪れたカテゴリ」、「４番目に訪れたカテゴリ」によって特徴付けられた。
【００６３】
さらには、「ゲストはクッキーを受け取る」、「ゲストが現在のセッションまでに有したセッション数」、「最後のセッションにおけるページ呼出数」、「最後のセッションまでの時間的な間隔」、「どのページにおいて最後のセッションは終了したか」、「ゲストの最初のセッションからの時間」、「曜日」などのような別の（図示せず）変数も設けられた。
【００６４】
全体で各セッションは１８の種々の変数に基づいて特徴付けられた。
【００６５】
変数の状態の相対的な頻度を求めるために、上述のようなナイーブ・ベイジアン・クラスタモデルが使用された。
【００６６】
所定の変数は統計モデルに組み込まれた。以下では統計モデルが、モデルについての良好なパラメータを発見するためにウェブログファイルに包含されているデータによってトレーニングされた。モデルからは所望の相対的な頻度を読み出すことができる。
【００６７】
変数の状態の相対的な頻度を求めた結果が図１に示されている。図１は種々のモニタウィンドウを示し、このモニタウィンドウにはあるウェブサイトのゲストを表すための変数「開始時間」、「セッション継続時間」、「照会回数」、「レファラ」、「最初に訪れたカテゴリ」、「２番目に訪れたカテゴリ」、「３番目に訪れたカテゴリ」及び「４番目に訪れたカテゴリ」が表されている。
【００６８】
図１からは殊に以下のことが読み取れる、すなわち、
−午後または夕方にウェブサイト訪れたゲストは約５５％
−僅か１分足らずしかウェブサイトに留まらなかったゲストは約４７％
−１つの照会しか開始しないゲストは約３４％
−レファラを有さないゲストは約５６％
−ホームページにおいて開始するゲストは約４５％
−１つのカテゴリのみを訪れたゲストは約５７％、２つのカテゴリのみを訪れたゲストは約７４％、３つのカテゴリのみを訪れたゲストは約８５％
である。
【００６９】
統計モデルがＥＭ学習方法を基礎としてトレーニングされた後には、変数の間の依存関係も学習することができた。
【００７０】
図２から分かるように、例えば所定のレファラ（ここではｅｎｄｅｍａｎｎ）から来たゲストの特性が調査された。このために、変数「レファラ」における相応のエントリが１００％にセットされた。統計モデルを用いて一瞬の内に、殊に約９９％このゲストは最初にホームページを訪れ、続いて殆ど多くの場合（約９６％）に即座に再びウェブサイトを去るということを求めることができた。
【００７１】
図３には、データバンクへの複雑な照会が示されている。図３は考察される変数の種々のモニタウィンドウを示し、ここでは最初にホームページを呼び出し、次いでニュースを読み、続けて再びホームページを呼び出すゲストの特性が検査された。このために、変数「最初に訪れたカテゴリ」、「２番目に訪れたカテゴリ」及び「３番目に訪れたカテゴリ」における相応のエントリがそれぞれ１００％にセットされた。
【００７２】
やはり統計モデルを用いて一瞬の内に殊に、このゲストが主に再びニュースを読む（約３７％）かウェブサイトを去る（約３６％）ことを求めることができた。さらに図３からは、これらのゲストの約８９％はレファラを有さないことが分かる。
【００７３】
相応のやり方で、データバンクへのさらなる大量の照会に短時間の内、すなわち一般的に１秒以内に応答することができる。例えば、所定のレファラを介して来るどのゲストが３つ以上のページ呼出を行ったか、これらの人々は日中にどのように分布しているか、またこれらのゲストの内のいずれが再び訪れたゲストであるかを検査することができる。同様にして、ゲストトラフィックはどのようにしてホームページで開始するゲストに分布しているか、すなわちいずれのゲストがセッションをどのように継続するか、または続けて中断するかを検査することができる。
【００７４】
同時に大量のデータ量において、多数の異なる変数を用いるそのような大量の照会を従来のデータバンク技術、殊にＯＬＡＰ方法とは異なり、本発明による方法を用いるだけで効果的に処理することができる。それにもかかわらず、統計モデルによって取得された近似的なステートメントが正確なステートメントによって補完されるべき場合には、従来のＯＬＡＰ方法をこれに補完的に引用することができる。しかしながら、相応にして比較的長い応答時間を甘受する必要はある。
【００７５】
要約すれば、本発明による方法では従来のデータバンク技術、殊にデータバンクレポーティング方法及びＯＬＡＰ方法とは異なり、広範なデータバンクへの統計的な照会に統計モデルを使用することによって効果的なやり方で近似的に応答することができる。このことは、必要に応じて正確なステートメントを使用するために、データバンクを評価するための従来技術を補完的に引用できることを排除しない。データバンクをより小さい部分（クラスタ）に分割できるクラスタモデルを使用することにより、所定の照会時に非常に迅速にデータバンクの関連する部分に（近似的または正確に）制限することができる。データバンクの部分への制限が行われる場合には、データバンクのこの部分の再度の統計的な評価を本発明による方法を用いて実施することができ、本発明による方法の経過においては必要に応じて、データバンクのこの部分に包含されている部分（サブクラスタ）への再度の制限、並びにサブクラスタに包含されているデータの再度の統計的な評価を実施することができる。このやり方を一般的に任意の頻度で繰り返すことができる。これによってさらに効果的な統計を作成することができる、ないし統計的な照会に応答することができる。
【００７６】
同様に本発明によれば、距離尺度を基礎とするクラスタモデルを、データバンクのデータを複数のクラスタに分割するために使用することができ、必要に応じてデータバンクの関連する部分（クラスタ）への制限を行う。変数の状態の相対的な頻度及び期待値を求めるために、従来のデータバンクレポーティング方法またはＯＬＡＰ方法が使用される。
【００７７】
本発明は基本的に、大量のデータの効果的で統計的な評価が必要とされるところであればどこにでも使用することができる。
【００７８】
考えられる用途は、既に実施例において示したように、ウェブレポーティング／ウェブマイニングの領域である。
【００７９】
別の考えられる用途は例えば、
−コールセンターからのデータ、
−業務用の顧客関係管理システムからのデータ、
−健康領域からのデータ、
−医学的なデータバンクからのデータ、
−環境データバンクからのデータ、
−ゲノムデータバンクからのデータ、
−金融領域からのデータ、
などの顧客データが大量に生じるところに見出せる。
【図面の簡単な説明】
【００８０】
【図１】あるウェブサイトのゲストを表すための変数が表されている種々のモニタウィンドウを示す。
【図２】図１の変数の種々のモニタウィンドウを示す。
【図３】図１の変数の種々のモニタウィンドウを示す。

Claims

複数の統計的な変数に対応付けられるべきデータバンクのデータ、例えば１つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法において、
変数の状態の相対的な頻度及び前記変数の状態の間の統計的な依存関係を近似的に表すための統計的なモデルを前記データバンクに記憶されているデータを用いて学習し、
前記統計的なモデルを基礎として、前記変数の状態の近似的な相対的な頻度並びに変数の状態の所定の相対的な頻度に属する、該頻度に依存する変数の状態の近似的な相対的な頻度及び期待値を求めることを特徴とする方法。
統計的なモデルとしてグラフィック確率モデル、例えばベイジアンネットを使用する、請求項１記載の方法。
統計的なモデルとして、統計的なクラスタモデル、例えばデータを複数のクラスタに分割するベイジアンクラスタモデルを使用する、請求項１記載の方法。
さらに、データを複数のクラスタに分割する、距離尺度を基礎とするクラスタモデルを使用する、請求項１記載の方法。
考察するデータの、前記クラスタの内の１つまたは複数のクラスタに包含されているデータへの制限を行う、請求項３または４記載の方法。
少なくとも１つの所定の相対的な頻度を有する、変数の所定の状態に属するデータが包含されているクラスタへの制限を行う、請求項５記載の方法。
クラスタに属するデータを、クラスタ属性に応じるやり方でデータ記憶媒体に記憶する、請求項４から６までのいずれか１項記載の方法。
さらに、変数の状態の相対的な頻度及び期待値を求めるためのデータバンクレポーティング方法またはＯＬＡＰ方法を使用する、請求項１から７までのいずれか１項記載の方法。
データバンクレポーティング方法またはＯＬＡＰ方法を、テスト変数が所定の値を取る場合または所定の値を上回る場合に使用する、請求項８記載の方法。
複数の統計的な変数に対応付けられるべきデータバンクのデータ、例えば１つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法において、
前記データを距離尺度を基礎とするクラスタモデルによって複数のクラスタに分割し、必要に応じて、考察されるデータをクラスタに包含されているデータの内の１つまたは複数のデータに制限し、
変数の状態の相対的な頻度及び期待値を求めるためにデータバンクレポーティング方法及びＯＬＡＰ方法を使用することを特徴とする方法。
例えばウェブレポーティング／ウェブマイニングの領域及び顧客関連管理システムにおいて、顧客データを統計的に評価するための請求項１から１０までのいずれか１項記載の方法の使用。
環境データバンク、医療的なデータバンクまたはゲノムデータバンクを統計的に評価するための請求項１から１０までのいずれか１項記載の方法の使用。