JP2004532488A - データバンク操作の性能を向上させるための統計モデル - Google Patents
データバンク操作の性能を向上させるための統計モデル Download PDFInfo
- Publication number
- JP2004532488A JP2004532488A JP2003504273A JP2003504273A JP2004532488A JP 2004532488 A JP2004532488 A JP 2004532488A JP 2003504273 A JP2003504273 A JP 2003504273A JP 2003504273 A JP2003504273 A JP 2003504273A JP 2004532488 A JP2004532488 A JP 2004532488A
- Authority
- JP
- Japan
- Prior art keywords
- data
- statistical
- clusters
- cluster
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本発明は複数の統計的な変数に対応付けられるべきデータバンクのデータを、自動的にソフトウェア制御により統計的に評価するための方法に関する。この方法は、変数の状態の相対的な頻度及び変数の状態の間の統計的な依存関係を近似的に表すための統計的なモデルがデータバンクに記憶されているデータを用いて学習され、この統計的なモデルに基づいて変数の状態の近似的な相対的な頻度並びに、変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の近似的な相対的な頻度及び期待値が求められることを特徴とする。
Description
【技術分野】
【0001】
本発明は、複数の統計的な変数に対応付けられるべき、データバンクのデータを、自動的にソフトウェア制御により統計的に評価するための方法に関する。評価すべきデータを例えば1つまたは複数のクラスタに包含することができる。
【0002】
今日ではデータバンクは莫大な量のデータを記憶することができる。記憶されたデータを評価し、且つ有益な情報を抽出できるようにするためには、データが大量である結果、効果的すなわち迅速且つ所期のデータバンクアクセスが必要である。
【0003】
評価のために一般的に、所定の条件と合致する全てのデータを発見すべきである。この際しばしば、発見されたデータ自体を知ることは問題にならず、むしろデータを基礎とする統計の知識のみを得ようとされる。
【0004】
例えば、顧客のデータがファイルされている顧客関係管理(CRM、Customer-Relationship-Management)システムにおいて、いずれの顧客が所定の特徴でもって所定の製品を購入したかを探し出す場合には、データバンクにおける全ての顧客エントリにアクセスし、顧客の特徴を問い合わせ、所望の特徴を有する「適合する」エントリ中で顧客が所定の商品を購入したというエントリを見つけ出してカウントするという簡単なやり方で構成できるであろう。例えばデータバンクへのそのような照会は以下のような内容であっても良い:どれ程の頻度で移動電話が少なくとも30歳である男性の顧客によって購入されたか?すなわち、「男性」及び「少なくとも30歳」という条件を充足する全ての顧客エントリを発見することができ、発見された適合するエントリについて、どの移動電話がどれぐらい購入されたかを検査することができる。
【0005】
しかしながらこのやり方の欠点は、合致するエントリを見つけるためにデータバンク全体を読み出さなければならないことである。この読み出しは大きなデータバンクではしばしば非常に時間がかかる可能性がある。
【0006】
全ての変数に選択的に問い合わせ可能なインデクスが設けられる場合には、データバンク検索を的確且つ効果的に行うことができる。この際、データバンクの使用されるインデックス技術が正確且つ綿密であればあるほど、データバンクへのアクセスをより迅速に実行できる。データバンクエントリに関する統計的なステートメントも相応により効果的なものにすることができる。このことは殊に、データバンクに固有のインデックス技術によって所期に期待すべき照会が準備される場合に当てはまる。
【0007】
択一的にまたはインデックス技術と組み合わせて、期待すべき全ての統計的なステートメントの結果を事前計算することができるが、このことは結果の計算及び記憶の大きな手間という欠点をもたらす。
【0008】
データバンクのデータから統計的な情報を抽出するための方法の1つのクラスは、「オンライン分析処理」(OLAP)という概念でもって示されている。一般的にそのような方法は「関係オンライン分析処理」(ROLAP)及び「多次元オンライン分析処理」(MOLAP)に分けることができる。
【0009】
ROLAP方法では僅かにして事前計算は行われない。統計を照会する際には、照会の応答のために必要とされるデータにインデックス技術を介してアクセスされ、次いで統計がデータから計算される。ROLAPの重点は、必要なデータの発見及びロードを可能な限り迅速に行うために、データを的確に組織及びインデクシングすることにある。データ量が多い場合にはこのことに関する手間はそれにもかかわらずさらに相当なものとなる可能性があり、さらには選択されたインデクシングが場合によっては全ての問い合わせとって最適ではない。
【0010】
MOLAP方法では、考えられる複数の照会についての結果の事前計算が焦点となる。事前計算された照会に対する応答時間はこれによって非常に短くなる。事前計算されなかった照会に関しては、所望の量を事前計算された結果から計算できる場合には、事前計算された値が部分的に速めることもでき、このことはデータに直接アクセスするよりも僅かな手間であることを意味している。考えられる全ての問い合わせの量は変数の数及びこの変数の状態の数が増すと共に多くなり、その結果、事前計算はメモリスペース及び計算時間に関する目下の実現可能性の限界に突き当たる。この場合、考察される変数、この変数の種々の状態ないし許容される照会に関する制限を甘受しなければならない。
【0011】
OLAP方法は各データバンクエントリへの単なるアクセスに比べ効率の上昇を保証しているにもかかわらず、多数の冗長的な情報が生成されてしまうという欠点を有する。つまり統計は事前計算すべき広範なインデックスリストを作成すべきでものである。それに加え、OLAP方法の効率的な使用は一般的に、この方法が所定の照会に基づいて最適化されることを要するが、この際しかしながらOLAP方法はこの選択された制限も受ける。すなわち、もはやデータバンクには任意に照会することができない。
【0012】
さらにOLAP方法では、情報がより迅速に提供されるべきであればあるほど、またこれらの情報が多様であればあるほど、より多くの構造を事前計算し、記憶しなければならない。したがってOLAPシステムは非常に大きくなる可能性があり、所望したものよりもはるかに効率的ではない。1秒以下の応答時間は大きなデータバンクへの任意で統計的に照会する場合には、実際的に実現することができない。それどころか応答時間は頻繁に実質的に1秒を上回る。
【0013】
したがってデータバンクエントリを統計的に評価するための効率的な方法の要求が生じる。この際照会は可能な限り制限を受けるべきではない。
【0014】
本発明の課題は従来技術において公知である方法の欠点、殊にデータバンクエントリを統計的に評価するためのOLAP方法の欠点を克服することである。
【0015】
この課題は本発明によれば独立請求項記載の方法によって解決される。本発明の有利な構成は従属請求項に記載されている。
【0016】
本発明によれば、複数の統計的な変数に対応付けられているデータバンクのデータ、殊に1つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法が示され、この方法は、変数の状態の相対的な頻度及び変数の状態の間の統計的な依存関係を近似的に表すための統計モデルがデータバンクに記憶されているデータを用いて学習され、統計モデルに基づいて変数の状態の近似的な相対的な頻度、並びに変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の近似的な相対的な頻度及び期待値が求められることを特徴としている。
【0017】
モデルは、データバンクのデータを統計的に評価するための従来の方式と異なり、データの統計の正確な結像ではない。このやり方では一般的に正確なステートメントではなく、単に近似的な統計的なステートメントが得られる。しかしながら統計モデルは、例えば従来のOLAP方法よりも僅かな制限を受けるに過ぎない。
【0018】
近似的な統計的なステートメントを得るために、データバンクにおけるエントリは先ず統計モデルに「凝縮され」、この際統計モデルはいわばデータバンクエントリの「共通の確率分布」の近似を表す。具体的にはこのことは、データバンクのエントリに基づいて統計モデルを学習することにより行われ、これにより結果としてデータバンクエントリの変数の状態の相対的な頻度を近似的に表すことができる。変数は種々の相対的な頻度を有する複数の状態を取ることができる。そのような統計モデルを使用できるようになると直ぐに、この統計モデルを変数の状態の間の相対的な依存関係を学習するために使用することができる。変数の状態の相対的な頻度を所定の条件に応じて事前設定することができ、変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の相対的な頻度を求めることができる。
【0019】
データバンクへの統計的な照会を、変数の所定の状態の相対的な頻度についての条件の形態で行うことができ、統計的な照会への応答は変数の状態の所定の相対的な頻度に属する、この頻度に依存する別の変数の状態の相対的な頻度が求められた形態で行うことができる。
【0020】
統計モデルとして有利にはグラフィック確率モデル(Graphical Probabilistic Model)が使用される(例えば:Castillo, Jose Manuel Gutierrez, Ali S. hadi, Expert Systems and Probabilistic Network Models, Springer, New Yorkを参照されたい)。グラフィック確率モデルには例えばベイジアンネット(ベイジアンネットワークまたは信念ネットワーク)及びマルコフネットが属する。
【0021】
統計モデルを例えばベイジアンネットにおける構造学習によって形成することができる(例えば:Reimar Hofmann, Lernen der Struktur nichtlinearer Abhaengigkeiten mit graphischen Modellen, Dissertation, BerlinまたはDavid Heckermann, A tutorial on lerning Bayesian networks, Technical Report MSR-TR-95-06, Microsoft Researchを参照されたい)。
【0022】
別の可能性は一定の構造に関するパラメータを学習することにある(例えば:Martin A. Tanner : Tools for Statistical Inference, Springer New York, 1996を参照されたい)。
【0023】
多くの学習方法はモデルのパラメータに対する最適化判定基準として尤度関数を使用する。この際の特別な実現は期待値最大化(EM)学習方法であり、この学習方法を以下では特別なモデルに基づいて詳細に記述する。基本的には、主としてモデルの一般化は問題ではなく、単にデータへのモデルの良好な適合を達成しようとすることが重要である。
【0024】
統計モデルとして有利には統計的なクラスタモデル、殊にデータを複数のクラスタに分割するベイジアンクラスタモデルが使用される。
【0025】
同様にして統計モデルと組み合わせて、データを同様に複数のクラスタに分割する距離尺度(Distanzmass)を基礎とするクラスタモデルを使用することができる。
【0026】
クラスタモデルを使用することによって、非常に大きなデータバンクは比較的小さい部分に分けられ、これらの部分は独立したデータバンクと解することができ、比較的僅かな量を基礎として効果的に処理することができる。このためにデータバンクを統計的に評価する際に、所定の条件を統計モデルを介して1つまたは複数のクラスタへと結像できるか否かが検査される。このことが該当する場合には、評価されるデータは1つまたは複数のクラスタに制限される。同様にして、少なくとも1つの所定の相対的な頻度を有し、所定の条件を充足するデータを包含しているクラスタへの制限を行うことができる。所定の条件に応じるデータが比較的僅かな部分にしか包含されていないその他のクラスタを無視することができる。何故ならば考察するやり方においては近似的なステートメントのみが得ようとされるからである。
【0027】
統計的なクラスタモデルとして例えばベイジアンクラスタモデル(離散的で潜在的な変数を有するモデル)が使用される。
【0028】
このことを以下詳細に説明する。
【0029】
統計的な変数{A,B,C,D,...}のセット、換言すればデータバンクのテーブルの多数の領域が与えられているとする。変数の状態はそれぞれの小文字によって表される。すなわち変数Aは状態{a1,a2,...}を取ることができる。状態は離散的なものとする。しかしながら一般的には連続的な(実数の)変数も許容される。
【0030】
データバンクのテーブルにおけるエントリは全ての変数についての値から成り、1つのエントリに属する、全ての変数についての値は1つのデータセットDに統合される。例えば、xΠ=(aΠ,bΠ,cΠ,dΠ,...)はΠ番目のデータセットを表す。テーブルはM個のエントリを持つ。すなわちD={xΠ,Π=1,...,M}。
【0031】
付加的に隠れた変数(クラスタ変数)も存在し、Ωと表される。クラスタ変数は値{ωi,i=1,...,N}を取ることができる。すなわちN個のクラスタが存在する。
【0032】
ここで、P(Ω|Θ)はクラスタの先験的な分布を表し、P(ωi|Θ)によってi番目のクラスタの先験的な重みが与えられており、Θはモデルのパラメータを表す。先験的な分布は、データのどの部分がそれぞれのクラスタに対応付けられているかを表す。
【0033】
P(A,B,C,D...|ωi, |Θ)によって、i番目のクラスタの構造ないしi番目のクラスタにおける変数セット{A,B,C,D,...}の変数の条件付き分布が表される。
【0034】
先験的な分布及び各クラスタの条件付き確率の分布は一緒に、すなわち{A,B,C,D,...}∪Ωないし{A,B,C,D,...}に基づく共通の確率モデルにパラメータ化される。確率モデルは先験的な分布と条件付き分布との積
P(A,B,C,...,Ω|Θ)=P(Ω|Θ)P(A,B,C,...|Ω,Θ)
ないし、
P(A,B,C,...|Θ)=ΣiP(ωi|Θ)P(A,B,C,...|ωi,Θ)
によって与えられている。
【0035】
データセットDのパラメータΘの対数尤度関数Lは、
L(Θ)=logP(D|Θ)=ΣΠlogP(xΠ|Θ)
によって与えられている。
【0036】
期待値最大化(EM)学習の範囲においては、一連のパラメータΘ(t)は以下の一般則に応じて構成される。すなわち、
Θ(t+1)=arg maxΘΣΠΣiP(ωi|xΠ,Θ(t))logP(xΠ,ωi|Θ)
この反復規則でもって尤度関数の段階的な最大化が行われる。
【0037】
条件付き分布P(A,B,C,D,...□ωi,Θ)に対して、制限された仮定(Annhame)を行うことができる(場合によっては行わねばならない)。そのような制限された仮定の一例は以下のファクタ化仮定である。
【0038】
変数セット{A,B,C,D}の変数の条件付き確率P(A,B,C,D,...□ωi,Θ)の分布に関して例えばファクタ化をP(A,B,C,D,...□ωi,Θ)=P(A□ωiΘ)P(B□ωiΘ)P(C□ωiΘ)P(D□ωiΘ)...とするならば、確率モデルは簡単なベイジアンネット(ナイーブベイジアンネット)に対応する。高次元のテーブルの代わりに、むしろ一次元のテーブル(それぞれ1つの変数のためのテーブル)と対比されている。
【0039】
分布のパラメータを上述のように、期待値最大化(EM)学習方法を用いてデータから学習することができる。学習後には各データセットxΠ=(aΠ,bΠ,cΠ,dΠ,...)に1つのクラスタを対応付けることができる。対応付けを先験的な分布P(Ω□aΠ,bΠ,cΠ,dΠ,...,Θ)を介して行うことができ、データセットxΠは最大の重みP(ωi□aΠ,bΠ,cΠ,dΠ,...,Θ)を有するクラスタωiに対応付けられる。
【0040】
データバンクにおける各エントリのクラスタ属性を付加的な領域としてデータバンクに記憶することができ、所定のクラスタに属するデータに迅速にアクセスできるようにするために相応のインデクスを準備することができる。
【0041】
例えば「A=a1及びB=b3を有する全てのデータセット、並びにこのデータセットに属するC及びDに関する分布(すなわちP(C|a1,b3)及びP(D|a1,b3))を与えよ」という統計的な照会がデータバンクになされると、以下のように行われる。
【0042】
先ず先験的な分布P(Ω□a1,b3)が求められる。この分布から、課された条件に応じるデータのどの部分をデータバンクのどのクラスタにおいて見つけることができるかが(近似的に)明らかになる。つまり後続の全ての過程では、所望の精度に応じて、P(Ω□a1,b3)に従い高い先験的な重みを有するデータバンクの部分に制限することが可能である。
【0043】
理想的な場合は、P(Ω□a1,b3)=1がiに、また相応にP(Ω□a1,b3)=0が全てのj≠iに当てはまる場合、すなわち課された条件に応じる全てのデータが1つのクラスタ内にある場合に与えられている。そのような場合にはさらなる評価の際の精度を損なうことなくi番目のクラスタに制限することができる。
【0044】
C及びDに対する(近似的な)分布を得るために、さらにモデルを使用することもできる。すなわち、所望の分布P(C|a1,b3)及びP(D|a1,b3)をモデルのパラメータに基づいて近似的に求めることができる。
【0045】
【数1】
【0046】
しかしながら択一的にモデルを、目下の照会に関連するクラスタを求めることにのみ使用することもできる。
【0047】
このクラスタに制限した後では、クラスタ内部においてはより正確なメソッドを使用することができる。例えばクラスタにおける統計の正確なカウントを(付加的なインデックスないしクラスタ属性を使用して、または従来のデータバンクレポーティング方法またはOLAP方法を基礎として)行うことができるか、特別にクラスタに適合された別の統計モデルを使用することができる。OLAPとの僅かな照応は殊に利点を有し、何故ならば高次元におけるいわゆるデータの「希薄性」(まばらであること)は統計的なクラスタモデルによって十分に使用され、OLAP方法は効率的な低次元クラスタにおいてのみ使用されるからである。
【0048】
評価の際の速度と精度のトレードオフは、評価から除外されたデータの量から生じる。すなわち、より多くのクラスタが評価から除外されればされるほど評価はより迅速になるが、しかしながら評価は不正確にもなり、統計的な照会への応答は行われない。ユーザには精度と速度との間のトレードオフ自体を決定する可能性を与えることができる。付加的に、モデルの評価の精度が不十分である場合にはより自動的で正確な方法をトリガすることができる。
【0049】
一般的に、所定の最小重みを下回るクラスタは評価から除外される。正確な結果を、0である先験的な重みを受け取ったクラスタのみが評価から除外されることによって達成することができる。この際クラスタの正確な「インデクシング」、また結果としてデータバンクの正確なインデクシングを達成することができ、さらに多くの場合において評価を速めることができる。しかしながら一般的に可能な限り多数のクラスタが評価に使用される。
【0050】
クラスタモデルのオーバートレーニングは重要ではない。何故ならば逆に、履歴データの可能な限り正確な再現を得ようとされているからであり、将来の予測は得ようとされていないからである。同時に、過度にオーバートレーニングされたクラスタモデルは、照会のクラスタへの可能な限り一義的な対応付けを供給する傾向があり、そのために更なる操作時には非常に迅速にデータバンクの小さい部分へと制限することが可能である。
【0051】
有利には、使用されるデータバンク媒体では、クラスタに属するデータがクラスタ属性に応じたやり方で記憶される。例えばクラスタに属するデータをハードディスクの1つのセクションに記憶することができ、関連するデータをブロックでより速く読み出すことができる。
【0052】
既述のように本発明による方法では、近似的なステートメントが十分なものと見なされない場合には、データバンクのデータを統計的に評価するための従来の方法も補完的に使用することができる。殊に、変数の状態の相対的な頻度を求めるための従来のデータバンクレポーティング方法ないしOLAP方法を使用することができる。
【0053】
従来のデータバンク技術を補完的に使用することは例えば、規定可能はテスト変数が所定の値を取るか、所定の値を上回る場合に自動的に開始することができる。
【0054】
さらに本発明によれば、複数の統計的な変数に対応付けられるべきデータバンクのデータ、殊に1つまたは複数のクラスタに包含されているデータを、ソフトウェア制御により自動的で統計的に評価するための方法が示され、この方法は、データが距離尺度を基礎とするクラスタモデルによって複数のクラスタに分割され、必要に応じて考察されるデータをクラスタに包含されているデータの内の1つまたは複数のデータへの制限が行われ、変数の状態の相対的な頻度及び期待値を求めるデータバンクレポーティング方法及びOLAP方法が使用されることを特徴としている。
【0055】
本発明において示される方法によって、データバンクのデータのクラスタへの分割、並びに必要に応じて1つまたは複数のクラスタへの制限を行うことができる。本発明による方法が既に1つまたは複数のクラスタに包含されているデータに適用される場合には、これによってクラスタのサブクラスタへの分割が達成される。1つまたは複数のサブクラスタへの制限が行われる場合には、本発明による方法をサブクラスタに包含されているデータに適用することができ、必要に応じてより正確に適合された統計モデルを使用することができる。このやり方を一般的に任意に何度も繰り返すことができる。すなわち、クラスタのサブクラスタへの任意の頻度での分割、ないしサブクラスタのサブサブクラスタへの任意の頻度での分割、必要に応じてクラスタに包含されているデータへのその都度の制限を行うことができ、並びに考察すべきクラスタに包含されているデータに本発明による方法を(より正確に適合させて)適用することができる。
【0056】
以下では本発明の実施例を、付属の図面に関連させてウェブレポーティング/ウェブマイニング(mining)の領域において説明する。
【0057】
図1はあるウェブサイトのゲストを表すための変数が示されている種々のモニタウィンドウを示す。
【0058】
図2は、図1の変数の種々のモニタウィンドウを示し、ここでは所定のレファラのゲストの特性が検査される。
【0059】
図3は、図1の変数の種々のモニタウィンドウを示し、ここでは先ずホームページを呼び出し、次いでニュースを読み、続いて再びホームページを呼び出すゲストの特性が検査される。
【0060】
ウェブレポーティング/ウェブマイニングの領域においては、一般的に大量のデータの評価が必要である。ユーザがあるウェブサイトを訪れると、通常の場合ゲストのあらゆるアクションがウェブログファイルに記録される。このことはそのようなウェブログファイルが非常に急速に数ギガバイトの範囲のオーダにまで増大する可能性があるので、データが非常に集中する。
【0061】
ウェブログファイルの評価の準備のために、まず「セッション」ないしゲストの訪問が抽出された。すなわち、一人のゲストに属する連続する全てのエントリ(頁の呼出ないしクリック)が統合された。
【0062】
ゲストの各セッションは種々の変数のセットすなわち、例えば「開始時間」、「セッション継続時間」、「照会回数」、「レファラ」、「最初に訪れたカテゴリ」、「2番目に訪れたカテゴリ」、「3番目に訪れたカテゴリ」、「4番目に訪れたカテゴリ」によって特徴付けられた。
【0063】
さらには、「ゲストはクッキーを受け取る」、「ゲストが現在のセッションまでに有したセッション数」、「最後のセッションにおけるページ呼出数」、「最後のセッションまでの時間的な間隔」、「どのページにおいて最後のセッションは終了したか」、「ゲストの最初のセッションからの時間」、「曜日」などのような別の(図示せず)変数も設けられた。
【0064】
全体で各セッションは18の種々の変数に基づいて特徴付けられた。
【0065】
変数の状態の相対的な頻度を求めるために、上述のようなナイーブ・ベイジアン・クラスタモデルが使用された。
【0066】
所定の変数は統計モデルに組み込まれた。以下では統計モデルが、モデルについての良好なパラメータを発見するためにウェブログファイルに包含されているデータによってトレーニングされた。モデルからは所望の相対的な頻度を読み出すことができる。
【0067】
変数の状態の相対的な頻度を求めた結果が図1に示されている。図1は種々のモニタウィンドウを示し、このモニタウィンドウにはあるウェブサイトのゲストを表すための変数「開始時間」、「セッション継続時間」、「照会回数」、「レファラ」、「最初に訪れたカテゴリ」、「2番目に訪れたカテゴリ」、「3番目に訪れたカテゴリ」及び「4番目に訪れたカテゴリ」が表されている。
【0068】
図1からは殊に以下のことが読み取れる、すなわち、
−午後または夕方にウェブサイト訪れたゲストは約55%
−僅か1分足らずしかウェブサイトに留まらなかったゲストは約47%
−1つの照会しか開始しないゲストは約34%
−レファラを有さないゲストは約56%
−ホームページにおいて開始するゲストは約45%
−1つのカテゴリのみを訪れたゲストは約57%、2つのカテゴリのみを訪れたゲストは約74%、3つのカテゴリのみを訪れたゲストは約85%
である。
【0069】
統計モデルがEM学習方法を基礎としてトレーニングされた後には、変数の間の依存関係も学習することができた。
【0070】
図2から分かるように、例えば所定のレファラ(ここではendemann)から来たゲストの特性が調査された。このために、変数「レファラ」における相応のエントリが100%にセットされた。統計モデルを用いて一瞬の内に、殊に約99%このゲストは最初にホームページを訪れ、続いて殆ど多くの場合(約96%)に即座に再びウェブサイトを去るということを求めることができた。
【0071】
図3には、データバンクへの複雑な照会が示されている。図3は考察される変数の種々のモニタウィンドウを示し、ここでは最初にホームページを呼び出し、次いでニュースを読み、続けて再びホームページを呼び出すゲストの特性が検査された。このために、変数「最初に訪れたカテゴリ」、「2番目に訪れたカテゴリ」及び「3番目に訪れたカテゴリ」における相応のエントリがそれぞれ100%にセットされた。
【0072】
やはり統計モデルを用いて一瞬の内に殊に、このゲストが主に再びニュースを読む(約37%)かウェブサイトを去る(約36%)ことを求めることができた。さらに図3からは、これらのゲストの約89%はレファラを有さないことが分かる。
【0073】
相応のやり方で、データバンクへのさらなる大量の照会に短時間の内、すなわち一般的に1秒以内に応答することができる。例えば、所定のレファラを介して来るどのゲストが3つ以上のページ呼出を行ったか、これらの人々は日中にどのように分布しているか、またこれらのゲストの内のいずれが再び訪れたゲストであるかを検査することができる。同様にして、ゲストトラフィックはどのようにしてホームページで開始するゲストに分布しているか、すなわちいずれのゲストがセッションをどのように継続するか、または続けて中断するかを検査することができる。
【0074】
同時に大量のデータ量において、多数の異なる変数を用いるそのような大量の照会を従来のデータバンク技術、殊にOLAP方法とは異なり、本発明による方法を用いるだけで効果的に処理することができる。それにもかかわらず、統計モデルによって取得された近似的なステートメントが正確なステートメントによって補完されるべき場合には、従来のOLAP方法をこれに補完的に引用することができる。しかしながら、相応にして比較的長い応答時間を甘受する必要はある。
【0075】
要約すれば、本発明による方法では従来のデータバンク技術、殊にデータバンクレポーティング方法及びOLAP方法とは異なり、広範なデータバンクへの統計的な照会に統計モデルを使用することによって効果的なやり方で近似的に応答することができる。このことは、必要に応じて正確なステートメントを使用するために、データバンクを評価するための従来技術を補完的に引用できることを排除しない。データバンクをより小さい部分(クラスタ)に分割できるクラスタモデルを使用することにより、所定の照会時に非常に迅速にデータバンクの関連する部分に(近似的または正確に)制限することができる。データバンクの部分への制限が行われる場合には、データバンクのこの部分の再度の統計的な評価を本発明による方法を用いて実施することができ、本発明による方法の経過においては必要に応じて、データバンクのこの部分に包含されている部分(サブクラスタ)への再度の制限、並びにサブクラスタに包含されているデータの再度の統計的な評価を実施することができる。このやり方を一般的に任意の頻度で繰り返すことができる。これによってさらに効果的な統計を作成することができる、ないし統計的な照会に応答することができる。
【0076】
同様に本発明によれば、距離尺度を基礎とするクラスタモデルを、データバンクのデータを複数のクラスタに分割するために使用することができ、必要に応じてデータバンクの関連する部分(クラスタ)への制限を行う。変数の状態の相対的な頻度及び期待値を求めるために、従来のデータバンクレポーティング方法またはOLAP方法が使用される。
【0077】
本発明は基本的に、大量のデータの効果的で統計的な評価が必要とされるところであればどこにでも使用することができる。
【0078】
考えられる用途は、既に実施例において示したように、ウェブレポーティング/ウェブマイニングの領域である。
【0079】
別の考えられる用途は例えば、
−コールセンターからのデータ、
−業務用の顧客関係管理システムからのデータ、
−健康領域からのデータ、
−医学的なデータバンクからのデータ、
−環境データバンクからのデータ、
−ゲノムデータバンクからのデータ、
−金融領域からのデータ、
などの顧客データが大量に生じるところに見出せる。
【図面の簡単な説明】
【0080】
【図1】あるウェブサイトのゲストを表すための変数が表されている種々のモニタウィンドウを示す。
【図2】図1の変数の種々のモニタウィンドウを示す。
【図3】図1の変数の種々のモニタウィンドウを示す。
【0001】
本発明は、複数の統計的な変数に対応付けられるべき、データバンクのデータを、自動的にソフトウェア制御により統計的に評価するための方法に関する。評価すべきデータを例えば1つまたは複数のクラスタに包含することができる。
【0002】
今日ではデータバンクは莫大な量のデータを記憶することができる。記憶されたデータを評価し、且つ有益な情報を抽出できるようにするためには、データが大量である結果、効果的すなわち迅速且つ所期のデータバンクアクセスが必要である。
【0003】
評価のために一般的に、所定の条件と合致する全てのデータを発見すべきである。この際しばしば、発見されたデータ自体を知ることは問題にならず、むしろデータを基礎とする統計の知識のみを得ようとされる。
【0004】
例えば、顧客のデータがファイルされている顧客関係管理(CRM、Customer-Relationship-Management)システムにおいて、いずれの顧客が所定の特徴でもって所定の製品を購入したかを探し出す場合には、データバンクにおける全ての顧客エントリにアクセスし、顧客の特徴を問い合わせ、所望の特徴を有する「適合する」エントリ中で顧客が所定の商品を購入したというエントリを見つけ出してカウントするという簡単なやり方で構成できるであろう。例えばデータバンクへのそのような照会は以下のような内容であっても良い:どれ程の頻度で移動電話が少なくとも30歳である男性の顧客によって購入されたか?すなわち、「男性」及び「少なくとも30歳」という条件を充足する全ての顧客エントリを発見することができ、発見された適合するエントリについて、どの移動電話がどれぐらい購入されたかを検査することができる。
【0005】
しかしながらこのやり方の欠点は、合致するエントリを見つけるためにデータバンク全体を読み出さなければならないことである。この読み出しは大きなデータバンクではしばしば非常に時間がかかる可能性がある。
【0006】
全ての変数に選択的に問い合わせ可能なインデクスが設けられる場合には、データバンク検索を的確且つ効果的に行うことができる。この際、データバンクの使用されるインデックス技術が正確且つ綿密であればあるほど、データバンクへのアクセスをより迅速に実行できる。データバンクエントリに関する統計的なステートメントも相応により効果的なものにすることができる。このことは殊に、データバンクに固有のインデックス技術によって所期に期待すべき照会が準備される場合に当てはまる。
【0007】
択一的にまたはインデックス技術と組み合わせて、期待すべき全ての統計的なステートメントの結果を事前計算することができるが、このことは結果の計算及び記憶の大きな手間という欠点をもたらす。
【0008】
データバンクのデータから統計的な情報を抽出するための方法の1つのクラスは、「オンライン分析処理」(OLAP)という概念でもって示されている。一般的にそのような方法は「関係オンライン分析処理」(ROLAP)及び「多次元オンライン分析処理」(MOLAP)に分けることができる。
【0009】
ROLAP方法では僅かにして事前計算は行われない。統計を照会する際には、照会の応答のために必要とされるデータにインデックス技術を介してアクセスされ、次いで統計がデータから計算される。ROLAPの重点は、必要なデータの発見及びロードを可能な限り迅速に行うために、データを的確に組織及びインデクシングすることにある。データ量が多い場合にはこのことに関する手間はそれにもかかわらずさらに相当なものとなる可能性があり、さらには選択されたインデクシングが場合によっては全ての問い合わせとって最適ではない。
【0010】
MOLAP方法では、考えられる複数の照会についての結果の事前計算が焦点となる。事前計算された照会に対する応答時間はこれによって非常に短くなる。事前計算されなかった照会に関しては、所望の量を事前計算された結果から計算できる場合には、事前計算された値が部分的に速めることもでき、このことはデータに直接アクセスするよりも僅かな手間であることを意味している。考えられる全ての問い合わせの量は変数の数及びこの変数の状態の数が増すと共に多くなり、その結果、事前計算はメモリスペース及び計算時間に関する目下の実現可能性の限界に突き当たる。この場合、考察される変数、この変数の種々の状態ないし許容される照会に関する制限を甘受しなければならない。
【0011】
OLAP方法は各データバンクエントリへの単なるアクセスに比べ効率の上昇を保証しているにもかかわらず、多数の冗長的な情報が生成されてしまうという欠点を有する。つまり統計は事前計算すべき広範なインデックスリストを作成すべきでものである。それに加え、OLAP方法の効率的な使用は一般的に、この方法が所定の照会に基づいて最適化されることを要するが、この際しかしながらOLAP方法はこの選択された制限も受ける。すなわち、もはやデータバンクには任意に照会することができない。
【0012】
さらにOLAP方法では、情報がより迅速に提供されるべきであればあるほど、またこれらの情報が多様であればあるほど、より多くの構造を事前計算し、記憶しなければならない。したがってOLAPシステムは非常に大きくなる可能性があり、所望したものよりもはるかに効率的ではない。1秒以下の応答時間は大きなデータバンクへの任意で統計的に照会する場合には、実際的に実現することができない。それどころか応答時間は頻繁に実質的に1秒を上回る。
【0013】
したがってデータバンクエントリを統計的に評価するための効率的な方法の要求が生じる。この際照会は可能な限り制限を受けるべきではない。
【0014】
本発明の課題は従来技術において公知である方法の欠点、殊にデータバンクエントリを統計的に評価するためのOLAP方法の欠点を克服することである。
【0015】
この課題は本発明によれば独立請求項記載の方法によって解決される。本発明の有利な構成は従属請求項に記載されている。
【0016】
本発明によれば、複数の統計的な変数に対応付けられているデータバンクのデータ、殊に1つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法が示され、この方法は、変数の状態の相対的な頻度及び変数の状態の間の統計的な依存関係を近似的に表すための統計モデルがデータバンクに記憶されているデータを用いて学習され、統計モデルに基づいて変数の状態の近似的な相対的な頻度、並びに変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の近似的な相対的な頻度及び期待値が求められることを特徴としている。
【0017】
モデルは、データバンクのデータを統計的に評価するための従来の方式と異なり、データの統計の正確な結像ではない。このやり方では一般的に正確なステートメントではなく、単に近似的な統計的なステートメントが得られる。しかしながら統計モデルは、例えば従来のOLAP方法よりも僅かな制限を受けるに過ぎない。
【0018】
近似的な統計的なステートメントを得るために、データバンクにおけるエントリは先ず統計モデルに「凝縮され」、この際統計モデルはいわばデータバンクエントリの「共通の確率分布」の近似を表す。具体的にはこのことは、データバンクのエントリに基づいて統計モデルを学習することにより行われ、これにより結果としてデータバンクエントリの変数の状態の相対的な頻度を近似的に表すことができる。変数は種々の相対的な頻度を有する複数の状態を取ることができる。そのような統計モデルを使用できるようになると直ぐに、この統計モデルを変数の状態の間の相対的な依存関係を学習するために使用することができる。変数の状態の相対的な頻度を所定の条件に応じて事前設定することができ、変数の状態の所定の相対的な頻度に属する、この頻度に依存する変数の状態の相対的な頻度を求めることができる。
【0019】
データバンクへの統計的な照会を、変数の所定の状態の相対的な頻度についての条件の形態で行うことができ、統計的な照会への応答は変数の状態の所定の相対的な頻度に属する、この頻度に依存する別の変数の状態の相対的な頻度が求められた形態で行うことができる。
【0020】
統計モデルとして有利にはグラフィック確率モデル(Graphical Probabilistic Model)が使用される(例えば:Castillo, Jose Manuel Gutierrez, Ali S. hadi, Expert Systems and Probabilistic Network Models, Springer, New Yorkを参照されたい)。グラフィック確率モデルには例えばベイジアンネット(ベイジアンネットワークまたは信念ネットワーク)及びマルコフネットが属する。
【0021】
統計モデルを例えばベイジアンネットにおける構造学習によって形成することができる(例えば:Reimar Hofmann, Lernen der Struktur nichtlinearer Abhaengigkeiten mit graphischen Modellen, Dissertation, BerlinまたはDavid Heckermann, A tutorial on lerning Bayesian networks, Technical Report MSR-TR-95-06, Microsoft Researchを参照されたい)。
【0022】
別の可能性は一定の構造に関するパラメータを学習することにある(例えば:Martin A. Tanner : Tools for Statistical Inference, Springer New York, 1996を参照されたい)。
【0023】
多くの学習方法はモデルのパラメータに対する最適化判定基準として尤度関数を使用する。この際の特別な実現は期待値最大化(EM)学習方法であり、この学習方法を以下では特別なモデルに基づいて詳細に記述する。基本的には、主としてモデルの一般化は問題ではなく、単にデータへのモデルの良好な適合を達成しようとすることが重要である。
【0024】
統計モデルとして有利には統計的なクラスタモデル、殊にデータを複数のクラスタに分割するベイジアンクラスタモデルが使用される。
【0025】
同様にして統計モデルと組み合わせて、データを同様に複数のクラスタに分割する距離尺度(Distanzmass)を基礎とするクラスタモデルを使用することができる。
【0026】
クラスタモデルを使用することによって、非常に大きなデータバンクは比較的小さい部分に分けられ、これらの部分は独立したデータバンクと解することができ、比較的僅かな量を基礎として効果的に処理することができる。このためにデータバンクを統計的に評価する際に、所定の条件を統計モデルを介して1つまたは複数のクラスタへと結像できるか否かが検査される。このことが該当する場合には、評価されるデータは1つまたは複数のクラスタに制限される。同様にして、少なくとも1つの所定の相対的な頻度を有し、所定の条件を充足するデータを包含しているクラスタへの制限を行うことができる。所定の条件に応じるデータが比較的僅かな部分にしか包含されていないその他のクラスタを無視することができる。何故ならば考察するやり方においては近似的なステートメントのみが得ようとされるからである。
【0027】
統計的なクラスタモデルとして例えばベイジアンクラスタモデル(離散的で潜在的な変数を有するモデル)が使用される。
【0028】
このことを以下詳細に説明する。
【0029】
統計的な変数{A,B,C,D,...}のセット、換言すればデータバンクのテーブルの多数の領域が与えられているとする。変数の状態はそれぞれの小文字によって表される。すなわち変数Aは状態{a1,a2,...}を取ることができる。状態は離散的なものとする。しかしながら一般的には連続的な(実数の)変数も許容される。
【0030】
データバンクのテーブルにおけるエントリは全ての変数についての値から成り、1つのエントリに属する、全ての変数についての値は1つのデータセットDに統合される。例えば、xΠ=(aΠ,bΠ,cΠ,dΠ,...)はΠ番目のデータセットを表す。テーブルはM個のエントリを持つ。すなわちD={xΠ,Π=1,...,M}。
【0031】
付加的に隠れた変数(クラスタ変数)も存在し、Ωと表される。クラスタ変数は値{ωi,i=1,...,N}を取ることができる。すなわちN個のクラスタが存在する。
【0032】
ここで、P(Ω|Θ)はクラスタの先験的な分布を表し、P(ωi|Θ)によってi番目のクラスタの先験的な重みが与えられており、Θはモデルのパラメータを表す。先験的な分布は、データのどの部分がそれぞれのクラスタに対応付けられているかを表す。
【0033】
P(A,B,C,D...|ωi, |Θ)によって、i番目のクラスタの構造ないしi番目のクラスタにおける変数セット{A,B,C,D,...}の変数の条件付き分布が表される。
【0034】
先験的な分布及び各クラスタの条件付き確率の分布は一緒に、すなわち{A,B,C,D,...}∪Ωないし{A,B,C,D,...}に基づく共通の確率モデルにパラメータ化される。確率モデルは先験的な分布と条件付き分布との積
P(A,B,C,...,Ω|Θ)=P(Ω|Θ)P(A,B,C,...|Ω,Θ)
ないし、
P(A,B,C,...|Θ)=ΣiP(ωi|Θ)P(A,B,C,...|ωi,Θ)
によって与えられている。
【0035】
データセットDのパラメータΘの対数尤度関数Lは、
L(Θ)=logP(D|Θ)=ΣΠlogP(xΠ|Θ)
によって与えられている。
【0036】
期待値最大化(EM)学習の範囲においては、一連のパラメータΘ(t)は以下の一般則に応じて構成される。すなわち、
Θ(t+1)=arg maxΘΣΠΣiP(ωi|xΠ,Θ(t))logP(xΠ,ωi|Θ)
この反復規則でもって尤度関数の段階的な最大化が行われる。
【0037】
条件付き分布P(A,B,C,D,...□ωi,Θ)に対して、制限された仮定(Annhame)を行うことができる(場合によっては行わねばならない)。そのような制限された仮定の一例は以下のファクタ化仮定である。
【0038】
変数セット{A,B,C,D}の変数の条件付き確率P(A,B,C,D,...□ωi,Θ)の分布に関して例えばファクタ化をP(A,B,C,D,...□ωi,Θ)=P(A□ωiΘ)P(B□ωiΘ)P(C□ωiΘ)P(D□ωiΘ)...とするならば、確率モデルは簡単なベイジアンネット(ナイーブベイジアンネット)に対応する。高次元のテーブルの代わりに、むしろ一次元のテーブル(それぞれ1つの変数のためのテーブル)と対比されている。
【0039】
分布のパラメータを上述のように、期待値最大化(EM)学習方法を用いてデータから学習することができる。学習後には各データセットxΠ=(aΠ,bΠ,cΠ,dΠ,...)に1つのクラスタを対応付けることができる。対応付けを先験的な分布P(Ω□aΠ,bΠ,cΠ,dΠ,...,Θ)を介して行うことができ、データセットxΠは最大の重みP(ωi□aΠ,bΠ,cΠ,dΠ,...,Θ)を有するクラスタωiに対応付けられる。
【0040】
データバンクにおける各エントリのクラスタ属性を付加的な領域としてデータバンクに記憶することができ、所定のクラスタに属するデータに迅速にアクセスできるようにするために相応のインデクスを準備することができる。
【0041】
例えば「A=a1及びB=b3を有する全てのデータセット、並びにこのデータセットに属するC及びDに関する分布(すなわちP(C|a1,b3)及びP(D|a1,b3))を与えよ」という統計的な照会がデータバンクになされると、以下のように行われる。
【0042】
先ず先験的な分布P(Ω□a1,b3)が求められる。この分布から、課された条件に応じるデータのどの部分をデータバンクのどのクラスタにおいて見つけることができるかが(近似的に)明らかになる。つまり後続の全ての過程では、所望の精度に応じて、P(Ω□a1,b3)に従い高い先験的な重みを有するデータバンクの部分に制限することが可能である。
【0043】
理想的な場合は、P(Ω□a1,b3)=1がiに、また相応にP(Ω□a1,b3)=0が全てのj≠iに当てはまる場合、すなわち課された条件に応じる全てのデータが1つのクラスタ内にある場合に与えられている。そのような場合にはさらなる評価の際の精度を損なうことなくi番目のクラスタに制限することができる。
【0044】
C及びDに対する(近似的な)分布を得るために、さらにモデルを使用することもできる。すなわち、所望の分布P(C|a1,b3)及びP(D|a1,b3)をモデルのパラメータに基づいて近似的に求めることができる。
【0045】
【数1】
【0046】
しかしながら択一的にモデルを、目下の照会に関連するクラスタを求めることにのみ使用することもできる。
【0047】
このクラスタに制限した後では、クラスタ内部においてはより正確なメソッドを使用することができる。例えばクラスタにおける統計の正確なカウントを(付加的なインデックスないしクラスタ属性を使用して、または従来のデータバンクレポーティング方法またはOLAP方法を基礎として)行うことができるか、特別にクラスタに適合された別の統計モデルを使用することができる。OLAPとの僅かな照応は殊に利点を有し、何故ならば高次元におけるいわゆるデータの「希薄性」(まばらであること)は統計的なクラスタモデルによって十分に使用され、OLAP方法は効率的な低次元クラスタにおいてのみ使用されるからである。
【0048】
評価の際の速度と精度のトレードオフは、評価から除外されたデータの量から生じる。すなわち、より多くのクラスタが評価から除外されればされるほど評価はより迅速になるが、しかしながら評価は不正確にもなり、統計的な照会への応答は行われない。ユーザには精度と速度との間のトレードオフ自体を決定する可能性を与えることができる。付加的に、モデルの評価の精度が不十分である場合にはより自動的で正確な方法をトリガすることができる。
【0049】
一般的に、所定の最小重みを下回るクラスタは評価から除外される。正確な結果を、0である先験的な重みを受け取ったクラスタのみが評価から除外されることによって達成することができる。この際クラスタの正確な「インデクシング」、また結果としてデータバンクの正確なインデクシングを達成することができ、さらに多くの場合において評価を速めることができる。しかしながら一般的に可能な限り多数のクラスタが評価に使用される。
【0050】
クラスタモデルのオーバートレーニングは重要ではない。何故ならば逆に、履歴データの可能な限り正確な再現を得ようとされているからであり、将来の予測は得ようとされていないからである。同時に、過度にオーバートレーニングされたクラスタモデルは、照会のクラスタへの可能な限り一義的な対応付けを供給する傾向があり、そのために更なる操作時には非常に迅速にデータバンクの小さい部分へと制限することが可能である。
【0051】
有利には、使用されるデータバンク媒体では、クラスタに属するデータがクラスタ属性に応じたやり方で記憶される。例えばクラスタに属するデータをハードディスクの1つのセクションに記憶することができ、関連するデータをブロックでより速く読み出すことができる。
【0052】
既述のように本発明による方法では、近似的なステートメントが十分なものと見なされない場合には、データバンクのデータを統計的に評価するための従来の方法も補完的に使用することができる。殊に、変数の状態の相対的な頻度を求めるための従来のデータバンクレポーティング方法ないしOLAP方法を使用することができる。
【0053】
従来のデータバンク技術を補完的に使用することは例えば、規定可能はテスト変数が所定の値を取るか、所定の値を上回る場合に自動的に開始することができる。
【0054】
さらに本発明によれば、複数の統計的な変数に対応付けられるべきデータバンクのデータ、殊に1つまたは複数のクラスタに包含されているデータを、ソフトウェア制御により自動的で統計的に評価するための方法が示され、この方法は、データが距離尺度を基礎とするクラスタモデルによって複数のクラスタに分割され、必要に応じて考察されるデータをクラスタに包含されているデータの内の1つまたは複数のデータへの制限が行われ、変数の状態の相対的な頻度及び期待値を求めるデータバンクレポーティング方法及びOLAP方法が使用されることを特徴としている。
【0055】
本発明において示される方法によって、データバンクのデータのクラスタへの分割、並びに必要に応じて1つまたは複数のクラスタへの制限を行うことができる。本発明による方法が既に1つまたは複数のクラスタに包含されているデータに適用される場合には、これによってクラスタのサブクラスタへの分割が達成される。1つまたは複数のサブクラスタへの制限が行われる場合には、本発明による方法をサブクラスタに包含されているデータに適用することができ、必要に応じてより正確に適合された統計モデルを使用することができる。このやり方を一般的に任意に何度も繰り返すことができる。すなわち、クラスタのサブクラスタへの任意の頻度での分割、ないしサブクラスタのサブサブクラスタへの任意の頻度での分割、必要に応じてクラスタに包含されているデータへのその都度の制限を行うことができ、並びに考察すべきクラスタに包含されているデータに本発明による方法を(より正確に適合させて)適用することができる。
【0056】
以下では本発明の実施例を、付属の図面に関連させてウェブレポーティング/ウェブマイニング(mining)の領域において説明する。
【0057】
図1はあるウェブサイトのゲストを表すための変数が示されている種々のモニタウィンドウを示す。
【0058】
図2は、図1の変数の種々のモニタウィンドウを示し、ここでは所定のレファラのゲストの特性が検査される。
【0059】
図3は、図1の変数の種々のモニタウィンドウを示し、ここでは先ずホームページを呼び出し、次いでニュースを読み、続いて再びホームページを呼び出すゲストの特性が検査される。
【0060】
ウェブレポーティング/ウェブマイニングの領域においては、一般的に大量のデータの評価が必要である。ユーザがあるウェブサイトを訪れると、通常の場合ゲストのあらゆるアクションがウェブログファイルに記録される。このことはそのようなウェブログファイルが非常に急速に数ギガバイトの範囲のオーダにまで増大する可能性があるので、データが非常に集中する。
【0061】
ウェブログファイルの評価の準備のために、まず「セッション」ないしゲストの訪問が抽出された。すなわち、一人のゲストに属する連続する全てのエントリ(頁の呼出ないしクリック)が統合された。
【0062】
ゲストの各セッションは種々の変数のセットすなわち、例えば「開始時間」、「セッション継続時間」、「照会回数」、「レファラ」、「最初に訪れたカテゴリ」、「2番目に訪れたカテゴリ」、「3番目に訪れたカテゴリ」、「4番目に訪れたカテゴリ」によって特徴付けられた。
【0063】
さらには、「ゲストはクッキーを受け取る」、「ゲストが現在のセッションまでに有したセッション数」、「最後のセッションにおけるページ呼出数」、「最後のセッションまでの時間的な間隔」、「どのページにおいて最後のセッションは終了したか」、「ゲストの最初のセッションからの時間」、「曜日」などのような別の(図示せず)変数も設けられた。
【0064】
全体で各セッションは18の種々の変数に基づいて特徴付けられた。
【0065】
変数の状態の相対的な頻度を求めるために、上述のようなナイーブ・ベイジアン・クラスタモデルが使用された。
【0066】
所定の変数は統計モデルに組み込まれた。以下では統計モデルが、モデルについての良好なパラメータを発見するためにウェブログファイルに包含されているデータによってトレーニングされた。モデルからは所望の相対的な頻度を読み出すことができる。
【0067】
変数の状態の相対的な頻度を求めた結果が図1に示されている。図1は種々のモニタウィンドウを示し、このモニタウィンドウにはあるウェブサイトのゲストを表すための変数「開始時間」、「セッション継続時間」、「照会回数」、「レファラ」、「最初に訪れたカテゴリ」、「2番目に訪れたカテゴリ」、「3番目に訪れたカテゴリ」及び「4番目に訪れたカテゴリ」が表されている。
【0068】
図1からは殊に以下のことが読み取れる、すなわち、
−午後または夕方にウェブサイト訪れたゲストは約55%
−僅か1分足らずしかウェブサイトに留まらなかったゲストは約47%
−1つの照会しか開始しないゲストは約34%
−レファラを有さないゲストは約56%
−ホームページにおいて開始するゲストは約45%
−1つのカテゴリのみを訪れたゲストは約57%、2つのカテゴリのみを訪れたゲストは約74%、3つのカテゴリのみを訪れたゲストは約85%
である。
【0069】
統計モデルがEM学習方法を基礎としてトレーニングされた後には、変数の間の依存関係も学習することができた。
【0070】
図2から分かるように、例えば所定のレファラ(ここではendemann)から来たゲストの特性が調査された。このために、変数「レファラ」における相応のエントリが100%にセットされた。統計モデルを用いて一瞬の内に、殊に約99%このゲストは最初にホームページを訪れ、続いて殆ど多くの場合(約96%)に即座に再びウェブサイトを去るということを求めることができた。
【0071】
図3には、データバンクへの複雑な照会が示されている。図3は考察される変数の種々のモニタウィンドウを示し、ここでは最初にホームページを呼び出し、次いでニュースを読み、続けて再びホームページを呼び出すゲストの特性が検査された。このために、変数「最初に訪れたカテゴリ」、「2番目に訪れたカテゴリ」及び「3番目に訪れたカテゴリ」における相応のエントリがそれぞれ100%にセットされた。
【0072】
やはり統計モデルを用いて一瞬の内に殊に、このゲストが主に再びニュースを読む(約37%)かウェブサイトを去る(約36%)ことを求めることができた。さらに図3からは、これらのゲストの約89%はレファラを有さないことが分かる。
【0073】
相応のやり方で、データバンクへのさらなる大量の照会に短時間の内、すなわち一般的に1秒以内に応答することができる。例えば、所定のレファラを介して来るどのゲストが3つ以上のページ呼出を行ったか、これらの人々は日中にどのように分布しているか、またこれらのゲストの内のいずれが再び訪れたゲストであるかを検査することができる。同様にして、ゲストトラフィックはどのようにしてホームページで開始するゲストに分布しているか、すなわちいずれのゲストがセッションをどのように継続するか、または続けて中断するかを検査することができる。
【0074】
同時に大量のデータ量において、多数の異なる変数を用いるそのような大量の照会を従来のデータバンク技術、殊にOLAP方法とは異なり、本発明による方法を用いるだけで効果的に処理することができる。それにもかかわらず、統計モデルによって取得された近似的なステートメントが正確なステートメントによって補完されるべき場合には、従来のOLAP方法をこれに補完的に引用することができる。しかしながら、相応にして比較的長い応答時間を甘受する必要はある。
【0075】
要約すれば、本発明による方法では従来のデータバンク技術、殊にデータバンクレポーティング方法及びOLAP方法とは異なり、広範なデータバンクへの統計的な照会に統計モデルを使用することによって効果的なやり方で近似的に応答することができる。このことは、必要に応じて正確なステートメントを使用するために、データバンクを評価するための従来技術を補完的に引用できることを排除しない。データバンクをより小さい部分(クラスタ)に分割できるクラスタモデルを使用することにより、所定の照会時に非常に迅速にデータバンクの関連する部分に(近似的または正確に)制限することができる。データバンクの部分への制限が行われる場合には、データバンクのこの部分の再度の統計的な評価を本発明による方法を用いて実施することができ、本発明による方法の経過においては必要に応じて、データバンクのこの部分に包含されている部分(サブクラスタ)への再度の制限、並びにサブクラスタに包含されているデータの再度の統計的な評価を実施することができる。このやり方を一般的に任意の頻度で繰り返すことができる。これによってさらに効果的な統計を作成することができる、ないし統計的な照会に応答することができる。
【0076】
同様に本発明によれば、距離尺度を基礎とするクラスタモデルを、データバンクのデータを複数のクラスタに分割するために使用することができ、必要に応じてデータバンクの関連する部分(クラスタ)への制限を行う。変数の状態の相対的な頻度及び期待値を求めるために、従来のデータバンクレポーティング方法またはOLAP方法が使用される。
【0077】
本発明は基本的に、大量のデータの効果的で統計的な評価が必要とされるところであればどこにでも使用することができる。
【0078】
考えられる用途は、既に実施例において示したように、ウェブレポーティング/ウェブマイニングの領域である。
【0079】
別の考えられる用途は例えば、
−コールセンターからのデータ、
−業務用の顧客関係管理システムからのデータ、
−健康領域からのデータ、
−医学的なデータバンクからのデータ、
−環境データバンクからのデータ、
−ゲノムデータバンクからのデータ、
−金融領域からのデータ、
などの顧客データが大量に生じるところに見出せる。
【図面の簡単な説明】
【0080】
【図1】あるウェブサイトのゲストを表すための変数が表されている種々のモニタウィンドウを示す。
【図2】図1の変数の種々のモニタウィンドウを示す。
【図3】図1の変数の種々のモニタウィンドウを示す。
Claims (12)
- 複数の統計的な変数に対応付けられるべきデータバンクのデータ、例えば1つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法において、
変数の状態の相対的な頻度及び前記変数の状態の間の統計的な依存関係を近似的に表すための統計的なモデルを前記データバンクに記憶されているデータを用いて学習し、
前記統計的なモデルを基礎として、前記変数の状態の近似的な相対的な頻度並びに変数の状態の所定の相対的な頻度に属する、該頻度に依存する変数の状態の近似的な相対的な頻度及び期待値を求めることを特徴とする方法。 - 統計的なモデルとしてグラフィック確率モデル、例えばベイジアンネットを使用する、請求項1記載の方法。
- 統計的なモデルとして、統計的なクラスタモデル、例えばデータを複数のクラスタに分割するベイジアンクラスタモデルを使用する、請求項1記載の方法。
- さらに、データを複数のクラスタに分割する、距離尺度を基礎とするクラスタモデルを使用する、請求項1記載の方法。
- 考察するデータの、前記クラスタの内の1つまたは複数のクラスタに包含されているデータへの制限を行う、請求項3または4記載の方法。
- 少なくとも1つの所定の相対的な頻度を有する、変数の所定の状態に属するデータが包含されているクラスタへの制限を行う、請求項5記載の方法。
- クラスタに属するデータを、クラスタ属性に応じるやり方でデータ記憶媒体に記憶する、請求項4から6までのいずれか1項記載の方法。
- さらに、変数の状態の相対的な頻度及び期待値を求めるためのデータバンクレポーティング方法またはOLAP方法を使用する、請求項1から7までのいずれか1項記載の方法。
- データバンクレポーティング方法またはOLAP方法を、テスト変数が所定の値を取る場合または所定の値を上回る場合に使用する、請求項8記載の方法。
- 複数の統計的な変数に対応付けられるべきデータバンクのデータ、例えば1つまたは複数のクラスタに包含されているデータを、自動的にソフトウェア制御により統計的に評価するための方法において、
前記データを距離尺度を基礎とするクラスタモデルによって複数のクラスタに分割し、必要に応じて、考察されるデータをクラスタに包含されているデータの内の1つまたは複数のデータに制限し、
変数の状態の相対的な頻度及び期待値を求めるためにデータバンクレポーティング方法及びOLAP方法を使用することを特徴とする方法。 - 例えばウェブレポーティング/ウェブマイニングの領域及び顧客関連管理システムにおいて、顧客データを統計的に評価するための請求項1から10までのいずれか1項記載の方法の使用。
- 環境データバンク、医療的なデータバンクまたはゲノムデータバンクを統計的に評価するための請求項1から10までのいずれか1項記載の方法の使用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10127914 | 2001-06-08 | ||
PCT/DE2002/001745 WO2002101581A2 (de) | 2001-06-08 | 2002-05-15 | Statistische modelle zur performanzsteigerung von datenbankoperationen |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004532488A true JP2004532488A (ja) | 2004-10-21 |
Family
ID=7687675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003504273A Abandoned JP2004532488A (ja) | 2001-06-08 | 2002-05-15 | データバンク操作の性能を向上させるための統計モデル |
Country Status (4)
Country | Link |
---|---|
US (2) | US7149649B2 (ja) |
EP (1) | EP1395924A2 (ja) |
JP (1) | JP2004532488A (ja) |
WO (1) | WO2002101581A2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002101581A2 (de) * | 2001-06-08 | 2002-12-19 | Siemens Aktiengesellschaft | Statistische modelle zur performanzsteigerung von datenbankoperationen |
DE10320419A1 (de) * | 2003-05-07 | 2004-12-09 | Siemens Ag | Datenbank-Abfragesystem und Verfahren zum rechnergestützten Abfragen einer Datenbank |
US7617186B2 (en) | 2004-10-05 | 2009-11-10 | Omniture, Inc. | System, method and computer program for successive approximation of query results |
US20080133573A1 (en) * | 2004-12-24 | 2008-06-05 | Michael Haft | Relational Compressed Database Images (for Accelerated Querying of Databases) |
US8984133B2 (en) | 2007-06-19 | 2015-03-17 | The Invention Science Fund I, Llc | Providing treatment-indicative feedback dependent on putative content treatment |
US9374242B2 (en) | 2007-11-08 | 2016-06-21 | Invention Science Fund I, Llc | Using evaluations of tentative message content |
US8682982B2 (en) | 2007-06-19 | 2014-03-25 | The Invention Science Fund I, Llc | Preliminary destination-dependent evaluation of message content |
US8082225B2 (en) | 2007-08-31 | 2011-12-20 | The Invention Science Fund I, Llc | Using destination-dependent criteria to guide data transmission decisions |
US8065404B2 (en) | 2007-08-31 | 2011-11-22 | The Invention Science Fund I, Llc | Layering destination-dependent content handling guidance |
US7930389B2 (en) | 2007-11-20 | 2011-04-19 | The Invention Science Fund I, Llc | Adaptive filtering of annotated messages or the like |
US7849025B2 (en) * | 2008-01-21 | 2010-12-07 | Microsoft Corporation | Modification of relational models |
US8326787B2 (en) | 2009-08-31 | 2012-12-04 | International Business Machines Corporation | Recovering the structure of sparse markov networks from high-dimensional data |
US8438129B1 (en) * | 2010-05-19 | 2013-05-07 | Hrl Laboratories, Llc | Probabilistic implementation of system health prognosis |
US8782023B1 (en) * | 2012-01-26 | 2014-07-15 | Google Inc. | Versioned database cache |
US9646257B2 (en) * | 2014-09-03 | 2017-05-09 | Microsoft Technology Licensing, Llc | Probabilistic assertions and verifying them |
US10235686B2 (en) | 2014-10-30 | 2019-03-19 | Microsoft Technology Licensing, Llc | System forecasting and improvement using mean field |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4620286A (en) * | 1984-01-16 | 1986-10-28 | Itt Corporation | Probabilistic learning element |
US5325445A (en) | 1992-05-29 | 1994-06-28 | Eastman Kodak Company | Feature classification using supervised statistical pattern recognition |
DE19549300C1 (de) | 1995-11-24 | 1997-02-20 | Siemens Ag | Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen |
US5870559A (en) * | 1996-10-15 | 1999-02-09 | Mercury Interactive | Software system and associated methods for facilitating the analysis and management of web sites |
DE19706767A1 (de) | 1997-02-20 | 1998-09-03 | Siemens Ag | Verfahren und Einrichtung zur Simulation einer Anlage der Grundstoffindustrie |
US6205447B1 (en) * | 1997-06-30 | 2001-03-20 | International Business Machines Corporation | Relational database management of multi-dimensional data |
US6263337B1 (en) * | 1998-03-17 | 2001-07-17 | Microsoft Corporation | Scalable system for expectation maximization clustering of large databases |
DE19814385C1 (de) | 1998-03-31 | 1999-10-07 | Siemens Ag | Verfahren und Vorrichtung zur Prozeßführung und zur Prozeßoptimierung der Chemikalienrückgewinnung bei der Herstellung von Zellstoff |
US6216134B1 (en) * | 1998-06-25 | 2001-04-10 | Microsoft Corporation | Method and system for visualization of clusters and classifications |
US20020039990A1 (en) * | 1998-07-20 | 2002-04-04 | Stanton Vincent P. | Gene sequence variances in genes related to folate metabolism having utility in determining the treatment of disease |
US6263334B1 (en) * | 1998-11-11 | 2001-07-17 | Microsoft Corporation | Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases |
US6549907B1 (en) * | 1999-04-22 | 2003-04-15 | Microsoft Corporation | Multi-dimensional database and data cube compression for aggregate query support on numeric dimensions |
US6564197B2 (en) * | 1999-05-03 | 2003-05-13 | E.Piphany, Inc. | Method and apparatus for scalable probabilistic clustering using decision trees |
JP2001022766A (ja) | 1999-07-06 | 2001-01-26 | Degital Works Kk | 多次元データベースの高速処理方法および装置 |
AU6343000A (en) | 1999-07-08 | 2001-01-30 | Posinfo.Com, Llc | System and method for collecting, transferring, and analyzing information from point-of-sale devices |
DE10037639A1 (de) | 1999-07-29 | 2001-02-15 | Rudolf Bayer | Verfahren zum Organisieren von Datenbeständen auf einem Speichermedium durch hierarchisches Clustering u. Computerprogramm |
US6981040B1 (en) * | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
CN1452753A (zh) * | 2000-02-28 | 2003-10-29 | 西门子公司 | 系统模型化的方法和装置 |
AU2001291175A1 (en) * | 2000-09-21 | 2002-04-02 | Md Online Inc. | Medical image processing systems |
WO2002101581A2 (de) | 2001-06-08 | 2002-12-19 | Siemens Aktiengesellschaft | Statistische modelle zur performanzsteigerung von datenbankoperationen |
AU2003206396A1 (en) * | 2002-01-04 | 2003-07-24 | Canswers Llc | Systems and methods for predicting disease behavior |
DE10233609A1 (de) | 2002-07-24 | 2004-02-19 | Siemens Ag | Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung |
-
2002
- 2002-05-15 WO PCT/DE2002/001745 patent/WO2002101581A2/de active Application Filing
- 2002-05-15 JP JP2003504273A patent/JP2004532488A/ja not_active Abandoned
- 2002-05-15 US US10/479,991 patent/US7149649B2/en not_active Expired - Fee Related
- 2002-05-15 EP EP02729889A patent/EP1395924A2/de not_active Withdrawn
-
2006
- 2006-10-17 US US11/581,452 patent/US20070083343A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2002101581A2 (de) | 2002-12-19 |
US20040186684A1 (en) | 2004-09-23 |
EP1395924A2 (de) | 2004-03-10 |
US7149649B2 (en) | 2006-12-12 |
WO2002101581A3 (de) | 2003-09-12 |
US20070083343A1 (en) | 2007-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070083343A1 (en) | Statistical models for improving the performance of database operations | |
US10902062B1 (en) | Artificial intelligence system providing dimension-level anomaly score attributions for streaming data | |
US20170236073A1 (en) | Machine learned candidate selection on inverted indices | |
US9489627B2 (en) | Hybrid clustering for data analytics | |
KR101700352B1 (ko) | 이력적 검색 결과들을 사용한 향상된 문서 분류 데이터 생성 | |
WO2019134274A1 (zh) | 兴趣探索方法、存储介质、电子设备及系统 | |
US10055776B2 (en) | Decision making criteria-driven recommendations | |
CN107341268B (zh) | 一种热搜榜排序方法及系统 | |
US20120109943A1 (en) | Adaptive Image Retrieval Database | |
WO2015192667A1 (zh) | 推荐广告的方法及广告推荐服务器 | |
US9760907B2 (en) | Granular data for behavioral targeting | |
US20060282425A1 (en) | Method and apparatus for processing data streams | |
US20030065635A1 (en) | Method and apparatus for scalable probabilistic clustering using decision trees | |
Lu et al. | Personalized location recommendation by aggregating multiple recommenders in diversity | |
WO2009005905A2 (en) | Granular data for behavioral targeting | |
CN108804551A (zh) | 一种兼顾多样性与个性化的空间兴趣点推荐方法 | |
CN109903191B (zh) | 基于机器学习的旅行推荐方法、装置、存储介质及终端 | |
CN113157922A (zh) | 基于图的网络实体行为评估、可视化方法 | |
Christensen et al. | STORM: Spatio-temporal online reasoning and management of large spatio-temporal data | |
CN108830106A (zh) | 一种隐私数据提供方法及装置 | |
CN109525933B (zh) | 位置隐私保护方法及装置 | |
CN108647739A (zh) | 一种基于改进的密度峰值聚类的社交网络社区发现方法 | |
KR101708440B1 (ko) | 분산 환경에서 lda 및 능동 학습 기법을 융합한 적응형 아이템 추천 방법 | |
Śniegula et al. | Study of machine learning methods for customer churn prediction in telecommunication company | |
CN107562793A (zh) | 一种大数据挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050323 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20060425 |