JP2005527923A - 与えられたデータに存在する確率分布を求めるための方法 - Google Patents
与えられたデータに存在する確率分布を求めるための方法 Download PDFInfo
- Publication number
- JP2005527923A JP2005527923A JP2004528430A JP2004528430A JP2005527923A JP 2005527923 A JP2005527923 A JP 2005527923A JP 2004528430 A JP2004528430 A JP 2004528430A JP 2004528430 A JP2004528430 A JP 2004528430A JP 2005527923 A JP2005527923 A JP 2005527923A
- Authority
- JP
- Japan
- Prior art keywords
- zero
- cluster
- data
- learning process
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Development Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本発明の要点は実質的に、統計モデルまたはクラスタリングモデルでの推論において、帰属度関数の項または条件付き確率表から形成される結果の形成は通常通りに行われるが、帰属度関数の因数に初めてゼロが生じるとすぐに、またはすでに第1のステップの後にクラスタに対してゼロ重みが求められるとすぐに、事後重みの以降の計算を中断することができることにある。反復学習プロセス(例えば、EM学習プロセス)において、所定のデータポイントに対するクラスタにゼロ重みが割り当てられた場合、このクラスタはこのデータポイントに対する後のすべてのステップにおいてもゼロ重みを保持するので、後のすべての学習ステップにおいても考慮しなくてよい。まだ許容されるクラスタまたは変数の状態をある学習ステップから次の学習ステップまで中間記憶するのに有効なデータ構造は指示される。
これにより、無関係なパラメータおよびデータの処理が有効に排除されることが保証される。それゆえ、関係のあるデータのみを考慮することにより、学習プロセスの迅速な進行が保証されるという利点が得られる。
これにより、無関係なパラメータおよびデータの処理が有効に排除されることが保証される。それゆえ、関係のあるデータのみを考慮することにより、学習プロセスの迅速な進行が保証されるという利点が得られる。
Description
本発明は学習プロセスに基づいた統計モデルを形成する方法に関する。
インターネットにおけるトラフィックの増大により、インターネット上にウェブサイトを有している企業またはインターネット上でサービスを提供している企業は、顧客範囲の拡大を利用し、個々の顧客に関する情報を収集することができるようになった。電子的に行われる取引の多くは記録され、ユーザデータはファイルされる。したがって、その間、多くの企業はCRMシステムを稼働させている。CRMシステムでは、顧客とのすべての遣り取りに関する情報が体系的に記録される。ウェブサイト上でのトラフィックまたはウェブサイトへのアクセスのログが保存され、そのプロセスはコールセンタで記録される。このため、しばしば、さまざまな種類の顧客固有情報を含んだ非常に大量のデータが発生することがある。
たしかにこれによって顧客に関する有益な情報が収集されるものの、データがしばしば圧倒的な量となるため、多大なコストをかけずには処理することができないという欠点が生じる。
この問題を解決するために、原則として統計的手法が、特に統計的な学習プロセスが適用される。この統計的学習プロセスは、例えばトレーニング期間後には、入力された変数をクラスに分類する能力を有する。新たに開発されたフィールドデータマイニングまたは機械学習は、とりわけ、このような学習プロセス(例えばクラスタリング方式のような)をさらに発展させ、実用に関連した問題に適用することを目的としている。
さらに、多くのデータマイニング法は体系的にインターネットからの情報の取扱いに適合させることができる。これらの方法では、大量のデータが、データ量の著しく低減された有益な情報に変換される。このような方法においては、例えば統計的依存関係の構造または繰り返しパターンをデータから読み取るために、多くの統計的学習プロセスを使用することも可能である。
しかし、これらの方法は、有益な成果をもたらすものの、数値的に非常にコストがかかるという欠点を有している。この欠点は、例えば顧客の年齢または収入などの情報の欠落によってデータ処理が複雑化し、部分的に、供給された情報が無効になることでさらに深刻化する。このような欠落した情報に対する統計的に最適な取扱いは、今日のところ非常にコストがかかる。
情報を有意義に分類する別の方法は、例えばナイーブベイズネットワークを用いたクラスタモデルの形成である。ベイズネットワークは確率表によってパラメトライズされる。この表を最適化する際、通常すでに学習ステップの数ステップ後には弱点が生じるので、表には多くのゼロが記入される。それゆえ、疎な表(Sparse Tables)が生じる。例えば統計的クラスタモデルの場合のように、学習プロセス中に表が絶え間なく変化するため、表の疎なコーディングは非常に不完全にしか利用され得ない。この場合、確率表におけるゼロ記入の反復出現が計算コストおよびメモリコストを不必要に上げてしまう。
こうした理由から、上記の統計的学習プロセスをより迅速かつより性能良くする必要がある。そこで、いわゆるEM(Expectation Maximisation(期待値最大化))学習プロセスが益々重要な意味を持ってくる。
ナイーブベイズクラスタモデルの場合にEM学習プロセスを具体化するためには、一般に以下のような方法ステップが実施される。
ここで、X={Xk,k=1,…,K}はK個の確率変数(例えば、データバンクのフィールドに対応させてもよい)の集合を表すものとする。変数の状態は小文字で表す。変数X1は状態x1,1,x2,2…をとることができる。すなわち、X1∈{x1,i,i=1,…,L1}。L1は変数X1の状態の個数である。(データバンクの)データレコード内のエントリは、すべての変数に対する値から成っている。ここで、Xπ≡(x1 π,x2 π,x3 π,…)はπ番目のデータレコードを表す。π番目のデータレコードにおいて、変数X1は状態x1 πにあり、変数X2は状態x2 πにある等々。表はM個のエントリ、すなわち、{xπ,π=1,…,M}を有している。さらに、潜在変数またはクラスタ変数があり、ここではΩで表される。クラスタ変数の状態は{ωi,i=1,…,N}である。したがって、N個のクラスタが存在する。
統計クラスタリングモデルにおいては、P(Ω)は事前分布を表す;P(ωi)はi番目のクラスタの事前重みであり、P(X|ωi)はi番目のクラスタの構造、またはi番目のクラスタ内の(データバンク内に含まれた)観察可能な量X={Xk,k=1,…,K}の条件付き分布を表す。各クラスタの事前分布と条件付き分布とによって、共通の確率モデルがX∪ΩまたはX上でパラメトライズされる。
ベイズネットワークを用いた学習プロセスの一般的かつ広範囲にわたる検討は[2]に見いだせる。特に、データの部分的欠落の問題は[3,第19頁]および[4]において検討されている。この学習プロセスの欠点は、疎な表(多くのゼロが記入された表)が処理され、それにより計算コストが比較的大きくなるにもかかわらず、判定すべきデータモデルに関する付加的な情報は得られないことである。
したがって、本発明の課題は、副産物としてさらなる不要な数値コストまたは計算コストを生じさせないように、確率表のゼロ記入を利用する方法を提供することである。
上記課題は請求項1に記載された特徴により解決される。本発明の有利な発展形態は従属請求項から得られる。
本発明の要点は実質的に、統計モデルまたはクラスタリングモデルでの推論において、帰属度関数の項または条件付き確率表から形成される結果の形成は通常通りに行われるが、帰属度関数の因数に初めてゼロが生じるとすぐに、またはすでに第1のステップの後にクラスタに対してゼロ重みが求められるとすぐに、事後重みの以降の計算を中断することができることにある。反復学習プロセス(例えば、EM学習プロセス)において、所定のデータポイントに対するクラスタにゼロ重みが割り当てられた場合、このクラスタはこのデータポイントに対する後のすべてのステップにおいてもゼロ重みを保持するので、後のすべての学習ステップにおいても考慮しなくてよい。
これにより、無関係なパラメータおよびデータの処理が有効に排除されることが保証される。それゆえ、関係のあるデータのみを考慮することにより、学習プロセスの迅速な進行が保証されるという利点が得られる。
より正確には、本発明の方法は以下のように進行する:すべての入力データポイントに対する帰属確率の事後分布の因数から成る総積の形成は上記推論ステップにおいて通常通りに実行されるが、第1の所定値、有利にはゼロまたはほぼゼロの値が総積の因数に現れるとすぐに、総積の形成は中断される。EM学習プロセスにおいて所定のデータポイントに対するクラスタに、上述のように選択された数に従った重み、有利にはゼロが割り当てられた場合、このクラスタはこのデータポイントに対する後のすべてのEMステップにおいて重みゼロを受け取る。それゆえ、例えば相応する結果が1つのEMステップから次のEMステップまで中間記憶され、重みゼロを有していないクラスタに対してのみ処理されるようにすることによって、余計な数値コストが有効に排除される。
ゼロ重みを有するクラスタがEMステップ内に現れた場合だけでなく、後のすべてのステップに現れた場合にも、特に推論ステップにおける積の形成の際に現れた場合に、処理を中断することによって、学習プロセスが全体として明らかに加速されるという利点が得られる。
与えられたデータに存在する確率分布を求める方法において、所定のクラスへの帰属確率が所定の値または値ゼロまたはほぼ0までのみ反復手続きによって計算され、選択された値を下回る帰属確率を有するクラスは反復手続きにおいてそれ以降使用されない。
与えられたデータがクラスタを形成するようにすると有利である。
反復手続きとして適切なのは、帰属度因数から積を計算する期待値最大化法である。
本方法の発展形態では、計算すべき因数のシーケンスは、稀にしか現れない変数の状態の因数が最初に処理されるように、選択される。また、積の形成に先行して、稀にしか現れない値を順序づけられたリストに格納し、変数がゼロの出現頻度に従ってリスト内で順序づけられるようにしてもよい。
さらに、確率表の対数表示を利用すると有利である。
さらに、例えば、ゼロ以外の要素のみを含むリストの形態で確率表の疎な表示(Sparse Representation)を利用すると有利である。
さらに、十分統計量を計算する際には、ゼロ以外の重みを有するクラスタのみが考慮される。
ゼロ以外の重みを有するクラスタをリストに格納してもよい。この場合、リストに格納されたデータは相応するクラスタへのポインタとなることができる。
本方法はさらに期待値最大化学習プロセスであってもよい。このプロセスでは、あるデータポイントに関して、クラスタがゼロの事後重みを受け取った場合、このクラスタはこのデータポイントに対するEM法の後のすべてのステップにおいても重みゼロを保持するので、後のすべてのステップにおいてはこのクラスタを考慮しなくてよい。
本方法はゼロ以外の重みを有するクラスタに対してのみ実行されるようにしてもよい。
つぎに、実施例に基づいて本発明をより詳細に説明する。
図1は、請求項1に記載されている発明を実施するための図式を示しており、
図2は、変数の出現頻度に従って変数を再格納するための図式を示しており、
図3は、ゼロ以外の重みを保持しているクラスタのみが考慮されることを示している。
図2は、変数の出現頻度に従って変数を再格納するための図式を示しており、
図3は、ゼロ以外の重みを保持しているクラスタのみが考慮されることを示している。
I.推論ステップにおける第1の実施例
a).ゼロ値での中断を伴う総積の形成
図1には、推論ステップにおいて各クラスタωiに対して、総積3の形成を実行するための図式が示されている。しかし、総積3の因数1に初めてゼロ2bが現れるとすぐに、総積3の形成は中断される(出口)。なお、因数1は、例えばメモリ、アレイ、またはポインタリストから読み出すことができる。ゼロ値が生じた場合、クラスタの有する事後重みはゼロに設定される。択一的に、積の因数のうちの少なくとも1つがゼロである否かをまず検査するようにしてもよい。その場合、総積を形成するためのすべての乗算は、すべての因数がゼロでない場合にのみ実行される。
a).ゼロ値での中断を伴う総積の形成
図1には、推論ステップにおいて各クラスタωiに対して、総積3の形成を実行するための図式が示されている。しかし、総積3の因数1に初めてゼロ2bが現れるとすぐに、総積3の形成は中断される(出口)。なお、因数1は、例えばメモリ、アレイ、またはポインタリストから読み出すことができる。ゼロ値が生じた場合、クラスタの有する事後重みはゼロに設定される。択一的に、積の因数のうちの少なくとも1つがゼロである否かをまず検査するようにしてもよい。その場合、総積を形成するためのすべての乗算は、すべての因数がゼロでない場合にのみ実行される。
これに対して、2aで示されているように、総積の因数にゼロ値が現れない場合、積3の形成は通常通り続行され、次の因数1がメモリ、アレイ、またはポインタリストから読み出され、条件2を伴った積3のさらなる形成に使用される。
b).ゼロ値が出現した際に総積の形成を中断することの利点
推論ステップは必ずしもEM学習プロセスの一部でなくてもよいので、この最適化は、推論ステップを必要とする他の識別及び予測方法においても特に重要な意味を持っている。例えば、顧客情報が手元にある顧客に対して、インターネット上で最も適した提供品を識別する際に、重要な意味を持っている。これを基にして、ターゲットを絞ったマーケティング戦略を策定することができる。このマーケティング戦略において、識別能力または分類能力は、例えば顧客に情報を送るような自動化された反応を生じさせる。
c).データ処理の加速に適したシーケンスの選択
図2には、本発明の方法の有利な発展形態が示されている。この発展形態では、2aで示されているように積の因数がゼロである場合に、この因数が第1の因数のうちの1つと同じように高確率で非常に早く積の中に現れるように、巧妙にシーケンスが選択される。これにより、総積3の形成を非常に早期に中断することができる。その際、新たなシーケンス1aの決定は、データ内での変数の状態の出現頻度に応じて行ってもよい。例えば、因数が非常に稀にしか生じない変数の状態に属している場合、この因数が最初に処理される。因数の処理順序は、変数の値を相応して順序づけられたリスト1aに格納することによって、学習プロセスの前に決定してもよい。
d).表の対数表示
上記方法の計算コストをできるだけ制限するために、有利には、表の対数表示を用いて、例えばアンダーフローの問題が回避される。この機能によって、元のゼロ要素を正の値で置き換えることができる。これにより、ほぼゼロで互いに非常に僅かな距離しか異なっていない値のコストのかかる処理または分離がもはや必要なくなる。
e).十分統計量を計算する際の加算の増大の回避
学習プロセスに付け加えられた確率変数が所定のクラスタに対して低い帰属確率を有する場合、学習プロセスの実行中、多くのクラスタがゼロの事後重みを有する。その後のステップにおいて十分統計量の蓄積を加速させるために、このステップでは、ゼロ以外の重みを有するクラスタのみが考慮される。その際、本発明の学習プロセスの性能を高め、ゼロ以外のクラスタが、ゼロ以外の要素のみの格納を許可するリスト、アレイ、または類似のデータ構造内に割り振られ、記憶されるようにすると有利である。
b).ゼロ値が出現した際に総積の形成を中断することの利点
推論ステップは必ずしもEM学習プロセスの一部でなくてもよいので、この最適化は、推論ステップを必要とする他の識別及び予測方法においても特に重要な意味を持っている。例えば、顧客情報が手元にある顧客に対して、インターネット上で最も適した提供品を識別する際に、重要な意味を持っている。これを基にして、ターゲットを絞ったマーケティング戦略を策定することができる。このマーケティング戦略において、識別能力または分類能力は、例えば顧客に情報を送るような自動化された反応を生じさせる。
c).データ処理の加速に適したシーケンスの選択
図2には、本発明の方法の有利な発展形態が示されている。この発展形態では、2aで示されているように積の因数がゼロである場合に、この因数が第1の因数のうちの1つと同じように高確率で非常に早く積の中に現れるように、巧妙にシーケンスが選択される。これにより、総積3の形成を非常に早期に中断することができる。その際、新たなシーケンス1aの決定は、データ内での変数の状態の出現頻度に応じて行ってもよい。例えば、因数が非常に稀にしか生じない変数の状態に属している場合、この因数が最初に処理される。因数の処理順序は、変数の値を相応して順序づけられたリスト1aに格納することによって、学習プロセスの前に決定してもよい。
d).表の対数表示
上記方法の計算コストをできるだけ制限するために、有利には、表の対数表示を用いて、例えばアンダーフローの問題が回避される。この機能によって、元のゼロ要素を正の値で置き換えることができる。これにより、ほぼゼロで互いに非常に僅かな距離しか異なっていない値のコストのかかる処理または分離がもはや必要なくなる。
e).十分統計量を計算する際の加算の増大の回避
学習プロセスに付け加えられた確率変数が所定のクラスタに対して低い帰属確率を有する場合、学習プロセスの実行中、多くのクラスタがゼロの事後重みを有する。その後のステップにおいて十分統計量の蓄積を加速させるために、このステップでは、ゼロ以外の重みを有するクラスタのみが考慮される。その際、本発明の学習プロセスの性能を高め、ゼロ以外のクラスタが、ゼロ以外の要素のみの格納を許可するリスト、アレイ、または類似のデータ構造内に割り振られ、記憶されるようにすると有利である。
II.EM学習プロセスにおける第2の実施例
a).データポイントに対してゼロの割り当てられたクラスタは考慮しない
とりわけ、この場合、EM学習プロセスにおいて、表にゼロが現れることによってどのクラスタがまだ許可され、どのクラスタがもはや許可されないのかが、学習プロセスの1つのステップから次のステップまで記憶される。第1の実施例では、ゼロとの乗算によりゼロの事後重みを得たクラスタは、数値コストを節約するために、以降のすべての計算から排除されたのに対して、本発明のこの実施例では、個々のデータポイントのクラスタ帰属度に関する中間結果(どのクラスタが既に排除またはまだ許容されているか)が、1つのEMステップから次のステップまで、付加的に必要とされるデータ構造に格納される。これは、あるデータポイントに対してEMステップにおいて重みゼロを得たクラスタは以降のすべてのステップにおいても重みゼロを得ることが示されるので、意味をなす。
a).データポイントに対してゼロの割り当てられたクラスタは考慮しない
とりわけ、この場合、EM学習プロセスにおいて、表にゼロが現れることによってどのクラスタがまだ許可され、どのクラスタがもはや許可されないのかが、学習プロセスの1つのステップから次のステップまで記憶される。第1の実施例では、ゼロとの乗算によりゼロの事後重みを得たクラスタは、数値コストを節約するために、以降のすべての計算から排除されたのに対して、本発明のこの実施例では、個々のデータポイントのクラスタ帰属度に関する中間結果(どのクラスタが既に排除またはまだ許容されているか)が、1つのEMステップから次のステップまで、付加的に必要とされるデータ構造に格納される。これは、あるデータポイントに対してEMステップにおいて重みゼロを得たクラスタは以降のすべてのステップにおいても重みゼロを得ることが示されるので、意味をなす。
図3には、1つのケースが具体的に示されている。このケースでは、ほぼゼロの確率2aを有するデータポイント4がクラスタに割り当てられた場合、このクラスタを、データポイントのこの割当ての確率が再度計算される学習プロセスの次のステップ5a+1において、再びすぐにゼロに設定することができる。しがたって、EMステップ5aにおいてデータポイントに対して2aを介して重みゼロを受け取ったクラスタをさらに考慮する必要はなく、以降のすべてのEMステップ5a+nにおいては、もはやこのクラスタが2aを介して考慮されることはない。ただし、ここで、nは使用されたEMステップの数を表す(図示せず)。新たなクラスタへのデータポイントの帰属度の計算は4を介して再び継続することができる。クラスタへの帰属度がほぼゼロだがゼロではないデータポイント4は、次のEMステップ5a+1において2bを介して計算が継続される。
b).関連クラスタへのレファレンスを有するリストを記憶する
各データポイントに対して、まず、このデータポイントに関してゼロ以外の重みを有する関連クラスタへのレファレンスを含んだリストまたは類似のデータ構造を記憶することができる。その際、総積の形成および十分統計量の蓄積の際のすべてのオペレーションまたは方法ステップにおいて、まだ許可されているないしは関連するクラスタに対してのみループが実行されることが保証される。
b).関連クラスタへのレファレンスを有するリストを記憶する
各データポイントに対して、まず、このデータポイントに関してゼロ以外の重みを有する関連クラスタへのレファレンスを含んだリストまたは類似のデータ構造を記憶することができる。その際、総積の形成および十分統計量の蓄積の際のすべてのオペレーションまたは方法ステップにおいて、まだ許可されているないしは関連するクラスタに対してのみループが実行されることが保証される。
全体として、この実施例では、いずれにせよデータレコード内の各データポイントに関して、まだ許可されているクラスタが記憶される。
III.別の実施例
この場合、すでに挙げた実施例の組合せを利用する。両方の実施例の組合せによって、推論ステップにおいてゼロ重みが生じた際の中断が可能となる。ただし、その後のステップにおいては、まだ許容されるクラスタだけが第2の実施例に従って考慮される。
この場合、すでに挙げた実施例の組合せを利用する。両方の実施例の組合せによって、推論ステップにおいてゼロ重みが生じた際の中断が可能となる。ただし、その後のステップにおいては、まだ許容されるクラスタだけが第2の実施例に従って考慮される。
これにより、全体的に最適化されたEM学習プロセスが形成される。識別および予測方法に対するクラスタモデルの使用は一般的に行われているので、本発明の様式に従った最適化は特に有利で価値がある。
IV.本発明による方法を実行するための装置
1つまたはすべての実施例に従った本発明の方法は、原則的に適切な計算機およびメモリ装置によって実施されうる。この場合、計算機−メモリ装置は、上記の方法ステップを実行するコンピュータプログラムを備えていなければならない。このコンピュータプログラムは、例えばCD−ROMのようなデータ媒体に格納されていてもよく、また他の計算機システムに転送し、実行してもよい。
1つまたはすべての実施例に従った本発明の方法は、原則的に適切な計算機およびメモリ装置によって実施されうる。この場合、計算機−メモリ装置は、上記の方法ステップを実行するコンピュータプログラムを備えていなければならない。このコンピュータプログラムは、例えばCD−ROMのようなデータ媒体に格納されていてもよく、また他の計算機システムに転送し、実行してもよい。
上記計算機−メモリ装置の発展形態は入出力ユニットを付加した構成にある。この場合、入力ユニットは、センサ、検出器、入力キーボードまたはサーバを介して、考察しているシステムの状態の情報、例えばインターネットページへのアクセスの集合のような情報を計算装置、例えばメモリに伝送することができる。出力ユニットは、本発明の方法による処理の結果の信号を記憶するまたはスクリーンに表示するハードウェアから構成されている。自動的な電子的反応、例えば本発明の方法による評価に従って所定のEメールを送信することも考えられる。
V.適用例
ウェブサイト使用についての統計の把握、またはウェブトラフィックの分析は、今日ではウェブマイニングというキャッチフレーズで知られている。学習プロセスによって見つけ出されたクラスタは、例えば、多くのインターネットユーザの典型的な行動を反映することができる。学習プロセスによって、例えば、あるクラスのすべての訪問者、または学習プロセスによって見つけ出されたクラスタに割り当てられたすべての訪問者は、例えば1分以上はセッションに留まらず、たいていページを呼び出すだけであるという認識が可能になる。
ウェブサイト使用についての統計の把握、またはウェブトラフィックの分析は、今日ではウェブマイニングというキャッチフレーズで知られている。学習プロセスによって見つけ出されたクラスタは、例えば、多くのインターネットユーザの典型的な行動を反映することができる。学習プロセスによって、例えば、あるクラスのすべての訪問者、または学習プロセスによって見つけ出されたクラスタに割り当てられたすべての訪問者は、例えば1分以上はセッションに留まらず、たいていページを呼び出すだけであるという認識が可能になる。
フリーテキスト検索(freetext search)を介して分析中のウェブサイトへやって来るウェブサイト訪問者に関しても、統計的情報を求めるようにしてもよい。これらユーザの多くは、例えば、1つの文書だけしか要求しない。これらのユーザは、例えば、たいていはフリーウェアおよびハードウェアの分野の文書について問い合わせるかも知れない。学習プロセスは、検索エンジンからやって来た訪問者のさまざまなクラスタへの割当てを求めることができる。その際、幾つかのクラスタはすでにほぼ排除されている。ただし、他のクラスタは比較的に高い重みを有している可能性がある。
この文書では、以下の刊行物が引用されている。
[1] Sufficient, Complete, Ancillary Statistics, 2001年8月28日、下記のイン
ターネットアドレスにて入手
http://www.math.uah.edu/stat/point/point6.html
[2] B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM for Large Data
bases. Technical Report MSR-TR-99-31, Microsoft Research, May, 1999 (R
evised February, 2001), 2001年11月14日、下記のインターネットアド
レスにて入手
http://www.research.microsoft.com/~heckerman/
[3] D. Heckerman, A Tutorial on Learning With Bayesian Networks,2002年
3月18日、下記のftpアドレスにて入手
ftp://ftp.microsoft.com/pub/tr/tr-95-06.pdf
[4] David Maxwell Chickering and David Heckerman,2002年3月18日、下
記のインターネットアドレスにて入手
http://www.research.microsoft.com/scripts/pubs/view.asp? TR ID=MSR-TR-20
00-15
[5] M. A. Tanner, Tools for Statistical Inference, Springer, New York, 1996
[1] Sufficient, Complete, Ancillary Statistics, 2001年8月28日、下記のイン
ターネットアドレスにて入手
http://www.math.uah.edu/stat/point/point6.html
[2] B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM for Large Data
bases. Technical Report MSR-TR-99-31, Microsoft Research, May, 1999 (R
evised February, 2001), 2001年11月14日、下記のインターネットアド
レスにて入手
http://www.research.microsoft.com/~heckerman/
[3] D. Heckerman, A Tutorial on Learning With Bayesian Networks,2002年
3月18日、下記のftpアドレスにて入手
ftp://ftp.microsoft.com/pub/tr/tr-95-06.pdf
[4] David Maxwell Chickering and David Heckerman,2002年3月18日、下
記のインターネットアドレスにて入手
http://www.research.microsoft.com/scripts/pubs/view.asp? TR ID=MSR-TR-20
00-15
[5] M. A. Tanner, Tools for Statistical Inference, Springer, New York, 1996
Claims (15)
- 与えられたデータに存在する確率分布(1)を求めるための方法において、
選択可能なクラスへの帰属確率を予め設定可能な値(A)までのみ反復手続きにおいて計算し、
選択可能な値(B)を下回る帰属確率を有するクラスは反復手続きにおいて以降使用しない、ことを特徴とする与えられたデータに存在する確率分布を求めるための方法。 - 前記予め設定可能な値(A)はゼロである、請求項1記載の方法。
- 前記与えられたデータはクラスタを形成する、請求項1または2記載の方法。
- 前記反復手続きは期待値最大化アルゴリズムを含んでいる、請求項1から3のいずれか1項記載の方法。
- 確率因数から積(3)を計算する、請求項4記載の方法。
- 前記積の因数にほぼ0(A)の選択可能な値が現れるとすぐに、前記積の計算を中断する、請求項5記載の方法。
- データ内で稀にしか現れない変数に属する因数が最初に処理されるように、計算すべき因数のシーケンスを選択する、請求項4または5記載の方法。
- 変数が出現頻度に従ってリスト内で順序づけされるように、前記積の形成に先行して、稀にしか現れない値を順序づけされたリスト(1a)に格納する、請求項7記載の方法。
- 確率表の対数表示を使用する、請求項1から8のいずれか1項記載の方法。
- ゼロ以外の要素のみを含んだリストを用いた確率表の疎な表現を使用する、請求項1から9のいずれか1項記載の方法。
- 十分統計量を計算する、請求項1から10のいずれか1項記載の方法。
- 十分統計量を計算する際に、ゼロ以外の重みを有するクラスタのみを考慮する、請求項11記載の方法。
- ゼロ以外の重みを有するクラスタをリストに格納する、請求項1から8のいずれか1項記載の方法。
- 期待値最大化学習プロセスにおいて使用され、
期待値最大化学習プロセスにおいて、あるデータポイントに関してクラスタがゼロの事後重みを受け取った場合、前記データポイントに対する後のすべてのステップにおいて、前記クラスタはゼロ重みを保持し、前記クラスタは後のすべてのEMステップにおいてもはや考慮する必要がない、請求項1から9のいずれか1項記載の方法。 - 各データポイントに関して、ゼロ以外の重みを有するクラスタへのレファレンスのリストを格納する、請求項13記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10233609A DE10233609A1 (de) | 2002-07-24 | 2002-07-24 | Verfahren zur Ermittlung einer in vorgegebenen Daten vorhandenen Wahrscheinlichkeitsverteilung |
PCT/DE2003/002484 WO2004017224A2 (de) | 2002-07-24 | 2003-07-23 | Verfahren zur ermittlung einer in vorgegebenen daten vorhandenen wahrscheinlichkeitsverteilung |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005527923A true JP2005527923A (ja) | 2005-09-15 |
Family
ID=30469060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004528430A Pending JP2005527923A (ja) | 2002-07-24 | 2003-07-23 | 与えられたデータに存在する確率分布を求めるための方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040249488A1 (ja) |
EP (1) | EP1627324A1 (ja) |
JP (1) | JP2005527923A (ja) |
AU (1) | AU2003260245A1 (ja) |
DE (1) | DE10233609A1 (ja) |
WO (1) | WO2004017224A2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002101581A2 (de) | 2001-06-08 | 2002-12-19 | Siemens Aktiengesellschaft | Statistische modelle zur performanzsteigerung von datenbankoperationen |
CN103116571B (zh) * | 2013-03-14 | 2016-03-02 | 米新江 | 一种确定多个对象权重的方法 |
US10599953B2 (en) * | 2014-08-27 | 2020-03-24 | Verint Americas Inc. | Method and system for generating and correcting classification models |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583500A (en) * | 1993-02-10 | 1996-12-10 | Ricoh Corporation | Method and apparatus for parallel encoding and decoding of data |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
US6385172B1 (en) * | 1999-03-19 | 2002-05-07 | Lucent Technologies Inc. | Administrative weight assignment for enhanced network operation |
US6694301B1 (en) * | 2000-03-31 | 2004-02-17 | Microsoft Corporation | Goal-oriented clustering |
US6922660B2 (en) * | 2000-12-01 | 2005-07-26 | Microsoft Corporation | Determining near-optimal block size for incremental-type expectation maximization (EM) algorithms |
US20030028564A1 (en) * | 2000-12-19 | 2003-02-06 | Lingomotors, Inc. | Natural language method and system for matching and ranking documents in terms of semantic relatedness |
US7003158B1 (en) * | 2002-02-14 | 2006-02-21 | Microsoft Corporation | Handwriting recognition with mixtures of Bayesian networks |
US6988107B2 (en) * | 2002-06-28 | 2006-01-17 | Microsoft Corporation | Reducing and controlling sizes of model-based recognizers |
US7133811B2 (en) * | 2002-10-15 | 2006-11-07 | Microsoft Corporation | Staged mixture modeling |
US7184591B2 (en) * | 2003-05-21 | 2007-02-27 | Microsoft Corporation | Systems and methods for adaptive handwriting recognition |
US7225200B2 (en) * | 2004-04-14 | 2007-05-29 | Microsoft Corporation | Automatic data perspective generation for a target variable |
-
2002
- 2002-07-24 DE DE10233609A patent/DE10233609A1/de not_active Withdrawn
-
2003
- 2003-07-23 WO PCT/DE2003/002484 patent/WO2004017224A2/de not_active Application Discontinuation
- 2003-07-23 US US10/489,366 patent/US20040249488A1/en not_active Abandoned
- 2003-07-23 EP EP03787314A patent/EP1627324A1/de not_active Withdrawn
- 2003-07-23 AU AU2003260245A patent/AU2003260245A1/en not_active Abandoned
- 2003-07-23 JP JP2004528430A patent/JP2005527923A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20040249488A1 (en) | 2004-12-09 |
AU2003260245A1 (en) | 2004-03-03 |
DE10233609A1 (de) | 2004-02-19 |
EP1627324A1 (de) | 2006-02-22 |
WO2004017224A2 (de) | 2004-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sofaer et al. | The area under the precision‐recall curve as a performance metric for rare binary events | |
US8166155B1 (en) | System and method for website experimentation | |
US8364618B1 (en) | Large scale machine learning systems and methods | |
Agarwal et al. | Statistical methods for recommender systems | |
EP1308870A2 (en) | User profile classification by web usage analysis | |
US20020184139A1 (en) | System and process for automatically providing fast recommendations using local probability distributions | |
WO2021135562A1 (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
US5787424A (en) | Process and system for recursive document retrieval | |
CN102262647A (zh) | 信息处理装置、信息处理方法和程序 | |
Sage et al. | Tree aggregation for random forest class probability estimation | |
CN110727943B (zh) | 一种入侵检测方法及装置 | |
CN113011471A (zh) | 一种社交群体的划分方法、划分系统及相关装置 | |
US7240039B2 (en) | System and method for combining valuations of multiple evaluators | |
CN112819523B (zh) | 结合内/外积特征交互和贝叶斯神经网络的营销预测方法 | |
CN114610865A (zh) | 召回文本推荐方法、装置、设备及存储介质 | |
US11531845B1 (en) | Bias mitigating machine learning training system | |
CN115455280A (zh) | 一种推荐列表确定方法和服务器 | |
KR102368043B1 (ko) | 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법 | |
Gasmi et al. | Context-aware based evolutionary collaborative filtering algorithm | |
JP2005527923A (ja) | 与えられたデータに存在する確率分布を求めるための方法 | |
CN110727867A (zh) | 一种基于模糊机制的语义实体推荐方法 | |
CN115587875A (zh) | 基于均衡感知注意力网络的纺织品电商推荐方法及装置 | |
CN114677233A (zh) | 信息推荐方法及装置、存储介质及电子设备 | |
El Alami et al. | Improving Neighborhood-Based Collaborative Filtering by a Heuristic Approach and an Adjusted Similarity Measure. | |
Arora et al. | Investigating retrieval method selection with axiomatic features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061027 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070607 |