JP2005527923A

JP2005527923A - 与えられたデータに存在する確率分布を求めるための方法

Info

Publication number: JP2005527923A
Application number: JP2004528430A
Authority: JP
Inventors: ハフトミヒャエル; ホフマンライマー
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-07-24
Filing date: 2003-07-23
Publication date: 2005-09-15
Also published as: US20040249488A1; AU2003260245A1; DE10233609A1; EP1627324A1; WO2004017224A2

Abstract

本発明の要点は実質的に、統計モデルまたはクラスタリングモデルでの推論において、帰属度関数の項または条件付き確率表から形成される結果の形成は通常通りに行われるが、帰属度関数の因数に初めてゼロが生じるとすぐに、またはすでに第１のステップの後にクラスタに対してゼロ重みが求められるとすぐに、事後重みの以降の計算を中断することができることにある。反復学習プロセス（例えば、ＥＭ学習プロセス）において、所定のデータポイントに対するクラスタにゼロ重みが割り当てられた場合、このクラスタはこのデータポイントに対する後のすべてのステップにおいてもゼロ重みを保持するので、後のすべての学習ステップにおいても考慮しなくてよい。まだ許容されるクラスタまたは変数の状態をある学習ステップから次の学習ステップまで中間記憶するのに有効なデータ構造は指示される。
これにより、無関係なパラメータおよびデータの処理が有効に排除されることが保証される。それゆえ、関係のあるデータのみを考慮することにより、学習プロセスの迅速な進行が保証されるという利点が得られる。

Description

本発明は学習プロセスに基づいた統計モデルを形成する方法に関する。

インターネットにおけるトラフィックの増大により、インターネット上にウェブサイトを有している企業またはインターネット上でサービスを提供している企業は、顧客範囲の拡大を利用し、個々の顧客に関する情報を収集することができるようになった。電子的に行われる取引の多くは記録され、ユーザデータはファイルされる。したがって、その間、多くの企業はＣＲＭシステムを稼働させている。ＣＲＭシステムでは、顧客とのすべての遣り取りに関する情報が体系的に記録される。ウェブサイト上でのトラフィックまたはウェブサイトへのアクセスのログが保存され、そのプロセスはコールセンタで記録される。このため、しばしば、さまざまな種類の顧客固有情報を含んだ非常に大量のデータが発生することがある。

たしかにこれによって顧客に関する有益な情報が収集されるものの、データがしばしば圧倒的な量となるため、多大なコストをかけずには処理することができないという欠点が生じる。

この問題を解決するために、原則として統計的手法が、特に統計的な学習プロセスが適用される。この統計的学習プロセスは、例えばトレーニング期間後には、入力された変数をクラスに分類する能力を有する。新たに開発されたフィールドデータマイニングまたは機械学習は、とりわけ、このような学習プロセス（例えばクラスタリング方式のような）をさらに発展させ、実用に関連した問題に適用することを目的としている。

さらに、多くのデータマイニング法は体系的にインターネットからの情報の取扱いに適合させることができる。これらの方法では、大量のデータが、データ量の著しく低減された有益な情報に変換される。このような方法においては、例えば統計的依存関係の構造または繰り返しパターンをデータから読み取るために、多くの統計的学習プロセスを使用することも可能である。

しかし、これらの方法は、有益な成果をもたらすものの、数値的に非常にコストがかかるという欠点を有している。この欠点は、例えば顧客の年齢または収入などの情報の欠落によってデータ処理が複雑化し、部分的に、供給された情報が無効になることでさらに深刻化する。このような欠落した情報に対する統計的に最適な取扱いは、今日のところ非常にコストがかかる。

情報を有意義に分類する別の方法は、例えばナイーブベイズネットワークを用いたクラスタモデルの形成である。ベイズネットワークは確率表によってパラメトライズされる。この表を最適化する際、通常すでに学習ステップの数ステップ後には弱点が生じるので、表には多くのゼロが記入される。それゆえ、疎な表（ＳｐａｒｓｅＴａｂｌｅｓ）が生じる。例えば統計的クラスタモデルの場合のように、学習プロセス中に表が絶え間なく変化するため、表の疎なコーディングは非常に不完全にしか利用され得ない。この場合、確率表におけるゼロ記入の反復出現が計算コストおよびメモリコストを不必要に上げてしまう。

こうした理由から、上記の統計的学習プロセスをより迅速かつより性能良くする必要がある。そこで、いわゆるＥＭ（ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｓａｔｉｏｎ（期待値最大化））学習プロセスが益々重要な意味を持ってくる。

ナイーブベイズクラスタモデルの場合にＥＭ学習プロセスを具体化するためには、一般に以下のような方法ステップが実施される。

ここで、Ｘ＝｛Ｘ_ｋ，ｋ＝１，…，Ｋ｝はＫ個の確率変数（例えば、データバンクのフィールドに対応させてもよい）の集合を表すものとする。変数の状態は小文字で表す。変数Ｘ_１は状態ｘ_１，１，ｘ_２，２…をとることができる。すなわち、Ｘ_１∈｛ｘ_１，ｉ，ｉ＝１，…，Ｌ_１｝。Ｌ_１は変数Ｘ_１の状態の個数である。（データバンクの）データレコード内のエントリは、すべての変数に対する値から成っている。ここで、Ｘ^π≡（ｘ_１ ^π，ｘ_２ ^π，ｘ_３ ^π，…）はπ番目のデータレコードを表す。π番目のデータレコードにおいて、変数Ｘ_１は状態ｘ_１ ^πにあり、変数Ｘ_２は状態ｘ_２ ^πにある等々。表はＭ個のエントリ、すなわち、｛ｘ^π，π＝１，…，Ｍ｝を有している。さらに、潜在変数またはクラスタ変数があり、ここではΩで表される。クラスタ変数の状態は｛ω_ｉ，ｉ＝１，…，Ｎ｝である。したがって、Ｎ個のクラスタが存在する。

統計クラスタリングモデルにおいては、Ｐ（Ω）は事前分布を表す；Ｐ（ω_ｉ）はｉ番目のクラスタの事前重みであり、Ｐ（Ｘ｜ω_ｉ）はｉ番目のクラスタの構造、またはｉ番目のクラスタ内の（データバンク内に含まれた）観察可能な量Ｘ＝｛Ｘ_ｋ，ｋ＝１，…，Ｋ｝の条件付き分布を表す。各クラスタの事前分布と条件付き分布とによって、共通の確率モデルがＸ∪ΩまたはＸ上でパラメトライズされる。

ベイズネットワークを用いた学習プロセスの一般的かつ広範囲にわたる検討は［２］に見いだせる。特に、データの部分的欠落の問題は［３，第１９頁］および［４］において検討されている。この学習プロセスの欠点は、疎な表（多くのゼロが記入された表）が処理され、それにより計算コストが比較的大きくなるにもかかわらず、判定すべきデータモデルに関する付加的な情報は得られないことである。

したがって、本発明の課題は、副産物としてさらなる不要な数値コストまたは計算コストを生じさせないように、確率表のゼロ記入を利用する方法を提供することである。

上記課題は請求項１に記載された特徴により解決される。本発明の有利な発展形態は従属請求項から得られる。

本発明の要点は実質的に、統計モデルまたはクラスタリングモデルでの推論において、帰属度関数の項または条件付き確率表から形成される結果の形成は通常通りに行われるが、帰属度関数の因数に初めてゼロが生じるとすぐに、またはすでに第１のステップの後にクラスタに対してゼロ重みが求められるとすぐに、事後重みの以降の計算を中断することができることにある。反復学習プロセス（例えば、ＥＭ学習プロセス）において、所定のデータポイントに対するクラスタにゼロ重みが割り当てられた場合、このクラスタはこのデータポイントに対する後のすべてのステップにおいてもゼロ重みを保持するので、後のすべての学習ステップにおいても考慮しなくてよい。

これにより、無関係なパラメータおよびデータの処理が有効に排除されることが保証される。それゆえ、関係のあるデータのみを考慮することにより、学習プロセスの迅速な進行が保証されるという利点が得られる。

より正確には、本発明の方法は以下のように進行する：すべての入力データポイントに対する帰属確率の事後分布の因数から成る総積の形成は上記推論ステップにおいて通常通りに実行されるが、第１の所定値、有利にはゼロまたはほぼゼロの値が総積の因数に現れるとすぐに、総積の形成は中断される。ＥＭ学習プロセスにおいて所定のデータポイントに対するクラスタに、上述のように選択された数に従った重み、有利にはゼロが割り当てられた場合、このクラスタはこのデータポイントに対する後のすべてのＥＭステップにおいて重みゼロを受け取る。それゆえ、例えば相応する結果が１つのＥＭステップから次のＥＭステップまで中間記憶され、重みゼロを有していないクラスタに対してのみ処理されるようにすることによって、余計な数値コストが有効に排除される。

ゼロ重みを有するクラスタがＥＭステップ内に現れた場合だけでなく、後のすべてのステップに現れた場合にも、特に推論ステップにおける積の形成の際に現れた場合に、処理を中断することによって、学習プロセスが全体として明らかに加速されるという利点が得られる。

与えられたデータに存在する確率分布を求める方法において、所定のクラスへの帰属確率が所定の値または値ゼロまたはほぼ０までのみ反復手続きによって計算され、選択された値を下回る帰属確率を有するクラスは反復手続きにおいてそれ以降使用されない。

与えられたデータがクラスタを形成するようにすると有利である。

反復手続きとして適切なのは、帰属度因数から積を計算する期待値最大化法である。

本方法の発展形態では、計算すべき因数のシーケンスは、稀にしか現れない変数の状態の因数が最初に処理されるように、選択される。また、積の形成に先行して、稀にしか現れない値を順序づけられたリストに格納し、変数がゼロの出現頻度に従ってリスト内で順序づけられるようにしてもよい。

さらに、確率表の対数表示を利用すると有利である。

さらに、例えば、ゼロ以外の要素のみを含むリストの形態で確率表の疎な表示（ＳｐａｒｓｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ）を利用すると有利である。

さらに、十分統計量を計算する際には、ゼロ以外の重みを有するクラスタのみが考慮される。

ゼロ以外の重みを有するクラスタをリストに格納してもよい。この場合、リストに格納されたデータは相応するクラスタへのポインタとなることができる。

本方法はさらに期待値最大化学習プロセスであってもよい。このプロセスでは、あるデータポイントに関して、クラスタがゼロの事後重みを受け取った場合、このクラスタはこのデータポイントに対するＥＭ法の後のすべてのステップにおいても重みゼロを保持するので、後のすべてのステップにおいてはこのクラスタを考慮しなくてよい。

本方法はゼロ以外の重みを有するクラスタに対してのみ実行されるようにしてもよい。

つぎに、実施例に基づいて本発明をより詳細に説明する。

図１は、請求項１に記載されている発明を実施するための図式を示しており、
図２は、変数の出現頻度に従って変数を再格納するための図式を示しており、
図３は、ゼロ以外の重みを保持しているクラスタのみが考慮されることを示している。

Ｉ．推論ステップにおける第１の実施例
ａ）．ゼロ値での中断を伴う総積の形成
図１には、推論ステップにおいて各クラスタω_ｉに対して、総積３の形成を実行するための図式が示されている。しかし、総積３の因数１に初めてゼロ２ｂが現れるとすぐに、総積３の形成は中断される（出口）。なお、因数１は、例えばメモリ、アレイ、またはポインタリストから読み出すことができる。ゼロ値が生じた場合、クラスタの有する事後重みはゼロに設定される。択一的に、積の因数のうちの少なくとも１つがゼロである否かをまず検査するようにしてもよい。その場合、総積を形成するためのすべての乗算は、すべての因数がゼロでない場合にのみ実行される。

これに対して、２ａで示されているように、総積の因数にゼロ値が現れない場合、積３の形成は通常通り続行され、次の因数１がメモリ、アレイ、またはポインタリストから読み出され、条件２を伴った積３のさらなる形成に使用される。
ｂ）．ゼロ値が出現した際に総積の形成を中断することの利点
推論ステップは必ずしもＥＭ学習プロセスの一部でなくてもよいので、この最適化は、推論ステップを必要とする他の識別及び予測方法においても特に重要な意味を持っている。例えば、顧客情報が手元にある顧客に対して、インターネット上で最も適した提供品を識別する際に、重要な意味を持っている。これを基にして、ターゲットを絞ったマーケティング戦略を策定することができる。このマーケティング戦略において、識別能力または分類能力は、例えば顧客に情報を送るような自動化された反応を生じさせる。
ｃ）．データ処理の加速に適したシーケンスの選択
図２には、本発明の方法の有利な発展形態が示されている。この発展形態では、２ａで示されているように積の因数がゼロである場合に、この因数が第１の因数のうちの１つと同じように高確率で非常に早く積の中に現れるように、巧妙にシーケンスが選択される。これにより、総積３の形成を非常に早期に中断することができる。その際、新たなシーケンス１ａの決定は、データ内での変数の状態の出現頻度に応じて行ってもよい。例えば、因数が非常に稀にしか生じない変数の状態に属している場合、この因数が最初に処理される。因数の処理順序は、変数の値を相応して順序づけられたリスト１ａに格納することによって、学習プロセスの前に決定してもよい。
ｄ）．表の対数表示
上記方法の計算コストをできるだけ制限するために、有利には、表の対数表示を用いて、例えばアンダーフローの問題が回避される。この機能によって、元のゼロ要素を正の値で置き換えることができる。これにより、ほぼゼロで互いに非常に僅かな距離しか異なっていない値のコストのかかる処理または分離がもはや必要なくなる。
ｅ）．十分統計量を計算する際の加算の増大の回避
学習プロセスに付け加えられた確率変数が所定のクラスタに対して低い帰属確率を有する場合、学習プロセスの実行中、多くのクラスタがゼロの事後重みを有する。その後のステップにおいて十分統計量の蓄積を加速させるために、このステップでは、ゼロ以外の重みを有するクラスタのみが考慮される。その際、本発明の学習プロセスの性能を高め、ゼロ以外のクラスタが、ゼロ以外の要素のみの格納を許可するリスト、アレイ、または類似のデータ構造内に割り振られ、記憶されるようにすると有利である。

ＩＩ．ＥＭ学習プロセスにおける第２の実施例
ａ）．データポイントに対してゼロの割り当てられたクラスタは考慮しない
とりわけ、この場合、ＥＭ学習プロセスにおいて、表にゼロが現れることによってどのクラスタがまだ許可され、どのクラスタがもはや許可されないのかが、学習プロセスの１つのステップから次のステップまで記憶される。第１の実施例では、ゼロとの乗算によりゼロの事後重みを得たクラスタは、数値コストを節約するために、以降のすべての計算から排除されたのに対して、本発明のこの実施例では、個々のデータポイントのクラスタ帰属度に関する中間結果（どのクラスタが既に排除またはまだ許容されているか）が、１つのＥＭステップから次のステップまで、付加的に必要とされるデータ構造に格納される。これは、あるデータポイントに対してＥＭステップにおいて重みゼロを得たクラスタは以降のすべてのステップにおいても重みゼロを得ることが示されるので、意味をなす。

図３には、１つのケースが具体的に示されている。このケースでは、ほぼゼロの確率２ａを有するデータポイント４がクラスタに割り当てられた場合、このクラスタを、データポイントのこの割当ての確率が再度計算される学習プロセスの次のステップ５ａ＋１において、再びすぐにゼロに設定することができる。しがたって、ＥＭステップ５ａにおいてデータポイントに対して２ａを介して重みゼロを受け取ったクラスタをさらに考慮する必要はなく、以降のすべてのＥＭステップ５ａ＋ｎにおいては、もはやこのクラスタが２ａを介して考慮されることはない。ただし、ここで、ｎは使用されたＥＭステップの数を表す（図示せず）。新たなクラスタへのデータポイントの帰属度の計算は４を介して再び継続することができる。クラスタへの帰属度がほぼゼロだがゼロではないデータポイント４は、次のＥＭステップ５ａ＋１において２ｂを介して計算が継続される。
ｂ）．関連クラスタへのレファレンスを有するリストを記憶する
各データポイントに対して、まず、このデータポイントに関してゼロ以外の重みを有する関連クラスタへのレファレンスを含んだリストまたは類似のデータ構造を記憶することができる。その際、総積の形成および十分統計量の蓄積の際のすべてのオペレーションまたは方法ステップにおいて、まだ許可されているないしは関連するクラスタに対してのみループが実行されることが保証される。

全体として、この実施例では、いずれにせよデータレコード内の各データポイントに関して、まだ許可されているクラスタが記憶される。

ＩＩＩ．別の実施例
この場合、すでに挙げた実施例の組合せを利用する。両方の実施例の組合せによって、推論ステップにおいてゼロ重みが生じた際の中断が可能となる。ただし、その後のステップにおいては、まだ許容されるクラスタだけが第２の実施例に従って考慮される。

これにより、全体的に最適化されたＥＭ学習プロセスが形成される。識別および予測方法に対するクラスタモデルの使用は一般的に行われているので、本発明の様式に従った最適化は特に有利で価値がある。

ＩＶ．本発明による方法を実行するための装置
１つまたはすべての実施例に従った本発明の方法は、原則的に適切な計算機およびメモリ装置によって実施されうる。この場合、計算機−メモリ装置は、上記の方法ステップを実行するコンピュータプログラムを備えていなければならない。このコンピュータプログラムは、例えばＣＤ−ＲＯＭのようなデータ媒体に格納されていてもよく、また他の計算機システムに転送し、実行してもよい。

上記計算機−メモリ装置の発展形態は入出力ユニットを付加した構成にある。この場合、入力ユニットは、センサ、検出器、入力キーボードまたはサーバを介して、考察しているシステムの状態の情報、例えばインターネットページへのアクセスの集合のような情報を計算装置、例えばメモリに伝送することができる。出力ユニットは、本発明の方法による処理の結果の信号を記憶するまたはスクリーンに表示するハードウェアから構成されている。自動的な電子的反応、例えば本発明の方法による評価に従って所定のＥメールを送信することも考えられる。

Ｖ．適用例
ウェブサイト使用についての統計の把握、またはウェブトラフィックの分析は、今日ではウェブマイニングというキャッチフレーズで知られている。学習プロセスによって見つけ出されたクラスタは、例えば、多くのインターネットユーザの典型的な行動を反映することができる。学習プロセスによって、例えば、あるクラスのすべての訪問者、または学習プロセスによって見つけ出されたクラスタに割り当てられたすべての訪問者は、例えば１分以上はセッションに留まらず、たいていページを呼び出すだけであるという認識が可能になる。

フリーテキスト検索（ｆｒｅｅｔｅｘｔｓｅａｒｃｈ）を介して分析中のウェブサイトへやって来るウェブサイト訪問者に関しても、統計的情報を求めるようにしてもよい。これらユーザの多くは、例えば、１つの文書だけしか要求しない。これらのユーザは、例えば、たいていはフリーウェアおよびハードウェアの分野の文書について問い合わせるかも知れない。学習プロセスは、検索エンジンからやって来た訪問者のさまざまなクラスタへの割当てを求めることができる。その際、幾つかのクラスタはすでにほぼ排除されている。ただし、他のクラスタは比較的に高い重みを有している可能性がある。

この文書では、以下の刊行物が引用されている。
［１］ Sufficient, Complete, Ancillary Statistics, ２００１年８月２８日、下記のイン
ターネットアドレスにて入手
http://www.math.uah.edu/stat/point/point6.html
［２］ B. Thiesson, C. Meek, and D. Heckerman. Accelerating EM for Large Data
bases. Technical Report MSR-TR-99-31, Microsoft Research, May, 1999 (R
evised February, 2001), ２００１年１１月１４日、下記のインターネットアド
レスにて入手
http://www.research.microsoft.com/~heckerman/
［３］ D. Heckerman, A Tutorial on Learning With Bayesian Networks,２００２年
３月１８日、下記のｆｔｐアドレスにて入手
ftp://ftp.microsoft.com/pub/tr/tr-95-06.pdf
［４］ David Maxwell Chickering and David Heckerman,２００２年３月１８日、下
記のインターネットアドレスにて入手
http://www.research.microsoft.com/scripts/pubs/view.asp? TR ID=MSR-TR-20
00-15
［５］ M. A. Tanner, Tools for Statistical Inference, Springer, New York, 1996

請求項１に記載されている発明を実施するための図式を示す。変数の出現頻度に従って変数を再格納するための図式を示す。ゼロ以外の重みを保持しているクラスタのみが考慮されることを示す。

Claims

与えられたデータに存在する確率分布（１）を求めるための方法において、
選択可能なクラスへの帰属確率を予め設定可能な値（Ａ）までのみ反復手続きにおいて計算し、
選択可能な値（Ｂ）を下回る帰属確率を有するクラスは反復手続きにおいて以降使用しない、ことを特徴とする与えられたデータに存在する確率分布を求めるための方法。
前記予め設定可能な値（Ａ）はゼロである、請求項１記載の方法。
前記与えられたデータはクラスタを形成する、請求項１または２記載の方法。
前記反復手続きは期待値最大化アルゴリズムを含んでいる、請求項１から３のいずれか１項記載の方法。
確率因数から積（３）を計算する、請求項４記載の方法。
前記積の因数にほぼ０（Ａ）の選択可能な値が現れるとすぐに、前記積の計算を中断する、請求項５記載の方法。
データ内で稀にしか現れない変数に属する因数が最初に処理されるように、計算すべき因数のシーケンスを選択する、請求項４または５記載の方法。
変数が出現頻度に従ってリスト内で順序づけされるように、前記積の形成に先行して、稀にしか現れない値を順序づけされたリスト（１ａ）に格納する、請求項７記載の方法。
確率表の対数表示を使用する、請求項１から８のいずれか１項記載の方法。
ゼロ以外の要素のみを含んだリストを用いた確率表の疎な表現を使用する、請求項１から９のいずれか１項記載の方法。
十分統計量を計算する、請求項１から１０のいずれか１項記載の方法。
十分統計量を計算する際に、ゼロ以外の重みを有するクラスタのみを考慮する、請求項１１記載の方法。
ゼロ以外の重みを有するクラスタをリストに格納する、請求項１から８のいずれか１項記載の方法。
期待値最大化学習プロセスにおいて使用され、
期待値最大化学習プロセスにおいて、あるデータポイントに関してクラスタがゼロの事後重みを受け取った場合、前記データポイントに対する後のすべてのステップにおいて、前記クラスタはゼロ重みを保持し、前記クラスタは後のすべてのＥＭステップにおいてもはや考慮する必要がない、請求項１から９のいずれか１項記載の方法。
各データポイントに関して、ゼロ以外の重みを有するクラスタへのレファレンスのリストを格納する、請求項１３記載の方法。