JP2007102795A

JP2007102795A - 文書クラスタリング

Info

Publication number: JP2007102795A
Application number: JP2006272458A
Authority: JP
Inventors: John C Handley; シーハンドレイジョン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-10-07
Filing date: 2006-10-04
Publication date: 2007-04-19
Anticipated expiration: 2026-10-04
Also published as: US20070083368A1; JP4885679B2; US7539653B2

Abstract

【課題】文書コレクションをクラスタリングする方法及びシステムを提供する。
【解決手段】観測値をクラスタリングするシステムは、プロセッサ及びプロセッサ読み取り可能な記憶媒体を備えることができる。前記プロセッサ読み取り可能な記憶媒体は、観測値をクラスタリングする方法を実行するための１以上のプログラム命令を含むことができる。複数のパラメータベクトル及び複数の観測値を受け取ることができる（ステップ１０５，１１０）。また、分布を決定することもできる（ステップ１１５）。次に、前記分布、前記パラメータベクトル、及び尤度関数に基づいて、観測値の最適なグループ分けを選択することができる（ステップ１３０）。
【選択図】図１Ａ

Description

本発明は、一般的に、データベースの作成、順序付け、及び管理に関する。

文書コレクションは、索引語頻度（term‐frequency）ベクトルを用いてモデル化できる。索引語頻度ベクトルは、複数の要素を有するベクトルであり、その各要素は、１つ以上の文書コレクションに出現するある特定の語と対応付けられる。１つの文書コレクションについて、各要素は、文書コレクション内のその要素と対応付けられる語の出現回数を集計するために用いられる。コーパス（corpus）から文書コレクションを生成する従来の方法は、特許文献１に記載される。

索引語頻度ベクトルは、高次元ベクトル空間におけるベクトルとして扱われてきた。しかしながら、非特許文献１によって、高次元ランダムベクトルのクラスタリングにおける数学的困難性が明らかになった。その結果、索引語頻度ベクトルを経験分布として、又は多項式分布の結果として扱う情報理論的方法が開発されてきた。

米国特許第５４４２７７８号明細書ベイヤー（K. S. Beyer）、ゴールドスタイン（J. Goldstein）、ラマクリシュナン（R. Ramakrishnan）、及びシャフト（U. Shaft），「いつ『最近傍』は有意義か？（When Is ‘Nearest Neighbor’ Meaningful?）」、（イスラエル）、エルサレム、データベース理論国際会議予稿集（Proceedings 7th International Conference on Database Theory (ICDT’99)）、１９９９年、第７巻、ｐ．２１７−２３５

時間及びトピックに関して近接な文書が同一クラスタに現れるような文書コレクションに文書をグループ化する方法及びシステムが必要とされている。

時間順の文書クラスタを最適にグループ分けする方法及びシステムが必要とされている。

さらに、グループ分けを記述するのに用いられるパラメータの数に基づいて、時間順の文書クラスタを最適にグループ分けする方法及びシステムが必要とされている。

本発明は、上記課題の１以上を解決することを目的とする。

文書コレクションは、索引語頻度ベクトルとしてモデル化できる。索引語頻度ベクトルは、さらに、多項式分布、ベルヌーイ分布、又は他の分布関数の結果としてモデル化できる。統計的に区別できない分布を有する２つの文書コレクションは、同じトピックを有するとみなすことができる。一連の文書コレクションが与えられると、その一連の文書コレクションについて可能なすべてのグループ分けを考慮することができる。各グループ分けについて、赤池情報量基準（Akaike’s Information Criterion，ＡＩＣ）などの罰則付き尤度関数（penalized likelihood function）を計算し、グループ分けのランク付けに用いることができる。

１つの態様では、観測値をクラスタリングするためのシステムは、処理装置と、処理装置により読み取り可能な記憶媒体と、を備えることができる。前記処理装置により読み取り可能な記憶媒体は、観測値をクラスタリングする方法を実行するための１以上のプログラム命令を含むことができる。前記方法は、複数のパラメータベクトルを受け取るステップと、分布を決定するステップと、複数の観測値を受け取るステップと、前記分布、前記パラメータベクトル、及び尤度関数に基づいて前記観測値の最適なグループ分けを選択するステップと、を含むことができる。

１つの態様では、最適なグループ分けを選択するステップは、前記観測値の可能なグループ分けのそれぞれについて、各セグメントについて最大尤度パラメータベクトルを決定するステップと、前記可能なグループ分けのそれぞれについて、少なくとも複数の尤度に基づく前記尤度関数を用いて罰則付き尤度値を計算するステップと、最適なグループ分けを選択するステップと、を実行するための１以上のプログラム命令を含む。前記最適なグループ分けは、最小の罰則付き尤度値を有するグループ分けであってよい。罰則付き尤度値は、例えば、対数尤度を乗じた負数とパラメータ数に応じて増加する正数との和に等しくてよい。各グループ分けは、１つ以上のセグメントを含むことができ、各セグメントは、１つ以上の観測値を含むことができる。前記最大尤度パラメータベクトルは、前記セグメント内の各観測値の分布の積を最大化するパラメータベクトルであってよい。各尤度は、その観測値を含むセグメントについての最大尤度パラメータベクトルに関連する、各観測値の分布を含むことができる。

他の１つの態様において、最適なグループ分けを選択するステップは、１つ以上の観測値を含む可能なセグメントそれぞれについて、最大対数尤度値を決定するステップと、１から観測値の個数までの範囲にある、可能なセグメント数のそれぞれについて、そのセグメントの個数を有する１以上のグループ分けから最適な下位グループ分けを決定するステップと、可能なセグメント数のそれぞれについて、そのセグメント数を有する最適な下位グループ分けについての前記尤度関数を用いて罰則付き尤度値を計算するステップと、最適なグループ分けを選択するステップと、を実行するための１以上のプログラム命令を含む。最大対数尤度値は、セグメント内の各観測値についての分布の対数の和の最大を含むことができる。最適な下位グループ分けは、１以上の対数尤度値の和の最大値を有するグループ分けを含むことができる。各対数尤度値は、ある観測値を含むセグメントのパラメータベクトルに関して、その観測値の前記分布の対数を含むことができる。最適なグループ分けは、最小の罰則付き尤度値を有する、最適な下位グループ分けであってよい。

１つの態様では、観測値をクラスタリングする方法は、複数のパラメータベクトルを受け取るステップと、分布を決定するステップと、複数の観測値を受け取るステップと、前記分布、前記パラメータベクトル、及び尤度関数に基づいて前記観測値の最適なグループ分けを選択するステップと、を含むことができる。

ここに記載する実施形態の態様、特徴、利益、及び利点は、後述の記載、添付された請求項、及び添付された図面に関して明らかになるだろう。

文書コレクションは、文書の分類であってよい。文書コレクションの集合は、各文書コレクションが重複しない時間帯と関連する文書を含む場合、「時間依存」であるとみなすことができる。例えば、文書コレクションの集合は、各文書コレクションが、その特定の文書コレクションについて１ヶ月間に報告された１以上のサービスログと関連する場合、時間依存であるとみなすことができる。時間依存の文書コレクションは、最も古いものから最も新しいものに順序付けられ、「時間順」の文書コレクションの集合を生成することができる。

時間順の文書コレクションのクラスタリングは、複数の単語出現確率を決定することによって実行できる。これらの単語出現確率は、例えば、多項式分布で表現される。したがって、各文書コレクションは、未知の、しかし、推定可能な、パラメータを有する分布の観測値であって良い。他の１つの実施形態では、ベルヌーイ分布又は他の分布を用いて文書コレクションを表現する。パラメータは、最大尤度アルゴリズムを用いて推定できる。文書コレクションが統計的に互いに独立であると仮定すると、一連の文書コレクションの尤度は、個々の文書コレクションの尤度の積であってよい。

図１Ａは、１つの実施形態による、文書クラスタを決定するための好適な処理のフロー図を示す。複数のパラメータベクトル（ステップ１０５）及び複数の観測値（ステップ１１０）をそれぞれ取得できる。各パラメータベクトルは、複数のパラメータを含むことができる。１つの実施形態では、観測値は、ステップ１１０において、時間順に受け取ることができる。各観測値は、例えば、文書クラスタから生成されたものであってよい。分布もステップ１１５で決定することができる。

例えば、１つの実施形態は、ｎ＝５の異なるパラメータベクトル

を有する分布を含むことができる。ここで、各

は、Ｋ個のパラメータを有するパラメータベクトルである。この実施形態は、さらに、時間順に発生する５個の独立観測値ベクトル

を含むことができる。

の最大尤度推定は、

であることができる。赤池情報量基準（ＡＩＣ）などの罰則付き尤度関数を、単一の観測値ベクトル

について計算することができる。例えば、

である。これは、推定パラメータの数によって罰則を付けられた対数尤度であるとみなすことができる。

１つの実施形態では、罰則付き尤度関数は、対数尤度に負数を乗じ、その結果に正の罰則を加算することを含むことができる。このような実施形態では、最適モデルは、パラメータ値について最大尤度推定が用いられる場合に、罰則付き尤度関数についての最小値を有するモデルだろう。ＡＩＣ以外の罰則付き尤度関数はベイズ情報量基準（Bayesian Information Criterion）、最小記述長（Minimum Description Length）、及びＡＩＣの変形を含むことができる。このＡＩＣの変形は、小さなサンプルサイズ又は基礎となる確率モデルｆによる偏差を修正する。ここで用いられるように、罰則付き尤度関数は、任意の負数を対数尤度に乗じた、尤度関数の対数の関数と、パラメータの数に従って増加する正の項と、の加算を含むことができる。

可能な２^Ｎ−１個のグループ分け（すなわち、５つの分布について１６個の可能なグループ分け）は、次に、データのために考慮することができる。可能な２^Ｎ−１個のグループ分けが存在することを示すために、次のようなインデックスの順序付け及び可能な区切りの組み合わせを考えることができる。
［１ｄ_１２ｄ_２３ｄ_３．．．ｄ_Ｎ−１Ｎ］
ここで、区切り又は仕切りがｉとｉ−１との間に存在するならｄ_ｉ＝１であり、区切り又は仕切りがｉとｉ−１との間に存在しないならｄ_ｉ＝０である。この順序付けは、Ｎ個の順序付けられた要素の、順序付けられたグループ分けのすべてを列挙するために用いることができる。したがって、２^Ｎ−１個の二値ベクトル（ｄ_１，．．．，ｄ_Ｎ−１）が存在し、よって２^Ｎ−１個の可能なグループ分けが存在することを簡単に示すことができる。

パラメータベクトル、観測値、及び分布を受け取った後、罰則付き尤度関数を用いて最適なグループ分けを決定することができる。１つの実施形態では、グループ分けの各セグメントについての最大尤度推定を計算できる（ステップ１２０）。次に、グループ分けの各セグメントについての最大尤度推定に基づいて、各グループ分けについての罰則付き尤度関数を計算できる（ステップ１２５）。罰則付き尤度関数の最小値を有するグループ分けを、最適なグループ分けとして選択できる（ステップ１３０）。これらのステップの動作は、２つの好適なグループ分けに関連して、後にさらに詳述する。

例えば、第１グループ分けは、すべてのパラメータが同じ値を有すると仮定することができる（すなわち、

）。第１グループ分けの最大尤度パラメータは、

によって計算できる。したがって、このグループ分けのＡＩＣは、

によって計算できる。Ｋ個の推定可能なパラメータのみを用いることができる。これは、各分布が、Ｋ個のパラメータを含む同じパラメータベクトルを有するからである（すなわち、

）。

第２グループ分け［１２］［３４５］は、次のパラメータの関係を有することができる：

及び

。第２グループ分けについての対応する最大尤度パラメータは、

及び、

によって計算できる。第２グループ分けのＡＩＣは、

によって計算できる。ここで、２Ｋ個の推定可能なパラメータが必要になるだろう。これは、各分布が、それぞれＫ個のパラメータを有する２つのパラメータベクトル（すなわち、

及び

）のうちの１つを有するからである。

最大尤度パラメータ及びＡＩＣは、［１２３４５］についての、次の１６の時間順のグループ分けのそれぞれについて計算できる。
１つのセグメントを有するグループ分け：［１２３４５］
２つのセグメントを有するグループ分け：［１２３４］［５］，［１２３］［４５］，［１２］［３４５］，及び［１］［２３４５］
３つのセグメントを有するグループ分け：［１２３］［４］［５］，［１２］［３４］［５］，［１２］［３］［４５］，［１］［２３４］［５］，［１］［２３］［４５］，及び［１］［２］［３４５］
４つのセグメントを有するグループ分け：［１２］［３］［４］［５］，［１］［２３］［４］［５］，［１］［２］［３４］［５］，及び［１］［２］［３］［４５］
５つのセグメントを有するグループ分け：［１］［２］［３］［４］［５］
最小のＡＩＣを有するグループ分けが、データを最もよく表すグループ分けとして返されるだろう。

多項式モデルについてのＡＩＣの計算は、以下のように実行できるだろう。この多項式モデルは、多項式観測

の系列を有し、ここで、各

は、総数ｎ_ｉ、

、を含む。完全なモデルでは、各多項式観測は、それ自身のＫ−１個のパラメータ集合：

又は対応する対数尤度：

を備えることができる。パラメータの最大尤度推定は、

であってよい。したがって、飽和した尤度（saturated likelihood）は、値：

を有することができる。すると、このモデルのＡＩＣは、

として計算できる。ベクトル記述では、ＡＩＣは、

として表すことができる。

多項式観測の系列についての順序付けられたグループ分けは、次に、対応するＡＩＣに従ってランク付けされる（ここで、最小のＡＩＣは、最も望ましいグループ分けを表すだろう）。例えば、

であるグループ分けについて、このパラメータの最大尤度推定は、次のように表すことができる。

Ｎ＝５であり、かつ、グループ分けが［１２３］［４５］である場合、最大尤度推定での対数尤度関数及びＡＩＣは、

として計算できる。ここで、区間［１２３４５］は、‘２’個の区間［１２３］及び［４５］にグループ分けされたので、ＡＩＣの計算における丸括弧（）内の‘２’を含むことができる。このグループ分けについての対数尤度関数を簡略化すると、次のような結果になるだろう。

最小のＡＩＣを有するグループ分けは、そのデータを最もよく説明するグループ分けであるだろう。例えば、グループ分け［１２３］［４５］が最小のＡＩＣを有するグループ分けである場合、このグループ分けは、観測（ベクトル）１、２、及び３が同じ基礎分布を共有し、観測（ベクトル）４及び５が同じ基礎分布を共有することを意味すると解釈できる。これは、最初の３つの観測が、同じトピックを共有する（すなわち、文書コレクションが統計的に区別可能でない）ことを意味するだろう。最後の２つの観測が同じトピックを共有すると判断することもできる。さらに、観測１、２、及び３の分布は、観測４及び５の分布と異なると判定することができる。これらの観測が文書コレクションを表す場合、文書コレクション３と文書コレクション４との間でトピックの変更が生じたと判断することができる。

次に、任意のトピック抽出アルゴリズムを用いた文書コレクションのクラスタに基づいて、クラスタトピックを決定することができる（ステップ１３５）。

上述の実施形態では、２^Ｎ−１通りのグループ分けを調べ、したがって、グループ分けに関する値を計算するのにＯ（２^Ｎ）時間が要求される。他の実施形態では、時系列の独立した観測の最良のＡＩＣのグループ分けは、Ｏ（Ｎ^３）時間で計算できる。ここで、Ｎは、系列内の観測の数である。

図１Ｂは、１つの実施形態による、文書クラスタを決定するための第２の好適な処理のフロー図を示す。図１Ａと同様に、複数のパラメータベクトル（ステップ１０５）及び複数の観測値（ステップ１１０）をそれぞれ取得できる。各パラメータベクトルは、複数のパラメータを含むことができる。１つの実施形態では、観測値は、ステップ１１０において、時間順に受け取ることができる。各観測値は、例えば、文書クラスタから生成されたものであってよい。分布もステップ１１５で決定することができる。

確率分布関数

を有する、ランダム変数の順序付けられた（通常は多変数の）観測

について、その系列を一様な区間に区切ることは、グループ分けの集合をあてはめて、最小の罰則付き尤度関数、例えばＡＩＣ、を有するグループ分けを選択することで実行できる。（上述の）尤度関数Ｌは、一般に、［１，．．．，ｉ_１］［ｉ_１＋１，．．．，ｉ_２］．．．［ｉ_ｋ＋１，．．．，Ｎ］の形式の順序付けられたグループ分けについて、次のように定義できる。

このグループ分けのＡＩＣは、次のように計算できる。

ここで、上記のグループ分けにはｋ＋１個のセグメントが存在し、

には

個のパラメータが存在する。

１≦ｉ≦ｊ≦Ｎについて、関数

を定義することができ（ステップ１４０）、可能なセグメントのそれぞれについて最大尤度対数を記憶できる。Ｔを初期化した後、ｋ個の区切りを有する各グループ分けについて最良のＡＩＣを計算することができる（ステップ１４５）。Ｓ［ｋ；ｉ，ｊ］．ｌｉｓｔを用いて、ｋ個の区切りを有する最良のグループ分けの各セグメントの左側の端点を記憶することができる。次に、例えば以下のアルゴリズムを用いて、最適なグループ分けを決定する方法を実行することができる（ステップ１４５）。

最適なグループ分けのセグメントの数は、次のように計算できる。

また、最適なグループ分けは、Ｓ［Ｍ−１；１，Ｎ］．ｌｉｓｔとして表現できる（ステップ１５０）。次に、トピック抽出アルゴリズムを用いた文書コレクションのクラスタに基づいて、クラスタトピックを決定することができる（ステップ１３５）。

上述の方法の好適な適用例は、顧客サービスログの系列に関連して実行された。この例では、各顧客サービスログは１ヶ月の期間に関連付けられ、サービスログは時間順にグループ化された。この例では、ある特定のログは、｛２００４年２月、２００４年３月、２００４年４月、２００４年５月、２００４年６月、２００４年７月、２００４年８月、２００４年９月、２００４年１０月、２００４年１１月、２００４年１２月、２００５年１月｝であった。各サービスログは、索引語頻度ベクトルとしてモデル化され、索引語頻度ベクトルには、各索引語の出現回数が集計される。

最初に記載したＡＩＣランク付け法が適用され、結果として次のクラスタが得られた。
｛２００４年２月、２００４年３月、２００４年４月、２００４年５月｝｛２００４年６月、２００４年７月｝｛２００４年８月｝｛２００４年９月、２００４年１０月｝｛２００４年１１月、２００４年１２月、２００５年１月｝
コレクションが適切に定義されたかどうかを判定するために、各クラスタについて最もよく現れる単語が調べられた。各クラスタについて、最も確からしい単語は、次のものであった。
｛２００４年２月、２００４年３月、２００４年４月、２００４年５月｝：｛delete, dfe, jam, end, tracking, advised, cdrom, action, diagnostics｝；
｛２００４年６月、２００４年７月｝：｛jul, duplex, long, feed, sided, default, ftp, controller, trays, upgraded｝；
｛２００４年８月｝：｛aug, upgraded, digipath, development, start, unassigned, currently, onsite, sets, cc｝；
｛２００４年９月、２００４年１０月｝：｛rotation, dhl, onsite, business, ll, controller, po, sep, cc, successful｝；
｛２００４年１１月、２００４年１２月、２００５年１月｝：｛jan, client, implemented, dec, nov, start, shift, option, board, recreate｝

月名の省略語（jul、aug、sep、jan、dec、novなど）の多くは、適切なクラスタに含まれていた（すなわち、クラスタは、その月名の省略語に対応する月を含む）。これは、クラスタリングが説明可能であることを示す。さらに、月名を示す単語を取り除いても、クラスタに変化はなかった。これは、この例において、１つの又は数少ない単語がクラスタリングを支配しなかったことを示す。

図２は、１つの実施形態によるプログラム命令を含む、又は実現するために利用できる好適な内部ハードウェアのブロック図である。図２を参照すると、バス２２８は、主要な情報の通路として機能し、ハードウェアの図示される他の要素を相互に接続する。ＣＰＵ２０２は、システムの中央演算装置（Central Processing Unit）であり、プログラムを実行するために必要な計算及び論理演算を実行する。ＲＯＭ（Read Only Memory）２１８及びＲＡＭ（Random Access Memory）２２０は、好適な記憶装置を構成する。

ディスクコントローラ２０４は、１つ以上のオプションのディスクドライブとシステムバス２２８との間のインターフェースである。これらのディスクドライブは、外部又は内部フロッピー（登録商標）ディスクドライブ２１０、ＣＤＲＯＭドライブ２０６、又は、外部又は内部ハードドライブ２０８などである。前述のとおり、これらの様々なディスクドライブ及びディスクコントローラは、オプションで取り付けられる装置である。

プログラム命令は、ＲＯＭ２１８及び／又はＲＡＭ２２０に記憶することができる。随意に、プログラム命令は、プロセッサ読み取り可能な媒体又はキャリア、例えばフロッピー（登録商標）ディスク又はディジタルディスク、又は他の記憶媒体、通信信号又は搬送波に記憶することができる。

最適な表示インターフェース２２２は、バス２２８からの情報を、音声、画像、又は文字の形式で表示２２４に表示することを可能にできる。外部装置との通信は、通信ポート２２６を用いてオプションで発生させることができる。好適な通信ポート２２６は、例えばインターネット又はイントラネットなどの通信ネットワークに接続されるだろう。

コンピュータ型の要素及びこれらと同等のものに加えて、ハードウェアは、インターフェース２１２を含むこともできる。インターフェース２１２は、入力装置からのデータの受け取りを可能にする。入力装置は、例えば、キーボード２１４又はリモコン（remote control）、ポインタ、及び／又はジョイスティックなどの他の入力装置２１６である。

マルチプロセッサ（multiprocessor）システムをオプションで用いて、ここで記載した動作の１つ、一部、又は全てを実行することができる。同様に、埋め込みシステムを随意に用いて、ここで記載した動作の１つ、一部、又は全てを実行することができる。

１つの実施形態による文書クラスタを決定する好適な処理を示すフロー図である。１つの実施形態による文書クラスタを決定する好適な処理を示すフロー図である。１つの実施形態によるプログラム命令を含む、又は実現する好適なハードウェアを示すブロック図である。

符号の説明

２２８バス。

Claims

複数の観測値をクラスタリングする方法であって、
複数のパラメータベクトルを受け取るステップと、
分布を決定するステップと、
複数の観測値を受け取るステップと、
前記分布、前記パラメータベクトル、及び尤度関数に基づいて、前記観測値の最適なグループ分けを選択するステップと、
を備えることを特徴とする方法。
請求項１に記載の方法において、
前記観測値に対して可能なグループ分けはそれぞれ１つ以上のセグメントを有し、各セグメントは１つ以上の観測値を有し、
前記最適なグループ分けを選択するステップは、
前記可能なグループ分けのそれぞれについて、各セグメントについて最大尤度パラメータベクトルを決定するステップと、
前記可能なグループ分けのそれぞれについて、少なくとも複数の尤度に基づく前記尤度関数を用いて罰則付き尤度値を計算するステップと、
最適なグループ分けを選択するステップと、
を含み、
前記最大尤度パラメータベクトルは前記各セグメント内の各観測値についての前記分布の積を最大化するパラメータベクトルであり、
前記少なくとも複数の尤度のそれぞれは、各観測値についてのその観測値を含むセグメントの前記最大尤度パラメータベクトルに関連する前記分布であり、
前記最適なグループ分けは、最小の罰則付き尤度値を有することを特徴とする方法。
請求項２に記載の方法において、さらに、
前記最適なグループ分けの各セグメントについてクラスタトピックを決定するステップを含むことを特徴とする方法。
請求項１に記載の方法において、最適なグループ分けを選択するステップは、
１以上の観測を含む可能なセグメントのそれぞれについて、最大対数尤度値を決定するステップと、
１から観測値の個数の範囲にある可能なセグメント数のそれぞれについて、そのセグメント数を有する１以上のグループ分けから最適な下位グループ分けを決定するステップと、
１から観測値の個数の範囲にある可能なセグメント数のそれぞれについて、そのセグメント数を有する前記最適な下位グループ分けについての前記尤度関数を用いて罰則付き尤度値を計算するステップと、
最小の罰則付き尤度値を有する前記最適な下位グループ分けを含む最適なグループ分けを選択するステップと、
前記可能なセグメントのそれぞれについての最大対数尤度値は、そのセグメントに含まれる各観測値についての分布の対数の和の最大値であり、
前記可能なセグメント数のそれぞれについての最適な下位グループ分けは、１以上の対数尤度値の和の最大値を有するグループ分けであり、
前記対数尤度値のそれぞれは、観測値の前記分布の対数であり、この観測値の前記分布は、この観測値を含むセグメントについてのパラメータベクトルに関連するものであることを特徴とする方法。