JP2007102795A - 文書クラスタリング - Google Patents

文書クラスタリング Download PDF

Info

Publication number
JP2007102795A
JP2007102795A JP2006272458A JP2006272458A JP2007102795A JP 2007102795 A JP2007102795 A JP 2007102795A JP 2006272458 A JP2006272458 A JP 2006272458A JP 2006272458 A JP2006272458 A JP 2006272458A JP 2007102795 A JP2007102795 A JP 2007102795A
Authority
JP
Japan
Prior art keywords
observations
grouping
likelihood
distribution
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006272458A
Other languages
English (en)
Other versions
JP4885679B2 (ja
Inventor
John C Handley
シー ハンドレイ ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2007102795A publication Critical patent/JP2007102795A/ja
Application granted granted Critical
Publication of JP4885679B2 publication Critical patent/JP4885679B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書コレクションをクラスタリングする方法及びシステムを提供する。
【解決手段】観測値をクラスタリングするシステムは、プロセッサ及びプロセッサ読み取り可能な記憶媒体を備えることができる。前記プロセッサ読み取り可能な記憶媒体は、観測値をクラスタリングする方法を実行するための1以上のプログラム命令を含むことができる。複数のパラメータベクトル及び複数の観測値を受け取ることができる(ステップ105,110)。また、分布を決定することもできる(ステップ115)。次に、前記分布、前記パラメータベクトル、及び尤度関数に基づいて、観測値の最適なグループ分けを選択することができる(ステップ130)。
【選択図】図1A

Description

本発明は、一般的に、データベースの作成、順序付け、及び管理に関する。
文書コレクションは、索引語頻度(term‐frequency)ベクトルを用いてモデル化できる。索引語頻度ベクトルは、複数の要素を有するベクトルであり、その各要素は、1つ以上の文書コレクションに出現するある特定の語と対応付けられる。1つの文書コレクションについて、各要素は、文書コレクション内のその要素と対応付けられる語の出現回数を集計するために用いられる。コーパス(corpus)から文書コレクションを生成する従来の方法は、特許文献1に記載される。
索引語頻度ベクトルは、高次元ベクトル空間におけるベクトルとして扱われてきた。しかしながら、非特許文献1によって、高次元ランダムベクトルのクラスタリングにおける数学的困難性が明らかになった。その結果、索引語頻度ベクトルを経験分布として、又は多項式分布の結果として扱う情報理論的方法が開発されてきた。
米国特許第5442778号明細書 ベイヤー(K. S. Beyer)、ゴールドスタイン(J. Goldstein)、ラマクリシュナン(R. Ramakrishnan)、及びシャフト(U. Shaft),「いつ『最近傍』は有意義か?(When Is ‘Nearest Neighbor’ Meaningful?)」、(イスラエル)、エルサレム、データベース理論国際会議予稿集(Proceedings 7th International Conference on Database Theory (ICDT’99))、1999年、第7巻、p.217−235
時間及びトピックに関して近接な文書が同一クラスタに現れるような文書コレクションに文書をグループ化する方法及びシステムが必要とされている。
時間順の文書クラスタを最適にグループ分けする方法及びシステムが必要とされている。
さらに、グループ分けを記述するのに用いられるパラメータの数に基づいて、時間順の文書クラスタを最適にグループ分けする方法及びシステムが必要とされている。
本発明は、上記課題の1以上を解決することを目的とする。
文書コレクションは、索引語頻度ベクトルとしてモデル化できる。索引語頻度ベクトルは、さらに、多項式分布、ベルヌーイ分布、又は他の分布関数の結果としてモデル化できる。統計的に区別できない分布を有する2つの文書コレクションは、同じトピックを有するとみなすことができる。一連の文書コレクションが与えられると、その一連の文書コレクションについて可能なすべてのグループ分けを考慮することができる。各グループ分けについて、赤池情報量基準(Akaike’s Information Criterion,AIC)などの罰則付き尤度関数(penalized likelihood function)を計算し、グループ分けのランク付けに用いることができる。
1つの態様では、観測値をクラスタリングするためのシステムは、処理装置と、処理装置により読み取り可能な記憶媒体と、を備えることができる。前記処理装置により読み取り可能な記憶媒体は、観測値をクラスタリングする方法を実行するための1以上のプログラム命令を含むことができる。前記方法は、複数のパラメータベクトルを受け取るステップと、分布を決定するステップと、複数の観測値を受け取るステップと、前記分布、前記パラメータベクトル、及び尤度関数に基づいて前記観測値の最適なグループ分けを選択するステップと、を含むことができる。
1つの態様では、最適なグループ分けを選択するステップは、前記観測値の可能なグループ分けのそれぞれについて、各セグメントについて最大尤度パラメータベクトルを決定するステップと、前記可能なグループ分けのそれぞれについて、少なくとも複数の尤度に基づく前記尤度関数を用いて罰則付き尤度値を計算するステップと、最適なグループ分けを選択するステップと、を実行するための1以上のプログラム命令を含む。前記最適なグループ分けは、最小の罰則付き尤度値を有するグループ分けであってよい。罰則付き尤度値は、例えば、対数尤度を乗じた負数とパラメータ数に応じて増加する正数との和に等しくてよい。各グループ分けは、1つ以上のセグメントを含むことができ、各セグメントは、1つ以上の観測値を含むことができる。前記最大尤度パラメータベクトルは、前記セグメント内の各観測値の分布の積を最大化するパラメータベクトルであってよい。各尤度は、その観測値を含むセグメントについての最大尤度パラメータベクトルに関連する、各観測値の分布を含むことができる。
他の1つの態様において、最適なグループ分けを選択するステップは、1つ以上の観測値を含む可能なセグメントそれぞれについて、最大対数尤度値を決定するステップと、1から観測値の個数までの範囲にある、可能なセグメント数のそれぞれについて、そのセグメントの個数を有する1以上のグループ分けから最適な下位グループ分けを決定するステップと、可能なセグメント数のそれぞれについて、そのセグメント数を有する最適な下位グループ分けについての前記尤度関数を用いて罰則付き尤度値を計算するステップと、最適なグループ分けを選択するステップと、を実行するための1以上のプログラム命令を含む。最大対数尤度値は、セグメント内の各観測値についての分布の対数の和の最大を含むことができる。最適な下位グループ分けは、1以上の対数尤度値の和の最大値を有するグループ分けを含むことができる。各対数尤度値は、ある観測値を含むセグメントのパラメータベクトルに関して、その観測値の前記分布の対数を含むことができる。最適なグループ分けは、最小の罰則付き尤度値を有する、最適な下位グループ分けであってよい。
1つの態様では、観測値をクラスタリングする方法は、複数のパラメータベクトルを受け取るステップと、分布を決定するステップと、複数の観測値を受け取るステップと、前記分布、前記パラメータベクトル、及び尤度関数に基づいて前記観測値の最適なグループ分けを選択するステップと、を含むことができる。
ここに記載する実施形態の態様、特徴、利益、及び利点は、後述の記載、添付された請求項、及び添付された図面に関して明らかになるだろう。
文書コレクションは、文書の分類であってよい。文書コレクションの集合は、各文書コレクションが重複しない時間帯と関連する文書を含む場合、「時間依存」であるとみなすことができる。例えば、文書コレクションの集合は、各文書コレクションが、その特定の文書コレクションについて1ヶ月間に報告された1以上のサービスログと関連する場合、時間依存であるとみなすことができる。時間依存の文書コレクションは、最も古いものから最も新しいものに順序付けられ、「時間順」の文書コレクションの集合を生成することができる。
時間順の文書コレクションのクラスタリングは、複数の単語出現確率を決定することによって実行できる。これらの単語出現確率は、例えば、多項式分布で表現される。したがって、各文書コレクションは、未知の、しかし、推定可能な、パラメータを有する分布の観測値であって良い。他の1つの実施形態では、ベルヌーイ分布又は他の分布を用いて文書コレクションを表現する。パラメータは、最大尤度アルゴリズムを用いて推定できる。文書コレクションが統計的に互いに独立であると仮定すると、一連の文書コレクションの尤度は、個々の文書コレクションの尤度の積であってよい。
図1Aは、1つの実施形態による、文書クラスタを決定するための好適な処理のフロー図を示す。複数のパラメータベクトル(ステップ105)及び複数の観測値(ステップ110)をそれぞれ取得できる。各パラメータベクトルは、複数のパラメータを含むことができる。1つの実施形態では、観測値は、ステップ110において、時間順に受け取ることができる。各観測値は、例えば、文書クラスタから生成されたものであってよい。分布もステップ115で決定することができる。
例えば、1つの実施形態は、n=5の異なるパラメータベクトル
Figure 2007102795
を有する分布を含むことができる。ここで、各
Figure 2007102795
は、K個のパラメータを有するパラメータベクトルである。この実施形態は、さらに、時間順に発生する5個の独立観測値ベクトル
Figure 2007102795
を含むことができる。
Figure 2007102795
の最大尤度推定は、
Figure 2007102795
であることができる。赤池情報量基準(AIC)などの罰則付き尤度関数を、単一の観測値ベクトル
Figure 2007102795
について計算することができる。例えば、
Figure 2007102795
である。これは、推定パラメータの数によって罰則を付けられた対数尤度であるとみなすことができる。
1つの実施形態では、罰則付き尤度関数は、対数尤度に負数を乗じ、その結果に正の罰則を加算することを含むことができる。このような実施形態では、最適モデルは、パラメータ値について最大尤度推定が用いられる場合に、罰則付き尤度関数についての最小値を有するモデルだろう。AIC以外の罰則付き尤度関数はベイズ情報量基準(Bayesian Information Criterion)、最小記述長(Minimum Description Length)、及びAICの変形を含むことができる。このAICの変形は、小さなサンプルサイズ又は基礎となる確率モデルfによる偏差を修正する。ここで用いられるように、罰則付き尤度関数は、任意の負数を対数尤度に乗じた、尤度関数の対数の関数と、パラメータの数に従って増加する正の項と、の加算を含むことができる。
可能な2N−1個のグループ分け(すなわち、5つの分布について16個の可能なグループ分け)は、次に、データのために考慮することができる。可能な2N−1個のグループ分けが存在することを示すために、次のようなインデックスの順序付け及び可能な区切りの組み合わせを考えることができる。
[1d2d3d...dN−1N]
ここで、区切り又は仕切りがiとi−1との間に存在するならd=1であり、区切り又は仕切りがiとi−1との間に存在しないならd=0である。この順序付けは、N個の順序付けられた要素の、順序付けられたグループ分けのすべてを列挙するために用いることができる。したがって、2N−1個の二値ベクトル(d,...,dN−1)が存在し、よって2N−1個の可能なグループ分けが存在することを簡単に示すことができる。
パラメータベクトル、観測値、及び分布を受け取った後、罰則付き尤度関数を用いて最適なグループ分けを決定することができる。1つの実施形態では、グループ分けの各セグメントについての最大尤度推定を計算できる(ステップ120)。次に、グループ分けの各セグメントについての最大尤度推定に基づいて、各グループ分けについての罰則付き尤度関数を計算できる(ステップ125)。罰則付き尤度関数の最小値を有するグループ分けを、最適なグループ分けとして選択できる(ステップ130)。これらのステップの動作は、2つの好適なグループ分けに関連して、後にさらに詳述する。
例えば、第1グループ分けは、すべてのパラメータが同じ値を有すると仮定することができる(すなわち、
Figure 2007102795
)。第1グループ分けの最大尤度パラメータは、
Figure 2007102795
によって計算できる。したがって、このグループ分けのAICは、
Figure 2007102795
によって計算できる。K個の推定可能なパラメータのみを用いることができる。これは、各分布が、K個のパラメータを含む同じパラメータベクトルを有するからである(すなわち、
Figure 2007102795
)。
第2グループ分け[12][345]は、次のパラメータの関係を有することができる:
Figure 2007102795
及び
Figure 2007102795
。第2グループ分けについての対応する最大尤度パラメータは、
Figure 2007102795
及び、
Figure 2007102795
によって計算できる。第2グループ分けのAICは、
Figure 2007102795
によって計算できる。ここで、2K個の推定可能なパラメータが必要になるだろう。これは、各分布が、それぞれK個のパラメータを有する2つのパラメータベクトル(すなわち、
Figure 2007102795
及び
Figure 2007102795
)のうちの1つを有するからである。
最大尤度パラメータ及びAICは、[12345]についての、次の16の時間順のグループ分けのそれぞれについて計算できる。
1つのセグメントを有するグループ分け: [12345]
2つのセグメントを有するグループ分け: [1234][5],[123][45],[12][345],及び[1][2345]
3つのセグメントを有するグループ分け: [123][4][5],[12][34][5],[12][3][45],[1][234][5],[1][23][45],及び[1][2][345]
4つのセグメントを有するグループ分け: [12][3][4][5],[1][23][4][5],[1][2][34][5],及び[1][2][3][45]
5つのセグメントを有するグループ分け: [1][2][3][4][5]
最小のAICを有するグループ分けが、データを最もよく表すグループ分けとして返されるだろう。
多項式モデルについてのAICの計算は、以下のように実行できるだろう。この多項式モデルは、多項式観測
Figure 2007102795
の系列を有し、ここで、各
Figure 2007102795
は、総数n
Figure 2007102795
、を含む。完全なモデルでは、各多項式観測は、それ自身のK−1個のパラメータ集合:
Figure 2007102795
又は対応する対数尤度:
Figure 2007102795
を備えることができる。パラメータの最大尤度推定は、
Figure 2007102795
であってよい。したがって、飽和した尤度(saturated likelihood)は、値:
Figure 2007102795
を有することができる。すると、このモデルのAICは、
Figure 2007102795
として計算できる。ベクトル記述では、AICは、
Figure 2007102795
として表すことができる。
多項式観測の系列についての順序付けられたグループ分けは、次に、対応するAICに従ってランク付けされる(ここで、最小のAICは、最も望ましいグループ分けを表すだろう)。例えば、
Figure 2007102795
であるグループ分けについて、このパラメータの最大尤度推定は、次のように表すことができる。
Figure 2007102795
N=5であり、かつ、グループ分けが[123][45]である場合、最大尤度推定での対数尤度関数及びAICは、
Figure 2007102795
として計算できる。ここで、区間[12345]は、‘2’個の区間[123]及び[45]にグループ分けされたので、AICの計算における丸括弧()内の‘2’を含むことができる。このグループ分けについての対数尤度関数を簡略化すると、次のような結果になるだろう。
Figure 2007102795
最小のAICを有するグループ分けは、そのデータを最もよく説明するグループ分けであるだろう。例えば、グループ分け[123][45]が最小のAICを有するグループ分けである場合、このグループ分けは、観測(ベクトル)1、2、及び3が同じ基礎分布を共有し、観測(ベクトル)4及び5が同じ基礎分布を共有することを意味すると解釈できる。これは、最初の3つの観測が、同じトピックを共有する(すなわち、文書コレクションが統計的に区別可能でない)ことを意味するだろう。最後の2つの観測が同じトピックを共有すると判断することもできる。さらに、観測1、2、及び3の分布は、観測4及び5の分布と異なると判定することができる。これらの観測が文書コレクションを表す場合、文書コレクション3と文書コレクション4との間でトピックの変更が生じたと判断することができる。
次に、任意のトピック抽出アルゴリズムを用いた文書コレクションのクラスタに基づいて、クラスタトピックを決定することができる(ステップ135)。
上述の実施形態では、2N−1通りのグループ分けを調べ、したがって、グループ分けに関する値を計算するのにO(2)時間が要求される。他の実施形態では、時系列の独立した観測の最良のAICのグループ分けは、O(N)時間で計算できる。ここで、Nは、系列内の観測の数である。
図1Bは、1つの実施形態による、文書クラスタを決定するための第2の好適な処理のフロー図を示す。図1Aと同様に、複数のパラメータベクトル(ステップ105)及び複数の観測値(ステップ110)をそれぞれ取得できる。各パラメータベクトルは、複数のパラメータを含むことができる。1つの実施形態では、観測値は、ステップ110において、時間順に受け取ることができる。各観測値は、例えば、文書クラスタから生成されたものであってよい。分布もステップ115で決定することができる。
確率分布関数
Figure 2007102795
を有する、ランダム変数の順序付けられた(通常は多変数の)観測
Figure 2007102795
について、その系列を一様な区間に区切ることは、グループ分けの集合をあてはめて、最小の罰則付き尤度関数、例えばAIC、を有するグループ分けを選択することで実行できる。(上述の)尤度関数Lは、一般に、[1,...,i][i+1,...,i]...[ik+1,...,N]の形式の順序付けられたグループ分けについて、次のように定義できる。
Figure 2007102795
このグループ分けのAICは、次のように計算できる。
Figure 2007102795
ここで、上記のグループ分けにはk+1個のセグメントが存在し、
Figure 2007102795
には
Figure 2007102795
個のパラメータが存在する。
1≦i≦j≦Nについて、関数
Figure 2007102795
を定義することができ(ステップ140)、可能なセグメントのそれぞれについて最大尤度対数を記憶できる。Tを初期化した後、k個の区切りを有する各グループ分けについて最良のAICを計算することができる(ステップ145)。S[k;i,j].listを用いて、k個の区切りを有する最良のグループ分けの各セグメントの左側の端点を記憶することができる。次に、例えば以下のアルゴリズムを用いて、最適なグループ分けを決定する方法を実行することができる(ステップ145)。
Figure 2007102795
最適なグループ分けのセグメントの数は、次のように計算できる。
Figure 2007102795
また、最適なグループ分けは、S[M−1;1,N].listとして表現できる(ステップ150)。次に、トピック抽出アルゴリズムを用いた文書コレクションのクラスタに基づいて、クラスタトピックを決定することができる(ステップ135)。
上述の方法の好適な適用例は、顧客サービスログの系列に関連して実行された。この例では、各顧客サービスログは1ヶ月の期間に関連付けられ、サービスログは時間順にグループ化された。この例では、ある特定のログは、{2004年2月、2004年3月、2004年4月、2004年5月、2004年6月、2004年7月、2004年8月、2004年9月、2004年10月、2004年11月、2004年12月、2005年1月}であった。各サービスログは、索引語頻度ベクトルとしてモデル化され、索引語頻度ベクトルには、各索引語の出現回数が集計される。
最初に記載したAICランク付け法が適用され、結果として次のクラスタが得られた。
{2004年2月、2004年3月、2004年4月、2004年5月}{2004年6月、2004年7月}{2004年8月}{2004年9月、2004年10月}{2004年11月、2004年12月、2005年1月}
コレクションが適切に定義されたかどうかを判定するために、各クラスタについて最もよく現れる単語が調べられた。各クラスタについて、最も確からしい単語は、次のものであった。
{2004年2月、2004年3月、2004年4月、2004年5月}:{delete, dfe, jam, end, tracking, advised, cdrom, action, diagnostics};
{2004年6月、2004年7月}:{jul, duplex, long, feed, sided, default, ftp, controller, trays, upgraded};
{2004年8月}:{aug, upgraded, digipath, development, start, unassigned, currently, onsite, sets, cc};
{2004年9月、2004年10月}:{rotation, dhl, onsite, business, ll, controller, po, sep, cc, successful};
{2004年11月、2004年12月、2005年1月}:{jan, client, implemented, dec, nov, start, shift, option, board, recreate}
月名の省略語(jul、aug、sep、jan、dec、novなど)の多くは、適切なクラスタに含まれていた(すなわち、クラスタは、その月名の省略語に対応する月を含む)。これは、クラスタリングが説明可能であることを示す。さらに、月名を示す単語を取り除いても、クラスタに変化はなかった。これは、この例において、1つの又は数少ない単語がクラスタリングを支配しなかったことを示す。
図2は、1つの実施形態によるプログラム命令を含む、又は実現するために利用できる好適な内部ハードウェアのブロック図である。図2を参照すると、バス228は、主要な情報の通路として機能し、ハードウェアの図示される他の要素を相互に接続する。CPU202は、システムの中央演算装置(Central Processing Unit)であり、プログラムを実行するために必要な計算及び論理演算を実行する。ROM(Read Only Memory)218及びRAM(Random Access Memory)220は、好適な記憶装置を構成する。
ディスクコントローラ204は、1つ以上のオプションのディスクドライブとシステムバス228との間のインターフェースである。これらのディスクドライブは、外部又は内部フロッピー(登録商標)ディスクドライブ210、CDROMドライブ206、又は、外部又は内部ハードドライブ208などである。前述のとおり、これらの様々なディスクドライブ及びディスクコントローラは、オプションで取り付けられる装置である。
プログラム命令は、ROM218及び/又はRAM220に記憶することができる。随意に、プログラム命令は、プロセッサ読み取り可能な媒体又はキャリア、例えばフロッピー(登録商標)ディスク又はディジタルディスク、又は他の記憶媒体、通信信号又は搬送波に記憶することができる。
最適な表示インターフェース222は、バス228からの情報を、音声、画像、又は文字の形式で表示224に表示することを可能にできる。外部装置との通信は、通信ポート226を用いてオプションで発生させることができる。好適な通信ポート226は、例えばインターネット又はイントラネットなどの通信ネットワークに接続されるだろう。
コンピュータ型の要素及びこれらと同等のものに加えて、ハードウェアは、インターフェース212を含むこともできる。インターフェース212は、入力装置からのデータの受け取りを可能にする。入力装置は、例えば、キーボード214又はリモコン(remote control)、ポインタ、及び/又はジョイスティックなどの他の入力装置216である。
マルチプロセッサ(multiprocessor)システムをオプションで用いて、ここで記載した動作の1つ、一部、又は全てを実行することができる。同様に、埋め込みシステムを随意に用いて、ここで記載した動作の1つ、一部、又は全てを実行することができる。
1つの実施形態による文書クラスタを決定する好適な処理を示すフロー図である。 1つの実施形態による文書クラスタを決定する好適な処理を示すフロー図である。 1つの実施形態によるプログラム命令を含む、又は実現する好適なハードウェアを示すブロック図である。
符号の説明
228 バス。

Claims (4)

  1. 複数の観測値をクラスタリングする方法であって、
    複数のパラメータベクトルを受け取るステップと、
    分布を決定するステップと、
    複数の観測値を受け取るステップと、
    前記分布、前記パラメータベクトル、及び尤度関数に基づいて、前記観測値の最適なグループ分けを選択するステップと、
    を備えることを特徴とする方法。
  2. 請求項1に記載の方法において、
    前記観測値に対して可能なグループ分けはそれぞれ1つ以上のセグメントを有し、各セグメントは1つ以上の観測値を有し、
    前記最適なグループ分けを選択するステップは、
    前記可能なグループ分けのそれぞれについて、各セグメントについて最大尤度パラメータベクトルを決定するステップと、
    前記可能なグループ分けのそれぞれについて、少なくとも複数の尤度に基づく前記尤度関数を用いて罰則付き尤度値を計算するステップと、
    最適なグループ分けを選択するステップと、
    を含み、
    前記最大尤度パラメータベクトルは前記各セグメント内の各観測値についての前記分布の積を最大化するパラメータベクトルであり、
    前記少なくとも複数の尤度のそれぞれは、各観測値についてのその観測値を含むセグメントの前記最大尤度パラメータベクトルに関連する前記分布であり、
    前記最適なグループ分けは、最小の罰則付き尤度値を有することを特徴とする方法。
  3. 請求項2に記載の方法において、さらに、
    前記最適なグループ分けの各セグメントについてクラスタトピックを決定するステップを含むことを特徴とする方法。
  4. 請求項1に記載の方法において、最適なグループ分けを選択するステップは、
    1以上の観測を含む可能なセグメントのそれぞれについて、最大対数尤度値を決定するステップと、
    1から観測値の個数の範囲にある可能なセグメント数のそれぞれについて、そのセグメント数を有する1以上のグループ分けから最適な下位グループ分けを決定するステップと、
    1から観測値の個数の範囲にある可能なセグメント数のそれぞれについて、そのセグメント数を有する前記最適な下位グループ分けについての前記尤度関数を用いて罰則付き尤度値を計算するステップと、
    最小の罰則付き尤度値を有する前記最適な下位グループ分けを含む最適なグループ分けを選択するステップと、
    前記可能なセグメントのそれぞれについての最大対数尤度値は、そのセグメントに含まれる各観測値についての分布の対数の和の最大値であり、
    前記可能なセグメント数のそれぞれについての最適な下位グループ分けは、1以上の対数尤度値の和の最大値を有するグループ分けであり、
    前記対数尤度値のそれぞれは、観測値の前記分布の対数であり、この観測値の前記分布は、この観測値を含むセグメントについてのパラメータベクトルに関連するものであることを特徴とする方法。
JP2006272458A 2005-10-07 2006-10-04 文書クラスタリングの方法 Expired - Fee Related JP4885679B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/246,336 US7539653B2 (en) 2005-10-07 2005-10-07 Document clustering
US11/246,336 2005-10-07

Publications (2)

Publication Number Publication Date
JP2007102795A true JP2007102795A (ja) 2007-04-19
JP4885679B2 JP4885679B2 (ja) 2012-02-29

Family

ID=37911914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006272458A Expired - Fee Related JP4885679B2 (ja) 2005-10-07 2006-10-04 文書クラスタリングの方法

Country Status (2)

Country Link
US (1) US7539653B2 (ja)
JP (1) JP4885679B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015395A (ja) * 2008-07-03 2010-01-21 Kddi Corp 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
US8560488B2 (en) 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298722B2 (en) * 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US8352298B2 (en) * 2010-02-08 2013-01-08 Xerox Corporation Systems and methods to detect models and accounts with anomalous revenue from color impressions
US8782734B2 (en) * 2010-03-10 2014-07-15 Novell, Inc. Semantic controls on data storage and access
US8332250B2 (en) * 2010-03-15 2012-12-11 Xerox Corporation Systems and methods for determining print revenue behavior
US8832103B2 (en) * 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US9454528B2 (en) 2011-10-17 2016-09-27 Xerox Corporation Method and system for creating ordered reading lists from unstructured document sets
US8881007B2 (en) 2011-10-17 2014-11-04 Xerox Corporation Method and system for visual cues to facilitate navigation through an ordered set of documents
US9275044B2 (en) * 2012-03-07 2016-03-01 Searchleaf, Llc Method, apparatus and system for finding synonyms
RU2757592C1 (ru) 2019-02-08 2021-10-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для кластеризации документов

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
JP2006004103A (ja) * 2004-06-16 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体
JP2006338157A (ja) * 2005-05-31 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
WO2001099043A1 (en) * 2000-06-19 2001-12-27 Correlogic Systems, Inc. Heuristic method of classification
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US7124353B2 (en) * 2002-01-14 2006-10-17 International Business Machines Corporation System and method for calculating a user affinity
US7249117B2 (en) * 2002-05-22 2007-07-24 Estes Timothy W Knowledge discovery agent system and method
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
US7403932B2 (en) * 2005-07-01 2008-07-22 The Boeing Company Text differentiation methods, systems, and computer program products for content analysis
US7502765B2 (en) * 2005-12-21 2009-03-10 International Business Machines Corporation Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
JP2006004103A (ja) * 2004-06-16 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 文書分類体系間の構造マッチング方法、構造マッチング装置、構造マッチングプログラム及びそのプログラムを記録した記録媒体
JP2006338157A (ja) * 2005-05-31 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015395A (ja) * 2008-07-03 2010-01-21 Kddi Corp 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
US8560488B2 (en) 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs

Also Published As

Publication number Publication date
US20070083368A1 (en) 2007-04-12
JP4885679B2 (ja) 2012-02-29
US7539653B2 (en) 2009-05-26

Similar Documents

Publication Publication Date Title
JP4885679B2 (ja) 文書クラスタリングの方法
US11232152B2 (en) Efficient processing of neighborhood data
CN109062919B (zh) 一种基于深度强化学习的内容推荐方法及装置
Huang et al. Dirichlet process mixture model for document clustering with feature partition
Kpotufe et al. A tree-based regressor that adapts to intrinsic dimension
JP2005276225A (ja) テーブルを使用したツリーの学習
Haag et al. From easy to hopeless—predicting the difficulty of phylogenetic analyses
Chowdhury et al. An improved method to infer gene regulatory network using s-system
Böck et al. Hub-centered gene network reconstruction using automatic relevance determination
Velayutham et al. Improved Rough set algorithms for optimal attribute reduct
CN113033709A (zh) 链路预测方法和装置
Islamaj et al. A feature generation algorithm for sequences with application to splice-site prediction
Gajawada et al. Vinayaka: a semi-supervised projected clustering method using differential evolution
US11676050B2 (en) Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes
CN113822390B (zh) 用户画像构建方法、装置、电子设备和存储介质
Li et al. Extreme value distribution based gene selection criteria for discriminant microarray data analysis using logistic regression
Jarquin et al. Combining phenotypic and genomic data to improve prediction of binary traits
LeBlanc et al. Adaptive risk group refinement
Tewfik et al. Parallel identification of gene biclusters with coherent evolutions
CN108491527B (zh) 信息推荐方法、装置和电子设备
CN113591458B (zh) 基于神经网络的医学术语处理方法、装置、设备及存储介质
Cubas et al. Linear grouping of predictor instances to infer gene networks
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质
CN117312533B (zh) 基于人工智能模型的文案生成方法、装置、设备及介质
JP7468681B2 (ja) 学習方法、学習装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees