JP2005346223A - 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 - Google Patents
文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2005346223A JP2005346223A JP2004162836A JP2004162836A JP2005346223A JP 2005346223 A JP2005346223 A JP 2005346223A JP 2004162836 A JP2004162836 A JP 2004162836A JP 2004162836 A JP2004162836 A JP 2004162836A JP 2005346223 A JP2005346223 A JP 2005346223A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- representative
- clustering
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 K平均法では、データが高次元の場合、低品質な局所最適解に陥りやすく、高精度のクラスタリング結果が得にくい点がある。一方、球面K平均法では、文書を表すベクトルx nは、高次元となることが多く、特に、語彙数Vが大きい場合、低品質な局所最適解に陥りやすいという問題点がある。
【解決手段】 有限個の重要単語を文書群データベース11の文書群から選び出す重要単語群選択手段13と、各重要単語が出現する文書群の単語出現頻度ベクトルを構成する単語出現頻度ベクトル構成手段14と、文書群の前記単語出現頻度ベクトルの平均値を取ることにより、有限個の代表ベクトルの候補を構成する代表候補ベクトル構成手段15と、前記代表候補ベクトルと前記単語出現頻度ベクトルとの間の類似度の総和を最大にする代表ベクトルを構成する代表ベクトル構成手段16と、前記代表ベクトルを用いて文書のクラスタリングを行うクラスタリング手段17とを有する
【選択図】 図1
【解決手段】 有限個の重要単語を文書群データベース11の文書群から選び出す重要単語群選択手段13と、各重要単語が出現する文書群の単語出現頻度ベクトルを構成する単語出現頻度ベクトル構成手段14と、文書群の前記単語出現頻度ベクトルの平均値を取ることにより、有限個の代表ベクトルの候補を構成する代表候補ベクトル構成手段15と、前記代表候補ベクトルと前記単語出現頻度ベクトルとの間の類似度の総和を最大にする代表ベクトルを構成する代表ベクトル構成手段16と、前記代表ベクトルを用いて文書のクラスタリングを行うクラスタリング手段17とを有する
【選択図】 図1
Description
本発明は、電子的に蓄積された文書群を、類似した文書が同じクラスタになるように分割する、文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体に関する。
文書クラスタリング技術の著名なものとしては、たとえば、非特許文献1に記載されているような、球面K平均法がある。球面K平均法は、クラスタリング手法として極めて著名で、たとえば、非特許文献2に記載されているようなK平均法を、文書クラスタリングに適用したものである。
以下、球面K平均法について、簡単に説明する。
文書クラスタリングは、N個の文書
を、K個のクラスタに分割する問題である。文書dnがk番目のクラスタに属するときは、yn,k=1、そうでないときは、yn,k=0とする。
(ベクトルをアンダーラインで表している。以下、同じ。)
また、多くの文書クラスタリング手法では、文書を、単語出現頻度ベクトルにより表す。すなわち、単語出現頻度ベクトルx n=(xn,1,…,xn,V)により、文書dnを表す。ここで、Vは、語彙W={w1,…,wV}の中の単語の総数を、xn,iは、文書dnにおける、単語wiの出現頻度をそれぞれ表す。(日本語において、単語出現頻度ベクトルx nを構成するには、形態素解析などにより、単語への分かち書きを行う必要がある。)このとき、x nに対して、後に詳述するtf−idf(term frequency-inversed document frequency)変換を施すこともある。また、球面K平均法では、x nをL2ノルムにより正規化する。以後、簡単のために、このような変換が施された単語出現頻度ベクトルもx nで表し、また、単語出現頻度ベクトルと呼ぶ。
各クラスタに対して、代表ベクトル
を考え、
とする。そして、単語出現頻度ベクトルと代表ベクトル間の類似度s(・,・)を与える。たとえば、球面K平均法では、コサイン類似度を用いる。すなわち、
とする。
(球面)K平均法では、次の目的関数J(Y,Θ)を考え、この目的関数を最大にするようなクラスタリング結果
と、代表ベクトル
を求める。
この目的関数の値は、x nと、x nが属するクラスタの代表ベクトルとの間の類似度Σk
yn,ks(x n,θ k)の、nに関しての和に等しい。
yn,ks(x n,θ k)の、nに関しての和に等しい。
K平均法では、YとΘを、収束するまで、逐次、更新することにより、目的関数Jを局所的に最大にする解
を求める。そして、得られた
をもって、クラスタリング結果とする。
ここで、前記tf−idf変換について説明しておく。
tfは、文書中における語の出現頻度を表し、たとえば、tf(n,i)は文書dnにおける語wiの出現頻度を表す。また、dfは、語が出現した文書数を表し、たとえば、df(i)は、語wiが出現した文書数を表す。idfは、dfを基に定義される量で、いくつかの定義があるが、最もよく用いられる定義の一つとして、
があげられる(ただし、ここでNは文書の総数を表す)。tf−idfはtfとidfを掛け合わせたもので、
と定義される。tfidfの目的は、文書中での語の重み付けであって、文書中での語の出現頻度が高く、出現した文書数が少ない語の重みが大きくなる。
Spherical k-means, Dhillon, I.S. & Modha, D.S.(2001)."Concept Decompositions for large sparse text data using clustering"Machine Learning, 42, 143-175 K-means, Hastie, T., Tibshirani, T., Friedman, J. & Friedman, J. H.(2001)."The Elements of statistical Learning".Springer Verlag
Spherical k-means, Dhillon, I.S. & Modha, D.S.(2001)."Concept Decompositions for large sparse text data using clustering"Machine Learning, 42, 143-175 K-means, Hastie, T., Tibshirani, T., Friedman, J. & Friedman, J. H.(2001)."The Elements of statistical Learning".Springer Verlag
K平均法では、逐次更新により、目的関数を最大にする解を探索する。そのため、K平均法で得られる解は、その解の近傍における最適解、すなわち、局所最適解である。K平均法の問題点として、データが高次元の場合、低品質な局所最適解に陥りやすく、高精度のクラスタリング結果が得にくい点がある。一方、球面K平均法では、文書を表すベクトルx nは、高次元となることが多い。そのため、特に、語彙数Vが大きい場合、球面K平均法は、低品質な局所最適解に陥りやすいという問題点がある。
高次元データに対するK平均法の解が、低品質な局所最適解となる原因の一つに、探索する解の空間が広いため、多数の局所最適解が存在する点がある。そこで、本発明では、探索空間のより狭い離散最適化問題を考え、この最適化問題を解くことにより、K平均法が持つ低品質な局所最適解の問題を克服する。
本発明では、K平均法と同様の目的関数(※)の最大化を考える。ただし、代表ベクトルθ kに対して制約を設け、解の探索空間を限定する。具体的には、代表ベクトルθ kが取り得る値を、M(>K(K個のクラスタに分割する))個の代表候補ベクトルに限定する。そして、これらの代表候補ベクトルの中から、目的関数(※)を最大にする代表ベクトルの組み合わせを探索する。この探索問題は、離散最適化問題となり、K平均法よりも、解の探索空間が限定される。したがって、解の探索空間を適切に限定すれば、K平均法よりも、高品質な解が得られると期待できる。
このとき、精度の高いクラスタリングを実現するには、適切な代表候補ベクトルを構成する必要がある。そこで、本発明では、文書がもつ特性を利用し、次の手順により、代表候補ベクトルを効率よく構成する。
まず、重要単語群を適当な方法で定める。そして、この単語群の各単語について、その単語が出現した文書群を求める。これらの文書群の単語出現頻度ベクトルの平均値を代表候補ベクトルとする。この手続きを、重要単語群に属する全ての単語に対して行うことにより、複数の代表候補ベクトルを構成する。
このようにして得られた代表候補ベクトルは、代表ベクトルの候補として有効であると考えられる。なぜなら、特定の単語、たとえば「コンピュータ」が出現した文書は、「コンピュータ」に関連した単語(「メモリ」や「CPU」)が出現しやすい。そのため、「コンピュータ」が出現した文書の単語出現頻度ベクトルの平均ベクトルは、「コンピュータ」に関するクラスタの代表ベクトルとして適切であると考えられるからである。ただし、どのベクトルが代表ベクトルとして適切であるかは自明ではないので、M個の代表候補ベクトルより、K個の代表ベクトルを選択する。
データが高次元の場合であっても、文書を表すベクトルx nが高次元で語彙数Vが大きい場合であっても、低品質な局所最適解に陥ることなく、精度のよいクラスタリング結果を得ることができる。
図1および図2は、本発明の一実施形態を示すもので、図1は本発明の文書クラスタリング装置のブロック構成図である。
本文書クラスタリング装置は、文書入力手段10と、文書群データベース11と、中央処理装置内の文書出力手段12、重要単語群選択手段13、単語出現頻度ベクトル構成手段14、代表候補ベクトル構成手段15、代表ベクトル構成手段16、クラスタリング手段17、および結果出力手段18とから構成されている。
前記文書入力手段10には、キーボードやマウスなどが考えられる。
前記文書群データベース11は、文書入力手段10によって入力された文書群を蓄積する。
前記文書出力手段12は、文書群データベース11から文書群を出力するように命令があると、文書群データベース11から文書群を出力する。
前記重要単語群選択手段13は、まず、文書群において、M個の重要単語群WC={wC 1,…,wC M}を、なんらかの手法、たとえば、tf−idfの値が上位の語により定める。tf−idfは、文書中の語の重みを表す量であるが、この量を文書全体について合わせたものもtf−idfと呼ばれる。このとき、単語wiのtf−idf score s(i)は、
となり、ここでは、s(i)の値の高い上位M個の語を用いて、クラスタリングの代表ベクトルの候補である重要単語群WC={wC 1,…,wC M}を構成する。
前記単語出現頻度ベクトル構成手段14は、文書dnを表す単語出現頻度ベクトルx n=(xn,1,…,xn,V)を構成する。ここで、Vは、語彙W={w1,…,wV}の中の単語の総数を、xn,iは、文書dnにおける、単語wiの出現頻度をそれぞれ表す。
前記代表候補ベクトル構成手段15は、各重要単語wC cに対して、この語が出現した文書群Dcを求め、Dcに属する文書の単語出現頻度ベクトルの平均値をφcとする。すなわち、
とする。得られたM個のφcを、代表ベクトルθkの代表候補ベクトルとする。
前記代表ベクトル構成手段16および前記クラスタリング手段17は、式(※)の目的関数J(Y,Θ)を最大にする、
を求める。すなわち、次の最適化問題を解く。
この最適化問題は離散最適化問題となる。K平均法の最適化問題では、Θは任意のV次元ベクトルであったが、本文書クラスタリング装置では、Θは有限個のM個の代表候補ベクトルの中から選択される。したがって、解の探索空間が限定されるため、低品質な局所最適解に陥りにくくなる。
式(※※)の離散化問題を解くには、greedy searchアルゴリズムなどが適用できる。たとえば、Θに関するgreedy searchでは、次の手順により、最適なΘを探索する。
最初に、初期値Θ (0)を定める。そして、各代表ベクトル
について、クラスタの代表ベクトルを目的関数の値を大きくするように更新する。たとえば、θkを次の式にしたがって更新する:
ただし、max Y J(Y,Θ (t))の計算の際には、θk以外の代表ベクトル
の値は固定する。次に、Θの更新を収束するまで繰り返し、得られた解
を用いて、
を得、
をクラスタリング結果として、前記結果出力手段18が出力する。そして、たとえば、クラスタリングされた状態で再度、データベースに蓄積する。
図2は、コンピュータに、本発明の文書クラスタリングプログラムを実行させたときの、コンピュータの動作を示したフローチャートである。
まず、クラスタリングの対象となる文書群が、文書入力手段10により入力されると、文書群データベース11に文書群が一時、保存される(S1)。
次に、文書出力手段12が、文書群データベース11から文書を出力し、重要単語群選択手段13が、文書群において、M個の重要単語群WC={wC 1,…,wC M}を、たとえば、tf−idfの値が上位の語により定める(S2)。
次に、単語出現頻度ベクトル構成手段14が、文書dnを表す単語出現頻度ベクトルx n=(xn,1,…,xn,V)を構成する(S3)。ここで、Vは、語彙W={w1,…,wV}の中の単語の総数を、xn,iは、文書dnにおける、単語wiの出現頻度をそれぞれ表す。
続いて、代表候補ベクトル構成手段15が、各重要単語wC cに対して、この語が出現した文書群Dcを求め、Dcに属する文書の単語出現頻度ベクトルの平均値をφcとする。すなわち、
とする。得られたM個のφcを、代表ベクトルθkの代表候補ベクトルとする(S4)。
そして、代表ベクトル構成手段16は、得られた代表候補ベクトルの中から(※)式を最大にする組み合わせを探索する。すなわち、
を解く(S5)。
続いて、クラスタリング手段17は、得られた代表ベクトルを用いて、
より、
をクラスタリング結果とする(S6)。
最後に、クラスタリング結果を、結果出力手段18が出力し(S7)、クラスタリングされた状態でデータベースに蓄積などを行う。
なお、式(※※)の解き方は前記に限ったものではない。
なお、この文書クラスタリングプログラムは、読み取り可能な記録媒体に記録させることにより実現可能であり、また、持ち運びなどをすることができる。
図3は、本発明を実際に施行し、その結果を実データを用いてグラフで表し、その有効性を示したものである。
評価用データとして、文書クラスタリングの評価に広く用いられている20newsgroupsデータを用いた。20newsgroupsデータは、20のカテゴリに分類された文書である。この分類されたカテゴリと、クラスタリング結果との一致度により、クラスタリング性能を評価する。
本発明の有効性を評価するため、1000個の文書をクラスタリングした際のクラスタリング精度(micro averaged precision)を、本発明と従来法である球面K平均法とで比較する。なお、M=500とし、類似度としては、コサイン類似度を用いた。
データの次元の影響を調べるため、用いる語彙の数Vの値を変化させた場合のクラスタリング精度の変化を調べた。このとき、用いる単語は相互情報量基準によって選択した。
図3より、本発明が、K平均法を上回るクラスタリング精度を達成し、その差は、データが高次元な場合、特に大きいことが分かる。
11 文書群データベース
12 文書出力手段
13 重要単語群選択手段
14 単語出現頻度ベクトル構成手段
15 代表候補ベクトル構成手段
16 代表ベクトル構成手段
17 クラスタリング手段
12 文書出力手段
13 重要単語群選択手段
14 単語出現頻度ベクトル構成手段
15 代表候補ベクトル構成手段
16 代表ベクトル構成手段
17 クラスタリング手段
Claims (4)
- 文書群記憶手段に蓄積された類似の文書群を、複数のクラスタに分割する文書クラスタリング方法において、
コンピュータが、有限個の重要単語を文書群から選び出し、前記各重要単語が出現する文書群の単語出現頻度ベクトルの平均値を取ることにより、有限個の代表候補ベクトルを構成し、該代表候補ベクトルと前記単語出現頻度ベクトルとの間の類似度の総和を最大にする代表ベクトルを選択し、該代表ベクトルを用いて文書のクラスタリングを行う
ことを特徴とする文書クラスタリング方法。 - 文書群記憶手段に蓄積された類似の文書群を、複数のクラスタに分割する文書クラスタリング装置において、
有限個の重要単語を文書群から選び出す重要単語群選択手段と、
前記各重要単語が出現する文書群の単語出現頻度ベクトルを構成する単語出現頻度ベクトル構成手段と、
前記文書群の前記単語出現頻度ベクトルの平均値を取ることにより、有限個の代表ベクトルの候補を構成する代表候補ベクトル構成手段と、
前記代表候補ベクトルと前記単語出現頻度ベクトルとの間の類似度の総和を最大にする代表ベクトルを構成する代表ベクトル構成手段と、
前記代表ベクトルを用いて文書のクラスタリングを行うクラスタリング手段とを有する
ことを特徴とする文書クラスタリング装置。 - 文書群記憶手段に蓄積された類似の文書群を、複数のクラスタに分割する文書クラスタリングプログラムにおいて、
コンピュータに、
有限個の重要単語を文書群から選び出すステップと、
前記各重要単語が出現する文書群の単語出現頻度ベクトルを構成するステップと、
前記文書群の前記単語出現頻度ベクトルの平均値を取ることにより、有限個の代表候補ベクトルを構成するステップと、
前記代表候補ベクトルと前記単語出現頻度ベクトルとの間の類似度の総和を最大にする代表ベクトルを選択するステップと、
前記代表ベクトルを用いて、文書のクラスタリングを行うステップとを実行させる
ことを特徴とする文書クラスタリングプログラム。 - 請求項3に記載の文書クラスタリングプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004162836A JP2005346223A (ja) | 2004-06-01 | 2004-06-01 | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004162836A JP2005346223A (ja) | 2004-06-01 | 2004-06-01 | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005346223A true JP2005346223A (ja) | 2005-12-15 |
Family
ID=35498564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004162836A Pending JP2005346223A (ja) | 2004-06-01 | 2004-06-01 | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005346223A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009536401A (ja) * | 2006-05-05 | 2009-10-08 | ハリス コーポレイション | 文書データベースにおける文書の領域識別のための方法 |
JP2010205043A (ja) * | 2009-03-04 | 2010-09-16 | Nec Corp | パターン学習方法、装置、およびプログラム |
JP2014120140A (ja) * | 2012-12-19 | 2014-06-30 | Fujitsu Ltd | クラスタ処理方法、クラスタ処理装置およびプログラム |
CN104036015A (zh) * | 2014-06-24 | 2014-09-10 | 北京奇虎科技有限公司 | 一种电子终端问题分类及解决方案提供方法、系统及装置 |
-
2004
- 2004-06-01 JP JP2004162836A patent/JP2005346223A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009536401A (ja) * | 2006-05-05 | 2009-10-08 | ハリス コーポレイション | 文書データベースにおける文書の領域識別のための方法 |
JP2010205043A (ja) * | 2009-03-04 | 2010-09-16 | Nec Corp | パターン学習方法、装置、およびプログラム |
JP2014120140A (ja) * | 2012-12-19 | 2014-06-30 | Fujitsu Ltd | クラスタ処理方法、クラスタ処理装置およびプログラム |
CN104036015A (zh) * | 2014-06-24 | 2014-09-10 | 北京奇虎科技有限公司 | 一种电子终端问题分类及解决方案提供方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8612369B2 (en) | System and methods for finding hidden topics of documents and preference ranking documents | |
JP5817531B2 (ja) | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム | |
Zhang et al. | Extractive document summarization based on convolutional neural networks | |
US20210158164A1 (en) | Finding k extreme values in constant processing time | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN112256842B (zh) | 用于文本聚类的方法、电子设备和存储介质 | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN106570173B (zh) | 一种基于Spark的高维稀疏文本数据聚类方法 | |
WO2016015267A1 (en) | Rank aggregation based on markov model | |
JP2006338342A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム | |
US20220147758A1 (en) | Computer-readable recording medium storing inference program and method of inferring | |
JP2018173909A (ja) | 学習プログラム、学習方法および学習装置 | |
Awad | Machine learning algorithms in web page classification | |
Ah-Pine et al. | Similarity based hierarchical clustering with an application to text collections | |
JP2005149014A (ja) | 文書関連語彙獲得方法及び装置及びプログラム | |
JP2005346223A (ja) | 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体 | |
Cotter et al. | Interpretable set functions | |
Lakshman et al. | Embracing structure in data for billion-scale semantic product search | |
JP2009116593A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP2019125124A (ja) | 抽出装置、抽出方法、及び抽出プログラム | |
JP2008276344A (ja) | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2007317132A (ja) | 概念ベクトル推定方法及び装置及びプログラム | |
KR102062139B1 (ko) | 지능형 자료구조 기반의 데이터 처리 방법 및 그를 위한 장치 |