JP2006338157A - Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein - Google Patents
Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein Download PDFInfo
- Publication number
- JP2006338157A JP2006338157A JP2005159777A JP2005159777A JP2006338157A JP 2006338157 A JP2006338157 A JP 2006338157A JP 2005159777 A JP2005159777 A JP 2005159777A JP 2005159777 A JP2005159777 A JP 2005159777A JP 2006338157 A JP2006338157 A JP 2006338157A
- Authority
- JP
- Japan
- Prior art keywords
- group
- topic
- document group
- document
- existing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書群が与えられたとき、それらをトピック毎にクラスタリングするための文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体に関する。 The present invention relates to a document group processing apparatus, a document group processing method, a document group processing program, a document group processing program, and a recording medium storing a document group processing program.
文書群をトピック毎にクラスタリングすることは、ユーザが容易に目的の文書を探し出すことを可能にする。ここで、クラスタリングとは、似ているもの同士をまとめることによって、分類対象をグループ化する手法のことである。クラスタリングの多くは人手で行われているが、近年、膨大な数の電子文書が蓄積されつつあり、機械的にクラスタリングする技術が極めて重要となってきており、これまでに多くのクラスタリング手法が提案されている(例えば、非特許文献1参照)。
しかしながら、例えば、非特許文献1で開示されている技術では、文書群を適切にクラスタリングすることができない。また、クラスタリングを行った結果生じた各クラスに適切なトピックを付与することはできない。
However, for example, the technique disclosed in
例えば、Webページの場合、検索サイトgoo(登録商標)(http://www.goo.ne.jp)のカテゴリ検索などのディレクトリ型検索エンジンにおいて、大量のページがトピック毎にラベル付けされている。しかし、goo(登録商標)のカテゴリ検索の第2レベルでも240以上のトピックが存在し、文書群を全てのトピックを用いてクラスタリングしたとしても、有用なクラスタリング結果は得られない。ユーザが容易に目的の文書を探し出すことを可能とするためには、トピック数が5から20程度であることが望ましいと考えられる。したがって、適度な数のトピック群を得る必要があるため、これらの多数のトピックの中から文書群に適合するトピックを選び出す必要がある。 For example, in the case of a Web page, in a directory type search engine such as a category search of a search site goo (registered trademark) (http://www.goo.ne.jp), a large number of pages are labeled for each topic. . However, 240 or more topics exist even in the second level of the category search of goo (registered trademark), and even if a document group is clustered using all topics, a useful clustering result cannot be obtained. In order to enable a user to easily find a target document, it is considered that the number of topics is preferably about 5 to 20. Therefore, since it is necessary to obtain an appropriate number of topic groups, it is necessary to select a topic that matches the document group from among these many topics.
そこで本発明は、以上のような問題点に鑑みてなされたものであり、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能な文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。また、抽出した適合トピック群毎に文書群をクラスタリングすることをさらに可能とする文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。 Therefore, the present invention has been made in view of the above problems, and a document group capable of extracting a topic group suitable for the document group using the existing topic group attached to the existing document group. It is an object of the present invention to provide a processing device, a document group processing method, a document group processing program, and a recording medium storing the document group processing program. Another object of the present invention is to provide a document group processing method, a document group processing program, and a recording medium storing the document group processing program, which further allow clustering of document groups for each extracted relevant topic group.
本発明は、前記課題を解決するために創案されたものであり、本発明の文書群処理装置は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築部と、既存トピック群確率モデル構築部において構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出部とを備える構成とした。 The present invention was created to solve the above-described problems, and the document group processing apparatus according to the present invention includes an existing topic group probability model construction unit that constructs a probability model of an existing topic group, and an existing topic group probability model. The configuration includes a matching topic group extraction unit that extracts a topic group that matches a document group by using the probability model constructed in the construction unit.
このような構成によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。ここで、文書群に適合するトピック群とは、文書群を説明するトピック群として好ましいトピックの集まりであり、適度な数の集まりを意味する。 According to such a configuration, the document group processing apparatus can extract a topic group suitable for the document group by using the existing topic group attached to the existing document group. Here, the topic group suitable for the document group is a group of topics preferable as a topic group for explaining the document group, and means an appropriate number of groups.
また、本発明の文書群処理方法は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップとを含む方法とした。 Further, the document group processing method of the present invention is adapted to a document group using an existing topic group probability model construction step for constructing a probability model of an existing topic group and a probability model constructed by the existing topic group probability model construction step. And a matching topic group extraction step for extracting a topic group to be performed.
このような方法によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。 According to such a method, the document group processing apparatus can extract a topic group that matches the document group by using the existing topic group attached to the existing document group.
また、本発明の文書群処理方法は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、適合トピック群抽出ステップによって抽出された適合トピック群毎に、文書群を分類する文書群分類ステップとを含む方法とした。 The document group processing method of the present invention is adapted to a document group by using an existing topic group probability model construction step for constructing a probability model of an existing topic group and a probability model constructed by the existing topic group probability model construction step. The method includes a matching topic group extraction step for extracting a topic group to be performed, and a document group classification step for classifying the document group for each matching topic group extracted by the matching topic group extraction step.
このような構成によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。さらに、抽出した適合トピック群毎に文書群をクラスタリングすることが可能となる。 According to such a configuration, the document group processing apparatus can extract a topic group suitable for the document group by using the existing topic group attached to the existing document group. Furthermore, it is possible to cluster document groups for each extracted matching topic group.
また、本発明の文書群処理方法における既存トピック群確率モデル構築ステップは、既存文書群の単語出現頻度を用いて、単語生起確率を推定する単語生起確率推定ステップを含む方法とした。単語出現頻度及び単語生起確率については、発明を実施するための最良の形態において詳細に説明する。 Further, the existing topic group probability model construction step in the document group processing method of the present invention is a method including a word occurrence probability estimation step for estimating a word occurrence probability using the word appearance frequency of the existing document group. The word appearance frequency and the word occurrence probability will be described in detail in the best mode for carrying out the invention.
このような方法によれば、文書群処理装置は、既存文書群の単語出現頻度を用いて、単語生起確率を推定することが可能となる。また、推定した得られた単語生起確率を用いて、文書群に適合するトピック群を抽出することが可能となる。 According to such a method, the document group processing apparatus can estimate the word occurrence probability using the word appearance frequency of the existing document group. Further, it is possible to extract a topic group that matches the document group using the estimated word occurrence probability.
また、本発明の文書群処理方法における適合トピック群抽出ステップは、単語生起確率を用いて、トピック群の尤度を算出する尤度算出ステップと、尤度算出ステップによって算出されたトピック群の尤度を用いて、トピック群を抽出するトピック群抽出ステップとを含む方法とした。 In the document group processing method of the present invention, the matching topic group extraction step uses a word occurrence probability to calculate the likelihood of the topic group, and the topic group likelihood calculated by the likelihood calculation step. And a topic group extraction step of extracting topic groups using the degree.
このような方法によれば、文書群処理装置は、単語生起確率を用いて、トピック群の尤度を算出することが可能となる。また、算出によって得られたトピック群の尤度を用いて、文書群に適合するトピック群を抽出することが可能となる。 According to such a method, the document group processing apparatus can calculate the likelihood of the topic group using the word occurrence probability. Further, it is possible to extract a topic group that matches the document group using the likelihood of the topic group obtained by the calculation.
また、本発明の文書群処理方法における文書群分類ステップは、尤度を用いた計算に基づいて、文書群を分類する分類ステップを含む方法とした。 The document group classification step in the document group processing method of the present invention is a method including a classification step of classifying a document group based on a calculation using likelihood.
このような方法によれば、文書群処理装置は、尤度を用いた計算に基づいて、文書群を分類することが可能となる。 According to such a method, the document group processing apparatus can classify the document group based on the calculation using the likelihood.
また、このような文書群処理方法をコンピュータに実行させる文書群処理プログラムによれば、コンピュータに文書群処理装置と同様の機能を実行させることが可能である。さらに、このような文書群処理方法をコンピュータに実行させるプログラムを格納した記録媒体によれば、コンピュータに文書群処理装置と同様の機能を実行させるプログラムを記録媒体内に記憶させることが可能である。 Further, according to the document group processing program for causing a computer to execute such a document group processing method, it is possible to cause the computer to execute the same function as that of the document group processing apparatus. Furthermore, according to a recording medium storing a program for causing a computer to execute such a document group processing method, it is possible to store in the recording medium a program for causing the computer to execute the same function as the document group processing apparatus. .
本発明によれば、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。また、抽出した適合トピック群毎に文書群をクラスタリングすることが可能となる。 According to the present invention, it is possible to extract a topic group that matches a document group using the existing topic group attached to the existing document group. In addition, it is possible to cluster document groups for each extracted matching topic group.
次に、本発明を実施するための最良の形態(以下、「実施形態」という)について図面を参照して説明する。 Next, the best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described with reference to the drawings.
図1は、本発明の実施形態に係る文書群処理装置のブロック図である。図1に示すように、文書群処理装置1は、演算手段2と、入力手段3と、記憶手段4と、出力手段5とを備えている。各手段はバスライン11に接続されている。
FIG. 1 is a block diagram of a document group processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the document
演算手段2は、既存トピック群確率モデル構築部21と、適合トピック群抽出部22と、メモリ23とを含んで構成される。演算手段2は、記憶手段4から既存トピック群確率モデル構築プログラム41及び適合トピック群抽出プログラム42を読み込み、メモリ23に格納し、実行することで、既存トピック群確率モデル構築部21及び適合トピック群抽出部22を実現する。既存トピック群確率モデル構築部21及び適合トピック群抽出部22の構成についての詳細は、後記する。演算手段2は、例えば、演算処理を行うCPU(Central Processing Unit)と、情報を記憶するRAM(Random Access Memory)とを含んで構成される。
The computing means 2 includes an existing topic group probability
入力手段3は、キーボードやディスクドライブ装置などから構成される。前記した既存文書群及びクラスタリングする文書群は、入力手段3を介して入力され、記憶手段4に記憶される構成とすることが可能である。
The input means 3 includes a keyboard and a disk drive device. The existing document group and the document group to be clustered can be input via the
記憶手段4は、ハードディスク装置などから構成される。記憶手段4は、既存トピック群確率モデル構築部21及び適合トピック群抽出部22のもとになる既存トピック群確率モデル構築プログラム41及び適合トピック群抽出プログラム42を記憶させておくことが可能である。また、記憶手段4は、既存文書群テーブル43と、単語生起確率テーブル44と、文書群テーブル45とを含んで構成される。
The storage means 4 is composed of a hard disk device or the like. The storage means 4 can store an existing topic group probability
ここで、既存文書群テーブル43は、トピックのラベルの付いたページ集合を格納するためのテーブルであり、ディレクトリ型検索エンジンなどに登録されているページ集合を格納するためのテーブルである。 Here, the existing document group table 43 is a table for storing a page set with a topic label, and is a table for storing a page set registered in a directory type search engine or the like.
また、単語生起確率テーブル44は、既存トピック群確率モデル構築部21によって算出された単語生起確率を格納するためのテーブルである。
The word occurrence probability table 44 is a table for storing the word occurrence probabilities calculated by the existing topic group probability
さらに、文書群テーブル45は、クラスタリングを行うページ集合を格納するためのテーブルであり、ディレクトリ型検索エンジンなどで検索して得られたページ集合を格納するためのテーブルである。 Further, the document group table 45 is a table for storing a set of pages for clustering, and is a table for storing a set of pages obtained by searching with a directory search engine or the like.
出力手段5は、例えば、グラフィックボード及びそれに接続されたモニタであり、文書群のクラスタリングを行った結果などを表示するものである。 The output means 5 is, for example, a graphic board and a monitor connected thereto, and displays the result of clustering the document group.
以下、図2及び図3を参照しながら、既存トピック群確率モデル構築部21と、適合トピック群抽出部22との構成について説明する。ここで、既存トピック群確率モデル構築部21は、演算手段2によって呼び出され、既存トピック群確率モデル構築部21の処理が終了すると、適合トピック群抽出部22が、演算手段2によって呼び出される。
Hereinafter, the configurations of the existing topic group probability
(既存トピック群確率モデル構築部21の説明)
図2は、本発明の実施形態に係る既存トピック群確率モデル構築部のブロック図である。図2に示すように、既存トピック群確率モデル構築部21は、既存文書群読込部211と、単語生起確率推定部212と、単語生起確率書込部213とを備えている。
(Description of the existing topic group probability model construction unit 21)
FIG. 2 is a block diagram of the existing topic group probability model construction unit according to the embodiment of the present invention. As shown in FIG. 2, the existing topic group probability
(既存文書群読込部211の説明)
既存文書群読込部211は、既存文書群テーブル43(図1参照)から、既存文書群X’を読み込み、メモリ23に格納するものである。既存文書群テーブル43(図1参照)は、前記した通り、ラベルの付いたページ集合である。X’は、X’k(k=1,…,K’)で定義される。ここで、K’は既存文書群全体のトピック数である。また、X’kはトピックkに属している文書集合であり、以下の式(1)によって定義される。
(Description of Existing Document Group Reading Unit 211)
The existing document
ここでN’kは、トピックkに属するページ数を表す。各要素x’knは、トピックkに属するページx’nにおけるV次元の単語出現頻度ベクトルであり、Vは総単語数を表す。総単語数とは、既存文書群X’全体の単語の総数を意味する。単語出現頻度ベクトルx’knは、以下の式(2)によって定義される。 Here, N ′ k represents the number of pages belonging to the topic k. Each element x ′ kn is a V-dimensional word appearance frequency vector in the page x ′ n belonging to the topic k, and V represents the total number of words. The total number of words means the total number of words in the entire existing document group X ′. The word appearance frequency vector x ′ kn is defined by the following equation (2).
ここでx’knjは、トピックkに属するページx’nにおける単語wjの出現頻度を表す。出現頻度とは、あるページ範囲内に特定の単語が出現する回数を表したものである。 Here, x ′ knj represents the appearance frequency of the word w j in the page x ′ n belonging to the topic k. The appearance frequency represents the number of times a specific word appears within a certain page range.
(単語生起確率推定部212の説明)
単語生起確率推定部212は、既存文書群読込部211によってメモリ23に格納された既存文書群X’k(k=1,…,K’)に基づいて、単語生起確率θkjを算出し、メモリ23に格納するものである。ここで単語生起確率θkjは、トピックkに属するページにおける単語wjの出現確率を意味するものである。単語生起確率θkjは、各トピックの確率モデルとして、例えば、NB(Naive Bayes)モデルを採用し、以下の式(3)によって推定することが可能である。
(Description of word occurrence probability estimation unit 212)
The word occurrence
なお、NBモデルについては、例えば、「McCallum,A., Nigam, K.(1998) A comparison of event models for naive Bayes text classification. In:AAAI-98 Workshop on Learning for Text Categorization」に記載されている。λkはスムージングパラメータであり、クロスバリデーション法を用いて算出することが可能である。クロスバリデーション法については、例えば、前記した非特許文献1に記載されている。
The NB model is described in, for example, “McCallum, A., Nigam, K. (1998) A comparison of event models for naive Bayes text classification. In: AAAI-98 Workshop on Learning for Text Categorization”. . λ k is a smoothing parameter and can be calculated using a cross-validation method. About the cross-validation method, it describes in above-mentioned
(単語生起確率書込部213の説明)
単語生起確率書込部213は、単語生起確率推定部212によって推定され、メモリ23に格納された単語生起確率θkjを、単語生起確率テーブル44(図1参照)に格納するものである。単語生起確率テーブル44(図1参照)に格納された単語生起確率θkjは、適合トピック群抽出部22で利用される。
(Description of word occurrence probability writing unit 213)
The word occurrence
(適合トピック群抽出部22の説明)
図3は、本発明の実施形態に係る適合トピック群抽出部のブロック図である。図3に示すように、適合トピック群抽出部22は、単語生起確率読込部221と、文書群読込部222と、既存トピック群取得部223と、対数尤度計算部224と、トピック群ソート部225と、トピック削除部226とを備えている。
(Description of relevant topic group extraction unit 22)
FIG. 3 is a block diagram of an adapted topic group extraction unit according to the embodiment of the present invention. As shown in FIG. 3, the matching topic
(単語生起確率読込部221の説明)
単語生起確率読込部221は、単語生起確率テーブル44(図1参照)から、単語生起確率θkjを読み込み、メモリ23に格納するものである。
(Description of word occurrence probability reading unit 221)
The word occurrence
(文書群読込部222の説明)
文書群読込部222は、文書群テーブル45(図1参照)から、文書群Xを読み込み、メモリ23に格納するものである。文書群テーブル45(図1参照)は、前記した通り、クラスタリングを行うページ集合である。Xは、xn(n=1,…,N)で定義される。ここで、Nは文書群全体のページ数である。また、xnはページXnにおけるV次元の単語出現頻度ベクトルであり、Vは総単語数を表す。総単語数とは、前記した通り、既存文書群X’全体の単語の総数を意味する。単語出現頻度ベクトルxnは、単語出現頻度xnjを用いて、以下の式(4)によって定義される。
(Description of document group reading unit 222)
The document
(既存トピック群取得部223の説明)
既存トピック群取得部223は、単語生起確率読込部221によってメモリ23に格納された単語生起確率θkjから既存トピック群G’を取得し、メモリ23に格納するものである。ここで、既存トピック群取得部223が取得した既存トピック群G’は、G’={1,…,K’}によって定義される。単語生起確率θkjは、トピックkと単語wjとを指定すると得られる値であるので、既存トピック群G’{1,…,K’}の情報を有している。また、適合トピック群Gに、既存トピック群G’を代入することによって、適合トピック群Gに初期値を設定する。適合トピック群Gは、文書群Xに適合するトピックを抽出するために使用され、G⊂{1,…,K’}を満たすものである。
(Description of the existing topic group acquisition unit 223)
The existing topic
(対数尤度計算部224の説明)
対数尤度計算部224は、単語生起確率読込部221によってメモリ23に読み込まれた単語生起確率θkjと、文書群読込部222によってメモリ23に読み込まれた文書群Xとを利用して、対数尤度logp(xn|k)を計算し、メモリ23に格納するものである。対数尤度logp(xn|k)は、文書群XのページXn(n=1,…,N)と、既存文書群X’のトピックk(k=1,…,K’)との全ての組み合わせについて算出される。対数尤度logp(xn|k)は、以下の式(5)によって計算される。
(Description of Log Likelihood Calculation Unit 224)
The log
(トピック群ソート部225の説明)
トピック群ソート部225は、対数尤度計算部224によって算出されてメモリ23に格納された対数尤度logp(xn|k)を利用して、推定トピックcn(G)を計算し、メモリ23に格納するものである。推定トピックcn(G)は、以下の式(6)によって計算される。
(Description of Topic Group Sorting Unit 225)
The topic
また、トピック群ソート部225は、メモリ23に格納された推定トピックcn(G)を利用して、推定トピックkに対応するページ数Nk(k=1,…,K’)を計算し、メモリ23に格納するものである。
The topic
また、トピック群ソート部225は、推定トピックkに対応するページが存在しない場合、すなわち推定トピックkに対応するページ数Nkが正ではない場合に、推定トピックkをメモリ23内の適合トピック群Gから削除する処理を、推定トピックk(k=1,…,K’)について行うものである。ここで、K’は、既存トピック群G’の要素数である。この処理によって、トピック群ソート部225は、対応するページが存在する適合トピック群G={1,…,K}を抽出することが可能である。
Further, the topic
さらに、トピック群ソート部225は、メモリ23内の推定トピックkのページ数Nkの昇順に適合トピック群GをソートしたリストL={L1,…,LK}を作成し、メモリ23に格納するものである。
Further, the topic
(トピック削除部226の説明)
トピック削除部226は、AIC(Akaike's Information Criterion)の値が最小になる適合トピック群Gを選択することによって、最適な適合トピック群Gを抽出するために、適合トピックに該当しないトピックを削除するものである。なお、AICについては、例えば、「Akaike,H.(1973).Information theory and extension of the maximum likelihood principle」に記載されている。
(Description of Topic Deletion Unit 226)
The
AICの値が最小になるモデルを選択する方法としては、例えば、AIC(G)とAIC(G−m)とを比較し、AIC(G)>AIC(G−m)を満たす場合に、適合トピック群GからLmを削除する処理を、m=1,…,Kについて順番に、すなわちページ数Nkの少ないトピックから順番に行うというものが考えられる。ここで、G−mは、適合トピック群GからLmを取り除いたものである。AIC(G)の値は、メモリ23内の適合トピック群G、対数尤度logp(xn|k)及び推定トピックcn(G)を利用して、以下の式(7)を用いて計算される。
As a method of selecting a model that minimizes the value of AIC, for example, when AIC (G) is compared with AIC (G- m ) and AIC (G)> AIC (G- m ) is satisfied, it is suitable. It can be considered that the process of deleting L m from the topic group G is performed in order for m = 1,..., K, that is, in order from the topic having the smallest page number N k . Here, G− m is obtained by removing L m from the matching topic group G. The value of AIC (G) is calculated using the following formula (7) using the matching topic group G, the log likelihood logp (x n | k), and the estimated topic c n (G) in the
なお、適合トピック群Gが変更された場合には、推定トピックcn(G)及びAIC(G)の値も変更されるので、適合トピック群GからLmを削除した後に、推定トピックcn(G)及びAIC(G)の値を再度利用する場合などには、メモリ23内の推定トピックcn(G)及びAIC(G)の値を正しい値に更新してから利用する必要がある。トピック群G−mについても同様である。
Note that when the matching topic group G is changed, the values of the estimated topics c n (G) and AIC (G) are also changed. Therefore, after deleting L m from the matching topic group G, the estimated topics c n When the values of (G) and AIC (G) are used again, it is necessary to update the values of the estimated topics c n (G) and AIC (G) in the
また、トピック削除部226は、対応するページが存在しないトピックkを、適合トピック群Gから予め削除しておくことにより、対応するページが存在しないトピックkを含んだ適合トピック群Gに対するソート処理及びAIC(G)の計算処理を省略することが可能となる。
In addition, the
さらに、適合トピック群抽出部22によって抽出された適合トピック群Gと、文書群Xとを、式(7)に適用すれば、適合トピック群G毎に文書群Xをクラスタリングすることが可能となる。
Furthermore, if the matching topic group G and the document group X extracted by the matching topic
次に、図4を参照(適宜図1参照)しながら、演算手段2(図1参照)が行う処理について説明する。図4は、本発明の実施形態に係る演算手段の処理を表すフローチャートである。 Next, processing performed by the computing means 2 (see FIG. 1) will be described with reference to FIG. 4 (see FIG. 1 as appropriate). FIG. 4 is a flowchart showing the processing of the calculation means according to the embodiment of the present invention.
図4に示すように、演算手段2は、まず、既存トピック群確率モデル構築部21による既存トピック群確率モデル構築処理を行う(S10)。続いて、適合トピック群抽出部22による適合トピック群抽出処理を行い(S20)、処理を終了する。以下、S10の処理の詳細について、図5を用いて説明する。また、S20の処理の詳細について、図6、7及び8を用いて説明する。
As shown in FIG. 4, the computing means 2 first performs an existing topic group probability model construction process by the existing topic group probability model construction unit 21 (S10). Subsequently, a matching topic group extraction process by the matching topic
図5を参照(適宜図1及び2参照)しながら、既存トピック群確率モデル構築部21(図1参照)が行う処理について説明する。図5は、本発明の実施形態に係る既存トピック群確率モデル構築部の処理を表すフローチャートである。 Processing performed by the existing topic group probability model construction unit 21 (see FIG. 1) will be described with reference to FIG. 5 (see FIGS. 1 and 2 as appropriate). FIG. 5 is a flowchart showing processing of the existing topic group probability model construction unit according to the embodiment of the present invention.
図5に示すように、既存文書群読込部211は、既存文書群X’を既存文書群テーブル43から読み込み、メモリ23に格納する(S11)。続いて、単語生起確率推定部212は、メモリ23に格納された既存文書群に基づいて、単語生起確率θkjを推定し、メモリ23に格納する(S12)。単語生起確率θkjは、前記した式(3)によって計算することが可能である。そして、単語生起確率書込部213は、メモリ23に格納された単語生起確率θkjを単語生起確率テーブル44に書き込み(S13)、処理を終了する。
As shown in FIG. 5, the existing document
図6、7及び8を参照(適宜図1及び3参照)しながら、適合トピック群抽出部22(図1参照)が行う処理について説明する。図6、7及び8は、本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。 The processing performed by the adapted topic group extraction unit 22 (see FIG. 1) will be described with reference to FIGS. 6, 7 and 8 (see FIGS. 1 and 3 as appropriate). 6, 7 and 8 are flowcharts showing the processing of the adapted topic group extraction unit according to the embodiment of the present invention.
図6に示すように、単語生起確率読込部221は、単語生起確率θkjを単語生起確率テーブル44から読み込み、メモリ23に格納する(S201)。続いて、文書群読込部222は、文書群Xを文書群テーブル45から読み込み、メモリ23に格納する(S202)。
As shown in FIG. 6, the word occurrence
既存トピック群取得部223は、メモリ23内の単語生起確率θkjから既存トピック群G’を取得し、メモリ23に格納する(S203)。また、メモリ23内に適合トピック群Gを確保し、既存トピック群G’を代入して初期値を設定する(S204)。
The existing topic
対数尤度計算部224は、メモリ23内の単語生起確率θkj及び文書群Xを用いて、対数尤度logp(xn|k)を計算し、メモリ23に格納する(S205)。対数尤度logp(xn|k)は、前記した式(5)によって計算することが可能である。
The log
次に、図7に示すように、トピック群ソート部225は、メモリ23内の対数尤度logp(xn|k)を用いて、推定トピックcn(G)を計算し、メモリ23に格納する(S206)。推定トピックcn(G)は、前記した式(6)によって計算することが可能である。続いて、メモリ23内の推定トピックcn(G)を用いて、推定トピックkのページ数Nkを計算し、メモリ23に格納する(S207)。
Next, as shown in FIG. 7, the topic
トピック群ソート部225は、メモリ23内にカウンタtを確保し、tに1を設定する(S208)。続いて、ページ数Ntが正であるかを判定する(S209)。ページ数Ntが正ではない場合(S209でNoの場合)、メモリ23内の適合トピック群Gからトピックtを削除して(S210)、S211に進む。ページ数Ntが正の場合(S209でYesの場合)、何もせず、S211に進む。S211に進んだ場合、カウンタtに1を加算し(S211)、カウンタtが既存トピック群G’の要素数K’を超えたか否かを判定する(S212)。tが既存トピック群G’の要素数K’を超えていない場合(S212でNoの場合)、S209に戻る。tが既存トピック群G’の要素数K’を超えた場合(S212でYesの場合)、S213に進む。
The topic
S213に進んだ場合、トピック群ソート部225は、メモリ23内の推定トピックkのページ数Nkの昇順に適合トピック群GをソートしたリストL=[L1,…,LK]を作成し、メモリ23に格納する(S213)。
When the process proceeds to S213, the topic
次に、図8に示すように、S214に進んだ場合、トピック削除部226は、メモリ23内の適合トピック群G、対数尤度logp(xn|k)及び推定トピックcn(G)を用いて、AIC(G)を計算し、メモリ23に格納する(S214)。AIC(G)は、前記した式(7)によって計算することが可能である。続いて、メモリ23内にカウンタmを確保し、mに1を設定する(S215)。
Next, as illustrated in FIG. 8, when the process proceeds to S <b > 214, the
トピック削除部226は、Lmを適合トピック群Gから削除したトピック群G−mとし、メモリ23内の対数尤度logp(xn|k)を用いて、推定トピックcn(G−m)を計算して、メモリ23に格納する(S216)。続いて、G−m、対数尤度logp(xn|k)及び推定トピックcn(G−m)を用いて、AIC(G−m)を計算し、メモリ23に格納する(S217)。そして、AIC(G)と、AIC(G−m)との値を比較し、AIC(G−m)がAIC(G)より小さくない場合(S218でNoの場合)、S222に進む。AIC(G−m)がAIC(G)より小さい場合(S218でYesの場合)、適合トピック群GからLmを削除し(S219)、cn(G)の値をcn(G−m)で更新し(S220)、AIC(G)の値をAIC(G−m)で更新し(S221)、S222に進む。
The
S222に進んだ場合、カウンタmに1を加算し(S222)、カウンタmがリストLの要素数Kを超えたか否かを判定する(S223)。mがリストLの要素数Kを超えていない場合(S223でNoの場合)、S216に戻る。mがリストLの要素数Kを超えた場合(S223でYesの場合)、メモリ23内の対数尤度logp(xn|k)及び抽出された適合トピック群Gを用いて、推定トピックcn(G)を計算し、メモリ23に格納して(S224)、処理を終了する。
When the process proceeds to S222, 1 is added to the counter m (S222), and it is determined whether or not the counter m exceeds the number K of elements in the list L (S223). If m does not exceed the number K of elements in the list L (No in S223), the process returns to S216. If m exceeds the number K of elements in the list L (Yes in S223), the estimated topic c n is calculated using the log likelihood logp (x n | k) in the
以上のステップにより、文書群処理装置1は、適合トピック群Gを抽出することが可能である。また、抽出された適合トピック群Gと、文書群Xとを、式(7)に適用することで、適合トピック群G毎に文書群Xをクラスタリングすることが可能となる。
Through the above steps, the document
なお、本実施形態における文書群処理装置1は、抽出された適合トピック群Gと、文書群Xとを、式(7)に適用することで、適合トピック群G毎に文書群Xをクラスタリングする機能も備えることとしたが、単に、文書群Xに適合する適合トピック群Gを抽出する機能を有する装置として、文書群処理装置を実現することも可能である。
Note that the document
また、本実施形態においては、適合トピック群Gを選択する方法として、AICを用いることとしたが、適合トピック群Gの選択方法はこれに限定されるものではない。例えば、AICの代わりにMDL(Minimum Description Length)などのモデル選択基準を用いることも可能である。なお、MDLについては、例えば、「Rissanen,J.,(1983).A universal prior for integers and estimation by minimum description length,The annals of Statistics,Vol.11,NO.2,pp.416-431」に記載されている。 In this embodiment, AIC is used as a method for selecting the matching topic group G. However, the method for selecting the matching topic group G is not limited to this. For example, model selection criteria such as MDL (Minimum Description Length) can be used instead of AIC. For MDL, see, for example, “Rissanen, J., (1983) .A universal prior for integers and estimation by minimum description length, The annals of Statistics, Vol.11, NO.2, pp.416-431”. Are listed.
また、本実施形態では、適合トピック数に制限を設けないこととしたが、適合トピック数に制限を設け、適合トピック数が制限した値以下になったら、適合トピックを選択する処理を終了することも可能である。適合トピック数に制限を設けることで、適度なトピック数の適合トピックを抽出することが可能となる。 In this embodiment, the number of conforming topics is not limited. However, the number of conforming topics is limited, and when the number of conforming topics falls below the limited value, the process of selecting conforming topics is terminated. Is also possible. By limiting the number of applicable topics, it is possible to extract appropriate topics with an appropriate number of topics.
(文書群処理装置の評価)
本発明の実施形態における文書群処理装置の有効性を評価するため、Webの検索結果で得られたページ群のクラスタリングを行った。用いた既存トピック群は、goo(登録商標)のカテゴリ検索の第2レベルの242トピックであり、この中に含まれる74233ページを用いて各トピックの確率モデルを構築した。ここでの総単語数Vは50129であった。
(Evaluation of document group processing device)
In order to evaluate the effectiveness of the document group processing apparatus in the embodiment of the present invention, clustering of page groups obtained from Web search results was performed. The existing topic group used is 242 topics in the second level of category search of goo (registered trademark), and a probability model of each topic is constructed using 74233 pages included therein. The total number of words V here was 50129.
「ハブ」を検索語にしたときの検索結果約1000ページを本発明の実施形態における文書群処理装置でクラスタリングした結果、「生物学」、「ペット」、「料理、グルメ」、「オークション」、「専門店」、「パソコンショップ」、「ハードウェア」、「ネットワーク関連」、「ビジネスニュース」、「人文科学」、「辞書、辞典」、「ブロードバンドの知識」の計12のトピックが抽出された。 As a result of clustering about 1000 pages of search results when “hub” is used as a search term by the document group processing apparatus in the embodiment of the present invention, “biology”, “pet”, “cooking, gourmet”, “auction”, A total of 12 topics were extracted: “specialized store”, “computer shop”, “hardware”, “network related”, “business news”, “humanities”, “dictionary, dictionary”, “broadband knowledge”. .
従来のクラスタリング手法を用いた場合に、各トピックラベル(生物学やペットなど)を付けることは困難であるが、本発明の実施形態におけるクラスタリングには、人手で付けられた分かりやすいラベルが付けられる。 Although it is difficult to attach each topic label (biology, pet, etc.) when using the conventional clustering method, easy-to-understand labels manually attached are attached to the clustering in the embodiment of the present invention. .
各トピックラベルに対応するページとして、「生物学」、「ペット」にはヘビのハブに関するページ、「料理、グルメ」にはハブ茶に関するページ、「オークション」、「専門店」、「パソコンショップ」、「ハードウェア」、「ネットワーク関連」にはネットワークのハブに関するページ、「人文科学」には史資料ハブ地域文化研究拠点という研究プロジェクトに関するページが見付かった。 As pages corresponding to each topic label, “biology”, “pets” are pages about snake hubs, “cooking and gourmet” are pages about hub teas, “auctions”, “special stores”, “computer shops” In "Hardware" and "Network-related", a page on network hubs was found, and in "Humanities", a page on research projects called the historical material hub regional culture research center was found.
「ハブ」には様々な意味があるが、このようにトピック毎に分類されることにより、検索の効率化が期待できる。また、検索の効率化だけではなく、検索語がWeb上でどのような意味で使われているのかを知ることも可能である。この例の場合、例えば、史資料ハブ地域文化研究拠点という研究プロジェクトに関するページが見付かり、「人文科学」においても使われていることが発見できる。 “Hub” has various meanings, and it can be expected that search efficiency is improved by classifying each topic in this way. In addition to improving search efficiency, it is also possible to know what meaning a search term is used on the Web. In this case, for example, a page related to a research project called “Historical Resource Hub Regional Culture Research Center” can be found, and it can be found that it is also used in “humanities”.
1 文書群処理装置
2 演算手段
3 入力手段
4 記憶手段
5 出力手段
11 バスライン
21 既存トピック群確率モデル構築部
22 適合トピック群抽出部
23 メモリ
41 既存トピック群確率モデル構築プログラム
42 適合トピック群抽出プログラム
43 既存文書群テーブル
44 単語生起確率テーブル
45 文書群テーブル
211 既存文書群読込部
212 単語生起確率推定部
213 単語生起確率書込部
221 単語生起確率読込部
222 文書群読込部
223 既存トピック群取得部
224 対数尤度計算部
225 トピック群ソート部
226 トピック削除部
DESCRIPTION OF
Claims (8)
前記文書群処理装置は、
前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築部と、
前記既存トピック群確率モデル構築部において構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出部と
を備えることを特徴とする文書群処理装置。 A document group processing apparatus that extracts a topic group that matches a document group using the existing topic group attached to the existing document group,
The document group processing device includes:
An existing topic group probability model building unit for building a probability model of the existing topic group;
A document group processing apparatus comprising: an adapted topic group extraction unit that extracts a topic group that matches the document group using the probability model constructed in the existing topic group probability model construction unit.
前記文書群処理方法は、
前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、
前記既存トピック群確率モデル構築ステップによって構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出ステップと
を含むことを特徴とする文書群処理方法。 A document group processing method by a document group processing apparatus for extracting a topic group suitable for a document group using an existing topic group attached to an existing document group,
The document group processing method includes:
An existing topic group probability model construction step of constructing a probability model of the existing topic group;
A document group processing method comprising: a matching topic group extraction step of extracting a topic group that matches the document group using the probability model constructed by the existing topic group probability model construction step.
前記文書群処理方法は、
前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、
前記既存トピック群確率モデル構築ステップによって構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、
前記適合トピック群抽出ステップによって抽出された適合トピック群毎に、前記文書群を分類する文書群分類ステップと
を含むことを特徴とする文書群処理方法。 A document group processing method by a document group processing apparatus that extracts a topic group that matches a document group using an existing topic group attached to an existing document group and classifies the document group for each extracted conforming topic group. ,
The document group processing method includes:
An existing topic group probability model construction step of constructing a probability model of the existing topic group;
A matching topic group extraction step of extracting a topic group that matches the document group using the probability model constructed by the existing topic group probability model construction step;
A document group processing method comprising: a document group classification step for classifying the document group for each of the matching topic groups extracted by the matching topic group extraction step.
前記既存文書群の単語出現頻度を用いて、単語生起確率を推定する単語生起確率推定ステップ
を含むことを特徴とする請求項2または3に記載の文書群処理方法。 The existing topic group probability model construction step includes:
The document group processing method according to claim 2, further comprising a word occurrence probability estimating step of estimating a word occurrence probability using a word appearance frequency of the existing document group.
単語生起確率を用いて、トピック群の尤度を算出する尤度算出ステップと、
前記尤度算出ステップによって算出された前記トピック群の尤度を用いて、トピック群を抽出するトピック群抽出ステップと
を含むことを特徴とする請求項2乃至4に記載の文書群処理方法。 The matching topic group extraction step includes:
A likelihood calculating step of calculating the likelihood of the topic group using the word occurrence probability;
5. The document group processing method according to claim 2, further comprising: a topic group extracting step of extracting a topic group using the likelihood of the topic group calculated by the likelihood calculating step.
尤度を用いた計算に基づいて、前記文書群を分類する分類ステップ
を含むことを特徴とする請求項3に記載の文書群処理方法。 The document group classification step includes:
The document group processing method according to claim 3, further comprising: a classification step of classifying the document group based on calculation using likelihood.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005159777A JP2006338157A (en) | 2005-05-31 | 2005-05-31 | Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005159777A JP2006338157A (en) | 2005-05-31 | 2005-05-31 | Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006338157A true JP2006338157A (en) | 2006-12-14 |
Family
ID=37558684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005159777A Pending JP2006338157A (en) | 2005-05-31 | 2005-05-31 | Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006338157A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102795A (en) * | 2005-10-07 | 2007-04-19 | Xerox Corp | Document clustering |
JP2011199867A (en) * | 2010-03-19 | 2011-10-06 | Hamilton Sundstrand Corp | Bayesian approach to identifying sub-module failure |
JP2015084244A (en) * | 2014-12-16 | 2015-04-30 | 株式会社Ubic | Document research system, method and program providing prior information |
-
2005
- 2005-05-31 JP JP2005159777A patent/JP2006338157A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102795A (en) * | 2005-10-07 | 2007-04-19 | Xerox Corp | Document clustering |
JP2011199867A (en) * | 2010-03-19 | 2011-10-06 | Hamilton Sundstrand Corp | Bayesian approach to identifying sub-module failure |
JP2015084244A (en) * | 2014-12-16 | 2015-04-30 | 株式会社Ubic | Document research system, method and program providing prior information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mohammadi et al. | BDgraph: An R package for Bayesian structure learning in graphical models | |
US8620836B2 (en) | Preprocessing of text | |
JP5171962B2 (en) | Text classification with knowledge transfer from heterogeneous datasets | |
US8504492B2 (en) | Identification of attributes and values using multiple classifiers | |
CN103678418B (en) | Information processing method and message processing device | |
US20190180327A1 (en) | Systems and methods of topic modeling for large scale web page classification | |
JP6229665B2 (en) | Text mining device, text mining system, text mining method and program | |
JP2007287139A (en) | Computer-implemented method and system for recommending product to consumer | |
US20130204835A1 (en) | Method of extracting named entity | |
CN115062621A (en) | Label extraction method and device, electronic equipment and storage medium | |
JP2010282276A (en) | Apparatus and method for video recognition, and program | |
JP2006338157A (en) | Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein | |
CN111125329B (en) | Text information screening method, device and equipment | |
Kamruzzaman et al. | Text classification using association rule with a hybrid concept of naive Bayes classifier and genetic algorithm | |
CN110442674B (en) | Label propagation clustering method, terminal equipment, storage medium and device | |
CN112487263A (en) | Information processing method, system, equipment and computer readable storage medium | |
Tang et al. | Enriching feature engineering for short text samples by language time series analysis | |
Pandi et al. | A novel similarity measure for sequence data | |
JP4544047B2 (en) | Web image search result classification presentation method and apparatus, program, and storage medium storing program | |
Lin et al. | Dynamic EMCUD for knowledge acquisition | |
WO2018220688A1 (en) | Dictionary generator, dictionary generation method, and program | |
Yoon et al. | Efficient implementation of associative classifiers for document classification | |
JP5824429B2 (en) | Spam account score calculation apparatus, spam account score calculation method, and program | |
CN107391674B (en) | New type mining method and device | |
Tseng et al. | VODKA: Variant objects discovering knowledge acquisition |