JP2006338157A - Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein - Google Patents

Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein Download PDF

Info

Publication number
JP2006338157A
JP2006338157A JP2005159777A JP2005159777A JP2006338157A JP 2006338157 A JP2006338157 A JP 2006338157A JP 2005159777 A JP2005159777 A JP 2005159777A JP 2005159777 A JP2005159777 A JP 2005159777A JP 2006338157 A JP2006338157 A JP 2006338157A
Authority
JP
Japan
Prior art keywords
group
topic
document group
document
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005159777A
Other languages
Japanese (ja)
Inventor
Tomoharu Iwata
具治 岩田
Kazumi Saito
和巳 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005159777A priority Critical patent/JP2006338157A/en
Publication of JP2006338157A publication Critical patent/JP2006338157A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method for extracting a topic group adaptive for a document group by using an existing topic group attached to an existing document group and a method for classifying document groups for every topic suitable for the document group. <P>SOLUTION: This document group processing method comprises an existing topic group probability model construction step for constructing the probability model of an existing topic group, an adaptive topic group extraction step for extracting a topic group matched with a document group by using the probability model constructed by the existing topic group probability model construction step and a document group classification step for classifying the document groups for every adaptive topic group extracted by the suitable topic group extraction step. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、文書群が与えられたとき、それらをトピック毎にクラスタリングするための文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体に関する。   The present invention relates to a document group processing apparatus, a document group processing method, a document group processing program, a document group processing program, and a recording medium storing a document group processing program.

文書群をトピック毎にクラスタリングすることは、ユーザが容易に目的の文書を探し出すことを可能にする。ここで、クラスタリングとは、似ているもの同士をまとめることによって、分類対象をグループ化する手法のことである。クラスタリングの多くは人手で行われているが、近年、膨大な数の電子文書が蓄積されつつあり、機械的にクラスタリングする技術が極めて重要となってきており、これまでに多くのクラスタリング手法が提案されている(例えば、非特許文献1参照)。
R.Duda, P.Hart, and D.Stork著,押上守夫監訳,「パターン識別」,第2版,(米国), 新技術コミュニケーションズ,2001年,P.519−601
Clustering a document group for each topic enables a user to easily find a target document. Here, clustering is a technique for grouping similar objects by grouping similar objects together. Most of the clustering is done manually, but in recent years, a large number of electronic documents are being accumulated, and the technology of mechanical clustering has become extremely important, and many clustering methods have been proposed so far. (For example, refer nonpatent literature 1).
R.Duda, P.Hart, and D.Stork, translated by Morio Oshiage, “Pattern Identification”, 2nd Edition, (USA), New Technology Communications, 2001 519-601

しかしながら、例えば、非特許文献1で開示されている技術では、文書群を適切にクラスタリングすることができない。また、クラスタリングを行った結果生じた各クラスに適切なトピックを付与することはできない。   However, for example, the technique disclosed in Non-Patent Document 1 cannot appropriately cluster a document group. Moreover, an appropriate topic cannot be assigned to each class generated as a result of clustering.

例えば、Webページの場合、検索サイトgoo(登録商標)(http://www.goo.ne.jp)のカテゴリ検索などのディレクトリ型検索エンジンにおいて、大量のページがトピック毎にラベル付けされている。しかし、goo(登録商標)のカテゴリ検索の第2レベルでも240以上のトピックが存在し、文書群を全てのトピックを用いてクラスタリングしたとしても、有用なクラスタリング結果は得られない。ユーザが容易に目的の文書を探し出すことを可能とするためには、トピック数が5から20程度であることが望ましいと考えられる。したがって、適度な数のトピック群を得る必要があるため、これらの多数のトピックの中から文書群に適合するトピックを選び出す必要がある。   For example, in the case of a Web page, in a directory type search engine such as a category search of a search site goo (registered trademark) (http://www.goo.ne.jp), a large number of pages are labeled for each topic. . However, 240 or more topics exist even in the second level of the category search of goo (registered trademark), and even if a document group is clustered using all topics, a useful clustering result cannot be obtained. In order to enable a user to easily find a target document, it is considered that the number of topics is preferably about 5 to 20. Therefore, since it is necessary to obtain an appropriate number of topic groups, it is necessary to select a topic that matches the document group from among these many topics.

そこで本発明は、以上のような問題点に鑑みてなされたものであり、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能な文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。また、抽出した適合トピック群毎に文書群をクラスタリングすることをさらに可能とする文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。   Therefore, the present invention has been made in view of the above problems, and a document group capable of extracting a topic group suitable for the document group using the existing topic group attached to the existing document group. It is an object of the present invention to provide a processing device, a document group processing method, a document group processing program, and a recording medium storing the document group processing program. Another object of the present invention is to provide a document group processing method, a document group processing program, and a recording medium storing the document group processing program, which further allow clustering of document groups for each extracted relevant topic group.

本発明は、前記課題を解決するために創案されたものであり、本発明の文書群処理装置は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築部と、既存トピック群確率モデル構築部において構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出部とを備える構成とした。   The present invention was created to solve the above-described problems, and the document group processing apparatus according to the present invention includes an existing topic group probability model construction unit that constructs a probability model of an existing topic group, and an existing topic group probability model. The configuration includes a matching topic group extraction unit that extracts a topic group that matches a document group by using the probability model constructed in the construction unit.

このような構成によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。ここで、文書群に適合するトピック群とは、文書群を説明するトピック群として好ましいトピックの集まりであり、適度な数の集まりを意味する。   According to such a configuration, the document group processing apparatus can extract a topic group suitable for the document group by using the existing topic group attached to the existing document group. Here, the topic group suitable for the document group is a group of topics preferable as a topic group for explaining the document group, and means an appropriate number of groups.

また、本発明の文書群処理方法は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップとを含む方法とした。   Further, the document group processing method of the present invention is adapted to a document group using an existing topic group probability model construction step for constructing a probability model of an existing topic group and a probability model constructed by the existing topic group probability model construction step. And a matching topic group extraction step for extracting a topic group to be performed.

このような方法によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。   According to such a method, the document group processing apparatus can extract a topic group that matches the document group by using the existing topic group attached to the existing document group.

また、本発明の文書群処理方法は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、適合トピック群抽出ステップによって抽出された適合トピック群毎に、文書群を分類する文書群分類ステップとを含む方法とした。   The document group processing method of the present invention is adapted to a document group by using an existing topic group probability model construction step for constructing a probability model of an existing topic group and a probability model constructed by the existing topic group probability model construction step. The method includes a matching topic group extraction step for extracting a topic group to be performed, and a document group classification step for classifying the document group for each matching topic group extracted by the matching topic group extraction step.

このような構成によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。さらに、抽出した適合トピック群毎に文書群をクラスタリングすることが可能となる。   According to such a configuration, the document group processing apparatus can extract a topic group suitable for the document group by using the existing topic group attached to the existing document group. Furthermore, it is possible to cluster document groups for each extracted matching topic group.

また、本発明の文書群処理方法における既存トピック群確率モデル構築ステップは、既存文書群の単語出現頻度を用いて、単語生起確率を推定する単語生起確率推定ステップを含む方法とした。単語出現頻度及び単語生起確率については、発明を実施するための最良の形態において詳細に説明する。   Further, the existing topic group probability model construction step in the document group processing method of the present invention is a method including a word occurrence probability estimation step for estimating a word occurrence probability using the word appearance frequency of the existing document group. The word appearance frequency and the word occurrence probability will be described in detail in the best mode for carrying out the invention.

このような方法によれば、文書群処理装置は、既存文書群の単語出現頻度を用いて、単語生起確率を推定することが可能となる。また、推定した得られた単語生起確率を用いて、文書群に適合するトピック群を抽出することが可能となる。   According to such a method, the document group processing apparatus can estimate the word occurrence probability using the word appearance frequency of the existing document group. Further, it is possible to extract a topic group that matches the document group using the estimated word occurrence probability.

また、本発明の文書群処理方法における適合トピック群抽出ステップは、単語生起確率を用いて、トピック群の尤度を算出する尤度算出ステップと、尤度算出ステップによって算出されたトピック群の尤度を用いて、トピック群を抽出するトピック群抽出ステップとを含む方法とした。   In the document group processing method of the present invention, the matching topic group extraction step uses a word occurrence probability to calculate the likelihood of the topic group, and the topic group likelihood calculated by the likelihood calculation step. And a topic group extraction step of extracting topic groups using the degree.

このような方法によれば、文書群処理装置は、単語生起確率を用いて、トピック群の尤度を算出することが可能となる。また、算出によって得られたトピック群の尤度を用いて、文書群に適合するトピック群を抽出することが可能となる。   According to such a method, the document group processing apparatus can calculate the likelihood of the topic group using the word occurrence probability. Further, it is possible to extract a topic group that matches the document group using the likelihood of the topic group obtained by the calculation.

また、本発明の文書群処理方法における文書群分類ステップは、尤度を用いた計算に基づいて、文書群を分類する分類ステップを含む方法とした。   The document group classification step in the document group processing method of the present invention is a method including a classification step of classifying a document group based on a calculation using likelihood.

このような方法によれば、文書群処理装置は、尤度を用いた計算に基づいて、文書群を分類することが可能となる。   According to such a method, the document group processing apparatus can classify the document group based on the calculation using the likelihood.

また、このような文書群処理方法をコンピュータに実行させる文書群処理プログラムによれば、コンピュータに文書群処理装置と同様の機能を実行させることが可能である。さらに、このような文書群処理方法をコンピュータに実行させるプログラムを格納した記録媒体によれば、コンピュータに文書群処理装置と同様の機能を実行させるプログラムを記録媒体内に記憶させることが可能である。   Further, according to the document group processing program for causing a computer to execute such a document group processing method, it is possible to cause the computer to execute the same function as that of the document group processing apparatus. Furthermore, according to a recording medium storing a program for causing a computer to execute such a document group processing method, it is possible to store in the recording medium a program for causing the computer to execute the same function as the document group processing apparatus. .

本発明によれば、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。また、抽出した適合トピック群毎に文書群をクラスタリングすることが可能となる。   According to the present invention, it is possible to extract a topic group that matches a document group using the existing topic group attached to the existing document group. In addition, it is possible to cluster document groups for each extracted matching topic group.

次に、本発明を実施するための最良の形態(以下、「実施形態」という)について図面を参照して説明する。   Next, the best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described with reference to the drawings.

図1は、本発明の実施形態に係る文書群処理装置のブロック図である。図1に示すように、文書群処理装置1は、演算手段2と、入力手段3と、記憶手段4と、出力手段5とを備えている。各手段はバスライン11に接続されている。   FIG. 1 is a block diagram of a document group processing apparatus according to an embodiment of the present invention. As shown in FIG. 1, the document group processing apparatus 1 includes a calculation unit 2, an input unit 3, a storage unit 4, and an output unit 5. Each means is connected to the bus line 11.

演算手段2は、既存トピック群確率モデル構築部21と、適合トピック群抽出部22と、メモリ23とを含んで構成される。演算手段2は、記憶手段4から既存トピック群確率モデル構築プログラム41及び適合トピック群抽出プログラム42を読み込み、メモリ23に格納し、実行することで、既存トピック群確率モデル構築部21及び適合トピック群抽出部22を実現する。既存トピック群確率モデル構築部21及び適合トピック群抽出部22の構成についての詳細は、後記する。演算手段2は、例えば、演算処理を行うCPU(Central Processing Unit)と、情報を記憶するRAM(Random Access Memory)とを含んで構成される。   The computing means 2 includes an existing topic group probability model construction unit 21, a compatible topic group extraction unit 22, and a memory 23. The computing means 2 reads the existing topic group probability model construction program 41 and the compatible topic group extraction program 42 from the storage means 4, stores them in the memory 23, and executes them, whereby the existing topic group probability model construction unit 21 and the compatible topic groups are executed. The extraction unit 22 is realized. Details of the configurations of the existing topic group probability model construction unit 21 and the compatible topic group extraction unit 22 will be described later. The computing means 2 includes, for example, a CPU (Central Processing Unit) that performs arithmetic processing and a RAM (Random Access Memory) that stores information.

入力手段3は、キーボードやディスクドライブ装置などから構成される。前記した既存文書群及びクラスタリングする文書群は、入力手段3を介して入力され、記憶手段4に記憶される構成とすることが可能である。   The input means 3 includes a keyboard and a disk drive device. The existing document group and the document group to be clustered can be input via the input unit 3 and stored in the storage unit 4.

記憶手段4は、ハードディスク装置などから構成される。記憶手段4は、既存トピック群確率モデル構築部21及び適合トピック群抽出部22のもとになる既存トピック群確率モデル構築プログラム41及び適合トピック群抽出プログラム42を記憶させておくことが可能である。また、記憶手段4は、既存文書群テーブル43と、単語生起確率テーブル44と、文書群テーブル45とを含んで構成される。   The storage means 4 is composed of a hard disk device or the like. The storage means 4 can store an existing topic group probability model construction program 41 and a compatible topic group extraction program 42 that are the basis of the existing topic group probability model construction unit 21 and the matching topic group extraction unit 22. . The storage unit 4 includes an existing document group table 43, a word occurrence probability table 44, and a document group table 45.

ここで、既存文書群テーブル43は、トピックのラベルの付いたページ集合を格納するためのテーブルであり、ディレクトリ型検索エンジンなどに登録されているページ集合を格納するためのテーブルである。   Here, the existing document group table 43 is a table for storing a page set with a topic label, and is a table for storing a page set registered in a directory type search engine or the like.

また、単語生起確率テーブル44は、既存トピック群確率モデル構築部21によって算出された単語生起確率を格納するためのテーブルである。   The word occurrence probability table 44 is a table for storing the word occurrence probabilities calculated by the existing topic group probability model construction unit 21.

さらに、文書群テーブル45は、クラスタリングを行うページ集合を格納するためのテーブルであり、ディレクトリ型検索エンジンなどで検索して得られたページ集合を格納するためのテーブルである。   Further, the document group table 45 is a table for storing a set of pages for clustering, and is a table for storing a set of pages obtained by searching with a directory search engine or the like.

出力手段5は、例えば、グラフィックボード及びそれに接続されたモニタであり、文書群のクラスタリングを行った結果などを表示するものである。   The output means 5 is, for example, a graphic board and a monitor connected thereto, and displays the result of clustering the document group.

以下、図2及び図3を参照しながら、既存トピック群確率モデル構築部21と、適合トピック群抽出部22との構成について説明する。ここで、既存トピック群確率モデル構築部21は、演算手段2によって呼び出され、既存トピック群確率モデル構築部21の処理が終了すると、適合トピック群抽出部22が、演算手段2によって呼び出される。   Hereinafter, the configurations of the existing topic group probability model construction unit 21 and the matching topic group extraction unit 22 will be described with reference to FIGS. 2 and 3. Here, the existing topic group probability model construction unit 21 is called by the computing means 2, and when the processing of the existing topic group probability model construction unit 21 ends, the suitable topic group extraction unit 22 is called by the computing means 2.

(既存トピック群確率モデル構築部21の説明)
図2は、本発明の実施形態に係る既存トピック群確率モデル構築部のブロック図である。図2に示すように、既存トピック群確率モデル構築部21は、既存文書群読込部211と、単語生起確率推定部212と、単語生起確率書込部213とを備えている。
(Description of the existing topic group probability model construction unit 21)
FIG. 2 is a block diagram of the existing topic group probability model construction unit according to the embodiment of the present invention. As shown in FIG. 2, the existing topic group probability model construction unit 21 includes an existing document group reading unit 211, a word occurrence probability estimation unit 212, and a word occurrence probability writing unit 213.

(既存文書群読込部211の説明)
既存文書群読込部211は、既存文書群テーブル43(図1参照)から、既存文書群X’を読み込み、メモリ23に格納するものである。既存文書群テーブル43(図1参照)は、前記した通り、ラベルの付いたページ集合である。X’は、X’k(k=1,…,K’)で定義される。ここで、K’は既存文書群全体のトピック数である。また、X’kはトピックkに属している文書集合であり、以下の式(1)によって定義される。
(Description of Existing Document Group Reading Unit 211)
The existing document group reading unit 211 reads the existing document group X ′ from the existing document group table 43 (see FIG. 1) and stores it in the memory 23. The existing document group table 43 (see FIG. 1) is a set of pages with labels as described above. X ′ is defined by X ′ k (k = 1,..., K ′). Here, K ′ is the number of topics of the entire existing document group. X ′ k is a document set belonging to the topic k, and is defined by the following equation (1).

Figure 2006338157
Figure 2006338157

ここでN’kは、トピックkに属するページ数を表す。各要素x’knは、トピックkに属するページx’nにおけるV次元の単語出現頻度ベクトルであり、Vは総単語数を表す。総単語数とは、既存文書群X’全体の単語の総数を意味する。単語出現頻度ベクトルx’knは、以下の式(2)によって定義される。 Here, N ′ k represents the number of pages belonging to the topic k. Each element x ′ kn is a V-dimensional word appearance frequency vector in the page x ′ n belonging to the topic k, and V represents the total number of words. The total number of words means the total number of words in the entire existing document group X ′. The word appearance frequency vector x ′ kn is defined by the following equation (2).

Figure 2006338157
Figure 2006338157

ここでx’knjは、トピックkに属するページx’nにおける単語wjの出現頻度を表す。出現頻度とは、あるページ範囲内に特定の単語が出現する回数を表したものである。 Here, x ′ knj represents the appearance frequency of the word w j in the page x ′ n belonging to the topic k. The appearance frequency represents the number of times a specific word appears within a certain page range.

(単語生起確率推定部212の説明)
単語生起確率推定部212は、既存文書群読込部211によってメモリ23に格納された既存文書群X’k(k=1,…,K’)に基づいて、単語生起確率θkjを算出し、メモリ23に格納するものである。ここで単語生起確率θkjは、トピックkに属するページにおける単語wjの出現確率を意味するものである。単語生起確率θkjは、各トピックの確率モデルとして、例えば、NB(Naive Bayes)モデルを採用し、以下の式(3)によって推定することが可能である。
(Description of word occurrence probability estimation unit 212)
The word occurrence probability estimation unit 212 calculates a word occurrence probability θ kj based on the existing document group X ′ k (k = 1,..., K ′) stored in the memory 23 by the existing document group reading unit 211, It is stored in the memory 23. Here, the word occurrence probability θ kj means the appearance probability of the word w j on the page belonging to the topic k. The word occurrence probability θ kj can be estimated by the following equation (3), for example, by adopting an NB (Naive Bayes) model as a probability model of each topic.

Figure 2006338157
Figure 2006338157

なお、NBモデルについては、例えば、「McCallum,A., Nigam, K.(1998) A comparison of event models for naive Bayes text classification. In:AAAI-98 Workshop on Learning for Text Categorization」に記載されている。λkはスムージングパラメータであり、クロスバリデーション法を用いて算出することが可能である。クロスバリデーション法については、例えば、前記した非特許文献1に記載されている。 The NB model is described in, for example, “McCallum, A., Nigam, K. (1998) A comparison of event models for naive Bayes text classification. In: AAAI-98 Workshop on Learning for Text Categorization”. . λ k is a smoothing parameter and can be calculated using a cross-validation method. About the cross-validation method, it describes in above-mentioned nonpatent literature 1, for example.

(単語生起確率書込部213の説明)
単語生起確率書込部213は、単語生起確率推定部212によって推定され、メモリ23に格納された単語生起確率θkjを、単語生起確率テーブル44(図1参照)に格納するものである。単語生起確率テーブル44(図1参照)に格納された単語生起確率θkjは、適合トピック群抽出部22で利用される。
(Description of word occurrence probability writing unit 213)
The word occurrence probability writing unit 213 stores the word occurrence probability θ kj estimated by the word occurrence probability estimation unit 212 and stored in the memory 23 in the word occurrence probability table 44 (see FIG. 1). The word occurrence probability θ kj stored in the word occurrence probability table 44 (see FIG. 1) is used by the matching topic group extraction unit 22.

(適合トピック群抽出部22の説明)
図3は、本発明の実施形態に係る適合トピック群抽出部のブロック図である。図3に示すように、適合トピック群抽出部22は、単語生起確率読込部221と、文書群読込部222と、既存トピック群取得部223と、対数尤度計算部224と、トピック群ソート部225と、トピック削除部226とを備えている。
(Description of relevant topic group extraction unit 22)
FIG. 3 is a block diagram of an adapted topic group extraction unit according to the embodiment of the present invention. As shown in FIG. 3, the matching topic group extraction unit 22 includes a word occurrence probability reading unit 221, a document group reading unit 222, an existing topic group acquisition unit 223, a log likelihood calculation unit 224, and a topic group sorting unit. 225 and a topic deletion unit 226.

(単語生起確率読込部221の説明)
単語生起確率読込部221は、単語生起確率テーブル44(図1参照)から、単語生起確率θkjを読み込み、メモリ23に格納するものである。
(Description of word occurrence probability reading unit 221)
The word occurrence probability reading unit 221 reads the word occurrence probability θ kj from the word occurrence probability table 44 (see FIG. 1) and stores it in the memory 23.

(文書群読込部222の説明)
文書群読込部222は、文書群テーブル45(図1参照)から、文書群Xを読み込み、メモリ23に格納するものである。文書群テーブル45(図1参照)は、前記した通り、クラスタリングを行うページ集合である。Xは、xn(n=1,…,N)で定義される。ここで、Nは文書群全体のページ数である。また、xnはページXnにおけるV次元の単語出現頻度ベクトルであり、Vは総単語数を表す。総単語数とは、前記した通り、既存文書群X’全体の単語の総数を意味する。単語出現頻度ベクトルxnは、単語出現頻度xnjを用いて、以下の式(4)によって定義される。
(Description of document group reading unit 222)
The document group reading unit 222 reads the document group X from the document group table 45 (see FIG. 1) and stores it in the memory 23. As described above, the document group table 45 (see FIG. 1) is a set of pages for clustering. X is defined by x n (n = 1,..., N). Here, N is the number of pages of the entire document group. In addition, x n is the word appearance frequency vector of V dimension in the page X n, V represents the total number of words. As described above, the total number of words means the total number of words in the entire existing document group X ′. The word appearance frequency vector x n is defined by the following equation (4) using the word appearance frequency x nj .

Figure 2006338157
ここで、単語出現頻度xnjは、ページXnにおける単語wjの出現頻度を意味する。
Figure 2006338157
Here, the word appearance frequency x nj means the appearance frequency of the word w j in the page X n .

(既存トピック群取得部223の説明)
既存トピック群取得部223は、単語生起確率読込部221によってメモリ23に格納された単語生起確率θkjから既存トピック群G’を取得し、メモリ23に格納するものである。ここで、既存トピック群取得部223が取得した既存トピック群G’は、G’={1,…,K’}によって定義される。単語生起確率θkjは、トピックkと単語wjとを指定すると得られる値であるので、既存トピック群G’{1,…,K’}の情報を有している。また、適合トピック群Gに、既存トピック群G’を代入することによって、適合トピック群Gに初期値を設定する。適合トピック群Gは、文書群Xに適合するトピックを抽出するために使用され、G⊂{1,…,K’}を満たすものである。
(Description of the existing topic group acquisition unit 223)
The existing topic group acquisition unit 223 acquires the existing topic group G ′ from the word occurrence probability θ kj stored in the memory 23 by the word occurrence probability reading unit 221 and stores it in the memory 23. Here, the existing topic group G ′ acquired by the existing topic group acquisition unit 223 is defined by G ′ = {1,..., K ′}. Since the word occurrence probability θ kj is a value obtained by designating the topic k and the word w j , the word occurrence probability θ kj has information on the existing topic group G ′ {1,..., K ′}. Further, by substituting the existing topic group G ′ for the matching topic group G, an initial value is set for the matching topic group G. The matching topic group G is used to extract topics that match the document group X, and satisfies G を 満 た す {1,..., K ′}.

(対数尤度計算部224の説明)
対数尤度計算部224は、単語生起確率読込部221によってメモリ23に読み込まれた単語生起確率θkjと、文書群読込部222によってメモリ23に読み込まれた文書群Xとを利用して、対数尤度logp(xn|k)を計算し、メモリ23に格納するものである。対数尤度logp(xn|k)は、文書群XのページXn(n=1,…,N)と、既存文書群X’のトピックk(k=1,…,K’)との全ての組み合わせについて算出される。対数尤度logp(xn|k)は、以下の式(5)によって計算される。
(Description of Log Likelihood Calculation Unit 224)
The log likelihood calculation unit 224 uses the word occurrence probability θ kj read into the memory 23 by the word occurrence probability reading unit 221 and the document group X read into the memory 23 by the document group reading unit 222 to calculate the logarithm. The likelihood logp (x n | k) is calculated and stored in the memory 23. The log likelihood logp (x n | k) is calculated between the page X n (n = 1,..., N) of the document group X and the topic k (k = 1,..., K ′) of the existing document group X ′. Calculated for all combinations. The log likelihood logp (x n | k) is calculated by the following equation (5).

Figure 2006338157
Figure 2006338157

(トピック群ソート部225の説明)
トピック群ソート部225は、対数尤度計算部224によって算出されてメモリ23に格納された対数尤度logp(xn|k)を利用して、推定トピックcn(G)を計算し、メモリ23に格納するものである。推定トピックcn(G)は、以下の式(6)によって計算される。
(Description of Topic Group Sorting Unit 225)
The topic group sorting unit 225 calculates the estimated topic c n (G) using the log likelihood logp (x n | k) calculated by the log likelihood calculation unit 224 and stored in the memory 23, and the memory 23 is stored. The estimated topic c n (G) is calculated by the following equation (6).

Figure 2006338157
Figure 2006338157

また、トピック群ソート部225は、メモリ23に格納された推定トピックcn(G)を利用して、推定トピックkに対応するページ数Nk(k=1,…,K’)を計算し、メモリ23に格納するものである。 The topic group sorting unit 225 calculates the number of pages N k (k = 1,..., K ′) corresponding to the estimated topic k using the estimated topic c n (G) stored in the memory 23. Are stored in the memory 23.

また、トピック群ソート部225は、推定トピックkに対応するページが存在しない場合、すなわち推定トピックkに対応するページ数Nkが正ではない場合に、推定トピックkをメモリ23内の適合トピック群Gから削除する処理を、推定トピックk(k=1,…,K’)について行うものである。ここで、K’は、既存トピック群G’の要素数である。この処理によって、トピック群ソート部225は、対応するページが存在する適合トピック群G={1,…,K}を抽出することが可能である。 Further, the topic group sorting unit 225 selects the estimated topic k as the applicable topic group in the memory 23 when there is no page corresponding to the estimated topic k, that is, when the number of pages N k corresponding to the estimated topic k is not positive. The process of deleting from G is performed for the estimated topic k (k = 1,..., K ′). Here, K ′ is the number of elements of the existing topic group G ′. By this processing, the topic group sorting unit 225 can extract the matching topic group G = {1,..., K} where the corresponding page exists.

さらに、トピック群ソート部225は、メモリ23内の推定トピックkのページ数Nkの昇順に適合トピック群GをソートしたリストL={L1,…,LK}を作成し、メモリ23に格納するものである。 Further, the topic group sorting unit 225 creates a list L = {L 1 ,..., L K } in which the matching topic group G is sorted in ascending order of the number of pages N k of the estimated topic k in the memory 23. To store.

(トピック削除部226の説明)
トピック削除部226は、AIC(Akaike's Information Criterion)の値が最小になる適合トピック群Gを選択することによって、最適な適合トピック群Gを抽出するために、適合トピックに該当しないトピックを削除するものである。なお、AICについては、例えば、「Akaike,H.(1973).Information theory and extension of the maximum likelihood principle」に記載されている。
(Description of Topic Deletion Unit 226)
The topic deletion unit 226 deletes a topic that does not correspond to the conforming topic in order to extract the optimum conforming topic group G by selecting the conforming topic group G that minimizes the value of AIC (Akaike's Information Criterion). It is. The AIC is described in, for example, “Akaike, H. (1973). Information theory and extension of the maximum likelihood principle”.

AICの値が最小になるモデルを選択する方法としては、例えば、AIC(G)とAIC(G−m)とを比較し、AIC(G)>AIC(G−m)を満たす場合に、適合トピック群GからLmを削除する処理を、m=1,…,Kについて順番に、すなわちページ数Nkの少ないトピックから順番に行うというものが考えられる。ここで、G−mは、適合トピック群GからLmを取り除いたものである。AIC(G)の値は、メモリ23内の適合トピック群G、対数尤度logp(xn|k)及び推定トピックcn(G)を利用して、以下の式(7)を用いて計算される。 As a method of selecting a model that minimizes the value of AIC, for example, when AIC (G) is compared with AIC (G- m ) and AIC (G)> AIC (G- m ) is satisfied, it is suitable. It can be considered that the process of deleting L m from the topic group G is performed in order for m = 1,..., K, that is, in order from the topic having the smallest page number N k . Here, G− m is obtained by removing L m from the matching topic group G. The value of AIC (G) is calculated using the following formula (7) using the matching topic group G, the log likelihood logp (x n | k), and the estimated topic c n (G) in the memory 23. Is done.

Figure 2006338157
ここで、|G|は適合トピック群Gの要素数を表すものである。AIC(G−m)の値も同様の方法で計算することが可能である。
Figure 2006338157
Here, | G | represents the number of elements of the matching topic group G. The value of AIC (G −m ) can be calculated by the same method.

なお、適合トピック群Gが変更された場合には、推定トピックcn(G)及びAIC(G)の値も変更されるので、適合トピック群GからLmを削除した後に、推定トピックcn(G)及びAIC(G)の値を再度利用する場合などには、メモリ23内の推定トピックcn(G)及びAIC(G)の値を正しい値に更新してから利用する必要がある。トピック群G−mについても同様である。 Note that when the matching topic group G is changed, the values of the estimated topics c n (G) and AIC (G) are also changed. Therefore, after deleting L m from the matching topic group G, the estimated topics c n When the values of (G) and AIC (G) are used again, it is necessary to update the values of the estimated topics c n (G) and AIC (G) in the memory 23 to correct values. . The same applies to the topic group G- m .

また、トピック削除部226は、対応するページが存在しないトピックkを、適合トピック群Gから予め削除しておくことにより、対応するページが存在しないトピックkを含んだ適合トピック群Gに対するソート処理及びAIC(G)の計算処理を省略することが可能となる。   In addition, the topic deletion unit 226 deletes the topic k having no corresponding page from the matching topic group G in advance, thereby sorting the matching topic group G including the topic k having no corresponding page, It is possible to omit the AIC (G) calculation process.

さらに、適合トピック群抽出部22によって抽出された適合トピック群Gと、文書群Xとを、式(7)に適用すれば、適合トピック群G毎に文書群Xをクラスタリングすることが可能となる。   Furthermore, if the matching topic group G and the document group X extracted by the matching topic group extraction unit 22 are applied to Expression (7), the document group X can be clustered for each matching topic group G. .

次に、図4を参照(適宜図1参照)しながら、演算手段2(図1参照)が行う処理について説明する。図4は、本発明の実施形態に係る演算手段の処理を表すフローチャートである。   Next, processing performed by the computing means 2 (see FIG. 1) will be described with reference to FIG. 4 (see FIG. 1 as appropriate). FIG. 4 is a flowchart showing the processing of the calculation means according to the embodiment of the present invention.

図4に示すように、演算手段2は、まず、既存トピック群確率モデル構築部21による既存トピック群確率モデル構築処理を行う(S10)。続いて、適合トピック群抽出部22による適合トピック群抽出処理を行い(S20)、処理を終了する。以下、S10の処理の詳細について、図5を用いて説明する。また、S20の処理の詳細について、図6、7及び8を用いて説明する。   As shown in FIG. 4, the computing means 2 first performs an existing topic group probability model construction process by the existing topic group probability model construction unit 21 (S10). Subsequently, a matching topic group extraction process by the matching topic group extraction unit 22 is performed (S20), and the process ends. Hereinafter, details of the process of S10 will be described with reference to FIG. Details of the process of S20 will be described with reference to FIGS.

図5を参照(適宜図1及び2参照)しながら、既存トピック群確率モデル構築部21(図1参照)が行う処理について説明する。図5は、本発明の実施形態に係る既存トピック群確率モデル構築部の処理を表すフローチャートである。   Processing performed by the existing topic group probability model construction unit 21 (see FIG. 1) will be described with reference to FIG. 5 (see FIGS. 1 and 2 as appropriate). FIG. 5 is a flowchart showing processing of the existing topic group probability model construction unit according to the embodiment of the present invention.

図5に示すように、既存文書群読込部211は、既存文書群X’を既存文書群テーブル43から読み込み、メモリ23に格納する(S11)。続いて、単語生起確率推定部212は、メモリ23に格納された既存文書群に基づいて、単語生起確率θkjを推定し、メモリ23に格納する(S12)。単語生起確率θkjは、前記した式(3)によって計算することが可能である。そして、単語生起確率書込部213は、メモリ23に格納された単語生起確率θkjを単語生起確率テーブル44に書き込み(S13)、処理を終了する。 As shown in FIG. 5, the existing document group reading unit 211 reads the existing document group X ′ from the existing document group table 43 and stores it in the memory 23 (S11). Subsequently, the word occurrence probability estimation unit 212 estimates the word occurrence probability θ kj based on the existing document group stored in the memory 23 and stores it in the memory 23 (S12). The word occurrence probability θ kj can be calculated by the above equation (3). Then, the word occurrence probability writing unit 213 writes the word occurrence probability θ kj stored in the memory 23 in the word occurrence probability table 44 (S13), and ends the process.

図6、7及び8を参照(適宜図1及び3参照)しながら、適合トピック群抽出部22(図1参照)が行う処理について説明する。図6、7及び8は、本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。   The processing performed by the adapted topic group extraction unit 22 (see FIG. 1) will be described with reference to FIGS. 6, 7 and 8 (see FIGS. 1 and 3 as appropriate). 6, 7 and 8 are flowcharts showing the processing of the adapted topic group extraction unit according to the embodiment of the present invention.

図6に示すように、単語生起確率読込部221は、単語生起確率θkjを単語生起確率テーブル44から読み込み、メモリ23に格納する(S201)。続いて、文書群読込部222は、文書群Xを文書群テーブル45から読み込み、メモリ23に格納する(S202)。 As shown in FIG. 6, the word occurrence probability reading unit 221 reads the word occurrence probability θ kj from the word occurrence probability table 44 and stores it in the memory 23 (S201). Subsequently, the document group reading unit 222 reads the document group X from the document group table 45 and stores it in the memory 23 (S202).

既存トピック群取得部223は、メモリ23内の単語生起確率θkjから既存トピック群G’を取得し、メモリ23に格納する(S203)。また、メモリ23内に適合トピック群Gを確保し、既存トピック群G’を代入して初期値を設定する(S204)。 The existing topic group acquisition unit 223 acquires the existing topic group G ′ from the word occurrence probability θ kj in the memory 23 and stores it in the memory 23 (S203). Also, a suitable topic group G is secured in the memory 23, and an initial value is set by substituting the existing topic group G ′ (S204).

対数尤度計算部224は、メモリ23内の単語生起確率θkj及び文書群Xを用いて、対数尤度logp(xn|k)を計算し、メモリ23に格納する(S205)。対数尤度logp(xn|k)は、前記した式(5)によって計算することが可能である。 The log likelihood calculation unit 224 calculates the log likelihood logp (x n | k) using the word occurrence probability θ kj and the document group X in the memory 23 and stores them in the memory 23 (S205). The log likelihood logp (x n | k) can be calculated by the above-described equation (5).

次に、図7に示すように、トピック群ソート部225は、メモリ23内の対数尤度logp(xn|k)を用いて、推定トピックcn(G)を計算し、メモリ23に格納する(S206)。推定トピックcn(G)は、前記した式(6)によって計算することが可能である。続いて、メモリ23内の推定トピックcn(G)を用いて、推定トピックkのページ数Nkを計算し、メモリ23に格納する(S207)。 Next, as shown in FIG. 7, the topic group sorting unit 225 calculates the estimated topic c n (G) using the log likelihood logp (x n | k) in the memory 23 and stores it in the memory 23. (S206). The estimated topic c n (G) can be calculated by the equation (6) described above. Subsequently, the estimated number of pages N k of the estimated topic k is calculated using the estimated topic c n (G) in the memory 23 and stored in the memory 23 (S207).

トピック群ソート部225は、メモリ23内にカウンタtを確保し、tに1を設定する(S208)。続いて、ページ数Ntが正であるかを判定する(S209)。ページ数Ntが正ではない場合(S209でNoの場合)、メモリ23内の適合トピック群Gからトピックtを削除して(S210)、S211に進む。ページ数Ntが正の場合(S209でYesの場合)、何もせず、S211に進む。S211に進んだ場合、カウンタtに1を加算し(S211)、カウンタtが既存トピック群G’の要素数K’を超えたか否かを判定する(S212)。tが既存トピック群G’の要素数K’を超えていない場合(S212でNoの場合)、S209に戻る。tが既存トピック群G’の要素数K’を超えた場合(S212でYesの場合)、S213に進む。 The topic group sorting unit 225 secures the counter t in the memory 23 and sets 1 to t (S208). Subsequently, it is determined whether the page number N t is positive (S209). If the page number N t is not positive (No in S209), the topic t is deleted from the matching topic group G in the memory 23 (S210), and the process proceeds to S211. If the page number Nt is positive (Yes in S209), nothing is done and the process proceeds to S211. When the process proceeds to S211, 1 is added to the counter t (S211), and it is determined whether or not the counter t exceeds the number of elements K ′ of the existing topic group G ′ (S212). When t does not exceed the number of elements K ′ of the existing topic group G ′ (No in S212), the process returns to S209. When t exceeds the number of elements K ′ of the existing topic group G ′ (Yes in S212), the process proceeds to S213.

S213に進んだ場合、トピック群ソート部225は、メモリ23内の推定トピックkのページ数Nkの昇順に適合トピック群GをソートしたリストL=[L1,…,LK]を作成し、メモリ23に格納する(S213)。 When the process proceeds to S213, the topic group sorting unit 225 creates a list L = [L 1 ,..., L K ] in which the matching topic group G is sorted in ascending order of the number of pages N k of the estimated topic k in the memory 23. And stored in the memory 23 (S213).

次に、図8に示すように、S214に進んだ場合、トピック削除部226は、メモリ23内の適合トピック群G、対数尤度logp(xn|k)及び推定トピックcn(G)を用いて、AIC(G)を計算し、メモリ23に格納する(S214)。AIC(G)は、前記した式(7)によって計算することが可能である。続いて、メモリ23内にカウンタmを確保し、mに1を設定する(S215)。 Next, as illustrated in FIG. 8, when the process proceeds to S <b > 214, the topic deletion unit 226 displays the matching topic group G, the log likelihood logp (x n | k), and the estimated topic c n (G) in the memory 23. Using this, AIC (G) is calculated and stored in the memory 23 (S214). AIC (G) can be calculated by the above-described equation (7). Subsequently, a counter m is secured in the memory 23, and 1 is set to m (S215).

トピック削除部226は、Lmを適合トピック群Gから削除したトピック群G−mとし、メモリ23内の対数尤度logp(xn|k)を用いて、推定トピックcn(G−m)を計算して、メモリ23に格納する(S216)。続いて、G−m、対数尤度logp(xn|k)及び推定トピックcn(G−m)を用いて、AIC(G−m)を計算し、メモリ23に格納する(S217)。そして、AIC(G)と、AIC(G−m)との値を比較し、AIC(G−m)がAIC(G)より小さくない場合(S218でNoの場合)、S222に進む。AIC(G−m)がAIC(G)より小さい場合(S218でYesの場合)、適合トピック群GからLmを削除し(S219)、cn(G)の値をcn(G−m)で更新し(S220)、AIC(G)の値をAIC(G−m)で更新し(S221)、S222に進む。 The topic deletion unit 226 uses L m as the topic group G −m deleted from the matching topic group G, and uses the log likelihood logp (x n | k) in the memory 23 to estimate the topic c n (G −m ). Is calculated and stored in the memory 23 (S216). Subsequently, AIC (G −m ) is calculated using G −m , log likelihood logp (x n | k), and estimated topic c n (G −m ), and is stored in the memory 23 (S217). Then, the values of AIC (G) and AIC (G −m ) are compared. If AIC (G −m ) is not smaller than AIC (G) (No in S218), the process proceeds to S222. AIC (Yes in S218) (G -m) is AIC (G) is smaller than the case, remove the L m from the fitted topic group G (S219), the value of c n (G) c n ( G -m ) (S220), the value of AIC (G) is updated with AIC (G- m ) (S221), and the process proceeds to S222.

S222に進んだ場合、カウンタmに1を加算し(S222)、カウンタmがリストLの要素数Kを超えたか否かを判定する(S223)。mがリストLの要素数Kを超えていない場合(S223でNoの場合)、S216に戻る。mがリストLの要素数Kを超えた場合(S223でYesの場合)、メモリ23内の対数尤度logp(xn|k)及び抽出された適合トピック群Gを用いて、推定トピックcn(G)を計算し、メモリ23に格納して(S224)、処理を終了する。 When the process proceeds to S222, 1 is added to the counter m (S222), and it is determined whether or not the counter m exceeds the number K of elements in the list L (S223). If m does not exceed the number K of elements in the list L (No in S223), the process returns to S216. If m exceeds the number K of elements in the list L (Yes in S223), the estimated topic c n is calculated using the log likelihood logp (x n | k) in the memory 23 and the extracted matching topic group G. (G) is calculated and stored in the memory 23 (S224), and the process is terminated.

以上のステップにより、文書群処理装置1は、適合トピック群Gを抽出することが可能である。また、抽出された適合トピック群Gと、文書群Xとを、式(7)に適用することで、適合トピック群G毎に文書群Xをクラスタリングすることが可能となる。   Through the above steps, the document group processing apparatus 1 can extract the relevant topic group G. Further, by applying the extracted matching topic group G and the document group X to Expression (7), the document group X can be clustered for each matching topic group G.

なお、本実施形態における文書群処理装置1は、抽出された適合トピック群Gと、文書群Xとを、式(7)に適用することで、適合トピック群G毎に文書群Xをクラスタリングする機能も備えることとしたが、単に、文書群Xに適合する適合トピック群Gを抽出する機能を有する装置として、文書群処理装置を実現することも可能である。   Note that the document group processing apparatus 1 according to this embodiment applies the extracted matching topic group G and document group X to Expression (7) to cluster the document group X for each matching topic group G. Although a function is also provided, it is also possible to realize a document group processing apparatus simply as an apparatus having a function of extracting a suitable topic group G that matches the document group X.

また、本実施形態においては、適合トピック群Gを選択する方法として、AICを用いることとしたが、適合トピック群Gの選択方法はこれに限定されるものではない。例えば、AICの代わりにMDL(Minimum Description Length)などのモデル選択基準を用いることも可能である。なお、MDLについては、例えば、「Rissanen,J.,(1983).A universal prior for integers and estimation by minimum description length,The annals of Statistics,Vol.11,NO.2,pp.416-431」に記載されている。   In this embodiment, AIC is used as a method for selecting the matching topic group G. However, the method for selecting the matching topic group G is not limited to this. For example, model selection criteria such as MDL (Minimum Description Length) can be used instead of AIC. For MDL, see, for example, “Rissanen, J., (1983) .A universal prior for integers and estimation by minimum description length, The annals of Statistics, Vol.11, NO.2, pp.416-431”. Are listed.

また、本実施形態では、適合トピック数に制限を設けないこととしたが、適合トピック数に制限を設け、適合トピック数が制限した値以下になったら、適合トピックを選択する処理を終了することも可能である。適合トピック数に制限を設けることで、適度なトピック数の適合トピックを抽出することが可能となる。   In this embodiment, the number of conforming topics is not limited. However, the number of conforming topics is limited, and when the number of conforming topics falls below the limited value, the process of selecting conforming topics is terminated. Is also possible. By limiting the number of applicable topics, it is possible to extract appropriate topics with an appropriate number of topics.

(文書群処理装置の評価)
本発明の実施形態における文書群処理装置の有効性を評価するため、Webの検索結果で得られたページ群のクラスタリングを行った。用いた既存トピック群は、goo(登録商標)のカテゴリ検索の第2レベルの242トピックであり、この中に含まれる74233ページを用いて各トピックの確率モデルを構築した。ここでの総単語数Vは50129であった。
(Evaluation of document group processing device)
In order to evaluate the effectiveness of the document group processing apparatus in the embodiment of the present invention, clustering of page groups obtained from Web search results was performed. The existing topic group used is 242 topics in the second level of category search of goo (registered trademark), and a probability model of each topic is constructed using 74233 pages included therein. The total number of words V here was 50129.

「ハブ」を検索語にしたときの検索結果約1000ページを本発明の実施形態における文書群処理装置でクラスタリングした結果、「生物学」、「ペット」、「料理、グルメ」、「オークション」、「専門店」、「パソコンショップ」、「ハードウェア」、「ネットワーク関連」、「ビジネスニュース」、「人文科学」、「辞書、辞典」、「ブロードバンドの知識」の計12のトピックが抽出された。   As a result of clustering about 1000 pages of search results when “hub” is used as a search term by the document group processing apparatus in the embodiment of the present invention, “biology”, “pet”, “cooking, gourmet”, “auction”, A total of 12 topics were extracted: “specialized store”, “computer shop”, “hardware”, “network related”, “business news”, “humanities”, “dictionary, dictionary”, “broadband knowledge”. .

従来のクラスタリング手法を用いた場合に、各トピックラベル(生物学やペットなど)を付けることは困難であるが、本発明の実施形態におけるクラスタリングには、人手で付けられた分かりやすいラベルが付けられる。   Although it is difficult to attach each topic label (biology, pet, etc.) when using the conventional clustering method, easy-to-understand labels manually attached are attached to the clustering in the embodiment of the present invention. .

各トピックラベルに対応するページとして、「生物学」、「ペット」にはヘビのハブに関するページ、「料理、グルメ」にはハブ茶に関するページ、「オークション」、「専門店」、「パソコンショップ」、「ハードウェア」、「ネットワーク関連」にはネットワークのハブに関するページ、「人文科学」には史資料ハブ地域文化研究拠点という研究プロジェクトに関するページが見付かった。   As pages corresponding to each topic label, “biology”, “pets” are pages about snake hubs, “cooking and gourmet” are pages about hub teas, “auctions”, “special stores”, “computer shops” In "Hardware" and "Network-related", a page on network hubs was found, and in "Humanities", a page on research projects called the historical material hub regional culture research center was found.

「ハブ」には様々な意味があるが、このようにトピック毎に分類されることにより、検索の効率化が期待できる。また、検索の効率化だけではなく、検索語がWeb上でどのような意味で使われているのかを知ることも可能である。この例の場合、例えば、史資料ハブ地域文化研究拠点という研究プロジェクトに関するページが見付かり、「人文科学」においても使われていることが発見できる。   “Hub” has various meanings, and it can be expected that search efficiency is improved by classifying each topic in this way. In addition to improving search efficiency, it is also possible to know what meaning a search term is used on the Web. In this case, for example, a page related to a research project called “Historical Resource Hub Regional Culture Research Center” can be found, and it can be found that it is also used in “humanities”.

本発明の実施形態に係る文書群処理装置のブロック図である。It is a block diagram of a document group processing apparatus according to an embodiment of the present invention. 本発明の実施形態に係る既存トピック群確率モデル構築部のブロック図である。It is a block diagram of the existing topic group probability model construction part which concerns on embodiment of this invention. 本発明の実施形態に係る適合トピック群抽出部のブロック図である。It is a block diagram of the suitable topic group extraction part which concerns on embodiment of this invention. 本発明の実施形態に係る演算手段の処理を表すフローチャートである。It is a flowchart showing the process of the calculating means which concerns on embodiment of this invention. 本発明の実施形態に係る既存トピック群確率モデル構築部の処理を表すフローチャートである。It is a flowchart showing the process of the existing topic group probability model construction part which concerns on embodiment of this invention. 本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。It is a flowchart showing the process of the suitable topic group extraction part which concerns on embodiment of this invention. 本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。It is a flowchart showing the process of the suitable topic group extraction part which concerns on embodiment of this invention. 本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。It is a flowchart showing the process of the suitable topic group extraction part which concerns on embodiment of this invention.

符号の説明Explanation of symbols

1 文書群処理装置
2 演算手段
3 入力手段
4 記憶手段
5 出力手段
11 バスライン
21 既存トピック群確率モデル構築部
22 適合トピック群抽出部
23 メモリ
41 既存トピック群確率モデル構築プログラム
42 適合トピック群抽出プログラム
43 既存文書群テーブル
44 単語生起確率テーブル
45 文書群テーブル
211 既存文書群読込部
212 単語生起確率推定部
213 単語生起確率書込部
221 単語生起確率読込部
222 文書群読込部
223 既存トピック群取得部
224 対数尤度計算部
225 トピック群ソート部
226 トピック削除部
DESCRIPTION OF SYMBOLS 1 Document group processing apparatus 2 Calculation means 3 Input means 4 Storage means 5 Output means 11 Bus line 21 Existing topic group probability model construction part 22 Conforming topic group extraction part 23 Memory 41 Existing topic group probability model construction program 42 Conforming topic group extraction program 43 existing document group table 44 word occurrence probability table 45 document group table 211 existing document group reading unit 212 word occurrence probability estimating unit 213 word occurrence probability writing unit 221 word occurrence probability reading unit 222 document group reading unit 223 existing topic group acquiring unit 224 Log likelihood calculation unit 225 Topic group sorting unit 226 Topic deletion unit

Claims (8)

既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出する文書群処理装置であって、
前記文書群処理装置は、
前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築部と、
前記既存トピック群確率モデル構築部において構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出部と
を備えることを特徴とする文書群処理装置。
A document group processing apparatus that extracts a topic group that matches a document group using the existing topic group attached to the existing document group,
The document group processing device includes:
An existing topic group probability model building unit for building a probability model of the existing topic group;
A document group processing apparatus comprising: an adapted topic group extraction unit that extracts a topic group that matches the document group using the probability model constructed in the existing topic group probability model construction unit.
既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出する文書群処理装置による文書群処理方法であって、
前記文書群処理方法は、
前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、
前記既存トピック群確率モデル構築ステップによって構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出ステップと
を含むことを特徴とする文書群処理方法。
A document group processing method by a document group processing apparatus for extracting a topic group suitable for a document group using an existing topic group attached to an existing document group,
The document group processing method includes:
An existing topic group probability model construction step of constructing a probability model of the existing topic group;
A document group processing method comprising: a matching topic group extraction step of extracting a topic group that matches the document group using the probability model constructed by the existing topic group probability model construction step.
既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出し、抽出した適合トピック群毎に前記文書群を分類する文書群処理装置による文書群処理方法であって、
前記文書群処理方法は、
前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、
前記既存トピック群確率モデル構築ステップによって構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、
前記適合トピック群抽出ステップによって抽出された適合トピック群毎に、前記文書群を分類する文書群分類ステップと
を含むことを特徴とする文書群処理方法。
A document group processing method by a document group processing apparatus that extracts a topic group that matches a document group using an existing topic group attached to an existing document group and classifies the document group for each extracted conforming topic group. ,
The document group processing method includes:
An existing topic group probability model construction step of constructing a probability model of the existing topic group;
A matching topic group extraction step of extracting a topic group that matches the document group using the probability model constructed by the existing topic group probability model construction step;
A document group processing method comprising: a document group classification step for classifying the document group for each of the matching topic groups extracted by the matching topic group extraction step.
前記既存トピック群確率モデル構築ステップは、
前記既存文書群の単語出現頻度を用いて、単語生起確率を推定する単語生起確率推定ステップ
を含むことを特徴とする請求項2または3に記載の文書群処理方法。
The existing topic group probability model construction step includes:
The document group processing method according to claim 2, further comprising a word occurrence probability estimating step of estimating a word occurrence probability using a word appearance frequency of the existing document group.
前記適合トピック群抽出ステップは、
単語生起確率を用いて、トピック群の尤度を算出する尤度算出ステップと、
前記尤度算出ステップによって算出された前記トピック群の尤度を用いて、トピック群を抽出するトピック群抽出ステップと
を含むことを特徴とする請求項2乃至4に記載の文書群処理方法。
The matching topic group extraction step includes:
A likelihood calculating step of calculating the likelihood of the topic group using the word occurrence probability;
5. The document group processing method according to claim 2, further comprising: a topic group extracting step of extracting a topic group using the likelihood of the topic group calculated by the likelihood calculating step.
前記文書群分類ステップは、
尤度を用いた計算に基づいて、前記文書群を分類する分類ステップ
を含むことを特徴とする請求項3に記載の文書群処理方法。
The document group classification step includes:
The document group processing method according to claim 3, further comprising: a classification step of classifying the document group based on calculation using likelihood.
請求項2乃至6に記載の文書群処理方法をコンピュータに実行させるための文書群処理プログラム。   A document group processing program for causing a computer to execute the document group processing method according to claim 2. 請求項7に記載の文書群処理プログラムを格納した記録媒体。   A recording medium storing the document group processing program according to claim 7.
JP2005159777A 2005-05-31 2005-05-31 Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein Pending JP2006338157A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005159777A JP2006338157A (en) 2005-05-31 2005-05-31 Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005159777A JP2006338157A (en) 2005-05-31 2005-05-31 Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein

Publications (1)

Publication Number Publication Date
JP2006338157A true JP2006338157A (en) 2006-12-14

Family

ID=37558684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005159777A Pending JP2006338157A (en) 2005-05-31 2005-05-31 Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein

Country Status (1)

Country Link
JP (1) JP2006338157A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102795A (en) * 2005-10-07 2007-04-19 Xerox Corp Document clustering
JP2011199867A (en) * 2010-03-19 2011-10-06 Hamilton Sundstrand Corp Bayesian approach to identifying sub-module failure
JP2015084244A (en) * 2014-12-16 2015-04-30 株式会社Ubic Document research system, method and program providing prior information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102795A (en) * 2005-10-07 2007-04-19 Xerox Corp Document clustering
JP2011199867A (en) * 2010-03-19 2011-10-06 Hamilton Sundstrand Corp Bayesian approach to identifying sub-module failure
JP2015084244A (en) * 2014-12-16 2015-04-30 株式会社Ubic Document research system, method and program providing prior information

Similar Documents

Publication Publication Date Title
Mohammadi et al. BDgraph: An R package for Bayesian structure learning in graphical models
US8620836B2 (en) Preprocessing of text
JP5171962B2 (en) Text classification with knowledge transfer from heterogeneous datasets
US8504492B2 (en) Identification of attributes and values using multiple classifiers
CN103678418B (en) Information processing method and message processing device
US20190180327A1 (en) Systems and methods of topic modeling for large scale web page classification
JP6229665B2 (en) Text mining device, text mining system, text mining method and program
JP2007287139A (en) Computer-implemented method and system for recommending product to consumer
US20130204835A1 (en) Method of extracting named entity
CN115062621A (en) Label extraction method and device, electronic equipment and storage medium
JP2010282276A (en) Apparatus and method for video recognition, and program
JP2006338157A (en) Document group processor, document group processing method, document group processing program and recording medium with the same program stored therein
CN111125329B (en) Text information screening method, device and equipment
Kamruzzaman et al. Text classification using association rule with a hybrid concept of naive Bayes classifier and genetic algorithm
CN110442674B (en) Label propagation clustering method, terminal equipment, storage medium and device
CN112487263A (en) Information processing method, system, equipment and computer readable storage medium
Tang et al. Enriching feature engineering for short text samples by language time series analysis
Pandi et al. A novel similarity measure for sequence data
JP4544047B2 (en) Web image search result classification presentation method and apparatus, program, and storage medium storing program
Lin et al. Dynamic EMCUD for knowledge acquisition
WO2018220688A1 (en) Dictionary generator, dictionary generation method, and program
Yoon et al. Efficient implementation of associative classifiers for document classification
JP5824429B2 (en) Spam account score calculation apparatus, spam account score calculation method, and program
CN107391674B (en) New type mining method and device
Tseng et al. VODKA: Variant objects discovering knowledge acquisition