JP2013191194A - Document categorizing device, method thereof and program - Google Patents
Document categorizing device, method thereof and program Download PDFInfo
- Publication number
- JP2013191194A JP2013191194A JP2012136868A JP2012136868A JP2013191194A JP 2013191194 A JP2013191194 A JP 2013191194A JP 2012136868 A JP2012136868 A JP 2012136868A JP 2012136868 A JP2012136868 A JP 2012136868A JP 2013191194 A JP2013191194 A JP 2013191194A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- document
- vector
- category
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、複数の文書データを分類する文書カテゴライズ装置とその方法とそのプログラムに関する。 The present invention relates to a document categorizing apparatus for classifying a plurality of document data, a method thereof, and a program thereof.
文書集合全体を任意の文書群に分割する文書カテゴライズにおいて、文書間の類似度を算出するための特徴量として文書ベクトルが広く用いられている。文書ベクトルは、単語出現頻度ないし単語固有に定まる概念ベクトルから生成される列ベクトルである。文書ベクトル間の類似度で文書間の類似度を表すことができる。 In document categorization in which an entire document set is divided into arbitrary document groups, document vectors are widely used as feature amounts for calculating similarity between documents. The document vector is a column vector generated from a concept vector determined in terms of word appearance frequency or word. The similarity between documents can be expressed by the similarity between document vectors.
文書ベクトル間の類似度を用いて、収集したい文書(標本文書)をカテゴライズする方法が特許文献1に開示されている。この方法は、標本の文書集合に含まれる複数の単語について単語ごとに定められる単語概念ベクトルを取得して、各々の単語のベクトル重心を文書ベクトルで表される特徴量として抽出する。次に、標本文書集合の特徴量と、カテゴライズされる対象の参照文書の持つ特徴量との類似度を算出し、収集したい文書を、その値の最も小さな標本文書集合と同一カテゴリに収集してカテゴライズする。
この手法では、ある文書の特徴量における単語概念ベクトルの重みは、TF−IDFなどの文書中の出現頻度を元に決定されるか、若しくは人手で付与される。この際に、話題の共通性の観点は考慮されないのが一般的である。 In this method, the weight of the word concept vector in the feature amount of a certain document is determined based on the appearance frequency in a document such as TF-IDF or is given manually. At this time, it is general that the commonality of topics is not considered.
各文書に含む文脈から話題を分類する方法として、特許文献2に開示された文書データ分類装置1が知られている。文書データ分類装置1の機能構成(図12)を参照してその動作を簡単に説明する。ここで話題とは、一まとまりの文書や文脈に含まれる特徴的な単語や、その単語集合のことであり、それらから想起されるものである。
As a method for classifying topics from the context included in each document, a document
文書データ分類装置1は、メモリ10、文書入力部20、文脈抽出部30、文書ベクトル生成部40、文脈結合部50、クラスタ分類部60、結果表示部70、制御部80、を備える。文書入力部20は、外部から入力される入力文書をメモリ10に記録する。文脈抽出部30は、メモリ10から各入力文書を読み込み、入力文書中の各単語と予めメモリ10に記録されている主要単語とが一致するか否かを判定し、一致した入力文書中の単語の位置を基準として定まる当該入力文書中の一部の単語列をそれぞれ推定文脈として抽出する。文書ベクトル生成部40は、各推定文脈の文書ベクトルである第1の文書ベクトルを生成する。文脈結合部50は、抽出した複数の推定文脈の一部が相互に重複する複数の推定文脈を1つの推定文脈に統合し、第1の文書ベクトルを合成した合成ベクトルの第2のベクトルを生成する。クラスタ分類部60は、全ての第2のベクトルを対象とした第2のクラスタリングを行い、最終的な分類を決める。
The document
文書データ分類装置1は、1つの文書中に複数の分野に分類されるべき複数の話題が混在しても、高速に話題を分類することができる。
The document
特許文献1に開示されているように、文書集合全体を任意の文書群に分類する文書カテゴライズにおいて文書間の類似度を算出するための特徴量として広く用いられる文書ベクトルは、単語出現頻度ないし単語固有に定まる概念ベクトルから生成され、文書ベクトル間の類似度で文書間の文書類似度を表す。一方、文書間の類似性を人の主観で判定する場合、文書に含まれる重要な話題について文書相互での共通性をもとに判定するのが一般的である。しかし、文書ベクトル法では、単語に対して重要度を基準に重み付けするのが一般的で、話題の観点が考慮されない。よって、各々の重要な話題の共通性を類似度に反映できないため、主観による類似性の判定との差を生じ、文書カテゴライズにおける分類精度の低下を生じる。特許文献2の方法は、文書に含まれる各話題について、特徴量の類似度の大きいものを1つのカテゴリに分類するのみで、話題ごとに文書を分類するものではない。
As disclosed in
つまり、従来において人間の直感に近い形で任意の文書群を所定のカテゴリに分類する装置はなかった。この発明は、このような課題に鑑みてなされたものであり、人の直感により近い文書分類を実現することができる文書カテゴライズ装置とその方法と、そのプログラムを提供することを目的とする。 In other words, there has conventionally been no device for classifying an arbitrary document group into a predetermined category in a form close to human intuition. The present invention has been made in view of such problems, and an object of the present invention is to provide a document categorizing apparatus, a method thereof, and a program thereof that can realize document classification closer to human intuition.
この発明の文書カテゴライズ装置は、特徴量抽出部と、話題/話題ベクトル/重要度対応表と、話題・話題ベクトル・重要度出力部と、カテゴリ−文書ベクトル対応表と、類似度比較分類部と、を具備する。特徴量抽出部は、複数の話題を含む入力文書を参照文書とし、当該参照文書の文書ベクトルを抽出して当該参照文書と上記文書ベクトルとを出力する。話題/話題ベクトル/重要度対応表は、標本文書から求めた話題をクラスタ分類して得られた話題クラスと、当該話題クラスに含まれる文書ベクトルの重心である話題ベクトルと、上記標本文書のすべての文書と上記参照文書に含まれる上記話題の共起関係から算出される当該話題の重要度と、を対応付けて記録する。話題・話題ベクトル・重要度出力部は、文書ベクトルと上記話題ベクトルとのベクトル間の類似度を求め、当該類似度の大きい話題ベクトルと対応する話題クラスと重要度と、単語ベクトルに対応した参照文書とを出力する。カテゴリ−標本文書ベクトル対応表は、上記話題/話題ベクトル/重要度対応表の話題ベクトルをカテゴリごとに分類し、当該分類された話題ベクトルの重心を、カテゴリに対応させた標本文書ベクトルとして記録する。類似度比較分類部は、話題クラスごとに上記話題ベクトルと上記標本文書ベクトルとの間の類似度を求め、当該類似度に当該話題クラスの重要度を乗じた値を話題クラスごとに累積した値を文書類似度として求め、当該文書類似度の最も大きなカテゴリに参照文書を分類する。 The document categorizing apparatus of the present invention includes a feature amount extraction unit, a topic / topic vector / importance level correspondence table, a topic / topic vector / importance level output unit, a category-document vector correspondence table, a similarity comparison and classification unit, Are provided. The feature amount extraction unit uses an input document including a plurality of topics as a reference document, extracts a document vector of the reference document, and outputs the reference document and the document vector. The topic / topic vector / importance correspondence table includes a topic class obtained by clustering topics obtained from a sample document, a topic vector that is the center of gravity of the document vector included in the topic class, and all of the sample documents. And the importance level of the topic calculated from the co-occurrence relationship of the topics included in the reference document are recorded in association with each other. The topic / topic vector / importance output unit obtains the similarity between the vector of the document vector and the topic vector, the topic class corresponding to the topic vector having the large similarity, the importance, and the reference corresponding to the word vector Output document. The category-sample document vector correspondence table classifies the topic vectors of the topic / topic vector / importance correspondence table for each category, and records the centroid of the classified topic vector as a sample document vector corresponding to the category. . The similarity comparison classifying unit obtains a similarity between the topic vector and the sample document vector for each topic class, and accumulates a value obtained by multiplying the similarity by the importance of the topic class for each topic class. Is obtained as the document similarity, and the reference document is classified into the category having the largest document similarity.
この発明の文書カテゴライズ装置で用いる重要度は、標本文書の全文書における或る話題と、参照文書の当該話題の共起関係とに基づいて話題の共通性を類似度に反映させるものである。この重要度を用いて参照文書(入力文書)をカテゴリごとに分類することで、人の感覚に近い文書分類を行うことが可能になる。 The importance used in the document categorizing apparatus of the present invention reflects the commonality of topics in the similarity based on a certain topic in all the documents of the sample document and the co-occurrence relationship of the topic in the reference document. By classifying reference documents (input documents) for each category using this importance, it is possible to perform document classification close to human senses.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
図1に、この発明の文書カテゴライズ装置100の機能構成例を示す。その動作フローを図2に示す。文書カテゴライズ装置100は、特徴量抽出部110と、話題・話題ベクトル・重要度出力部120と、話題/話題ベクトル/重要度対応表130と、類似度比較分類部140と、カテゴリ−標本文書ベクトル対応表150と、制御部160と、を具備する。文書カテゴライズ装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows a functional configuration example of a document categorizing apparatus 100 according to the present invention. The operation flow is shown in FIG. The document categorizing apparatus 100 includes a feature
特徴量抽出部110は、複数の話題を含む入力文書の或る話題に対応する部分の文書を参照文書として当該参照文書の文書ベクトルを話題ベクトルとして抽出し、当該話題と上記参照文書と上記話題ベクトルとを出力する(ステップS110)。
The feature
話題/話題ベクトル/重要度対応表130は、標本文書から求めた話題クラスと、当該話題クラスに含まれる文書ベクトルの重心である話題ベクトルと、標本文書のすべての文書と参照文書に含まれる話題の共起関係から算出される当該話題の重要度と、をあらかじめ対応付けて記録する。 The topic / topic vector / importance correspondence table 130 includes a topic class obtained from a sample document, a topic vector that is the center of gravity of the document vector included in the topic class, and topics included in all documents and reference documents of the sample document. The importance level of the topic calculated from the co-occurrence relationship is recorded in advance in association with each other.
話題・話題ベクトル・重要度出力部120は、話題ベクトルと文書ベクトルとのベクトル間の類似度を求め、当該類似度の近い文書ベクトルに対応する話題クラスと話題ベクトルと重要度と、上記文書ベクトルに対応する参照文書とを出力する(ステップS120)。カテゴリ−標本文書ベクトル対応表150は、カテゴリと、当該カテゴリに含まれる話題クラスごとの話題ベクトルの重心である標本文書ベクトルとを、あらかじめ対応付けて記録する。
The topic / topic vector /
類似度比較分類部140は、話題クラスごとに話題ベクトルと標本文書ベクトルとの間の類似度を求め、当該類似度に当該話題クラスの重要度を乗じた値を話題クラスごとに累積した値を文書類似度として求め、当該文書類似度の最も大きなカテゴリに参照文書を分類する(ステップS140)。参照文書は、カテゴリごとにカテゴライズ結果蓄積部170に蓄積される。制御部160は各部の動作を制御する。
The similarity comparison and
話題/話題ベクトル/重要度対応表130に、あらかじめ記録される重要度は、標本文書のすべての文書と参照文書に含まれる話題の共起関係から算出されるものである。この重要度を用いて入力文書を話題ごとに分類すると、人の感覚に近い文書分類を行うことができる。重要度の詳しい説明は後述する。 The importance recorded in advance in the topic / topic vector / importance correspondence table 130 is calculated from the co-occurrence relationship between all the documents of the sample document and the topics included in the reference document. If the input document is classified for each topic using this importance, it is possible to perform document classification close to a human sense. Detailed explanation of the importance will be described later.
以降各機能部の動作を更に詳しく説明する。まず、話題/話題ベクトル/重要度対応表130について説明する。話題/話題ベクトル/重要度対応表130は、話題/話題ベクトル/重要度/対応表作成装置200によって生成する。 Hereinafter, the operation of each functional unit will be described in more detail. First, the topic / topic vector / importance correspondence table 130 will be described. The topic / topic vector / importance level correspondence table 130 is generated by the topic / topic vector / importance / correspondence table creation apparatus 200.
〔話題/話題ベクトル/重要度/対応表作成装置〕
図3に、話題/話題ベクトル/重要度/対応表作成装置200の機能構成例を示す。話題/話題ベクトル/重要度/対応表作成装置200は、話題クラス抽出部210と、重要度取得部220と、を備える。重要度取得部220は、文書数計数手段221とカルバック・ライブラー情報量算出手段222とで構成される。
[Topic / Topic Vector / Importance / Correspondence Table Creation Device]
FIG. 3 shows a functional configuration example of the topic / topic vector / importance / correspondence table creation apparatus 200. The topic / topic vector / importance / correspondence table creation apparatus 200 includes a topic
話題/話題ベクトル/重要度/対応表作成装置200も、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。 The topic / topic vector / importance / correspondence table creation apparatus 200 is also realized by reading a predetermined program into a computer composed of, for example, a ROM, a RAM, a CPU, etc., and executing the program by the CPU. is there.
話題クラス抽出部210は、標本文書群を入力として、その標本文書群に含まれる話題クラスと話題クラスの文書ベクトルを抽出する。標本文書群とは、収集対象の標本となる話題を含む文書を、人の主観によりカテゴリごとに選別した文書の集合である。話題クラスとは、各話題を含む文書から生成された文書ベクトルを対象にしてクラスタリングを行って生成されたクラスタのことである。当該クラスタの話題ベクトルとは、話題クラスに含まれる単語ベクトルの重心ある。
The topic
〔話題クラス抽出部〕
図4に、話題クラス抽出部210の機能構成例を示す。その動作フローを図5に示す。なお、話題クラス抽出部210は、従来技術の特許文献2に開示された文書データ分類装置1と同じものである。よってここでは、この発明との関連の強い文書ベクトルと話題クラスを明らかにする目的で説明する。
[Topic class extraction section]
FIG. 4 shows a functional configuration example of the topic
話題クラス抽出部210は、文書抽出手段111、第1文書ベクトル生成手段113、文脈結合手段114、話題クラス分類手段115、メモリ112、を備える。メモリ112は、話題/話題ベクトル/重要度/対応表作成装置200を例えばコンピュータで実現した場合のRAMに当たる。
The topic
文脈抽出手段111は、標本文書群を入力として、メモリ112に記録された推定文脈を抽出するための1個以上の主要単語を参照し、主要単語が一致する標本文書の単語の位置を基準として定まる当該標本文書の所定範囲の単語列をそれぞれ推定文脈として抽出する(ステップS111)。各推定文脈は、メモリ112に格納される。
The
第1文書ベクトル生成手段113は、メモリ112から各推定文脈を読み込み、各推定文脈の文書ベクトルである第1の文書ベクトルをそれぞれ生成し、各第1の文書ベクトルをメモリ112に出力し、そこに格納する(ステップS113)。なお、文書ベクトルは、文書集合に含まれるすべての異なる単語の各出現傾向を示す重みを成分とした列ベクトルで表現される(例えば参考文献:岸田和明,「文書クラスタリングの技法:文献レビュー」,三田図書館・情報学会,NO.49(2003), p.33-75))。文書ベクトルの生成には公知の方法を用いればよい。例えば、TF−IDF尺度を用いて文書群から複数の単語を選別し、選別された各単語の推定文脈における出現頻度(TF)を当該推定文脈の文書ベクトルの要素としてもよい。また、単語間共起頻度行列をもとに次元数を圧縮した文書ベクトルを生成してもよい(例えば参考文献:徳永健伸著,辻井潤一編,「情報検索と言語処理 言語と計算」,東京大学出版会,1999年)。また、生成された各第1の文書ベクトルには対応する各推定文脈を識別するための推定文脈IDが付与される。そして、第1の文書ベクトルとそのIDはメモリ112に格納される。
The first document vector generation means 113 reads each estimated context from the
文脈結合手段114は、メモリ112に格納された第1の文書ベクトルを読み込み、第1のクラスタリングを行う。複数の第1文書ベクトルが属するクラスタについてはそれに属する複数の第1の文書ベクトルを合成した合成ベクトルを文書ベクトルとして出力し、1個の第1の文書ベクトルが属するクラスタについてはそれに属する1個の第1の文書ベクトルを文書ベクトルとして出力する(ステップS114)。文書ベクトルはメモリ112に格納される。
The
話題クラス分類手段115は、メモリ112から文書ベクトルを読み込み、すべての文書ベクトルを対象とした第2のクラスタリングを行い、第2のクラスタリングの結果をメモリ112に出力し、そこに格納する(ステップS115)。ステップS115の処理は様々なクラスタリング方法を用いて実現できる。例えば、分割最適化による非階層的クラスタリング手法(k−means法)を用いることで実現できる。第2のクラスタリングの結果は、文書ベクトルとその文書ベクトルが得られた文書番号とが対応付けられて分類されたもので、話題クラスを構成する。
The topic
図6に、話題クラスの生成過程を模式的に示す。1行目は、推定文脈を抽出するための主要単語であり、主要単語が集って各文書D1,D2,D3を構成している様子を表している。2行目は、主要単語を含む抽出された推定文脈を示している。3行目は、クラスタリングされた話題クラスを示している。 FIG. 6 schematically shows a topic class generation process. The first line is a main word for extracting the estimated context, and shows how the main words are collected to form the documents D 1 , D 2 , and D 3 . The second line shows the extracted estimated context containing the main word. The third line shows clustered topic classes.
話題クラスのiは、i=a(例えば天気)、i=b(例えば経済)、i=c(例えばスポーツ)、i=d(例えば政治)、などの話題を表す識別子である。話題クラスi=a(天気)には、文書D1に含まれた文書ベクトル(a1)と文書D2に含まれた文書ベクトル(a2)が分類されている。話題クラスi=b(経済)には、文書D1に含まれた文書ベクトル(b1)と、文書D2に含まれた文書ベクトル(b2)と、文書D3に含まれた文書ベクトル(b3)が分類されている。話題クラスi=c(スポーツ)には、文書D2に含まれた文書ベクトル(c2)と、文書D3に含まれた文書ベクトル(c3)が分類されている。話題クラスi=d(政治)には、文書D3に含まれた文書ベクトル(d3)が分類されている。 The topic class i is an identifier representing a topic such as i = a (for example, weather), i = b (for example, economy), i = c (for example, sports), i = d (for example, politics), or the like. In the topic class i = a (weather), the document vector (a 1 ) included in the document D 1 and the document vector (a 2 ) included in the document D 2 are classified. The topic class i = b (economy) includes a document vector (b 1 ) included in the document D 1 , a document vector (b 2 ) included in the document D 2 , and a document vector included in the document D 3. (B 3 ) is classified. In the topic class i = c (sports), the document vector (c 2 ) included in the document D 2 and the document vector (c 3 ) included in the document D 3 are classified. In the topic class i = d (politics), the document vector (d 3 ) included in the document D 3 is classified.
各話題クラスiの単語ベクトルは、それぞれの話題クラスごとに平均されて当該話題クラスを表すベクトルの重心である話題ベクトルとされる。 The word vector of each topic class i is averaged for each topic class to be a topic vector that is the center of gravity of the vector representing the topic class.
〔重要度取得部〕
重要度取得部220は、文書計数手段221とカルバック・ライブラー情報量算出手段222とで構成される。文書計数手段221は、話題クラスiを入力として、各話題クラスに含まれる文書数を計数する。図6に示した例では、話題クラスi=aの文書数は2、話題クラスi=bの文書数は3、話題クラスi=cの文書数は2、話題クラスi=dの文書数は1である。よって全体の文書数は8であると計数する。
[Importance acquisition part]
The importance level acquisition unit 220 includes a document counting unit 221 and a cullback / liver information
カルバック・ライブラー情報量算出手段222は、或る話題iを含む出現確率分布P(i)を求め、全文書Qにおける話題iの出現確率分布Q(i)との分布の差を話題クラスの重要度として次式で算出する。 The cullback / liver information amount calculation means 222 obtains an appearance probability distribution P (i) including a certain topic i, and calculates a difference in distribution from the appearance probability distribution Q (i) of the topic i in all documents Q in the topic class. The importance is calculated by the following formula.
この尺度は、或る話題クラスiに関しての他の全ての話題クラスとの共起関係と全文書(Q)における当該話題の共起関係との差を、話題クラスiの重要度として反映するものである。共起関係の具体例を、図6に示した例で説明する。話題クラスi=aにおいてaを含む文書は文書D1とD2であるので共起数は2である。話題クラスi=bにおいてaを含む文書は文書D1とD2であるので共起数は2である。話題クラスi=cにおいてaを含む文書はD2だけであるので共起数は1である。話題クラスi=dにおいてaを含む文書は無いので共起数は0である。そして、すべての共起数は2+2+1=5であるので、aを含む、つまり話題クラスiの出現確率分布P(i)はP(i)=2/5、全文書Qにおける話題iの出現確率分布Q(i)はQ(i)=2/8となる。 This scale reflects the difference between the co-occurrence relationship of a topic class i with all other topic classes and the co-occurrence relationship of the topic in all documents (Q) as the importance of the topic class i. It is. A specific example of the co-occurrence relationship will be described with reference to the example shown in FIG. In the topic class i = a, documents including a are documents D 1 and D 2 , so the co-occurrence number is 2. Since the documents including a in the topic class i = b are the documents D 1 and D 2 , the co-occurrence number is 2. Article containing a in topic class i = c co-occurrence count since only D 2 is 1. Since there is no document including a in the topic class i = d, the co-occurrence number is 0. Since all co-occurrence numbers are 2 + 2 + 1 = 5, the occurrence probability distribution P (i) of topic class i includes P (i) = 2/5, and the appearance probability of topic i in all documents Q The distribution Q (i) is Q (i) = 2/8.
この値を、式(1)に代入して話題クラスi=aの重要度を計算すると0.073となる。同様に話題クラスi=bの重要度は0.0、話題クラスi=cの重要度は0.016、話題クラスi=dの重要度は0.167となる。この重要度を計算した共起数の関係を表1に示す。 Substituting this value into equation (1) to calculate the importance of topic class i = a yields 0.073. Similarly, the importance level of the topic class i = b is 0.0, the importance level of the topic class i = c is 0.016, and the importance level of the topic class i = d is 0.167. Table 1 shows the relationship between the co-occurrence numbers for which the importance is calculated.
この実施例の重要度がこのようになる理由を、図7に模式的に示す。70は推定文脈であり、複数存在している。参照符号は省略している。話題クラスPeを示す一点鎖線の楕円は、他の話題クラスPfとPgと共起関係があることを示している。話題クラスPeのように他の話題クラスとの共起関係が多い話題は、独立した話題クラスPf,Pgに比較して重要度が低くなる。共起関係の多い話題は、形式的な内容や間投詞、感動詞等の偶発が含まれるため重要度は相対的に低くなる。 The reason why the importance of this embodiment becomes like this is schematically shown in FIG. 70 is an estimation context, and there are a plurality of them. Reference numerals are omitted. The dashed-dotted ellipse indicating the topic class Pe indicates that there is a co-occurrence relationship with the other topic classes Pf and Pg. Topics such as the topic class Pe that have many co-occurrence relationships with other topic classes are less important than the independent topic classes Pf and Pg. A topic with many co-occurrence relationships is relatively low in importance because it includes formal content, interjections such as interjections and impression verbs.
話題/文書ベクトル/重要度/対応表作成装置200が出力する話題クラスと話題ベクトルとその重要度を対応付けて記録することで話題/文書ベクトル/重要度/対応表130が作成できる。 The topic / document vector / importance / correspondence table 130 can be created by associating and recording the topic class, the topic vector, and the importance that are output by the topic / document vector / importance / correspondence table creation apparatus 200.
〔特徴量抽出部〕
特徴量抽出部110は、複数の話題を含む入力文書の或る話題に対応する部分の文書を参照文書として当該参照文書の文書ベクトルを抽出し、当該参照文書と上記文書ベクトルとを出力する。特徴量抽出部110は、上記した話題/話題ベクトル/重要度/対応表作成装置200の話題クラス抽出部210と、ほぼ同じものである。特徴量抽出部110は、複数の話題を含む入力文書を入力として、話題クラス抽出部210の文脈抽出手段111〜文脈結合手段114までの処理を行う。その処理の結果、文書ベクトルとそのベクトルに対応する参照文書とが、話題・文書ベクトル・重要度出力部120に出力される。
[Feature Extraction Unit]
The feature
〔話題・話題ベクトル・重要度出力部〕
話題・話題ベクトル・重要度出力部120は、特徴量抽出部110が出力する文書ベクトルと、話題/話題ベクトル/重要度対応表130に記録された話題ベクトルとのベクトル間の類似度を求め、当該類似度の大きい話題ベクトルに対応する話題クラスと文書ベクトルと重要度と、上記話題ベクトルの参照文書とを出力する。
[Topic / Topic Vector / Importance Output Unit]
The topic / topic vector /
ベクトル間の類似度は、例えば次式に示すコサイン類似度を用いて評価する。 The similarity between vectors is evaluated using, for example, a cosine similarity expressed by the following equation.
anは文書ベクトル、P(i)は話題ベクトルである。 a n is a document vector, and P (i) is a topic vector.
〔カテゴリ−文書ベクトル対応表〕
カテゴリ−標本文書ベクトル対応表150は、上記した話題/話題ベクトル/重要度対応表130から作成する。話題/話題ベクトル/重要度対応表130の話題ベクトルを標本文書のカテゴリごとに分類し、当該分類された話題ベクトルの重心を、上記カテゴリに対応させた標本文書ベクトルとして記録したものがカテゴリ−標本文書ベクトル対応表150である。
[Category-document vector correspondence table]
The category-sample document vector correspondence table 150 is created from the topic / topic vector / importance level correspondence table 130 described above. A category-sample is obtained by classifying the topic vectors in the topic / topic vector / importance correspondence table 130 for each category of the sample document and recording the centroid of the classified topic vectors as the sample document vector corresponding to the category. This is a document vector correspondence table 150.
〔類似度比較分類部140〕
類似度比較分類部140は、話題クラスごとに話題・話題ベクトル・重要度出力部120が出力する単語ベクトルと、カテゴリ−文書ベクトル対応表150に記録された標本文書ベクトルとの間の類似度を求め、当該類似度に当該話題クラスの重要度を乗じた値を、話題クラスごとに累積した値を文書類似度として求め、当該文書類似度の最も大きなカテゴリに話題・話題ベクトル・重要度出力部120が出力する参照文書を分類する。
[Similarity comparison and classification unit 140]
The similarity comparison and
類似度の計算方法としては種々の方法を適用できるが、この実施例では、文書ベクトル間のコサイン類似度を各々の話題の重要度で正規化した値を加算して、文書の文書類似度とする。 Various methods can be applied as the similarity calculation method. In this embodiment, a value obtained by normalizing the cosine similarity between the document vectors with the importance of each topic is added to calculate the document similarity of the document. To do.
2つの文書間の類似度計算において、双方に含まれる話題クラスaの話題ベクトル(a1,a2)間のコサイン類似度cos(a1,a2)を話題の類似度S(a1,a2)とし、すべての文書Qにおける話題の確率分布と話題クラスaを含む文書集合Aにおける話題の確率分布とのカルバック・ライブラー情報量DKL(A‖Q)を話題の重要度I(a)として、話題の類似度を各々の話題の重要度で重み付け加算して文書間の文書類似度とする。 In calculating the similarity between two documents, the cosine similarity cos (a 1 , a 2 ) between the topic vectors (a 1 , a 2 ) of the topic class a included in both is used as the topic similarity S (a 1 , a 2 , a 2 ), and the Kullback-Roller information amount D KL (A‖Q) between the topic probability distribution in all the documents Q and the topic probability distribution in the document set A including the topic class a is the topic importance I ( As a), the similarity between topics is weighted and added with the importance of each topic to obtain the document similarity between documents.
例えば、1カテゴリ1文書の場合、標本文書D1、参照文書D2がそれぞれ話題クラスa,bの話題(a1,b1),(a2,b2)を持つとき、その文書類似度は式(3)で表される。 For example, in the case of one category and one document, when the sample document D 1 and the reference document D 2 have topics (a 1 , b 1 ) and (a 2 , b 2 ) of topic classes a and b, respectively, the document similarity Is represented by Formula (3).
また、1カテゴリ複数文書の場合、複数の標本文書D1,D2で構成されるカテゴリC1において、カテゴリC1の話題ベクトル(ac1,bc1)を、標本文書D1,D2の話題ベクトルの相加平均ac1=1/2・(a1+a2),bc1=1/2・(b1+b2)とし、カテゴリC1と、参照文書D3の文書類似度は、式(4)で表される。 Further, in the case of one category plural documents, the topic vector (a c1 , b c1 ) of the category C 1 in the category C 1 composed of the plurality of sample documents D 1 and D 2 is converted into the sample documents D 1 and D 2 . The arithmetic average of topic vectors a c1 = 1/2 · (a 1 + a 2 ), b c1 = 1/2 · (b 1 + b 2 ), and the document similarity between the category C 1 and the reference document D 3 is It is represented by Formula (4).
重要度I(・)は、標本文書のすべての文書と入力文書(参照文書)に含まれる話題の共起関係から算出されるものであり、この重要度I(・)を用いて入力文書を話題ごとに分類することで、重要度の低い話題が文書の類似性判定の対象になることを防止し、従来の人の主観による文書カテゴライズの分類結果と異なってしまう課題を解決することができる。また、重要度の低い単語の影響によって低下していた類似度の信頼性を向上させることができ、重要度の低い話題を排除するために、人為的に単語や話題を選択する作業を不要にすることができる。 The importance level I (•) is calculated from the co-occurrence relationship of topics included in all the documents of the sample document and the input document (reference document), and the input document is determined using the importance level I (•). By classifying by topic, it is possible to prevent low-priority topics from becoming the target of document similarity determination, and to solve problems that differ from the results of conventional document categorization based on human subjectivity. . In addition, the reliability of the similarity that has been reduced due to the influence of words of low importance can be improved, and the task of manually selecting words and topics to eliminate topics of low importance is unnecessary. can do.
上記した文書カテゴライズ装置100は、標本文書のすべての文書と入力文書(参照文書)に含まれる話題の共起関係から文書類似度を算出する必要があり、計算量が多くなる場合がある。そこで、計算量を減らす工夫をした文書カテゴライズ装置300を次に説明する。 The document categorizing apparatus 100 described above needs to calculate the document similarity from the co-occurrence relationship of topics included in all the documents of the sample document and the input document (reference document), and the calculation amount may increase. Therefore, a document categorizing apparatus 300 devised to reduce the amount of calculation will be described next.
図8に、文書カテゴライズ装置300の機能構成例を示す。文書カテゴライズ装置300は、文書カテゴライズ装置100に対して類似度算出不要話題クラス選択部310と、カテゴリ−話題クラス対照表320と、を備える点で異なる。また、その構成の違いにより制御部160が、制御部160′となる点で異なる。その他の構成部は、参照符号から明らかなように文書カテゴライズ装置100と同じである。
FIG. 8 shows a functional configuration example of the document categorizing apparatus 300. The document categorizing apparatus 300 differs from the document categorizing apparatus 100 in that it includes a topic
〔カテゴリ−話題クラス対照表〕
図9に、カテゴリ−話題クラス対照表320の構造を例示する。例えば、行方向にカテゴリが配列され、列方向に話題クラスiが配列されて、カテゴリ−話題クラス対照表320が構成される。
[Category-topic class comparison table]
FIG. 9 illustrates the structure of the category-topic class comparison table 320. For example, categories are arranged in the row direction, and topic classes i are arranged in the column direction, whereby the category-topic class comparison table 320 is configured.
例えば、カテゴリC1は『政治』、カテゴリC2は『スポーツ』、カテゴリC3は『天気』、といったものである。そのカテゴリに対する話題クラスは、例えば「選挙」、「首相」、「サッカー」、「野球」、「低気圧」、「台風」といったものである。 For example, category C 1 is “politics”, category C 2 is “sports”, and category C 3 is “weather”. The topic classes for the category are, for example, “election”, “prime”, “soccer”, “baseball”, “low pressure”, and “typhoon”.
カテゴリ−話題クラス対照表320は、対象とする参照文書に応じて事前に作成しておく。その作成は人手で行っても良いし、大量の文書を形態素解析した結果からコンピュータを用いて生成するようにしても良い。 The category-topic class comparison table 320 is created in advance according to the target reference document. The creation may be performed manually or may be generated using a computer from the result of morphological analysis of a large number of documents.
〔類似度算出不要話題クラス選択部〕
図10に、類似度算出不要話題クラス選択部310の動作フローを示す。その動作フローを参照して動作を説明する。
[Similarity calculation unnecessary topic class selection part]
FIG. 10 shows an operation flow of the topic
類似度算出不要話題クラス選択部310は、カテゴリ−話題クラス対照表320を参照して、ある話題クラスを含むカテゴリを横断的に探索して所定の数よりも少ない当該ある話題クラスを含むカテゴリを抽出する(ステップS310)。この処理は、例えば話題クラスi=3の話題を含むカテゴリを、図9の例では縦方向に探索して行き、そのカテゴリの数が所定の数(例えば5個)より少ないカテゴリを抽出する。図9では、話題クラスi=3を含むカテゴリは、カテゴリC2のみである場合を例示している。所定の数は、処理対象の参照文書のカテゴリの数に応じて定められる数である。
The similarity calculation unnecessary topic
このカテゴリC2にだけ含まれる話題クラスの集合をge(2)、それ以外の集合をgo(2)とした時、例えば、話題クラスをi=1〜4とした場合、ge(2)={3},go(2)={1,2,4}である。各々の話題クラスの話題ベクトルをV(i)(i=1,2,…,k)とする。図11に、文書と話題クラスの対応関係を、文書−話題クラス対照表として表す。文書毎に話題クラスの話題ベクトルが順番に配列される。2行目の文書D2は、話題クラスi=2,3,4を含まないことを表している。この図11に示す関係は参照文書でも同じである。この文書と話題クラスの対応関係は、話題・話題ベクトル・重要度出力部120の出力する情報に含まれている。
The category C 2 only Included set of topics class g e (2), when the set of others was g o (2), for example, if the topic class was i = 1~4, g e ( 2) = {3}, go (2) = {1, 2, 4}. Let the topic vector of each topic class be V (i) (i = 1, 2,..., K). FIG. 11 shows the correspondence between documents and topic classes as a document-topic class comparison table. For each document, topic vectors of topic classes are arranged in order. Article D 2 of the second row represents that does not include the topic classes i = 2, 3, 4. The relationship shown in FIG. 11 is the same for the reference document. The correspondence between the document and the topic class is included in the information output from the topic / topic vector /
次に類似度算出不要話題クラス選択部310は、抽出したカテゴリj以外のカテゴリが含む話題クラスを持つ文書のカテゴリ類似度の最大値を求める(式(5))(ステップS311)。
Next, the similarity calculation unnecessary topic
ここで、s≠jは抽出したカテゴリ以外のカテゴリを意味する。Wiは話題クラスiの重要度(重み)、1は話題ベクトルの類似度の最大値である。よって、抽出したカテゴリ以外のカテゴリの類似度の最大値を求めることが出来る。 Here, s ≠ j means a category other than the extracted category. Wi is the importance (weight) of the topic class i, and 1 is the maximum value of the similarity of the topic vector. Therefore, the maximum value of the similarity of categories other than the extracted category can be obtained.
次に、抽出したカテゴリに含まれる話題クラスを持つ文書のカテゴリ類似度の最小値を求める(式(6))(ステップS312)。 Next, the minimum value of the category similarity of the document having the topic class included in the extracted category is obtained (formula (6)) (step S312).
ここで、εは、例えば分割最適化クラスタリングによって話題クラスを分割する場合の、クラス内の任意の2つの話題ベクトルの類似度の最小値である。εは、1よりもかなり小さな値である。 Here, ε is the minimum value of the similarity between any two topic vectors in the class when the topic class is divided by, for example, division optimization clustering. ε is a value considerably smaller than 1.
次に、上記最小値が上記最大値よりも大きなカテゴリに含まれる話題クラスを類似度算出不要話題クラスとして当該カテゴリに対応付ける(ステップS313)。ここで、ε≪1の関係から明らかなように、この関係が成り立つ類似度を持つ話題クラスは、そのカテゴリに強く関連する話題クラスであり、文書類似度を計算するまでもなくそのカテゴリに分類することが出来る。その話題クラスiは、「話題クラスi」∈「あるカテゴリにだけ含まれる話題クラスの集合」として対応付けられる。 Next, a topic class included in a category having the minimum value larger than the maximum value is associated with the category as a similarity calculation unnecessary topic class (step S313). Here, as is clear from the relationship of ε << 1, a topic class having a similarity that satisfies this relationship is a topic class strongly related to the category, and is classified into the category without calculating the document similarity. I can do it. The topic class i is associated as “topic class i” ∈ “a set of topic classes included only in a certain category”.
次に類似度算出不要話題クラス選択部310は、話題・話題ベクトル・重要度出力部120が出力する参照文書を入力として、当該参照文書に含まれる話題クラスが上記類似度算出不要話題クラスと一致すると、当該参照文書を上記当該カテゴリに分類して外部(カテゴライズ結果蓄積部170)に出力すると共に、上記類似度算出不要話題クラスを含まない参照文書を類似度比較分類部140に出力する(ステップS314)。
Next, the similarity calculation unnecessary topic
以上説明したように、類似度算出不要話題クラス選択部310と、カテゴリ−話題クラス対照表320と、を備えることで、参照文書の話題クラスから、文書類似度計算の要不要を判定することができるので、計算量を削減することが出来る。
As described above, by including the topic
なお、εで求めた類似度の最大値が、εの値が小さい故に得られない場合が想定される。その場合は、参照文書が入力された時に類似度の最小値を式(7)で求めれば良い。その時の最大値は、式(8)で求めた最大値を用いる。 It is assumed that the maximum value of the similarity obtained with ε cannot be obtained because the value of ε is small. In that case, the minimum value of the similarity may be obtained by Expression (7) when the reference document is input. As the maximum value at that time, the maximum value obtained by the equation (8) is used.
ここで|ge(j)|は、あるカテゴリにだけ含まれる話題クラスの集合ge(j)が含む話題クラスの個数、Vr(i)は、ある参照文書の話題ベクトルである。 Here, | ge (j) | is the number of topic classes included in the set of topic classes g e (j) included only in a certain category, and V r (i) is the topic vector of a reference document.
また、類似度比較分類部140における類似度計算は、上記した式(3)及び式(4)で計算しても良いし、式(9)に示す類似スコアRSを計算して類似度を判定しても良い。
Further, the similarity calculation in the similarity comparison and
文書カテゴライズ装置300よりも更に計算量を減らすことの可能な文書カテゴライズ装置400を次に説明する。文書カテゴライズ装置400の図示は省略する。文書カテゴライズ装置400は、文書カテゴライズ装置300の類似度算出不要話題クラス選択部310が、類似度算出不要話題クラス選択部410に置き代わったものである。
Next, a document categorizing apparatus 400 capable of reducing the amount of calculation further than the document categorizing apparatus 300 will be described. The illustration of the document categorizing apparatus 400 is omitted. The document categorizing apparatus 400 is obtained by replacing the similarity calculation unnecessary topic
類似度算出不要話題クラス選択部410は、参照文書が入力された時に、当該参照文書に含まれる話題クラスを含むカテゴリの範囲を特定する処理を行う点でのみ異なる。カテゴリの範囲を特定した後は、カテゴリ−話題クラス対照表のその特定範囲のみを処理の対象とする。 Similarity calculation unnecessary topic class selection unit 410 differs only in that, when a reference document is input, a process of specifying a category range including a topic class included in the reference document is performed. After the category range is specified, only the specified range of the category-topic class comparison table is the processing target.
参照文書に含まれる話題クラスの集合をrとするとき、rの一部ないし全部を話題クラスに含むカテゴリの集合Cr(式(10))に絞り込むことで、計算量を削減することが出来る。 When r is a set of topic classes included in the reference document, the amount of calculation can be reduced by narrowing down to a set of categories C r (equation (10)) including part or all of r in the topic class. .
カテゴリ−話題クラス対照表320の特定範囲を絞り込んだ後の処理は、類似度算出不要話題クラス選択部310と同じである。
The processing after narrowing down the specific range of the category-topic class comparison table 320 is the same as that of the topic
文書カテゴライズ装置400によれば、計算対象のカテゴリの範囲が、参照文書の入力された時点で絞り込まれるので、更に計算量を削減することが可能になる。なお、ある一定量の参照文書が入力された後は、式(10)の計算を行わずに、参照文書の話題クラスから、直近の特定範囲のカテゴリ−話題クラス対照表を用いて良いかの判断を行うことも可能である。 According to the document categorizing apparatus 400, since the range of the category to be calculated is narrowed down when the reference document is input, the amount of calculation can be further reduced. After a certain amount of reference document is input, whether the category-topic class comparison table in the latest specific range can be used from the topic class of the reference document without performing the calculation of equation (10). It is also possible to make a judgment.
また、実施例2に述べたεで求めた類似度の最大値が求められない場合に、参照文書が入力された時に類似度の最小値を式(7)で求める例を説明したが、その最小値を計算する前に、式(10)で対象とするカテゴリ−話題クラス対照表の範囲を絞り込んでから、式(7)で最小値を求めるようにしても良い。そのようにすることで、実施例2で述べた方法よりも計算量を減らすことが出来る。 Further, the example in which the minimum value of the similarity is obtained by the equation (7) when the reference document is input when the maximum value of the similarity obtained by ε described in the second embodiment is not obtained has been described. Before calculating the minimum value, the range of the target category-topic class comparison table may be narrowed down using Expression (10), and then the minimum value may be calculated using Expression (7). By doing so, the amount of calculation can be reduced as compared with the method described in the second embodiment.
上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The processes described in the above apparatuses and methods are not only executed in time series according to the order of description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. .
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (8)
標本文書から求めた話題をクラスタ分類して得られた話題クラスと、当該話題クラスに含まれる文書ベクトルの重心である話題ベクトルと、上記標本文書のすべての文書と上記参照文書に含まれる上記話題の共起関係から算出される当該話題の重要度と、を対応付けて記録した話題/話題ベクトル/重要度対応表と、
上記文書ベクトルと上記話題ベクトルとのベクトル間の類似度を求め、当該類似度の大きい上記話題ベクトルと対応する話題クラスと重要度と、上記単語ベクトルに対応した参照文書とを出力する話題・話題ベクトル・重要度出力部と、
上記話題/話題ベクトル/重要度対応表の話題ベクトルを上記カテゴリごとに分類し、当該分類された話題ベクトルの重心を、上記カテゴリに対応させた標本文書ベクトルとして記録したカテゴリ−標本文書ベクトル対応表と、
上記話題クラスごとに上記話題ベクトルと上記標本文書ベクトルとの間の類似度を求め、当該類似度に当該話題クラスの重要度を乗じた値を上記話題クラスごとに累積した値を文書類似度として求め、当該文書類似度の最も大きなカテゴリに参照文書を分類する類似度比較分類部と、
を具備する文書カテゴライズ装置。 A feature quantity extraction unit that takes an input document including a plurality of topics as a reference document, extracts a document vector of the reference document, and outputs the reference document and the document vector;
The topic class obtained by clustering the topics obtained from the sample document, the topic vector that is the center of gravity of the document vector included in the topic class, the topic included in all the documents of the sample document and the reference document A topic / topic vector / importance correspondence table recorded in association with the importance of the topic calculated from the co-occurrence relationship of
A topic / topic that obtains a similarity between vectors of the document vector and the topic vector, and outputs a topic class and importance corresponding to the topic vector having a large similarity and a reference document corresponding to the word vector A vector / importance output section;
A category-sample document vector correspondence table in which the topic vectors of the topic / topic vector / importance correspondence table are classified for each category and the center of gravity of the classified topic vectors is recorded as a sample document vector corresponding to the category. When,
The similarity between the topic vector and the sample document vector is obtained for each topic class, and a value obtained by multiplying the similarity by the importance of the topic class is accumulated as the document similarity. A similarity comparison and classification unit that classifies the reference document into a category having the highest document similarity,
A document categorizing apparatus comprising:
上記重要度は、
上記参照文書の或る話題の出現確率分布と、上記標本文書の全文書における当該話題の出現確率分布との差に基づくものとすることを特徴とする文書カテゴライズ装置。 The document categorizing apparatus according to claim 1,
The above importance is
A document categorizing apparatus, characterized in that it is based on a difference between an appearance probability distribution of a certain topic in the reference document and an appearance probability distribution of the topic in all documents of the sample document.
上記重要度は、
2つの確率分布の差を求めるカルバック・ライブラー情報量で与えられ次式で定義され、
或る話題クラスpに含まれる文書の集合Pにおける話題クラスiの出現確率分布P(i)と全文書Qにおける話題クラスiの出現確率分布Q(i)との分布の差によって与えられることを特徴とする文書カテゴライズ装置。 The document categorizing apparatus according to claim 1,
The above importance is
It is given by the amount of information of Cullback-Librer that calculates the difference between two probability distributions, and is defined by the following equation:
It is given by the difference in distribution between the appearance probability distribution P (i) of the topic class i in the set P of documents included in a certain topic class p and the appearance probability distribution Q (i) of the topic class i in all documents Q. Feature document categorizing device.
上記文書類似度は、
話題ごとの上記話題ベクトルと上記標本文書ベクトルとの間のコサイン類似度に、話題ごとの上記話題ベクトルと上記標本文書ベクトルの確率分布の差を表す上記カルバック・ライブラー情報量を乗じた値を、全ての話題について累積した値であることを特徴とする文書カテゴライズ装置。 The document categorizing apparatus according to any one of claims 1 to 3,
The above document similarity is
A value obtained by multiplying the cosine similarity between the topic vector for each topic and the sample document vector by the amount of the cullback / railer information representing the difference in probability distribution between the topic vector and the sample document vector for each topic. A document categorizing apparatus characterized by being an accumulated value for all topics.
更に、
カテゴリと、当該カテゴリに含まれる話題クラスとの対応を記録したカテゴリ−話題クラス対照表と、
上記カテゴリ−話題クラス対照表を参照して、ある話題クラスを含むカテゴリを横断的に探索して所定の数よりも少ない当該ある話題クラスを含むカテゴリを抽出し、
上記抽出したカテゴリ以外のカテゴリが含む話題クラスを持つ文書のカテゴリ類似度の最大値を求め、
上記抽出したカテゴリに含まれる話題クラスを持つ文書のカテゴリ類似度の最小値を求め、
上記最小値が上記最大値よりも大きなカテゴリに含まれる話題クラスを類似度算出不要話題クラスとして当該カテゴリに対応付け、
上記参照文書を入力として、当該参照文書に含まれる話題クラスが上記類似度算出不要話題クラスと一致すると、当該参照文書を上記当該カテゴリに分類して外部に出力すると共に、上記類似度算出不要話題クラスを含まない参照文書を上記類似度比較分類部に出力する類似度算出不要話題クラス選択部と、
を備えることを特徴とする文書カテゴライズ装置。 The document categorizing apparatus according to any one of claims 1 to 4,
Furthermore,
A category-topic class comparison table that records the correspondence between categories and topic classes included in the category;
With reference to the category-topic class comparison table, a category including a certain topic class is traversed to extract a category including a certain topic class less than a predetermined number,
Find the maximum category similarity of documents with topic classes included in categories other than the extracted categories,
Find the minimum category similarity of documents with topic classes included in the extracted category,
A topic class included in a category in which the minimum value is larger than the maximum value is associated with the category as a similarity calculation unnecessary topic class,
When the reference document is input and the topic class included in the reference document matches the similarity calculation unnecessary topic class, the reference document is classified into the category and output to the outside, and the similarity calculation unnecessary topic is output. A similarity calculation unnecessary topic class selection unit that outputs a reference document not including a class to the similarity comparison and classification unit;
A document categorizing apparatus comprising:
更に、
カテゴリと、当該カテゴリに含まれる話題クラスとの対応を記録したカテゴリ−話題クラス対照表と、
上記参照文書が入力された時に、当該参照文書に含まれる話題クラスに応じて上記カテゴリ−話題クラス対照表の参照する範囲を特定し、
上記特定範囲のカテゴリ−話題クラス対照表を参照して、ある話題クラスを含むカテゴリを横断的に探索して所定の数よりも少ない当該ある話題クラスを含むカテゴリを抽出し、
上記抽出したカテゴリ以外のカテゴリが含む話題クラスを持つ文書のカテゴリ類似度の最大値を求め、
上記抽出したカテゴリに含まれる話題クラスを持つ文書のカテゴリ類似度の最小値を求め、
上記最小値が上記最大値よりも大きなカテゴリに含まれる話題クラスを類似度算出不要話題クラスとして当該カテゴリに対応付け、
上記参照文書を入力として、当該参照文書に含まれる話題クラスが上記類似度算出不要話題クラスと一致すると、当該参照文書を上記当該カテゴリに分類して外部に出力すると共に、上記類似度算出不要話題クラスを含まない参照文書を上記類似度比較分類部に出力する類似度算出不要話題クラス選択部と、
を備えることを特徴とする文書カテゴライズ装置。 The document categorizing apparatus according to any one of claims 1 to 4,
Furthermore,
A category-topic class comparison table that records the correspondence between categories and topic classes included in the category;
When the reference document is input, the range to be referred to in the category-topic class comparison table is specified according to the topic class included in the reference document.
With reference to the category-topic class comparison table in the specific range, a category including a certain topic class is traversed to extract a category including a certain topic class less than a predetermined number,
Find the maximum category similarity of documents with topic classes included in categories other than the extracted categories,
Find the minimum category similarity of documents with topic classes included in the extracted category,
A topic class included in a category in which the minimum value is larger than the maximum value is associated with the category as a similarity calculation unnecessary topic class,
When the reference document is input and the topic class included in the reference document matches the similarity calculation unnecessary topic class, the reference document is classified into the category and output to the outside, and the similarity calculation unnecessary topic is output. A similarity calculation unnecessary topic class selection unit that outputs a reference document not including a class to the similarity comparison and classification unit;
A document categorizing apparatus comprising:
上記文書ベクトルと、話題/話題ベクトル/重要度対応表に記録された標本文書から求めた話題をクラスタ分類して得られた話題クラスと、当該話題クラスに含まれる文書ベクトルの重心である話題ベクトルとのベクトル間の類似度を求め、当該類似度の大きい上記話題ベクトルと対応する話題クラスと上記話題/話題ベクトル/重要度対応表に記録された上記標本文書のすべての文書と上記参照文書に含まれる上記話題の共起関係から算出される当該話題の重要度と、上記単語ベクトルに対応した参照文書とを出力する話題・話題ベクトル・重要度出力過程と、
上記話題クラスごとに上記話題ベクトルとカテゴリ−標本文書ベクトル対応表に記録された上記話題/話題ベクトル/重要度対応表の話題ベクトルを上記カテゴリごとに分類し、当該分類された話題ベクトルの重心である標本文書ベクトルとの間の類似度を求め、当該類似度に当該話題クラスの重要度を乗じた値を上記話題クラスごとに累積した値を文書類似度として求め、当該文書類似度の最も大きなカテゴリに参照文書を分類する類似度比較分類過程と、
を備える文書カテゴライズ方法。 A feature amount extraction process in which an input document including a plurality of topics is used as a reference document, a document vector of the reference document is extracted, and the reference document and the document vector are output;
Topic class obtained by cluster classification of topics obtained from sample documents recorded in the above document vector, topic / topic vector / importance correspondence table, and topic vector that is the centroid of the document vector included in the topic class To the topic class corresponding to the topic vector having the large similarity and all the documents of the sample document recorded in the topic / topic vector / importance correspondence table and the reference document. A topic / topic vector / importance output process for outputting the importance of the topic calculated from the co-occurrence relationship of the included topics and a reference document corresponding to the word vector;
For each topic class, the topic vectors of the topic / topic vector / importance correspondence table recorded in the topic vector / category-sample document vector correspondence table are classified for each category, and the centroid of the classified topic vectors is used. A similarity between a sample document vector is obtained, a value obtained by multiplying the similarity by the importance of the topic class for each topic class is obtained as a document similarity, and the largest document similarity is obtained. A similarity comparison and classification process that classifies reference documents into categories;
A document categorizing method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012136868A JP5758349B2 (en) | 2012-02-15 | 2012-06-18 | Document categorizing apparatus, method and program thereof |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012030461 | 2012-02-15 | ||
JP2012030461 | 2012-02-15 | ||
JP2012136868A JP5758349B2 (en) | 2012-02-15 | 2012-06-18 | Document categorizing apparatus, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013191194A true JP2013191194A (en) | 2013-09-26 |
JP5758349B2 JP5758349B2 (en) | 2015-08-05 |
Family
ID=49391308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012136868A Expired - Fee Related JP5758349B2 (en) | 2012-02-15 | 2012-06-18 | Document categorizing apparatus, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5758349B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015096468A1 (en) * | 2013-12-24 | 2015-07-02 | 华为技术有限公司 | Method and device for calculating degree of similarity between files pertaining to different fields |
US9190550B2 (en) | 2013-09-09 | 2015-11-17 | Kabushiki Kaisha Toshiba | Photodiode |
JP2017156916A (en) * | 2016-03-01 | 2017-09-07 | 京セラコミュニケーションシステム株式会社 | Similar document retrieval device |
CN111310478A (en) * | 2020-03-18 | 2020-06-19 | 电子科技大学 | Similar sentence detection method based on TF-IDF and word vector |
WO2023026140A1 (en) * | 2021-08-26 | 2023-03-02 | 株式会社半導体エネルギー研究所 | Document classification system and document classification method |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211277A (en) * | 2008-03-03 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Document data sorting device, document data sorting method, its program, and recording medium |
JP2012003333A (en) * | 2010-06-14 | 2012-01-05 | Nippon Telegr & Teleph Corp <Ntt> | Similar document retrieval device, similar document retrieval method, its program and recording medium |
-
2012
- 2012-06-18 JP JP2012136868A patent/JP5758349B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211277A (en) * | 2008-03-03 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Document data sorting device, document data sorting method, its program, and recording medium |
JP2012003333A (en) * | 2010-06-14 | 2012-01-05 | Nippon Telegr & Teleph Corp <Ntt> | Similar document retrieval device, similar document retrieval method, its program and recording medium |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9190550B2 (en) | 2013-09-09 | 2015-11-17 | Kabushiki Kaisha Toshiba | Photodiode |
WO2015096468A1 (en) * | 2013-12-24 | 2015-07-02 | 华为技术有限公司 | Method and device for calculating degree of similarity between files pertaining to different fields |
US10452696B2 (en) | 2013-12-24 | 2019-10-22 | Hauwei Technologies Co., Ltd. | Method and apparatus for computing similarity between cross-field documents |
JP2017156916A (en) * | 2016-03-01 | 2017-09-07 | 京セラコミュニケーションシステム株式会社 | Similar document retrieval device |
CN111310478A (en) * | 2020-03-18 | 2020-06-19 | 电子科技大学 | Similar sentence detection method based on TF-IDF and word vector |
CN111310478B (en) * | 2020-03-18 | 2023-09-19 | 电子科技大学 | Similar sentence detection method based on TF-IDF and word vector |
WO2023026140A1 (en) * | 2021-08-26 | 2023-03-02 | 株式会社半導体エネルギー研究所 | Document classification system and document classification method |
Also Published As
Publication number | Publication date |
---|---|
JP5758349B2 (en) | 2015-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI539395B (en) | Determine the user groups, information query and recommended methods and systems | |
CN106202124B (en) | Webpage classification method and device | |
KR100998456B1 (en) | Clustering system, and defect kind judging device | |
JP5758349B2 (en) | Document categorizing apparatus, method and program thereof | |
CN106598999B (en) | Method and device for calculating text theme attribution degree | |
JP4595692B2 (en) | Time-series document aggregation method and apparatus, program, and storage medium storing program | |
US20100082628A1 (en) | Classifying A Data Item With Respect To A Hierarchy Of Categories | |
JP6056610B2 (en) | Text information processing apparatus, text information processing method, and text information processing program | |
CN111506727B (en) | Text content category acquisition method, apparatus, computer device and storage medium | |
MX2012011923A (en) | Ascribing actionable attributes to data that describes a personal identity. | |
KR20090090840A (en) | System for providing information adapted to users and method thereof | |
KR101059557B1 (en) | Computer-readable recording media containing information retrieval methods and programs capable of performing the information | |
JP4714710B2 (en) | Automatic tagging device, automatic tagging method, automatic tagging program, and recording medium recording the program | |
US10877989B2 (en) | Data conversion system and method of converting data | |
CN109086830A (en) | Typical association analysis based on sample punishment closely repeats video detecting method | |
JP6314071B2 (en) | Information processing apparatus, information processing method, and program | |
CN109508557A (en) | A kind of file path keyword recognition method of association user privacy | |
JP5427119B2 (en) | Similar document search device, similar document search method, program thereof, and recording medium | |
CN114943285B (en) | Intelligent auditing system for internet news content data | |
Theron | The use of data mining for predicting injuries in professional football players | |
JP6260678B2 (en) | Information processing apparatus, information processing method, and information processing program | |
CN110955845A (en) | User interest identification method and device, and search result processing method and device | |
JP5310196B2 (en) | Classification system revision support program, classification system revision support device, and classification system revision support method | |
CN111667023A (en) | Method and device for acquiring articles in target category | |
CN106970924B (en) | Topic sorting method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150421 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5758349 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |