JP5503632B2 - Feature word extraction method, apparatus, and program - Google Patents

Feature word extraction method, apparatus, and program Download PDF

Info

Publication number
JP5503632B2
JP5503632B2 JP2011286869A JP2011286869A JP5503632B2 JP 5503632 B2 JP5503632 B2 JP 5503632B2 JP 2011286869 A JP2011286869 A JP 2011286869A JP 2011286869 A JP2011286869 A JP 2011286869A JP 5503632 B2 JP5503632 B2 JP 5503632B2
Authority
JP
Japan
Prior art keywords
topic
hierarchy
parameter
extracting
peer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286869A
Other languages
Japanese (ja)
Other versions
JP2013134750A (en
Inventor
九月 貞光
邦子 齋藤
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011286869A priority Critical patent/JP5503632B2/en
Publication of JP2013134750A publication Critical patent/JP2013134750A/en
Application granted granted Critical
Publication of JP5503632B2 publication Critical patent/JP5503632B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特徴語抽出方法、装置、及びプログラムに係り、特に、トピックが階層構造を有する階層的トピックモデルの各トピックにおける特徴語を抽出する特徴語抽出方法、装置、及びプログラムに関する。   The present invention relates to a feature word extraction method, apparatus, and program, and more particularly, to a feature word extraction method, apparatus, and program for extracting feature words in each topic of a hierarchical topic model in which topics have a hierarchical structure.

従来、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルが存在する。また、トピックが階層構造を有する階層的トピックモデルも存在する。このようなトピックモデル全体のパラメータ平均と各トピックにおけるパラメータとの比に基づいて、トピックモデルの各トピックにおける特徴語を抽出する方法が提案されている(例えば、非特許文献1参照)。   Conventionally, there is a topic model in which words included in a document set are feature amounts and probabilistic clustering is performed using one document as a data point. There is also a hierarchical topic model in which topics have a hierarchical structure. A method of extracting feature words in each topic of the topic model based on the ratio between the parameter average of the entire topic model and the parameter in each topic has been proposed (see, for example, Non-Patent Document 1).

D. Blei, A. Y. Ng, M. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research 3 (2003) 993-1022D. Blei, A. Y. Ng, M. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research 3 (2003) 993-1022

しかしながら、非特許文献1に記載の方法を、階層的トピックモデルの中間階層のトピックに対して適用した場合、中間階層の下位に位置するいずれかのトピックに特徴的な単語が、その中間階層のトピックにおける特徴語として選ばれ易く、中間階層のトピックにふさわしい特徴語、すなわち、その中間階層以下の概念に共通な特徴語が抽出できない、という問題がある。   However, when the method described in Non-Patent Document 1 is applied to a topic in an intermediate hierarchy of the hierarchical topic model, a word characteristic of any topic located in the lower level of the intermediate hierarchy is There is a problem that feature words that are easily selected as feature words in a topic and suitable for a topic in an intermediate hierarchy, that is, feature words common to concepts in the intermediate hierarchy and lower cannot be extracted.

本発明は、上記の事情を鑑みてなされたもので、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる特徴語抽出方法、装置、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and a feature word extraction method capable of extracting a feature word common to a concept below the intermediate hierarchy as a feature word in a topic in an intermediate hierarchy of the hierarchical topic model An object is to provide a device and a program.

上記目的を達成するために、本発明の特徴語抽出方法は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出する対象パラメータ抽出ステップと、前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出ステップと、前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出ステップと、前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算ステップと、計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出ステップと、を含む。   To achieve the above object, the feature word extraction method of the present invention includes a parameter representing each of a plurality of topics for probabilistic clustering of document data, and the topic has a hierarchical topic model having a hierarchical structure. A target parameter extraction step for extracting a target parameter representing a topic to be processed, a peer hierarchy parameter extraction step for extracting a peer hierarchy parameter representing a topic of the target subject and a peer hierarchy from the hierarchical topic model, A lower layer parameter extracting step for extracting a lower layer parameter representing a lower layer topic corresponding to the processing target topic from the hierarchical topic model, and using the target parameter, the peer layer parameter, and the lower layer parameter , Included in the target parameter For each word, a score calculating step for calculating a score based on the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy, and based on the score of each word included in the calculated target parameter, A feature word extraction step for extracting feature words in the topic to be processed.

本発明の特徴語抽出方法によれば、対象パラメータ抽出ステップが、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出し、同位階層パラメータ抽出ステップで、階層的トピックモデルから、処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出し、下位階層パラメータ抽出ステップで、階層的トピックモデルから、処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する。そして、スコア計算ステップで、対象パラメータ、同位階層パラメータ、及び下位階層パラメータを用いて、対象パラメータに含まれる各単語について、下位階層のトピック内分散と同位階層のトピック間分散とに基づくスコアを計算し、特徴語抽出ステップで、計算された対象パラメータに含まれる各単語のスコアに基づいて、処理対象のトピックにおける特徴語を抽出する。   According to the feature word extraction method of the present invention, the target parameter extraction step includes a parameter representing each of a plurality of topics for probabilistic clustering of document data, and the topic has a hierarchical topic model having a hierarchical structure. Extract the target parameter that represents the topic to be processed, extract the peer hierarchy parameter that represents the topic to be processed and the topic of the peer hierarchy from the hierarchical topic model in the peer hierarchy parameter extraction step, From the hierarchical topic model, a lower hierarchy parameter representing a lower hierarchy topic corresponding to the topic to be processed is extracted. Then, in the score calculation step, using the target parameter, peer hierarchy parameter, and lower hierarchy parameter, for each word included in the target parameter, a score based on the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy is calculated. In the feature word extraction step, feature words in the processing target topic are extracted based on the score of each word included in the calculated target parameter.

このように、下位階層のトピック内分散と同位階層のトピック間分散とに基づくスコアを計算して特徴語を抽出するため、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる。   In this way, feature words are extracted by calculating the score based on the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy. It is possible to extract feature words common to the concepts.

また、前記スコアを、各単語の下位階層のトピックにおける分散が少ないほど、かつ同位階層のトピック間での分散が大きいほど高くすることができる。このように、中間階層以下の概念に共通な特徴語の有する直感的な特徴を直接的にスコアに反映することで、中間階層のトピックにおける特徴語として、適切な特徴語を抽出することができる。   Further, the score can be increased as the variance of each word in the lower-level topics is smaller and the variance among the topics in the peer hierarchy is larger. In this way, by directly reflecting the intuitive features of the feature words common to the concepts below the intermediate hierarchy in the score, it is possible to extract an appropriate feature word as the feature word in the topic of the intermediate hierarchy. .

また、本発明の特徴語抽出装置は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出する対象パラメータ抽出手段と、前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出手段と、前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出手段と、前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算手段と、計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出手段と、を含んで構成されている。   The feature word extraction device of the present invention represents a topic to be processed from a hierarchical topic model that includes parameters representing each of a plurality of topics for probabilistic clustering of document data, and the topics have a hierarchical structure. From the target parameter extracting means for extracting the target parameter, from the hierarchical topic model, from the hierarchical topic model, the isotopic hierarchy parameter extracting means for extracting the isotopic hierarchy parameter representing the topic to be processed and the topic of the peer hierarchy, and the hierarchical topic model, Included in the target parameter using lower layer parameter extraction means for extracting a lower layer parameter representing a lower layer topic corresponding to the topic to be processed, the target parameter, the peer layer parameter, and the lower layer parameter For each word Score calculation means for calculating a score based on variance within the pick and variance between topics in the peer hierarchy, and feature words in the processing target topic based on the score of each word included in the calculated target parameter And feature word extraction means for extracting.

また、本発明の特徴語抽出プログラムは、コンピュータに、上記の特徴語抽出方法の各ステップを実行させるためのプログラムである。   The feature word extraction program of the present invention is a program for causing a computer to execute each step of the above feature word extraction method.

以上説明したように、本発明の特徴語抽出方法、装置、及びプログラムによれば、下位階層のトピック内分散と同位階層のトピック間分散とに基づくスコアを計算して特徴語を抽出するため、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる、という効果が得られる。   As described above, according to the feature word extraction method, apparatus, and program of the present invention, in order to extract a feature word by calculating a score based on the intra-topic distribution in the lower hierarchy and the inter-topic variance in the peer hierarchy, As a feature word in a topic in an intermediate hierarchy of the hierarchical topic model, it is possible to extract a feature word common to concepts in the intermediate hierarchy and lower.

本実施の形態に係る特徴語抽出装置の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the feature word extraction apparatus which concerns on this Embodiment. 階層的トピックモデルを示す概略図である。It is the schematic which shows a hierarchical topic model. 本実施の形態に係る特徴語抽出装置における特徴語抽出処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the feature word extraction process routine in the feature word extraction apparatus which concerns on this Embodiment.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本実施の形態に係る特徴語抽出装置10は、階層的トピックモデルの各トピックにおける特徴語を抽出する。この特徴語抽出装置10は、CPUと、RAMと、後述する特徴語抽出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図1に示すように、対象コンポーネントモデル抽出部12と、同位階層コンポーネントモデル抽出部14と、下位階層コンポーネントモデル抽出部16と、スコア計算部18と、特徴語抽出部20とを含んだ構成で表すことができる。   The feature word extraction device 10 according to the present embodiment extracts feature words in each topic of the hierarchical topic model. The feature word extraction device 10 can be configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a feature word extraction processing routine described later. As shown in FIG. 1, this computer functionally includes a target component model extraction unit 12, a peer layer component model extraction unit 14, a lower layer component model extraction unit 16, a score calculation unit 18, a feature word It can be expressed by a configuration including the extraction unit 20.

ここで、トピックモデルとは、文書集合に含まれる単語(v)を特徴量とし、1文書をデータ点(d)として確率的なクラスタリングを行うためのモデルであり、トピックモデルパラメータを用いて、下記(1)式で表されるモデルである。   Here, the topic model is a model for performing probabilistic clustering using a word (v) included in a document set as a feature amount and one document as a data point (d), and using topic model parameters, It is a model represented by the following formula (1).

Figure 0005503632
Figure 0005503632

(1)式において、トピックモデルパラメータは、p(z)(1×Kmatrix)及びp(v|z)(K×Vmatrix)である。zはトピックを表す確率変数、p(z)は確率変数zに対する事前確率、p(v|z)は確率変数zの下での多項分布による確率、ndvは文書データd中に単語vが出現した回数である。 In the equation (1), the topic model parameters are p (z) (1 × Kmatrix) and p (v | z) (K × Vmatrix). z is a random variable representing a topic, p (z) is a prior probability for the random variable z, p (v | z) is a probability based on a multinomial distribution under the random variable z, and n dv is a word v in the document data d. The number of appearances.

また、階層的トピックモデルとは、トピックが階層構造を有するトピックモデルである。例えば、図2に示すように、第1階層にトピック1、トピック2、トピック3、及びトピック4を含み、第2階層として、トピック2を3つに分割したトピック2−1、トピック2−2、及びトピック2−3を含むような構造となっている。各階層の各トピックは、それぞれ上記のトピックモデルパラメータで表される。第1階層のトピック2については、分割後の第2階層のトピック2−1、トピック2−2、及びトピック2−3各々を表すトピックモデルパラメータとは別に、分割前のトピック2のトピックモデルパラメータをそのまま有している。   A hierarchical topic model is a topic model in which topics have a hierarchical structure. For example, as shown in FIG. 2, topic 2, topic 2-2 including topic 1, topic 2, topic 3, and topic 4 in the first hierarchy and dividing topic 2 into three as the second hierarchy. , And a topic 2-3. Each topic in each hierarchy is represented by the above topic model parameters. For the topic 2 of the first hierarchy, the topic model parameters of the topic 2 before the division are separated from the topic model parameters representing the topics 2-1, 2-2, and 2-3 of the second hierarchy after the division. As it is.

対象コンポーネントモデル抽出部12は、階層的トピックモデル22を入力とし、階層的トピックモデル22から対象となるトピック番号kのトピックモデルコンポーネント(パラメータ)(以下、「対象コンポーネントモデル」という)を抽出する。ここでは、対象コンポーネントモデル24として、p(v|k)(1×Vmatrix)を抽出する。以下では、k=2とし、図2のトピック2を対象のトピックとする場合について説明する。   The target component model extraction unit 12 receives the hierarchical topic model 22 as an input, and extracts a topic model component (parameter) (hereinafter referred to as “target component model”) of the target topic number k from the hierarchical topic model 22. Here, p (v | k) (1 × Vmatrix) is extracted as the target component model 24. In the following, a case will be described in which k = 2 and topic 2 in FIG. 2 is the target topic.

同位階層コンポーネントモデル抽出部14は、階層的トピックモデル22を入力とし、階層的トピックモデル22から対象となるトピック番号kのトピックと同位階層に存在するトピックにおけるトピックモデルコンポーネント(パラメータ)(以下、「同位階層コンポーネントモデル」という)を抽出する。ここでは、同位階層コンポーネントモデルとして、p(v|t)を抽出する。tは同位階層のトピックのトピック番号であり、同位階層のトピックが複数存在する場合には、複数の同位階層コンポーネントモデルを抽出し、同位階層コンポーネントモデル群26とする。例えば、トピック2を対象トピックkとすると、同位階層コンポーネントモデルとしては、第1階層のトピック1、トピック3、及びトピック4各々におけるトピックモデルコンポーネントモデルが抽出される。 The peer hierarchy component model extraction unit 14 receives the hierarchical topic model 22 as an input, and the topic model component (parameter) in the topic existing in the peer hierarchy with the topic of the topic number k from the hierarchical topic model 22 (hereinafter, “ "Isotopic hierarchy component model"). Here, p (v | t B ) is extracted as the peer hierarchy component model. t B is the topic number of the topic in the peer hierarchy, and when there are a plurality of topics in the peer hierarchy, a plurality of peer hierarchy component models are extracted and set as the peer hierarchy component model group 26. For example, if Topic 2 is the target topic k, the topic model component model in each of Topic 1, Topic 3, and Topic 4 in the first hierarchy is extracted as the peer hierarchy component model.

下位階層コンポーネントモデル抽出部16は、階層的トピックモデル22を入力とし、階層的トピックモデル22から対象となるトピック番号kのトピックの下位階層に存在するトピックにおけるトピックモデルコンポーネント(パラメータ)(以下、「下位階層コンポーネントモデル」という)を抽出する。ここでは、下位階層コンポーネントモデルとして、p(v|t)を抽出する。tは下位階層のトピックのトピック番号であり、下位階層のトピックが複数存在する場合には、複数の下位階層コンポーネントモデルを抽出し、下位階層コンポーネントモデル群28とする。例えば、トピック2を対象トピックkとすると、下位階層コンポーネントモデルとしては、第2階層のトピック2−1、トピック2−2、及びトピック2−3各々におけるトピックモデルコンポーネントモデルが抽出される。 The lower hierarchical component model extraction unit 16 receives the hierarchical topic model 22 as an input, and uses topic model components (parameters) (hereinafter referred to as “a topic topic component”) in a topic existing in the lower hierarchy of the topic number k that is the target from the hierarchical topic model 22. "Lower layer component model"). Here, p (v | t W ) is extracted as the lower layer component model. t W is the topic numbers in the lower hierarchy of topics, if the lower layer of the topic there are multiple, extracts a plurality of lower layer component models, a lower layer component model group 28. For example, if Topic 2 is the target topic k, the topic model component model in each of Topic 2-1, Topic 2-2, and Topic 2-3 in the second hierarchy is extracted as the lower-layer component model.

スコア計算部18は、対象コンポーネントモデル24に含まれる全単語についてスコアを計算し、スコアが予め定めた閾値以上の単語を特徴語として抽出する。   The score calculation unit 18 calculates a score for all words included in the target component model 24, and extracts words having a score equal to or higher than a predetermined threshold as feature words.

ここで、スコア計算部18で計算するスコアの原理について説明する。本発明では、中間階層のトピックにおいて、下位階層の概念に共通する特徴語を抽出することを目的としている。このような特徴語としては、
1.下位階層のトピックにおいて分散が少なく(共通性)、
2.同位階層のトピック間での分散が大きい(特徴性)
という特徴が直感的に存在する。この特徴を直接的にスコア関数に入れることが、所望の共通する特徴語を抽出することにつながる。そこで、下位階層のトピック内分散と同位階層のトピック間分散とを考慮したスコア関数を用いる。
Here, the principle of the score calculated by the score calculation unit 18 will be described. The object of the present invention is to extract feature words common to the concepts of the lower hierarchy in the topic of the intermediate hierarchy. Such feature words include:
1. Less distributed among lower-level topics (commonality)
2. Large variance among topics in peer hierarchy (characteristic)
This feature is intuitive. Putting this feature directly in the score function leads to extracting desired common feature words. Therefore, a score function is used in consideration of the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy.

上記原理に従って、スコア計算部18では、例えば、各単語について、下位階層のトピック内分散σW(v)を下記(2)式により計算し、同位階層のトピック間分散σB(v)を下記(3)式により計算し、その比((4)式)をスコアとして計算することができる。 In accordance with the above principle, the score calculation unit 18 calculates, for example, the intra-topic variance σ W (v) in the lower hierarchy for each word by the following equation (2), and the inter-topic variance σ B (v) in the peer hierarchy: It is possible to calculate using the equation (3) and the ratio (equation (4)) as a score.

Figure 0005503632
Figure 0005503632

ここで、vは単語、kは対象トピックのトピック番号、tは下位階層のトピックのトピック番号、tは同位階層のトピックのトピック番号、cは下位階層のトピック数(ここでは3)、cは同位階層のトピック数(ここでは3)である。なお、スコア計算部18で用いるスコアは上記の場合に限定されず、上述の共通する特徴語の特徴が表せるスコアであれば。 Here, v is a word, k is a topic number of a target topic, t W is a topic number of a topic in a lower hierarchy, t B is a topic number of a topic in a peer hierarchy, and c W is the number of topics in a lower hierarchy (here, 3) , C B is the number of topics in the peer hierarchy (here, 3). Note that the score used in the score calculation unit 18 is not limited to the above case, and may be any score as long as the features of the common feature words described above can be expressed.

特徴語抽出部20は、スコア計算部18で計算された各単語のスコアに基づいて各単語をソートし、上位N位の単語をトピックkにおける特徴語として抽出して出力する。また、予め定めた閾値を用いて、スコアと閾値との比較結果に応じて特徴語を抽出するようにしてもよい。   The feature word extraction unit 20 sorts the words based on the score of each word calculated by the score calculation unit 18, and extracts and outputs the top N words as feature words in the topic k. Moreover, you may make it extract a feature word according to the comparison result of a score and a threshold value using a predetermined threshold value.

次に、図3を参照して、本実施の形態の特徴語抽出装置10により実行される特徴語抽出処理ルーチンについて説明する。   Next, a feature word extraction processing routine executed by the feature word extraction device 10 of the present embodiment will be described with reference to FIG.

ステップ100で、階層的トピックモデル22を取得し、階層的トピックモデル22から対象となるトピック番号kの対象コンポーネントモデル24(p(v|k))を抽出する。次に、ステップ102で、階層的トピックモデル22から対象となるトピック番号kのトピックと同位階層に存在するトピックにおける同位階層コンポーネントモデル群26(p(v|t))を抽出する。次に、ステップ104で、階層的トピックモデル22から対象となるトピック番号kのトピックの下位階層に存在するトピックにおける下位階層コンポーネントモデル群28(p(v|t))を抽出する。 In step 100, the hierarchical topic model 22 is acquired, and the target component model 24 (p (v | k)) of the target topic number k is extracted from the hierarchical topic model 22. Next, in step 102, a peer hierarchical component model group 26 (p (v | t B )) is extracted from the hierarchical topic model 22 in the topic having the topic number k and the topic existing in the peer hierarchy. Next, in step 104, a lower layer component model group 28 (p (v | t W )) in the topic existing in the lower layer of the topic with the topic number k is extracted from the hierarchical topic model 22.

次に、ステップ106で、対象コンポーネントモデル24に含まれる全単語について、下位階層のトピック内分散と同位階層のトピック間分散とを考慮したスコア関数を用いて、スコアを計算する。次に、ステップ108で、上記ステップ106で計算された各単語のスコアに基づいて各単語をソートし、上位N位の単語をトピックkにおける特徴語として抽出して出力し、特徴語抽出処理を終了する。   Next, in step 106, scores are calculated for all words included in the target component model 24 using a score function that takes into account the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy. Next, in step 108, the words are sorted based on the score of each word calculated in step 106, the top N words are extracted and output as feature words in topic k, and feature word extraction processing is performed. finish.

以上説明したように、本実施の形態の特徴語抽出装置によれば、特徴語抽出の対象となるトピックと同位階層のトピック、及び下位階層のトピック各々のパラメータ(コンポーネントモデル)を抽出し、下位階層のトピック内分散と同位階層のトピック間分散とを考慮したスコアを計算し、下位階層のトピックにおいて分散が少なく、同位階層のトピック間での分散が大きい単語を対象のトピックにおける特徴語として抽出するため、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる。   As described above, according to the feature word extraction device of the present embodiment, the topic (target model) of the feature word, the topic of the peer hierarchy, and the parameters (component models) of the topics of the lower hierarchy are extracted, Calculates the score considering the intra-topic variance of the hierarchy and the inter-topic variance of the peer hierarchy, and extracts words with low variance in the lower-level topics and large variance between topics in the peer hierarchy as feature words in the target topic Therefore, it is possible to extract a feature word common to the concepts below the intermediate hierarchy as a feature word in the topic of the intermediate hierarchy of the hierarchical topic model.

なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明の特徴語抽出装置を、上記処理を実現するための半導体集積回路等のハードウエアにより構成してもよい。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium. Further, the feature word extraction device of the present invention may be configured by hardware such as a semiconductor integrated circuit for realizing the above processing.

10 特徴語抽出装置
12 対象コンポーネントモデル抽出部
14 同位階層コンポーネントモデル抽出部
16 下位階層コンポーネントモデル抽出部
18 スコア計算部
20 特徴語抽出部
DESCRIPTION OF SYMBOLS 10 Feature word extraction apparatus 12 Target component model extraction part 14 Isotopic hierarchy component model extraction part 16 Lower hierarchy component model extraction part 18 Score calculation part 20 Feature word extraction part

Claims (4)

文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出する対象パラメータ抽出ステップと、
前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出ステップと、
前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出ステップと、
前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算ステップと、
計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出ステップと、
を含む特徴語抽出方法。
A target parameter extracting step for extracting a target parameter representing a processing target topic from a hierarchical topic model including a parameter representing each of a plurality of topics for probabilistic clustering of document data and the topic having a hierarchical structure;
A peer hierarchy parameter extracting step for extracting a peer hierarchy parameter representing a topic of the processing target and a peer hierarchy from the hierarchical topic model;
A lower layer parameter extracting step for extracting, from the hierarchical topic model, a lower layer parameter representing a lower layer topic corresponding to the topic to be processed;
Using the target parameter, the peer hierarchy parameter, and the lower hierarchy parameter, for each word included in the target parameter, a score based on the intra-topic variance of the lower hierarchy and the inter-topic variance of the peer hierarchy is calculated. A score calculation step;
A feature word extraction step of extracting a feature word in the processing target topic based on the score of each word included in the calculated target parameter;
A feature word extraction method.
前記スコアを、各単語の下位階層のトピックにおける分散が少ないほど、かつ同位階層のトピック間での分散が大きいほど高くする請求項1記載の特徴語抽出方法。   The feature word extraction method according to claim 1, wherein the score is increased as the variance of topics in a lower hierarchy of each word is smaller and as the variance between topics in the peer hierarchy is greater. 文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出する対象パラメータ抽出手段と、
前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出手段と、
前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出手段と、
前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算手段と、
計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出手段と、
を含む特徴語抽出装置。
A target parameter extracting means for extracting a target parameter representing a processing target topic from a hierarchical topic model including a parameter representing each of a plurality of topics for probabilistic clustering of document data and the topic having a hierarchical structure;
A peer hierarchy parameter extracting means for extracting a peer hierarchy parameter representing a topic of the processing target and a peer of the peer hierarchy from the hierarchical topic model;
A lower layer parameter extracting means for extracting a lower layer parameter representing a lower layer topic corresponding to the processing target topic from the hierarchical topic model;
Using the target parameter, the peer hierarchy parameter, and the lower hierarchy parameter, for each word included in the target parameter, a score based on the intra-topic variance of the lower hierarchy and the inter-topic variance of the peer hierarchy is calculated. A score calculation means;
Feature word extraction means for extracting a feature word in the processing target topic based on the score of each word included in the calculated target parameter;
A feature word extraction device.
コンピュータに、請求項1または請求項2記載の特徴語抽出方法の各ステップを実行させるための特徴語抽出プログラム。   A feature word extraction program for causing a computer to execute each step of the feature word extraction method according to claim 1.
JP2011286869A 2011-12-27 2011-12-27 Feature word extraction method, apparatus, and program Active JP5503632B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286869A JP5503632B2 (en) 2011-12-27 2011-12-27 Feature word extraction method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286869A JP5503632B2 (en) 2011-12-27 2011-12-27 Feature word extraction method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2013134750A JP2013134750A (en) 2013-07-08
JP5503632B2 true JP5503632B2 (en) 2014-05-28

Family

ID=48911364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286869A Active JP5503632B2 (en) 2011-12-27 2011-12-27 Feature word extraction method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP5503632B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4510483B2 (en) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ Information retrieval device
JP4737435B2 (en) * 2006-09-28 2011-08-03 日本電気株式会社 LABELING SYSTEM, LABELING SERVICE SYSTEM, LABELING METHOD, AND LABELING PROGRAM
JP5135412B2 (en) * 2010-10-27 2013-02-06 株式会社東芝 Document analysis apparatus and program

Also Published As

Publication number Publication date
JP2013134750A (en) 2013-07-08

Similar Documents

Publication Publication Date Title
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
JP2021514497A5 (en)
JP2021523464A5 (en)
WO2021227831A1 (en) Method and apparatus for detecting subject of cyber threat intelligence, and computer storage medium
JP5611852B2 (en) Public information privacy protection device, public information privacy protection method and program
CN104978354B (en) Text classification method and device
Nomoto NEAL: A neurally enhanced approach to linking citation and reference
US11036818B2 (en) Method and system for detecting graph based event in social networks
RU2014135303A (en) TEXT PROCESSING METHOD (OPTIONS) AND PERMANENT MACHINE READABLE MEDIA (OPTIONS)
Trebuňa et al. Experimental modelling of the cluster analysis processes
RU2016105426A (en) A computer-readable medium, system and method for detecting questionable content on a social network.
Lalji et al. Twitter sentiment analysis using hybrid approach
CN109902284A (en) A kind of unsupervised argument extracting method excavated based on debate
JP2018045302A5 (en)
CN110532388B (en) Text clustering method, equipment and storage medium
US20170039484A1 (en) Generating negative classifier data based on positive classifier data
CN106855852A (en) The determination method and device of sentence emotion
JP5503632B2 (en) Feature word extraction method, apparatus, and program
JP6426074B2 (en) Related document search device, model creation device, method and program thereof
CN116561320A (en) Method, device, equipment and medium for classifying automobile comments
CN107590163B (en) The methods, devices and systems of text feature selection
CN105988991A (en) Surname language recognition method and device, as well as server
US8700386B2 (en) Information processing apparatus, information processing method, and program
US20140114900A1 (en) Computer-readable recording medium, extracting device, and extracting method
US10552459B2 (en) Classifying a document using patterns

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140314

R150 Certificate of patent or registration of utility model

Ref document number: 5503632

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150