JP2013134750A - Method, device, and program for extracting feature word - Google Patents
Method, device, and program for extracting feature word Download PDFInfo
- Publication number
- JP2013134750A JP2013134750A JP2011286869A JP2011286869A JP2013134750A JP 2013134750 A JP2013134750 A JP 2013134750A JP 2011286869 A JP2011286869 A JP 2011286869A JP 2011286869 A JP2011286869 A JP 2011286869A JP 2013134750 A JP2013134750 A JP 2013134750A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- hierarchy
- parameter
- extracting
- peer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、特徴語抽出方法、装置、及びプログラムに係り、特に、トピックが階層構造を有する階層的トピックモデルの各トピックにおける特徴語を抽出する特徴語抽出方法、装置、及びプログラムに関する。 The present invention relates to a feature word extraction method, apparatus, and program, and more particularly, to a feature word extraction method, apparatus, and program for extracting feature words in each topic of a hierarchical topic model in which topics have a hierarchical structure.
従来、文書集合に含まれる単語を特徴量とし、1文書をデータ点として確率的なクラスタリングを行うトピックモデルが存在する。また、トピックが階層構造を有する階層的トピックモデルも存在する。このようなトピックモデル全体のパラメータ平均と各トピックにおけるパラメータとの比に基づいて、トピックモデルの各トピックにおける特徴語を抽出する方法が提案されている(例えば、非特許文献1参照)。 Conventionally, there is a topic model in which words included in a document set are feature amounts and probabilistic clustering is performed using one document as a data point. There is also a hierarchical topic model in which topics have a hierarchical structure. A method of extracting feature words in each topic of the topic model based on the ratio between the parameter average of the entire topic model and the parameter in each topic has been proposed (see, for example, Non-Patent Document 1).
しかしながら、非特許文献1に記載の方法を、階層的トピックモデルの中間階層のトピックに対して適用した場合、中間階層の下位に位置するいずれかのトピックに特徴的な単語が、その中間階層のトピックにおける特徴語として選ばれ易く、中間階層のトピックにふさわしい特徴語、すなわち、その中間階層以下の概念に共通な特徴語が抽出できない、という問題がある。 However, when the method described in Non-Patent Document 1 is applied to a topic in an intermediate hierarchy of the hierarchical topic model, a word characteristic of any topic located in the lower level of the intermediate hierarchy is There is a problem that feature words that are easily selected as feature words in a topic and suitable for a topic in an intermediate hierarchy, that is, feature words common to concepts in the intermediate hierarchy and lower cannot be extracted.
本発明は、上記の事情を鑑みてなされたもので、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる特徴語抽出方法、装置、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and a feature word extraction method capable of extracting a feature word common to a concept below the intermediate hierarchy as a feature word in a topic in an intermediate hierarchy of the hierarchical topic model An object is to provide a device and a program.
上記目的を達成するために、本発明の特徴語抽出方法は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出する対象パラメータ抽出ステップと、前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出ステップと、前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出ステップと、前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算ステップと、計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出ステップと、を含む。 To achieve the above object, the feature word extraction method of the present invention includes a parameter representing each of a plurality of topics for probabilistic clustering of document data, and the topic has a hierarchical topic model having a hierarchical structure. A target parameter extraction step for extracting a target parameter representing a topic to be processed, a peer hierarchy parameter extraction step for extracting a peer hierarchy parameter representing a topic of the target subject and a peer hierarchy from the hierarchical topic model, A lower layer parameter extracting step for extracting a lower layer parameter representing a lower layer topic corresponding to the processing target topic from the hierarchical topic model, and using the target parameter, the peer layer parameter, and the lower layer parameter , Included in the target parameter For each word, a score calculating step for calculating a score based on the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy, and based on the score of each word included in the calculated target parameter, A feature word extraction step for extracting feature words in the topic to be processed.
本発明の特徴語抽出方法によれば、対象パラメータ抽出ステップが、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出し、同位階層パラメータ抽出ステップで、階層的トピックモデルから、処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出し、下位階層パラメータ抽出ステップで、階層的トピックモデルから、処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する。そして、スコア計算ステップで、対象パラメータ、同位階層パラメータ、及び下位階層パラメータを用いて、対象パラメータに含まれる各単語について、下位階層のトピック内分散と同位階層のトピック間分散とに基づくスコアを計算し、特徴語抽出ステップで、計算された対象パラメータに含まれる各単語のスコアに基づいて、処理対象のトピックにおける特徴語を抽出する。 According to the feature word extraction method of the present invention, the target parameter extraction step includes a parameter representing each of a plurality of topics for probabilistic clustering of document data, and the topic has a hierarchical topic model having a hierarchical structure. Extract the target parameter that represents the topic to be processed, extract the peer hierarchy parameter that represents the topic to be processed and the topic of the peer hierarchy from the hierarchical topic model in the peer hierarchy parameter extraction step, From the hierarchical topic model, a lower hierarchy parameter representing a lower hierarchy topic corresponding to the topic to be processed is extracted. Then, in the score calculation step, using the target parameter, peer hierarchy parameter, and lower hierarchy parameter, for each word included in the target parameter, a score based on the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy is calculated. In the feature word extraction step, feature words in the processing target topic are extracted based on the score of each word included in the calculated target parameter.
このように、下位階層のトピック内分散と同位階層のトピック間分散とに基づくスコアを計算して特徴語を抽出するため、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる。 In this way, feature words are extracted by calculating the score based on the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy. It is possible to extract feature words common to the concepts.
また、前記スコアを、各単語の下位階層のトピックにおける分散が少ないほど、かつ同位階層のトピック間での分散が大きいほど高くすることができる。このように、中間階層以下の概念に共通な特徴語の有する直感的な特徴を直接的にスコアに反映することで、中間階層のトピックにおける特徴語として、適切な特徴語を抽出することができる。 Further, the score can be increased as the variance of each word in the lower-level topics is smaller and the variance among the topics in the peer hierarchy is larger. In this way, by directly reflecting the intuitive features of the feature words common to the concepts below the intermediate hierarchy in the score, it is possible to extract an appropriate feature word as the feature word in the topic of the intermediate hierarchy. .
また、本発明の特徴語抽出装置は、文書データを確率的にクラスタリングするための複数のトピック各々を表すパラメータを含み、かつトピックが階層構造を有する階層的トピックモデルから、処理対象のトピックを表す対象パラメータを抽出する対象パラメータ抽出手段と、前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出手段と、前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出手段と、前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算手段と、計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出手段と、を含んで構成されている。 The feature word extraction device of the present invention represents a topic to be processed from a hierarchical topic model that includes parameters representing each of a plurality of topics for probabilistic clustering of document data, and the topics have a hierarchical structure. From the target parameter extracting means for extracting the target parameter, from the hierarchical topic model, from the hierarchical topic model, the isotopic hierarchy parameter extracting means for extracting the isotopic hierarchy parameter representing the topic to be processed and the topic of the peer hierarchy, and the hierarchical topic model, Included in the target parameter using lower layer parameter extraction means for extracting a lower layer parameter representing a lower layer topic corresponding to the topic to be processed, the target parameter, the peer layer parameter, and the lower layer parameter For each word Score calculation means for calculating a score based on variance within the pick and variance between topics in the peer hierarchy, and feature words in the processing target topic based on the score of each word included in the calculated target parameter And feature word extraction means for extracting.
また、本発明の特徴語抽出プログラムは、コンピュータに、上記の特徴語抽出方法の各ステップを実行させるためのプログラムである。 The feature word extraction program of the present invention is a program for causing a computer to execute each step of the above feature word extraction method.
以上説明したように、本発明の特徴語抽出方法、装置、及びプログラムによれば、下位階層のトピック内分散と同位階層のトピック間分散とに基づくスコアを計算して特徴語を抽出するため、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる、という効果が得られる。 As described above, according to the feature word extraction method, apparatus, and program of the present invention, in order to extract a feature word by calculating a score based on the intra-topic distribution in the lower hierarchy and the inter-topic variance in the peer hierarchy, As a feature word in a topic in an intermediate hierarchy of the hierarchical topic model, it is possible to extract a feature word common to concepts in the intermediate hierarchy and lower.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
本実施の形態に係る特徴語抽出装置10は、階層的トピックモデルの各トピックにおける特徴語を抽出する。この特徴語抽出装置10は、CPUと、RAMと、後述する特徴語抽出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図1に示すように、対象コンポーネントモデル抽出部12と、同位階層コンポーネントモデル抽出部14と、下位階層コンポーネントモデル抽出部16と、スコア計算部18と、特徴語抽出部20とを含んだ構成で表すことができる。
The feature
ここで、トピックモデルとは、文書集合に含まれる単語(v)を特徴量とし、1文書をデータ点(d)として確率的なクラスタリングを行うためのモデルであり、トピックモデルパラメータを用いて、下記(1)式で表されるモデルである。 Here, the topic model is a model for performing probabilistic clustering using a word (v) included in a document set as a feature amount and one document as a data point (d), and using topic model parameters, It is a model represented by the following formula (1).
(1)式において、トピックモデルパラメータは、p(z)(1×Kmatrix)及びp(v|z)(K×Vmatrix)である。zはトピックを表す確率変数、p(z)は確率変数zに対する事前確率、p(v|z)は確率変数zの下での多項分布による確率、ndvは文書データd中に単語vが出現した回数である。 In the equation (1), the topic model parameters are p (z) (1 × Kmatrix) and p (v | z) (K × Vmatrix). z is a random variable representing a topic, p (z) is a prior probability for the random variable z, p (v | z) is a probability based on a multinomial distribution under the random variable z, and n dv is a word v in the document data d. The number of appearances.
また、階層的トピックモデルとは、トピックが階層構造を有するトピックモデルである。例えば、図2に示すように、第1階層にトピック1、トピック2、トピック3、及びトピック4を含み、第2階層として、トピック2を3つに分割したトピック2−1、トピック2−2、及びトピック2−3を含むような構造となっている。各階層の各トピックは、それぞれ上記のトピックモデルパラメータで表される。第1階層のトピック2については、分割後の第2階層のトピック2−1、トピック2−2、及びトピック2−3各々を表すトピックモデルパラメータとは別に、分割前のトピック2のトピックモデルパラメータをそのまま有している。
A hierarchical topic model is a topic model in which topics have a hierarchical structure. For example, as shown in FIG. 2,
対象コンポーネントモデル抽出部12は、階層的トピックモデル22を入力とし、階層的トピックモデル22から対象となるトピック番号kのトピックモデルコンポーネント(パラメータ)(以下、「対象コンポーネントモデル」という)を抽出する。ここでは、対象コンポーネントモデル24として、p(v|k)(1×Vmatrix)を抽出する。以下では、k=2とし、図2のトピック2を対象のトピックとする場合について説明する。
The target component
同位階層コンポーネントモデル抽出部14は、階層的トピックモデル22を入力とし、階層的トピックモデル22から対象となるトピック番号kのトピックと同位階層に存在するトピックにおけるトピックモデルコンポーネント(パラメータ)(以下、「同位階層コンポーネントモデル」という)を抽出する。ここでは、同位階層コンポーネントモデルとして、p(v|tB)を抽出する。tBは同位階層のトピックのトピック番号であり、同位階層のトピックが複数存在する場合には、複数の同位階層コンポーネントモデルを抽出し、同位階層コンポーネントモデル群26とする。例えば、トピック2を対象トピックkとすると、同位階層コンポーネントモデルとしては、第1階層のトピック1、トピック3、及びトピック4各々におけるトピックモデルコンポーネントモデルが抽出される。
The peer hierarchy component
下位階層コンポーネントモデル抽出部16は、階層的トピックモデル22を入力とし、階層的トピックモデル22から対象となるトピック番号kのトピックの下位階層に存在するトピックにおけるトピックモデルコンポーネント(パラメータ)(以下、「下位階層コンポーネントモデル」という)を抽出する。ここでは、下位階層コンポーネントモデルとして、p(v|tW)を抽出する。tWは下位階層のトピックのトピック番号であり、下位階層のトピックが複数存在する場合には、複数の下位階層コンポーネントモデルを抽出し、下位階層コンポーネントモデル群28とする。例えば、トピック2を対象トピックkとすると、下位階層コンポーネントモデルとしては、第2階層のトピック2−1、トピック2−2、及びトピック2−3各々におけるトピックモデルコンポーネントモデルが抽出される。
The lower hierarchical component
スコア計算部18は、対象コンポーネントモデル24に含まれる全単語についてスコアを計算し、スコアが予め定めた閾値以上の単語を特徴語として抽出する。
The
ここで、スコア計算部18で計算するスコアの原理について説明する。本発明では、中間階層のトピックにおいて、下位階層の概念に共通する特徴語を抽出することを目的としている。このような特徴語としては、
1.下位階層のトピックにおいて分散が少なく(共通性)、
2.同位階層のトピック間での分散が大きい(特徴性)
という特徴が直感的に存在する。この特徴を直接的にスコア関数に入れることが、所望の共通する特徴語を抽出することにつながる。そこで、下位階層のトピック内分散と同位階層のトピック間分散とを考慮したスコア関数を用いる。
Here, the principle of the score calculated by the
1. Less distributed among lower-level topics (commonality)
2. Large variance among topics in peer hierarchy (characteristic)
This feature is intuitive. Putting this feature directly in the score function leads to extracting desired common feature words. Therefore, a score function is used in consideration of the intra-topic variance in the lower hierarchy and the inter-topic variance in the peer hierarchy.
上記原理に従って、スコア計算部18では、例えば、各単語について、下位階層のトピック内分散σW(v)を下記(2)式により計算し、同位階層のトピック間分散σB(v)を下記(3)式により計算し、その比((4)式)をスコアとして計算することができる。
In accordance with the above principle, the
ここで、vは単語、kは対象トピックのトピック番号、tWは下位階層のトピックのトピック番号、tBは同位階層のトピックのトピック番号、cWは下位階層のトピック数(ここでは3)、cBは同位階層のトピック数(ここでは3)である。なお、スコア計算部18で用いるスコアは上記の場合に限定されず、上述の共通する特徴語の特徴が表せるスコアであれば。
Here, v is a word, k is a topic number of a target topic, t W is a topic number of a topic in a lower hierarchy, t B is a topic number of a topic in a peer hierarchy, and c W is the number of topics in a lower hierarchy (here, 3) , C B is the number of topics in the peer hierarchy (here, 3). Note that the score used in the
特徴語抽出部20は、スコア計算部18で計算された各単語のスコアに基づいて各単語をソートし、上位N位の単語をトピックkにおける特徴語として抽出して出力する。また、予め定めた閾値を用いて、スコアと閾値との比較結果に応じて特徴語を抽出するようにしてもよい。
The feature
次に、図3を参照して、本実施の形態の特徴語抽出装置10により実行される特徴語抽出処理ルーチンについて説明する。
Next, a feature word extraction processing routine executed by the feature
ステップ100で、階層的トピックモデル22を取得し、階層的トピックモデル22から対象となるトピック番号kの対象コンポーネントモデル24(p(v|k))を抽出する。次に、ステップ102で、階層的トピックモデル22から対象となるトピック番号kのトピックと同位階層に存在するトピックにおける同位階層コンポーネントモデル群26(p(v|tB))を抽出する。次に、ステップ104で、階層的トピックモデル22から対象となるトピック番号kのトピックの下位階層に存在するトピックにおける下位階層コンポーネントモデル群28(p(v|tW))を抽出する。
In
次に、ステップ106で、対象コンポーネントモデル24に含まれる全単語について、下位階層のトピック内分散と同位階層のトピック間分散とを考慮したスコア関数を用いて、スコアを計算する。次に、ステップ108で、上記ステップ106で計算された各単語のスコアに基づいて各単語をソートし、上位N位の単語をトピックkにおける特徴語として抽出して出力し、特徴語抽出処理を終了する。
Next, in
以上説明したように、本実施の形態の特徴語抽出装置によれば、特徴語抽出の対象となるトピックと同位階層のトピック、及び下位階層のトピック各々のパラメータ(コンポーネントモデル)を抽出し、下位階層のトピック内分散と同位階層のトピック間分散とを考慮したスコアを計算し、下位階層のトピックにおいて分散が少なく、同位階層のトピック間での分散が大きい単語を対象のトピックにおける特徴語として抽出するため、階層的トピックモデルの中間階層のトピックにおける特徴語として、その中間階層以下の概念に共通な特徴語を抽出することができる。 As described above, according to the feature word extraction device of the present embodiment, the topic (target model) of the feature word, the topic of the peer hierarchy, and the parameters (component models) of the topics of the lower hierarchy are extracted, Calculates the score considering the intra-topic variance of the hierarchy and the inter-topic variance of the peer hierarchy, and extracts words with low variance in the lower-level topics and large variance between topics in the peer hierarchy as feature words in the target topic Therefore, it is possible to extract a feature word common to the concepts below the intermediate hierarchy as a feature word in the topic of the intermediate hierarchy of the hierarchical topic model.
なお、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above embodiment, and various modifications and applications can be made without departing from the gist of the present invention.
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明の特徴語抽出装置を、上記処理を実現するための半導体集積回路等のハードウエアにより構成してもよい。 Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium. Further, the feature word extraction device of the present invention may be configured by hardware such as a semiconductor integrated circuit for realizing the above processing.
10 特徴語抽出装置
12 対象コンポーネントモデル抽出部
14 同位階層コンポーネントモデル抽出部
16 下位階層コンポーネントモデル抽出部
18 スコア計算部
20 特徴語抽出部
DESCRIPTION OF
Claims (4)
前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出ステップと、
前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出ステップと、
前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算ステップと、
計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出ステップと、
を含む特徴語抽出方法。 A target parameter extracting step for extracting a target parameter representing a processing target topic from a hierarchical topic model including a parameter representing each of a plurality of topics for probabilistic clustering of document data and the topic having a hierarchical structure;
A peer hierarchy parameter extracting step for extracting a peer hierarchy parameter representing a topic of the processing target and a peer hierarchy from the hierarchical topic model;
A lower layer parameter extracting step for extracting, from the hierarchical topic model, a lower layer parameter representing a lower layer topic corresponding to the topic to be processed;
Using the target parameter, the peer hierarchy parameter, and the lower hierarchy parameter, for each word included in the target parameter, a score based on the intra-topic variance of the lower hierarchy and the inter-topic variance of the peer hierarchy is calculated. A score calculation step;
A feature word extraction step of extracting a feature word in the processing target topic based on the score of each word included in the calculated target parameter;
A feature word extraction method.
前記階層的トピックモデルから、前記処理対象のトピックと同位階層のトピックを表す同位階層パラメータを抽出する同位階層パラメータ抽出手段と、
前記階層的トピックモデルから、前記処理対象のトピックに対応する下位階層のトピックを表す下位階層パラメータを抽出する下位階層パラメータ抽出手段と、
前記対象パラメータ、前記同位階層パラメータ、及び前記下位階層パラメータを用いて、前記対象パラメータに含まれる各単語について、前記下位階層のトピック内分散と前記同位階層のトピック間分散とに基づくスコアを計算するスコア計算手段と、
計算された前記対象パラメータに含まれる各単語の前記スコアに基づいて、前記処理対象のトピックにおける特徴語を抽出する特徴語抽出手段と、
を含む特徴語抽出装置。 A target parameter extracting means for extracting a target parameter representing a processing target topic from a hierarchical topic model including a parameter representing each of a plurality of topics for probabilistic clustering of document data and the topic having a hierarchical structure;
A peer hierarchy parameter extracting means for extracting a peer hierarchy parameter representing a topic of the processing target and a peer of the peer hierarchy from the hierarchical topic model;
A lower layer parameter extracting means for extracting a lower layer parameter representing a lower layer topic corresponding to the processing target topic from the hierarchical topic model;
Using the target parameter, the peer hierarchy parameter, and the lower hierarchy parameter, for each word included in the target parameter, a score based on the intra-topic variance of the lower hierarchy and the inter-topic variance of the peer hierarchy is calculated. A score calculation means;
Feature word extraction means for extracting a feature word in the processing target topic based on the score of each word included in the calculated target parameter;
A feature word extraction device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286869A JP5503632B2 (en) | 2011-12-27 | 2011-12-27 | Feature word extraction method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286869A JP5503632B2 (en) | 2011-12-27 | 2011-12-27 | Feature word extraction method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013134750A true JP2013134750A (en) | 2013-07-08 |
JP5503632B2 JP5503632B2 (en) | 2014-05-28 |
Family
ID=48911364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286869A Active JP5503632B2 (en) | 2011-12-27 | 2011-12-27 | Feature word extraction method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5503632B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005235065A (en) * | 2004-02-23 | 2005-09-02 | Ntt Data Corp | Information retrieval device |
JP2008084203A (en) * | 2006-09-28 | 2008-04-10 | Nec Corp | System, method and program for assigning label |
JP2012093966A (en) * | 2010-10-27 | 2012-05-17 | Toshiba Corp | Document analysis apparatus and program |
-
2011
- 2011-12-27 JP JP2011286869A patent/JP5503632B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005235065A (en) * | 2004-02-23 | 2005-09-02 | Ntt Data Corp | Information retrieval device |
JP2008084203A (en) * | 2006-09-28 | 2008-04-10 | Nec Corp | System, method and program for assigning label |
JP2012093966A (en) * | 2010-10-27 | 2012-05-17 | Toshiba Corp | Document analysis apparatus and program |
Non-Patent Citations (2)
Title |
---|
林 幸記 他: "カテゴリ階層構造を考慮した確率的トピックモデルとその応用", 情報処理学会研究報告, vol. Vol.2011-NL-200,No.7, JPN6014010515, 15 February 2011 (2011-02-15), JP, pages 1 - 8, ISSN: 0002766435 * |
砂山 渡 他: "サブトピックモデルに基づく文章の流れの評価指標の提案", 知能と情報(日本知能情報ファジィ学会誌), vol. 18, no. 2, JPN6014010517, 15 April 2006 (2006-04-15), JP, pages 280 - 289, ISSN: 0002766436 * |
Also Published As
Publication number | Publication date |
---|---|
JP5503632B2 (en) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102170929B1 (en) | User keyword extraction device, method, and computer-readable storage medium | |
JP2021514497A5 (en) | ||
US20110072011A1 (en) | Method and system for scoring texts | |
CN103699525A (en) | Method and device for automatically generating abstract on basis of multi-dimensional characteristics of text | |
CN104978354B (en) | Text classification method and device | |
CN103955453B (en) | A kind of method and device for finding neologisms automatic from document sets | |
US11036818B2 (en) | Method and system for detecting graph based event in social networks | |
CN106372202B (en) | Text similarity calculation method and device | |
Nomoto | NEAL: A neurally enhanced approach to linking citation and reference | |
RU2014135303A (en) | TEXT PROCESSING METHOD (OPTIONS) AND PERMANENT MACHINE READABLE MEDIA (OPTIONS) | |
JP2013164704A5 (en) | ||
US20150269162A1 (en) | Information processing device, information processing method, and computer program product | |
CN112800919A (en) | Method, device and equipment for detecting target type video and storage medium | |
CN112287102A (en) | Data mining method and device | |
US20200202233A1 (en) | Future scenario generating device and method, and computer program | |
US20170039484A1 (en) | Generating negative classifier data based on positive classifier data | |
JP6365274B2 (en) | Common operation information generation program, common operation information generation method, and common operation information generation device | |
CN107688594B (en) | The identifying system and method for risk case based on social information | |
CN106844743B (en) | Emotion classification method and device for Uygur language text | |
JP5503632B2 (en) | Feature word extraction method, apparatus, and program | |
CN116561320A (en) | Method, device, equipment and medium for classifying automobile comments | |
CN108763400B (en) | Object dividing method and device based on object behaviors and theme preferences | |
CN107590163B (en) | The methods, devices and systems of text feature selection | |
CN105988991A (en) | Surname language recognition method and device, as well as server | |
US8700386B2 (en) | Information processing apparatus, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5503632 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |