JP2010055253A - Unnecessary word deciding apparatus and program - Google Patents
Unnecessary word deciding apparatus and program Download PDFInfo
- Publication number
- JP2010055253A JP2010055253A JP2008217867A JP2008217867A JP2010055253A JP 2010055253 A JP2010055253 A JP 2010055253A JP 2008217867 A JP2008217867 A JP 2008217867A JP 2008217867 A JP2008217867 A JP 2008217867A JP 2010055253 A JP2010055253 A JP 2010055253A
- Authority
- JP
- Japan
- Prior art keywords
- word
- themes
- unnecessary
- words
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、不要語決定装置及びプログラムに関する。 The present invention relates to an unnecessary word determination device and a program.
文書検索や文書のクラスタリングにおいて、単語の索引作業は不可欠である。この索引を作成するときに、文書のキーワードとなりえない単語を索引に登録してしまうと、文書検索での効率性やクラスタリングでの精度に、悪影響を与えてしまう。従って、文書のキーワードとなりえない不要語と呼ばれる単語を適切に取り出し、除去することが必要であり、様々な技術が提案されている。 In document retrieval and document clustering, word indexing is indispensable. If a word that cannot be a keyword of a document is registered in the index when creating this index, the efficiency in document search and the accuracy in clustering are adversely affected. Therefore, it is necessary to appropriately extract and remove words called unnecessary words that cannot be used as keywords for documents, and various techniques have been proposed.
例えば、分野ごとに分類された文書データを利用し、同一分野の全ての文書に出現した単語の除去を行なう技術が知られている(特許文献1)。類似文書検索装置において、単語の出現頻度を数え、一定の割合以上(もしくは以下)出現する単語を不要語として登録する技術が知られている(特許文献2)。また、文書自動分類において不要語を効果的に取り除く技術として、学習用文書集合から語を抽出し、各カテゴリでの出現頻度や出現割合に基づいて、そのカテゴリでの不要語を相対的に取り除く技術が知られている(特許文献3)。
不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる不要語決定装置及びプログラムを提供することを目的とする。 An object of the present invention is to provide an unnecessary word determination device and a program capable of determining an unnecessary word without using a threshold value for determining whether or not the word is an unnecessary word.
上記の目的を達成するために、請求項1記載の発明に係る不要語決定装置は、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段と、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段とを含んで構成されている。
In order to achieve the above object, the unnecessary word determination device according to
請求項2記載の発明に係る不要語決定装置は、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段と、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段と、前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段とを含んで構成されている。 The unnecessary word determination device according to the second aspect of the present invention provides a subject in which each word of the word group is set in advance for maximizing the likelihood of the document information for a word group included in document information prepared in advance. Search means for searching for the appearance probability of appearing in each of a number of themes, and, based on the appearance probability searched by the search means, for each word of the word group, the appearance probability of the word is highest Classifying means for classifying into any of the themes of the number of themes, and among the themes of the number of themes, the themes in which each of the occurrence probabilities appearing in the themes of the number of themes falls within a predetermined range are classified Unnecessary word candidate determination means for determining each of the classified words as an unnecessary word candidate, and a display device for the user to select the unnecessary word candidates determined by the unnecessary word candidate determination means for selecting an unnecessary word Displayed on It is configured to include a display control means for controlling.
請求項3記載の発明では、上記請求項1又は2記載の発明に係る不要語決定装置において、前記探索手段は、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題が現れるまで、前記予め設定された主題数から主題数を順次増加させて、前記文書情報に対する尤度を最大にする前記出現確率を繰り返し探索する。 According to a third aspect of the present invention, in the unnecessary word determining apparatus according to the first or second aspect of the present invention, the search means determines that each of the appearance probabilities appearing in the themes corresponding to the number of themes is within a predetermined range. The number of themes is sequentially increased from the preset number of themes until the subject in which the word is classified appears, and the appearance probability that maximizes the likelihood for the document information is repeatedly searched.
請求項4記載の発明に係るプログラムは、コンピュータを、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、及び前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段として機能させるためのプログラムである。 According to a fourth aspect of the present invention, there is provided a program that causes a computer to maximize the likelihood for the document information for a word group included in document information prepared in advance. Search means for searching for an appearance probability appearing in each of the themes, and the subject having the highest occurrence probability of the word for each word of the word group based on the appearance probability searched by the search means Classifying means for classifying into any of a number of themes, and among the themes of the number of themes, classifying the words into which the occurrence probabilities appearing in the themes of the number of themes are within a predetermined range. This is a program for causing each of the generated words to function as unnecessary word determining means for determining as an unnecessary word.
請求項5記載の発明に係るプログラムは、コンピュータを、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段、及び前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段として機能させるためのプログラムである。 According to a fifth aspect of the present invention, there is provided a program that causes a computer to maximize the likelihood for the document information for a word group included in document information prepared in advance. Search means for searching for an appearance probability appearing in each of the themes, and the subject having the highest occurrence probability of the word for each word of the word group based on the appearance probability searched by the search means Classifying means for classifying into one of a number of themes, among the themes of the number of themes, words whose occurrence probabilities appearing in the themes of the number of themes are within a predetermined range are classified into the classified themes Unnecessary word candidate determining means for determining each of the words as unnecessary word candidates, and displaying the unnecessary word candidates determined by the unnecessary word candidate determining means for the user to select the unnecessary words Is a program for functioning as display control means for displaying on the location.
以上説明したように、請求項1記載の不要語決定装置によれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。
As described above, according to the unnecessary word determination device according to
請求項2記載の不要語決定装置によれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。 According to the unnecessary word determining device of the second aspect, there is an effect that an unnecessary word can be determined without using a threshold value for determining whether or not the word is an unnecessary word.
請求項3記載の不要語決定装置によれば、本構成を有していない場合に比較して、多くの不要語を決定することができる、という効果が得られる。 According to the unnecessary word determining device of the third aspect, it is possible to determine that many unnecessary words can be determined as compared with the case where the present configuration is not provided.
請求項4記載のプログラムによれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。 According to the program of the fourth aspect, there is an effect that an unnecessary word can be determined without using a threshold for determining whether or not the word is an unnecessary word.
請求項5記載のプログラムによれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。 According to the program of the fifth aspect, it is possible to determine an unnecessary word without using a threshold value for determining whether or not the word is an unnecessary word.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
本発明の第1の実施の形態に係る不要語決定装置10は、従来既知のパーソナルコンピュータによって構成されており、キーボード、マウス、ディスプレイ、CPU、ROM、RAM、及びを後述する不要語決定処理ルーチンを実現するためのプログラムや文書データなどの各種データを記憶したHDD等の記憶装置で構成されている。
The unnecessary
不要語決定装置10を以下で説明する不要語決定処理ルーチンに従って機能ブロックで表すと、図1に示すように、予め用意された学習用文書データを記憶した文書データベース12と、学習用文書データにおける複数の主題(以下、トピックともいう。)の各々の出現頻度を調整するためのパラメータα、及び学習用文書データに含まれる単語群の各単語についてトピック毎に出現する出現確率を表わすパラメータβを学習するパラメータ学習部14と、学習されたパラメータβに基づいて、各単語を、出現確率が最も高いトピックに分類する単語分類部16と、各トピックに一様に分布する単語が分類されたトピックが存在するか否かを判定する一様分布判定部18と、一様に分布する単語が分類されたトピックに分類された各単語を、不要語として決定する不要語決定部20とを備えている。
When the unnecessary
以下、本実施の形態において不要語を決定する原理について説明する。 Hereinafter, the principle of determining unnecessary words in the present embodiment will be described.
近年、統計的な文書処理の方法が数多く研究され、実用に供している中で、確率的文書モデルが提案及び研究されており、一文書中に現われる複数のトピックを表現するモデルとして、Probabilistic Latent Semantic Analysisが提案されている(非特許文献1:T. Hofmann, “Probabilistic Latent Semantic Analysis”, Proceedings of Conference on Uncertainty in Artificial Intelligence, pp.289-296. (1999). )。 In recent years, a lot of statistical document processing methods have been studied and put into practical use, and a probabilistic document model has been proposed and studied. As a model for expressing a plurality of topics appearing in one document, Probabilistic Latent Semantic Analysis has been proposed (Non-Patent Document 1: T. Hofmann, “Probabilistic Latent Semantic Analysis”, Proceedings of Conference on Uncertainty in Artificial Intelligence, pp. 289-296. (1999)).
また、上記のモデルをベイズ統計の枠組みから一般化したモデルとしてLatent Dirichlet Allocation(以下、LDAと呼ぶ)と呼ばれる技術が提案されている(非特許文献2:D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, vol. 3, pp.993-1022. (2003). )。 In addition, as a model obtained by generalizing the above model from the framework of Bayesian statistics, a technique called “Lent Dirichlet Allocation” (hereinafter referred to as LDA) has been proposed (Non-Patent Document 2: DM Blei, AY Ng, and MI Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, vol. 3, pp.993-1022. (2003).).
LDAの確率的文書生成モデルは、図2に示すような非循環有向グラフで表現される。ここで、Mは文書数、Nは一文書あたりの単語数、Zは単語ごとのトピック変数で潜在変数、θは、トピックの出現確率であり、Dirichlet分布のパラメータを表わしている。また、αは、トピックの出現頻度を調整するためのパラメータであり、Dirichlet分布のハイパーパラメータを表わし、βはトピックを条件とした単語の出現確率を表わす。Dirichlet分布は、ベイズ統計で離散データの事前確率分布または事後確率分布を表わすのによく用いられる確率分布関数である(非特許文献3:A. Gelman et al., “Bayesian Data Analysis”, Chapman & Hall/CRC, second edition (2004).)。 The probabilistic document generation model of LDA is represented by an acyclic directed graph as shown in FIG. Here, M is the number of documents, N is the number of words per document, Z is a topic variable for each word and a latent variable, θ is the appearance probability of the topic, and represents a parameter of the Dirichlet distribution. Further, α is a parameter for adjusting the appearance frequency of the topic, and represents a hyper parameter of the Dirichlet distribution, and β represents the appearance probability of the word on the condition of the topic. The Dirichlet distribution is a probability distribution function often used to represent the prior probability distribution or posterior probability distribution of discrete data in Bayesian statistics (Non-Patent Document 3: A. Gelman et al., “Bayesian Data Analysis”, Chapman & Hall / CRC, second edition (2004).).
本実施の形態では、潜在トピックモデルと呼ばれる技術のうち、代表的な技術であるLDAを用いて、不要語を決定する。ここで、LDAについて簡単に説明する。 In the present embodiment, unnecessary words are determined using LDA, which is a representative technique among techniques called latent topic models. Here, LDA will be briefly described.
上記の非特許文献2においてBleiらによって提案されたLDAは、トピックと呼ばれるある中心的な概念を基に生成される離散データを扱うための枠組みである。具体的には、LDAは、文書の生成過程をモデル化し、ベイズ統計的に記述したモデルである。N個の単語から生成される文書データに対して、各単語ごとにトピックが想定され、予め定められたトピック数をK、データから推定されるモデルのパラメータをα、βとし、また、トピックの出現確率をθ、K個のトピックの組をz、N個の単語の組をwとして、所謂“bag−of−words”モデルを仮定することよって、これらの結合確率を以下の(1)式で表わす。
The LDA proposed by Blei et al. In Non-Patent
文書データの周辺化確率分布は、以下の(2)式で表される。 The marginalization probability distribution of the document data is expressed by the following equation (2).
コーパス全体での文書データDの生成確率は以下の(3)式で表される。 The generation probability of the document data D in the entire corpus is expressed by the following equation (3).
また、K次元Dirichlet分布に従う確率変数θは、次の(4)式のように表わされる。 Also, the random variable θ according to the K-dimensional Dirichlet distribution is expressed as the following equation (4).
上記(4)式によって、上記(2)式は、以下の(5)式で表される。また、(5)式によって算出されるp(w|α、β)は、対象の文書データに対する尤度を表している。 From the above formula (4), the above formula (2) is expressed by the following formula (5). Further, p (w | α, β) calculated by the equation (5) represents the likelihood for the target document data.
ただし、上記(1)式〜(5)式において、iはトピックを識別するための変数であり、nは文書データ中の単語を識別するための変数であり、jは辞書中の単語を識別するための変数である。また、wn jはn番目の単語が辞書中のj番目の単語と一致した場合に1となり、それ以外の場合に0となる。Vは辞書にインデキシングされた単語数である。また、上記(5)式で計算される、対象の文書データに対する尤度とは、パラメータα、βに基づいて確率的に生成される文書データが、対象の文書データに対してどのくらい尤もらしいかを表わす度合いである。 In the above equations (1) to (5), i is a variable for identifying a topic, n is a variable for identifying a word in the document data, and j is a word in the dictionary. It is a variable to do. Also, w n j is 1 when the nth word matches the jth word in the dictionary, and 0 otherwise. V is the number of words indexed in the dictionary. In addition, the likelihood for the target document data calculated by the above equation (5) is how likely the document data generated stochastically based on the parameters α and β is for the target document data. It is a degree which represents.
上記(5)式では、θとβとが結合しているため、簡単に積分することはできない。そこで、いくつかの近似計算手法が用いられており、例えば、マルコフ連鎖モンテカルロ法(非特許文献4:伊庭幸人、「統計科学のフロンティア12 計算統計II ― マルコフ連鎖モンテカルロ法とその周辺 ―」、岩波書店、2005)や、上記非特許文献2に記載されている変分ベイズ法が用いられて、近似計算が行われる。
In the above equation (5), since θ and β are coupled, it cannot be easily integrated. Therefore, some approximate calculation methods are used, for example, Markov chain Monte Carlo method (Non-patent document 4: Yukito Iba, "Frontier of statistical science 12-Computational statistics II-Markov chain Monte Carlo method and its surroundings"), Iwanami Approximate calculation is performed using the variational Bayes method described in the bookstore, 2005) and the
本実施の形態では効率的な計算手法の一つである変分ベイズ法を用いる。変分ベイズ法とはαとβをパラメータとして文書データ集合全体の周辺対数尤度を変分近似する方法である。これはパラメータ学習方法の一部として後に記述する。 In this embodiment, a variational Bayes method, which is one of efficient calculation methods, is used. The variational Bayes method is a method of variationally approximating the logarithmic likelihood of the entire document data set using α and β as parameters. This will be described later as part of the parameter learning method.
本実施の形態に係るパラメータ学習部14では、トピック数を設定すると共に、上記非特許文献2に記載されている経験ベイズ法を用いて、教師なしで上記のLDAモデルの学習を行う。例えば、設定されたトピック数におけるLDAモデルのパラメータαとβを複数種類の値に変更しながら、学習用文書データに対する尤度を最大化するパラメータαとβの組み合わせを探索する。
In the
ここで、αは各トピックの出現頻度を調整するためのパラメータである。また、βは学習用文書データ中から生成することができる辞書に登録されるK個の単語の各々のトピックごとの出現確率を表わすパラメータであって、辞書のサイズをVとしてK×Vの行列で表わされる。 Here, α is a parameter for adjusting the appearance frequency of each topic. Β is a parameter representing the appearance probability for each topic of K words registered in the dictionary that can be generated from the learning document data, and the size of the dictionary is V and a K × V matrix It is represented by
本実施の形態では上記非特許文献2に記載されているように変分ベイズ法と経験ベイズ法を組み合わせたパラメータ学習を行なう。この組み合わせによるアルゴリズムは変分EMアルゴリズムとも呼ばれ、以下のような手順となる。
In this embodiment, as described in
まず、周辺尤度の変分近似を行ない変分パラメータを導入する。次に、各文書ごとに変分パラメータを最適化する。そして、変分近似された周辺尤度の下界を最大化するようにパラメータαとβを最適化する。 First, variational approximation of marginal likelihood is performed and variation parameters are introduced. Next, the variation parameter is optimized for each document. Then, the parameters α and β are optimized so as to maximize the lower bound of the marginal likelihood subjected to variational approximation.
上記アルゴリズムにおける下界とは、任意の関数pとqに関する次のJensenの不等式である以下の(6)式の右辺を指す。 The lower bound in the above algorithm refers to the right side of the following expression (6), which is the following Jensen inequality regarding arbitrary functions p and q.
上記(6)式でD,Z,θは変数を表わす。そして式(6)の左辺を周辺対数尤度とし右辺の下界を最大化する。この尤度を最大化することによってベイズ統計的なパラメータを最適化する手法は経験ベイズ法と呼ばれる。ここでさらに導入された関数qを次の(7)式のように変数分離形で表わせるものと仮定するのが変分近似と呼ばれる手法である。 In the above equation (6), D, Z, and θ represent variables. Then, the left side of Equation (6) is set as the peripheral log likelihood, and the lower bound on the right side is maximized. A technique for optimizing Bayesian statistical parameters by maximizing this likelihood is called an experience Bayesian method. It is a method called variational approximation that assumes that the function q introduced here can be expressed in a variable separation form as shown in the following equation (7).
ここでγ,θが上に記した変分パラメータと呼ばれる新たに導入される補助的なパラメータである。なおこれらの手法のさらに詳細な記述は上記非特許文献2に記載されているためここでは省略する。
Here, γ and θ are newly introduced auxiliary parameters called variational parameters described above. Note that more detailed description of these methods is described in
パラメータ学習部14によって、学習用文書データに対する尤度を最大化するβが得られれば、トピックごとに出現確率が高い単語を判別することができるため、単語分類部16によって、辞書に登録された各単語を、出現確率が最も高いトピックに分類する。
If β that maximizes the likelihood for the learning document data is obtained by the
上記のLDAモデルにおいて、設定するトピック数を増やしていくと、特定のトピックに強く反応しない単語の集合が分類されたトピックが形成されることがある。このようなトピックと結びつきが強い単語集合の特徴は、他の(一部の)トピックへの出現確率も同等に近いことであり、このような単語の集合が、不要語となる。 In the above LDA model, when the number of topics to be set is increased, a topic in which a set of words that do not react strongly to a specific topic is classified may be formed. A feature of a word set that is strongly associated with such a topic is that the appearance probabilities on other (partial) topics are almost equal, and such a set of words becomes an unnecessary word.
そこで、本実施の形態では、一様分布判定部18によって、全てのトピックのうち、分類された全ての単語wnの各々について、全てのトピックTiへの出現確率p(wn|Ti)が以下の(8)式で表される範囲内となるトピックが存在するか否かを判定する。
(1−δ)/K≦p(wn|Ti)≦(1+δ)/K (i=1,…,K)・・・(8)
ただし、Kは、トピック数を表わし、δは、出現確率の範囲を規定するための定数である。δは、学習用文書データ毎にユーザが設定するようにしてもよい。また、δの値を、通常統計的検定で用いられる有意性を表わす指標(例えば1%、3%、5%)などから定めてもよい。
Therefore, in this embodiment, the uniform
(1-δ) / K ≦ p (w n | T i ) ≦ (1 + δ) / K (i = 1,..., K) (8)
Here, K represents the number of topics, and δ is a constant for defining the range of appearance probabilities. δ may be set by the user for each learning document data. Further, the value of δ may be determined from an index (for example, 1%, 3%, 5%) indicating significance that is usually used in statistical tests.
上記のような、全トピックに対して一様な分布を持つ単語集合が分類されたトピックが存在しない場合には、全トピックに対して一様な分布を持つ単語集合が分類されたトピックが現れるまで、トピック数を順次増加させて、パラメータ学習部14に繰り返し学習させる。
If there is no topic with a word set that has a uniform distribution for all topics, a topic with a word set that has a uniform distribution for all topics will appear. Until the number of topics is increased, the
上記のような全トピックに対して一様な分布を持つ単語集合が分類されたトピックが存在する場合には、不要語決定部20によって、当該トピックに分類された、一様な分布を持つ単語集合を、不要語として決定する。
When there is a topic in which a set of words having a uniform distribution with respect to all the topics as described above exists, the words having a uniform distribution classified into the topic by the unnecessary
次に、第1の実施の形態に係る不要語決定装置10の作用について説明する。
Next, the operation of the unnecessary
まず、不要語決定装置10において、文書データベース12から学習用文書データを読み出し、学習用文書データに対して形態素解析を行って名詞語を取り出し、学習用文書データに含まれる単語群として、単語辞書データベース(図示省略)に登録する。
First, in the unnecessary
そして、不要語決定装置10において、図3に示す不要語決定処理ルーチンを実行する。ステップ100において、学習用文書データに含まれる単語群を、単語辞書データベースから読み込む。そして、ステップ102において、トピック数Kに初期値として2を設定すると共に、トピック数上限値Kmaxに、予め定められた上限値を設定する。
And the unnecessary
そして、ステップ104において、トピック数Kにおいて、上記ステップ100で得られた単語群に対して学習を行うことにより、学習用文書データに対して最大尤度が得られるパラメータα、βを探索する。次のステップ106では、上記ステップ106で得られたパラメータβが表わす出現確率に基づいて、上記ステップ100で得られた各単語を、K個のトピックに分類する。
Then, in
そして、ステップ108において、上記ステップ106で得られたパラメータβが表わす出現確率に基づいて、上記(8)式に従って、上記ステップ106で分類された全ての単語が各トピックに対して一様に分布するトピックが存在するか否かを判定する。分類された全ての単語が一様に分布するトピックが存在しなかった場合には、ステップ110において、トピック数Kが、上限値Kmax未満であるか否かを判定し、トピック数Kが、上限値Kmaxに達していない場合には、ステップ112において、設定するトピック数をインクリメントして、上記ステップ104へ戻る。
In
一方、上記ステップ110において、トピック数Kが、上限値Kmaxに達している場合には、分類された全ての単語が一様に分布するトピックが得られなかったと判断し、不要語を登録せずに、不要語決定処理ルーチンを終了する。
On the other hand, if the topic number K has reached the upper limit value Kmax in
また、上記ステップ108において、分類された全ての単語が一様に分布するトピックが得られたと判断された場合には、ステップ114において、当該トピックに分類された単語の集合を、不要語リストに登録して、不要語決定処理ルーチンを終了する。
If it is determined in
次に、本実施の形態のLDAモデルを用いた方法による出現確率の学習結果について説明する。なお、学習コーパスとして、クラスタリングされた特許文書集合を用いて、形態素解析を行ない、単語群として名詞語を取り出してから、トピック数として2または3を設定して、LDA学習を行なった。 Next, the learning result of the appearance probability by the method using the LDA model of the present embodiment will be described. The clustered patent document set was used as a learning corpus, morphological analysis was performed, noun words were extracted as word groups, and 2 or 3 were set as the number of topics to perform LDA learning.
トピック数として2を設定して、LDA学習を行い、得られた各単語のトピック毎の出現確率を、何れか一方のトピックの出現確率を条件としてソートすると、図4に示すように、トピック1に分類された単語集合は、トピック間における出現確率の比が10の数乗のオーダーで異なっていることがわかる。また、図5に示すように、トピック2に分類された単語集合は、トピック間における出現確率の比が10の数乗のオーダーで異なっていることがわかる。つまり、この場合、トピック1と2とは、別々の文書の内容に違いをもたらす意味のあるトピック群であると理解される。
When the number of topics is set to 2, LDA learning is performed, and the appearance probabilities of the obtained words for each topic are sorted by using the appearance probability of one of the topics as a condition, as shown in FIG. It can be seen that the word sets classified into (2) have different ratios of appearance probabilities between topics in the order of powers of 10. Further, as shown in FIG. 5, it can be seen that the word sets classified into the
また、トピック数を3に設定して、LDA学習をしなおすと、図6に示すように、トピック2に分類された単語集合は、トピック間での出現確率の比が相対的に小さい、すなわち一つの特定のトピックに偏っていない単語集合であることがわかる。この単語集合が分類されたトピック2の単語集合が、不要語リストとして登録される。また、上位にリストされた単語を見ると、「形成」、「考案」、「作業」、「配置」など比較的抽象的な語が挙げられており、このような単語が不要語として登録されることがわかる。
Further, when the number of topics is set to 3 and LDA learning is performed again, as shown in FIG. 6, the word set classified as
以上説明したように、第1の実施の形態に係る不要語決定装置によれば、全トピックに対する出現確率の各々が予め定められた範囲内となり一様に分布する単語が分類されたトピックの単語集合を、不要語として決定する。これによって、適切に設定することが困難である、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる。 As described above, according to the unnecessary word determination device according to the first embodiment, the words of the topic into which the words that are uniformly distributed within the predetermined range where the appearance probabilities for all topics are within the predetermined range are classified. The set is determined as an unnecessary word. This makes it possible to determine an unnecessary word without using a threshold value for determining whether or not the word is an unnecessary word that is difficult to set appropriately.
また、学習用文書データに対する尤度を最大にする、各単語のトピック毎の出現確率を学習により探索し、探索された出現確率を用いて、不要語を決定している。これによって、学習用文書データの文書特性を考慮して、不要語を決定することができる。 Also, the appearance probability of each word for each topic that maximizes the likelihood of the learning document data is searched by learning, and unnecessary words are determined using the searched appearance probability. Thus, unnecessary words can be determined in consideration of the document characteristics of the learning document data.
次に第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して、構成に関する説明を省略する。 Next, a second embodiment will be described. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and the description regarding a structure is abbreviate | omitted.
第2の実施の形態では、不要語候補リストをユーザに提示して、ユーザに不要語を選択させている点が、第1の実施の形態と主に異なっている。 The second embodiment is mainly different from the first embodiment in that an unnecessary word candidate list is presented to the user and the user selects an unnecessary word.
図7に示すように、第2の実施の形態に係る不要語決定装置210は、文書データベース12と、パラメータ学習部14と、単語分類部16と、一様分布判定部18と、一様に分布する単語が分類されたトピックに分類された各単語を、不要語候補リストとしてディスプレイ(図示省略)に表示させる不要語候補表示制御部220と、ユーザがマウスやキーボードを操作することによって不要語候補リストから選択した単語を不要語として決定する不要語選択決定部222とを備えている。
As illustrated in FIG. 7, the unnecessary
不要語候補表示制御部220は、全トピックに対して一様な分布を持つ単語集合が分類されたトピックの各単語を、不要語候補リストとしてディスプレイに表示させ、また、各単語のトピック毎の出現確率又はトピック間の出現確率の比を、不要語候補リストと一緒に表示させる。これによって、ユーザは、ディスプレイに表示された出現確率又は出現確率の比を参照して、不要語として登録すべき単語を選択する。
The unnecessary word candidate
不要語選択決定部222は、ユーザによって不要語として不要語候補リストの中から選択された単語の集合を、不要語として決定する。
The unnecessary word
次に、第2の実施の形態に係る不要語決定処理ルーチンについて説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。 Next, an unnecessary word determination processing routine according to the second embodiment will be described. In addition, about the process similar to 1st Embodiment, the same code | symbol is attached | subjected and detailed description is abbreviate | omitted.
まず、ステップ100において、学習用文書データに含まれる単語群を、単語辞書データベースから読み込み、ステップ102において、トピック数Kに初期値2を設定すると共に、トピック数上限値Kmaxに、予め定められた上限値を設定する。
First, in
そして、ステップ104で、トピック数Kにおいて、学習により、学習用文書データに対して尤度を最大化するパラメータα、βを探索する。次のステップ106では、上記ステップ106で得られたパラメータβに基づいて、上記ステップ100で得られた各単語を、K個のトピックに分類する。そして、ステップ108において、分類された全ての単語が各トピックに対して一様に分布するトピックが存在するか否かを判定し、分類された全ての単語が一様に分布するトピックが存在しなかった場合には、ステップ110において、トピック数Kが、上限値Kmax未満であるか否かを判定し、トピック数Kが、上限値Kmaxに達していない場合には、ステップ112において、トピック数をインクリメントして、上記ステップ104へ戻る。一方、上記ステップ110において、トピック数Kが、上限値Kmaxに達している場合には、不要語決定処理ルーチンを終了する。
In
また、上記ステップ108において、分類された全ての単語が一様に分布するトピックが得られたと判断された場合には、ステップ250において、当該トピックに分類された単語の集合を、不要語候補リストとしてディスプレイに表示させる。
If it is determined in
次のステップ252では、不要語候補リストから、ユーザによって不要語が選択されたか否かを判定し、ユーザがマウスやキーボードを操作して、不要語候補リストの中から不要語とする単語を選択すると、ステップ254へ進み、上記ステップ252で選択された単語の集合を、不要語リストに登録して、不要語決定処理ルーチンを終了する。
In the
以上説明したように、第2の実施の形態に係る不要語決定装置によれば、全トピックに対する出現確率の各々が予め定められた範囲内となり一様に分布する単語が分類されたトピックの単語集合を、不要語候補として決定する。これによって、適切に設定することが困難である、不要語であるか否かを決定するための閾値を用いることなく、不要語候補を決定することができる。 As described above, according to the unnecessary word determination device according to the second embodiment, the words of the topic in which the words that are uniformly distributed within the predetermined range where the appearance probabilities for all the topics are within the predetermined range are classified. The set is determined as an unnecessary word candidate. Thereby, an unnecessary word candidate can be determined without using a threshold value for determining whether or not the word is an unnecessary word that is difficult to set appropriately.
次に第3の実施の形態について説明する。なお、第3の実施の形態に係る不要語決定装置は、第1の実施の形態と同様の構成となるため、同一符号を付して、構成に関する説明を省略する。 Next, a third embodiment will be described. In addition, since the unnecessary word determination apparatus which concerns on 3rd Embodiment becomes a structure similar to 1st Embodiment, the same code | symbol is attached | subjected and the description regarding a structure is abbreviate | omitted.
第3の実施の形態では、全トピックに対して一様な分布を持つ単語が予め定めた個数以上分類されたトピックの単語集合を、不要語として決定している点が、第1の実施の形態と主に異なっている。 In the third embodiment, the word set of a topic in which a predetermined number of words having a uniform distribution with respect to all topics are determined as unnecessary words is determined as the first embodiment. Mainly different from the form.
第3の実施の形態に係る不要語決定装置では、一様分布判定部18によって、全てのトピックのうち、分類された単語集合について、全てのトピックへの出現確率が上記の(8)式で表される範囲内となる単語が予め定められた個数以上となるトピックが存在するか否かを判定する。
In the unnecessary word determination device according to the third exemplary embodiment, the uniform
上記のような全トピックに対して一様な分布を持つ単語が予め定められた個数以上分類されたトピックが存在しない場合には、トピック数を増やして、パラメータ学習部14に再度学習させる。
If there are no topics with more than a predetermined number of words having a uniform distribution for all topics as described above, the number of topics is increased and the
上記のような全トピックに対して一様な分布を持つ単語が予め定められた個数以上分類されたトピックが存在する場合には、不要語決定部20によって、一様な分布を持つ単語集合を不要語として決定する。
When there are topics classified as more than a predetermined number of words having a uniform distribution with respect to all the topics as described above, the unnecessary
なお、第3の実施の形態に係る不要語決定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。 In addition, about the other structure and effect | action of an unnecessary word determination apparatus which concern on 3rd Embodiment, since it is the same as that of 1st Embodiment, description is abbreviate | omitted.
上記の第3の実施の形態は、上記の第2の実施の形態に適用してもよい。この場合には、全トピックに対して一様な分布を持つ単語が、予め定めた個数以上分類されたトピックの単語集合を、不要語候補として決定し、ユーザに不要語候補から不要語を選択させるようにすればよい。 The third embodiment described above may be applied to the second embodiment described above. In this case, a word set of topics classified by a predetermined number of words having a uniform distribution over all topics is determined as an unnecessary word candidate, and the user selects an unnecessary word from the unnecessary word candidates. You can make it.
なお、上記の第1の実施の形態〜第3の実施の形態では、決定された不要語を登録しておく場合を例に説明したが、これに限定されるものではなく、例えば、不要語として決定された単語を、コーパスから除去するようにしてもよい。 In the first to third embodiments described above, the case where the determined unnecessary word is registered has been described as an example. However, the present invention is not limited to this. For example, the unnecessary word is used. May be removed from the corpus.
また、決定された不要語からなる不要語リストを用いて、類似文書検索や、文書のクラスタリング、キーワード検索などを行うようにしてもよい。この場合には、LDA学習により得られた各単語のトピック毎の出現確率を用いて、入力された新しい文書データに含まれる各単語に対して、トピック毎の出現確率を割り当て、割り当てられたトピック毎の出現確率を用いた重みづけにより、文書データの平均トピックや段落ごとの平均トピックを求める。そして、求められた平均トピックを用いて、類似文書検索や、文書のクラスタリング、キーワード検索などを行うようにすればよい。 Further, similar document search, document clustering, keyword search, and the like may be performed using an unnecessary word list including determined unnecessary words. In this case, using the appearance probability for each topic of each word obtained by LDA learning, the appearance probability for each topic is assigned to each word included in the input new document data, and the assigned topic An average topic of document data and an average topic for each paragraph are obtained by weighting using the appearance probability for each. Then, similar document search, document clustering, keyword search, and the like may be performed using the obtained average topic.
また、本発明に係るプログラムを、CDROM等の記憶媒体に格納して提供することも可能である。 Further, the program according to the present invention can be provided by being stored in a storage medium such as a CDROM.
10、210 不要語決定装置
12 文書データベース
14 パラメータ学習部
16 単語分類部
18 一様分布判定部
20 不要語決定部
220 不要語候補表示制御部
222 不要語選択決定部
10, 210 Unnecessary
Claims (5)
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段と、
を含む不要語決定装置。 A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of subjects for the word group included in the document information prepared in advance, which maximizes the likelihood for the document information. Means,
Classifying means for classifying each word of the word group into any of the themes having the highest appearance probability of the word based on the appearance probability searched by the search means;
Of the themes of the number of themes, it is unnecessary to determine, as unnecessary words, each of the words classified into the themes into which the words whose occurrence probabilities appear in the predetermined number of themes are within a predetermined range Word determination means;
Unnecessary word determination device including
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段と、
前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段と、
を含む不要語決定装置。 A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of themes, which maximizes the likelihood for the document information for the word group included in the document information prepared in advance Means,
Classifying means for classifying each word of the word group into any of the themes having the highest occurrence probability of the word based on the appearance probability searched by the search means;
Among the themes of the number of themes, each of the words classified into the themes into which the words whose appearance probabilities appearing in the themes of the number of themes are within a predetermined range is determined as unnecessary word candidates. Unnecessary word candidate determination means;
Display control means for causing the user to display the unnecessary word candidates determined by the unnecessary word candidate determining means on the display device for the user to select unnecessary words;
Unnecessary word determination device including
予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、及び
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段
として機能させるためのプログラム。 Computer
A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of subjects for the word group included in the document information prepared in advance, which maximizes the likelihood for the document information. means,
Classification means for classifying each word of the word group into any of the themes having the highest appearance probability of the word based on the appearance probability searched by the search means, and the number of themes Unnecessary words determining means for determining, as unnecessary words, each of the words classified into the themes in which words whose appearance probabilities appearing in the number of themes within the number of themes are within a predetermined range are classified as unnecessary words Program to function as.
予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段、及び
前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段
として機能させるためのプログラム。 Computer
A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of subjects for the word group included in the document information prepared in advance, which maximizes the likelihood for the document information. means,
Classification means for classifying each word of the word group into any of the themes having the highest appearance probability of the word based on the appearance probability searched by the search means;
Among the themes of the number of themes, each of the words classified into the themes into which the words whose appearance probabilities appearing in the themes of the number of themes are within a predetermined range is determined as unnecessary word candidates. An unnecessary word candidate determining unit, and a program for causing an unnecessary word candidate determined by the unnecessary word candidate determining unit to function as a display control unit that causes a user to display the unnecessary word candidate on a display device in order to select an unnecessary word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008217867A JP2010055253A (en) | 2008-08-27 | 2008-08-27 | Unnecessary word deciding apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008217867A JP2010055253A (en) | 2008-08-27 | 2008-08-27 | Unnecessary word deciding apparatus and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010055253A true JP2010055253A (en) | 2010-03-11 |
Family
ID=42071121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008217867A Pending JP2010055253A (en) | 2008-08-27 | 2008-08-27 | Unnecessary word deciding apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010055253A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014229069A (en) * | 2013-05-22 | 2014-12-08 | 日本電気株式会社 | Correlation determination system, method, and program |
JP2019219830A (en) * | 2018-06-18 | 2019-12-26 | 株式会社コミチ | Emotion evaluation method |
-
2008
- 2008-08-27 JP JP2008217867A patent/JP2010055253A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014229069A (en) * | 2013-05-22 | 2014-12-08 | 日本電気株式会社 | Correlation determination system, method, and program |
JP2019219830A (en) * | 2018-06-18 | 2019-12-26 | 株式会社コミチ | Emotion evaluation method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635296B (en) | New word mining method, device computer equipment and storage medium | |
JP2023052502A (en) | System and method for rapidly building, managing, and sharing machine learning model | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
CN108228541B (en) | Method and device for generating document abstract | |
JP2019535047A (en) | Subject classifier training method, apparatus, and computer-readable storage medium | |
JP5137567B2 (en) | Search filtering device and search filtering program | |
US10353925B2 (en) | Document classification device, document classification method, and computer readable medium | |
Sallam et al. | Improving Arabic text categorization using normalization and stemming techniques | |
CN103995876A (en) | Text classification method based on chi square statistics and SMO algorithm | |
CN109829154B (en) | Personality prediction method based on semantics, user equipment, storage medium and device | |
CN112052356A (en) | Multimedia classification method, apparatus and computer-readable storage medium | |
Zaghloul et al. | Text classification: neural networks vs support vector machines | |
Gonsior et al. | Active Learning for Spreadsheet Cell Classification. | |
Tofighy et al. | AHP techniques for Persian text summarization | |
Palkar et al. | Comparative evaluation of supervised learning algorithms for sentiment analysis of movie reviews | |
CN111125329B (en) | Text information screening method, device and equipment | |
EP2096585A1 (en) | Active studying system, active studying method and active studying program | |
KR102400689B1 (en) | Semantic relation learning device, semantic relation learning method, and semantic relation learning program | |
Oliveira et al. | A concept-based ilp approach for multi-document summarization exploring centrality and position | |
JP2010055253A (en) | Unnecessary word deciding apparatus and program | |
CN111341404B (en) | Electronic medical record data set analysis method and system based on ernie model | |
CN110069780B (en) | Specific field text-based emotion word recognition method | |
CN114357152A (en) | Information processing method, information processing device, computer-readable storage medium and computer equipment | |
CN111767404A (en) | Event mining method and device | |
Lopes et al. | An incremental hypersphere learning framework for protein membership prediction |