JP2010055253A - Unnecessary word deciding apparatus and program - Google Patents

Unnecessary word deciding apparatus and program Download PDF

Info

Publication number
JP2010055253A
JP2010055253A JP2008217867A JP2008217867A JP2010055253A JP 2010055253 A JP2010055253 A JP 2010055253A JP 2008217867 A JP2008217867 A JP 2008217867A JP 2008217867 A JP2008217867 A JP 2008217867A JP 2010055253 A JP2010055253 A JP 2010055253A
Authority
JP
Japan
Prior art keywords
word
themes
unnecessary
words
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008217867A
Other languages
Japanese (ja)
Inventor
Takashi Isozaki
隆司 磯崎
Motofumi Fukui
基文 福井
Sukeji Kato
典司 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008217867A priority Critical patent/JP2010055253A/en
Publication of JP2010055253A publication Critical patent/JP2010055253A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To decide an unnecessary word without using a threshold for deciding whether or not a word is an unnecessary word. <P>SOLUTION: By a parameter learning section 14, appearance probability of each topic of each word in a word group included in learning document data, which maximizes likelihood for the learning document data is learned and searched. By a word classification section 16, each word in the word group is classified by a topic having highest appearance probability. By an unnecessary word decision section 20, a word group of a topic, by which words with appearance probabilities for every topic respectively falling within a predetermined range and distributed uniformly are classified, is decided as an unnecessary word. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、不要語決定装置及びプログラムに関する。   The present invention relates to an unnecessary word determination device and a program.

文書検索や文書のクラスタリングにおいて、単語の索引作業は不可欠である。この索引を作成するときに、文書のキーワードとなりえない単語を索引に登録してしまうと、文書検索での効率性やクラスタリングでの精度に、悪影響を与えてしまう。従って、文書のキーワードとなりえない不要語と呼ばれる単語を適切に取り出し、除去することが必要であり、様々な技術が提案されている。   In document retrieval and document clustering, word indexing is indispensable. If a word that cannot be a keyword of a document is registered in the index when creating this index, the efficiency in document search and the accuracy in clustering are adversely affected. Therefore, it is necessary to appropriately extract and remove words called unnecessary words that cannot be used as keywords for documents, and various techniques have been proposed.

例えば、分野ごとに分類された文書データを利用し、同一分野の全ての文書に出現した単語の除去を行なう技術が知られている(特許文献1)。類似文書検索装置において、単語の出現頻度を数え、一定の割合以上(もしくは以下)出現する単語を不要語として登録する技術が知られている(特許文献2)。また、文書自動分類において不要語を効果的に取り除く技術として、学習用文書集合から語を抽出し、各カテゴリでの出現頻度や出現割合に基づいて、そのカテゴリでの不要語を相対的に取り除く技術が知られている(特許文献3)。
特開平7−78182号公報 特開平11−259515号公報 特開2004−139222号公報
For example, a technique is known that uses document data classified for each field and removes words that appear in all documents in the same field (Patent Document 1). In a similar document search device, a technique is known that counts the frequency of appearance of words and registers words that appear above (or below) a certain ratio as unnecessary words (Patent Document 2). In addition, as a technique for effectively removing unnecessary words in automatic document classification, words are extracted from a learning document set, and unnecessary words in that category are relatively removed based on the appearance frequency and appearance ratio in each category. A technique is known (Patent Document 3).
JP 7-78182 A Japanese Patent Laid-Open No. 11-259515 JP 2004-139222 A

不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる不要語決定装置及びプログラムを提供することを目的とする。   An object of the present invention is to provide an unnecessary word determination device and a program capable of determining an unnecessary word without using a threshold value for determining whether or not the word is an unnecessary word.

上記の目的を達成するために、請求項1記載の発明に係る不要語決定装置は、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段と、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段とを含んで構成されている。   In order to achieve the above object, the unnecessary word determination device according to claim 1 maximizes the likelihood for the document information for the word group included in the document information prepared in advance. Search means for searching for an appearance probability that each word of the word appears in each of a predetermined number of themes, and each word of the word group based on the appearance probability searched by the search means And classifying means for classifying the subject number into the themes with the highest number of themes, and each of the appearance probabilities of appearing in the themes with the number of themes is within a predetermined range. Unnecessary words determining means for determining each of the words classified as the subject in which the word is classified as an unnecessary word.

請求項2記載の発明に係る不要語決定装置は、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段と、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段と、前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段とを含んで構成されている。   The unnecessary word determination device according to the second aspect of the present invention provides a subject in which each word of the word group is set in advance for maximizing the likelihood of the document information for a word group included in document information prepared in advance. Search means for searching for the appearance probability of appearing in each of a number of themes, and, based on the appearance probability searched by the search means, for each word of the word group, the appearance probability of the word is highest Classifying means for classifying into any of the themes of the number of themes, and among the themes of the number of themes, the themes in which each of the occurrence probabilities appearing in the themes of the number of themes falls within a predetermined range are classified Unnecessary word candidate determination means for determining each of the classified words as an unnecessary word candidate, and a display device for the user to select the unnecessary word candidates determined by the unnecessary word candidate determination means for selecting an unnecessary word Displayed on It is configured to include a display control means for controlling.

請求項3記載の発明では、上記請求項1又は2記載の発明に係る不要語決定装置において、前記探索手段は、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題が現れるまで、前記予め設定された主題数から主題数を順次増加させて、前記文書情報に対する尤度を最大にする前記出現確率を繰り返し探索する。   According to a third aspect of the present invention, in the unnecessary word determining apparatus according to the first or second aspect of the present invention, the search means determines that each of the appearance probabilities appearing in the themes corresponding to the number of themes is within a predetermined range. The number of themes is sequentially increased from the preset number of themes until the subject in which the word is classified appears, and the appearance probability that maximizes the likelihood for the document information is repeatedly searched.

請求項4記載の発明に係るプログラムは、コンピュータを、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、及び前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段として機能させるためのプログラムである。   According to a fourth aspect of the present invention, there is provided a program that causes a computer to maximize the likelihood for the document information for a word group included in document information prepared in advance. Search means for searching for an appearance probability appearing in each of the themes, and the subject having the highest occurrence probability of the word for each word of the word group based on the appearance probability searched by the search means Classifying means for classifying into any of a number of themes, and among the themes of the number of themes, classifying the words into which the occurrence probabilities appearing in the themes of the number of themes are within a predetermined range. This is a program for causing each of the generated words to function as unnecessary word determining means for determining as an unnecessary word.

請求項5記載の発明に係るプログラムは、コンピュータを、予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段、及び前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段として機能させるためのプログラムである。   According to a fifth aspect of the present invention, there is provided a program that causes a computer to maximize the likelihood for the document information for a word group included in document information prepared in advance. Search means for searching for an appearance probability appearing in each of the themes, and the subject having the highest occurrence probability of the word for each word of the word group based on the appearance probability searched by the search means Classifying means for classifying into one of a number of themes, among the themes of the number of themes, words whose occurrence probabilities appearing in the themes of the number of themes are within a predetermined range are classified into the classified themes Unnecessary word candidate determining means for determining each of the words as unnecessary word candidates, and displaying the unnecessary word candidates determined by the unnecessary word candidate determining means for the user to select the unnecessary words Is a program for functioning as display control means for displaying on the location.

以上説明したように、請求項1記載の不要語決定装置によれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。   As described above, according to the unnecessary word determination device according to claim 1, there is an effect that an unnecessary word can be determined without using a threshold value for determining whether or not the word is an unnecessary word. It is done.

請求項2記載の不要語決定装置によれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。   According to the unnecessary word determining device of the second aspect, there is an effect that an unnecessary word can be determined without using a threshold value for determining whether or not the word is an unnecessary word.

請求項3記載の不要語決定装置によれば、本構成を有していない場合に比較して、多くの不要語を決定することができる、という効果が得られる。   According to the unnecessary word determining device of the third aspect, it is possible to determine that many unnecessary words can be determined as compared with the case where the present configuration is not provided.

請求項4記載のプログラムによれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。   According to the program of the fourth aspect, there is an effect that an unnecessary word can be determined without using a threshold for determining whether or not the word is an unnecessary word.

請求項5記載のプログラムによれば、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる、という効果が得られる。   According to the program of the fifth aspect, it is possible to determine an unnecessary word without using a threshold value for determining whether or not the word is an unnecessary word.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

本発明の第1の実施の形態に係る不要語決定装置10は、従来既知のパーソナルコンピュータによって構成されており、キーボード、マウス、ディスプレイ、CPU、ROM、RAM、及びを後述する不要語決定処理ルーチンを実現するためのプログラムや文書データなどの各種データを記憶したHDD等の記憶装置で構成されている。   The unnecessary word determination device 10 according to the first embodiment of the present invention is configured by a conventionally known personal computer, and includes an unnecessary word determination processing routine, which will be described later, with a keyboard, mouse, display, CPU, ROM, RAM, and the like. It is comprised with memory | storage devices, such as HDD which memorize | stored various data, such as the program for implementing this, and document data.

不要語決定装置10を以下で説明する不要語決定処理ルーチンに従って機能ブロックで表すと、図1に示すように、予め用意された学習用文書データを記憶した文書データベース12と、学習用文書データにおける複数の主題(以下、トピックともいう。)の各々の出現頻度を調整するためのパラメータα、及び学習用文書データに含まれる単語群の各単語についてトピック毎に出現する出現確率を表わすパラメータβを学習するパラメータ学習部14と、学習されたパラメータβに基づいて、各単語を、出現確率が最も高いトピックに分類する単語分類部16と、各トピックに一様に分布する単語が分類されたトピックが存在するか否かを判定する一様分布判定部18と、一様に分布する単語が分類されたトピックに分類された各単語を、不要語として決定する不要語決定部20とを備えている。   When the unnecessary word determination device 10 is represented by functional blocks according to an unnecessary word determination processing routine described below, as shown in FIG. 1, a document database 12 storing learning document data prepared in advance, and a learning document data A parameter α for adjusting the appearance frequency of each of a plurality of subjects (hereinafter also referred to as a topic), and a parameter β representing an appearance probability of each word in the word group included in the learning document data. Based on the learned parameter learning unit 14, the learned parameter β, the word classifying unit 16 that classifies each word into a topic having the highest appearance probability, and the topic in which words uniformly distributed in each topic are classified A uniform distribution determining unit 18 that determines whether or not a word is present, and each word classified as a topic in which uniformly distributed words are classified. And a unnecessary word determination portion 20 that determines a word.

以下、本実施の形態において不要語を決定する原理について説明する。   Hereinafter, the principle of determining unnecessary words in the present embodiment will be described.

近年、統計的な文書処理の方法が数多く研究され、実用に供している中で、確率的文書モデルが提案及び研究されており、一文書中に現われる複数のトピックを表現するモデルとして、Probabilistic Latent Semantic Analysisが提案されている(非特許文献1:T. Hofmann, “Probabilistic Latent Semantic Analysis”, Proceedings of Conference on Uncertainty in Artificial Intelligence, pp.289-296. (1999). )。   In recent years, a lot of statistical document processing methods have been studied and put into practical use, and a probabilistic document model has been proposed and studied. As a model for expressing a plurality of topics appearing in one document, Probabilistic Latent Semantic Analysis has been proposed (Non-Patent Document 1: T. Hofmann, “Probabilistic Latent Semantic Analysis”, Proceedings of Conference on Uncertainty in Artificial Intelligence, pp. 289-296. (1999)).

また、上記のモデルをベイズ統計の枠組みから一般化したモデルとしてLatent Dirichlet Allocation(以下、LDAと呼ぶ)と呼ばれる技術が提案されている(非特許文献2:D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, vol. 3, pp.993-1022. (2003). )。   In addition, as a model obtained by generalizing the above model from the framework of Bayesian statistics, a technique called “Lent Dirichlet Allocation” (hereinafter referred to as LDA) has been proposed (Non-Patent Document 2: DM Blei, AY Ng, and MI Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, vol. 3, pp.993-1022. (2003).).

LDAの確率的文書生成モデルは、図2に示すような非循環有向グラフで表現される。ここで、Mは文書数、Nは一文書あたりの単語数、Zは単語ごとのトピック変数で潜在変数、θは、トピックの出現確率であり、Dirichlet分布のパラメータを表わしている。また、αは、トピックの出現頻度を調整するためのパラメータであり、Dirichlet分布のハイパーパラメータを表わし、βはトピックを条件とした単語の出現確率を表わす。Dirichlet分布は、ベイズ統計で離散データの事前確率分布または事後確率分布を表わすのによく用いられる確率分布関数である(非特許文献3:A. Gelman et al., “Bayesian Data Analysis”, Chapman & Hall/CRC, second edition (2004).)。   The probabilistic document generation model of LDA is represented by an acyclic directed graph as shown in FIG. Here, M is the number of documents, N is the number of words per document, Z is a topic variable for each word and a latent variable, θ is the appearance probability of the topic, and represents a parameter of the Dirichlet distribution. Further, α is a parameter for adjusting the appearance frequency of the topic, and represents a hyper parameter of the Dirichlet distribution, and β represents the appearance probability of the word on the condition of the topic. The Dirichlet distribution is a probability distribution function often used to represent the prior probability distribution or posterior probability distribution of discrete data in Bayesian statistics (Non-Patent Document 3: A. Gelman et al., “Bayesian Data Analysis”, Chapman & Hall / CRC, second edition (2004).).

本実施の形態では、潜在トピックモデルと呼ばれる技術のうち、代表的な技術であるLDAを用いて、不要語を決定する。ここで、LDAについて簡単に説明する。   In the present embodiment, unnecessary words are determined using LDA, which is a representative technique among techniques called latent topic models. Here, LDA will be briefly described.

上記の非特許文献2においてBleiらによって提案されたLDAは、トピックと呼ばれるある中心的な概念を基に生成される離散データを扱うための枠組みである。具体的には、LDAは、文書の生成過程をモデル化し、ベイズ統計的に記述したモデルである。N個の単語から生成される文書データに対して、各単語ごとにトピックが想定され、予め定められたトピック数をK、データから推定されるモデルのパラメータをα、βとし、また、トピックの出現確率をθ、K個のトピックの組をz、N個の単語の組をwとして、所謂“bag−of−words”モデルを仮定することよって、これらの結合確率を以下の(1)式で表わす。   The LDA proposed by Blei et al. In Non-Patent Document 2 is a framework for handling discrete data generated based on a central concept called a topic. Specifically, the LDA is a model in which a document generation process is modeled and described by Bayesian statistics. For document data generated from N words, a topic is assumed for each word, the predetermined number of topics is K, model parameters estimated from the data are α, β, By assuming a so-called “bag-of-words” model where the appearance probability is θ, the set of K topics is z, and the set of N words is w, these connection probabilities are expressed by the following equation (1): It expresses by.

Figure 2010055253
Figure 2010055253

文書データの周辺化確率分布は、以下の(2)式で表される。   The marginalization probability distribution of the document data is expressed by the following equation (2).

Figure 2010055253
Figure 2010055253

コーパス全体での文書データDの生成確率は以下の(3)式で表される。   The generation probability of the document data D in the entire corpus is expressed by the following equation (3).

Figure 2010055253
Figure 2010055253

また、K次元Dirichlet分布に従う確率変数θは、次の(4)式のように表わされる。   Also, the random variable θ according to the K-dimensional Dirichlet distribution is expressed as the following equation (4).

Figure 2010055253
Figure 2010055253

上記(4)式によって、上記(2)式は、以下の(5)式で表される。また、(5)式によって算出されるp(w|α、β)は、対象の文書データに対する尤度を表している。  From the above formula (4), the above formula (2) is expressed by the following formula (5). Further, p (w | α, β) calculated by the equation (5) represents the likelihood for the target document data.

Figure 2010055253
Figure 2010055253

ただし、上記(1)式〜(5)式において、iはトピックを識別するための変数であり、nは文書データ中の単語を識別するための変数であり、jは辞書中の単語を識別するための変数である。また、w はn番目の単語が辞書中のj番目の単語と一致した場合に1となり、それ以外の場合に0となる。Vは辞書にインデキシングされた単語数である。また、上記(5)式で計算される、対象の文書データに対する尤度とは、パラメータα、βに基づいて確率的に生成される文書データが、対象の文書データに対してどのくらい尤もらしいかを表わす度合いである。 In the above equations (1) to (5), i is a variable for identifying a topic, n is a variable for identifying a word in the document data, and j is a word in the dictionary. It is a variable to do. Also, w n j is 1 when the nth word matches the jth word in the dictionary, and 0 otherwise. V is the number of words indexed in the dictionary. In addition, the likelihood for the target document data calculated by the above equation (5) is how likely the document data generated stochastically based on the parameters α and β is for the target document data. It is a degree which represents.

上記(5)式では、θとβとが結合しているため、簡単に積分することはできない。そこで、いくつかの近似計算手法が用いられており、例えば、マルコフ連鎖モンテカルロ法(非特許文献4:伊庭幸人、「統計科学のフロンティア12 計算統計II ― マルコフ連鎖モンテカルロ法とその周辺 ―」、岩波書店、2005)や、上記非特許文献2に記載されている変分ベイズ法が用いられて、近似計算が行われる。   In the above equation (5), since θ and β are coupled, it cannot be easily integrated. Therefore, some approximate calculation methods are used, for example, Markov chain Monte Carlo method (Non-patent document 4: Yukito Iba, "Frontier of statistical science 12-Computational statistics II-Markov chain Monte Carlo method and its surroundings"), Iwanami Approximate calculation is performed using the variational Bayes method described in the bookstore, 2005) and the nonpatent literature 2 mentioned above.

本実施の形態では効率的な計算手法の一つである変分ベイズ法を用いる。変分ベイズ法とはαとβをパラメータとして文書データ集合全体の周辺対数尤度を変分近似する方法である。これはパラメータ学習方法の一部として後に記述する。   In this embodiment, a variational Bayes method, which is one of efficient calculation methods, is used. The variational Bayes method is a method of variationally approximating the logarithmic likelihood of the entire document data set using α and β as parameters. This will be described later as part of the parameter learning method.

本実施の形態に係るパラメータ学習部14では、トピック数を設定すると共に、上記非特許文献2に記載されている経験ベイズ法を用いて、教師なしで上記のLDAモデルの学習を行う。例えば、設定されたトピック数におけるLDAモデルのパラメータαとβを複数種類の値に変更しながら、学習用文書データに対する尤度を最大化するパラメータαとβの組み合わせを探索する。   In the parameter learning unit 14 according to the present embodiment, the number of topics is set and the LDA model is learned without a teacher by using the experience Bayes method described in Non-Patent Document 2. For example, the combination of the parameters α and β that maximizes the likelihood for the learning document data is searched while changing the parameters α and β of the LDA model for the set number of topics to a plurality of types of values.

ここで、αは各トピックの出現頻度を調整するためのパラメータである。また、βは学習用文書データ中から生成することができる辞書に登録されるK個の単語の各々のトピックごとの出現確率を表わすパラメータであって、辞書のサイズをVとしてK×Vの行列で表わされる。   Here, α is a parameter for adjusting the appearance frequency of each topic. Β is a parameter representing the appearance probability for each topic of K words registered in the dictionary that can be generated from the learning document data, and the size of the dictionary is V and a K × V matrix It is represented by

本実施の形態では上記非特許文献2に記載されているように変分ベイズ法と経験ベイズ法を組み合わせたパラメータ学習を行なう。この組み合わせによるアルゴリズムは変分EMアルゴリズムとも呼ばれ、以下のような手順となる。   In this embodiment, as described in Non-Patent Document 2, parameter learning combining the variational Bayes method and the experience Bayes method is performed. An algorithm based on this combination is also called a variational EM algorithm, and has the following procedure.

まず、周辺尤度の変分近似を行ない変分パラメータを導入する。次に、各文書ごとに変分パラメータを最適化する。そして、変分近似された周辺尤度の下界を最大化するようにパラメータαとβを最適化する。   First, variational approximation of marginal likelihood is performed and variation parameters are introduced. Next, the variation parameter is optimized for each document. Then, the parameters α and β are optimized so as to maximize the lower bound of the marginal likelihood subjected to variational approximation.

上記アルゴリズムにおける下界とは、任意の関数pとqに関する次のJensenの不等式である以下の(6)式の右辺を指す。   The lower bound in the above algorithm refers to the right side of the following expression (6), which is the following Jensen inequality regarding arbitrary functions p and q.

Figure 2010055253
Figure 2010055253

上記(6)式でD,Z,θは変数を表わす。そして式(6)の左辺を周辺対数尤度とし右辺の下界を最大化する。この尤度を最大化することによってベイズ統計的なパラメータを最適化する手法は経験ベイズ法と呼ばれる。ここでさらに導入された関数qを次の(7)式のように変数分離形で表わせるものと仮定するのが変分近似と呼ばれる手法である。   In the above equation (6), D, Z, and θ represent variables. Then, the left side of Equation (6) is set as the peripheral log likelihood, and the lower bound on the right side is maximized. A technique for optimizing Bayesian statistical parameters by maximizing this likelihood is called an experience Bayesian method. It is a method called variational approximation that assumes that the function q introduced here can be expressed in a variable separation form as shown in the following equation (7).

Figure 2010055253
Figure 2010055253

ここでγ,θが上に記した変分パラメータと呼ばれる新たに導入される補助的なパラメータである。なおこれらの手法のさらに詳細な記述は上記非特許文献2に記載されているためここでは省略する。   Here, γ and θ are newly introduced auxiliary parameters called variational parameters described above. Note that more detailed description of these methods is described in Non-Patent Document 2 above, and is therefore omitted here.

パラメータ学習部14によって、学習用文書データに対する尤度を最大化するβが得られれば、トピックごとに出現確率が高い単語を判別することができるため、単語分類部16によって、辞書に登録された各単語を、出現確率が最も高いトピックに分類する。   If β that maximizes the likelihood for the learning document data is obtained by the parameter learning unit 14, a word having a high appearance probability can be determined for each topic. Therefore, the word classification unit 16 registers the word in the dictionary. Each word is classified into a topic having the highest appearance probability.

上記のLDAモデルにおいて、設定するトピック数を増やしていくと、特定のトピックに強く反応しない単語の集合が分類されたトピックが形成されることがある。このようなトピックと結びつきが強い単語集合の特徴は、他の(一部の)トピックへの出現確率も同等に近いことであり、このような単語の集合が、不要語となる。   In the above LDA model, when the number of topics to be set is increased, a topic in which a set of words that do not react strongly to a specific topic is classified may be formed. A feature of a word set that is strongly associated with such a topic is that the appearance probabilities on other (partial) topics are almost equal, and such a set of words becomes an unnecessary word.

そこで、本実施の形態では、一様分布判定部18によって、全てのトピックのうち、分類された全ての単語wの各々について、全てのトピックTへの出現確率p(w|T)が以下の(8)式で表される範囲内となるトピックが存在するか否かを判定する。
(1−δ)/K≦p(w|T)≦(1+δ)/K (i=1,…,K)・・・(8)
ただし、Kは、トピック数を表わし、δは、出現確率の範囲を規定するための定数である。δは、学習用文書データ毎にユーザが設定するようにしてもよい。また、δの値を、通常統計的検定で用いられる有意性を表わす指標(例えば1%、3%、5%)などから定めてもよい。
Therefore, in this embodiment, the uniform distribution determination unit 18, among all the topics for each of all the words w n classified, appearance probability to all topics T i p (w n | T i ) Determines whether there is a topic that falls within the range represented by the following equation (8).
(1-δ) / K ≦ p (w n | T i ) ≦ (1 + δ) / K (i = 1,..., K) (8)
Here, K represents the number of topics, and δ is a constant for defining the range of appearance probabilities. δ may be set by the user for each learning document data. Further, the value of δ may be determined from an index (for example, 1%, 3%, 5%) indicating significance that is usually used in statistical tests.

上記のような、全トピックに対して一様な分布を持つ単語集合が分類されたトピックが存在しない場合には、全トピックに対して一様な分布を持つ単語集合が分類されたトピックが現れるまで、トピック数を順次増加させて、パラメータ学習部14に繰り返し学習させる。   If there is no topic with a word set that has a uniform distribution for all topics, a topic with a word set that has a uniform distribution for all topics will appear. Until the number of topics is increased, the parameter learning unit 14 repeatedly learns.

上記のような全トピックに対して一様な分布を持つ単語集合が分類されたトピックが存在する場合には、不要語決定部20によって、当該トピックに分類された、一様な分布を持つ単語集合を、不要語として決定する。   When there is a topic in which a set of words having a uniform distribution with respect to all the topics as described above exists, the words having a uniform distribution classified into the topic by the unnecessary word determination unit 20 The set is determined as an unnecessary word.

次に、第1の実施の形態に係る不要語決定装置10の作用について説明する。   Next, the operation of the unnecessary word determination device 10 according to the first embodiment will be described.

まず、不要語決定装置10において、文書データベース12から学習用文書データを読み出し、学習用文書データに対して形態素解析を行って名詞語を取り出し、学習用文書データに含まれる単語群として、単語辞書データベース(図示省略)に登録する。   First, in the unnecessary word determination device 10, the learning document data is read from the document database 12, the morphological analysis is performed on the learning document data, the noun word is extracted, and the word dictionary is used as a word group included in the learning document data. Register in a database (not shown).

そして、不要語決定装置10において、図3に示す不要語決定処理ルーチンを実行する。ステップ100において、学習用文書データに含まれる単語群を、単語辞書データベースから読み込む。そして、ステップ102において、トピック数Kに初期値として2を設定すると共に、トピック数上限値Kmaxに、予め定められた上限値を設定する。   And the unnecessary word determination apparatus 10 performs the unnecessary word determination processing routine shown in FIG. In step 100, a word group included in the learning document data is read from the word dictionary database. In step 102, 2 is set as the initial value for the topic number K, and a predetermined upper limit value is set for the topic number upper limit value Kmax.

そして、ステップ104において、トピック数Kにおいて、上記ステップ100で得られた単語群に対して学習を行うことにより、学習用文書データに対して最大尤度が得られるパラメータα、βを探索する。次のステップ106では、上記ステップ106で得られたパラメータβが表わす出現確率に基づいて、上記ステップ100で得られた各単語を、K個のトピックに分類する。   Then, in step 104, the parameters α and β that obtain the maximum likelihood for the learning document data are searched by learning the word group obtained in step 100 in the topic number K. In the next step 106, each word obtained in step 100 is classified into K topics based on the appearance probability represented by the parameter β obtained in step 106.

そして、ステップ108において、上記ステップ106で得られたパラメータβが表わす出現確率に基づいて、上記(8)式に従って、上記ステップ106で分類された全ての単語が各トピックに対して一様に分布するトピックが存在するか否かを判定する。分類された全ての単語が一様に分布するトピックが存在しなかった場合には、ステップ110において、トピック数Kが、上限値Kmax未満であるか否かを判定し、トピック数Kが、上限値Kmaxに達していない場合には、ステップ112において、設定するトピック数をインクリメントして、上記ステップ104へ戻る。   In step 108, all words classified in step 106 are uniformly distributed to each topic according to the above equation (8) based on the appearance probability represented by the parameter β obtained in step 106. It is determined whether or not a topic to be present exists. If there is no topic in which all the classified words are uniformly distributed, it is determined in step 110 whether or not the topic number K is less than the upper limit value Kmax. If the value Kmax has not been reached, the number of topics to be set is incremented in step 112, and the process returns to step 104 above.

一方、上記ステップ110において、トピック数Kが、上限値Kmaxに達している場合には、分類された全ての単語が一様に分布するトピックが得られなかったと判断し、不要語を登録せずに、不要語決定処理ルーチンを終了する。   On the other hand, if the topic number K has reached the upper limit value Kmax in step 110, it is determined that a topic in which all classified words are uniformly distributed has not been obtained, and unnecessary words are not registered. Then, the unnecessary word determination processing routine is terminated.

また、上記ステップ108において、分類された全ての単語が一様に分布するトピックが得られたと判断された場合には、ステップ114において、当該トピックに分類された単語の集合を、不要語リストに登録して、不要語決定処理ルーチンを終了する。   If it is determined in step 108 that a topic in which all classified words are uniformly distributed has been obtained, a set of words classified in the topic is converted into an unnecessary word list in step 114. Register and complete the unnecessary word determination processing routine.

次に、本実施の形態のLDAモデルを用いた方法による出現確率の学習結果について説明する。なお、学習コーパスとして、クラスタリングされた特許文書集合を用いて、形態素解析を行ない、単語群として名詞語を取り出してから、トピック数として2または3を設定して、LDA学習を行なった。   Next, the learning result of the appearance probability by the method using the LDA model of the present embodiment will be described. The clustered patent document set was used as a learning corpus, morphological analysis was performed, noun words were extracted as word groups, and 2 or 3 were set as the number of topics to perform LDA learning.

トピック数として2を設定して、LDA学習を行い、得られた各単語のトピック毎の出現確率を、何れか一方のトピックの出現確率を条件としてソートすると、図4に示すように、トピック1に分類された単語集合は、トピック間における出現確率の比が10の数乗のオーダーで異なっていることがわかる。また、図5に示すように、トピック2に分類された単語集合は、トピック間における出現確率の比が10の数乗のオーダーで異なっていることがわかる。つまり、この場合、トピック1と2とは、別々の文書の内容に違いをもたらす意味のあるトピック群であると理解される。   When the number of topics is set to 2, LDA learning is performed, and the appearance probabilities of the obtained words for each topic are sorted by using the appearance probability of one of the topics as a condition, as shown in FIG. It can be seen that the word sets classified into (2) have different ratios of appearance probabilities between topics in the order of powers of 10. Further, as shown in FIG. 5, it can be seen that the word sets classified into the topic 2 have different ratios of appearance probabilities between topics in the order of the power of 10. That is, in this case, it is understood that topics 1 and 2 are meaningful topic groups that make a difference in the contents of different documents.

また、トピック数を3に設定して、LDA学習をしなおすと、図6に示すように、トピック2に分類された単語集合は、トピック間での出現確率の比が相対的に小さい、すなわち一つの特定のトピックに偏っていない単語集合であることがわかる。この単語集合が分類されたトピック2の単語集合が、不要語リストとして登録される。また、上位にリストされた単語を見ると、「形成」、「考案」、「作業」、「配置」など比較的抽象的な語が挙げられており、このような単語が不要語として登録されることがわかる。   Further, when the number of topics is set to 3 and LDA learning is performed again, as shown in FIG. 6, the word set classified as topic 2 has a relatively small ratio of appearance probabilities between topics, that is, It can be seen that the word set is not biased toward one specific topic. The word set of topic 2 into which this word set is classified is registered as an unnecessary word list. If you look at the words listed at the top, you will find relatively abstract words such as “formation”, “devise”, “work”, “placement”, and such words are registered as unnecessary words. I understand that

以上説明したように、第1の実施の形態に係る不要語決定装置によれば、全トピックに対する出現確率の各々が予め定められた範囲内となり一様に分布する単語が分類されたトピックの単語集合を、不要語として決定する。これによって、適切に設定することが困難である、不要語であるか否かを決定するための閾値を用いることなく、不要語を決定することができる。   As described above, according to the unnecessary word determination device according to the first embodiment, the words of the topic into which the words that are uniformly distributed within the predetermined range where the appearance probabilities for all topics are within the predetermined range are classified. The set is determined as an unnecessary word. This makes it possible to determine an unnecessary word without using a threshold value for determining whether or not the word is an unnecessary word that is difficult to set appropriately.

また、学習用文書データに対する尤度を最大にする、各単語のトピック毎の出現確率を学習により探索し、探索された出現確率を用いて、不要語を決定している。これによって、学習用文書データの文書特性を考慮して、不要語を決定することができる。   Also, the appearance probability of each word for each topic that maximizes the likelihood of the learning document data is searched by learning, and unnecessary words are determined using the searched appearance probability. Thus, unnecessary words can be determined in consideration of the document characteristics of the learning document data.

次に第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して、構成に関する説明を省略する。   Next, a second embodiment will be described. In addition, about the part which becomes the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and the description regarding a structure is abbreviate | omitted.

第2の実施の形態では、不要語候補リストをユーザに提示して、ユーザに不要語を選択させている点が、第1の実施の形態と主に異なっている。   The second embodiment is mainly different from the first embodiment in that an unnecessary word candidate list is presented to the user and the user selects an unnecessary word.

図7に示すように、第2の実施の形態に係る不要語決定装置210は、文書データベース12と、パラメータ学習部14と、単語分類部16と、一様分布判定部18と、一様に分布する単語が分類されたトピックに分類された各単語を、不要語候補リストとしてディスプレイ(図示省略)に表示させる不要語候補表示制御部220と、ユーザがマウスやキーボードを操作することによって不要語候補リストから選択した単語を不要語として決定する不要語選択決定部222とを備えている。   As illustrated in FIG. 7, the unnecessary word determination device 210 according to the second exemplary embodiment includes a document database 12, a parameter learning unit 14, a word classification unit 16, and a uniform distribution determination unit 18. An unnecessary word candidate display control unit 220 that displays each word classified as a topic in which distributed words are classified on a display (not shown) as an unnecessary word candidate list, and an unnecessary word by a user operating a mouse or a keyboard. An unnecessary word selection determining unit 222 that determines a word selected from the candidate list as an unnecessary word.

不要語候補表示制御部220は、全トピックに対して一様な分布を持つ単語集合が分類されたトピックの各単語を、不要語候補リストとしてディスプレイに表示させ、また、各単語のトピック毎の出現確率又はトピック間の出現確率の比を、不要語候補リストと一緒に表示させる。これによって、ユーザは、ディスプレイに表示された出現確率又は出現確率の比を参照して、不要語として登録すべき単語を選択する。   The unnecessary word candidate display control unit 220 displays each word of a topic in which a word set having a uniform distribution with respect to all topics is displayed on the display as an unnecessary word candidate list. An appearance probability or a ratio of appearance probabilities between topics is displayed together with an unnecessary word candidate list. Thus, the user selects a word to be registered as an unnecessary word with reference to the appearance probability or the ratio of the appearance probability displayed on the display.

不要語選択決定部222は、ユーザによって不要語として不要語候補リストの中から選択された単語の集合を、不要語として決定する。   The unnecessary word selection determination unit 222 determines a set of words selected from the unnecessary word candidate list as unnecessary words by the user as unnecessary words.

次に、第2の実施の形態に係る不要語決定処理ルーチンについて説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。   Next, an unnecessary word determination processing routine according to the second embodiment will be described. In addition, about the process similar to 1st Embodiment, the same code | symbol is attached | subjected and detailed description is abbreviate | omitted.

まず、ステップ100において、学習用文書データに含まれる単語群を、単語辞書データベースから読み込み、ステップ102において、トピック数Kに初期値2を設定すると共に、トピック数上限値Kmaxに、予め定められた上限値を設定する。   First, in step 100, a word group included in the learning document data is read from the word dictionary database, and in step 102, an initial value 2 is set as the topic number K and a topic number upper limit value Kmax is set in advance. Set the upper limit.

そして、ステップ104で、トピック数Kにおいて、学習により、学習用文書データに対して尤度を最大化するパラメータα、βを探索する。次のステップ106では、上記ステップ106で得られたパラメータβに基づいて、上記ステップ100で得られた各単語を、K個のトピックに分類する。そして、ステップ108において、分類された全ての単語が各トピックに対して一様に分布するトピックが存在するか否かを判定し、分類された全ての単語が一様に分布するトピックが存在しなかった場合には、ステップ110において、トピック数Kが、上限値Kmax未満であるか否かを判定し、トピック数Kが、上限値Kmaxに達していない場合には、ステップ112において、トピック数をインクリメントして、上記ステップ104へ戻る。一方、上記ステップ110において、トピック数Kが、上限値Kmaxに達している場合には、不要語決定処理ルーチンを終了する。   In step 104, the parameters α and β that maximize the likelihood of the learning document data are searched for by learning in the number of topics K. In the next step 106, based on the parameter β obtained in step 106, each word obtained in step 100 is classified into K topics. Then, in step 108, it is determined whether or not there is a topic in which all classified words are uniformly distributed for each topic, and there is a topic in which all classified words are uniformly distributed. If not, it is determined in step 110 whether the topic number K is less than the upper limit value Kmax. If the topic number K has not reached the upper limit value Kmax, the number of topics is determined in step 112. Is incremented and the process returns to step 104. On the other hand, if the number of topics K has reached the upper limit Kmax in step 110, the unnecessary word determination processing routine is terminated.

また、上記ステップ108において、分類された全ての単語が一様に分布するトピックが得られたと判断された場合には、ステップ250において、当該トピックに分類された単語の集合を、不要語候補リストとしてディスプレイに表示させる。   If it is determined in step 108 that a topic in which all classified words are uniformly distributed has been obtained, a set of words classified in the topic is converted into an unnecessary word candidate list in step 250. On the display.

次のステップ252では、不要語候補リストから、ユーザによって不要語が選択されたか否かを判定し、ユーザがマウスやキーボードを操作して、不要語候補リストの中から不要語とする単語を選択すると、ステップ254へ進み、上記ステップ252で選択された単語の集合を、不要語リストに登録して、不要語決定処理ルーチンを終了する。   In the next step 252, it is determined whether or not an unnecessary word has been selected by the user from the unnecessary word candidate list, and the user operates the mouse or keyboard to select a word to be an unnecessary word from the unnecessary word candidate list. Then, the process proceeds to step 254, the set of words selected in step 252 is registered in the unnecessary word list, and the unnecessary word determination processing routine is terminated.

以上説明したように、第2の実施の形態に係る不要語決定装置によれば、全トピックに対する出現確率の各々が予め定められた範囲内となり一様に分布する単語が分類されたトピックの単語集合を、不要語候補として決定する。これによって、適切に設定することが困難である、不要語であるか否かを決定するための閾値を用いることなく、不要語候補を決定することができる。   As described above, according to the unnecessary word determination device according to the second embodiment, the words of the topic in which the words that are uniformly distributed within the predetermined range where the appearance probabilities for all the topics are within the predetermined range are classified. The set is determined as an unnecessary word candidate. Thereby, an unnecessary word candidate can be determined without using a threshold value for determining whether or not the word is an unnecessary word that is difficult to set appropriately.

次に第3の実施の形態について説明する。なお、第3の実施の形態に係る不要語決定装置は、第1の実施の形態と同様の構成となるため、同一符号を付して、構成に関する説明を省略する。   Next, a third embodiment will be described. In addition, since the unnecessary word determination apparatus which concerns on 3rd Embodiment becomes a structure similar to 1st Embodiment, the same code | symbol is attached | subjected and the description regarding a structure is abbreviate | omitted.

第3の実施の形態では、全トピックに対して一様な分布を持つ単語が予め定めた個数以上分類されたトピックの単語集合を、不要語として決定している点が、第1の実施の形態と主に異なっている。   In the third embodiment, the word set of a topic in which a predetermined number of words having a uniform distribution with respect to all topics are determined as unnecessary words is determined as the first embodiment. Mainly different from the form.

第3の実施の形態に係る不要語決定装置では、一様分布判定部18によって、全てのトピックのうち、分類された単語集合について、全てのトピックへの出現確率が上記の(8)式で表される範囲内となる単語が予め定められた個数以上となるトピックが存在するか否かを判定する。   In the unnecessary word determination device according to the third exemplary embodiment, the uniform distribution determination unit 18 uses the above expression (8) to determine the appearance probability of all the topics in the classified word set. It is determined whether or not there is a topic having a predetermined number or more of words within the range to be represented.

上記のような全トピックに対して一様な分布を持つ単語が予め定められた個数以上分類されたトピックが存在しない場合には、トピック数を増やして、パラメータ学習部14に再度学習させる。   If there are no topics with more than a predetermined number of words having a uniform distribution for all topics as described above, the number of topics is increased and the parameter learning unit 14 is made to learn again.

上記のような全トピックに対して一様な分布を持つ単語が予め定められた個数以上分類されたトピックが存在する場合には、不要語決定部20によって、一様な分布を持つ単語集合を不要語として決定する。   When there are topics classified as more than a predetermined number of words having a uniform distribution with respect to all the topics as described above, the unnecessary word determination unit 20 generates a word set having a uniform distribution. Determine as an unnecessary word.

なお、第3の実施の形態に係る不要語決定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。   In addition, about the other structure and effect | action of an unnecessary word determination apparatus which concern on 3rd Embodiment, since it is the same as that of 1st Embodiment, description is abbreviate | omitted.

上記の第3の実施の形態は、上記の第2の実施の形態に適用してもよい。この場合には、全トピックに対して一様な分布を持つ単語が、予め定めた個数以上分類されたトピックの単語集合を、不要語候補として決定し、ユーザに不要語候補から不要語を選択させるようにすればよい。   The third embodiment described above may be applied to the second embodiment described above. In this case, a word set of topics classified by a predetermined number of words having a uniform distribution over all topics is determined as an unnecessary word candidate, and the user selects an unnecessary word from the unnecessary word candidates. You can make it.

なお、上記の第1の実施の形態〜第3の実施の形態では、決定された不要語を登録しておく場合を例に説明したが、これに限定されるものではなく、例えば、不要語として決定された単語を、コーパスから除去するようにしてもよい。   In the first to third embodiments described above, the case where the determined unnecessary word is registered has been described as an example. However, the present invention is not limited to this. For example, the unnecessary word is used. May be removed from the corpus.

また、決定された不要語からなる不要語リストを用いて、類似文書検索や、文書のクラスタリング、キーワード検索などを行うようにしてもよい。この場合には、LDA学習により得られた各単語のトピック毎の出現確率を用いて、入力された新しい文書データに含まれる各単語に対して、トピック毎の出現確率を割り当て、割り当てられたトピック毎の出現確率を用いた重みづけにより、文書データの平均トピックや段落ごとの平均トピックを求める。そして、求められた平均トピックを用いて、類似文書検索や、文書のクラスタリング、キーワード検索などを行うようにすればよい。   Further, similar document search, document clustering, keyword search, and the like may be performed using an unnecessary word list including determined unnecessary words. In this case, using the appearance probability for each topic of each word obtained by LDA learning, the appearance probability for each topic is assigned to each word included in the input new document data, and the assigned topic An average topic of document data and an average topic for each paragraph are obtained by weighting using the appearance probability for each. Then, similar document search, document clustering, keyword search, and the like may be performed using the obtained average topic.

また、本発明に係るプログラムを、CDROM等の記憶媒体に格納して提供することも可能である。   Further, the program according to the present invention can be provided by being stored in a storage medium such as a CDROM.

本発明の第1の実施の形態に係る不要語決定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the unnecessary word determination apparatus which concerns on the 1st Embodiment of this invention. LDAの確率的文書生成モデルを示す図である。It is a figure which shows the stochastic document production | generation model of LDA. 本発明の第1の実施の形態に係る不要語決定装置における不要語決定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the unnecessary word determination processing routine in the unnecessary word determination apparatus which concerns on the 1st Embodiment of this invention. トピック数を2としたときのLDA学習により得られる各単語のトピック毎の出現確率を示す図である。It is a figure which shows the appearance probability for every topic of each word obtained by LDA learning when the number of topics is 2. トピック数を2としたときのLDA学習により得られる各単語のトピック毎の出現確率を示す図である。It is a figure which shows the appearance probability for every topic of each word obtained by LDA learning when the number of topics is 2. トピック数を3としたときのLDA学習により得られる各単語のトピック毎の出現確率を示す図である。It is a figure which shows the appearance probability for every topic of each word obtained by LDA learning when the number of topics is three. 本発明の第2の実施の形態に係る不要語決定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the unnecessary word determination apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る不要語決定装置における不要語決定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the unnecessary word determination processing routine in the unnecessary word determination apparatus which concerns on the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

10、210 不要語決定装置
12 文書データベース
14 パラメータ学習部
16 単語分類部
18 一様分布判定部
20 不要語決定部
220 不要語候補表示制御部
222 不要語選択決定部
10, 210 Unnecessary word determination device 12 Document database 14 Parameter learning unit 16 Word classification unit 18 Uniform distribution determination unit 20 Unnecessary word determination unit 220 Unnecessary word candidate display control unit 222 Unnecessary word selection determination unit

Claims (5)

予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段と、
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段と、
を含む不要語決定装置。
A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of subjects for the word group included in the document information prepared in advance, which maximizes the likelihood for the document information. Means,
Classifying means for classifying each word of the word group into any of the themes having the highest appearance probability of the word based on the appearance probability searched by the search means;
Of the themes of the number of themes, it is unnecessary to determine, as unnecessary words, each of the words classified into the themes into which the words whose occurrence probabilities appear in the predetermined number of themes are within a predetermined range Word determination means;
Unnecessary word determination device including
予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段と、
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段と、
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段と、
前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段と、
を含む不要語決定装置。
A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of themes, which maximizes the likelihood for the document information for the word group included in the document information prepared in advance Means,
Classifying means for classifying each word of the word group into any of the themes having the highest occurrence probability of the word based on the appearance probability searched by the search means;
Among the themes of the number of themes, each of the words classified into the themes into which the words whose appearance probabilities appearing in the themes of the number of themes are within a predetermined range is determined as unnecessary word candidates. Unnecessary word candidate determination means;
Display control means for causing the user to display the unnecessary word candidates determined by the unnecessary word candidate determining means on the display device for the user to select unnecessary words;
Unnecessary word determination device including
前記探索手段は、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題が現れるまで、前記予め設定された主題数から主題数を順次増加させて、前記文書情報に対する尤度を最大にする前記出現確率を繰り返し探索する請求項1又は2記載の不要語決定装置。   The search means sequentially increases the number of themes from the preset number of themes until a theme in which words whose appearance probabilities appearing in the themes for the number of themes fall within a predetermined range appears. The unnecessary word determination device according to claim 1, wherein the appearance probability that maximizes the likelihood for the document information is repeatedly searched. コンピュータを、
予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、及び
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語として決定する不要語決定手段
として機能させるためのプログラム。
Computer
A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of subjects for the word group included in the document information prepared in advance, which maximizes the likelihood for the document information. means,
Classification means for classifying each word of the word group into any of the themes having the highest appearance probability of the word based on the appearance probability searched by the search means, and the number of themes Unnecessary words determining means for determining, as unnecessary words, each of the words classified into the themes in which words whose appearance probabilities appearing in the number of themes within the number of themes are within a predetermined range are classified as unnecessary words Program to function as.
コンピュータを、
予め用意された文書情報に含まれる単語群について、前記文書情報に対する尤度を最大にする、前記単語群の各単語が予め設定された主題数の主題の各々に出現する出現確率を探索する探索手段、
前記探索手段によって探索された前記出現確率に基づいて、前記単語群の各単語を、該単語の前記出現確率が最も高くなる前記主題数の主題の何れかに分類する分類手段、
前記主題数の主題のうち、前記主題数の主題に出現する出現確率の各々が予め定められた範囲内となる単語が分類された主題に分類された単語の各々を、不要語候補として決定する不要語候補決定手段、及び
前記不要語候補決定手段によって決定された不要語候補を、不要語を選択させるために使用者に対して表示装置に表示させる表示制御手段
として機能させるためのプログラム。
Computer
A search for searching for the probability of occurrence of each word of the word group appearing in each of a predetermined number of subjects for the word group included in the document information prepared in advance, which maximizes the likelihood for the document information. means,
Classification means for classifying each word of the word group into any of the themes having the highest appearance probability of the word based on the appearance probability searched by the search means;
Among the themes of the number of themes, each of the words classified into the themes into which the words whose appearance probabilities appearing in the themes of the number of themes are within a predetermined range is determined as unnecessary word candidates. An unnecessary word candidate determining unit, and a program for causing an unnecessary word candidate determined by the unnecessary word candidate determining unit to function as a display control unit that causes a user to display the unnecessary word candidate on a display device in order to select an unnecessary word.
JP2008217867A 2008-08-27 2008-08-27 Unnecessary word deciding apparatus and program Pending JP2010055253A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008217867A JP2010055253A (en) 2008-08-27 2008-08-27 Unnecessary word deciding apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008217867A JP2010055253A (en) 2008-08-27 2008-08-27 Unnecessary word deciding apparatus and program

Publications (1)

Publication Number Publication Date
JP2010055253A true JP2010055253A (en) 2010-03-11

Family

ID=42071121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008217867A Pending JP2010055253A (en) 2008-08-27 2008-08-27 Unnecessary word deciding apparatus and program

Country Status (1)

Country Link
JP (1) JP2010055253A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229069A (en) * 2013-05-22 2014-12-08 日本電気株式会社 Correlation determination system, method, and program
JP2019219830A (en) * 2018-06-18 2019-12-26 株式会社コミチ Emotion evaluation method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014229069A (en) * 2013-05-22 2014-12-08 日本電気株式会社 Correlation determination system, method, and program
JP2019219830A (en) * 2018-06-18 2019-12-26 株式会社コミチ Emotion evaluation method

Similar Documents

Publication Publication Date Title
CN109635296B (en) New word mining method, device computer equipment and storage medium
JP2023052502A (en) System and method for rapidly building, managing, and sharing machine learning model
US20150074112A1 (en) Multimedia Question Answering System and Method
CN108228541B (en) Method and device for generating document abstract
JP2019535047A (en) Subject classifier training method, apparatus, and computer-readable storage medium
JP5137567B2 (en) Search filtering device and search filtering program
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
Sallam et al. Improving Arabic text categorization using normalization and stemming techniques
CN103995876A (en) Text classification method based on chi square statistics and SMO algorithm
CN109829154B (en) Personality prediction method based on semantics, user equipment, storage medium and device
CN112052356A (en) Multimedia classification method, apparatus and computer-readable storage medium
Zaghloul et al. Text classification: neural networks vs support vector machines
Gonsior et al. Active Learning for Spreadsheet Cell Classification.
Tofighy et al. AHP techniques for Persian text summarization
Palkar et al. Comparative evaluation of supervised learning algorithms for sentiment analysis of movie reviews
CN111125329B (en) Text information screening method, device and equipment
EP2096585A1 (en) Active studying system, active studying method and active studying program
KR102400689B1 (en) Semantic relation learning device, semantic relation learning method, and semantic relation learning program
Oliveira et al. A concept-based ilp approach for multi-document summarization exploring centrality and position
JP2010055253A (en) Unnecessary word deciding apparatus and program
CN111341404B (en) Electronic medical record data set analysis method and system based on ernie model
CN110069780B (en) Specific field text-based emotion word recognition method
CN114357152A (en) Information processing method, information processing device, computer-readable storage medium and computer equipment
CN111767404A (en) Event mining method and device
Lopes et al. An incremental hypersphere learning framework for protein membership prediction