JP2010537286A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2010537286A5 JP2010537286A5 JP2010521289A JP2010521289A JP2010537286A5 JP 2010537286 A5 JP2010537286 A5 JP 2010537286A5 JP 2010521289 A JP2010521289 A JP 2010521289A JP 2010521289 A JP2010521289 A JP 2010521289A JP 2010537286 A5 JP2010537286 A5 JP 2010537286A5
- Authority
- JP
- Japan
- Prior art keywords
- word
- topic
- candidate
- corpus
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000875 corresponding Effects 0.000 claims 15
- 238000000034 method Methods 0.000 claims 1
Claims (52)
前記トピック文書コーパスにおける候補トピック語の第1の分布の、前記文書コーパスにおける前記候補トピック語の第2の分布に対する比に実質的に比例する該候補トピック語に関する候補トピック語相違値を算出するステップと、
前記候補トピック語相違値および前記トピック相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するステップと、
を備え、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであることを特徴とするコンピュータによって実施され、
前記候補トピック語は、前記トピックのトピック辞書の中のトピック語のための候補である方法。 Calculating a topic divergence value that is substantially proportional to a ratio of a first topic word distribution in the topic document corpus to a second topic word distribution in the document corpus;
Calculating a candidate topic word divergence value for the candidate topic word that is substantially proportional to a ratio of a first distribution of candidate topic words in the topic document corpus to a second distribution of the candidate topic words in the document corpus. When,
Determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic divergence value;
With
The topic document corpus is a corpus of topic documents related to a topic;
The document corpus is implemented by a computer characterized in that it is a corpus of documents including the topic document and other documents ;
The candidate topic word is, candidate der Ru process for the topic word in a topic dictionary of the topic.
前記トピックのためのトピック語を選択するステップと、
前記トピック文書コーパスにおける各トピック語の第1の分布の、前記文書コーパスにおける各トピック語の第2の分布に対する比に実質的に比例する前記トピック語のそれぞれに関するトピック語相違値を算出するステップと、
前記トピック語相違値の中心傾向に基づいて、前記トピック相違値を算出するステップと、
を備えることを特徴とする請求項1に記載の方法。 The step of calculating the topic divergence value is:
Selecting a topic word for the topic;
Calculating a topic word divergence value for each of the topic words that is substantially proportional to a ratio of a first distribution of each topic word in the topic document corpus to a second distribution of each topic word in the document corpus; ,
Calculating the topic difference value based on a central tendency of the topic word difference value;
The method of claim 1, comprising:
前記トピックと関係する文書クラスタを生成するステップと、
前記文書クラスタのそれぞれの中の語を識別するステップと、
前記文書クラスタのそれぞれの中の前記識別された語から候補トピック語を選択するステップと、
をさらに備えることを特徴とする請求項1に記載の方法。 Identifying a document related to a topic in the document corpus;
Generating a document cluster related to the topic;
Identifying words in each of the document clusters;
Selecting candidate topic words from the identified words in each of the document clusters;
The method of claim 1, further comprising:
前記文書コーパスの第2のサブセットを備える開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップと、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー測度を算出するステップと、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー測度を算出するステップと、
前記候補語エントロピー測度が前記既存語エントロピー測度を超えている場合、前記候補語が候補トピック語であると判定するステップと、
をさらに備えることを特徴とする請求項1に記載の方法。 Calculating a first word frequency for existing words in a training corpus comprising a first subset of the document corpus and candidate words defined by a sequence of component words, each of which is an existing word in the dictionary When,
Calculating a second word frequency for the component word and the candidate word in a development corpus comprising a second subset of the document corpus;
Calculating a candidate word entropy measure based on the second word frequency of the candidate word and the first word frequency of the component word and the candidate word;
Calculating an existing word entropy measure based on the second word frequency of the component word and the first word frequency of the component word and the candidate word;
Determining that the candidate word is a candidate topic word if the candidate word entropy measure exceeds the existing word entropy measure;
The method of claim 1, further comprising:
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップは、前記開発コーパスにおける前記構成要素語および前記候補語のそれぞれに関する語カウント値を算出するステップを備えることを特徴とする請求項8に記載の方法。 Calculating a first word frequency for existing words and candidate words in a training corpus comprises training a language model for the probability of the existing words and candidate words in the training corpus;
The step of calculating the second word frequency relating to the component word and the candidate word in a development corpus includes the step of calculating a word count value relating to each of the component word and the candidate word in the development corpus. The method according to claim 8.
前記候補語および前記構成要素語の前記確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記候補語エントロピー測度を算出するステップと、
を備え、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記既存語エントロピー測度を算出するステップと、
を備えることを特徴とする請求項9に記載の方法。 Based on the second word frequency of the candidate word, and the first word frequency of the component word and the candidate word, calculating a candidate word entropy measure,
Calculating a first logarithmic value based on the probabilities of the candidate word and the component word;
Calculating the candidate word entropy measure based on the word count value of the candidate word and the first logarithmic value;
With
Based on the second word frequency of the component word and the first word frequency of the component word and the candidate word, calculating an existing word entropy measure,
Calculating a second logarithmic value based on the probability of the candidate word and the component word;
Calculating the existing word entropy measure based on the word count of the component words and the second logarithmic value;
10. The method of claim 9, comprising:
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するステップと、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するステップと、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するステップと、
を備え、
前記トピック語は、前記或るトピックと関係し、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係するトピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中のトピック語のための候補であることを特徴とするコンピュータによって実施される方法。 Selecting a topic dictionary comprising topic words related to a topic;
Calculating a topic word divergence value based on the topic word, the document corpus, and the topic document corpus;
Calculating candidate topic word divergence values for candidate topic words based on the document corpus and the topic document corpus;
Determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic word divergence value;
With
The topic word relates to the certain topic;
The document corpus is a corpus of documents including topic documents and other documents;
The topic document corpus, Ri Oh in the corpus of the belt pick document be related to the topic,
Wherein the candidate topic word is performed by a computer, wherein the candidate der Rukoto for topic words in the topic dictionary.
前記トピック辞書の中の既存のトピック語を選択するステップと、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記トピック語のそれぞれに関する既存トピック語相違値を算出するステップと、
前記既存トピック語相違値の中心傾向に基づいて、前記トピック語相違値を算出するステップと、
を備えることを特徴とする請求項12に記載の方法。 The step of calculating the topic word divergence value is:
Selecting an existing topic word in the topic dictionary;
Calculating an existing topic word divergence value for each of the topic words based on the document corpus and the topic document corpus;
Calculating the topic word divergence value based on a central tendency of the existing topic word divergence value;
13. The method of claim 12, comprising:
前記トピック文書コーパスにおける前記候補トピック語に関連する第1の確率を算出するステップと、
前記文書コーパスにおける前記候補トピック語に関連する第2の確率を算出するステップと、
前記第1の確率の、前記第2の確率と、前記第1の確率に基づく対数値との積に対する比に基づいて、前記候補トピック語相違値を計算するステップと、
を備えることを特徴とする請求項12に記載の方法。 Based on the document corpus and the topic document corpus, calculating a candidate topic word divergence value for the candidate topic word comprises:
Calculating a first probability associated with the candidate topic word in the topic document corpus;
Calculating a second probability associated with the candidate topic word in the document corpus;
Calculating the candidate topic word divergence value based on a ratio of the first probability to a product of the second probability and a logarithmic value based on the first probability;
13. The method of claim 12, comprising:
前記ソフトウェアは、コンピュータ可読命令を備え、
前記コンピュータ可読命令は、コンピュータ処理デバイスによって実行可能であり、さらにそのような実行時に、前記コンピュータ処理デバイスに、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出させ、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出させ、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのためのトピック語であるかどうかを判定させ、さらに
前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納させ、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、トピックと関係するトピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中のトピック語のための候補であることを特徴とする装置。 An apparatus comprising software stored in a non-transitory computer readable medium comprising:
The software comprises computer readable instructions,
The computer readable instructions can be executed by a computer processing device, and upon such execution,
Based on the topic word, document corpus, and topic document corpus, the topic word difference value is calculated,
Based on the document corpus and the topic document corpus, a candidate topic word divergence value for a candidate topic word is calculated,
On the basis of the candidate topic word divergence value and the topic word divergence value, the candidate topic word is determined whether the topic word for the topic, further the candidate topic word is determined to be topic word If, to store the candidate topic word in the topic dictionary,
The topic word is a word in a topic dictionary related to the topic;
The document corpus is a corpus of documents including the topic document and other documents;
The topic document corpus, Ri Oh topic corpus of documents related to the topic,
The candidate topic words, and wherein the candidate der Rukoto for topic words in the topic dictionary.
トピック語処理モジュールと、
辞書アップデータモジュールと、
を備え、
前記データストアは、或るトピックと関係するトピック語を備えるトピック辞書を格納し、
前記トピック語処理モジュールは、
或るトピックと関係するトピック辞書の中の語であるトピック語、トピック文書および他の文書を含む文書のコーパスである文書コーパス、および該トピックと関係する該トピック文書のコーパスであるトピック文書コーパスに基づいて、トピック語相違値を算出し、
前記トピック辞書の中のトピック語のための候補として候補トピック語を選択し、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記候補トピック語に関する候補トピック語相違値を算出し、さらに
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのためのトピック語であるかどうかを判定するように構成されており、
前記辞書アップデータモジュールは、前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するように構成されていることを特徴とするシステム。 A data store,
A topic word processing module;
A dictionary updater module;
With
The data store stores a topic dictionary with topic words related to a topic;
The topic word processing module includes:
A topic word that is a word in a topic dictionary related to a topic, a document corpus that is a corpus of documents including topic documents and other documents, and a topic document corpus that is a corpus of the topic documents related to the topic Based on the topic word difference value,
Selecting candidate topic words as candidates for topic words in the topic dictionary ;
Based on the document corpus and the topic document corpus, the calculated candidate topic word divergence value about the candidate topic word, further on the basis of the candidate topic word divergence value and the topic word divergence value, the candidate topic word is the topic Is configured to determine if it is a topic word for
The dictionary updater module is configured to store the candidate topic word in the topic dictionary when it is determined that the candidate topic word is a topic word.
前記トピック文書コーパスにおける前記候補トピック語に関連する第1の確率を算出し、
前記文書コーパスにおける前記候補トピック語に関連する第2の確率を算出し、さらに
前記第1の確率の、前記第2の確率と、前記第1の確率に基づく対数値との積に対する比に基づいて、前記候補トピック語相違値を計算するように構成されていることを特徴とする請求項18に記載のシステム。 The topic word processing module includes:
Calculating a first probability associated with the candidate topic word in the topic document corpus;
Calculating a second probability associated with the candidate topic word in the document corpus, and further based on a ratio of the first probability to a product of the second probability and a logarithmic value based on the first probability 19. The system of claim 18, wherein the system is configured to calculate the candidate topic word divergence value.
候補語に関する候補語相違値を算出するステップと、
前記候補語相違値が、前記相違閾値を超えている場合、前記候補語が前記トピックに関するトピック語であると判定するステップと、
を備えており、
前記相違閾値は、トピック文書コーパスにおけるトピック語に関する第1のトピック語確率の、前記文書コーパスにおける前記トピック語に関する第2のトピック語確率に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補語相違値は、前記トピック文書コーパスに関連する候補語に関する第1の候補語確率の、前記文書コーパスに関連する前記候補語に関する第2の候補語確率に対する比に比例することを特徴とする方法。 Calculating a difference threshold for the topic document corpus;
Calculating a candidate word difference value for the candidate word;
Determining that the candidate word is a topic word for the topic if the candidate word divergence value exceeds the difference threshold;
With
The difference threshold is proportional to a ratio of a first topic word probability for a topic word in a topic document corpus to a second topic word probability for the topic word in the document corpus;
The topic document corpus is a corpus of topic documents related to a topic;
The topic word is a word in a topic dictionary related to the topic;
The document corpus is a corpus of documents including the topic document and other documents;
The candidate word divergence value is proportional to a ratio of a first candidate word probability for a candidate word associated with the topic document corpus to a second candidate word probability for the candidate word associated with the document corpus. how to.
候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するための手段と、
を備え、
前記トピック相違値は、トピック文書コーパスにおける第1のトピック語分布の、文書コーパスにおける第2のトピック語分布に対する比に実質的に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補トピック語相違値は、前記トピック文書コーパスにおける候補トピック語の第1の分布の、前記文書コーパスにおける前記候補トピック語の第2の分布に対する比に実質的に比例し、
前記候補トピック語は、前記トピックのトピック辞書の中のトピック語のための候補であることを特徴とするシステム。 Means for calculating the topic divergence value;
Means for calculating a candidate topic word divergence value for the candidate topic word;
Means for determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic divergence value;
With
The topic divergence value is substantially proportional to the ratio of the first topic word distribution in the topic document corpus to the second topic word distribution in the document corpus;
The topic document corpus is a corpus of topic documents related to a topic;
The document corpus is a corpus of documents including the topic document and other documents;
The candidate topic word divergence value is substantially proportional to a ratio of a first distribution of candidate topic words in the topic document corpus to a second distribution of candidate topic words in the document corpus ;
The candidate topic word, the system characterized by candidate der Rukoto for topic words in the topic dictionary of the topic.
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するための手段と、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するための手段と、
を備え、
前記トピック語は、前記トピック辞書の中の語であり、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係する該トピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中のトピック語のための候補であることを特徴とするシステム。 Means for selecting a topic dictionary comprising topic words related to a topic;
Means for calculating a topic word divergence value based on the topic word, the document corpus, and the topic document corpus;
Means for calculating a candidate topic word divergence value for a candidate topic word based on the document corpus and the topic document corpus;
Means for determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic word divergence value;
With
The topic word is a word in the topic dictionary ,
The document corpus is a corpus of documents including topic documents and other documents;
The topic document corpus, Ri Oh in the corpus of the topic documents related to the topic,
The candidate topic word, the system characterized by candidate der Rukoto for topic words in the topic dictionary.
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語がトピック語であるかどうかを判定するための手段と、
前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するための手段と、
を備え、
前記トピック語は、或るトピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係する該トピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中の語のための候補であることを特徴とするコンピュータ処理デバイス。 Means for calculating a topic word divergence value based on the topic word, the document corpus, and the topic document corpus;
Means for calculating a candidate topic word divergence value for a candidate topic word based on the document corpus and the topic document corpus;
Means for determining whether the candidate topic word is a topic word based on the candidate topic word divergence value and the topic word divergence value;
If the candidate topic word is determined to be a topic word, and means for storing the candidate topic word in the topic dictionary,
With
The topic word is a word in a topic dictionary related to a topic,
The document corpus is a corpus of documents including topic documents and other documents;
The topic document corpus, Ri Oh in the corpus of the topic documents related to the topic,
The candidate topic words, computing device, wherein the candidate der Rukoto for words in the topic dictionary.
候補語に関する候補語相違値を算出するための手段と、
前記候補語相違値が前記相違閾値を超えている場合、前記候補語が前記トピックに関するトピック語であると判定するための手段と、
を備え、
前記相違閾値は、トピック語に関する第1のトピック語確率の、文書コーパスにおける前記トピック語に関する第2のトピック語確率に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補語相違値は、前記トピック文書コーパスに関連する候補語に関する第1の候補語確率の、前記文書コーパスに関連する前記候補語に関する第2の候補語確率に対する比に比例することを特徴とするシステム。 Means for calculating a difference threshold for the topic document corpus;
Means for calculating a candidate word difference value for the candidate word;
Means for determining that the candidate word is a topic word for the topic if the candidate word divergence value exceeds the difference threshold;
With
The difference threshold is proportional to a ratio of a first topic word probability for a topic word to a second topic word probability for the topic word in a document corpus;
The topic document corpus is a corpus of topic documents related to a topic;
The topic word is a word in a topic dictionary related to the topic;
The document corpus is a corpus of documents including the topic document and other documents;
The candidate word divergence value is proportional to a ratio of a first candidate word probability for a candidate word associated with the topic document corpus to a second candidate word probability for the candidate word associated with the document corpus. System.
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップと、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー関連測度を算出するステップと、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー関連測度を算出するステップと、
前記候補語エントロピー関連測度が前記既存語エントロピー関連測度を超えている場合、前記候補語が新たな語であると判定するステップと、
を備えることを特徴とするコンピュータによって実施される方法。 Calculating a first word frequency for existing words in the training corpus and candidate words defined by a sequence of component words, each of which is an existing word in the dictionary;
Calculating a second word frequency for the component word and the candidate word in a development corpus;
Calculating a candidate word entropy-related measure based on the second word frequency of the candidate word and the first word frequency of the component word and the candidate word;
Calculating an existing word entropy-related measure based on the second word frequency of the component word and the first word frequency of the component word and the candidate word;
Determining that the candidate word is a new word if the candidate word entropy related measure exceeds the existing word entropy related measure;
A computer-implemented method comprising:
第2の語頻度を算出するステップは、前記開発コーパスにおける前記構成要素語および前記候補語のそれぞれに関する語カウント値を算出するステップを備えることを特徴とする請求項25に記載の方法。 Calculating a first word frequency comprises training a language model for the probabilities of the existing word and the candidate word in the training corpus;
26. The method of claim 25, wherein calculating a second word frequency comprises calculating a word count value for each of the component words and the candidate words in the development corpus.
前記候補語および前記構成要素語の前記確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記候補語エントロピー関連測度を算出するステップと、
を備え、さらに
既存語エントロピー関連測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記既存語エントロピー関連測度を算出するステップと、
を備えることを特徴とする請求項25に記載の方法。 The step of calculating candidate word entropy-related measures is:
Calculating a first logarithmic value based on the probabilities of the candidate word and the component word;
Calculating the candidate word entropy-related measure based on the word count value of the candidate word and the first logarithmic value;
And calculating the existing word entropy-related measure comprises:
Calculating a second logarithmic value based on the probability of the candidate word and the component word;
Calculating the existing word entropy-related measure based on the word count of the component words and the second logarithmic value;
26. The method of claim 25, comprising:
第2のコーパスにおける前記構成要素語および前記候補語に関する第2の語確率を算出するステップと、
前記第2の候補語確率、および前記候補語のおよび前記構成要素語の前記第1の語確率に基づいて、第1のエントロピー関連値を算出するステップと、
前記第2の構成要素語確率、および前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2のエントロピー関連値を算出するステップと、
前記第1のエントロピー関連値が前記第2のエントロピー関連値を超えている場合、前記候補語が新たな語であると判定するステップと、
を備えることを特徴とするコンピュータによって実施される方法。 Calculating a first word probability for a candidate word defined by an existing word in the first corpus and a sequence of component words, each of which is an existing word in the dictionary;
Calculating a second word probability for the component word and the candidate word in a second corpus;
Calculating a first entropy-related value based on the second candidate word probability and the first word probability of the candidate word and of the component word;
Calculating a second entropy-related value based on the second component word probability and the first word probability of the candidate word and the component word;
Determining that the candidate word is a new word if the first entropy related value exceeds the second entropy related value;
A computer-implemented method comprising:
第2の語確率を算出するステップは、前記構成要素語および候補語のそれぞれに関して語カウント値を算出するステップを備えることを特徴とする請求項33に記載の方法。 The step of calculating a first word probability comprises training a language model on the first corpus with respect to the word probabilities of the existing word and the candidate word in the first corpus, and further comprising a second word 34. The method of claim 33, wherein calculating the probability comprises calculating a word count value for each of the component words and candidate words.
前記候補語および前記構成要素語の前記第1の語確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記第1のエントロピー関連値を算出するステップと、
を備え、
第2のエントロピー関連値を算出するステップは、
前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記第2のエントロピー関連値を算出するステップと、
を備えることを特徴とする請求項35に記載の方法。 The step of calculating the first entropy-related value is:
Calculating a first logarithmic value based on the first word probabilities of the candidate word and the component word;
Calculating the first entropy-related value based on the word count value of the candidate word and the first logarithmic value;
With
The step of calculating the second entropy related value is:
Calculating a second logarithmic value based on the first word probabilities of the candidate word and the component word;
Calculating the second entropy-related value based on the word count of the component word and the second logarithmic value;
36. The method of claim 35, comprising:
前記訓練コーパスにおける語の第1の語確率に関して前記訓練コーパス上で言語モデルを訓練するステップと、
前記開発コーパスにおける前記候補語および前記2つ以上の対応する語の出現回数をカウントするステップと、
前記開発コーパスにおける前記候補語の前記出現回数、および前記第1の語確率に基づいて、第1の値を算出するステップと、
前記開発コーパスにおける前記2つ以上の対応する語の前記出現回数、および前記第1の語確率に基づいて、第2の値を算出するステップと、
前記第1の値を前記第2の値と比較するステップと、
前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するステップと、
を備え、
前記訓練コーパスにおける語は、辞書の中の既存の語である前記訓練コーパスの中の2つ以上の対応する語の系列によって定義される候補語を含むことを特徴とするコンピュータによって実施される方法。 Dividing a collection of web documents into a training corpus and a development corpus;
Training a language model on the training corpus with respect to a first word probability of words in the training corpus;
Counting the number of occurrences of the candidate word and the two or more corresponding words in the development corpus;
Calculating a first value based on the number of occurrences of the candidate word in the development corpus and the first word probability;
Calculating a second value based on the number of occurrences of the two or more corresponding words in the development corpus and the first word probability;
Comparing the first value to the second value;
Determining whether the candidate word is a new word based on the comparison;
With
The computer-implemented method, wherein words in the training corpus include candidate words defined by a sequence of two or more corresponding words in the training corpus that are existing words in a dictionary .
前記候補語に関する前記第1の語確率、および前記2つ以上の対応する語の前記第1の語確率に基づいて、第1の対数値を算出するステップと、
前記第1の対数値に前記候補語の前記カウントされた出現回数を掛けるステップと、
を備え、さらに
前記開発コーパスにおける前記2つ以上の対応する語、および前記第1の語確率に基づいて、第2の値を算出するステップは、
前記候補語の前記第1の語確率、および前記2つ以上の対応する語の前記第1の語確率に基づいて、第2の対数値を算出するステップと、
前記第2の対数値に前記2つ以上の対応する語の前記カウントされた出現回数を掛けるステップと、
を備えることを特徴とする請求項40に記載の方法。 Based on the number of occurrences of the candidate word in the development corpus and the first word probability, calculating the first value,
Calculating a first logarithmic value based on the first word probability for the candidate word and the first word probability of the two or more corresponding words;
Multiplying the first logarithm value by the counted number of occurrences of the candidate word;
And calculating the second value based on the two or more corresponding words in the development corpus and the first word probability,
Calculating a second logarithmic value based on the first word probability of the candidate word and the first word probability of the two or more corresponding words;
Multiplying the second logarithm value by the counted number of occurrences of the two or more corresponding words;
41. The method of claim 40, comprising:
2つ以上の対応する語を備える候補語を含む、前記訓練コーパスの中に格納された語に関する第1の語確率と、
前記開発コーパスにおける前記語に関する第2の語確率と、
を生成するように構成されている語処理モジュールと、
コンピュータ可読媒体の中に格納されているコンピュータ命令を備え、該コンピュータ命令がコンピュータデバイスによって実行されると、前記第1の語確率、および前記第2の語確率を処理し、さらに、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記候補語に関する前記第2の語確率に基づく第1の値、および、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記2つ以上の対応する語に関する前記第2の語確率に基づく第2の値と、
を生成するように構成されている新語アナライザモジュールと、
を具備し、
前記第1の値を前記第2の値と比較し、前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するようにさらに構成されていることを特徴とするシステム。 Comprising computer instructions stored in a computer readable medium, wherein when the computer instructions are executed by a computing device, the word corpus is accessed and the word corpus is divided into a training corpus and a development corpus;
A first word probability for words stored in the training corpus comprising candidate words comprising two or more corresponding words;
A second word probability for the word in the development corpus;
A word processing module configured to generate
Comprising computer instructions stored in a computer-readable medium, and when the computer instructions are executed by a computing device, processing the first word probability and the second word probability;
The first word probability for the candidate word and the two or more corresponding words, and a first value based on the second word probability for the candidate word; and
A second value based on the first word probability for the candidate word and the two or more corresponding words, and the second word probability for the two or more corresponding words;
A new word analyzer module configured to generate
Comprising
The system is further configured to compare the first value with the second value and determine whether the candidate word is a new word based on the comparison.
前記ソフトウェアは、コンピュータ処理デバイスによって実行可能であるコンピュータ可読命令を有し、
該コンピュータ可読命令が実行されると、前記コンピュータ処理デバイスに、
訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出させ、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出させ、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー関連測度を算出させ、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー関連測度を算出させ、さらに
前記候補語エントロピー関連測度が前記既存語エントロピー関連測度を超えている場合、前記候補語が新たな語であると判定させることを特徴とする装置。 An apparatus comprising software stored in a computer readable medium,
The software comprises computer readable instructions that are executable by a computer processing device;
When the computer readable instructions are executed, the computer processing device includes:
Calculating a first word frequency for a candidate word defined by an existing word in the training corpus and a sequence of component words, each of which is an existing word in the dictionary;
Calculating a second word frequency for the component word and the candidate word in a development corpus;
Based on the second word frequency of the candidate word and the first word frequency of the component word and the candidate word, a candidate word entropy-related measure is calculated,
Based on the second word frequency of the component word and the first word frequency of the component word and the candidate word, an existing word entropy related measure is calculated, and the candidate word entropy related measure is The apparatus, wherein if the existing word entropy-related measure is exceeded, the candidate word is determined to be a new word.
第2のコーパスにおける前記構成要素語および前記候補語に関する第2の語確率を算出するための手段と、
前記候補語の前記第2の語確率、ならびに前記候補語および前記構成要素語の前記第1の語確率に基づいて、第1のエントロピー関連値を算出するための手段と、
前記構成要素語の前記第2の語確率、ならびに前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2のエントロピー関連値を算出するための手段と、
前記第1のエントロピー関連値と前記第2のエントロピー関連値の間の比較に基づいて、候補語が新たな語であるかどうかを判定するための手段と、
を備えることを特徴とするシステム。 Means for calculating a first word probability for existing words in the first corpus and candidate words defined by component words, each of which is an existing word in the dictionary;
Means for calculating a second word probability for the component word and the candidate word in a second corpus;
Means for calculating a first entropy-related value based on the second word probability of the candidate word and the first word probability of the candidate word and the component word;
Means for calculating a second entropy-related value based on the second word probability of the component word and the first word probability of the candidate word and the component word;
Means for determining whether a candidate word is a new word based on a comparison between the first entropy related value and the second entropy related value;
A system comprising:
2つ以上の対応する語を備える候補語を含む、前記訓練コーパスの中に格納された語に関する第1の語確率と、
前記開発コーパスにおける前記語に関する第2の語確率と、
を生成するように構成されている語処理手段と、
前記第1の語確率および前記第2の語確率を受け取るとともに、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記候補語に関する前記第2の語確率に基づく第1の値と、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記2つ以上の対応する語に関する前記第2の語確率に基づく第2の値と、
を生成するように構成されている新語アナライザ手段と、
を備え、
前記第1の値と前記第2の値を比較して、前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するようにさらに構成されていることを特徴とするシステム。 Accessing the word corpus and further dividing the word corpus into a training corpus and a development corpus;
A first word probability for words stored in the training corpus comprising candidate words comprising two or more corresponding words;
A second word probability for the word in the development corpus;
A word processing means configured to generate
Receiving the first word probability and the second word probability;
A first value based on the first word probability for the candidate word and the two or more corresponding words, and a first value based on the second word probability for the candidate word;
A second value based on the first word probability for the candidate word and the two or more corresponding words, and the second word probability for the two or more corresponding words;
A new word analyzer means configured to generate
With
The system is further configured to compare the first value and the second value and determine whether the candidate word is a new word based on the comparison.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/844,153 US7917355B2 (en) | 2007-08-23 | 2007-08-23 | Word detection |
US11/844,067 | 2007-08-23 | ||
US11/844,067 US7983902B2 (en) | 2007-08-23 | 2007-08-23 | Domain dictionary creation by detection of new topic words using divergence value comparison |
US11/844,153 | 2007-08-23 | ||
PCT/CN2008/072128 WO2009026850A1 (en) | 2007-08-23 | 2008-08-25 | Domain dictionary creation |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010537286A JP2010537286A (en) | 2010-12-02 |
JP2010537286A5 true JP2010537286A5 (en) | 2011-10-13 |
JP5379138B2 JP5379138B2 (en) | 2013-12-25 |
Family
ID=40386710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010521289A Active JP5379138B2 (en) | 2007-08-23 | 2008-08-25 | Creating an area dictionary |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5379138B2 (en) |
CN (1) | CN101836205A (en) |
WO (1) | WO2009026850A1 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665648B2 (en) | 2010-03-29 | 2017-05-30 | Nokia Technologies Oy | Method and apparatus for a user interest topology based on seeded user interest modeling |
CN102236639B (en) * | 2010-04-28 | 2016-08-10 | 三星电子株式会社 | Update the system and method for language model |
CN102411563B (en) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | Method, device and system for identifying target words |
US9069798B2 (en) * | 2012-05-24 | 2015-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method of text classification using discriminative topic transformation |
CN104239285A (en) * | 2013-06-06 | 2014-12-24 | 腾讯科技(深圳)有限公司 | New article chapter detecting method and device |
CN104345899B (en) * | 2013-08-08 | 2018-01-19 | 阿里巴巴集团控股有限公司 | Field conversion method and client for input method |
CN103970730A (en) * | 2014-04-29 | 2014-08-06 | 河海大学 | Method for extracting multiple subject terms from single Chinese text |
AU2016250552A1 (en) * | 2015-04-21 | 2017-11-16 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating concepts from a document corpus |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
CN105956359B (en) * | 2016-04-15 | 2018-06-05 | 陈杰 | A kind of pharmaceutical item title for heterogeneous system compares translation method |
CN106682128A (en) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | Method for automatic establishment of multi-field dictionaries |
CN107704102B (en) * | 2017-10-09 | 2021-08-03 | 北京新美互通科技有限公司 | Text input method and device |
CN113780007A (en) * | 2021-10-22 | 2021-12-10 | 平安科技(深圳)有限公司 | Corpus screening method, intention recognition model optimization method, equipment and storage medium |
CN115858787B (en) * | 2022-12-12 | 2023-08-01 | 交通运输部公路科学研究所 | Hot spot extraction and mining method based on problem appeal information in road transportation |
CN116911321B (en) * | 2023-06-21 | 2024-05-14 | 三峡高科信息技术有限责任公司 | Method and assembly for front-end automatic translation of dictionary values |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2883153B2 (en) * | 1990-04-02 | 1999-04-19 | 株式会社リコー | Keyword extraction device |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
US6651058B1 (en) * | 1999-11-15 | 2003-11-18 | International Business Machines Corporation | System and method of automatic discovery of terms in a document that are relevant to a given target topic |
GB2399427A (en) * | 2003-03-12 | 2004-09-15 | Canon Kk | Apparatus for and method of summarising text |
JP4254623B2 (en) * | 2004-06-09 | 2009-04-15 | 日本電気株式会社 | Topic analysis method, apparatus thereof, and program |
JP5259919B2 (en) * | 2005-07-21 | 2013-08-07 | ダイキン工業株式会社 | Axial fan |
US7813919B2 (en) * | 2005-12-20 | 2010-10-12 | Xerox Corporation | Class description generation for clustering and categorization |
-
2008
- 2008-08-25 JP JP2010521289A patent/JP5379138B2/en active Active
- 2008-08-25 CN CN200880112723A patent/CN101836205A/en active Pending
- 2008-08-25 WO PCT/CN2008/072128 patent/WO2009026850A1/en active Application Filing
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010537286A5 (en) | ||
CN109564575B (en) | Classifying images using machine learning models | |
US9471644B2 (en) | Method and system for scoring texts | |
CN110704621B (en) | Text processing method and device, storage medium and electronic equipment | |
CN111079412A (en) | Text error correction method and device | |
JP5379138B2 (en) | Creating an area dictionary | |
CN107608953B (en) | Word vector generation method based on indefinite-length context | |
WO2012148950A2 (en) | Representing information from documents | |
CN109492217B (en) | Word segmentation method based on machine learning and terminal equipment | |
CN111859932B (en) | Text abstract generation method and device, electronic equipment and storage medium | |
CN104536979B (en) | The generation method and device of topic model, the acquisition methods and device of theme distribution | |
JP5809381B1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
CN109165529B (en) | Dark chain tampering detection method and device and computer readable storage medium | |
CN113887930B (en) | Question-answering robot health evaluation method, device, equipment and storage medium | |
CN105335375B (en) | Topics Crawling method and apparatus | |
CN103020167A (en) | Chinese text classification method for computer | |
CN113011164A (en) | Data quality detection method, device, electronic equipment and medium | |
TWI465949B (en) | Data clustering apparatus and method | |
CN110287302B (en) | Method and system for determining confidence of open source information in national defense science and technology field | |
CN110717029A (en) | Information processing method and system | |
CN107622129B (en) | Method and device for organizing knowledge base and computer storage medium | |
CN112559474B (en) | Log processing method and device | |
CN108154382B (en) | Evaluation device, evaluation method, and storage medium | |
CN112817996A (en) | Illegal keyword library updating method, device, equipment and storage medium | |
AU2021312671B2 (en) | Value over replacement feature (VORF) based determination of feature importance in machine learning |