JP2010537286A5 - - Google Patents

Download PDF

Info

Publication number
JP2010537286A5
JP2010537286A5 JP2010521289A JP2010521289A JP2010537286A5 JP 2010537286 A5 JP2010537286 A5 JP 2010537286A5 JP 2010521289 A JP2010521289 A JP 2010521289A JP 2010521289 A JP2010521289 A JP 2010521289A JP 2010537286 A5 JP2010537286 A5 JP 2010537286A5
Authority
JP
Japan
Prior art keywords
word
topic
candidate
corpus
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010521289A
Other languages
Japanese (ja)
Other versions
JP2010537286A (en
JP5379138B2 (en
Filing date
Publication date
Priority claimed from US11/844,153 external-priority patent/US7917355B2/en
Priority claimed from US11/844,067 external-priority patent/US7983902B2/en
Application filed filed Critical
Priority claimed from PCT/CN2008/072128 external-priority patent/WO2009026850A1/en
Publication of JP2010537286A publication Critical patent/JP2010537286A/en
Publication of JP2010537286A5 publication Critical patent/JP2010537286A5/ja
Application granted granted Critical
Publication of JP5379138B2 publication Critical patent/JP5379138B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (52)

トピック文書コーパスにおける第1のトピック語分布の、文書コーパスにおける第2のトピック語分布に対する比に実質的に比例するトピック相違値を算出するステップと、
前記トピック文書コーパスにおける候補トピック語の第1の分布の、前記文書コーパスにおける前記候補トピック語の第2の分布に対する比に実質的に比例する該候補トピック語に関する候補トピック語相違値を算出するステップと、
前記候補トピック語相違値および前記トピック相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するステップと、
を備え、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであることを特徴とするコンピュータによって実施され
前記候補トピック語は、前記トピックのトピック辞書の中のトピック語のための候補である方法。
Calculating a topic divergence value that is substantially proportional to a ratio of a first topic word distribution in the topic document corpus to a second topic word distribution in the document corpus;
Calculating a candidate topic word divergence value for the candidate topic word that is substantially proportional to a ratio of a first distribution of candidate topic words in the topic document corpus to a second distribution of the candidate topic words in the document corpus. When,
Determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic divergence value;
With
The topic document corpus is a corpus of topic documents related to a topic;
The document corpus is implemented by a computer characterized in that it is a corpus of documents including the topic document and other documents ;
The candidate topic word is, candidate der Ru process for the topic word in a topic dictionary of the topic.
前記トピックのための前記トピック辞書の中の既存の語を、前記トピック相違値が算出されるトピック語として選択するステップをさらに備えることを特徴とする請求項1に記載の方法。 2. The method of claim 1, further comprising selecting an existing word in the topic dictionary for the topic as a topic word for which the topic divergence value is calculated . トピック相違値を算出するステップは、
前記トピックのためのトピック語を選択するステップと、
前記トピック文書コーパスにおける各トピック語の第1の分布の、前記文書コーパスにおける各トピック語の第2の分布に対する比に実質的に比例する前記トピック語のそれぞれに関するトピック語相違値を算出するステップと、
前記トピック語相違値の中心傾向に基づいて、前記トピック相違値を算出するステップと、
を備えることを特徴とする請求項1に記載の方法。
The step of calculating the topic divergence value is:
Selecting a topic word for the topic;
Calculating a topic word divergence value for each of the topic words that is substantially proportional to a ratio of a first distribution of each topic word in the topic document corpus to a second distribution of each topic word in the document corpus; ,
Calculating the topic difference value based on a central tendency of the topic word difference value;
The method of claim 1, comprising:
前記トピック文書コーパスにおける前記候補トピック語の前記第1の分布は、前記トピック文書コーパスにおける前記候補トピック語の分布の、前記分布の対数に基づく値に対する比に比例することを特徴とする請求項1に記載の方法。   2. The first distribution of candidate topic words in the topic document corpus is proportional to a ratio of a distribution of the candidate topic words in the topic document corpus to a value based on a logarithm of the distribution. The method described in 1. 前記候補トピック語が新たなトピック語であるかどうかを判定するステップは、前記候補トピック語相違値が前記トピック相違値より大きい場合、前記候補トピック語が新たなトピック語であると判定するステップを備えることを特徴とする請求項1に記載の方法。   The step of determining whether or not the candidate topic word is a new topic word includes the step of determining that the candidate topic word is a new topic word when the candidate topic word difference value is larger than the topic difference value. The method of claim 1, comprising: 前記候補トピック語が、新たなトピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するステップをさらに備えることを特徴とする請求項1に記載の方法。 2. The method of claim 1, further comprising storing the candidate topic word in the topic dictionary if the candidate topic word is determined to be a new topic word. 前記文書コーパスの中でトピックと関係する文書を識別するステップと、
前記トピックと関係する文書クラスタを生成するステップと、
前記文書クラスタのそれぞれの中の語を識別するステップと、
前記文書クラスタのそれぞれの中の前記識別された語から候補トピック語を選択するステップと、
をさらに備えることを特徴とする請求項1に記載の方法。
Identifying a document related to a topic in the document corpus;
Generating a document cluster related to the topic;
Identifying words in each of the document clusters;
Selecting candidate topic words from the identified words in each of the document clusters;
The method of claim 1, further comprising:
前記文書コーパスの第1のサブセットを備える訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出するステップと、
前記文書コーパスの第2のサブセットを備える開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップと、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー測度を算出するステップと、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー測度を算出するステップと、
前記候補語エントロピー測度が前記既存語エントロピー測度を超えている場合、前記候補語が候補トピック語であると判定するステップと、
をさらに備えることを特徴とする請求項1に記載の方法。
Calculating a first word frequency for existing words in a training corpus comprising a first subset of the document corpus and candidate words defined by a sequence of component words, each of which is an existing word in the dictionary When,
Calculating a second word frequency for the component word and the candidate word in a development corpus comprising a second subset of the document corpus;
Calculating a candidate word entropy measure based on the second word frequency of the candidate word and the first word frequency of the component word and the candidate word;
Calculating an existing word entropy measure based on the second word frequency of the component word and the first word frequency of the component word and the candidate word;
Determining that the candidate word is a candidate topic word if the candidate word entropy measure exceeds the existing word entropy measure;
The method of claim 1, further comprising:
訓練コーパスにおける既存の語および候補語に関する第1の語頻度を算出するステップは、前記訓練コーパスにおける前記既存の語および前記候補語の確率に関する言語モデルを訓練するステップを備え、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップは、前記開発コーパスにおける前記構成要素語および前記候補語のそれぞれに関する語カウント値を算出するステップを備えることを特徴とする請求項8に記載の方法。
Calculating a first word frequency for existing words and candidate words in a training corpus comprises training a language model for the probability of the existing words and candidate words in the training corpus;
The step of calculating the second word frequency relating to the component word and the candidate word in a development corpus includes the step of calculating a word count value relating to each of the component word and the candidate word in the development corpus. The method according to claim 8.
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記候補語エントロピー測度を算出するステップと、
を備え、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記既存語エントロピー測度を算出するステップと、
を備えることを特徴とする請求項9に記載の方法。
Based on the second word frequency of the candidate word, and the first word frequency of the component word and the candidate word, calculating a candidate word entropy measure,
Calculating a first logarithmic value based on the probabilities of the candidate word and the component word;
Calculating the candidate word entropy measure based on the word count value of the candidate word and the first logarithmic value;
With
Based on the second word frequency of the component word and the first word frequency of the component word and the candidate word, calculating an existing word entropy measure,
Calculating a second logarithmic value based on the probability of the candidate word and the component word;
Calculating the existing word entropy measure based on the word count of the component words and the second logarithmic value;
10. The method of claim 9, comprising:
前記候補トピック語は、1つまたは複数のHanzi文字を備えることを特徴とする請求項1に記載の方法。   The method of claim 1, wherein the candidate topic word comprises one or more Hanzi characters. 或るトピックと関係するトピック語を備えるトピック辞書を選択するステップと、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するステップと、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するステップと、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するステップと、
を備え、
前記トピック語は、前記或るトピックと関係し、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係するトピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中のトピック語のための候補であることを特徴とするコンピュータによって実施される方法。
Selecting a topic dictionary comprising topic words related to a topic;
Calculating a topic word divergence value based on the topic word, the document corpus, and the topic document corpus;
Calculating candidate topic word divergence values for candidate topic words based on the document corpus and the topic document corpus;
Determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic word divergence value;
With
The topic word relates to the certain topic;
The document corpus is a corpus of documents including topic documents and other documents;
The topic document corpus, Ri Oh in the corpus of the belt pick document be related to the topic,
Wherein the candidate topic word is performed by a computer, wherein the candidate der Rukoto for topic words in the topic dictionary.
前記候補トピック語が、新たなトピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するステップをさらに備えることを特徴とする請求項12に記載の方法。   13. The method of claim 12, further comprising storing the candidate topic word in the topic dictionary if the candidate topic word is determined to be a new topic word. トピック語相違値を算出するステップは、
前記トピック辞書の中の既存のトピック語を選択するステップと、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記トピック語のそれぞれに関する既存トピック語相違値を算出するステップと、
前記既存トピック語相違値の中心傾向に基づいて、前記トピック語相違値を算出するステップと、
を備えることを特徴とする請求項12に記載の方法。
The step of calculating the topic word divergence value is:
Selecting an existing topic word in the topic dictionary;
Calculating an existing topic word divergence value for each of the topic words based on the document corpus and the topic document corpus;
Calculating the topic word divergence value based on a central tendency of the existing topic word divergence value;
13. The method of claim 12, comprising:
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記候補トピック語に関する候補トピック語相違値を算出するステップは、
前記トピック文書コーパスにおける前記候補トピック語に関連する第1の確率を算出するステップと、
前記文書コーパスにおける前記候補トピック語に関連する第2の確率を算出するステップと、
前記第1の確率の、前記第2の確率と、前記第1の確率に基づく対数値との積に対する比に基づいて、前記候補トピック語相違値を計算するステップと、
を備えることを特徴とする請求項12に記載の方法。
Based on the document corpus and the topic document corpus, calculating a candidate topic word divergence value for the candidate topic word comprises:
Calculating a first probability associated with the candidate topic word in the topic document corpus;
Calculating a second probability associated with the candidate topic word in the document corpus;
Calculating the candidate topic word divergence value based on a ratio of the first probability to a product of the second probability and a logarithmic value based on the first probability;
13. The method of claim 12, comprising:
前記候補トピック語は、1つまたは複数のHanzi文字を備えることを特徴とする請求項12に記載の方法。   13. The method of claim 12, wherein the candidate topic word comprises one or more Hanzi characters. 一時的でないコンピュータ可読媒体の中に格納されたソフトウェアを備える装置であって、
前記ソフトウェアは、コンピュータ可読命令を備え、
前記コンピュータ可読命令は、コンピュータ処理デバイスによって実行可能であり、さらにそのような実行時に、前記コンピュータ処理デバイスに、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出させ、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出させ、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのためのトピック語であるかどうかを判定させ、さらに
前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納させ、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、トピックと関係するトピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中のトピック語のための候補であることを特徴とする装置。
An apparatus comprising software stored in a non-transitory computer readable medium comprising:
The software comprises computer readable instructions,
The computer readable instructions can be executed by a computer processing device, and upon such execution,
Based on the topic word, document corpus, and topic document corpus, the topic word difference value is calculated,
Based on the document corpus and the topic document corpus, a candidate topic word divergence value for a candidate topic word is calculated,
On the basis of the candidate topic word divergence value and the topic word divergence value, the candidate topic word is determined whether the topic word for the topic, further the candidate topic word is determined to be topic word If, to store the candidate topic word in the topic dictionary,
The topic word is a word in a topic dictionary related to the topic;
The document corpus is a corpus of documents including the topic document and other documents;
The topic document corpus, Ri Oh topic corpus of documents related to the topic,
The candidate topic words, and wherein the candidate der Rukoto for topic words in the topic dictionary.
データストアと、
トピック語処理モジュールと、
辞書アップデータモジュールと、
を備え、
前記データストアは、或るトピックと関係するトピック語を備えるトピック辞書を格納し、
前記トピック語処理モジュールは、
或るトピックと関係するトピック辞書の中の語であるトピック語、トピック文書および他の文書を含む文書のコーパスである文書コーパス、および該トピックと関係する該トピック文書のコーパスであるトピック文書コーパスに基づいて、トピック語相違値を算出し、
前記トピック辞書の中のトピック語のための候補として候補トピック語を選択し、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記候補トピック語に関する候補トピック語相違値を算出し、さらに
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのためのトピック語であるかどうかを判定するように構成されており、
前記辞書アップデータモジュールは、前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するように構成されていることを特徴とするシステム。
A data store,
A topic word processing module;
A dictionary updater module;
With
The data store stores a topic dictionary with topic words related to a topic;
The topic word processing module includes:
A topic word that is a word in a topic dictionary related to a topic, a document corpus that is a corpus of documents including topic documents and other documents, and a topic document corpus that is a corpus of the topic documents related to the topic Based on the topic word difference value,
Selecting candidate topic words as candidates for topic words in the topic dictionary ;
Based on the document corpus and the topic document corpus, the calculated candidate topic word divergence value about the candidate topic word, further on the basis of the candidate topic word divergence value and the topic word divergence value, the candidate topic word is the topic Is configured to determine if it is a topic word for
The dictionary updater module is configured to store the candidate topic word in the topic dictionary when it is determined that the candidate topic word is a topic word.
前記トピック語処理モジュールは、
前記トピック文書コーパスにおける前記候補トピック語に関連する第1の確率を算出し、
前記文書コーパスにおける前記候補トピック語に関連する第2の確率を算出し、さらに
前記第1の確率の、前記第2の確率と、前記第1の確率に基づく対数値との積に対する比に基づいて、前記候補トピック語相違値を計算するように構成されていることを特徴とする請求項18に記載のシステム。
The topic word processing module includes:
Calculating a first probability associated with the candidate topic word in the topic document corpus;
Calculating a second probability associated with the candidate topic word in the document corpus, and further based on a ratio of the first probability to a product of the second probability and a logarithmic value based on the first probability 19. The system of claim 18, wherein the system is configured to calculate the candidate topic word divergence value.
トピック文書コーパスに関する相違閾値を算出するステップと、
候補語に関する候補語相違値を算出するステップと、
前記候補語相違値が、前記相違閾値を超えている場合、前記候補語が前記トピックに関するトピック語であると判定するステップと、
を備えており、
前記相違閾値は、トピック文書コーパスにおけるトピック語に関する第1のトピック語確率の、前記文書コーパスにおける前記トピック語に関する第2のトピック語確率に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補語相違値は、前記トピック文書コーパスに関連する候補語に関する第1の候補語確率の、前記文書コーパスに関連する前記候補語に関する第2の候補語確率に対する比に比例することを特徴とする方法。
Calculating a difference threshold for the topic document corpus;
Calculating a candidate word difference value for the candidate word;
Determining that the candidate word is a topic word for the topic if the candidate word divergence value exceeds the difference threshold;
With
The difference threshold is proportional to a ratio of a first topic word probability for a topic word in a topic document corpus to a second topic word probability for the topic word in the document corpus;
The topic document corpus is a corpus of topic documents related to a topic;
The topic word is a word in a topic dictionary related to the topic;
The document corpus is a corpus of documents including the topic document and other documents;
The candidate word divergence value is proportional to a ratio of a first candidate word probability for a candidate word associated with the topic document corpus to a second candidate word probability for the candidate word associated with the document corpus. how to.
トピック相違値を算出するための手段と、
候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するための手段と、
を備え、
前記トピック相違値は、トピック文書コーパスにおける第1のトピック語分布の、文書コーパスにおける第2のトピック語分布に対する比に実質的に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補トピック語相違値は、前記トピック文書コーパスにおける候補トピック語の第1の分布の、前記文書コーパスにおける前記候補トピック語の第2の分布に対する比に実質的に比例し、
前記候補トピック語は、前記トピックのトピック辞書の中のトピック語のための候補であることを特徴とするシステム。
Means for calculating the topic divergence value;
Means for calculating a candidate topic word divergence value for the candidate topic word;
Means for determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic divergence value;
With
The topic divergence value is substantially proportional to the ratio of the first topic word distribution in the topic document corpus to the second topic word distribution in the document corpus;
The topic document corpus is a corpus of topic documents related to a topic;
The document corpus is a corpus of documents including the topic document and other documents;
The candidate topic word divergence value is substantially proportional to a ratio of a first distribution of candidate topic words in the topic document corpus to a second distribution of candidate topic words in the document corpus ;
The candidate topic word, the system characterized by candidate der Rukoto for topic words in the topic dictionary of the topic.
或るトピックと関係するトピック語を備えるトピック辞書を選択するための手段と、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するための手段と、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するための手段と、
を備え、
前記トピック語は、前記トピック辞書の中の語であり、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係する該トピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中のトピック語のための候補であることを特徴とするシステム。
Means for selecting a topic dictionary comprising topic words related to a topic;
Means for calculating a topic word divergence value based on the topic word, the document corpus, and the topic document corpus;
Means for calculating a candidate topic word divergence value for a candidate topic word based on the document corpus and the topic document corpus;
Means for determining whether the candidate topic word is a new topic word for the topic based on the candidate topic word divergence value and the topic word divergence value;
With
The topic word is a word in the topic dictionary ,
The document corpus is a corpus of documents including topic documents and other documents;
The topic document corpus, Ri Oh in the corpus of the topic documents related to the topic,
The candidate topic word, the system characterized by candidate der Rukoto for topic words in the topic dictionary.
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するための手段と、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語がトピック語であるかどうかを判定するための手段と、
前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するための手段と、
を備え、
前記トピック語は、或るトピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係する該トピック文書のコーパスであり、
前記候補トピック語は、前記トピック辞書の中の語のための候補であることを特徴とするコンピュータ処理デバイス。
Means for calculating a topic word divergence value based on the topic word, the document corpus, and the topic document corpus;
Means for calculating a candidate topic word divergence value for a candidate topic word based on the document corpus and the topic document corpus;
Means for determining whether the candidate topic word is a topic word based on the candidate topic word divergence value and the topic word divergence value;
If the candidate topic word is determined to be a topic word, and means for storing the candidate topic word in the topic dictionary,
With
The topic word is a word in a topic dictionary related to a topic,
The document corpus is a corpus of documents including topic documents and other documents;
The topic document corpus, Ri Oh in the corpus of the topic documents related to the topic,
The candidate topic words, computing device, wherein the candidate der Rukoto for words in the topic dictionary.
トピック文書コーパスに関する相違閾値を算出するための手段と、
候補語に関する候補語相違値を算出するための手段と、
前記候補語相違値が前記相違閾値を超えている場合、前記候補語が前記トピックに関するトピック語であると判定するための手段と、
を備え、
前記相違閾値は、トピック語に関する第1のトピック語確率の、文書コーパスにおける前記トピック語に関する第2のトピック語確率に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補語相違値は、前記トピック文書コーパスに関連する候補語に関する第1の候補語確率の、前記文書コーパスに関連する前記候補語に関する第2の候補語確率に対する比に比例することを特徴とするシステム。
Means for calculating a difference threshold for the topic document corpus;
Means for calculating a candidate word difference value for the candidate word;
Means for determining that the candidate word is a topic word for the topic if the candidate word divergence value exceeds the difference threshold;
With
The difference threshold is proportional to a ratio of a first topic word probability for a topic word to a second topic word probability for the topic word in a document corpus;
The topic document corpus is a corpus of topic documents related to a topic;
The topic word is a word in a topic dictionary related to the topic;
The document corpus is a corpus of documents including the topic document and other documents;
The candidate word divergence value is proportional to a ratio of a first candidate word probability for a candidate word associated with the topic document corpus to a second candidate word probability for the candidate word associated with the document corpus. System.
訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出するステップと、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップと、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー関連測度を算出するステップと、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー関連測度を算出するステップと、
前記候補語エントロピー関連測度が前記既存語エントロピー関連測度を超えている場合、前記候補語が新たな語であると判定するステップと、
を備えることを特徴とするコンピュータによって実施される方法。
Calculating a first word frequency for existing words in the training corpus and candidate words defined by a sequence of component words, each of which is an existing word in the dictionary;
Calculating a second word frequency for the component word and the candidate word in a development corpus;
Calculating a candidate word entropy-related measure based on the second word frequency of the candidate word and the first word frequency of the component word and the candidate word;
Calculating an existing word entropy-related measure based on the second word frequency of the component word and the first word frequency of the component word and the candidate word;
Determining that the candidate word is a new word if the candidate word entropy related measure exceeds the existing word entropy related measure;
A computer-implemented method comprising:
前記訓練コーパスおよび前記開発コーパスは、ウェブ文書を備えることを特徴とする請求項25に記載の方法。   26. The method of claim 25, wherein the training corpus and the development corpus comprise web documents. 前記候補語が、新たな語であると判定された場合、前記候補語を既存の語の辞書に追加するステップをさらに備えることを特徴とする請求項25に記載の方法。   26. The method of claim 25, further comprising adding the candidate word to an existing word dictionary if the candidate word is determined to be a new word. 第1の語頻度を算出するステップは、前記訓練コーパスにおける前記既存の語および前記候補語の確率に関する言語モデルを訓練するステップを備え、
第2の語頻度を算出するステップは、前記開発コーパスにおける前記構成要素語および前記候補語のそれぞれに関する語カウント値を算出するステップを備えることを特徴とする請求項25に記載の方法。
Calculating a first word frequency comprises training a language model for the probabilities of the existing word and the candidate word in the training corpus;
26. The method of claim 25, wherein calculating a second word frequency comprises calculating a word count value for each of the component words and the candidate words in the development corpus.
候補語エントロピー関連測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記候補語エントロピー関連測度を算出するステップと、
を備え、さらに
既存語エントロピー関連測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記既存語エントロピー関連測度を算出するステップと、
を備えることを特徴とする請求項25に記載の方法。
The step of calculating candidate word entropy-related measures is:
Calculating a first logarithmic value based on the probabilities of the candidate word and the component word;
Calculating the candidate word entropy-related measure based on the word count value of the candidate word and the first logarithmic value;
And calculating the existing word entropy-related measure comprises:
Calculating a second logarithmic value based on the probability of the candidate word and the component word;
Calculating the existing word entropy-related measure based on the word count of the component words and the second logarithmic value;
26. The method of claim 25, comprising:
前記語はそれぞれ、1つまたは複数のHanzi文字を備えることを特徴とする請求項25に記載の方法。   26. The method of claim 25, wherein each word comprises one or more Hanzi characters. 前記語はそれぞれ、1つまたは複数の表語文字を備えることを特徴とする請求項25に記載の方法。   26. The method of claim 25, wherein each word comprises one or more ideographic characters. 前記候補語が、新たな語であると判定された場合、前記辞書を前記候補語で更新するステップをさらに備えることを特徴とする請求項25に記載の方法。   26. The method of claim 25, further comprising the step of updating the dictionary with the candidate word if the candidate word is determined to be a new word. 第1のコーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語確率を算出するステップと、
第2のコーパスにおける前記構成要素語および前記候補語に関する第2の語確率を算出するステップと、
前記第2の候補語確率、および前記候補語のおよび前記構成要素語の前記第1の語確率に基づいて、第1のエントロピー関連値を算出するステップと、
前記第2の構成要素語確率、および前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2のエントロピー関連値を算出するステップと、
前記第1のエントロピー関連値が前記第2のエントロピー関連値を超えている場合、前記候補語が新たな語であると判定するステップと、
を備えることを特徴とするコンピュータによって実施される方法。
Calculating a first word probability for a candidate word defined by an existing word in the first corpus and a sequence of component words, each of which is an existing word in the dictionary;
Calculating a second word probability for the component word and the candidate word in a second corpus;
Calculating a first entropy-related value based on the second candidate word probability and the first word probability of the candidate word and of the component word;
Calculating a second entropy-related value based on the second component word probability and the first word probability of the candidate word and the component word;
Determining that the candidate word is a new word if the first entropy related value exceeds the second entropy related value;
A computer-implemented method comprising:
語コーパスを識別するステップは、ウェブ文書を識別するステップを備えることを特徴とする請求項33に記載の方法。   The method of claim 33, wherein identifying a word corpus comprises identifying a web document. 第1の語確率を算出するステップは、前記第1のコーパスにおける前記既存の語および前記候補語の語確率に関して前記第1のコーパス上で言語モデルを訓練するステップを備え、さらに
第2の語確率を算出するステップは、前記構成要素語および候補語のそれぞれに関して語カウント値を算出するステップを備えることを特徴とする請求項33に記載の方法。
The step of calculating a first word probability comprises training a language model on the first corpus with respect to the word probabilities of the existing word and the candidate word in the first corpus, and further comprising a second word 34. The method of claim 33, wherein calculating the probability comprises calculating a word count value for each of the component words and candidate words.
第1のエントロピー関連値を算出するステップは、
前記候補語および前記構成要素語の前記第1の語確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記第1のエントロピー関連値を算出するステップと、
を備え、
第2のエントロピー関連値を算出するステップは、
前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記第2のエントロピー関連値を算出するステップと、
を備えることを特徴とする請求項35に記載の方法。
The step of calculating the first entropy-related value is:
Calculating a first logarithmic value based on the first word probabilities of the candidate word and the component word;
Calculating the first entropy-related value based on the word count value of the candidate word and the first logarithmic value;
With
The step of calculating the second entropy related value is:
Calculating a second logarithmic value based on the first word probabilities of the candidate word and the component word;
Calculating the second entropy-related value based on the word count of the component word and the second logarithmic value;
36. The method of claim 35, comprising:
前記語はそれぞれ、1つまたは複数のHanzi文字を備えることを特徴とする請求項33に記載の方法。   34. The method of claim 33, wherein each word comprises one or more Hanzi characters. ウェブ文書のコレクションを訓練コーパスと開発コーパスに分割するステップと、
前記訓練コーパスにおける語の第1の語確率に関して前記訓練コーパス上で言語モデルを訓練するステップと、
前記開発コーパスにおける前記候補語および前記2つ以上の対応する語の出現回数をカウントするステップと、
前記開発コーパスにおける前記候補語の前記出現回数、および前記第1の語確率に基づいて、第1の値を算出するステップと、
前記開発コーパスにおける前記2つ以上の対応する語の前記出現回数、および前記第1の語確率に基づいて、第2の値を算出するステップと、
前記第1の値を前記第2の値と比較するステップと、
前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するステップと、
を備え、
前記訓練コーパスにおける語は、辞書の中の既存の語である前記訓練コーパスの中の2つ以上の対応する語の系列によって定義される候補語を含むことを特徴とするコンピュータによって実施される方法。
Dividing a collection of web documents into a training corpus and a development corpus;
Training a language model on the training corpus with respect to a first word probability of words in the training corpus;
Counting the number of occurrences of the candidate word and the two or more corresponding words in the development corpus;
Calculating a first value based on the number of occurrences of the candidate word in the development corpus and the first word probability;
Calculating a second value based on the number of occurrences of the two or more corresponding words in the development corpus and the first word probability;
Comparing the first value to the second value;
Determining whether the candidate word is a new word based on the comparison;
With
The computer-implemented method, wherein words in the training corpus include candidate words defined by a sequence of two or more corresponding words in the training corpus that are existing words in a dictionary .
前記候補語が新たな語であると判定された場合、前記候補語を前記辞書に追加するステップをさらに備えることを特徴とする請求項38に記載の方法。   39. The method of claim 38, further comprising adding the candidate word to the dictionary if the candidate word is determined to be a new word. 前記訓練コーパスにおける語の第1の語確率に関して前記訓練コーパス上で言語モデルを訓練するステップは、nグラム言語モデルを訓練するステップを備えることを特徴とする請求項38に記載の方法。   40. The method of claim 38, wherein training a language model on the training corpus with respect to a first word probability of words in the training corpus comprises training an n-gram language model. 前記開発コーパスにおける前記候補語の前記出現回数、および前記第1の語確率に基づいて、第1の値を算出するステップは、
前記候補語に関する前記第1の語確率、および前記2つ以上の対応する語の前記第1の語確率に基づいて、第1の対数値を算出するステップと、
前記第1の対数値に前記候補語の前記カウントされた出現回数を掛けるステップと、
を備え、さらに
前記開発コーパスにおける前記2つ以上の対応する語、および前記第1の語確率に基づいて、第2の値を算出するステップは、
前記候補語の前記第1の語確率、および前記2つ以上の対応する語の前記第1の語確率に基づいて、第2の対数値を算出するステップと、
前記第2の対数値に前記2つ以上の対応する語の前記カウントされた出現回数を掛けるステップと、
を備えることを特徴とする請求項40に記載の方法。
Based on the number of occurrences of the candidate word in the development corpus and the first word probability, calculating the first value,
Calculating a first logarithmic value based on the first word probability for the candidate word and the first word probability of the two or more corresponding words;
Multiplying the first logarithm value by the counted number of occurrences of the candidate word;
And calculating the second value based on the two or more corresponding words in the development corpus and the first word probability,
Calculating a second logarithmic value based on the first word probability of the candidate word and the first word probability of the two or more corresponding words;
Multiplying the second logarithm value by the counted number of occurrences of the two or more corresponding words;
41. The method of claim 40, comprising:
前記語はそれぞれ、1つまたは複数のHanzi文字を備えることを特徴とする請求項41に記載の方法。   42. The method of claim 41, wherein each of the words comprises one or more Hanzi characters. コンピュータ可読媒体の中に格納されているコンピュータ命令を備え、該コンピュータ命令がコンピュータデバイスによって実行されると、語コーパスにアクセスして、該語コーパスを訓練コーパスと開発コーパスに分割し、さらに、
2つ以上の対応する語を備える候補語を含む、前記訓練コーパスの中に格納された語に関する第1の語確率と、
前記開発コーパスにおける前記語に関する第2の語確率と、
を生成するように構成されている語処理モジュールと、
コンピュータ可読媒体の中に格納されているコンピュータ命令を備え、該コンピュータ命令がコンピュータデバイスによって実行されると、前記第1の語確率、および前記第2の語確率を処理し、さらに、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記候補語に関する前記第2の語確率に基づく第1の値、および、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記2つ以上の対応する語に関する前記第2の語確率に基づく第2の値と、
を生成するように構成されている新語アナライザモジュールと、
を具備し、
前記第1の値を前記第2の値と比較し、前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するようにさらに構成されていることを特徴とするシステム。
Comprising computer instructions stored in a computer readable medium, wherein when the computer instructions are executed by a computing device, the word corpus is accessed and the word corpus is divided into a training corpus and a development corpus;
A first word probability for words stored in the training corpus comprising candidate words comprising two or more corresponding words;
A second word probability for the word in the development corpus;
A word processing module configured to generate
Comprising computer instructions stored in a computer-readable medium, and when the computer instructions are executed by a computing device, processing the first word probability and the second word probability;
The first word probability for the candidate word and the two or more corresponding words, and a first value based on the second word probability for the candidate word; and
A second value based on the first word probability for the candidate word and the two or more corresponding words, and the second word probability for the two or more corresponding words;
A new word analyzer module configured to generate
Comprising
The system is further configured to compare the first value with the second value and determine whether the candidate word is a new word based on the comparison.
コンピュータ可読媒体の中に格納され、さらにコンピュータデバイスによって実行されると、辞書を識別された新たな語で更新するように構成されるコンピュータ命令を備える辞書アップデータモジュールをさらに備えていることを特徴とする請求項43に記載のシステム。   A dictionary updater module comprising computer instructions stored in a computer readable medium and further configured to update the dictionary with the identified new word when executed by a computing device. 44. The system of claim 43. 前記語処理モジュールは、nグラム言語モデルを備えていることを特徴とする請求項43に記載のシステム。   44. The system of claim 43, wherein the word processing module comprises an n-gram language model. 前記第1の値および前記第2の値は、エントロピー関連値であることを特徴とする請求項43に記載のシステム。   44. The system of claim 43, wherein the first value and the second value are entropy related values. 前記語コーパスは、ウェブ文書を備えていることを特徴とする請求項44に記載のシステム。   45. The system of claim 44, wherein the word corpus comprises a web document. 前記語処理モジュールは、Hanzi文字処理モジュールを備えていることを特徴とする請求項43に記載のシステム。   44. The system of claim 43, wherein the word processing module comprises a Hanzi character processing module. 各語は、1つまたは複数のHanzi文字を備えていることを特徴とする請求項48に記載のシステム。   49. The system of claim 48, wherein each word comprises one or more Hanzi characters. コンピュータ可読媒体の中に格納されたソフトウェアを備える装置であって、
前記ソフトウェアは、コンピュータ処理デバイスによって実行可能であるコンピュータ可読命令を有し、
該コンピュータ可読命令が実行されると、前記コンピュータ処理デバイスに、
訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出させ、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出させ、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー関連測度を算出させ、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー関連測度を算出させ、さらに
前記候補語エントロピー関連測度が前記既存語エントロピー関連測度を超えている場合、前記候補語が新たな語であると判定させることを特徴とする装置。
An apparatus comprising software stored in a computer readable medium,
The software comprises computer readable instructions that are executable by a computer processing device;
When the computer readable instructions are executed, the computer processing device includes:
Calculating a first word frequency for a candidate word defined by an existing word in the training corpus and a sequence of component words, each of which is an existing word in the dictionary;
Calculating a second word frequency for the component word and the candidate word in a development corpus;
Based on the second word frequency of the candidate word and the first word frequency of the component word and the candidate word, a candidate word entropy-related measure is calculated,
Based on the second word frequency of the component word and the first word frequency of the component word and the candidate word, an existing word entropy related measure is calculated, and the candidate word entropy related measure is The apparatus, wherein if the existing word entropy-related measure is exceeded, the candidate word is determined to be a new word.
第1のコーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語によって定義される候補語に関する第1の語確率を算出するための手段と、
第2のコーパスにおける前記構成要素語および前記候補語に関する第2の語確率を算出するための手段と、
前記候補語の前記第2の語確率、ならびに前記候補語および前記構成要素語の前記第1の語確率に基づいて、第1のエントロピー関連値を算出するための手段と、
前記構成要素語の前記第2の語確率、ならびに前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2のエントロピー関連値を算出するための手段と、
前記第1のエントロピー関連値と前記第2のエントロピー関連値の間の比較に基づいて、候補語が新たな語であるかどうかを判定するための手段と、
を備えることを特徴とするシステム。
Means for calculating a first word probability for existing words in the first corpus and candidate words defined by component words, each of which is an existing word in the dictionary;
Means for calculating a second word probability for the component word and the candidate word in a second corpus;
Means for calculating a first entropy-related value based on the second word probability of the candidate word and the first word probability of the candidate word and the component word;
Means for calculating a second entropy-related value based on the second word probability of the component word and the first word probability of the candidate word and the component word;
Means for determining whether a candidate word is a new word based on a comparison between the first entropy related value and the second entropy related value;
A system comprising:
語コーパスにアクセスして、さらに該語コーパスを訓練コーパスと開発コーパスに分割するとともに、
2つ以上の対応する語を備える候補語を含む、前記訓練コーパスの中に格納された語に関する第1の語確率と、
前記開発コーパスにおける前記語に関する第2の語確率と、
を生成するように構成されている語処理手段と、
前記第1の語確率および前記第2の語確率を受け取るとともに、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記候補語に関する前記第2の語確率に基づく第1の値と、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記2つ以上の対応する語に関する前記第2の語確率に基づく第2の値と、
を生成するように構成されている新語アナライザ手段と、
を備え、
前記第1の値と前記第2の値を比較して、前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するようにさらに構成されていることを特徴とするシステム。
Accessing the word corpus and further dividing the word corpus into a training corpus and a development corpus;
A first word probability for words stored in the training corpus comprising candidate words comprising two or more corresponding words;
A second word probability for the word in the development corpus;
A word processing means configured to generate
Receiving the first word probability and the second word probability;
A first value based on the first word probability for the candidate word and the two or more corresponding words, and a first value based on the second word probability for the candidate word;
A second value based on the first word probability for the candidate word and the two or more corresponding words, and the second word probability for the two or more corresponding words;
A new word analyzer means configured to generate
With
The system is further configured to compare the first value and the second value and determine whether the candidate word is a new word based on the comparison.
JP2010521289A 2007-08-23 2008-08-25 Creating an area dictionary Active JP5379138B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11/844,153 US7917355B2 (en) 2007-08-23 2007-08-23 Word detection
US11/844,067 2007-08-23
US11/844,067 US7983902B2 (en) 2007-08-23 2007-08-23 Domain dictionary creation by detection of new topic words using divergence value comparison
US11/844,153 2007-08-23
PCT/CN2008/072128 WO2009026850A1 (en) 2007-08-23 2008-08-25 Domain dictionary creation

Publications (3)

Publication Number Publication Date
JP2010537286A JP2010537286A (en) 2010-12-02
JP2010537286A5 true JP2010537286A5 (en) 2011-10-13
JP5379138B2 JP5379138B2 (en) 2013-12-25

Family

ID=40386710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010521289A Active JP5379138B2 (en) 2007-08-23 2008-08-25 Creating an area dictionary

Country Status (3)

Country Link
JP (1) JP5379138B2 (en)
CN (1) CN101836205A (en)
WO (1) WO2009026850A1 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665648B2 (en) 2010-03-29 2017-05-30 Nokia Technologies Oy Method and apparatus for a user interest topology based on seeded user interest modeling
CN102236639B (en) * 2010-04-28 2016-08-10 三星电子株式会社 Update the system and method for language model
CN102411563B (en) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 Method, device and system for identifying target words
US9069798B2 (en) * 2012-05-24 2015-06-30 Mitsubishi Electric Research Laboratories, Inc. Method of text classification using discriminative topic transformation
CN104239285A (en) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 New article chapter detecting method and device
CN104345899B (en) * 2013-08-08 2018-01-19 阿里巴巴集团控股有限公司 Field conversion method and client for input method
CN103970730A (en) * 2014-04-29 2014-08-06 河海大学 Method for extracting multiple subject terms from single Chinese text
AU2016250552A1 (en) * 2015-04-21 2017-11-16 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating concepts from a document corpus
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
CN105956359B (en) * 2016-04-15 2018-06-05 陈杰 A kind of pharmaceutical item title for heterogeneous system compares translation method
CN106682128A (en) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 Method for automatic establishment of multi-field dictionaries
CN107704102B (en) * 2017-10-09 2021-08-03 北京新美互通科技有限公司 Text input method and device
CN113780007A (en) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 Corpus screening method, intention recognition model optimization method, equipment and storage medium
CN115858787B (en) * 2022-12-12 2023-08-01 交通运输部公路科学研究所 Hot spot extraction and mining method based on problem appeal information in road transportation
CN116911321B (en) * 2023-06-21 2024-05-14 三峡高科信息技术有限责任公司 Method and assembly for front-end automatic translation of dictionary values

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2883153B2 (en) * 1990-04-02 1999-04-19 株式会社リコー Keyword extraction device
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6651058B1 (en) * 1999-11-15 2003-11-18 International Business Machines Corporation System and method of automatic discovery of terms in a document that are relevant to a given target topic
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
JP4254623B2 (en) * 2004-06-09 2009-04-15 日本電気株式会社 Topic analysis method, apparatus thereof, and program
JP5259919B2 (en) * 2005-07-21 2013-08-07 ダイキン工業株式会社 Axial fan
US7813919B2 (en) * 2005-12-20 2010-10-12 Xerox Corporation Class description generation for clustering and categorization

Similar Documents

Publication Publication Date Title
JP2010537286A5 (en)
CN109564575B (en) Classifying images using machine learning models
US9471644B2 (en) Method and system for scoring texts
CN110704621B (en) Text processing method and device, storage medium and electronic equipment
CN111079412A (en) Text error correction method and device
JP5379138B2 (en) Creating an area dictionary
CN107608953B (en) Word vector generation method based on indefinite-length context
WO2012148950A2 (en) Representing information from documents
CN109492217B (en) Word segmentation method based on machine learning and terminal equipment
CN111859932B (en) Text abstract generation method and device, electronic equipment and storage medium
CN104536979B (en) The generation method and device of topic model, the acquisition methods and device of theme distribution
JP5809381B1 (en) Natural language processing system, natural language processing method, and natural language processing program
CN109165529B (en) Dark chain tampering detection method and device and computer readable storage medium
CN113887930B (en) Question-answering robot health evaluation method, device, equipment and storage medium
CN105335375B (en) Topics Crawling method and apparatus
CN103020167A (en) Chinese text classification method for computer
CN113011164A (en) Data quality detection method, device, electronic equipment and medium
TWI465949B (en) Data clustering apparatus and method
CN110287302B (en) Method and system for determining confidence of open source information in national defense science and technology field
CN110717029A (en) Information processing method and system
CN107622129B (en) Method and device for organizing knowledge base and computer storage medium
CN112559474B (en) Log processing method and device
CN108154382B (en) Evaluation device, evaluation method, and storage medium
CN112817996A (en) Illegal keyword library updating method, device, equipment and storage medium
AU2021312671B2 (en) Value over replacement feature (VORF) based determination of feature importance in machine learning