JP5379138B2 - 領域辞書の作成 - Google Patents
領域辞書の作成 Download PDFInfo
- Publication number
- JP5379138B2 JP5379138B2 JP2010521289A JP2010521289A JP5379138B2 JP 5379138 B2 JP5379138 B2 JP 5379138B2 JP 2010521289 A JP2010521289 A JP 2010521289A JP 2010521289 A JP2010521289 A JP 2010521289A JP 5379138 B2 JP5379138 B2 JP 5379138B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- topic
- candidate
- corpus
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Description
T=(1+t)・S
に従ってトピック相違値をスケール変更することができ、ただし、Tは、スケール変更されたトピック相違値であり、tは、実数であり、さらにSは、トピック相違値である。
101 インプットメソッドエディタコード
102 処理デバイス
103 インプットメソッドエディタインスタンス
104 データストア
105 アプリケーションソフトウェア
106 データストア
107 アプリケーションインスタンス
108 入力デバイス
110 出力デバイス
112 ネットワークインタフェース
114 バスシステム
116 ネットワーク
118 コンピューティングシステム
120 インプットメソッドエディタシステム
122 インプットメソッドエディタエンジン
124 辞書
126 構成入力データストア
128 辞書エントリ
200 語検出システム
202 ワイドエリアネットワーク
204 語コーパス
206 語処理モジュール
208 新語アナライザモジュール
210 辞書アップデータモジュール
212 パーティションデータストア
214 ウェブ文書
216 電子通信
218 データストア
220 語ソース
232 訓練コーパス
234 開発コーパス
700 トピック語識別システム
702 トピック分類モジュール
704 トピック語処理モジュール
706 辞書アップデータモジュール
708 トピック辞書
710 文書コーパス
712 新たな語
714 トピック
722 クラスタ化モジュール
724 重心モジュール
726 類似度モジュール
732 相違値モジュール
734 閾値評価モジュール
Claims (52)
- トピック文書コーパスにおける第1のトピック語分布の、文書コーパスにおける第2のトピック語分布に対する比に比例するトピック相違値を算出するステップと、
前記トピック文書コーパスにおける候補トピック語の第1の分布の、前記文書コーパスにおける前記候補トピック語の第2の分布に対する比に比例する該候補トピック語に関する候補トピック語相違値を算出するステップと、
前記候補トピック語相違値および前記トピック相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するステップと、
を備え、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであることを特徴とするコンピュータによって実施され、
前記候補トピック語は、前記トピックのためのトピック辞書に存在しない語であるとともに、前記トピックのための新たなトピック語として識別され前記トピック辞書への格納対象の語となるための候補であることを特徴とする方法。 - 前記トピックのための前記トピック辞書の中の既存の語を、前記トピック相違値が算出されるトピック語として選択するステップをさらに備えることを特徴とする請求項1に記載の方法。
- トピック相違値を算出するステップは、
前記トピックのためのトピック語を選択するステップと、
前記トピック文書コーパスにおける各トピック語の第1の分布の、前記文書コーパスにおける各トピック語の第2の分布に対する比に比例する前記トピック語のそれぞれに関するトピック語相違値を算出するステップと、
前記トピック語相違値の中心傾向に基づいて、前記トピック相違値を算出するステップと、
を備えることを特徴とする請求項1に記載の方法。 - 前記トピック文書コーパスにおける前記候補トピック語の前記第1の分布は、前記トピック文書コーパスにおける前記候補トピック語の分布の、前記分布の対数に基づく値に対する比に比例することを特徴とする請求項1に記載の方法。
- 前記候補トピック語が新たなトピック語であるかどうかを判定するステップは、前記候補トピック語相違値が前記トピック相違値より大きい場合、前記候補トピック語が新たなトピック語であると判定するステップを備えることを特徴とする請求項1に記載の方法。
- 前記候補トピック語が、新たなトピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 前記文書コーパスの中でトピックと関係する文書を識別するステップと、
前記トピックと関係する文書クラスタを生成するステップと、
前記文書クラスタのそれぞれの中の語を識別するステップと、
前記文書クラスタのそれぞれの中の前記識別された語から候補トピック語を選択するステップと、
をさらに備えることを特徴とする請求項1に記載の方法。 - 前記文書コーパスの第1のサブセットを備える訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出するステップと、
前記文書コーパスの第2のサブセットを備える開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップと、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー測度を算出するステップと、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー測度を算出するステップと、
前記候補語エントロピー測度が前記既存語エントロピー測度を超えている場合、前記候補語が候補トピック語であると判定するステップと、
をさらに備えることを特徴とする請求項1に記載の方法。 - 訓練コーパスにおける既存の語および候補語に関する第1の語頻度を算出するステップは、前記訓練コーパスにおける前記既存の語および前記候補語の確率に関する言語モデルを訓練するステップを備え、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップは、前記開発コーパスにおける前記構成要素語および前記候補語のそれぞれに関する語カウント値を算出するステップを備えることを特徴とする請求項8に記載の方法。 - 前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記候補語エントロピー測度を算出するステップと、
を備え、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント値、および前記第2の対数値に基づいて、前記既存語エントロピー測度を算出するステップと、
を備えることを特徴とする請求項9に記載の方法。 - 前記候補トピック語は、1つまたは複数のHanzi文字を備えることを特徴とする請求項1に記載の方法。
- 或るトピックと関係するトピック語を備えるトピック辞書を選択するステップと、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するステップと、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するステップと、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するステップと、
を備え、
前記トピック語は、前記或るトピックと関係し、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係するトピック文書のコーパスであり、
前記候補トピック語は、前記トピックのためのトピック辞書に存在しない語であるとともに、前記トピックのための新たなトピック語として識別され前記トピック辞書への格納対象の語となるための候補であることを特徴とするコンピュータによって実施される方法。 - 前記候補トピック語が、新たなトピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するステップをさらに備えることを特徴とする請求項12に記載の方法。
- トピック語相違値を算出するステップは、
前記トピック辞書の中の既存のトピック語を選択するステップと、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記トピック語のそれぞれに関する既存トピック語相違値を算出するステップと、
前記既存トピック語相違値の中心傾向に基づいて、前記トピック語相違値を算出するステップと、
を備えることを特徴とする請求項12に記載の方法。 - 前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記候補トピック語に関する候補トピック語相違値を算出するステップは、
前記トピック文書コーパスにおける前記候補トピック語に関連する第1の確率を算出するステップと、
前記文書コーパスにおける前記候補トピック語に関連する第2の確率を算出するステップと、
前記第1の確率の、前記第2の確率と、前記第1の確率に基づく対数値との積に対する比に基づいて、前記候補トピック語相違値を計算するステップと、
を備えることを特徴とする請求項12に記載の方法。 - 前記候補トピック語は、1つまたは複数のHanzi文字を備えることを特徴とする請求項12に記載の方法。
- 一時的でないコンピュータ可読媒体の中に格納されたソフトウェアを備える装置であって、
前記ソフトウェアは、コンピュータ可読命令を備え、
前記コンピュータ可読命令は、コンピュータ処理デバイスによって実行可能であり、さらにそのような実行時に、前記コンピュータ処理デバイスに、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出させ、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出させ、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのためのトピック語であるかどうかを判定させ、さらに
前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語をトピック辞書の中に格納させ、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、トピックと関係するトピック文書のコーパスであり、
前記候補トピック語は、前記トピックのためのトピック辞書に存在しない語であるとともに、前記トピックのための新たなトピック語として識別され前記トピック辞書への格納対象の語となるための候補であることを特徴とする装置。 - データストアと、
トピック語処理モジュールと、
辞書アップデータモジュールと、
を備え、
前記データストアは、或るトピックと関係するトピック語を備えるトピック辞書を格納し、
前記トピック語処理モジュールは、
或るトピックと関係するトピック辞書の中の語であるトピック語、トピック文書および他の文書を含む文書のコーパスである文書コーパス、および該トピックと関係する該トピック文書のコーパスであるトピック文書コーパスに基づいて、トピック語相違値を算出し、
前記トピック辞書の中のトピック語のための候補として候補トピック語を選択し、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、前記候補トピック語に関する候補トピック語相違値を算出し、さらに
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのためのトピック語であるかどうかを判定するように構成されており、
前記辞書アップデータモジュールは、前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するように構成されていることを特徴とするシステム。 - 前記トピック語処理モジュールは、
前記トピック文書コーパスにおける前記候補トピック語に関連する第1の確率を算出し、
前記文書コーパスにおける前記候補トピック語に関連する第2の確率を算出し、さらに
前記第1の確率の、前記第2の確率と、前記第1の確率に基づく対数値との積に対する比に基づいて、前記候補トピック語相違値を計算するように構成されていることを特徴とする請求項18に記載のシステム。 - トピック文書コーパスに関する相違閾値を算出するステップと、
候補語に関する候補語相違値を算出するステップと、
前記候補語相違値が、前記相違閾値を超えている場合、前記候補語が前記トピックに関するトピック語であると判定するステップと、
を備えており、
前記相違閾値は、トピック文書コーパスにおけるトピック語に関する第1のトピック語確率の、前記文書コーパスにおける前記トピック語に関する第2のトピック語確率に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補語相違値は、前記トピック文書コーパスに関連する候補語に関する第1の候補語確率の、前記文書コーパスに関連する前記候補語に関する第2の候補語確率に対する比に比例することを特徴とする方法。 - トピック相違値を算出するための手段と、
候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するための手段と、
を備え、
前記トピック相違値は、トピック文書コーパスにおける第1のトピック語分布の、文書コーパスにおける第2のトピック語分布に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補トピック語相違値は、前記トピック文書コーパスにおける候補トピック語の第1の分布の、前記文書コーパスにおける前記候補トピック語の第2の分布に対する比に比例し、
前記候補トピック語は、前記トピックのためのトピック辞書に存在しない語であるとともに、前記トピックのための新たなトピック語として識別され前記トピック辞書への格納対象の語となるための候補であることを特徴とするシステム。 - 或るトピックと関係するトピック語を備えるトピック辞書を選択するための手段と、
トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するための手段と、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語が前記トピックのための新たなトピック語であるかどうかを判定するための手段と、
を備え、
前記トピック語は、前記トピック辞書の中の語であり、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係する該トピック文書のコーパスであり、
前記候補トピック語は、前記トピックのためのトピック辞書に存在しない語であるとともに、前記トピックのための新たなトピック語として識別され前記トピック辞書への格納対象の語となるための候補であることを特徴とするシステム。 - トピック語、文書コーパス、およびトピック文書コーパスに基づいて、トピック語相違値を算出するための手段と、
前記文書コーパスおよび前記トピック文書コーパスに基づいて、候補トピック語に関する候補トピック語相違値を算出するための手段と、
前記候補トピック語相違値および前記トピック語相違値に基づいて、前記候補トピック語がトピック語であるかどうかを判定するための手段と、
前記候補トピック語が、トピック語であると判定された場合、前記候補トピック語を前記トピック辞書の中に格納するための手段と、
を備え、
前記トピック語は、或るトピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、トピック文書および他の文書を含む文書のコーパスであり、
前記トピック文書コーパスは、前記トピックと関係する該トピック文書のコーパスであり、
前記候補トピック語は、前記トピックのためのトピック辞書に存在しない語であるとともに、前記トピックのための新たなトピック語として識別され前記トピック辞書への格納対象の語となるのための候補であることを特徴とするコンピュータ処理デバイス。 - トピック文書コーパスに関する相違閾値を算出するための手段と、
候補語に関する候補語相違値を算出するための手段と、
前記候補語相違値が前記相違閾値を超えている場合、前記候補語が前記トピックに関するトピック語であると判定するための手段と、
を備え、
前記相違閾値は、トピック語に関する第1のトピック語確率の、文書コーパスにおける前記トピック語に関する第2のトピック語確率に対する比に比例し、
前記トピック文書コーパスは、或るトピックと関係するトピック文書のコーパスであり、
前記トピック語は、前記トピックと関係するトピック辞書の中の語であり、
前記文書コーパスは、前記トピック文書および他の文書を含む文書のコーパスであり、
前記候補語相違値は、前記トピック文書コーパスに関連する候補語に関する第1の候補語確率の、前記文書コーパスに関連する前記候補語に関する第2の候補語確率に対する比に比例することを特徴とするシステム。 - 訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出するステップと、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出するステップと、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー関連測度を算出するステップと、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー関連測度を算出するステップと、
前記候補語エントロピー関連測度が前記既存語エントロピー関連測度を超えている場合、前記候補語が新たな語であると判定するステップと、
を備えることを特徴とするコンピュータによって実施される方法。 - 前記訓練コーパスおよび前記開発コーパスは、ウェブ文書を備えることを特徴とする請求項25に記載の方法。
- 前記候補語が、新たな語であると判定された場合、前記候補語を既存の語の辞書に追加するステップをさらに備えることを特徴とする請求項25に記載の方法。
- 第1の語頻度を算出するステップは、前記訓練コーパスにおける前記既存の語および前記候補語の確率に関する言語モデルを訓練するステップを備え、
第2の語頻度を算出するステップは、前記開発コーパスにおける前記構成要素語および前記候補語のそれぞれに関する語カウント値を算出するステップを備えることを特徴とする請求項25に記載の方法。 - 候補語エントロピー関連測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記候補語エントロピー関連測度を算出するステップと、
を備え、さらに
既存語エントロピー関連測度を算出するステップは、
前記候補語および前記構成要素語の前記確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記既存語エントロピー関連測度を算出するステップと、
を備えることを特徴とする請求項25に記載の方法。 - 前記語はそれぞれ、1つまたは複数のHanzi文字を備えることを特徴とする請求項25に記載の方法。
- 前記語はそれぞれ、1つまたは複数の表語文字を備えることを特徴とする請求項25に記載の方法。
- 前記候補語が、新たな語であると判定された場合、前記辞書を前記候補語で更新するステップをさらに備えることを特徴とする請求項25に記載の方法。
- 第1のコーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語確率を算出するステップと、
第2のコーパスにおける前記構成要素語および前記候補語に関する第2の語確率を算出するステップと、
前記第2の候補語確率、および前記候補語のおよび前記構成要素語の前記第1の語確率に基づいて、第1のエントロピー関連値を算出するステップと、
前記第2の構成要素語確率、および前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2のエントロピー関連値を算出するステップと、
前記第1のエントロピー関連値が前記第2のエントロピー関連値を超えている場合、前記候補語が新たな語であると判定するステップと、
を備えることを特徴とするコンピュータによって実施される方法。 - 語コーパスを識別するステップは、ウェブ文書を識別するステップを備えることを特徴とする請求項33に記載の方法。
- 第1の語確率を算出するステップは、前記第1のコーパスにおける前記既存の語および前記候補語の語確率に関して前記第1のコーパス上で言語モデルを訓練するステップを備え、さらに
第2の語確率を算出するステップは、前記構成要素語および候補語のそれぞれに関して語カウント値を算出するステップを備えることを特徴とする請求項33に記載の方法。 - 第1のエントロピー関連値を算出するステップは、
前記候補語および前記構成要素語の前記第1の語確率に基づいて、第1の対数値を算出するステップと、
前記候補語の前記語カウント値、および前記第1の対数値に基づいて、前記第1のエントロピー関連値を算出するステップと、
を備え、
第2のエントロピー関連値を算出するステップは、
前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2の対数値を算出するステップと、
前記構成要素語の前記語カウント、および前記第2の対数値に基づいて、前記第2のエントロピー関連値を算出するステップと、
を備えることを特徴とする請求項35に記載の方法。 - 前記語はそれぞれ、1つまたは複数のHanzi文字を備えることを特徴とする請求項33に記載の方法。
- ウェブ文書のコレクションを訓練コーパスと開発コーパスに分割するステップと、
前記訓練コーパスにおける語の第1の語確率に関して前記訓練コーパス上で言語モデルを訓練するステップと、
前記開発コーパスにおける前記候補語および前記2つ以上の対応する語の出現回数をカウントするステップと、
前記開発コーパスにおける前記候補語の前記出現回数、および前記第1の語確率に基づいて、第1の値を算出するステップと、
前記開発コーパスにおける前記2つ以上の対応する語の前記出現回数、および前記第1の語確率に基づいて、第2の値を算出するステップと、
前記第1の値を前記第2の値と比較するステップと、
前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するステップと、
を備え、
前記訓練コーパスにおける語は、辞書の中の既存の語である前記訓練コーパスの中の2つ以上の対応する語の系列によって定義される候補語を含むことを特徴とするコンピュータによって実施される方法。 - 前記候補語が新たな語であると判定された場合、前記候補語を前記辞書に追加するステップをさらに備えることを特徴とする請求項38に記載の方法。
- 前記訓練コーパスにおける語の第1の語確率に関して前記訓練コーパス上で言語モデルを訓練するステップは、nグラム言語モデルを訓練するステップを備えることを特徴とする請求項38に記載の方法。
- 前記開発コーパスにおける前記候補語の前記出現回数、および前記第1の語確率に基づいて、第1の値を算出するステップは、
前記候補語に関する前記第1の語確率、および前記2つ以上の対応する語の前記第1の語確率に基づいて、第1の対数値を算出するステップと、
前記第1の対数値に前記候補語の前記カウントされた出現回数を掛けるステップと、
を備え、さらに
前記開発コーパスにおける前記2つ以上の対応する語、および前記第1の語確率に基づいて、第2の値を算出するステップは、
前記候補語の前記第1の語確率、および前記2つ以上の対応する語の前記第1の語確率に基づいて、第2の対数値を算出するステップと、
前記第2の対数値に前記2つ以上の対応する語の前記カウントされた出現回数を掛けるステップと、
を備えることを特徴とする請求項40に記載の方法。 - 前記語はそれぞれ、1つまたは複数のHanzi文字を備えることを特徴とする請求項41に記載の方法。
- コンピュータ可読媒体の中に格納されているコンピュータ命令を備え、該コンピュータ命令がコンピュータデバイスによって実行されると、語コーパスにアクセスして、該語コーパスを訓練コーパスと開発コーパスに分割し、さらに、
2つ以上の対応する語を備える候補語を含む、前記訓練コーパスの中に格納された語に関する第1の語確率と、
前記開発コーパスにおける前記語に関する第2の語確率と、
を生成するように構成されている語処理モジュールと、
コンピュータ可読媒体の中に格納されているコンピュータ命令を備え、該コンピュータ命令がコンピュータデバイスによって実行されると、前記第1の語確率、および前記第2の語確率を処理し、さらに、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記候補語に関する前記第2の語確率に基づく第1の値、および、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記2つ以上の対応する語に関する前記第2の語確率に基づく第2の値と、
を生成するように構成されている新語アナライザモジュールと、
を具備し、
前記第1の値を前記第2の値と比較し、前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するようにさらに構成されていることを特徴とするシステム。 - コンピュータ可読媒体の中に格納され、さらにコンピュータデバイスによって実行されると、辞書を識別された新たな語で更新するように構成されるコンピュータ命令を備える辞書アップデータモジュールをさらに備えていることを特徴とする請求項43に記載のシステム。
- 前記語処理モジュールは、nグラム言語モデルを備えていることを特徴とする請求項43に記載のシステム。
- 前記第1の値および前記第2の値は、エントロピー関連値であることを特徴とする請求項43に記載のシステム。
- 前記語コーパスは、ウェブ文書を備えていることを特徴とする請求項44に記載のシステム。
- 前記語処理モジュールは、Hanzi文字処理モジュールを備えていることを特徴とする請求項43に記載のシステム。
- 各語は、1つまたは複数のHanzi文字を備えていることを特徴とする請求項48に記載のシステム。
- コンピュータ可読媒体の中に格納されたソフトウェアを備える装置であって、
前記ソフトウェアは、コンピュータ処理デバイスによって実行可能であるコンピュータ可読命令を有し、
該コンピュータ可読命令が実行されると、前記コンピュータ処理デバイスに、
訓練コーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語の系列によって定義される候補語に関する第1の語頻度を算出させ、
開発コーパスにおける前記構成要素語および前記候補語に関する第2の語頻度を算出させ、
前記候補語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、候補語エントロピー関連測度を算出させ、
前記構成要素語の前記第2の語頻度、および前記構成要素語および前記候補語の前記第1の語頻度に基づいて、既存語エントロピー関連測度を算出させ、さらに
前記候補語エントロピー関連測度が前記既存語エントロピー関連測度を超えている場合、前記候補語が新たな語であると判定させることを特徴とする装置。 - 第1のコーパスにおける既存の語、およびそれぞれが辞書の中の既存の語である構成要素語によって定義される候補語に関する第1の語確率を算出するための手段と、
第2のコーパスにおける前記構成要素語および前記候補語に関する第2の語確率を算出するための手段と、
前記候補語の前記第2の語確率、ならびに前記候補語および前記構成要素語の前記第1の語確率に基づいて、第1のエントロピー関連値を算出するための手段と、
前記構成要素語の前記第2の語確率、ならびに前記候補語および前記構成要素語の前記第1の語確率に基づいて、第2のエントロピー関連値を算出するための手段と、
前記第1のエントロピー関連値と前記第2のエントロピー関連値の間の比較に基づいて、候補語が新たな語であるかどうかを判定するための手段と、
を備えることを特徴とするシステム。 - 語コーパスにアクセスして、さらに該語コーパスを訓練コーパスと開発コーパスに分割するとともに、
2つ以上の対応する語を備える候補語を含む、前記訓練コーパスの中に格納された語に関する第1の語確率と、
前記開発コーパスにおける前記語に関する第2の語確率と、
を生成するように構成されている語処理手段と、
前記第1の語確率および前記第2の語確率を受け取るとともに、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記候補語に関する前記第2の語確率に基づく第1の値と、
前記候補語および前記2つ以上の対応する語に関する前記第1の語確率、および前記2つ以上の対応する語に関する前記第2の語確率に基づく第2の値と、
を生成するように構成されている新語アナライザ手段と、
を備え、
前記第1の値と前記第2の値を比較して、前記比較に基づいて、前記候補語が新たな語であるかどうかを判定するようにさらに構成されていることを特徴とするシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/844,153 | 2007-08-23 | ||
US11/844,067 | 2007-08-23 | ||
US11/844,067 US7983902B2 (en) | 2007-08-23 | 2007-08-23 | Domain dictionary creation by detection of new topic words using divergence value comparison |
US11/844,153 US7917355B2 (en) | 2007-08-23 | 2007-08-23 | Word detection |
PCT/CN2008/072128 WO2009026850A1 (en) | 2007-08-23 | 2008-08-25 | Domain dictionary creation |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010537286A JP2010537286A (ja) | 2010-12-02 |
JP2010537286A5 JP2010537286A5 (ja) | 2011-10-13 |
JP5379138B2 true JP5379138B2 (ja) | 2013-12-25 |
Family
ID=40386710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010521289A Active JP5379138B2 (ja) | 2007-08-23 | 2008-08-25 | 領域辞書の作成 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5379138B2 (ja) |
CN (1) | CN101836205A (ja) |
WO (1) | WO2009026850A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2553603A4 (en) * | 2010-03-29 | 2014-03-05 | Nokia Corp | METHOD AND APPARATUS FOR MODELING IMPLANT USER INTEREST |
CN102236639B (zh) * | 2010-04-28 | 2016-08-10 | 三星电子株式会社 | 更新语言模型的系统和方法 |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
US9069798B2 (en) * | 2012-05-24 | 2015-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method of text classification using discriminative topic transformation |
CN110347931A (zh) * | 2013-06-06 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 文章新章节的检测方法及装置 |
CN104345899B (zh) * | 2013-08-08 | 2018-01-19 | 阿里巴巴集团控股有限公司 | 用于输入法的字段转换方法及客户端 |
CN103970730A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种从单个中文文本中提取多主题词的方法 |
WO2016172288A1 (en) * | 2015-04-21 | 2016-10-27 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating concepts from a document corpus |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
CN105956359B (zh) * | 2016-04-15 | 2018-06-05 | 陈杰 | 一种用于异构系统的药品项目名称对照转译方法 |
CN106682128A (zh) * | 2016-12-13 | 2017-05-17 | 成都数联铭品科技有限公司 | 多领域词典自动构建方法 |
CN107704102B (zh) * | 2017-10-09 | 2021-08-03 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN113780007A (zh) * | 2021-10-22 | 2021-12-10 | 平安科技(深圳)有限公司 | 语料筛选方法、意图识别模型优化方法、设备及存储介质 |
CN115858787B (zh) * | 2022-12-12 | 2023-08-01 | 交通运输部公路科学研究所 | 一种基于公路运输中问题诉求信息的热点提取和挖掘方法 |
CN116911321A (zh) * | 2023-06-21 | 2023-10-20 | 三峡高科信息技术有限责任公司 | 一种前端自动翻译字典值的方法及组件 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2883153B2 (ja) * | 1990-04-02 | 1999-04-19 | 株式会社リコー | キーワード抽出装置 |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
US6651058B1 (en) * | 1999-11-15 | 2003-11-18 | International Business Machines Corporation | System and method of automatic discovery of terms in a document that are relevant to a given target topic |
GB2399427A (en) * | 2003-03-12 | 2004-09-15 | Canon Kk | Apparatus for and method of summarising text |
JP4254623B2 (ja) * | 2004-06-09 | 2009-04-15 | 日本電気株式会社 | トピック分析方法及びその装置並びにプログラム |
JP5259919B2 (ja) * | 2005-07-21 | 2013-08-07 | ダイキン工業株式会社 | 軸流ファン |
US7813919B2 (en) * | 2005-12-20 | 2010-10-12 | Xerox Corporation | Class description generation for clustering and categorization |
-
2008
- 2008-08-25 JP JP2010521289A patent/JP5379138B2/ja active Active
- 2008-08-25 CN CN200880112723A patent/CN101836205A/zh active Pending
- 2008-08-25 WO PCT/CN2008/072128 patent/WO2009026850A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2010537286A (ja) | 2010-12-02 |
CN101836205A (zh) | 2010-09-15 |
WO2009026850A1 (en) | 2009-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5379138B2 (ja) | 領域辞書の作成 | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US7917355B2 (en) | Word detection | |
KR101465770B1 (ko) | 단어 확률 결정 | |
US20180341871A1 (en) | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains | |
TWI512502B (zh) | 用於產生習慣語言模式之方法及系統及相關之電腦程式產品 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
US8688727B1 (en) | Generating query refinements | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
GB2587913A (en) | System and method for language translation | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Sharma et al. | NIRMAL: Automatic identification of software relevant tweets leveraging language model | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
Avasthi et al. | Processing large text corpus using N-gram language modeling and smoothing | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
CN107111607A (zh) | 用于语言检测的系统和方法 | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
CN110888940A (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN110023931A (zh) | 用于语言检测的系统和方法 | |
Hemmer et al. | Estimating Post-OCR Denoising Complexity on Numerical Texts | |
JP7139271B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 | |
Bhuyan et al. | Context-Based Clustering of Assamese Words using N-gram Model | |
CN117828322A (zh) | 数据处理方法、装置、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110825 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5379138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |