JP2010529569A - 辞書の単語及び熟語の判定 - Google Patents

辞書の単語及び熟語の判定 Download PDF

Info

Publication number
JP2010529569A
JP2010529569A JP2010511470A JP2010511470A JP2010529569A JP 2010529569 A JP2010529569 A JP 2010529569A JP 2010511470 A JP2010511470 A JP 2010511470A JP 2010511470 A JP2010511470 A JP 2010511470A JP 2010529569 A JP2010529569 A JP 2010529569A
Authority
JP
Japan
Prior art keywords
word
total number
candidate
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010511470A
Other languages
English (en)
Other versions
JP5241828B2 (ja
Inventor
ポ・チャン
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2010529569A publication Critical patent/JP2010529569A/ja
Application granted granted Critical
Publication of JP5241828B2 publication Critical patent/JP5241828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

方法は、検索照会における候補単語を特定する段階と、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する段階とを含み、各候補単語は、1つ以上の連続した文字を含む。前記方法は、前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階を含む。

Description

この開示は、入力方式(インプットメソッド:input methods)に関係する。
1つまたは2つの文字、例えばグリフ(glyph)が1つの単語か意味におおよそ対応する表語文字スクリプト(logographic script)を使用する言語は、例えばモバイル機器(携帯機器)のキーパッド上のコンピュータキーボード等の標準の入力装置の上のキーより多くの文字を有する。例えば、中国語は、基本のピンイン(Pinyin)文字及び5つのトーン(tone)によって定義された何千もの文字を含む。これらの多対1結合のマッピングは、入力装置上で発見されなかった文字及び記号の入力を容易にする入力方式によって実現され得る。従って、欧米スタイルのキーボードは、中国語文字、日本語文字、または韓国語文字を入力するために使用され得る。いくつかの例において、インプットメソッドエディタ(input method editor:IME)が、ユーザによってタイプされたピンイン文字に対応する候補文字、候補単語、または候補熟語を発見するように辞書を検索するために使用され得る。
1つの特徴において、概して、コンピュータで実行される方法は、検索照会における候補単語を特定する段階と、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する段階とを含み、各候補単語は、1つ以上の連続した文字を含む。前記方法は、前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階を含む。
前記方法の実施は、以下の特徴の内の1つ以上を含むことができる。前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階は、前記第1の合計数が前記第2の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む。前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階は、前記第1の合計数が前記第2の合計数より大きいと共に、前記第1の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む。前記第2の合計数を決定する段階は、前記候補単語及び1つ以上の他の単語をそれぞれが含む検索照会の数を計数する段階を含み、前記検索照会において、前記候補単語及び前記1つ以上の他の単語は、前記検索照会を提示したユーザによって入力された1つ以上の空白(white space)または句読点によって分割されている。前記方法は、検索ログから前記検索照会を獲得する段階を含む。前記検索ログは、検索サービスのユーザによって提示された検索照会を含む。
別の特徴において、概して、装置は、検索照会を格納するためのデータストアと、前記検索照会における候補単語を特定するための処理装置とを備え、各候補単語は、1つ以上の連続した文字を含む。各候補単語に関して、前記処理装置は、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する。前記処理装置は、前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える。
前記装置の実施は、以下の特徴の内の1つ以上を含むことができる。前記処理装置は、前記第1の合計数が前記第2の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える。前記処理装置は、前記第1の合計数が前記第2の合計数より大きいと共に、前記第1の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える。前記処理装置は、前記候補単語及び1つ以上の他の単語をそれぞれが含む検索照会の数を計数すると共に、前記検索照会において、前記候補単語及び前記1つ以上の他の単語は、前記検索照会を提示したユーザによって入力された1つ以上の空白または句読点によって分割されている。
別の特徴において、概して、システムは、検索照会を格納するためのデータストアと、コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記検索照会における候補単語を特定させる命令を有する処理エンジンとを備え、各候補単語は、1つ以上の連続した文字を含む。前記処理エンジンは、実行によって前記処理装置に、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定させると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定させる命令を有する。前記処理エンジンは、実行によって前記処理装置に、前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えさせる命令を有する。
前記システムの実施は、以下の特徴の内の1つ以上を含むことができる。前記処理エンジンは、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第1の合計数が前記第2の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する。前記処理エンジンは、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第1の合計数が前記第2の合計数より大きいと共に、前記第1の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する。前記処理エンジンは、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記候補単語及び1つ以上の他の単語をそれぞれが含む検索照会の数を計数させる命令を有し、前記検索照会において、前記候補単語及び前記1つ以上の他の単語は、前記検索照会を提示したユーザによって入力された1つ以上の空白または句読点によって分割されている。
別の特徴において、概して、装置は、単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに存在する回数を示す第2の合計数とに基づいて特定される前記単語を有する辞書を備える。前記装置は、前記辞書の中から単語を選択するように構成されたインプットメソッドエディタを備える。
前記装置の実施は、以下の特徴の内の1つ以上を含むことができる。前記インプットメソッドエディタは、中国語のインプットメソッドエディタを含む。前記単語は、“Hanzi”文字を含む。前記検索照会は、検索ログから特定される。
別の特徴において、概して、システムは、データストアと、処理エンジンとを備える。前記データストアは、単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数とに基づいて特定される前記単語を含む辞書を格納する。前記処理エンジンは、コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、ユーザが前記辞書の中から単語を選択することを可能にするために、そのような実行によって前記処理装置にインプットメソッドエディタを提供させる命令を有する。
別の特徴において、概して、システムは、データストアと、処理エンジンとを備える。前記データストアは、単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数とに基づいて特定される前記単語を含む辞書を格納する。前記処理エンジンは、ユーザが前記辞書の中から単語を選択することを可能にするために、処理装置に、インプットメソッドエディタを提供させる。
別の特徴において、概して、システムは、候補単語を、前記単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数とに基づいて特定するための手段と、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えるための手段とを備える。
別の特徴において、概して、コンピュータで実行される方法は、文書における文脈信号(context signal)を特定する段階と、前記文脈信号によって境界が示された文字を特定する段階と、前記文脈信号によって境界が示された文字により定義される1つ以上の候補単語を特定する段階と、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階とを含む。
前記方法の実施は、以下の特徴の内の1つ以上を含むことができる。前記文書における文脈信号を特定する段階は、中国語の書名記号(book title mark)を特定する段階を含む。前記文脈信号によって境界が示された文字を特定する段階は、前記文脈信号によって境界が示された“Hanzi”文字を特定する段階を含む。前記候補単語は、中国語の単語を含む。前記文書における文脈信号を特定する段階は、電子文書におけるハイパーテキストマークアップ言語のタグを特定する段階を含む。前記インプットメソッドエディタ辞書は、中国語のインプットメソッドエディタ辞書を含む。前記方法は、各候補単語の合計数を決定する段階を含む。前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階は、前記インプットメソッドエディタ辞書にしきい値を超える合計数を有する候補単語を加える段階を含む。前記文書における文脈信号を特定する段階は、重複していない(non‐duplicative)文書を特定する段階を含む。前記各候補単語の合計数を決定する段階は、重複していない文書だけに基づいて各候補単語の合計数を決定する段階を含む。前記文書は、インターネットから獲得されたウェブ文書を含む。前記方法は、検索照会における候補単語を特定する段階と、前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階とを含む。前記検索照会における候補単語を特定する段階は、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する段階を含む。前記検索照会における候補単語を特定する段階は、前記第1の合計数と前記第2の合計数との間の関係に基づいて、前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階を含む。
別の特徴において、概して、コンピュータで実行される方法は、文書における複数の組の中国語の書名記号を特定する段階と、各1組の中国語の書名記号によって表されている1つ以上の文字により定義される候補単語を特定する段階と、インプットメソッドエディタ辞書に1つ以上の候補単語を加える段階とを含む。
前記方法の実施は、以下の特徴の内の1つ以上を含むことができる。中国語の書名記号は、単一の(一重の)書名記号か、もしくは二重の書名記号を含む。前記方法は、各候補単語の合計数を決定する段階を含む。前記インプットメソッドエディタ辞書に1つ以上の候補単語を加える段階は、前記インプットメソッドエディタ辞書にしきい値を超える合計数を有する候補単語を加える段階を含む。前記方法は、検索照会における候補単語を特定する段階と、前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階とを含む。前記検索照会における候補単語を特定する段階は、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する段階を含む。前記検索照会における候補単語を特定する段階は、前記第1の合計数と前記第2の合計数との間の関係に基づいて、前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階を含む。
別の特徴において、概して、方法は、文脈信号によって境界が示された文字に基づいて特定される単語を有する辞書を確立する段階と、前記辞書の中から単語を選択するように構成されたインプットメソッドエディタを提供する段階と含む。
前記方法の実施は、以下の特徴の内の1つ以上を含むことができる。前記辞書を確立する段階は、中国語の書名記号によって境界が示された文字に基づいて単語を特定する段階を含む。
別の特徴において、概して、装置は、文書内で発見された文字に関連付けられた候補単語に基づいて特定された単語を有する辞書を備え、各候補単語は、1組の中国語の書名記号によって周囲を囲まれた1つ以上の文字と関連付けられる。前記装置は、前記辞書の中から単語を選択するように構成されたインプットメソッドエディタを備える。
前記装置の実施は、以下の特徴の内の1つ以上を含むことができる。前記候補単語は、“Hanzi”文字を含む。中国語の書名記号は、少なくとも単一の(一重の)書名記号か、もしくは二重の書名記号を含む。前記辞書は、単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに存在する回数を示す第2の合計数とに基づいて特定される前記単語を含む。
別の特徴において、概して、システムは、データストアと、処理エンジンとを備える。前記データストアは、文書コーパス(document corpus)を格納する。前記処理エンジンは、コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、そのような実行によって前記処理装置に、文書コーパスの文書内の文字を発見することによって候補単語を特定させると共に、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えさせる命令を有し、前記文字は、1組の中国語の書名記号によって周囲を囲まれている。
別の特徴において、概して、システムは、データストアと、前記処理装置とを備える。前記データストアは、文書コーパスを格納する。前記処理装置は、文書コーパス内の文書における文字を発見することによって候補単語を特定すると共に、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加え、前記文字は、1組の中国語の書名記号によって周囲を囲まれている。
別の特徴において、概して、システムは、文書における文脈信号を特定するための手段と、前記文脈信号によって境界が示された文字を特定するための手段と、前記文脈信号によって境界が示された文字により定義される1つ以上の候補単語を特定するための手段と、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えるための手段とを備える。
別の特徴において、概して、システムは、文書における複数の組の中国語の書名記号を特定するための手段と、各1組の中国語の書名記号によって境界が示された1つ以上の文字の文字列を特定するための手段と、前記1つ以上の文字の文字列によって定義された候補単語を特定するための手段と、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えるための手段とを備える。
ここに開示されたシステム及び方法は、以下の利点の内の1つ以上を備え得る。辞書は、文書及び照会ログのコーパスに基づいて、自動的に確立され得るか、もしくは拡張され得る。辞書を利用するIMEは、選択に関して、候補単語のより正確な特定を提供し得る。更に、ここに開示されたシステム及び方法を使用することによって、前記辞書が効率的に更新されることができると共に、表語文字スクリプト、例えば中国語文字をコンピュータ処理するための速度と効率が改善されることができ、従って、ユーザの表語文字スクリプトの入力速度が増加し得る。
ここに説明されたシステム及び方法を実施するために使用され得る実例装置の構成図である。 実例エディタシステムの構成図である。 実例インプットメソッドエディタ環境の図である。 実例単語及び熟語判定エンジンの図である。 文書コーパスに基づいて単語及び熟語を判定するための実例処理のフローチャートである。 検索照会ログに基づいて単語及び熟語を判定するための実例処理のフローチャートである。 単語及び熟語を判定するための実例処理のフローチャートである。 実例単語及び熟語判定エンジンの図である。
この明細書で説明された主題の1つ以上の実施例の詳細は、以下の添付図面及び説明に示される。主題の他の特性(feature)、特徴(aspect)、及び利点は、説明、図面、及び請求項から明白になるであろう。
様々な図における同等の参照符号及び記号表示は、同等の要素を示す。
図1は、ここに説明されたシステム及び方法を実施するために使用され得る実例装置100の構成図である。例えば、装置100は、パーソナルコンピュータ装置、または、携帯電話、移動体通信装置、携帯情報機器(PDA)等のような他の電子機器等のコンピュータ装置において実施され得る。
実例装置100は、処理装置102、第1のデータストア104、第2のデータストア106、入力装置108、出力装置110、及びネットワークインタフェース112を備える。例えば、データバス及びマザーボードを含むバスシステム114は、コンポーネント102、104、106、108、110、及び112の間に制御データ通信を確立するために使用され得る。他の実例システムアーキテクチャが、同様に使用され得る。
例えば、処理装置102は、1つ以上のマイクロプロセッサを備えることができる。例えば、第1のデータストア104は、ダイナミックランダムアクセスメモリのようなランダムアクセスメモリ記憶装置か、または他のタイプのコンピュータ読み取り可能媒体メモリ装置を含むことができる。例えば、第2のデータストア106は、1つ以上のハードドライブ、フラッシュメモリ、及び/または、読み取り専用メモリ、または他のタイプのコンピュータ読み取り可能媒体メモリ装置を含むことができる。
実例入力装置108は、キーボード、マウス、スタイラス等を含むことができると共に、実例出力装置110は、表示装置、オーディオ装置等を含むことができる。例えば、ネットワークインタフェース112は、ネットワーク116に対して、またはネットワーク116からデータを通信するように動作可能な有線または無線ネットワーク装置を含むことができる。ネットワーク116は、インターネットのような、1つ以上のローカルエリアネットワーク(LAN)及び/または広域ネットワーク(WAN)を含むことができる。
いくつかの具体化において、装置100は、インプットメソッドエディタ(IME)コード101を、データストア106のようなデータストアに含むことができる。インプットメソッドエディタコード101は、実行によって処理装置102にインプットメソッドエディタ機能を実行させる命令により定義され得る。具体化において、例えば、インプットメソッドエディタコード101は、スクリプト命令、例えばウェブブラウザ環境において実行され得るJava(登録商標)スクリプトもしくはECMAスクリプト命令のような、解釈された命令(interpreted instruction)を含むことができる。例えばコンパイルされた命令、スタンドアロン(独立型)アプリケーション、アプレット、プラグインモジュール等の、他の具体化が更に使用され得る。
インプットメソッドエディタコード101の実行は、インプットメソッドエディタインスタンス103を生成するか、もしくは起動する。インプットメソッドエディタインスタンス103は、インプットメソッドエディタ環境、例えばユーザインタフェースを定義し得ると共に、その時間の間に、装置100が、例えばHanzi文字のような、入力文字、表意文字、または記号に関する合成入力(composition input)を受け取ることができる、装置100における1つ以上の入力方式の処理を容易にし得る。例えば、ユーザは、Hanzi文字の特定のための合成入力を入力するために、入力装置108(例えば、欧米スタイルのキーボードのようなキーボード、手書き文字認識エンジンを有するスタイラス等)の内の1つ以上を使用することができる。いくつかの例において、Hanzi文字は、2つ以上の合成入力と関連付けられ得る。
第1のデータストア104及び/または第2のデータストア106は、合成入力と文字の組み合わせを格納し得る。ユーザ入力に基づいて、インプットメソッドエディタインスタンス103は、入力によって表された1つ以上の候補文字を特定するために、データストア104及び/またはデータストア106内の情報を使用することができる。いくつかの具体化において、もし2つ以上の候補文字が特定されるならば、候補文字は、出力装置110上に表示される。入力装置108を使用して、ユーザは、そのユーザが入力することを望むHanzi文字を候補文字の中から選択し得る。
いくつかの具体化において、装置100上のインプットメソッドエディタインスタンス103は、1つ以上のピンイン(Pinyin)合成入力を受けとると共に、合成入力をHanzi文字に変換し得る。例えば、インプットメソッドエディタインスタンス103は、Hanzi文字を表すために、キーストロークから受け取られたピンイン音節またはピンイン文字の合成物を使用することができる。例えば、各ピンイン音節は、欧米スタイルのキーボードにおけるキーに対応し得る。ピンインインプットメソッドエディタを使用して、ユーザは、Hanzi文字の発音を表す1つ以上のピンイン音節を含む合成入力を使用することによって、Hanzi文字を入力することができる。ピンインIMEを使用して、ユーザは、更に、Hanzi文字の発音を表す2つ以上のピンイン音節を含む合成入力を使用することによって、2つ以上のHanzi文字を含む単語を入力することができる。しかしながら、他の言語のための入力方式が、同様に容易になり得る。
ウェブブラウザ、ワードプロセッシングプログラム、電子メールクライアント等を含む他のアプリケーションソフトウェア105が、同様に、データストア104及び/またはデータストア106に格納され得る。これらのアプリケーションのそれぞれは、対応するアプリケーションインスタンス107を生成することができる。各アプリケーションインスタンスは、データをユーザに提示すると共に、ユーザからのデータ入力を容易にすることによって、ユーザ経験を容易にし得る環境を定義し得る。例えば、ウェブブラウザソフトウェアは、検索エンジン環境を生成することができ、電子メールソフトウェアは、電子メール環境を生成することができ、ワードプロセッシングプログラムは、エディタ環境を生成することができる、等が挙げられる。
いくつかの具体化において、装置100に対してアクセスすることができる遠隔計算システム118が、同様に、表語文字スクリプトを編集するために使用され得る。例えば、装置100は、ネットワーク116を介して表語文字スクリプト編集機能を提供するサーバであり得る。いくつかの例において、ユーザは、遠隔計算システム、例えばクライアントコンピュータを用いて、データストア104及び/またはデータストア106に格納された表語文字スクリプトを編集し得る。例えば、装置100は、文字を選択することができると共に、ネットワークインタフェース112を介してユーザからの合成入力を受け取ることができる。例えば、処理装置102は、選択された文字に隣接する1つ以上の文字を特定することができると共に、受け取られた合成入力及び隣接する文字に基づいて、1つ以上の候補文字を特定することができる。装置100は、もとの遠隔計算システムに対して、候補文字を含むデータ通知を送信することができる。
図2は、実例インプットメソッドエディタシステム120の構成図である。例えば、インプットメソッドエディタシステム120は、インプットメソッドエディタコード101及び関連するデータストア104及びデータストア106を用いて実施され得る。インプットメソッドエディタシステム120は、インプットメソッドエディタエンジン122、辞書124、及び合成入力テーブル126を備える。他のストレージアーキテクチャが同様に使用され得る。ユーザは、例えばPinyin文字をタイプすることによって中国語の単語または熟語を入力するために、IMEシステム120を使用することができると共に、IMEエンジン122は、それぞれがピンイン文字に適合する1つ以上の中国語の単語または熟語を含む候補辞書収録語(entry)を特定するために、辞書124を検索することになる。
辞書124は、1つ以上の言語モデルにおいて使用される表語文字スクリプトの文字、単語、または熟語、そして例えば、英語、ドイツ語、スペイン語などの、ローマ字ベースまたは西洋スタイルのアルファベットにおける文字、単語、及び熟語に対応する収録語128を含んでいる。各単語は、意味に対応すると共に、1つ以上の文字を含み得る。例えば、単語(“苹果”)は、“りんご”という意味を有し、2つのHanzi文字“苹”と“果”を含み、それはピンイン入力“ping”と“guo”にそれぞれ対応している。文字“果”は、同様に、“果物”という意味を有する単語である。辞書収録語128は、例えば、それぞれが1つ以上の文字を含む、慣用句(例えば、“胸有成竹”)、固有名詞(例えば、“奥地利共和国”)、歴史的人物または有名人の名前(例えば、“成吉思汗”)、技術用語
Figure 2010529569
熟語
Figure 2010529569
本の題名(書名)
Figure 2010529569
芸術作品の題名
Figure 2010529569
または、映画の題名
Figure 2010529569
等を含み得る。
同様に、辞書収録語128は、例えば、地理的主体(geographical entity)または国家の名前、ビジネス関連の名前、教育機関の名前、動物または植物の名前、機械の名前、歌の名前、演劇の題名、ソフトウェアプログラムの名前、消費者製品の名前、等を含み得る。例えば、辞書124は、何千もの文字、単語、及び熟語を含み得る。
いくつかの具体化において、辞書124は、文字の間の関係に関する情報を含む。例えば、辞書124は、文字に隣接する他の文字に応じて該文字に割り当てられたスコアまたは確率値を含むことができる。辞書124は、概してどのくらいの頻度で収録語128が使用されるかを示すために、それぞれが辞書収録語128の内の1つと関連する収録語スコアもしくは収録語確率値を含むことができる。
合成入力データストア126は、合成入力と辞書124に格納される収録語128との関連付けを含む。いくつかの具体化において、合成入力データストア126は、辞書124内の収録語128のそれぞれを、インプットメソッドエディタエンジン122によって使用される合成入力(例えば、ピンイン入力)に結び付けることができる。例えば、インプットメソッドエディタエンジン122は、辞書124内の1つ以上の収録語128を、合成入力データストア126内の1つ以上の合成入力と結び付けるか、及び/または同一であると見なすために、辞書124及び合成入力データストア126内の情報を使用することができる。他の関連付けが、同様に使用され得る。
いくつかの具体化において、IMEシステム120における候補選択肢は、階級に従い、インプットメソッドエディタにおいて順位付けされて提示され得る。
図3は、5つの順位付けされた候補選択肢302を提示する実例インプットメソッドエディタ環境300の図である。各候補選択肢は、辞書収録語128または辞書収録語128の組み合わせであり得る。候補選択肢302は、ピンイン入力304に基づいて特定される。選択インジケータ308は、第1の候補選択肢、すなわち“谷歌”を囲み、第1の候補選択肢が選択されたことを示す。ユーザは、更に、候補選択肢を選択するために数字キーを使用することができるか、または候補選択肢を選択するのに選択インジケータ308を動かすために上下方向の矢印キーを使用することができる。
上述のように、IMEエンジン122は、ユーザによって入力されたピンイン文字と関連する候補収録語を特定するために、辞書124にアクセスする。辞書124は、定期的に新しい単語または名称によって更新され得る。例えば、IMEシステム120のユーザによって一般的にタイプされる名称及び単語は、社会におけるニュースイベント及び変化に応えて、時を経て変わり得る。いくつかの具体化において、辞書124は、文書または検索照会から特定される文字、単語、及び熟語に基づいて確立され得るか、及び/または更新され得る。
図4は、辞書収録語128(例えば、中国語の文字、単語、及び熟語)を特定する単語及び熟語判定エンジン400の実例の図である。いくつかの具体化において、エンジン400は、文脈信号ベースの判定エンジン406及び/または検索照会ベースの判定エンジン408を使用して、中国語の単語及び熟語を特定する。文脈信号ベースの判定エンジン406は、文脈信号を使用して単語及び熟語を特定するように、文書コーパス402における文書420を処理する。検索照会ベースの判定エンジン408は、検索照会において単語または熟語が単独で出現するか、あるいは1つ以上の他の単語または熟語と組み合わされて出現するかに基づいて中国語の単語及び熟語を特定するために、検索照会ログ404内の検索照会418を検索する。特定された単語及び熟語は、併合エンジン414において併合されると共に、辞書124に収録語128として加えられ得る。いくつかの具体化において、更新方法の内の1つだけが使用され得ると共に、例えば、辞書124は、文書コーパス402か、または検索照会ログ404のいずれかの使用によって更新され得る。
いくつかの具体化において、文脈信号ベースの判定エンジン406は、境界が示された内容を特定する文脈信号を使用して、文書420から候補辞書収録語422を判定するように構成される。実例文脈信号は、例えばクォーテーションマーク(引用符)、特別な識別子文字(special identifier character)、下線等の、記号、文字、ハイパーテキストマークアップ言語タグ、及び/または境界が示された内容を特定する書式設定を含む。
実例文脈信号は、中国語の二重の書名記号、例えば“<< >>”か、及び/または中国語の単一の(一重の)書名記号、例えば“< >”を含むことができる。中国語の書名記号は、一般的に、文書及び/または文化的な著作物、例えば、本、論文、新聞、機関誌、及び雑誌の題名または名称を表すために使用される。中国語の書名記号は、同様に、例えば歌、映画、テレビショー、演劇、オペラ、ドラマ、交響曲、ダンス、絵、法令、及び規則等のような、文化的な著作物の題名または名称を表すために使用され得る。例えば、書名記号は、複数の題名を特定し得ると共に、例えば第1の題名が第2の題名を含む場合、第1の題名が二重の書名記号を用いて表されると共に、第2の題名が単一の書名記号を用いて表される。
中国語の書名記号は、単語または熟語の境界を明らかにする文脈信号である。従って、1つ以上の文字(例えば、Hanzi文字)が一組の中国語の書名記号の中に出現するとき、1つ以上の文字が1つ以上の単語または熟語に対応する可能性が高い。中国語の書名記号によって表されている文化的な著作物の名称または題名の以下の例、
Figure 2010529569
は、実例である。
例えば、文書420は、ネットワークを介してアクセスされ得る文書を含むことができる。例えば、文書420は、ウェブページ、電子本(e-books)、機関誌論文、電子メールメッセージ、広告、インスタントメッセージ、ブログ、法文書、または他のタイプの文書を含むことができる。文書コーパス402は、ニュース、文学、映画、音楽、政治論争、科学的発見、法律上の問題、健康問題、環境問題等のような、多種多様な主題を包含する文書420を含み得る。文書コーパス402は、例えば、企業のイントラネットまたは公のインターネットのようなローカルエリアネットワークまたは広域ネットワークから文書420を収集することによって確立され得る。処理される文書420の数は、従って、何百万もの文書の範囲か、またはそれ以上であり得る。例えば、文書420は、Hanzi文字、英文字、数字、句読点、記号、HTMLコード等を含み得る。例えば、文学作品の電子収集物、電子図書館等のような他の文書が、同様に使用され得る。
いくつかの具体化において、文脈信号ベースの判定エンジン406は、1組の中国語の書名記号を特定するために、文書420のそれぞれをスキャンする。特定された中国語の書名記号の各組に関して、エンジン406は、文字列、例えば1組の中国語の書名記号によって境界が示された1つ以上のHanziにより定義された候補収録語422を特定すると共に、候補収録語422を第1の辞書410に加える。候補収録語422は、1つ以上の単語または熟語を含み得る。もし一組の中国語の書名記号の中の用語がハイフンまたはコロンのような句読点によって分離されているならば、その用語は、2つの分離された用語のように扱われ得る。例えば、エンジン406は、
Figure 2010529569
を処理し得ると共に、
Figure 2010529569
が一方の候補収録語422であり、
Figure 2010529569
が他方の候補収録語422であるとして、2つの候補収録語422が存在すると判定し得る。
各候補収録語422は、文書420における候補収録語422の発生回数を表す合計数と関連付けられる。いくつかの具体化において、エンジン406は、同じ文書420における候補収録語422のそれぞれの発生によって合計数が1つだけ増加するように構成される。従って、例えば、もし候補収録語422が1つの文書420において3回発生すると共に、別の文書420において5回発生するならば、候補収録語に関する合計数は8つだけ増加する。いくつかの具体化において、エンジン406は、候補収録語422が各文書の中で発生する回数に関係なく、候補収録語422が個別の文書において発生するたびに、合計数が1つだけ増加するように構成される。この場合、例えば、もし候補収録語422が1つの文書420において3回発生すると共に、別の文書420において5回発生するならば、候補収録語に関連付けられた合計数は2つだけ増加する。
いくつかの具体化において、エンジン406は、中国語の文字の境界を示すと共に、他の言語の文字の境界を示さない中国語の書名記号の複数の組を特定する。この場合、もし1組の中国語の書名記号が、中国語の単語及び英語の単語の境界を示すならば、中国語の単語は、候補収録語であると見なされない。いくつかの具体化において、エンジン406は、中国語の書名記号によって境界が示されたテキストを、非中国語文字を削除するように処理すると共に、残っている中国語文字を候補収録語422として第1の辞書410に加える。
いくつかの具体化において、エンジン406は、各候補収録語422に含まれる文字数に対する範囲を設定する。例えば、エンジン406は、各候補収録語422が、少なくとも3つの中国語文字を有すると共に、10個を超える中国語文字を有していないことを必要とし得る。
中国語の書名記号によって表されている全ての候補収録語422を特定するように文書420全てを処理した後で、エンジン406は、しきい値より少ない合計数を有する候補収録語を削除するように、候補収録語422をフィルタ処理する。いくつかの具体化において、しきい値は、20〜40の間、例えば30に設定され得る。例えば、しきい値は、エラーを含むか、めったに使用されない単語または熟語を有するか、または他の理由のためにまれに発生する候補収録語422を削除するために利用され得る。
いくつかの具体化において、検索照会ベースの判定エンジン408は、検索照会ログ404から候補辞書収録語416を特定するように構成される。検索照会ログ404は、一定期間に渡って1つ以上の検索サービス(例えば、“Google検索”)の複数のユーザによって提示された検索照会418を含むことができる。エンジン408は、検索照会418内の連続した文字列を発見することによって候補収録語416を特定する。検索照会418は、検索照会418を提示したユーザによって入力された1つ以上の空白または句読点によって分離される1つ以上の候補収録語416を含み得る。例えば、検索照会
Figure 2010529569
は、空白によって分離された熟語
Figure 2010529569
及び
Figure 2010529569
を含む。それぞれの熟語
Figure 2010529569
及び
Figure 2010529569
は、エンジン408により候補収録語416として特定される。
いくつかの具体化において、エンジン408は、2つの合計数、照会合計数“qf”及びユーザセグメント化合計数“sf”を、各候補収録語416に割り当てる。照会合計数“qf”は、候補収録語416が検索照会における唯一の単語または熟語である回数を表すために使用される。例えば、収録語
Figure 2010529569
と関連付けられた照会合計数“qf”は、単語
Figure 2010529569
だけを含む検索照会418の数を表す。ユーザセグメント化合計数“sf”は、それぞれが候補収録語416及び1つ以上の他の単語または熟語を含む検索照会418の数を表すために使用されると共に、ここで、候補収録語416及び1つ以上の他の単語または熟語は、例えば、検索照会を提示したユーザによって入力された1つ以上の空白または句読点によって分離され得る。候補収録語416、及び関連する照会合計数“qf”及びユーザセグメント化合計数“sf”は、第2の辞書412に格納される。
例えば、もしエンジン408が、
Figure 2010529569
を含む検索照会418を発見するならば、候補収録語
Figure 2010529569
に関するユーザセグメント化合計数“sf”が、1つだけ増やされると共に、候補収録語
Figure 2010529569
に関するユーザセグメント化合計数“sf”も、同様に、1つだけ増やされる。もしエンジン408が、
Figure 2010529569
だけを含む検索照会418を発見するならば、候補収録語
Figure 2010529569
に関する照会合計数“qf”が、1つだけ増やされる。
エンジン408が、候補収録語416の全て、及び関連する照会合計数“qf”及びユーザセグメント化合計数“sf”を決定するために、検索照会の全てを処理した後で、エンジン408は、ユーザセグメント化合計数“sf”が照会合計数“qf”以上(すなわち、sf≧qf)である候補収録語416を、辞書412から削除する。エンジン408は、同様に、照会合計数“qf”がしきい値より小さい(すなわち、qf<しきい値)である候補収録語416を削除する。いくつかの具体化において、しきい値は、3〜10の範囲における値に設定され得る。小さい照会合計数“qf”を有する候補収録語を削除することは、エラーを含むか、もしくはめったに使用されない候補収録語416を削除し得る。
辞書412に残っている候補収録語416は、その照会合計数“qf”がユーザセグメント化合計数“sf”より大きく(すなわち、qf>sf)、そして検索照会418内で少なくともいくらかの回数発生した(すなわち、qf≧しきい値)候補収録語である。連続した文字の特定の文字列が検索照会418において単独で出現する回数が、文字列が検索照会418において1つ以上の他の文字列または文字と共に出現する回数より多い場合、連続した文字の特定の文字列が1つ以上の単語または熟語に対応すると共に、IME辞書124における辞書収録語128として適当である可能性が高い。
いくつかの具体化において、エンジン400は、重複する辞書収録語を削除することによって、それぞれ第1の辞書410及び第2の辞書412が提供する辞書収録語422と辞書収録語416を併合する併合エンジン414を含む。重複しない辞書収録語は、IME辞書124に加えられる。
図5は、文書コーパス(例えば、文書コーパス402)に基づいて単語及び熟語を判定するための実例処理500のフローチャートである。例えば、処理500は、1つ以上のサーバコンピュータを含むシステムにおいて実施され得る。
処理500は、文書における文脈信号を特定する(502)と共に、文脈信号によって境界が示された文字を特定する(504)。例えば、文脈信号は、中国語の書名記号であることができ、それらの文字は、Hanzi文字であることができると共に、それらの文書は、図4の文書コーパス402における文書420であることができる。例えば、図4のエンジン406が、文脈信号を特定することができると共に、文脈信号によって境界が示された文字を特定することができる。
処理500は、文脈信号によって境界が示された文字により定義された1つ以上の候補単語を特定する(506)。例えば、候補単語は、図4の収録語422であり得る。
処理500は、1つ以上の候補単語をインプットメソッドエディタ辞書に加える(508)。例えば、その辞書は、図4の第1の辞書410か、または図2のIME辞書124であり得る。
図6は、検索照会ログ(例えば、検索照会ログ404)に基づいて単語及び熟語を判定するための実例処理600のフローチャートである。例えば、処理600は、1つ以上のサーバコンピュータを含むシステムにおいて実施され得る。
プロセス600は、検索照会における、それぞれが1つ以上の連続した文字を含む候補単語を特定する(602)。例えば、それらの文字は、Hanzi文字であることができ、候補単語は、収録語416であることができると共に、検索照会は、図4の検索照会ログ404の検索照会418であることができる。例えば、エンジン408が、検索照会418における候補単語を特定し得る。
各候補単語に関して、処理600は、候補単語が検索照会における唯一の単語である回数を示す第1の合計数を決定する(604)と共に、候補単語及び1つ以上の他の単語が検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する(606)。例えば、第2の合計数によって計数される検索照会のそれぞれにおいて、候補単語及び1つ以上の他の単語は、ユーザによって入力された1つ以上の空白または句読点によって分離され得る。エンジン408が、第1の合計数及び第2の合計数、例えば“qf”及び“sf”を決定し得る。
全ての単語を判定することが処理された(608)後で、処理600は、第1の合計数と第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に候補単語の内の1つ以上を加える(610)。例えば、その辞書は、図4の第1の辞書410か、または図2のIME辞書124であり得る。例えば、エンジン408は、第1の合計数が第2の合計数より大きいとき、候補単語を辞書に加え得る。
いくつかの具体化において、処理500及び処理600は、結合され得ると共に、単語及び熟語は、併合処理によって辞書に加えられ得る。
図7は、文書コーパス(例えば、文書コーパス402)及び検索照会ログ(例えば、検索照会ログ404)に基づいて単語及び熟語を判定するための実例処理700のフローチャートである。例えば、処理700は、1つ以上のサーバコンピュータを含むシステムにおいて実施され得る。処理700は、最終の辞書に併合される第1の辞書及び第2の辞書を生成するために並列に遂行され得る2つの処理722及び処理724を含む。
処理722は、文書を特定する(702)。例えば、それらの文書は、図4の文書コーパス402における文書420であり得る。
処理722は、文書420における中国語の書名記号の複数の組を特定すると共に、中国語の書名記号の複数の組によって表されている文字列を特定する(704)。例えば、中国語の書名記号は、“<< >>”か“< >”であり得ると共に、文字列はHanzi文字を含み得る。例えば、図4のエンジン406が、中国語の書名記号及び文字列を特定し得る。
処理722は、候補収録語として、中国語の書名記号によって表されている各文字列を指定すると共に、候補収録語を第1の辞書に加える(706)。処理722は、更に、候補収録語に、文書における候補収録語の発生回数を表す合計数を関連付ける。例えば、第1の辞書は、図4の第1の辞書410であることができ、そして、エンジン406が、第1の辞書410において、候補収録語422及び関連する合計数を加え得るか、もしくは更新し得る。
全ての組の中国語の書名記号を特定するように全ての文書が処理されたと共に、中国語の書名記号によって表されている全ての文字列が、候補収録語として第1の辞書に加えられた後で、処理722は、合計数をしきい値と比較することによって、第1の辞書における候補収録語をフィルタ処理する(708)。もし合計数がしきい値未満であるならば、合計数と関連付けられた候補収録語は、第1の辞書から削除される。例えば、エンジン406が、第1の辞書410における候補収録語422をフィルタ処理し得る。
処理724は、検索照会を特定する(710)。例えば、検索照会は、図4の検索ログ404の検索照会418であり得る。
各検索照会に関して、処理724は、ユーザによって入力された文字ではない単数または複数の空白または記号によって分離されている、連続した文字の1つの文字列または連続した文字の複数の文字列を特定する(712)。例えば、それらの文字は、Hanzi文字であり得ると共に、検索照会は、図4の検索照会418であり得る。例えば、エンジン408が、検索照会418の各々における連続した文字の文字列または連続した文字の複数の文字列を特定し得る。
処理724は、連続した文字の各文字列によって定義されるような候補収録語を特定すると共に、候補収録語を第2の辞書に加える(714)。処理724は、更に、照会合計数“qf”及びユーザセグメント化合計数“sf”を、各候補収録語と関連付ける。照会合計数“qf”は、候補収録語だけを含む検索照会の数を表すと共に、ユーザセグメント化合計数“sf”は、それぞれが候補収録語及び1つ以上の他の文字列を含む検索照会の数を表す。
例えば、候補収録語は、図4の候補収録語416であり得ると共に、第2の辞書は、第2の辞書412であり得る。例えば、エンジン408が、第2の辞書412において、候補収録語416を加え得るか、もしくは更新し得ると共に、候補収録語416と関連付けられた照会合計数“qf”及びユーザセグメント化合計数“sf”を初期化し得るか、もしくは更新し得る。
全ての検索照会が処理されたと共に、連続した文字の全ての文字列が、候補収録語として第2の辞書に加えられた後で、処理724は、第2の辞書における候補収録語をフィルタ処理する(716)。処理724は、照会合計数“qf”をユーザセグメント化合計数“sf”と比較すると共に、照会合計数“qf”をしきい値と比較する。例えば、処理722は、第2の辞書から、照会合計数“qf”がしきい値より小さい候補収録語を削除すると共に、照会合計数“qf”がユーザセグメント化合計数“sf”以下の候補収録語を削除する。フィルタ処理の後で、第2の辞書における候補収録語は、照会合計数“qf”がユーザセグメント化合計数“sf”より大きいと共に、照会合計数“qf”が少なくともしきい値である候補収録語になる。例えば、エンジン408が、第2の辞書412における候補収録語416をフィルタ処理する。
処理722及び処理724が完了した後で、第1の辞書及び第2の辞書のそれぞれは、候補収録語を有している。処理700は、最終の辞書を生成するために、重複する候補収録語を削除することによって、第1の辞書と第2の辞書とを併合する(718)。最終の辞書における候補収録語が、IME辞書に加えられる(720)。例えば、図4の併合エンジン414が、第1の辞書410と第2の辞書412とを併合するために使用され得ると共に、最終の辞書における候補収録語が、図2のIME辞書124に加えられ得る。
いくつかの具体化において、候補辞書収録語を特定するために中国語の書名記号を使用するのではなく、ハイパーテキストマークアップ言語(HTML)タイトルタグが、ウェブ文書から候補辞書収録語を特定するために使用され得る。例えば、1組のHTMLタグ“<title>”及び“</title>”は、HTML文書のタイトルを示す。“<title>”及び“</title>”のHTMLタグによって境界が示された文字列は、候補辞書収録語として特定され得ると共に、もししきい値基準が満たされる(例えば、文字列がウェブ文書において出現する回数がしきい値を超えている)ならば、辞書124に加えられ得る。
様々な具体化が説明されたが、他の具体化が、同様に使用され得る。例えば、ステップの順番が並び替えられた、ステップが追加された、またはステップが削除された、上述されたフローの様々な形式が使用され得る。更に、いくつかの具体化及び方法が説明されたが、多数の他の具体化が熟考されることが認識されるべきである。例えば、入力エンジン122は、欧米スタイルのキーボードからの合成入力を、入力された中国語文字、日本語文字、韓国語文字、及び/またはインド語文字に割り当てることが可能であり得る。いくつかの例において、説明されたいくつかの具体化または全ての具体化は、“Cangjie”入力方式、“Jiufang”入力方式、“Wubi”入力方式、または他の入力方式のような、他の入力方式に適用でき得る。異なるタイプの文書に関する加重値、及び文書のタイプの分類は、上述されたそれらと異なり得る。処理される単語及び熟語の数、及び文書コーパス402における文書のソースの数は、上述されたそれらと異なり得る。図7における処理722及び処理724は、順次に遂行され得る。いくつかの具体化において、エンジン406は、文書コーパス402における重複していない(non‐duplicative)文書420を特定し得ると共に、重複していない文書に基づいて、候補収録語及び関連する合計数を特定し得る。いくつかの具体化において、辞書124は、以前から存在している辞書から獲得された文字、単語、及び熟語を含むことができる。
いくつかの具体化において、図4の文脈信号ベースのエンジン406は、候補収録語422が各文書において発生する回数の関数として、その合計数が増加するように構成され得る。例えば、その合計数は、各文書に関する限界(例えば、3)まで、候補収録語422が同じ文書において発生するたびに、1つだけ増加し得る。従って、もし上限が3であり、そして候補収録語422が同じ文書において5回発生するならば、その合計数は、3つだけ増加する。例えば、そのカウントは、候補収録語422が同じ文書の中で発生する回数のログ関数として増加し得る。いくつかの具体化において、エンジン406は、候補収録語422が各文書において発生する位置の関数としてその合計数が増加するように構成される。例えば、もし候補収録語422が文書420の表題(または、電子メールメッセージの件名欄)に現れるならば、その合計数は、“1.5”だけ増加し得ると共に、候補収録語422が文書420の他の場所に現れるならば、その合計数は、“1”だけ増加し得る。文書420における候補収録語422の発生に基づいて合計数を変更する他の方法が、同様に使用され得る。
いくつかの具体化において、いくつかの辞書、例えば法律の辞書、医学辞典、科学辞典、及び一般的辞書が使用され得る。各辞書は、特定の分野と関連付けられた辞書に端を発することによって確立され得る。単語及び熟語判定エンジン400は、文書を有する文書コーパス、及び辞書と関連付けられた分野に対して付勢された検索照会を有する検索照会ログを処理するために使用される。例えば、法律の辞書における単語の確率値を規定するために、文書を有する文書コーパス及び法律の分野に対して付勢された検索照会を有する検索照会ログが使用され得る。IMEシステム120は、ユーザが、文字を入力するときに、興味のある分野(例えば、法律の分野、医学の分野、科学の分野)を選択することを可能にし得ると共に、候補単語は、興味のある分野に関係した辞書の中から選択され得る。
図8を参照すると、いくつかの具体化において、文脈信号ベースのエンジン406及び検索照会ベースのエンジン408は、1つの辞書800に書き込む。例えば、エンジン406は、文書420を処理すると共に、辞書800に対して候補収録語802を加えるか、もしくは候補収録語802を更新する。エンジン406によって処理される各候補収録語802は、文書420における候補収録語802の発生回数を表す文書発生合計数と関連付けられる。エンジン408は、検索照会418を処理すると共に、辞書800に対して候補収録語802を加えるか、もしくは候補収録語802を更新する。エンジン408によって処理される各候補収録語802は、照会合計数及びユーザセグメント化合計数と関連付けられる。
エンジン406及びエンジン408が、全ての文書420と検索照会418を、全ての候補収録語802及び関連する文書発生合計数、照会合計数、及びユーザセグメント化合計数を決定するように処理した後で、エンジン400は、辞書800から、以下のようにいくつかの基準が満たされる、例えば、
(1)文書発生合計数が第1のしきい値より小さい、
(2)ユーザセグメント化合計数が照会合計数以上である、もしくは、
(3)照会合計数が第2のしきい値未満である、
候補収録語802を削除する。残っている候補収録語802は、IME辞書124に加えられる。いくつかの具体化において、エンジン406及びエンジン408は、直接IME辞書124に書き込むことができると共に、辞書124において、収録語128を加え得るか、もしくは収録語128を更新し得るか、もしくは収録語128をフィルタ処理し得る。
この明細書で説明された主題、及び機能的動作の実施例は、デジタル電子回路構成か、もしくは、この明細書おいて開示された構成及びそれらの構成上の等価物を含むコンピュータソフトウェア、ファームウェア、またはハードウェアか、もしくは、それらの内の1つ以上の組み合わせにおいて実施され得る。この明細書で説明された主題の実施例は、1つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のための、もしくはデータ処理装置の動作を制御するための、実際のプログラム担体上に符号化して記録されたコンピュータプログラム命令の1つ以上のモジュールとして実施され得る。実際のプログラム担体は、伝搬信号(propagated signal)またはコンピュータ読み取り可能な媒体であり得る。伝搬信号は、人工的に生成された信号、例えば機械で生成された電気信号、光学信号、もしくは電磁気信号であると共に、それは、情報を、コンピュータによる実行のための適当な受信機装置に対する伝送用に符号化するように生成される。コンピュータ読み取り可能な媒体は、機械可読記憶装置、機械可読記憶回路基板、メモリ装置、機械可読伝搬信号を生じさせる組成物(composition of matter)、または、それらの内の1つ以上の組み合わせであり得る。
用語“データ処理装置”は、プログラム可能なプロセッサ、コンピュータ、もしくはマルチプロセッサまたはマルチコンピュータを一例として含む、データを処理するための全ての装置、機器、及び機械を包含する。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を作成するコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの内の1つ以上の組み合わせを構成するコードを備えることができる。
コンピュータプログラム(同様にプログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとして知られている)は、コンパイルされた言語または解釈された言語(interpreted language)、もしくは、宣言型言語または手続き型言語を含むあらゆる形式のプログラミング言語で書かれ得ると共に、それは、独立型プログラム、もしくは、モジュール、コンポーネント、サブルーチン、またはコンピュータ環境における使用に適当な他のユニットを含むあらゆる形式で配置され得る。コンピュータプログラムは、ファイルシステムにおけるファイルに必ずしも対応するとは限らない。プログラムは、他のプログラムまたはデータを保持するファイル(例えば、マークアップ言語文書に格納される1つ以上のスクリプト)の一部分に格納され得るか、問題のプログラム専用の単一のファイルに格納され得るか、または複数の組織的なファイル(例えば、1つ以上のモジュール、サブプログラム、またはコードの一部分を格納するファイル)に格納され得る。コンピュータプログラムは、1つのサイトに設置されるか、もしくは複数のサイトに横断して分散される、1つのコンピュータまたは複数のコンピュータ上で実行されるように配置され得ると共に、通信ネットワークによって相互に接続され得る。
この明細書で説明された処理及び論理フローは、入力データに基づいて動作すると共に出力を生成することによって機能を遂行するように1つ以上のコンピュータプログラムを実行する、1つ以上のプログラム可能なプロセッサによって遂行され得る。処理及び論理フローは、同様に、専用論理回路構成、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって遂行され得ると共に、装置は、同様に、そのような専用論理回路構成、例えばFPGAまたはASICとして実施され得る。
コンピュータプログラムの実行に適当なプロセッサは、一例として、一般的なマイクロプロセッサと特殊用途のマイクロプロセッサの両方、及びあらゆる種類のデジタルコンピュータのあらゆる1つ以上のプロセッサを含む。一般的に、プロセッサは、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から、命令及びデータを受け取ることになる。コンピュータの必須要素は、命令を遂行するためのプロセッサと、命令及びデータを格納するための1つ以上のメモリ装置である。一般的に、コンピュータは、更に、データを格納するための、例えば光磁気ディスク(magnetic optical discまたはmagneto optical disk)、もしくは光ディスクのような1つ以上の大容量記憶装置からデータを受信するか、またはそのような1つ以上の大容量記憶装置にデータを送信するか、またはその両方であるように、そのような1つ以上の大容量記憶装置を含むことになるか、もしくはそのような1つ以上の大容量記憶装置に対して動作可能に連結されることになる。しかしながら、コンピュータは、そのような装置を有している必要がない。更に、コンピュータは、別の装置、例えば2〜3例を挙げると、携帯電話、携帯情報機器(PDA)、携帯型オーディオまたはビデオプレーヤ、ゲームコンソール、全地球的測位システム(GPS)受信機に埋め込まれ得る。
コンピュータプログラム命令及びデータを格納することに適当なコンピュータ読み取り可能な媒体は、全ての形式の不揮発性のメモリ、媒体、及びメモリ装置を含み、それらは、一例として、例えばEPROM、EEPROM、及びフラッシュメモリ装置のような半導体メモリ装置、例えば内部ハードディスクまたは交換可能ディスクのような磁気ディスク、光磁気ディスク、そしてCD−ROMディスク及びDVD−ROMディスクを含んでいる。プロセッサ及びメモリは、専用論理回路構成によって補完され得るか、専用論理回路構成に併合され得る。
ユーザとの意志の疎通を提供するために、この明細書で説明された主題の実施例は、ユーザに対して情報を表示するための表示装置、例えばCRT(ブラウン管)モニタまたはLCD(液晶表示装置)モニタと、それによってユーザが入力をコンピュータに提供できるキーボード及びポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実施され得る。他の種類の装置が、同様に、ユーザとの意志の疎通を提供するために使用され得ると共に、また例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、そして、ユーザからの入力は、音響入力、音声入力、または触覚入力を含むあらゆる形式で受信され得る。
この明細書で説明された主題の実施例は、計算システムにおいて実施され得ると共に、例えば、計算システムは、例えばデータサーバのようなバックエンドコンポーネントを備えるか、もしくは、計算システムは、例えばアプリケーションサーバのようなミドルウェアコンポーネントを備えるか、もしくは、計算システムは、それを通してユーザがこの明細書で説明された主題の具体化と情報のやり取りをすることができる、例えばグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータのようなフロントエンドコンポーネントを備えるか、もしくは、計算システムは、1つ以上のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントのあらゆる組み合わせを備える。システムのコンポーネントは、デジタルデータ通信のあらゆる形式または媒体、例えば通信ネットワークによって、相互に接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、及び広域ネットワーク(WAN)、例えばインターネットを含む。
計算システムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に、相互から遠く離れており、そして通常は通信ネットワークによって情報のやり取りをする。クライアントとサーバの関係は、それぞれのコンピュータ上で動作すると共に、相互にクライアントとサーバの関係を有するコンピュータプログラムのおかげで発生する。
この明細書は、多数の実装時固有事項を含む一方、これらは、全ての発明の範囲及び特許請求の範囲における制限と解釈されるべきでなく、むしろ特定の発明の特定の実施例に特有であり得る特徴の説明であると解釈されるべきである。この明細書で説明される個別の実施例の文脈におけるいくつかの特徴は、同様に、単一の実施例の組み合わせにおいて実施され得る。逆に、単一の実施例の文脈で説明される様々な特徴は、同様に、複数の実施例において別々に実施され得るか、またはあらゆる適当な副次的な組み合わせにおいて実施され得る。更に、特徴が、いくつかの組み合わせにおける動作として上記において説明され得ると共に、そういうものとして初めに主張されるが、場合によっては、主張された組み合わせが提供する1つ以上の特徴を、組み合わせから削除することができると共に、主張された組み合わせは、副次的な組み合わせまたは副次的な組み合わせの変化したものを対象にし得る。
同様に、動作が図面において特定の順序で描写される一方、これは、望ましい結果を達成するために、そのような動作が示された特定の順序、または順次的な順序で実行されること、あるいは、全ての例証された動作が実行されること、を必要とするとして理解されるべきでない。いくつかの状況において、マルチタスク処理及び並列処理が有利であり得る。更に、上述の実施例における様々なシステムコンポーネントの分離は、全ての実施例においてそのような分離を必要とするとして理解されるべきでないと共に、それは、説明されたプログラムコンポーネント及びシステムは、一般的に、1つのソフトウェア製品に一緒に統合されるか、もしくは複数のソフトウェア製品に実装され得ると理解されるべきである。
この明細書で説明された主題の特別な実施例が説明された。他の実施例は、特許請求の範囲の中にある。例えば、請求項において列挙された動作は、異なる順序で行われ得ると共に、それでも望ましい結果が達成され得る。望ましい結果を達成するために、1つの例として、添付の図面において描写された処理は、説明された特定の順序、及び順次的な順序を必ずしも必要とするとは限らない。いくつかの具体化において、マルチタスク処理及び並列処理が有利であり得る。
100 実例装置
101 インプットメソッドエディタコード
102 処理装置
103 インプットメソッドエディタインスタンス
104 第1のデータストア
105 アプリケーションソフトウェア
106 第2のデータストア
107 アプリケーションインスタンス
108 入力装置
110 出力装置
112 ネットワークインタフェース
114 バスシステム
116 ネットワーク
118 遠隔計算システム
120 実例インプットメソッドエディタシステム
122 インプットメソッドエディタエンジン
124 辞書
126 合成入力テーブル
128 収録語
300 実例インプットメソッドエディタ環境
302 候補選択肢
304 ピンイン入力
308 選択インジケータ
400 単語及び熟語判定エンジン
402 文書コーパス
404 検索照会ログ
406 文脈信号ベースの判定エンジン
408 検索照会ベースの判定エンジン
410 第1の辞書
412 第2の辞書
414 併合エンジン
416 (候補)辞書収録語
418 検索照会
420 文書
422 (候補)辞書収録語
800 辞書
802 候補収録語

Claims (21)

  1. コンピュータで実行される方法であって、
    検索照会における候補単語を特定する段階と、
    各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定する段階と、
    前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階とを含み、
    各候補単語が、1つ以上の連続した文字を含む
    ことを特徴とする方法。
  2. 前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階が、
    前記第1の合計数が前記第2の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加える段階が、
    前記第1の合計数が前記第2の合計数より大きいと共に、前記第1の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む
    ことを特徴とする請求項1に記載の方法。
  4. 前記第2の合計数を決定する段階が、
    前記候補単語及び1つ以上の他の単語をそれぞれが含む検索照会の数を計数する段階を含み、
    前記検索照会において、前記候補単語及び前記1つ以上の他の単語が、前記検索照会を提示したユーザによって入力された1つ以上の空白または句読点によって分割されている
    ことを特徴とする請求項1に記載の方法。
  5. 検索ログから前記検索照会を獲得する段階を含む
    ことを特徴とする請求項1に記載の方法。
  6. 前記検索ログが、検索サービスのユーザによって提示された検索照会を含む
    ことを特徴とする請求項5に記載の方法。
  7. 検索照会を格納するためのデータストアと、
    前記検索照会における候補単語を特定し、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定し、前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えるための処理装置とを備え、
    各候補単語が、1つ以上の連続した文字を含む
    ことを特徴とするシステム。
  8. 前記処理装置が、前記第1の合計数が前記第2の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えることになっている
    ことを特徴とする請求項7に記載のシステム。
  9. 前記処理装置が、前記第1の合計数が前記第2の合計数より大きいと共に、前記第1の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えることになっている
    ことを特徴とする請求項7に記載のシステム。
  10. 前記処理装置が、前記候補単語及び1つ以上の他の単語をそれぞれが含む検索照会の数を計数することになっていると共に、
    前記検索照会において、前記候補単語及び前記1つ以上の他の単語が、前記検索照会を提示したユーザによって入力された1つ以上の空白または句読点によって分割されている
    ことを特徴とする請求項7に記載のシステム。
  11. 検索照会を格納するためのデータストアと、
    コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記検索照会における候補単語を特定させ、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定させると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定させ、前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えさせる命令を有する処理エンジンとを備え、
    各候補単語が、1つ以上の連続した文字を含む
    ことを特徴とするシステム。
  12. 前記処理エンジンが、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第1の合計数が前記第2の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する
    ことを特徴とする請求項11に記載のシステム。
  13. 前記処理エンジンが、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第1の合計数が前記第2の合計数より大きいと共に、前記第1の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する
    ことを特徴とする請求項11に記載のシステム。
  14. 前記処理エンジンが、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記候補単語及び1つ以上の他の単語をそれぞれが含む検索照会の数を計数させる命令を有し、
    前記検索照会において、前記候補単語及び前記1つ以上の他の単語が、前記検索照会を提示したユーザによって入力された1つ以上の空白または句読点によって分割されている
    ことを特徴とする請求項11に記載のシステム。
  15. 単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに存在する回数を示す第2の合計数とに基づいて特定される前記単語を有する辞書と、
    前記辞書の中から単語を選択するように構成されたインプットメソッドエディタと
    を備えることを特徴とする装置。
  16. 前記インプットメソッドエディタが、中国語のインプットメソッドエディタを含む
    ことを特徴とする請求項15に記載の装置。
  17. 前記単語が、“Hanzi”文字を含む
    ことを特徴とする請求項15に記載の装置。
  18. 単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数とに基づいて特定される前記単語を含む辞書を格納するためのデータストアと、
    コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、ユーザが前記辞書の中から単語を選択することを可能にするために、そのような実行によって前記処理装置にインプットメソッドエディタを提供させる命令を有する処理エンジンと
    を備えることを特徴とするシステム。
  19. 単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数とに基づいて特定される前記単語を含む辞書を格納するためのデータストアと、
    ユーザが前記辞書の中から単語を選択することを可能にするために、インプットメソッドエディタを提供する処理装置と
    を備えることを特徴とするシステム。
  20. 検索照会における候補単語を特定するための手段と、
    前記候補単語が前記検索照会における唯一の単語である回数を示す第1の合計数を決定すると共に、前記候補単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数を決定することによって、各候補単語を処理するための手段と、
    前記第1の合計数と前記第2の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えるための手段とを備え、
    各候補単語が、1つ以上の連続した文字を含む
    ことを特徴とするシステム。
  21. 候補単語を、前記単語が検索照会における唯一の単語である回数を示す第1の合計数と前記単語及び1つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第2の合計数とに基づいて特定するための手段と、
    インプットメソッドエディタ辞書に前記候補単語の内の1つ以上を加えるための手段と
    を備えることを特徴とするシステム。
JP2010511470A 2007-06-14 2007-06-14 辞書の単語及び熟語の判定 Active JP5241828B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2007/001870 WO2008151465A1 (en) 2007-06-14 2007-06-14 Dictionary word and phrase determination

Publications (2)

Publication Number Publication Date
JP2010529569A true JP2010529569A (ja) 2010-08-26
JP5241828B2 JP5241828B2 (ja) 2013-07-17

Family

ID=40129200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010511470A Active JP5241828B2 (ja) 2007-06-14 2007-06-14 辞書の単語及び熟語の判定

Country Status (5)

Country Link
US (1) US8010344B2 (ja)
JP (1) JP5241828B2 (ja)
KR (1) KR101465769B1 (ja)
CN (1) CN102124459B (ja)
WO (1) WO2008151465A1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8862989B2 (en) * 2008-06-25 2014-10-14 Microsoft Corporation Extensible input method editor dictionary
US20100185644A1 (en) * 2009-01-21 2010-07-22 Microsoft Corporatoin Automatic search suggestions from client-side, browser, history cache
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN101986309A (zh) * 2010-11-16 2011-03-16 无敌科技(西安)有限公司 查询题库的方法及装置
US8892584B1 (en) * 2011-03-28 2014-11-18 Symantec Corporation Systems and methods for identifying new words from a meta tag
WO2012159245A1 (en) * 2011-05-20 2012-11-29 Microsoft Corporation Displaying key pinyins
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
EP2891043A4 (en) 2012-08-31 2015-10-14 Microsoft Technology Licensing Llc PERSONAL LANGUAGE MODEL FOR AN INPUT PROCESSOR EDITOR
CN103279565A (zh) * 2013-06-14 2013-09-04 北京艾德思奇科技有限公司 广告投放追踪方法及系统
CN105580004A (zh) 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US9336195B2 (en) * 2013-08-27 2016-05-10 Nuance Communications, Inc. Method and system for dictionary noise removal
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
CN105814557A (zh) * 2013-12-09 2016-07-27 谷歌公司 用于提供文本的基于上下文的定义和翻译的系统和方法
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
CN107179838B (zh) * 2017-05-25 2019-07-26 维沃移动通信有限公司 一种候选词的显示方法及移动终端
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
KR102392385B1 (ko) * 2019-07-15 2022-04-29 주식회사 산엔지니어링 방송 또는 영화의 대본을 위한 참여 구조의 창작 시스템 및 그에 의한 대본의 공모 방법
US12001529B1 (en) * 2021-11-05 2024-06-04 Validate Me LLC Counting machine for manufacturing and validating event-relevant identities via an ensemble network

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5111398A (en) * 1988-11-21 1992-05-05 Xerox Corporation Processing natural language text using autonomous punctuational structure
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
US5548507A (en) 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5819265A (en) * 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
JP3556425B2 (ja) * 1997-03-18 2004-08-18 株式会社東芝 共有辞書更新方法および辞書サーバ
US6546383B1 (en) * 1999-06-09 2003-04-08 Ricoh Company, Ltd. Method and device for document retrieval
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US6687689B1 (en) * 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US6964014B1 (en) * 2001-02-15 2005-11-08 Networks Associates Technology, Inc. Method and system for localizing Web pages
JP2003178260A (ja) 2001-12-10 2003-06-27 Canon Inc データ処理方法
JP4558482B2 (ja) * 2002-06-05 2010-10-06 ス、ロンビン 各国語文字情報の最適化デジタル操作的コード化及び入力の方法、そして、その情報処理システム
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
US7315982B2 (en) * 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
TWI270792B (en) * 2003-03-28 2007-01-11 Lin-Shan Lee Speech-based information retrieval
CN100429648C (zh) * 2003-05-28 2008-10-29 洛昆多股份公司 一种文本自动分块的方法、分块器和文本到语言合成系统
CN1303564C (zh) 2003-06-12 2007-03-07 摩托罗拉公司 改进的电子设备中字符输入的识别方法
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
JP4120550B2 (ja) * 2003-09-29 2008-07-16 富士通株式会社 利用者辞書登録プログラム、装置、および方法
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
CN100487027C (zh) * 2004-03-09 2009-05-13 三菱化学株式会社 聚对苯二甲酸丁二醇酯颗粒、其复合制品和成型品及它们的制造方法
US7584175B2 (en) * 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND200001153019; 山口 哲弘: 'パソコン新技術大系 第8回 キーボードからの日本語入力とかな漢字変換の仕組み' 日経バイト 第193号, 19990722, pp.160-166, 日経BP社 *
JPN6012027313; 山口 哲弘: 'パソコン新技術大系 第8回 キーボードからの日本語入力とかな漢字変換の仕組み' 日経バイト 第193号, 19990722, pp.160-166, 日経BP社 *

Also Published As

Publication number Publication date
US20080312910A1 (en) 2008-12-18
KR101465769B1 (ko) 2014-11-27
US8010344B2 (en) 2011-08-30
KR20100047221A (ko) 2010-05-07
CN102124459A (zh) 2011-07-13
CN102124459B (zh) 2013-06-12
WO2008151465A1 (en) 2008-12-18
JP5241828B2 (ja) 2013-07-17

Similar Documents

Publication Publication Date Title
JP5241828B2 (ja) 辞書の単語及び熟語の判定
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US8412517B2 (en) Dictionary word and phrase determination
US8812300B2 (en) Identifying related names
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US8463598B2 (en) Word detection
KR101465770B1 (ko) 단어 확률 결정
US8731901B2 (en) Context aware back-transliteration and translation of names and common phrases using web resources
JP5379138B2 (ja) 領域辞書の作成
WO2015084759A1 (en) Systems and methods for in-memory database search
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
KR20070098252A (ko) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
US10242033B2 (en) Extrapolative search techniques
TW200422874A (en) Graphical feedback for semantic interpretation of text and images
Alexander et al. Metaphor, popular science, and semantic tagging: Distant reading with the Historical Thesaurus of English
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
Freihat et al. Towards an optimal solution to lemmatization in Arabic
Camps et al. Handling heavily abbreviated manuscripts: Htr engines vs text normalisation approaches
JP2005063185A (ja) 文書検索システム、質問応答システム、文書検索方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
Efremova et al. A geo-tagging framework for address extraction from web pages
CN104516941A (zh) 相关文档检索装置、方法及程序
JP2000339342A (ja) 文書検索方法および文書検索装置
Alam et al. Improving accessibility of archived raster dictionaries of complex script languages
Olsen et al. A proofreading tool using brute force techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130402

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5241828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250