JP2010529569A

JP2010529569A - 辞書の単語及び熟語の判定

Info

Publication number: JP2010529569A
Application number: JP2010511470A
Authority: JP
Inventors: ポ・チャン
Original assignee: グーグル・インコーポレーテッド
Priority date: 2007-06-14
Filing date: 2007-06-14
Publication date: 2010-08-26
Anticipated expiration: 2027-06-14
Also published as: US20080312910A1; KR101465769B1; US8010344B2; KR20100047221A; CN102124459A; CN102124459B; WO2008151465A1; JP5241828B2

Abstract

方法は、検索照会における候補単語を特定する段階と、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する段階とを含み、各候補単語は、１つ以上の連続した文字を含む。前記方法は、前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階を含む。

Description

この開示は、入力方式（インプットメソッド：input methods）に関係する。

１つまたは２つの文字、例えばグリフ（glyph）が１つの単語か意味におおよそ対応する表語文字スクリプト（logographic script）を使用する言語は、例えばモバイル機器（携帯機器）のキーパッド上のコンピュータキーボード等の標準の入力装置の上のキーより多くの文字を有する。例えば、中国語は、基本のピンイン（Pinyin）文字及び５つのトーン（tone）によって定義された何千もの文字を含む。これらの多対１結合のマッピングは、入力装置上で発見されなかった文字及び記号の入力を容易にする入力方式によって実現され得る。従って、欧米スタイルのキーボードは、中国語文字、日本語文字、または韓国語文字を入力するために使用され得る。いくつかの例において、インプットメソッドエディタ（input method editor：ＩＭＥ）が、ユーザによってタイプされたピンイン文字に対応する候補文字、候補単語、または候補熟語を発見するように辞書を検索するために使用され得る。

１つの特徴において、概して、コンピュータで実行される方法は、検索照会における候補単語を特定する段階と、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する段階とを含み、各候補単語は、１つ以上の連続した文字を含む。前記方法は、前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階を含む。

前記方法の実施は、以下の特徴の内の１つ以上を含むことができる。前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階は、前記第１の合計数が前記第２の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む。前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階は、前記第１の合計数が前記第２の合計数より大きいと共に、前記第１の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む。前記第２の合計数を決定する段階は、前記候補単語及び１つ以上の他の単語をそれぞれが含む検索照会の数を計数する段階を含み、前記検索照会において、前記候補単語及び前記１つ以上の他の単語は、前記検索照会を提示したユーザによって入力された１つ以上の空白（white space）または句読点によって分割されている。前記方法は、検索ログから前記検索照会を獲得する段階を含む。前記検索ログは、検索サービスのユーザによって提示された検索照会を含む。

別の特徴において、概して、装置は、検索照会を格納するためのデータストアと、前記検索照会における候補単語を特定するための処理装置とを備え、各候補単語は、１つ以上の連続した文字を含む。各候補単語に関して、前記処理装置は、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する。前記処理装置は、前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える。

前記装置の実施は、以下の特徴の内の１つ以上を含むことができる。前記処理装置は、前記第１の合計数が前記第２の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える。前記処理装置は、前記第１の合計数が前記第２の合計数より大きいと共に、前記第１の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える。前記処理装置は、前記候補単語及び１つ以上の他の単語をそれぞれが含む検索照会の数を計数すると共に、前記検索照会において、前記候補単語及び前記１つ以上の他の単語は、前記検索照会を提示したユーザによって入力された１つ以上の空白または句読点によって分割されている。

別の特徴において、概して、システムは、検索照会を格納するためのデータストアと、コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記検索照会における候補単語を特定させる命令を有する処理エンジンとを備え、各候補単語は、１つ以上の連続した文字を含む。前記処理エンジンは、実行によって前記処理装置に、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定させると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定させる命令を有する。前記処理エンジンは、実行によって前記処理装置に、前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えさせる命令を有する。

前記システムの実施は、以下の特徴の内の１つ以上を含むことができる。前記処理エンジンは、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第１の合計数が前記第２の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する。前記処理エンジンは、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第１の合計数が前記第２の合計数より大きいと共に、前記第１の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する。前記処理エンジンは、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記候補単語及び１つ以上の他の単語をそれぞれが含む検索照会の数を計数させる命令を有し、前記検索照会において、前記候補単語及び前記１つ以上の他の単語は、前記検索照会を提示したユーザによって入力された１つ以上の空白または句読点によって分割されている。

別の特徴において、概して、装置は、単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに存在する回数を示す第２の合計数とに基づいて特定される前記単語を有する辞書を備える。前記装置は、前記辞書の中から単語を選択するように構成されたインプットメソッドエディタを備える。

前記装置の実施は、以下の特徴の内の１つ以上を含むことができる。前記インプットメソッドエディタは、中国語のインプットメソッドエディタを含む。前記単語は、“Ｈａｎｚｉ”文字を含む。前記検索照会は、検索ログから特定される。

別の特徴において、概して、システムは、データストアと、処理エンジンとを備える。前記データストアは、単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数とに基づいて特定される前記単語を含む辞書を格納する。前記処理エンジンは、コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、ユーザが前記辞書の中から単語を選択することを可能にするために、そのような実行によって前記処理装置にインプットメソッドエディタを提供させる命令を有する。

別の特徴において、概して、システムは、データストアと、処理エンジンとを備える。前記データストアは、単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数とに基づいて特定される前記単語を含む辞書を格納する。前記処理エンジンは、ユーザが前記辞書の中から単語を選択することを可能にするために、処理装置に、インプットメソッドエディタを提供させる。

別の特徴において、概して、システムは、候補単語を、前記単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数とに基づいて特定するための手段と、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えるための手段とを備える。

別の特徴において、概して、コンピュータで実行される方法は、文書における文脈信号（context signal）を特定する段階と、前記文脈信号によって境界が示された文字を特定する段階と、前記文脈信号によって境界が示された文字により定義される１つ以上の候補単語を特定する段階と、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階とを含む。

前記方法の実施は、以下の特徴の内の１つ以上を含むことができる。前記文書における文脈信号を特定する段階は、中国語の書名記号（book title mark）を特定する段階を含む。前記文脈信号によって境界が示された文字を特定する段階は、前記文脈信号によって境界が示された“Ｈａｎｚｉ”文字を特定する段階を含む。前記候補単語は、中国語の単語を含む。前記文書における文脈信号を特定する段階は、電子文書におけるハイパーテキストマークアップ言語のタグを特定する段階を含む。前記インプットメソッドエディタ辞書は、中国語のインプットメソッドエディタ辞書を含む。前記方法は、各候補単語の合計数を決定する段階を含む。前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階は、前記インプットメソッドエディタ辞書にしきい値を超える合計数を有する候補単語を加える段階を含む。前記文書における文脈信号を特定する段階は、重複していない（non‐duplicative）文書を特定する段階を含む。前記各候補単語の合計数を決定する段階は、重複していない文書だけに基づいて各候補単語の合計数を決定する段階を含む。前記文書は、インターネットから獲得されたウェブ文書を含む。前記方法は、検索照会における候補単語を特定する段階と、前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階とを含む。前記検索照会における候補単語を特定する段階は、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する段階を含む。前記検索照会における候補単語を特定する段階は、前記第１の合計数と前記第２の合計数との間の関係に基づいて、前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階を含む。

別の特徴において、概して、コンピュータで実行される方法は、文書における複数の組の中国語の書名記号を特定する段階と、各１組の中国語の書名記号によって表されている１つ以上の文字により定義される候補単語を特定する段階と、インプットメソッドエディタ辞書に１つ以上の候補単語を加える段階とを含む。

前記方法の実施は、以下の特徴の内の１つ以上を含むことができる。中国語の書名記号は、単一の（一重の）書名記号か、もしくは二重の書名記号を含む。前記方法は、各候補単語の合計数を決定する段階を含む。前記インプットメソッドエディタ辞書に１つ以上の候補単語を加える段階は、前記インプットメソッドエディタ辞書にしきい値を超える合計数を有する候補単語を加える段階を含む。前記方法は、検索照会における候補単語を特定する段階と、前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階とを含む。前記検索照会における候補単語を特定する段階は、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する段階を含む。前記検索照会における候補単語を特定する段階は、前記第１の合計数と前記第２の合計数との間の関係に基づいて、前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階を含む。

別の特徴において、概して、方法は、文脈信号によって境界が示された文字に基づいて特定される単語を有する辞書を確立する段階と、前記辞書の中から単語を選択するように構成されたインプットメソッドエディタを提供する段階と含む。

前記方法の実施は、以下の特徴の内の１つ以上を含むことができる。前記辞書を確立する段階は、中国語の書名記号によって境界が示された文字に基づいて単語を特定する段階を含む。

別の特徴において、概して、装置は、文書内で発見された文字に関連付けられた候補単語に基づいて特定された単語を有する辞書を備え、各候補単語は、１組の中国語の書名記号によって周囲を囲まれた１つ以上の文字と関連付けられる。前記装置は、前記辞書の中から単語を選択するように構成されたインプットメソッドエディタを備える。

前記装置の実施は、以下の特徴の内の１つ以上を含むことができる。前記候補単語は、“Ｈａｎｚｉ”文字を含む。中国語の書名記号は、少なくとも単一の（一重の）書名記号か、もしくは二重の書名記号を含む。前記辞書は、単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに存在する回数を示す第２の合計数とに基づいて特定される前記単語を含む。

別の特徴において、概して、システムは、データストアと、処理エンジンとを備える。前記データストアは、文書コーパス（document corpus）を格納する。前記処理エンジンは、コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、そのような実行によって前記処理装置に、文書コーパスの文書内の文字を発見することによって候補単語を特定させると共に、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えさせる命令を有し、前記文字は、１組の中国語の書名記号によって周囲を囲まれている。

別の特徴において、概して、システムは、データストアと、前記処理装置とを備える。前記データストアは、文書コーパスを格納する。前記処理装置は、文書コーパス内の文書における文字を発見することによって候補単語を特定すると共に、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加え、前記文字は、１組の中国語の書名記号によって周囲を囲まれている。

別の特徴において、概して、システムは、文書における文脈信号を特定するための手段と、前記文脈信号によって境界が示された文字を特定するための手段と、前記文脈信号によって境界が示された文字により定義される１つ以上の候補単語を特定するための手段と、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えるための手段とを備える。

別の特徴において、概して、システムは、文書における複数の組の中国語の書名記号を特定するための手段と、各１組の中国語の書名記号によって境界が示された１つ以上の文字の文字列を特定するための手段と、前記１つ以上の文字の文字列によって定義された候補単語を特定するための手段と、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えるための手段とを備える。

ここに開示されたシステム及び方法は、以下の利点の内の１つ以上を備え得る。辞書は、文書及び照会ログのコーパスに基づいて、自動的に確立され得るか、もしくは拡張され得る。辞書を利用するＩＭＥは、選択に関して、候補単語のより正確な特定を提供し得る。更に、ここに開示されたシステム及び方法を使用することによって、前記辞書が効率的に更新されることができると共に、表語文字スクリプト、例えば中国語文字をコンピュータ処理するための速度と効率が改善されることができ、従って、ユーザの表語文字スクリプトの入力速度が増加し得る。

ここに説明されたシステム及び方法を実施するために使用され得る実例装置の構成図である。実例エディタシステムの構成図である。実例インプットメソッドエディタ環境の図である。実例単語及び熟語判定エンジンの図である。文書コーパスに基づいて単語及び熟語を判定するための実例処理のフローチャートである。検索照会ログに基づいて単語及び熟語を判定するための実例処理のフローチャートである。単語及び熟語を判定するための実例処理のフローチャートである。実例単語及び熟語判定エンジンの図である。

この明細書で説明された主題の１つ以上の実施例の詳細は、以下の添付図面及び説明に示される。主題の他の特性（feature）、特徴（aspect）、及び利点は、説明、図面、及び請求項から明白になるであろう。

様々な図における同等の参照符号及び記号表示は、同等の要素を示す。

図１は、ここに説明されたシステム及び方法を実施するために使用され得る実例装置１００の構成図である。例えば、装置１００は、パーソナルコンピュータ装置、または、携帯電話、移動体通信装置、携帯情報機器（ＰＤＡ）等のような他の電子機器等のコンピュータ装置において実施され得る。

実例装置１００は、処理装置１０２、第１のデータストア１０４、第２のデータストア１０６、入力装置１０８、出力装置１１０、及びネットワークインタフェース１１２を備える。例えば、データバス及びマザーボードを含むバスシステム１１４は、コンポーネント１０２、１０４、１０６、１０８、１１０、及び１１２の間に制御データ通信を確立するために使用され得る。他の実例システムアーキテクチャが、同様に使用され得る。

例えば、処理装置１０２は、１つ以上のマイクロプロセッサを備えることができる。例えば、第１のデータストア１０４は、ダイナミックランダムアクセスメモリのようなランダムアクセスメモリ記憶装置か、または他のタイプのコンピュータ読み取り可能媒体メモリ装置を含むことができる。例えば、第２のデータストア１０６は、１つ以上のハードドライブ、フラッシュメモリ、及び／または、読み取り専用メモリ、または他のタイプのコンピュータ読み取り可能媒体メモリ装置を含むことができる。

実例入力装置１０８は、キーボード、マウス、スタイラス等を含むことができると共に、実例出力装置１１０は、表示装置、オーディオ装置等を含むことができる。例えば、ネットワークインタフェース１１２は、ネットワーク１１６に対して、またはネットワーク１１６からデータを通信するように動作可能な有線または無線ネットワーク装置を含むことができる。ネットワーク１１６は、インターネットのような、１つ以上のローカルエリアネットワーク（ＬＡＮ）及び／または広域ネットワーク（ＷＡＮ）を含むことができる。

いくつかの具体化において、装置１００は、インプットメソッドエディタ（ＩＭＥ）コード１０１を、データストア１０６のようなデータストアに含むことができる。インプットメソッドエディタコード１０１は、実行によって処理装置１０２にインプットメソッドエディタ機能を実行させる命令により定義され得る。具体化において、例えば、インプットメソッドエディタコード１０１は、スクリプト命令、例えばウェブブラウザ環境において実行され得るＪａｖａ（登録商標）スクリプトもしくはＥＣＭＡスクリプト命令のような、解釈された命令（interpreted instruction）を含むことができる。例えばコンパイルされた命令、スタンドアロン（独立型）アプリケーション、アプレット、プラグインモジュール等の、他の具体化が更に使用され得る。

インプットメソッドエディタコード１０１の実行は、インプットメソッドエディタインスタンス１０３を生成するか、もしくは起動する。インプットメソッドエディタインスタンス１０３は、インプットメソッドエディタ環境、例えばユーザインタフェースを定義し得ると共に、その時間の間に、装置１００が、例えばＨａｎｚｉ文字のような、入力文字、表意文字、または記号に関する合成入力（composition input）を受け取ることができる、装置１００における１つ以上の入力方式の処理を容易にし得る。例えば、ユーザは、Ｈａｎｚｉ文字の特定のための合成入力を入力するために、入力装置１０８（例えば、欧米スタイルのキーボードのようなキーボード、手書き文字認識エンジンを有するスタイラス等）の内の１つ以上を使用することができる。いくつかの例において、Ｈａｎｚｉ文字は、２つ以上の合成入力と関連付けられ得る。

第１のデータストア１０４及び／または第２のデータストア１０６は、合成入力と文字の組み合わせを格納し得る。ユーザ入力に基づいて、インプットメソッドエディタインスタンス１０３は、入力によって表された１つ以上の候補文字を特定するために、データストア１０４及び／またはデータストア１０６内の情報を使用することができる。いくつかの具体化において、もし２つ以上の候補文字が特定されるならば、候補文字は、出力装置１１０上に表示される。入力装置１０８を使用して、ユーザは、そのユーザが入力することを望むＨａｎｚｉ文字を候補文字の中から選択し得る。

いくつかの具体化において、装置１００上のインプットメソッドエディタインスタンス１０３は、１つ以上のピンイン（Pinyin）合成入力を受けとると共に、合成入力をＨａｎｚｉ文字に変換し得る。例えば、インプットメソッドエディタインスタンス１０３は、Ｈａｎｚｉ文字を表すために、キーストロークから受け取られたピンイン音節またはピンイン文字の合成物を使用することができる。例えば、各ピンイン音節は、欧米スタイルのキーボードにおけるキーに対応し得る。ピンインインプットメソッドエディタを使用して、ユーザは、Ｈａｎｚｉ文字の発音を表す１つ以上のピンイン音節を含む合成入力を使用することによって、Ｈａｎｚｉ文字を入力することができる。ピンインＩＭＥを使用して、ユーザは、更に、Ｈａｎｚｉ文字の発音を表す２つ以上のピンイン音節を含む合成入力を使用することによって、２つ以上のＨａｎｚｉ文字を含む単語を入力することができる。しかしながら、他の言語のための入力方式が、同様に容易になり得る。

ウェブブラウザ、ワードプロセッシングプログラム、電子メールクライアント等を含む他のアプリケーションソフトウェア１０５が、同様に、データストア１０４及び／またはデータストア１０６に格納され得る。これらのアプリケーションのそれぞれは、対応するアプリケーションインスタンス１０７を生成することができる。各アプリケーションインスタンスは、データをユーザに提示すると共に、ユーザからのデータ入力を容易にすることによって、ユーザ経験を容易にし得る環境を定義し得る。例えば、ウェブブラウザソフトウェアは、検索エンジン環境を生成することができ、電子メールソフトウェアは、電子メール環境を生成することができ、ワードプロセッシングプログラムは、エディタ環境を生成することができる、等が挙げられる。

いくつかの具体化において、装置１００に対してアクセスすることができる遠隔計算システム１１８が、同様に、表語文字スクリプトを編集するために使用され得る。例えば、装置１００は、ネットワーク１１６を介して表語文字スクリプト編集機能を提供するサーバであり得る。いくつかの例において、ユーザは、遠隔計算システム、例えばクライアントコンピュータを用いて、データストア１０４及び／またはデータストア１０６に格納された表語文字スクリプトを編集し得る。例えば、装置１００は、文字を選択することができると共に、ネットワークインタフェース１１２を介してユーザからの合成入力を受け取ることができる。例えば、処理装置１０２は、選択された文字に隣接する１つ以上の文字を特定することができると共に、受け取られた合成入力及び隣接する文字に基づいて、１つ以上の候補文字を特定することができる。装置１００は、もとの遠隔計算システムに対して、候補文字を含むデータ通知を送信することができる。

図２は、実例インプットメソッドエディタシステム１２０の構成図である。例えば、インプットメソッドエディタシステム１２０は、インプットメソッドエディタコード１０１及び関連するデータストア１０４及びデータストア１０６を用いて実施され得る。インプットメソッドエディタシステム１２０は、インプットメソッドエディタエンジン１２２、辞書１２４、及び合成入力テーブル１２６を備える。他のストレージアーキテクチャが同様に使用され得る。ユーザは、例えばＰｉｎｙｉｎ文字をタイプすることによって中国語の単語または熟語を入力するために、ＩＭＥシステム１２０を使用することができると共に、ＩＭＥエンジン１２２は、それぞれがピンイン文字に適合する１つ以上の中国語の単語または熟語を含む候補辞書収録語（entry）を特定するために、辞書１２４を検索することになる。

辞書１２４は、１つ以上の言語モデルにおいて使用される表語文字スクリプトの文字、単語、または熟語、そして例えば、英語、ドイツ語、スペイン語などの、ローマ字ベースまたは西洋スタイルのアルファベットにおける文字、単語、及び熟語に対応する収録語１２８を含んでいる。各単語は、意味に対応すると共に、１つ以上の文字を含み得る。例えば、単語（“苹果”）は、“りんご”という意味を有し、２つのＨａｎｚｉ文字“苹”と“果”を含み、それはピンイン入力“ping”と“guo”にそれぞれ対応している。文字“果”は、同様に、“果物”という意味を有する単語である。辞書収録語１２８は、例えば、それぞれが１つ以上の文字を含む、慣用句（例えば、“胸有成竹”）、固有名詞（例えば、“奥地利共和国”）、歴史的人物または有名人の名前（例えば、“成吉思汗”）、技術用語

熟語

本の題名（書名）

芸術作品の題名

または、映画の題名

等を含み得る。

同様に、辞書収録語１２８は、例えば、地理的主体（geographical entity）または国家の名前、ビジネス関連の名前、教育機関の名前、動物または植物の名前、機械の名前、歌の名前、演劇の題名、ソフトウェアプログラムの名前、消費者製品の名前、等を含み得る。例えば、辞書１２４は、何千もの文字、単語、及び熟語を含み得る。

いくつかの具体化において、辞書１２４は、文字の間の関係に関する情報を含む。例えば、辞書１２４は、文字に隣接する他の文字に応じて該文字に割り当てられたスコアまたは確率値を含むことができる。辞書１２４は、概してどのくらいの頻度で収録語１２８が使用されるかを示すために、それぞれが辞書収録語１２８の内の１つと関連する収録語スコアもしくは収録語確率値を含むことができる。

合成入力データストア１２６は、合成入力と辞書１２４に格納される収録語１２８との関連付けを含む。いくつかの具体化において、合成入力データストア１２６は、辞書１２４内の収録語１２８のそれぞれを、インプットメソッドエディタエンジン１２２によって使用される合成入力（例えば、ピンイン入力）に結び付けることができる。例えば、インプットメソッドエディタエンジン１２２は、辞書１２４内の１つ以上の収録語１２８を、合成入力データストア１２６内の１つ以上の合成入力と結び付けるか、及び／または同一であると見なすために、辞書１２４及び合成入力データストア１２６内の情報を使用することができる。他の関連付けが、同様に使用され得る。

いくつかの具体化において、ＩＭＥシステム１２０における候補選択肢は、階級に従い、インプットメソッドエディタにおいて順位付けされて提示され得る。

図３は、５つの順位付けされた候補選択肢３０２を提示する実例インプットメソッドエディタ環境３００の図である。各候補選択肢は、辞書収録語１２８または辞書収録語１２８の組み合わせであり得る。候補選択肢３０２は、ピンイン入力３０４に基づいて特定される。選択インジケータ３０８は、第１の候補選択肢、すなわち“谷歌”を囲み、第１の候補選択肢が選択されたことを示す。ユーザは、更に、候補選択肢を選択するために数字キーを使用することができるか、または候補選択肢を選択するのに選択インジケータ３０８を動かすために上下方向の矢印キーを使用することができる。

上述のように、ＩＭＥエンジン１２２は、ユーザによって入力されたピンイン文字と関連する候補収録語を特定するために、辞書１２４にアクセスする。辞書１２４は、定期的に新しい単語または名称によって更新され得る。例えば、ＩＭＥシステム１２０のユーザによって一般的にタイプされる名称及び単語は、社会におけるニュースイベント及び変化に応えて、時を経て変わり得る。いくつかの具体化において、辞書１２４は、文書または検索照会から特定される文字、単語、及び熟語に基づいて確立され得るか、及び／または更新され得る。

図４は、辞書収録語１２８（例えば、中国語の文字、単語、及び熟語）を特定する単語及び熟語判定エンジン４００の実例の図である。いくつかの具体化において、エンジン４００は、文脈信号ベースの判定エンジン４０６及び／または検索照会ベースの判定エンジン４０８を使用して、中国語の単語及び熟語を特定する。文脈信号ベースの判定エンジン４０６は、文脈信号を使用して単語及び熟語を特定するように、文書コーパス４０２における文書４２０を処理する。検索照会ベースの判定エンジン４０８は、検索照会において単語または熟語が単独で出現するか、あるいは１つ以上の他の単語または熟語と組み合わされて出現するかに基づいて中国語の単語及び熟語を特定するために、検索照会ログ４０４内の検索照会４１８を検索する。特定された単語及び熟語は、併合エンジン４１４において併合されると共に、辞書１２４に収録語１２８として加えられ得る。いくつかの具体化において、更新方法の内の１つだけが使用され得ると共に、例えば、辞書１２４は、文書コーパス４０２か、または検索照会ログ４０４のいずれかの使用によって更新され得る。

いくつかの具体化において、文脈信号ベースの判定エンジン４０６は、境界が示された内容を特定する文脈信号を使用して、文書４２０から候補辞書収録語４２２を判定するように構成される。実例文脈信号は、例えばクォーテーションマーク（引用符）、特別な識別子文字（special identifier character）、下線等の、記号、文字、ハイパーテキストマークアップ言語タグ、及び／または境界が示された内容を特定する書式設定を含む。

実例文脈信号は、中国語の二重の書名記号、例えば“<< >>”か、及び／または中国語の単一の（一重の）書名記号、例えば“< >”を含むことができる。中国語の書名記号は、一般的に、文書及び／または文化的な著作物、例えば、本、論文、新聞、機関誌、及び雑誌の題名または名称を表すために使用される。中国語の書名記号は、同様に、例えば歌、映画、テレビショー、演劇、オペラ、ドラマ、交響曲、ダンス、絵、法令、及び規則等のような、文化的な著作物の題名または名称を表すために使用され得る。例えば、書名記号は、複数の題名を特定し得ると共に、例えば第１の題名が第２の題名を含む場合、第１の題名が二重の書名記号を用いて表されると共に、第２の題名が単一の書名記号を用いて表される。

中国語の書名記号は、単語または熟語の境界を明らかにする文脈信号である。従って、１つ以上の文字（例えば、Ｈａｎｚｉ文字）が一組の中国語の書名記号の中に出現するとき、１つ以上の文字が１つ以上の単語または熟語に対応する可能性が高い。中国語の書名記号によって表されている文化的な著作物の名称または題名の以下の例、

は、実例である。

例えば、文書４２０は、ネットワークを介してアクセスされ得る文書を含むことができる。例えば、文書４２０は、ウェブページ、電子本（e-books）、機関誌論文、電子メールメッセージ、広告、インスタントメッセージ、ブログ、法文書、または他のタイプの文書を含むことができる。文書コーパス４０２は、ニュース、文学、映画、音楽、政治論争、科学的発見、法律上の問題、健康問題、環境問題等のような、多種多様な主題を包含する文書４２０を含み得る。文書コーパス４０２は、例えば、企業のイントラネットまたは公のインターネットのようなローカルエリアネットワークまたは広域ネットワークから文書４２０を収集することによって確立され得る。処理される文書４２０の数は、従って、何百万もの文書の範囲か、またはそれ以上であり得る。例えば、文書４２０は、Ｈａｎｚｉ文字、英文字、数字、句読点、記号、ＨＴＭＬコード等を含み得る。例えば、文学作品の電子収集物、電子図書館等のような他の文書が、同様に使用され得る。

いくつかの具体化において、文脈信号ベースの判定エンジン４０６は、１組の中国語の書名記号を特定するために、文書４２０のそれぞれをスキャンする。特定された中国語の書名記号の各組に関して、エンジン４０６は、文字列、例えば１組の中国語の書名記号によって境界が示された１つ以上のＨａｎｚｉにより定義された候補収録語４２２を特定すると共に、候補収録語４２２を第１の辞書４１０に加える。候補収録語４２２は、１つ以上の単語または熟語を含み得る。もし一組の中国語の書名記号の中の用語がハイフンまたはコロンのような句読点によって分離されているならば、その用語は、２つの分離された用語のように扱われ得る。例えば、エンジン４０６は、

を処理し得ると共に、

が一方の候補収録語４２２であり、

が他方の候補収録語４２２であるとして、２つの候補収録語４２２が存在すると判定し得る。

各候補収録語４２２は、文書４２０における候補収録語４２２の発生回数を表す合計数と関連付けられる。いくつかの具体化において、エンジン４０６は、同じ文書４２０における候補収録語４２２のそれぞれの発生によって合計数が１つだけ増加するように構成される。従って、例えば、もし候補収録語４２２が１つの文書４２０において３回発生すると共に、別の文書４２０において５回発生するならば、候補収録語に関する合計数は８つだけ増加する。いくつかの具体化において、エンジン４０６は、候補収録語４２２が各文書の中で発生する回数に関係なく、候補収録語４２２が個別の文書において発生するたびに、合計数が１つだけ増加するように構成される。この場合、例えば、もし候補収録語４２２が１つの文書４２０において３回発生すると共に、別の文書４２０において５回発生するならば、候補収録語に関連付けられた合計数は２つだけ増加する。

いくつかの具体化において、エンジン４０６は、中国語の文字の境界を示すと共に、他の言語の文字の境界を示さない中国語の書名記号の複数の組を特定する。この場合、もし１組の中国語の書名記号が、中国語の単語及び英語の単語の境界を示すならば、中国語の単語は、候補収録語であると見なされない。いくつかの具体化において、エンジン４０６は、中国語の書名記号によって境界が示されたテキストを、非中国語文字を削除するように処理すると共に、残っている中国語文字を候補収録語４２２として第１の辞書４１０に加える。

いくつかの具体化において、エンジン４０６は、各候補収録語４２２に含まれる文字数に対する範囲を設定する。例えば、エンジン４０６は、各候補収録語４２２が、少なくとも３つの中国語文字を有すると共に、１０個を超える中国語文字を有していないことを必要とし得る。

中国語の書名記号によって表されている全ての候補収録語４２２を特定するように文書４２０全てを処理した後で、エンジン４０６は、しきい値より少ない合計数を有する候補収録語を削除するように、候補収録語４２２をフィルタ処理する。いくつかの具体化において、しきい値は、２０〜４０の間、例えば３０に設定され得る。例えば、しきい値は、エラーを含むか、めったに使用されない単語または熟語を有するか、または他の理由のためにまれに発生する候補収録語４２２を削除するために利用され得る。

いくつかの具体化において、検索照会ベースの判定エンジン４０８は、検索照会ログ４０４から候補辞書収録語４１６を特定するように構成される。検索照会ログ４０４は、一定期間に渡って１つ以上の検索サービス（例えば、“Ｇｏｏｇｌｅ検索”）の複数のユーザによって提示された検索照会４１８を含むことができる。エンジン４０８は、検索照会４１８内の連続した文字列を発見することによって候補収録語４１６を特定する。検索照会４１８は、検索照会４１８を提示したユーザによって入力された１つ以上の空白または句読点によって分離される１つ以上の候補収録語４１６を含み得る。例えば、検索照会

は、空白によって分離された熟語

及び

を含む。それぞれの熟語

及び

は、エンジン４０８により候補収録語４１６として特定される。

いくつかの具体化において、エンジン４０８は、２つの合計数、照会合計数“ｑｆ”及びユーザセグメント化合計数“ｓｆ”を、各候補収録語４１６に割り当てる。照会合計数“ｑｆ”は、候補収録語４１６が検索照会における唯一の単語または熟語である回数を表すために使用される。例えば、収録語

と関連付けられた照会合計数“ｑｆ”は、単語

だけを含む検索照会４１８の数を表す。ユーザセグメント化合計数“ｓｆ”は、それぞれが候補収録語４１６及び１つ以上の他の単語または熟語を含む検索照会４１８の数を表すために使用されると共に、ここで、候補収録語４１６及び１つ以上の他の単語または熟語は、例えば、検索照会を提示したユーザによって入力された１つ以上の空白または句読点によって分離され得る。候補収録語４１６、及び関連する照会合計数“ｑｆ”及びユーザセグメント化合計数“ｓｆ”は、第２の辞書４１２に格納される。

例えば、もしエンジン４０８が、

を含む検索照会４１８を発見するならば、候補収録語

に関するユーザセグメント化合計数“ｓｆ”が、１つだけ増やされると共に、候補収録語

に関するユーザセグメント化合計数“ｓｆ”も、同様に、１つだけ増やされる。もしエンジン４０８が、

だけを含む検索照会４１８を発見するならば、候補収録語

に関する照会合計数“ｑｆ”が、１つだけ増やされる。

エンジン４０８が、候補収録語４１６の全て、及び関連する照会合計数“ｑｆ”及びユーザセグメント化合計数“ｓｆ”を決定するために、検索照会の全てを処理した後で、エンジン４０８は、ユーザセグメント化合計数“ｓｆ”が照会合計数“ｑｆ”以上（すなわち、ｓｆ≧ｑｆ）である候補収録語４１６を、辞書４１２から削除する。エンジン４０８は、同様に、照会合計数“ｑｆ”がしきい値より小さい（すなわち、ｑｆ＜しきい値）である候補収録語４１６を削除する。いくつかの具体化において、しきい値は、３〜１０の範囲における値に設定され得る。小さい照会合計数“ｑｆ”を有する候補収録語を削除することは、エラーを含むか、もしくはめったに使用されない候補収録語４１６を削除し得る。

辞書４１２に残っている候補収録語４１６は、その照会合計数“ｑｆ”がユーザセグメント化合計数“ｓｆ”より大きく（すなわち、ｑｆ＞ｓｆ）、そして検索照会４１８内で少なくともいくらかの回数発生した（すなわち、ｑｆ≧しきい値）候補収録語である。連続した文字の特定の文字列が検索照会４１８において単独で出現する回数が、文字列が検索照会４１８において１つ以上の他の文字列または文字と共に出現する回数より多い場合、連続した文字の特定の文字列が１つ以上の単語または熟語に対応すると共に、ＩＭＥ辞書１２４における辞書収録語１２８として適当である可能性が高い。

いくつかの具体化において、エンジン４００は、重複する辞書収録語を削除することによって、それぞれ第１の辞書４１０及び第２の辞書４１２が提供する辞書収録語４２２と辞書収録語４１６を併合する併合エンジン４１４を含む。重複しない辞書収録語は、ＩＭＥ辞書１２４に加えられる。

図５は、文書コーパス（例えば、文書コーパス４０２）に基づいて単語及び熟語を判定するための実例処理５００のフローチャートである。例えば、処理５００は、１つ以上のサーバコンピュータを含むシステムにおいて実施され得る。

処理５００は、文書における文脈信号を特定する（５０２）と共に、文脈信号によって境界が示された文字を特定する（５０４）。例えば、文脈信号は、中国語の書名記号であることができ、それらの文字は、Ｈａｎｚｉ文字であることができると共に、それらの文書は、図４の文書コーパス４０２における文書４２０であることができる。例えば、図４のエンジン４０６が、文脈信号を特定することができると共に、文脈信号によって境界が示された文字を特定することができる。

処理５００は、文脈信号によって境界が示された文字により定義された１つ以上の候補単語を特定する（５０６）。例えば、候補単語は、図４の収録語４２２であり得る。

処理５００は、１つ以上の候補単語をインプットメソッドエディタ辞書に加える（５０８）。例えば、その辞書は、図４の第１の辞書４１０か、または図２のＩＭＥ辞書１２４であり得る。

図６は、検索照会ログ（例えば、検索照会ログ４０４）に基づいて単語及び熟語を判定するための実例処理６００のフローチャートである。例えば、処理６００は、１つ以上のサーバコンピュータを含むシステムにおいて実施され得る。

プロセス６００は、検索照会における、それぞれが１つ以上の連続した文字を含む候補単語を特定する（６０２）。例えば、それらの文字は、Ｈａｎｚｉ文字であることができ、候補単語は、収録語４１６であることができると共に、検索照会は、図４の検索照会ログ４０４の検索照会４１８であることができる。例えば、エンジン４０８が、検索照会４１８における候補単語を特定し得る。

各候補単語に関して、処理６００は、候補単語が検索照会における唯一の単語である回数を示す第１の合計数を決定する（６０４）と共に、候補単語及び１つ以上の他の単語が検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する（６０６）。例えば、第２の合計数によって計数される検索照会のそれぞれにおいて、候補単語及び１つ以上の他の単語は、ユーザによって入力された１つ以上の空白または句読点によって分離され得る。エンジン４０８が、第１の合計数及び第２の合計数、例えば“ｑｆ”及び“ｓｆ”を決定し得る。

全ての単語を判定することが処理された（６０８）後で、処理６００は、第１の合計数と第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に候補単語の内の１つ以上を加える（６１０）。例えば、その辞書は、図４の第１の辞書４１０か、または図２のＩＭＥ辞書１２４であり得る。例えば、エンジン４０８は、第１の合計数が第２の合計数より大きいとき、候補単語を辞書に加え得る。

いくつかの具体化において、処理５００及び処理６００は、結合され得ると共に、単語及び熟語は、併合処理によって辞書に加えられ得る。

図７は、文書コーパス（例えば、文書コーパス４０２）及び検索照会ログ（例えば、検索照会ログ４０４）に基づいて単語及び熟語を判定するための実例処理７００のフローチャートである。例えば、処理７００は、１つ以上のサーバコンピュータを含むシステムにおいて実施され得る。処理７００は、最終の辞書に併合される第１の辞書及び第２の辞書を生成するために並列に遂行され得る２つの処理７２２及び処理７２４を含む。

処理７２２は、文書を特定する（７０２）。例えば、それらの文書は、図４の文書コーパス４０２における文書４２０であり得る。

処理７２２は、文書４２０における中国語の書名記号の複数の組を特定すると共に、中国語の書名記号の複数の組によって表されている文字列を特定する（７０４）。例えば、中国語の書名記号は、“<< >>”か“< >”であり得ると共に、文字列はＨａｎｚｉ文字を含み得る。例えば、図４のエンジン４０６が、中国語の書名記号及び文字列を特定し得る。

処理７２２は、候補収録語として、中国語の書名記号によって表されている各文字列を指定すると共に、候補収録語を第１の辞書に加える（７０６）。処理７２２は、更に、候補収録語に、文書における候補収録語の発生回数を表す合計数を関連付ける。例えば、第１の辞書は、図４の第１の辞書４１０であることができ、そして、エンジン４０６が、第１の辞書４１０において、候補収録語４２２及び関連する合計数を加え得るか、もしくは更新し得る。

全ての組の中国語の書名記号を特定するように全ての文書が処理されたと共に、中国語の書名記号によって表されている全ての文字列が、候補収録語として第１の辞書に加えられた後で、処理７２２は、合計数をしきい値と比較することによって、第１の辞書における候補収録語をフィルタ処理する（７０８）。もし合計数がしきい値未満であるならば、合計数と関連付けられた候補収録語は、第１の辞書から削除される。例えば、エンジン４０６が、第１の辞書４１０における候補収録語４２２をフィルタ処理し得る。

処理７２４は、検索照会を特定する（７１０）。例えば、検索照会は、図４の検索ログ４０４の検索照会４１８であり得る。

各検索照会に関して、処理７２４は、ユーザによって入力された文字ではない単数または複数の空白または記号によって分離されている、連続した文字の１つの文字列または連続した文字の複数の文字列を特定する（７１２）。例えば、それらの文字は、Ｈａｎｚｉ文字であり得ると共に、検索照会は、図４の検索照会４１８であり得る。例えば、エンジン４０８が、検索照会４１８の各々における連続した文字の文字列または連続した文字の複数の文字列を特定し得る。

処理７２４は、連続した文字の各文字列によって定義されるような候補収録語を特定すると共に、候補収録語を第２の辞書に加える（７１４）。処理７２４は、更に、照会合計数“ｑｆ”及びユーザセグメント化合計数“ｓｆ”を、各候補収録語と関連付ける。照会合計数“ｑｆ”は、候補収録語だけを含む検索照会の数を表すと共に、ユーザセグメント化合計数“ｓｆ”は、それぞれが候補収録語及び１つ以上の他の文字列を含む検索照会の数を表す。

例えば、候補収録語は、図４の候補収録語４１６であり得ると共に、第２の辞書は、第２の辞書４１２であり得る。例えば、エンジン４０８が、第２の辞書４１２において、候補収録語４１６を加え得るか、もしくは更新し得ると共に、候補収録語４１６と関連付けられた照会合計数“ｑｆ”及びユーザセグメント化合計数“ｓｆ”を初期化し得るか、もしくは更新し得る。

全ての検索照会が処理されたと共に、連続した文字の全ての文字列が、候補収録語として第２の辞書に加えられた後で、処理７２４は、第２の辞書における候補収録語をフィルタ処理する（７１６）。処理７２４は、照会合計数“ｑｆ”をユーザセグメント化合計数“ｓｆ”と比較すると共に、照会合計数“ｑｆ”をしきい値と比較する。例えば、処理７２２は、第２の辞書から、照会合計数“ｑｆ”がしきい値より小さい候補収録語を削除すると共に、照会合計数“ｑｆ”がユーザセグメント化合計数“ｓｆ”以下の候補収録語を削除する。フィルタ処理の後で、第２の辞書における候補収録語は、照会合計数“ｑｆ”がユーザセグメント化合計数“ｓｆ”より大きいと共に、照会合計数“ｑｆ”が少なくともしきい値である候補収録語になる。例えば、エンジン４０８が、第２の辞書４１２における候補収録語４１６をフィルタ処理する。

処理７２２及び処理７２４が完了した後で、第１の辞書及び第２の辞書のそれぞれは、候補収録語を有している。処理７００は、最終の辞書を生成するために、重複する候補収録語を削除することによって、第１の辞書と第２の辞書とを併合する（７１８）。最終の辞書における候補収録語が、ＩＭＥ辞書に加えられる（７２０）。例えば、図４の併合エンジン４１４が、第１の辞書４１０と第２の辞書４１２とを併合するために使用され得ると共に、最終の辞書における候補収録語が、図２のＩＭＥ辞書１２４に加えられ得る。

いくつかの具体化において、候補辞書収録語を特定するために中国語の書名記号を使用するのではなく、ハイパーテキストマークアップ言語（ＨＴＭＬ）タイトルタグが、ウェブ文書から候補辞書収録語を特定するために使用され得る。例えば、１組のＨＴＭＬタグ“<title>”及び“</title>”は、ＨＴＭＬ文書のタイトルを示す。“<title>”及び“</title>”のＨＴＭＬタグによって境界が示された文字列は、候補辞書収録語として特定され得ると共に、もししきい値基準が満たされる（例えば、文字列がウェブ文書において出現する回数がしきい値を超えている）ならば、辞書１２４に加えられ得る。

様々な具体化が説明されたが、他の具体化が、同様に使用され得る。例えば、ステップの順番が並び替えられた、ステップが追加された、またはステップが削除された、上述されたフローの様々な形式が使用され得る。更に、いくつかの具体化及び方法が説明されたが、多数の他の具体化が熟考されることが認識されるべきである。例えば、入力エンジン１２２は、欧米スタイルのキーボードからの合成入力を、入力された中国語文字、日本語文字、韓国語文字、及び／またはインド語文字に割り当てることが可能であり得る。いくつかの例において、説明されたいくつかの具体化または全ての具体化は、“Cangjie”入力方式、“Jiufang”入力方式、“Wubi”入力方式、または他の入力方式のような、他の入力方式に適用でき得る。異なるタイプの文書に関する加重値、及び文書のタイプの分類は、上述されたそれらと異なり得る。処理される単語及び熟語の数、及び文書コーパス４０２における文書のソースの数は、上述されたそれらと異なり得る。図７における処理７２２及び処理７２４は、順次に遂行され得る。いくつかの具体化において、エンジン４０６は、文書コーパス４０２における重複していない（non‐duplicative）文書４２０を特定し得ると共に、重複していない文書に基づいて、候補収録語及び関連する合計数を特定し得る。いくつかの具体化において、辞書１２４は、以前から存在している辞書から獲得された文字、単語、及び熟語を含むことができる。

いくつかの具体化において、図４の文脈信号ベースのエンジン４０６は、候補収録語４２２が各文書において発生する回数の関数として、その合計数が増加するように構成され得る。例えば、その合計数は、各文書に関する限界（例えば、３）まで、候補収録語４２２が同じ文書において発生するたびに、１つだけ増加し得る。従って、もし上限が３であり、そして候補収録語４２２が同じ文書において５回発生するならば、その合計数は、３つだけ増加する。例えば、そのカウントは、候補収録語４２２が同じ文書の中で発生する回数のログ関数として増加し得る。いくつかの具体化において、エンジン４０６は、候補収録語４２２が各文書において発生する位置の関数としてその合計数が増加するように構成される。例えば、もし候補収録語４２２が文書４２０の表題（または、電子メールメッセージの件名欄）に現れるならば、その合計数は、“１．５”だけ増加し得ると共に、候補収録語４２２が文書４２０の他の場所に現れるならば、その合計数は、“１”だけ増加し得る。文書４２０における候補収録語４２２の発生に基づいて合計数を変更する他の方法が、同様に使用され得る。

いくつかの具体化において、いくつかの辞書、例えば法律の辞書、医学辞典、科学辞典、及び一般的辞書が使用され得る。各辞書は、特定の分野と関連付けられた辞書に端を発することによって確立され得る。単語及び熟語判定エンジン４００は、文書を有する文書コーパス、及び辞書と関連付けられた分野に対して付勢された検索照会を有する検索照会ログを処理するために使用される。例えば、法律の辞書における単語の確率値を規定するために、文書を有する文書コーパス及び法律の分野に対して付勢された検索照会を有する検索照会ログが使用され得る。ＩＭＥシステム１２０は、ユーザが、文字を入力するときに、興味のある分野（例えば、法律の分野、医学の分野、科学の分野）を選択することを可能にし得ると共に、候補単語は、興味のある分野に関係した辞書の中から選択され得る。

図８を参照すると、いくつかの具体化において、文脈信号ベースのエンジン４０６及び検索照会ベースのエンジン４０８は、１つの辞書８００に書き込む。例えば、エンジン４０６は、文書４２０を処理すると共に、辞書８００に対して候補収録語８０２を加えるか、もしくは候補収録語８０２を更新する。エンジン４０６によって処理される各候補収録語８０２は、文書４２０における候補収録語８０２の発生回数を表す文書発生合計数と関連付けられる。エンジン４０８は、検索照会４１８を処理すると共に、辞書８００に対して候補収録語８０２を加えるか、もしくは候補収録語８０２を更新する。エンジン４０８によって処理される各候補収録語８０２は、照会合計数及びユーザセグメント化合計数と関連付けられる。

エンジン４０６及びエンジン４０８が、全ての文書４２０と検索照会４１８を、全ての候補収録語８０２及び関連する文書発生合計数、照会合計数、及びユーザセグメント化合計数を決定するように処理した後で、エンジン４００は、辞書８００から、以下のようにいくつかの基準が満たされる、例えば、
（１）文書発生合計数が第１のしきい値より小さい、
（２）ユーザセグメント化合計数が照会合計数以上である、もしくは、
（３）照会合計数が第２のしきい値未満である、
候補収録語８０２を削除する。残っている候補収録語８０２は、ＩＭＥ辞書１２４に加えられる。いくつかの具体化において、エンジン４０６及びエンジン４０８は、直接ＩＭＥ辞書１２４に書き込むことができると共に、辞書１２４において、収録語１２８を加え得るか、もしくは収録語１２８を更新し得るか、もしくは収録語１２８をフィルタ処理し得る。

この明細書で説明された主題、及び機能的動作の実施例は、デジタル電子回路構成か、もしくは、この明細書おいて開示された構成及びそれらの構成上の等価物を含むコンピュータソフトウェア、ファームウェア、またはハードウェアか、もしくは、それらの内の１つ以上の組み合わせにおいて実施され得る。この明細書で説明された主題の実施例は、１つ以上のコンピュータプログラム製品、すなわち、データ処理装置による実行のための、もしくはデータ処理装置の動作を制御するための、実際のプログラム担体上に符号化して記録されたコンピュータプログラム命令の１つ以上のモジュールとして実施され得る。実際のプログラム担体は、伝搬信号（propagated signal）またはコンピュータ読み取り可能な媒体であり得る。伝搬信号は、人工的に生成された信号、例えば機械で生成された電気信号、光学信号、もしくは電磁気信号であると共に、それは、情報を、コンピュータによる実行のための適当な受信機装置に対する伝送用に符号化するように生成される。コンピュータ読み取り可能な媒体は、機械可読記憶装置、機械可読記憶回路基板、メモリ装置、機械可読伝搬信号を生じさせる組成物（composition of matter）、または、それらの内の１つ以上の組み合わせであり得る。

用語“データ処理装置”は、プログラム可能なプロセッサ、コンピュータ、もしくはマルチプロセッサまたはマルチコンピュータを一例として含む、データを処理するための全ての装置、機器、及び機械を包含する。装置は、ハードウェアに加えて、問題のコンピュータプログラムのための実行環境を作成するコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの内の１つ以上の組み合わせを構成するコードを備えることができる。

コンピュータプログラム（同様にプログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとして知られている）は、コンパイルされた言語または解釈された言語（interpreted language）、もしくは、宣言型言語または手続き型言語を含むあらゆる形式のプログラミング言語で書かれ得ると共に、それは、独立型プログラム、もしくは、モジュール、コンポーネント、サブルーチン、またはコンピュータ環境における使用に適当な他のユニットを含むあらゆる形式で配置され得る。コンピュータプログラムは、ファイルシステムにおけるファイルに必ずしも対応するとは限らない。プログラムは、他のプログラムまたはデータを保持するファイル（例えば、マークアップ言語文書に格納される１つ以上のスクリプト）の一部分に格納され得るか、問題のプログラム専用の単一のファイルに格納され得るか、または複数の組織的なファイル（例えば、１つ以上のモジュール、サブプログラム、またはコードの一部分を格納するファイル）に格納され得る。コンピュータプログラムは、１つのサイトに設置されるか、もしくは複数のサイトに横断して分散される、１つのコンピュータまたは複数のコンピュータ上で実行されるように配置され得ると共に、通信ネットワークによって相互に接続され得る。

この明細書で説明された処理及び論理フローは、入力データに基づいて動作すると共に出力を生成することによって機能を遂行するように１つ以上のコンピュータプログラムを実行する、１つ以上のプログラム可能なプロセッサによって遂行され得る。処理及び論理フローは、同様に、専用論理回路構成、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって遂行され得ると共に、装置は、同様に、そのような専用論理回路構成、例えばＦＰＧＡまたはＡＳＩＣとして実施され得る。

コンピュータプログラムの実行に適当なプロセッサは、一例として、一般的なマイクロプロセッサと特殊用途のマイクロプロセッサの両方、及びあらゆる種類のデジタルコンピュータのあらゆる１つ以上のプロセッサを含む。一般的に、プロセッサは、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から、命令及びデータを受け取ることになる。コンピュータの必須要素は、命令を遂行するためのプロセッサと、命令及びデータを格納するための１つ以上のメモリ装置である。一般的に、コンピュータは、更に、データを格納するための、例えば光磁気ディスク（magnetic optical discまたはmagneto optical disk）、もしくは光ディスクのような１つ以上の大容量記憶装置からデータを受信するか、またはそのような１つ以上の大容量記憶装置にデータを送信するか、またはその両方であるように、そのような１つ以上の大容量記憶装置を含むことになるか、もしくはそのような１つ以上の大容量記憶装置に対して動作可能に連結されることになる。しかしながら、コンピュータは、そのような装置を有している必要がない。更に、コンピュータは、別の装置、例えば２〜３例を挙げると、携帯電話、携帯情報機器（ＰＤＡ）、携帯型オーディオまたはビデオプレーヤ、ゲームコンソール、全地球的測位システム（ＧＰＳ）受信機に埋め込まれ得る。

コンピュータプログラム命令及びデータを格納することに適当なコンピュータ読み取り可能な媒体は、全ての形式の不揮発性のメモリ、媒体、及びメモリ装置を含み、それらは、一例として、例えばＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリ装置のような半導体メモリ装置、例えば内部ハードディスクまたは交換可能ディスクのような磁気ディスク、光磁気ディスク、そしてＣＤ−ＲＯＭディスク及びＤＶＤ−ＲＯＭディスクを含んでいる。プロセッサ及びメモリは、専用論理回路構成によって補完され得るか、専用論理回路構成に併合され得る。

ユーザとの意志の疎通を提供するために、この明細書で説明された主題の実施例は、ユーザに対して情報を表示するための表示装置、例えばＣＲＴ（ブラウン管）モニタまたはＬＣＤ（液晶表示装置）モニタと、それによってユーザが入力をコンピュータに提供できるキーボード及びポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実施され得る。他の種類の装置が、同様に、ユーザとの意志の疎通を提供するために使用され得ると共に、また例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、そして、ユーザからの入力は、音響入力、音声入力、または触覚入力を含むあらゆる形式で受信され得る。

この明細書で説明された主題の実施例は、計算システムにおいて実施され得ると共に、例えば、計算システムは、例えばデータサーバのようなバックエンドコンポーネントを備えるか、もしくは、計算システムは、例えばアプリケーションサーバのようなミドルウェアコンポーネントを備えるか、もしくは、計算システムは、それを通してユーザがこの明細書で説明された主題の具体化と情報のやり取りをすることができる、例えばグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータのようなフロントエンドコンポーネントを備えるか、もしくは、計算システムは、１つ以上のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントのあらゆる組み合わせを備える。システムのコンポーネントは、デジタルデータ通信のあらゆる形式または媒体、例えば通信ネットワークによって、相互に接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、及び広域ネットワーク（ＷＡＮ）、例えばインターネットを含む。

計算システムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に、相互から遠く離れており、そして通常は通信ネットワークによって情報のやり取りをする。クライアントとサーバの関係は、それぞれのコンピュータ上で動作すると共に、相互にクライアントとサーバの関係を有するコンピュータプログラムのおかげで発生する。

この明細書は、多数の実装時固有事項を含む一方、これらは、全ての発明の範囲及び特許請求の範囲における制限と解釈されるべきでなく、むしろ特定の発明の特定の実施例に特有であり得る特徴の説明であると解釈されるべきである。この明細書で説明される個別の実施例の文脈におけるいくつかの特徴は、同様に、単一の実施例の組み合わせにおいて実施され得る。逆に、単一の実施例の文脈で説明される様々な特徴は、同様に、複数の実施例において別々に実施され得るか、またはあらゆる適当な副次的な組み合わせにおいて実施され得る。更に、特徴が、いくつかの組み合わせにおける動作として上記において説明され得ると共に、そういうものとして初めに主張されるが、場合によっては、主張された組み合わせが提供する１つ以上の特徴を、組み合わせから削除することができると共に、主張された組み合わせは、副次的な組み合わせまたは副次的な組み合わせの変化したものを対象にし得る。

同様に、動作が図面において特定の順序で描写される一方、これは、望ましい結果を達成するために、そのような動作が示された特定の順序、または順次的な順序で実行されること、あるいは、全ての例証された動作が実行されること、を必要とするとして理解されるべきでない。いくつかの状況において、マルチタスク処理及び並列処理が有利であり得る。更に、上述の実施例における様々なシステムコンポーネントの分離は、全ての実施例においてそのような分離を必要とするとして理解されるべきでないと共に、それは、説明されたプログラムコンポーネント及びシステムは、一般的に、１つのソフトウェア製品に一緒に統合されるか、もしくは複数のソフトウェア製品に実装され得ると理解されるべきである。

この明細書で説明された主題の特別な実施例が説明された。他の実施例は、特許請求の範囲の中にある。例えば、請求項において列挙された動作は、異なる順序で行われ得ると共に、それでも望ましい結果が達成され得る。望ましい結果を達成するために、１つの例として、添付の図面において描写された処理は、説明された特定の順序、及び順次的な順序を必ずしも必要とするとは限らない。いくつかの具体化において、マルチタスク処理及び並列処理が有利であり得る。

１００実例装置
１０１インプットメソッドエディタコード
１０２処理装置
１０３インプットメソッドエディタインスタンス
１０４第１のデータストア
１０５アプリケーションソフトウェア
１０６第２のデータストア
１０７アプリケーションインスタンス
１０８入力装置
１１０出力装置
１１２ネットワークインタフェース
１１４バスシステム
１１６ネットワーク
１１８遠隔計算システム
１２０実例インプットメソッドエディタシステム
１２２インプットメソッドエディタエンジン
１２４辞書
１２６合成入力テーブル
１２８収録語
３００実例インプットメソッドエディタ環境
３０２候補選択肢
３０４ピンイン入力
３０８選択インジケータ
４００単語及び熟語判定エンジン
４０２文書コーパス
４０４検索照会ログ
４０６文脈信号ベースの判定エンジン
４０８検索照会ベースの判定エンジン
４１０第１の辞書
４１２第２の辞書
４１４併合エンジン
４１６（候補）辞書収録語
４１８検索照会
４２０文書
４２２（候補）辞書収録語
８００辞書
８０２候補収録語

Claims

コンピュータで実行される方法であって、
検索照会における候補単語を特定する段階と、
各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定する段階と、
前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階とを含み、
各候補単語が、１つ以上の連続した文字を含む
ことを特徴とする方法。
前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階が、
前記第１の合計数が前記第２の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む
ことを特徴とする請求項１に記載の方法。
前記インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加える段階が、
前記第１の合計数が前記第２の合計数より大きいと共に、前記第１の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加える段階を含む
ことを特徴とする請求項１に記載の方法。
前記第２の合計数を決定する段階が、
前記候補単語及び１つ以上の他の単語をそれぞれが含む検索照会の数を計数する段階を含み、
前記検索照会において、前記候補単語及び前記１つ以上の他の単語が、前記検索照会を提示したユーザによって入力された１つ以上の空白または句読点によって分割されている
ことを特徴とする請求項１に記載の方法。
検索ログから前記検索照会を獲得する段階を含む
ことを特徴とする請求項１に記載の方法。
前記検索ログが、検索サービスのユーザによって提示された検索照会を含む
ことを特徴とする請求項５に記載の方法。
検索照会を格納するためのデータストアと、
前記検索照会における候補単語を特定し、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定し、前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えるための処理装置とを備え、
各候補単語が、１つ以上の連続した文字を含む
ことを特徴とするシステム。
前記処理装置が、前記第１の合計数が前記第２の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えることになっている
ことを特徴とする請求項７に記載のシステム。
前記処理装置が、前記第１の合計数が前記第２の合計数より大きいと共に、前記第１の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えることになっている
ことを特徴とする請求項７に記載のシステム。
前記処理装置が、前記候補単語及び１つ以上の他の単語をそれぞれが含む検索照会の数を計数することになっていると共に、
前記検索照会において、前記候補単語及び前記１つ以上の他の単語が、前記検索照会を提示したユーザによって入力された１つ以上の空白または句読点によって分割されている
ことを特徴とする請求項７に記載のシステム。
検索照会を格納するためのデータストアと、
コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記検索照会における候補単語を特定させ、各候補単語に関して、前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定させると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定させ、前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えさせる命令を有する処理エンジンとを備え、
各候補単語が、１つ以上の連続した文字を含む
ことを特徴とするシステム。
前記処理エンジンが、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第１の合計数が前記第２の合計数より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する
ことを特徴とする請求項１１に記載のシステム。
前記処理エンジンが、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記第１の合計数が前記第２の合計数より大きいと共に、前記第１の合計数がしきい値より大きいとき、候補単語を前記インプットメソッドエディタ辞書に加えさせる命令を有する
ことを特徴とする請求項１１に記載のシステム。
前記処理エンジンが、前記処理装置によって実行可能であり、そのような実行によって前記処理装置に、前記候補単語及び１つ以上の他の単語をそれぞれが含む検索照会の数を計数させる命令を有し、
前記検索照会において、前記候補単語及び前記１つ以上の他の単語が、前記検索照会を提示したユーザによって入力された１つ以上の空白または句読点によって分割されている
ことを特徴とする請求項１１に記載のシステム。
単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに存在する回数を示す第２の合計数とに基づいて特定される前記単語を有する辞書と、
前記辞書の中から単語を選択するように構成されたインプットメソッドエディタと
を備えることを特徴とする装置。
前記インプットメソッドエディタが、中国語のインプットメソッドエディタを含む
ことを特徴とする請求項１５に記載の装置。
前記単語が、“Ｈａｎｚｉ”文字を含む
ことを特徴とする請求項１５に記載の装置。
単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数とに基づいて特定される前記単語を含む辞書を格納するためのデータストアと、
コンピュータ読み取り可能な媒体に格納されると共に、処理装置によって実行可能であり、ユーザが前記辞書の中から単語を選択することを可能にするために、そのような実行によって前記処理装置にインプットメソッドエディタを提供させる命令を有する処理エンジンと
を備えることを特徴とするシステム。
単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数とに基づいて特定される前記単語を含む辞書を格納するためのデータストアと、
ユーザが前記辞書の中から単語を選択することを可能にするために、インプットメソッドエディタを提供する処理装置と
を備えることを特徴とするシステム。
検索照会における候補単語を特定するための手段と、
前記候補単語が前記検索照会における唯一の単語である回数を示す第１の合計数を決定すると共に、前記候補単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数を決定することによって、各候補単語を処理するための手段と、
前記第１の合計数と前記第２の合計数との間の関係に基づいて、インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えるための手段とを備え、
各候補単語が、１つ以上の連続した文字を含む
ことを特徴とするシステム。
候補単語を、前記単語が検索照会における唯一の単語である回数を示す第１の合計数と前記単語及び１つ以上の他の単語が前記検索照会のそれぞれに含まれる回数を示す第２の合計数とに基づいて特定するための手段と、
インプットメソッドエディタ辞書に前記候補単語の内の１つ以上を加えるための手段と
を備えることを特徴とするシステム。