JP2006216044A

JP2006216044A - 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置

Info

Publication number: JP2006216044A
Application number: JP2006023912A
Authority: JP
Inventors: Liqin Xu; キュリキン; Min-Yu Hsueh; シュエミンユ
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2005-01-31
Filing date: 2006-01-31
Publication date: 2006-08-17
Also published as: EP1686493A2; KR20060088027A; CN100530171C; KR100766169B1; US20060206313A1; TW200729001A; EP1686493A3; CN1815467A

Abstract

【課題】本発明は、辞書学習方法、品詞情報と品詞バイグラムが追加された辞書を使用するユーザ端末装置の入力方法を提供する。
【解決手段】本発明の辞書学習方法は、タグ無しのコーパスから用語集および統計的言語モデルを学習するステップ、用語集、統計的言語モードおよび補助的な単語符号化情報を小型サイズの辞書に統合するステップを有する。ユーザ端末装置によって、文レベル予測および単語レベル予測が得られ、辞書インデックスのパトリシア・ツリー・インデックスによって検索される辞書を使用することで入力が高速化される。
【選択図】図４

Description

本発明は、自然言語処理に関し、特に、辞書学習方法及びその方法を利用する装置、またユーザ入力処理のための入力方法及びその方法を利用するユーザ端末装置に関する。

中国におけるコンピューター、PDA及び携帯電話機の幅広い展開に伴い、ユーザに中国語の入力を可能にすることがそれらの機器にとって重要な機能となっている。中国の現在の携帯端末市場では、数字キーボードを利用する入力方式(IM)がほとんどすべての携帯電話において採用されている。「Ｔ９」と「ｉＴａｐ」は現在最も広く用いられている入力方式である。この種の入力方式では、ユーザは、テンキーボードでピンインあるいは漢字の字画を入力することが可能である。図１０と図１１は、ピンインと字画入力のキーボードの例を示す。この入力方式は、ユーザが打ち込むボタンの順序に従って予測可能な文字を提示する。一般的なピンイン入力においては、図１０に示すように、各ボタンがそれぞれアルファベットの３〜４個の文字を表している。ユーザが各文字用のピンインを入力する場合、最も典型的な入力方式で要求される正しい文字を入力するために、ユーザは１つのボタンを３、４回もクリックする必要がない。ユーザがその文字のピンインに従う順序でボタンをクリックすると、IMが、候補リストに正しいピンイン及び正しい文字を予想して提示する。例えば、ユーザが、ピンイン「jin」である「今」を入力したい場合、ボタン「5」(「jkl」を表わす)を１回タップして「j」を入力し、ボタン「4」(「ｇｈi」を表わす)を3回タップして「i」を入力し、そしてボタン「6」(「mno」を表わす)を2回タップして「n」を入力する必要はない。単に「546」とタップすると、IMが予測可能なピンイン「jin」と、対応する予測可能な文字候補

を提示する。最も典型的な入力方式で漢字の「今」を入力する場合の「Ｔ９」の入力シーケンスを図１４に示す。

現在の携帯端末では、ユーザは１文字ずつ漢字を入力しなければならない。ある入力方式はそれらがユーザの入力から予測できる結果を与えるかもしれないが、それらは実際には1文字ずつ予測を与える。各文字毎に、ユーザは、ボタンを数クリックする必要があるし、かつ少なくとも1回の視覚的な確認を行う必要がある。ここで、本発明は、文レベル及び単語レベルの予想結果を得ることができる方法とその方法を用いる装置を提案するものである。

上述したように、Ｔ９とｉＴａｐは、現在、携帯端末上の最も広く用いられている入力方式である。しかしながら、これらの入力方式の速度は、多くのユーザを到底満足させるものではない。一文字を入力するのにも、数多いクリックや、数多くの対話処理（より重大な要因）が必要だからである。

それらの問題の主要な理由は、中国語の入力方式に適用されている現在のディジタル・キーボードが単に文字ベースであることである(U. S. Patent 20030027601：特許文献１)。中国語においては、単語間に明確な境界がなく、かつ単語の明瞭な定義がないためである。従って、それらの入力方式は、英語版に対応する「単語」として一文字を取り扱うように決められている。しかしながら、これは、必然的に、１文字のディジタル・シーケンスによって膨大な数の余剰の文字が生じる結果となり、それは著しく速度を低下させる。さらに、単に１文字によって予測が実行されるので、文字ベースの入力方式は、単語予測の効果を非常に制限する。それは、携帯用ハンドセットの現在の入力方式が、ユーザ入力のディジタル・シーケンスを単に文字候補のリストへ転送することを意味する。さらに、ユーザは候補リストから正しい文字を選択しなければならない。ユーザは単語あるいは文を連続的に入力することができない。

例えば、ユーザが単語「今天」を入力するものとする。第1に、ユーザは、文字「今」のピンイン「jin」を意味するディジタル・キーボードに、文字「今」のピンイン「jin」を意味する「546」を入力する。そのとき、候補リスト

がユーザに提示される。第2に、ユーザはそのリストから正しい文字「今」を選ばなければならない。第３に、文字「今」に続いて候補リスト「天日年・・・」がユーザに表示される。ユーザはそのリストから正しい文字「天」を選ばなければならない。中国語の単語「今天」の入力に関するT9の入力シーケンスは、図１５に示すとおりである。
U. S. Patent 20030027601

PCプラットフォームにおいては、マイクロソフト・ピンイン、

および

等のようなPCキーボードになどに基づいた多くの高度で迅速な入力方式がある。それらの方式のうちの幾つかは、文レベル予測を提供すると共に、全ての方式が単語レベル予測を提供している。例えば、文レベル予測を提供するものを除き、その辞書サイズは必要に大きくなる。例えば、マイクロソフト・ピンインは、20 ~ 70 MB の辞書サイズを必要とし、Zhineng KuangPinは、100MBまで必要とする。それらはすべて、予測可能な文を提供する単語ベースのＳＬＭ（典型的な単語バイグラム・モデル（Word Bi-gram model）或いは単語トリグラム・モデル（Word Tri-gram model））を形成する統計的言語モデル技術を採用する。この種のSLMは、定義済みの用語集を使用し、辞書に多数の単語バイグラム或いは単語トリグラムのエントリを格納するが、辞書のサイズが必然的に大きくなるので、携帯端末には設けることができない。また、携帯端末プラットフォームにおいては、予測速度が非常に遅くなる。

他の欠点は、ほとんど全ての入力方式が、用語集を備えていないか、或いは定義済みの用語集しか備えていないことである。このため、ある言語で頻繁に使用される重要な単語や句（例えば、「今天下午」など）を連続的に入力することができない可能性がある。
本発明は上記の問題を鑑みてなされたのであり、辞書学習方法、その辞書学習方法を使用する装置を提供することを目的とする。
さらに、本発明は、入力方法と、その入力方法を使用するユーザ端末装置を提供することを目的とする。

本発明の辞書学習装置は、コーパスから辞書を学習する。学習された辞書は、コーパスから学習された多くの重要な単語および句からなる洗練された用語集を備える。辞書は後述する入力方式に適用される一方、それはさらに品詞情報および品詞バイグラム・モデルを含む。ユーザ端末装置は、辞書を探索するためにパトリシア・ツリー(一種のツリーのようなデータ構造)インデックスを使用する。そして、ユーザ端末装置は、ユーザ入力を受け取り、辞書検索結果に基づいて文および単語予測を与える。上記単語予測は、現在の単語候補リストおよび予測可能な単語候補リストからなる。全ての結果がユーザに対して表示される。それは、単語または文に対応するディジタル・シーケンスを連続的に入力することにより、ユーザが単語あるいは文を入力することができることを意味する。ユーザは、文字毎にディジタル・シーケンスを入力する必要がないし、候補リストから正しい文字を選択する必要もない。これにより、入力速度が大幅に改善される。

本発明による辞書学習方法は、タグ無しのコーパスから用語集及び統計言語モデルを学習するステップと、前記用語集、前記統計言語モデル及び補助的な単語符号化情報を、辞書に統合するステップを有する。

本発明の辞書学習方法は、品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と品詞バイグラム・モデルを取得するステップと、前記品詞情報及び前記品詞バイグラム・モデルを、前記辞書に追加するステップをさらに有する

本発明の辞書学習装置は、辞書を学習する辞書学習処理モジュールと、タグ無しのコーパスを格納する記憶ユニットと、装置の各部を制御する制御ユニットを備え、前記辞書学習処理モジュールが、前記タブ無しのコーパスから用語集と統計的言語モデルを学習する用語集／統計的言語モデル学習ユニットと、辞書へ、用語集、統計的言語モデル及び補助的な単語符号化情報を統合する辞書統合ユニットを備える。

本発明の辞書学習装置では、前記記憶ユニットが、さらに品詞タグ付きのコーパスを格納し、前記辞書学習処理モジュールが、さらに、前記品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と、品詞バイグラム・モデルを取得する品詞学習ユニットと、前記辞書に、前記品詞情報及び前記品詞バイグラム・モデルを加える辞書統合ユニットを備える。

本発明のユーザ入力を処理するための入力方法は、ユーザ入力を受け付ける受け付けステップと、ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションへ翻訳する翻訳ステップと、前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測／調整ステップと、文および単語予測の結果を表示装置に表示するステップを有する。

本発明のユーザ入力を処理するユーザ端末装置は、ユーザ入力を受け付けるユーザ入力部と、パトリシア・ツリー・インデックスを有する辞書および辞書インデックスを格納する記憶ユニットと、ユーザ入力に基づいて文および単語予測を与える入力処理ユニットと、文および単語予測の結果を表示する表示装置を備え、前記入力処理ユニットは、ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションに翻訳する入力符号化インタプリタと、辞書中の統計前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測／調整モジュールとを備える。

本発明によれば、小型サイズの学習された辞書を使用することにより、文レベル予測及び単語レベル予測を提供することができる。
辞書は、本発明による辞書学習装置によって学習される。辞書学習装置は、コーパスから多くの重要な情報を抽出し、小型サイズに格納できる特別のコンテンツおよび構造でそれらを保持する。携帯用ハンドセット上の従来の入力方法と異なり、本発明の基本入力単位は「単語」である。ここで、「単語」は、さらにコーパスから学習される「句」を含んでいる。コンテンツ及び辞書の構成で基づいて、入力方式は文レベル及び単語レベル予測を提供できる。従って、T9とiTapのような従来の入力方法と比較して、入力速度が向上する。

マイクロソフト・ピンイン(それは文および単語予測を与えることができるが、膨大な単語バイグラム・エントリあるいは単語・トリグラム・エントリに対応し、予め定義された用語集を格納するために大型の辞書を使用する)のようなPCベースの入力方式と比較して、本発明は、最適化された用語集と対応する単語ユニグラムに、抽出された重要な言語情報をだけを格納してなる辞書を学習する。したがって、辞書中の情報はすべて言語処理のために必須の情報であり、非常に少ない記憶領域の消費で済む。

本発明によって得られる効果は以下の通りである。
１．洗練された用語集を備える辞書を学習することができる。この洗練された用語集は、コーパスから学習された多くの重要な単語及び句を含んでいる。
２．学習された辞書は洗練された用語集及び品詞情報を含んでいる。文予測および単語予測を支援するこの辞書は、携帯用ハンドセット上に搭載できるほど十分に小さくすることができる。
３．辞書にパトリシア・ツリー・インデックスを利用してインデックスが付けられる。このことは、単語を迅速に検索するのに非常に有効である。これにより、文予測および単語予測が、簡単かつ高速に達成される。また、上に記述された利点のために、それは入力を促進することができる。

本発明の上記特徴及び他の特徴及び効果は、添附の図面に関連する詳細で好適な実施例によって当業者によってより明らかになるだろう。

（構成）
本発明による辞書学習装置とユーザ端末装置の関係を図１のブロック図を参照して説明する。辞書学習装置１は、コンピュータ読取り可能な辞書２の学習を実行する。ユーザ端末装置３は、ユーザによるテキスト入力を支援するために辞書２を使用する。辞書学習装置１及びユーザ端末装置３は、ある意味において互いに独立している。辞書学習装置１によって学習された辞書２についても、他のアプリケーションにおいて使用することが可能である。辞書学習装置１は、ユーザに対して迅速な入力を提供することができる小さなサイズの辞書を構築するために独自の辞書学習方法及び独自の辞書構造を使用する。

図２は、辞書学習装置１によって学習された辞書構造の例を示す。この例においては、辞書２は、多数の単語エントリ（部分２１）を有する。前記単語エントリは、「単語」

用だけでなく、「句」

用に設けられている。前記「句」は、実際には合成語である（一連の単語からなる）。以下の説明においては、便宜上、用語「単語」は、従来における「単語」と「句」の両方を指すものとする。他のいくつかの単語の例には、「今天」、「今天下午」、「今天下午八点」が示されている。部分２１は、単語の見出し語（部分２１１）、単語の出現確率（単語ユニグラム（Word Unigram）：部分２１２）、その単語の幾つかの品詞（部分２１３）、さらにそれらの品詞毎の対応する出現確率（部分２１４）、幾つかの補助的な単語符号化情報（部分２１５）を含む。部分２１５は、ピンイン（中国語の発音）符号化情報、字画符号化情報、あるいは他の単語符号化情報の何れでもよい。どのような種類の部分２１５が部分２１に加えられるかはアプリケーションに依存する。後で示される幾つかの例においては、部分２１は部分２１５を含まない可能性がある。最後に、この例では、部分２２（品詞について他の単語と関連して出現する確率（バイグラム：Part-of-Speech Bi-gram Model））が含まれている。なお、この部分２２はアプリケーションに依存しており、他の例に含まれていない可能性もある。当業者にとって明らかなように、辞書２は中国語に限定されず、中国語辞書以外の他の種類の辞書でもよい。日本語辞書の場合、補助的な単語符号化情報（部分２１５）がピンイン符号化情報の代わりに平仮名符号化情報になるという点を除いて、その他の全ての部分は中国語辞書の場合と同じである。例えば、単語「今晩」については、平仮名符号化情報が「こんばん」となる。英語辞書の場合、英単語の符号化情報が単にその単語の文字列となるので、補助的な単語符号化情報（部分２１５）が省略されるという点を除いて、その他の全ての部分が中国語辞書の場合と同じである。韓国語にとって、補助的な単語符号化情報（部分２１５）がピンイン符号化情報の代わりに韓国の字画符号化情報になるという点を除いて、その他の全ての部分は中国語辞書の場合と同じである。例えば、単語

については、韓国語の字画符号化情報は

となる。この辞書２は、後述する図５において例示される装置によって学習される。

図３は、辞書学習装置１によって学習された辞書構造の他の例を示す。図２に示された例と比較して、この例においては、この単語の品詞（部分２１３）、品詞毎の対応する出現確率（部分２１４）及び品詞について他の単語と関連する出現確率（Part-of-Speech Bi-gram Model）（部分２２）が省略されている。この辞書は、最初の例よりも幅広く利用することが可能である。それは、アプリケーションと関連付けられた手書きや音声認識処理、入力方式及び他の多くの言語に利用することができる。この辞書は、後述する図６において例示される装置によって学習される。

ここで、辞書を学習する辞書学習装置１について、図４及び図５を参照して説明する。図４及び図５に示すように、辞書学習装置１は、内部バス１０３によって接続されるＣＰＵ１０１、コンピュータアクセサリ１０２、メモリ１０４及びハードディスク１０５を備える。メモリ１０４は、オペレーティング・システム１０４１、辞書学習処理モジュール１０４２及び他のアプリケーション１０４３を格納している。ハードディスク１０５は、コーパス１０５１（言語学的分析のために収集された一群のデータ）、辞書学習ファイル１０５２及びその他のファイル（図示せず）を格納する。この装置によって学習された辞書２も、ハードディスク１０５上に格納される。コーパス１０５１は、例えば、タグ無しのコーパス１２や品詞タグ付きのコーパス１３を備える。辞書学習ファイル１０５２は、用語集１１及び統計的言語モデル１４を備える。辞書学習処理モジュール１０４２は、用語集及び統計的言語モデル学習ユニット１５、品詞学習ユニット１６及び辞書統合ユニット１７を備える。

最終辞書２は、辞書学習処理モジュール１０４２によってトレーニングされることになる。辞書学習処理モジュール１０４２は、コーパス１０５１を読み込み、ハードディスク１０５上の用語集１１及び統計的言語モデル１４に書き込み、最後にハードディスク１０５上に辞書２を出力する。

用語集１１は、単語の見出し語の収集から成る。初期段階において、言語における標準的な従来の単語からなる用語集が、用語集１１として使用される。用語集及び統計的言語モデル学習部１５は、最終的な用語集及び統計的言語モデルを学習し、用語集１１はこのようなプロセスを通じて精緻なものとなる。幾つかの重要でない単語は用語集１１から削除され、幾つかの重要な単語及び句が用語集１１に加えられる。タグ無しのコーパス１２は、単語の並びに分けられていないが多くの文を形成する多数のテキストを持つコーパスである。（英語の場合、スペースなどの幾つかの「トークン」（記号）によって文を「単語」の並びに分割することができる。しかし、単語の並びにおけるこれらの単語は、従来の「単語」だけであり、この明細書で「単語」と称する従来の「句」を含んでいない。）用語集及び統計的言語モデル学習ユニット１５は、用語集１１及びタグ無しのコーパス１２を処理し、それにより統計的言語モデル１４（初期段階には存在しない）が生成される。統計的言語モデル１４は、単語トリグラム・モデル（word Tri-gram Model）１４１及び単語ユニグラム・モデル（word Uni-gram Model）１４２を備える。そして、用語集及び統計的言語モデル学習ユニット１５は、用語集１１を精緻なものとするために統計的言語モデル１４中の情報を使用する。用語集及び統計的言語モデル学習ユニット１５は、そのプロセスを繰り返し、最終的な用語集１１及び最終的な単語ユニグラム・モデル１４２を作成する。

品詞タグ付きのコーパス１３は、対応する品詞によってタグ付けがなされた一連の単語を備えたコーパスである。一般的には、それらは手作業で構築され、サイズは制限されている。品詞学習ユニット１６が、品詞タグ付きのコーパス１３内の単語列を走査する。用語集１１に基づいて、品詞学習ユニット１６は、用語集の中の各単語毎に品詞情報についての統計データを作成する。単語の全ての品詞（辞書２における部分２１３）及びそれらの対応する出現確率（辞書２における部分２１４）がカウントされる。単語の並びに現れない用語集１１中の単語については、手作業によって品詞及び対応出現確率「１」が付与される。品詞バイグラム・モデル（辞書２における部分２２）も、共通のバイグラム・モデル計算方法を使用するプロセスにおいて生成される。

品詞学習ユニット１６から与えられた単語ユニグラム・モデル１４２、用語集１１及び幾つかの情報を使用することにより、辞書統合ユニット１７は、上述したデータを全て統合し、あるアプリケーションに必要とされる補助的な単語符号化情報（辞書２における部分２１５）を追加し、これにより、図２に示されるような最終的な辞書２が生成される。

辞書を学習する辞書学習装置１の他の例を、図４及び図６を参照して説明する。図４及び図５に示される例と比較して、コーパス１０５１は、タグ無しのコーパス１２だけを備える。辞書学習処理モジュール１０４２は、品詞学習ユニット１６を含んでいない。従って、この例においては、品詞関連情報が考慮されない。辞書統合ユニット１７は、単語トリグラム・モデル１４１、用語集１１及びあるアプリケーションに必要とされる補助的な単語符号化情報（辞書２における部分２１５）を、図３に示すように最終的な辞書２へ統合する。
（動作）

図７は、用語集及び統計的言語モデル学習ユニット１５によって実現される用語集及び統計的な言語モデルを学習する処理を説明するフローチャートである。最初に、ステップ１５１で、タグ無しのコーパス１２が単語列に分割される。この分割ステップとしてはいくつかの異なる方法がある。最初の例は、用語集に基づいた最大マッチングを利用することによりコーパス１２を分割する方法である。第２の例は、単語ユニグラム・モデル１４２が存在する場合、単語ユニグラム・モデル１４２で基づいた最尤推定の使用により、コーパス１２を分割し、単語ユニグラム・モデル１４２が存在しない場合には、用語集による最大マッチングを使用してコーパス１２を分割する方法である。最尤推定は、標準的な分割方法であり、式（１）で示される。

式（１）において、

は、単語列

は、単語列の見込みの確率を表している。

は、最適化された単語列である。

ステップ１５２で、分割された単語列が受け取られ、単語トリグラム・モデル１４１及び単語ユニグラム・モデル１４２を含む統計言語モデル１４が、従来のＳＬＭ生成方法による単語列に基づいて生成される。

ステップ１５３で、ステップ１５２で作成された単語トリグラム・モデルは、ステップ１５１で作成された単語列のパープレキシティを評価するために使用される。これがパープレキシティを計算する最初である場合、直接ステップ１５４の処理へ進む。そうでなければ、新しく得られたパープレキシティが、以前のものと比較される。パープレキシティが予め定義された閾値以上に減少した場合、処理工程はステップ１５４へ移行し、そうでなければ、プロセスはステップ１５５へ進む。

ステップ１５４で、コーパス１２は、新しく作成された単語トリグラム・モデル１４１によって最尤推定を使用する単語列へ再度分割され、ステップ１５２が実行される。

ステップ155で、いくつかの新語は用語集に加えられ、用語集の中のいくつかの重要でない単語は、統計言語モデルの中のある情報に基づいて用語集から取り除かれる。これにより、用語集が洗練される。用語集の洗練化を行う方法について以下の段落で説明する。新しい単語は、一般的に、単語トリグラム・モデル141中のトリグラム・エントリあるいはバイグラム・エントリの単語列からなる単語である。例えば、「今天」、「下午」及び「八点」がすべて現在の用語集の中の単語である場合、バイグラム・エントリの「今天下午」あるいはトリグラム・エントリの「今天下午八点」が洗練された用語集の新たな単語である可能性がある。それらが両方とも追加されると、洗練された用語集は単語「今天下午」及び「今天下午八点」の両方を含んでいるはずである。

ステップ156で、その用語集が評価される用語集がステップ155で変更されない(新たな単語が追加されず、かつ重要でない単語が削除されない)場合、用語集及び統計的言語モデル学習ユニット15は処理を終了する。そうでない場合、ステップ１５７の処理へ進む。

ステップ157で、それらが新しく作成された用語集に対応していないので、その時点で単語トリグラム・モデル141及び単語ユニグラムモデル142は有効ではない。ここで、単語ユニグラムモデルは、新しい用語集によって更新される。たな単語の単語ユニグラム（出現確率）は、単語トリグラム・モデルから得られる。また、削除すべき単語ユニグラムエントリは削除される。最後に、単語トリグラム・モデル141が削除され、ステップ151の処理が繰り返される。

図８は、本発明による用語集洗練化のフローチャートを示す。用語集洗練化が開始する場合、進むための２つの処理経路がある一方はステップ1551に進む処理経路であり、他方はステップ1554に進む処理経路である。最初に何れの処理経路に進むかを選択することが可能である。

まず第一に、トリグラム・エントリ（例えば「今天下午八点」）及びバイグラム・エントリ（例えば「今天下午」）は全て、ステップ１５５１で発生計算しきい値によってフィルタリングされ、例えば、コーパスに１００回以上出現したエントリは全て、新語候補リストへ選択される。このようにして、新語候補リストが作成される。ステップ１５５２で、全ての単語候補が相互情報量閾値によってフィルタリングされる。相互情報量は、次のように定義される:

ここで、ｆ（w_１，ｗ_２・・・ｗ_ｎ）は、単語列（w_１，ｗ_２・・・ｗ_ｎ）の出現確率を表す。ここで、（w_１，ｗ_２・・・ｗ_ｎ）は新語候補であり、「ｎ」は「２」または「３」である。
例えば、ｗ_１「今天」、ｗ_２「下午」及びｗ_３「八点」については、候補「今天下午八点」の相互情報量は、次のようになる。

相互情報量が閾値より小さい候補は全て、候補リストから取り除かれる。

ステップ１５５３で、新語候補リスト中の各候補の相対エントロピーが計算される。相対エントロピーは次のように定義される:

ここで、Ｐ（w_１，ｗ_２，・・・，ｗ_ｎ）は、現在の単語トリグラム・モデルから得られる単語列（w_１，ｗ_２・・・ｗ_ｎ）の見込みの確率である。その後、ステップ1553で、全ての候補が相対エントロピーの降順にソートされる。

ステップ１５５７に進む前に、まず、右側の処理工程（ステップ１５５４〜１５５６）が実行される。右側の工程では、いくつかの重要でない単語

及びいくつかの「偽の単語」が削除される。単語列が新語として追加される場合、それは「偽の単語」（例えば「今天下」）かもしれない。従って、幾つかの用語集エントリを削除することが必要となる。

用語集中の全ての単語は、ステップ１５５４で出現回数の閾値によってフィルタリングされ、例えば、用語集において出現回数が１００回未満の単語は全て削除され、削除単語候補リストへ選択される。削除単語候補リストはそのとき作成される。

ステップ１５５５で、削除単語候補リスト中の単語は、それぞれ一連の他の単語に分割される。例えば、

は、「革命」と、

に分割される。この分割方法は、ステップ１５２あるいはステップ１５４で説明した方法と同様である。これら２つのステップのうちのどちらの方法でも使用することができる。

ステップ１５５３と同様、各候補の相対エントロピーがステップ１５５６で計算される。その後、全ての候補は相対エントロピーの昇順にソートされる。

ステップ1557で、新しい単語と削除対象の単語の２つの単語候補リストに基づいて、新しい単語（新単語候補リストの単語）を幾つ追加するか、削除対象の単語（削除単語候補リストの単語）を幾つ取り除くかを決定するための方策が実行される。
この方策は、１つのルール又は複数のルールに従っている。例えば、相対エントロピーの閾値を使用するルール、用語集の単語の合計数を基準として使用するルール、それら２つのルールを使用するルールに従う。最後に、用語集が更新される。

用語集洗練化を行うことは非常に重要である。この用語集洗練処理において、もともと単に幾つかの単語列である幾つかの重要な語句が新しい単語として用語集に追加される。これにより、元の単語ユニグラム・モデルに存在しないある重要な言語情報が、最終的な単語ユニグラム・モデルに抽出される。さらに、幾つかの重要でない言語情報はオリジナルの単語ユニグラムモデルから削除される。従って、最終的な単語ユニグラム・モデルは、小さなサイズを維持することができるだけでなく、言語予測においてより優れた性能を提供する。従って、小さなサイズの辞書が得られると共に、本発明では、小型サイズの辞書を使用して、単語及び文予測において優れた性能を提供する。

図９は、本発明の第１の実施例によるユーザ端末装置のブロック図である。図９に示すように、プロセッサ３１、ユーザ入力部３２、表示装置３３、ＲＡＭ３５及びＲＯＭ（フラッシュ）３６が、バス３４によって接続され相互に作用する。入力符号化インタプリタ３６２、辞書インデックス・モジュール３６３、ユーザ入力予測／調整モジュール３６４が、入力処理ユニット３６０１を構成する。入力処理ユニット３６０１、辞書２、辞書インデックス３６６、オペレーティング・システム３６１及び他のアプリケーション３６５は、ＲＯＭ３６内に搭載される。

図１０〜図１３は、それぞれユーザ端末装置の従来のキーボードの４種類の構成を示すブロックであり、これらは本発明によって利用される。ユーザ入力部３２は、任意のタイプのユーザ入力装置で実現できる。図１０に示されるように、ユーザ入力部３２の１つの例は、ディジタル・ボタンがそれぞれいくつかのピンインコードを表わすディジタル・キーボードである。ボタン321は、ピンイン文字「g」あるいは「h」あるいは「i」を表す数字「４」のボタンである。ボタン３２２は「関数」ボタンであり、ユーザは、いくつかのアクションをするためにこの種のボタンを使用することができる。例えば、候補リストから正しい候補を選択するためにこのボタンを数回クリックする。ユーザ入力部のこの例は、英語の入力においても適用することができる。したがって、各ディジタル・ボタンはそれぞれ幾つかのアルファベット文字を表わす。ユーザ入力部３２の他の例は、図１１に示されるように、各ディジタル・ボタンがそれぞれ幾つかの字画コードを表わすディジタル・キーボードである。図１１において、字画「、」を表わすボタン321は数字「4」のボタンである。ユーザ入力部３２の３番目の例は、日本語の入力方式において使用されるディジタル・キーボードである。この例における各ディジタル・ボタンは、それぞれ幾つかの平仮名を表わす。図１２において、ボタン321は、平仮名「た」、「ち」、「つ」、「て」、「と」の何れかを表わす数字「4」のボタンである。ユーザ入力部３２の４番目の例は、韓国語の入力方式において使用されるディジタル・キーボードである。この例における各ディジタル・ボタンは、それぞれ幾つかの韓国語の字画を表わす。図１３において、ボタン３２１は、韓国語

あるいは

を表す数字「４」のボタンである。ユーザ入力部３２の５番目の例は、ペン軌跡を記録することができるタッチパッドである。スクリーン上へのペンの接触によって幾つかのユーザ・アクションを記録することができる。

図１６は、図９に示したユーザ端末装置における入力処理ユニットの各構成部分の接続構成を示すブロック図である。ユーザ入力予測／調整モジュール３６４が動作する前に、辞書インデックス・モジュール３６３が、辞書２を読み込み、ＲＯＭ３６へ辞書インデックス３６６を追加する。辞書インデックス３６６は、対応する単語符号化情報に基づいた辞書２中の全単語エントリのためのインデックスである。ユーザ入力部３２の第１の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語「今天」のピンインは「ｊｉｎｔｉａｎ」であり、したがって、符号化情報は「５４６８４２６」となる。ユーザ入力部３２の第２の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語「今天」の字画は、

であり、従って、符号化情報は「３４４５１１３４」となる。ユーザ入力部３２の３番目の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語「今晩」の平仮名は「こんばん」であり、従って、符号化情報は「２０５＃０」となる。ユーザ入力部３２の４番目の例においては、単語のための符号化情報はディジタル・シーケンスである。例えば、単語

の韓国語の字画は、

であり、従って、符号化情報は「８３２２６１２１７２３５」となる。ユーザ入力部３２の５番目の例においては、単語のための符号化情報はＵｎｉｃｏｄｅシーケンスである。例えば、単語「今天」のためのＵｎｉｃｏｄｅは、「（４ＥＣＡ）（５９２９）」であり、従って、符号化情報は「（４ＥＣＡ）（５９２９）」となる。

ユーザ入力部３２は、ユーザ入力を受け取り、それをバス３４を介して入力符号化インタプリタ３６２に送る。入力符号化インタプリタ３６２は、ユーザ入力を符号化情報またはユーザ・アクションへ解釈し、それをユーザ入力予測／調整モジュール３６４に転送する。この符号化情報は、一定の情報あるいは確率的な情報である。ユーザ入力部３２の第１の例においては、入力符号化インタプリタ３６２は、各ボタン・クリックを、ピンインの各文字「ａ」〜「ｚ」の幾つかの可能性を表わす一定の数字コード「０」〜「９」へ解釈する。ユーザ入力部３２の第２の例においては、入力符号化インタプリタ３６２は、各ボタン・クリックを、字画

の文字を表わす一定の数字コード「０」〜「９」へ解釈する。ユーザ入力部３２の３番目の例においては、入力符号化インタプリタ３６２は、各ボタン・クリックを、個々の平仮名のいくつかの可能性を表わす一定の数字コード「０」〜「９」又は「＃」に翻訳する。ユーザ入力端子32の4番目の例においては、入力符号化インタプリタ３６２は、各ボタン・クリックを、個々の韓国語の字画の幾つかの可能性を表わす一定の数字コード「0」〜「9」へ翻訳する。ユーザ入力端子32の5番目の例においては、入力符号化インタプリタ３６２は、各ペンの軌跡を、幾つかの可能なUnicode及び対応する確率を表わす確率変数へ翻訳する。（この入力符号化インタプリタ３６２は、ペンの軌跡を、文字候補と対応する確率のセットとして認識する手書き認識エンジンによって実現することができる。）

ユーザ入力予測／調整モジュール３６４は、入力符号化インタプリタ３６２によって送られた翻訳された符号化情報あるいはユーザ・アクションを受け取る。辞書２及び辞書インデックス３６６に基づいて、ユーザ入力の結果が生成され、その結果がバス３４を介して表示装置３３に送られる。表示装置３３は、ユーザに対して、入力の結果と入力方法に関連する他の情報を提示する装置である。図１７は、ユーザ端末装置の表示装置３３のユーザ・インタフェースの例を示す。

この表示装置の例では、入力ステータス情報エリア３３１及び入力結果エリア３３２を備える。エリア３３１には、ユーザ入力の数字列３３１１及び入力方式ステータス３３１２が表示される。エリア３３１１は、ユーザによって既に入力された現在のディジタル・シーケンスを示す。エリア３３１２は、現在の入力方式がピンインによるディジタル・キーボード入力方式であることを示している。エリア３３２には、ユーザ入力予測／調整モジュール３６４から与えられる幾つかの結果が表示される。文予測３３２１は、入力されたディジタル・シーケンス３３１１に従いユーザ入力予測／調整モジュール３６４によって予測された文である。現在の単語候補３３２２は、入力ディジタル・シーケンス３３１１の陰付きの部分（現在の単語部分）に従ってユーザ入力予測／調整モジュール３６４によって得られる、現在の単語候補全てのリストである。このリストの候補は全て、同じ単語符号化情報（すなわち、「２４８３２」のディジタル・シーケンス）を有している。現在の予測可能な単語候補３３２３は、入力ディジタル・シーケンス３３１１の陰付きの部分（現在の単語部分）に従ってユーザ入力予測／調整モジュール３６４によって得られる、予測可能な現在の単語候補全てのリストである。このリスト中の全ての候補の単語符号化情報の最初の５つの数字は、同じ数字列「２４８３２」を有する。

表示装置３３のレイアウトは変更することができ、その構成部分は、全て削除又は変更可能である。

図１８は、辞書インデックス・モジュール３６３によって実行されるパトリシア・ツリー・インデックスの構築を説明するフローチャートである。ステップ３６３１で、辞書インデックス・モジュール３６３は辞書２を読み込む。特定のユーザ入力部３２によって、各単語の符号化情報が与えられる。その後、ステップ３６３２で、まず初めに、単語エントリがそれらの符号化情報によってソートされる。２つの単語エントリの符号化情報が同一である場合、第２に、それらは単語ユニグラム（出現確率）によってソートされる。そのソート結果に基づいて、辞書のためのパトリシア・ツリー・インデックスが構築される。パトリシア・ツリー・インデックスは、多数のレコードを格納し、レコードの高速な連続検索を提供する。最後に、パトリシア・ツリー・インデックスが辞書インデックスに書き込まれる。

図１９は、本発明によるソート結果とパトリシア・ツリー・インデックスの例を示す。上記パトリシア・ツリー・インデックスを有する辞書インデックス３６６を使用することにより、追加のユーザ入力アクションが受け取られと、ユーザ入力予測／調整モジュール３６４が迅速な単語検索を実行する。例えば、初めの「２」が入力されると、ユーザ入力予測／調整モジュール３６４は、１ステップで迅速にノード「２」を検索し、メモリにこのノードを記録することが可能となる。次のステップで、「３」が入力されると、ユーザ入力予測／調整モジュール３６４は、たった１ステップでノード「２」からノード「２３」まで検索する。各ノードにおいて、対応する単語候補および予測可能な候補を計算するための情報は、容易に取得することが可能である。

図２０は、ユーザ端末装置１のユーザ入力予測／調整モジュール３６４によって実行されるユーザ入力予測および調整工程のフローチャートである。ステップ３６４１で、ユーザ入力情報を入力符号化インタプリタ３６２から受信し、ユーザ入力予測／調整モジュール３６４は、受信した入力情報がユーザ・アクションか符号化情報であるかを決定する。それがユーザ・アクションであれば、ステップ３６４８が実行される。そうでなければ、ステップ３６４２が実行される。

ステップ３６４２で、この入力符号化情報が使用され、工程は、辞書インデックス３６６中のパトリシア・ツリー・インデックスに沿って１ステップ先へ進む。それは、ユーザ入力予測／調整モジュール３６４が、現在のパトリシア・ツリー・ノード（Patricia tree node）のリストを格納することを意味する。追加の符号化情報が加えられる場合、開始点としてこのリストのノードを使用することによって、新たなパトリシア・ツリー・ノードを探索するために、ステップ３６４２はパトリシア・ツリー・インデックスに沿って１ステップ先へ進む。追加の符号化情報が追加された最初の符号化情報である場合、ステップ３６４２はパトリシア・ツリーのルートから開始する。すなわち、図１９のパトリシア・ツリーの例においては、「２」が最初の符号化情報として加えられ、ステップ３６４２でルートからパトリシア・ツリーにおける新たなノード「２」を検索する。２回目に、「２」およびルート・ノードが現在のパトリシア・ツリー・ノードとしてセットされる。「３」が第２の符号化情報として追加されると、ステップ３６４２で、新しいノード「２３」が現在のノード「２」から検索され、また、新しいノード「３」が現在のノードのルート・ノードから検索される。３回目に、ノード「２３」、ノード「３」及びルート・ノードが、現在のノードとしてセットされる。

ステップ３６４３で、新しいノードが探索されない場合、プロセスはステップ３６４４へ進む。それは、その符号化情報が無効であることを意味する。そうでなければ、プロセスはステップ３６４５へ進む。

ステップ３６４４で、その符号化情報は無視され、この符号化情報が追加される前に、結果及びステータスはすべてそれらの前の値に戻される。その後、次のユーザ入力情報を待つために、プロセスはステップ３６４１へ戻る。

ステップ３６４５で、新しいパトリシア・ツリー・ノードが受け取られ、それらは現在のパトリシア・ツリー・ノードとしてセットされる。現在のノードはそれぞれ、すべての入力符号化情報で可能な現在の単語の集合を表わす。その後、文予測が、最も確率の高い単語列は何かを決定するこのステップにおいて実行される。この最も確率の高い単語列が最終的な文予測となる。例えば、「２」及び「３」は、最初と第２回目のユーザ入力符号化情報としてそれぞれ追加される。現在のノードは「２３」、「３」そしてルート・ノードである。符号化情報「２３」を有するすべての単語は、ただ１つの単語を有する単語列である。これは一種の可能な文である(

は確率の高い文である)。符号化情報「３」を有するすべての単語は、符号化情報「２」を有する単語に続き、２つの単語列「２」、「３」を形成する。これは、別の種類の可能な文である（

は確率の高い文であり、かつ

も確率の高い文である。）。最も確からしい文を決定する方法は、符号化Ｉの単語列が与えられたとき、符号化Ｉに対応する最も確からしい単語列

を見出すことと表現することができる。この課題に対する１つの解法は式（４）に示される。

は単語ｗ_ｎが有している全ての品詞の集合である。

は単語ｗ_ｎの品詞うちの１つである。この課題は、Ｐ（Ｓ）を最大にすることである。式（５）を導き出すことができる。

と

は、それぞれ品詞ユニグラムと品詞バイグラムである。それらは、品詞バイグラム・モデル（図２に示される辞書における部分２２）に含まれている。Ｐ（ｗ_１）は、単語ユニグラム（図２に示される辞書における部分２１２）である。

は、単語による品詞の出現確率（辞書の構造における部分２１４）である。

ステップ３６４６で、文予測中の現在の単語が決定される。現在の単語候補及び予測可能な現在の単語候補は、この単語のパトリシア・ツリー・ノードから導き出される。例えば、文予測が

であると仮定すると、現在の単語は

となる。そのとき、現在の単語のパトリシア・ツリー・ノードはノード「3」である。このため、現在の単語候補リストは1単語

だけを有し、予測可能な現在の単語候補リストは単語を有してない。

最後に、表示すべき結果がステップ3647で出力され、処理工程は、他のユーザ入力情報を待ってステップ3641へ進む。

ユーザ入力情報がユーザアクションである場合、ステップ3648は結果に基づいていくらかの対応する調節を行う。例えば、ユーザが現在の単語候補リストから第2の単語を選択すると、文予測の現在の単語が、選択された単語に基づいてこの新しい現在の単語に変更される。例えば、ユーザが文予測結果に関して「Ｆ２」（ＯＫを意味する）をクリックすれば、図１７が示すように、文予測３３２１が、ユーザアプリケーションとディジタル・シーケンス３３１に送られ、エリア３３２内の結果が全てリセットされる。

図２１は、図１０において示されたキーボードを使用するユーザ端末装置３の入力列の例を示す。この図では、ユーザは、ユーザ入力部３２の第１の例のピンインを使用して、中国語「今天下午」を入力する。

図２２は、本発明の第2の実施例によるユーザ端末装置のブロック図を示す。この実施例は、２つの部分、すなわち携帯端末とコンピュータを示している。図９に示した第１の実施例は単に1つの携帯端末を備える。これらの2つの実施例間の違いは、この実施例がコンピュータに辞書インデックス・モジュール363を配置している点である。辞書インデックス・モジュール363は、辞書２を処理し、コンピュータのディスク内に辞書インデックスクス366を出力する。その後、辞書２及び辞書インデックス３６６は、携帯端末のＲＯＭ（フラッシュ）へ転送される。携帯端末プロバイダによって提供されるツールによって転送処理を実行することも可能である。その後、ユーザ入力予測／調整モジュール３６４が、第１の実施例のように動作する。

本発明は、その思想あるいは本質的特徴から外れない範囲で、他の特定の態様において具体化されることも可能である。また、本実施例は、全ての点において具体的な例として考慮され、限定的に考慮されるものではない。また、本発明の範囲は、実施例の記載ではなく請求の範囲によって示される。さらにクレームと同等の意味及び範囲内に含まれる全ての変形例は本発明に包含される。

図１は、本発明による、辞書学習装置とユーザ端末装置の関係を示すブロック図である。図２は、辞書学習装置によって学習された辞書の構造例を示す図である。図３は、辞書学習装置によって学習された辞書の他の構造別を示す図である。図４は、本発明による辞書学習装置の構成を示すブロック図である。図５は、辞書学習装置の辞書学習処理モジュールの構成例を示す詳細なブロック図である。図６は、辞書学習装置の辞書学習処理モジュールの他の構成例を示す詳細なブロック図である。図７は、本発明による辞書学習処理モジュールの用語集及び統計的言語モデル学習ユニットによって実行された辞書及び統計言語モデルを学習する手順について説明するためのフローチャートである。図８は、本発明による用語集の洗練化のフローチャートである。図９は、本発明の第１の実施例によるユーザ端末装置のブロック図である。図１０は、ユーザ端末装置の従来のキーボードの例を示す図である。図１１は、ユーザ端末装置の従来のキーボードの他の例を示す図である。図１２は、ユーザ端末装置の従来のキーボードの他の例を示す図である。図１３は、ユーザ端末装置の従来のキーボードの他の例を示す図である。図１４は、最も一般的な入力方式を使用して、漢字の「今」を入力する場合のＴ９による入力シーケンスを示す図である。図１５は、最も一般的な入力方式を使用して、中国語「今天」を入力する場合のＴ９による入力シーケンスを示す図である。図１６は、本発明のユーザ端末装置における入力処理ユニットの各構成要素の接続関係を示すブロック図である。図１７は、本発明のユーザ端末装置の表示装置のユーザ・インタフェースの例を示す図である。図１８は、本発明のユーザ端末装置の辞書インデックス・モジュールによって実行されるパトリシア・ツリー・インデックス（Patricia Tree index）を構築する処理を説明するフローチャートである。図１９は、本発明によるソート結果及びパトリシア・トリー・インデックスの例を示す図である。図２０は、本発明のユーザ端末装置におけるユーザ入力予測／調節モジュールによって実行されるユーザ入力の予測及び調整処理を説明するフローチャートである。図２１は、ユーザ端末装置による入力シーケンスの例を示す図である。図２２は、本発明の第２の実施例によるユーザ端末装置のブロック図である。

符号の説明

１：辞書学習装置
１０１：ＣＰＵ
１０２：コンピュータアクセサリ
１０３：内部バス
１０４：メモリ
１０４１：オペレーティング・システム
１０４２：辞書学習処理モジュール
１０４３：他のアプリケーション
１０５：ハードディスク
１０５１：コーパス
１０５２：辞書学習ファイル
１１：用語集
１２：タグ無しのコーパス
１３：品詞タグ付きのコーパス
１４：統計的言語モデル
１４１：単語鳥グラム・モデル
１４２：単語ユニグラム・モデル
１５：用語集及び統計的言語モデル学習ユニット
１６：品詞学習ユニット
１７：辞書統合ユニット
２：辞書
３：ユーザ端末装置
３１：プロセッサ
３２：ユーザ入力部
３３：表示装置
３４：バス
３５：ＲＡＭ
３６：ＲＯＭ（フラッシュ）
３６１：オペレーティング・システム
３６２：入力符号化インタプリタ
３６３：辞書インデックス・モジュール
３６４：ユーザ入力予測／調整モジュール
３６５：他のアプリケーション
３６６：辞書インデックス

Claims

タグ無しのコーパスから用語集及び統計言語モデルを学習するステップと、
前記用語集、前記統計言語モデル及び補助的な単語符号化情報を、辞書に統合するステップと
を有することを特徴とする辞書学習方法。
品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と品詞バイグラム・モデルを取得するステップと、
前記品詞情報及び前記品詞バイグラム・モデルを、前記辞書に追加するステップをさらに有することを特徴とする請求項１に記載の辞書学習方法。
前記補助的な単語符号化情報が、中国語符号化情報であることを特徴とする請求項１または請求項２に記載の辞書学習方法。
前記補助的な単語符号化情報が、中国語以外の符号化情報であることを特徴とする請求項１または請求項２に記載の辞書学習方法。
前記補助的な単語符号化情報が、中国語以外の符号化情報であることを特徴とする請求項３に記載の辞書学習方法。
タグ無しのコーパスから用語集及び統計言語モデルを学習するステップが、
ａ）前記タグ無しのコーパスを単語シーケンスに分割するステップと、
ｂ）前記単語シーケンスを使用して、単語ユニグラム・モデルおよび単語トリグラム・モデルからなる統計言語モデルを作成するステップと、
ｃ）パープレキシティを計算し、前記パープレキシティの計算が最初であるか、あるいは前記パープレキシティが第１の閾値以上に減少しているかどうかを判定するステップと、
ｄ）ステップｃ）の結果が肯定的な場合に、単語トリグラム・モデルによって前記コーパスを単語列へ再分割し、ステップｂ）を実行するステップと、
ｅ）ステップｃ）の結果が否定的である場合に、前記統計言語モデルに基づいて前記用語集を洗練化し、新たな単語を追加し、重要でない単語を取り除くステップと、
ｆ）前記単語ユニグラム・モデルを更新し、無効な前記単語トリグラムを削除し、前記用語集がそれ以上変化しなくなるまでステップａ）を実行するステップを
含むことを特徴とする請求項１または請求項２に記載の辞書学習方法。
前記ステップａ）が、以下の式に基づいて前記タグ無しのコーパスを分割し、

ここで、

は、単語シーケンス

を表し、

は、単語シーケンスの見込みの出現確率を表し、

は最適化された単語シーケンスである
ことを特徴とする請求項６に記載の辞書学習方法。
前記ステップｂ）は、前記用語集に基づいた最大マッチングを利用して前記コーパスを再分割するステップを含むことを特徴とする請求項７に記載の辞書学習方法。
前記ステップａ）は、前記用語集に基づいた最大マッチングを利用して前記コーパスを分割するステップを含むことを特徴とする請求項６に記載の辞書学習方法。
前記ステップｄ）は、前記用語集に基づいた最大マッチングを利用して前記コーパスを再分割するステップを含むことを特徴とする請求項９に記載の辞書学習方法。
前記ステップｅ）が、
ｅ１）新たらしい単語の語候補リストを形成するためにトリグラム・エントリ及びバイグラムのエントリの全てを第１の出現計数の閾値によってフィルタリングするステップと、
ｅ２）第１の候補として、相互情報量の閾値によって前記新単語候補リストからの候補を全てフィルタリングするステップと、
ｅ３）前記新単語候補リストの前記第１の候補の全ての相対エントロピーを計算し、相対エントロピーの降順に前記第１の候補をソートするステップと、
ｅ４）削除単語候補リストを形成するために、第２の出現計数の閾値によって前記用語集の単語を全てフィルタリングするステップと、
ｅ５）前記削除単語候補リストの各単語を、第２の候補として、前記用語集の一連の他の単語へ分割するステップと、
ｅ６）前記削除単語候補リストの前記第２の候補の全てについて相対エントロピーを計算し、相対エントロピーの昇順に前記第２の候補をソートするステップと、
ｅ７）追加すべき前記第１の候補の数と、取り除くべき前記第２の候補の数を決定し、前記用語集を更新するステップと
を含むことを特徴とする請求項６に記載の辞書学習方法。
前記ステップｅ）が、以下の式に基づいて全ての候補について前記相互情報量を計算し、

ここで、（w_１，ｗ_２・・・ｗ_ｎ）は単語列を表し、ｆ（w_１，ｗ_２・・・ｗ_ｎ）は、単語列（ｗ_１，ｗ_２・・・ｗ_ｎ）の出現確率を表し、「ｎ」は２または３である
ことを特徴とする請求項１１に記載の辞書学習方法。
辞書を学習する辞書学習処理モジュールと、
タグ無しのコーパスを格納する記憶ユニットと、
装置の各部を制御する制御ユニットを備え、
前記辞書学習処理モジュールが、
前記タブ無しのコーパスから用語集と統計的言語モデルを学習する用語集／統計的言語モデル学習ユニットと、
辞書へ、用語集、統計的言語モデル及び補助的な単語符号化情報を統合する辞書統合ユニットを備える
ことを特徴とする辞書学習装置。
前記記憶ユニットが、さらに品詞タグ付きのコーパスを格納し、
前記辞書学習処理モジュールが、さらに、
前記品詞タグ付きのコーパスから、前記用語集の各単語の品詞情報と、品詞バイグラム・モデルを取得する品詞学習ユニットと、
前記辞書に、前記品詞情報及び前記品詞バイグラム・モデルを加える辞書統合ユニットを備えることを特徴とする請求項１３に記載の辞書学習装置。
用語集／統計的言語モデル学習ユニットが、
前記タグ無しのコーパスを単語列に分割し、
前記単語列を使用する、単語ユニグラム・モデル及び単語トリグラム・モデルからなる前記統計的言語モデルを生成し、
パープレキシティの計算が最初でなく、パープレキシティが第１の閾値以下の減少となるまで、単語トリグラム・モデルによる前記コーパスの単語列への再分割と、前記単語列を使用する前記統計的言語モデルの生成を繰り返し、
統計的言語モデルに基づいて前記用語集を洗練し、新たな単語を追加し、重要でない単語を取り除き、
前記単語ユニグラム・モデルを更新し、無効な前記単語トリグラムを削除し、前記用語集がそれ以上変化しなくなるまで前記タグ無しのコーパスを単語列に分割する処理を繰り返すことにより、
前記タブ無しのコーパスから用語集と統計的言語モデルを学習することを特徴とする請求項１３又は請求項１４に記載の辞書学習装置。
前記用語集／統計的言語モデル学習ユニットは、
新たらしい単語の語候補リストを形成するためにトリグラム・エントリ及びバイグラムのエントリの全てを第１の出現数閾値によってフィルタリングし、
第１の候補として、相互情報量閾値によって前記新単語候補リストからの候補を全てフィルタリングし、
前記新単語候補リストの前記第１の候補の全ての相対エントロピーを計算し、相対エントロピーの降順に前記第１の候補をソートし、
削除単語候補リストを形成するために、第２の出現数閾値によって前記用語集の単語を全てフィルタリングし、
前記削除単語候補リストの各単語を、第２の候補として、前記用語集の一連の他の単語へ分割し、
前記削除単語候補リストの前記第２の候補の全てについて相対エントロピーを計算し、相対エントロピーの昇順に前記第２の候補をソートし、
追加すべき前記第１の候補の数と、取り除くべき前記第２の候補の数を決定し、前記用語集を更新する
ことにより、前記用語集を洗練することを特徴とする請求項１５に記載の辞書学習装置。
前記補助的な単語符号化情報が、中国語符号化情報であることを特徴とする請求項１３に記載の辞書学習装置。
前記補助的な単語符号化情報が、中国語以外の言語の符号化情報であることを特徴とする請求項１３に記載の辞書学習装置。
前記中国語符号化情報が、ピンイン符号化情報と字画符号化情報の少なくとも１つからなることを特徴とする請求項１７に記載の辞書学習装置。
ユーザ入力を処理するための入力方法において、
ユーザ入力を受け付ける受け付けステップと、
ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションへ翻訳する翻訳ステップと、
前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測／調整ステップと、
文および単語予測の結果を表示装置に表示するステップと
を有することを特徴とする入力方法。
前記受け付けステップにおいて、中国語の入力を受け付けることを特徴とする請求項２０に記載の入力方法。
前記受け付けステップにおいて、中国語以外の言語の入力を受け付けることを特徴とする請求項２０に記載の入力方法。
前記中国語入力が、ピンイン入力、字画入力、ペン軌跡入力の何れかを含むことを特徴とする請求項２１に記載の入力方法。
前記ユーザ入力予測／調整ステップが、
ａ）翻訳された前記符号化情報又はユーザ・アクションを受け取り、
ｂ）ユーザーアクションである場合に、予想された結果を修正し、かつステップｈ）を実行し、
ｃ）前記符号化情報に基づいて、現在の全てのパトリシア・ツリー・ノードからパトリシア・ツリー・インデックスの新しいパトリシア・ツリー・ノードの全てを検索し、
ｄ）新しいパトリシア・ツリー・ノードが存在しない場合、前記符号化情報を無視し、全ての検索結果とステータスを復旧し、かつステップをａ）を実行し、
ｅ）新しいパトリシア・ツリー・ノードが存在する場合、現在のパトリシア・ツリー・ノードとして当該新しいパトリシア・ツリー・ノードをセットし、
ｆ）現在のパトリシア・ツリー・ノードから可能性のある全ての単語を検索して文予測を与え、
ｇ）文予測の結果からの現在の単語を決定し、単語候補リストおよび予測可能な単語候補リストからなる単語予測を与え、
ｈ）予測結果を表示装置に出力し、ステップａ）の実行に戻る
ステップを有することを特徴とする請求項２０に記載の入力方法。
前記ステップｆ）は、以下の式に基づいて最も確率の高い単語列を予想された文として決定することにより文予測を与え、

ここで、

は有している全ての品詞の集合であり、

は単語の品詞うちの１つであり、

と

は、それぞれ品詞ユニグラムと品詞バイグラムであり、
Ｐ（ｗ_１）は、単語ユニグラムであり、

は、単語による品詞の出現確率である
ことを特徴とする請求項２４に記載の入力方法。
ユーザ入力を処理するユーザ端末装置において、
ユーザ入力を受け付けるユーザ入力部と、
パトリシア・ツリー・インデックスを有する辞書および辞書インデックスを格納する記憶ユニットと、
ユーザ入力に基づいて文および単語予測を与える入力処理ユニットと、
文および単語予測の結果を表示する表示装置を備え、
前記入力処理ユニットは、
ユーザ入力を、辞書に基づいて予め取得されている辞書中の各単語の前記符号化情報またはユーザ・アクションに翻訳する入力符号化インタプリターと、
辞書中の統計前記符号化情報または前記ユーザ・アクションを受け取った場合に、辞書中の統計的言語モデルと品詞バイグラム・モデルで基づき、辞書インデックスのパトリシア・ツリー・インデックスを使用して、文と単語の予測を与え、前記ユーザ・アクションに従って文と単語予測を調節するユーザ入力予測／調整モジュールとを備えることを特徴とするユーザ端末装置。
前記入力処理ユニットは、
前記辞書の各単語エントリに符号化情報を付与し、前記符号化情報および単語ユニグラムによって全ての単語エントリをソートし、パトリシア・ツリー・インデックスを構築し、かつパトリシア・ツリー・インデックスを辞書インデックスに加える辞書インデックス・モジュールをさらに備えることを特徴とする請求項２６に記載のユーザ端末装置。
前記ユーザ入力予測／調整モジュールは、
翻訳された前記符号化情報又はユーザ・アクションを受け取り、
ユーザー・アクションである場合に、予想された結果を修正し、かつその結果を表示装置に出力し、
前記符号化情報を受け取った場合、現在の全てのパトリシア・ツリー・ノードからパトリシア・ツリー・インデックスの新しいパトリシア・ツリー・ノードの全てを検索し、
新しいパトリシア・ツリー・ノードが存在しない場合、前記符号化情報を無視し、全ての検索結果とステータスを元に戻し、かつ翻訳された前記符号化情報又はユーザ・アクションの受信を繰り返し、
新しいパトリシア・ツリー・ノードが存在する場合、現在のパトリシア・ツリー・ノードとして当該新しいパトリシア・ツリー・ノードをセットし、
現在のパトリシア・ツリー・ノードから可能性のある全ての単語を検索して文予測を与え、
文予測の結果からの現在の単語を決定し、単語候補リストおよび予測可能な単語候補リストからなる単語予測を与え、
予測結果を表示装置に出力する
ことにより、文と単語の予測を与え予測を調節することを特徴とする請求項２６又は請求項２７に記載のユーザ端末装置。
前記ユーザ入力部が、中国語の入力に使用されることを特徴とする請求項２６に記載のユーザ端末装置。
前記ユーザ入力部が、中国語以外の入力に使用されることを特徴とする請求項２６に記載のユーザ端末装置。
前記ユーザ入力部が、ディジタルボタンが幾つかのピンインコードを表すディジタル・キーボードであることを特徴とする請求項２９に記載のユーザ端末装置。
前記ユーザ入力部が、ディジタルボタンが幾つかの字画コードを表すディジタル・キーボードであることを特徴とする請求項２９に記載のユーザ端末装置。
前記ユーザ入力部が、タッチパネルであることを特徴とする請求項２９に記載のユーザ端末装置。