JP2005531858A

JP2005531858A - 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム

Info

Publication number: JP2005531858A
Application number: JP2004518332A
Authority: JP
Inventors: バディムファックス，; サージェブブイ．コロミーツ，
Original assignee: 2012244 Ontario Inc
Current assignee: 2012244 Ontario Inc
Priority date: 2002-07-03
Filing date: 2003-07-03
Publication date: 2005-10-20
Also published as: DE60305922T2; AU2003250637A1; EP1522027B8; KR100712001B1; CN100561469C; KR20050043884A; WO2004006123A3; EP1522027B1; DE60305922D1; WO2004006123A2; CN1679023A; ATE329317T1; JP2007042146A; EP1522027A2; AU2003250637A8

Abstract

複数の中国語ピン音音節のそれぞれに対する一意な識別子が生成され、識別子配列に格納される。複数のハンジ（漢字）候補リストが生成され、各リストはピン音音節に関連付けられたハンジ候補を含む。配列の各識別子は配列ンデックスを有しており、各リストの各ハンジ候補はリストに候補インデックスを有する。複数のピン音音節を有する複数の語のそれぞれに対する、それからキーおよび値を含むデータレコードが生成される。語のデータレコードでは、キーは語の複数のピン音音節のそれぞれに対する識別子配列内の識別子の配列ンデックスおよびトーン情報であり、値はピン音音節のそれぞれに関連付けられた各ピン音音節を表す候補リストの候補インデックスである。

Description

（関連出願の相互参照）
本願は、２００２年７月３日に出願された米国仮出願ＳＮ６０／３９３，９４８から利益をクレームする。図面を含む、本仮出願の完全なる開示は、本出願に援用される。

本発明は、電子デバイス上の言語データストレージおよびテキスト入力全般に関し、特に、テキストプロセシングおよびテキスト入力のための中国語データ作成および使用に関する。

標準中国語（マンダリン）では、全ての文字は、単一音節方法で話される。標準中国語は、４０５の基本ピンイン文字と５つのトーンのバリエーションからなる１０，０００文字以上を包含する。音節表原則は、ＨｕｎｇおよびＴｚｅｎｇといった中国語の書記体系のための基礎である。ここでは、多くの音節は、同じ音を表し得て、同じ音は、しばしば多くの異なるシンボルによって表される。加えて、単語は、中国語においてスペースで分けられないので、電子デバイス上に中国語テキスト入力中には単語の適切なセグメント化には中国語の言語データを必要とする。研究は、静的な言語データが、多くの場合において適切な単語のセグメント化を提供するには十分ではないことを明らかにした。ユーザ入力パターンの学習を有するシステムだけが、効率的な中国語テキスト入力に対するセグメントテーションの正確さのレベルを提供する。したがって、広範な言語データが必要であり、多くの中国語テキスト入力システムによって大変高いメモリ使用を占める。

テキスト入力のための言語データのストレージおよび使用に対する現在の解決法は、ハッシュテーブル、ツリー、データベースもしくは単語リストといったデータ構造を用いる。これらの解決法は、それらが依存する複雑なデータ構造を格納し、サポートするために多くのメモリとコードスペースを要求し、かつ多くのプロセシングリソースを消費する点で、多くの現代のシステムにおいて適していない。例えば、移動通信機器を含む携帯型電子デバイスといった電子デバイスは、これらの現在の解決法の使用を不可能にする限定されたプロセシングおよびメモリリソースを有している。

中国語ピンイン音節を中国語漢字文字に変換する際に用いられる言語データ構造であって、データ構造は、各リストは、ピンイン音節に関連付けられた漢字文字リストを含み、各リスト内の各漢字文字候補は、リストにインデックスを有する、複数の漢字文字候補リストと、複数の言語データレコードであって、各言語データレコードは、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を包含する、複数の言語データレコードとを備え、各言語データレコード内の該キーは、言語データレコードが対応する単語のピンイン音節に対するインデックスのシーケンスと、トーン情報とを含み、各言語データレコード内の値は、単語の該ピンイン音節にそれぞれ関連付けられた候補のリスト内に単語のピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む。

中国語言語データを生成する方法は、本発明の実施形態によれば、複数の中国語ピンイン音節のそれぞれに対する識別子を生成するステップと、識別子の配列内に該生成された識別子を格納するステップであって、識別子の配列内の各識別子は、配列ンデックスを有するステップと、複数の漢字文字候補リストを生成するステップであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を含み、各リスト内の各漢字文字候補は、該リスト内に候補インデックスを有するステップと、複数のピンイン音節を有する複数の単語それぞれに対する、キーおよび値を包含するデータレコードを生成し、キーは、複数のピンイン音節のそれぞれに対する識別子および複数のピンイン音節のそれぞれに対するトーン情報の配列内に該識別子の配列ンデックスを含み、値は、複数のピンイン音節のそれぞれに関連付けられた候補の該リスト内に該複数ピンイン音節を表す該候補の候補インデックスを含むステップとを包含する。

本発明のさらなる実施形態によれば、中国語漢字文字に中国語ピンイン音節を変換する中国語言語データを用いるシステムが提供される。言語データは、複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を包含し、各リスト内の各漢字候補は、リスト内にインデックスを有する複数の漢字文字候補リストと、複数の言語データレコードであって、各データレコードが、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を有する複数の言語データレコードを含む。各言語データレコード内のキーは、該言語データレコードが対応している単語のピンイン音節に対するインデックスのシーケンスおよびトーン情報を包含し、各言語データレコード内の値は、単語のピンイン音にそれぞれ関連付けられた候補のリスト内に単語のピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む。システムは、ピンイン音節を作成するための複数の文字表すキーを有するキーボードと、キーボードから入力ピンイン音節を受け取るように構成された入力キューと、複数の漢字文字候補リストおよび複数のデータレコードを格納するように構成されたメモリと、メモリおよび入力キューに動作可能に結合された入力プロセッサであって、かつ入力ピンイン音節を入力単語にセグメント化し、入力ピンイン音節を含む各入力単語に対応するそれぞれに言語データレコードに対する言語データレコードを検索し、また対応するデータレコード内の漢字文字候補インデックスを用いて各入力単語を中国漢字文字候補に変換するように構成された入力プロセッサと、ディスプレイと、ディスプレイと該入力プロセッサとの間で結合された該ディスプレイユーザインターフェースであって、ディスプレイ上に入力ピンイン音を節表示し、かつ、入力ピンイン音節が入力によって変換されるとき、入力ピンイン音節を該中国語文字候補と置換するユーザインターフェースと備える。

本発明のさらなる特徴が記載され、以下の詳細な過程において明らかになる。

本発明の１つの局面によれば、言語データの生成および使用のシステムと方法は、中国音節と文字インデキシングに基づいている。インデキシングは、より少ないメモリ使用をして言語データ格納し、また既知の中国語テキスト入力技術に関する単語に対してより速い検索およびアクセスを可能にする。

ピンインシステム（１９８１）には、中国語入力に使用され得る４０５の基本ピンイン文字および５のトーンを含む４１０の音節（音）がある。ピンイン音節は、ラテン語アルファベットの２６文字から構成され、したがって、ラテン文字が表されるキーボードの中国語テキスト入力に対して一般的に用いられる。ラテンアルファベットの２６文字のそれぞれは、０から２５の間のインデックス値に割り当たえられ得るアルファベットにおける位置を示す。例えば、レター「Ａ」はインデックス０にあり、「Ｂ」はインデックス１であり、「Ｚ」はインデックス２５にある等である。

あるいは、４１０の中国語音節は、また３７ボポモフォ文字から構成され得る。これらの文字は、連続するユニコード範囲、０ｘ３１０５から０ｘ３１２９に属する。したがって、また１０進数の０から３６で、インデックスされ得る。０のインデックスは、ユニコード範囲における１番目の文字、０ｘ３１０５に対応し、１のインデックスは、ユニコード範囲における２番目の文字、０ｘ３１０６に対応する等である。

上述のインデックスを用いて、各ピンインおよびボポモフォ音節は、したがって一意な識別子番号によって表される。本発明の実施形態によれば、任意の（ｎ＋１）個の文字音節に対する一意な識別子番号は、以下の公式を用いて計算される。

ＩＤ＝インデックス_０ ^＊（Ｎ^０）＋インデックス_１ ^＊（Ｎ^１）＋．．．＋インデックス_ｎ ^＊（Ｎ^ｎ）、
ここで、
インデックス_０は、音節の１番目の文字のインデックスであり、
インデックス_１は、音節の２番目の文字のインデックスであり、
インデックス_ｎは、音節の（ｎ＋１）番目の文字のインデックスであり、
Ｎは、音節構造に用いられる文字の最大のインデックスである。

例えば、ボポモフォ音節「

」において、ユニコードナンバー０ｘ３１０Ｃを有する１番目の文字「

」のインデックスは、０ｘ３１０Ｃから１番目のボポモフォ文字のユニコードナンバー０ｘ３１０５を引いたものである。したがって、インデックス_０＝０ｘ３１０Ｃ−０ｘ３１０５＝７である。同様に、インデックス_１は、２番目の文字「

」のインデックスであり、０ｘ３１２７−０ｘ３１０５＝０ｘ００２２＝３４でる。インデックス_２は、３番目の文字「

」のインデックスであり、０ｘ３１２０−０ｘ３１０５＝０ｘ００１Ｂ＝２７である。ボポモフォ文字の最大のインデックスは３６なので、ボポモフォ音節識別子対するＮは３６である。したがって、上記の公式によれば、この音節に対する識別子は、以下の通りである。

ＩＤ＝７^＊（３６^０）＋３４^＊（３６^１）＋２７^＊（３６^２）＝７＋１２２４＋３４９９２＝３６２２３
一意な識別子番号が、同様に各ピンイン音節に対して計算され得る。ここで、０から２５の間であるインデックス_ｎであり、かつ、Ｎ＝２５である。

上記公式は、一意な識別子が、各ピンインおよびボポモフォ音節に割り当てられることを可能にする。ピンインおよびボポモフォ音節は、それから一意の識別子にしたがって、それぞれの配列内に格納される。

図１は、ボポモフォ音節に対する一意な識別子の配列を示す。図１の配列は、最初の６識別子および最後（４１０番目）の識別子を表す一意な識別子２、４、６、８、１０、１２、および１４を示す。識別子２から１４、およびＳｙｌＢｏｐ１からＳｙｌＢｏｐ４１０の間の中間の識別子は、好ましくはＳｙｌＢｏｐ１が最小識別子ならびにＳｙｌＢｏｐ４１０が最大識別子になるように、増加する順序で格納される。０から４０９の範囲に及ぶ配列インデックスが、また図１の１６に示されている。

図２は、ピンイン音節に対する一意な識別子の配列を示す。最初の６ピンイン音節識別子２０、２２、２４、２６、２８、３０および最後の識別子３２は、ピンインシンボル識別子配列内の４１０の一意な識別子を表す。ピンイン音節識別子配列に対するインデックス３４は、インデックス１６と同様に、０から４０９の範囲に及ぶ。

図１、２に示されるように、ボポモフォおよびピンイン音節に対する識別子は、異なる配列に属する。これらの識別子が、インデックスによる厳格な対応を有していないことは、当業者にとって明らかである。ボポモフォ音節識別子配列内のインデックスａ−１の識別子ＳｙｌＢｏｐａとピンイン音節識別子配列内のインデックスａ−１の識別子ＳｙｌＰｉｎａは、必ずしもボポモフォ音節と対応するピンイン音節を識別するわけではない。したがって、「ボポモフォ音節」とピンイン音節との間の対応に関する情報を包含する追加の配列がある。

図３は、ピンイン音節とボポモフォ音節との間の対応の配列を示す。対応配列内の要素４０―５０および５２は、５０から５２の中間の配列要素と同様に、ピンイン識別子配列、もしくはボポモフォ識別子配列のインデックスである。対応配列のインデックス５４は、ピンイン識別子配列およびボポモフォ識別子配列の他のインデックスに対応する。例えば、対応配列のインデックス５４が、ピンイン識別子のインデックス３４に対応するとき、対応配列の要素は、ボポモフォ識別子配列のインデックス１６である。この場合、対応配列内のインデックスｂ−１の配列要素インデックスｂは、ピンイン音節配列のインデックスｂ−１の識別子を有するピンイン音節に対応するボポモフォ音節に対してボポモフォ識別子のボポモフォ識別子配列のインデックスである。すなわち、Ｓｙｌｐｉｎ（ｂ−１）によって識別されるピンイン音節は、ＳｙｌＢｏｐ（ｉｎｄｅｘｂ）によって識別されるボポモフォ音節に対応する。したがって、対応配列は、ピンイン識別子に対応するボポモフォ識別子のインデックスを提供する。対応配列において、インデックス５４は、代わりにボポモフォ識別子配列インデックス１６に対応し、要素がそれ後にピンイン識別子配列インデックスを格納し得ることは明らかである。

図４は、トーン情報配列を示す。０から４０９のインデックスを有する情報配列は、４１０の要素からなるバイトのさらなる配列である。トーン情報配列は、要素６０〜７０と図４には、はっきりと示されていない中間の要素と要素７２とを含む。この配列は、４１０対してすべてのボポモフォ音節のトーン情報を包含し、「ボポモフォ」音節の配列と厳格な対応を有する。インデックスｃ−１のトーン情報要素ＴｏｎｅＩｎｆｏｃは、ボポモフォ識別子配列の同じインデックスｃ−１でボポモフォ音節識別子ＳｙｌＢｏｐｃに対応する。トーン情報配列の各バイトの１番目の５ビットは、ボポモフォ識別子配列の同じインデックスで識別されるボポモフォ音節が、中国語の５つのトーンいずれかに用いられ得るかどうかを示す。

全てのピンイン音節とボポモフォ音節は、数個の対応する中国語の漢字（Ｈａｎｚｉ）文字を有し、２バイト値を用いる各ピンインおよびボポモフォ音節のそれぞれに対してそれぞれの対応する配列に格納される候補のリストを形成する。このような配列内の各候補は、配列内に一意なインデックスを有する。したがって、全ての中国語は、音節のインデックスシーケンスと、単語が構成される対応する中国語漢字文字インデックスのシーケンスとによって表され得る。

本発明の実施形態において、言語データは、別々の配列内に組織される２から８個の音節の長さの範囲におよぶ中国語単語に対するレコードを含む。同じ長さを有する単語に対するレコードは、区切りなしで同じ配列内に属する。

図５のレコードは、ピンイン１、ピンイン２、ピンイン３を含む３つの音節を有する複数文字の単語に対応する。単語内の各ピンイン音節に対して、音節のインデックスおよび音節とともに用いられ得るトーンの表示が、レコードに格納される。図２のピンイン配列内の音節のインデックスに対応する音節インデックスは、８２、８６、９０に示されており、トーンは、８４、８８、９２に示されている。インデックスおよびトーン情報は、各音節に対してエントリ１００、１０２、１０４を形成する。

上述のように、漢字文字の候補のリストは、各ピンイン音節とボポモフォ音節に対応する配列内に格納される。インデックス９４、９６、９８は、候補リスト内のピンイン音節を表す漢字文字のインデックスである。インデックス９４は、ピンイン１に対する候補のリスト内の図５のレコードに対応する単語の１番目の漢字文字のインデックスである。同様に、インデックス９６、９８は、ピンイン２およびピンイン３に対する候補のリスト内の図５のレコードにそれぞれ対応する単語の２番目および３番目の漢字文字のインデックスである。

したがって、単語の言語データレコードは、キー１０６および値１０８を含む。キー１０６は、インデックスのシーケンスと単語を表す音節に対するトーン情報１００、１０２、１０４であり、また値１０８は、音節を表す漢字文字９４、９６、９８のインデックスのシーケンスである。言語データの効率的な検索を容易にするために、レコードは、好ましくは１番目の音節のインデックスによってソートされる。

図６は、言語データレコードの例のブロック図である。図６の言語データレコードは、キー１２２としてピンイン音節インデックス１１０、１１４、１１８のシーケンスおよびトーン情報１１２、１１６、１２０と、中国語文字インデックスのシーケンスを表す値１２４とを含む図５に示されるフォーマットを有する。

ピンインインデックス１１０は、ピンイン「ｄａ１５」のピンイン識別子配列内にピンイン識別子のインデックスである。「ｄａ１５」の「１５」は、最初および５番目のトーンを表す。ピンイン音節に詳しい人なら、第一声は高平調、第二声は上昇調、第三声は低平調、第四声は下降調、ならびに第五声は中立調と分かる。各トーンは、好ましくは言語データレコード内の５ビットトーン情報エントリのビット位置と関連付けられる。ピンイン文字に対して各有効なトーンは、所定の値に対するトーン情報エントリのビットを対応する位置にセットすることによって示される。トーン情報エントリ１１２において、トーン最初と５番目のトーンは、最初と５番目のビット位置で高ビット値によって示される。あるいは、所定のビット値は、低くなり得る。図６の他のインデックスとトーン情報エントリ１１４／１１６と１１８／１２０とは、同様にフォーマットされる。

言語データレコードの最小長は、データレコード内のインデックスの最小長に依存する。上述のように、各ピンインインデックスに対する、最小長９ビットを確立する４１０のピンイン音節がある。トーン情報エントリは、好ましくは１つのトーンにつき１ビット、もしくは１エントリにつき５ビットを含む。値１２４内の各候補リストインデックスは、シングルビットとして示されているが、各候補リストインデックスの長さは、候補リスト内の候補数に依存することは分かる。可変長インデックスは、通常インデックスは、インデックスの間に区切り、もしくはかなり複雑な管理技術を必要とするので、固定長インデックスが一般的に好まれる。したがって、全の候補リストインデックスの長さは、好ましくは最長の候補リスト内の候補数に依存する。

当業者が分かるように、ほとんどのメモリコンポーネントは、バイト幅のメモリセグメントへのアクセスをサポートする。したがって、言語データレコードは、好ましくは多くの整数バイトを埋めるようにフォーマットされる。例えば、言語データエントリ内のインデックスとトーン情報の各組は、２バイトエントリとして格納され得て、少なくとも１番目のバイトと２番目のバイトの１番目のビット（すなわち少なくとも９ビット）は、インデックスを格納し、最後の５ビットは、トーン情報を格納する。同様に、バイト幅の候補リストインデックスは、３バイトのレコード値１２４を形成し、任意の候補リスト内で最大２５６個の候補までをサポートする。このタイプのバイト割り当てを用いて、図６のデータレコードは、６バイトキー１２２および３バイト値１２４を包含する。

さらに、言語データをコンパクトにするために、２文字の単語は、好ましくは専用のフォーマットで格納される。中国語の大多数は、２文字の単語なので、２文字の単語に関連付けられるレコードに対するスペースセービングは、全体のメモリスペース要求において著しい減少する結果になる。図７は、２文字の単語に対する言語データレコードのフォーマットを示すブロック図である。

上述のように、たった４１０のピンイン音節が、中国語テキストに用いられる。初期音節になり得る全ての音節は、それ自身の組を有し、各組は初期音節とを変形を含む。各初期音節に対する変形は、初期音節に続き得る音節である。このため、初期音節の変形は常に同じなので、特定の初期音節に対する各組の初期音節を格納することは必要ではない。

さらに、初期音節のインデックスは、オフセットの配列のインデックスと互換性があるので、初期音節は、全く格納される必要はない。それらのインデックスは、オフセットの配列のインデックスと同じである。オフセットの配列は、特定の初期音節に対応する各インデックスで、２文字の単語のデータレコード配列内のオフセットであり、この初期音節の１番目の変形のインデックスが格納される配列である。例えば、オフセット配列内の１番目のオフセットは、１番目の初期音節に対する１番目の変形のオフセットであり、１番目のオフセットは、１番目の初期音節に対して０である。好ましい実施形態において、初期音節は、１番目の初期音節が、最小もしくはあるいは最大の一意な識別子を有する初期音節であるように、一意な識別子もしくは識別子の配列内のインデックスにしたがって順序付けられる。２番目の初期音節に対する１番目の変形は、２で１番目のレコードからオフセットされるので１番目の初期音節に対して２つ変形があるとき、２番目の初期音節に対する１番目の変形に対応するオフセットの配列内の２番目のオフセットは、２である。あるいは、オフセットの配列は、データレコード配列内の各対応する初期音節に対する１番目の変形のインデックスを特定し得る。

各２文字の単語は、好ましくは２文字の単語に対する言語データレコードのフォーマットを示すブロック図である図７に示されるフォーマットを有する。図７のレコードは、第２の音節１３０のインデックスと、第１および第２の音節に対するトーン情報１３２、１３４と、第１および第２の音節を表すそれぞれの中国語文字のインデックス１３６、１３８とを含む。インデックスおよびトーン情報は、上述されている。

２文字の単語に対する言語データレコードにおいて、キー１４０は、第２の音節に対するインデックス１３０、および両方の音節に対するトーン情報１３２、１３４を含む。図５、図６に示される言語データレコードのように、値１４２は、中国語文字１３６、１３８のインデックスのシーケンスを含む。上述のように、初期音節の変形が、オフセットの配列を用いて見つけ出され得るように同じ初期音節変形に対するデータレコードは、グループ化される。同じ初期音節の変形に対するデータレコードは、また第１の音節のインデックス１３０によってソートされ得る。

図８は、２文字の単語に対する言語データレコードの例を示すブロック図である。図８の言語データレコードは、図７に示される専用のフォーマット内にあり、２つ音節を有する単語「ｄａ３」「ｊｉａ４」に対応する。データレコードは、キー１５４および値１５６を含む。キー１５４は、第２の音節「ｊｉａ４」だけのインデックス１４４と、第１および第２のトーン情報１４６、１４８とを含む。キー１５４に続いて、値１５６は、第１および第２の音節に対する候補リスト内に漢字文字インデックスを含む。

上述されるように、音節インデックスの最小長は、９ビットであり、トーン情報エントリは、１つのトーンにつき１ビット、もしくは１エントリにつき５ビットを含む。各候補リストインデックスの長さは、候補リスト内の候補数に依存し、最長候補リストの候補の数に依存する固定長インデックスが、通常好まれる。したがって、示されるように、インデックス１４４は、少なくとも９ビット長、かつトーン情報エントリ１４６、１４８は、５ビット長である。インデックス１５０，１５２は１ビット長を有していると示されているが、これらのインデックスは、１ビットより長くなり得る。

整数バイト長２文字の単語言語データレコードを提供するために、キー１５４と値１５６は、好ましくは多くの整数バイトを埋める。インデックス１３０もしくは１４４は、少なくとも９バイト長であるので、インデックスは、シングルバイトでは格納され得ない。各トーン値１３２、１３４、１４６、１４８は、好ましくは５ビット長であり、したがって、１バイト未満しか埋めない。したがって、キー１４０もしくは１５４は、したがって３バイトで格納され得る。インデックス１３０／１４４は、少なくとも１番目のバイトおよび２番目のバイトの１番目のビットで格納され、２番目と３番目のそれぞれの最後の５ビットは、トーン情報を格納する。１バイト長を有する候補リストインデックスは、２バイトレコード値１３８もしくは１５６を形成し、任意の候補リスト内に最大２５６候補をサポートする。このフォーマッティングは、整数バイト長データレコードを提供するが、当業者には明らかであろうが、他のデータレコードの長さもまた可能である。

図５に示される言語データレコードフォーマットに関連して、図７に示される専用のフォーマットは、１レコードにつき１音節インデックスを節約する。図５のレコードフォーマットは、各音節のインデックスを含む。一方、１番目の音節インデックスは、図７のレコードフォーマットに格納されていない。図７のレコードフォーマットは、上記のオフセットの配列によってサポートされているが、大多数の単語は、２文字の単語であり、結果的に、著しい全てのメモリの節約になる。これは、メモリリソースが限定されるときには、特に重要である。

電子デバイスは、中国語言語データをデバイスにインストールすることによって、中国語テキスト入力に対して有効になる。各音節に対する識別子は、上述のように計算されることにより、図１、２に示されるように識別子配列と、図３の対応配列と、図４に示されるトーン情報配列とを生成するために用いられる。識別子配列内のインデックスを用いて、言語データレコードが生成される。２文字の単語は、好ましくは図７に示されるフォーマットを有するデータレコードで表され、オフセット配列を用いてアクセスされる。３つ以上の文字を有する単語に対応するデータレコードは、好ましくは図５に示されるフォーマットを有する。これらのデータは、ユーザによってエンターされたピンイン音節を対応する中国語テキスト漢字文字と置換するために用いられる。当業者が分かるように、ユーザ入力のピンイン音節は、ディスプレイ上でボポモフォ音節と置換され得て、それからテキスト入力として、中国語漢字文字変換され得る。多くのインプリメンテーションにおいて、配列とデータレコードは、生成され、テキスト入力ソフトウェアアプリケーションのプロバイダもしくはモジュールといった言語データソースによって利用可能になり、電子デバイスにインストールされる。このようなデバイスのユーザは、したがって最初に言語データを生成する必要なしに、以前生成された言語データを電子デバイスにインストールする。

上述の言語データは、データレコードが存在する中国語テキストの入力を簡素化する。本発明のさらなる実施形態によれば、ユーザによって加えられる新たな単語、フレーズおよびセンテンスは、格納される。ユーザが、入力されたピンインのシーケンスを行うとき、シーケンスはセグメント化され、ユーザに表示するために、上記のデータレコードを用いて、中国語テキスト漢字音節のシーケンスに変換される。中国語テキストが表示されるとき、異なる入力テキストが意図されるとき、ユーザは、例えば、任意のシーケンスの一部に基づくルックアップ機能を呼び出して、候補を変更し得る。ユーザが、変換後ピンインのシーケンスに対する候補を変更したとき、下記にさらに詳しく記載されているように、変更された候補を有する新しい単語が形成され、言語データに加えられる。

例えば、ユーザがピンインシーケンス「ｚｈｕ４ｎｉ３ｈａｏ３ｙｕｎ４」を入力するとき、シーケンスは、中国語テキスト

に対応するｚｈｕ４／ｎｉ３／ｈａｏ３ｙｕｎ４としてセグメント化さえ得る。中国語文字

は、ピンイン音節「ｚｈｕ４」の第１候補である。ユーザが、第１ピンインに対する候補を、「

」ピンインが「ｚｈｕ４」の第４候補である、「

」から「

」へ変更するとき、新しい単語が形成され、言語データに加えられる。

ユーザが、候補を変更するときに、形成される特定の新しい単語は、入力されたシーケンスの候補の位置に依存する。ユーザによって選択される候補が、シーケンスの１番目の単語であるとき、シーケンスの次の単語は、１番目の単語に加えられ、新しい単語が、２つを一体化して生まれる。上記の例において、第１ピンインに対する候補は、ユーザによって変更されるので、シーケンスの２番目のピンインが、１番目のピンインに加えられることにより、新しい単語を形成する。新しい単語に対するデータレコードが、言語データに加えられる。新しい単語の第１のピンインに対する候補は、選択された候補である。

同様に、ユーザによって選択された候補が、シーケンスの最後の単語対応するとき、以前の単語が、最後の単語に加えられ、新しい単語が、２つを一体化して生まれる。ユーザによって選択された候補が、２つの他の単語間の中間の単語に対応するとき、２つの新たな単語が、中間の単語に先の単語を加え、さらに中間単語に後の単語を加えることによって形成される。２つの単語が、それから言語データに加えられる。

ユーザ入力パターンが、好ましくは学習言語データヘッダーおよび学習言語データ配列を含む学習言語データに格納される。図９は、学習言語データヘッダーフォーマットブロック図を示す。図１０は、言語学習データヘッダー例のブロック図を示す。図１１は、学習言語データ配列を示すブロック図である。

学習言語データは、可変長の中国語単語に対するデータレコードを含み得る。図９に示される言語データヘッダーは、学習言語データに格納されるデータレコードに対する単語の長さの情報と、かつ学習言語データ内のこれらのデータレコードの位置の情報を含む。ヘッダー長エントリ１６０は、ヘッダー長エントリを含むヘッダー自体の長さである。次のエントリ１６２は、下記にさらに詳しく記載される、データレコードが学習言語データ配列内に存在する異なる単語の長さの数である。例えば、学習言語データが、２文字および５文字の単語のデータレコードを含むとき、エントリ１６２は、２である。

学習言語データヘッダーの残りは、単語長とオフセットの組とを包含する。組の数は、ヘッダーエントリ１６２内の異なる単語長の数に対応する。１６４／１６６、１６８／１７０、１７２／１７４といった３組が、図９のヘッダーに示されている。３つより多い異なる単語長のデータレコードが、学習言語データに格納されているとき、学習言語データヘッダーは、一般的に１７６に指し示されるように、さらなる組を含む。各組は、データレコードが学習言語データ内に存在する特定の単語長を示す単語長エントリ１６４、１６８もしくは１７２と、学習言語データ配列内の先の単語長エントリに示される長さの単語に対する１番目のデータレコードを示すオフセットエントリ１６６、１７０、１７４とを含む。

図１０の学習言語データヘッダーの例は、２バイトヘッダー長エントリ１８０と、１バイト単語長ナンバーエントリ１８２と、１バイト単語長エントリと２バイトオフセットエントリ１８４／１８６、１８８／１９０、１９２／１９４の３組とを含む。学習言語ヘッダーの長さおよび任意のエントリは、決して図１０に示される長さに限定されない。ヘッダーの全長は、関連づけられた学習言語データ配列に依存し、新しい単語が、学習言語データ配列へ加えられるごとに、変更され得る。例えば、データレコードが存在する単語とは異なる長さを有する新しい単語のデータレコードが学習言語データ配列に加えられる。図１０のヘッダーの内容は、図１１に示される学習言語データ配列と関連して、下記にさらに詳しく記載されている。

図１１の学習言語データ配列は、２文字の単語２１８の配列と、５文字の単語２２０と、１０文字の単語２２２とを含む。学習言語データ配列内のこれらの配列のそれぞれは、一連のレコード２００〜２０４、２０６〜２１０、２１２〜２１６を含む。学習言語データ配列は、ユーザ入力に依存しており、したがって、異なるユーザおよび電子デバイスで異なり得ることが分かる。学習言語データ配列は、さらに図１１に示される単語長よりも、短いもしくは異なる単語長に対するデータレコードを含み得る。

図１０、図１１の両方を参照して、ヘッダー長エントリは、ヘッダーは１２バイト長であることを示す。単語長ナンバーエントリ１８２に示されるように、対応する言語データ配列は、３つの異なる長さの単語に対するデータレコードを含む。１番目の単語長は、単語長エントリ１８４示されるように２文字であり、２文字の単語に対する１番目のデータレコード２００は、２００に示されるように、学習言語データ配列で１２のオフセットを有する。図面内の混雑を避けるために学習言語データは、図１１に別に示されているが、１２バイトの学習言語データヘッダーが、好ましくは学習言語データ内の学習言語データ配列より先にくることは分かるはずである。また、例証のために、学習言語データヘッダーおよび配列が、レコード２００が、実際には、学習言語データ内１３番目のエントリであり、学習言語データ（すなわち、１番目のヘッダー長バイト）の１番目のエントリから、１２でオフセットされるように、メモリに複数の１バイトエントリとして格納されると前提とされることは明らかである。

学習言語データ配列は、また学習言語データ配列のオフセット１５２から始まる単語長エントリ１８８に示される５文字の単語データレコードを含む。２文字の単語が、上述されるように５バイト専用のフォーマットで格納され、オフセット１２の１番目の２文字の単語データレコード２００とオフセット１５２の１番目の５文字の単語データレコード２０６との間の１４０のエントリは、２８データレコードを収容する。

単語長およびオフセットエントリ１９２、１９４は、１０文字の単語のデータレコードが、学習言語データ配列内の６２５のオフセットから始まることを示す。図５のデータレコードフォーマットは、１音節の１組のインデックス／トーンにつき２バイト、および１候補インデックスにつき１バイトを有する５文字の単語に用いられるとき、各データレコードは、１５バイトであり、また学習言語データ配列内の５文字の単語に対するこのような１５バイトのデータレコードが３０個あり、オフセット１５２から６０１を埋める。オフセット６２５でエントリ２１２に続く残りの学習言語データ配列は、１０文字の単語に対するデータレコードを格納する。

先の記載および図１０、１１に示される学習言語データの例は、言語データ配列が、整数バイトのオフセット用いてアクセス可能であると前提する。しかしながら、他のアクセス機構は、学習言語データヘッダーが、インデックス、アドレスおよび学習言語データ配列の他のポインタを格納するとき、また可能である。

言語データのさまざまなコンポーネントは、上述されている。テキスト入力中の言語データの使用が、下記にさらに詳しく記載されている。図１２は、言語データを用いる方法のフローチャートである。

方法は、ユーザの入力が受け取られ、バッファされるステップ２３０から始まる。当業者は、分かるように、中国語テキストに対するユーザ入力は、通常ピンイン音節の形式である。受け取られたユーザ入力のシーケンスが、ステップ２３２で単語にセグメント化され、ステップ２３４で対応する中国語テキストに変換される。当業者は、また入力されたピンイン音節は、また入力が中国語テキストに変換される前に、ディスプレイ上で対応するボポモフォ音節に置換され得ることが分かる。ステップ２３４での変換は、各単語に対する学習言語データ（利用可能なとき）を含む言語データ検索し、かつ入力されたピンインシーケンスと表示されるボポモフォシーケンス（該当するとき）を言語データ内の対応するデータレコードで識別される漢字候補と置換することを包含する。

ステップ２３６で、漢字候補を包含する変換された中国語テキストは、テキスト入力スクリーンの現在のテキストエントリ位置で、ユーザに表示され、好ましくは入力されたピンインもしくは表示されたボポモフォを置換する。それから、ステップ２３８で、例えば、ユーザが、ルックアップウィンドウを呼び出し、ルックアップウィンドウから選択することによって漢字候補を変更したかどうかが決定される。方法は、ステップ２４４で、インプリメントされる方法と関連して、変換された中国語テキストを電子デバイスに入力を行い、それから、ユーザが候補を変更しないとき、ステップ２３０で、ユーザからさらなる入力を受け取る。

ステップ２３８で、ユーザが候補を変更したと決定されるとき、選択されて候補を含む候補のシーケンスが、電子デバイスに入力されることにより、入力スクリーン上に入力されたピンインシーケンスに対応する現在表示されている候補シーケンスを置換する。上述のように、学習を提供するために、１つ以上の単語が、上述のように形成され、学習言語データが、ステップ２４２で、新しい単語を有してアップデートされる。

図１３は、言語データ用いるシステムのブロック図である。図１３のシステムは、キーボード２５１と、入力キュー２５２と、ユーザインターフェース２５３と、入力プロセッサ２５４と、ディスプレイ２５６とを含み、全ては、電子デバイス２５０でインプリメントされる。

多くのインプリメテーションにおいて、キーボード２５１は、ピンイン音節の入力に用いられる文字を表すキーを含み、ＱＷＥＲＴＹまたはＤＶＯＲＡＫといった完全な英数字キーボード、電話キーパッド、もしくは他のタイプのキーボードあるいはキーパッドであり得る。しかしながら、キーボード２５１は、例えば、代わりにタッチスクリーン、もしくは筆を用いる手書きを通じて、ユーザ入力をサポートするグラフィカルインターフェースであり得ることが分かるはずである。電子デバイス２５０において、キーボード２５１からのユーザ入力は、入力キュー２５２によって受け取られ、バッファされる。

ユーザインターフェース２５３は、電子デバイス２５０のユーザにインターフェースを提供する。電子デバイスは、キーボード２５１を介して、ユーザから入力を受容し、またディスプレイ２５６を介して、ユーザにアウトプットを提供する。ユーザインターフェース２５３は、例えば、ディスプレイスクリーン１５６上でテキストを作成するためにテキスト入力スクリーンを表示する。

入力プロセッサ２５４は、ユーザインターフェース２５３を通じて入力キュー２５２からバッファされたピンイン入力を受け取る。入力プロセッサ２５４は、入力を単語にセグメント化し、セグメント化された入力に基づいて中国語テキスト候補を識別する。これらの識別された候補は、それからディスプレイ２５６上に表示される。入力プロセッサ２５４は、中国語テキストが、電子デバイス２５０へ入力されているとき、必要に応じ上記の配列および言語データレコードにアクセスする。図１３のシステムが、学習をサポートするとき、入力プロセッサ２５４は、また学習言語データレコードにアクセスし、かつ格納する。

図１３において、配列およびデータレコードは、例えば、入力プロセッサ２５４をインプリメントするソフトウェアコードの一部として組み込まれた入力プロセッサ２５４に格納される。あるいは、配列およびデータレコードは、入力プロセッサ２５４のバッファもしくはメモリ内に、もしくは少なくとも入力プロセッサにアクセス可能なバッファもしくはメモリに格納される。このようなメモリは、１つ以上のデータストレージを備え、１種類以上のストレージコンポーネントを用いてインプリメントされる。２５０といった電子デバイスは、通常書き込み可能メモリ例えば、ランダムアクセスメモリ（ＲＡＭ）および読み出し専用メモリ（ＲＯＭ）の両方を含む。書き込み可能メモリの任意のデータが、電力損失の際に保持されるとき、フラッシュＲＡＭ（ＦｌａｓｈＲＡＭ）もしくはバッテリバックアップＲＡＭといった不揮発性メモリが好まれるが、書き込み可能メモリは、揮発性もしくは不揮発性であり得る。配列および言語データレコードは、通常一度確立されると変更されないので、好ましくは、不揮発性メモリに格納される。書き込み可能メモリである必要はない。学習言語データレコードは、学習が有効なとき、新しい学習言語データレコードが加えられるので、好ましくは不揮発性書き込みメモリに格納される。

好ましい実施形態において、入力プロセッサ２５４は、ソフトウェアアプリケーションもしくは電子デバイス２５０上で１つ以上のソフトウェアアプリケーションと関連して動作するように構成されたソフトウェアモジュールとしてインプリメントされることにより、このようなソフトウェアアプリケーションによるプロセシングのための中国語テキスト入力を有効にする。

ディスプレイ２５６は、電子デバイス２５０のユーザにビジュアルデータ出力を提供する。携帯型電子デバイスには、たとえば液晶ディスプレイがしばしば用いられる。

電子デバイス２５０上に中国語テキストエンターのためのユーザ入力は、縮小キーボード２５１のキーを押下して行われる。テキストエントリは、電子デバイス２５０上でサポートされる特定の機能用いて、例えば、特定のソフトウェアアプリケーション、モジュールもしくはユーティリティを起動して、ユーザによって呼び出される。動作もしくは機能が、中国語テキストの入力を要求するときはいつでも、中国語テキスト入力システムは、ユーザのピンイン入力をプロセスすることにより、正しい中国語音節を予測する。２つ以上のソフトウェアアプリケーションがテキスト入力をサポートするとき、例えば、中国語テキスト入力システムは、任意のソフトウェアアプリケーションによって呼び出されるソフトウェアモジュールもしくはユーティリティとして好ましくはインプリメントされる。あるいは、このようなソフトウェアのそれぞれは、ソフトウェアインストラクションを組み込み得ることにより、ここで記載されるように中国語テキスト入力を実行する。

明らかであるが、ユーザインターフェース２５３は、ディスプレイ２５６上にテキストエントリスクリーンを提示することにより、テキストエントリを補助する。テキストエントリスクリーンの特定のコンテントおよびフォーマッティングは、例えば、エントリされるテキストの本質、テキストがエントリされる機能、もしくは現在使用中のソフトウェアアプリケーションに依存する。ピンインが、最初にテキストエントリスクリーンに表示され、その後対応するボポモフォと置換され得る。入力されたピンインは、セグメント化され、中国語テキストに変換されるとき、テキストエントリシステムによって識別される、もしくはユーザによって選択される漢字文字候補は、漢字文字と置換される。

ユーザピンイン入力が受信されたとき、入力プロセッサ２５４は、ピンイン入力をセグメント化し、言語データレコードおよび学習言語データレコード（存在するとき）を検索し中国語テキストに変換する。上述のように、ユーザによるピンイン入力が、ディスプレイ２５６上に表示され、ピンインがセグメント化され、変換された後、中国語テキストと置換される。中国語テキスト内の候補漢字文字が、ユーザによって変更されるとき、入力プロセッサ２５４は、候補をディスプレイ２５６上のテキストエントリスクリーンで選択された候補と置換し、学習が有効なとき、１つ以上の単語を学習言語データへ加える。例候補のユーザ選択は、例えば、ユーザ入力のシーケンスに基づいてルックアップ機能を呼び出し、入力のシーケンスに対応する候補リストから選択するために、キーボード２５１のナビゲーションキー、もしくはサムホイールといった補助入力デバイス（示されていない）を用いて達成され得る。１つの実施形態において、ルックアップ機能が呼び出されるとき、ユーザによるピンイン入力もしくは対応するボポモフォが、テキスト入力スクリーンもしくはルックアップウィンドウに表示され、ユーザは入力シーケンスもしくはルックアップ機能が基づいている任意の一部を選択する。ユーザは、それから入力シーケンスに対する１つ以上漢字の変形を選択する。選択された変形は、ディスプレイ２５６上のテキスト入力スクリーンで入力シーケンスを置換する。上述の説明は、入力プロセッサ２５４によって実行される機能を参照するが、入力プロセッサ２５４のこれらの機能は、中国語テキスト入力方法が実施されるソフトウェアアプリケーション、モジュール、ユーティリティのソフトウェアインストラクションによって命令されることは当業者には分かる。

上述が、例だけによって、好ましい実施形態に関連しているだけであることが分かる。上述のシステムおよび方法における多くの変形は、当業者にとって明らかであり、このような明らかな変形は、明記されているか否かにかかわらず、明細書および請求項に記載されるように、発明の範囲内である。

ボポモフォ音節に対する一意な識別子の配列を示す。ピンイン音節に対する一意な識別子の配列を示す。ピンイン音節とボポモフォとの間の対応の配列を示す。トーン情報配列を示す。複数文字の単語言語に対するデータレコードのフォーマットを示すブロック図である。言語データレコードの例のブロックである。２文字の単語に対する言語データレコードのフォーマットを示すブロック図である。２文字の単語に対する言語データレコードの例を示すブロック図である。学習言語データヘッダーのブロック図を示す。学習言語データヘッダーの例のブロック図を示す。学習言語配列を示すブロック図である。言語データを用いる方法のフローチャートである。言語データを用いるシステムのブロック図である。

Claims

中国語ピンイン音節を中国語漢字文字に変換する際に用いられる言語データ構造であって、該データ構造は、
複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字リストを含み、各リスト内の各漢字文字候補は、該リストにインデックスを有する、複数の漢字文字候補リストと、
複数の言語データレコードであって、各言語データレコードは、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を包含する、複数の言語データレコードと
を備え、
各言語データレコード内の該キーは、該言語データレコードが対応する単語の該ピンイン音節に対するインデックスのシーケンスと、トーン情報とを含み、各言語データレコード内の該値は、該単語の該ピンイン音節にそれぞれ関連付けられた候補のリスト内に該単語の該ピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む、言語データ構造。
各データレコードは、整数バイト長である、請求項１に記載の言語データ構造。
各ピンイン音節に対する前記インデックスおよび前記トーン情報が、データレコード内に２バイトで格納されている、請求項１に記載の言語データ構造。
前記インデックスが１０ビットであり、前記トーンが５ビット長である、請求項３に記載の言語データ構造。
前記複数の言語データレコードが、複数の配列に格納されており、各配列が、同じピンイン音節数を有する単語に対応する言語データレコードを格納する、請求項１に記載の言語データ構造。
前記複数の配列のそれぞれにおける言語データレコードが、インデックスのシーケンスの１番目のインデックスおよびトーン情報に基づいて格納される、請求項５に記載の言語データ構造。
前記ピンイン音節に関連付けられたピンイン音節識別子の配列をさらに含み、前記単語のピンイン音節の前記インデックスは、ピンイン音節識別子の前記配列内に該単語の前記ピンイン音節にそれぞれ関連付けられた前記識別子のインデックスである、請求項１に記載の言語データ構造。
各音節は、Ｎ個の文字のアルファベットから（ｎ＋１）個の文字を含み、前記識別子は、以下の公式
ＩＤ＝インデックス_０ ^＊（Ｎ^０）＋インデックス_１ ^＊（Ｎ^１）＋．．．＋インデックス_ｎ ^＊（Ｎ^ｎ）、にしたがって決定され、
ここで、
インデックス_０は、前記音節の１番目の文字のインデックスであり、
インデックス_１は、該音節の２番目の文字のインデックスであり、
インデックス_ｎは、該音節の（ｎ＋１）番目の文字のインデックスであり、
Ｎは、音節構造に用いられる文字の総数である、請求項７に記載の言語データ構造。
ボポモフォ音節に関連付けられた中国語ボポモフォ音節識別子の配列と、各ピンイン音節識別子とそれに対応するボポモフォ音節識別子との間の対応を示す対応配列と
をさらに備えた、請求項７に記載の言語データ構造。
前記複数のデータレコードが、２音節単語のための言語データレコードを包含し、２音節単語の各言語データレコードは、
該２音節単語に第２ピンイン音節のインデックスおよび該２音節単語に第１ピンイン音節ならびに該第２ピンイン音節に対するトーン情報を包含するキーと、
該第１よび該第２ピンイン音節にそれぞれ関連付けられた候補の前記リスト内に、該第１および該第２ピンイン音節を表す漢字文字候補のインデックスのシーケンスとを包含する値と
を備えた、請求項１に記載の言語データ構造。
２音節単語のための前記言語データレコードは、データレコード配列に格納される該言語データレコードであって、２音節単語のための言語データレコードのそれぞれは、前記第１ピンイン音節関連付けられた変形であり、同一の第１の音節に関連付けられた変形は、データレコード配列内でグループ化されており、前記言語データ構造は、オフセットの配列をさらに包含し、各オフセットは、該データレコード配列内に第１ピンイン音節に関連付けられた第１の変形のオフセットを包含する、請求項１０に記載の言語データ構造。
複数の中国語ピンイン音節のそれぞれに対する識別子を生成するステップと、
識別子の配列内に該生成された識別子を格納するステップであって、識別子の配列内の各識別子は、配列ンデックスを有する、ステップと、
複数の漢字文字候補リストを生成するステップであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を含み、各リスト内の各漢字文字候補は、該リスト内に候補インデックスを有する、ステップと、
複数のピンイン音節を有する複数の単語それぞれに対する、キーおよび値を包含するデータレコードを生成し、該キーは、該複数のピンイン音節のそれぞれに対する識別子および該複数のピンイン音節のそれぞれに対するトーン情報の配列内に該識別子の配列ンデックスを含み、該値は、該複数のピンイン音節のそれぞれに関連付けられた候補の該リスト内に該複数ピンイン音節を表す該候補の候補インデックスを含む、ステップと
を包含する、中国語言語データを生成する方法。
識別子が増加する順序で、識別子の前記配列をソートするステップを包含する、請求項１２に記載の方法。
前記データレコード生成するステップは、複数の２音節単語のそれぞれに対するキーおよび値を含むデータレコードを生成するステップを包含し、該キーは、該２音節単語内に第２ピンイン音節に対する識別子の前記配列内に前記識別子を包含し、また該２音節単語内に第１ピンイン音節および該第２ピンイン音節に対するトーン情報の配列ンデックスを包含し、該値は、該第１および該第２ピンイン音節のそれぞれに関連付けられた候補の該リストに該第１および該２ピンイン音節のそれぞれを表す候補の候補インデックスを包含する、請求項１２に記載の方法。
データレコード配列内に２音節単語に対するデータレコードを格納し、該同一の第１ピンイン音節を有する２音節単語に対するデータレコードは、該データレコード内でグループ化される、ステップと
オフセットの配列を生成し、各オフセットは、該データレコード配列内に第１ピンイン音節に関連付けられた第１データレコードのオフセットを包含する、とステップと
をさらに包含する、請求項１４に記載の方法。
複数のデータレコード配列の内の１つに該データレコードを格納し、各配列は、所定の数のピンイン音節の単語に対応するデータレコードを格納するステップをさらに包含する、請求項１２に記載の方法。
前記複数のデータレコード配列のそれぞれの前記データレコードは、各データレコード内にある第１配列ンデックスに基づいてソートされる、請求項１６に記載の方法。
中国語言語データを用いて中国語ピンイン音節を中国語漢字文字に変換するシステムであって、
該言語データは、複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を包含し、各リスト内の各漢字候補は、該リスト内にインデックスを有する複数の漢字文字候補リストと、複数の言語データレコードであって、各データレコードが、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を有する複数の言語データレコードを含み、各言語データレコード内の該キーは、該言語データレコードが対応している該単語の該ピンイン音節に対するインデックスのシーケンスおよびトーン情報を包含し、各言語データレコード内の該値は、該単語の該ピンイン音にそれぞれ関連付けられた候補の該リスト内に該単語の該ピンイン音節を表す漢字文字候補のインデックスのシーケンスを含み、該システムは、
ピンイン音節を作成するための複数の文字表すキーを有するキーボードと、
該キーボードから入力ピンイン音節を受け取るように構成された入力キューと、
該複数の漢字文字候補リストおよび該複数のデータレコードを格納するように構成されたメモリと、
該メモリおよび該入力キューに動作可能に結合された入力プロセッサであって、かつ該入力ピンイン音節を入力単語にセグメント化し、該入力ピンイン音節を含む各入力単語に対応するそれぞれに言語データレコードに対する該言語データレコードを検索し、また該対応するデータレコード内の該漢字文字候補インデックスを用いて各入力単語を該中国漢字文字候補に変換するように構成された入力プロセッサと、
ディスプレイと、
該ディスプレイと該入力プロセッサとの間で結合された該ディスプレイユーザインターフェースであって、ディスプレイ上に該入力ピンイン音を節表示し、かつ、該入力ピンイン音節が該入力によって変換されるとき、該入力ピンイン音節を該中国語文字候補と置換するユーザインターフェースと
を備えたシステム。
前記入力キューは、前記入力ピンインの１つ以上を表す選択された漢字文字を識別する漢字文字選択入力を受け取るように構成され、前記入力プロセッサは、漢字文字選択入力が受け取られたかどうかを決定し、かつ、該１つ以上の該入力ピンイン音節入力を漢字文字選択入力が受け取られたとき、該選択された漢字文字に変換するようにさらに構成された、請求項１８に記載のシステム。
前記入力プロセッサは、前記１つ以上の入力ピンイン音節を含む新しい単語を形成し、かつ、該新しい単語に対応する新しいデータレコードを生成し、かつ、前記メモリ内に新しいデータレコードを格納するようにさらに構成された、請求項１９に記載のシステム。
前記入力プロセッサは、各入力単語に対応するデータレコードに対する前記言語データレコードおよび任意の新しいデータレコードを検索するようにさらに構成された、請求項２０に記載のシステム。