JP2005531858A - 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム - Google Patents

中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム Download PDF

Info

Publication number
JP2005531858A
JP2005531858A JP2004518332A JP2004518332A JP2005531858A JP 2005531858 A JP2005531858 A JP 2005531858A JP 2004518332 A JP2004518332 A JP 2004518332A JP 2004518332 A JP2004518332 A JP 2004518332A JP 2005531858 A JP2005531858 A JP 2005531858A
Authority
JP
Japan
Prior art keywords
pinyin
syllable
index
array
language data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004518332A
Other languages
English (en)
Inventor
バディム ファックス,
サージェブ ブイ. コロミーツ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
2012244 Ontario Inc
Original Assignee
2012244 Ontario Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/305,563 external-priority patent/US7228267B2/en
Application filed by 2012244 Ontario Inc filed Critical 2012244 Ontario Inc
Publication of JP2005531858A publication Critical patent/JP2005531858A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Abstract

複数の中国語ピン音音節のそれぞれに対する一意な識別子が生成され、識別子配列に格納される。複数のハンジ(漢字)候補リストが生成され、各リストはピン音音節に関連付けられたハンジ候補を含む。配列の各識別子は配列ンデックスを有しており、各リストの各ハンジ候補はリストに候補インデックスを有する。複数のピン音音節を有する複数の語のそれぞれに対する、それからキーおよび値を含むデータレコードが生成される。語のデータレコードでは、キーは語の複数のピン音音節のそれぞれに対する識別子配列内の識別子の配列ンデックスおよびトーン情報であり、値はピン音音節のそれぞれに関連付けられた各ピン音音節を表す候補リストの候補インデックスである。

Description

(関連出願の相互参照)
本願は、2002年7月3日に出願された米国仮出願SN60/393,948から利益をクレームする。図面を含む、本仮出願の完全なる開示は、本出願に援用される。
本発明は、電子デバイス上の言語データストレージおよびテキスト入力全般に関し、特に、テキストプロセシングおよびテキスト入力のための中国語データ作成および使用に関する。
標準中国語(マンダリン)では、全ての文字は、単一音節方法で話される。標準中国語は、405の基本ピンイン文字と5つのトーンのバリエーションからなる10,000文字以上を包含する。音節表原則は、HungおよびTzengといった中国語の書記体系のための基礎である。ここでは、多くの音節は、同じ音を表し得て、同じ音は、しばしば多くの異なるシンボルによって表される。加えて、単語は、中国語においてスペースで分けられないので、電子デバイス上に中国語テキスト入力中には単語の適切なセグメント化には中国語の言語データを必要とする。研究は、静的な言語データが、多くの場合において適切な単語のセグメント化を提供するには十分ではないことを明らかにした。ユーザ入力パターンの学習を有するシステムだけが、効率的な中国語テキスト入力に対するセグメントテーションの正確さのレベルを提供する。したがって、広範な言語データが必要であり、多くの中国語テキスト入力システムによって大変高いメモリ使用を占める。
テキスト入力のための言語データのストレージおよび使用に対する現在の解決法は、ハッシュテーブル、ツリー、データベースもしくは単語リストといったデータ構造を用いる。これらの解決法は、それらが依存する複雑なデータ構造を格納し、サポートするために多くのメモリとコードスペースを要求し、かつ多くのプロセシングリソースを消費する点で、多くの現代のシステムにおいて適していない。例えば、移動通信機器を含む携帯型電子デバイスといった電子デバイスは、これらの現在の解決法の使用を不可能にする限定されたプロセシングおよびメモリリソースを有している。
中国語ピンイン音節を中国語漢字文字に変換する際に用いられる言語データ構造であって、データ構造は、各リストは、ピンイン音節に関連付けられた漢字文字リストを含み、各リスト内の各漢字文字候補は、リストにインデックスを有する、複数の漢字文字候補リストと、複数の言語データレコードであって、各言語データレコードは、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を包含する、複数の言語データレコードとを備え、各言語データレコード内の該キーは、言語データレコードが対応する単語のピンイン音節に対するインデックスのシーケンスと、トーン情報とを含み、各言語データレコード内の値は、単語の該ピンイン音節にそれぞれ関連付けられた候補のリスト内に単語のピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む。
中国語言語データを生成する方法は、本発明の実施形態によれば、複数の中国語ピンイン音節のそれぞれに対する識別子を生成するステップと、識別子の配列内に該生成された識別子を格納するステップであって、識別子の配列内の各識別子は、配列ンデックスを有するステップと、複数の漢字文字候補リストを生成するステップであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を含み、各リスト内の各漢字文字候補は、該リスト内に候補インデックスを有するステップと、複数のピンイン音節を有する複数の単語それぞれに対する、キーおよび値を包含するデータレコードを生成し、キーは、複数のピンイン音節のそれぞれに対する識別子および複数のピンイン音節のそれぞれに対するトーン情報の配列内に該識別子の配列ンデックスを含み、値は、複数のピンイン音節のそれぞれに関連付けられた候補の該リスト内に該複数ピンイン音節を表す該候補の候補インデックスを含むステップとを包含する。
本発明のさらなる実施形態によれば、中国語漢字文字に中国語ピンイン音節を変換する中国語言語データを用いるシステムが提供される。言語データは、複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を包含し、各リスト内の各漢字候補は、リスト内にインデックスを有する複数の漢字文字候補リストと、複数の言語データレコードであって、各データレコードが、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を有する複数の言語データレコードを含む。各言語データレコード内のキーは、該言語データレコードが対応している単語のピンイン音節に対するインデックスのシーケンスおよびトーン情報を包含し、各言語データレコード内の値は、単語のピンイン音にそれぞれ関連付けられた候補のリスト内に単語のピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む。システムは、ピンイン音節を作成するための複数の文字表すキーを有するキーボードと、キーボードから入力ピンイン音節を受け取るように構成された入力キューと、複数の漢字文字候補リストおよび複数のデータレコードを格納するように構成されたメモリと、メモリおよび入力キューに動作可能に結合された入力プロセッサであって、かつ入力ピンイン音節を入力単語にセグメント化し、入力ピンイン音節を含む各入力単語に対応するそれぞれに言語データレコードに対する言語データレコードを検索し、また対応するデータレコード内の漢字文字候補インデックスを用いて各入力単語を中国漢字文字候補に変換するように構成された入力プロセッサと、ディスプレイと、ディスプレイと該入力プロセッサとの間で結合された該ディスプレイユーザインターフェースであって、ディスプレイ上に入力ピンイン音を節表示し、かつ、入力ピンイン音節が入力によって変換されるとき、入力ピンイン音節を該中国語文字候補と置換するユーザインターフェースと備える。
本発明のさらなる特徴が記載され、以下の詳細な過程において明らかになる。
本発明の1つの局面によれば、言語データの生成および使用のシステムと方法は、中国音節と文字インデキシングに基づいている。インデキシングは、より少ないメモリ使用をして言語データ格納し、また既知の中国語テキスト入力技術に関する単語に対してより速い検索およびアクセスを可能にする。
ピンインシステム(1981)には、中国語入力に使用され得る405の基本ピンイン文字および5のトーンを含む410の音節(音)がある。ピンイン音節は、ラテン語アルファベットの26文字から構成され、したがって、ラテン文字が表されるキーボードの中国語テキスト入力に対して一般的に用いられる。ラテンアルファベットの26文字のそれぞれは、0から25の間のインデックス値に割り当たえられ得るアルファベットにおける位置を示す。例えば、レター「A」はインデックス0にあり、「B」はインデックス1であり、「Z」はインデックス25にある等である。
あるいは、410の中国語音節は、また37ボポモフォ文字から構成され得る。これらの文字は、連続するユニコード範囲、0x3105から0x3129に属する。したがって、また10進数の0から36で、インデックスされ得る。0のインデックスは、ユニコード範囲における1番目の文字、0x3105に対応し、1のインデックスは、ユニコード範囲における2番目の文字、0x3106に対応する等である。
上述のインデックスを用いて、各ピンインおよびボポモフォ音節は、したがって一意な識別子番号によって表される。本発明の実施形態によれば、任意の(n+1)個の文字音節に対する一意な識別子番号は、以下の公式を用いて計算される。
ID=インデックス (N)+インデックス (N)+...+インデックス (N)、
ここで、
インデックスは、音節の1番目の文字のインデックスであり、
インデックスは、音節の2番目の文字のインデックスであり、
インデックスは、音節の(n+1)番目の文字のインデックスであり、
Nは、音節構造に用いられる文字の最大のインデックスである。
例えば、ボポモフォ音節「
Figure 2005531858
」において、ユニコードナンバー0x310Cを有する1番目の文字「
Figure 2005531858
」のインデックスは、0x310Cから1番目のボポモフォ文字のユニコードナンバー0x3105を引いたものである。したがって、インデックス=0x310C−0x3105=7である。同様に、インデックスは、2番目の文字「
Figure 2005531858
」 のインデックスであり、0x3127−0x3105=0x0022=34でる。インデックスは、3番目の文字「
Figure 2005531858
」のインデックスであり、0x3120−0x3105=0x001B=27である。ボポモフォ文字の最大のインデックスは36なので、ボポモフォ音節識別子対するNは36である。したがって、上記の公式によれば、この音節に対する識別子は、以下の通りである。
ID=7(36)+34(36)+27(36)=7+1224+34992=36223
一意な識別子番号が、同様に各ピンイン音節に対して計算され得る。ここで、0から25の間であるインデックスであり、かつ、N=25である。
上記公式は、一意な識別子が、各ピンインおよびボポモフォ音節に割り当てられることを可能にする。ピンインおよびボポモフォ音節は、それから一意の識別子にしたがって、それぞれの配列内に格納される。
図1は、ボポモフォ音節に対する一意な識別子の配列を示す。図1の配列は、最初の6識別子および最後(410番目)の識別子を表す一意な識別子2、4、6、8、10、12、および14を示す。識別子2から14、およびSylBop1からSylBop410の間の中間の識別子は、好ましくはSylBop1が最小識別子ならびにSylBop410が最大識別子になるように、増加する順序で格納される。0から409の範囲に及ぶ配列インデックスが、また図1の16に示されている。
図2は、ピンイン音節に対する一意な識別子の配列を示す。最初の6ピンイン音節識別子20、22、24、26、28、30および最後の識別子32は、ピンインシンボル識別子配列内の410の一意な識別子を表す。ピンイン音節識別子配列に対するインデックス34は、インデックス16と同様に、0から409の範囲に及ぶ。
図1、2に示されるように、ボポモフォおよびピンイン音節に対する識別子は、異なる配列に属する。これらの識別子が、インデックスによる厳格な対応を有していないことは、当業者にとって明らかである。ボポモフォ音節識別子配列内のインデックスa−1の識別子SylBop aとピンイン音節識別子配列内のインデックスa−1の識別子SylPin aは、必ずしもボポモフォ音節と対応するピンイン音節を識別するわけではない。したがって、「ボポモフォ音節」とピンイン音節との間の対応に関する情報を包含する追加の配列がある。
図3は、ピンイン音節とボポモフォ音節との間の対応の配列を示す。対応配列内の要素40―50および52は、50から52の中間の配列要素と同様に、ピンイン識別子配列、もしくはボポモフォ識別子配列のインデックスである。対応配列のインデックス54は、ピンイン識別子配列およびボポモフォ識別子配列の他のインデックスに対応する。例えば、対応配列のインデックス54が、ピンイン識別子のインデックス34に対応するとき、対応配列の要素は、ボポモフォ識別子配列のインデックス16である。この場合、対応配列内のインデックス b−1の配列要素インデックス bは、ピンイン音節配列のインデックス b−1の識別子を有するピンイン音節に対応するボポモフォ音節に対してボポモフォ識別子のボポモフォ識別子配列のインデックスである。すなわち、Sylpin(b−1)によって識別されるピンイン音節は、SylBop(index b)によって識別されるボポモフォ音節に対応する。したがって、対応配列は、ピンイン識別子に対応するボポモフォ識別子のインデックスを提供する。対応配列において、インデックス54は、代わりにボポモフォ識別子配列インデックス16に対応し、要素がそれ後にピンイン識別子配列インデックスを格納し得ることは明らかである。
図4は、トーン情報配列を示す。0から409のインデックスを有する情報配列は、410の要素からなるバイトのさらなる配列である。トーン情報配列は、要素60〜70と図4には、はっきりと示されていない中間の要素と要素72とを含む。この配列は、410対してすべてのボポモフォ音節のトーン情報を包含し、「ボポモフォ」音節の配列と厳格な対応を有する。インデックスc−1のトーン情報要素Tone Info cは、ボポモフォ識別子配列の同じインデックスc−1でボポモフォ音節識別子SylBop cに対応する。トーン情報配列の各バイトの1番目の5ビットは、ボポモフォ識別子配列の同じインデックスで識別されるボポモフォ音節が、中国語の5つのトーンいずれかに用いられ得るかどうかを示す。
全てのピンイン音節とボポモフォ音節は、数個の対応する中国語の漢字(Hanzi)文字を有し、2バイト値を用いる各ピンインおよびボポモフォ音節のそれぞれに対してそれぞれの対応する配列に格納される候補のリストを形成する。このような配列内の各候補は、配列内に一意なインデックスを有する。したがって、全ての中国語は、音節のインデックスシーケンスと、単語が構成される対応する中国語漢字文字インデックスのシーケンスとによって表され得る。
本発明の実施形態において、言語データは、別々の配列内に組織される2から8個の音節の長さの範囲におよぶ中国語単語に対するレコードを含む。同じ長さを有する単語に対するレコードは、区切りなしで同じ配列内に属する。
図5のレコードは、ピンイン1、ピンイン2、ピンイン3を含む3つの音節を有する複数文字の単語に対応する。単語内の各ピンイン音節に対して、音節のインデックスおよび音節とともに用いられ得るトーンの表示が、レコードに格納される。図2のピンイン配列内の音節のインデックスに対応する音節インデックスは、82、86、90に示されており、トーンは、84、88、92に示されている。インデックスおよびトーン情報は、各音節に対してエントリ100、102、104を形成する。
上述のように、漢字文字の候補のリストは、各ピンイン音節とボポモフォ音節に対応する配列内に格納される。インデックス94、96、98は、候補リスト内のピンイン音節を表す漢字文字のインデックスである。インデックス94は、ピンイン1に対する候補のリスト内の図5のレコードに対応する単語の1番目の漢字文字のインデックスである。同様に、インデックス96、98は、ピンイン2およびピンイン3に対する候補のリスト内の図5のレコードにそれぞれ対応する単語の2番目および3番目の漢字文字のインデックスである。
したがって、単語の言語データレコードは、キー106および値108を含む。キー106は、インデックスのシーケンスと単語を表す音節に対するトーン情報100、102、104であり、また値108は、音節を表す漢字文字94、96、98のインデックスのシーケンスである。言語データの効率的な検索を容易にするために、レコードは、好ましくは1番目の音節のインデックスによってソートされる。
図6は、言語データレコードの例のブロック図である。図6の言語データレコードは、キー122としてピンイン音節インデックス110、114、118のシーケンスおよびトーン情報112、116、120と、中国語文字インデックスのシーケンスを表す値124とを含む図5に示されるフォーマットを有する。
ピンインインデックス110は、ピンイン「da15」のピンイン識別子配列内にピンイン識別子のインデックスである。「da15」の「15」は、最初および5番目のトーンを表す。ピンイン音節に詳しい人なら、第一声は高平調、第二声は上昇調、第三声は低平調、第四声は下降調、ならびに第五声は中立調と分かる。各トーンは、好ましくは言語データレコード内の5ビットトーン情報エントリのビット位置と関連付けられる。ピンイン文字に対して各有効なトーンは、所定の値に対するトーン情報エントリのビットを対応する位置にセットすることによって示される。トーン情報エントリ112において、トーン最初と5番目のトーンは、最初と5番目のビット位置で高ビット値によって示される。あるいは、所定のビット値は、低くなり得る。図6の他のインデックスとトーン情報エントリ114/116と118/120とは、同様にフォーマットされる。
言語データレコードの最小長は、データレコード内のインデックスの最小長に依存する。上述のように、各ピンインインデックスに対する、最小長9ビットを確立する410のピンイン音節がある。トーン情報エントリは、好ましくは1つのトーンにつき1ビット、もしくは1エントリにつき5ビットを含む。値124内の各候補リストインデックスは、シングルビットとして示されているが、各候補リストインデックスの長さは、候補リスト内の候補数に依存することは分かる。可変長インデックスは、通常インデックスは、インデックスの間に区切り、もしくはかなり複雑な管理技術を必要とするので、固定長インデックスが一般的に好まれる。したがって、全の候補リストインデックスの長さは、好ましくは最長の候補リスト内の候補数に依存する。
当業者が分かるように、ほとんどのメモリコンポーネントは、バイト幅のメモリセグメントへのアクセスをサポートする。したがって、言語データレコードは、好ましくは多くの整数バイトを埋めるようにフォーマットされる。例えば、言語データエントリ内のインデックスとトーン情報の各組は、2バイトエントリとして格納され得て、少なくとも1番目のバイトと2番目のバイトの1番目のビット(すなわち少なくとも9ビット)は、インデックスを格納し、最後の5ビットは、トーン情報を格納する。同様に、バイト幅の候補リストインデックスは、3バイトのレコード値124を形成し、任意の候補リスト内で最大256個の候補までをサポートする。このタイプのバイト割り当てを用いて、図6のデータレコードは、6バイトキー122および3バイト値124を包含する。
さらに、言語データをコンパクトにするために、2文字の単語は、好ましくは専用のフォーマットで格納される。中国語の大多数は、2文字の単語なので、2文字の単語に関連付けられるレコードに対するスペースセービングは、全体のメモリスペース要求において著しい減少する結果になる。図7は、2文字の単語に対する言語データレコードのフォーマットを示すブロック図である。
上述のように、たった410のピンイン音節が、中国語テキストに用いられる。初期音節になり得る全ての音節は、それ自身の組を有し、各組は初期音節とを変形を含む。各初期音節に対する変形は、初期音節に続き得る音節である。このため、初期音節の変形は常に同じなので、特定の初期音節に対する各組の初期音節を格納することは必要ではない。
さらに、初期音節のインデックスは、オフセットの配列のインデックスと互換性があるので、初期音節は、全く格納される必要はない。それらのインデックスは、オフセットの配列のインデックスと同じである。オフセットの配列は、特定の初期音節に対応する各インデックスで、2文字の単語のデータレコード配列内のオフセットであり、この初期音節の1番目の変形のインデックスが格納される配列である。例えば、オフセット配列内の1番目のオフセットは、1番目の初期音節に対する1番目の変形のオフセットであり、1番目のオフセットは、1番目の初期音節に対して0である。好ましい実施形態において、初期音節は、1番目の初期音節が、最小もしくはあるいは最大の一意な識別子を有する初期音節であるように、一意な識別子もしくは識別子の配列内のインデックスにしたがって順序付けられる。2番目の初期音節に対する1番目の変形は、2で1番目のレコードからオフセットされるので1番目の初期音節に対して2つ変形があるとき、2番目の初期音節に対する1番目の変形に対応するオフセットの配列内の2番目のオフセットは、2である。あるいは、オフセットの配列は、データレコード配列内の各対応する初期音節に対する1番目の変形のインデックスを特定し得る。
各2文字の単語は、好ましくは2文字の単語に対する言語データレコードのフォーマットを示すブロック図である図7に示されるフォーマットを有する。図7のレコードは、第2の音節130のインデックスと、第1および第2の音節に対するトーン情報132、134と、第1および第2の音節を表すそれぞれの中国語文字のインデックス136、138とを含む。インデックスおよびトーン情報は、上述されている。
2文字の単語に対する言語データレコードにおいて、キー140は、第2の音節に対するインデックス130、および両方の音節に対するトーン情報132、134を含む。図5、図6に示される言語データレコードのように、値142は、中国語文字136、138のインデックスのシーケンスを含む。上述のように、初期音節の変形が、オフセットの配列を用いて見つけ出され得るように同じ初期音節変形に対するデータレコードは、グループ化される。同じ初期音節の変形に対するデータレコードは、また第1の音節のインデックス130によってソートされ得る。
図8は、2文字の単語に対する言語データレコードの例を示すブロック図である。図8の言語データレコードは、図7に示される専用のフォーマット内にあり、2つ音節を有する単語「da3」「jia4」に対応する。データレコードは、キー154および値156を含む。キー154は、第2の音節「jia4」だけのインデックス144と、第1および第2のトーン情報146、148とを含む。キー154に続いて、値156は、第1および第2の音節に対する候補リスト内に漢字文字インデックスを含む。
上述されるように、音節インデックスの最小長は、9ビットであり、トーン情報エントリは、1つのトーンにつき1ビット、もしくは1エントリにつき5ビットを含む。各候補リストインデックスの長さは、候補リスト内の候補数に依存し、最長候補リストの候補の数に依存する固定長インデックスが、通常好まれる。したがって、示されるように、インデックス144は、少なくとも9ビット長、かつトーン情報エントリ146、148は、5ビット長である。インデックス150,152は1ビット長を有していると示されているが、これらのインデックスは、1ビットより長くなり得る。
整数バイト長2文字の単語言語データレコードを提供するために、キー154と値156は、好ましくは多くの整数バイトを埋める。インデックス130もしくは144は、少なくとも9バイト長であるので、インデックスは、シングルバイトでは格納され得ない。各トーン値132、134、146、148は、好ましくは5ビット長であり、したがって、1バイト未満しか埋めない。したがって、キー140もしくは154は、したがって3バイトで格納され得る。インデックス130/144は、少なくとも1番目のバイトおよび2番目のバイトの1番目のビットで格納され、2番目と3番目のそれぞれの最後の5ビットは、トーン情報を格納する。1バイト長を有する候補リストインデックスは、2バイトレコード値138もしくは156を形成し、任意の候補リスト内に最大256候補をサポートする。このフォーマッティングは、整数バイト長データレコードを提供するが、当業者には明らかであろうが、他のデータレコードの長さもまた可能である。
図5に示される言語データレコードフォーマットに関連して、図7に示される専用のフォーマットは、1レコードにつき1音節インデックスを節約する。図5のレコードフォーマットは、各音節のインデックスを含む。一方、1番目の音節インデックスは、図7のレコードフォーマットに格納されていない。図7のレコードフォーマットは、上記のオフセットの配列によってサポートされているが、大多数の単語は、2文字の単語であり、結果的に、著しい全てのメモリの節約になる。これは、メモリリソースが限定されるときには、特に重要である。
電子デバイスは、中国語言語データをデバイスにインストールすることによって、中国語テキスト入力に対して有効になる。各音節に対する識別子は、上述のように計算されることにより、図1、2に示されるように識別子配列と、図3の対応配列と、図4に示されるトーン情報配列とを生成するために用いられる。識別子配列内のインデックスを用いて、言語データレコードが生成される。2文字の単語は、好ましくは図7に示されるフォーマットを有するデータレコードで表され、オフセット配列を用いてアクセスされる。3つ以上の文字を有する単語に対応するデータレコードは、好ましくは図5に示されるフォーマットを有する。これらのデータは、ユーザによってエンターされたピンイン音節を対応する中国語テキスト漢字文字と置換するために用いられる。当業者が分かるように、ユーザ入力のピンイン音節は、ディスプレイ上でボポモフォ音節と置換され得て、それからテキスト入力として、中国語漢字文字変換され得る。多くのインプリメンテーションにおいて、配列とデータレコードは、生成され、テキスト入力ソフトウェアアプリケーションのプロバイダもしくはモジュールといった言語データソースによって利用可能になり、電子デバイスにインストールされる。このようなデバイスのユーザは、したがって最初に言語データを生成する必要なしに、以前生成された言語データを電子デバイスにインストールする。
上述の言語データは、データレコードが存在する中国語テキストの入力を簡素化する。本発明のさらなる実施形態によれば、ユーザによって加えられる新たな単語、フレーズおよびセンテンスは、格納される。ユーザが、入力されたピンインのシーケンスを行うとき、シーケンスはセグメント化され、ユーザに表示するために、上記のデータレコードを用いて、中国語テキスト漢字音節のシーケンスに変換される。中国語テキストが表示されるとき、異なる入力テキストが意図されるとき、ユーザは、例えば、任意のシーケンスの一部に基づくルックアップ機能を呼び出して、候補を変更し得る。ユーザが、変換後ピンインのシーケンスに対する候補を変更したとき、下記にさらに詳しく記載されているように、変更された候補を有する新しい単語が形成され、言語データに加えられる。
例えば、ユーザがピンインシーケンス「zhu4 ni3 hao3yun4」を入力するとき、シーケンスは、中国語テキスト
Figure 2005531858
に対応するzhu4/ni3/hao3yun4としてセグメント化さえ得る。中国語文字
Figure 2005531858
は、ピンイン音節「zhu4」の第1候補である。ユーザが、第1ピンインに対する候補を、「
Figure 2005531858
」ピンインが「zhu4」の第4候補である、「
Figure 2005531858
」から「
Figure 2005531858
」へ変更するとき、新しい単語が形成され、言語データに加えられる。
ユーザが、候補を変更するときに、形成される特定の新しい単語は、入力されたシーケンスの候補の位置に依存する。ユーザによって選択される候補が、シーケンスの1番目の単語であるとき、シーケンスの次の単語は、1番目の単語に加えられ、新しい単語が、2つを一体化して生まれる。上記の例において、第1ピンインに対する候補は、ユーザによって変更されるので、シーケンスの2番目のピンインが、1番目のピンインに加えられることにより、新しい単語を形成する。新しい単語に対するデータレコードが、言語データに加えられる。新しい単語の第1のピンインに対する候補は、選択された候補である。
同様に、ユーザによって選択された候補が、シーケンスの最後の単語対応するとき、以前の単語が、最後の単語に加えられ、新しい単語が、2つを一体化して生まれる。ユーザによって選択された候補が、2つの他の単語間の中間の単語に対応するとき、2つの新たな単語が、中間の単語に先の単語を加え、さらに中間単語に後の単語を加えることによって形成される。2つの単語が、それから言語データに加えられる。
ユーザ入力パターンが、好ましくは学習言語データヘッダーおよび学習言語データ配列を含む学習言語データに格納される。図9は、学習言語データヘッダーフォーマットブロック図を示す。図10は、言語学習データヘッダー例のブロック図を示す。図11は、学習言語データ配列を示すブロック図である。
学習言語データは、可変長の中国語単語に対するデータレコードを含み得る。図9に示される言語データヘッダーは、学習言語データに格納されるデータレコードに対する単語の長さの情報と、かつ学習言語データ内のこれらのデータレコードの位置の情報を含む。ヘッダー長エントリ160は、ヘッダー長エントリを含むヘッダー自体の長さである。次のエントリ162は、下記にさらに詳しく記載される、データレコードが学習言語データ配列内に存在する異なる単語の長さの数である。例えば、学習言語データが、2文字および5文字の単語のデータレコードを含むとき、エントリ162は、2である。
学習言語データヘッダーの残りは、単語長とオフセットの組とを包含する。組の数は、ヘッダーエントリ162内の異なる単語長の数に対応する。164/166、168/170、172/174といった3組が、図9のヘッダーに示されている。3つより多い異なる単語長のデータレコードが、学習言語データに格納されているとき、学習言語データヘッダーは、一般的に176に指し示されるように、さらなる組を含む。各組は、データレコードが学習言語データ内に存在する特定の単語長を示す単語長エントリ164、168もしくは172と、学習言語データ配列内の先の単語長エントリに示される長さの単語に対する1番目のデータレコードを示すオフセットエントリ166、170、174とを含む。
図10の学習言語データヘッダーの例は、2バイトヘッダー長エントリ180と、1バイト単語長ナンバーエントリ182と、1バイト単語長エントリと2バイトオフセットエントリ184/186、188/190、192/194の3組とを含む。学習言語ヘッダーの長さおよび任意のエントリは、決して図10に示される長さに限定されない。ヘッダーの全長は、関連づけられた学習言語データ配列に依存し、新しい単語が、学習言語データ配列へ加えられるごとに、変更され得る。例えば、データレコードが存在する単語とは異なる長さを有する新しい単語のデータレコードが学習言語データ配列に加えられる。図10のヘッダーの内容は、図11に示される学習言語データ配列と関連して、下記にさらに詳しく記載されている。
図11の学習言語データ配列は、2文字の単語218の配列と、5文字の単語220と、10文字の単語222とを含む。学習言語データ配列内のこれらの配列のそれぞれは、一連のレコード200〜204、206〜210、212〜216を含む。学習言語データ配列は、ユーザ入力に依存しており、したがって、異なるユーザおよび電子デバイスで異なり得ることが分かる。学習言語データ配列は、さらに図11に示される単語長よりも、短いもしくは異なる単語長に対するデータレコードを含み得る。
図10、図11の両方を参照して、ヘッダー長エントリは、ヘッダーは12バイト長であることを示す。単語長ナンバーエントリ182に示されるように、対応する言語データ配列は、3つの異なる長さの単語に対するデータレコードを含む。1番目の単語長は、単語長エントリ184示されるように2文字であり、2文字の単語に対する1番目のデータレコード200は、200に示されるように、学習言語データ配列で12のオフセットを有する。図面内の混雑を避けるために学習言語データは、図11に別に示されているが、12バイトの学習言語データヘッダーが、好ましくは学習言語データ内の学習言語データ配列より先にくることは分かるはずである。また、例証のために、学習言語データヘッダーおよび配列が、レコード200が、実際には、学習言語データ内13番目のエントリであり、学習言語データ(すなわち、1番目のヘッダー長バイト)の1番目のエントリから、12でオフセットされるように、メモリに複数の1バイトエントリとして格納されると前提とされることは明らかである。
学習言語データ配列は、また学習言語データ配列のオフセット152から始まる単語長エントリ188に示される5文字の単語データレコードを含む。2文字の単語が、上述されるように5バイト専用のフォーマットで格納され、オフセット12の1番目の2文字の単語データレコード200とオフセット152の1番目の5文字の単語データレコード206との間の140のエントリは、28データレコードを収容する。
単語長およびオフセットエントリ192、194は、10文字の単語のデータレコードが、学習言語データ配列内の625のオフセットから始まることを示す。図5のデータレコードフォーマットは、1音節の1組のインデックス/トーンにつき2バイト、および1候補インデックスにつき1バイトを有する5文字の単語に用いられるとき、各データレコードは、15バイトであり、また学習言語データ配列内の5文字の単語に対するこのような15バイトのデータレコードが30個あり、オフセット152から601を埋める。オフセット625でエントリ212に続く残りの学習言語データ配列は、10文字の単語に対するデータレコードを格納する。
先の記載および図10、11に示される学習言語データの例は、言語データ配列が、整数バイトのオフセット用いてアクセス可能であると前提する。しかしながら、他のアクセス機構は、学習言語データヘッダーが、インデックス、アドレスおよび学習言語データ配列の他のポインタを格納するとき、また可能である。
言語データのさまざまなコンポーネントは、上述されている。テキスト入力中の言語データの使用が、下記にさらに詳しく記載されている。図12は、言語データを用いる方法のフローチャートである。
方法は、ユーザの入力が受け取られ、バッファされるステップ230から始まる。当業者は、分かるように、中国語テキストに対するユーザ入力は、通常ピンイン音節の形式である。受け取られたユーザ入力のシーケンスが、ステップ232で単語にセグメント化され、ステップ234で対応する中国語テキストに変換される。当業者は、また入力されたピンイン音節は、また入力が中国語テキストに変換される前に、ディスプレイ上で対応するボポモフォ音節に置換され得ることが分かる。ステップ234での変換は、各単語に対する学習言語データ(利用可能なとき)を含む言語データ検索し、かつ入力されたピンインシーケンスと表示されるボポモフォシーケンス(該当するとき)を言語データ内の対応するデータレコードで識別される漢字候補と置換することを包含する。
ステップ236で、漢字候補を包含する変換された中国語テキストは、テキスト入力スクリーンの現在のテキストエントリ位置で、ユーザに表示され、好ましくは入力されたピンインもしくは表示されたボポモフォを置換する。それから、ステップ238で、例えば、ユーザが、ルックアップウィンドウを呼び出し、ルックアップウィンドウから選択することによって漢字候補を変更したかどうかが決定される。方法は、ステップ244で、インプリメントされる方法と関連して、変換された中国語テキストを電子デバイスに入力を行い、それから、ユーザが候補を変更しないとき、ステップ230で、ユーザからさらなる入力を受け取る。
ステップ238で、ユーザが候補を変更したと決定されるとき、選択されて候補を含む候補のシーケンスが、電子デバイスに入力されることにより、入力スクリーン上に入力されたピンインシーケンスに対応する現在表示されている候補シーケンスを置換する。上述のように、学習を提供するために、1つ以上の単語が、上述のように形成され、学習言語データが、ステップ242で、新しい単語を有してアップデートされる。
図13は、言語データ用いるシステムのブロック図である。図13のシステムは、キーボード251と、入力キュー252と、ユーザインターフェース253と、入力プロセッサ254と、ディスプレイ256とを含み、全ては、電子デバイス250でインプリメントされる。
多くのインプリメテーションにおいて、キーボード251は、ピンイン音節の入力に用いられる文字を表すキーを含み、QWERTYまたはDVORAKといった完全な英数字キーボード、電話キーパッド、もしくは他のタイプのキーボードあるいはキーパッドであり得る。しかしながら、キーボード251は、例えば、代わりにタッチスクリーン、もしくは筆を用いる手書きを通じて、ユーザ入力をサポートするグラフィカルインターフェースであり得ることが分かるはずである。電子デバイス250において、キーボード251からのユーザ入力は、入力キュー252によって受け取られ、バッファされる。
ユーザインターフェース253は、電子デバイス250のユーザにインターフェースを提供する。電子デバイスは、キーボード251を介して、ユーザから入力を受容し、またディスプレイ256を介して、ユーザにアウトプットを提供する。ユーザインターフェース253は、例えば、ディスプレイスクリーン156上でテキストを作成するためにテキスト入力スクリーンを表示する。
入力プロセッサ254は、ユーザインターフェース253を通じて入力キュー252からバッファされたピンイン入力を受け取る。入力プロセッサ254は、入力を単語にセグメント化し、セグメント化された入力に基づいて中国語テキスト候補を識別する。これらの識別された候補は、それからディスプレイ256上に表示される。入力プロセッサ254は、中国語テキストが、電子デバイス250へ入力されているとき、必要に応じ上記の配列および言語データレコードにアクセスする。図13のシステムが、学習をサポートするとき、入力プロセッサ254は、また学習言語データレコードにアクセスし、かつ格納する。
図13において、配列およびデータレコードは、例えば、入力プロセッサ254をインプリメントするソフトウェアコードの一部として組み込まれた入力プロセッサ254に格納される。あるいは、配列およびデータレコードは、入力プロセッサ254のバッファもしくはメモリ内に、もしくは少なくとも入力プロセッサにアクセス可能なバッファもしくはメモリに格納される。このようなメモリは、1つ以上のデータストレージを備え、1種類以上のストレージコンポーネントを用いてインプリメントされる。250といった電子デバイスは、通常書き込み可能メモリ例えば、ランダムアクセスメモリ(RAM)および読み出し専用メモリ(ROM)の両方を含む。書き込み可能メモリの任意のデータが、電力損失の際に保持されるとき、フラッシュRAM(Flash RAM)もしくはバッテリバックアップRAMといった不揮発性メモリが好まれるが、書き込み可能メモリは、揮発性もしくは不揮発性であり得る。配列および言語データレコードは、通常一度確立されると変更されないので、好ましくは、不揮発性メモリに格納される。書き込み可能メモリである必要はない。学習言語データレコードは、学習が有効なとき、新しい学習言語データレコードが加えられるので、好ましくは不揮発性書き込みメモリに格納される。
好ましい実施形態において、入力プロセッサ254は、ソフトウェアアプリケーションもしくは電子デバイス250上で1つ以上のソフトウェアアプリケーションと関連して動作するように構成されたソフトウェアモジュールとしてインプリメントされることにより、このようなソフトウェアアプリケーションによるプロセシングのための中国語テキスト入力を有効にする。
ディスプレイ256は、電子デバイス250のユーザにビジュアルデータ出力を提供する。携帯型電子デバイスには、たとえば液晶ディスプレイがしばしば用いられる。
電子デバイス250上に中国語テキストエンターのためのユーザ入力は、縮小キーボード251のキーを押下して行われる。テキストエントリは、電子デバイス250上でサポートされる特定の機能用いて、例えば、特定のソフトウェアアプリケーション、モジュールもしくはユーティリティを起動して、ユーザによって呼び出される。動作もしくは機能が、中国語テキストの入力を要求するときはいつでも、中国語テキスト入力システムは、ユーザのピンイン入力をプロセスすることにより、正しい中国語音節を予測する。2つ以上のソフトウェアアプリケーションがテキスト入力をサポートするとき、例えば、中国語テキスト入力システムは、任意のソフトウェアアプリケーションによって呼び出されるソフトウェアモジュールもしくはユーティリティとして好ましくはインプリメントされる。あるいは、このようなソフトウェアのそれぞれは、ソフトウェアインストラクションを組み込み得ることにより、ここで記載されるように中国語テキスト入力を実行する。
明らかであるが、ユーザインターフェース253は、ディスプレイ256上にテキストエントリスクリーンを提示することにより、テキストエントリを補助する。テキストエントリスクリーンの特定のコンテントおよびフォーマッティングは、例えば、エントリされるテキストの本質、テキストがエントリされる機能、もしくは現在使用中のソフトウェアアプリケーションに依存する。ピンインが、最初にテキストエントリスクリーンに表示され、その後対応するボポモフォと置換され得る。入力されたピンインは、セグメント化され、中国語テキストに変換されるとき、テキストエントリシステムによって識別される、もしくはユーザによって選択される漢字文字候補は、漢字文字と置換される。
ユーザピンイン入力が受信されたとき、入力プロセッサ254は、ピンイン入力をセグメント化し、言語データレコードおよび学習言語データレコード(存在するとき)を検索し中国語テキストに変換する。上述のように、ユーザによるピンイン入力が、ディスプレイ256上に表示され、ピンインがセグメント化され、変換された後、中国語テキストと置換される。中国語テキスト内の候補漢字文字が、ユーザによって変更されるとき、入力プロセッサ254は、候補をディスプレイ256上のテキストエントリスクリーンで選択された候補と置換し、学習が有効なとき、1つ以上の単語を学習言語データへ加える。例候補のユーザ選択は、例えば、ユーザ入力のシーケンスに基づいてルックアップ機能を呼び出し、入力のシーケンスに対応する候補リストから選択するために、キーボード251のナビゲーションキー、もしくはサムホイールといった補助入力デバイス(示されていない)を用いて達成され得る。1つの実施形態において、ルックアップ機能が呼び出されるとき、ユーザによるピンイン入力もしくは対応するボポモフォが、テキスト入力スクリーンもしくはルックアップウィンドウに表示され、ユーザは入力シーケンスもしくはルックアップ機能が基づいている任意の一部を選択する。ユーザは、それから入力シーケンスに対する1つ以上漢字の変形を選択する。選択された変形は、ディスプレイ256上のテキスト入力スクリーンで入力シーケンスを置換する。上述の説明は、入力プロセッサ254によって実行される機能を参照するが、入力プロセッサ254のこれらの機能は、中国語テキスト入力方法が実施されるソフトウェアアプリケーション、モジュール、ユーティリティのソフトウェアインストラクションによって命令されることは当業者には分かる。
上述が、例だけによって、好ましい実施形態に関連しているだけであることが分かる。上述のシステムおよび方法における多くの変形は、当業者にとって明らかであり、このような明らかな変形は、明記されているか否かにかかわらず、明細書および請求項に記載されるように、発明の範囲内である。
ボポモフォ音節に対する一意な識別子の配列を示す。 ピンイン音節に対する一意な識別子の配列を示す。 ピンイン音節とボポモフォとの間の対応の配列を示す。 トーン情報配列を示す。 複数文字の単語言語に対するデータレコードのフォーマットを示すブロック図である。 言語データレコードの例のブロックである。 2文字の単語に対する言語データレコードのフォーマットを示すブロック図である。 2文字の単語に対する言語データレコードの例を示すブロック図である。 学習言語データヘッダーのブロック図を示す。 学習言語データヘッダーの例のブロック図を示す。 学習言語配列を示すブロック図である。 言語データを用いる方法のフローチャートである。 言語データを用いるシステムのブロック図である。

Claims (21)

  1. 中国語ピンイン音節を中国語漢字文字に変換する際に用いられる言語データ構造であって、該データ構造は、
    複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字リストを含み、各リスト内の各漢字文字候補は、該リストにインデックスを有する、複数の漢字文字候補リストと、
    複数の言語データレコードであって、各言語データレコードは、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を包含する、複数の言語データレコードと
    を備え、
    各言語データレコード内の該キーは、該言語データレコードが対応する単語の該ピンイン音節に対するインデックスのシーケンスと、トーン情報とを含み、各言語データレコード内の該値は、該単語の該ピンイン音節にそれぞれ関連付けられた候補のリスト内に該単語の該ピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む、言語データ構造。
  2. 各データレコードは、整数バイト長である、請求項1に記載の言語データ構造。
  3. 各ピンイン音節に対する前記インデックスおよび前記トーン情報が、データレコード内に2バイトで格納されている、請求項1に記載の言語データ構造。
  4. 前記インデックスが10ビットであり、前記トーンが5ビット長である、請求項3に記載の言語データ構造。
  5. 前記複数の言語データレコードが、複数の配列に格納されており、各配列が、同じピンイン音節数を有する単語に対応する言語データレコードを格納する、請求項1に記載の言語データ構造。
  6. 前記複数の配列のそれぞれにおける言語データレコードが、インデックスのシーケンスの1番目のインデックスおよびトーン情報に基づいて格納される、請求項5に記載の言語データ構造。
  7. 前記ピンイン音節に関連付けられたピンイン音節識別子の配列をさらに含み、前記単語のピンイン音節の前記インデックスは、ピンイン音節識別子の前記配列内に該単語の前記ピンイン音節にそれぞれ関連付けられた前記識別子のインデックスである、請求項1に記載の言語データ構造。
  8. 各音節は、N個の文字のアルファベットから(n+1)個の文字を含み、前記識別子は、以下の公式
    ID=インデックス (N)+インデックス (N)+...+インデックス (N)、にしたがって決定され、
    ここで、
    インデックスは、前記音節の1番目の文字のインデックスであり、
    インデックスは、該音節の2番目の文字のインデックスであり、
    インデックスは、該音節の(n+1)番目の文字のインデックスであり、
    Nは、音節構造に用いられる文字の総数である、請求項7に記載の言語データ構造。
  9. ボポモフォ音節に関連付けられた中国語ボポモフォ音節識別子の配列と、各ピンイン音節識別子とそれに対応するボポモフォ音節識別子との間の対応を示す対応配列と
    をさらに備えた、請求項7に記載の言語データ構造。
  10. 前記複数のデータレコードが、2音節単語のための言語データレコードを包含し、2音節単語の各言語データレコードは、
    該2音節単語に第2ピンイン音節のインデックスおよび該2音節単語に第1ピンイン音節ならびに該第2ピンイン音節に対するトーン情報を包含するキーと、
    該第1よび該第2ピンイン音節にそれぞれ関連付けられた候補の前記リスト内に、該第1および該第2ピンイン音節を表す漢字文字候補のインデックスのシーケンスとを包含する値と
    を備えた、請求項1に記載の言語データ構造。
  11. 2音節単語のための前記言語データレコードは、データレコード配列に格納される該言語データレコードであって、2音節単語のための言語データレコードのそれぞれは、前記第1ピンイン音節関連付けられた変形であり、同一の第1の音節に関連付けられた変形は、データレコード配列内でグループ化されており、前記言語データ構造は、オフセットの配列をさらに包含し、各オフセットは、該データレコード配列内に第1ピンイン音節に関連付けられた第1の変形のオフセットを包含する、請求項10に記載の言語データ構造。
  12. 複数の中国語ピンイン音節のそれぞれに対する識別子を生成するステップと、
    識別子の配列内に該生成された識別子を格納するステップであって、識別子の配列内の各識別子は、配列ンデックスを有する、ステップと、
    複数の漢字文字候補リストを生成するステップであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を含み、各リスト内の各漢字文字候補は、該リスト内に候補インデックスを有する、ステップと、
    複数のピンイン音節を有する複数の単語それぞれに対する、キーおよび値を包含するデータレコードを生成し、該キーは、該複数のピンイン音節のそれぞれに対する識別子および該複数のピンイン音節のそれぞれに対するトーン情報の配列内に該識別子の配列ンデックスを含み、該値は、該複数のピンイン音節のそれぞれに関連付けられた候補の該リスト内に該複数ピンイン音節を表す該候補の候補インデックスを含む、ステップと
    を包含する、中国語言語データを生成する方法。
  13. 識別子が増加する順序で、識別子の前記配列をソートするステップを包含する、請求項12に記載の方法。
  14. 前記データレコード生成するステップは、複数の2音節単語のそれぞれに対するキーおよび値を含むデータレコードを生成するステップを包含し、該キーは、該2音節単語内に第2ピンイン音節に対する識別子の前記配列内に前記識別子を包含し、また該2音節単語内に第1ピンイン音節および該第2ピンイン音節に対するトーン情報の配列ンデックスを包含し、該値は、該第1および該第2ピンイン音節のそれぞれに関連付けられた候補の該リストに該第1および該2ピンイン音節のそれぞれを表す候補の候補インデックスを包含する、請求項12に記載の方法。
  15. データレコード配列内に2音節単語に対するデータレコードを格納し、該同一の第1ピンイン音節を有する2音節単語に対するデータレコードは、該データレコード内でグループ化される、ステップと
    オフセットの配列を生成し、各オフセットは、該データレコード配列内に第1ピンイン音節に関連付けられた第1データレコードのオフセットを包含する、とステップと
    をさらに包含する、請求項14に記載の方法。
  16. 複数のデータレコード配列の内の1つに該データレコードを格納し、各配列は、所定の数のピンイン音節の単語に対応するデータレコードを格納するステップをさらに包含する、請求項12に記載の方法。
  17. 前記複数のデータレコード配列のそれぞれの前記データレコードは、各データレコード内にある第1配列ンデックスに基づいてソートされる、請求項16に記載の方法。
  18. 中国語言語データを用いて中国語ピンイン音節を中国語漢字文字に変換するシステムであって、
    該言語データは、複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を包含し、各リスト内の各漢字候補は、該リスト内にインデックスを有する複数の漢字文字候補リストと、複数の言語データレコードであって、各データレコードが、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を有する複数の言語データレコードを含み、各言語データレコード内の該キーは、該言語データレコードが対応している該単語の該ピンイン音節に対するインデックスのシーケンスおよびトーン情報を包含し、各言語データレコード内の該値は、該単語の該ピンイン音にそれぞれ関連付けられた候補の該リスト内に該単語の該ピンイン音節を表す漢字文字候補のインデックスのシーケンスを含み、該システムは、
    ピンイン音節を作成するための複数の文字表すキーを有するキーボードと、
    該キーボードから入力ピンイン音節を受け取るように構成された入力キューと、
    該複数の漢字文字候補リストおよび該複数のデータレコードを格納するように構成されたメモリと、
    該メモリおよび該入力キューに動作可能に結合された入力プロセッサであって、かつ該入力ピンイン音節を入力単語にセグメント化し、該入力ピンイン音節を含む各入力単語に対応するそれぞれに言語データレコードに対する該言語データレコードを検索し、また該対応するデータレコード内の該漢字文字候補インデックスを用いて各入力単語を該中国漢字文字候補に変換するように構成された入力プロセッサと、
    ディスプレイと、
    該ディスプレイと該入力プロセッサとの間で結合された該ディスプレイユーザインターフェースであって、ディスプレイ上に該入力ピンイン音を節表示し、かつ、該入力ピンイン音節が該入力によって変換されるとき、該入力ピンイン音節を該中国語文字候補と置換するユーザインターフェースと
    を備えたシステム。
  19. 前記入力キューは、前記入力ピンインの1つ以上を表す選択された漢字文字を識別する漢字文字選択入力を受け取るように構成され、前記入力プロセッサは、漢字文字選択入力が受け取られたかどうかを決定し、かつ、該1つ以上の該入力ピンイン音節入力を漢字文字選択入力が受け取られたとき、該選択された漢字文字に変換するようにさらに構成された、請求項18に記載のシステム。
  20. 前記入力プロセッサは、前記1つ以上の入力ピンイン音節を含む新しい単語を形成し、かつ、該新しい単語に対応する新しいデータレコードを生成し、かつ、前記メモリ内に新しいデータレコードを格納するようにさらに構成された、請求項19に記載のシステム。
  21. 前記入力プロセッサは、各入力単語に対応するデータレコードに対する前記言語データレコードおよび任意の新しいデータレコードを検索するようにさらに構成された、請求項20に記載のシステム。
JP2004518332A 2002-07-03 2003-07-03 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム Pending JP2005531858A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US39394802P 2002-07-03 2002-07-03
US10/305,563 US7228267B2 (en) 2002-07-03 2002-11-27 Method and system of creating and using Chinese language data and user-corrected data
CA002413055A CA2413055C (en) 2002-07-03 2002-11-27 Method and system of creating and using chinese language data and user-corrected data
PCT/CA2003/001024 WO2004006123A2 (en) 2002-07-03 2003-07-03 Method and system of creating and using chinese language data and user-corrected data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006312021A Division JP2007042146A (ja) 2002-07-03 2006-11-17 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム

Publications (1)

Publication Number Publication Date
JP2005531858A true JP2005531858A (ja) 2005-10-20

Family

ID=30118652

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004518332A Pending JP2005531858A (ja) 2002-07-03 2003-07-03 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
JP2006312021A Withdrawn JP2007042146A (ja) 2002-07-03 2006-11-17 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2006312021A Withdrawn JP2007042146A (ja) 2002-07-03 2006-11-17 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム

Country Status (8)

Country Link
EP (1) EP1522027B8 (ja)
JP (2) JP2005531858A (ja)
KR (1) KR100712001B1 (ja)
CN (1) CN100561469C (ja)
AT (1) ATE329317T1 (ja)
AU (1) AU2003250637A1 (ja)
DE (1) DE60305922T2 (ja)
WO (1) WO2004006123A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192311A1 (en) * 2006-02-10 2007-08-16 Pun Samuel Y L Method And System Of Identifying An Ideographic Character
CN102609455B (zh) * 2012-01-12 2014-12-03 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN107066104B (zh) * 2016-11-14 2020-12-11 高商展 电脑汉英互读互译键盘最佳键位
CN109901727A (zh) * 2019-03-06 2019-06-18 上海依智医疗技术有限公司 一种获取文字纠错信息的方法和装置
CN111354339B (zh) * 2020-03-05 2023-11-03 深圳前海微众银行股份有限公司 词汇音素表构建方法、装置、设备及存储介质
CN113343639B (zh) * 2021-05-19 2023-10-03 网易(杭州)网络有限公司 产品标识码图生成、基于产品标识码图的信息查询方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö

Also Published As

Publication number Publication date
DE60305922T2 (de) 2007-04-26
AU2003250637A1 (en) 2004-01-23
EP1522027B8 (en) 2006-08-16
KR100712001B1 (ko) 2007-04-30
CN100561469C (zh) 2009-11-18
KR20050043884A (ko) 2005-05-11
WO2004006123A3 (en) 2004-09-02
EP1522027B1 (en) 2006-06-07
DE60305922D1 (de) 2006-07-20
WO2004006123A2 (en) 2004-01-15
CN1679023A (zh) 2005-10-05
ATE329317T1 (de) 2006-06-15
JP2007042146A (ja) 2007-02-15
EP1522027A2 (en) 2005-04-13
AU2003250637A8 (en) 2004-01-23

Similar Documents

Publication Publication Date Title
US7512533B2 (en) Method and system of creating and using chinese language data and user-corrected data
US8803812B2 (en) Apparatus and method for input of ideographic Korean syllables from reduced keyboard
US6877003B2 (en) Efficient collation element structure for handling large numbers of characters
US8803713B2 (en) Handheld electronic device and method for disambiguation of text input providing suppression of low probability artificial variants
JP2007042146A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
US8296484B2 (en) Alphanumeric data entry apparatus and method using multicharacter keys of a keypad
US20050251519A1 (en) Efficient language-dependent sorting of embedded numerics
EP1691298B1 (en) Method and system of creating and using Chinese language data and user-corrected data
KR100765224B1 (ko) 축소형 키보드로부터 표의 문자인 한국어 음절을 입력하기위한 장치 및 방법
WO2007088902A1 (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP3470975B2 (ja) 文書入力装置のかな漢字変換方法および装置
JP2005531857A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
JP3938087B2 (ja) 言語入力システム及び方法
US20070033173A1 (en) Method and apparatus for data search with error tolerance
US20080189327A1 (en) Handheld Electronic Device and Associated Method for Obtaining New Language Objects for Use by a Disambiguation Routine on the Device
JPS59116835A (ja) 短縮入力機能付日本語入力装置
JP2005228263A (ja) データベース検索装置、電話帳表示装置及び中国語文字データベース検索用のコンピュータプログラム
JPH05342194A (ja) 連文節かな漢字変換システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070709

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20071019

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20071109

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090903

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090903