JP3803253B2

JP3803253B2 - 漢字入力のための方法および装置

Info

Publication number: JP3803253B2
Application number: JP2000595222A
Authority: JP
Inventors: ウァレース，リッチー，エイ; プン，サミュエル; キウ，ウィゲン
Original assignee: ズィー・コーポレイション・オブ・カナダ，インコーポレイテッド
Priority date: 1999-01-20
Filing date: 1999-01-20
Publication date: 2006-08-02
Anticipated expiration: 2019-01-20
Also published as: JP2002535768A

Description

「発明の分野」
本発明は、ワードプロセッサ、コンピュータ、及び、他の同様な装置などのシステムや装置を使用する漢字を入力に関連する。
「発明の背景」
いくつかの現代の言語には、漢字（Chinese character：中国語文字を含む）として知られるシンボル（記号）を利用する書体で書かれたものがある。漢文字（Han character）すなわち表意文字としても知られるこれらのシンボルは、数千年前の中国で生み出された。シンボルを使用する現代の言語では、「漢字」の呼び名は、中国の「ハンジ（Hanzi）」、日本の「カンジ」、及び朝鮮の「ハンジャ（Hanja）」のように様々である。漢字の「現在」の形態は、１５世紀以上の間継続して使用されてきた。初期の形態は、３０世紀以上前に使用されたものである。
【０００１】
表記方式（ライティングシステム）において今日漢字を使用する主要な言語は、日本語、朝鮮語、及び（標準中国語や広東語としてより広く知られている）多くの中国語系の方言である。日本語及び朝鮮語は、種々の中国語とは言語上のルーツを共有していないが、漢字のシンボルは、中国語の表記方式から取り入れられて、中国の言語体系の発展に続く数世紀にわたって改良された結果、日本語や朝鮮の言語体系に適合するものとなった。
【０００２】
中国語の話し言葉のほとんどすべてが、数千年にわたって絶えず存在し続けてきた十分に洗練された中国語の表記方式の存在のもとに発展してきた。表記方式及び話し言葉は、ある面では他方の発展を互いに抑制しつつ、共に発展してきた。しかしながら、日本語及び朝鮮語の場合には、話し言葉は、表記方式がない状態で現在の形態に幾分近い形態に、かつ、中国語の発達とは全く無関係に発展した。
【０００３】
すべての言語は、単語と呼ばれる基本単位を有しているが、特定の言語では、単語を正確に構成するものは何かがしばしば議論の的となる。ほとんどの表記方式では、単語同士を分離するためにスペース（空白）が使用される。スペースで単語同士を分離するこの方法では、単語の境界が非常に明瞭となる。漢字を使用する朝鮮語の表記方式でも、単語同士を分離するこの方法が使用されている。しかしながら、中国語の表記方式では、単語間にスペースはなく、単語と語句との識別性が劣るものとなっている。
【０００４】
正字法（すなわち、表記方式）は、一般的に、以下の要素の組み合わせを組み込んでいる。すなわち、（１）言語の話し言葉を書きしるすための表象法、（２）言語の構成要素である句読点の表象法、（３）外国語を書きしるすための表象法、及び（４）通貨記号、商標等のような単語でないシンボルの表象法である。英語、中国語、日本語及び朝鮮語の表記方式はすべて、これらの要素を含んでいる。
【０００５】
中国語の表記方式では、各々の漢字は、話し言葉の一語に対応する。しかし、単語は、１つ、２つ、３つ、または、それより多くの文字（本明細書では、単に「文字」と記載した場合は、characterの訳語として用いており、文字（letter）と記載した場合は、letterの訳語として用いている）から成り立っている場合があり、各文字は、話し言葉の形態において個別の一語を表す。漢字は、単語と語句との識別性が不明瞭な場合があるために、しばしば、複合文字または語句と呼ばれる。
【０００６】
中国語の話し言葉のほとんどは、それらが互いには分かりあえない程度にまで、数千年にわたって発達してきた。例えば、広東語の方言のみを話すことができる者は、彼らが英語を理解できないのと同じように、標準中国語の方言の話し言葉を理解することができない。これらの方言は、本質的には、共通のルーツを共有するだけの全く別の言語である。しかしながら、これらのすべての中国語は、一言の言葉と文字との間に主要な対応関係を有する共通の表記方式と共存して数世紀にわたって発展してきた。広東語と標準中国を読み書きできるそれぞれの話し手は、異なる発音で文字を読む場合があるが、彼らは、表記においては互いに共通の理解を得ることができる。なぜなら、漢字は、発音には依存しない意味を表象するからである。もちろん、その共通の理解は、理解に影響を与える文法及び文語体の相違によって抑制される。中国語の表記は、中国語の単語を専ら文字で表記する方法に加えて、いくつかの句読点要素と、修飾語として作用する多くの文字も含んでいる。外国語の単語は、一般に、外国語の単語と似たように「発音される」中国語で読まれる文字で表記される。これらの発音は、異なる方言では異なるので、こうして表記された単語は、一般的には、通常の中国語の単語と同じ性質を有しないものとなる。
【０００７】
それぞれの表記方式用に漢字を適合した日本語及び朝鮮語においては、言葉と文字との間に対応関係が常に存在するわけではない。１つの漢字が、日本語または朝鮮語の複合した言葉として読まれる場合がある。表記用の日本語及び朝鮮語のいずれも、日本人及び朝鮮人によって独自にかつ別々に開発された漢字及び表音記号（表音シンボル）の両方を使用する混合言語体系である。例えば、日本語がわからない中国人は、書きしるされた日本語のうちの漢字のかなりの部分を認識することができ、従って、完全ではないにしろ、日本語の文書の意味を理解する上である程度のヒントを得ることができるであろう。朝鮮人が中国語と日本語の両方に対する場合も同様の状況が存在する。
【０００８】
日本語の表音記号は、５０音の日本語の話し言葉であり、「カナ」と呼ばれる。カナにおける各記号は１つの完結した音節を表すつづり字である。日本語には異なる音節の数が比較的少ないためにこれが可能となっている。カンジ（日本語で使用する漢字のこと。明細書第１頁の記載参照）と共に単語として、あるいは、カナまたはカンジで表記された他の単語に対する修飾語として、単独でカナを使用することができる。ラテン文字でカナ自体を書きしるすことにより、カナを「ローマ字で書き表す」ことも可能である。このように、表記用の日本語はカナとカンジが混在したものであって、様々な単語が、一方や他方の文字で、あるいは、両方の文字で記載される。
【０００９】
朝鮮語の表音記号は、ハングル（Hangul）と呼ばれる。ハングルは、仮想的な正方形ブロック内で組み立てられるいくつかの表音要素から構築される複合記号として表記される朝鮮語の話し言葉の音節を表す。１列に並んだ文字として１音節を表記するのではなくて、朝鮮語の話し言葉の１音節を表す正方形ブロック内に閉じこめられた１つの複合記号にハングルの要素が組み合わされる。日本語と同様に、表記用の朝鮮語も、朝鮮語の表音記号と、ハンジャ（明細書第１頁参照）と呼ばれる漢字が混在したものである。通常の朝鮮語の文のほとんどがハンジャを使わないので、日本語とは異なり、朝鮮語の表記は通常はもっぱら表音記号による。
【００１０】
中国語は常に文字で書かれるが、表音体系は、漢字の発音と教授を目的として発展してきた。これらの体系の中には、台湾において標準の表音体系となっている中国語音標文字（BoPoMoFoとしても知られる）や、中華人民共和国（中国）において標準の表音体系となっているピンインによるローマ字表記法がある。これらの両方の体系が、中国語及びその表記法を教えるための補助として何十年もの間広く使用されてきたが、いずれの体系も、それ自体では表記方式としては機能しない。しかし、中国語表音体系は、漢字をコンピュータに入力する手段として適応されてきた。典型的な例が、米国特許第5,212,638号及び第5,360,343号に記載されている。
「漢字の特性」
漢字は、象形文字、直説法及び種々の複合形式を含むいくつかの基本的なタイプのうちの正字法の記号である。象形文字は、本質的には、抽象化されることが多い絵である。直説法は、意味を想起させる形態指示である。種々の複合形態には、１つとなって意味を示唆する少なくとも２つの象形文字または直説法の組み合わせが含まれる。他の複合形態には、文字に関連した発音及び音声に関係する要素と共にそれらが含まれる。表音要素を伴うかかる文字が、圧倒的に多数を占める。
【００１１】
非常に多くの漢字がある。Xu Shenによる２世紀辞典には、およそ１０，０００文字が記載された。Kang Xiとその共著者による発展の可能性のある１８世紀「Kang Xi」辞典には、およそ５０，０００の漢字が登録された。今日では、「十分に」読み書きのできる中国人の大多数は、数千文字を知っている。これらの数千文字は、現代の中国語表記において使用される数万の単語を書き表すために使用される。
【００１２】
漢字は、約３０の基本字画の品目から筆、鉛筆またはペンで書かれる。完全な文字は、仮想的な正方形のボックス内に書かれる。文字は、１つの字画から３０より多くの個別の字画まで様々である。３０の基本字画があることにより、大きさ及び位置に応じて多くの種類が存在する。
【００１３】
より複雑な文字（これがすべての文字の大多数を占める）は、通常、いくつかのサブユニットから構成されており、各サブユニットは、他の文字のより小さい、すなわち、他の文字から抽出したバージョンである。これらのサブユニットの構成により、中国語は、表記用に利用可能な数千の文字を写実的に取り扱うことができる。ほとんどの文字は、一組のわずか２、３百の基本サブユニットのうちの２、３または４つのサブユニットから構成されている。１８世紀Kang Xiは、西洋で「部首（radical）」と呼ばれるこのようなサブユニットのうちの２１４個を使用して文字を構成した。文字は、しばしば、これらのサブユニットを介して互いに関連付けられており、こららのサブユニットのいくつかは、（実に普遍的に）意味、あるいは、（いくつかの方言においてはもはや話されることがないかも知れない）発音を示すことができる。特定の文字の部首は、一般的に個別のユニットとして書かれる。しかし、書き順が中断される場合がある。例えば、部首が別の囲み形式のサブユニット内で書かれるときがそうである。
【００１４】
典型的な中国語の文では、特定の文字が現れる頻度は、表１に示すように指数関数的に分布している。
【００１５】
【表１】

【００１６】
「漢字のためのマシン（機械）入力」
漢字のマシン入力用の最も初期の既知のシステムは、任意コードを使用するものであった。例えば、中国語の電信符号は、４桁の数値コードを使用して９９９９文字から選択する。高度に訓練された人員は、すべての文字の符号化とそれに対応するコードにおけるキーを基本的に記憶している。符号化をベースとしたシステムの明らかな利点は、ブラインド操作が簡単にできることである。すなわち、コードを習得したオペレータは、アドパンチマシンを打つ会計士の如く、原稿から目を移動させずに文字を入力することができる。当然ながら、問題は、このような大量のコード数からなる組を覚えることが困難なことにある。文字に対するコードがオペレータにすぐにはわからない場合には、ある種の参照物を調べる必要があり、そのために、スループットが著しく悪化することになる。
【００１７】
ラテン語をベースとした表記方式の特徴は、２６文字の各々に対して１つのキーを備えるタイプライタキーシステムを作成することが比較的簡単であったことである。手動式のタイプライタ装置からコンピュータ入力用のキーボードに移行することは容易であった。しかし、漢字の場合は、非常に多くの文字に対応しなければならないという困難な問題がある。例えば、米国特許第２，９５０，８００号、４，３７９，２８８号及び４，９５１，２０２号には、漢字の符号化のための類似の手段を構築するための試みとして特別に設計されたマシン及びキーボードが記載されている。
【００１８】
漢字を入力する他のアプローチは、地域言語における文字の発音に基づく仲介システムを使用することである。中華人民共和国の標準中国語の標準的な方言である普通話（Putonghua）の場合は、発音の仕方を無視すれば約４００の明らかに異なる音節が存在する。従って、本質的には同じ発音の多くの文字があり、標準中国語とは異なる現在も使用されている方言を話す人にとっては、たくさんの発音の中から識別することの困難さもまた存在する。さらに、めったに使用されない文字形状をある個人が知っているが、発音については知らないという場合も多く存在する。これらの問題にもかかわらず、表音システムは、コンピュータユーザにとっては現在のところ漢字を入力し検索するもっともポピュラーな形態である。代表的な例が、米国特許第４，５００，８７２号、４，９３７，７４５号、５，２５５，１８９号及び５，３１９，５５２号に記載されている。
【００１９】
米国特許第４，６８４，９２６号及び５，１８７，４８０号に記載されているように、ウェスタン「ＱＷＥＲＴＹ」キーボードを漢字のコード化を行うために適用するという試みについても知られている。印刷した文字を供給することによって入力された漢字にウェスタンキーボードを適用して２６のラテン文字を置換するために、大きなキーボードや新しいマシン、複雑で難解なシステム、及び、音声学や複雑なアナログコードを用いることなく、使用可能性のある数千の漢字を入力するための現実的なシステムは、表記用の漢字を使用することを必要とする人々に大きな利益を与えるものである。
【００２０】
米国特許第５，１０９，３５２号には、（１）比較的少数の基本区分への基本字画の分類、及び、（２）従来の書き順で順番に並んだ字画区分のエントリ、に基づいて文字を呼び出すことが記載されている。この’３５２特許の教示するところによれば、所望の文字を生成するために必要となる字画の数が多くなる可能性がある。字画を書く順序は一貫しているが、重大な違いが存在する。字画数の多い文字の場合、特定のオペレータがすべての字画を正確に入力するという可能性は極めて低くなりうる。’３５２特許が教示しているように、文字に対する字画の代替となる符号化を記憶することにより、これらのエラーを低減することができる。しかし、このアプローチは、あまりにも頻繁に適用されると、システムの効率が下がり、システムの独自性を失う結果になりうる。
【００２１】
さらに、特定の文字に対する正しい順序と分類を知らないオペレータは、やっかいで時間のかかる試行錯誤のプロセスに頼らなければならない。このために、文字を入力する全体的な平均速度が著しく遅くなりうる。このことは、２以上の字画に不確実性があり、結果としていくつかの可能性のある並べ換えや組み合わせがある多くの状況に特に当てはまる。この場合には、オペレータは、「お手上げ状態」になり、参考資料を調べざるをえないであろう。
【００２２】
漢字を入力する問題に対する他のアプローチは、（すでに定義したように）部首の使用をベースとしたシステムである。かかる２つのシステムが、米国特許第５，１１９，２９６号と第５，１９７，８１０号に記載されている。これらのシステムは、一般的には複数のページにおける、文字のそれらの構成要素の構造への分解、いくつかのルールまたは関係に従った部首の分類、及び、各部首に対するキーボード上の固定位置の割り当てに基づいている。
【００２３】
部首を使用するこのようなシステムはすべて、比較的複雑な符号化システム、融通が利かないルールや柔軟性のないキーボード割り当てを有しており、しばしば、上述したように、複数のページに編成される。部首は、通常、Kang Xi辞典のオリジナルの２１４の部首から書かれ、中華人民共和国で使用されている所定の文字を単純化するために適切に修正される。文字を分類するために構成されたこれらの部首は、通常、１つのグループとして書かれる形態の重要な組のすべてを含んでいるわけではない。これらの要因のために、かかるシステムは、習得するのが困難で、かつ、使いにくいものとなっている。
【００２４】
従来技術によるシステムのいずれも、使用の簡単さ、システムの習得の容易さ、及び、テキスト入力の全体速度のすべてを完全に満足させるものではない。今日のユーザのために、漢字を構築して、それらを現代のマシンに入力する際に問題となる多くの微妙な差違を簡単に低減することが当該技術分野において必要とされている。以下に、当該技術分野において依然として存在しているこれらの未解決の問題に対する解決策を記載する。
「本発明の要約」
本発明の第１の目的は、最小のトレーニングと学習時間で、効率よく、かつ、外部の参考資料を必要とせずに、漢字をベースとしたテキストをマシンに入力するための改良された方法及び装置を提供することである。
【００２５】
本発明の他の目的は、対象とするマシンに完全な単語を配信することによって中国語の（すなわち漢字からなる）テキストの「単語の性質」を維持して、単語を入力する際にオペレータの単語に対する概念を維持することにより、中国語のテキストのより進化した「文書作成」を容易にすることである。
【００２６】
本発明の他の目的は、所定の時間にわたって実際に使用された単語及び文字の頻度を採用することによって、ユーザあるいはユーザのグループに対して入力システムを継続的に改良すること、すなわち、適用することを可能とすることにある。
【００２７】
本発明の他の目的は、字画の組の代用として、及び、文字候補をより良好に識別するための手段としてコンポーネント（構成部品）を使用するシステムを提供することである。
【００２８】
本発明の他の目的は、次に書かれるコンポーネントを表示するための順序を用いるシステムを提供することであり、この表示順は、以前の字画と、そのコンポーネントが次に書かれるコンポーネントであるというコンポーネントの選択が与えられたとした場合の、すべての可能性のある文字の累積頻度に基づいている。
【００２９】
本発明のさらに他の目的は、中国語の単語の間にスペースをタイプする必要をなくすこと、また、印刷された文字を必要としないキー、及び、「モア(more)」キーや「ワイルドカード」キーのような専用の仮想キーを有する入力手段を使用するといった独自の特徴を漢字入力システムに提供することである。
【００３０】
本発明では、オペレータと装置とが、閉ループフィードバックシステムを構成する。オペレータは、システムによって生成される視覚情報に応答し、キーを打つことによってあるいは他の手段によって追加のデータ及び決定を送る。オペレータの応答は、漢字、及び漢字で書かれた言語の単語に関するオペレータの知識に大いに関係する。装置は、オペレータのデータに対して追加の情報で応答する。さらに、以後の操作における装置の特定の動作は、以前の操作におけるオペレータの入力の結果として変更される。
【００３１】
システムは、その主要な入力装置として標準的なキーボードあるいはタッチスクリーンを実装した装置のいずれかを組み込むことができる。装置のほとんどの操作は、いずれの入力装置に対しても共通である。さらに、キーボードには、片手用と両手用がある。両手用のキーボードは、高速の文書作成操作に最適である。片手用のキーボードは、複写操作に適しており、この場合、原稿を押さえるために一方の手をより効率的に使うことができる。タッチスクリーン装置による入力が使用される場合は、タッチスクリーンは、主要な入力装置としてキーボードの代わりとなるが、選択は、ディスプレイ（表示手段）の適切な領域をペンまたは指で押す（これは、キーを押下するのと同等な作用を提供する）ことにより実行される。
【００３２】
入力手段は、例えば、一般的なコンピュータまたはタイプライタに見られる従来のキーボードから構成することができる。従来のキーボードのキー上の伝統的な印刷ラベルは、本発明とは関係ないものでり、白紙の状態でもよく、また、ラテン文字、BoPoMoFo文字、カナ文字、未構成のハングル要素の入力のような他のなんらかに使用するために専用化してもよい。
【００３３】
好適な実施態様では、キー上に触感のある隆起部を設けて、右手の指をキーボードに誘導する（さらに、左手の指を誘導するようにすることも任意に可能である）。キーの文字が必要でないために、オペレータがキーボードに目を移動させる必要もなくなる。但し、最初に手を置くときはそうでない場合があり得る。好適な実施態様のシステムでは、８本の指をホームの行位置に置く。この位置では、各指は、８つの字画区分のうちの１つに割り当てられたキーに対応する。それぞれの手の親指は、スペースバーを操作するために自由のままであり、小指もまたシフトキーを簡単に操作できるように置かれる。これは、漢字入力に対する従来技術から明らかに脱却するものである。このタイプ位置により、ユーザは、ホームの行位置にあるキーのみを使用して高速で字画区分をタイプすることができる。オペレータは、別個の（高価で時間のかかる）タイピングレッスンを受けることなく、本システムを使用するだけでこのレイアウトに慣れることができる。
【００３４】
本発明はディスプレイ手段を備えており、その一部は、必要な場合には、漢字を入力するための、オペレータと装置との間の対話に使用される。ディスプレイは、作業の対象が漢字テキストの入力に関係しているときに、他の情報をオーバーラップさせて表示することができる。例えば、本発明に関係するディスプレイ情報は、本発明によるシステムを使用することにより生成された漢字を使用するテキスト処理アプリケーションにオーバーラップすることができる。本発明は、サポートされている文字セットの任意の特定の漢字、抽象的なシンボルによって表された所定の字画区分、及び、漢字のコンポーネントをディスプレイ上に映し出すための手段を備える。
【００３５】
システムは、本発明の入力／フィードバックプロセスステップによって要求されるステップを迅速に実行する機能を提供する、プログラムされたデータプロセッサ及び記憶手段を備える。本発明は、個々の漢字の特性に関連したデータ、個々の漢字の複合語（すなわち、単語及び語句）の特性に関連したデータ、及び、漢字のコンポーネント部分に関連したデータを含む記憶手段に記憶されたデータを利用する。文字の特性には、（１）文字を書くために使用される字画の識別及び順序（字画は、選択された分類方式に従う）、（２）オペレータの言語に関する単語の最初の文字として文字が出現する頻度、（３）書き順における文字の正字法のコンポーネント、及び（４）例えば、単純化された漢字、伝統的な漢字、日本語文字、朝鮮文字、小学校教育用の単純化された漢字セット、対応する単純化形態を有する伝統的な文字、俗語文字あるいは任意の文字セットなどのすべての漢字の種々のサブセット内の文字のメンバーシップ（character's membership）の指標（インジケータ）、が含まれる。
【００３６】
漢字からなる単語の特性に関連するデータには、（１）ユーザの言語に関する単語の出現頻度、及び（２）例えば、従来の普通話の単語の組、地名の組、人名の組及び俗語の組などのすべての中国語の単語の種々のサブセット内の単語のメンバーシップ（worｄ'ｓ membership）の指標、が含まれる。
【００３７】
文字を任意の符号化システムによって内部的に符号化し、テーブルルックアップなどの従来のコード変換技法によって所望の外部コードに変換することができる。本発明の好適な実施態様では、サポートされる文字の全ての組は、「キャラクターテーブル（Character_Table）」の序数によって内部的に記憶され、テーブルルックアップによって種々の標準的な外部１６ビットコードのうちの任意の１つに変換される。
【００３８】
漢字入力用のモードが呼び出されると、システムは、図５に示すようにキーボードのキー部分を仮想的に表示する。これには、指が置かれるホーム行とその上の行が含まれる。これが、高速タイピングに最適な位置である。この最適な位置では、指によって実際のキーボード上のキー文字が覆い隠されるということに注意されたい。オペレータは、人差し指が置かれるキー上の突起によって適正な指の位置を確認する。これによって、キーの表面に取り付けた印刷文字が不要になる。
【００３９】
本発明に従うディスプレイ装置は、どの字画キーをそれぞれの指に割り当てるかについての指標を提供する。これらの割り当ては固定されているので、オペレータは、この固定された関係を習得し、また、意識して考えることなく字画のタイピングに習熟できるようになる。固定された字画の割り当ては、ディスプレイに現れるキーイメージのすみに表示される。タッチスクリーン装置の場合は、字画が表示され、字画イメージを押下することによって字画を入力することができる。代替的には、字画を入力するために用意されたボックスの中に字画を描写することによって字画を入力することができる。
【００４０】
オペレータは、１文字ずつ文字の字画をタイプする。各字画が入力されるにつれ、累積された字画が入力エリアに表示される。字画は、実際には、抽象化（抜粋）された区分の字画である。本発明の好適な実施態様では、図１Ｂに示すように、２９の基本字画のタイプが、８個の字画区分に配置されている。代替方式では、これより少数または多数の基本字画のタイプあるいは字画区分を使用することができる。
【００４１】
各字画が入力されるにつれ、文字候補の表示は、入力される字画の順序で始まる最も頻度の高い文字を表示するように変化する。所望の文字が現れると、オペレータは、その文字、すなわち、所望の文字のイメージを含んでいるディスプレイのキーボード上のキーを単に選択するだけである。オペレータは、習得した指と字画間の関係、及び、字画に関する隣接キーに対する所望の文字を有するキーの相対位置を用いることによって、キーボードを見ることなく、対応するキーをタイプすることができる。
【００４２】
ディスプレイは、キーイメージ内の文字イメージを彩色することによって直接選択することができる１組の文字候補を提供する。本発明の好適な実施態様では、これらは、ホーム行の上の行に提供される。オペレータは、対応するキーを単にタイプすることによってこれらの文字のうちの１つを選択することができる。目は、ディスプレイを見たままにしておくことができ、また、そうすることが最も望ましい。オペレータは、ホーム行に対するこれらのキーの相対位置によって案内される。１０個までの文字候補を表示することができる。本発明の好適な実施態様では、オペレータは、５〜１０の間で表示される文字の数、及び、例えば、左から右へ、右から左へ、あるいは、中央部から外側へと文字を表示する順序を設定することができる。最大数の候補について左から右への順番で表示する場合が、西洋人には見やすいであろうが、中央部から外側に向かうオプションは、中国人のオペレータは、文字の集団が小さい場合に文字をすばやく認識することができるので、より少数の候補について中央部から外側への順番を好むというこの発見を反映するものである。
【００４３】
好適な実施態様では、「モア（more）」キー４７は、図５に示すようにホーム行に設けられる。モアキーは、頻度が次に高い候補の組を表示させる。モアキーに対するディスプレイイメージには、入力された字画順で始まる文字グループのいくつが依然として利用可能であるかを示す一組の目盛り４９が含まれる。これにより、オペレータは、候補の数を制限するために追加の字画を入力するか、あるいは、代わりに、「モア」キーでそのグループを単にページをめくるようにして見るかを選択することができる。各々の目盛りの「きざみ」は、１グループの候補に対応する。
【００４４】
本発明の好適な実施態様には、さらに、あらゆる字画の代わりとなる「ワイルドカード」キー４６が含まれる。この特徴は、オペレータがシステムの特定の字画分類、あるいは、特定の字画のサブセットの正確な順番について知らないかまたはあいまいな場合に、非常に有効である。漢字を書く人は、通常、字画の構成について明確に理解しているので、２つの字画の代わりに１つの字画を用いることは（その逆の場合も同様に）めったにないであろう。
【００４５】
本発明の好適な実施態様の他の特徴は、文字の通常の頻度順に先行して「ラストチャンス（Last Chance）」文字を表示することである。ほとんどの場合、最も単純なコンポーネント、すなわち、少数の字画のみを有するコンポーネントが、もっともよく現れる。しかし、少数の字画からなる文字が、同じ字画順で始まる多くの他のより複雑な文字よりもまれにしか現れないいくつかの注目すべき例外がある。これは、サポートされている文字セットが、普通のテキストでは単独の文字としてはめったに使用されないコンポーネントを含む場合に特に当てはまる。この時点では、追加の字画を入力することはできない。なぜなら、所望の文字は追加の字画を何ら有さず、かつ、入力される任意の字画によって、所望の文字が候補文字として不適格なものになってしまうからである。これは、他の字画に先行して入力されたすべての字画に整合する文字を提示し、これによって、それらの文字をオペレータに対して常に示すようにする機能によって対処される。これらは、第１のグループの候補に、あるいは、所定のページ（すなわち、「モア」キーによって示される文字のグループ）から表示することができる。この時点で、オペレータは、この文字に対する全ての字画を入力したことを知り、その結果、文字を取得するために「モア」キーでページをめくらなければならないであろうことを知る。
【００４６】
本発明は、字画の組の代わりとして、及び、文字候補をより良好に識別するための手段としてのコンポーネントの斬新な使用を利用する。この特徴は、複雑、及び／または、たまにしか使用されない文字に対して特に有効である。コンポーネントの組は、特定のサポートされた漢字のコンポーネントの構成及びコンポーネントが書かれる順番に関してそれらの漢字の組における全ての漢字を解析することにより得られる。
【００４７】
図２に、本発明の好適な実施態様における文字選択用のイメージと字画の順番を示す。本明細書で独自に使用する正字法によるコンポーネントは、一般に知られている「部首（radical）」（前述）とは、いくつかの類似点はあるものの同一ではない。最初に書かれる文字のコンポーネントは、必ずしも最も重要なコンポーネントではなく、また、文字を字引き用に慣例的に分類するところの単一の部首に必ずしも関係してはいない。換言すれば、文字のコンポーネントへの分解及びコンポーネントのシーケンス（順番）は、文字が書かれる方法に基づいており、文字を完全な（あるいは印刷された）形態で現す方法には基づいていない。さらに、コンポーネントは、完全に正字法によるものであり、別様に表記される形態については異なる。例えば、「人」という部首は、仮想的な正方形の上部に書かれる場合と、側方に書かれる場合とでは異なる形状を有する。前者は、左側の傾斜した字画と小さな（右側の）傾斜した字画「人」からなり、後者は、左側の字画と下方に延びる字画「イ」からなる。これらは、２つの別々のコンポーネントとして識別される。
【００４８】
コンポーネント自体もまた構造を有することができる。すなわち、コンポーネントは、それ自体、他のサブコンポーネントから、または、１つ以上の追加の字画を有する他のコンポーネントから構成することができる。本明細書では、基本字画のみから構成されるコンポーネントを「単純コンポーネント（Simple Component）」と呼び、コンポーネント自体が他のサブコンポーネントから構成されるところのコンポーネントを「複合コンポーネント（Complex Component）」（または「複雑なコンポーネント」）と呼ぶ。図３に、他のサブコンポーネントから構成される複合コンポーネントの代表的な例を示す（これらは図２にも示されている）。
【００４９】
本発明によれば、次に表記されるコンポーネントの候補を表示する順番は、（以前の字画及びコンポーネントの選択が与えられたと仮定した場合に）すべての可能性のある文字（そのコンポーネントは、これらの文字に対して次に表記されるコンポーネントである）の累積頻度に基づいている。システムは、（以前の字画及びコンポーネントの選択に応じて）候補として適格である各文字からの各コンポーネントの頻度の和を累積することによってこの順番を決定する。現在の字画とコンポーネントのシーケンスを用いてすべての可能性のある文字で使用されるすべてのコンポーネントの累積頻度を計算することにより、システムは、所望の文字に導くことができる最も可能性の高いコンポーネントを提供することができる。これは、部首の固定配列を用いる従来技術に対して大きな利点である。
【００５０】
本発明の好適な実施態様では、コンポーネントの候補は、ホーム行のキーのイメージ内に表示される。コンポーネントの候補は、シフトキーの１つを押してからコンポーネントイメージに対応するキーを押すことによって入力される。「モア」キーが押されて、追加のコンポーネントの数が文字のイメージに類似した「モア」キーのイメージ内の目盛りによって示されると、追加のコンポーネントが表示される。また、例えば、シフトキーを押下した状態のときに、ホーム行内の文字候補とコンポーネントを表示するような他の仕組みを使用することも可能である。
【００５１】
ユーザがコンポーネントを選択するときは、入力エリアに以前入力された字画がもしあれば、それをコンポーネントで置き換える。今や、文字候補は、コンポーネントが、最初に表記されるコンポーネントであるか、または、もう１つのコンポーネント（選択されたコンポーネントが、このもう１つのコンポーネントの最初に表記されるコンポーネントであるところのもう１つのコンポーネント）であるところの文字のみとなる。コンポーネントを選択することによって、適合する候補の数は著しく減少する。これは、極めて多数の文字が最初のいくつかの字画については同じものを共有する一方で、異なるコンポーネントの数は、異なる字画の組み合わせの数よりはるかに多いからである。コンポーネントを選択した後に、１つまたは２つの字画を組み合わせることにより、文字を互いに効率よく識別することができる。例えば、３つの字画の場合には、数十のコンポーネントだけでなく、これらの３つの字画に適合する数百の文字が以前として存在する場合がある。しかし、コンポーネントを選択することによって、候補は、最初に書かれるコンポーネントを有するもののみに絞られる。この選択によって、他の字画を入力することにより得られるものよりずっと少ない候補のリストが得られる。さらに、最初に書かれるコンポーネントがたくさんの字画からなる文字も多い。字画のみを使用するだけでは、これらの文字は、そのコンポーネントの全ての字画が入力されるまでは、それ以上、他の文字と区別することはできない。コンポーネントを選択することにより、コンポーネントを構成する字画を用いて、（本来の順序で）コンポーネントのすべての字画を入力することなく文字を識別することが可能になる。これには、入力する必要のあるキーストロークの全体数を、特に、使用頻度がより少ない文字の場合に、著しく減らすという望ましい効果がある。
【００５２】
本発明の別の特徴は、複合したコンポーネントの性質、すなわち、あるコンポーネントが他のコンポーネントを含んでいるという事実に関連している。本発明の好適な実施態様では、オペレータがコンポーネントを選択すると、システムは、（もしあれば）選択されたコンポーネントを最初に書かれるコンポーネントとして組み込んでいるすべてのコンポーネントを決定する。これらは、予測される文字の次のコンポーネントであるコンポーネントの前に、色や他の指標によって区別して表示される。（コンポーネントを包含する）これらのより大きな「包含」コンポーネントを表示する順番は、このより大きな包含コンポーネントが最初に書かれるコンポーネントであるところの文字の累積頻度に基づく。
【００５３】
コンポーネントを選択した後、オペレータには、一般的に、（１）文字が現在表示されていれば、その文字を選択する、（２）最初に書かれるコンポーネントとしてより大きな包含コンポーネントを選択する、（３）文字の次のコンポーネントを選択する（前に選択されたコンポーネントが、実際に、所望の文字の最初のコンポーネントである場合）、あるいは、（４）次の字画を選択する、という選択肢がある。これらの選択肢には、さらに、（「モア」キー上の目盛りによって表示される）任意の区分における追加の候補に対するグループをページをめくって見るということがある。一般的な漢字のユーザは、このシステムを使用できるようになるためのガイダンスをほとんど必要としないことに留意すべきである。学者レベルの部首についての構造や分類に関する知識は必要でなく、また、部首それ自体に対する複雑なキーボードのマッピングや分類体系を学習する必要はない。ユーザには、文字を書く方法と、それらを書くときに一般的に繰り返される字画の配置について知っているということが必要とされるだけである。
【００５４】
オペレータは、システムと対話するので、所望の文字とその構成（特に、主要なコンポーネント部分が書かれる順番）についての知識があればプロセスが簡単になる。オペレータは、自身の頭の中でモデル化した所望の文字の構成に基づいてその文字に到達する最適な（すなわち、最速すなわち最も直接的な）方法を通常選択する。システムは、（コンポーネントの順に（各コンポーネントは、最初に書かれるより単純なコンポーネントからなっている場合もあり、また各コンポーネントは字画によって描かれる））文字が実際に書かれる方法を反映するので、システムは、全体としては、実際の文字の手書きと非常に良く整合する。
【００５５】
コンポーネントのエントリの後に字画が続くと、文字の候補、より大きな包含コンポーネント及び次に書かれるコンポーネントは、入力された字画によって制約されてくる。それぞれの字画が追加されると、各区分における候補の数は一般的に減少する。実際の操作では、所望の文字を頭で描いているオペレータは、ディスプレイに目を向けたままで、文字が現れるまで字画を追加したりコンポーネントを選択したりする。
【００５６】
本発明に従ってコンポーネントの特徴を使用することは、部首をベースとし、それらを取得するためにキーの割り当てを固定した従来の既知のシステムに対して有利である。本明細書では、「コンポーネント」とは、コンポーネントの形態の意味ではなく、コンポーネントの形態を書く方法に関連付けられた正字法によるコンポーネントを言う。それらは、固定された方法でアクセスされるようには配置されておらず、文字の字画のタイピングを始めた結果として、有用な順番で「表示される」。本発明が提供するコンポーネントの使用によりもたらされうる効率から利益をうけるために、何かを学習し、あるいは、覚えなければならないということはない。
【００５７】
ユーザが文字を入力すると、文字は、通常は少なくとも２つの文字から構成されるところの中国語の単語が完全に構成されるまでキャラクターバッファの中に保持される。ほとんどの文字がそれ自体単語であるが、現代の中国語の単語の大多数は、２つ以上の文字から構成される。本発明では、文字が入力されると、文字の候補は、２つの組で表示される。最初の組は、任意のサイズの辞書において、単語の次の文字である限定された文字のサブセットに基づいている。本発明の好適な実施態様では、この辞書は、およそ８０，０００の、複数文字からなる単語、語句、イディオム、及び固有名詞を含む。次の文字に対する字画またはコンポーネントが入力されると、このリストは急速に狭まる。第２の組の候補は、前の文字がない場合に生じる候補と同じである。
【００５８】
本発明の１つの態様では、単語に関連する候補の組は赤で表示され（図５の矢印５４）、黒で表示される関連しない候補（図５の矢印５３）と区別される。色によって区別されない場合は、単語に関連する文字候補は、関連しない候補の前に単に位置する。多くの場合、単語に関連する候補は１ページを超える。そこで、前述したように「モア」キーを使用して、次の候補の組を表示させる。「モア」キーにおける目盛り（図５の矢印４９）もまた、単語に関連する候補と単語に関連しない候補のページがあとどれだけあるかをユーザに即座に示すように、赤と黒で彩色されている。字画またはコンポーネントの選択が入力されると、単語に関連する候補と単語に関連しない候補のリストの両方が狭まる。可能性のある単語の数は、全文字数の小さな部分を占めるだけであるから、このリストは、それぞれの後続する字画またはコンポーネントにより急速に狭まる。
【００５９】
（図５の矢印５４で指示する赤色で表示された）単語に関連する候補を選択することにより、その候補が現在の単語の（もしあれば）次の文字として入力される。（図５の矢印５３で指示する黒色で表示された）単語に関連しない候補を選択すると、暫定的に新たな単語から開始する。これが暫定的であるのは、本発明の好適な実施態様では、オペレータは、辞書に対して新たな単語を定義するというオプションを有するからである。辞書が非常に大きなものになるかもしれないが、新しい単語を、通常の辞書にない固有名詞や技術用語とすることができる。ユーザが特別に新しい単語の入力を指示しない場合は、単語に関連する候補は、たった今入力した文字に関連したものになる。
【００６０】
本発明のさらなる特徴は、漢字の間にスペースをタイプする必要をなくすことである。オペレータは、現在の単語の終わりを明示するためにスペースをタイプして、これまでのすべての単語を（単語分離用の（単語セパレータ）文字と一緒に）アプリケーションに送るのが常である。しかし、ユーザがスペースをタイプすることは不要である。システムは、メモリ内に単語をバッファリングし、赤色（または、メモリ内にバッファリングされた単語の色と異なる色）で現在の単語を表示する。（例えば、黒で表示される）単語に関連しない文字を選択すると、これまでの単語を終了する。キャラクターバッファが満杯になると、あるいは、アプリケーションに対して現在の単語の完了を信号で合図し、これまでの全ての単語を順に送信するスペースバーのタイピングによってオペレータが明示的に要求すると、全単語が、背後にあるアプリケーションに送られる。
【００６１】
本発明の他の特徴は、選択された字画とコンポーネントだけでなく、標準中国語または広東語の発音に基づいても候補を表示することができるということである。この特徴により、オペレータは、字画の代わりにローマ字やBoPoMoFo文字を入力することができる。キーボードに印刷される活字ケースのないローマ字が、中華人民共和国で使われるピンイン方式で書くために使用される。台湾で使用される多くのキーボードに一般的に印刷されているBoPoMoFo文字は、台湾語の表音方式の発音を書くために使用される。control-shiftまたはalt-shiftを印刷されたローマ字またはBoPoMoFo文字を含むキーと組み合わせて使用することにより、これらの「文字」を入力することができる。同じ目的で他のキーを使用することは、十分に当業者の技術レベル範囲内のことである。かくして、ローマ字またはBoPoMoFo文字は、入力エリアに入力されて、文字候補を、それの標準的な発音がその音で始まる候補に限定するために使用される。この特徴により、字画の分類または順序に不確定性が存在するところの所望の文字に到達するための、さらに他の方法が提供される。コンポーネントの選択肢を可能性のある候補の頻度に基づいて表示するという方法をとったために、単一文字のエントリにより、多くの場合に、関連するコンポーネントを生成し、字画を全く不要にすることさえ可能となる。最初の表音文字に、めったに混同することがない所望の文字の最初の字画を付加することにより、ほとんどの場合において、文字それ自体ではないにしても、有意義なコンポーネントが確実に表示されることになる。以下に、図面を参照しつつ本発明を詳細に説明する。
「本発明の詳細な説明」
図４は、本発明と共に使用される装置の必須の部分を示すブロック図である。基本となる装置は、キーボードまたは接触感応型とすることができる入力手段１０、透明なx-yオーバーレイ型ディスプレイ、メモリ手段３０に記憶されたプログラム命令を実行する従来のCPUから構成することが可能なプロセッサ手段２０（メモリ３０は、本発明によって利用され、中間計算で使用されるデータを保持するCPU２０にアクセス可能である）、CRTや液晶ディスプレイなどのすべてのポイントアドレス指定可能なディスプレイからなる従来のディスプレイ手段４０、及び、オペレータにエラー状況を警告するためのスピーカのようなオプションの発音型警告手段５０とから構成される。特定の手段に対して種々の変更手段があることは当業者には既知のことであり、本発明の範囲から逸脱することなく、それらの変更手段と交換することが可能である。
【００６２】
CPU２０及びメモリ３０は、本発明によって要求される詳細な処理ステップを実行する記憶プログラムを実行するための手段を提供する。メモリ３０は、また、本発明によって要求される中間データを保持する。好適な実施態様では、情報は、図５及び図６に示すような１つ以上のオーバーラップしたウィンドウを用いることによってオペレータに提示される。これらのウィンドウは、例えば、従来の文書作成プログラムのような背後に存在するアプリケーションの上部に表示される。
【００６３】
これらのディスプレイエリアは、図５に示す仮想的なキーボードエリア４１を含んでおり、そのレイアウトは、キーボード手段上のレイアウトと一致している。エレメントバッファエリア５２は、前にオペレータによって入力された字画及び／またはコンポーネントのシーケンスの表示用に提供され、キャラクターバッファエリア４４は、オペレータによって前に選択された文字の表示用に提供される。例えば、別々のウィンドウを有するレイアウト、あるいは、文字、字画及びコンポーネントが背後に存在するアプリケーション内の適切な位置に表示されるレイアウトのような、代わりのレイアウトを使用することもできる。
【００６４】
仮想的な映像化されたキーボードは、指をディスプレイに位置合わせするためのガイドとして機能する従来のキーボードのホーム行上の突起に対応するインジケータ４８を含む。これによって、実際のキーボードを見る必要がなくなる。実際のキーボード上に刻印された小さなローマ字に対応するそれらの文字を指示することも任意選択的に可能である。
【００６５】
ホーム行のキーは、１つのキーに１つの字画で８つのホームキーに割り当てられた、抽象化された（抜粋された）字画区分の小さな表現５１を含む。好適な実施態様では、４つの中央部のキーは、非常になじみのある、そして最も頻繁に現れる「一部（over）」、「上から下への線部（down）」、「ノ部（left）」、及び「てん部（dot）」の区分に割り当てられる。残りのキー及び指は、他の４つの字画区分である、「一部と上から下への線部を組み合わせたもの（over-down）」、「上から下への線部と一部を組み合わせもの（down-over）」、「一部と上から下への線部及び一部とを組み合わせたもの（over-down-over）」、「曲がった鉤形部（curved-hook）」に割り当てられる。オペレータが、繰り返し使用して、字画順を素早くタイプすることができるように、キーストロークと指との間には一対一の対応関係がある。これには、１つの字画、及びより一般的な２つまたは３つの字画順（字画列）の両方が含まれる。
【００６６】
ホーム行のキーには、コンポーネント４３の表現も含まれている。表示されるコンポーネントの組は、以前に入力された字画、及び／または、以下で説明するステップに従って決定されるコンポーネントの関数である。典型的な実施態様では、単純なコンポーネントは青色５５で表示され、複雑なコンポーネント（複合コンポーネント）は緑色５６で表示される。色の選択は、色が互いに識別可能でありさえすれば問題ではない。
【００６７】
オペレータは、字画に対応するキーをタイプすることにより字画を入力する。タッチスクリーン入力手段で操作する場合は、字画は、字画を表示しているディスプレイのエリアを押すことにより、または、入力用に設けられたボックス内で字画を書くことにより、入力される。
【００６８】
オペレータは、２つのシフトキーのうちの少なくとも１つを操作して、次に、コンポーネントイメージを有するキーをタイプすることによりコンポーネントを入力する。タッチスクリーン入力手段で操作する場合は、コンポーネントは、コンポーネントを表示しているディスプレイのエリアを押すことによって入力される。
【００６９】
好適な実施態様では、ホーム行には、疑問符（？）でラベル表示された図５の「ワイルドカード」キー４６として指定されたキーも含まれる。このキーは、任意の字画に対するプレースホールダーとして機能し、８つの字画区分のいずれにも一致するものとみなされる「ワイルドカード」を入力する。
【００７０】
図５における上側の行のキー４２の表示エリアには、以前入力された字画順、及び／または、コンポーネントに一致する、最も頻度の高い漢字の候補が表示される。文字は、この表示された文字に対応するキーをキーをタイプすることによって選択される。これは、このホーム行との視覚関係を通じてオペレータによってなされる。例えば、所望の文字が第１番目のキー上に現れた場合は、オペレータは、このキーが、左手の小指を置いているホームキーの左上部にあるということを即座に知ることが出来る。この視覚表示により、目を画面から移さなくてすむようになる。タッチスクリーン入力手段で操作する場合は、文字は、それが表示されているエリアを単に押すだけで選択される。
【００７１】
以前入力された任意の文字に複合語または語句の一部として関連付けられる文字候補が赤色５４で表示され、すべての関連付けられる候補を最初に表示して、そのようには関連付けられない文字候補が黒５３で表示される。
【００７２】
本発明の好適な実施態様では、１つのホーム行のキーは、図５の「モア」キー４７として指定される。このキーを選択すると、次の候補のグループが表示される。このキーの表示には、以前入力された文字、字画、及び／または、コンポーネントに合致する最大数のうち、いくつの文字及びコンポーネントのグループがまだあるかを示す１組の目盛り４９が含まれる。これらの目盛りは色付けされて、単語に関連する文字（例えば赤色の５４）、または、関連しない文字候補（黒色の５３）のみを含む文字候補のグループ数を示す。同様に、複合コンポーネント（緑色の５６）、及び単純なコンポーネント（青色の５５）のみを有するグループ数が示される。
【００７３】
本発明に関連するプログラムによって使用されるデータ構造に関しては、この記述は、種々のデータ要素を数値の記憶位置として参照する。これらの数値データ要素に対する実際の記憶は、通常、特定のCPUによる操作に都合が良い２進データとして編成されることが理解されよう。
【００７４】
図８のキャラクターテーブル（８．１）は、１文字に１つの、多数のエントリを含むデータ構造である。本発明の特定の実施態様によってサポートされる文字数は、特定の適用分野に依存し、一般的に数千から２万以上の範囲にわたる。いくつかの場合では、１つの文字が、その文字についていくつかの異なる字画順があるような場合をサポートするために、１つ以上の複製エントリを有することもできる。
【００７５】
キャラクターテーブルは、通常のテキストにおける数値で表した文字の頻度（数値頻度）に基づいて配列される。この数値頻度も、文字エントリの一部として記憶される。本発明の好適な実施態様では、文字頻度は、オペレータによる文字の実際の使用頻度の結果として変更されうる。かかる場合には、頻度によるテーブルの（順番の）配列が、常に維持される。この頻度は相対的な頻度あるいは順番ではなく、Ｎ（変数）個の単語につき、１つの単語の最初の文字としての文字の出現回数のカウント値のような絶対頻度であるということに留意されたい。
【００７６】
各キャラクターテーブルエントリには、以下のデータが含まれる。第１に、字画の順番が示される（図８の８．２）。好適な実施態様では、各字画区分は、１と８（１と８を含む）の間の任意の数値を割り当てられる。数値０は、字画順の終わりとして作用する。記憶する必要がある字画の最大数は、一般的に、最大長の文字の３６字画よりずっと少ない。ある最大数のグループの１つとして文字を識別するために必要な数の字画だけが必要とされる。好適な実施態様では、最大２４の字画が使用される。
【００７７】
第２に、文字の最初の２つのコンポーネントが符号化される（図８の８．３）。各コンポーネントは、任意の数値コードを割り当てられる。好適な実施態様では、1,000のコンポーネントがある。文字を非常に小さな文字のグループに分類するために、最初に書かれる最大のコンポーネント及び２番目に書かれるコンポーネント以外を符号化する必要はないということがわかった。
【００７８】
第３に、キャラクターテーブルには、文字の頻度（図８の８．４）と共に、例えば、１つ以上のコードセットにおける文字のコード値、及び、１つ以上の文字のサブセット間の文字のメンバーシップ（membership）のような文字の特性に関する任意ではあるが有用な情報（８．５）が含まれる。それには、字画及びコンポーネントに加えて文字（letter）が許容される場合に使用される文字の音の符号化表現（８．６）がオプションとして含まれる。
【００７９】
第４に、キャラクターテーブルは、文字で構成することができる単語を記憶する単語テーブル（８．１１）内のエントリへのポインタ（８．７）を含む。単語テーブルについては後述する。
【００８０】
次の主要なデータ構造は、各コンポーネントに対するエントリを含むコンポーネントテーブル（図８の８．８：Componet Table）である。各エントリは、コンポーネントの字画順（８．９）、及び、もしあれば、そのコンポーネントの最初に書かれるコンポーネント（８．１０）を含む。１つのコンポーネントだけが許容される。しかし、そのコンポーネントは、それ自体が他のコンポーネントから構成されている場合があり、反復的に、当該他のコンポーネントも、他のコンポーネントから構成されている場合がある。
【００８１】
３番目の主要なデータ構造は、単語テーブル（８．１１：Word Table）である。好適な実施態様では、単語テーブルは、（少なくとも２つの文字を有する）数十万の合成語及び語句を許容する。およそ80,000の単語が、通常の使用における中国語の単語の大部分を構成することがわかっている。単語テーブルは、記憶空間を節約するために単語の最初の文字を削除した、単語のリストである。単語の最初の文字は、単語テーブルがその文字で始まるすべての単語を示すキャラクターテーブルを介してアクセスされる際にほのめかされる。単語の１つ以上の追加の文字には、単語の頻度（８．１２）を任意選択的に符号化する非文字コードが後続する。単語の終わりは、キャラクターテーブル内の次のエントリによって指示される次の文字としての単語の始まりによって示すことができる、これによっても、必要とされる記憶量が低減される。
【００８２】
図７は、ユーザからの入力に対するシステムの応答を示す高レベルの流れ図である。前述した主要なデータ構造に加えて、プログラムは、（もしあれば）ユーザによって以前入力された現在の単語の文字を含む「キャラクターバッファ」、（もしあれば）コンポーネント及び（もしあれば）後続する字画を含む「エレメントバッファ」を参照する。これらの２つとも、プログラムが初期化されたときは空である。
【００８３】
記憶プログラムの動作からみれば、ユーザからの入力は、入力手段がキーボードであろうと、タッチスクリーンによる選択であろうと、あるいは、他の似たような入力手段であろうと、概念的には同じである。いずれの場合も、オペレータは、文字の選択、コンポーネントの選択、字画の選択（ワイルドカードによる擬似的な字画を含む）、「モア」要求、「スペース」あるいは「バックスペース」を提供する。図７の流れ図は、これらのそれぞれの場合についてのステップを示している。
【００８４】
字画の選択の場合は、字画がエレメントバッファに追加され、候補が取得され、ディスプレイが更新される。候補を取得する詳細なステップについては、後述する。一般的な場合には、候補は、単語に関連する文字候補、単語に関連しない文字候補、複合コンポーネント、および単純なコンポーネントの所定の最大数まで存在しうる。単語に関連する候補は、前の文字がバッファリングされていなければ、提示されない。複合コンポーネントの候補は、以前選択されたコンポーネントがない場合には提示されない。
【００８５】
「モア」要求によって、プログラムは、次の候補のグループを表示する。コンポーネントの選択を行うと、プログラムは、複合コンポーネントが選択されているかどうかを最初に決定する。選択されている場合には、以前のコンポーネント（単数／複数）は、選択されたコンポーネントで置き換えられ、すべての後続する字画がエレメントバッファから削除される。コンポーネントが単純なコンポーネントの場合は、すべての字画（コンポーネントではない）が、エレメントバッファの最後の方から削除され、選択されたコンポーネントが追加される。次に、新しい候補が取得され、ディスプレイエリアが更新される。この処理の結果として、エレメントバッファは、字画が後に続く先頭のコンポーネント（それが選択されていれば）を含むことができるだけであるということに注意されたい。字画は、コンポーネントが入力されるときには常に削除されるので、コンポーネントは字画の後に続くことはできない。
【００８６】
「文字の選択」がなされると、プログラムは、「単語に関連する」文字（典型的な実施態様では赤色で表示される）と関連しない文字のいずれが選択されるかを最初に決定する。単語に関連する文字が選択されると、それは、キャラクターバッファに付加される。単語に関連しない文字が選択されると、単語セパレータが、キャラクターバッファに付加され、後に選択された文字が続く。いずれの場合にも、エレメントバッファはクリアされ、候補が取得され、ディスプレイエリアが更新される。
【００８７】
この処理の結果、キャラクターバッファは、セパレータ用文字によって分離された単語列を含むことができるということに注意されたい。これは、本発明の特徴であり、これによって、中国語の単語を適切に識別して、連続した単一の関連しない文字としてではなく、中国語の単語のレベルにおいてより高レベルの処理が可能となる。文字及び単語が連続してバッファに集められると、プログラムは、バッファの始めの部分からアプリケーションに全単語を送る。背後にあるアプリケーションがセパレータ用文字を扱うことができるかどうかに依存して、単語セパレータと共に、あるいは、それを伴わずに、文字を送るようにプログラムを構成することができる。これによって、スペースバーあるいは同等な機構によって各単語を明示的に分離する必要がなくなる。
【００８８】
「スペース」の選択は、現在の単語の明確な終わりを知らせるために使用される。ほとんどの場合に、文字は単語であり、また、複合語の最初の文字でありうる。スペースは、文字が実際に単独で単語として意図されているということを知らせるものであり、その文字で始まる非常に多くの単語及び語句がある場合に特に有効である。字画及びコンポーネントの通常のタイピングにより、単語として関連付けられる文字のすべてではないにしてもほとんどの文字が除去され、また、所望の関連しない文字が明らかにされるので、通常、スペースの使用はオペレータの選択事項である。色または他のディスプレイの識別機能を使用することにより、選択が、単語（赤色）を継続するものあるのか、あるいは、新しい単語（黒色）を開始するものであるのかについて、より明確に識別することができるようになる。
【００８９】
バックスペースキーは、字画、文字、またはコンポーネントを適切なバッファから除去することにより、本質的に、以前のキーを取り消す。更新されたバッファを反映する候補が、次に取得され、ディスプレイエリアが更新される。以前の操作が次の候補のグループを表示させる「モア」キーであった場合には、以前のグループは新たな候補を取得する必要なく復元される。
【００９０】
候補を取得するプロセスについては上述した。このプロセスは本発明の動作の中核をなすものであるので、図１０を参照してさらに説明する。上述したように、記憶プログラムとそのデータの初期処理の結果、（１）もしあれば、現在の単語の文字、（２）以前に選択されたコンポーネント及び字画、さらに、任意選択的に、ローマ字またはBoPoMoFo文字を含むエレメントバッファ、（３）モアキーによって送られた現在表示されている候補のグループ、から構成される状態になる。候補の取得は、常にこの状態にある。
【００９１】
プロセスの最初のステップ（図１０の１０．１）は、コンポーネント出現頻度テーブル（図８の８．１３：Component Frequency Table）、及び複合コンポーネント発生頻度テーブル（図８の８．１４：Complex Component Frequency Table）と呼ばれる一時的なデータ構造をクリアすることである。これらは、それぞれ、Ｎ個のエントリのテーブルであり、Ｎはコンポーネントコードの数である。すべてのエントリは０（ゼロ）に初期化される。
【００９２】
プロセスの次のステップ（図１０の１０．２）は、エレメントバッファの任意のコンポーネントを字画に展開することである。これは、エレメントバッファをについて１ステップずつ実行し、エレメント（構成要素）がコンポーネントである場合には、字画順についてコンポーネントテーブルを調べ、それを「字画一致」バッファ（図８の８．１５：Stroke Match Buffer）にコピーすることによってなされる。エレメントバッファ内の字画に出くわすと、その字画は、「字画一致」バッファにコピーされる。文字（letter）に出くわすと、その文字（letter）は、「文字バッファ」（図８の８．１６：Letter Buffer）にコピーされる。このプロセスの終わりの時点で、「字画一致」バッファには、所望の文字に対する字画順が含まれており、「文字バッファ」には、文字の音に対応する文字（letter）を含めることができる。変更されないエレメントバッファの第１及び第２のエレメントには、コンポーネントが以前選択された場合には、コンポーネントに対するコードを含めることができる。
【００９３】
プロセスの次のステップ（図１０の１０．３）は、キャラクターテーブル（図８の８．１：Character_Table）について１ステップずつ実行して、文字が一致するかどうかを決定することである。このキャラクターテーブルは、最初のエントリが最大の頻度であるような頻度順で配列されていることに注意されたい。以下のすべての条件が真であれば、文字は一致する、すなわち、その候補であるとみなされる。すなわち、第１に、「字画一致」バッファのすべての字画が、対応する可能性のある候補の字画と一致しなければならない。しかし、この比較では、ワイルドカードは、すべての字画に一致する。第２に、エレメントバッファの最初の位置はコンポーネントに対するコードであり、可能性のある候補の最初のコンポーネントは、このコンポーネントに一致しなければならない。第３に、エレメントバッファの２番目の位置は、コンポーネントに対するコードであり、可能性のある候補の２番目のコンポーネントは、このコンポーネントに一致しなければならない。そして、第４に、文字バッファが、文字（character）の音に対する文字（letter）を含んでいる場合は、文字（letter）は、コンポーネントの符号化された音に合致しなければならない。これらの条件が満たされる場合において、コンポーネントは、それが同一、すなわち、同じコードであるときに一致するものとみなされる。それは、また、文字のコンポーネントが、最初に書かれるコンポーネントとしてこのコンポーネントを含む複合コンポーネントであるときに一致するものとみなされる。コンポーネントは、オプションのコンポーネント及び追加の字画からなる。コンポーネントが、コンポーネントを含んでいる場合に、そのコンポーネントもまた、コンポーネントを含んでいる場合がある。これは、コンポーネントがコンポーネントを含んでいない、すなわち、それが、１つのみの字画からなる単純なコンポーネントであるところまで繰り返される。一致は、この繰り返しを続行して、コンポーネントが字画のみを含むことによりコンポーネントが一致しないようになるまで、コンポーネントが一致するかどうかをチェックすることによって判定される。
【００９４】
文字が一致しない場合は、プロセスは、次のキャラクターテーブルエントリに進む。文字が正確な数の字画について厳密に一致する場合は、その文字は、「厳密一致（exact match）」リストにコピーされる。文字が厳密には一致しない場合、すなわち、その文字に対してさらに字画がある場合は、文字のコードが候補のリストにコピーされる。厳密な一致は、別々に累積される。なぜなら、それらは、候補のリストに最初に表示されることになるからである。
【００９５】
さらに、厳密でない一致の場合は、文字の頻度は、文字の「次の」コンポーネントに基づいて累積される。それぞれの文字が１番目及び２番目のコンポーネントを有していることを思い起こされたい。エレメントバッファに正確に１つのコンポーネントがある場合は、「次の」コンポーネントは、文字の２番目のコンポーネントである。エレメントバッファに、コンポーネントがない場合は、「次の」コンポーネントは、文字の最初のコンポーネントである。コンポーネントの頻度は、コンポーネントの累積頻度の以前の値にそれを加えることによって累積される。さらに、文字の頻度は、そのコンポーネントのコンポーネントであるすべてのコンポーネントについて累積される。一致するすべての文字についてこの累積を実行することによって、累積頻度の値は、文字の出現頻度によって重み付けされたすべての一致する文字における各コンポーネントの出現頻度を反映することになる。あとで、これらの累積頻度によってコンポーネントを並べ替えることにより、文字に導く可能性のある順にコンポーネントを提示することができる。累積頻度が０（ゼロ）のコンポーネントは、どの一致する文字においても次に出現することはないということに注意されたい。従って、それらのコンポーネントは所望の文字に導くことはないので、それらを提示する必要はない。組内の全ての文字が一致する文字である場合（字画がまだ入力されていないために）は、提示されるコンポーネントもまた、文字に導く可能性のある順に提示されるということに注意されたい。文字の頻度は、例えば、オペレータによって使用される文字の頻度に対して調整されるので、コンポーネントが提示される順番は、それらの新しい文字の頻度を自動的に反映する。
【００９６】
次のコンポーネントについてコンポーネントの頻度を累積することに加えて、エレメントバッファが単一のコンポーネントを有しているときに、「より複雑な」最初のコンポーネントの頻度が累積される。これは、文字のコンポーネントが、エレメントバッファ内の最初のコンポーネントに正確には一致しないときにのみなされる。文字は一致しているので、エレメントバッファ内のコンポーネントに一致しないコンポーネントからなる文字のコンポーネントと任意の他のコンポーネントは、より複雑なコンポーネント（複合コンポーネント）を表す。それらの頻度を累積することにより、それらのより複雑なコンポーネントをオペレータに提示すことができる。この累積は、「複合コンポーネント頻度」テーブルに対してなされる。
【００９７】
キャラクターテーブル全体について完了すると、（１）厳密な一致を含む厳密一致リスト、（２）頻度順に並べられた残りの一致、（３）関連するコンポーネントについて非ゼロの値を有する次のコンポーネントの頻度テーブル、及び（４）任意の関連するより複雑なコンポーネントについて非ゼロの値を有する「より複雑な」コンポーネントの頻度テーブル、が存在することになる。コンポーネント頻度テーブルは、それぞれがさらに処理されて、コンポーネントコードのコンポーネント頻度値の順序付きリストが生成される。次に、この頻度値は、頻度に基づいて並べ替えられる。次に、コンポーネントコードが、コンポーネントの頻度順付きリストと、より複雑なコンポーネントの頻度順付きリストを作成するためにコピーされる。
【００９８】
プロセスの次のステップ（図１０の１０．４）は、単語に関連した任意の候補を生成することである。このステップは、キャラクターバッファが、現在の単語に対して以前に入力された文字を含んでいる場合にのみ実行される。このプロセスは、単語の最初の文字から始まる。最初に、キャラクターテーブル内で文字を捜してその文字単語へのポインタの位置を特定する。次に、プロセスは、これらの単語のそれぞれについて１ステップずつ実行する。各単語に対して、単語内の後続する各文字が、現在の単語の任意の追加の文字に一致するかどうかを最初にチェックする。一致しない場合は、プロセスは次の単語に移動する。
【００９９】
辞書の単語の次の文字は、その文字についての字画テーブルをアクセスするために使用される。次に、その文字が、字画、コンポーネント及び文字（letter）と一致するかどうか確かめるために、一致（検査）が実行される。この一致（検査）は、上述したものと同一のものである。単語が一致する場合は、その文字は、単語に関連する候補のリストに付加される。しかし、単語に付加する前に、文字がまだリスト内にないことを確認するためにチェックがなされ、リスト内にあれば、付加されない。プロセスが、各単語について１ステップずつ実行されたとき、結果として作成されるリストは、単語に関連する候補のリストである。
【０１００】
ディスプレイ（表示）プロセス（図１０の１０．５）は、文字及びコンポーネントの候補を更新する。ディスプレイは一度に表示することができるよりも多くの候補をしばしば有する。それらは、モアキーが処理された回数に依存して表示される。カウンタは、どのグループが表示されることになるかを常に把握している。
【０１０１】
表示順番は、最初が、単語に関連する候補（例えば赤色）で、次が、厳密に一致した候補であり、最後が、文字候補である。コンポーネントの表示については、その順番は、最初が、例えば緑色で彩色されたより複雑なコンポーネント、次が、青色で彩色された次のコンポーネントである。
【０１０２】
本発明を上述した実施態様について説明したが、上記開示内容から、変形態様を含む、他の修正、使用、または、適用を本発明について実施することができ、それが当該技術分野における慣用技術レベルであることは明らかである。そのようなすべての修正、使用、適用、または変形態様は、本発明の思想及び範囲、及び、特許請求の範囲内のものとみなされる。
【図面の簡単な説明】
【図１Ａ】２９の基本タイプ、８つの字画区分及び５つの字画区分に分類される表記用文字に使用される基本的な単一の字画形態を別々に示す。尚、図１Ａから図１Ｃまでは、本発明に従う字画及び字画分類を示す。
【図１Ｂ】２９の基本タイプを細分して８つの字画区分に対応させた表である。
【図１Ｃ】２９の基本タイプをさらに細分して５つの字画区分に対応させた表である。
【図２】漢字の構成例を示す表であり、矢印２．１は、複数の構成要素からなる漢字を指示し、矢印２．２は、対応する漢字を構成する単純なコンポーネントを指示し、矢印２．３は、対応する字画順を指示している。
【図３】それぞれが、対応するサブコンポーネント（矢印３．２で示す）から構成される複合コンポーネントの例（矢印３．１で示す）を示す。
【図４】本発明の少なくとも１つの態様と共に使用される装置の不可欠な部分を示すブロック図である。
【図５】例えば図４のディスプレイ４０についての表示レイアウトの例を示す。図示のディスプレイの実施態様は、入力装置として両手用キーボードを使用してオペレータに情報を提示する。
【図６】入力手段としてタッチスクリーンを使用してオペレータに情報を提示するための種々のエリアを有するディスプレイを示す。
【図７】本発明に関連する記憶プログラムを高レベルのステップで表したフローチャートである。このフローチャートは、オペレータによる文字、コンポーネントまたは特殊キーの入力選択に応答して実行される。
【図８】本発明に関連する記憶プログラムによって参照される主要なデータ構造を表したものである。
【図９】１ステップ毎に連続的にディスプレイに表示される、ある中国語の単語が構成される様子を示したものである。
【図１０】本発明に従って中国語の単語を構成するための文字候補を取得することに関連したプログラムステップのフローチャートである。

Claims

オペレータにより漢字を機械に入力するための方法であって、
（ａ）表示されたコンポーネント、字画、およびワイルドカードのうちの１つを選ぶことにより、選択を入力するステップと、
（ｂ）前記選択の結果生成された、候補文字のリスト、及び、候補コンポーネントのリストを表示するステップと、
（ｃ）表示された文字を選択するか、あるいは、所望の文字が表示されていなければ、所望のコンポーネントを選択し、及び／又は追加の選択を入力するステップであって、前記追加の選択が表示されたコンポーネント、字画、及びワイルドカードのうちの１つを含むことからなる、ステップと、
（ｄ）単語に関連する文字または単語に関連しない文字を選択し、該選択により、漢字を含むテキストが構成されるようにするステップとからなり、
前記ステップ（ｂ）は、
（ｂ１）前記ステップ（ａ）における選択入力を字画に展開するステップと、
（ｂ２）展開された字画列に一致する字画列を有する候補文字を検索し、表示するステップと、
（ｂ３）展開された字画列に一致する字画列を有する候補コンポーネントを検索し、表示するステップと
からなり、
前記ステップ（ｄ）は、
（ｄ１）選択された文字が単語に関連する文字であるか、それとも単語に関連しない文字であるかを判定するステップと、
（ｄ２）前記選択された文字が単語に関連する文字である場合、表示されたテキストの後ろに単語セパレータを付加し、該単語セパレータの後ろに前記選択された文字を表示するステップと、
（ｄ３）前記選択された文字が単語に関連しない文字である場合、表示されたテキストの後ろに前記選択された文字を表示するステップと
からなる、方法。
前記単語に関連しない文字の選択により、単語セパレータが自動的に付加される、請求項１の方法。
前記機械が、
情報を入力するための手段であって、字画、コンポーネント、及び文字を入力するための手段をさらに含む、入力手段と、
漢字及び複合語の特性に関連したデータを記憶するための記憶手段であって、前記複合語は複数の文字をまとめて列にしたものであり、各文字の特性が、その特定の文字に対応して割り当てられた数値コードと、漢字の種類を識別する指標と、その文字の音声表現とを含む、記憶手段と、
前記入力情報を前記漢字用の内部コードに変換するための処理手段であって、記憶された前記データに基づく少なくとも１つの漢字符号化プロセスを含む、処理手段と、
前記入力手段および前記記憶手段と通信関係になるよう接続され、いずれの候補を前記記憶手段から記憶データとして取得するかをオペレータが検討するためのコンポーネント候補および文字候補を含む文字選択情報を、前記処理手段による指示に従って、前記入力の際に入力された字画列で書き始まる最も出現頻度の高いコンポーネントまたは文字として表示し、さらなる入力に応じてさらに文字選択情報を表示する、表示手段と、
を含む、請求項１の方法。
前記入力手段が、キーボード、または、タッチスクリーンであり、該タッチスクリーンが、前記表示手段に組み込まれ、仮想的なキーボードを含む、請求項３の方法。
前記データの記憶手段が、前記漢字を書くために使用される字画である漢字のコンポーネント部分に関連するデータを記憶し、該データが、（１）前記文字を書くために使用される字画及び字画の順番、（２）オペレータの言語に関して前記文字が単語の最初の文字として出現する頻度、（３）書く順番で並べられた前記文字の正字法によるコンポーネント、及び（４）漢字の種類のうちの少なくとも１つを含み、前記字画が選択された分類方式に従う、請求項３の方法。
前記データの記憶手段が、中国語の単語のコンポーネント部分に関連するデータを記憶し、該データが、（１）ユーザの言語に関する前記単語の出現頻度と、（２）中国語の単語の種類の指標とのうちの少なくとも一方を含む、請求項３の方法。
前記コンポーネントが、正字法によるものである、請求項３の方法。
前記コンポーネントが、基本字画、および複数のサブコンポーネントからなる、請求項７の方法。
コンポーネント候補の表示順番がすべての可能性のある漢字の累積頻度に基づき、次に表示される候補の表示順番が以前の選択に基づく、請求項３の方法。
文字の頻度が特定のオペレータによる文字の実際の使用頻度の結果に従って変更される、請求項９の方法。