JP3277123B2

JP3277123B2 - 中国語テキストを処理するためのシステムおよび方法

Info

Publication number: JP3277123B2
Application number: JP17390296A
Authority: JP
Inventors: チェンジュン・ジュリアン・チェン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-08-16
Filing date: 1996-07-03
Publication date: 2002-04-22
Anticipated expiration: 2016-07-03
Also published as: JPH09128383A; SG87039A1; KR100259407B1; CN1191514C; US5893133A; CN1143769A; SG55208A1; US6073146A; KR970012111A; TW411421B

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は中国語のテキスト、
特に音声による中国語のテキストおよび漢字を処理する
ためコンピュータを使用する改良されたシステムおよび
方法に関する。

【０００２】

【従来の技術】コンピュータで中国語のテキストを入れ
（入力し）処理する事は非常に困難な問題である。中国
語文字のシェア数はこの困難を示している。中国語の漢
字表記システムでは、３０００から６０００の漢字が一
般的に使用されている。比較的希な場合を含むと、１０
０００以上の漢字がある。この困難に加えて、中国語は
テキストの標準化、複数の同音異義語、コンピュータを
使用して漢字の効果的テキスト処理を妨げる不明確な単
語の境界などの問題がある。数十年にわたる集中的な研
究および数百におよぶ数々の方法の存在にも拘わらず、
漢字のコンピュータ入力と処理は中国におけるコンピュ
ータの利用、特にテキスト処理について妨げる大きな障
害である。

【０００３】中国語のテキストの入力、処理の今日有効
なコンピュータ・システムは次の３つのカテゴリに分け
ることができる。

【０００４】第１のカテゴリは漢字を基本的な画像成分
に分解することによる。キーボードの様々なキーは漢字
の様々な基本画像成分を表すために割り当てられる。そ
して、各文字は数回キーを叩くことで、基本画像成分を
合成することができる。この方法の例は台湾におけるCh
angjiおよび中国本土におけるファイブ・ストローク法
を含む。この方法の主な欠点は漢字成分にたいするキー
の割り当てが人工的なことである。上記Changjiとファ
イブ・ストローク法の両方では、コードの割り当ては機
械的に記憶させる必要がある。成分を表すキーを記憶す
ることは困難であり、時間もかかる。さらに、漢字を基
本成分に分解することは多くの場合、固有のものではな
い。これらの方法が入力専門のオペレータによって使わ
れたり、熟練したタイピストにより迅速に示されたとし
ても、これらの方法はコンピュータに熟知した人々や他
の専門家によってほとんど使用されておらず、通常の人
々はなおさらである。従って、これらの方法は一般的な
中国語を喋る住民によるコンピュータの使用を限定して
しまう傾向がある。

【０００５】第２、第３のカテゴリは中国語処理におけ
る「同音異義語問題」に対抗するものである。

【０００６】第２カテゴリは、熟練タイピストを除いて
最も広く使用されている音声入力（例えば、中国本土で
のPinyinおよび台湾での「音声符号」あるいはBPMF）で
あり、中国語の漢字表記システムは、この方法にたいす
る概念上および実用上の障壁である。Pinyinとは中国語
の北京方言を標準語とした、ローマ字による音声表記法
である。以下、単にPinyinと称する。

【０００７】数千の文字とは対照的に、音節は約１３０
０だけであり、一音節は多数の異なった漢字に対応す
る。例えば、北京官話におけるyiの発音は１００以上の
漢字に対応することが可能である。これは、音節を漢字
に翻訳する時にあいまいさが生じる。

【０００８】この「同音異義語問題」に対処するため、
ほとんどの音声入力システムは複数選択方法を用いてい
る。例えば、ドイツ特許3,142,138、発明者J.Heinzel、
発行日1983年5月5日、米国特許5,047,932、発明者K.C.H
sieh、発行日1991年9月10日、および中国特許1,064,95
7、発明者Tan Shanguang、発行日1991年3月8日がある。
音節がキーで入力された後、コンピュータ・ディスプレ
イは同じ発音の全ての漢字を表示する。いくつかの場
合、この同じ発音の全ての漢字を表示するにはスクリー
ン上のスペースが十分ではない。こうした場合はスクロ
ール・アップおよびスクロール・ダウンする必要があ
る。それ故、個々の音節に基づいた音声入力方法は極め
て遅くなる。

【０００９】隣接する漢字の可能性を導くことによる複
数選択法の改良が従来技術に記載されている。例えば、
英国特許2,248,328、発明者R.W.Sproat、発行日1992年4
月1日などである。実現性のある方法は、さらに文法的
制約と組み合わせることである。例えば、K.T.Lua等に
よる、「Computer Processing of Chinese and Orienta
l Languages」、 Vol.6、 Num 1、85頁、1992年6月発行
である。しかし、これらの方法の（音声から漢字への）
変換精度は通常、約８０％程度である。

【００１０】第３カテゴリは音声文字入力方法と非音声
文字の付加の組み合わせである。非音声文字を音声文字
に加えて、同じ発音の文字を人工的に区別する。例とし
て、部首記号と音声による綴りの組み合わせ（英国特許
2,158,776、発明者C.C.Chen、発行日1985年11月20日）
および画数と音声による綴りの組み合わせ（中国特許1,
066,518、発明者G.Xie、発行日1992年11月25日）などが
ある。これらの方法は人工的な法則を記憶したり、ある
いは画数を数える必要があり、入力速度が低下すること
になる。

【００１１】「同音異義語問題」に加えて、中国語を処
理する際に「単語の境の問題」がある。

【００１２】現代中国語の単語の８０％以上が複数の音
節（つまり、２以上の漢字）を有しているが、（全ての
ヨーロッパ系言語や現代朝鮮語とは対照的に）中国語の
表記システムでは単語の分け書きをおこなわない。さら
に、中国語の音声入力は通常、単語の境界を斟酌せずに
音節づつ行われる。

【００１３】多音節の単語の広い解釈および単語の境界
で単語の境界を明確にする標準的な方法の欠落にも拘わ
らず、明確な定義づけと中国語の単語の存在は議論の余
地がある。さらに、中国語は伝統的に間隔を取らずに漢
字の連続的な文字ストリングで書かれるので、通常の中
国人は１つの「単語」の意味するものの明確な概念を持
たない。多くの場合、単語の境界あるいは境界設定手
段、例えばスペースをどこに置くか定かではない。この
論議は以下のケースのようにまとめることができる。

【００１４】１．複合名詞。英語では、例えば、blackb
ord（黒板）や rattlesnake（ガラガラ蛇）などのよう
に、２つのそれぞれ異なった単語を組み合わせて複合名
詞を作ることができる。英語では、これらの複合文字ス
トリングが１つの単語あるいは２つの単語として処理さ
れるべきかどうかという論議が存在する。中国では上記
の例が一般的に認められてないので、複合名詞について
の論議はかなり困難である。例えば、Chinese Pinyin V
ocabulary （現代中国共通語ピンイン語彙）に掲載され
ているように、nanguangboyuan（男性アナウンサ）とい
う単語は２単語（nan guangboyuan）、あるいは人によ
っては３単語（nan guangbo yuan）と考えられている。

【００１５】２．接辞。全ての中国語の動詞は、過去、
現在完了、あるいは進行時制を作る-le、 -guo、あるい
は -zheという「シンタックス・ユニット」をつけるこ
とができる。全ての形容詞は -deをつけることができ
る。しかし、これらのシンタックス・ユニットも、個々
の単語が小辞を呼び出す際に現れる。それぞれの言語学
学校によりこれらのシンタックス・ユニットも異なった
扱いを受けている。いくつかの学校では、これらのシン
タックス・ユニットを「固有の」接辞として、つまり、
そのシンタックス・ユニットがつけられる単語の部分と
して扱っている。他の学校では、それらを個々の小辞、
つまり、別々の単語として扱っている。

【００１６】小辞が個別の単語である一方、接辞が単語
の部分である。例えば、-hua、 -jia、 -yuan、 -xin
g、および -zhuyiという名詞の終わりは、ほとんどの言
語学者により単一の単語の接辞として考えられ、多少の
学者が個別の小辞（別の単語）と考えている。一方、-
z、 -r、および -touという終わりは、常に名詞の接尾
辞として扱われ、個別の小辞ではない。

【００１７】３．複合動詞。ドイツ語の分離動詞（die
zerbrechbar Zeitwort）、例えば、aufziehen、heraufz
iehen 等と非常に類似した中国語の動詞の種類がある。
これらの「分離」動詞は不定詞あるいは過去分詞とする
ために-zu-、-ge-という挿入辞を使用することが可能で
ある。

【００１８】中国語では、同様の複合動詞が「可能」あ
るいは否定を意味するために-de-あるいは、-bu-の挿入
辞を持つことができる。例えば、taiqilai（あがる）は
上記のドイツ語の動詞に非常に類似した taideqilai
（あがることができる）、taibuqilai（あがることがで
きない）という表現を有する。さらに、「taiqi tou la
i」、「taideqi tou lai」、「taibuqi tou lai」とい
う慣用句は、（ziehen dein Kapf aufのような）複合動
詞を使用する文構造に類似している。この観点から、
「taiqilai」は１つの単語とすべきである。しかし、多
くの言語学者はこれらの音節を分けた単語（tai、qi、l
ai）として考えており、分けて書いている。

【００１９】上記したように、中国語ではどこを単語の
境界とすべきか不明なことが多い。

【００２０】こうした議論にもかかわらず、多くの多音
節語が、(1)名詞「gada、putao、feiji」等、(2)動詞
「zhuanyou、xingwu」等、(3)形容詞「heised、pangda
d」等のような最小の言語単位、あるいは形態素として
広く認識されている。また、多くの慣用句が複数の単語
から成っていると広く受け入れられている。例えば、時
々「dianzigongye」は１つの単語と考えることができる
が、誰も「fazhan dianzidongye」という慣用句を単一
の単語とは考えないだろう。単語と広く考えられている
４音節の熟語があるが、Pinyinの表記は別であり、ハイ
フンは使用してもしなくてもよい。これらの単語の分類
にたいし、固有の単語の境界が広く知られている。

【００２１】上記したように、中国語について、広く受
け入れられている正字法の欠如や単語の分け書きの習慣
の欠如が、中国語テキストのコンピュータ入力と処理用
に簡便に使用される規格を開発するのを非常に困難にし
ており、どの言語学校も普遍的な追求をしていない。単
語の狭い定義（つまり、多くの複合語を慣用句として扱
い、また多くの接辞を小辞として扱うこと）を追求する
ことによっても、いくらかの曖昧さが残る。単語の広い
定義をすること（つまり、多くの複合語を単一の単位と
して扱い、多くの接辞を単語の部分として受け入れるこ
と）により弁別精度が向上するが、コンピュータのメモ
リに記憶させる必要のある語彙の量は、全ての接辞の組
み合わせを有する単一のユニットの単語や言葉を各々説
明するには膨大になりすぎる。

【００２２】外国人用の中国語会話の教本はPinyinと呼
ばれている綴り形式で書かれており、それでは多音節語
は基本ユニットと考えられている。Pinyinはローマ字を
用い、多音節語の形態で掲載された語彙を有する。「Ch
inese Pinyin Vocabulary」は1964年に出版されてい
る。６万語が収録された改訂版は北京のLanguage Press
により1989年に出版された。単語の境を規定するPinyin
形式で書かれた中国語にたいする正字法が1984年に出版
されている。

【００２３】

【発明が解決しようとする課題】本発明の目的は、コン
ピュータで音声による中国語および漢字を入力処理する
ための改良されたシステムおよび方法を提供することで
ある。

【００２４】本発明の別な目的は、中国語の単語の分け
方についての異なった言語学論理や異なった習慣がある
のにもかかわらず、比較的少ない語彙（メモリ）を必要
とする正確なコンピュータ・システムと、音声中国語
（Pinyin又はBPMF）入力を文字表記（漢字）に変換する
プロセスを提供することである。

【００２５】本発明の別な目的は、中国語のテキストを
入力、処理し易くするためコンピュータ用キーボードの
利便性が良く効果的なデザインを提供することである。

【００２６】本発明の別な目的は、GB2312-80フォーム
（中国語文字通信用の中国政府規格）において英語およ
び角文字（漢字）ストリームと干渉しないで、音声中国
語ベースの情報ストリームの記憶、印刷、伝送等を容易
に行うための拡張したASCIIコードのデザインを提供す
ることである。

【００２７】本発明の別な目的は、自動的にエラー検
知、訂正をおこなう音声中国語用のコンピュータ処理シ
ステムを提供することである。

【００２８】本発明の別な目的は、中国語と非中国語
（例えば、英語）の混合テキストを処理できる音声中国
語用のコンピュータ処理システムを提供することであ
る。

【００２９】

【課題を解決するための手段】上記課題を解決するた
め、本発明は音声中国語（Pinyin又はBPMF）を正確に、
かつ効果的にコンピュータ・システムに入力し、またそ
の音声入力を漢字フォームに正確に変換するためのシス
テムおよび方法である。このシステムは、入力した各音
声テキスト音節に、音節の声調を示す分音符号をユーザ
が注釈としてつけることができる分音符号キー（および
対応のASCIIコード）を備えた新規なキーボードを有す
る。このシステムで実行するプロセスは、分音符号キー
（あるいはデリミッタ・キー）が叩かれた時に１つの音
節が入力されたことを判断する。入力した音声の音節
は、次に受け入れ可能な音声音節および略語のリストと
比較し、入力音節がリスト上にあれば、正確に綴られか
つアクセントをつけられた音節をメモリに記憶させ、画
像ディスプレイの音声部分に表示する。このプロセスは
デリミッタが入力されるまで後続する音節について継続
する。

【００３０】デリミッタが入れられると、単語ストリン
グ（２つのデリミッタ間の文字ストリングと規定したも
の）が処理され、その単語ストリングの単語を表す固有
の漢字と判定する。その単語ストリング（あるいはその
単語ストリング内の各単語）を音声単語の辞書と比較
し、その単語ストリングが固有の漢字翻訳を有するな
ら、その漢字翻訳をメモリに記憶させ、かつ画像インタ
ーフェースの漢字部分にディスプレイする。その単語ス
トリングが辞書と照合しない場合は、語形分析を行う。
つまり、標準接辞（接辞リストで弁別させ）をその単語
ストリングから取り除く。そして、残った単語ストリン
グ（語根）を再分析する。その語根が辞書と照合するな
ら、語根（残った単語ストリング）を構成成分／単語に
分解する。構成成分と辞書の固有の照合があれば、それ
らの固有構成成分／構成単語の漢字翻訳はメモリに記憶
させ、画像インターフェースの漢字部分にディスプレイ
させる。

【００３１】この単語入力や構成成分／構成単語が曖昧
な翻訳を持つ（辞書との照合がない）なら、統語論的分
析が行われる。その単語ストリング内の単語が機能語
（機能語／接辞リストにあり、声調をつけた音節を持た
ない）か概念的な単語（少なくとも１つの声調をつけた
音節を有する）かを分類する。（本発明の目的にたい
し、機能語、小辞、接辞が使用され、同じ方法で処理さ
れる。）機能語が曖昧さがないように翻訳され、そし
て、残った単語ストリング（語根）入力の構造を判定す
る。こうして、翻訳した機能語を有する概念的な単語の
使用に基づき概念的な単語の曖昧さは減少させられ、あ
るいは除去される。概念的な単語の残った曖昧さは統計
学的モデルにより除去される。

【００３２】音声のテキストはキーボード以外の装置、
例えばネットワーク、磁気媒体、あるいは音響システム
を介して、このシステムに入力することができる。中国
語と非中国語の混合テキストは、例えば、スペースのよ
うな特別な文字で中国語にデリミッタをつけることによ
り処理可能である。

【００３３】

【発明の実施の形態】図１は本発明によるシステム１０
００の望ましい一実施例のブロック図を示している。本
システム１０００は、中国語文字および英語のテキスト
を表示可能な画像インターフェース１０２０と、ＣＰＵ
１０１０と、主メモリ１１００と、メモリ記憶装置１２
００とを有する。キーボード・プロフィール１０７０は
主メモリ１１００および／あるいはメモリ記憶装置１２
００に記憶させる。本システム１０００はマウスのよう
な位置決め装置１０３１を有し、またネットワーク１０
９０に接続可能である。ＩＢＭＲＳ／６０００がＣＰ
Ｕ１０１０、メモリ（１１００、１２００）、画像イン
ターフェース１０２０の一実施例である。

【００３４】示されているのは新規なキーボード１０３
０である。このキーボードは声調分音符号キー１０５０
と音節入力キー１０４０を有し、それらキーは標準ロー
マ字である。別の声調キー１０６０Ａと１０６０Ｂも可
能である。声調キー１０６０Ａは分割型スペース・バー
上に設けることができる。声調キー１０６０Ｂは標準的
な矢印キー上に加えることができる。新規なキーボード
の別の望ましい実施例は図２から図５の説明の際に検討
する。

【００３５】メモリ記憶装置１２００および／または主
メモリ１１００に含まれるのは新規なデータ構造３００
であり、記憶させた、つまりメモリ（１１００、１２０
０）に登録してあるエンコード文字（例えば、ASCII文
字）および分音符号にキーボード１０３０のキー・スト
ロークを変換するため使用される。データ構造７００、
８００、９５０もメモリ１２００に記憶させる。それら
は中国語音節リスト７００、機能単語／接辞リスト８０
０、および中国語辞書あるいは語彙９５０を含む。

【００３６】新規なプロセス４００、５００、６００は
メモリ（１１００、１２００）に含まれる。プロセス４
００は音声中国語をシステム１０００に入れる（入力す
る）ための、またオプションとして単語の境界を定める
ための方法である。（この明細書では、中国語は一般性
を失うことなくPinyinとして記載する。）プロセス５０
０は、固有の漢字翻訳を判断するためPinyinテキスト／
単語のストリングを形態学的に分析する方法である。プ
ロセス６００は曖昧なストリング／単語、つまり、２つ
以上の漢字翻訳がある場合、それらを解決するためプロ
セス５００により使用された統語分析の方法である。デ
ータ構造３００、７００、８００は図６、図１０乃至図
２１、および図２２にそれぞれ示されている。プロセス
４００、５００、６００は図７、図８、図９にそれぞれ
示されている。

【００３７】通常、ユーザはキーボード１０３０を使
い、適切な分音符号（詳細は後述）と共にPinyinテキス
ト入力をシステム１０００に入れる。データ構造３００
とプロセス４００を使用して、システム１０００は、こ
のPinyin文字１０２２（ローマ字、分音符号、句読記号
等）を画像インターフェース１０２０上の分割スクリー
ンの第１セクション１０２１に表示する。プロセス５０
０と６００を用いて、システム１０００はこのPinyin入
力を分析し、Pinyinから漢字に変換し、この漢字１０２
５を画像インターフェース１０２０上の分割スクリーン
の第２セクション１０２４に表示する。プロセス５００
と６００および別の言語翻訳装置１０３４を使用して、
システム１０００はコード化された、あるいは分音符号
でマークをつけられた、この入力Pinyinを英語のような
他の言語に変換することができる。

【００３８】また、システム１０００はテキストの入力
を可能とするキーボード１０３０以外の構成要素を含
む、例えば、文字ストリングをネットワーク１０９０を
通じて伝送させることも可能である。他の入力は音響テ
キスト入力用の構成要素１０３３を含む。これらの構成
要素はシステム１０００に接続するための適切なドライ
バを有する。例えば、本願に引例として掲示する米国特
許出願番号08/404,786、タイトル「STATISTICAL ACOUST
IC PROCESSING METHOD AND APPARATUS FOR SPEEDRECOGN
ITION USING A TONED PHONEME SYSTEM」、発明者Chen
他、出願日1995年3月15日を参照。コード化したPinyin
ストリングあるいは適切な分音符号でマークしたPinyin
ストリングも、例えばディスケットのような磁気媒体１
０３２を含む他の公知方法を用いてシステム１０００に
入れることができる。

【００３９】テキストを入れる時、分音符号を使用して
中国語の音声表現における強勢音節（実施例によっては
強勢しない音節）および声調値を区別する。（プロセス
４００参照。）分音符号は音節の声調を表す印である。
本発明では、声調を有する単語の音節には、その音節が
声調を有することを示す分音符号を用いて注釈をつけ
る。また、分音符号は声調のタイプを示す。北京官話
（標準中国語）には４タイプの声調（四声）がある。そ
れは、高平調（第１声）、高昇調（第２声）、降昇調
（第３声）、高降調（第４声）である。言語学者の何人
かは、「無声調」と呼ばれる第５の声調（分音符号）を
含ませている。

【００４０】システム１０００にテキスト４００を入れ
る（入力する）間、声調分音符号がアクセントのある音
節に加えられる。このコード化あるいは区別化で、概念
語と機能語、小辞、接辞との間の違いがテキスト（５０
０、６００）の処理で明確になる。（アクセントのある
音節を有する単語は、概念語および機能語、小辞、接辞
であり、８００個がリストされている。）

【００４１】別の実施例では、アクセントのない（無声
調）中国語音節（機能語、小辞、接辞を含む）の各々の
後に「無声調」分音符号を加える。この実施例は、混合
語テキスト、つまり英語あるいは他の非中国語テキスト
が中国語テキスト入力に含まれているテキストを入れる
時に有効である。非中国語テキストは分音符号でコード
化（マーク）しないので、中国語の単語／音節（無声調
分音符号を含む分音符号でマークされている）は、マー
クなしの非中国語テキストから区別可能である。非中国
語テキストも単語間のスペースなどの例のように特別な
デリミッタで境界を定義する。

【００４２】例えば、翻訳、分析、印刷などの言語処理
をさらに行う時に、音節ストリングのアクセントのある
音節を区別し、また各アクセントのある音節の声調のタ
イプを示す分音符号を本発明では使用して、中国語の音
声表示（Pinyin）を単語と文に文法的に分解する。（プ
ロセス５００、６００を参照。）法則を適用して、機能
語、小辞、および／あるいは接辞のある位置で中国語文
の音声表示を分割することにより、この音声表示を文法
的に分解する。システム１０００は、各中国語方言の既
知の機能語（および小辞／接辞）が比較的少数、つま
り、１００未満なので効果的にこれをおこなう。それゆ
え、すべての有効な機能語および小辞／接辞８００を記
憶するために必要なメモリ容量は比較的小さくてすむ。

【００４３】システム１０００は正確に単語の意味や文
章構造を判定する。（プロセス５００、６００参照。）
初め、意味、使用、声調（非声調）について固有で曖昧
さのない翻訳を持つ機能語（および小辞／接辞）が翻訳
される。また、機能語（および小辞／接辞）は文の構造
を定義するためにも使用される。機能語（および小辞／
接辞）と定義した文構造を使用して、その文の他の（概
念）語の意味を判定できる。

【００４４】本発明の目的にたいしては、再度、機能
語、小辞、および接辞が同じように使用され、処理され
る。これは、中国語表記では明確な単語の境界がないの
で、しばしば識別が行われないことによる。機能語、小
辞、および接辞も同様な声調構造を有する。機能語、小
辞、および接辞の望ましいリストがシステムのメモリ
（１１００、１２００）に記憶させられ、これは図２２
に示されている。

【００４５】本発明の新規な特徴の一つは、Pinyin 中
国語入力および／あるいは混合語テキスト処理（Pinyin
中国語と非中国語、例えば英語の混合）に対して特別に
設計された新しいキーボードである。このキーボード
は、分音符号を有するPinyin音節を入力する方法を提供
する。図２から図５はPinyin入力に対して特別に設計さ
れたキーボード１０３０の別の望ましい実施例の例であ
る。これらキーボード１０３０はPinyinのシステム１０
００への入力を簡単で迅速にするものである。標準的な
米国英語のキーボードはPinyin入力には不便であり、声
調や分音符号を入力する能力は持ってない。

【００４６】図２は米国英語のキーボードの改良型の新
規なキーボード（１０３０、２０００）の図である。こ
の望ましい実施例では、いくつかのキーが声調（分音符
号）キー１０５０として使用され、同時に他のキー１０
４０はPinyin文字および他の言語（英語）文字入力用の
音声キー１０４０として従来の方法で使用される。望ま
しい一実施例では、希にしか使用されない数個の句読記
号キーを声調キー１０５０として割り当てる。限定しな
い例として、［、｛キーは高平調（第１声分音符号）キ
ー２０４０として割り当て、］、｝キーは高昇調（第２
声分音符号）キー２０５０として割り当て、＼、｜キー
は降昇調（第３声分音符号）キー２０６０として割り当
て、”、’キーは高降調（第４声分音符号）キー２０７
０として割り当てる。純粋なPinyinテキストの処理にた
いして、声調のないPinyin音節および機能語（および小
辞／接辞）が分音符号なしでコード化され、またはマー
クされるので、これらの４つの分音符号キー（２０４０
−２０７０）が適している。しかし、非中国語（英語）
テキストと組み合わされたPinyinテキストを処理するた
め使用する実施例（および他の望ましい実施例）では、
別の分音符号キー、例えば無声調（分音符号）キー２０
１０が加えられる。例えば、Alt（前面）キーの一つ２
０１０をこの機能に使用することができる。混合テキス
ト（中国語と非中国語）の処理では、無声調キーがしば
しば使用されるので、２番目の無声調キー２０２０を標
準英文キーボードの第２Altキーの位置に加えて別の指
の操作用とすることが可能である。この実施例では、Al
tキーは控えのコントロール・キー２０３０の１つに再
割り当てさせる。英文キーボードは分音符号入力１０５
０を提供するためにキーボードの等価代替割り当てを有
するように容易に改良できる。

【００４７】図３は、Pinyinテキスト処理における分音
符号の入力用の分音符号キー１０６０Ｂを有する改良型
英文キーボード１０３０の別な望ましい実施例である。
この実施例２１００では、分音符号キー１０６０が標準
の矢印キー上の英文キーボード１０５０に加えられてい
る。加えられる分音符号キーは、高平調（第１声分音符
号）キー２１２０、高昇調（第２声分音符号）キー２１
３０、降昇調（第３声分音符号）キー２１４０、高降調
（第４声分音符号）キー２１５０を有する。オプション
として、無声調（分音符号）キー２１１０が混合テキス
ト（あるいは他のテキスト）の処理用に加えることもあ
る。

【００４８】図４はキーボード１０３０の別の望ましい
実施例２２００を示す図である。この実施例２２００
は、米国英語のキーボードの配列１０４０の全てのキー
（あるいは２、３のキーを除き他の全て）をそのままに
しておける分割したスペース・バー２２７０を有する。
望ましい一実施例では、このスペース・バー２２７０は
４つのセクション（２２３０、２２４０、２２５０、２
２６０）に分割されている。スペース・バーの一番左の
セクション２２３０は高昇調（第２声分音符号）キー２
２３０に割り当てられている。つぎの最大のセクション
２２６０は、本来のスペース・バー２２６０として使用
される。右側の２つの小さなセクション（２２４０、２
２５０）は降昇調（第３声分音符号）キー２２４０、高
降調（第４声分音符号）キー２２５０にそれぞれ割り当
てられている。高平調（第１声分音符号）キー２２２０
はAltキーの一つに割り当てられている。

【００４９】この配列は人間工学に基づいている。親指
はピアノ演奏では最も重要な指だが、タイプ操作ではそ
れ程ではない。この中国語キーボードのデザインは、親
指をもっと効果的に声調入力に利用することになる。こ
こで示された新しいスペース・バー２２６０はキーボー
ドの中央、つまり、ＦとＪキーの間に位置している。両
手の親指は快適にそのスペース・バーを押すために使用
できる。従ってスペース・バーのサイズの縮小は、混合
テキストの処理の際に英文をタイプするうえでまったく
影響がない。手の平にたいして親指を曲げることによ
り、４つの声調キー（２２２０、２２３０、２２４０、
２２５０）は容易に届く。

【００５０】Pinyin入力だけなら、無声調キー２２１０
は不要である。この実施例では、スペース・バーのキー
２２６０はPinyinだけの入力の場合は無声調キーとして
作動する。図４で、高降調（第４声分音符号）キー２２
５０および降昇調（第３声分音符号）キー２２４０の位
置は、それらの通常の言語学的な順番（つまり、第３
声、第４声という順）とは逆である。それは、高降調
（第４声分音符号）キーは降昇調（第３声分音符号）キ
ーより２倍以上の利用頻度があるからである。この逆の
配列は疲れを減少させ、入力効率を向上する。

【００５１】混合テキスト（中国語と非中国語）の処
理、および中国語のみのテキスト処理の望ましい実施例
にたいして、無声調キー２２１０が加えられる。この望
ましい実施例では、無声調キー（分音符号）２２１０が
別のAltキーに割り当てられる。コントロール・キー２
２８０の一つはAltキーとして再度割り当てられる。

【００５２】図５はキーボード１０３０の別の望ましい
実施例２３００を示す。この実施例は、キーボード２２
００でのように、高昇調（第２声分音符号）キー２３３
０、降昇調（第３声分音符号）キー２３４０、高降調
（第４声分音符号）キー２３５０を有する分割スペース
・バー２３７０を使用する。しかし、このキーボード２
３００では、スペース・バー２３７０の中央の広い部分
２３１０が無声調（分音符号）に割り当てられている。
スペース機能はAltキーの一つ２３６０に設けられてい
る。これは、キーボード２３００が混合テキストを入力
する時に特に有用である。他のAltキーは高平調（第１
声分音符号）２３２０として使用する。また、コントロ
ール・キーの一つはAltキー２３８０として再割り当て
する。この実施例は無声調キー２３１０を両手の親指の
届き易い非常に便利な位置に配置している。システム１
０００が混合テキストを処理する時に無声調キー２３１
０は頻繁に使用されるので、そうした処理の際に有効と
なる。

【００５３】キーボード２３００は別のマークをキーに
加えることにより能力を高めることができる。例えば、
中国語では、左の引用符号２３３８および右の引用符号
２３３９は異なり、それぞれ単一のキーとして提供す
る。左のタイトル符号２３４１および右のタイトル符号
２３４２も、黒点２３４４、アポストロフィ２３４５、
小数点２３３７と共に加える。これらの符号も混合テキ
ストを入力するときに使用される。中国語のデリミッタ
として使用される位相符号もキー配列に設けてある。

【００５４】キーの割り当ておよび再割り当ては公知方
法を用いて行われる。例えば、キーボード１０３０のプ
ロフィールは、キーの機能を規定するシステム１０００
のメモリ（１１００、１２００）のファイル１０７０で
ある。ＲＳ／６０００では、これは「キーボード翻訳テ
ーブル１０７０」と称される。このテーブル１０７０は
キーボード１０３０の各キーにたいして通常ASCIIコー
ドで文字、あるいはコントロールを割り当てる。このテ
ーブル１０７０内で割り当てたキー・コードを変更する
ことにより、キーボード１０３０のキーの機能が変わ
る。

【００５５】ユーザはこのキーボード１０３０を使っ
て、このシステムにPinyinあるいは混合テキストを入れ
る（入力する）。ユーザが１つの中国語（Pinyin）音節
を入れた後、ユーザはその音節を有した適切な分音符号
を入れる。Pinyinだけのテキストを入力する時、アクセ
ントのない音節（および機能語）にたいして分音符号
（あるいはスペース）を入れない。混合テキストを入力
する時（あるいはPinyinを入力するために使用する別の
望ましい実施例で）、ユーザはアクセントのない各音節
（および機能語）の後で無声調分音符号を入力する。ス
ペース（あるいは同等の単語境界デリミッタ）を非中国
語の後に入れる。一般的に受け入れられている単語の境
界でPinyin（中国語）に境界をつける、このスペースが
システム１０００の精度を向上する。しかし、この発明
を操作するため中国語に境界をつける必要はない。プロ
セス４００を参照。

【００５６】Pinyin（あるいは混合テキスト）入力はシ
ステム１０００のメモリ（１１００、１２００）に記憶
させられる。望ましい実施例では、その入力はASCIIフ
ォーマットでエンコードされる。英語文字に対するコー
ド（および／あるいはGB2312-80漢字）に対するコード
を有する標準ASCIIコード・テーブルは分音符号を有す
るように改良する。望ましい実施例では、第１、第２、
第３、第４声分音符号を、共通にアクセントのある各母
音の大文字および小文字にたいしてコード化して固有の
分音符号を表示した（印刷した）Pinyin音節内の母音に
表示（印刷）することが可能である。

【００５７】図６はPinyin（あるいは混合テキスト）入
力に対するASCIIコード化用のデータ構造３００の望ま
しい実施例である。メモリ３００のブロックは２５６の
メモリ位置を有する。これらのメモリ位置は０から２５
５の番号が与えられている。この番号は、メモリ位置／
ASCIIコードの各々に割り当てるASCIIコードでもある。

【００５８】このASCIIコードは、単一バイトの情報、
下位７ビット部分（メモリ位置０−１２７を表す）、お
よび上位７ビット部分（メモリ位置１２８−２５５を表
す）から作られている。単一の文字、句読符号、あるい
はコントロール機能は１つのメモリ位置に割り当てられ
る。例えば、大文字のローマ字「Ｂ」はメモリ位置６６
に割り当てられ、「ＥＳＣ（エスケープ）」機能はメモ
リ位置２７に割り当てられ、「！」はメモリ位置３３に
割り当てられている。

【００５９】ローマ字、句読符号、および数字のコード
化は簡単に定義されるが、このASCIIコードには多くの
オプション位置がある。個々の国により、このオプショ
ン位置に割り当てる特殊な符号が異なる。

【００６０】各分音符号は声調コードあるいは声調符号
により表される。望ましい実施例では、５（あるいは
４）つの声調コード（符号）は、全ASCIIコード・デー
タ構造３００の下半分（０から１２７の７ビット）にあ
る数字（ASCIIコード）を有するメモリ位置に割り当て
られる。これらのメモリ位置は通信に使用される。それ
ゆえ、０から１２７の数字を有する分音符号ASCIIコー
ドを割り当てることにより、声調コードはネットワーク
１０９０を通じて通信が可能である。図６に示した特に
限定しない例では、声調コード（符号）の無声調３０
１、高平調（第１声）３０２、高昇調（第２声）３０
３、降昇調（第３声）３０４、高降調（第４声）３０５
をASCIIコード２、３、４、５、６を有するメモリ位置
にそれぞれ割り当ててある。これらは米国ASCIIコード
化におけるPokersのメモリ位置である。

【００６１】この望ましい実施例では、また、１つのメ
モリ位置および１つのASCIIコードを各分音符号（高平
調（第１声）、高昇調（第２声）、降昇調（第３声）、
高降調（第４声））にたいする各母音（大文字と小文字
の両方）に割り当てる。無声調の場合はこのASCIIコー
ドの下位７ビット部分に位置させた英語の母音を使用す
ることができる。さらに、分音符号を有する大文字
「Ｉ」、「Ｕ」は、この母音で始まる音節はないので省
略する。従って、ASCIIコードに割り当てる分音符号を
有する３２の母音がある。分音符号付の母音は、データ
構造３００の上半分、つまり１２８から２５５にあるAS
CIIコード（１２８−１５９）を割り当てられる。

【００６２】分音符号を有する母音を固有のASCIIコー
ドに与えることは、画像インターフェース１０２０上に
Pinyin音節を表示する時に、またPinyin音節を印刷する
際に有効である。システム１０００は、音節の母音に固
有な分音符号で正確に綴った音節を表示および／あるい
は印刷するために付随の分音符号（３０１−３０５）と
ともに入力したPinyin音節を使用する。それゆえ、デー
タ構造３００のメモリ位置１２８から１５９の分音符号
で割り当てられた母音を使用することにより、システム
１０００は従来の方法でその母音についての分音符号を
有するPinyin音節を印刷／表示できる。例えば、キー操
作「Pin´」で入力したPinyin音節は「Pi´n」のように
表示／印刷される。

【００６３】データ構造３００の上半分に分音符号付の
母音（ASCIIコード１２８から１５９）を配列する利点
は、ＧＢコードのみASCIIコード・データ構造３００の
上半分１６０から２５５を使用することである。従っ
て、分音符号付のPinyin母音はＧＢコード（およびASCI
Iコードの下位７ビット）と共に記憶され、伝送するこ
とができる。

【００６４】図７は、コンピュータ・メモリ（１１０
０、１２００）あるいはディスプレイ（１０２０）のよ
うな有形の媒体にPinyin音節を入れる新規なプロセス４
００を示している。望ましい実施例では、プロセス４０
０はキー操作（あるいは他の方法）でシステム１０００
に入れた音節をチェックするため使用されるスペルチェ
ッカおよび自動エラー検出、訂正プロセスを提供する。
またプロセス４００は最小の労力で中国語と非中国語
（英語）の混合テキストを入れ、処理し、記憶させるこ
とを可能とする。入力ユニットはシステム１０００によ
り実行される入力プロセス４００である。

【００６５】ステップ４０１では、ユーザがキー操作に
よりキーボード１０３０を介して音節（ここでは中国語
か非中国語のどちらか）を入れる。その音節が中国語な
ら、その音節の声調を表す分音符号を音節に続いて入れ
る。（ここでは、無声調分音符号はテキストの初めで使
用される。）非中国語、例えば英語の後には分音符号は
入れない。さらに、非中国語は、例えばスペースなどの
特別なデリミッタにより境界を作られるのでステップ４
０２で識別可能である。

【００６６】中国語のみのテキストの場合には、無声調
音節あるいは機能語の後に分音符号を入れることはいく
つかの実施例では不要である。中国語のみのテキストの
入力では必要とされないが、システム１０００は、単語
の分かち書き用の明確に確立した慣用方法が知られてい
る中国語間の境界にデリミッタを入れることにより精度
を向上する。これは、単語の境界でスペースのようなデ
リミッタあるいは他のコード（例えば、二重の分音符
号、「ｅｓｃ」）を入れることにより行うことが可能で
ある。この場合、はっきりと確立した単語の分かち書き
による中国語のリストがステップ４０３で参照されてそ
れらを非中国語音節／単語から区別する。

【００６７】音節（あるいは非中国語）の終わりになる
と、システム１０００は分音符号、例えば押された声調
キー１０６０（あるいはスペース）を読み取る。中国語
だけのテキストを処理する別の実施例では、無声調分音
符号は省略できる。これらの場合には、いくつかの無声
調（および符号なし）音節は別のものに添付させること
になる。これらの音節の文法的関係を説明するため、ス
テップ４０４では音節辞書７００とストリングを比較す
る。辞書７００の最長音節が初めに入力したストリング
と比較される。その入力ストリングの一部が最長ストリ
ングと照合すると、その照合したストリングが入力音節
として使用され、入力したストリングから削除される。
このプロセスが入力ストリングの残りの部分にたいして
繰り返され、辞書７００の最長ストリングとの照合が見
つからない時は、辞書にある次に長い音節ストリングが
比較される。このプロセスは入力したストリングの全て
の音節が照合されるまで繰り返される。このプロセスは
「最長スロット照合」アルゴリズムと称され、この例は
公知である。Journal of the American Society for In
formation Science, Vol. 44, No. 9, 1993年10月号、5
32-542頁、著者 Z.Wu および G. Tsengによる「Chinese
text segmentation for text retrieval:achievements
and problems」を参照。

【００６８】中国語だけのテキストと混合テキスト処理
における入力の望ましい実施例では、中国語のアクセン
トのない音節に印をつけるため無声調キーが使用されて
いる。これらの実施例では、全ての中国語の音節が分音
符号によりコード化（符号化）され、明瞭に区別され
る。それ故、中国語の音節の境界は明瞭に印をつけられ
る。この実施例は中国語の音節の略語も明瞭に区別さ
れ、音節リスト７００に加えられることにより固有に識
別されるので、その略語も使用できる。音節略語の使用
は、音声による中国語テキストを入れるため必要なキー
操作の回数を大幅に減らすことになる。

【００６９】混合テキスト処理で使用されたステップ４
０２では、システム１０００はその音節が中国語の音節
かどうか判定する。音節の後に分音符号（無声調分音符
号を含む）があれば、その音節は中国語である（ステッ
プ４０４）。分音符号がなければ、その音節（単語）は
非中国語、例えば英語であるとして処理する（ステップ
４０３）。また、非中国語の単語は、それのデリミッタ
により識別可能である（ステップ４０３）。非中国語の
単語はそれらの言語を処理する公知のシステムによりさ
らに処理、例えば綴りのチェックを行うことが可能であ
る。

【００７０】声調キー（４つの声調キーの一つ、あるい
は無声調キーのどちらか）を押すと、コンピュータは前
の文字がPinyin音節を表すことを認識し（ステップ４０
４）、次にその音節を綴りのチェック（ステップ４０
５）と略語か別の綴りかのチェック（ステップ４０６）
にかける。両方のチェックで綴りの間違いがあるならス
テップ４０８へ進む。これらのステップ（４０５、４０
６、４０８）は図１０乃至図２１に示す中国語音節リス
トのデータ構造７００を使用する。

【００７１】図１０乃至図２１に示す中国語音節リスト
は北京方言中国語（以下、北京語と称す）に対して用い
られる望ましい音節リストの一つである。北京語には１
３００を越える音節（異なった声調を含む）があるの
で、それらの音節を２バイト・コードのスペース（６５
５３６スペース）の小さい部分でコード化することが便
利である。音節の各々には固有の２バイト・コードある
いは「short integer」を割り当てる。詳細には、各音
節を表すASCIIコードのストリングは中国語音節リスト
７００の２バイト・コードを割り当てられる。例えば、
北京語Pinyin音節の「Pi´n」は２バイト・コード「８
１４」を割り当てられる。各音節は固有の母音の上の声
調分音符号を含む標準的な綴り形状に対応する。リスト
７００に略語を加えるため、その略語は、略語にされた
音節と同じ２バイト・コードに割り当てられる。例え
ば、略語「ｄ」は「ｄｅ」を表す音節リスト７００のコ
ード２１２に割り当てられる。音節リスト７００はメモ
リ（１１００、１２００）の比較的小さい分量を必要と
する。

【００７２】中国語音節が現れた後（ステップ４０
４）、システム１０００は照合するために中国語音節リ
スト７００を検索する。照合が得られると、ステップ４
０４の音節は標準つづり、つまり中国語音節リスト７０
０の綴りと共に入力され、その入力キー操作ストリング
は中国語音節リスト７００の照合した単語の２音節コー
ドと入れ替わる。例えば、中国語音節「Pin´」を入力
すると、システム１０００はASCIIコード・ストリング
｛８０、１０５、１１０、６｝を有するキー操作を表
す。図６を参照。この中国語音節リスト７００の照合チ
ェック（ステップ４０４）の時に、システムはこのスト
リングが２バイト・コード８１４によって示される「Pi
´n」に対応することを見つける。図１７参照。このよ
うに、この２バイト・コード８１４はメモリ内のこの音
節用のASCIIコード・ストリングと入れ替わる。それ
故、標準綴りが検知されると（ステップ４０５）、音節
全体が１３００の中国語音節の１つとして母音の上に正
確に声調分音符号をつけてモニタに表示され（ステップ
４１１）、かつメモリ１０１０／１０２０に（２バイト
・コードにより）記憶される（ステップ４１２）。この
Pinyin表示（ステップ４１１）は画像インターフェース
１０２０のPINYINを表示している部分１０２１に示され
る。

【００７３】同様にして、ユーザが中国語音節を略語あ
るいは速記による綴りを入力すると、その速記綴りを示
すASCIIコードが中国語音節リスト７００の登録内容と
比較させられる（ステップ４０６）。照合すると、速記
（略語の）音節が固有かつ明瞭なPinyin音節フォームに
変換させられる（ステップ４０７）。つまり、その速記
綴りの登録ASCIIコードが固有かつ明瞭なPinyin音節に
対応の２バイト・コードで入れ替わる。略語にされる音
節全体を印刷することになるコードとともに、再び、略
語が中国語音節リスト７００に加えられる。

【００７４】中国語音節の略語あるいは速記綴りの例を
以下に示す。例えば、「zi, si, ci, ji, qi, xi」等は
混乱なく「z, s, c, j, q, x」と略すことができる。同
様に、「yi, wu, yu」も混乱なく「i, u, v」と略せ
る。他の例では、「shg」は「sheng」の略、「xg」は
「xing」、「qag」は「qiang」、「jo」は「jiao」とい
うようにそれぞれ明瞭に略すことができる。

【００７５】音節分離マークを有する音節では、「Xi´
an」におけるような音節分離マークは全部一緒の印字を
避けることができるが、表示の際は示される。本発明の
システム１０００とプロセス４００を用いて、上記例の
速記タイプは学習の必要がないほど便利である。少しば
かりの学習で、速記書きの音節の数は増やすことができ
る（中国語音節リスト７００に加えて）。

【００７６】間違いのある綴りが検出されたら（ステッ
プ４０８）、つまりテーブル７００で照合がないなら、
最も近い音節が表示される（ステップ４０９）。これ
は、中国語音節リスト７００から選択した近似選択のメ
ニュ、つまり最良の照合１０２３を提示することにより
行われる。ユーザは、マウス１０３１あるいはキーなど
の選択装置を使用して、そのメニュから固有の音節を選
択する（ステップ４０９）。上記のように、コンピュー
タがこの選択した音節を２バイト値としてコード化し、
メモリ４１２に記憶する（ステップ４１２）。

【００７７】例えば、スペース・バー、キャリッジのリ
ターン、句読符号キーのようなデリミッタが検出されな
いなら（ステップ４１３）、このプロセス４００は次の
音節用に繰り返される（４１５）。デリミッタが検知さ
れると、そのストリング全体は単語ストリングとして記
憶される（ステップ４１４）。モニタ上では、この単語
ストリングの正確なPinyin綴りが画像インターフェース
１０２０のPinyin部分１０２１に表示される。デリミッ
タ間の単語ストリング４１４は、そのデリミッタが（一
般的に受け入れられている方法により）入れられた時に
単一の語として処理され、この単語はこのデリミッタに
よりコード化された、あるいはマークをつけられた固有
の単語境界を有することになる。しかし、そのデリミッ
タが構成語の境界の各々の位置に置かれないなら、例え
ば、構成語を区切るために一般的に受け入れられている
単語の境界がない時など、単語ストリング（４１４）は
２以上の単語（構成成分）および／あるいは接辞を含む
ことがある。

【００７８】ステップ４１４では、Pinyinフォームでコ
ード化したテキストが、特別な読取り専用メモリＲＯＭ
１０８１を有するプリンタ１０８０を使用してPinyin音
節として印字することもできる。そのＲＯＭはテーブル
７００の２バイト・コードを求められた音節の固有の母
音上に声調記号をつけたローマ字ストリングに変換す
る。そして、そのテキストは外国人用の口語中国語の全
ての教本でのように、中国語フォームで連続的かつ読取
り可能な印字となる。

【００７９】図８および図９は、システム１０００に入
れられた中国語テキストを、例えばプロセス４００によ
り処理する方法のフローチャートである。望ましい一実
施例では、中国語テキスト１０２２がこのシステムのキ
ーボード１０３０のキー操作により入れられ、前述のよ
うに画像インターフェース１０２０のPinyin部分１０２
１に表示させられる。同時に、ステップ４１４で記憶し
た単語フォームのPinyin入力がプロセス５００により漢
字翻訳１０２５に変換され、画像インターフェース１０
２０の漢字部分１０２４に表示される。それ故、ユーザ
がキーボード１０３０を介して入力したPinyinテキスト
と分音符号は、画像インターフェース１０２０のPinyin
部分１０２１上に（プロセス４００により固有の母音上
に付けた分音符号とともに）Pinyinテキスト１０２２
と、プロセス５００により画像インターフェース１０２
０の漢字部分１０２４に表示された入力Pinyinの正確な
漢字翻訳１０２５を示す。別の実施例では、分音符号付
のPinyinテキストはキーボード１０３０以外の手段、例
えばネットワーク１０９０、音響システム１０３３、あ
るいはディスケットのような磁気媒体１０３２などによ
りシステム１０００に入れることができる。

【００８０】プロセス５００はPinyin入力を漢字に翻訳
する。システム１０００はPinyinと漢字を別の方法で処
理することができる。例えば、Pinyinテキスト１０２２
及び／あるいは漢字テキスト１０２５は印刷可能であ
る。あるいは、Pinyinテキスト１０２２および／あるい
は漢字テキスト１０２５は公知の言語翻訳装置１０３４
に入れ、英語のような他の言語に翻訳することができ
る。

【００８１】プロセス５００、６００は、単語の境界お
よびアクセントのある音節にたいする分音符号のコード
（マーク）付けを全面的に利用する。この２つのプロセ
スは共に、Pinyin書式の様々な形式を多数扱い、また高
い変換精度を達成する。例えば、中国語にはっきりと確
定した境界でデリミッタをつけると、入力語（５０１）
は一つの固有の単語として認識される（ステップ５１
１）。単語が他の「語」との境界がないなら、言語形態
論ユニットであるシステム１０００で実行するプロセス
５００が、その単語ストリングを言語形態的に分析し、
および／あるいは分解する。それ故本発明は単語ストリ
ング内の構成「語」を判定することが可能である。これ
は語彙９５０および上記した「最長一致法」（longest
string matching）アルゴリズムを使用して行われる。

【００８２】本発明は、次の慣行のいずれかについても
Pinyinから漢字に正確に処理可能である。すなわち、
（１型）単語の一部として含まれる接辞、あるいは（２
型）単語から分離する小辞としての接辞、である。望ま
しい一実施例では、（２型）の接辞（小辞）は機能語と
して取り扱っている。（１型）については、プロセス５
００は言語形態的分析を行う。つまり、未確認の単語に
含まれる標準接辞（１型）が取り除かれ、残った単語ス
トリング（語根）が接辞なしで分析される。（２型）の
処理では、取り除かれた接辞が機能語として処理され
る。

【００８３】プロセス５００は単語ストリング入力を処
理するため言語形態学を使用する。言語形態学は、言語
における単語形成の研究である。ここでの単語形成は特
に接辞に関し、単語の意味が接辞によりどのように影響
を受けるかというものである。英語、ドイツ語、スペイ
ン語、フィンランド語、ハンガリー語等のほとんどのヨ
ーロッパ系言語の綴りでは、接辞の付き方により単語の
意味が変わる。例えば、英語の表現の「Calvin and Dor
othy's Department Store（カルバンとドロシィの百貨
店）」では、「s」は「Calvin and Dorothy（カルバン
とドロシィ）」の両方に属するが、「Dorothy」の後に
だけ付けられる。

【００８４】プロセス５００は例えばステップ４１４の
入力語あるいは単語ストリングの言語形態を分析する。
このアルゴリズムは入力語（ストリング）を登録語彙
（辞書）９５０と比較することにより開始する。登録語
彙９５０は音声中国語および／あるいは略語（Pinyinお
よび／あるいはBPMF）と、それらの漢字翻訳の表であ
る。中国語の公知の辞書９５０も使用可能である。例え
ば、Yuwen Chubanshe 語学出版舎による1989年出版の
「Hanyu Pinyin Cihui」がある。このような辞書は、別
の公知の辞書と組み合わせること、および／あるいは、
他のソースから漢字翻訳付きの中国語を追加することに
より改良可能である。

【００８５】登録語彙の１以上の語とステップ５０１で
の入力語（単語あるいは単語ストリング）が照合するな
ら（ステップ５１０）、次にその固有性がチェックされ
る（ステップ５１１）。チェックの結果、不明瞭でない
なら、つまり登録語彙との照合が単一なら、その語は漢
字に変換され、画像インターフェースの漢字部分１０２
４に表示される（ステップ５５０）。不明瞭なら（つま
り、入力語の音声に対応する登録語彙の漢字が２以上あ
るなら）、その複数の語をさらに検討するため記憶する
（ステップ５４０）。

【００８６】入力語（５０１）が登録語彙にないなら、
言語形態学的分析をその入力語（ストリング）について
おこなう。入力語の一部を機能形態素、あるいは接辞の
リストと比較する（ステップ５２２）。望ましい接辞の
リスト８００は図２２に示した。標準的な接辞があれ
ば、つまり、接辞リスト８００上にあれば、その接辞を
切り離し（ステップ５２４）、入力語の残った部分（語
根）を再度、登録語彙９５０と比較する（ステップ５１
０）。その語根が登録語彙にあれば、上記したようにス
テップ５１１に進む。語根が語彙になく、その語根にさ
らに接辞があれば（ステップ５２２でYES）、ステップ
５２４が繰り返されて語根に残った標準接辞を切り離
す。

【００８７】標準接辞がステップ５２２で認められない
なら、つまり、入力語のストリング（５０１）が接辞リ
スト８００にないなら、単語ストリングあるいは語根を
分解する（ステップ５３０）。望ましい一実施例では、
語根を登録語彙９５０と比較することによる上記の「最
長一致法」を使用して語根を分解する。

【００８８】単語ストリングが２つ以上の構成成分から
成るなら、各構成成分の固有性を調査する（ステップ５
３１）。構成成分が固有なら、その単語は複合語と考え
られ、対応の漢字のストリングが表示され、かつ記録さ
れる（ステップ５５０）。その単語が曖昧なら（ステッ
プ５３１）、例えば、入力語（５０１）の構成成分が１
以上あり、２以上の漢字翻訳を有し、および／あるい
は、その単語ストリングを分解するための方法が２以上
あるなら、これらの違いは次の考察（ステップ５４０）
のために記憶する。

【００８９】ステップ５４０では、句全体（あるいは
節、あるいは文）、つまり単語ストリング入力（５０
１）が、句読符号、キャリジ・リターン、あるいはユー
ザにより割当られた句のデリミッタにより境界を示され
た文字のストリングと判定される。その句は曖昧な単語
の意味を判定するために分析される。後述の図９のプロ
セス６００を参照。ステップ５４０の後、漢字形態の文
（句、節）全体が表示される（ステップ５５０）。画像
インターフェース１０２４の表示テキストになにか間違
いがあれば（ステップ５６０）、ユーザは手動でその
句、文、あるいは節を訂正する。

【００９０】後述する（プロセス６００）本発明により
使用した統語論的分析の説明を補助するため、口語（声
調やアクセント）、機能語、小辞、接辞、概念語等の音
響的特徴の発見の説明を行う。

【００９１】しばしば見落とす口語中国語の重要な音声
的現象がある。世界の全ての口語言語と同じように、中
国語では、個々の音節の単なるストリングにより提供さ
れる情報に加えて、口語の音響学的分析により提供され
る情報が多量にある。中国語では、各単語はその意味を
理解するうえで非常に重要な口語の音響的特徴を生み出
すアクセント構造を持っている。単語を形成するために
複数の音節が一グループとされる事が単語のアクセント
構造、口語の音響学的特徴、単語の理解等に影響を与え
る。

【００９２】また、単語の分離（音節のグループ化）お
よび（音響的に喋った）単語の同一基準のアクセント構
造等は口語言語に含まれた情報の一部である。中国語に
ついて、声調、つまり口語音響学的特徴の一部が同様に
重要である。中国語では、音節の声調はアクセントのあ
る音節でのみ顕著である。アクセントのない音節にたい
しては、声調は非常に弱いか完全にないか、どちらかで
ある。

【００９３】中国語を含んだほとんどの言語において、
機能語（function words）と概念語（national words）
がある。概念語は全ての名詞、全ての動詞、全ての形容
詞、そして大部分の副詞を含む。例えば、man（人）、r
un（走る）、fast（速い）、quickly（迅速に）等は概
念語である。機能語は冠詞、前置詞、および接続詞のい
くつかを含む。例えば、a、the、to、from、but等であ
る。分離した小辞として示した接辞は機能語の特徴を有
する。

【００９４】中国語の機能語は、主に文法的な関係およ
び／あるいは辞書的意味を表すよりも他の語の機能を表
す無強勢語である。機能語は前置詞、助動詞、接続詞、
副詞、感嘆詞、冠詞および、特定の代名詞等を含む。中
国語では、機能語（冠詞、前置詞、後置詞等）、小辞の
形の接辞、複音節語の接辞は常にアクセントがない。機
能語（および小辞の形の接辞と複音節語の接辞）は声調
を持たないか、非常に弱い声調を持つ。

【００９５】概念語は辞書的意味を有する単語である。
中国語では、概念語は全ての名詞、全ての主な動詞、全
ての形容詞、そして大部分の副詞を含む。概念語は機能
語以外の中国語の全ての語を含む。概念語のアクセント
構造は方言により異なる。

【００９６】現在まで、言葉を聞く人がその言葉の単語
を理解するために直観的に概念語と機能語をどのように
識別するか分かっていない。これは特に中国語にあては
まる。中国語では、機能語と接辞の声調は非常に弱いか
完全に無くなっており、また中国語の公知で識別される
機能語の数は限られているので、口語中国語が何と言わ
れているのかを理解するため聞いている人によって機能
語は直観的に使用される。

【００９７】中国語を理解する上で機能語、概念語、声
調の重要性をさらに増幅するため、概念語のアクセント
構造と機能語（および接辞）の使用について説明する。

【００９８】上海方言は概念語のアクセント構造と機能
語の使用の明白な例を示している。どの概念語も、顕著
な声調を有するアクセントのある音節で始まる。単語の
他の全ての音節は全くアクセントを持たないので、初め
の音節に続く音節の声調は弱められる。例えば、上海語
では、wenti（質問）およびdianhua（電話）という名詞
は常に初めの音節にアクセントがある。

【００９９】上海方言の機能語はアクセントがない。機
能語が概念語に続く時、機能語は時として小辞ではなく
概念語の接尾辞（つまり、接辞）と解釈できる。しか
し、この発見の一部は聞いている人間の観点からのもの
であり、これらの２つの解釈（機能語が小辞あるいは接
尾辞である）は基本的に違いはない。

【０１００】北京方言や北京官話（標準中国語）では、
アクセント構造は少し異なる。

【０１０１】北京方言のほとんどの場合、概念語のアク
セントは初めの音節にある。しかし、初めの音節の代わ
りに最後の音節にアクセントがある場合もたくさんあ
る。

【０１０２】北京官話は標準中国語である。官話では、
アクセントは通常初めの音節にある。音節が３つより多
い単語では、「枠取りをした」アクセント構造が見られ
る。つまり、初めと終わりの音節にアクセントがあり、
その間の他の音節はアクセントがなく、声調は弱いか、
無い。官話の複音節概念語は少なくとも１つのアクセン
トがあり、通常、初めの音節にある。例えば、taiqilai
という音節ストリングでは、初めの音節のtai（左）に
アクセントがある。残りの２つの音節については、音響
学的エネルギを大きく低下させるだけではなく、声調も
非常に弱くするか完全に無くす。「taibuqi tou lai」
という句では、taiとtouの２つの音節がアクセントを有
する。残りの音節のba、qi、laiは弱く、声調無しか殆
ど無しである。「lai」は声調のない接辞であり、慣行
では、分離小辞として記述する。

【０１０３】北京方言と北京官話の両方では、機能語は
規則としてアクセントを有さず、機能語の声調は弱い、
あるいは失われている（退化）。

【０１０４】この発見は、口語中国語を聞く人が単語の
境界を区別したり、単語を分類したり、単語の意味を判
断したりするため概念語（声調のある音節および声調の
ない音節）のアクセント構造や無声調の機能語（および
接辞）を直観的に使用することである。この自然の音声
現象は、中国語の言語学的原理の異なった観点および／
あるいは中国語で単語や句を書く方法から独立してい
る。本発明はこの現象に基づいた規則を開発し応用す
る、また、音声中国語のを処理（入力し、分析し、翻訳
し、書き込む）精度を改良するため、これらの規則を適
切なプロセスで履行実行する。

【０１０５】従来技術では今まで認識されていなかった
音声関係の発見の説明を完成させ、プロセス６００によ
り行われる統語論的分析にこの関係がどのように使用さ
れるかを以下に説明する。

【０１０６】新規な統語論的分析方法は図９にプロセス
６００として示す。このプロセスは上記したように、発
見した原理を用いて句（あるいは節、あるいは文）全体
を分析する。

【０１０７】ステップ５０１の単語ストリング（節ある
いは文）は、句読符号、キャリッジ・リターン、あるい
はユーザにより割り当てられた入力のような句デリミッ
タで分けられる。望ましい実施例では、これらのデリミ
ッタ、あるいは句デリミッタはスペース（キー２３６
０）、句構造標識（キー２３３６）、中国語の終止符２
３３５、左の引用符（キー２３３８）、右の引用符（キ
ー２３３９）、左の表題符号（キー２３４１）、右の表
題符号（キー２３４２）、感嘆符（キー２３１１）、コ
ンマ（キー２３１２）、スラッシュ（キー２３１３）、
左の括弧（２３１４）、右の括弧（キー２３１５）、コ
ロン（キー２３１６）、セミコロン（２３１６）、黒丸
（キー２３４４）、疑問符（キー２３１７）等を含む。
声調キー（２３１０、２３２０、２３３０、２３４０、
２３５０）への２度打ちも句デリミッタとなる。（ここ
で括弧内に示したキーは句デリミッタを入れるキーボー
ド２３００の実施例におけるキーを示す。）これらの句
デリミッタは単語の境界、つまり、１つの句の終わりと
別の句（５０１）の初めを明瞭に規定する。

【０１０８】ステップ５１１、５３１で示したように、
１つ以上の不明瞭な単語を持つ句をプロセス６００に入
力する（ステップ６０１）。統語論ユニットはシステム
１０００で実行されるプロセス６００である。

【０１０９】初めに、句６０１の単語成分を声調分音符
号の存在により分類する。１つ以上の分音符号を有する
単語（ステップ６１０）は概念語（ステップ６２０）で
ある。しかし、分音符号のない単語（ステップ６１１）
は、不注意に分音符号をはずしてしまった概念語、非中
国語、機能語、接辞あるいは独立小辞として書かれた接
辞が考えられる。混合テキストの入力では、非中国語の
単語はスペース（あるいは別の同等の文字、例えば、Es
c）により分けられ、認識される。

【０１１０】分音符号なしの単語（ステップ６１１）が
機能語か判定するため、その単語（６１１）を機能語リ
スト８００と比較する。ほとんどの言語学者により機能
語の数は１００未満と限定されている。その単語（６１
１）が機能語リスト８００にあるなら、それは機能語で
ある。各機能語の意味が固有に定義される。望ましい機
能語リスト８００は図２２に示してある。

【０１１１】同様な方法で、分音符号なしの単語（６１
１）は接辞リスト（リスト８００にも含まれている）と
比較させて、それらが接辞および／あるいは独立小辞と
して書かれた接辞かどうか判定する。これらの独立小辞
の意味が固有に定義される。望ましい小辞／接辞のリス
トも比較的短く、２０未満の登録である。漢字翻訳を有
する小辞接辞は図２２の機能語のリストに含まれる。

【０１１２】機能語、小辞、および接辞のリストのデー
タ構造８００はコンピュータのメモリ（１１００、１２
００）内で必要とする容量は比較的少ない。

【０１１３】全ての機能語（および／あるいは小辞、接
辞）が識別され、固有に定義されると、句／文構造がス
テップ６３０で分析される。その機能語（小辞／接辞）
の意味と機能は分かっているので、特定の機能語（接
辞）の前後の単語のタイプは限定される。それゆえ、１
つ以上の機能語（小辞／接辞）を有する不明瞭な概念語
の関係を使用することにより、概念語の不明瞭さはステ
ップ６４０においてさらに減少させることができる。例
えば、１つの不明瞭な概念語についてプロセス５００の
ステップ５４０で識別された５つの候補語があるなら、
その不明瞭語の前後の機能語（接辞）を知ることにより
その候補語の１つを除いて、いくつか、あるいは全てを
除去する。

【０１１４】例えば、機能語と考えられる前置詞８１０
が図２２にリストされている。これらの前置詞は名詞あ
るいは名詞句が続く。これらの前置詞に続く概念語が名
詞あるいは名詞句でない翻訳を有するなら、この不明瞭
な翻訳は除く。

【０１１５】時制小辞８２０（le、zhe、guo）は通常、
動詞に続く。それゆえ、これらの後続する小辞を有する
不明瞭な概念語は動詞として翻訳する。この概念語にた
いする別の翻訳が動詞でないなら、それらは削除する。

【０１１６】関係小辞８３０（de、zhi）は通常、名詞
あるいは形容詞に続く。それゆえ、これらの後続する小
辞を有する不明瞭な概念語は名詞あるいは形容詞として
翻訳する。別の不明瞭な翻訳は削除する。

【０１１７】接続詞（he、ji、gen）８４０は機能語で
あり、通常名詞の間にある。それゆえ、これらの接続詞
８４０のどちらかの側にある不明瞭な概念語は名詞とし
て翻訳する。別の不明瞭な翻訳は削除する。

【０１１８】接続詞８５０は通常、句の間にある機能語
である。概念語はこれら接続詞８５０のどちらか側にあ
り、句の一部と考えられる。

【０１１９】名詞接尾辞８６０は、通常、名詞の一部の
接辞である。これら接尾辞８６０の前に付く概念語は名
詞として翻訳する。別の不明瞭な翻訳は削除する。

【０１２０】形容詞あるいは副詞の後につく形容詞、副
詞接尾辞８７０がある。形容詞あるいは副詞ではない翻
訳を有するこれら接尾辞（小辞）の前の概念語は除く。

【０１２１】hen-、zui-、bu-、geng-を含む形容詞接頭
辞および副詞接頭辞もある。これらの小辞／接辞は形容
詞あるいは副詞の前につく。これらの接頭辞（小辞）に
続く概念語が形容詞あるいは副詞ではない翻訳を有する
なら、これらの不明瞭な翻訳は除去する。

【０１２２】手動で訂正する間違いのある翻訳を生み出
すこれら規則の希な例外がある。

【０１２３】リスト８００は機能語、小辞、接辞の略語
は含まない。略語は別な実施例に含むことが可能であ
る。

【０１２４】ステップ６４０で不明瞭さが残るなら、つ
まり、可能性のある概念語が２以上存在するなら、その
句における関連語発生の統計を、残りの概念語候補の最
も可能性のある語を示すために適用する（ステップ６４
１）。このような統計モデル６４１は音声認識技術にお
いて公知である。例えば、RabinerとJuangによる「Fund
amentals of Speech Recognition」447から450頁、1993
年を参照。

【０１２５】望ましい一実施例では、この結果を画像イ
ンターフェース１０２０の漢字部分１０２４に表示する
（ステップ６５０）。明瞭に分析できない単語があれ
ば、残りの候補を画像インターフェース１０２０上でユ
ーザにたいして提示して、位置決め装置１０３１によっ
てユーザが選択できるようにする。さらに、表示した結
果１０２５（ステップ６５０）はユーザによる手動訂正
にかける。別の実施例では、最終表示はプリンタで印刷
可能であり、あるいはネットワーク接続１０９０を通じ
て転送可能である。表示結果６５０は他のコンピュータ
・システム、例えば、漢字テキストを他の言語に翻訳す
る翻訳装置１０３４に漢字入力する。

【０１２６】プロセス５００、およびプロセス６００を
使用して、単語ストリングが一般的に認められている慣
行により分けられてない、あるいは境界で分けられてな
くても、システム１０００は入力単語５０１の構成語の
意味と漢字翻訳を判定することができる。

【０１２７】上記した記述により、当業者は本発明者の
意図したものの範囲内にある別の実施例を開発できるで
あろう。例えば、図５に示したキーボードと同様なもの
がBPMF音声アルファベットの３７の文字を含むようにデ
ザインする事が可能である。この音声アルファベット用
のキー割当はユーザ／製造者の選択に依存する。３７文
字のASCIIコード割当は、図６の上位７ビットの範囲で
行うことができる。BPMFの分音符号はキーボード上およ
びASCIIコード・テーブルに設けることも可能である。
しかし、幾分か改良は必要である。例えば、高平調（第
１声）に対する分音符号を設けることが可能である。BP
MFにたいする音節テーブル７００および機能語、小辞、
接辞テーブル８００はPinyinのケースに対する１対１の
対応を有する。図７、図８、図１０乃至図２１に示した
プロセスも同様に適応する。

【０１２８】

【０１２９】

【０１３０】

【発明の効果】本発明によれば、中国語の単語の分け方
についての異なった言語学論理や異なった習慣があるの
もかかわらず、比較的少ない語彙（メモリ）を必要とす
る正確なコンピュータ・システムと、音声中国語（Piny
in又はBPMF）入力を文字表記（漢字）に変換するプロセ
スを提供でき、また、中国語のテキストを入力、処理し
易くするための利便性のよいコンピュータ用キーボード
を提供できる。さらに、自動的にエラー検知、訂正をお
こなう音声中国語用のコンピュータ処理システムを提供
可能であり、中国語と非中国語（例えば、英語）の混合
テキストを処理できる。

【図面の簡単な説明】

【図１】本発明の望ましい実施例を示すブロック図であ
る。

【図２】本発明に使用されたキーボードの望ましい一実
施例を示す概略図である。

【図３】声調キーを備えたキーボードの一部分の実施例
を示す概略図である。

【図４】各キーボードが声調キーとして使用する分割型
スペース・バーを有する本システムに使用するキーボー
ドの別の望ましい実施例を示す概略図である。

【図５】各キーボードが声調キーとして使用する分割型
スペース・バーを有する本システムに使用するキーボー
ドの別の望ましい実施例を示す概略図である。

【図６】下部７ビットでの声調分音符号と、上部７ビッ
トでの声調分音符号を有する全ての利用可能な母音を含
むASCIIコードのデータ構造の望ましい実施例を示す表
である。

【図７】メモリにおけるPinyin単語登録を作成するキー
ボード入力のための望ましいプロセスを示すフローチャ
ートである。

【図８】Pinyinフォームで書かれた中国語にたいする形
態学的分析と分解プロセスを示すフローチャートであ
る。

【図９】曖昧な単語ストリングを有するPinyin入力を処
理するための望ましい統語論的方法を示すフローチャー
トである。

【図１０】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストを有する表である。

【図１１】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１２】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１３】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１４】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１５】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１６】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１７】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１８】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図１９】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図２０】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図２１】各音節にたいし１つのコード・フォームを有
する中国語音節の望ましいリストであり、図１０の表の
一部である。

【図２２】中国語の機能語、小辞、および機能語として
扱われる接辞の望ましいリストを有する表である。

【符号の説明】

３００データ構造４００プロセス５００プロセス６００プロセス７００中国語音節リスト８００機能単語／接辞リスト９５０中国語辞書１０００システム１０１０ＣＰＵ１０２０画像インターフェース１０２１分割スクリーンの第１セクション１０２４分割スクリーンの第２セクション１０３１位置決め装置１０４０音節入力キー１０５０声調識別キー１０９０ネットワーク１１００主メモリ１２００メモリ記憶装置

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−103768（ＪＰ，Ａ) 特開昭64−36366（ＪＰ，Ａ) 特開平６−290183（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/21 - 17/26

Claims

(57)【特許請求の範囲】

【請求項１】中国語テキストを処理するためのコンピュ
ータ・システムであって、Ａ）音声中国語の句は１つ以上の単語を有し、各単語は
１つ以上の音節を有し、各音節は１つ以上の文字を有
し、第１の句デリミッタと第２の句デリミッタ間の文字
のストリングである上記音声中国語の句を入力する入力
装置と、Ｂ）複数の音声中国語の接辞の登録を有する接辞リスト
と、Ｃ）漢字翻訳つきの複数の音声中国語の単語のリストを
有する中国語単語の辞書と、Ｄ）上記入力した音声中国語の句から上記接辞リスト上
の接辞の少なくとも１つの接辞を除去して語根を作成
し、上記辞書にある１つ以上の単語と該語根を比較して
両者が一致するかどうかを判定し、上記語根と一致した
上記辞書にある単語の漢字翻訳をコンピュータのメモリ
に記憶する形態学ユニットとを有することを特徴とす
る、上記コンピュータ・システム。
【請求項２】上記語根をアクセントのある語とアクセン
ト無しの語に文法的に分解する統語論的ユニットをさら
に有し、アクセントのある語は分音符号で印をつけ、ア
クセント無しの語は分音符号をつけないことを特徴とす
る、請求項１に記載のシステム。
【請求項３】上記登録は接辞、機能語、小辞を含み、各
登録は漢字翻訳を有し、上記統語論的ユニットは上記登
録の少なくとも１つと上記アクセント無しの語と照合さ
せ、上記アクセント無しの語と一致する登録は一致判定
済み登録であり、上記統語論的ユニットは上記句のアク
セント無しの語の翻訳として上記一致判定済み登録の漢
字翻訳を使用することを特徴とする、請求項２に記載の
システム。
【請求項４】上記統語論的ユニットは、上記アクセント
のある語の少なくとも１つを不明瞭な概念語としてさら
に翻訳し、その不明瞭な概念語は上記辞書に上記不明瞭
な概念語の漢字翻訳が少なくとも２つあるので不明瞭さ
を有するとされ、そして上記統語論的ユニットは上記句
にある少なくとも１つのアクセント無し語と上記不明瞭
な概念語との関係を使用して上記不明瞭さを除去するこ
とを特徴とする、請求項３に記載のシステム。
【請求項５】上記第１の句デリミッタおよび第２の句デ
リミッタは、キャリッジ・リターン、スペース、句構造
標識、中国語の終止符、左の引用符、右の引用符、左の
表題符号、右の表題符号、感嘆符、コンマ、スラッシ
ュ、左の括弧、右の括弧、コロン、セミコロン、黒丸、
疑問符、声調キーの２度以上の打健のいずれか１つであ
ることを特徴とする、請求項２に記載のシステム。
【請求項６】上記形態学ユニットは単語が上記辞書にあ
る単語の１つと一致しない場合にその単語を構成語に分
解し、かつ上記統語論的ユニットはその構成語を文法的
に解析することを特徴とする、請求項２に記載のシステ
ム。
【請求項７】コンピュータ・システムのコンピュータ・
メモリに音声中国語の音節および単語を記憶させる方法
であって、ａ．入力装置を使用して上記コンピュータ・システムに
１つ以上の文字を入力するステップで、１つの音節は１
つ以上の文字を有し、１つの単語は１つ以上の音節を有
し、１つの句は１つ以上の単語を有し、該句の該単語は
２つの句デリミッタ間にあり、上記音節は上記音節の声
調を表す分音符号で印を付けられ、上記音節は２つの分
音符号間にあり、上記文字を入力するステップは入力し
た各文字に対する文字コードの記憶および上記音節の１
つに印をつける各分音符号に対する声調コードの記憶で
あり、ｂ．上記音節の１つ以上を中国語音節として認識するス
テップで、１つの中国語音節は１つ以上の文字コードの
ストリングと声調コードであり、ｃ．上記中国語音節の文字コードのストリングを音節リ
ストと照合させるステップで、該音節リストは各々１つ
以上の音節ストリング・コードと関連する複数の音節ス
トリングを有し、ｄ．一致した音節ストリングを上記コンピュータ・メモ
リに記憶させるステップで、上記一致した音節ストリン
グは上記中国語音節の文字コードのストリングと一致す
る音節ストリング・コードに関連する音節ストリングで
あることを特徴とする上記方法。
【請求項８】上記ステップａからｄは、１つの句デリミ
ッタが入力されるまで繰り返され、上記コンピュータ・
メモリに記憶させた１つ以上の一致した音節ストリング
は１つの単語ストリングであることを特徴とする、請求
項７に記載の方法。
【請求項９】コンピュータのメモリに音声中国語の音節
および単語を記憶させるための方法を実行するため、そ
のコンピュータにより実行可能な命令のプログラムを記
憶する、コンピュータにより判読可能なプログラム記憶
装置であって、上記方法が、ａ．入力装置を使用して、上記コンピュータ・システム
に１つ以上の文字を入力するステップで、１つの音節は
１つ以上の文字を有し、１つの単語は１つ以上の音節を
有し、１つの句は１つ以上の単語を有し、該句の該単語
は２つの句デリミッタ間にあり、上記音節は上記音節の
声調を表す分音符号で印を付けられ、上記音節は２つの
分音符号間にあり、上記文字を入力するステップは入力
した各文字に対する文字コードの記憶および上記音節の
１つに印をつける各分音符号に対する声調コードの記憶
であり、ｂ．上記音節の１つ以上を中国語音節として認識するス
テップで、１つの中国語音節は１つ以上の文字コードの
ストリングと声調コードであり、ｃ．上記中国語音節の文字コードのストリングを音節リ
ストと照合させるステップで、該音節リストは各々１つ
以上の音節ストリング・コードと関連する複数の音節ス
トリングを有し、ｄ．一致した音節ストリングを上記コンピュータ・メモ
リに記憶させるステップで、上記一致した音節ストリン
グは上記中国語音節の文字コードのストリングと一致す
る音節ストリング・コードに関連する音節ストリングで
あることを特徴とする上記プログラム記憶装置。