JP3277123B2 - 中国語テキストを処理するためのシステムおよび方法 - Google Patents

中国語テキストを処理するためのシステムおよび方法

Info

Publication number
JP3277123B2
JP3277123B2 JP17390296A JP17390296A JP3277123B2 JP 3277123 B2 JP3277123 B2 JP 3277123B2 JP 17390296 A JP17390296 A JP 17390296A JP 17390296 A JP17390296 A JP 17390296A JP 3277123 B2 JP3277123 B2 JP 3277123B2
Authority
JP
Japan
Prior art keywords
syllable
chinese
word
words
syllables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17390296A
Other languages
English (en)
Other versions
JPH09128383A (ja
Inventor
チェンジュン・ジュリアン・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH09128383A publication Critical patent/JPH09128383A/ja
Application granted granted Critical
Publication of JP3277123B2 publication Critical patent/JP3277123B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は中国語のテキスト、
特に音声による中国語のテキストおよび漢字を処理する
ためコンピュータを使用する改良されたシステムおよび
方法に関する。
【0002】
【従来の技術】コンピュータで中国語のテキストを入れ
(入力し)処理する事は非常に困難な問題である。中国
語文字のシェア数はこの困難を示している。中国語の漢
字表記システムでは、3000から6000の漢字が一
般的に使用されている。比較的希な場合を含むと、10
000以上の漢字がある。この困難に加えて、中国語は
テキストの標準化、複数の同音異義語、コンピュータを
使用して漢字の効果的テキスト処理を妨げる不明確な単
語の境界などの問題がある。数十年にわたる集中的な研
究および数百におよぶ数々の方法の存在にも拘わらず、
漢字のコンピュータ入力と処理は中国におけるコンピュ
ータの利用、特にテキスト処理について妨げる大きな障
害である。
【0003】中国語のテキストの入力、処理の今日有効
なコンピュータ・システムは次の3つのカテゴリに分け
ることができる。
【0004】第1のカテゴリは漢字を基本的な画像成分
に分解することによる。キーボードの様々なキーは漢字
の様々な基本画像成分を表すために割り当てられる。そ
して、各文字は数回キーを叩くことで、基本画像成分を
合成することができる。この方法の例は台湾におけるCh
angjiおよび中国本土におけるファイブ・ストローク法
を含む。この方法の主な欠点は漢字成分にたいするキー
の割り当てが人工的なことである。上記Changjiとファ
イブ・ストローク法の両方では、コードの割り当ては機
械的に記憶させる必要がある。成分を表すキーを記憶す
ることは困難であり、時間もかかる。さらに、漢字を基
本成分に分解することは多くの場合、固有のものではな
い。これらの方法が入力専門のオペレータによって使わ
れたり、熟練したタイピストにより迅速に示されたとし
ても、これらの方法はコンピュータに熟知した人々や他
の専門家によってほとんど使用されておらず、通常の人
々はなおさらである。従って、これらの方法は一般的な
中国語を喋る住民によるコンピュータの使用を限定して
しまう傾向がある。
【0005】第2、第3のカテゴリは中国語処理におけ
る「同音異義語問題」に対抗するものである。
【0006】第2カテゴリは、熟練タイピストを除いて
最も広く使用されている音声入力(例えば、中国本土で
のPinyinおよび台湾での「音声符号」あるいはBPMF)で
あり、中国語の漢字表記システムは、この方法にたいす
る概念上および実用上の障壁である。Pinyinとは中国語
の北京方言を標準語とした、ローマ字による音声表記法
である。以下、単にPinyinと称する。
【0007】数千の文字とは対照的に、音節は約130
0だけであり、一音節は多数の異なった漢字に対応す
る。例えば、北京官話におけるyiの発音は100以上の
漢字に対応することが可能である。これは、音節を漢字
に翻訳する時にあいまいさが生じる。
【0008】この「同音異義語問題」に対処するため、
ほとんどの音声入力システムは複数選択方法を用いてい
る。例えば、ドイツ特許3,142,138、発明者J.Heinzel、
発行日1983年5月5日、米国特許5,047,932、発明者K.C.H
sieh、発行日1991年9月10日、および中国特許1,064,95
7、発明者Tan Shanguang、発行日1991年3月8日がある。
音節がキーで入力された後、コンピュータ・ディスプレ
イは同じ発音の全ての漢字を表示する。いくつかの場
合、この同じ発音の全ての漢字を表示するにはスクリー
ン上のスペースが十分ではない。こうした場合はスクロ
ール・アップおよびスクロール・ダウンする必要があ
る。それ故、個々の音節に基づいた音声入力方法は極め
て遅くなる。
【0009】隣接する漢字の可能性を導くことによる複
数選択法の改良が従来技術に記載されている。例えば、
英国特許2,248,328、発明者R.W.Sproat、発行日1992年4
月1日などである。実現性のある方法は、さらに文法的
制約と組み合わせることである。例えば、K.T.Lua等に
よる、「Computer Processing of Chinese and Orienta
l Languages」、 Vol.6、 Num 1、85頁、1992年6月発行
である。しかし、これらの方法の(音声から漢字への)
変換精度は通常、約80%程度である。
【0010】第3カテゴリは音声文字入力方法と非音声
文字の付加の組み合わせである。非音声文字を音声文字
に加えて、同じ発音の文字を人工的に区別する。例とし
て、部首記号と音声による綴りの組み合わせ(英国特許
2,158,776、発明者C.C.Chen、発行日1985年11月20日)
および画数と音声による綴りの組み合わせ(中国特許1,
066,518、発明者G.Xie、発行日1992年11月25日)などが
ある。これらの方法は人工的な法則を記憶したり、ある
いは画数を数える必要があり、入力速度が低下すること
になる。
【0011】「同音異義語問題」に加えて、中国語を処
理する際に「単語の境の問題」がある。
【0012】現代中国語の単語の80%以上が複数の音
節(つまり、2以上の漢字)を有しているが、(全ての
ヨーロッパ系言語や現代朝鮮語とは対照的に)中国語の
表記システムでは単語の分け書きをおこなわない。さら
に、中国語の音声入力は通常、単語の境界を斟酌せずに
音節づつ行われる。
【0013】多音節の単語の広い解釈および単語の境界
で単語の境界を明確にする標準的な方法の欠落にも拘わ
らず、明確な定義づけと中国語の単語の存在は議論の余
地がある。さらに、中国語は伝統的に間隔を取らずに漢
字の連続的な文字ストリングで書かれるので、通常の中
国人は1つの「単語」の意味するものの明確な概念を持
たない。多くの場合、単語の境界あるいは境界設定手
段、例えばスペースをどこに置くか定かではない。この
論議は以下のケースのようにまとめることができる。
【0014】1.複合名詞。英語では、例えば、blackb
ord(黒板)や rattlesnake(ガラガラ蛇)などのよう
に、2つのそれぞれ異なった単語を組み合わせて複合名
詞を作ることができる。英語では、これらの複合文字ス
トリングが1つの単語あるいは2つの単語として処理さ
れるべきかどうかという論議が存在する。中国では上記
の例が一般的に認められてないので、複合名詞について
の論議はかなり困難である。例えば、Chinese Pinyin V
ocabulary (現代中国共通語ピンイン語彙)に掲載され
ているように、nanguangboyuan(男性アナウンサ)とい
う単語は2単語(nan guangboyuan)、あるいは人によ
っては3単語(nan guangbo yuan)と考えられている。
【0015】2.接辞。全ての中国語の動詞は、過去、
現在完了、あるいは進行時制を作る-le、 -guo、あるい
は -zheという「シンタックス・ユニット」をつけるこ
とができる。全ての形容詞は -deをつけることができ
る。しかし、これらのシンタックス・ユニットも、個々
の単語が小辞を呼び出す際に現れる。それぞれの言語学
学校によりこれらのシンタックス・ユニットも異なった
扱いを受けている。いくつかの学校では、これらのシン
タックス・ユニットを「固有の」接辞として、つまり、
そのシンタックス・ユニットがつけられる単語の部分と
して扱っている。他の学校では、それらを個々の小辞、
つまり、別々の単語として扱っている。
【0016】小辞が個別の単語である一方、接辞が単語
の部分である。例えば、-hua、 -jia、 -yuan、 -xin
g、および -zhuyiという名詞の終わりは、ほとんどの言
語学者により単一の単語の接辞として考えられ、多少の
学者が個別の小辞(別の単語)と考えている。一方、-
z、 -r、および -touという終わりは、常に名詞の接尾
辞として扱われ、個別の小辞ではない。
【0017】3.複合動詞。ドイツ語の分離動詞(die
zerbrechbar Zeitwort)、例えば、aufziehen、heraufz
iehen 等と非常に類似した中国語の動詞の種類がある。
これらの「分離」動詞は不定詞あるいは過去分詞とする
ために-zu-、-ge-という挿入辞を使用することが可能で
ある。
【0018】中国語では、同様の複合動詞が「可能」あ
るいは否定を意味するために-de-あるいは、-bu-の挿入
辞を持つことができる。例えば、taiqilai(あがる)は
上記のドイツ語の動詞に非常に類似した taideqilai
(あがることができる)、taibuqilai(あがることがで
きない)という表現を有する。さらに、「taiqi tou la
i」、「taideqi tou lai」、「taibuqi tou lai」とい
う慣用句は、(ziehen dein Kapf aufのような)複合動
詞を使用する文構造に類似している。この観点から、
「taiqilai」は1つの単語とすべきである。しかし、多
くの言語学者はこれらの音節を分けた単語(tai、qi、l
ai)として考えており、分けて書いている。
【0019】上記したように、中国語ではどこを単語の
境界とすべきか不明なことが多い。
【0020】こうした議論にもかかわらず、多くの多音
節語が、(1)名詞「gada、putao、feiji」等、(2)動詞
「zhuanyou、xingwu」等、(3)形容詞「heised、pangda
d」等のような最小の言語単位、あるいは形態素として
広く認識されている。また、多くの慣用句が複数の単語
から成っていると広く受け入れられている。例えば、時
々「dianzigongye」は1つの単語と考えることができる
が、誰も「fazhan dianzidongye」という慣用句を単一
の単語とは考えないだろう。単語と広く考えられている
4音節の熟語があるが、Pinyinの表記は別であり、ハイ
フンは使用してもしなくてもよい。これらの単語の分類
にたいし、固有の単語の境界が広く知られている。
【0021】上記したように、中国語について、広く受
け入れられている正字法の欠如や単語の分け書きの習慣
の欠如が、中国語テキストのコンピュータ入力と処理用
に簡便に使用される規格を開発するのを非常に困難にし
ており、どの言語学校も普遍的な追求をしていない。単
語の狭い定義(つまり、多くの複合語を慣用句として扱
い、また多くの接辞を小辞として扱うこと)を追求する
ことによっても、いくらかの曖昧さが残る。単語の広い
定義をすること(つまり、多くの複合語を単一の単位と
して扱い、多くの接辞を単語の部分として受け入れるこ
と)により弁別精度が向上するが、コンピュータのメモ
リに記憶させる必要のある語彙の量は、全ての接辞の組
み合わせを有する単一のユニットの単語や言葉を各々説
明するには膨大になりすぎる。
【0022】外国人用の中国語会話の教本はPinyinと呼
ばれている綴り形式で書かれており、それでは多音節語
は基本ユニットと考えられている。Pinyinはローマ字を
用い、多音節語の形態で掲載された語彙を有する。「Ch
inese Pinyin Vocabulary」は1964年に出版されてい
る。6万語が収録された改訂版は北京のLanguage Press
により1989年に出版された。単語の境を規定するPinyin
形式で書かれた中国語にたいする正字法が1984年に出版
されている。
【0023】
【発明が解決しようとする課題】本発明の目的は、コン
ピュータで音声による中国語および漢字を入力処理する
ための改良されたシステムおよび方法を提供することで
ある。
【0024】本発明の別な目的は、中国語の単語の分け
方についての異なった言語学論理や異なった習慣がある
もかかわらず、比較的少ない語彙(メモリ)を必要
とする正確なコンピュータ・システムと、音声中国語
(Pinyin又はBPMF)入力を文字表記(漢字)に変換する
プロセスを提供することである。
【0025】本発明の別な目的は、中国語のテキストを
入力、処理し易くするためコンピュータ用キーボードの
利便性が良く効果的なデザインを提供することである。
【0026】本発明の別な目的は、GB2312-80フォーム
(中国語文字通信用の中国政府規格)において英語およ
び角文字(漢字)ストリームと干渉しないで、音声中国
語ベースの情報ストリームの記憶、印刷、伝送等を容易
に行うための拡張したASCIIコードのデザインを提供す
ることである。
【0027】本発明の別な目的は、自動的にエラー検
知、訂正をおこなう音声中国語用のコンピュータ処理シ
ステムを提供することである。
【0028】本発明の別な目的は、中国語と非中国語
(例えば、英語)の混合テキストを処理できる音声中国
語用のコンピュータ処理システムを提供することであ
る。
【0029】
【課題を解決するための手段】上記課題を解決するた
め、本発明は音声中国語(Pinyin又はBPMF)を正確に、
かつ効果的にコンピュータ・システムに入力し、またそ
の音声入力を漢字フォームに正確に変換するためのシス
テムおよび方法である。このシステムは、入力した各音
声テキスト音節に、音節の声調を示す分音符号をユーザ
が注釈としてつけることができる分音符号キー(および
対応のASCIIコード)を備えた新規なキーボードを有す
る。このシステムで実行するプロセスは、分音符号キー
(あるいはデリミッタ・キー)が叩かれた時に1つの音
節が入力されたことを判断する。入力した音声の音節
は、次に受け入れ可能な音声音節および略語のリストと
比較し、入力音節がリスト上にあれば、正確に綴られか
つアクセントをつけられた音節をメモリに記憶させ、画
像ディスプレイの音声部分に表示する。このプロセスは
デリミッタが入力されるまで後続する音節について継続
する。
【0030】デリミッタが入れられると、単語ストリン
グ(2つのデリミッタ間の文字ストリングと規定したも
の)が処理され、その単語ストリングの単語を表す固有
の漢字と判定する。その単語ストリング(あるいはその
単語ストリング内の各単語)を音声単語の辞書と比較
し、その単語ストリングが固有の漢字翻訳を有するな
ら、その漢字翻訳をメモリに記憶させ、かつ画像インタ
ーフェースの漢字部分にディスプレイする。その単語ス
トリングが辞書と照合しない場合は、語形分析を行う。
つまり、標準接辞(接辞リストで弁別させ)をその単語
ストリングから取り除く。そして、残った単語ストリン
グ(語根)を再分析する。その語根が辞書と照合するな
ら、語根(残った単語ストリング)を構成成分/単語に
分解する。構成成分と辞書の固有の照合があれば、それ
らの固有構成成分/構成単語の漢字翻訳はメモリに記憶
させ、画像インターフェースの漢字部分にディスプレイ
させる。
【0031】この単語入力や構成成分/構成単語が曖昧
な翻訳を持つ(辞書との照合がない)なら、統語論的分
析が行われる。その単語ストリング内の単語が機能語
(機能語/接辞リストにあり、声調をつけた音節を持た
ない)か概念的な単語(少なくとも1つの声調をつけた
音節を有する)かを分類する。(本発明の目的にたい
し、機能語、小辞、接辞が使用され、同じ方法で処理さ
れる。)機能語が曖昧さがないように翻訳され、そし
て、残った単語ストリング(語根)入力の構造を判定す
る。こうして、翻訳した機能語を有する概念的な単語の
使用に基づき概念的な単語の曖昧さは減少させられ、あ
るいは除去される。概念的な単語の残った曖昧さは統計
学的モデルにより除去される。
【0032】音声のテキストはキーボード以外の装置、
例えばネットワーク、磁気媒体、あるいは音響システム
を介して、このシステムに入力することができる。中国
語と非中国語の混合テキストは、例えば、スペースのよ
うな特別な文字で中国語にデリミッタをつけることによ
り処理可能である。
【0033】
【発明の実施の形態】図1は本発明によるシステム10
00の望ましい一実施例のブロック図を示している。本
システム1000は、中国語文字および英語のテキスト
を表示可能な画像インターフェース1020と、CPU
1010と、主メモリ1100と、メモリ記憶装置12
00とを有する。キーボード・プロフィール1070は
主メモリ1100および/あるいはメモリ記憶装置12
00に記憶させる。本システム1000はマウスのよう
な位置決め装置1031を有し、またネットワーク10
90に接続可能である。IBM RS/6000がCP
U1010、メモリ(1100、1200)、画像イン
ターフェース1020の一実施例である。
【0034】示されているのは新規なキーボード103
0である。このキーボードは声調分音符号キー1050
と音節入力キー1040を有し、それらキーは標準ロー
マ字である。別の声調キー1060Aと1060Bも可
能である。声調キー1060Aは分割型スペース・バー
上に設けることができる。声調キー1060Bは標準的
な矢印キー上に加えることができる。新規なキーボード
の別の望ましい実施例は図2から図5の説明の際に検討
する。
【0035】メモリ記憶装置1200および/または主
メモリ1100に含まれるのは新規なデータ構造300
であり、記憶させた、つまりメモリ(1100、120
0)に登録してあるエンコード文字(例えば、ASCII文
字)および分音符号にキーボード1030のキー・スト
ロークを変換するため使用される。データ構造700、
800、950もメモリ1200に記憶させる。それら
は中国語音節リスト700、機能単語/接辞リスト80
0、および中国語辞書あるいは語彙950を含む。
【0036】新規なプロセス400、500、600は
メモリ(1100、1200)に含まれる。プロセス4
00は音声中国語をシステム1000に入れる(入力す
る)ための、またオプションとして単語の境界を定める
ための方法である。(この明細書では、中国語は一般性
を失うことなくPinyinとして記載する。)プロセス50
0は、固有の漢字翻訳を判断するためPinyinテキスト/
単語のストリングを形態学的に分析する方法である。プ
ロセス600は曖昧なストリング/単語、つまり、
以上の漢字翻訳がある場合、それらを解決するためプロ
セス500により使用された統語分析の方法である。デ
ータ構造300、700、800は図6、図10乃至図
21、および図22にそれぞれ示されている。プロセス
400、500、600は図7、図8、図9にそれぞれ
示されている。
【0037】通常、ユーザはキーボード1030を使
い、適切な分音符号(詳細は後述)と共にPinyinテキス
ト入力をシステム1000に入れる。データ構造300
とプロセス400を使用して、システム1000は、こ
のPinyin文字1022(ローマ字、分音符号、句読記号
等)を画像インターフェース1020上の分割スクリー
ンの第1セクション1021に表示する。プロセス50
0と600を用いて、システム1000はこのPinyin入
力を分析し、Pinyinから漢字に変換し、この漢字102
5を画像インターフェース1020上の分割スクリーン
の第2セクション1024に表示する。プロセス500
と600および別の言語翻訳装置1034を使用して、
システム1000はコード化された、あるいは分音符号
でマークをつけられた、この入力Pinyinを英語のような
他の言語に変換することができる。
【0038】また、システム1000はテキストの入力
を可能とするキーボード1030以外の構成要素を含
む、例えば、文字ストリングをネットワーク1090を
通じて伝送させることも可能である。他の入力は音響テ
キスト入力用の構成要素1033を含む。これらの構成
要素はシステム1000に接続するための適切なドライ
バを有する。例えば、本願に引例として掲示する米国特
許出願番号08/404,786、タイトル「STATISTICAL ACOUST
IC PROCESSING METHOD AND APPARATUS FOR SPEEDRECOGN
ITION USING A TONED PHONEME SYSTEM」、発明者Chen
他、出願日1995年3月15日を参照。コード化したPinyin
ストリングあるいは適切な分音符号でマークしたPinyin
ストリングも、例えばディスケットのような磁気媒体1
032を含む他の公知方法を用いてシステム1000に
入れることができる。
【0039】テキストを入れる時、分音符号を使用して
中国語の音声表現における強勢音節(実施例によっては
強勢しない音節)および声調値を区別する。(プロセス
400参照。)分音符号は音節の声調を表す印である。
本発明では、声調を有する単語の音節には、その音節が
声調を有することを示す分音符号を用いて注釈をつけ
る。また、分音符号は声調のタイプを示す。北京官話
(標準中国語)には4タイプの声調(四声)がある。そ
れは、高平調(第1声)、高昇調(第2声)、降昇調
(第3声)、高降調(第4声)である。言語学者の何人
かは、「無声調」と呼ばれる第5の声調(分音符号)を
含ませている。
【0040】システム1000にテキスト400を入れ
る(入力する)間、声調分音符号がアクセントのある音
節に加えられる。このコード化あるいは区別化で、概念
語と機能語、小辞、接辞との間の違いがテキスト(50
0、600)の処理で明確になる。(アクセントのある
音節を有する単語は、概念語および機能語、小辞、接辞
であり、800個がリストされている。)
【0041】別の実施例では、アクセントのない(無声
調)中国語音節(機能語、小辞、接辞を含む)の各々の
後に「無声調」分音符号を加える。この実施例は、混合
語テキスト、つまり英語あるいは他の非中国語テキスト
が中国語テキスト入力に含まれているテキストを入れる
時に有効である。非中国語テキストは分音符号でコード
化(マーク)しないので、中国語の単語/音節(無声調
分音符号を含む分音符号でマークされている)は、マー
クなしの非中国語テキストから区別可能である。非中国
語テキストも単語間のスペースなどの例のように特別な
デリミッタで境界を定義する。
【0042】例えば、翻訳、分析、印刷などの言語処理
をさらに行う時に、音節ストリングのアクセントのある
音節を区別し、また各アクセントのある音節の声調のタ
イプを示す分音符号を本発明では使用して、中国語の音
声表示(Pinyin)を単語と文に文法的に分解する。(プ
ロセス500、600を参照。)法則を適用して、機能
語、小辞、および/あるいは接辞のある位置で中国語文
の音声表示を分割することにより、この音声表示を文法
的に分解する。システム1000は、各中国語方言の既
知の機能語(および小辞/接辞)が比較的少数、つま
り、100未満なので効果的にこれをおこなう。それゆ
え、すべての有効な機能語および小辞/接辞800を記
憶するために必要なメモリ容量は比較的小さくてすむ。
【0043】システム1000は正確に単語の意味や文
章構造を判定する。(プロセス500、600参照。)
初め、意味、使用、声調(非声調)について固有で曖昧
さのない翻訳を持つ機能語(および小辞/接辞)が翻訳
される。また、機能語(および小辞/接辞)は文の構造
を定義するためにも使用される。機能語(および小辞/
接辞)と定義した文構造を使用して、その文の他の(概
念)語の意味を判定できる。
【0044】本発明の目的にたいしては、再度、機能
語、小辞、および接辞が同じように使用され、処理され
る。これは、中国語表記では明確な単語の境界がないの
で、しばしば識別が行われないことによる。機能語、小
辞、および接辞も同様な声調構造を有する。機能語、小
辞、および接辞の望ましいリストがシステムのメモリ
(1100、1200)に記憶させられ、これは図22
に示されている。
【0045】本発明の新規な特徴の一つは、Pinyin 中
国語入力および/あるいは混合語テキスト処理(Pinyin
中国語と非中国語、例えば英語の混合)に対して特別に
設計された新しいキーボードである。このキーボード
は、分音符号を有するPinyin音節を入力する方法を提供
する。図2から図5はPinyin入力に対して特別に設計さ
れたキーボード1030の別の望ましい実施例の例であ
る。これらキーボード1030はPinyinのシステム10
00への入力を簡単で迅速にするものである。標準的な
米国英語のキーボードはPinyin入力には不便であり、声
調や分音符号を入力する能力は持ってない。
【0046】図2は米国英語のキーボードの改良型の新
規なキーボード(1030、2000)の図である。こ
の望ましい実施例では、いくつかのキーが声調(分音符
号)キー1050として使用され、同時に他のキー10
40はPinyin文字および他の言語(英語)文字入力用の
音声キー1040として従来の方法で使用される。望ま
しい一実施例では、希にしか使用されない数個の句読記
号キーを声調キー1050として割り当てる。限定しな
い例として、[、{キーは高平調(第1声分音符号)キ
ー2040として割り当て、]、}キーは高昇調(第2
声分音符号)キー2050として割り当て、\、|キー
は降昇調(第3声分音符号)キー2060として割り当
て、”、’キーは高降調(第4声分音符号)キー207
0として割り当てる。純粋なPinyinテキストの処理にた
いして、声調のないPinyin音節および機能語(および小
辞/接辞)が分音符号なしでコード化され、またはマー
クされるので、これらの4つの分音符号キー(2040
−2070)が適している。しかし、非中国語(英語)
テキストと組み合わされたPinyinテキストを処理するた
め使用する実施例(および他の望ましい実施例)では、
別の分音符号キー、例えば無声調(分音符号)キー20
10が加えられる。例えば、Alt(前面)キーの一つ2
010をこの機能に使用することができる。混合テキス
ト(中国語と非中国語)の処理では、無声調キーがしば
しば使用されるので、2番目の無声調キー2020を標
準英文キーボードの第2Altキーの位置に加えて別の指
の操作用とすることが可能である。この実施例では、Al
tキーは控えのコントロール・キー2030の1つに再
割り当てさせる。英文キーボードは分音符号入力105
0を提供するためにキーボードの等価代替割り当てを有
するように容易に改良できる。
【0047】図3は、Pinyinテキスト処理における分音
符号の入力用の分音符号キー1060Bを有する改良型
英文キーボード1030の別な望ましい実施例である。
この実施例2100では、分音符号キー1060が標準
の矢印キー上の英文キーボード1050に加えられてい
る。加えられる分音符号キーは、高平調(第1声分音符
号)キー2120、高昇調(第2声分音符号)キー21
30、降昇調(第3声分音符号)キー2140、高降調
(第4声分音符号)キー2150を有する。オプション
として、無声調(分音符号)キー2110が混合テキス
ト(あるいは他のテキスト)の処理用に加えることもあ
る。
【0048】図4はキーボード1030の別の望ましい
実施例2200を示す図である。この実施例2200
は、米国英語のキーボードの配列1040の全てのキー
(あるいは2、3のキーを除き他の全て)をそのままに
しておける分割したスペース・バー2270を有する。
望ましい一実施例では、このスペース・バー2270は
4つのセクション(2230、2240、2250、2
260)に分割されている。スペース・バーの一番左の
セクション2230は高昇調(第2声分音符号)キー2
230に割り当てられている。つぎの最大のセクション
2260は、本来のスペース・バー2260として使用
される。右側の2つの小さなセクション(2240、2
250)は降昇調(第3声分音符号)キー2240、高
降調(第4声分音符号)キー2250にそれぞれ割り当
てられている。高平調(第1声分音符号)キー2220
はAltキーの一つに割り当てられている。
【0049】この配列は人間工学に基づいている。親指
はピアノ演奏では最も重要な指だが、タイプ操作ではそ
れ程ではない。この中国語キーボードのデザインは、親
指をもっと効果的に声調入力に利用することになる。こ
こで示された新しいスペース・バー2260はキーボー
ドの中央、つまり、FとJキーの間に位置している。両
手の親指は快適にそのスペース・バーを押すために使用
できる。従ってスペース・バーのサイズの縮小は、混合
テキストの処理の際に英文をタイプするうえでまったく
影響がない。手の平にたいして親指を曲げることによ
り、4つの声調キー(2220、2230、2240、
2250)は容易に届く。
【0050】Pinyin入力だけなら、無声調キー2210
は不要である。この実施例では、スペース・バーのキー
2260はPinyinだけの入力の場合は無声調キーとして
作動する。図4で、高降調(第4声分音符号)キー22
50および降昇調(第3声分音符号)キー2240の位
置は、それらの通常の言語学的な順番(つまり、第3
声、第4声という順)とは逆である。それは、高降調
(第4声分音符号)キーは降昇調(第3声分音符号)キ
ーより2倍以上の利用頻度があるからである。この逆の
配列は疲れを減少させ、入力効率を向上する。
【0051】混合テキスト(中国語と非中国語)の処
理、および中国語のみのテキスト処理の望ましい実施例
にたいして、無声調キー2210が加えられる。この望
ましい実施例では、無声調キー(分音符号)2210が
別のAltキーに割り当てられる。コントロール・キー2
280の一つはAltキーとして再度割り当てられる。
【0052】図5はキーボード1030の別の望ましい
実施例2300を示す。この実施例は、キーボード22
00でのように、高昇調(第2声分音符号)キー233
0、降昇調(第3声分音符号)キー2340、高降調
(第4声分音符号)キー2350を有する分割スペース
・バー2370を使用する。しかし、このキーボード2
300では、スペース・バー2370の中央の広い部分
2310が無声調(分音符号)に割り当てられている。
スペース機能はAltキーの一つ2360に設けられてい
る。これは、キーボード2300が混合テキストを入力
する時に特に有用である。他のAltキーは高平調(第1
声分音符号)2320として使用する。また、コントロ
ール・キーの一つはAltキー2380として再割り当て
する。この実施例は無声調キー2310を両手の親指の
届き易い非常に便利な位置に配置している。システム1
000が混合テキストを処理する時に無声調キー231
0は頻繁に使用されるので、そうした処理の際に有効と
なる。
【0053】キーボード2300は別のマークをキーに
加えることにより能力を高めることができる。例えば、
中国語では、左の引用符号2338および右の引用符号
2339は異なり、それぞれ単一のキーとして提供す
る。左のタイトル符号2341および右のタイトル符号
2342も、黒点2344、アポストロフィ2345、
小数点2337と共に加える。これらの符号も混合テキ
ストを入力するときに使用される。中国語のデリミッタ
として使用される位相符号もキー配列に設けてある。
【0054】キーの割り当ておよび再割り当ては公知方
法を用いて行われる。例えば、キーボード1030のプ
ロフィールは、キーの機能を規定するシステム1000
のメモリ(1100、1200)のファイル1070で
ある。RS/6000では、これは「キーボード翻訳テ
ーブル1070」と称される。このテーブル1070は
キーボード1030の各キーにたいして通常ASCIIコー
ドで文字、あるいはコントロールを割り当てる。このテ
ーブル1070内で割り当てたキー・コードを変更する
ことにより、キーボード1030のキーの機能が変わ
る。
【0055】ユーザはこのキーボード1030を使っ
て、このシステムにPinyinあるいは混合テキストを入れ
る(入力する)。ユーザが1つの中国語(Pinyin)音節
を入れた後、ユーザはその音節を有した適切な分音符号
を入れる。Pinyinだけのテキストを入力する時、アクセ
ントのない音節(および機能語)にたいして分音符号
(あるいはスペース)を入れない。混合テキストを入力
する時(あるいはPinyinを入力するために使用する別の
望ましい実施例で)、ユーザはアクセントのない各音節
(および機能語)の後で無声調分音符号を入力する。ス
ペース(あるいは同等の単語境界デリミッタ)を非中国
語の後に入れる。一般的に受け入れられている単語の境
界でPinyin(中国語)に境界をつける、このスペースが
システム1000の精度を向上する。しかし、この発明
を操作するため中国語に境界をつける必要はない。プロ
セス400を参照。
【0056】Pinyin(あるいは混合テキスト)入力はシ
ステム1000のメモリ(1100、1200)に記憶
させられる。望ましい実施例では、その入力はASCIIフ
ォーマットでエンコードされる。英語文字に対するコー
ド(および/あるいはGB2312-80漢字)に対するコード
を有する標準ASCIIコード・テーブルは分音符号を有す
るように改良する。望ましい実施例では、第1、第2、
第3、第4声分音符号を、共通にアクセントのある各母
音の大文字および小文字にたいしてコード化して固有の
分音符号を表示した(印刷した)Pinyin音節内の母音に
表示(印刷)することが可能である。
【0057】図6はPinyin(あるいは混合テキスト)入
力に対するASCIIコード化用のデータ構造300の望ま
しい実施例である。メモリ300のブロックは256の
メモリ位置を有する。これらのメモリ位置は0から25
5の番号が与えられている。この番号は、メモリ位置/
ASCIIコードの各々に割り当てるASCIIコードでもある。
【0058】このASCIIコードは、単一バイトの情報、
下位7ビット部分(メモリ位置0−127を表す)、お
よび上位7ビット部分(メモリ位置128−255を表
す)から作られている。単一の文字、句読符号、あるい
はコントロール機能は1つのメモリ位置に割り当てられ
る。例えば、大文字のローマ字「B」はメモリ位置66
に割り当てられ、「ESC(エスケープ)」機能はメモ
リ位置27に割り当てられ、「!」はメモリ位置33に
割り当てられている。
【0059】ローマ字、句読符号、および数字のコード
化は簡単に定義されるが、このASCIIコードには多くの
オプション位置がある。個々の国により、このオプショ
ン位置に割り当てる特殊な符号が異なる。
【0060】各分音符号は声調コードあるいは声調符号
により表される。望ましい実施例では、5(あるいは
4)つの声調コード(符号)は、全ASCIIコード・デー
タ構造300の下半分(0から127の7ビット)にあ
る数字(ASCIIコード)を有するメモリ位置に割り当て
られる。これらのメモリ位置は通信に使用される。それ
ゆえ、0から127の数字を有する分音符号ASCIIコー
ドを割り当てることにより、声調コードはネットワーク
1090を通じて通信が可能である。図6に示した特に
限定しない例では、声調コード(符号)の無声調30
1、高平調(第1声)302、高昇調(第2声)30
3、降昇調(第3声)304、高降調(第4声)305
をASCIIコード2、3、4、5、6を有するメモリ位置
にそれぞれ割り当ててある。これらは米国ASCIIコード
化におけるPokersのメモリ位置である。
【0061】この望ましい実施例では、また、1つのメ
モリ位置および1つのASCIIコードを各分音符号(高平
調(第1声)、高昇調(第2声)、降昇調(第3声)、
高降調(第4声))にたいする各母音(大文字と小文字
の両方)に割り当てる。無声調の場合はこのASCIIコー
ドの下位7ビット部分に位置させた英語の母音を使用す
ることができる。さらに、分音符号を有する大文字
「I」、「U」は、この母音で始まる音節はないので省
略する。従って、ASCIIコードに割り当てる分音符号を
有する32の母音がある。分音符号付の母音は、データ
構造300の上半分、つまり128から255にあるAS
CIIコード(128−159)を割り当てられる。
【0062】分音符号を有する母音を固有のASCIIコー
ドに与えることは、画像インターフェース1020上に
Pinyin音節を表示する時に、またPinyin音節を印刷する
際に有効である。システム1000は、音節の母音に固
有な分音符号で正確に綴った音節を表示および/あるい
は印刷するために付随の分音符号(301−305)と
ともに入力したPinyin音節を使用する。それゆえ、デー
タ構造300のメモリ位置128から159の分音符号
で割り当てられた母音を使用することにより、システム
1000は従来の方法でその母音についての分音符号を
有するPinyin音節を印刷/表示できる。例えば、キー操
作「Pin´」で入力したPinyin音節は「Pi´n」のように
表示/印刷される。
【0063】データ構造300の上半分に分音符号付の
母音(ASCIIコード128から159)を配列する利点
は、GBコードのみASCIIコード・データ構造300の
上半分160から255を使用することである。従っ
て、分音符号付のPinyin母音はGBコード(およびASCI
Iコードの下位7ビット)と共に記憶され、伝送するこ
とができる。
【0064】図7は、コンピュータ・メモリ(110
0、1200)あるいはディスプレイ(1020)のよ
うな有形の媒体にPinyin音節を入れる新規なプロセス4
00を示している。望ましい実施例では、プロセス40
0はキー操作(あるいは他の方法)でシステム1000
に入れた音節をチェックするため使用されるスペルチェ
ッカおよび自動エラー検出、訂正プロセスを提供する。
またプロセス400は最小の労力で中国語と非中国語
(英語)の混合テキストを入れ、処理し、記憶させるこ
とを可能とする。入力ユニットはシステム1000によ
り実行される入力プロセス400である。
【0065】ステップ401では、ユーザがキー操作に
よりキーボード1030を介して音節(ここでは中国語
か非中国語のどちらか)をれる。その音節が中国語な
ら、その音節の声調を表す分音符号を音節に続いて入れ
る。(ここでは、無声調分音符号はテキストの初めで使
用される。)非中国語、例えば英語の後には分音符号は
れない。さらに、非中国語は、例えばスペースなどの
特別なデリミッタにより境界を作られるのでステップ4
02で識別可能である。
【0066】中国語のみのテキストの場合には、無声調
音節あるいは機能語の後に分音符号を入れることはいく
つかの実施例では不要である。中国語のみのテキストの
入力では必要とされないが、システム1000は、単語
の分かち書き用の明確に確立した慣用方法が知られてい
る中国語間の境界にデリミッタを入れることにより精度
を向上する。これは、単語の境界でスペースのようなデ
リミッタあるいは他のコード(例えば、二重の分音符
号、「esc」)を入れることにより行うことが可能で
ある。この場合、はっきりと確立した単語の分かち書き
による中国語のリストがステップ403で参照されてそ
れらを非中国語音節/単語から区別する。
【0067】音節(あるいは非中国語)の終わりになる
と、システム1000は分音符号、例えば押された声調
キー1060(あるいはスペース)を読み取る。中国語
だけのテキストを処理する別の実施例では、無声調分音
符号は省略できる。これらの場合には、いくつかの無声
調(および符号なし)音節は別のものに添付させること
になる。これらの音節の文法的関係を説明するため、ス
テップ404では音節辞書700とストリングを比較す
る。辞書700の最長音節が初めに入力したストリング
と比較される。その入力ストリングの一部が最長ストリ
ングと照合すると、その照合したストリングが入力音節
として使用され、入力したストリングから削除される。
このプロセスが入力ストリングの残りの部分にたいして
繰り返され、辞書700の最長ストリングとの照合が見
つからない時は、辞書にある次に長い音節ストリングが
比較される。このプロセスは入力したストリングの全て
の音節が照合されるまで繰り返される。このプロセスは
「最長スロット照合」アルゴリズムと称され、この例は
公知である。Journal of the American Society for In
formation Science, Vol. 44, No. 9, 1993年10月号、5
32-542頁、著者 Z.Wu および G. Tsengによる「Chinese
text segmentation for text retrieval:achievements
and problems」を参照。
【0068】中国語だけのテキストと混合テキスト処理
における入力の望ましい実施例では、中国語のアクセン
トのない音節に印をつけるため無声調キーが使用されて
いる。これらの実施例では、全ての中国語の音節が分音
符号によりコード化(符号化)され、明瞭に区別され
る。それ故、中国語の音節の境界は明瞭に印をつけられ
る。この実施例は中国語の音節の略語も明瞭に区別さ
れ、音節リスト700に加えられることにより固有に識
別されるので、その略語も使用できる。音節略語の使用
は、音声による中国語テキストを入れるため必要なキー
操作の回数を大幅に減らすことになる。
【0069】混合テキスト処理で使用されたステップ4
02では、システム1000はその音節が中国語の音節
かどうか判定する。音節の後に分音符号(無声調分音符
号を含む)があれば、その音節は中国語である(ステッ
プ404)。分音符号がなければ、その音節(単語)は
非中国語、例えば英語であるとして処理する(ステップ
403)。また、非中国語の単語は、それのデリミッタ
により識別可能である(ステップ403)。非中国語の
単語はそれらの言語を処理する公知のシステムによりさ
らに処理、例えば綴りのチェックを行うことが可能であ
る。
【0070】声調キー(4つの声調キーの一つ、あるい
は無声調キーのどちらか)を押すと、コンピュータは前
の文字がPinyin音節を表すことを認識し(ステップ40
4)、次にその音節を綴りのチェック(ステップ40
5)と略語か別の綴りかのチェック(ステップ406)
にかける。両方のチェックで綴りの間違いがあるならス
テップ408へ進む。これらのステップ(405、40
6、408)は図10乃至図21に示す中国語音節リス
トのデータ構造700を使用する。
【0071】図10乃至図21に示す中国語音節リスト
は北京方言中国語(以下、北京語と称す)に対して用い
られる望ましい音節リストの一つである。北京語には1
300を越える音節(異なった声調を含む)があるの
で、それらの音節を2バイト・コードのスペース(65
536スペース)の小さい部分でコード化することが便
利である。音節の各々には固有の2バイト・コードある
いは「short integer」を割り当てる。詳細には、各音
節を表すASCIIコードのストリングは中国語音節リスト
700の2バイト・コードを割り当てられる。例えば、
北京語Pinyin音節の「Pi´n」は2バイト・コード「8
14」を割り当てられる。各音節は固有の母音の上の声
調分音符号を含む標準的な綴り形状に対応する。リスト
700に略語を加えるため、その略語は、略語にされた
音節と同じ2バイト・コードに割り当てられる。例え
ば、略語「d」は「de」を表す音節リスト700のコ
ード212に割り当てられる。音節リスト700はメモ
リ(1100、1200)の比較的小さい分量を必要と
する。
【0072】中国語音節が現れた後(ステップ40
4)、システム1000は照合するために中国語音節リ
スト700を検索する。照合が得られると、ステップ4
04の音節は標準つづり、つまり中国語音節リスト70
0の綴りと共に入力され、その入力キー操作ストリング
は中国語音節リスト700の照合した単語の2音節コー
ドと入れ替わる。例えば、中国語音節「Pin´」を入力
すると、システム1000はASCIIコード・ストリング
{80、105、110、6}を有するキー操作を表
す。図6を参照。この中国語音節リスト700の照合チ
ェック(ステップ404)の時に、システムはこのスト
リングが2バイト・コード814によって示される「Pi
´n」に対応することを見つける。図17参照。このよ
うに、この2バイト・コード814はメモリ内のこの音
節用のASCIIコード・ストリングと入れ替わる。それ
故、標準綴りが検知されると(ステップ405)、音節
全体が1300の中国語音節の1つとして母音の上に正
確に声調分音符号をつけてモニタに表示され(ステップ
411)、かつメモリ1010/1020に(2バイト
・コードにより)記憶される(ステップ412)。この
Pinyin表示(ステップ411)は画像インターフェース
1020のPINYINを表示している部分1021に示され
る。
【0073】同様にして、ユーザが中国語音節を略語あ
るいは速記による綴りを入力すると、その速記綴りを示
すASCIIコードが中国語音節リスト700の登録内容と
比較させられる(ステップ406)。照合すると、速記
(略語の)音節が固有かつ明瞭なPinyin音節フォームに
変換させられる(ステップ407)。つまり、その速記
綴りの登録ASCIIコードが固有かつ明瞭なPinyin音節に
対応の2バイト・コードで入れ替わる。略語にされる音
節全体を印刷することになるコードとともに、再び、略
語が中国語音節リスト700に加えられる。
【0074】中国語音節の略語あるいは速記綴りの例を
以下に示す。例えば、「zi, si, ci, ji, qi, xi」等は
混乱なく「z, s, c, j, q, x」と略すことができる。同
様に、「yi, wu, yu」も混乱なく「i, u, v」と略せ
る。他の例では、「shg」は「sheng」の略、「xg」は
「xing」、「qag」は「qiang」、「jo」は「jiao」とい
うようにそれぞれ明瞭に略すことができる。
【0075】音節分離マークを有する音節では、「Xi´
an」におけるような音節分離マークは全部一緒の印字を
避けることができるが、表示の際は示される。本発明の
システム1000とプロセス400を用いて、上記例の
速記タイプは学習の必要がないほど便利である。少しば
かりの学習で、速記書きの音節の数は増やすことができ
る(中国語音節リスト700に加えて)。
【0076】間違いのある綴りが検出されたら(ステッ
プ408)、つまりテーブル700で照合がないなら、
最も近い音節が表示される(ステップ409)。これ
は、中国語音節リスト700から選択した近似選択のメ
ニュ、つまり最良の照合1023を提示することにより
行われる。ユーザは、マウス1031あるいはキーなど
の選択装置を使用して、そのメニュから固有の音節を選
択する(ステップ409)。上記のように、コンピュー
タがこの選択した音節を2バイト値としてコード化し、
メモリ412に記憶する(ステップ412)。
【0077】例えば、スペース・バー、キャリッジのリ
ターン、句読符号キーのようなデリミッタが検出されな
いなら(ステップ413)、このプロセス400は次の
音節用に繰り返される(415)。デリミッタが検知さ
れると、そのストリング全体は単語ストリングとして記
憶される(ステップ414)。モニタ上では、この単語
ストリングの正確なPinyin綴りが画像インターフェース
1020のPinyin部分1021に表示される。デリミッ
タ間の単語ストリング414は、そのデリミッタが(一
般的に受け入れられている方法により)入れられた時に
単一の語として処理され、この単語はこのデリミッタに
よりコード化された、あるいはマークをつけられた固有
の単語境界を有すことになる。しかし、そのデリミッ
タが構成語の境界の各々の位置に置かれないなら、例え
ば、構成語を区切るために一般的に受け入れられている
単語の境界がない時など、単語ストリング(414)は
2以上の単語(構成成分)および/あるいは接辞を含む
ことがある。
【0078】ステップ414では、Pinyinフォームでコ
ード化したテキストが、特別な読取り専用メモリROM
1081を有するプリンタ1080を使用してPinyin音
節として印字することもできる。そのROMはテーブル
700の2バイト・コードを求められた音節の固有の母
音上に声調記号をつけたローマ字ストリングに変換す
る。そして、そのテキストは外国人用の口語中国語の全
ての教本でのように、中国語フォームで連続的かつ読取
り可能な印字となる。
【0079】図8および図9は、システム1000に入
れられた中国語テキストを、例えばプロセス400によ
り処理する方法のフローチャートである。望ましい一実
施例では、中国語テキスト1022がこのシステムのキ
ーボード1030のキー操作により入れられ、前述のよ
うに画像インターフェース1020のPinyin部分102
1に表示させられる。同時に、ステップ414で記憶し
た単語フォームのPinyin入力がプロセス500により漢
翻訳1025に変換され、画像インターフェース10
20の漢字部分1024に表示される。それ故、ユーザ
がキーボード1030を介して入力したPinyinテキスト
と分音符号は、画像インターフェース1020のPinyin
部分1021上に(プロセス400により固有の母音上
に付けた分音符号とともに)Pinyinテキスト1022
と、プロセス500により画像インターフェース102
0の漢字部分1024に表示された入力Pinyinの正確な
漢字翻訳1025を示す。別の実施例では、分音符号付
のPinyinテキストはキーボード1030以外の手段、例
えばネットワーク1090、音響システム1033、あ
るいはディスケットのような磁気媒体1032などによ
りシステム1000に入れることができる。
【0080】プロセス500はPinyin入力を漢字に翻訳
する。システム1000はPinyinと漢字を別の方法で処
理することができる。例えば、Pinyinテキスト1022
及び/あるいは漢字テキスト1025は印刷可能であ
る。あるいは、Pinyinテキスト1022および/あるい
は漢字テキスト1025は公知の言語翻訳装置1034
に入れ、英語のような他の言語に翻訳することができ
る。
【0081】プロセス500、600は、単語の境界お
よびアクセントのある音節にたいする分音符号のコード
(マーク)付けを全面的に利用する。この2つのプロセ
スは共に、Pinyin書式の様々な形式を多数扱い、また高
い変換精度を達成する。例えば、中国語にはっきりと確
定した境界でデリミッタをつけると、入力語(501)
は一つの固有の単語として認識される(ステップ51
1)。単語が他の「語」との境界がないなら、言語形態
論ユニットであるシステム1000で実行するプロセス
500が、その単語ストリングを言語形態的に分析し、
および/あるいは分解する。それ故本発明は単語ストリ
ング内の構成「語」を判定することが可能である。これ
は語彙950および上記した「最長一致法」(longest
string matching)アルゴリズムを使用して行われる。
【0082】本発明は、次の慣行のいずれかについても
Pinyinから漢字に正確に処理可能である。すなわち、
(1型)単語の一部として含まれる接辞、あるいは(2
型)単語から分離する小辞としての接辞、である。望ま
しい一実施例では、(2型)の接辞(小辞)は機能語と
して取り扱っている。(1型)については、プロセス5
00は言語形態的分析を行う。つまり、未確認の単語に
含まれる標準接辞(1型)が取り除かれ、残った単語ス
トリング(語根)が接辞なしで分析される。(2型)の
処理では、取り除かれた接辞が機能語として処理され
る。
【0083】プロセス500は単語ストリング入力を処
理するため言語形態学を使用する。言語形態学は、言語
における単語形成の研究である。ここでの単語形成は特
に接辞に関し、単語の意味が接辞によりどのように影響
を受けるかというものである。英語、ドイツ語、スペイ
ン語、フィンランド語、ハンガリー語等のほとんどのヨ
ーロッパ系言語の綴りでは、接辞の付き方により単語の
意味が変わる。例えば、英語の表現の「Calvin and Dor
othy's Department Store(カルバンとドロシィの百貨
店)」では、「s」は「Calvin and Dorothy(カルバン
とドロシィ)」の両方に属するが、「Dorothy」の後に
だけ付けられる。
【0084】プロセス500は例えばステップ414の
入力語あるいは単語ストリングの言語形態を分析する。
このアルゴリズムは入力語(ストリング)を登録語彙
(辞書)950と比較することにより開始する。登録語
彙950は音声中国語および/あるいは略語(Pinyinお
よび/あるいはBPMF)と、それらの漢字翻訳の表であ
る。中国語の公知の辞書950も使用可能である。例え
ば、Yuwen Chubanshe 語学出版舎による1989年出版の
「Hanyu Pinyin Cihui」がある。このような辞書は、別
の公知の辞書と組み合わせること、および/あるいは、
他のソースから漢字翻訳付きの中国語を追加することに
より改良可能である。
【0085】登録語彙の1以上の語とステップ501で
の入力語(単語あるいは単語ストリング)が照合するな
ら(ステップ510)、次にその固有性がチェックされ
る(ステップ511)。チェックの結果、不明瞭でない
なら、つまり登録語彙との照合が単一なら、その語は漢
字に変換され、画像インターフェースの漢字部分102
4に表示される(ステップ550)。不明瞭なら(つま
り、入力語の音声に対応する登録語彙の漢字が以上あ
るなら)、その複数の語をさらに検討するため記憶する
(ステップ540)。
【0086】入力語(501)が登録語彙にないなら、
言語形態学的分析をその入力語(ストリング)について
おこなう。入力語の一部を機能形態素、あるいは接辞の
リストと比較する(ステップ522)。望ましい接辞の
リスト800は図22に示した。標準的な接辞があれ
ば、つまり、接辞リスト800上にあれば、その接辞を
切り離し(ステップ524)、入力語の残った部分(語
根)を再度、登録語彙950と比較する(ステップ51
0)。その語根が登録語彙にあれば、上記したようにス
テップ511に進む。語根が語彙になく、その語根にさ
らに接辞があれば(ステップ522でYES)、ステップ
524が繰り返されて語根に残った標準接辞を切り離
す。
【0087】標準接辞がステップ522で認められない
なら、つまり、入力語のストリング(501)が接辞リ
スト800にないなら、単語ストリングあるいは語根を
分解する(ステップ530)。望ましい一実施例では、
語根を登録語彙950と比較することによる上記の「最
長一致法」を使用して語根を分解する。
【0088】単語ストリングがつ以上の構成成分から
成るなら、各構成成分の固有性を調査する(ステップ5
31)。構成成分が固有なら、その単語は複合語と考え
られ、対応の漢字のストリングが表示され、かつ記録さ
れる(ステップ550)。その単語が曖昧なら(ステッ
プ531)、例えば、入力語(501)の構成成分が1
以上あり、以上の漢字翻訳を有し、および/あるい
は、その単語ストリングを分解するための方法が以上
あるなら、これらの違いは次の考察(ステップ540)
のために記憶する。
【0089】ステップ540では、句全体(あるいは
節、あるいは文)、つまり単語ストリング入力(50
1)が、句読符号、キャリジ・リターン、あるいはユー
ザにより割当られた句のデリミッタにより境界を示され
た文字のストリングと判定される。その句は曖昧な単語
の意味を判定するために分析される。後述の図9のプロ
セス600を参照。ステップ540の後、漢字形態の文
(句、節)全体が表示される(ステップ550)。画像
インターフェース1024の表示テキストになにか間違
いがあれば(ステップ560)、ユーザは手動でその
句、文、あるいは節を訂正する。
【0090】後述する(プロセス600)本発明により
使用した統語論的分析の説明を補助するため、口語(声
調やアクセント)、機能語、小辞、接辞、概念語等の音
響的特徴の発見の説明を行う。
【0091】しばしば見落とす口語中国語の重要な音声
的現象がある。世界の全ての口語言語と同じように、中
国語では、個々の音節の単なるストリングにより提供さ
れる情報に加えて、口語の音響学的分析により提供され
る情報が多量にある。中国語では、各単語はその意味を
理解するうえで非常に重要な口語の音響的特徴を生み出
すアクセント構造を持っている。単語を形成するために
複数の音節が一グループとされる事が単語のアクセント
構造、口語の音響学的特徴、単語の理解等に影響を与え
る。
【0092】また、単語の分離(音節のグループ化)お
よび(音響的に喋った)単語の同一基準のアクセント構
造等は口語言語に含まれた情報の一部である。中国語に
ついて、声調、つまり口語音響学的特徴の一部が同様に
重要である。中国語では、音節の声調はアクセントのあ
る音節でのみ顕著である。アクセントのない音節にたい
しては、声調は非常に弱いか完全にないか、どちらかで
ある。
【0093】中国語を含んだほとんどの言語において、
機能語(function words)と概念語(national words)
がある。概念語は全ての名詞、全ての動詞、全ての形容
詞、そして大部分の副詞を含む。例えば、man(人)、r
un(走る)、fast(速い)、quickly(迅速に)等は概
念語である。機能語は冠詞、前置詞、および接続詞のい
くつかを含む。例えば、a、the、to、from、but等であ
る。分離した小辞として示した接辞は機能語の特徴を有
する。
【0094】中国語の機能語は、主に文法的な関係およ
び/あるいは辞書的意味を表すよりも他の語の機能を表
す無強勢語である。機能語は前置詞、助動詞、接続詞、
副詞、感嘆詞、冠詞および、特定の代名詞等を含む。中
国語では、機能語(冠詞、前置詞、後置詞等)、小辞の
形の接辞、複音節語の接辞は常にアクセントがない。機
能語(および小辞の形の接辞と複音節語の接辞)は声調
を持たないか、非常に弱い声調を持つ。
【0095】概念語は辞書的意味を有する単語である。
中国語では、概念語は全ての名詞、全ての主な動詞、全
ての形容詞、そして大部分の副詞を含む。概念語は機能
語以外の中国語の全ての語を含む。概念語のアクセント
構造は方言により異なる。
【0096】現在まで、言葉を聞く人がその言葉の単語
を理解するために直観的に概念語と機能語をどのように
識別するか分かっていない。これは特に中国語にあては
まる。中国語では、機能語と接辞の声調は非常に弱いか
完全に無くなっており、また中国語の公知で識別される
機能語の数は限られているので、口語中国語が何と言わ
れているのかを理解するため聞いている人によって機能
語は直観的に使用される。
【0097】中国語を理解する上で機能語、概念語、声
調の重要性をさらに増幅するため、概念語のアクセント
構造と機能語(および接辞)の使用について説明する。
【0098】上海方言は概念語のアクセント構造と機能
語の使用の明白な例を示している。どの概念語も、顕著
な声調を有するアクセントのある音節で始まる。単語の
他の全ての音節は全くアクセントを持たないので、初め
の音節に続く音節の声調は弱められる。例えば、上海語
では、wenti(質問)およびdianhua(電話)という名詞
は常に初めの音節にアクセントがある。
【0099】上海方言の機能語はアクセントがない。機
能語が概念語に続く時、機能語は時として小辞ではなく
概念語の接尾辞(つまり、接辞)と解釈できる。しか
し、この発見の一部は聞いている人間の観点からのもの
であり、これらの2つの解釈(機能語が小辞あるいは接
尾辞である)は基本的に違いはない。
【0100】北京方言や北京官話(標準中国語)では、
アクセント構造は少し異なる。
【0101】北京方言のほとんどの場合、概念語のアク
セントは初めの音節にある。しかし、初めの音節の代わ
りに最後の音節にアクセントがある場合もたくさんあ
る。
【0102】北京官話は標準中国語である。官話では、
アクセントは通常初めの音節にある。音節が3つより多
い単語では、「枠取りをした」アクセント構造が見られ
る。つまり、初めと終わりの音節にアクセントがあり、
その間の他の音節はアクセントがなく、声調は弱いか、
無い。官話の複音節概念語は少なくとも1つのアクセン
トがあり、通常、初めの音節にある。例えば、taiqilai
という音節ストリングでは、初めの音節のtai(左)に
アクセントがある。残りの2つの音節については、音響
学的エネルギを大きく低下させるだけではなく、声調も
非常に弱くするか完全に無くす。「taibuqi tou lai」
という句では、taiとtouの2つの音節がアクセントを有
する。残りの音節のba、qi、laiは弱く、声調無しか殆
ど無しである。「lai」は声調のない接辞であり、慣行
では、分離小辞として記述する。
【0103】北京方言と北京官話の両方では、機能語は
規則としてアクセントを有さず、機能語の声調は弱い、
あるいは失われている(退化)。
【0104】この発見は、口語中国語を聞く人が単語の
境界を区別したり、単語を分類したり、単語の意味を判
断したりするため概念語(声調のある音節および声調の
ない音節)のアクセント構造や無声調の機能語(および
接辞)を直観的に使用することである。この自然の音声
現象は、中国語の言語学的原理の異なった観点および/
あるいは中国語で単語や句を書く方法から独立してい
る。本発明はこの現象に基づいた規則を開発し応用す
る、また、音声中国語のを処理(入力し、分析し、翻訳
し、書き込む)精度を改良するため、これらの規則を適
切なプロセスで履行実行する。
【0105】従来技術では今まで認識されていなかった
音声関係の発見の説明を完成させ、プロセス600によ
り行われる統語論的分析にこの関係がどのように使用さ
れるかを以下に説明する。
【0106】新規な統語論的分析方法は図9にプロセス
600として示す。このプロセスは上記したように、発
見した原理を用いて句(あるいは節、あるいは文)全体
を分析する。
【0107】ステップ501の単語ストリング(節ある
いは文)は、句読符号、キャリッジ・リターン、あるい
はユーザにより割り当てられた入力のような句デリミッ
タで分けられる。望ましい実施例では、これらのデリミ
ッタ、あるいは句デリミッタはスペース(キー236
0)、句構造標識(キー2336)、中国語の終止符2
335、左の引用符(キー2338)、右の引用符(キ
ー2339)、左の表題符号(キー2341)、右の表
題符号(キー2342)、感嘆符(キー2311)、コ
ンマ(キー2312)、スラッシュ(キー2313)、
左の括弧(2314)、右の括弧(キー2315)、コ
ロン(キー2316)、セミコロン(2316)、黒丸
(キー2344)、疑問符(キー2317)等を含む。
声調キー(2310、2320、2330、2340、
2350)への2度打ちも句デリミッタとなる。(ここ
で括弧内に示したキーは句デリミッタを入れるキーボー
ド2300の実施例におけるキーを示す。)これらの句
デリミッタは単語の境界、つまり、1つの句の終わりと
別の句(501)の初めを明瞭に規定する。
【0108】ステップ511、531で示したように、
1つ以上の不明瞭な単語を持つ句をプロセス600に入
力する(ステップ601)。統語論ユニットはシステム
1000で実行されるプロセス600である。
【0109】初めに、句601の単語成分を声調分音符
号の存在により分類する。1つ以上の分音符号を有する
単語(ステップ610)は概念語(ステップ620)で
ある。しかし、分音符号のない単語(ステップ611)
は、不注意に分音符号をはずしてしまった概念語、非中
国語、機能語、接辞あるいは独立小辞として書かれた接
辞が考えられる。混合テキストの入力では、非中国語の
単語はスペース(あるいは別の同等の文字、例えば、Es
c)により分けられ、認識される。
【0110】分音符号なしの単語(ステップ611)が
機能語か判定するため、その単語(611)を機能語リ
スト800と比較する。ほとんどの言語学者により機能
語の数は100未満と限定されている。その単語(61
1)が機能語リスト800にあるなら、それは機能語で
ある。各機能語の意味が固有に定義される。望ましい機
能語リスト800は図22に示してある。
【0111】同様な方法で、分音符号なしの単語(61
1)は接辞リスト(リスト800にも含まれている)と
比較させて、それらが接辞および/あるいは独立小辞と
して書かれた接辞かどうか判定する。これらの独立小辞
の意味が固有に定義される。望ましい小辞/接辞のリス
トも比較的短く、20未満の登録である。漢字翻訳を有
する小辞接辞は図22の機能語のリストに含まれる。
【0112】機能語、小辞、および接辞のリストのデー
タ構造800はコンピュータのメモリ(1100、12
00)内で必要とする容量は比較的少ない。
【0113】全ての機能語(および/あるいは小辞、接
辞)が識別され、固有に定義されると、句/文構造がス
テップ630で分析される。その機能語(小辞/接辞)
の意味と機能は分かっているので、特定の機能語(接
辞)の前後の単語のタイプは限定される。それゆえ、1
つ以上の機能語(小辞/接辞)を有する不明瞭な概念語
の関係を使用することにより、概念語の不明瞭さはステ
ップ640においてさらに減少させることができる。例
えば、1つの不明瞭な概念語についてプロセス500の
ステップ540で識別された5つの候補語があるなら、
その不明瞭語の前後の機能語(接辞)を知ることにより
その候補語の1つを除いて、いくつか、あるいは全てを
除去する。
【0114】例えば、機能語と考えられる前置詞810
が図22にリストされている。これらの前置詞は名詞あ
るいは名詞句が続く。これらの前置詞に続く概念語が名
詞あるいは名詞句でない翻訳を有するなら、この不明瞭
な翻訳は除く。
【0115】時制小辞820(le、zhe、guo)は通常、
動詞に続く。それゆえ、これらの後続する小辞を有する
不明瞭な概念語は動詞として翻訳する。この概念語にた
いする別の翻訳が動詞でないなら、それらは削除する。
【0116】関係小辞830(de、zhi)は通常、名詞
あるいは形容詞に続く。それゆえ、これらの後続する小
辞を有する不明瞭な概念語は名詞あるいは形容詞として
翻訳する。別の不明瞭な翻訳は削除する。
【0117】接続詞(he、ji、gen)840は機能語で
あり、通常名詞の間にある。それゆえ、これらの接続詞
840のどちらかの側にある不明瞭な概念語は名詞とし
て翻訳する。別の不明瞭な翻訳は削除する。
【0118】接続詞850は通常、句の間にある機能語
である。概念語はこれら接続詞850のどちらか側にあ
り、句の一部と考えられる。
【0119】名詞接尾辞860は、通常、名詞の一部の
接辞である。これら接尾辞860の前に付く概念語は名
詞として翻訳する。別の不明瞭な翻訳は削除する。
【0120】形容詞あるいは副詞の後につく形容詞、副
詞接尾辞870がある。形容詞あるいは副詞ではない翻
訳を有するこれら接尾辞(小辞)の前の概念語は除く。
【0121】hen-、zui-、bu-、geng-を含む形容詞接頭
辞および副詞接頭辞もある。これらの小辞/接辞は形容
詞あるいは副詞の前につく。これらの接頭辞(小辞)に
続く概念語が形容詞あるいは副詞ではない翻訳を有する
なら、これらの不明瞭な翻訳は除去する。
【0122】手動で訂正する間違いのある翻訳を生み出
すこれら規則の希な例外がある。
【0123】リスト800は機能語、小辞、接辞の略語
は含まない。略語は別な実施例に含むことが可能であ
る。
【0124】ステップ640で不明瞭さが残るなら、つ
まり、可能性のある概念語が以上存在するなら、その
句における関連語発生の統計を、残りの概念語候補の最
も可能性のある語を示すために適用する(ステップ64
1)。このような統計モデル641は音声認識技術にお
いて公知である。例えば、RabinerとJuangによる「Fund
amentals of Speech Recognition」447から450頁、1993
年を参照。
【0125】望ましい一実施例では、この結果を画像イ
ンターフェース1020の漢字部分1024に表示する
(ステップ650)。明瞭に分析できない単語があれ
ば、残りの候補を画像インターフェース1020上でユ
ーザにたいして提示して、位置決め装置1031によっ
てユーザが選択できるようにする。さらに、表示した結
果1025(ステップ650)はユーザによる手動訂正
にかける。別の実施例では、最終表示はプリンタで印刷
可能であり、あるいはネットワーク接続1090を通じ
て転送可能である。表示結果650は他のコンピュータ
・システム、例えば、漢字テキストを他の言語に翻訳す
る翻訳装置1034に漢字入力する。
【0126】プロセス500、およびプロセス600を
使用して、単語ストリングが一般的に認められている慣
行により分けられてない、あるいは境界で分けられてな
くても、システム1000は入力単語501の構成語の
意味と漢字翻訳を判定することができる。
【0127】上記した記述により、当業者は本発明者の
意図したものの範囲内にある別の実施例を開発できるで
あろう。例えば、図5に示したキーボードと同様なもの
がBPMF音声アルファベットの37の文字を含むようにデ
ザインする事が可能である。この音声アルファベット用
のキー割当はユーザ/製造者の選択に依存する。37文
字のASCIIコード割当は、図6の上位7ビットの範囲で
行うことができる。BPMFの分音符号はキーボード上およ
びASCIIコード・テーブルに設けることも可能である。
しかし、幾分か改良は必要である。例えば、高平調(第
1声)に対する分音符号を設けることが可能である。BP
MFにたいする音節テーブル700および機能語、小辞、
接辞テーブル800はPinyinのケースに対する1対1の
対応を有する。図7、図8、図10乃至図21に示した
プロセスも同様に適応する。
【0128】
【0129】
【0130】
【発明の効果】本発明によれば、中国語の単語の分け方
についての異なった言語学論理や異なった習慣があるの
もかかわらず、比較的少ない語彙(メモリ)を必要とす
る正確なコンピュータ・システムと、音声中国語(Piny
in又はBPMF)入力を文字表記(漢字)に変換するプロセ
スを提供でき、また、中国語のテキストを入力、処理し
易くするための利便性のよいコンピュータ用キーボード
を提供できる。さらに、自動的にエラー検知、訂正をお
こなう音声中国語用のコンピュータ処理システムを提供
可能であり、中国語と非中国語(例えば、英語)の混合
テキストを処理できる。
【図面の簡単な説明】
【図1】本発明の望ましい実施例を示すブロック図であ
る。
【図2】本発明に使用されたキーボードの望ましい一実
施例を示す概略図である。
【図3】声調キーを備えたキーボードの一部分の実施例
を示す概略図である。
【図4】各キーボードが声調キーとして使用する分割型
スペース・バーを有する本システムに使用するキーボー
ドの別の望ましい実施例を示す概略図である。
【図5】各キーボードが声調キーとして使用する分割型
スペース・バーを有する本システムに使用するキーボー
ドの別の望ましい実施例を示す概略図である。
【図6】下部7ビットでの声調分音符号と、上部7ビッ
トでの声調分音符号を有する全ての利用可能な母音を含
むASCIIコードのデータ構造の望ましい実施例を示す表
である。
【図7】メモリにおけるPinyin単語登録を作成するキー
ボード入力のための望ましいプロセスを示すフローチャ
ートである。
【図8】Pinyinフォームで書かれた中国語にたいする形
態学的分析と分解プロセスを示すフローチャートであ
る。
【図9】曖昧な単語ストリングを有するPinyin入力を処
理するための望ましい統語論的方法を示すフローチャー
トである。
【図10】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストを有する表である。
【図11】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図12】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図13】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図14】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図15】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図16】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図17】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図18】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図19】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図20】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図21】各音節にたいし1つのコード・フォームを有
する中国語音節の望ましいリストであり、図10の表の
一部である。
【図22】中国語の機能語、小辞、および機能語として
扱われる接辞の望ましいリストを有する表である。
【符号の説明】
300 データ構造 400 プロセス 500 プロセス 600 プロセス 700 中国語音節リスト 800 機能単語/接辞リスト 950 中国語辞書 1000 システム 1010 CPU 1020 画像インターフェース 1021 分割スクリーンの第1セクション 1024 分割スクリーンの第2セクション 1031 位置決め装置 1040 音節入力キー 1050 声調識別キー 1090 ネットワーク 1100 主メモリ 1200 メモリ記憶装置
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−103768(JP,A) 特開 昭64−36366(JP,A) 特開 平6−290183(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/26

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】中国語テキストを処理するためのコンピュ
    ータ・システムであって、 A)音声中国語の句は1つ以上の単語を有し、各単語は
    1つ以上の音節を有し、各音節は1つ以上の文字を有
    し、第1の句デリミッタと第2の句デリミッタ間の文字
    のストリングである上記音声中国語の句を入力する入力
    装置と、 B)複数の音声中国語の接辞の登録を有する接辞リスト
    と、 C)漢字翻訳つきの複数の音声中国語の単語のリストを
    有する中国語単語の辞書と、 D)上記入力した音声中国語の句から上記接辞リスト上
    の接辞の少なくとも1つの接辞を除去して語根を作成
    し、上記辞書にある1つ以上の単語と該語根を比較して
    両者が一致するかどうかを判定し、上記語根と一致した
    上記辞書にある単語の漢字翻訳をコンピュータのメモリ
    に記憶する形態学ユニットとを有することを特徴とす
    る、上記コンピュータ・システム。
  2. 【請求項2】上記語根をアクセントのある語とアクセン
    ト無しの語に文法的に分解する統語論的ユニットをさら
    に有し、アクセントのある語は分音符号で印をつけ、ア
    クセント無しの語は分音符号をつけないことを特徴とす
    る、請求項に記載のシステム。
  3. 【請求項3】上記登録は接辞、機能語、小辞を含み、各
    登録は漢字翻訳を有し、上記統語論的ユニットは上記登
    録の少なくとも1つと上記アクセント無しの語と照合さ
    せ、上記アクセント無しの語と一致する登録は一致判定
    済み登録であり、上記統語論的ユニットは上記句のアク
    セント無しの語の翻訳として上記一致判定済み登録の漢
    字翻訳を使用することを特徴とする、請求項に記載の
    システム。
  4. 【請求項4】上記統語論的ユニットは、上記アクセント
    のある語の少なくとも1つを不明瞭な概念語としてさら
    に翻訳し、その不明瞭な概念語は上記辞書に上記不明瞭
    な概念語の漢字翻訳が少なくとも2つあるので不明瞭さ
    を有するとされ、そして上記統語論的ユニットは上記句
    にある少なくとも1つのアクセント無し語と上記不明瞭
    な概念語との関係を使用して上記不明瞭さを除去するこ
    とを特徴とする、請求項に記載のシステム。
  5. 【請求項5】上記第1の句デリミッタおよび第2の句デ
    リミッタは、キャリッジ・リターン、スペース、句構造
    標識、中国語の終止符、左の引用符、右の引用符、左の
    表題符号、右の表題符号、感嘆符、コンマ、スラッシ
    ュ、左の括弧、右の括弧、コロン、セミコロン、黒丸、
    疑問符、声調キーの2度以上の打健のいずれか1つであ
    ることを特徴とする、請求項に記載のシステム。
  6. 【請求項6】上記形態学ユニットは単語が上記辞書にあ
    る単語の1つと一致しない場合にその単語を構成語に分
    解し、かつ上記統語論的ユニットはその構成語を文法的
    に解析することを特徴とする、請求項に記載のシステ
    ム。
  7. 【請求項7】コンピュータ・システムのコンピュータ・
    メモリに音声中国語の音節および単語を記憶させる方法
    であって、 a.入力装置を使用して上記コンピュータ・システムに
    1つ以上の文字を入力するステップで、1つの音節は1
    つ以上の文字を有し、1つの単語は1つ以上の音節を有
    し、1つの句は1つ以上の単語を有し、該句の該単語は
    2つの句デリミッタ間にあり、上記音節は上記音節の声
    調を表す分音符号で印を付けられ、上記音節は2つの分
    音符号間にあり、上記文字を入力するステップは入力し
    た各文字に対する文字コードの記憶および上記音節の1
    つに印をつける各分音符号に対する声調コードの記憶で
    あり、 b.上記音節の1つ以上を中国語音節として認識するス
    テップで、1つの中国語音節は1つ以上の文字コードの
    ストリングと声調コードであり、 c.上記中国語音節の文字コードのストリングを音節リ
    ストと照合させるステップで、該音節リストは各々1つ
    以上の音節ストリング・コードと関連する複数の音節ス
    トリングを有し、 d.一致した音節ストリングを上記コンピュータ・メモ
    リに記憶させるステップで、上記一致した音節ストリン
    グは上記中国語音節の文字コードのストリングと一致す
    る音節ストリング・コードに関連する音節ストリングで
    あることを特徴とする上記方法。
  8. 【請求項8】上記ステップaからdは、1つの句デリミ
    ッタが入力されるまで繰り返され、上記コンピュータ・
    メモリに記憶させた1つ以上の一致した音節ストリング
    は1つの単語ストリングであることを特徴とする、請求
    に記載の方法。
  9. 【請求項9】コンピュータのメモリに音声中国語の音節
    および単語を記憶させるための方法を実行するため、そ
    のコンピュータにより実行可能な命令のプログラムを記
    憶する、コンピュータにより判読可能なプログラム記憶
    装置であって、上記方法が、 a.入力装置を使用して、上記コンピュータ・システム
    に1つ以上の文字を入力するステップで、1つの音節は
    1つ以上の文字を有し、1つの単語は1つ以上の音節を
    有し、1つの句は1つ以上の単語を有し、該句の該単語
    は2つの句デリミッタ間にあり、上記音節は上記音節の
    声調を表す分音符号で印を付けられ、上記音節は2つの
    分音符号間にあり、上記文字を入力するステップは入力
    した各文字に対する文字コードの記憶および上記音節の
    1つに印をつける各分音符号に対する声調コードの記憶
    であり、 b.上記音節の1つ以上を中国語音節として認識するス
    テップで、1つの中国語音節は1つ以上の文字コードの
    ストリングと声調コードであり、 c.上記中国語音節の文字コードのストリングを音節リ
    ストと照合させるステップで、該音節リストは各々1つ
    以上の音節ストリング・コードと関連する複数の音節ス
    トリングを有し、 d.一致した音節ストリングを上記コンピュータ・メモ
    リに記憶させるステップで、上記一致した音節ストリン
    グは上記中国語音節の文字コードのストリングと一致す
    る音節ストリング・コードに関連する音節ストリングで
    あることを特徴とする上記プログラム記憶装置。
JP17390296A 1995-08-16 1996-07-03 中国語テキストを処理するためのシステムおよび方法 Expired - Fee Related JP3277123B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/515,547 US5893133A (en) 1995-08-16 1995-08-16 Keyboard for a system and method for processing Chinese language text
US515547 1995-08-16

Publications (2)

Publication Number Publication Date
JPH09128383A JPH09128383A (ja) 1997-05-16
JP3277123B2 true JP3277123B2 (ja) 2002-04-22

Family

ID=24051782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17390296A Expired - Fee Related JP3277123B2 (ja) 1995-08-16 1996-07-03 中国語テキストを処理するためのシステムおよび方法

Country Status (6)

Country Link
US (2) US5893133A (ja)
JP (1) JP3277123B2 (ja)
KR (1) KR100259407B1 (ja)
CN (1) CN1191514C (ja)
SG (2) SG87039A1 (ja)
TW (1) TW411421B (ja)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044205A (en) * 1996-02-29 2000-03-28 Intermind Corporation Communications system for transferring information between memories according to processes transferred with the information
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
US6032164A (en) * 1997-07-23 2000-02-29 Inventec Corporation Method of phonetic spelling check with rules of English pronunciation
JPH1186434A (ja) * 1997-09-11 1999-03-30 Sony Corp 記録装置、記録方法、及びダビング装置
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6694055B2 (en) * 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
JP2000122768A (ja) * 1998-10-14 2000-04-28 Microsoft Corp 文字入力装置、方法および記録媒体
JP2000235567A (ja) * 1999-02-17 2000-08-29 Matsushita Electric Ind Co Ltd 声調符号無入力式中国語文字変換装置
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
JP2000298667A (ja) * 1999-04-15 2000-10-24 Matsushita Electric Ind Co Ltd 構文情報による漢字変換装置
US6507812B1 (en) 1999-06-29 2003-01-14 International Business Machines Corporation Mock translation method, system, and program to test software translatability
US6453462B1 (en) * 1999-06-29 2002-09-17 International Business Machines Corporation Mock translation system, method, and program using multi-byte placeholder characters to test translatability of software that will display multi-byte languages
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6809725B1 (en) * 2000-05-25 2004-10-26 Jishan Zhang On screen chinese keyboard
CN1171137C (zh) * 2000-06-23 2004-10-13 谭伟雄 改进的hlv汉字拼音输入方法
US6920247B1 (en) * 2000-06-27 2005-07-19 Cardiff Software, Inc. Method for optical recognition of a multi-language set of letters with diacritics
US6692170B2 (en) 2001-02-21 2004-02-17 Eli Abir Method and apparatus for text input
US6982658B2 (en) * 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
US7319950B2 (en) * 2001-04-10 2008-01-15 Chang Po Liu Automated word processor for chinese-style languages
US6993474B2 (en) * 2001-05-17 2006-01-31 Curry David G Interactive conversational speech communicator method and system
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system
US20030110036A1 (en) * 2001-12-10 2003-06-12 Sayling Wen Chinese input method for providing auxiliary writing model
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
EP1691298B1 (en) * 2002-07-03 2007-09-19 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data
AU2003250637A1 (en) * 2002-07-03 2004-01-23 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data
US7228267B2 (en) * 2002-07-03 2007-06-05 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US7315982B2 (en) 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
KR100566204B1 (ko) * 2003-04-22 2006-03-29 삼성전자주식회사 성조가 표기된 한어 병음 입력 방법 및 장치
US7884804B2 (en) * 2003-04-30 2011-02-08 Microsoft Corporation Keyboard with input-sensitive display device
US20050010391A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Chinese character / Pin Yin / English translator
US20050010392A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Traditional Chinese / simplified Chinese character translator
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US20050027534A1 (en) * 2003-07-30 2005-02-03 Meurs Pim Van Phonetic and stroke input methods of Chinese characters and phrases
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary
US8137105B2 (en) 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
EP1673687A1 (en) * 2003-10-17 2006-06-28 Mazen Mosaed Al-Sulaim Method for operating an output device
JP4213570B2 (ja) * 2003-11-20 2009-01-21 シャープ株式会社 文字入力方法、文字入力装置およびプログラム
JP2007518164A (ja) * 2004-01-06 2007-07-05 イン−ソプ リ 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
CA2496872C (en) * 2004-03-17 2010-06-08 America Online, Inc. Phonetic and stroke input methods of chinese characters and phrases
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US20060020567A1 (en) * 2004-07-26 2006-01-26 Li Li Method for message browsing
US7595742B2 (en) * 2004-10-29 2009-09-29 Lenovo (Singapore) Pte. Ltd. System and method for generating language specific diacritics for different languages using a single keyboard layout
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US7676357B2 (en) * 2005-02-17 2010-03-09 International Business Machines Corporation Enhanced Chinese character/Pin Yin/English translator
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7516062B2 (en) * 2005-04-19 2009-04-07 International Business Machines Corporation Language converter with enhanced search capability
US7366984B2 (en) * 2005-07-29 2008-04-29 Microsoft Corporation Phonetic searching using multiple readings
US7538692B2 (en) * 2006-01-13 2009-05-26 Research In Motion Limited Handheld electronic device and method for disambiguation of compound text input and for prioritizing compound language solutions according to quantity of text components
CN101405683A (zh) * 2006-02-10 2009-04-08 字源加拿大公司 识别表意字符的方法和系统
US20070250307A1 (en) * 2006-03-03 2007-10-25 Iq Technology Inc. System, method, and computer readable medium thereof for language learning and displaying possible terms
US8275602B2 (en) * 2006-04-21 2012-09-25 Scomm, Inc. Interactive conversational speech communicator method and system
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US8395586B2 (en) 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
US7565624B2 (en) 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US20080131031A1 (en) * 2006-12-05 2008-06-05 Sherryl Lee Lorraine Scott Handheld electronic device with diacritical selection and text disambiguation
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8316295B2 (en) * 2007-03-01 2012-11-20 Microsoft Corporation Shared language model
US20080211777A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Stroke number input
US8677237B2 (en) * 2007-03-01 2014-03-18 Microsoft Corporation Integrated pinyin and stroke input
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CN101286094A (zh) 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
CN101286155A (zh) * 2007-04-11 2008-10-15 谷歌股份有限公司 用于输入法编辑器集成的方法和系统
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
CN101815996A (zh) * 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
WO2008151466A1 (en) 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
CN102124459B (zh) * 2007-06-14 2013-06-12 谷歌股份有限公司 词典词和短语确定
EP2120130A1 (en) 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US20100149190A1 (en) * 2008-12-11 2010-06-17 Nokia Corporation Method, apparatus and computer program product for providing an input order independent character input mechanism
US9009591B2 (en) * 2008-12-11 2015-04-14 Microsoft Corporation User-specified phrase input learning
US8296680B2 (en) * 2009-01-15 2012-10-23 Research In Motion Limited Method and handheld electronic device for displaying and selecting diacritics
US8381119B2 (en) * 2010-01-11 2013-02-19 Ideographix, Inc. Input device for pictographic languages
US20110171617A1 (en) * 2010-01-11 2011-07-14 Ideographix, Inc. System and method for teaching pictographic languages
US8947076B2 (en) 2010-01-18 2015-02-03 Bourns, Inc. High resolution non-contacting multi-turn position sensor
US8280954B2 (en) 2010-03-25 2012-10-02 Scomm, Inc. Method and system for providing live real-time communication via text between mobile user devices
JP4940325B2 (ja) * 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
US8473277B2 (en) * 2010-08-05 2013-06-25 David Lynton Jephcott Translation station
KR101781557B1 (ko) * 2011-01-05 2017-09-26 구글 인코포레이티드 텍스트 입력을 용이하게 하기 위한 방법 및 시스템
CN102737535A (zh) * 2011-03-31 2012-10-17 赵文志 一种快速学习语言的工具设置
US9864782B2 (en) * 2013-08-28 2018-01-09 AV Music Group, LLC Systems and methods for identifying word phrases based on stress patterns
CN104699000A (zh) * 2013-12-05 2015-06-10 上海能感物联网有限公司 非特定人外语语音遥控的机器人系统
KR101449376B1 (ko) * 2014-03-31 2014-10-10 정창수 컴퓨터의 한자입력 장치 및 한자입력 방법
US10261674B2 (en) * 2014-09-05 2019-04-16 Microsoft Technology Licensing, Llc Display-efficient text entry and editing
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
CN105242932B (zh) * 2015-10-21 2018-08-31 宁波三星医疗电气股份有限公司 一种基于delphi工具开发的软件的自动翻译方法
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN107066104B (zh) * 2016-11-14 2020-12-11 高商展 电脑汉英互读互译键盘最佳键位
KR101880868B1 (ko) * 2017-12-29 2018-07-20 영 황보 한자입력장치
CN108536656B (zh) * 2018-03-09 2021-08-24 云知声智能科技股份有限公司 基于wfst的文本正则化方法及系统
US10885286B2 (en) * 2018-10-12 2021-01-05 Microsoft Technology Licensing, Llc Simultaneous and real time translation and language switching across a set of features
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59864B2 (ja) * 1979-03-30 1984-01-09 シャープ株式会社 電子辞書
DE3142138C2 (de) * 1981-10-23 1985-06-27 Siemens AG, 1000 Berlin und 8000 München Verfahren zur Eingabe chinesischer Zeichen sowie Vorrichtung zur Durchführung des Verfahrens
US5212638A (en) * 1983-11-14 1993-05-18 Colman Bernath Alphabetic keyboard arrangement for typing Mandarin Chinese phonetic data
US5164900A (en) * 1983-11-14 1992-11-17 Colman Bernath Method and device for phonetically encoding Chinese textual data for data processing entry
GB2158776A (en) * 1984-02-24 1985-11-20 Chang Chi Chen Method of computerised input of Chinese words in keyboards
US4565459A (en) * 1984-06-04 1986-01-21 Dilucia Gilbert Phonetic Chinese printing apparatus
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
JPS6352143A (ja) * 1987-08-12 1988-03-05 Matsushita Electric Ind Co Ltd コ−ド印刷物の作成方法
US5109352A (en) * 1988-08-09 1992-04-28 Dell Robert B O System for encoding a collection of ideographic characters
US5047932A (en) * 1988-12-29 1991-09-10 Talent Laboratory, Inc. Method for coding the input of Chinese characters from a keyboard according to the first phonetic symbols and tones thereof
US4949260A (en) * 1989-01-03 1990-08-14 Hsu Su Hsia Method for inputting chinese information through hieroglyphic approach and keyboard arrangement therefor
LU87713A1 (de) * 1989-08-31 1990-07-24 Siemens Ag Kreuzschaltungsverfahren(cross-connect)fuer stm-1-signale der synchron-digital-multiplexhierarchie
JPH03101492A (ja) * 1989-09-14 1991-04-26 Hitachi Ltd 高密度画面変換処理方式
JPH03144846A (ja) * 1989-10-31 1991-06-20 Yokogawa Hewlett Packard Ltd アプリケーション・入力サーバ連携方法
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JPH04109365A (ja) * 1990-06-19 1992-04-10 Ricoh Co Ltd キヤビネツト間の文書コピー機能を有する画像文書フアイリング装置
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
US5255355A (en) * 1990-10-10 1993-10-19 Fuji Xerox Co., Ltd. Document processor
TW268115B (ja) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US5255189A (en) * 1992-06-09 1993-10-19 Woo Edward P H Method and system for retrieving ideographic characters and the associated dictionary entries
US5331557A (en) * 1993-01-14 1994-07-19 Liu Zhong Yi Audio-video coding system for Chinese characters
US5378068A (en) * 1993-10-12 1995-01-03 Hua; Teyh-Fwu Word processor for generating Chinese characters
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count

Also Published As

Publication number Publication date
JPH09128383A (ja) 1997-05-16
SG87039A1 (en) 2002-03-19
KR100259407B1 (ko) 2000-06-15
CN1191514C (zh) 2005-03-02
US5893133A (en) 1999-04-06
CN1143769A (zh) 1997-02-26
SG55208A1 (en) 1998-12-21
US6073146A (en) 2000-06-06
KR970012111A (ko) 1997-03-29
TW411421B (en) 2000-11-11

Similar Documents

Publication Publication Date Title
JP3277123B2 (ja) 中国語テキストを処理するためのシステムおよび方法
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US6760695B1 (en) Automated natural language processing
US7302640B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
Palmer Tokenisation and sentence segmentation
US7165019B1 (en) Language input architecture for converting one text form to another text form with modeless entry
US7395203B2 (en) System and method for disambiguating phonetic input
JP2515726B2 (ja) 情報検索方法及び装置
US8977535B2 (en) Transliterating methods between character-based and phonetic symbol-based writing systems
WO1997040453A1 (en) Automated natural language processing
Jiang et al. Braille to print translations for Chinese
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
JP2010073177A (ja) 国際対応型日本語入力システム
Tzoukermann et al. Tagging French without lexical probabilities—combining linguistic knowledge and statistical learning
WO2006051647A1 (ja) テキストデータ構造、テキストデータ処理方法
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPH03260687A (ja) 視覚障害者用点字漢字変換装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0773174A (ja) 日本語処理システム
JPS60207948A (ja) カナ漢字変換処理装置
Cai et al. Method combining rule-based and corpus-based approaches for oracle-bone inscription information processing
JPH07121542A (ja) 機械翻訳装置
JP2002117025A (ja) かな漢字変換装置およびかな漢字変換方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080208

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090208

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100208

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees