JP3266755B2 - 中国語情報処理装置 - Google Patents
中国語情報処理装置Info
- Publication number
- JP3266755B2 JP3266755B2 JP09569995A JP9569995A JP3266755B2 JP 3266755 B2 JP3266755 B2 JP 3266755B2 JP 09569995 A JP09569995 A JP 09569995A JP 9569995 A JP9569995 A JP 9569995A JP 3266755 B2 JP3266755 B2 JP 3266755B2
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- pinyin
- code
- data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
いは編集を行なう、中国語のワードプロセッサ等の中国
語情報処理装置に関するものである。
られる中国語情報処理装置には、中国漢字を『ピンイ
ン』と呼ばれる、中国語の漢字表記の発音をアルファベ
ットで表したもので入力し、処理するようになっている
ものがある。特に、特開昭62−93744号公報、
特開平3−28964号公報、特開平6−2085
60号公報には、発音を示す表記記号から漢字への変換
の際に、発音表記の曖昧さを許容する変換入力を実現し
得る構成が開示されている。
いては、ピンインによる中国語入力において、ピンイン
とそれに対応する単語とを対応させたピンイン変換辞書
の他に、ピンインとそれに類似したピンインに対応する
単語を対応させたピンイン曖昧変換辞書とを有し、ピン
イン−漢字変換の際に、ピンイン変換辞書を検索して必
要とする候補が見つからない場合、ピンイン曖昧辞書を
検索して候補を表示する構成が記載されている。
ては、ピンインと四声とによる中国語入力において、ピ
ンイン及び四声とそれに対応する漢字とを対応させた辞
書手段を有し、入力されたピンイン及び四声に対応する
漢字候補がない場合、四声の相違に拘わらずピンインの
みが一致する漢字を検索して候補として表示する構成が
記載されている。
は、字音記号による中国語入力において、字音記号とそ
れに対応する漢字列に変換する変換部の他に、字音記号
相互の曖昧関係を記述した曖昧辞書を具備し、中国語入
力の際に訛りのある発音に基づいた字音記号を入力して
も正しい中国語に変換できる構成が記載されている。
た中国語入力では、ユーザが発音を正しく区別すること
が困難であったり、区別を曖昧に覚えていて混同したり
することがあり、実用に役立ち難いといった欠点に鑑み
て成されたものである。
は、ある漢字を入力しようとする場合、既に入力されて
いる文章中から同じピンインの漢字を選択し、さらに四
声の情報を追加入力することで、ピンインと四声との情
報から漢字辞書を検索して候補を表示する構成が開示さ
れている。
ける、所望の漢字を表示させるのに、何度となくキーを
押下しなければならず、キー操作数が増大し、目的の漢
字を迅速に表示させることができないといった問題に鑑
みて成されたものである。これによれば、画面に表示さ
れている漢字から同音の漢字を選択及び声調を入力して
その候補群を表示させ、これらの候補群から所望の漢字
を選択して中国語を入力する構成を採用しているため、
簡単なキー操作によって中国語を迅速に入力することが
できる。
の公報では、発音を示す表記記号から漢字への変換の
際に、発音表記の曖昧さを許容し得、また、の公報で
は、簡単なキー操作によって中国語を迅速に入力するこ
とができ、中国語情報処理装置においては、数々の改良
が成され、実用に供されるようになってきた。しかしな
がら、やはり、上記した〜の公報を含め、従来の中
国語情報処理装置においては、今だ充分に改良されたと
は言い難く、実際に使用するにあたり、数々の課題を有
しており、使用者からはさらなる操作性の向上が強く望
まれている。
記憶されている中国語の文字データを再びピンインに戻
し、ピンインで管理するといった技術的思想については
開示されておらず、中国語の文字データはすべて漢字コ
ードで管理されていた。しかしながら、中国語国家標準
に規定されたGBコードに基づいたデータの管理では、
第1級のクラスについてはピンイン順に管理できるが、
第2級のクラスの漢字についてはピンイン順に管理でき
ない。
いて、例えば複数の漢字文字列を並べ替える並べ替え処
理を実施すると、漢字コードの順に並べ替えられた結
果、漢字コードの第1級のクラスに属する漢字の文字列
はピンインの順に、第2級のクラスに属するものは、第
1級のクラスに属する漢字の文字列の後ろに部首の順に
といった状態で並べられてしまう。
級のクラスの漢字とが混在する漢字文字列を並べ替えよ
うとしたとき、完全なピンイン順の並べ替え結果を得る
ことができず、データ整理面で非常に不便であった。
簡体/繁体字、数字の漢字書き(大写)等、同一の意味
用法であるにもかかわらず、異なった文字を用いる状況
がしばしば発生する。一例としては、“渾沌”、“混
沌”は共に "hundun" と発音し、意味は全く同じであ
る。また、象声語などにおいては、その発音が重視され
るため、用いる漢字について多少の変化がある場合があ
り、一例を図52に示す。
いては、漢字コードで管理し、漢字コードで検索を行な
うようになっている。したがって、上記の“渾沌”、
“混沌”は、読みも意味も同一であるにも係わらず、相
応する漢字コードが異なるため、同時に検索することが
できず、2度にわたる検索処理が必要であった。つま
り、従来の検索処理は、同一の意味用法であっても漢字
が相異なるといった中国語の文章を扱う場合に有効なも
のとは言えなかった。
ている文章中から同じピンインの漢字を選択し、さらに
四声の情報を追加入力して候補を表示するものである。
しかしながら、これにおいても文字を入力するために既
に入力されている文字データをピンインに戻すのであっ
て、既に記憶されている中国語の文字データをピンイン
で管理しようといったものではない。そのため、データ
の並べ替え処理や検索処理をピンインの基準で行なうこ
とは記載されておらす、中国語の文字データは漢字コー
ドで管理されており、並べ替え処理や検索処理におい
て、上記と同様の問題点がある。
によれば、操作者は入力したい文字列の正確な綴りを知
っておく必要がある。しかしながら、中国語の漢字には
発音が同一、或いは類似していて意味や用法も類似して
おり、紛らわしいものが多く存在している。したがっ
て、操作者は綴りがはっきりと思い出せない場合、辞書
を調べてそれを確かめる必要があった。
おいても言え、これにおいては、四声の入力が不可欠
で、操作者は目的とする漢字の正確なピンインと四声と
を知っていなければ入力することができなかった。ま
た、この公報の構成では、既に入力されている文章中か
ら同じピンインを持つ漢字(変換元)を操作者が目視で
探し出さねばならず、操作者にとって負担となり、さら
に、既に入力されている文章が短い場合はこの方法では
入力できないといった問題点もある。
中から目視で探しださねばならないといった問題は、目
的とする漢字を入力する位置の付近で変換元となる漢字
を入力することによって解決できるが、その場合は変換
元の漢字を入力したりせずに直接ピンインで目的とする
漢字の発音表記を入力すればよいのであり、この従来技
術の意義が失われることとなる。
て『氏名』や『住所』等の住所録情報を管理した場合に
も問題がある。上述したように、中国における漢字コー
ド規格であるGBコードの第1級はピンイン順に、第2
級は部首の順に配列してあるため、コード体系に従って
記述された人名、或いは住所の情報をピンインによって
管理、つまり、ピンイン順に情報を並べたり、ピンイン
コードによる検索を可能にしようとした場合、漢字で表
現された人名或いは住所の文字列とは別に、その文字列
の読みをピンインで入力しておく必要があった。
を代表とする地域で多用されている広東語のアルファベ
ット表記等、英語で表記された氏名あるいは住所を同時
に管理したい場合があるが、このような場合も、従来の
中国語情報処理装置では、中国語のデータは漢字コード
で、英語のものはアルファベット文字列のコードで管理
していたので、中国語の文字データ、英語の文字データ
を一元的に管理することはできなかった。
中国語情報処理装置は、上記の課題を解決するために、
中国語の漢字コードとそれに該当するピンインコードと
が対応して配列された漢字コード−ピンインコード変換
表を有し、この変換表を用いて漢字コードをピンインコ
ードへと逐一変換する漢字−ピンイン変換手段と、上記
漢字−ピンイン変換手段によって得られたピンインコー
ドに基づいて、情報処理を行う処理手段とを備え、上記
処理手段が、曖昧文字列変換手段であり、この曖昧文字
列変換手段は、入力手段から入力された当て字を含む文
字列からなる当て字データを漢字コード系列で記憶する
一時記憶手段と、上記一時記憶手段に記憶された当て字
データを、上記漢字−ピンイン変換手段を用いて、該漢
字コード系列が対応し得る複数のピンインコードのピン
インコード系列へと変換する漢字系列−ピンイン系列変
換手段と、この漢字系列−ピンイン系列変換手段によっ
て変換されたピンインコード系列のデータを、単語或い
は文字列の単位でピンインコードを漢字コードに変換す
る辞書を参照して漢字コード系列への変換を行なうピン
イン系列−漢字系列変換手段と、このピンイン系列−漢
字系列変換手段によって得られた複数の変換候補文字列
から一つを選択する変換候補選択手段とを備え、変換候
補選択手段にて選択された変換候補文字列の漢字コード
系列を、上記当て字データに替えて用いるようになって
いることを特徴としている。
一時記憶手段10と、漢字系列−ピンイン系列変換手段
11と、ピンイン系列−漢字系列変換手段12と、変換
候補選択手段14とからなる曖昧文字列変換手段8であ
り、この曖昧文字列変換手段8は、入力手段9から入力
された当て字を含む文字列からなる当て字データを漢字
コード系列で一時記憶手段10に記憶させ、この記憶さ
れた当て字データを、漢字系列−ピンイン系列変換手段
11にて、上記漢字−ピンイン変換手段2を用いて、該
漢字コード系列が対応し得る複数のピンインコードのピ
ンインコード系列へと変換させる。次いで、ピンイン系
列−漢字系列変換手段12にて、この漢字系列−ピンイ
ン系列変換手段11によって変換されたピンインコード
系列のデータを、単語或いは文字列の単位でピンインコ
ードを漢字コードに変換する辞書13を参照して漢字コ
ード系列へと変換させ、この複数の変換候補文字列から
変換候補選択手段14にて候補を一つに絞り込み、その
変換候補文字列の漢字コード系列を、上記当て字データ
に替えて用いるようになっている。
類似する漢字は往々にして発音も類似するといった特性
を利用したものである(その一例を示すと、“馬”(う
ま)と“罵”(ののしる)、そして“媽”(おかあさ
ん)のピンイン表記はいずれも“ma”である)。
で、たとえ操作者が、ある漢字で構成された文字列を入
力したいが、その正しい綴りをはっきりと知らないとい
った場合でも、従来のように一々辞書等を用いて調べる
ことなく、入力すべき正しい漢字に類似した漢字を各種
の入力手段により当て字として入力させておき、次にそ
の当て字を含んで構成された漢字文字列を対象として変
換機能を起動し、その後目的とする正しい漢字を選択す
るだけで正しく綴られた文字列が得られる。
の公報にように、四声を入力する必要も、既に入力され
ている文章中から同じピンインを持つ漢字を操作者が目
視で探し出すといった作業も必要なく、さらには、既に
入力されている文章が短いと入力できないといった不具
合もない。その結果、文字入力が非常に簡単になり、中
国語情報処理装置における操作性の向上が図れる。
27に基づいて説明すれば、以下の通りである。尚、本
実施例においては、中国語情報処理装置を用いて住所録
管理を行なう場合を例示する。
6に示すように、入力装置21、データ記憶装置(主記
憶装置)22、漢字コード−ピンインコード変換テーブ
ルメモリ23、中央処理装置24、作業用記憶装置2
5、表示用中国語漢字フォントROM26、表示装置2
7、及びアルファベット−ピンインコード変換テーブル
メモリ28を備えている。
入力装置からなり、操作者が住所録管理のための機能を
選択したり、或いは新たに人名や住所等のデータを入力
したりするのに使用するものであり、その他の指示やデ
ータ等もここから入力される。
スクの如き大容量の外部記憶装置からなり、本実施例で
は、住所録データがここに蓄積されている。このデータ
記憶装置2に蓄積されている住所録データの構造は、図
12に示す通りであり、『氏名』、『住所』、『電
話』、『備考』の4つの情報を1件のデータとして、1
件ごとに管理番号(001,002,…n)を付して管
理している。尚、データ記憶装置22には、住所録デー
タだけでなく、その他の情報ももちろん蓄積されてい
る。
メモリ23は、漢字コードをピンインコードに変換する
ための、漢字コード−ピンインコード変換テーブル(漢
字コード−ピンインコード変換表)を記憶しているもの
である。漢字コードとは、例えば中国における漢字コー
ド規格であるGBコードであり、図8にGBコード配列
を示す。また、ピンインとは、中国語の漢字表記の発音
をアルファベットで表したものであり、本実施例におい
ては、図9に示すように、ピンイン音節「a」にはピン
インコード「001」、「ai」には「002」という
ように、「a」から「zuo」まで「001」から「4
61」までのコードナンバーが割り当てられている。
テーブル50を示す。これにおいては、個々の漢字コー
ドに該当するピンインコードの候補が、場合によっては
第4の候補まで対応して配列された構成となっている。
この漢字コード−ピンインコード変換テーブル50にお
いて、ピンインコード=0は、候補なしを示している。
漢字コード−ピンインコード変換テーブル50は、一つ
の漢字コードに対して複数のピンインコードの候補があ
る場合は、それら各候補のうち、最も一般的に用いられ
るピンインが第1候補として用いられるように作成され
ている。また、この漢字コード−ピンインコード変換テ
ーブル50は、漢字コード体系のクラスの相違によら
ず、すべての漢字コードに対してピンインコードが得ら
れるように作成されている。尚、図においては、漢字コ
ード−ピンインコード変換テーブル50の欄外に、記載
されている個々の漢字コードに対応する漢字とピンイン
を併せて示している。
り選択された検索や入力、表示の機能の制御を行なうも
のであり、この中央処理装置24と、上記漢字コード−
ピンインコード変換テーブル50とで、本発明の漢字コ
ード−ピンインコード変換手段が構成されている。そし
て、この漢字コード−ピンインコード変換手段により、
中央処理装置24は、データ記憶装置22内の情報を、
漢字コードではなく、ピンインコードにて管理するよう
になっている。また、この中央処理装置24の詳細な制
御内容については、フローチャート等を参照しながら後
述するが、この中央処理装置24と作業用記憶装置25
にて、本発明の検索手段が構成されている。
の各機能を処理する際に、一時的に用いられる一時記憶
装置であり、半導体メモリが用いられる。この作業用記
憶装置5には、検索キーを記憶するための前記一時記憶
領域B1 (図10参照)、漢字コード系列をピンインコ
ード系列に変換するための作業領域B2 (図11参
照)、検索結果を一時的に記憶するための表示用データ
バッファB3 (図13参照)、データ記憶装置2へのポ
インタ、その他、引数バッファ110(図14(a)参
照)、返り値バッファ111(図14(b)参照)も備
え、引数や返り値など入力・出力時に一時的に使用され
るデータがここに記憶されるようになっている。
表示装置27に漢字コードに基づいた漢字を表示するた
めに用いる漢字フォントを記憶する読み出し専用メモリ
である。表示装置27は、中央処理装置24の制御の下
に操作者に対して、各種のメッセージを表示し、検索の
結果を表示するための表示装置である。
ブルメモリ28は、図15に示すように、ピンインコー
ドとアルファベット文字列とが1:1に対応した、アル
ファベット−ピンインコード変換テーブル52を記憶し
たものである。尚、このアルファベット−ピンインコー
ド変換テーブル52は、ピンインコード側からアルファ
ベットに変換する場合は、ピンインコード−アルファベ
ット変換テーブルとなるものであり、これについては、
実施例2にて用いる。
住所管理システムの動作を説明する。まず、システム全
体動作を、図16のフローチャートを参照して説明す
る。ステップ(以下、Sと略記する)1においては、中
央処理装置24は、まず、表示装置27に、“検索”、
“追加入力”、“終了”の何れかの処理を選択するよう
操作者に促す画面を表示する(この画面については図示
せず)。操作者により入力装置21を用いて操作の選択
が行なわれると、選択に応じて、該当する検索処理(S
2)、或いは追加入力処理(S3)、又は終了処理(S
4)を実行する。ここで、S2の検索処理が実行された
場合は、検索結果を表示するために続けて検索結果表示
処理(S5)が実行される。そして、S3及びS5を終
了した後は再びS1に戻る。一方、S1において“終
了”が選択された場合は、S4の終了処理を実施して、
処理を終了する。
おける検索結果表示処理、S3における追加入力処理
を、図17、図24、図25の各フローチャートを用い
てぞれぞれ説明する。
を参照して説明する。S11では、操作者に入力装置2
1より検索キー(検索データ)となる漢字文字列をアル
ファベット表記のピンインで入力させる。入力された検
索キーは、図23に示す画面51の51bにて示す欄に
表示して操作者の確認用に供されると同時に、図10に
示す、作業用記憶装置25における検索キーを記憶する
ための一時記憶領域B1 の検索キーアルファベット用バ
ッファ101に格納される。ここで、検索キーとなる文
字列のピンインはアルファベット表記である。また、図
23の画面51a中、中国語文字列Aは、日本語の『氏
名』に相当し、中国語文字列Bは日本語の『住所』に相
当し、中国語文字列Cは日本語の『備考』に相当し、中
国語文字列Dは日本語の『電話』に相当するものであ
る。
字列をピンインコード系列に変換して、図10に示す、
作業用記憶装置25における上記一時記憶領域B1 の検
索キーピンイン用バッファ102に格納する。尚、この
動作の詳細な手順については、図18のフローチャート
を参照して後述する。
51aに示す形式で選択項目を操作者が選択する。S1
4では、データ記憶装置22から蓄積された情報を読み
出すために、読み出す情報を指定するポインタの内容を
蓄積情報の第1番目の組に設定する。このポインタは作
業用記憶装置25の中に設定されており、データ記憶装
置22に蓄積されているデータのうち最初から何件目か
を指定する。尚、データ記憶装置22に蓄積されている
データの構造は、前述したように、図12に示す通りで
ある。
る、検索結果を一時的に記憶するための表示用データバ
ッファB3 の初期設定を行なう。この表示用バッファB
3 の構造は、図13に示す通りであり、『氏名』、『住
所』、『電話』、『備考』の4つの情報が1件のデータ
として記憶されるようになっている。また、表示用バッ
ファB3 の大きさは、蓄積されているデータの件数に応
じて変化するようになっている。
ポインタが示す場所にデータが蓄積されているかどうか
を調べ、データがあればS17でそれを読み出し、図1
1に示す、漢字コード系列−ピンインコード系列変換用
の作業領域B2 の元データバッファ領域103に複写す
る。
ファ領域103に転写されたデータの漢字コード系列の
各漢字コードをピンインコードに変換して、第1から第
4のピンインコード系列を作成して第1候補バッファ領
域104〜第4候補バッファ領域107までに書き込
む。尚、この動作の詳細な手順については、図19のフ
ローチャートを参照して後述する。
1 における検索キーピンイン用バッファ102のピンイ
ンコード系列が、図11に示す第1候補バッファ領域1
04〜第4候補バッファ領域107のうち、図23に示
す画面51の51aで選択された項目の中に含まれてい
るかどうかを調べ、含まれていなければ、S16に戻
る。含まれているならば、S20の処理を行なう。尚、
この動作の詳細な手順については、図20のフローチャ
ートを参照して後述する。
る元データバッファ領域103のデータを図13に示す
表示用バッファB3 に追加した後、S16に戻る。
返し行なって、S16において、データがなければ、デ
ータ記憶装置22に蓄積されている情報に対する検索が
終了したと判断し、検索処理を終了して、図16のS5
の検索結果表示処理を実施する。
3の追加入力処理について説明する前に、上記図17の
フローチャートにおけるS12、S18、S19の処理
を説明する。
ンインコード系列に変換する処理手順を、図18のフロ
ーチャートを用いて説明する。S21では、図10に示
す一時記憶領域B1 の検索キーアルファベット用バッフ
ァ101の先頭からのアルファベット文字列で、図15
に示すアルファベット−ピンインコード変換テーブル5
2に含まれる最も字数の多いものを検索し、対応するピ
ンインコードを得る。S22では、得られたピンインコ
ードを、一時記憶領域B1 の検索キーピンイン用バッフ
ァ102に転送する。
索キーアルファベット用バッファ101のアルファベッ
ト文字列をすべてピンインコードに変換し終えたかどう
かを判断する。そして、すべて変換し終えたならば処理
を終了して、図17のS13に進み、まだすべて変換し
終わっていないならばS21に戻り、S21からS23
を繰り返して変換し終わっていない部分を処理した後、
図17のS13に進む。
たデータの漢字コードをピンインコードに変換する処理
手順を、図19のフローチャートを用いて説明する。S
31では、図11に示す、作業用記憶装置25における
漢字コード系列−ピンインコード系列変換用の作業領域
B2 の第1候補バッファ領域104〜第4候補バッファ
領域107をデータなしの状態に初期化する。S32で
は、元データバッファ領域103に書き込まれている変
換元(元データとも称する)の漢字コード系列のうち変
換すべき漢字1文字を指すポインタを初期設定して、1
文字目とする。S33では、ポインタの値が変換元の漢
字コード系列の最終の漢字コードより後ろを指している
かどうかを調べ、後ろを指していないならばS34に進
む。
0であるかどうかをみて、0でないなら漢字コードであ
ると見なしてS35に進み、0ならば漢字コードなしと
見なしてS37に進む。S35では、ポインタが指す元
データである漢字コード系列を、漢字コードをピンイン
コードに変換する変換テーブル50(図7参照)を用い
てピンインコードに変換する。尚、この動作の詳細な手
順については、図21のフローチャートを参照して後述
する。
ードを、作業領域B2 の第1候補バッファ領域104〜
第4候補バッファ領域107の該当する位置に格納す
る。S37では、ポインタに1を加えてからS33に戻
る。そして、漢字コード系列をすべて変換するまでS3
3〜S37を繰り返し、S33で、ポインタの値が変換
元の漢字コード系列の最終の漢字コードより後ろを指し
ていると判断したならば、漢字コード系列をすべてピン
インコードに変換したとして処理を終了し、図17のS
19に進む。
用いて、上記S35のポインタが指す元データである漢
字コード系列をピンインコード系列に変換する処理手順
について説明する。また、作業用記憶装置25における
引数バッファ110と、返り値バッファ111の各デー
タ形式を、図14(a)(b)にそれぞれ示す。引数バッ
ファ110、返り値バッファ111における候補の数用
領域111a、ピンインコードの第1候補用領域111
b、ピンインコードの第2候補用領域111c、ピンイ
ンコードの第3候補用領域111d、ピンインコードの
第4候補用領域111eは、各々2バイトである。
0(つまり、ピンインコードに変換したい漢字コード)
をレジスタにセットする。S42では、セットされたレ
ジスタの値を基にして、図7に示す漢字コード−ピンイ
ンコード変換テーブル50へのアドレスを計算する。漢
字コード−ピンインコード変換テーブル50の該当アド
レスを求める計算式は下記の通りである。 該当アドレス=漢字コード−ピンインコード変換テーブ
ルの先頭アドレス+8* (漢字コード上位1バイト−2
0H)*94+(漢字コード下位1バイト−20H)S
43では、返り値バッファ111を初期設定し、候補数
計数用のカウンタnをクリアする。S44では、図7の
漢字コード−ピンインコード変換テーブル50より、該
当する第1候補が存在するかどうかを判断する。もしも
存在しなければS56に進み、存在するならばS45に
進む。S45では、カウンタnを+1する。S46で
は、漢字コード−ピンインコード変換テーブル50より
第1候補のピンインコードを得てそれを返り値バッファ
110の第1候補用領域111bに転送する。
変換テーブル50より、該当する第2候補が存在するか
どうかを判断する。もしも存在しなければS56に進
み、存在するならばS48に進む。S48ではカウンタ
nを+1する。S49では、漢字コード−ピンインコー
ド変換テーブル50より、第2候補のピンインコードを
得てそれを返り値バッファ111の第2候補用領域11
1cに転送する。
変換テーブル50より、該当する第3候補が存在するか
どうかを判断する。もしも存在しなければS56に進
み、存在するならばS51に進む。S51ではカウンタ
nを+1する。S52では、漢字コード−ピンインコー
ド変換テーブル50より、第3候補のピンインコードを
得てそれを返り値バッファ111の第3候補用領域11
1dに転送する。
変換テーブル50より、該当する第4候補が存在するか
どうかを判断する。もしも存在しなければS56に進
み、存在するならばS54に進む。S54ではカウンタ
nを+1する。S55では、漢字コード−ピンインコー
ド変換テーブル50より第4候補のピンインコードを得
てそれを返り値バッファ111の第4候補用領域111
eに転送する。
ファ111の候補の数用領域111aに転送して処理を
終了する。
ている項目のデータのピンインコード系列中に検索キー
が含まれるかどうかを判断する処理手順について図20
のフローチャートを用いて説明する。S61では、『氏
名』が検索の対象に選択されているかどうかを判断す
る。選択されていればS62に進み、選択されていなけ
ればS64に進む。S62では、詳細には後述する図2
2に示すS70からS80までの処理を行い、氏名のピ
ンインコード系列中に検索キーのピンインコード系列が
含まれているかどうかを調べる。S63ではS62の調
査結果から『氏名』の中に検索キーが含まれているかど
うかを判断し、含まれているならば、図17のS20に
進む。含まれていないならば、S64に進む。
中に検索キーのピンインコード系列が含まれているかど
うかの判断をS64〜S66で行い、『備考』のピンイ
ンコード系列に検索キーのピンインコード系列が含まれ
ているかどうかの判断をS67〜S69で行なう。そし
て、S66、S69で含まれていると判断された場合
も、図17のS20に進む。
が含まれているかどうかを判定する処理を、図22を用
いて説明する。尚、S65、S68の『住所』、『備
考』についてもこれと同様であり、説明の便宜上、ここ
ではこれらについての説明を省略する。
文字数をレジスタm2 にセットし、S71ではポインタ
2を作業領域B2 の1番目の文字に設定する。S72で
は検索キーのピンインコード数をレジスタm1 にセット
し、S73ではポインタ1を検索キーの1番目のピンイ
ンコードに設定する。
かを判断し、レジスタm1 が0でなければ、S75に進
み、レジスタm1 の値とレジスタm2 の値とを比較す
る。レジスタm2 の値がレジスタm1 の値よりも大きけ
れば、S76に進む。
ードがポインタ2の指す文字に対応するピンインコード
に含まれているかどうかを判断し、含まれていない場合
は、S77に進み、ポインタ2を一つ進めて、S78に
てレジスタm2 の値を1減じた後、S74に戻る。これ
にて、氏名データの次の文字についての調査が開始され
る。
ポインタ2の指す文字に対応するピンインコードに含ま
れている場合は、S79にて進みポインタ1・2をそれ
ぞれ一つ先に進め、S80にてレジスタm1 ・m2 の値
にそれぞれ1減じた後、S74に戻る。これにて、氏名
データの次の文字、及び検索キーのピンインコード系列
の内の次のピンインコードについて調査が開始される。
0となると、検索キーのピンインコードがすべて氏名の
文字列の中に含まれていたこととなり、検索キーが含ま
れるとしてS63に進み、S63からS20に進む。
ジスタm1 の値より小さくなると、つまり残りの文字に
ついて検索キーのピンインコードが含まれている可能性
がなくなるので、検索キーが含まれないとしてS63に
進み、S64に進む。このようにして、検索キーが含ま
れているかどうかを判断する。
のS5の検査結果表示処理の手順を、図24のフローチ
ャートを用いて説明する。
結果表示部分51cを初期化する。S82では、表示す
べき位置が何行目かを示すポインタlを初期化する。S
83では、画面に表示したデータの件数を計数するカウ
ンタMを初期設定する。S84では、図13に示す作業
用記憶装置25の表示用バッファB3 からデータを1件
取り出す。S85では、S84にてデータが取り出せた
かどうかを判断し、取り出せればS86に進み、ポイン
タlの値が画面51の検索結果表示部分51cの最終行
であるかを調べる。最終行ならS87に進み、画面51
の検索結果表示部分51cを上に1行スクロールし、最
終行でないならばS88に進み、ポインタlに1を加え
る。
したデータを表示する。S90では、カウンタMを+1
する。S91では、カウンタMが検索結果表示部分51
cの行数になったかどうかを調べ、まだなっていないな
ら、S84に戻り、なったならS92に進む。S92で
は、操作者に次頁表示の指示を促し、次頁51dが入力
装置21にて指定されるまで表示処理を停止し、指定さ
れた後にS83に戻る。そして、S84からS92まで
の処理を繰り返し、S85において、84でデータが取
り出せなかったと判断すると、表示用バッファB3 より
全てのデータを取り出したとして表示処理を終了し、図
17のS1に進む。
検索結果表示部分51cに示すように、検索結果が表示
される。この画面51では、項目としては『住所』が選
択され、検索キーとしては「tianjnshi」が入
力されており、天津市に住む人が、その氏名と電話番号
と共に、抽出され表示されている。
について、図25のフローチャートを用いて説明する。
まず、S101でデータ記憶装置22に蓄積されている
データの総件数Xを求める。次いで、S102では、画
面の初期化と、図11に示す作業領域B2 の初期設定を
行なう。S103では、図26に示すように、追加入力
時の画面54における管理番号の欄54aに、追加入力
するデータの管理番号を表示する。管理番号は、データ
記憶装置2に蓄積されているデータの総件数Xに1を加
えた数となる。尚、図26の画面54中、中国語文字列
Eが日本語の『管理番号』に相当し、画面54において
管理番号は「003」となっている。また、図27に従
来の追加入力時の画面を参考のために示す。
る日本語の『氏名』に相当する中国語文字列Aに続く氏
名入力欄54bに表示し、氏名データの入力が可能な状
態であることを示す。S105では、データ入力あるい
は機能の指示を操作者に促す。このとき操作者は入力装
置21を用いて『氏名』の入力を行なうことができる
し、“データの登録”、“入力する項目の選択”といっ
た機能を選択することもできる。
れたなら、S106に進み、データ登録処理が開始さ
れ、S109では、作業用記憶装置25における作業領
域B2の元データバッファ領域103に記憶されている
データをデータ記憶装置22に追加登録する。その後、
S110ではデータの総件数Xを+1し、S102に戻
る。
択”が選択されたなら、S107に進み、入力する項目
の選択処理が開始され、S111では、カーソルを中国
語文字列Aに続く氏名入力欄54b→中国語文字列Bに
続く住所入力欄54c→中国語文字列Dに続く電話番号
入力欄54d→中国語文字列Cに続く備考入力欄54e
→氏名入力欄54bの順で1項目ずつ移動させて入力す
る項目を選択し、S105に戻る。
てデータが入力された場合は、S112では、入力され
たデータを画面のカーソルの位置に表示して、カーソル
位置を更新すると共に、作業用記憶装置25における作
業領域B2 の元データバッファ領域103の該当する位
置に格納する。
と、S113で終了処理が行なわれ、S1に戻る。この
ようにして、住所録データが追加される。
装置においては、中央処理装置24が、データ記憶装置
22に記憶された住所録データを、漢字コード−ピンイ
ンコード変換テーブル50を用いて漢字コードからピン
インコードに変換し、このピンインコードを基に、デー
タを管理して検索処理や検索結果の表示処理を行なうよ
うになっている。
用いて、『氏名』や『住所』等の住所録情報を管理する
際、通常の中国語国家標準に規定されたGBコードに基
づいたデータの管理では、第1級のクラスについてはピ
ンイン順に管理できるが、第2級のクラスの漢字につい
てはピンイン順に管理できないため、住所録情報をピン
インで管理しようとした場合、漢字で表現された人名或
いは住所の文字列とは別にその文字列の読みをピンイン
で入力しておく必要があり、非常に手間であったが、こ
れにより、たとえデータ記憶装置22に蓄積された住所
録データのうち、検索にて抽出されるべき漢字文字列
が、各漢字が漢字コード体系のどのクラスに該当してい
ても、ピンインを入力するだけで検索できる。しかも、
ピンインはコード化されているので、コード化されてい
ないピンインによる検索処理に比べ、データが圧縮され
た状態であるので、検索に要する時間が短縮され、操作
性だけでなく処理能力も格段に向上できる。
『住所』等、指定の項目に対して検索を行なうようにな
っているので、不必要な項目まで同時に検索することが
ない。
て、前述の実施例1の説明に用いた図面、及び図28な
いし図33に基づいて説明すれば、以下の通りである。
尚、説明の便宜上、前記の実施例にて示した部材と同一
の機能を有する部材には、同一の符号を付記し、その説
明を省略する。
場合、英語で表記された人名あるいは住所を同時に管理
したい場合がある。欧米の地名或いは人名がその一例で
あり、また香港を代表とする地域で多用されている広東
語のアルファベット表記がもう1つの例である。本実施
例の中国語情報処理装置では、中国語のピンインが英語
のアルファベットで表記される点に着目し、中国語であ
るか英語であるかにかかわらず、人名あるいは住所の情
報のアルファベットによる一元的管理を可能とすること
を目的としている。
実施例1の中国語情報処理装置とは、データの検索処理
が異なるもので、検索結果表示処理等については、前記
実施例1と同様である。
うに、入力装置21、データ記憶装置22、漢字コード
−ピンインコード変換テーブルメモリ23、作業用記憶
装置25、表示用中国語漢字フォントROM26、表示
装置27、中央処理装置30、及びピンイン−アルファ
ベット変換テーブルメモリ31を備えている。このう
ち、入力装置21、データ記憶装置22、漢字コード−
ピンインコード変換テーブルメモリ23、作業用記憶装
置25、表示用中国語漢字フォントROM26、表示装
置27については、実施例1の中国語情報処理装置と同
じものである。但し、入力装置21は、『氏名』や住所
が漢字文字列のみならず、アルファベットによって記さ
れた文字列も入力し得るようになっており、図29に、
入力装置21によるデータ入力時の画面55を示す。
り選択された検索や入力の機能の制御を行なうものであ
り、実施例1の中央処理装置24では、データ記憶装置
22内の情報をピンインコードに変換してこれで管理
し、図17のフローチャートに示す処理手順で検索処理
を実施していたが、本実施例の中央処理装置30におい
ては、詳細には後述するが、データ記憶装置22内の情
報をピンインコードに変換したものを、さらにアルファ
ベットの文字コードにまで変換し、アルファベットの文
字コードでデータ管理し、検索処理を実施するようにな
っている。
ブルメモリ31は、ピンインコードをアルファベットの
文字列に変換するためのピンインコード−アルファベッ
ト変換テーブル52を記憶しているものである。図15
に示すように、このピンインコード−アルファベット変
換テーブル52は、個々のピンインコードに該当するア
ルファベット文字列が、対応して配列された構成となっ
ている。
例1と同様に、検索、表示、入力の各機能を処理する際
に、一時的に用いられる記憶装置であり、半導体メモリ
が用いられるが、検索キーを記憶するための一時記憶領
域B1 (図10参照)や、検索結果を一時的に記憶する
ための表示用データバッファB3 (図13参照)、デー
タ記憶装置2へのポインタの他、引数バッファ及び返り
値バッファを備えていると共に、前記実施例1の漢字コ
ード系列−ピンインコード系列変換用の作業領域B
2 (図11参照)に代えて、漢字コード系列−アルファ
ベット文字列変換用の作業領域B4 (図31参照)を備
えている。
本実施例の中国語情報処理装置における住所管理システ
ムの検索処理の手順について説明する。
検索キーとなる文字列をアルファベット表記のピンイン
で入力させる。入力された検索キーは、図23に示す画
面51の51bにて示す欄に表示して操作者の確認用に
供されると同時に、図10に示す、作業用記憶装置25
における一時記憶領域B1 の検索キーアルファベット用
バッファ101に格納される。
の51aに示す形式で選択項目を操作者が選択する。S
113では、データ記憶装置22から蓄積された情報を
読み出すために、読み出す情報を指定するポインタの内
容を蓄積情報の第1番目の組に設定する。このポインタ
は作業用記憶装置25の中に設定されており、データ記
憶装置22に蓄積されているデータのうち最初から何件
目かを指定する。
る、検索結果を一時的に記憶するための表示用データバ
ッファB3 の初期設定を行なう。S115では、ポイン
タが示す場所にデータが蓄積されているかどうかを調
べ、データがあればS116でそれを読み出し、図31
に示す作業領域B4 の元データバッファ領域115に複
写する。
の元データバッファ領域115に転写されたデータの漢
字文字列の各漢字コードをピンインコードに変換する一
方、さらに各ピンインコードをアルファベットに変換し
て、第1から第4のアルファベット系列(アルファベッ
ト文字列)を作成して第1候補バッファ領域116〜第
4候補バッファ領域119までに書き込む。尚、これら
の動作で、S117は、前記の実施例1におけるS18
の処理と同じであるので省略するが、S118について
は、詳細な手順を図32に示し、これについては後述す
る。
の検索キーアルファベット用バッファ101のアルファ
ベット文字列が、図31に示す作業領域B4 の第1候補
バッファ領域116〜第4候補バッファ領域119のう
ち、図23に示す画面51の欄51aで選択された項目
の中に含まれているかどうかを調べ、含まれていなけれ
ばS115に戻る。含まれているならS120の処理を
行なう。S120では、図31の元データバッファ領域
115のデータを図13に示す表示用バッファB3 に追
加した後、S115に戻る。
り返し、S115において、データがなければ、データ
記憶装置22に蓄積されている情報に対する検索が終了
したと判断し、検索処理を終了して、図16のS5に進
む。
て、図30におけるS118のピンインコード系列をア
ルファベット文字列に変換する処理手順について説明す
る。また、作業用記憶装置25における引数バッファ1
10と、返り値バッファ111の各データ形式を図33
(a)(b)にそれぞれ示す。
バッファ111を初期化する。S122では、引数よ
り、図15に示すピンインコード−アルファベット文字
列変換テーブル52へのアドレスを計算する。S123
では、アルファベットで記述した文字列(6文字)を返
り値バッファ111の各領域に複写する。S124で
は、アルファベット文字列の文字数を求め、返り値バッ
ファ111における文字列の文字数用領域111aに格
納し、図30のS119に進む。
装置においては、中央処理装置30が、データ記憶装置
22に記憶された住所録データを、漢字コード−ピンイ
ンコード変換テーブル50を用いて漢字コードからピン
インコードに変換し、続いて、ピンインコード−アルフ
ァベット文字列変換テーブル52を用いてピンインコー
ドさらにアルファベットの文字列に変換し、アルファベ
ットの文字コードを基に、データを管理して検索処理を
行なうようになっている。
て、『氏名』や『住所』等の住所録データを管理する際
に、欧米の地名或いは人名、或いは香港を代表とする地
域で多用されている広東語のアルファベット表記等、英
語で表記された氏名あるいは住所が混在する場合、アル
ファベットの文字コードでの管理が可能となることで、
アルファベット表記のものまで同時に検索することがで
きる。この結果、例えば、中国語のデータのみならず、
アルファベット表記、ピンイン表記のデータが混在した
ものも一括に管理でき、住所録管理が格段に行い易くな
り、中国語情報処理装置における操作性の向上が図れ
る。
て、前記の実施例の説明に用いた図面、及び図34ない
し図42に基づいて説明すれば、以下の通りである。
尚、説明の便宜上、前記の実施例にて示した部材と同一
の機能を有する部材には、同一の符号を付記し、その説
明を省略する。
した場合、ピンインの特性により、頻繁に文字列の先頭
に現れる文字(声母を表すピンインがこれにあたり、例
えば“z”,“c”,“s”)と、まれにしか文字列の
先頭に現れない文字(韻母を表すピンインの一部がこれ
にあたり、例えば“i”,“u”,“v”)とがある。
そのため、人名或いは住所情報を例えばそれぞれの文字
列の先頭のピンインを基にアルファベットのAからZの
26のグループに分類したような場合、多くの情報が分
類されるグループと情報が殆ど分類されないグループと
が出てきて、管理や後の検索の場合に都合が悪い。
は、情報を文字列先頭のピンインによって分類するので
はなく、分類の結果各グループに蓄積される情報の数が
できるだけ均等になるように自動的にグループ分けを行
い、かつどのようにグループ分けを行なったかについて
情報を操作者に明示して管理を容易にすることを目的と
している。
索処理等は前記実施例1とは、検索したデータの表示処
理が異なる。
タ記憶装置22、漢字コード−ピンインコード変換テー
ブルメモリ23、作業用記憶装置25、表示用中国語漢
字フォントROM26、表示装置27、アルファベット
−ピンインコード変換テーブルメモリ28、中央処理装
置33を備えている。このうち、入力装置21、データ
記憶装置22、漢字コード−ピンインコード変換テーブ
ルメモリ23、作業用記憶装置25、表示用中国語漢字
フォントROM26、表示装置27、アルファベット−
ピンインコード変換テーブルメモリ28については、実
施例1の中国語情報処理装置と同じものである。
り選択された検索や入力の機能の制御を行なうものであ
り、実施例1の中央処理装置24では、図24のフロー
チャートに示す処理手順でS5における検索結果表示処
理を実施していたが、本実施例の中央処理装置33にお
いては、詳細には後述するが、図35、図36のフロー
チャートに示す処理手順にて検索結果表示処理を実施す
るようになっている。
同様に、検索、表示、入力の各機能を処理する際に、一
時的に用いられる記憶装置であり、半導体メモリが用い
られるが、検索キーを記憶するための一時記憶領域B1
(図10参照)や、漢字コード系列−ピンインコード系
列変換用の作業領域B2 (図11参照)、検索結果を一
時的に記憶するための表示用データバッファB3 (図1
3参照)、データ記憶装置22へのポインタの他、引数
バッファ及び返り値バッファを備えており、さらに、後
述する分類表1・2を作成するためのバッファも備えて
いる。
用いて、上記住所管理システムにおける検索結果表示処
理の手順について説明する。
1を作成する。これは表示用バッファB3 に格納されて
いるデータの件数を『氏名』の項目の第1番目の漢字の
ピンインコードによって分類して計数する処理であり、
この分類表1の作成する際の処理手順は、図41を用い
て後述する。
のような分類表2を作成する。これは操作者が選択する
グループ毎に第1件目のデータの『氏名』の項目の第1
番目の漢字のピンインコードと該当するデータの件数を
得る処理であり、この分類表2を作成する処理手順は、
図42を用いて後述する。
に示す画面55のように、分類した各ブループのインデ
ックス及びデータの件数を表示する。この画面55中、
中国語文字列Fが日本語における『分類』に相当し、中
国語文字列Gが日本語における『件数』に相当し、中国
語文字列Hが日本語における『合計』に相当する。尚、
図38に、従来の機械的に分類した場合の各グループの
インデックス及びデータの件数が表示された画面を参考
のために示す。
者にグループの1つを選択することを促す。グループ選
択の指示が入力された後にS135に進み、S135で
は、選択されたグループのデータの氏名の第1番目の漢
字のピンインコードの取る値の最小値と最大値とを求め
る。S136では、図23に示す画面51の検索結果表
示部分51cを初期化する。S137では、表示すべき
位置が何行目かを示すポインタlを初期化する。S13
8では、画面51に表示したデータの件数を計数するカ
ウンタMを初期設定する。
ァB3 からデータを1件取り出す。S140で、表示用
バッファB3 からデータが取り出せればS141に進
む。S141では、S135で求めたピンインコードの
最大値と最小値を参照して、取り出したデータがこの範
囲に該当するかどうかを判断する。該当しない場合はS
138に戻り、該当するならばS142に進む。
の検索結果表示部分51cの最終行であるかを調べる。
最終行ならS143に進み、画面51の検索結果表示部
分51cを上に1行スクロールし、最終行でないならば
S144に進み、ポインタlに1を加える。S145で
は、ポインタlが指す行に取り出したデータを表示す
る。S146では、カウンタMを+1する。S147で
は、カウンタMが表示領域の行数になったかどうかを調
べ、まだなっていないなら、S149に戻り、なってい
るならS148に進む。
促し、画面51における次頁51dが入力装置21を用
いて指定されるまで表示処理を停止し、指定された後に
S138に戻る。そして、S140にて、S139でデ
ータが取り出せなかったと判断すると、表示処理を終了
し、図16におけるS1に進む。
て、図35におけるS131の分類表1(図39参照)
を作成する処理手順について説明する。
を初期化し、S152では、表示用バッファB3 よりデ
ータの1件目を取り出す。S153では、データが取り
出せたかどうかを判断し、取り出せた場合は、S154
に進む。S154では、取り出したデータのうち、『氏
名』の1文字目をピンインコードに変換し、S155で
は、分類表1における1文字目のピンインコードに対応
する欄の件数を+1した後、再びS152に戻る。
示用バッファB3 に記憶されているデータを順に取り出
して、その『氏名』の一文字目のピンインコードに対応
する欄の件数を加算していき、その後、S153で、デ
ータが取り出せなかったと判断した場合は、表示用バッ
ファB3 からのデータの取り出しが終了したとして、S
156に進み、表示用バッファB3 から取り出すべきデ
ータを示すポインタを初期化した後、S132に進む。
て、図35におけるS132の分類表2(図40参照)
を作成する処理手順について説明する。
10とし、グループ番号用のレジスタgを1、ピンイン
コード用のレジスタaを1、累計件数用のレジスタsを
0に各々設定する。グループ数の10は、表示装置27
の表示容量の大きさに合わせて設定されたものである。
3 に蓄積されたデータの総件数Yを求める。S163で
は、分類表2のグループ番号用レジスタgが示すグルー
プ番号のピンインコードをピンインコード用レジスタa
が示す値にセットする。
が(Y/G)*gより大きいかどうかを判定し、小さい
場合は、S165に進み、累計件数用レジスタsに分類
表1のピンインコード用レジスタaの示す値のピンイン
コードの件数を加えてS166に進む。そして、ピンイ
ンコード用レジスタaを+1した後、S164にて等し
いか或いは大きいと判定されるまで、S164〜S16
6の処理を繰り返す。
(Y/G)*gと等しいか或いはこれより大きいと判定
されると、ステップ167に進み、分類表2のグループ
番号用レジスタgの値のグループ番号のデータ件数を求
める。ここで用いられる式は以下の通りである。
の値をプラス1した後、S169では、グループ番号用
レジスタgの値とグループ数Gとが等しくなったかどう
かを判断し、等しくなければS163に戻り、S163
〜S169までの処理を等しくなるまで繰り返し、等し
くなったならばS170に進む。
式にて分類表2のグループ番号用レジスタgの値のグル
ープ番号のデータ件数を求めた後、図35のS133に
進む。
装置では、入力装置21により検索キーが入力された場
合、中央処理装置35が、データ記憶装置22に記憶さ
れた複数組の漢字文字列の該当する検索項目について漢
字コード−ピンインコード変換テーブル50を参照しな
がらピンインコードへと変換し、その情報内に検索キー
と同じデータが含まれている場合は、対応する漢字文字
列を組の単位で得て、次にそれが合計何組あるかを求め
それを被除数とし、予め表示装置27の表示容量の大き
さに合わせて設定されたグループの数を除数として除算
を実行し、1グループあたりの平均の組数を算出する。
この平均の組数を基準にして、検索で得られた文字列の
組をピンイン順で先頭から分割していく。そして、グル
ープ分けした後、どのような分割によってグループ分け
がなされたかについての情報を表示装置27を用いて出
力する。そして、操作者によって選択されたグループに
属する複数組の文字列を表示装置27に出力する。尚、
ここでの出力は、一組毎、あるいは特定の項目について
複数組毎に表示させてもよい。
て、グループの数が26(アルファベットのAからZま
での文字数)よりもかなり小さい場合(例えば5)に
は、それぞれの組の文字列の1文字目のアルファベット
(1文字目が漢字である場合にはその漢字をピンインコ
ードに変換し、さらにピンインコードを変換して得られ
たアルファベットの1文字目を採用する)が同一の組
は、2つ以上のグループに跨がって分類しないという処
理を加えることもできる。同様に、必要に応じて、記憶
手段に記憶されたそれぞれの組の文字列の1文字目のア
ルファベットが特定の先頭文字に集中しているような場
合には、1文字目と2文字目が同一の組は2つ以上のグ
ループに跨がって分割しないように処理することもでき
る。
実施例の説明に用いた図と、図43ないし図46に基づ
いて説明すれば、以下の通りである。尚、説明の便宜
上、前記実施例にて示した部材と同一の機能を有する部
材には、同一の符号を付記し、その説明を省略する。
べ替え機能を実行すると漢字のコードの順に並べ替えら
れるため、例えばGBコードの場合、第1級のクラスに
属する漢字の文字列はピンインの順に並べられるが、第
2級のクラスに属するものは、第1級のクラスに属する
漢字の文字列の後ろに部首の順に並べられるという事態
が起こっていた。従って、第1級のクラスの漢字と第2
級のクラスの漢字とが混在する文字列の集合を並べ替え
ようとしたときに完全なるピンイン順の並べ替え結果を
得ることができなかった。
置は、並べ替え処理が指定された際、並べ変えるべきデ
ータを一旦ピンインコード系列に変換することで、完全
なるピンイン順の並べ替え結果を得ることを目的として
いる。
43に示すように、入力装置21、データ記憶装置2
2、漢字コード−ピンインコード変換テーブルメモリ2
3、作業用記憶装置25、表示用中国語漢字フォントR
OM26、表示装置27、中央処理装置35を備えてい
る。このうち、入力装置21、データ記憶装置22、漢
字コード−ピンインコード変換テーブルメモリ23、作
業用記憶装置25、表示用中国語漢字フォントROM2
6、表示装置27については、実施例1の中国語情報処
理装置と同じものである。
りデータ並べ替え処理を指示されると、後述のようにデ
ータ記憶装置22の情報に対してデータの並べ替えを行
なうようになっている。つまり、この中央処理装置35
にて、本発明のデータ並べ替え手段が構成されている。
200として、図44(a)に示す4つのデータ200
a〜200dが、200a、200b、200c、20
0dの順に記憶されているものとする。200a〜20
0dはそれぞれ管理用番号(1,2,3,4)と文字列
データとが組になって記憶されている。これらの管理用
番号は重複しないものとする。
中央処理装置35は入力装置21からデータ並べ替え処
理の実施を促す指示により、以下の一連の制御を開始す
る。
すべて、漢字コード−ピンインコード変換テーブルメモ
リ23の漢字コード−ピンインコード変換表50(図7
参照)を用いることにより、ピンインコード系列に変換
する。ここで一つの漢字に複数のピンインコード候補が
得られた場合、常に第1番目の候補を採用するものとす
る。
成する各漢字のピンイン表記と、漢字コードにおけるク
ラスを示す。図中が付されているものは、第1級クラ
スに属するもので、が付されているものが、第2級ク
ラスに属するものである。
タ200a〜200dを、ピンインコードの昇順に順序
を並べ替える。続いて、並べ替えられたピンインコード
系列と同じ順序に元データを並べ替え、図44(b)に
示す、並べ替えデータ201を得る。最後にこの並べ替
えデータ201を、表示用中国語漢字フォントROM2
6を用いるこによって漢字フォントに変換し、表示装置
27に表示させる。尚、ここで、データ並べ替え結果
を、データファイルの形態をもってデータ記憶装置22
に保持してもよい。
を単に漢字コードの順に並べ替えると、図46に示す並
べ替えデータ202のような、第2級クラスに属する漢
字コードを含んでいるデータ200aが、第1級クラス
の漢字コードからなるデータの後ろに並べられてしまう
が、図44(b)に示す並べ替えデータ201のよう
に、完全にピンイン順に並べ替えることができる。
実施例の説明に用いた図と、図47ないし図49に基づ
いて説明すれば以下の通りである。尚、説明の便宜上、
前記実施例1にて示した部材と同一の機能を有する部材
には、同一の符号を付記し、その説明を省略する。
漢字コードを基準に検索を行なうようになっている。と
ころが、中国語においては、異字体、俗字、簡体/繁体
字、数字の漢字書き(大写)等、同一の意味用法である
にもかかわらず、異なった文字を用いる状況がしばしば
発生する。したがって、例えば図48に示す中国語文字
Hと中国語文字Jとは、共にそのピンインは「sanq
ianyuan」で、かつ意味も同一であるにも係わら
ず、相応する漢字コードが異なるため、両方を同時に検
索することはできなかった。
は、検索処理時に、同じピンイン表記であるものは、漢
字文字列がたとえ異なっていようとも、一度の検索処理
の実施で検出することを可能とすることを目的としてい
る。
47に示すように、入力装置21、データ記憶装置2
2、漢字コード−ピンインコード変換テーブルメモリ2
3、作業用記憶装置25、表示用中国語漢字フォントR
OM26、表示装置27、アルファベット−ピンインコ
ード変換テーブルメモリ28、中央処理装置37を備え
ている。このうち、入力装置21、データ記憶装置2
2、漢字コード−ピンインコード変換テーブルメモリ2
3、作業用記憶装置25、表示用中国語漢字フォントR
OM26、アルファベット−ピンインコード変換テーブ
ルメモリ28、表示装置27については、実施例1の中
国語情報処理装置と同じものである。
り検索処理が指示されると、後述のようにデータ記憶装
置22の情報に対して検索を行なうようになっている。
つまり、この中央処理装置37と、作業用記憶装置25
により本発明の検索手段が構成されている。尚、検索処
理については、実施例1にて詳細に説明したので、ここ
では詳細な説明は省略する。
同様に、検索、表示、入力の各機能を処理する際に、一
時的に用いられる記憶装置であり、半導体メモリが用い
られるが、検索キーを記憶するための一時記憶領域B1
(図10参照)や、検索結果を一時的に記憶するための
表示用データバッファB3 (図13参照)、データ記憶
装置22へのポインタの他、引数バッファ及び返り値バ
ッファを備えていると共に、前記実施例1の漢字コード
系列−ピンインコード系列変換用の作業領域B2 (図1
1参照)に代えて、図49に示す漢字コード系列−ピン
インコード系列変換用の作業領域B5 を備えている。
に蓄積される元のデータの中には、図48の中国語文字
列Kと中国語文字列Jが含まれているものとする。
中央処理装置37は入力装置21からの検索処理の実施
を促す指示により、以下の一連の制御を開始する。ま
ず、操作者に検索キーの入力を促すメッセージを表示装
置27に表示させる。次に操作者が入力装置21より検
索キーとなるピンインをアルファベットで入力するまで
待つ。入力がなされたならば、そのアルファベット文字
列を検索キーを記憶するための一時記憶領域B1 (図1
0参照)の検索キーアルファベット用バッファ101に
書き込む。その後、アルファベット−ピンイン変換テー
ブル50を用いながら、検索キーアルファベット用バッ
ファ101内のデータを先頭から逐一ピンインコードに
変換していき、検索キーピンイン用バッファ102に格
納する。
タを1件ずつ先頭から読み出し、図49に示す元データ
バッファ領域121に書き込む。それから漢字コード−
ピンインコード変換テーブル50を利用しながら、元デ
ータバッファ領域121に書き込まれている漢字文字列
(漢字コード系列)を1文字ずつピンインコードに変換
し、第1候補バッファ領域122〜第4候補バッファ領
域125に書き込む。
ファ102に格納されたピンイン系列が第1候補バッフ
ァ領域122〜第4候補バッファ領域125に含まれる
かどうかを調べ、含まれるならば、元データバッファ領
域103内のデータを表示用中国語漢字フォントROM
26を用いることによって漢字フォントに変換し、表示
装置27に表示させる。データ記憶装置22に記憶され
たデータの最後の1件までこの処理を繰り返す。尚、こ
の場合、表示装置27に表示させずに、データファイル
の形態をもってデータ記憶装置22に保持してもよい。
置においては、検索処理が指示された場合は、中央処理
装置37は、入力装置21から入力された検索キーをピ
ンインコードで作業用記憶装置25における一時記憶領
域B1 の検索キーピンイン用バッファ102に記憶する
一方、データ記憶装置22に記憶された情報を、漢字コ
ード−ピンインコード変換テーブル50を用いて漢字コ
ードをピンインコードに変換し、このピンインコードの
データに対して、一記憶記憶領域B1 の検索キーピンイ
ン用バッファ102に記憶されているピンインコードが
含まれているかどうかを検索するようになっている。
れる元のデータの中の、中国語文字列Kと中国語文字列
J(図48参照)を同時に検索することができ、検索処
理に要する時間を短縮できる。
1を用いて操作者により入力されたものであったが、別
の処理装置によって設定されたものであってもよい。
実施例の説明に用いた図面、図50及び図51に基づい
て説明すれば以下の通りである。尚、説明の便宜上、前
記実施例にて示した部材と同一の機能を有する部材に
は、同一の符号を付記し、その説明を省略する。
ば、操作者は入力したい文字列の正確な綴りを知ってお
く必要がある。しかしながら、中国語の漢字には発音が
同一、或いは類似していて意味や用法も類似しており、
紛らわしいものが多く存在している。したがって、操作
者は綴りがはっきりと思い出せない場合、辞書を調べて
それを確かめる必要があった。
は、中国語において、表記が類似する漢字は往々にして
発音も類似するといった特性を利用し、たとえ操作者に
曖昧な知識しかなくとも、また、全く四声を知らずと
も、一旦入力された文字列をピンインコード系列に変換
し、それに対してピンインから漢字単語への変換を行な
うことで、単語或いは句の単位で正確な綴りに変換する
ことで、文字列入力を可能とすることを目的としてい
る。
50に示すように、入力装置21、漢字コード−ピンイ
ンコード変換テーブルメモリ23、作業用記憶装置2
5、表示用中国語漢字フォントROM26、表示装置2
7、ピンインコード−漢字コード系列変換辞書39、中
央処理装置38を備えている。このうち、入力装置2
1、漢字コード−ピンインコード変換テーブルメモリ2
3、作業用記憶装置25、表示用中国語漢字フォントR
OM26、表示装置27については、実施例1の中国語
情報処理装置と同じものである。
り曖昧な当て字を含む漢字文字列が入力された場合、画
面表示の制御及び漢字コードからピンインコードへの、
そしてピンインコード系列から漢字文字列への変換のた
めの制御を行なって、当て字を含む文字列を正しい綴り
となるように処理を実施するようになっている。つま
り、この中央処理装置38が、本発明の曖昧文字列変換
手段の処理を行なうようになっている。
は、電子ペンによる手書き入力、部首や筆画による入
力、ピンインによる入力等が考えられるが、本実施例で
は、上記入力装置21として、操作者が電子式のペンに
よって表示装置27上に漢字を書き、中央処理装置38
の制御の下にその筆跡を認識して漢字のコードを出力す
るものとする。また、この入力装置21では、図51
(a)に示すように、表示装置27の画面55上に表示
された認識キー55aと変換キー55bが電子ペンで触
られたことを検知して信号を中央処理装置38に送出す
るようになっている。
時的に用いる記憶装置であり、半導体メモリが用いられ
る。図49に示す形式の作業領域がここに確保されてい
る。
中央処理装置38の入力時の処理を説明する。
に図51(a)に示すような画面を表示する。ここで5
5cは、変換結果を表示するための領域であり、55d
は電子ペンによって漢字を記入する領域である。また、
先にも述べた55aは記入された漢字を漢字コードに変
換する処理を起動する認識キー、55bは、同図(b)
に示すように、領域55cに、認識結果55eのよう
に、表示された漢字コード系列をピンインコード系列に
変換し、続いて単語或いは句の単位で漢字に再変換して
当て字を正規の漢字に修正する機能を起動する変換キー
である。
入力したい漢字を記入する。ここでは仮に、“エジプ
ト”と言う意味の中国語“埃及(ai ji)”を入力
したいとする。操作者はこの正しい綴りを記憶していな
いので、まず、知っている漢字でピンインが同じものを
当て字としてペンで記入する。図51(a)は既に記入
が終わっており、“埃(ai)”と“極(ji)”が記
入された状態である。
で55aに触れると、中央処理装置38の制御の下に記
入された漢字の認識が成され、認識結果55eが領域5
5cに表示される。認識結果55eの下線は、これが電
子ペンによって記入された文字の認識の結果であること
を示している。
で55bに触れると、中央処理装置38はまず、下線部
の文字列を図49に示す作業領域B5 の元データバッフ
ァ領域121に複写する。次に、漢字コード−ピンイン
コード変換テーブル50を用いて、元データバッファ領
域121に書き込まれているデータをピンインコード系
列に変換し、第1候補バッファ領域122〜第4候補バ
ッファ領域125に得られたピンインコード系列を格納
する。
が、変換候補選択手段として機能し、漢字文字列への変
換後の候補数が増加するのを避けるために、このうち第
1候補バッファ122のみを使用し、第1候補バッファ
122のピンインコード系列を単語或いは句の単位で再
び漢字文字列に変換する。漢字文字列においては、ここ
で複数の漢字文字列が得られる場合は、第1番目の候補
のみを採用している。ピンインコード−漢字コード系列
変換辞書39は、同一のピンイン系列に対しては変換候
補を使用頻度の高い順に配列してあるので、第1番目の
候補を複雑な処理を経ることなく得ることができる。こ
うして得られた漢字文字列を図51(c)の55fのよ
うに画面55に表示し、これで当て字から正しい綴りの
漢字が得られたことになる。尚、ここで、正しい綴りの
漢字を、データファイルの形態をもって図示しないデー
タ記憶装置に保存することもできる。
者に曖昧な知識しかなくとも、また、全く四声を知らず
とも、一旦入力された文字列をピンインコード系列に変
換し、それに対してピンインから漢字単語への変換を行
なうことで、単語或いは句の単位で正確な綴りに変換し
て文字列の入力が可能となる。
第1候補のみを候補として採用することで、中央処理装
置37で変換候補選択手段を構成しているが、得られた
漢字文字列が複数個の場合、変換候補文字列についてそ
れらを画面に表示し、操作者にそのうちの一つの選択を
促し、正しい綴りの選択された候補の文字列を表示装置
27の画面上に表示してもよい。
装置は、以上のように、中国語の漢字コードとそれに該
当するピンインコードとが対応して配列された漢字コー
ド−ピンインコード変換表を有し、この変換表を用いて
漢字コードをピンインコードへと逐一変換する漢字−ピ
ンイン変換手段と、上記漢字−ピンイン変換手段によっ
て得られたピンインコードに基づいて、情報処理を行う
処理手段とを備え、上記処理手段が、曖昧文字列変換手
段であり、この曖昧文字列変換手段は、入力手段から入
力された当て字を含む文字列からなる当て字データを漢
字コード系列で記憶する一時記憶手段と、上記一時記憶
手段に記憶された当て字データを、上記漢字−ピンイン
変換手段を用いて、該漢字コード系列が対応し得る複数
のピンインコードのピンインコード系列へと変換する漢
字系列−ピンイン系列変換手段と、この漢字系列−ピン
イン系列変換手段によって変換されたピンインコード系
列のデータを、単語或いは文字列の単位でピンインコー
ドを漢字コードに変換する辞書を参照して漢字コード系
列への変換を行なうピンイン系列−漢字系列変換手段
と、このピンイン系列−漢字系列変換手段によって得ら
れた複数の変換候補文字列から一つを選択する変換候補
選択手段とを備え、変換候補選択手段にて選択された変
換候補文字列の漢字コード系列を、上記当て字データに
替えて用いるようになっている構成である。
ある漢字で構成された文字列を入力したいが、その正し
い綴りをはっきりと知らないといった場合でも、従来の
ように一々辞書等を用いて調べることなく、入力すべき
正しい漢字に類似した漢字を各種の入力手段により当て
字として入力させておき、次にその当て字を含んで構成
された漢字文字列を対象として変換機能を起動し、その
後目的とする正しい漢字を選択するだけで正しく綴られ
た文字列が得られる。
る操作性を大きく向上できるといった効果を奏する。
理装置の構成を示すブロック図である。
成図である。
ード)の配列の説明図である。
る。
す説明図である。
するための作業領域のデータ構造を示す説明図である。
明図である。
示用バッファの構造を示す説明図である。
た入力・出力のデータ形式を示す説明図である。
ル(アルファベット−ピンインコード変換テーブル)の
構成図である。
ーチャートである。
ーチャートである。
換する処理を示すフローチャートである。
ードに変換する処理を示すフローチャートである。
たものに、検索キーが含まれているかどうかを判定する
処理を示すフローチャートである。
を示すフローチャートである。
を判定する処理を示すフローチャートである。
を示す説明図である。
示すフローチャートである。
フローチャートである。
を示す説明図である。
の画面を示す説明図である。
報処理装置の構成を示すブロック図である。
を示す説明図である。
ーチャートである。
トで表記した文字列に変換する、漢字コード系列をアル
ファベットの文字列に変換するための作業領域のデータ
構造を示す説明図である。
に変換する処理を示すフローチャートである。
た入力・出力のデータ形式を示す説明図である。
報処理装置の構成を示すブロック図である。
示すフローチャートである。
示すフローチャートである。
である。
説明図である。
である。
である。
ローチャートである。
ローチャートである。
報処理装置の構成を示すブロック図である。
た後のデータ配列を示す説明図である。
漢字コードのクラス、ピンイン表記を示す説明図であ
る。
後のデータ配列を示す説明図である。
報処理装置の構成を示すブロック図である。
類の中国語文字列を示す説明図である。
するための作業領域のデータ構造を示す説明図である。
報処理装置の構成を示すブロック図である。
リ 24 中央処理装置(処理手段、検索手段、漢字−ピ
ンイン変換手段) 25 作業用記憶装置(一時記憶手段) 27 表示装置 30 中央処理装置(処理手段・検索手段・漢字−ピ
ンイン変換手段) 33 中央処理装置(処理手段) 35 中央処理装置(処理手段・データ並べ替え手
段) 37 中央処理装置(処理手段・検索手段) 38 中央処理装置(処理手段・曖昧文字列変換手
段) 50 漢字コード−ピンインコード変換テーブル(漢
字コード−ピンインコード変換表) 52 アルファベット−ピンインコード変換テーブル
Claims (1)
- 【請求項1】 中国語の漢字コードとそれに該当するピ
ンインコードとが対応して配列された漢字コード−ピン
インコード変換表を有し、この変換表を用いて漢字コー
ドをピンインコードへと逐一変換する漢字−ピンイン変
換手段と、 上記漢字−ピンイン変換手段によって得られたピンイン
コードに基づいて、情報処理を行う処理手段とを備え、 上記処理手段が、曖昧文字列変換手段であり、この曖昧
文字列変換手段は、入力手段から入力された当て字を含
む文字列からなる当て字データを漢字コード系列で記憶
する一時記憶手段と、 上記一時記憶手段に記憶された当て字データを、上記漢
字−ピンイン変換手段を用いて、該漢字コード系列が対
応し得る複数のピンインコードのピンインコード系列へ
と変換する漢字系列−ピンイン系列変換手段と、 この漢字系列−ピンイン系列変換手段によって変換され
たピンインコード系列のデータを、単語或いは文字列の
単位でピンインコードを漢字コードに変換する辞書を参
照して漢字コード系列への変換を行なうピンイン系列−
漢字系列変換手段と、 このピンイン系列−漢字系列変換手段によって得られた
複数の変換候補文字列から一つを選択する変換候補選択
手段とを備え、 変換候補選択手段にて選択された変換候補文字列の漢字
コード系列を、上記当て字データに替えて用いるように
なっていることを特徴とする中国語情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09569995A JP3266755B2 (ja) | 1995-04-20 | 1995-04-20 | 中国語情報処理装置 |
CNB961059796A CN1143231C (zh) | 1995-04-20 | 1996-03-22 | 汉语信息处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09569995A JP3266755B2 (ja) | 1995-04-20 | 1995-04-20 | 中国語情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08292941A JPH08292941A (ja) | 1996-11-05 |
JP3266755B2 true JP3266755B2 (ja) | 2002-03-18 |
Family
ID=14144756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09569995A Expired - Lifetime JP3266755B2 (ja) | 1995-04-20 | 1995-04-20 | 中国語情報処理装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP3266755B2 (ja) |
CN (1) | CN1143231C (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246478B (zh) * | 2007-02-14 | 2010-08-25 | 高德软件有限公司 | 信息存储及检索方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260780B2 (en) * | 2005-01-03 | 2007-08-21 | Microsoft Corporation | Method and apparatus for providing foreign language text display when encoding is not available |
CN117875267B (zh) * | 2024-03-11 | 2024-05-24 | 江西曼荼罗软件有限公司 | 一种汉字转拼音的方法及系统 |
-
1995
- 1995-04-20 JP JP09569995A patent/JP3266755B2/ja not_active Expired - Lifetime
-
1996
- 1996-03-22 CN CNB961059796A patent/CN1143231C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246478B (zh) * | 2007-02-14 | 2010-08-25 | 高德软件有限公司 | 信息存储及检索方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH08292941A (ja) | 1996-11-05 |
CN1140858A (zh) | 1997-01-22 |
CN1143231C (zh) | 2004-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5586198A (en) | Method and apparatus for identifying characters in ideographic alphabet | |
EP0423683B1 (en) | Apparatus for automatically generating index | |
JP4037608B2 (ja) | 減少されたキーボード明瞭化システム | |
EP0241646B1 (en) | Document processing apparatus | |
US6067510A (en) | Machine interpreter which stores and retrieves translated sentences based on variable and invariable sentence portions | |
JP3266755B2 (ja) | 中国語情報処理装置 | |
JP3945075B2 (ja) | 辞書機能を備えた電子装置及び情報検索処理プログラムを記憶した記憶媒体 | |
KR20020021182A (ko) | 성조 표현을 이용한 중국어 입력 시스템 및 그 방법 | |
JPH06266769A (ja) | 同義語情報作成装置 | |
JP4922030B2 (ja) | 文字列検索装置、方法及びプログラム | |
JPH08115330A (ja) | 類似文書検索方法および装置 | |
JPH06337857A (ja) | 漢字入力方式 | |
JPS63157265A (ja) | 文書処理装置 | |
JPH09146934A (ja) | 仮名漢字変換装置 | |
JPH0612453A (ja) | 未知語抽出登録装置 | |
JPH0512257A (ja) | 文書作成装置 | |
JP3710157B2 (ja) | 漢字語句処理方法及び装置 | |
JPH0623973B2 (ja) | 文字処理装置の頻度変更方式 | |
JP2874815B2 (ja) | 日本語文字読取装置 | |
JPS6365565A (ja) | 仮名漢字変換方式 | |
JPS6029823A (ja) | 適応型記号列変換方式 | |
JPH04151761A (ja) | 文字入力装置 | |
JPH03129562A (ja) | インデックス作成支援装置 | |
JPH06251203A (ja) | 手書き文字認識装置と手書き入力文字のかな漢字変換方法 | |
JPH0391062A (ja) | 文書作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080111 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090111 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100111 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110111 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120111 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130111 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term |