JPH06187371A

JPH06187371A - 圧縮地名データの格納方法及び読み出し方法

Info

Publication number: JPH06187371A
Application number: JP4339974A
Authority: JP
Inventors: Jun Ito; 純伊藤; Hiroyuki Kumai; 裕之隈井; Akira Nakajima; 晃中島; Yasumasa Matsuda; 泰昌松田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-12-21
Filing date: 1992-12-21
Publication date: 1994-07-08

Abstract

(57)【要約】【目的】地名の表記データを圧縮し、且つ簡易な処理で
表記データを読み出せるようにする。【構成】入力手段１０１より入力した読み文字列を、変
換手段１０２によりかな漢字変換する。この際、変換手
段１０２は、読み出し手段１０４に辞書検索を依頼す
る。読み出し手段１０４は、特定文字コードを圧縮コー
ドに置き換えた文字列を地名表記データとして格納した
地名辞書１０５を参照し、地名表記データを読み出す
が、地名表記データが圧縮コードを含む場合には、圧縮
した文字コード群を圧縮コード順に格納した圧縮コード
テーブル１０６を参照し、圧縮コードを元の文字コード
に置換して出力する。変換手段１０２は、読み出し手段
１０４の出力結果を用いて、かな漢字変換を行い、結果
を表示手段１０３に表示する。【効果】地名の表記データを圧縮することができ、且つ
簡易な処理で、データの読み出しを行うことができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、地名の表記情報を使用
する情報処理装置の圧縮地名データの格納方法及び読み
出し方法に関する。

【０００２】

【従来の技術】日本語ワードプロセッサのように読みを
入力し、漢字に変換する情報処理装置では、読みと漢字
を組にしたかな漢字変換用の辞書を備える。また、スキ
ャナー、またはタブレットにより画像情報を入力し、文
字コードに変換する文字認識装置においても、文字認識
用の辞書を備える。これらの辞書では、文字を文字コー
ドとして格納する。文字コード体系としては、主に、区
点コード、シフトＪＩＳコードなどが使用されている。
これらの文字コードは、日本語のかなと漢字を扱い、１
バイトコードでは表現しきれないために、２バイト単位
でかなと漢字を表現する。

【０００３】このような装置において、住所を対象とし
た変換、または文字認識を行う場合には、地名表記を格
納した地名辞書が必要となる。ところが、日本の地名件
数は、全国で４０万件と非常に多い。このため、通常の
辞書格納方法では、辞書サイズが膨大になる。そこで、
地名辞書の圧縮を行うことが課題となり、特に日本語ワ
ードプロセッサなどの個人向け情報処理装置では、低価
格化のために重要な課題である。

【０００４】辞書のサイズを縮小するために単語単位で
圧縮を行う方法として、特開平３−２０６５３３号公報
が知られている。

【０００５】

【発明が解決しようとする課題】上記の方法は、データ
の内容によらない汎用的なデータ圧縮方法であり、地名
に関する情報のみを格納する地名辞書に対象を絞り、地
名データに限ってより有効なデータ圧縮を行うことにつ
いては、考慮されていなかった。

【０００６】

【課題を解決するための手段】上記課題を解決するた
め、本発明は、圧縮した文字コード群を圧縮コード順に
圧縮コードテーブルに格納し、特定文字コードを圧縮コ
ードに置き換えた文字列を地名表記データとして地名辞
書に格納し、圧縮コードテーブルを参照し、地名辞書か
ら地名表記データを読み出す。

【０００７】

【作用】入力した読み文字列を、変換手段によりかな漢
字変換する。この際、変換手段は、読み出し手段に辞書
検索を依頼する。読み出し手段は、地名辞書を参照し、
地名表記データを読み出す。この際、地名表記データに
圧縮コードがない場合には、検索した地名表記データを
そのまま出力し、地名表記データに圧縮コードが含まれ
る場合には、圧縮コードテーブルを参照し、圧縮コード
を元の文字コードに置換して出力する。変換手段は、読
み出し手段の検索結果を用いて、かな漢字変換を行い、
結果を表示手段に表示する。

【０００８】

【実施例】以下、本発明の一実施例を図面を用いて説明
する。

【０００９】本発明の外観図を図２に示す。２０１は、
読み文字列入力のためのキーボードであり、変換指示の
ための変換キー２０２を備える。２０３は、入力した読
み文字列を漢字に変換する処理を行う情報処理部を格納
した本体である。２０４は、変換結果を表示するディス
プレーである。２０５は、フロッピーディスク、ＩＣカ
ード等の外部記憶装置ドライブである。２０６は、圧縮
コードテーブル、地名辞書を格納したフロッピーディス
クである。

【００１０】次に、本発明の基本ブロック図を図１に示
す。１０１は、キーボード、スキャナー、タブレット等
の入力手段である。１０２は変換手段で、かな漢字変換
処理、文字認識処理等を行うプログラムである。１０３
は、変換結果、及び変換候補を表示するディスプレーで
ある。１０４は読み出し手段で、地名辞書からデータを
読み出すプログラムである。１０５は地名辞書で、圧縮
した地名表記データと、かな漢字変換処理のための読み
文字列や品詞情報、または文字認識処理のための標準ス
トロークデータ等を格納したデータ群である。１０６は
圧縮コードテーブルで、圧縮した文字コードを圧縮コー
ド順に格納したデータ群である。変換手段、読み出し手
段は、プログラムとして本体２０３内部に格納される。
また、地名辞書、圧縮コードテーブルは、フロッピーデ
ィスク２０６に格納される。

【００１１】次に、地名表記の圧縮方法について説明す
る。図３は、日本全国の地名を納めた地名辞書中の、漢
字１文字毎の出現頻度について示した図である。縦軸
に、漢字１文字毎の出現頻度、横軸に頻度順の文字コー
ドを示す。「町」、「田」、「西」等は、高頻度で使用
される事を示す。

【００１２】実線が地名辞書の頻度分布を示すグラフで
あり、点線が用語辞書の頻度分布を示すグラフである。
地名辞書の場合は、使用される漢字に偏りが大きく、特
定の漢字が多く使用される。斜線部は、上位１２８文字
で占める出現頻度の累積で、全地名表記の７２．３％を
占める。つまり、日本全国の地名の表記の内、７２．３
％は、上位１２８文字の漢字の１つが使用されている。

【００１３】これから、高頻度で使用される漢字の文字
コード２バイトを、１バイトの圧縮コードに置換して辞
書に格納すれば、辞書サイズを効率良く圧縮する事がで
きる。

【００１４】そこで、使用頻度上位の文字コードを決定
し、これらの文字コードを頻度順に１バイトの圧縮コー
ドに割り当てる。この時、圧縮コードは辞書表記データ
で、文字コードと混在するために、文字コードと区別で
きなければならない。

【００１５】２バイト単位の文字コードは、６５５３６
文字を表現できるが、日本語で通常使用されるかな、お
よび漢字の種類は６５５３６文字より少ない。このた
め、文字コードには、漢字を対応させていない空き領域
が存在する。圧縮コードは、この空き領域を利用して、
文字コードの先頭バイトと重複しないように決定すれば
よい。特に、文字コード体系が、現在の主流であるシフ
トＪＩＳコードの場合、文字コード先頭バイトの最上位
ビットは、すべて「オン」である。これを利用し、圧縮
コードの先頭バイトをすべて「オフ」にすれば、文字コ
ードと圧縮コードの識別が高速にできる。１バイト圧縮
コードの最上位ビットを必ず「オフ」にすると、圧縮コ
ードで表現できるのは１２８文字であるので、最大で、
使用頻度上位の１２８文字を１バイト圧縮コードに置き
換える事ができる。

【００１６】図４に、文字コード体系がシフトＪＩＳで
あった場合の文字コードと圧縮コードの対応を示す。４
０１は、使用頻度上位の文字コードである。これを頻度
順に圧縮コード「００」から最大「７Ｆ」まで対応付け
る。圧縮コードの最上位ビットは、すべて「オフ」であ
るので「７Ｆ」が最大である。

【００１７】前記の方法で圧縮コードを作成した後、地
名表記データから使用頻度上位の文字コードを検索し、
圧縮コードに置き換える。図５は、地名表記データ「吉
田町」を圧縮する例を示した図である。文字列「吉田
町」は、シフトＪＩＳコードで「8B67 9363 92AC」とし
て辞書に格納される（１）。この時、「田」と「町」
は、圧縮コードによる圧縮ができるので、文字コード
「9363」と「92AC」は、圧縮コード「01」と「00」に置
換できる（２）。この結果、「8B67 01 00」として地名
辞書に格納される（３）。

【００１８】次に、読み出し手段による地名表記データ
読み出し手順について説明する。図６は、かな漢字変換
用の読み出し手段の処理概要を示した図である。６０１
は、地名辞書に格納した圧縮された地名データである。
６０２はレコードの読み文字数、６０３は読み文字列、
６０４は表記文字数、６０５は表記文字列である。

【００１９】もし、「よこはまし」の表記データを検索
する場合、まず、読み込んだ表記データの先頭バイトを
参照する。「89」の最上位ビットは「オン」であるの
で、文字コードであると判定し、「89A1」の２バイトを
文字コードとして扱う。「よこはまし」の表記データ
は、すべて圧縮コードを含まないので、同様の処理を繰
り返す。しかし、「よしだちょう」の表記データを検索
する場合は、「田」で読み込んだデータが「01」であ
り、最上位ビットが「オフ」であるので、圧縮コードで
あると判定できる。この時、圧縮コードテーブル６０６
を参照し、対応する文字コードに置き換えて出力する。
６０７は、検索結果として出力する文字列である。

【００２０】このように、文字コードがシフトＪＩＳで
ある場合は、最上位ビットのみを参照し、圧縮コードと
文字コードの識別ができるので、地名表記データを圧縮
しながらも、辞書読み出し処理を高速に行うことができ
る。

【００２１】次に、読み出し手段の処理フローについて
説明する。図７は、読み出し手段の処理フローを示した
図である。読み出し手段では、変換処理から引き渡され
る読み情報と、辞書の単語の読みを比較し、一致した場
合にその単語の表記データを出力する処理を行う。ステ
ップ７０１において、当レコードの読み情報を入力され
た読み情報と比較する。ステップ７０２において、一致
したか否かを判定する。もし、不一致であれば、ステッ
プ７０９を行う。一致であれば、以下の処理で表記デー
タを取得する。まずステップ７０３において、表記文字
列先頭バイトの最上位ビットを参照し、「オン」か「オ
フ」かを判定する。「オン」であれば、文字コードであ
るので、ステップ７０４において、当１バイトと次の１
バイトを文字コードとして格納する。最上位ビットが、
「オフ」であれば、圧縮コードであるので、圧縮コード
テーブルを参照し、当１バイトを文字コードに置き換え
る。圧縮コードテーブルは、圧縮した２バイトの文字コ
ードを圧縮コード順に配列してあるので、圧縮コードテ
ーブル先頭アドレスに、圧縮コードの値の２倍を加えた
位置に文字コードが格納してある。そこでステップ７０
５において、文字コードを取得し、ステップ７０６にお
いて、取得した２バイトの文字コードを格納する。ステ
ップ７０７において、表記文字列すべてを読み出したか
否かを判定し、まだ残りがあれば以上の処理を繰り返
す。もし、終了していれば、ステップ７０８において、
辞書に検索していない単語が残っているか否かを判定す
る。もし、終わりであれば、そのまま処理を終了する。
もし、残りがあれば、次のレコードに進み、上記の処理
を繰り返す。

【００２２】尚、本実施例は、かな漢字変換用の辞書を
主に例に取り説明してきたが、その他の文字認識用、音
声認識用の地名辞書でも、本発明の有効性は損なわれな
い。また、文字コードは２バイトとして説明したが、３
バイト系の文字コードに対しても、本発明の有効背は損
なわれない。

【００２３】

【発明の効果】本発明によれば、地名の表記データを圧
縮することができ、且つ簡易な処理で、データの読み出
しを行うことができる。

【図面の簡単な説明】

【図１】本発明の基本ブロック図である。

【図２】本発明の外観図である。

【図３】地名辞書の漢字使用頻度を示す図である。

【図４】文字コードと圧縮コードの対応を示す図であ
る。

【図５】圧縮コードを用いた地名文字列の圧縮の一例を
示す図である。

【図６】地名辞書読み出しの概略を示す図である。

【図７】読み出し手段の処理を示すフローチャートであ
る。

【符号の説明】

１０１…入力手段、１０２…変換手段、１０３…表示手
段、１０４…読み出し手段、１０５…地名辞書、１０６
…圧縮コードテーブル。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中島晃神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所マイクロエレクトロニクス機器開発研究所内 (72)発明者松田泰昌神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所マイクロエレクトロニクス機器開発研究所内

Claims

【特許請求の範囲】

【請求項１】地名の表記情報を使用する情報処理装置の
圧縮地名データの格納方法であって、表記１文字毎の出現頻度が高頻度である１２８文字以下
の表記群の文字コードを、最上位ビットにより文字コー
ドと区別した１バイト圧縮コードに変換して格納するこ
とを特徴とする圧縮地名データの格納方法。
【請求項２】地名の表記情報を使用する情報処理装置の
圧縮地名データの読み出し方法であって、表記１文字毎の出現頻度が高頻度である１２８文字以下
の表記群の文字コードを、最上位ビットにより文字コー
ドと区別した１バイト圧縮コードに変換・格納し、前記圧縮した文字コード群と前記圧縮コードとを対応付
けて圧縮コードテーブルに格納し、前記圧縮コードを含む地名表記を前記圧縮地名データか
ら読み出し、前記圧縮コードテーブルを参照し、当該圧縮コードを対
応する文字コードに置換することを特徴とする圧縮地名
データ読み出し方法。