JPH06187371A - 圧縮地名データの格納方法及び読み出し方法 - Google Patents

圧縮地名データの格納方法及び読み出し方法

Info

Publication number
JPH06187371A
JPH06187371A JP4339974A JP33997492A JPH06187371A JP H06187371 A JPH06187371 A JP H06187371A JP 4339974 A JP4339974 A JP 4339974A JP 33997492 A JP33997492 A JP 33997492A JP H06187371 A JPH06187371 A JP H06187371A
Authority
JP
Japan
Prior art keywords
compressed
place name
code
character
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4339974A
Other languages
English (en)
Inventor
Jun Ito
純 伊藤
Hiroyuki Kumai
裕之 隈井
Akira Nakajima
晃 中島
Yasumasa Matsuda
泰昌 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4339974A priority Critical patent/JPH06187371A/ja
Publication of JPH06187371A publication Critical patent/JPH06187371A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】地名の表記データを圧縮し、且つ簡易な処理で
表記データを読み出せるようにする。 【構成】入力手段101より入力した読み文字列を、変
換手段102によりかな漢字変換する。この際、変換手
段102は、読み出し手段104に辞書検索を依頼す
る。読み出し手段104は、特定文字コードを圧縮コー
ドに置き換えた文字列を地名表記データとして格納した
地名辞書105を参照し、地名表記データを読み出す
が、地名表記データが圧縮コードを含む場合には、圧縮
した文字コード群を圧縮コード順に格納した圧縮コード
テーブル106を参照し、圧縮コードを元の文字コード
に置換して出力する。変換手段102は、読み出し手段
104の出力結果を用いて、かな漢字変換を行い、結果
を表示手段103に表示する。 【効果】地名の表記データを圧縮することができ、且つ
簡易な処理で、データの読み出しを行うことができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、地名の表記情報を使用
する情報処理装置の圧縮地名データの格納方法及び読み
出し方法に関する。
【0002】
【従来の技術】日本語ワードプロセッサのように読みを
入力し、漢字に変換する情報処理装置では、読みと漢字
を組にしたかな漢字変換用の辞書を備える。また、スキ
ャナー、またはタブレットにより画像情報を入力し、文
字コードに変換する文字認識装置においても、文字認識
用の辞書を備える。これらの辞書では、文字を文字コー
ドとして格納する。文字コード体系としては、主に、区
点コード、シフトJISコードなどが使用されている。
これらの文字コードは、日本語のかなと漢字を扱い、1
バイトコードでは表現しきれないために、2バイト単位
でかなと漢字を表現する。
【0003】このような装置において、住所を対象とし
た変換、または文字認識を行う場合には、地名表記を格
納した地名辞書が必要となる。ところが、日本の地名件
数は、全国で40万件と非常に多い。このため、通常の
辞書格納方法では、辞書サイズが膨大になる。そこで、
地名辞書の圧縮を行うことが課題となり、特に日本語ワ
ードプロセッサなどの個人向け情報処理装置では、低価
格化のために重要な課題である。
【0004】辞書のサイズを縮小するために単語単位で
圧縮を行う方法として、特開平3−206533号公報
が知られている。
【0005】
【発明が解決しようとする課題】上記の方法は、データ
の内容によらない汎用的なデータ圧縮方法であり、地名
に関する情報のみを格納する地名辞書に対象を絞り、地
名データに限ってより有効なデータ圧縮を行うことにつ
いては、考慮されていなかった。
【0006】
【課題を解決するための手段】上記課題を解決するた
め、本発明は、圧縮した文字コード群を圧縮コード順に
圧縮コードテーブルに格納し、特定文字コードを圧縮コ
ードに置き換えた文字列を地名表記データとして地名辞
書に格納し、圧縮コードテーブルを参照し、地名辞書か
ら地名表記データを読み出す。
【0007】
【作用】入力した読み文字列を、変換手段によりかな漢
字変換する。この際、変換手段は、読み出し手段に辞書
検索を依頼する。読み出し手段は、地名辞書を参照し、
地名表記データを読み出す。この際、地名表記データに
圧縮コードがない場合には、検索した地名表記データを
そのまま出力し、地名表記データに圧縮コードが含まれ
る場合には、圧縮コードテーブルを参照し、圧縮コード
を元の文字コードに置換して出力する。変換手段は、読
み出し手段の検索結果を用いて、かな漢字変換を行い、
結果を表示手段に表示する。
【0008】
【実施例】以下、本発明の一実施例を図面を用いて説明
する。
【0009】本発明の外観図を図2に示す。201は、
読み文字列入力のためのキーボードであり、変換指示の
ための変換キー202を備える。203は、入力した読
み文字列を漢字に変換する処理を行う情報処理部を格納
した本体である。204は、変換結果を表示するディス
プレーである。205は、フロッピーディスク、ICカ
ード等の外部記憶装置ドライブである。206は、圧縮
コードテーブル、地名辞書を格納したフロッピーディス
クである。
【0010】次に、本発明の基本ブロック図を図1に示
す。101は、キーボード、スキャナー、タブレット等
の入力手段である。102は変換手段で、かな漢字変換
処理、文字認識処理等を行うプログラムである。103
は、変換結果、及び変換候補を表示するディスプレーで
ある。104は読み出し手段で、地名辞書からデータを
読み出すプログラムである。105は地名辞書で、圧縮
した地名表記データと、かな漢字変換処理のための読み
文字列や品詞情報、または文字認識処理のための標準ス
トロークデータ等を格納したデータ群である。106は
圧縮コードテーブルで、圧縮した文字コードを圧縮コー
ド順に格納したデータ群である。変換手段、読み出し手
段は、プログラムとして本体203内部に格納される。
また、地名辞書、圧縮コードテーブルは、フロッピーデ
ィスク206に格納される。
【0011】次に、地名表記の圧縮方法について説明す
る。図3は、日本全国の地名を納めた地名辞書中の、漢
字1文字毎の出現頻度について示した図である。縦軸
に、漢字1文字毎の出現頻度、横軸に頻度順の文字コー
ドを示す。「町」、「田」、「西」等は、高頻度で使用
される事を示す。
【0012】実線が地名辞書の頻度分布を示すグラフで
あり、点線が用語辞書の頻度分布を示すグラフである。
地名辞書の場合は、使用される漢字に偏りが大きく、特
定の漢字が多く使用される。斜線部は、上位128文字
で占める出現頻度の累積で、全地名表記の72.3%を
占める。つまり、日本全国の地名の表記の内、72.3
%は、上位128文字の漢字の1つが使用されている。
【0013】これから、高頻度で使用される漢字の文字
コード2バイトを、1バイトの圧縮コードに置換して辞
書に格納すれば、辞書サイズを効率良く圧縮する事がで
きる。
【0014】そこで、使用頻度上位の文字コードを決定
し、これらの文字コードを頻度順に1バイトの圧縮コー
ドに割り当てる。この時、圧縮コードは辞書表記データ
で、文字コードと混在するために、文字コードと区別で
きなければならない。
【0015】2バイト単位の文字コードは、65536
文字を表現できるが、日本語で通常使用されるかな、お
よび漢字の種類は65536文字より少ない。このた
め、文字コードには、漢字を対応させていない空き領域
が存在する。圧縮コードは、この空き領域を利用して、
文字コードの先頭バイトと重複しないように決定すれば
よい。特に、文字コード体系が、現在の主流であるシフ
トJISコードの場合、文字コード先頭バイトの最上位
ビットは、すべて「オン」である。これを利用し、圧縮
コードの先頭バイトをすべて「オフ」にすれば、文字コ
ードと圧縮コードの識別が高速にできる。1バイト圧縮
コードの最上位ビットを必ず「オフ」にすると、圧縮コ
ードで表現できるのは128文字であるので、最大で、
使用頻度上位の128文字を1バイト圧縮コードに置き
換える事ができる。
【0016】図4に、文字コード体系がシフトJISで
あった場合の文字コードと圧縮コードの対応を示す。4
01は、使用頻度上位の文字コードである。これを頻度
順に圧縮コード「00」から最大「7F」まで対応付け
る。圧縮コードの最上位ビットは、すべて「オフ」であ
るので「7F」が最大である。
【0017】前記の方法で圧縮コードを作成した後、地
名表記データから使用頻度上位の文字コードを検索し、
圧縮コードに置き換える。図5は、地名表記データ「吉
田町」を圧縮する例を示した図である。文字列「吉田
町」は、シフトJISコードで「8B67 9363 92AC」とし
て辞書に格納される(1)。この時、「田」と「町」
は、圧縮コードによる圧縮ができるので、文字コード
「9363」と「92AC」は、圧縮コード「01」と「00」に置
換できる(2)。この結果、「8B67 01 00」として地名
辞書に格納される(3)。
【0018】次に、読み出し手段による地名表記データ
読み出し手順について説明する。図6は、かな漢字変換
用の読み出し手段の処理概要を示した図である。601
は、地名辞書に格納した圧縮された地名データである。
602はレコードの読み文字数、603は読み文字列、
604は表記文字数、605は表記文字列である。
【0019】もし、「よこはまし」の表記データを検索
する場合、まず、読み込んだ表記データの先頭バイトを
参照する。「89」の最上位ビットは「オン」であるの
で、文字コードであると判定し、「89A1」の2バイトを
文字コードとして扱う。「よこはまし」の表記データ
は、すべて圧縮コードを含まないので、同様の処理を繰
り返す。しかし、「よしだちょう」の表記データを検索
する場合は、「田」で読み込んだデータが「01」であ
り、最上位ビットが「オフ」であるので、圧縮コードで
あると判定できる。この時、圧縮コードテーブル606
を参照し、対応する文字コードに置き換えて出力する。
607は、検索結果として出力する文字列である。
【0020】このように、文字コードがシフトJISで
ある場合は、最上位ビットのみを参照し、圧縮コードと
文字コードの識別ができるので、地名表記データを圧縮
しながらも、辞書読み出し処理を高速に行うことができ
る。
【0021】次に、読み出し手段の処理フローについて
説明する。図7は、読み出し手段の処理フローを示した
図である。読み出し手段では、変換処理から引き渡され
る読み情報と、辞書の単語の読みを比較し、一致した場
合にその単語の表記データを出力する処理を行う。ステ
ップ701において、当レコードの読み情報を入力され
た読み情報と比較する。ステップ702において、一致
したか否かを判定する。もし、不一致であれば、ステッ
プ709を行う。一致であれば、以下の処理で表記デー
タを取得する。まずステップ703において、表記文字
列先頭バイトの最上位ビットを参照し、「オン」か「オ
フ」かを判定する。「オン」であれば、文字コードであ
るので、ステップ704において、当1バイトと次の1
バイトを文字コードとして格納する。最上位ビットが、
「オフ」であれば、圧縮コードであるので、圧縮コード
テーブルを参照し、当1バイトを文字コードに置き換え
る。圧縮コードテーブルは、圧縮した2バイトの文字コ
ードを圧縮コード順に配列してあるので、圧縮コードテ
ーブル先頭アドレスに、圧縮コードの値の2倍を加えた
位置に文字コードが格納してある。そこでステップ70
5において、文字コードを取得し、ステップ706にお
いて、取得した2バイトの文字コードを格納する。ステ
ップ707において、表記文字列すべてを読み出したか
否かを判定し、まだ残りがあれば以上の処理を繰り返
す。もし、終了していれば、ステップ708において、
辞書に検索していない単語が残っているか否かを判定す
る。もし、終わりであれば、そのまま処理を終了する。
もし、残りがあれば、次のレコードに進み、上記の処理
を繰り返す。
【0022】尚、本実施例は、かな漢字変換用の辞書を
主に例に取り説明してきたが、その他の文字認識用、音
声認識用の地名辞書でも、本発明の有効性は損なわれな
い。また、文字コードは2バイトとして説明したが、3
バイト系の文字コードに対しても、本発明の有効背は損
なわれない。
【0023】
【発明の効果】本発明によれば、地名の表記データを圧
縮することができ、且つ簡易な処理で、データの読み出
しを行うことができる。
【図面の簡単な説明】
【図1】本発明の基本ブロック図である。
【図2】本発明の外観図である。
【図3】地名辞書の漢字使用頻度を示す図である。
【図4】文字コードと圧縮コードの対応を示す図であ
る。
【図5】圧縮コードを用いた地名文字列の圧縮の一例を
示す図である。
【図6】地名辞書読み出しの概略を示す図である。
【図7】読み出し手段の処理を示すフローチャートであ
る。
【符号の説明】
101…入力手段、102…変換手段、103…表示手
段、104…読み出し手段、105…地名辞書、106
…圧縮コードテーブル。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中島 晃 神奈川県横浜市戸塚区吉田町292番地株式 会社日立製作所マイクロエレクトロニクス 機器開発研究所内 (72)発明者 松田 泰昌 神奈川県横浜市戸塚区吉田町292番地株式 会社日立製作所マイクロエレクトロニクス 機器開発研究所内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】地名の表記情報を使用する情報処理装置の
    圧縮地名データの格納方法であって、 表記1文字毎の出現頻度が高頻度である128文字以下
    の表記群の文字コードを、最上位ビットにより文字コー
    ドと区別した1バイト圧縮コードに変換して格納するこ
    とを特徴とする圧縮地名データの格納方法。
  2. 【請求項2】地名の表記情報を使用する情報処理装置の
    圧縮地名データの読み出し方法であって、 表記1文字毎の出現頻度が高頻度である128文字以下
    の表記群の文字コードを、最上位ビットにより文字コー
    ドと区別した1バイト圧縮コードに変換・格納し、 前記圧縮した文字コード群と前記圧縮コードとを対応付
    けて圧縮コードテーブルに格納し、 前記圧縮コードを含む地名表記を前記圧縮地名データか
    ら読み出し、 前記圧縮コードテーブルを参照し、当該圧縮コードを対
    応する文字コードに置換することを特徴とする圧縮地名
    データ読み出し方法。
JP4339974A 1992-12-21 1992-12-21 圧縮地名データの格納方法及び読み出し方法 Pending JPH06187371A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4339974A JPH06187371A (ja) 1992-12-21 1992-12-21 圧縮地名データの格納方法及び読み出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4339974A JPH06187371A (ja) 1992-12-21 1992-12-21 圧縮地名データの格納方法及び読み出し方法

Publications (1)

Publication Number Publication Date
JPH06187371A true JPH06187371A (ja) 1994-07-08

Family

ID=18332536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4339974A Pending JPH06187371A (ja) 1992-12-21 1992-12-21 圧縮地名データの格納方法及び読み出し方法

Country Status (1)

Country Link
JP (1) JPH06187371A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5221631A (en) * 1989-02-17 1993-06-22 International Business Machines Corporation Method of fabricating a thin film transistor having a silicon carbide buffer layer
KR100588740B1 (ko) * 1999-12-14 2006-06-13 주식회사 케이티 지번도를 이용한 지리정보체계 데이터베이스 구축 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5221631A (en) * 1989-02-17 1993-06-22 International Business Machines Corporation Method of fabricating a thin film transistor having a silicon carbide buffer layer
KR100588740B1 (ko) * 1999-12-14 2006-06-13 주식회사 케이티 지번도를 이용한 지리정보체계 데이터베이스 구축 방법

Similar Documents

Publication Publication Date Title
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPS5916039A (ja) カナ漢字変換方法
JP2744241B2 (ja) 文字処理装置
JPS6246029B2 (ja)
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPS5942347B2 (ja) 電子翻訳機
JPH0140370B2 (ja)
JP2634926B2 (ja) かな漢字変換装置
JPH0140371B2 (ja)
JPH04671A (ja) 電子辞書の検索方式
JPH06131329A (ja) 日本語文字処理装置
JPH10154141A (ja) かな漢字変換装置
JPH09305594A (ja) 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法
JPS6175954A (ja) 漢字デ−タ入力方式
CN1037602A (zh) 中文文书作成装置
JPH10171797A (ja) 辞書見出し語検索装置とそれを用いた仮名漢字変換装置並びに辞書見出し語検索装置制御プログラムを記憶した媒体
JPH06131325A (ja) ハングル入力方式
JPH03269664A (ja) 文字処理装置
JPH03110663A (ja) 文書処理装置
JPH0721798B2 (ja) 言語処理装置
JPH01233653A (ja) 日本語ワードプロセッサ
JPH0546344A (ja) 日本語入力装置
JPS6175471A (ja) 連字学習方式
JPS6293746A (ja) カナ漢字変換用辞書