JPH02255977A

JPH02255977A - 日本語文字列情報圧縮方式

Info

Publication number: JPH02255977A
Application number: JP1021210A
Authority: JP
Inventors: Takao Kosakai; 小堺　隆男
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-01-30
Filing date: 1989-01-30
Publication date: 1990-10-16

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、ＪＩＳ−Ｘ−０２０８”情報交換用漢字符号
系″に代表される通常の２バイトコードで表現された日
本語情報を圧縮する日本語文字列情報圧縮方式に関する
。

〔従来の技術〕

従来、日本語情報を圧縮する場合、日本語文字が１４ビ
ツトで表せ、２バイトに格納するときにできる２ビツト
の余りを詰める方法が通常とられている。

〔発明が解決しようとする課題〕

しかしながら、前述の圧縮方法では約１．１４倍の圧縮
効果しか得られない。

本発明の目的は、これを大きく上回る圧縮率を実現する
日本語文字列情報圧縮方式を提供することにある。

〔課題を解決するための手段〕

本発明の日本語文字列情報圧縮方式は、２バイトで表現
される日本語コードで表現された日本語情報を圧縮する
処理において、特定のコードの値の日本語処理の連続し
た塊を検出する文字列検出手段と、その塊に符号を割り
当てる符号化手段とを具備することを特徴とする。

〔実施例〕

次に本発明について図面を参照して説明する。

第１図は本発明の一実施例のブロック図であり、この実
施例は、文字列検出手段１と、符号化手段２とから構成
されている。

次に、文字列検出手段１における動作を詳細に説明する
。第２図のステップ２１で処理と対象となる日本語情報
の先頭に処理ポインタを位置付け、ステップ２２で日本
語文字列の文字列の文字の前半バイトが１６進数の３０
〜７Ｅかまたは２５であれば符号化手段２を呼び出して
符号化を行う。

そうでなければステップ２４でその日本語文字をそのま
ま格納する（圧縮しない）。ステップ２５では処理を終
了するか否かを判定する。

次に、第１図の符号化手段２における動作を詳細に説明
する。第３図のステップ３１で日本語文字列の文字の前
半バイトが１６進数の３０〜７Ｅである文字の連なり、
または前半バイトが１６進数の２５および前半バイトが
１６進数の２１後半バイトが１６進数の３Ｃである文字
の連なりを抽出する。ステップ３２で抽出された文字列
が符号表で既に登録されていれば、ステップ３３で符号
表から登録番号を取り出す。そうでなければステップ３
４で直前に符号表に登録した登録番号の次の値を登録番
号として、抽出された文字列を符号表に登録する。ステ
ップ３５で登録番号を２進数で表した値に最上位のビッ
トをオンにしたものを変換符号として格納する。

〔発明の効果〕

以上説明したように本発明には、比較敵長い漢字列や片
仮名の単語が繰り返し使用される日本語情報の圧縮にお
いて特に高い圧縮効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例のブロック図、第２図は第１
図中の文字列検出手段の動作を示す流れ図、第３図は第
１図中の符号化手段の動作を示す流れ図である。１・・・文字列検出手段、２・・・符号化手段。

Claims

【特許請求の範囲】

２バイトで表現される日本語コードで表現された日本語
情報を圧縮する処理において、特定のコードの値の日本
語処理の連続した塊を検出する文字列検出手段と、その
塊に符号を割り当てる符号化手段とを具備することを特
徴とする日本語文字列情報圧縮方式。