JP3130324B2

JP3130324B2 - データ圧縮方式

Info

Publication number: JP3130324B2
Application number: JP2586891A
Authority: JP
Inventors: 茂吉田; 佳之岡田; 泰彦中野; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-02-20
Filing date: 1991-02-20
Publication date: 2001-01-31
Anticipated expiration: 2016-01-31
Also published as: JPH04265020A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，文字コード，画像デー
タ等の複数種類のデータが混在する文字列を符号化して
圧縮するデータ圧縮方式に関する。文字コード，画像デ
ータ等の複数種類のデータがコンピュータで扱われるよ
うになるのにともない，取り扱われるデータ量も増大し
ている。そのような大量のデータにおいては，記憶容量
を減らしたり，遠隔地への伝送を可能とするため，デー
タ中の冗長な部分を省いて，圧縮して記憶したりデータ
転送を行うようにすることが望まれる。従来，文字コー
ド，画像データについて，それぞれ単独のデータについ
ては効率良くデータ圧縮する方式はあったが，文字コー
ドと画像データなど異なる種類のデータが混在するデー
タについて，効率良く圧縮する方式はなかった。本発明
は，複数の異なる種類のデータが混在するデータについ
て，高圧縮率の得られるデータ圧縮方式を提供すること
を目的とする。

【０００２】

【従来の技術】様々な種類のデータ（文字コード，画像
データ等）のデータに適用できるデータ圧縮方式とし
て，ユニバーサル符号による方式がある。ユニバーサル
符号においては，文書データにおける文字コードのみな
らず画像データ等にも適用できる。そして，以下の説明
においては，データの１ワード単位を文字と呼び，デー
タが任意ワードでつながったものを文字列と呼ぶ。

【０００３】ユニバーサル符号の一つであるジブ−レン
ペル（Ziv -Lempel)符号には，符号化データを，過去
のデータ系列のうち任意の位置から一致する最大長の系
列に区切り，過去の系列の複製として符号化するユニバ
ーサル型，符号化データのうち新たに出現する文字列
のうちの文字部分列を辞書に順次登録し，符号化対象の
文字部分列を，過去に出現した辞書に登録された文字部
分列のうちの最大長のものに基づいて符号化する増分分
解型およびその改良方式であるＬＺＷ符号方式がある。

【０００４】図５は，ＬＺＷ符号によるデータ圧縮方式
を示す。図において，４１はデータファイルであって，
文字コード等よりなるデータを格納するもの，４２はデ
ータ格納部であって，データファイルから取り出された
文字列を格納するもの，４３は文字部分列を登録する辞
書Ｄ，４４は辞書検索部，４５は出力符号格納部であっ
て，辞書検索部４４が検索した最大一致文字部分列の符
号を格納するもの，４６は登録文字部分列格納部であっ
て，最大一致文字部分列に続く次の一文字もしくは複数
の文字を付加した文字部分列を格納するもの，４７は圧
縮率判定部であって，圧縮率を判定するもの，４８は辞
書登録部であって，文字列を辞書に登録する処理をする
ものである。

【０００５】図示の構成の動作を図６に基づいて説明す
る。図６は，ＬＺＷ符号によるデータ圧縮方式のフロー
である。図における符号に従って説明する。必要に応じ
て図１を参照する。Ｓ１辞書Ｄ４３に単一文字を割り
付け，初期値とする。ｉは登録した文字の番号（符号）
であり，Ｄ（ｉ）は番号ｉの登録文字列を表す。Ａは登
録したアルファベットの大きさ（数）を示す。初期設定
される文字数は実際には，２５６文字を対象とすること
ができるが（Ａ＝２５６），図１における辞書Ｄ（４
３）ではａ，ｂ，ｃの三文字のみよりなる場合を示す。
カーソルを文字列の先頭文字に合わせ（カーソル＝
１），先頭文字をデータ格納部４２に格納する。辞書Ｄ
４３における最大登録番号（識別番号）ｎをｎ＝Ａとす
る。

【０００６】Ｓ２辞書検索部４４は，カーソルの位置
からの文字部分列と一致する辞書中の最長の文字部分列
Ｓを検索する。Ｓ３最大一致文字部分列の番号を出力
符号格納部４５に格納し，〔log₂n 〕ビット( 〔ｘ〕
は，ｘ以上の最小の整数）で，Ｓに関する番号を出力す
る。辞書登録数ｎを１インクリメント（ｎ＝ｎ＋１）と
する。

【０００７】Ｓ４辞書登録部４８は，Ｓに続く次の文
字Ｃにより作られる部分文字列ＳＣを登録文字部分列格
納部４６に格納し，文字部分列ＳＣを識別番号（ｎ＋
１）で辞書に登録する。カーソルを文字列Ｓの次の文字
（Ｃ）に合わせる。Ｓ５予め定めた整数ｍ（圧縮率の
良否をチェックするデータ間隔）に対して，ｍの倍数の
文字数分データを符号化したか調べる。もし，ｍの倍数
分でなければ，Ｓ２に戻る。

【０００８】Ｓ６もし，ｍの倍数分符号化していれ
ば，圧縮率判定部４７は，ｍバイト間で以前より圧縮率
が悪化したか調べる。もし，圧縮率が悪化していなけれ
ば，Ｓ２に戻る。もし，圧縮率が悪化していれば，Ｓ１
に戻り，辞書を初期化して，登録をしなおす。

【０００９】図７は，ＬＺＷ符号の例を示す。図におい
て６０は文字列，６１は出力符号，６２は辞書である。
図は，文字列がａ，ｂ，ｃの三文字のみよりなる場合で
ある。文字列の各文字の上の括弧付の番号は説明の便宜
上付けた番号である。

【００１０】文字列の先頭文字ａ（番号(1) ）にカ
ーソルを合わせる。辞書を参照し，ａは登録済であるこ
とを確認すると，次の一文字ｂを読む。文字部分列ａｂ
は未登録であるから，ａ(1) を符号１で出力し，ａｂを
識別番号４で登録する。カーソルを次の文字ｂ（番
号(2) ）に合わせる。辞書を参照し，ｂは登録済である
ことを確認すると，次の１文字ａ（３）を読む。文字部
分列ｂａは未登録であるから，ｂ(2) を符号２で出力
し，文字部分列ｂａを識別番号５で登録する。次の
文字ａ(3) にカーソルを合わせる。ａは辞書に登録済で
あるから，次の文字ｂ(4) を読む。文字部分列ａｂは登
録済であるから，さらに次の文字ａ(5) を読む。文字部
分列ａｂａは未登録であるから，文字部分列ａｂを符号
４で出力し，文字部分列ａｂａを識別番号６で辞書に登
録する。

【００１１】次に文字ａ(5) にカーソルを合わせ
る。ａは登録済であるから次の文字ａ(6) を読む。文字
部分列ａａは未登録であるから，ａを符号１で出力し，
文字部分列ａａを識別番号７で登録する。以後同様に，
カーソルで指定した文字以降の文字列の文字部分列より
辞書に登録されている文字部分列より一致する最長の文
字部分列を見つけ出し，その文字部分列を辞書における
識別番号により符号化し，最大一致文字部分列と次の一
文字よりなる文字部分列を辞書に新たに登録してゆく。
そして，出力符号６１として，「１２４１５３７・・
・」を出力する。

【００１２】

【発明が解決しようとする課題】文書データと画像デー
タのように性質の異なるデータが混在する場合に，ＬＺ
Ｗ符号でデータ圧縮を行うと，文字の種類もしくは並び
方の傾向の異なるそれぞれのデータ毎の文字部分列が同
一辞書に登録されるため，圧縮率が低下するものであっ
た。

【００１３】

【課題を解決しようとするための手段】本発明は，複数
種類のデータが混在するデータよりなる文字列を圧縮し
て符号化する方式において，文字列における出現頻度の
高い文字部分列を初期値としてデータの種類毎に登録し
た辞書をデータ種別に識別番号を対応付けて備え，符号
化の対象とする文字列の文字部分列を前記各辞書に登録
された部分列と比較し，一致する最大長の文字部分列を
求め，一致した最大長の文字部分列のある辞書番号およ
び一致した最大長の文字部分列の識別番号に基づいて符
号化するようにした。

【００１４】図１に本発明の基本構成を示す。図におい
て，１はデータファイルであって，文書データ等の文字
コードおよび，画像データ等を格納するもの，２はデー
タ格納部であって，文字列のデータを格納するもの，３
は辞書検索部であって，文字部分列について辞書を検索
し，最大一致文字部分列を求めるもの，４は辞書Ａであ
って，例えば，文字コードの文字部分列を登録したも
の，５は辞書Ｂであって，例えば，画像データについて
の文字部分列を登録したものである。６は出力符号格納
部であって，最大一致文字部分列の符号（辞書における
識別番号等）を格納するもの，７は登録文字部分列格納
部であって，辞書検索部３が検索した最大一致文字部分
列と次の一文字もしくは続く文字部分列を格納するも
の，８は辞書登録部であって，登録文字部分列格納部７
に格納された文字部分列を辞書に格納する処理を行うも
のである。なお，図において，圧縮率判定部は省略され
ている。

【００１５】

【作用】図の構成の動作を説明する。データファイル１
より文字コードと画像データが混在する文字列がデータ
格納部２に格納される。辞書検索部３は，データ格納部
２の文字列の先頭文字から順次辞書Ａ（４），辞書Ｂ
（５）を検索し，最大一致文字部分列を求める。出力符
号格納部６は最大一致文字部分列の辞書における識別番
号に基づいて符号を作成し，出力する。登録文字部分列
格納部７は最大一致文字部分列に，それに続く次の一文
字もしくは複数の文字を付け加えた文字部分列を格納す
る。辞書登録部８は登録文字部分列格納部７に格納され
た文字部分列を，最大一致文字部分列を検出した辞書Ａ
（４）もしくは辞書Ｂ（５）に登録する。なお，最長一
致文字部分列が複数の辞書にある場合には，前回選ばれ
た辞書の符号を用いる。また，本発明の方式で作成され
た圧縮データを復号する方式については説明されていな
いが，入力データに基づいて，符号化と逆の順序で，辞
書を復元の参照を繰り返して文字列を復元すればよい。
なお，本発明は，ＬＺＷ符号方式だけでなく増分分解型
等の他のユニバーサル符号化方式にも適用できるもので
ある。

【００１６】

【実施例】本発明の実施例のフロー（１）および（２）
を図２，図３に示す。図２は，ＬＺＷ符号により本発明
を実施する場合のフローであって，最適辞書が今まで用
いていた辞書から変更になった時点で，識別番号の符号
化に先立ち，変更になった辞書の番号を符号化する方式
を示す。本実施例においては，識別番号０を辞書変更の
識別フラグに割り当てる。図示の符号に従ってフローを
説明する。

【００１７】Ｓ１文書データ（文字コード），画像デ
ータ（１，０のビットの並びに基づいて作成したランレ
ングス符号等の数値データ）等のデータの種類毎に辞書
の初期値とするための一文字データおよび出現頻度が高
いと予測される文字部分列を求める。Ｓ２データの種類毎に辞書Ｄｊを作成する（ｊはデー
タの種類）。カーソルを文字列の先頭文字に合わせる
（カーソル＝１）。ｊ番目の最大登録番号ｎｊ（ｊ＝１
〜Ｋ）を設定する（ｎｊ＝Ａｊ）。但し，Ａｊはデータの種類ｊに登録された初期値の個数
を表す。直前で用いた辞書の番号ｐｐのデフォルトの値
を設定する（ｐｐ＝０）。Ｓ３カーソルの位置からの文字部分列を読み取り，各
辞書Ｄｊにおける最長の文字部分列Ｓｊ（ｊ＝１〜Ｋ）
を求める。Ｓ４各辞書毎に求めた最長文字部分列Ｓｊの中から，
最長の文字部分列Ｓｐを求める。Ｓ５辞書番号ｐは直前の辞書番号ｐｐと一致すればＳ
７に移る。Ｓ６〔ｌｏg ₂ｎ_pp〕ビットで辞書切替えフラグであ
る識別番号０を表し，また，〔ｌｏg ₂Ｋ〕ビットで辞
書番号ｐを表して，一緒に出力する。

【００１８】Ｓ７最長の文字列Ｓｐの番号を〔 log₂n
_p〕ビットを用いて出力する。ここで〔 log₂n_p〕は l
og₂n_p線上の最小の整数を表す。Ｐ番目の辞書における
最大登録番号ｎ_pを１インクリメントする（ｎ_p＝ｎ_p
＋１）。Ｓ８カーソルを，求めた最長文字部分列Ｓｐの次の文
字Ｃに合わせる。文字部分列ＳｐＣをＰ番目の辞書に，
番号ｎ_pで登録する。直前の辞書番号ｐｐを今回の辞書
番号ｐで置き換える（ｐｐ＝ｐ）。カーソルを，文字列
において求めた最長文字部分列Ｓｐの次の文字（Ｃ）に
合わせる。Ｓ３以降の処理を繰り返す。この例では「辞書切替え
フラグ＋辞書番号」で辞書を選択するようにしたが，複
数の辞書の数だけ各辞書で同じ識別番号を予約語として
とっておき，その識別番号を用いて辞書を指定しても良
い。

【００１９】図３は，辞書の選択符号を用いないやり方
であり，前回の最適だった辞書を用いて，一致が最大長
の文字部分列を符号化する方式を示す。辞書変更による
選択のタイミングを一回遅らせるので，選択符号がなく
ても，復号側で選択された辞書が分かる。Ｓ１〜Ｓ４は
図２と同様である。Ｓ５辞書Ｄ_ppの最長の文字部分列Ｓ_ppの識別番号を
〔 log₂n_pp〕ビットを用いて出力する。ここで，〔 log
₂n_pp〕は log₂n_pp以上の最小の整数を表わす。ｐｐ番目
の辞書における最大登録番号ｎ_pを１つインクリメント
する（ｎ_pp＝ｎ_pp＋１）。Ｓ６カーソルを，求めた最長文字部分列Ｓ_pの次の文
字Ｃに合わせる。文字部分列Ｓ_ppＣをｐｐ番目の辞書に
番号ｎ_ppで登録する。直前の辞書番号ｐｐを今回の辞書
番号ｐで置き換える（ｐｐ＝ｐ）。カーソルを，文字列
における最長文字部分列Ｓ_pの次の文字（Ｃ）に合わせ
る。以上のようにして，文書データ（文字コード）と画
像データ等の種類の異なるデータが混在する文字列を符
号する。そして，文書データと画像データの二種類の辞
書を作成した場合を例にとると，文書データの文字列部
分は，文書データの文字部分列を登録した辞書が参照さ
れて符号化されることが多く，画像データの文字部分列
については，画像データの辞書が参照されて符号化され
ることが多くなるので，効率的なデータ圧縮がなされ
る。

【００２０】本発明においては，データ圧縮の対象とす
るデータもしくは同種類の他のデータをサンプルデータ
として，出現する文字部分列の出現頻度を測定し，高頻
度で出現する文字部分列を辞書の初期値として登録す
る。

【００２１】図４は，本発明における辞書の初期値作成
方法を示す。図において，３０は出現頻度測定部，３２
はサンプルデータ，３３はサンプルデータの符号化手段
であって，サンプルデータについて符号化し，頻度を測
定するもの，３４は文字部分列の頻度格納部，３５は初
期値設定部である。３６は初期値設定された辞書，３７
は符号化手段であって，実際のデータを符号化するも
の，３８は符号化手段である。

【００２２】サンプルデータ３２に基づいて，符号化手
段３３は，実際に符号化する方式と同様の方式（例え
ば，ＬＺＷ符号）で符号化する。そして，求めた文字部
分列の出現頻度を算出し，頻度格納部３４に格納する。
初期値設定部３５は，頻度格納部３４に格納された文字
部分列のうち，出現頻度の高いもの（予め定めた，出現
頻度の閾値Ｔより大きいもの）を選択する。

【００２３】その結果，例えば，図のおいては一文字
ａ，ｂ，ｃおよび出現頻度の高い文字部分列ｂａを，辞
書３６に初期値として登録する。符号化手段３７は実際
のデータについて，辞書３６の初期値に基づいて，符号
化を始め，新たに出現する文字列を順次登録する。復号
側では，符号化手段３８により辞書を復元しながら，送
られてきた符号を復元する。

【００２４】

【発明の効果】本発明によれば，分割した辞書には，各
種データにおける出やすい文字部分列が予め登録されて
いるので，複数種類のデータが混在するデータを符号化
する場合にも，データの種類に対応した辞書が選択され
る。そして，それぞれの辞書には，対象とするデータに
おける文字部分列が学習されて登録されるので，高圧縮
率の符号化を行うことができる。

【図面の簡単な説明】

【図１】本発明の基本構成を示す図である。

【図２】本発明の実施例フロー（１）を示す図である。

【図３】本発明の実施例フロー（２）を示す図である。

【図４】本発明における辞書の初期値作成方法を示す図
である。

【図５】ＬＺＷ符号によるデータ圧縮方式を示す図であ
る。

【図６】ＬＺＷ符号によるデータ圧縮方式のフローを示
す図である。

【図７】ＬＺＷ符号の例を示す図である。１データファイル２データ格納部３辞書検索部４辞書Ａ５辞書Ｂ６出力符号格納部７登録文字部分列格納部８辞書登録部

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開昭63−151224（ＪＰ，Ａ) 特開平１−132222（ＪＰ，Ａ) 特開昭60−116228（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H03M 7/30

Claims

(57)【特許請求の範囲】

【請求項１】複数種類のデータが混在するデータより
なる文字列を圧縮して符号化する方式において，文字列における出現頻度の高い文字部分列を初期値とし
てデータの種類毎に登録した辞書をデータ種別に識別番
号を対応付けて備え，符号化の対象とする文字列の文字部分列を前記各辞書に
登録された部分列と比較し，一致する最大長の文字部分
列を求め，一致した最大長の文字部分列のある辞書番号
および一致した最大長の文字部分列の識別番号に基づい
て符号化することを特徴とするデータ圧縮方式。
【請求項２】請求項１において，求めた最大長の文字
部分列に続く一文字もしくは複数文字を，求めた最大長
の文字部分列に付加した文字部分列を求めた最大長の文
字部分列のある辞書に登録することを特徴とするデータ
圧縮方式。
【請求項３】請求項１および請求項２において，一致
する最大長の文字部分列をもつ辞書の番号を，識別番号
の符号化に先立ち符号化し，対応する辞書を選択するこ
とを特徴とするデータ圧縮方式。
【請求項４】請求項１および請求項２において，符号
化の対象とする文字部分列を辞書に登録された文字部分
列との前回の比較で，一致する最大長の文字部分列のあ
った辞書における一致する最大長の文字部分列の識別番
号によって符号化することを特徴とするデータ圧縮方
式。