JP2765239B2

JP2765239B2 - 適応的データ圧縮方式

Info

Publication number: JP2765239B2
Application number: JP2418912A
Authority: JP
Inventors: 利彦岡村
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1990-12-19
Filing date: 1990-12-19
Publication date: 1998-06-11
Anticipated expiration: 2013-06-11
Also published as: JPH04219818A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力系列の部分系列に
参照番号を割り振った辞書を作り、同じ部分系列が再び
現れたらその参照番号を出力し、その部分系列を延ばし
た系列を上記辞書に登録していく無歪データ圧縮方式に
関するものである。

【０００２】

【従来の技術】辞書を用いたデータ圧縮方式を実用化す
る場合、辞書を作るためのメモリはある程度制限されて
いるのが普通である。そこで辞書が一杯になったときの
処置が必要である（辞書に登録される系列の個数の最大
値を“辞書のサイズ”と呼ぶ）。次のような例がある。（１）入力データを予め、圧縮を実行したときに辞書が
一杯にならない程度の大きさのブロックに分割しておい
て、ブロック毎に独立に符号化する（２）辞書が一杯になったらそれ以上登録は行わず、そ
のまま符号化を行う（３）いらない系列を削除し、そこに新しい系列を登録
するデータの性質が途中で全く変わってしまったりすると圧
縮率を落とす原因になるが、そのための処置を講じよう
とすると、（１）はそのままで有効である。（２）を採
用したときには、圧縮率が落ちたら辞書を初期化し改め
て符号化をし始めるという方式がある（Ｕｎｉｘのコマ
ンド“ｃｏｍｐｒｅｓｓ”）。（３）については常に枝
の更新が行われているため、削除の仕方が適当であれば
データの性質が変わってしまう場合にも有効である。削
除の仕方では、古くに登録されたものから削除してゆく
方法（この方法を今後“ＬＲＵ（ＬｅａｓｔＲｅｃｅ
ｎｔｌｙＵｓｅｄ）ｄｅｌｅｔｉｏｎｈｅｕｒｉｓ
ｔｉｃ”または単位“ＬＲＵ”と呼ぶ）などが有効であ
る。古くに登録されたものを決定するためにｓｅｌｆ−
ｏｒｇａｎｉｚｉｎｇｌｉｓｔなどのデータ構造を用
いていた。

【０００３】

【発明が解決しようとする課題】ＬＲＵを使用する方式
で、古くに登録された系列を決定するためにｓｅｌｆ−
ｏｒｇａｎｉｚｉｎｇｌｉｓｔなどの構造を用いなけ
ればならなかった。また、ブロックに分割してブロック
毎に独立に圧縮する方式だと、長い系列を圧縮できない
ため、特に冗長の大きいデータを圧縮するときの圧縮率
の劣化が大きい。また、いろいろな辞書サイズにおいて
ＬＲＵを使い圧縮を行うと、小さなサイズの方が圧縮率
が良くなることがある。

【０００４】本発明の目的は、上述の問題点を解決し、
いろいろな性質のデータに対し、柔軟に対応できるデー
タ圧縮方式を提供することにある。

【０００５】

【課題を解決するための手段】本発明は、入力系列の部
分系列に参照番号を割り振った辞書を作り、同じ部分系
列が再び現れたらその参照番号を出力し、その部分系列
を延ばした系列を前記辞書に登録し、前記辞書が一杯に
なったら古い部分系列から順に、前記辞書の木構造を用
いて削除し、空いたスペースに新しい部分系列を登録し
ていくリアルタイムで実行できる無歪データ圧縮方式で
ある。

【０００６】本発明によれば、最近の圧縮率を計算し、
圧縮率が予め設定された辞書拡大のための基準値より良
くなったら辞書を拡大し、圧縮率が予め設定された辞書
初期化のための基準値より悪くなったら辞書を縮小する
ことにより、前記辞書に登録される部分系列の個数の最
大値を変更する。

【０００７】

【作用】辞書の検索の為に使われる木構造では古い系列
から順にリストに並ぶことになるので、木の言葉で言え
ば削除すべき古い葉が容易に決定できる。

【０００８】圧縮率を定期的に計算して、よく圧縮され
ているようだったら辞書サイズを拡大し、全く圧縮され
ていないようだったら辞書を初期化し、どちらでもなか
ったら辞書サイズはそのままでＬＲＵを使用することに
より、データの状態に柔軟に対応する辞書を作成でき
る。

【０００９】

【実施例】辞書を使ったデータ圧縮方式としてＬｅｍｐ
ｅｌ−Ｚｉｖ−Ｗｅｌｔｃｈ（ＬＺＷ）の方式を採用す
る。辞書は入力系列の部分列に参照番号を対応させたも
のである。ＬＺＷでは入力系列と辞書に登録されている
部分系列の一致は辞書に登録されている中でなるべく長
くとり（ｇｒｅｅｄｙｐａｒｓｉｎｇ）、新たに登録
するパターンは以前に登録したパターンを一文字延長し
たものである。辞書の初期状態は入力アルファベットの
各キャラクタに参照番号を割り振ったものである。

【００１０】第１図は本発明を実施する適応的データ圧
縮装置を示すブロック図である。この適応的データ圧縮
装置は、入力系列と辞書の系列との間のマッチングをと
り、辞書の参照番号から符号語を生成し、また、辞書に
登録する系列を決定する符号器１と、入力系列の部分列
に参照番号を対応させたテーブルを有する辞書２と、辞
書サイズの変更を決定する制御器３と、辞書の削除する
場所を決定する制御器４とから構成されている。

【００１１】図２は、符号木１におけるＬＺＷの符号化
のフローチャートである。ステップ５１では辞書の初期
化を行う。ステップ５２では入力データの最初の一文字
を読み込み、それをｐｒｅｆｉｘ ωとする。ステップ
５３では符号化終了かどうか決定する。ステップ５４で
は次の一文字Ｋを読み込み、ステップ５５ではωＫが辞
書にあるかどうか決定する。もしあったらステップ５３
からステップ５６を繰り返し、ない場合はステップ５７
でωの参照番号を出力し、またステップ５３からステッ
プ５６を繰り返す。

【００１２】図３はＬＺＷを使って符号化したときの辞
書の例である。入力アルファベットは｛Ａ，Ｂ，Ｃ｝と
して、入力系列“ＡＢＢＡＢＣＡＢＣＣＡＢ”を符号化
したあとの辞書である。ｃｈｉｌｄはそれに続く系列の
内で最初に現れたものを指し、ｓｉｂｌｉｎｇは同じ親
を持つ系列で次に現れたものを指すポインタである。こ
のようにｃｈｉｌｄ，ｓｉｂｌｉｎｇという二つのポイ
ンタにより木構造が入っている。ｃｈｉｌｄはその系列
に続く系列で最初に現れた系列の番地を示し、ｓｉｂｌ
ｉｎｇは同じ“親”を持つ系列で次に現れた系列の番地
を示す。

【００１３】制御器４における削除位置を決定するアル
ゴリズムは図４のフローチャートで表される。入力アル
ファベットＡの大きさを｜Ａ｜とする。削除位置を決定
するための辞書の番地を示すポインタｐを用意する。ｃ
ｈｉｌｄ（ｐ）でｐにおけるｃｈｉｌｄの値を示す。ｐ
の初期値は｜Ａ｜＋１とする。ステップ２１においてｐ
に登録されている系列がｌｅａｆであるかどうか調べ
る。もしｌｅａｆでなかったらステップ２４でｐを一つ
ずらし、そこがｌｅａｆかどうか調べ、これを繰り返
す。もしｌｅａｆであったらステップ２２で削除位置を
ｐに決定し、ｐに登録を行う。ｐは次の削除の位置決定
のため一つずらす。ステップ２３，２５においてｐが辞
書Ｄの大きさ｜Ｄ｜を越える場合にはｐは、ステップ２
７で｜Ａ｜＋１に戻す。

【００１４】辞書が飽和するまでは普通にＬＺＷを行
う。辞書が飽和してからも登録する系列の決定の仕方は
ＬＺＷと同じとする。

【００１５】こうして得られたｐの位置に新たな系列を
登録する。新しく登録された系列は削除の候補のなかで
最下位になっている。また削除によりｃｈｉｌｄ，ｓｉ
ｂｌｉｎｇを書き換える操作も必要である。

【００１６】辞書が飽和したら上に述べたように削除・
登録を繰り返すとして、データの圧縮状況に応じて辞書
サイズを変更することにする。辞書サイズの変更はここ
では一例として初期化することにする。

【００１７】辞書Ｄは、登録される系列の数の上界によ
ってＤ₁ ，Ｄ₂ ，・・・，Ｄ_k （｜Ｄ₁ ｜〈｜Ｄ₂ ｜・
・〈｜Ｄ_k ｜）（｜Ｄ₁ ｜でＤ₁ のサイズを表す）とｋ
個の状態を持つとする。

【００１８】｛Ｄ_i ｝は図５のように遷移する。

【００１９】“Ｄ_i →Ｄ_i+1 ”は辞書サイズの拡大して
符号化を続けることを示す。

【００２０】

【数１】

【００２１】

【００２２】は、辞書サイズをそのままにして符号化を
続けることを示す。

【００２３】

【数２】

【００２４】

【００２５】は、辞書と入力系列が全くかみ合わなくな
ったため辞書を初期化して新たに符号化し始めることを
示す。

【００２６】各Ｄ_i において、符号化はＤ_i に登録され
ている系列の数が｜Ｄ_i ｜に達していないときには普通
にＬＺＷを行い、｜Ｄ_i ｜に達したらＬＲＵにより削除
登録を繰り返し、辞書サイズを一定に保ち符号化を続け
る。

【００２７】図６は制御器３における辞書サイズの変更
を決定するためのフローチャートである。ステップ４１
において最近のＣ（定数）個の系列が辞書に登録される
間の圧縮率ρを求める。今、辞書はＤ₁ の状態でありＣ
個の系列が登録される間に入力系列がｎｂｙｔｅｓ読
み込まれたとすると、 ρ＝（Ｃ＊｜ｌｏｇ₂ ｜Ｄ₁ ｜｜）／（｜ｌｏｇ₂ ｜Ａ｜｜＊ｎ）ステップ４２において辞書を初期化するかどうか決定す
る。ステップ４４では辞書が飽和しているかどうか調べ
る。飽和していないようなら辞書サイズはそのままであ
る。ステップ４６において圧縮率ρと基準値τ_i を比較
することにより辞書サイズを拡大するかどうかを決定す
る。

【００２８】入力アルファベットはｂｙｔｅ、｜Ｄ₁ ｜
＝５１０、｜Ｄ₂ ｜＝１０２２、｜Ｄ₃ ｜＝２０４６、
｜Ｄ₄ ｜＝４０９４、｜Ｄ₅ ｜＝８１９０、τ₁ ＝０．
７５、τ₂ ＝０．６５、τ₃ ＝０．５５、τ₄ ＝０．４
５として行った本発明による圧縮結果の圧縮率を表１に
示す。

【００２９】

【表１】

【００３０】

【００３１】表１において各ファイルは次のようなもの
である。ＦＩＬＥ１：Ｃのプログラムファイル．５２１５４ｂｙ
ｔｅｓ．ＦＩＬＥ２：Ｃのプログラムファイル．５１７０３ｂｙ
ｔｅｓ．ＦＩＬＥ３：ＱｕｉｃｋＢａｓｉｃのプログラムファ
イル．４６４６６ｂｙｔｅｓ．ＦＩＬＥ４：電子メール．２７９４７ｂｙｔｅｓ．ＦＩＬＥ５：実行型のファイル．２７８３２ｂｙｔｅ
ｓ．ＦＩＬＥ６：実行型のファイル．４０４０１ｂｙｔｅ
ｓ．ＦＩＬＥ７：ＣＯＭＭＡＮＤ．ＣＯＭ．２４９３１ｂｙ
ｔｅｓ．ＦＩＬＥ８：システムファイル．２０７５６ｂｙｔｅ
ｓ．表の中の数字は圧縮率で、（符号長／入力データ長）で
求めたものである。ＦＩＬＥ１〜４については、辞書サ
イズ可変方式は最適なサイズの辞書を用いた場合にかな
り近い圧縮率を示している。

【００３２】ＦＩＬＥ５〜８については、辞書サイズ可
変方式は最適なサイズの辞書を用いた場合より１〜２％
圧縮率は落ちているが、最悪のサイズ（大きいサイズ）
の辞書を用いた場合より２〜６％圧縮率は改善してい
る。

【００３３】

【発明の効果】本発明により、特別な記憶領域を割り当
てなくても、辞書の番地を示すポインタを一つ用意する
だけで、辞書の木構造を用いることによりＬＲＵｄｅｌ
ｅｔｉｏｎｈｅｕｒｉｓｔｉｃが実現できる。

【００３４】また、辞書サイズを可変にすることによ
り、いろいろな性質のデータに対し、柔軟に対応するデ
ータ圧縮方式が実現できる。

【００３５】したがって、本発明を利用することによ
り、圧縮伸張を実行するときの消費されるメモリを制限
しておくことができ、なおかつ圧縮率の劣化を防ぎ、ま
た場合によっては圧縮率の向上が見られる場合もある。

【図面の簡単な説明】

【図１】本発明方式を実施する適応的データ圧縮装置の
ブロック図である。

【図２】ＬＺＷの符号化アルゴリズムを示したフローチ
ャートである。

【図３】ＬＺＷを使って符号化したときの辞書の例を示
す図である。

【図４】制御器４における削除の位置を決定するフロー
チャートである。

【図５】辞書サイズの遷移のさせ方を示した図である。

【図６】制御器４における辞書サイズの変更を決定する
ためのアルゴリズムを示したフローチャートである。

【符号の説明】

１符号器２辞書３，４制御器

Claims

(57)【特許請求の範囲】

【請求項１】入力系列の部分系列に参照番号を割り振っ
た辞書を作り、同じ部分系列が再び現れたらその参照番
号を出力し、その部分系列を延ばした系列を前記辞書に
登録し、前記辞書が一杯になったら古い部分系列から順
に、前記辞書の木構造を用いて削除し、空いたスペース
に新しい部分系列を登録していくリアルタイムで実行で
きる無歪データ圧縮方式において、最近の圧縮率を計算し、圧縮率が予め設定された辞書拡
大の基準値より良くなったら辞書を拡大し、圧縮率が予
め設定された辞書初期化のための基準値より悪くなった
ら辞書を縮小することにより、前記辞書に登録される部
分系列の個数の最大値を変更する適応的データ圧縮方
式。