JPH03209922A

JPH03209922A - データ圧縮方式

Info

Publication number: JPH03209922A
Application number: JP507890A
Authority: JP
Inventors: Yasuhiko Nakano; 泰彦中野; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-01-12
Filing date: 1990-01-12
Publication date: 1991-09-12
Anticipated expiration: 2013-11-11
Also published as: JP2823917B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概要］文字等の入力データ系列を、参照テキストに登録された
既に符号化済みの系列の複製として圧縮符号化するデー
タ圧縮方式に関し、参照テキストの更新と検索を高速化することを目的とし
、参照テキストを複数領域に分割して順次符号化済みデー
タ系列を登録し、参照テキストの検索は登録の新しい分
割領域から登録の古い分割領域に向かって行い、更に参
照テキストが一杯になった場合には、最も登録の古い分
割領域を更新するように構成する。

［産業上の利用分野］本発明は、文字等の入力データ系列を、参照テキストに
登録された既に符号化済みの系列の複製として圧縮符号
化するデータ圧縮方式に関する。

文字等のコード列情報を伝送・蓄積する際には、データ
量を低減して伝送時間の短縮と記憶容量の低減を図るた
めコード情報を圧縮符号化しており、この圧縮符号化と
しては、過去のデータ系列を登録した参照テキストの任
意の位置から入力コード情報に一致する最大長さの部分
列を取出し、過去の系列の複製として符号化するユニバ
ーサル符号化が行われ、演算の高速化と同時に高圧縮率
が得を得る必要がある。

［従来の技術］一般に、蓄積、伝送すべきデータの容量が大きいとき、
通信回線や記憶装置の容量を有効に利用するため、デー
タ列を圧縮して伝送や蓄積を行い、再度、そのデータを
使用するときに元のデータ列に復元する方法が良く用い
られる。

従来、文字コードを能率良（圧縮する方式として２ｉｖ
−Ｌｅｍｐｅｌ符号（以下ｒ２Ｌ符号」という）が知ら
れている（例えば宗像清治著、　　ｒｌ’ｉｖ−Ｌｅｍ
ｐｅｌデタ圧縮法」、情報処理、　　Ｉ）Ｔ）、　　２
〜５．　ｖｏｌ、２６Ｎｏ、　１．１９８５を参照のこ
と）。

ＺＬ符号には、 ■ユニバーサル型と、 ■増分分解型（Ｉｎｃｒｅｍｅｎｔａｌ　ｐｅｒｓｉｎ
ｇ）の２つのアルゴリズムが提案されている。この２つ
のアルゴリズムの間では、圧縮率はユニバーサル型の方
が優れており、処理速度は増分分解型の方が早いという
特徴がある。

これら２つのアルゴリズムの内、圧縮率が高いユニバー
サル型ＺＬ符号は、入力した文字列を以前に入力した符
号化済みの文字列から最大長一致する文字列を検索し、
その最大長一致する文字列の複製として符号化する。

ここでデータ圧縮は文字コードに限らず、一般のデータ
にも適用できるが、以下の説明では情報理論等で使われ
ている呼称を踏襲し、データの１ｗｏｒｄを文字、その
集合を文字列と呼ぶことにする。

第５図にユニバーサル型ＺＬ符号器の原理を示す。

第５図において、Ｐバッファ１２には符号化済みの文字
列が格納されており、Ｑバッファ１０にはこれから符号
化する文字列が格納されている。

Ｑバッファ１０の入力文字列とＰバッファ１２の登録さ
れている全ての文字列（部分列）とを検索照合し、Ｐバ
ッファ１２中で一致する最大長の部分列を求める。そし
て、Ｐバッファ１２中の最大一致長をもつ部分列を指定
するため、次の情報の組を符号化する。

必要ビット数（ｌｏｇ２　Ｌｐ）　　　　　　　（ｌｏｇ　２　Ｌｑ
）Ｌｐ：Ｐバッファの長さ　Ｌｑ＋Ｑバッファの長さ次
にＱバッファ１０内の符号化した文字列をＰバッファ１
２に移して、符号化した文字数分の新たな文字を登録す
る。以下、同様の操作を繰り返し、入力データを部分列
に分解して順次符号化する。

第６図は従来方式の一例を示し、符号語が２バイトで表
わされる場合、例えばＰバッフアコ−２を１２ｂｉｔＳ
Ｑバッファ１０を４ｂｉｔで表わしている。Ｐバッファ
１２上での検索は、Ｐバッファ１２の左側から行われ、
もし一致する文字列がなければ、ＩＮＰＵＴポインタの
ところに入力データ系列が新たに登録される。

［発明が解決しようとする課題］このようなユニバーサル型ＺＬ符号方式で圧縮率を向上
させるには、できるだけ多くの参照テキストとしてのＰ
バッファの登録が必要であり、またＱバッファのビット
幅で決まるマツチングによる一致長が大きさを制限なし
に表せることが理想である。

しかし、実際には、ソフトウェアで符号化・複合化する
ときは、単にＰバッファ１２及びＱバッファ１０を大き
くとると、バッファアドレスで決まる符号語データが大
きくなり、結果的に圧縮率が悪化する。また、参照テキ
ストが増えるので、一致検索に時間がかかり処理スピー
ドも落ちる。

本発明は、このような従来の問題点に鑑みてなされたも
ので、参照テキストを大きくした際の一致検索と更新を
高速化するデータ圧縮方式を提供することを目的とする
。

［課題を解決するための手段］第１図は本発明の原理説明図である。

まず本発明は、データ系列を第１バッファ（Ｑバッフ）
１０に入力し、既に符号化済みのデータ系列が登録され
ている参照テキストとしての第２バッファ（Ｐバッファ
）１２を検索して入力データ系列に一致する符号化済み
データ系列の最大長一致の部分列を求め、該最大長一致
部分の開始位置と一致長との組を符号語として出力して
圧縮符号化するデータ圧縮方式を対象とする。

このようなデータ圧縮方式につき本発明にあっては、第
２バッファ１２を複数領域１２−１〜１２−ｎに分割し
て符号化済みデータを順次登録し、分割領域１２−１〜
１２−ｎの内の登録の新しい分割領域から登録の古い領
域に向けて入力データ系列との一致検索を行い、更に全
ての分割領域１２−１〜１２−ｎが登録データ系列で満
たされた場合には、最も登録の古い分割領域を更新する
ように構成する。

更に本発明にあっては、参照テキストとしての第２バッ
ファ１２を大きくしながら、符号語を小さくして圧縮率
を向上させるため、検索された最大長一致部分の開始位
置を第２バッファ１２の分活領域１２−１〜１２−ｎの
領域番号と領域内位置とに分け、領域内位置は符号語の
最大長さ一致部分の開始位置として符号化し、一方、領
域番号は符号語とは別個に第２バッファ１２に識別デー
タとして持つことにより、一致長検索に適したビット幅
に第２バッファ１２の検索インデックをビット幅を縮小
させ、この縮小させたビット分を第１バッファ１０に割
り当てて一致長検索の許容長さを拡大させるように構成
する。

［作用コこのような構成を備えた本発明のデータ圧縮方式によれ
ば、符号化の途中で、第２バッファ１２の全ての分割領
域１２−１〜１２−ｎが一杯になったときは、登録の一
番古い分割領域を消去して新たに登録していくことによ
り、従来では全体として行っていた面倒な第２バッファ
１２の更新作業が大幅に削減され、処理の高速化が可能
となる。

また登録の新しい第２バッファ１２の分割領域から検索
することにより、登録されたばかりの新しい情報から検
索できるので、検索が短い時間で済む。

［実施例］第２図は符号器を例にとって本発明の一実施例を示した
実施例構成図であり、ユニバーサル型ＺＬ符号化で実際
的な方法として知られたＬＺＳＳ符号化方式（Ｔ、Ｃ，
Ｂｅ１ｌ：Ｂｅｔｔｅｒ　ＯＰＭ／Ｌ　Ｔｅｘｔ　Ｃｏ
ｍｐｒｅｓｓｉｏｎ、　　ＩＥＥＥ　Ｔｒａｎｓ、　ｏ
ｎ　Ｃｏｍｍｏｍ、、Ｖｏｌ、３４　Ｎｏ、　１２１９
８６参照）により符号語データを２バイトで表わす場合
を例にとっている。

第２図において、１４はデータ圧縮装置であり、第１バ
ッファとしてのＱバッファ１０と、第２バッファとして
のＰバッファ１２を備え、この実施例にあっては、Ｐバ
ッファ１２は３つの分割領域１２−１．１２−３．１２
−３に分割されている。

尚、Ｐバッファ１２の分割領域は、１−２−１　。

１２−２が登録済みで、現在残りの領域１２−３への登
録が行われている状態を示している。

０１６はファイル／伝送装置であり、データ圧縮装置１４
から出力される最大長一致部分の開始位置と一致長との
組のデータ構造をもつ符号語又は生データ（入力文字列
そのもの）を記憶又は伝送する。

ここで本発明の処理を第６図の従来方式と対比して説明
すると次のようになる。

まず第６図の従来方式では、符号語を２バイトで表すと
き、例えばＰバッファ１２のサイズを１２ビツト、Ｑバ
ッファ１０のサイズを４ビツトで表し、Ｐバッファ１２
上での検索はＰバッファ１２の左側から行われ、もし一
致する文字列がなければ、図中のＩＮＰＩＩＴポインタ
のところに新たに登録される。この方法では、文字の比
較が、現在のＱバッファ１０の内容とは関係が薄いと考
えられる古い登録文字から始められ、検索時間がかかっ
ている。また、Ｐバッファ１２が一杯になったときの更
新法として、 ■Ｑバッファ１０上の符号化が終わった分だけ、Ｐバッ
ファ１２を左にシフトする方法や、１ ■−続きのＰバッファ１２を全てクリアし、最初から登
録をやり直す方法があった。

しかし、■の一部シフト法はＰバッファ１２が一度一杯
になると、毎回、更新作業が必要で処理が煩雑になる。

また■のオールクリア法は、現在までの学習されたＰバ
ッファ１２が一度に失われ、符号化されない生のデータ
が出力される可能性が大きくなり効率が悪い。

これに対し本発明では、従来は−続きであったＰバッフ
ァ１２を複数領域、例えば３つの領域に１２−１〜１２
−３に分け、Ｐバッファ１２の中のどのバッファ分割領
域が使われているかは、バッファ内の識別コードに組み
込むこととする。

Ｐバッファ１２の検索は、検索を短い時間で終了させる
ために、一番登録の新しい分割領域１２−３から検索を
始める。また、Ｐバッファ１２の全ての分割領域１２−
１〜１２−３が一杯になったら、関係の薄いと思われる
登録が一番古いＰバッファ１２の分割領域１２−１のみ
をクリアし、クリアした分割領域１２−１に新しく登録
してい２くことで検索の効率が図れ、且つ他の２つの分割領域１
２−２．１２−３はそのまま利用できる。

また、第２図の実施例にあっては、第６図の従来方式で
Ｐバッファ１２が１２ピッ１−１Ｑバッファ、１０が４
ビツトであったものを、それぞれ１１ビツト、及び５ビ
ツトとしている。その結果、Ｐバッファ１２が１ビット
減った分、参照テキストの量が半分になるが、３つの分
割領域１２−１〜１２−３に分けて持つことにより、参
照テキストの量は等比的に３／２になる。またＱバッフ
ァが１ビット増えているので、その分マツチングー致長
が長くとれ圧縮率も向上する。

更に詳細に説明すると、第６図の従来方式では、Ｐバッ
ファ１２を１２ビツト、Ｑバッファ１０を４ピツＩ・で
表わし、更に８個のデータ毎に符号語データか生データ
かを識別するための識別データが格納されている。即ち
、識別データの１ビツトずつが続いて並ぶ８個のデータ
が符号語データか生データかを識別する。

ここで圧縮率を上げようとしてＰバッファ１２３１及びＱバッファ１０のビット幅を仮に１ビツトずつ増
やしたとすると、開始位置と一致長の組でなる符号語デ
ータが８の倍数でなくなり、データを転送する際にビッ
ト詰めという面倒な処理が必要となる。また８の倍数と
なるようにＰバッファ１２及びＱバッファ１０のビット
幅を、例えば１８ビツト、６ビツトに増やしたとすると
、最大−致長の開始位置と一致長との組でなる符号語が
３バイトにもなり、最大一致長が２バイト又は３バイト
であった場合は、共に複製で表わすことでは圧縮されず
、符号化の効率が悪くなる。

これに対し本発明では、−続きのＰバッファ１２を第２
図のように例えば３つの分割領域１２１〜１２−３に分
けて持ち、どの分割領域が使われているかは、Ｐバッフ
ァ１２の識別データを１データ当り２ビツトとして持た
せることにより、１組の符号語データの長さを２バイト
のまま変化させずに圧縮率を上げることができる。

次に第３図の動作フロー図を参照して本発明の処理動作
を説明する。

４まずステップＳｌ（以下「ステップ」は省略）入力文字
列をＱバッファに読み込む。次に８２で入力文字列の終
端でなければＳ３に進み、終端であれば処理を終了する
。。

Ｓ３にあってはｉ＝Ｎｅｗとする。ここでＮｅｗは、一
番新しいＰバッファの分割領域を示すインデックスであ
る。

次に８４でＰバッファ１２の分割領域Ｐ　［ｉ］をスキ
ャンし、一致する文字を探す。一致すれば、Ｓ５に進ん
で分割領域Ｐ　［ｉ］中の一致開始位置と一致長をレジ
スタ等に登録、更新してＳ６に進み、もし一致する文字
が分割領域Ｐ　［ｉ］になければ、そのまま８６次へ進
む。

Ｓ６ではｉを関数ｆ　（ｉ）に従って更新する。

関数ｆ　（ｉ）によるｉの更新は、最初はｉ−１゜２．
３と更新され、−杯になって登録の古い１１のクリア更
新が行なわれると、次にｉ＝２．３゜１と更新され、３
回目の更新ではｉ＝３．　１．　２と更新され、以下こ
れを繰り返す。

次に８７に進んでＮｅｗ＝ｉであるか、即ち全ての５分割領域の検索が終了したか否かを判断し、終了してい
ればＳ８へ、終了していなければＳ３に戻る。

全てのＰバッファ分割領域の検索が終り、Ｓ８で一致す
る文字がＰバッファ中になければ、Ｓ９で生データその
ものを符号語データ列として出力してＳ１１のＰバッフ
ァ登録処理に進む。Ｓ８で一致する文字がＰバッファ中
にあることが判別されると、Ｓ５で登録した一致開始位
置（特定のＰバッファ分割領域内の領域位置）と一致長
の組でなる符号語データを出力し、Ｓ１１に進み、以下
、Ｓ２で文字列の終了が判別されるまで同じ処理を繰り
返す。

第４図は、第３図の８１１におけるＰバッファ登録処理
をサブルーチンとして示した動作フロー図である。

第４図において、まずＳｌで登録が最も新しい分割領域
Ｐ　［Ｎｅｗｌ　が−杯かどうかを調べ、もし−杯であ
ればＳ２に進む。一方、まだ登録できる余裕があればＳ
５へ進む。

６Ｓ２では、一番古いＰバッファ分割領域のインデックス
旧ｄを計算し　Ｓ３で最も登録の古い分割領域Ｐ　［ｏ
ｌｄｌをクリアし、Ｓ４でクリア後にＨｅＷ・Ｏｌｄに
置き換えて８５にへ進む。Ｓ５ではクリア状態にある分
割領域Ｐ　［Ｎｅｗ］に生データを登録する。

尚、上記の実施例は、Ｐバッファ１２を３つの領域に分
割した場合を例にとるものであったが、必要に応じて任
意の数に分割できる。

［発明の効果］以上説明したように本発明によれば、参照テキストとマ
ツチング一致長さの許容長さを大きくしても、参照テキ
ストの検索及び更新を高速に行うことができる。

【図面の簡単な説明】

第１図は本発明の原理説明図；第２図は本発明の実施例構成図；第３図は本発明の動作フロー図；７第４図は本発明のＰバッファ登録処理の動作フロー図；第５図はユニバーサル型ＺＬ符号化の原理説明図；第６
図は従来方式の説明図である。図中、１０：第１バッファ（Ｑバッファ）１２：第２バッファ（Ｐバッファ）１２−１〜１２−ｎ：分割領域１４：検索装置１６：符号器

Claims

【特許請求の範囲】

（１）文字等のデータ系列を第１バッファ（１０）に入
力し、既に符号化済みの過去のデータ系列が登録されて
いる第２バッファ（１２）を検索して前記第１バッファ
（１０）のデータ列に一致する符号化済みのデータ列の
最大長一致部分を求め、該最大長一致部分の開始位置と
一致長との組の符号語として出力して圧縮符号化するデ
ータ圧縮方式に於いて、前記第２バッファ（１２）を複数領域（１２−１〜１２
−ｎ）に分割して符号化済みデータ列を順次登録し、該
分割領域（１２−１〜１２−ｎ）の内の符号化済みデー
タ系列の新しい分割領域から古い分割領域に向けて前記
一致検索を行い、全ての分割領域が登録データ系列で満
たされた場合は、最も古い分割領域から更新して行くこ
とを特徴とするデータ圧縮方式。
（２）前記最大長一致部分の開始位置を、前記第２バッ
ファ（１２）の分割領域（１２−１〜１２−ｎ）の領域
番号と領域内位置とに分け、該領域内位置は前記符号語
の最大一致長部分の開始位置として符号化し、前記領域
番号は符号語とは別個に前記第２バッファ（１２）に識
別データとして持つことにより、一致長検索に適したビ
ット幅に該第２バッファ（１２）の検索インデックスの
ビット幅を縮小させ、該縮小させたビット分を前記第１
バッファ（１０）に割り当てて一致長検索の許容長さを
拡大させたことを特徴とする請求項１記載のデータ圧縮
方式。