JPH0946235A

JPH0946235A - データ圧縮装置

Info

Publication number: JPH0946235A
Application number: JP24995695A
Authority: JP
Inventors: Toshihiko Okamura; 利彦岡村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-10-04
Filing date: 1995-09-27
Publication date: 1997-02-14
Anticipated expiration: 2015-09-27
Also published as: JP2910639B2

Abstract

(57)【要約】【課題】大きな履歴アレイを用いても、比較すべき文
字列の個数、検索手段へ登録する文字列の数が効果的に
削減でき、圧縮率の劣化を小さく抑えて符号化速度の向
上を図ることができるデータ圧縮方式を提供する。【解決手段】入力データを格納する複数のエントリを
有する履歴アレイ手段１と、履歴アレイ手段１中の文字
列の検索を容易にするための検索手段２と、履歴アレイ
手段１の文字列の検索手段２への登録を以下に述べる方
法によって制御する登録制御手段と５と、検索手段２に
登録されている文字列の先頭位置に対応するエントリに
のみインデックスを保持するインデックスアレイ手段６
と、インデックスアレイ手段６にインデックスを供給す
るインデックス更新手段７と、符号化データ生成手段３
と、符号化手段４とから構成されている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は無歪みで復元可能な
データ圧縮復元方式に関する。

【０００２】

【従来の技術】レンペル−ジブ方式として知られるテキ
スト置換型の無歪みデータ圧縮方式は１９８０年代後半
から広く使用されるようになってきた。中でもＬＺ７７
型と呼ばれるデータ圧縮アルゴリズムは圧縮率の良さか
ら計算機上のファイル圧縮ツールにしばしば組み込まれ
ている。ＬＺ７７型は既に符号化を終えた入力データを
格納するための履歴アレイを持つことを特徴とする。履
歴アレイは更新が容易になるように円環的に使用される
ことが多い。つまり履歴アレイ内に一定長の先読み領域
と呼ばれる領域を用意し、そこにはこれから圧縮を行う
データを格納しておき、先読み領域は処理が進むにつれ
て円環的に移動していく。

【０００３】これから圧縮を行うデータ（先読み領域内
のデータ）は履歴アレイ中の先読み領域以外の部分から
始まる文字列、つまり既に圧縮が終了している入力デー
タを格納するエントリから始まる文字列と照合し、一致
列を求める。十分に長い一致列が見つかったら、入力デ
ータの一致列の部分に対する符号語として、履歴アレイ
内のその一致列の先頭位置、長さを符号語として送出す
る。必要に応じてこれらの値は可変長符号化してさらに
効率を良くする。一致列の先頭位置はなるべく最新のも
のに統一し、先読み領域の先頭との相対距離で表すこと
によって、比較的小さい値に集中させることができ、可
変長符号化が有効に働く。履歴アレイ内は常に最新の符
号化済みのデータが格納されるように更新していく。つ
まり、ＬＺ７７型は常に最新の符号化済みのデータを
“辞書”としており、辞書に登録されている文字列は履
歴アレイ内の既に圧縮を終えたデータを格納するエント
リから始まる一定長以下の文字列すべてとなる。これは
レンペル−ジブ方式のもう一つの形態であるＬＺ７８型
の圧縮方法に比べて辞書に登録されている文字列が多い
ことになり、より長い一致列が見つかり良い圧縮率を示
すことが多い。

【０００４】十分長い一致列が見つからなかった場合の
処置法としてＬＺＳＳと呼ばれるアルゴリズムがある。
１ｈａ，ｇｚｉｐなどのファイル圧縮用フリーソフトは
ＬＺＳＳを基本としている。ＬＺＳＳは二つの符号化モ
ードを用いる。十分に長い一致列（１シンボル１ｂｙｔ
ｅの場合で３シンボル以上が普通）が見つかった場合に
用いるコピーモードと、見つからなかった場合に用いる
リテラルモードである。コピーモードの場合は一致長を
表すビット列と一致位置を表すビット列が符号語とな
る。リテラルモードの場合には先頭一文字がそのまま送
出される。リテラルモードとコピーモードを区別するた
めに１ビットのフラグをつけるか、または一致長と入力
データのアルファベットを合わせて新たに大きなアルフ
ァベットを生成するといった処置がとられる。

【０００５】ＬＺ７７型を実装する上では、これから圧
縮を行う入力文字列と履歴アレイ内の文字列との照合処
理を高速に行うことが問題となる。図１０に示すよう
に、観念的には履歴アレイ手段１に対して何らかの検索
手段２を設定し、履歴アレイ内の文字列はすべてこの検
索手段２に登録する形になる。なお、図１０において、
３は符号化データ生成手段、４は符号化手段である。

【０００６】現在は専用ハードウェアで並列的に履歴ア
レイ内を検索する他に、履歴アレイ内が順次更新される
ことから、二分木、トライなどの木構造を使う検索手段
か、ハッシュ表に衝突時用の線形リストを備えた検索手
段がよく用いられる。検索手段は文字列の先頭の履歴ア
レイ内の位置を示すポインタを用いて構成される。検索
手段は文字列の先頭位置を示すポインタから履歴アレイ
内の文字列を読み込みターゲットの文字列と比較する。

【０００７】二分木を用いた方法はＩＥＥＥの刊行物
「ＩＥＥＥトランザクションオンコミュニケーショ
ン」１９８６年ｖｏｌ．３４，ｎｏ．１２，ｐｐ．１１
７６−１１８２に開示されている。トライを用いた方法
は米国特許第４，９０６，９９１号明細書に詳しく述べ
られている。ハッシュ表＋線形リストの方法は特開平３
−６８２１９号公報に詳しく述べられている。

【０００８】それぞれの検索法を図１１〜図１４に示
す。図１１は履歴アレイ手段の状態を表し、図１２，図
１３，図１４は履歴アレイ手段が図１１の状態のときの
各検索手段の構成を表す。図１２は二分木を用いた方
法、図１３はトライを用いた方法、図１４はハッシュテ
ーブルに衝突用の線形リストを備えた方法である。アレ
イから溢れた文字列は検索手段から削除する必要がある
ため、検索手法は削除のコストが低いものでなければな
らない。

【０００９】

【発明が解決しようとする課題】ＬＺ７７型では、長い
一致列が見つかれば圧縮率は向上する。よりたくさんの
文字列とマッチングをとればより長い一致列が見つかる
可能性が高くなり、そのためには履歴アレイの大きさ
Ｎ，コピーの最大長Ｌを大きくすればよい。しかし、
Ｎ，Ｌを大きくすると三つの問題が生じる。

【００１０】第一にＮ，Ｌの増大は文字列の位置、長さ
を表すために必要なビット数の増加につながり、かえっ
て圧縮率を劣化させる恐れがある。しかし、この問題は
位置、長さなどを可変長符号化することである程度解決
できる。１シンボルを１バイト（８ビット）とした時、
位置，長さを固定長符号化するという前提の下では履歴
アレイ長Ｎ＝８１９２程度、一致列の最大長Ｌ＝６４程
度が最良と言われていたが、現在ではＮ＝３２７６８，
６５５３６、Ｌ＝２５６〜１０２４程度が最もよい圧縮
率を示すことが判明している。

【００１１】第二にＮ，Ｌの増大は符号化時にメモリを
大きく消費することにつながる。しかし、Ｎ＝６５５３
６，Ｌ＝２０４８程度であったら検索手段まで含めて高
々２メガバイトのメモリで済むため、現在ではワークス
テーションや高性能なパソコンで実行する上では問題な
く実行できる。

【００１２】第三の問題が最も重大で、Ｎ，Ｌの増大は
符号化速度を著しく劣化させる。ＬＺ７７型の符号化速
度を見積もる指標として文字比較回数がある。データ長
をＭとすると、二分木、トライ、ハッシュテーブル＋線
形リストの文字比較回数は次のように近似される。

【００１３】・特別に検索手段を設けない … Ｍ′ＬＮ・二分木 … ＭＬｌｏｇ₂ Ｎ・トライ … ＭＬ・ハッシュ表 … Ｍ′ＬＮ′

【００１４】ＬＺ７７型では入力データは部分列に分解
され、部分列毎に符号語が対応することになるが、Ｍ′
はこの部分列の個数である。またＮ′は線形リストの平
均の長さである。二分木やトライを用いた場合、文字列
を検索手段に登録するためには検索手段を用いて検索を
行い、しかるべき位置に挿入しなければならない。その
ために、データ中の全ての位置から一定長以下の文字列
を検索手段を用いて検索しなければならない。これに対
してハッシュテーブルを使用する方法では文字列検索を
必要とするのは、符号化を行う文字列の先頭のみからに
限られる。一致列の途中から始まる文字列の検索手段へ
の登録に関してはハッシュ関数の計算とハッシュ表の１
レコードの書き換えだけで済み、文字列検索を必要とし
ない。そこでハッシュテーブルを用いた方法では文字列
比較回数はＭではなく、Ｍ′の倍数という形で表せるの
である。Ｎ′は最悪Ｎに等しくなるが、十分なハッシュ
テーブルを用意すれば平均は十分に小さく、また、圧縮
率の多少の劣化を許容すればＮ′は適当な回数で打ち切
ることができるので小さい定数で抑えることもできる。
そのためにＭ′と二分木、トライの場合のＭの差が効い
て、ハッシュテーブルを使用した方法の高速性が生まれ
る。とくに冗長の大きなデータの場合にはＭとＭ′の差
が大きく、ハッシュテーブルを使用した場合と木構造を
用いた場合とでは実行速度の大きな違いが生じる。Ｎ＝
６５５３６，Ｌ＝１０２４に設定すると二分木、トライ
では著しく符号化速度が劣化してしまい、ハッシュテー
ブルを使用した方法の独壇場となる。しかし、ハッシュ
テーブルを使用した方法で最長一致列を求めようとする
とＮ′が大きくなり、１回の検索にかかるコストが余り
にも大きく、特別に検索手段を設けない場合と変わらな
くなり、実行速度は極めて劣化してしまう。

【００１５】検索手段に木構造を用いた場合の高速化手
法の一つが米国特許４，９０６，９９１号の拡張具体例
に開示されている。そこで述べられている方法は、検索
手段にトライ構造を用い、符号化する文字列の先頭から
始まる文字列のみを検索手段に登録する方法である。ま
た、一致長が２または３の場合にその途中から始まる文
字列を検索手段に登録する方法についても簡単に述べら
れている。

【００１６】本発明の目的は、大きな履歴アレイを用い
ても、比較すべき文字列の個数、検索手段へ登録する文
字列の数が効果的に削減でき、圧縮率の劣化を小さく抑
えて符号化速度の向上を図ることができるデータ圧縮方
式を提供することにある。本発明は先に述べた米国特許
４，９０６，９９１の方法を拡張した、より柔軟性のあ
る登録制御を行うことによって目的を達成する。

【００１７】

【課題を解決するための手段】第１の発明は、入力デー
タを格納する複数のエントリを有する履歴アレイ手段を
有し、これから圧縮を行う入力データと、前記履歴アレ
イ手段に格納されている文字列を比較し、十分に長い一
致文字列が発見された場合には該一致文字列を前記履歴
アレイ手段における該一致文字列の位置、長さの情報で
表すことによって圧縮を達成するデータ圧縮装置におい
て、前記履歴アレイ手段の文字列の検索を行うための検
索手段と、前記履歴アレイ手段内の文字列の前記検索手
段への登録を制御する登録制御手段と、を有することを
特徴とする。

【００１８】第２の発明は、第１の発明のデータ圧縮装
置において、各エントリが前記履歴アレイ手段の各エン
トリに対応するインデックスアレイ手段を持ち、前記履
歴アレイ手段のエントリの内、前記検索手段に登録され
る文字列の先頭のエントリにのみインデックスを振り、
前記インデックスアレイ手段は前記履歴アレイ手段の該
エントリに対応する位置に該インデックスを保持し、前
記アレイ手段中の位置を表す情報を該インデックスから
生成される位置コードによって表すことを特徴とする。

【００１９】第３の発明は、第１または第２の発明にお
いて、前記登録制御手段は該一致文字列の長さに基づい
て前記検索手段に登録される新たな文字列を決定するこ
とを特徴とする。

【００２０】第４の発明は、第３の発明において、前記
検索手段に新たに登録される文字列は入力データ中の該
一致文字列の先頭から始まる文字列と、該一致文字列の
長さが予め決められた閾値以下の場合に該一致文字列の
途中の位置から始まる文字列であることを特徴とする。

【００２１】第５の発明は、第４の発明において、該閾
値を動的に変更することを特徴とする。

【００２２】第６の発明は、第１または第２の発明にお
いて前記登録制御手段は該一致文字列の先頭の前記履歴
アレイ手段における位置に基づいて前記検索手段に登録
される新たな文字列を決定することを特徴とする。

【００２３】第７の発明は、第６の発明において前記検
索手段に新たに登録される文字列は入力データ中の該一
致文字列の先頭から始まる文字列と、該一致文字列の先
頭の前記履歴アレイ手段内の位置と入力データ中の該一
致文字列の先頭位置との相対距離が予め決められた閾値
以上の場合には該一致文字列の途中の位置から始まる文
字列であることを特徴とする。

【００２４】第８の発明は、第７の発明において、該閾
値を動的に変更することを特徴とする。

【００２５】第９の発明は、入力データを格納する複数
のエントリを有する履歴アレイ手段を持ち、これから圧
縮を行う入力データと前記履歴アレイ手段に格納されて
いる既に符号化を終えている入力データを比較し、十分
に長い一致文字列が発見された場合には該一致文字列を
前記履歴アレイ手段における該一致文字列の位置、長さ
の情報で表すことによって圧縮を達成するデータ圧縮装
置において、前記履歴アレイ手段の文字列の検索を行う
ための検索手段と、入力データ中の該一致文字列の先頭
から高々閾値個までの位置から始まる文字列を前記検索
手段へ登録する登録制御手段と、を有することを特徴と
する。

【００２６】第１０の発明は、第９の発明のデータ圧縮
方法において、各エントリが前記履歴アレイ手段の各エ
ントリに対応するインデックスアレイ手段を持ち、前記
履歴アレイ手段のエントリの内、前記検索手段に登録さ
れる文字列の先頭のエントリにのみインデックスを振
り、前記インデックスアレイ手段は前記履歴アレイ手段
の該エントリに対応する位置に該インデックスを保持
し、前記アレイ手段中の位置を表す情報を該インデック
スから生成される位置コードによって表すことを特徴と
する。

【００２７】第１１の発明は、第１または第９の発明に
おいて、各エントリが前記履歴アレイ手段の各エントリ
に対応するインデックスアレイ手段を持ち、前記検索手
段に登録されている文字列の先頭のエントリの内、連続
する該エントリから成るブロックにインデックスを割り
振り、前記インデックスアレイ手段は前記履歴アレイ手
段の該エントリに対応する位置に、該エントリが属する
該ブロックのインデックスを保持し、前記アレイ手段の
位置を表す情報を該エントリが属する該ブロックのイン
デックスと該エントリの該ブロック内での位置を表す情
報から生成される位置コードによって表すことを特徴と
する。

【００２８】

【作用】本発明では検索手段への履歴アレイ内の文字列
の登録を制御するという形で、比較する文字列の個数と
検索手段へ登録する文字列の個数を削減させている。圧
縮率を良くするための大きな履歴アレイでは同じ文字列
が頻繁に現れることが多く、符号化速度の面から大きな
負荷を与えるが、本発明はこれを解消するための手段を
与える。

【００２９】圧縮を行う文字列は履歴アレイ内の文字列
とのマッチングをとって一致列を求める。このように符
号化する文字列の場合、検索は必須で、その結果を利用
して検索手段に容易に挿入することができるので、符号
化の先頭位置から始まる文字列については検索手段に登
録するのが妥当である。一致列が見つかった場合、符号
化された文字列の途中の位置から始まる文字列を処理す
る方法が本発明の着眼点である。登録制御手段の判断の
基準は、復元側でもわかる仕組みでなければならない。
そこで、一致長や一致列の位置といった情報から生成さ
れる基準を使用する方法が考えられる。

【００３０】一致長が長い文字列が符号化された場合、
その途中から始まる文字列に関しても既に履歴アレイ内
に存在しているものが多いことになる。そこで途中から
始まる文字列の登録を控えても圧縮率に大きく影響しな
いことが期待できる。本発明の第３から第５の発明はこ
のことを利用した方式である。同じような文字列が繰り
返し現れることが冗長度の高いデータに対しては、検索
構造への無駄な登録を大きく省くことができ、履歴アレ
イ内から始まる文字列をすべて登録していた従来の方式
に比べて符号化速度を向上させることができる。

【００３１】一致文字列の履歴アレイ内での位置に基づ
いて符号化された文字列の途中の位置から始まる文字列
を登録するかを判断するという手法は次のようになる。
一致列が昔に現れたものであったら、その列は近い内に
履歴アレイから溢れてしまう。そのような状況になって
もその文字列が絡んだ文字列が参照できるようにするた
めに、途中から始まる文字列を登録するのである。逆に
比較的近い位置に一致列が同定された場合、その符号化
文字列が絡んだ文字列はしばらくは履歴アレイ内に存在
するので、あえて符号化された文字列の途中から始まる
文字列まで検索手段に登録しなくても圧縮率はそれ程劣
化しないことが期待できる。冗長なデータでは比較的近
い位置に最長一致列が見つかることが多いため、検索手
段に登録される文字列を絞ることができ、従来の方式に
比べて符号化速度を向上させることができる。

【００３２】また、単純に一致文字列の先頭から閾値個
までの位置から始まる文字列を登録する方法が考えられ
る。ただし、閾値が一致文字列より大きい場合は一致文
字列のすべての位置から始まる文字列を登録する。そう
いった意味ではこの方法も、一致長に基づいて登録され
る文字列が決めている、とみなすこともできる。この場
合、閾値を小さく設定すると登録される文字列が少なく
なり、符号化速度の向上を生む。

【００３３】本発明の方式では、履歴アレイ中のすべて
の位置から始まる文字列を参照することができるわけで
はないので、一致列の先頭位置をアレイ中の位置でその
まま表すと冗長になる。必要な位置にだけインデックス
を振り、一致列の先頭位置のインデックスと最新のイン
デックスの差を用いて位置を表すことによって、履歴ア
レイの位置で見た相対距離で表すより小さな値で表現で
き、位置を表す符号語のビット長に関しては有利にな
る。第２の発明のように、インデックスアレイを用い
て、各エントリに対応するインデックスを保持する必要
がある。また、検索手段に登録されている文字列の先頭
位置の中で連続するものをまとめたブロックを形成し、
ブロックに割り振ったインデックスを用いて一致列の先
頭位置を表すこともできる。

【００３４】

【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。

【００３５】図１は、一実施例のデータ圧縮装置を示す
構成図である。この装置は、入力データを格納する複数
のエントリを有する履歴アレイ手段１と、履歴アレイ手
段１中の文字列の検索を容易にするための検索手段２
と、履歴アレイ手段１の文字列の検索手段２への登録を
以下に述べる方法によって制御する登録制御手段５と、
検索手段２に登録されている文字列の先頭位置に対応す
るエントリにのみインデックスを保持するインデックス
アレイ手段６と、インデックスアレイ手段６にインデッ
クスを供給するインデックス更新手段７と、符号化デー
タ生成手段３と、符号化手段４とから構成されている。

【００３６】次に、このデータ圧縮方式の動作を図２の
フローチャートを参照しながら説明する。

【００３７】入力データをＸ＝ｘ（０）ｘ（１）ｘ
（２）…とする。履歴アレイ手段１はＮシンボルの入力
データを格納するとする。１シンボル１バイト（８ビッ
ト）として、Ｎ＝３２７６８または６５５３６が適当で
ある。Ｎは任意の値でよいが円環的に用いるため、２の
巾で採ることがよく行われる。また、一致長の最大長Ｌ
は２５６以上にとる。履歴アレイ手段における先読み領
域はＬ以上の大きさにする。この実施例では先読み領域
の大きさをＬとする。

【００３８】まず、履歴アレイ手段１，検索手段２，イ
ンデックスアレイ手段６，インデックス更新手段７を初
期化する（ステップＳ１）。

【００３９】履歴アレイ手段の初期状態は空でも適当な
デフォルトの文字列でも、要は復元時に同じ状態が再現
できるものであったら何でもよい。検索手段２，インデ
ックスアレイ手段６，インデックス更新手段７の初期状
態はアレイ手段の初期状態に合わせて決まる。

【００４０】今、…ｘ（ｓ−２）ｘ（ｓ−１）までの符
号化を終えてｘ（ｓ）ｘ（ｓ＋１）…という文字列の符
号化を行うものとする（ステップＳ２）。このとき履歴
アレイ手段内の各エントリにはｘ（ｓ−Ｎ＋Ｌ），…，
ｘ（ｓ−１），ｘ（ｓ），…，ｘ（ｓ＋Ｌ−１）という
文字列が格納されており、特に先読み領域にはｘ
（ｓ），…，ｘ（ｓ＋Ｌ−１）という文字列が格納され
ている。検索手段２に登録されている文字列はｘ（ｓ−
Ｎ＋１），…，ｘ（ｓ−１）の内、限定された位置から
始まる、長さＬ以下の文字列である。検索手段２に登録
されている文字列の先頭位置に対応するインデックスア
レイ手段６のエントリには対応するインデックスが保持
されている。

【００４１】検索手段２を用いて文字列ｘ（ｓ）ｘ（ｓ
＋１）…と検索手段２に登録されている文字列と比較し
（ステップＳ３）、最長一致列を求める。場合によって
は最長一致列ではなくなるべく長い一致列でよい。ｘ
（ｓ）ｘ（ｓ＋１）…は検索結果が分かっているので検
索構造へ登録する（ステップＳ４）。ｘ（ｓ）が格納さ
れているエントリにはインデックス更新手段７から供給
されるインデックスを割り振り、インデックスアレイ手
段６に保持する。インデックス更新手段７はインデック
スアレイ手段６にインデックスを供給する度にインデッ
クス値を１更新する。インデックスは各エントリを区別
できればよいので、Ｎに対する剰余で表すことにより０
からＮ−１で表すことができる。

【００４２】最長一致列がｘ（ｓ−Ｎ＋Ｌ＋ｋ）…ｘ
（ｓ−Ｎ＋Ｌ＋ｋ＋ｌ−１）＝ｘ（ｓ）…ｘ（ｓ＋ｌ−
１）であったとする（ステップＳ５）。検索手段２は、
一致長ｌを符号化データ生成手段３に送る。ｌが予め決
められた一定値Ｍ以上であったら、符号化データ生成手
段３は一致列が見つかったというフラグとともにｘ
（ｓ）…ｘ（ｓ＋ｌ−１）に対応する符号語としてｌと
ｘ（ｓ−Ｎ＋Ｌ＋ｋ）の位置に対応するエントリに保持
されているインデックスとｘ（ｓ）の位置に対応するエ
ントリに保持されているインデックスとの差（位置コー
ド）を符号化手段４に送出する（ステップＳ６、これを
コピーモードによる符号化と呼ぶ）。ｌがＭよりも小さ
かったらｌ＝１として、符号化データ生成手段は一致列
が見つからなかったというフラグとともにｘ（ｓ）をそ
のまま符号化手段に送出する（ステップＳ７、これをリ
テラルモードによる符号化と呼ぶ）。

【００４３】符号化手段４はｌ，ｄ，ｘ（ｓ）などを最
終的な二進列に変換する（ステップＳ６，Ｓ７）。符号
化手段４には固定長のものの他、ハフマン符号化、算術
符号化などを利用できる。符号化手段４はデータが入力
される度に符号化を行う他、バッファに値を一時的に蓄
え、ブロック単位に処理することもできる。

【００４４】ｘ（ｓ）…ｘ（ｓ＋ｌ−１）の符号化が終
わった時点で、履歴アレイ手段１を更新する。新たな入
力データを読み込み、先読み領域はｘ（ｔ＋ｌ）のエン
トリから始まる領域に移動する。このとき、履歴アレイ
手段１から削除された古い文字列は検索手段２からも削
除される（ステップＳ８）。

【００４５】登録制御手段５はｘ（ｓ＋１），…，ｘ
（ｓ＋ｌ−１）から始まる文字列のうち、検索手段２に
登録するものがあるかどうかを判断する。例えばリテラ
ルモードで符号化された文字列の場合は登録するものが
ないと判断して、次の文字列の符号化に移る（ステップ
Ｓ９）。登録すると選択された文字列は検索手段２へ登
録し、それぞれの先頭位置のエントリに順にインデック
ス更新手段７から供給される番号を振り、インデックス
アレイ手段６に保持する（ステップＳ１０）。

【００４６】以上で入力データの部分列ｘ（ｓ）…ｘ
（ｓ＋ｌ−１）の符号化は終了で、履歴アレイ手段１に
新しいシンボルを挿入し、ｘ（ｓ＋ｌ）から始まる文字
列の符号化を開始する。

【００４７】登録制御において一致長を基準にする場
合、一致長が閾値よりも大きかったら登録を控えるのが
妥当である。閾値は経験的には４から１６程度が良い結
果をもたらす。動的に閾値を変化させる場合は、一致長
のそれまでの平均値を閾値とする方法が考えられる。図
３は平均値を用いて閾値を動的に変化させる場合の登録
制御手段の処理の流れを示すフローチャートである。

【００４８】図４は従来方式と一致長を基準にする登録
制御方式を比較した図である。図２の処理の流れに沿っ
て、図４の状況での一致長を基準とした登録制御の具体
例を説明する。履歴アレイ手段２２は１２個のエントリ
から成っている。履歴アレイ手段２２の中で灰色の部分
は先読み領域で、これから符号化を行う文字列を格納し
ており、今は履歴アレイ手段の８から１１の位置のエン
トリである。履歴アレイ手段２２の先読み領域以外の位
置から始まる文字列はすべて検索手段に登録されている
として、インデックスアレイ手段２１は‘０’から順に
‘７’までのインデックスを格納しているとする。先読
み領域の長さが４のため、文字列の検索手段への登録
は、ある位置から始まる長さ４の文字列を登録する、と
いう形で行う。このとき、履歴アレイ手段２２内で先読
み領域の先頭から始まる文字列（圧縮を行おうとしてい
る文字列）と検索手段に登録されている文字列との間で
最長一致列を求めると、“ｂｃｂ”という文字列が得ら
れる（ステップＳ３）。このとき８から始まる文字列
は、一致列を求める過程で検索手段に登録される。イン
デックスアレイ手段２１の対応するエントリには新しい
インデックスである‘８’が格納される（ステップＳ
４）。“ｂｃｂ”に対する符号語は一致長‘３’（先読
み領域の先頭のインデックスと比較して３個前のインデ
ックスで示される位置、という情報）を元に生成される
（ステップＳ６）。符号語の出力が済んだら、履歴アレ
イ手段２２を３文字分更新する。先読み領域は１１から
始まる領域に移動する。履歴アレイ手段を円環的に使用
しているため、先読み領域は（１１，０，１，２）の位
置のエントリに移動する。０，１，２から始まる文字列
は検索手段から削除される。その位置のインデックスも
無効になる。履歴アレイ手段２２の（０，１，２）の位
置には新たに読み込んだデータである“ｃａａ”が挿入
される（ステップＳ９）。図４（ａ）は登録制御が行わ
れない場合、図４（ｂ）は登録制御が行われる場合の状
況を表している。両者とも履歴アレイ手段の状態は同一
で、２４または２６で表される。登録制御では、履歴ア
レイ手段２４（または２６）の９，１０から始まる文字
列（“ｃｂｂｃ”，“ｂｂｃａ”）を検索手段に登録す
るかどうかが問題になる（ステップＳ９）。従来方式は
９，１０から始まる文字列を検索手段に登録する（図４
（ａ））。対応するインデックス‘９’，‘１０’がイ
ンデックスアレイ手段２３に格納される。一致長を基準
にした登録制御では、一致長が３のため、閾値が４以上
であったら従来方式と同様に検索手段への登録、インデ
ックスアレイ手段２３の更新を行い（図４（ａ），ステ
ップＳ１０）、閾値が４よりも小であったら９，１０か
ら始まる文字列の登録は行わない（図４（ｂ））。イン
デックスアレイ手段２５の９，１０のエントリは空にな
る。図４（ａ）の状況で、次に１１の位置に格納される
インデックスは‘１１’であるが、図４（ｂ）では
‘９’となる。

【００４９】登録制御において一致列の開始点を基準に
する場合、一致列の開始点の位置が閾値よりも小さかっ
たら登録を控えるのが妥当である。動的に閾値を変化さ
せる方法は一致長の場合と同様に平均値を使用する方法
が考えられる。

【００５０】図５は従来方式と一致位置を基準にする登
録制御方式を比較した図である。図５の状況での一致位
置を基準とした登録制御の具体例を説明する。図５の履
歴アレイ手段３２やインデックスアレイ手段３１の状況
は図４と同様である。また、最長一致列を求め、履歴ア
レイ手段を更新する状況も図４と同様である。図５
（ａ）は登録制御が行われない場合、図５（ｂ）は登録
制御が行われる場合の状況を表している。両者とも履歴
アレイ手段の状態は同一で、３４または３６で表され
る。登録制御では、履歴アレイ手段３４（または３６）
の９，１０から始まる文字列（“ｃｂｂｃ”，“ｂｂｃ
ａ”）を検索手段に登録するかどうかが問題となる。従
来方式は図４の場合と同様に履歴アレイ手段３４の９，
１０から始まる文字列を検索手段に登録する（図５
（ａ））。対応するインデックス‘９’，‘１０’がイ
ンデックスアレイ手段３３に格納される。一致位置を基
準にした登録制御では、一致位置が先読み領域の先頭か
らみて３個前の位置のため、閾値が４以上であったら従
来方式と同様に検索手段への登録、インデックスアレイ
手段３３の更新を行い（図５（ａ））、閾値が４よりも
小であったら９，１０から始まる文字列の登録は行わな
い（図５（ｂ））。インデックスアレイ手段３５の９，
１０のエントリは空になる。図５（ａ）の状況で、次に
１１の位置に格納されるインデックスは‘１１’である
が、図５（ｂ）では‘９’となる。

【００５１】次に、本発明の登録制御手段のもう一つの
実施例について説明する。図６はこの実施例の登録制御
の流れを示す図である。先頭ｘ（ｓ）から始まる文字列
は先に述べたようにこの符号化のための検索結果を用い
て既に登録されているとする。今一致列がｘ（ｓ）…ｘ
（ｔ）（一致長ｌ＝ｔ−ｓ＋１）であったとする（ステ
ップＴ１）。リテラルモードで符号化された場合（ｌ＝
１）、または閾値ｒ＝１の場合には先頭のｘ（ｓ）から
始まる文字列のみが検索手段２に登録されるので、一致
列の途中から始まる文字列の登録はない（ステップＴ
２）。そうでない場合、一致列として切り出された文字
列の中で、最初のｒ個の位置から始まる文字列のみを検
索手段２に登録する。つまり、ｘ（ｓ）…ｘ（ｔ）（ｌ
＝ｔ−ｓ＋１）の途中から始まる文字列としては、ｘ
（ｓ＋１），…，ｘ（ｓ＋ｒ−１）から始まる文字列の
みを検索手段２に登録するよう登録制御を行うのである
（ステップＴ４）。ただし、ｌ＜ｒの場合にはｘ（ｓ＋
１），…，ｘ（ｓ＋ｌ−１）（＝ｘ（ｔ））から始まる
文字列を検索手段に登録する（ステップＴ３，Ｔ５）。
閾値ｒの設定を変更することで符号化速度と圧縮率のど
ちらを重視するかを調節するようなアプリケーションも
考えられる。この場合、圧縮データの先頭にこの閾値を
記しておくことにより、復元側ではこの閾値を知ること
ができ、この値さえ知っていれば、履歴アレイ中のどの
位置から始まる文字列が登録されているのかを正しく知
ることができるため正しく復元できる。

【００５２】図７は従来方式と一致列の先頭から閾値個
までの文字列を登録する方式を比較した図である。図７
の状況での本登録制御方式の具体例を説明する。図７の
履歴アレイ手段４２やインデックスアレイ手段４１など
の状況は図４と同様である。また、最長一致列を求め、
履歴アレイ手段を更新する状況も図４と同様である。図
７（ａ）は登録制御が行われない場合、図７（ｂ）は登
録制御が行われる場合の状況を表している。両者とも履
歴アレイ手段の状態は同一で、４４（または４６）で表
される。登録制御では、履歴アレイ手段４４（または４
６）の９，１０から始まる文字列（“ｃｂｂｃ”，“ｂ
ｂｃａ”）を検索手段に登録するかどうかが問題にな
る。従来方式は履歴アレイ手段４４の９，１０から始ま
る文字列を検索手段に登録する（図７（ａ））。対応す
るインデックス‘９’，‘１０’がインデックスアレイ
手段４３に格納される。閾値を２とした場合、先頭の次
の位置である、履歴アレイ手段４６の９の位置から始ま
る文字列が検索手段に登録される（図７（ｂ））。イン
デックスアレイ手段４６の９の位置のエントリは‘９’
が格納され、１０の位置のエントリは空となる。図７
（ａ）の状況で、次に１１の位置に格納されるインデッ
クスは‘１１’であるが、図７（ｂ）では‘１０’とな
る。

【００５３】また、更に閾値ｒが２以上のときには次の
ように圧縮率の改善をみることができる。ｒ≧２の時に
は符号化する文字列の先頭ｘ（ｓ）の次の文字ｘ（ｓ＋
１）から始まる文字列を検索手段２に登録する必要があ
るため、木構造などを検索手段に用いた場合にはその過
程でｘ（ｓ＋１）から始まる文字列に対する一致列を求
める必要がある。そこで、ｘ（ｓ）からの一致列とｘ
（ｓ＋１）からの一致列を比較してｘ（ｓ＋１）からの
一致列の方が大きかったらｘ（ｓ）をリテラルモードで
符号化し、ｘ（ｓ＋１）からの一致列をコピーモードで
符号化する。こうすることによって、２回のコピーモー
ドで符号化するところを１回のリテラルモードと１回の
コピーモードで符号化できる場合が多い。リテラルモー
ドの方がコピーモードよりも少ないビット数で表現でき
るため圧縮率が向上するのである。この処理の詳細な説
明を図８に示す。

【００５４】ｘ（ｓ）からの一致列がｘ（ｓ）…ｚ（ｓ
＋ｌ−１）（ｌは一致長）であったとする（ステップＵ
１）。ｌが十分に大きくないときにはｘ（ｓ）をリテラ
ルモードで符号化し（ステップＵ３）。履歴アレイ手段
１の更新、履歴アレイ手段１から溢れた文字列を検索手
段２から溢れた文字列の削除を行い（ステップＵ８）、
ｘ（ｓ＋１）の符号化に移る（ステップＵ１３）。ｌが
十分に大きいときには、先頭の次の文字ｘ（ｓ＋１）か
ら始まる文字列と履歴アレイ手段１内の文字列との最長
一致列を求め、その検索結果を用いてｘ（ｓ＋１）から
始まる文字列を検索手段２に登録する（ステップＵ
４）。一致列をｘ（ｓ＋１）…ｘ（ｓ＋ｌ′）（ｌ′は
一致長とする）。ｌとｌ′を比較し（ステップＵ５）、
ｌ′の方が大きかったらｘ（ｓ）をリテラルモードで、
ｘ（ｓ＋１）…ｘ（ｓ＋ｌ′）をコピーモードで符号化
する（ステップＵ９）。符号化された分の大きさ（（１
＋ｌ′）個の文字分）履歴アレイ手段１を更新し、履歴
アレイ手段１から溢れた文字列の削除を行う（ステップ
Ｕ９）。ｘ（ｓ＋１）…ｘ（ｓ＋ｌ′）から始まる文字
列に対して図６に示した登録制御法で検索手段２への登
録を行う（ステップＵ１１）。そして、ｘ（ｓ＋ｌ′＋
１）から始まる文字列の符号化に移る（ステップＵ１
４）。ｌがｌ′以上の場合にはｘ（ｓ）…ｘ（ｓ＋ｌ−
１）をコピーモードで符号化する（ステップＵ７）。符
号化された分の大きさ（ｌ個の文字分）履歴アレイ手段
を更新し、履歴アレイ手段１から溢れた文字列の削除を
行う（ステップＵ１０）。ｘ（ｓ）…ｘ（ｓ＋ｌ−１）
から始まる文字列に対して図６に示した登録制御法で検
索手段２への登録を行う（ステップＵ１２）。このと
き、ｘ（ｓ＋１）から始まる文字列の登録は既に済んで
いることに注意。そして、ｘ（ｓ＋ｌ）から始まる文字
列の符号化に移る（ステップＵ１５）。

【００５５】以上のように登録制御を行うと、検索手段
に登録されている履歴アレイ手段内の文字列は連続して
現れることが多くなる。ここで“連続して現れる文字
列”は、隣合う位置から始まる文字列、ということを意
味する。次に、このことを利用して、圧縮率を向上させ
る方式を図９を用いて説明する。

【００５６】今、履歴アレイ手段内でｘ（ｐ），ｘ（ｐ
＋１），…ｘ（ｒ）から始まる文字列は検索手段に登録
されており、ｘ（ｐ−１），ｘ（ｒ＋１）から始まる文
字列は検索手段に登録されていないとする。このとき、
ｘ（ｐ）…ｘ（ｒ）を“ブロック”と呼ぶことにする。
図９に示すように、履歴アレイ手段５２の先読み領域以
外のエントリは、いくつかのブロックと検索手段に登録
されていない部分に分けられることになる。このとき現
れたブロックには順にインデックスを割り振り、インデ
ックスアレイ手段５１はこのブロックのインデックスを
格納する。図９に示したように、同じブロック内のエン
トリは同一のインデックスをインデックスアレイ手段５
１に格納している。従来方式では履歴アレイ手段内の先
読み領域以外の位置から始まるすべての文字列が検索手
段に格納されているため、先読み領域以外の部分は一つ
の大きなブロックになる。

【００５７】先読み領域内の文字列をｘ（ｓ）ｘ（ｓ＋
１）…とし、ｘ（ｓ）ｘ（ｓ＋１）…と履歴アレイ手段
内で検索手段に登録されている文字列との最長一致列が
ｘ（ｓ−ｋ）…ｘ（ｓ−ｋ＋ｌ−１）（＝ｘ（ｓ）…ｘ
（ｓ＋ｌ−１））であったとする。前述の方式では一致
位置の情報をｘ（ｓ−ｋ）に対応するインデックスに基
づいて生成したが、このブロックを用いた方式では、ｘ
（ｓ−ｋ）の属するブロックのインデックスとｘ（ｓ−
ｋ）のそのブロック内での位置の情報に基づいて生成す
る。具体的には、ｘ（ｓ−ｋ）が先読み領域からみてｒ
個前のブロックに属し、そのブロックの最後のエントリ
にはｘ（ｓ−ｋ＋ｕ）が格納されているとすると、
（ｒ，ｕ）という情報でｘ（ｓ−ｋ）の位置を指定す
る。図９は一致長が５で、ｒ＝３，ｕ＝０である状況を
表している。ｒはインデックスアレイ手段５１から求め
られる。ｕはブロックのインデックスに対してそのブロ
ックの最後のエントリの位置を格納するアレイを用意す
る方法か、またはインデックスアレイ手段５１を用いて
同じインデックスが続くところまで検索する方法によっ
て求めることができる。

【００５８】一般に複数のエントリが集まってブロック
を形成するため、ブロックの数は検索手段に登録されて
いるエントリの数に比べてはるかに小さいものとなる。
ブロックのインデックス情報（一致列はｒ個前のブロッ
クから始まる、というｒの値）の分布は、個々のエント
リに割り振ったインデックス情報（一致列はｒ′個前の
インデックスの位置から始まる、というｒ′の値）の分
布に比べて小さい値に集中するため、ブロックのインデ
ックスの符号長の方が小さい値で表せることになる。一
方、ブロックのインデックスを用いる方法はブロック内
の位置を表す情報も付加しなければならないため、全体
としてみれば個々のエントリにインデックスを割り振る
方法と圧縮率は変わらない場合もある。しかし、例えば
次に示すような場合に圧縮率の改善をみることができ
る。

【００５９】データ中にランダムに近い大きな領域があ
ると、リテラルモードの出力が続く。つまりその部分の
文字列は連続して検索手段に登録され、大きなブロック
を形成する。しかし、そのブロックから始まる文字列は
その後参照される可能性は低い。各エントリにインデッ
クスを割り振った場合には、そのような大きなブロック
より遠い位置に割り振られたインデックスは、最新のイ
ンデックスと大きく離れた値となる。しかし、ブロック
のインデックスは最新のブロックのインデックスとそれ
ほど離れた値とはならない。ブロックのインデックスを
用いて一致位置を表す方法は、このように大きな無駄な
領域を飛び越えて一致位置を効果的に表す方法となるの
である。

【００６０】検索手段として二分木を用い、履歴アレイ
手段の大きさＮ＝１６３８４、一致列の最大長Ｌ＝２５
６として２メガバイトのＣプログラムソースを圧縮する
実験を行った。従来の方法では１７５秒の実行時間で２
８．１％の圧縮率を達成した。図３に示した登録制御を
行った本発明では、３２秒の実行時間で２９．２％の圧
縮率を達成した。つまり、１％未満の圧縮率の劣化で６
倍の符号化速度の向上を得ている。また、図８に示した
本発明において閾値を２に設定して登録制御処理を行っ
た本発明の方式では３２秒の実行時間で２８．７％の圧
縮率を達成し、図３の登録制御法と同じ圧縮時間で０．
５％程度優れた圧縮率を達成している。また、Ｎ＝８１
９２，Ｌ＝３２と変更して従来の方法と同じデータを圧
縮したときには、６７秒の実行時間で３１．０％の圧縮
率であった。つまり、検索手段として二分木を用い、高
速な符号化を求めるのなら、Ｎ，Ｌを変更するよりも、
本発明の方式を採用した方が有効であり、かつ圧縮率の
劣化も小さいことがわかる。

【００６１】また、図９に示したブロックのインデック
スを用いた符号化法で等長符号化を行った場合の効果は
次のように評価できる。検索手段に登録されているエン
トリの数をＭ、ブロックの平均長をＢとする。ブロック
の数はＭ／Ｂとなる。個々のエントリにインデックスを
順に割り振った場合、インデックスを表すためのビット
数はほぼｌｏｇＭビットとなる。一方、ブロックのイン
デックスを表すためのビット数はほぼｌｏｇ（Ｍ／Ｂ）
＝ｌｏｇＭ−ｌｏｇＢビットとなる。ここでｌｏｇの底
は２である。ブロックがどれも同じ大きさであったら、
ブロック内での位置を表すためにほぼｌｏｇＢビット必
要になり、この場合はブロックのインデックスを用いた
方式を用いても圧縮率は変わらない。しかし、履歴アレ
イ手段中にランダムに近い大きな領域がある場合、その
領域からなるブロックを除いた、実際に後に参照される
文字列を含むブロックの平均長Ｂ′はＢよりも小さくな
る。そこで、ブロックのインデックスを用いる方式によ
って一回の一致位置情報の出力につき（ｌｏｇＢ−ｌｏ
ｇＢ′）ビットだけ圧縮データを短縮化できるのであ
る。

【００６２】以上本発明のデータ圧縮方式について説明
したが、本発明は、データ復元方式にも応用できる。デ
ータ復元方式の実施態様を以下に説明する。（１）既に復元を終えたデータを格納する複数のエント
リを有する履歴アレイ手段を有し、前記履歴アレイ手段
における位置、長さを表す圧縮符号語に対応する文字列
を複製することで元データを復元するデータ復元方式に
おいて、各エントリが前記履歴アレイ手段の各エントリ
に対応したインデックスアレイ手段を有し、圧縮データ
に対応する可能性がある文字列は前記履歴アレイ手段の
制限された位置から始まる文字列のみであり、前記イン
デックスアレイ手段は、圧縮データに対応する可能性が
ある文字列の先頭位置にのみ割り振られたインデックス
を保持し、圧縮データにおける前記インデックスから生
成された圧縮符号語から複製される文字列の開始点を確
定することを特徴とするデータ復元方式。（２）圧縮データに対応する可能性がある前記履歴アレ
イ手段内の文字列の先頭位置は、前記復元文字列の長さ
に基づいて決定されることを特徴とする（１）記載のデ
ータ復元方式。（３）圧縮データに対応する可能性がある前記履歴アレ
イ手段内の先頭位置は、復元された文字列の先頭位置と
前記復元文字列の長さが予め決められた閾値以下であっ
た場合の前記復元文字列の途中の位置であることを特徴
とする（２）記載のデータ復元方式。（４）前記閾値を動的に変更することを特徴とする
（３）記載のデータ復元方式。（５）圧縮データに対応する可能性がある文字列の先頭
位置は、圧縮データで指示される前記履歴アレイ手段内
の復元文字列と同一の文字列の先頭の前記アレイ手段に
基づいて決定されることを特徴とする（１）記載のデー
タ復元方式。（６）圧縮データに対応する可能性がある前記履歴アレ
イ手段内の文字列の先頭位置は、復元文字列の先頭位置
と、圧縮データによって指示される復元文字列と同一の
文字列の先頭の前記履歴アレイ手段における位置と、前
記復元文字列の先頭の位置との相対距離が予め決められ
た閾値以上であった場合の前記復元文字列の途中の位置
であることを特徴とする（５）記載のデータ復元方式。（７）閾値を動的に変更することを特徴とする（６）記
載のデータ復元方式。（８）圧縮データに対応する可能性がある前記履歴アレ
イ手段内の先頭位置は、過去に復元された文字列の中で
先頭位置から閾値以下の順位の位置に制限されているこ
とを特徴とする（１）記載のデータ復元方式。（９）前記履歴アレイ手段中の圧縮データに対応する可
能性がある文字列うち、連続している文字列の先頭エン
トリをブロックとしてまとめ、同じ該ブロックに属する
エントリには同じインデックスを割り振り、前記インデ
ックスアレイ手段はこれを格納し、圧縮符号語から該ブ
ロックのインデックスと該ブロック内での位置の情報が
求められ、一致列の開始位置が定まることを特徴とする
（１）記載のデータ復元方式。

【００６３】

【発明の効果】以上説明したように本発明のデータ圧縮
方式を用いれば、大きな履歴アレイを用いても比較すべ
き文字列の個数、検索手段へ登録する文字列の数が削減
でき、符号化速度の向上を図ることができる。特に冗長
の大きなデータに対しては大きな符号化速度の向上を生
む。更に、登録制御を行うことを積極的に利用して、検
索手段に登録されている文字列の先頭エントリ、または
隣接する先頭エントリをまとめたブロックに割り振られ
たインデックスを用いて一致位置情報を表すことによ
り、圧縮率の劣化を小さく抑えることができる。このよ
うに本発明によって圧縮率を劣化させずに符号化速度の
向上を達成できるのである。

【００６４】また、登録に検索と同じ時間が必要となる
木構造を用いた検索手段に関しては本発明のように選択
的に検索構造へ登録することは極めて効果がある。ハッ
シュテーブルを用いた方法でも、ハッシュ関数を計算す
る回数が少なくなるとともに、検索すべきアレイ内の文
字列の数も減少し、線形リストを辿る回数が減少するた
めに効果がある。このように、本発明の登録制御は様々
な検索手段に対応させることができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示すブロック図である。

【図２】本発明の処理の流れを示す図である。

【図３】動的に閾値を変更する処理の流れを示す図であ
る。

【図４】一致長を基準にして登録制御を行う方式の具体
例を、従来方式と比較して示した図である。

【図５】一致位置を基準にして登録制御を行う方式の具
体例を、従来方式と比較して示した図である。

【図６】閾値個以下の位置から始まる文字列のみを検索
手段に登録する場合の登録制御手段の処理の流れを示す
図である。

【図７】閾値個以下の位置から始まる文字列のみを検索
手段に登録する方式の具体例を、従来方式と比較して示
した図である。

【図８】閾値個以下の位置から始まる文字列のみを検索
手段に登録する方式で、閾値が２以上の場合の改良型の
登録制御手段および符号化データ生成手段の処理の流れ
を示す図である。

【図９】ブロックのインデックスによって一致位置を表
す方式を示す図である。

【図１０】従来の圧縮方式の構成を示す図である。

【図１１】履歴アレイ手段を示す図である。

【図１２】二分木を用いた方法を示す図である。

【図１３】トライを用いた方法を示す図である。

【図１４】ハッシュテーブルに衝突用の線形リストを備
えた方法を示す図である。

【符号の説明】

１履歴アレイ手段２検索手段３符号化データ生成手段４符号化手段５登録制御手段６インデックスアレイ手段７インデックス更新手段

Claims

【特許請求の範囲】

【請求項１】入力データを格納する複数のエントリを有
する履歴アレイ手段を持ち、これから圧縮を行う入力デ
ータと前記履歴アレイ手段に格納されている既に符号化
を終えている入力データを比較し、十分に長い一致文字
列が発見された場合には該一致文字列を前記履歴アレイ
手段における該一致文字列の位置、長さの情報で表すこ
とによって圧縮を達成するデータ圧縮装置において、前記履歴アレイ手段の文字列の検索を行うための検索手
段と、前記履歴アレイ手段内の文字列の前記検索手段への登録
を制御する登録制御手段と、を有することを特徴とする
データ圧縮装置。
【請求項２】各エントリが前記履歴アレイ手段の各エン
トリに対応するインデックスアレイ手段を持ち、前記履
歴アレイ手段のエントリの内、前記検索手段に登録され
る文字列の先頭のエントリにのみインデックスを振り、前記インデックスアレイ手段は前記履歴アレイ手段の該
エントリに対応する位置に該インデックスを保持し、前
記アレイ手段中の位置を表す情報を該インデックスから
生成される位置コードによって表すことを特徴とする請
求項１記載のデータ圧縮装置。
【請求項３】前記登録制御手段は該一致文字列の長さに
基づいて前記検索手段に登録される新たな文字列を決定
することを特徴とする請求項１または請求項２記載のデ
ータ圧縮装置。
【請求項４】前記検索手段に新たに登録される文字列は
入力データ中の該一致文字列の先頭から始まる文字列
と、該一致文字列の長さが予め決められた閾値以下の場
合に該一致文字列の途中の位置から始まる文字列である
ことを特徴とする請求項３記載のデータ圧縮装置。
【請求項５】前記閾値を動的に変更することを特徴とす
る請求項４記載のデータ圧縮装置。
【請求項６】前記登録制御手段は該一致文字列の先頭の
前記履歴アレイ手段における位置に基づいて前記検索手
段に登録される新たな文字列を決定することを特徴とす
る請求項１または請求項２記載のデータ圧縮装置。
【請求項７】前記検索手段に新たに登録される文字列は
入力データ中の該一致文字列の先頭から始まる文字列
と、該一致文字列の先頭の前記履歴アレイ手段内の位置
と入力データ中の該一致文字列の先頭位置との相対距離
が予め決められた閾値以上の場合には該一致文字列の途
中の位置から始まる文字列であることを特徴とする請求
項６記載のデータ圧縮装置。
【請求項８】前記閾値を動的に変更することを特徴とす
る請求項７記載のデータ圧縮装置。
【請求項９】入力データを格納する複数のエントリを有
する履歴アレイ手段を持ち、これから圧縮を行う入力デ
ータと前記履歴アレイ手段に格納されている既に符号化
を終えている入力データを比較し、十分に長い一致文字
列が発見された場合には該一致文字列を前記履歴アレイ
手段における該一致文字列の位置、長さの情報で表すこ
とによって圧縮を達成するデータ圧縮装置において、前記履歴アレイ手段の文字列の検索を行うための検索手
段と、入力データ中の該一致文字列の先頭から高々閾値個まで
の位置から始まる文字列を前記検索手段へ登録する登録
制御手段と、を有することを特徴とするデータ圧縮装
置。
【請求項１０】各エントリが前記履歴アレイ手段の各エ
ントリに対応するインデックスアレイ手段を持ち、前記
履歴アレイ手段のエントリの内、前記検索手段に登録さ
れる文字列の先頭のエントリにのみインデックスを振
り、前記インデックスアレイ手段は前記履歴アレイ手段の該
エントリに対応する位置に該インデックスを保持し、前
記アレイ手段中の位置を表す情報を該インデックスから
生成される位置コードによって表すことを特徴とする請
求項９記載のデータ圧縮装置。
【請求項１１】各エントリが前記履歴アレイ手段の各エ
ントリに対応するインデックスアレイ手段を持ち、前記
検索手段に登録されている文字列の先頭のエントリの
内、連続する該エントリから成るブロックにインデック
スを割り振り、前記インデックスアレイ手段は前記履歴アレイ手段の該
エントリに対応する位置に、該エントリが属する該ブロ
ックのインデックスを保持し、前記アレイ手段の位置を
表す情報を該エントリが属する該ブロックのインデック
スと該エントリの該ブロック内での位置を表す情報から
生成される位置コードによって表すことを特徴とする請
求項１または請求項９記載のデータ圧縮装置。