JP2002353818A

JP2002353818A - データ圧縮方法及び装置及びコンピュータプログラム及び記憶媒体

Info

Publication number: JP2002353818A
Application number: JP2001159512A
Authority: JP
Inventors: Masami Hisagai; 正己久貝
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-05-28
Filing date: 2001-05-28
Publication date: 2002-12-06
Anticipated expiration: 2021-05-28
Also published as: CN1388443A; EP1263145A3; CN1217259C; US6664903B2; US20020175840A1; JP3913004B2; EP1263145A2

Abstract

(57)【要約】（修正有）【課題】伸長の高速化を生かして、高速にデータをロ
スレスに圧縮する。【解決手段】辞書領域を確保し、初期化する。辞書の
第１の記憶領域は、読み込んだデータの先頭の２バイト
をインデックスとし、読み込んだデータ３バイト目の後
続データが過去に出現していない場合には０、出現して
いれば後続データに関する情報を記憶する第２の記憶領
域のアドレス情報を格納する。第２の記憶領域は、後続
する１バイトのデータと、第１のアドレスと、後続する
１バイトの取り得る他のパターンが存在しない場合には
０、存在する場合には、他のパターンのデータを記憶す
る他の第２の記憶領域とチェーン接続するためのアドレ
スで構成される。第２の記憶領域を含む３バイトと同じ
データが過去に出現している場合、読み込んだデータの
４バイト目以降のデータと、前回出現した位置＋３バイ
ト目以降のデータとを比較し、最長一致長Ｌ及びそのア
ドレスを符号化して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はデジタルデータの可
逆的圧縮方法及び装置に関するものである。

【０００２】

【従来の技術】ロスレス（可逆的）のデータ圧縮方法と
しては、ZivとLempelにより発明されたLZ77／LZ78を基
本とした方法がある。

【０００３】LZ77は、過去の入力データをウィンドウバ
ッファに記憶し、現在の入力データと最長一致する過去
の入力データをウィンドウバッファ内で検索し、みつか
った最長一致ストリングの位置と長さを符号化して出力
することによりデータ圧縮を行っている。この方法は、
USP-4,054,951(Jackson,et al)、Ziv,J. and Lempel,
A.,“A universal algorithm for sequential data com
pression”, IEEE Transaction on Information Theor
y,Vol.23,No.3,pp.337-343,May 1977 などに記載されて
いる。

【０００４】また、LZ78は、USP-4,464,650, USP-4,55
8,302, Ziv,J. and Lempel,A.,“Compression of indiv
idual sequences via variable-rate coding”, IEEE T
ransaction on Information Theory,Vol.24,No.5,pp.53
0-536,May 1978などに開示されているように過去の入力
データから辞書を作成していき、現在の入力データと最
長一致する辞書内のストリングを検索し、該ストリング
に対応付けてあった符号を出力し、また最長一致した現
在の入力データに次の1文字を連結したストリングを辞
書に追加登録し、次の検索でより最長の一致が可能とな
るよう工夫したものである。

【０００５】LZ77におけるウィンドウバッファは２〜３
２ＫＢのサイズが適当であり、LZ77が、入力データとウ
ィンドウバッファ内のデータとを比較するので、最長一
致を探す範囲は、高々過去３２ＫＢのデータに限定され
る。一方、LZ78はウィンドウバッファの大きさには関係
なく、辞書のサイズが許す限り遠い過去の入力データま
で最長一致検索の範囲とすることでき、検索範囲はLZ77
のように直近のものだけに限られない。したがって、LZ
77が近い相関を活用するのに対し、LZ78は遠い相関も活
用するという汎用性をもっているという利点がある。

【０００６】また、LZ78は圧縮時に現在の入力データと
辞書との比較をすればよく、辞書が検索に適した構成に
できるので最長一致検索が高速に行える。

【０００７】しかしながら、LZ78はデータ伸長時に辞書
を作成・更新しながら、伸長処理をしなくてはならない
が、LZ77はウィンドウバッファ内のストリングの位置と
オフセットが符号となっているために、辞書を作成せず
すぐに伸長が行え、LZ78よりも伸長処理が高速に行われ
る。

【０００８】つまり、LZ78はデータに対して汎用性があ
りかつデータの圧縮が高速であるのに対し、LZ77はデー
タに対する汎用性には劣るものの、伸長処理を高速に行
えるという特徴を有する。

【０００９】LZ77の圧縮では、入力データと最長一致す
る過去のストリングを探すため、ウィンドウバッファを
検索する必要がある。これを高速化するためには、USP-
4,701,745 (J.R.Waterworth)、USP-5,049,881 (D.K.Gib
son), USP-5.051,745 (P.W.Katz)、及びRFC-1951(“ DE
FLATE Compressed Data Format Specification version
1.3”, P. Deutsch)などに開示されているようなハッ
シュ検索方法がある。これらの公知資料でのハッシュ検
索方法は次のようなものである。

【００１０】図１はこれらの説明図であり、１０はウィ
ンドウバッファであり、Ｐ点より左側が既に圧縮の終わ
った入力データの圧縮前のデータが格納される領域であ
り、Ｐ点より右側はこれから圧縮しようとする入力デー
タが格納される領域である。Ｐ点より左側の領域のサイ
ズは、例えば３２ＫＢとする。Ｐ点から左側の領域の位
置を示すオフセットは、Ｐ点を基点として左にいくにし
たがい増えていくものとする。

【００１１】また、１１はウィンドウバッファのオフセ
ットを格納するハッシュ配列H[i]であって、要素数は2
¹⁵=32768エントリである。オフセットの長さは２バイト
としてよい。

【００１２】次に図３は圧縮処理の処理手順であり、こ
れに従い説明する。

【００１３】ステップ３０１では、現在入力データのス
トリングを示すポインタＣに初期値（入力データの先頭
アドレス）を与える。ステップ３０２では、初期化状態
としてH[i]をゼロに初期化する。ここで、オフセットが
０であることはありえないので、０であることはオフセ
ットがいまだ格納されていないことを意味する。ステッ
プ３０３では圧縮すべき入力データがまだあるかどうか
チェックし、もしなければ処理を終了する。まだあれば
ステップ３０４に処理が進む。

【００１４】図１の１２は現在入力データの文字列であ
る。この先頭３文字を配列C[0]〜C[2]で表すと、ハッシ
ュ値ｈを図２のようにして計算する（ステップ３０
４）。

【００１５】なお、図２において、「＾」は排他的OR
を意味する。その他はＣ言語に準拠するが、「ｘ＜＜
ｙ」はｘを上位ビット方向へのｙビット分だけシフトす
ることを示し、「ｘ＆ｙ」は値ｘ、ｙをビット単位に論
理積することを示している。ハッシュ値ｈが求まった
ら、ステップ３０５において、H[h]と０を比較し、０な
らばこのハッシュ値ｈをもつ３文字列がまだ現れなかっ
たことを意味するのでステップ３０６にいき、H[h]に現
在入力データのカレントオフセット（先頭文字のオフセ
ット）を格納する。次にステップ３０７へいき、１バイ
トのデータC[0]をそのまま出力する。そしてステップ３
０８へいき、ポインタＣを１増やし、次の入力データを
処理可能にして、ステップ３０３へ戻る。

【００１６】ステップ３０５において、H[h]が０でなけ
れば、算出したハッシュ値ｈと同じハッシュ値を出す３
文字列が現れていたので、その文字列があるH[h]の位置
ｍを取り出す（ステップ３０９）。そして、ステップ３
１０で、位置ｍからの過去のデータと、現在入力データ
とを比較し最長一致する長さＬを求める。次に、ステッ
プ３１１では、ｍとＬをハフマン符号化したものを符号
化データとして出力する。最長一致長Ｌが決まると、ス
テップＳ３１２でポインタＣをＬだけ増分し、ステップ
３０３へ戻る。

【００１７】

【発明が解決しようとする課題】LZ77の圧縮方式では、
前述のようなハッシュ検索方法で圧縮時の処理を高速化
することができるが、LZ78のようなウィンドウバッファ
を越えたずっと過去のデータをも現在入力データと比較
するようなことはしないので、例えば、ウィンドウバッ
ファの大きさ、３２ＫＢを周期として繰り返しが現れる
ようなデータについてはその圧縮効果を期待できない。
一方、LZ78の圧縮方式は、伸長時にも辞書を作成更新し
ながら処理をするので、オーバーヘッドがあり伸長処理
のスピードはLZ77よりも劣る。

【００１８】伸長処理を高速化するためには、オフセッ
トと長さもしくはそれらを符号化したものを符号化デー
タとし、伸長時にはウィンドウバッファから対応するス
トリングを取り出すことが好ましい。しかし、オフセッ
トと長さを符号化データにするということは圧縮時にウ
ィンドウバッファ内だけの過去のデータを最長一致の検
索対象に限定することになるので、伸長時の高速化と、
圧縮時の比較対象の過去データの広がりをもたすことと
は両立が困難ではある。

【００１９】本発明は、かかる問題点に鑑みなされたも
のであり、伸長の高速化を生かしながら、高速にデータ
をロスレスに圧縮するデータ圧縮方法及び装置及びコン
ピュータプログラム及び記憶媒体を提供することにあ
る。

【００２０】

【課題を解決するための手段】かかる課題を解決するた
め、例えば本発明のデータ圧縮方法は以下の工程を備え
る。すなわち、所定の入力記憶域から入力データを読み
込み、該入力データと一致する過去の入力データを検索
し、該過去の入力データに対応した符号作成情報をもと
に符号化データを構成し、該符号化データを所定の出力
記憶域に出力するデータ圧縮方法であって、前記過去の
入力データに関連した入力データ関連情報と、該入力デ
ータの符号作成情報を関連付けて記憶するための辞書を
確保する確保工程と、ここで、前記辞書は要素領域を含
み、該要素領域は他の要素領域への接続情報を含むよう
に構成される；確保された前記辞書を検索する検索工程
と、前記過去の入力データに関連した入力データ関連情
報と、該入力データの符号作成情報とを前記要素領域に
登録する登録工程と、前記辞書検索工程により、現在の
入力データに関連した入力データ関連情報と対応する前
記辞書内の入力関連情報の検索を、要素領域を前記接続
情報で辿ることにより行い、該入力データ関連情報と関
連する前記符号作成情報を求め、該符号作成情報から符
号化データを作成する符号化データ作成工程とを備え
る。

【００２１】

【発明の実施の形態】以下、添付図面に従って本発明に
係る実施形態を詳細に説明する。

【００２２】図１７は、実施形態における装置のブロッ
ク構成図である。図示において、２０１は装置全体の制
御を司るＣＰＵであり、２０２はブートプログラム、Ｂ
ＩＯＳ等を記憶しているＲＯＭである。２０３はＣＰＵ
２０１のワークエリアとして使用するＲＡＭであり、こ
こにＯＳ及び実施形態における圧縮プログラムがロード
され実行されることになる。２０４はＯＳ、圧縮プログ
ラムを始め、圧縮対象のファイル等各種ファイルを記憶
するＨＤＤである。２０５は通信インタフェースであっ
て、例えばモデムや、ネットワークカード等が接続さ
れ、ＬＡＮやインターネット等へ接続する。２０６はキ
ーボード及びマウス、２０７は表示コントローラであっ
て、表示用のメモリ及び描画を司るコントローラを内臓
している。２０８はＣＲＴ等の表示装置である。

【００２３】図示の構成において、本装置に電源が投入
されると、ＲＯＭ２０２内のプログラムが起動し、ＨＤ
ＤからＯＳをＲＡＭ２０３にロードし、そのＯＳ上で実
施形態の圧縮プログラムを起動することになる。なお、
ＯＳとしては様々なものがあり、いずれを採用しても構
わない。

【００２４】以下では、本装置のＯＳが動作を行い、Ｈ
ＤＤ２０４内に格納されている圧縮対象のファイル（Ｈ
ＤＤ２０４に格納されている）を指定し、圧縮プログラ
ムを起動した場合に説明する。なお、圧縮対象のファイ
ルはＨＤＤ２０４に限らず、如何なる記憶媒体に記憶さ
れていても良い。また、圧縮後のデータの出力先とし
て、ＨＤＤとして説明するが、この出力先も如何なるも
のでも良い。また、以下の説明における配列変数を始め
とする各領域はＲＡＭ２０３に確保されるものとする。

【００２５】図４〜図８は、本発明の第１の実施形態の
説明図である。図４は、辞書に相当するもので、４０は
第１の記憶領域に相当するところのヘッダ配列Ｘ
［ｉ］、４１〜４４は第２の記憶領域であって、４１〜
４４の各データは要素領域である。ヘッダ配列Ｘ［ｉ］
における配列要素の個数が2¹⁶＝65536個であって、各配
列要素（４バイト）には、要素領域のアドレスが格納で
きるようになっている。したがって、ヘッダ配列の大き
さは、２５６ＫＢ（＝4×65536)となる。

【００２６】要素領域４１〜４４は、図５のＣ言語で示
すデータ構造体であって、変数Ｃ（411に相当）はデー
タの１バイトを格納でき、offset（412に相当）は符号
作成情報であるところのデータのバッファ内オフセット
を格納でき、next（413に相当）は要素領域をチェイン
接続するために要素領域のアドレスが格納でき、dummy
はこのデータ構造体のメモリバウンダリを４バイトの倍
数にするための調整用変数である。

【００２７】本実施形態では長さが３バイトのストリン
グを図４の辞書に登録できる。図４では、'abc','ab
d','abs','cup' の４つの３文字ストリングが登録され
ている状態を示している。それぞれの３文字ストリング
には、４１、４２、４３，４４の各要素領域が対応して
いる。例えば、'ストリングabc'は、先頭の2バイト'ab'
をバイナリで表すと0x6162 であるので、ヘッダ配列［0
x6162］のところに４１のアドレスが格納されている。
そして、要素領域４１には、先頭２バイトの情報は明ら
かであるから省略され、3バイト目の'c'だけが記録され
る。また、４１２のoffsetにはこの３文字ストリングが
出現した過去データの位置が格納されている。そして、
４１３のnextには、先頭２バイトが４１と同じ'ab'であ
る３文字ストリングで、昇順にならべた場合に次にくる
ものの要素領域へのポインタが格納されている。４２も
同様であり、４３もnext以外は同様であるが、４３の場
合はチェインの末端であることを示すためにnextには存
在しえない値、ここではNULL（ゼロ）が入っている。４
４の場合も末端であるため、nextにNULLが入っている。

【００２８】図７は、ウィンドウバッファを説明する図
である。本実施形態では、現在入力データと最長一致す
る過去のデータを検索するのであるが、その検索範囲は
現在から過去へ３２ＫＢさかのぼったところまでであ
る。バッファは６４ＫＢの領域である。図７の（１）〜
（５）は、順に最初から圧縮処理を進行させた場合のバ
ッファの状態を表している。同図（１）はいまだ圧縮し
たデータがない、すなわち過去データがない場合であ
り、現在入力データの位置を示す変数strは０である。
同図（２）は少したって圧縮が進み、過去入力データが
いくらか生じた場合で、変数strにはある値（０＜str＜
３２ＫＢ）が入っている。同図（３）は過去データがち
ょうど３２ＫＢたまった場合であり、str＝３２ＫＢで
ある。同図（４）はさらに進行し、３２KB＜str＜６４
ＫＢとなった状態である。このとき、過去データは３２
ＫＢよりも多くバッファに残っているが、実際に検索対
象となる過去データはstrの位置より過去へ３２ＫＢさ
かのぼったところが限界である。同図（５）はついにst
r が64KBの最後に到達した状態であり、このままでは処
理を進行できないので、同図（５）の状態にいたった場
合は、バッファ内のデータをすべて32KBだけ左にシフト
して、同図（３）の状態にする。それ以降は、同図
（３）〜（５）の状態を繰り返すことになる。

【００２９】さて、図６のフローチャートにそって、本
実施形態の説明を詳細に述べる。ステップ６０１で、ま
ず圧縮処理開始にさきだち初期化を行う。すなわち、・
ヘッダ配列Ｘ［ｉ］のすべての配列要素にNULLを格納す
る。・自由要素管理領域を初期化する。・現在入力デー
タ位置変数strに０をセットする。

【００３０】図８は、自由要素管理領域を説明する図で
ある。図示において、８０１は要素管理領域、８０２は
自由領域先頭ポインタである。要素管理領域は、配列Ｗ
［ｉ］であって、その配列要素は、図５のデータ構造体
であり、配列要素数は適当な値FREEMAX（例えば60000）
とする。初期化は、自由領域先頭ポインタheadにＷ
［０］のアドレスを設定し、Ｗ［i］のメンバー変数nex
tにＷ［i+1］のアドレスを設定する。これをすべてのi
について行い、最後の変数Ｗ［FREEMAX-1］の変数next
にはNULLを設定する。図８は、これを図示したものであ
る。

【００３１】次にステップ６０２へ行き、圧縮処理をす
る入力データがあるかどうか判定し、なければ終了し、
あればステップ６０３へいく。

【００３２】以下、図７のウィンドウバッファをWindow
[i]で表すことにする。Window[i]の配列要素は１バイト
である。変数indexは２バイトの変数であり、このindex
に、Window[str]とWindow[str+1]をつなげた2バイトを
設定する。このindexが、入力データの代表データに相
当する。また、変数ｍにゼロをセットする。

【００３３】次にステップ６０４にいき、Window[str],
Window[str+1],Window[str+2]の３バイトで構成される
３字ストリング（入力データ関連情報）と同じものが辞
書内にあるかどうか検索し、もし辞書内になければこの
３文字ストリングを辞書（４０、４１）に登録する。つ
まり、３文字ストリングのうち、前半の２文字（代表デ
ータ）が既にヘッダ配列４０に存在すれば、残りの１文
字（補助データ）を要素領域４１として登録し、前半の
２文字も一致しない場合には、要素領域４１は勿論、そ
の要素領域４１のアドレスを、前半の２文字で示される
ヘッダ配列４０の該当する位置に登録する。図９Ａ、９
Ｂはステップ６０４の処理をＣ言語でプログラミングし
た一例である。Window[str+2]が入力データの補助デー
タに相当する。

【００３４】例えば、３文字ストリングが、'abd'であ
って、辞書のそのときの状態が図４のようであれば、in
dexは0x6162(“ab”に相当するバイナリ数)となり、Ｘ
[index]を参照すると、ゼロでない値があり、その値を
ポインタとして辿ると４１にいく。４１で、４１１の'
c'と'abd'の補助データである３バイト目を比較すると
等しくないので、４１３のポインタを辿り、４２にい
く。４２１の'd'と'abd'の３バイト目が一致するので、
３文字ストリングと同じ過去の３文字ストリングがみつ
かったことになる。そして、４２２の値Ｐｄはこの過去
の３文字ストリングのバッファ内位置を表すので、ｍに
Ｐｄをセットし、かつ、Ｐｄの欄に現ポインタｓｔｒの
アドレスを格納する。

【００３５】また、もし３文字ストリングが'abe'であ
った場合には、４３まで辿っても一致する過去の３文字
ストリングがみつからず、４３１の's' が'e'(“abe”
の３バイト目)よりバイナリ数値として大きいという結
果になる。４１〜４３は第１文字のバイナリ数値順にチ
ェイン接続されているので、たとえ４３以降にも要素領
域が接続されていても、もやは検索をしても一致する３
文字ストリングはないことは明白であるから検索を打ち
切る。そして、４２と４３の間に変数ｃが'e'である新
しい要素領域を追加挿入する。このため、自由要素管理
領域から未使用の要素領域を獲得して、上記追加挿入を
行う。それ以外にも、新しい要素領域をチェインの先頭
に追加したり、チェインの末端に追加したりする場合も
あるが、これらの正しい処理方法は、図９Ａ、Ｂに示す
が如くである。つまり、チェインの順序を出現する文字
コード順に並べるために、ポインタのアドレスを更新す
る。

【００３６】なお、バッファの位置は１を基点として１
以上の値が割り当てられるようにすれば、ｍ＝０なら
ば、過去に同じ３文字ストリングがなかったことを意味
することになる。

【００３７】次にステップ６０５にいき、辞書とのマッ
チングが成功（過去の３文字ストリングがあった、すな
わちｍ≠０）かどうかチェックする。

【００３８】もしｍ≠０ならば、ステップ６０６にい
き、バッファ内のｍ＋３の位置からのデータと入力デー
タの４バイト目からを比較し最長一致の長さＬを線形探
索法で求める。

【００３９】ここで、USP-4,701,745などのようなハッ
シュ検索法よりも勝っている点を述べる。

【００４０】これらのハッシュ検索法ではハッシュ値と
３文字ストリングのバッファ内位置を対応させてハッシ
ュ配列に記憶する。入力データの３文字からハッシュ関
数によりハッシュ値を求め、同じハッシュ値にあるハッ
シュ配列に記憶してあるバッファ内位置ｍを求める。こ
の場合は、異なる３文字列から求めたハッシュ値が等し
くなることがあり得るので、最長一致を求めるために
は、ｍ＋３から探索するのは危険であり、ｍから、つま
り１文字目からｍ位置にあるバッファ内データと入力デ
ータとを比較しなければならない。したがって、本発明
のほうが比較数が少ないので有利である。

【００４１】さて、処理はステップ６０７にいき、符号
化データを作成し出力する。符号化データの作成は、簡
単にはｍを先頭が常に１の１６ビットのバイナリ数値表
現とし、Ｌ−１を８ビットのバイナリ数値表現にして
ｍ、（Ｌ−１）の順に出力すればよい。ただし、この場
合にはＬは最大２５６バイトしか表せないので、ステッ
プ６０６では最長一致の検索を２５６で打ち切ることが
必要となる。また、１バイトを非圧縮のまま出力すると
きは、先頭が１の後に非圧縮の１バイトを追加した形式
で出力する。

【００４２】或いは、別の符号化としては、Deutsch,
L.P.,“DEFLATE Compressed Data Format Specificatio
n”, RFC-1951に示されてあるように、Ｌとｍをハフマ
ン符号化して出力してもよい。ハフマン符号化は可変長
符号化の一形式であるが、もっとほかの可変長符号化で
あってもよい。

【００４３】次にステップ６１１にいき、現在入力デー
タの位置を表す変数strにstr+Lを設定し更新する。

【００４４】ステップ６０５においてマッチングが不成
功であった場合は、ステップ６０９へいき、Window[st
r]の１バイトを、前述のように先頭が１の９ビットで出
力するか、前記RFC-1951に開示されてあるようにハフマ
ン符号化して出力する。

【００４５】そして、ステップ６１０へいき、str にst
r+1を設定し更新し、ステップ６１１へ進む。

【００４６】str変数の更新により、バッファの状態が
図７（５）のような状態にいたることが起こりえる。つ
まりバッファのあふれである。バッファがあふれなけれ
ば、再びステップ６０２へいき６０２〜６０８の処理を
繰り返す。もし、バッファのあふれがあった場合は、前
述したように、バッファを左に３２ＫＢだけシフトし
て、図７（５）の状態から図７（３）の状態に変更す
る。このとき、辞書内の要素領域に記憶される４１２、
４２２、４３２、・・・のすべてのオフセットは32KB
（32,768）だけ減じて変更する必要がある。そして、減
じた結果、ゼロ以下になった場合には、該当する要素領
域を辞書から取り外し、その要素領域を自由要素管理領
域に返却する。この操作は、図９ＡのソースコードのRE
TURN_LISTマクロ関数で示してあるようにnext変数の値
の変更と、図８の変数headを書き換えることで行えるこ
とは、通常のリスト構造の手法である。

【００４７】なお、自由要素管理領域から、未使用の要
素領域を獲得したり、不要になった要素領域を自由要素
管理領域へ返却したりすると、自由要素管理領域の状態
は、図８の上図の初期状態にとどまることはなく、たと
えば図８の下図のような接続関係が交錯した状態になっ
ていく。また、使用している要素領域は、最初に用意さ
れた自由要素管理領域の連続した部分にはならないこと
は容易に理解できる。

【００４８】このことにより、本発明の辞書の記憶領域
がハッシュ配列のような連続した記憶領域とは異なって
いることがわかる。バッファのシフトが終わったら再び
ステップ６０２へいき処理を繰り返す。

【００４９】＜第２の実施の形態＞次に、第２の実施形
態における動作を図１０、１１に従って説明する。図１
０は、要素領域を説明する図であって、１０１は要素領
域、１０１１は補助データ、１０１２は符号作成情報で
あるところのオフセット、１０１３は子の要素領域への
ポインタ、１０１４は次の要素領域へのポインタであ
る。

【００５０】図１１は辞書の構造を説明する図であっ
て、１１０１は先に説明した実施形態（第１の実施形
態）の記憶領域に相当する、２５６個の配列要素からな
る配列であって、配列要素には要素領域のポインタが記
憶される。つまり、このポインタが分類情報に相当す
る。ヘッダ配列の各要素から辿れる要素領域全体は第２
の記憶領域である。図１１の１１０２〜１１０４の要素
領域群は、３文字ストリングの２文字目に対応する要素
領域であり、１１０５〜１１０７は３文字ストリングの
３文字目に対応する要素領域である。

【００５１】本第２の実施形態では、ヘッダ配列のイン
デックスが３文字ストリング（入力データ関連情報）の
第１文字に相当し、これが入力データの代表データであ
る。そして、３文字ストリングの２〜３文字目が補助デ
ータに相当する。なお、ヘッダ配列のインデックスとし
て１文字（１バイト）を用いるので、そのエントリーは
２５６個となる。

【００５２】第２の実施形態では、第１の実施形態と処
理のフローはほとんど図６と同じであるが、ステップ６
０３とステップ６０４が辞書の構造にあわせて変更とな
る。

【００５３】例えば、図１１の辞書の状態において、３
文字ストリング'acz'を検索する場合を考える。indexに
は代表データであるところの、'a'のバイナリ値をセッ
トして、ヘッダ配列Ｘ［index］をアドレスとして辿る
と１１０２にいく。そして、変数ｃの内容と補助データ
の'c'を比較すると一致するので、１１０２のdesc変数
を取り出し、それをアドレスとして辿ると１１０５にい
く、変数ｃの内容と補助データ'z'のを比較し要素領域
のチェインをポインタnextでたどれば、１１０７で一致
をみる。したがって、１１０７のoffsetをとりだし、そ
れをｍにセットする。このような検索をしても一致する
要素領域がなかった場合は、ｍは０のままである。な
お、図１１において、１１０２〜１１０４が変数ｃの昇
順に接続され、１１０５〜１１０７も変数ｃの昇順に接
続される（もしくは、接続されるように更新処理を行
う）。それ以外の処理は第１の実施形態と同じである。

【００５４】また、本第２の実施形態ではヘッダ配列Ｘ
［i］は、３文字ストリングの先頭バイトがインデック
スとなるように構成されたが、３文字ストリングｘから
ハッシュ値を計算する適当なハッシュ関数h（ｘ）をつ
かって、Ｘ［ｈ（ｘ）］を上記のヘッダ配列の変わりに
使用するような構成もとれる。この場合の配列Ｘ［ｈ
（ｘ）］は、インデックスが２バイトとする。こうすれ
ば、３文字ストリングがヘッダ配列によりばらつかせて
登録できるので、要素領域を辿って検索する速度が向上
する。ハッシュ関数は、例えば、 h(x) = (S[0] ＜＜ 8) | (S[1] ＾ S[2]); （＜＜は
ビットシフト、＾は排他的ORを意味する）とすればよい。S[i]は、３文字ストリングの第i+1バイ
トのデータである。

【００５５】この場合は、前記ハッシュ値が代表データ
となる。

【００５６】h(x)は、第１バイト目のデータが異なれば
違った値になるので、図１１と類似のヘッダ配列要素が
第1バイトを、そこからリンクされる2個の要素領域が第
２−３バイトを表すような態様になる。

【００５７】＜第３の実施形態＞また、上記の第２の実
施形態で次のことが可能になる。つまり、図１１の辞書
には３文字ストリングだけでなく、任意の長さのストリ
ングを登録できる。例えば、４文字ストリングを登録し
たければ、１１０５〜１１０７の各desc変数に4文字目
に対応する要素領域のアドレスをセットして、４文字目
の要素領域を接続すればよい。

【００５８】この場合、入力データ関連情報とは、入力
データの先頭の不定長のバイト列である。また、入力デ
ータの先頭1バイトが代表データであり、2バイト以降の
不定長のバイト列が補助データである。

【００５９】また、実は第１の実施形態においても、図
５の要素領域の構造体を図１０のそれに置き換えること
によって、任意の長さのストリングを辞書に登録できる
ことは容易にわかる。

【００６０】図６のステップ６０６において、バッファ
内と入力データの比較によって、最長一致が見つかった
ら、入力データの最長一致長の長さのストリングを辞書
に登録することができる。

【００６１】ステップ６０６にこのような最長一致のス
トリングを辞書に登録する処理を追加したならば、次回
にバッファを線形探索行わずとも、入力データと辞書と
の比較だけによって最長一致がみつかるので、処理の高
速化を期待できる。

【００６２】また、ステップ６１２でバッファシフトの
ときに、要素領域の取り外しをおこわないことにすれ
ば、バッファ内から消え去った遠い過去のストリングを
辞書に残せ、上記の辞書とのマッチングで最長一致がみ
つかるので、データ圧縮を効率よく行える。

【００６３】＜第４の実施形態＞第１の実施形態で、最
長一致の長さＬと過去のデータの位置ｍを合計２３ビッ
トの符号で表すことを示したが、図１０の要素領域のか
わりに図１２の要素領域を使うことを考える。図１２
は、変数offsetのかわりに変数codeを格納する。

【００６４】変数codeは、ヘッダ配列からその要素領域
までたどって、各変数ｃをつなげてできるストリングの
符号化データを意味する。その値は、オフセットを先頭
が常に１の１６ビットで表し、ストリングの長さを８ビ
ットで表し、合計２４ビットを変数codeにセットしたも
のである。

【００６５】＜第５の実施形態＞次に図１３〜１６にし
たがって、第５の実施形態を説明する。図１３は、本第
５の実施形態の辞書のデータ構造を説明する図であっ
て、１３０１〜１３１２は要素領域である。要素領域
は、図１４で示されるデータ形式であって、１４０１は
１バイトのデータを格納する変数ｃ、１４０３はストリ
ングの先頭バイトの位置を格納する変数offset、１４０
４は子の要素領域へのポインタを格納する変数down、１
４０５は次の要素領域へのポインタを格納する変数next
である。

【００６６】図１３のおいて、１３０１はルートの要素
領域であって、辞書を検索する出発点である。変数root
に１３０１のアドレスが格納されている。１３０２〜１
３０４は、辞書に登録してあるストリングの先頭バイト
を格納する要素領域であって、１３０２は先頭バイト
が'a'、１３０３は先頭バイトが'c'、１３０４は先頭バ
イトが'g'のストリングの要素領域である。そして、１
３０２は子の要素領域へのポインタが変数downに格納さ
れていて、１３０５、１３０６へと接続されている。１
３０５〜１３０８はストリングの第2バイトを格納する
要素領域であって、例えば１３０５は第2バイトが'b'、
１３０６は第２バイトが'k'のストリングの要素領域で
ある。そして、１３０５はやはり子の要素領域へのポイ
ンタが変数downに格納されているいて、１３０９、１３
１０へと接続されている。１３０９〜１３１１はストリ
ングの第３バイトを格納する要素領域である。さらに、
１３１０は子の要素領域へのポインタがdownに格納され
ていて、１３１２へと接続されている。１３１２のdow
n、nextはNULLなので、もはやどこにも接続されていな
い。

【００６７】図１３の状態で辞書に登録されているスト
リングは図１６に示すように１１個あり、対応する要素
領域は図１６に示されている。例えば、ストリング'abd
p'は、1301,1302,1305,1310,1312のルートを含めて５個
の要素領域からなっている。

【００６８】さて、このような辞書を使用した本第５の
実施形態のデータ圧縮の処理手順は、図６と同様である
が、ステップ６０４のマッチング・挿入の処理内容は、
図１５のフローチャートに置き換えたものである。以
下、図１５にそって説明する。

【００６９】なお、以下において、変数offsetは、入力
データと辞書内で最長一致するストリングのバッファ内
における位置を格納する変数であり、Lは、そのストリ
ングの長さであり、npは辞書のツリーを探索するための
要素領域のポインタを格納する変数である。また、変数
posにはあらかじめ入力データの位置が入っている。ま
た、S[i]は入力データのストリングを表す配列である。

【００７０】ステップ１５０１では、変数offset、Lを
０で初期化する。変数npにはルート要素領域のdownをセ
ットする。次に１５０２へいき、変数npが０かどうかチ
ェックする。０ならば、辞書にはなにもストリングが登
録されていないので、１５０８へいき、入力データの位
置posから３バイトのストリングを図１３の態様に従い
辞書に登録する。変数npが０でなければ、ステップ１５
０３へいき、長さLを１だけカウントアップする。次に
１５０４へいき、npが指す要素領域の変数np->cと入力
データストリングの第Lバイト目S[L]を比較する。変数n
p->cが小さければ１５０５へいき、npに次の要素領域の
ポインタをセットする。そして、１５０６へいき、npが
NULLかどうかチェックする。もしNULLであれば、それ以
上一致するストリングが辞書内にはないので、ステップ
１５０７へいき、入力データストリングをnpが指す要素
領域に追加して辞書に登録する。１５０６でNULLでなけ
れば比較すべき要素領域があるのでステップ１５０４へ
戻る。１５０４での比較で、もし、変数np->cのほうがS
[L]よりも大きければ、図１３のツリーは辞書順に登録
されてあるので、これ以上の横のチェインを辿る必要が
ないので、npが指す要素領域の前に入力データを挿入し
て辞書に登録する。

【００７１】ステップ１５０４の比較において両者が等
しければ、ステップ１５０９にいき、offset変数がまだ
０ならばoffsetにnpのoffsetをセットし、０でなければ
セットしない。ステップ１５１１にいき、npのoffsetに
は、入力データのposをセットし更新する。次に、１５
１２へいきnp変数に子の要素領域へのポインタdownをセ
ットする。そして、１５１３にいき、npがNULLかどうか
チェックする。０ならば、１５０７へいきnpが指す位置
に入力データストリングを挿入し辞書に登録する。ステ
ップ1513で０でなければ、ステップ１５０３へ戻る。

【００７２】上記処理で、入力データストリングの辞書
への登録１５０８、１５０７は、Lが２以下であれば、
（３−L）バイトのストリングS[L]〜S[2]を登録し、Lが
３以上ならば１バイトのストリングS[L]を登録するもの
とする。また、辞書への登録では、要素領域の変数ｃに
は入力データストリングのバイトをセットし、変数offs
etには入力データストリングの先頭位置、すなわちpos
をセットする。変数down、offsetは図１３の辞書態様と
なるべくポインタをセットする。

【００７３】このような辞書へのストリングの登録によ
って、図１３に辞書態様は要素領域が変数ｃが昇順にな
るように構成される点に注意すべきである。

【００７４】なお、offsetは図６のｍに相当する。ステ
ップ６０６では、ウィンドウバッファ内で、さらに最長
一致を検索する。ステップ６０６では、ウィンドウバッ
ファのｍ＋１以降と入力データのpos＋ｍ＋１以降を比
較することになる。ここで、さらにL2（L2＞L）の長さ
の最長一致が見つかった場合には、S[0]〜S[L2-1]のス
トリングを辞書に登録しておき、後のマッチングに役立
てる。ここで、S[0]〜S[L-1]のストリングは登録済みな
ので、実際は残りのS[L]〜S[L2]を追加で登録すること
になる。

【００７５】上記説明において、図１４の１４０２の変
数ｃが入力データ関連情報に相当する。なお、本実施形
態においては代表データと補助データに相当するものは
ない。さらに、上記実施形態に以下のような改良を追
加することを説明する。

【００７６】まず、第１の実施形態と同じく、自由要素
管理領域と、要素取得手段、要素返却手段、及び辞書更
新手段を有し、辞書の更新と、要素領域の獲得と返却を
行い、要素領域のメモリ管理をすることができる。

【００７７】そして、第１の実施形態と同じく、辞書に
は入力データの所定長データである３バイトストリング
だけを登録するようにしてもよい。また、第４の実施形
態と同じように、offsetのかわりに、符号化データその
ものを格納してもよい。

【００７８】なお、上述した各実施形態は、ＲＡＭ２０
３等のハードウェアを必要とするものの、その実体はＲ
ＡＭ２０３にロードされ、ＣＰＵ２０１によって実行さ
れるプログラムによって実現できる。すなわち、本発明
は、コンピュータが実行するプログラムによって実行す
ることができるので、当然、そのプログラムは本発明に
含まれる。また、通常、プログラムは、記憶媒体に記憶
されたそのプログラムを、その記憶媒体から直接実行す
る、或いは、記憶媒体に記憶されたプログラムをコンピ
ュータが有する記憶装置（ＨＤＤ２０４等）にインスト
ール若しくはコピーすることで実施できる。従って、か
かる記憶媒体も本発明の範疇に含まれるものである。記
憶媒体としては、紙テープ等の紙記憶媒体、フロッピー
（登録商標）ディスク等の磁気記憶媒体、ＣＤＲＯＭ等
の光記憶媒体、或いは、ＭＯ等の光磁気記憶媒体等を上
げることができるが、その媒体の記録方式は如何なるも
のであっても構わない。

【００７９】

【発明の効果】以上説明したように本発明によれば、伸
長の高速化を生かしながら、高速にデータをロスレスに
圧縮することが可能になる。また、ＬＺ７７の伸長の高
速性を生かしながら、ＬＺ７８の広範な範囲の検索を行
える辞書構成法をとることにより、同じアルゴリズムで
ＬＺ７７のデータ圧縮装置と、あるいはまたＬＺ７８の
圧縮装置への実装も可能になる。

【図面の簡単な説明】

【図１】従来のLZ77の方法を説明するための図である。

【図２】ハッシュ関数の演算手順を示すフローチャート
である。

【図３】従来の方法の処理手順を示すフローチャートで
ある。

【図４】第１の実施形態の辞書構成を示す図である。

【図５】第１の実施形態における要素領域の構造体を示
す図である。

【図６】第１の実施形態の処理手順を示すフローチャー
トである。

【図７】ウィンドウバッファの推移を示す図である。

【図８】自由要素管理領域の構造を示す図である。

【図９Ａ】、

【図９Ｂ】マッチング・挿入処理のソースコードを示す
図である。

【図１０】第２の実施形態の要素領域及びその構造体を
示す図である。

【図１１】第２の実施形態の辞書構成を示す図である。

【図１２】第４の実施形態の要素領域及びその構造体を
示す図である。

【図１３】第５の実施形態の辞書構成を示す図である。

【図１４】第５の実施形態の要素領域及びその構造体を
示す図である。

【図１５】第５の実施形態の処理手順を示すフローチャ
ートである。

【図１６】第５の実施形態の辞書の内容を示す図であ
る。

【図１７】実施形態における装置のブロック構成図であ
る。

Claims

【特許請求の範囲】

【請求項１】所定の入力記憶域から入力データを読み
込み、該入力データと一致する過去の入力データを検索
し、該過去の入力データに対応した符号作成情報をもと
に符号化データを構成し、該符号化データを所定の出力
記憶域に出力するデータ圧縮方法であって、前記過去の入力データに関連した入力データ関連情報
と、該入力データの符号作成情報を関連付けて記憶する
ための辞書を確保する確保工程と、ここで、前記辞書は要素領域を含み、該要素領域は他の
要素領域への接続情報を含むように構成される；確保さ
れた前記辞書を検索する検索工程と、前記過去の入力データに関連した入力データ関連情報
と、該入力データの符号作成情報とを前記要素領域に登
録する登録工程と、前記辞書検索工程により、現在の入力データに関連した
入力データ関連情報と対応する前記辞書内の入力関連情
報の検索を、要素領域を前記接続情報で辿ることにより
行い、該入力データ関連情報と関連する前記符号作成情
報を求め、該符号作成情報から符号化データを作成する
符号化データ作成工程とを備えることを特徴とするデー
タ圧縮方法。
【請求項２】前記検索工程により、現在の入力データ
に関連した入力データ関連情報と対応する前記辞書内の
入力データ関連情報がみつからなかった場合に、前記入
力データ関連情報と前記入力データに対応する符号作成
情報とを関連付けて辞書に記憶する辞書登録工程を有す
ることを特徴とする請求項第１項に記載のデータ圧縮方
法。
【請求項３】未使用の要素領域を含む自由要素管理領
域を確保する工程と、要素取得工程と、要素返却工程、
及び辞書更新工程とを有し、該辞書更新工程により、辞
書に入力データから導かれる入力データ関連情報と符号
作成情報とを関連付けて登録する場合に、該要素取得工
程により前記自由要素管理領域から要素領域を取得し、
該要素領域を辞書に追加し、辞書から要素領域を取り外
すことを決定した場合に、前記要素返却工程により該要
素領域を前記自由要素管理領域へ未使用の要素領域とし
て返却・保管し、次の使用に備えることを特徴とする請
求項第１項に記載のデータ圧縮方法。
【請求項４】入力データを一時記憶するバッファを確
保し、前記符号作成情報は、バッファ内位置情報であ
り、前記入力データとバッファ内位置情報が示す位置から開
始する過去の入力データとを比較し最長一致長を求める
最長一致検索工程と、該最長一致検索工程にて得られた、前記バッファ内位置
情報と最長一致長から符号化データを作成する符号作成
工程とを備えることを特徴とする請求項第１項に記載の
データ圧縮方法。
【請求項５】前記符号作成情報は、最終出力符号その
ものであることを特徴とする請求項第１項に記載のデー
タ圧縮方法。
【請求項６】前記符号作成工程は、前記符号作成情報
を可変長符号化して符号化データを作成することを特徴
とする請求項第１項に記載のデータ圧縮方法。
【請求項７】前記可変長符号化は、ハフマン符号化で
あることを特徴とする請求項第６項に記載のデータ圧縮
方法。
【請求項８】前記最長一致検索工程は、最長一致した
前記入力データを前記辞書に登録することを特徴とする
請求項第４項に記載のデータ圧縮方法。
【請求項９】前記入力データ関連情報は、所定長の入
力データであることを特徴とする請求項第１項に記載の
データ圧縮方法。
【請求項１０】所定の入力記憶域から入力データを読
み込み、該入力データと一致する過去のデータを検索
し、該過去のデータに対応した符号作成情報をもとに符
号化データを構成し、該符号化データを所定の出力記憶
域に出力するデータ圧縮方法であって、前記入力データに関連した代表データと、分類情報を関
連付けて記憶する第１の記憶領域と、前記入力データに
関連した補助データと符号作成情報を関連付けて前記分
類情報ごとに記憶する第２の記憶領域とで構成される辞
書を確保する確保工程と、前記辞書を検索する第１検索工程及び第２検索工程で構
成される検索工程とを備え、前記第１の検索工程は、前記代表データをキーとして第
１の記憶領域を検索し、該第２の検索工程は前記補助デ
ータをキーとして第２の記憶領域を検索するものであっ
て、前記入力データから代表データを導き、前記第１の検索
工程により前記第１の記憶領域を検索して、該代表デー
タに関連する前記分類情報を求め、前記第２の検索工程によって該分類情報により限定され
る第２の記憶領域内を、前記入力データから導いた補助
データをキーとして検索し、該補助データと関連する符
号作成情報を求め、該符号作成情報から符号化データを作成し、該符号化デ
ータを出力記憶域に出力することを特徴とするデータ圧
縮方法。
【請求項１１】前記第２の検索工程により、前記補助
データと対応する符号作成情報が見つからなかった場合
に、前記入力データから代表データと補助データ及び符
号作成情報を導き、該代表データを第１の記憶領域に分
類情報と対応させて記憶し、該分類情報によって限定さ
れる第２の記憶領域内に前記補助データと前記符号作成
情報を対応させて記憶する辞書登録工程を有することを
特徴とする請求項第１０項に記載のデータ圧縮方法。
【請求項１２】前記第２の記憶領域は、前記分類情報
により複数の小領域に分類され、該小領域は空であるか
１個以上の要素領域から構成され、該要素領域は同じ小
領域内の他の要素領域とポインタで接続されるデータ構
造を構成するところの、補助データと符号作成情報と前
記ポインタからなる要素領域を含むことを特徴とする請
求項第１１項に記載のデータ圧縮方法。
【請求項１３】未使用の要素領域を含む自由要素管理
領域を確保する工程と、要素取得工程と、要素返却工
程、及び辞書更新工程を有し、該辞書更新工程により、辞書に入力データから導かれる
代表データと補助データ及び符号作成情報を登録する場
合に、該要素取得工程により前記自由要素管理領域から
要素領域を取得し、該要素領域を前記第２の記憶領域に
追加し、該第２の記憶領域から要素領域を取り外すこと
を決定した場合に、前記要素返却工程により、該要素領
域を前記自由要素管理領域へ未使用の要素領域として保
管し、次の使用に備えることを特徴とする請求項第１２
項に記載のデータ圧縮方法。
【請求項１４】入力データを一時記憶するバッファを
確保し、前記符号作成情報は、バッファ内位置情報であ
り、前記入力データとバッファ内位置情報が示す位置から開
始する過去のデータとを比較し最長一致長を求める最長
一致検索工程と、該最長一致検索工程で得られた該バッファ内位置情報と
前記最長一致長から符号化データを作成する符号作成工
程とを備えることを特徴とする請求項第１０項に記載の
データ圧縮方法。
【請求項１５】前記符号作成情報は、最終出力符号そ
のものであることを特徴とする請求項第１０項に記載の
データ圧縮方法。
【請求項１６】前記符号作成工程は、前記符号作成情
報を可変長符号化して符号化データを作成することを特
徴とする請求項第１４項に記載のデータ圧縮方法。
【請求項１７】前記可変長符号化は、ハフマン符号化
であることを特徴とする請求項第１６項に記載のデータ
圧縮方法。
【請求項１８】前記最長一致検索工程は、最長一致し
た前記入力データを前記辞書に登録することを特徴とす
る請求項第１４項に記載のデータ圧縮方法。
【請求項１９】ハッシュ生成工程を具備し、前記代表
データは、前記入力データからハッシュ生成工程により
求めたハッシュ値とすることを特徴とする請求項第１０
項に記載のデータ圧縮方法。
【請求項２０】コンピュータが読み込み実行すること
で、所定の入力記憶域から入力データを読み込み、該入
力データと一致する過去の入力データを検索し、該過去
の入力データに対応した符号作成情報をもとに符号化デ
ータを構成し、該符号化データを所定の出力記憶域に出力するデータ
圧縮装置として機能するコンピュータプログラムであっ
て、前記過去の入力データに関連した入力データ関連情報
と、該入力データの符号作成情報を関連付けて記憶する
ための辞書を確保する確保工程のプログラムコードと、ここで、前記辞書は要素領域を含み、該要素領域は他の
要素領域への接続情報を含むように構成される；確保さ
れた前記辞書を検索する検索工程のプログラムコード
と、前記過去の入力データに関連した入力データ関連情報
と、該入力データの符号作成情報とを前記要素領域に登
録する登録工程のプログラムコードと、前記辞書検索工程により、現在の入力データに関連した
入力データ関連情報と対応する前記辞書内の入力関連情
報の検索を、要素領域を前記接続情報で辿ることにより
行い、該入力データ関連情報と関連する前記符号作成情
報を求め、該符号作成情報から符号化データを作成する
符号化データ作成工程のプログラムコードとを備えるこ
とを特徴とするコンピュータプログラム。
【請求項２１】請求項２０に記載のコンピュータプロ
グラムを格納する記憶媒体。
【請求項２２】コンピュータが読み込み実行すること
で、所定の入力記憶域から入力データを読み込み、該入
力データと一致する過去のデータを検索し、該過去のデ
ータに対応した符号作成情報をもとに符号化データを構
成し、該符号化データを所定の出力記憶域に出力するデ
ータ圧縮装置として機能するコンピュータプログラムで
あって、前記入力データに関連した代表データと、分類情報を関
連付けて記憶する第１の記憶領域と、前記入力データに
関連した補助データと符号作成情報を関連付けて前記分
類情報ごとに記憶する第２の記憶領域とで構成される辞
書を確保する確保工程のプログラムコードと、前記辞書を検索する第１検索工程及び第２検索工程で構
成される検索工程のプログラムコードとを備え、前記第１の検索工程は、前記代表データをキーとして第
１の記憶領域を検索し、該第２の検索工程は前記補助デ
ータをキーとして第２の記憶領域を検索するものであっ
て、前記入力データから代表データを導き、前記第１の検索
工程により前記第１の記憶領域を検索して、該代表デー
タに関連する前記分類情報を求め、前記第２の検索工程によって該分類情報により限定され
る第２の記憶領域内を、前記入力データから導いた補助
データをキーとして検索し、該補助データと関連する符
号作成情報を求め、該符号作成情報から符号化データを作成し、該符号化デ
ータを出力記憶域に出力することを特徴とするコンピュ
ータプログラム。
【請求項２３】請求項２２に記載のコンピュータプロ
グラムを格納する記憶媒体。
【請求項２４】所定の入力記憶域から入力データを読
み込み、該入力データと一致する過去の入力データを検
索し、該過去の入力データに対応した符号作成情報をも
とに符号化データを構成し、該符号化データを所定の出
力記憶域に出力するデータ圧縮装置であって、前記過去の入力データに関連した入力データ関連情報
と、該入力データの符号作成情報を関連付けて記憶する
ための辞書を確保する確保手段と、ここで、前記辞書は要素領域を含み、該要素領域は他の
要素領域への接続情報を含むように構成される；確保さ
れた前記辞書を検索する検索手段と、前記過去の入力データに関連した入力データ関連情報
と、該入力データの符号作成情報とを前記要素領域に登
録する登録手段と、前記辞書検索手段により、現在の入力データに関連した
入力データ関連情報と対応する前記辞書内の入力関連情
報の検索を、要素領域を前記接続情報で辿ることにより
行い、該入力データ関連情報と関連する前記符号作成情
報を求め、該符号作成情報から符号化データを作成する
符号化データ作成手段とを備えることを特徴とするデー
タ圧縮装置。
【請求項２５】所定の入力記憶域から入力データを読
み込み、該入力データと一致する過去のデータを検索
し、該過去のデータに対応した符号作成情報をもとに符
号化データを構成し、該符号化データを所定の出力記憶
域に出力するデータ圧縮装置であって、前記入力データに関連した代表データと、分類情報を関
連付けて記憶する第１の記憶領域と、前記入力データに
関連した補助データと符号作成情報を関連付けて前記分
類情報ごとに記憶する第２の記憶領域とで構成される辞
書を確保する確保手段と、前記辞書を検索する第１検索手段及び第２検索手段で構
成される検索手段とを備え、前記第１の検索手段は、前記代表データをキーとして第
１の記憶領域を検索し、該第２の検索手段は前記補助デ
ータをキーとして第２の記憶領域を検索するものであっ
て、前記入力データから代表データを導き、前記第１の検索
手段により前記第１の記憶領域を検索して、該代表デー
タに関連する前記分類情報を求め、前記第２の検索手段によって該分類情報により限定され
る第２の記憶領域内を、前記入力データから導いた補助
データをキーとして検索し、該補助データと関連する符
号作成情報を求め、該符号作成情報から符号化データを作成し、該符号化デ
ータを出力記憶域に出力することを特徴とするデータ圧
縮装置。