JPH09153818A

JPH09153818A - データ圧縮・伸長装置

Info

Publication number: JPH09153818A
Application number: JP8105506A
Authority: JP
Inventors: Takaaki Hayashi; 隆昭林
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 1995-09-29
Filing date: 1996-04-25
Publication date: 1997-06-10
Anticipated expiration: 2016-04-25
Also published as: DE19622045C2; US5841376A; DE19622045A1; JP3273119B2

Abstract

(57)【要約】【課題】本発明は、Ziv-Lempelのデータ圧縮伸長方式
に関し、特に２値画像等の大域的な構造を有するデータ
に対して高速かつ高圧縮を実現する。【解決手段】本発明は、最長一致文字列探索のための
木構造の辞書と最長一致文字列探索を行う最長一致文字
列探索手段と探索結果を符号化出力する符号化手段と辞
書に新たなエントリを登録する辞書更新手段とから構成
されるデータ圧縮方式であり、特に探索木の各エントリ
に無限長の文字列を格納することにより、最長一致文字
列探索の際の一致長の有限性に関する制限を取り除く構
成を有している。また、本発明は文字列のコピーによ
り、圧縮符号を簡単に元のデータに復元するために、復
号化手段、データ複写手段、及び変換表更新手段とから
構成されるデータ伸長方式である。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユニバーサル符号
により種々のデータを無損失で圧縮及び伸長することを
可能にするデータ圧縮伸長装置に関するものである。特
に、２値画像データ等の同一データパターンの連続が顕
著に現われるデータに対して有効であり、かつ演算コス
トの少ない高速なデータ圧縮伸長装置を実現するもので
ある。

【０００２】

【従来の技術】近年、ＣＰＵ性能の向上に伴い計算機で
取り扱われるテキストファイルやオブジェクトファイル
を圧縮して外部記憶媒体に格納するためのデータ圧縮技
術が使われ始めている。そこで利用される圧縮方式は、
統計的性質が未知であるさまざまなデータに対して良好
なデータ圧縮が行えなければならない。そのため、我々
が望む圧縮方式はデータの統計的性質に依存しない、い
わゆるユニバーサル符号である、ことが前提となる。ユ
ニバーサル符号の代表的な方式として、Ziv-Lempel(ZL)
の符号化方式がある。ZL符号化方式は、辞書に基づいた
データ圧縮伸長アルゴリズムである。ここで、文字とは
圧縮対象である入力データの個々のワード単位のことで
あり、文字列とは文字が任意の数だけ連なったものであ
る。ZL符号化方式の圧縮処理は、既に符号化されたデー
タの履歴を辞書に登録し、辞書に登録された文字列の中
から符号化するデータと最長一致する文字列を探索し、
探索の結果見い出された文字列をそれより短縮された符
号に置き換えることにより、データ圧縮を達成する。ま
た伸長処理は、圧縮処理と同様の手続きにより作成され
た辞書に登録されている文字列の中から、圧縮された符
号に基づいて一意的に特定の文字列を指定し、特定され
た文字列を復元データとすることにより、データ伸長を
達成する。また、圧縮及び伸長処理で利用される辞書は
処理の経過とともに更新され、充分な時間が経過したと
き、処理データに対して最適な辞書になるように構成さ
れる。すなわち、ZL符号化方式を現実に実行するために
は、データの履歴を格納するための辞書をいかにして構
築するかということが最も重要な問題である。そして、
辞書を構築するための基本的な2 つの概念が既にZiv 及
びLempelにより提案されている。それらは、それぞれの
概念が発表された年号により、LZ77方式("A Universal
Algorithm for Sequential Data Compression" J Ziv,A
Lempel,1977 参照) 及びLZ78方式("Compression of I
ndivisual Sequencesvia Variable-Rate Coding" J Zi
v,A Lempel,1978 参照) と呼ばれている。

【０００３】LZ77方式は、有限固定長の参照バッファを
用意し、その中に符号化した文字列を順次記憶すること
により、その参照バッファを辞書として利用する。例え
ば、図１４（ａ）に示すように、記憶サイズが８の参照
バッファ１４００があり、記憶レジスタの１４０２の中
に既に符号化処理の終わったデータ文字列ababcabaが１
文字ずつ記憶されていて、それぞれのレジスタにはアド
レス１４０３が割り振られているものとする。また、こ
れから符号化するデータ文字列babcb がさらに続いてい
るものとする。ここで、a 、b 、c はデータを構成する
文字である。

【０００４】ZL符号化方式における最も簡単な辞書の概
念は”インデックス- 文字列”の表により表現すること
がである。すなわち、辞書は、エントリを表わすインデ
ックスとそれに対応する文字列を記憶するエントリの集
合により構成することができる。参照バッファ１４００
をインデックス- 文字列表現で表わすと辞書１４０１に
なる。辞書１４０１のインデックスは参照バッファ１４
００の先頭からの相対アドレス値１４０３と等価で、文
字列はアドレスが指す文字から始まる参照バッファの文
字列と等価である。LZ77方式で特徴的なことは、各エン
トリに登録されている文字列が論理的に無限長であると
いうことである。Ziv 及びLempelが開示した論文やその
後開示された様々な改良方式の多くは、辞書に登録する
文字列を有限長で打ち切るが、それはLZ77方式の本質的
制約ではなく、単に処理上の簡便性を目指した結果にす
ぎない。

【０００５】LZ77方式の本質的制約は参照バッファサイ
ズが固定長であるということである。この制約は以下の
理由により生じる。ZL符号化方式は過去に符号化したデ
ータ文字列の中から最長一致文字列探索を行う。そのと
き、有限の時間で処理を行うためには探索範囲の有限性
が必要条件であることは明らかである。LZ77方式は、固
定長参照バッファを使って探索文字列数を制限すること
により、その条件を満足するものである。LZ77方式は、
固定長参照バッファを利用することにより探索範囲を制
限するが、その探索範囲の中を網羅的に探索することが
できる。つまり、参照バッファ１４００と辞書１４０１
の関係から明らかなように、辞書１４０１の中には参照
バッファ１４００に含まれている文字列が全て登録され
ている。よって、参照バッファ１４００で限定される探
索範囲の文字列について、LZ77方式は網羅的に探索を行
っていることになる。結局、LZ77方式とは、固定の探索
範囲を参照バッファにより確保し、その範囲について網
羅的に文字列の一致を検査する方式であるといえる。LZ
77方式の動作は以下のように行われる。入力データ文字
列１４０４と辞書１４０１に登録されたそれぞれの文字
列と比較することにより、入力データ文字列１４０４と
最長一致するのは辞書のインデックス１のエントリに登
録された文字列であることが分かる。そのときの最長一
致文字列はbabcであり、一致長は４である。LZ77方式で
は辞書の登録文字列長が不確定であり、辞書のインデッ
クス値を指定しただけでは文字列が確定しない。そのた
め、インデックス値１とともに一致長４を符号化するこ
とにより、最長一致文字列babcを確定させて、伸長側で
一意的に文字列を復元できるようにする。ZL符号は符号
化を行う度に辞書を更新する。辞書１４０１の更新のた
めに符号化した文字列を参照バッファ１４００に挿入す
る。参照バッファサイズは一定なので、更新のために挿
入した文字数と同数の参照バッファ１４００の中の最も
古い文字を廃棄する。図１４の例では４文字符号化され
たので、１４０６が示す最も古い文字列ababが参照バッ
ファ１４００から廃棄される。そして、１４０５が示す
ように符号化された４文字babcを参照バッファ１４００
に挿入する。この例では文字列を全体に４文字シフトさ
せることにより、挿入と廃棄を行っている。辞書１４０
１に着目すると、４つのエントリが削除され、新たに４
つのエントリ１４０７が追加され、全体として８個のエ
ントリが保存される。このように、LZ77方式の更新処理
では１回の処理により複数の辞書のエントリが更新され
ることが特徴である。LZ77方式の辞書は、実際にはイン
デックス- 文字列表現の形式で構成されてはいない。実
際の辞書は、より効率的に一致文字列の探索や辞書の更
新を行うことができるような形式で構成されている。例
えば、Data Compression System (USP 4,701,745 1986)
では、ハッシュ関数を利用して参照バッファ内の一致文
字列候補を検索する。また、Better OPM/L Text Compre
ssion (IEEE Trans. vol COM-34, No 12 ,DEC 1986) で
は2 分木アルゴリズムにより辞書を構成している。ま
た、Textual Substitution Data Compression with Fin
ite Length Search Tree (USP4,906,991 1988) ではPat
ricia木により辞書を構成している。これらの従来技術
は全てLZ77方式における辞書を効率的に構成し、圧縮率
の向上と一致文字列の検索の高速化を目指したものであ
る。さて、一方のLZ78方式はTRIE構造の探索木を辞書と
して利用し、符号化したデータ文字列を探索木に登録す
ることにより、辞書を学習させていく。LZ78方式はWelc
h により改良された("A Technique for High Performan
ce Data Compression", IEEE Computer , JUN 1984) 。
それはLZW方式と呼ばれ、現在一般的に広く利用されて
いる。図１５（ａ）は、入力データ文字列ababcabababc
b を最も基本的なLZW 方式により、７文字目まで処理し
た後の探索木とインデックス- 文字列表現で表わした辞
書を示している。探索木の節は辞書のエントリと等価で
あり、節の肩に付されている番号はエントリのインデッ
クスを示す。辞書の各エントリに登録されている文字列
は、探索木の根から各節への経路上にある節に記憶され
ている文字を連結したものと等価になる。

【０００６】LZW 方式あるいはLZ78方式の最大の特徴
は、探索木の各節が１文字を記憶していることである。
このことはLZW あるいはLZ78方式にとって本質的に重要
なことである。なぜならば、LZ78方式を起源とする全て
の方式は、節を指定することにより一意的に文字列を特
定することができねばならないからである。このこと
は、LZ78方式が辞書のエントリのインデックスを符号化
するだけでよいことを示し、インデックスと一致長を符
号化しなければならないLZ77方式に対する利点となって
いる。

【０００７】LZ78方式はインデックスを指定するだけで
一意的に文字列が定まる。そのため、辞書に登録される
文字列は有限長でなければならないという制約が生じる
ことは明らかである。つまり、LZ78方式であることの必
要条件は、辞書に登録されている文字列が全て有限長で
あることである。図１５（ａ）の辞書を使って、８文字
目以降の入力データ文字列ababcbの処理を行う。入力デ
ータ文字列と最長一致する文字列はインデックス７の文
字列aba なので、インデックス値７を符号化する。辞書
の更新は、図１５（ｂ）に示すように、新しい８番目の
エントリを辞書に付け加えられることにより達成され
る。辞書の新しいエントリには、１５００に示すよう
に、符号化した文字列aba に次の入力文字ｂを連結した
文字列ababが登録される。一方、辞書更新により探索木
は、１５０１に示すように、インデックス７の節から新
たな節が生じ、文字ｂがそこに記憶される。このよう
に、LZ78方式の辞書更新では１回の処理につき１個の辞
書エントリしか更新されない。一般にLZ78方式は、辞書
更新処理がLZ77方式より簡潔なため、高速に圧縮処理が
行うことができる。LZ78方式もLZ77方式のときと同様
に、探索範囲の制限が必要である。LZ77方式が参照バッ
ファを固定長化という制限を持つのに対して、LZ78方式
は探索木の節の最大数を設定することにより探索範囲を
制限する。節が最大数に飽和したとき、例えば、Data C
ompression Method (US 4,814,746 , 1986) のように、
辞書を完全に初期化したり、LRU の手法により新しい節
を１つ登録する代りに古い節を１つ廃棄したりする。こ
のため、LZ78方式は文字列の参照範囲はLZ77方式のよう
に固定化されていない。

【０００８】

【発明が解決しようとする課題】LZ77及びLZ78方式は、
ユニバーサル符号として簡単な構成で良好な圧縮性能を
示すために広く利用されている。しかしながら、２値画
像データのように、例えば数k バイトの同一データの連
続（ラン）が現われたり、あるいは数k バイト毎に相関
性の高いデータパターンが現われたりするような、巨大
なデータ構造を有するデータを高速に圧縮したいという
欲求があるとき、LZ77及びLZ78方式は以下のような問題
が生じる。まず、LZ78方式は辞書登録文字列が有限長で
あるという制約が、特に圧縮処理の初期段階で問題とな
る。それは、圧縮処理の初期段階では、辞書に短い文字
列しか登録されていないため、長大なランがデータ中に
現われてもそれを効果的に圧縮することができないとい
うことである。ラン以外にも数百〜数千バイトの一致が
頻繁に出現するデータに対して、LZ78方式のように辞書
登録文字列長に本質的な制約が存在する圧縮方式は極め
て不利である。また、LZ77方式は辞書登録文字列長の制
約がなく長いデータパターンを一括に符号化することも
可能である。しかし、一般にLZ77方式は最長一致文字列
探索や参照バッファの更新がLZ78方式に比較して非常に
複雑なため処理コストが大きくなるという問題がある。
また、LZ77方式の処理量は参照バッファのサイズに比例
して増加するため、参照バッファのサイズは現状では１
k 〜２k バイト程度しかとれない。そのため、例えば網
点画像のように、数k バイトの単位で相関性のあるデー
タパターンが現われるデータに対して、LZ77方式は問題
がある。本発明は、以上の問題点を考慮してなされたも
のであり、LZ78方式の辞書登録文字列長に関する制約が
なく、また処理が簡潔であるデータ圧縮伸長方式を提供
することである。

【０００９】

【課題を解決するための手段】図１は本発明のデータ圧
縮装置の基本構成図である。本発明のデータ圧縮装置
は、データメモリ１０４に記憶されている入力データを
よりデータ量の少ない圧縮符号に変換し、圧縮符号をコ
ードメモリ１０５へ格納するものである。図１の中で実
線で表わされる矢印は処理のフローを示し、点線で表わ
される矢印はデータの移動を示している。本発明のデー
タ圧縮装置は、データメモリ１０４に記憶された入力デ
ータの文字列を示すポインタを記憶するための複数のエ
ントリを有する辞書１００を有し、また、データ圧縮の
ために３つの手続きを行うための手段を有する。第１の
手段は最長一致文字列探索手段１０１であり、符号化す
る文字列と辞書１００に登録されたポインタが示す文字
列との比較を行い、辞書１００に登録されている文字列
の中で符号化する文字列と最長一致する文字列を探索す
る。第２の手段は符号化手段１０２であり、最長一致し
た文字列へのポインタを記憶する辞書１００のエントリ
のインデックスと、最長一致した長さである一致長を圧
縮符号化し、圧縮符号をコードメモリ１０５へ出力す
る。第３の手段は辞書更新手段１０３であり、符号化手
段１０２により符号化した文字列の先頭文字に対応する
データメモリへのポインタを新たに辞書１００に付け加
える。辞書１００は、辞書１００に記憶されているポイ
ンタを記憶するための主節と、探索木の中で生じる分岐
を表わすための分岐節を有する探索木により表現するこ
とができる。辞書１００の各エントリは、辞書１００に
登録されている文字列に対応する前記データメモリ１０
４へのポインタと、探索木の根から分岐が生じた地点ま
での経路上にある文字の文字数（オフセット数）と、主
節が記憶している文字列の中で最初に生じる分岐節への
リンクを表わすためのポインタと、分岐節から次に生じ
る分岐節へのリンクを表わすためのポインタから構成さ
れている。図２は本発明のデータ伸長装置の基本構成図
である。本発明のデータ伸長装置は、コードメモリ２０
５に記憶されている圧縮符号を元のデータに伸長復元
し、伸長データをデータメモリ２０４へ格納するもので
ある。図１と同様に図２の中で実線で表わされる矢印は
処理のフローを示し、点線で表わされる矢印はデータの
移動を示している。

【００１０】本発明のデータ伸長装置は、それぞれが、
インデックスとデータメモリ２０４に記憶された復元さ
れた文字列を示すポインタを対応づけるエントリを有す
る変換表２００を有し、また、データ伸長のために３つ
の得続きを行うための手段を有する。第１の手段は復号
化手段２０１であり、コードメモリ２０５から入力され
た圧縮符号により辞書１００の中のある一つのエントリ
に対応するインデックスと、最長一致文字列の一致長を
求める。第２の手段はデータ複写手段２０２であり、変
換表２００にインデックスを与えることにより得られ
た、データメモリ２０４に含まれる文字列へのポインタ
と最長一致文字列の一致長により確定する文字列をデー
タメモリ２０４へコピーすることにより伸長データを得
る。第３の手段は変換表更新手段２０３であり、復号化
手段２０１により得られたインデックスとデータ複写手
段２０２によりコピーされた文字列に対するデータメモ
リ２０４へのポインタを対応づけ、変換表２００に登録
することにより、変換表２００を更新する。

【００１１】

【作用】本発明のデータ圧縮装置によれば、辞書の各エ
ントリはデータメモリ１０４へのポインタを記憶してお
り、このことは論理的には無限長の文字列を記憶してい
ることと等価である。そのため、圧縮を行うデータが数
百〜数千バイトの大きな反復が頻繁に現われるデータ構
造を有するときでも、高圧縮率を達成することができ
る。また、辞書更新手段１０３において、辞書１００の
更新は符号化手段１０２により符号化した文字列の先頭
文字に対応するデータメモリ１０４へのポインタを新た
に辞書１００に付け加えるだけで済む。すなわち、１回
の更新処理で１つの辞書エントリのみ変更すればよいの
で、圧縮処理は高速に行うことができる。また、本発明
のデータ伸長装置によれば、変換表２００はインデック
スとデータメモリ２００上の文字列へのポインタとの対
応が記述されており、変換表２００に基づいてデータ複
写手段２０２が文字列のコピーを行うだけデータの復元
が可能であるため、伸長処理模高速に行うことが可能に
なる。

【００１２】

【発明の実施の形態】

Ａ）辞書の構成最初に辞書１００の構成について説明する。辞書１００
はLZ78方式で用いられる辞書と同様にその構成を概念的
に木によって表わすことができる。ただし、その両者で
最も異なる点は、LZ78方式が図１５で示したように各ノ
ードに一つの文字が格納されているのに対して、本発明
の辞書１００は、各ノードに一つの文字列が格納されて
いる点にある。図３（ａ）の入力データ文字列３００に
対する本発明の探索木の概念図を図３（ｂ）に示す。探
索木は主節、分岐節、初期登録節を持っている。主節
は、図中の３０２が示すもので、論理的には無限長の文
字列を記憶している。主節の肩に付されている番号は辞
書のエントリのインデックス値と同じものである。分岐
節は、図中の３０３が示すもので、主節に記憶されてい
る文字列のどこで分岐が起きたかを示すものである。分
岐節は主節が生成されるとき、主節と対になって必ず生
成される。初期登録節は、図中の３０４が示すもので、
予め入力データ中に現われる全ての文字を登録したもの
である。初期登録節をもつことにより、必ず１文字以上
一致する文字列を探索することができるので、符号形式
がインデックスと一致長の組により統一的に表現でき
る。初期登録節を持たない探索木の構成をとることは可
能である。しかし、その場合最長一致文字列探索の結
果、一致文字列が存在する保証がないため、一致文字列
が存在したときの符号形式と一致文字列が存在しないと
きの符号形式を用意しなければならない。各主節に記憶
されている文字列は、探索木の根から各主節への経路上
にある文字列を辿ることにより得られる。図３（ｂ）の
探索木と等価な辞書をインデックス- 文字列表現で表わ
したものが図３（ｃ）である。図３（ｃ）から明らかな
ように、本発明の辞書は、初期登録した文字以外の全て
のエントリは論理的に無限長の文字列を記憶している。
実際に無限長の文字列を記憶することは物理的に不可能
である。そのため、各主節に直接文字列を記憶すること
はせずに、文字列へのポインタ３０１を記憶することに
なる。より現実的な探索木の模式図を図３（ｄ）に示
す。ここで、主節は３０５に示す四角囲み、分岐節は３
０６に示す２重四角囲み、初期登録節は３０７に示す丸
囲みで表わし、主節から次の分岐節へのリンクを示す枝
は３０８に示す実線矢印、分岐節から次の分岐節へのリ
ンクを示す枝は３０９に示す点線矢印で表わす。各主節
には文字列そのものではなく、文字列に対応するポイン
タ３０１の値が記憶されている。また、各分岐節には文
字列中のどこで分岐が起きたかを示すために、探索木の
根から分岐が生じた地点までの文字数が記憶されてい
る。また、ＮＩＬはその先に分岐節が存在しないことを
示す終端記号である。図３（ｄ）の模式図から、本発明
の探索木は４つの要素の組から構成されることがわか
る。よって、辞書は、物理的なメモリの中では、４つの
変数により表わされるエントリの配列で構成されてい
る。辞書の配列による表現を図３（ｅ）に示す。ここ
で、４つの変数に対して、以下のように名付ける。

【００１３】ｐｔｒ：主節に記憶される文字列を示すポインタｏｆｆ：探索木の根から分岐節までの文字数（オフセッ
ト数）ｍｎｄ：主節から次の分岐節への枝ｂｎｄ：分岐節から次の分岐節への枝以上のように、本発明の辞書について、その概念的な構
成から物理的なメモリに展開される実際的な構成まで説
明した。図３（ｂ）から図３（ｅ）までの辞書は表現形
式が異なるが全て本質的に等価である。

【００１４】ここで、本発明の圧縮処理がどのように行
われるのかについて、探索木の成長に着目して具体例に
より説明する。例として、入力データ文字列ababcababa
bcbaaを用いる。図１１（ａ）は探索木の初期状態であ
り、初期登録説のみで構成されている。データポインタ
は入力データの先頭にセットされており、その値は０と
しておく。ｄｐｔｒ＝０からはじまる入力データ文字列
に対する最長一致文字列はａであり、そのインデックス
は０である。また、最長一致文字列の一致長は１であ
る。よって、（０，１）の組が符号化される。探索木に
はインデックス３のエントリが追加され、その主節に
は、ここで符号化した文字列、すなわちｄｐｔｒ＝０か
ら始まる文字列とそれ以降続く無限長の文字列ａｂａｂ
ｃ…が記憶される。データポインタの値は符号化した文
字数１だけ増加させ、ｄｐｔｒ＝１とする。このときの
探索木の状態を図１１（ｂ）に示す。次に、再び最長一
致文字列探索を行い、ｄｐｔｒ＝１から始まる入力デー
タ文字列に対する最長一致文字列ｂを求める。このとき
のインデックスは１であり、最長一致文字列長は１であ
る。よって、（１，１）の組が符号化される。そして、
探索木にはインデックス４のエントリが追加され、その
主節には、ｄｐｔｒ＝１から始まる無限長の文字列ｂａ
ｂｃ…が記憶される。データポインタの値は符号化した
文字数１だけ増加させ、ｄｐｔｒ＝２とする。このとき
の探索木の状態を図１１（ｃ）に示す。次に、ｄｐｔｒ
＝２から始まる入力データ文字列ａｂｃａ…に対する最
長一致文字列探索を行う。すると、その文字列はインデ
ックス３に登録した文字列ａｂａｂｃ…と最長一致し、
最長一致文字列長は２である。よって、（３，２）の組
が符号化される。探索木の分岐は最長一致文字列ａｂと
次の文字の間で生じる。すなわち、インデックス５のエ
ントリが追加され、その分岐節はａｂと次の文字ａの間
に設置され、その主節にはｄｐｔｒ＝２から始まる無限
長の文字列ａｂｃａ…が記憶される。データポインタの
値は符号化した文字数２だけ増加させ、ｄｐｔｒ＝４と
する。このときの探索木の状態を図１１（ｄ）に示す。
同様の処理を続けると、ｄｐｔｒ＝４から始まる入力デ
ータ文字列に対する最長一致文字列はｃであり、（２，
１）の組が符号化される。そして、探索木には図１１
（ｅ）のようにインデックス６のエントリが追加され
る。さらに処理を続けると、ｄｐｔｒ＝５から始まる入
力データ文字列に対する最長一致文字列はａｂａｂであ
り、（３，４）の組が符号化される。そして、探索木に
は図１１（ｆ）のようにインデックス７のエントリが追
加される。さらに、同様の処理を続けることにより、探
索木はさらに成長し、入力データも圧縮される。Ｂ）圧縮処理のフロー圧縮処理の中には既に述べたように３つの処理がある。
それらについて詳しく説明をする。それらの処理を説明
する図面の中で、実線の矢印は処理のフローを示し、点
線の矢印はデータの移動を示す。また、データの移動を
示す点線の矢印の上に付されている記号は、辞書１０
０、データメモリ１０４、コードメモリ１０５の各メモ
リのデータを参照するためのポインタを表わしている。
ここで、記号の定義をしておく。

【００１５】データポインタｄｐｔｒ：データメモリ１０４中の入
力データの読み込み位置を指すポインタ探索用ポインタｓｐｔｒ：一致文字列探索を行う文字
列を示すポインタコードポインタｃｐｔｒ：コードメモリ１０５中の圧
縮データの書き込み位置を示すポインタインデックスＩＤ：辞書のエントリのインデッ
クスエントリカウンタｅｃｎｔ：辞書に登録されているエン
トリ数最初に、図４は最長一致文字列探索処手段１０１の処理
内容の詳細を表わしたものである。まず、ステップ４０
０で符号化する入力データの先頭の文字をデータメモリ
から読み込む。ステップ４０１で先頭文字から初期登録
節のＩＤを得る。辞書の初期登録節のＩＤは入力データ
に現われる文字と完全に１対１に対応しているので、そ
の関係があらかじめテーブル化されていれば、入力デー
タの先頭文字を入力することにより初期登録節のＩＤを
得ることができる。また、一般的に入力データが00〜ff
のバイトデータ等の値を持つならば、入力データの値そ
のものをＩＤと等価になるように辞書の初期登録節を構
成しておくことにより、テーブル変換の操作すら不要に
なる。ステップ４０１により、初期登録節のＩＤが確定
したところで実質的な処理の開始となる。ステップ４０
２は現在のＩＤが示す節から次の節へ移動するために、
次の分岐節のＩＤを求める。そのため、現在のＩＤをも
とに辞書１００を参照し、現在のＩＤが示すエントリの
ｂｎｄまたはｍｎｄの値から次の分岐節のＩＤを求め
る。ステップ４０３はステップ４０２で得られたＩＤを
調べ、その値が終端符号ＮＩＬならば、これ以上は探索
すべき文字列は存在しないので、処理を終了する。ステ
ップ４０２で得られたＩＤが終端符号ＮＩＬ以外のもの
ならば、そのＩＤが示すエントリに登録されている文字
列を用いて一致文字列探索が行われる。ステップ４０４
はＩＤの値をもとに辞書１００を参照し、ｓｐｔｒを求
める。ｓｐｔｒはＩＤが指す辞書のエントリに記憶され
ている文字列のポインタｐｔｒと等価である。ステップ
４０５はｓｐｔｒとｄｐｔｒがそれぞれ示すデータメモ
リ１０４の中の文字列を読み出して、それぞれの文字列
を比較する。そして、比較の結果一致した文字数を一致
長とする。ステップ４０５が終了したら、ステップ４０
２へ戻り、再びステップ４０２からステップ４０５の処
理を繰り返す。この処理ループはステップ４０３におい
て終端符号ＮＩＬが現われるまで続けられる。そして、
最終的に得られた一致長が最長一致文字列長ＭＬＥＮに
なる。次に、図５は符号化手段１０２の処理内容の詳細
を表わしたものである。まず、ステップ５００は、最長
一致文字列探索手段１０１により求められた最長一致文
字列が登録されている辞書のエントリのＩＤと最長一致
文字列長ＭＬＥＮをあらかじめ決められた符号形式に従
って符号化する。そして、符号化により圧縮された符号
をコードメモリ１０５へ書き込む。ステップ５０１は、
まだ処理すべき入力データがデータメモリ１０４中に残
っているかを判断し、残っていなければ圧縮処理を終了
する（ＥＸＩＴ）。まだ処理データが残っていれば、符
号化処理を終了し、次の処理へ移る。以上で述べたよう
に、符号化はインデックスＩＤと最長一致文字列長ＭＬ
ＥＮの組に対して行われる。ここで、ＭＬＥＮの符号化
の方法が２種類あることに注意する必要がある。１つは
ＭＬＥＮを探索木の根から計数する方法であり、もう１
つは分岐節から計数する方法である。例えば、探索木が
図１１（ｆ）の状態で最長一致文字列探索を行うとす
る。データポインタｄｐｔｒ＝９から始まる入力データ
文字列に対する最長一致文字列はａｂｃであり、その文
字列が記憶されているエントリのインデックスは５であ
る。最長一致文字列長は根から計数する方法によれば図
１３の１３００に示すように３であるから、符号は
（５，３）の組で表わされる。また、インデックス５の
分岐節から計数する方法によれば図１３の１３０１に示
すように１であるから、符号は（５，１）の組で表わさ
れる。この２つの方法の違いは、分岐節から計数する方
法が根から計数する方法に比べて一致長の値が０近傍に
集中するため、エントロピーが減少するので圧縮率が高
くなる。しかし、後で説明する伸長処理において、分岐
節から計数する方法はから計数する方法より多くのメモ
リを必要とする。次に、図６は辞書更新手段１０３の処
理内容の詳細を表わしたものである。まず、ステップ６
００は、辞書１００に登録されているエントリ数が所定
の最大値（最大エントリ数）に達したかを判断する。本
発明の探索木もまた、LZ78方式の探索木と同様に無限に
成長し、節を増加させることはできないので、このよう
に探索木の節数（すなわち、辞書のエントリ数）を制限
しなければならない。最大エントリ数は、メモリコスト
と圧縮率のトレードオフにより定められる。すなわち、
最大エントリ数が大きければ、参照しうる文字列数が増
加するので圧縮率も一般的に良好になるが、辞書１００
に要するメモリ量が増加するのでメモリコストも増加す
る。ステップ６００の結果、まだ辞書にエントリを追加
登録する余裕が残っているときはステップ６０１へ進
み、新たなエントリに値を書き込む。辞書にエントリを
追加することは、探索木に新たな分岐が生じることと等
価である。辞書更新の様子は探索木において分岐が生じ
る位置により若干異なる。それは、分岐が主節分岐節の
間で生じるか、分岐節と分岐節の間で生じるかによっ
て、親エントリとのリンクの形態が変わるためである。
例えば、図１２（ａ）に示す探索木の主節１２００と分
岐節１２０１の間で分岐が生じ、新しいエントリ１２０
３が追加される場合を図１２（ｂ）に示す。エントリ１
２０３のインデックスはｅｃｎｔである。主節１２０４
は、符号化した入力データの文字列とその後に続く無限
長の文字列を連結することにより得られる文字列を示す
ポインタを記憶する。そのポインタは符号化した入力デ
ータの文字列を示すポインタｄｐｔｒのことであるか
ら、エントリ１２０３の主節１２０４の中に符号化した
文字列を示すポインタであるｄｐｔｒを書き込む。エン
トリ１２０３の分岐節１２０５に書き込むｏｆｆは分岐
が生じた位置までの文字数であるから、それは最長一致
文字列長ＭＬＥＮのことである。エントリ１２０３の枝
１２０６は、新しく登録された主節１２０４の中に分岐
が存在しないので、終端符号ＮＩＬが書き込まれる。エ
ントリ１２０３の枝１２０７は、次の分岐節へのリンク
を示すインデックスが書き込まれる。また、エントリ１
２０３の親エントリの主節１２００から出る枝ｍｎｄ
は、挿入されたエントリ１２０３のインデックスの値ｅ
ｃｎｔに変更される。次に、図１２（ａ）に示す探索木
の分岐節１２０１と分岐節１２０２の間で分岐が生じ、
新しいエントリ１２０８が追加される場合を図１２
（ｃ）に示す。エントリ１２０８の各構成要素１２０９
〜１２１２はエントリ１２０３のときと同様に更新され
る。図１２（ｂ）と図１２（ｃ）が異なる点は、新しい
エントリが親エントリの分岐節から派生したか主節から
派生したかの違いである。そのため、図１２（ｂ）では
親エントリのｍｎｄが変更されたが、図１２（ｃ）では
親エントリのｂｎｄが変更される。ステップ６０１で
は、辞書のエントリの追加と同時にｄｐｔｒ、ｅｃｎｔ
の値も更新する。ｄｐｔｒの値は符号化を行った最長一
致文字列の文字数ＭＬＥＮだけ増加させ、ｅｃｎｔの値
は追加したエントリの数、すなわち１だけ増加させる。
ステップ６００の判定でエントリ数が最大であったなら
ば、ステップ６０２へ進み、辞書は初期登録節を除いて
全て消去することにより初期化される。 C ）変換表の構成変換表２００は伸長処理における辞書の役割をもつ。変
換表２００は、一致長ＭＬＥＮの符号化方法の違いによ
り、異なる構成をとることができる。図７（ａ）は探索
木の根から一致長を計数したときの圧縮処理に対する変
換表であり、辞書のエントリのインデックスＩＤとデー
タメモリに記憶されている文字列へのポインタの対応が
記述されている。それに対して、図７（ｂ）は探索木の
分岐節から一致長を計数したときの圧縮処理に対する変
換表であり、ＩＤとｐｔｒ及びｏｆｆの対応が記述され
ている。すなわち、前者は符号化された一致長がコピー
すべき文字数なので、コピー元の文字列のポインタであ
るｐｔｒだけ変換表２００から求めることができればよ
い。しかし、後者は符号化された一致長に根から分岐節
までの文字数を加算しなければ、コピーすべき文字数が
得られないので、オフセット数ｏｆｆの値が必要にな
る。Ｄ）伸長処理のフロー伸長処理の中には既に述べたように３つの処理がある。
それらについて詳しく説明をする。それらの処理を説明
する図面の中で、実線の矢印は処理のフローを示し、点
線の矢印はデータの移動を示す。また、データの移動を
示す点線の矢印の上に付されている記号は、変換表２０
０、データメモリ２０４、コードメモリ２０５の各メモ
リのデータを参照するためのポインタを表わしている。
ここで、記号の定義をしておく。

【００１６】データポインタｄｐｔｒ：データメモリ２０４中の復
元データの書き込み位置を示すポインタ探索用ポインタｓｐｔｒ：文字列コピーを行うときの
コピー元の文字列を示すポインタコードポインタｃｐｔｒ：コードメモリ２０５中の圧
縮データの読み込み位置を指すポインタインデックスＩＤ：変換表２００のエントリの
インデックスエントリカウンタｅｃｎｔ：変換表２００に登録されて
いるエントリ数最初に、図８は復号化手段２０１の処理内容の詳細を表
わしたものである。まず、ステップ８００は、コードポ
インタによりコードメモリ２０５を参照し、圧縮符号を
得る。圧縮符号は、符号化手段１０２により、インデッ
クスＩＤと一致長ＭＬＥＮの組（ＩＤ，ＭＬＥＮ）が所
定の符号形式により符号化されたものである。ステップ
８０１は、所定の符号形式に基づいて圧縮符号から一意
的にＩＤとＭＬＥＮの値を復号化することができる。次
に、図９はデータ複写手段２０２の処理内容の詳細を表
わしたものである。復号化手段２０１により復号化され
たＩＤの値を用いて、ステップ９００は、変換表２００
を参照し、文字列コピーを行うためのコピー元のポイン
タｓｐｔｒとコピー文字数ＭＬＥＮを求める。前に説明
したように、一致長ＭＬＥＮの値を探索木の根から計数
する方法と分岐節から計数する方法がある。前者の方法
に対して、伸長処理は図７（ａ）の変換表を利用するの
で、ステップ９００はＩＤによりｐｔｒの値を参照す
る。そして、ｐｔｒの値を文字列コピーのためのポイン
タｓｐｔｒとして利用し、ＭＬＥＮはそのままでコピー
文字数を表わしているので手を加えずに文字列コピーに
利用する。後者の方法に対して、伸長処理は図７（ｂ）
の変換表を利用するので、ステップ９００はＩＤにより
ｐｔｒとｏｆｆの値を参照する。そして、ｐｔｒの値を
ｓｐｔｒとして利用し、ＭＬＥＮはｏｆｆと加算するこ
とによりコピー文字数として利用する。ステップ９０１
はステップ９００で得られた文字列コピー元のポインタ
とコピー文字数に基づいて、データメモリ２０４の既に
復元された文字列をデータポインタｄｐｔｒへコピーす
る。この文字列コピーの操作によりデータは伸長され、
圧縮される前のデータが復元される。ステップ９０２
は、まだ処理すべき圧縮符号がコードメモリ２０５中に
残っているかを判断し、残っていなければ伸長処理を終
了する（ＥＸＩＴ）。まだ圧縮符号が残っていれば、次
の処理へ移る。次に、図１０は変換表更新手段２０３の
処理内容の詳細を表わしたものである。まず、ステップ
１０００は、変換表２００に登録されているエントリ数
最大エントリ数に達したかを判断する。最大エントリ数
は、圧縮処理で使用した辞書１００のときと同じ値を使
用する。ステップ１０００の結果、まだ変換表にエント
リを追加登録する余裕が残っているときはステップ１０
０１へ進み、新たなエントリに値を書き込む。変換表に
書き込む値はインデックスの値がｅｃｎｔのエントリに
対して、変換表が図７（ａ）の場合、ｐｔｒの欄にデー
タ複写手段２０２で文字列をコピーしたコピー先のポイ
ンタｄｐｔｒを書き込み、変換表が図７（ｂ）の場合、
さらにｏｆｆの欄にコピー文字数であるＭＬＥＮを書き
込む。ステップ１００１では、変換表のエントリの追加
と同時にｄｐｔｒ、ｅｃｎｔの値も更新する。ｄｐｔｒ
の値は伸長を行ったコピー文字数ＭＬＥＮだけ増加さ
せ、ｅｃｎｔの値は追加したエントリの数、すなわち１
だけ増加させる。ステップ１０００の判定でエントリ数
が最大であったならば、ステップ１００２へ進み、変換
表２００は全て消去することにより初期化される。この
更新処理により、圧縮処理における辞書１００と伸長処
理における変換表２００は完全に整合がとれる。すなわ
ち、辞書１００の各エントリに記憶している文字列と変
換表２００の各エントリに記憶されている文字列が一致
したものになるということである。

【００１７】

【発明の効果】以上で説明したように、本発明のデータ
圧縮方式によれば、辞書の各エントリが無限長の文字列
を記憶しており、LZ78方式の辞書のような登録文字列長
の有限性という制限がない。そのため、本発明のデータ
圧縮方式は、２値画像データのように入力データ中に長
いデータパターンの反復が頻繁に現われるデータ構造を
もつ場合でも効率的な圧縮ができる。また、辞書更新処
理及び変換表更新処理において、１回の処理に対して１
つのエントリしか更新しないので、複数のエントリの更
新が要求されるLZ77方式に比較して高速な圧縮伸長処理
を行うことができる。また、符号化処理において、一致
長の値を分岐節から計数した文字数で表わすことによ
り、値が０付近に集中するので、一致長の持つエントロ
ピーが減少し、符号化効率が高くすることができる。ま
た、本発明のデータ伸長方式によれば、データメモリ上
のコピー元の文字列を示すポインタとコピー文字数を指
定して、データメモリ中の指定された文字列をデータメ
モリ中の書き込み位置へコピーするだけでデータの復元
ができるので、高速なデータ伸長を行うことができる。

【図面の簡単な説明】

【図１】本発明のデータ圧縮方式の基本構成図

【図２】本発明のデータ伸長方式の基本構成図

【図３】探索木の構成を説明するための図

【図４】最長一致文字列探索手段の処理を説明するた
めの図

【図５】符号化手段の処理を説明するための図

【図６】辞書更新手段の処理を説明するための図

【図７】変換表の構成を説明するための図

【図８】復号化手段の処理を説明するための図

【図９】データ複写手段の処理を説明するための図

【図１０】変換表更新手段の処理を説明するための図

【図１１】探索木の成長を説明するための図

【図１２】探索木へのエントリの追加を説明するため
の図

【図１３】一致長の符号化を説明するための図

【図１４】 LZ77方式を説明するための図

【図１５】 LZ78方式を説明するための図

【符号の説明】

１００辞書１０２符号化手段１０３辞書更新手段１０４データメモリ１０５コードメモリ

Claims

【特許請求の範囲】

【請求項１】入力データを記憶するためのデータメモ
リと、該入力データを圧縮することにより得られるコー
ドを記憶するためのコードメモリを有するデータ圧縮装
置において、上記データメモリに記憶された上記入力デ
ータの文字列を示す第一のポインタをそれぞれが記憶す
る複数のエントリを有する辞書であって、該辞書に登録
された第一のポインタを記憶するための主節と、探索木
における分岐を表わす分岐節を含む該探索木によって表
わされる辞書と、それぞれの第一のポインタによって示
される文字列の中から符号化すべき文字列と最長一致す
る、即ち、最長一致長に渡って一致する文字列を探索す
る最長一致文字列探索手段と、上記最長一致長と、該最
長一致長を示す第一のポインタを記憶するエントリのイ
ンデックスを符号化し、その結果得られる符号を上記コ
ードメモリに書き込むための符号化手段と、上記符号化
された文字列を示す上記第一のポインタ記憶するエント
リを上記辞書に追加するための辞書更新手段とを有し、
上記第一のポインタと上記最長一致長を指定することに
より上記データメモリに記憶された任意の長さの文字列
が発見され、符号化されることを特徴とするデータ圧縮
装置。
【請求項２】上記辞書の上記エントリのそれぞれは、
上記第一のポインタと、上記探索木の根から分岐分岐位
置に至る経路上に存在する文字の数、即ち、オフセット
数と、上記主節において最初に発生する分岐節へのリン
クを表わすための第２のポインタと、分岐節から次の分
岐節へのリンクを表わすための第３のポインタとを有す
ることを特徴とする請求項１記載のデータ圧縮装置。
【請求項３】上記探索木は、予め上記入力データ中に
現われる全ての文字をそれぞれ記憶するための初期登録
節であって、それぞれが、自身に記憶する文字の値に等
しいインデックスを有する初期登録節をさらに有するこ
とを特徴とする請求項１記載のデータ圧縮装置。
【請求項４】上記符号化手段は、上記最長一致長を符
号化する際に、それを上記探索木の上記根側において上
記最長一致文字列の最後の文字に最も近い分岐節から計
数された長さを用いて表わすことを特徴とする請求項１
記載のデータ圧縮装置。
【請求項５】上記符号化手段は、上記最長一致長を符
号化する際に、それを、上記探索木の上記根から計数さ
れた長さを用いて表わすことを特徴とする請求項１記載
のデータ圧縮装置。
【請求項６】圧縮符号を記憶するためのコードメモリ
と、該圧縮符号を伸長することにより得られたデータを
記憶するデータメモリを有するデータ伸長装置におい
て、それぞれがインデックスと上記データメモリに記憶
された復元された文字列を示すポインタを対応づけるエ
ントリを有する変換表と、上記コードメモリに記憶され
た符号をインデックス及び最長一致に復号化するための
復号化手段と、上記復号化されたインデックスを用いて
上記変換表を参照することにより得られたポインタと、
上記最長一致長に基づいて決定された上記データメモリ
に記憶された復元された文字列を、そのデータメモリ中
の復元データ書き込み位置にコピーするためのデータコ
ピー手段と、未登録のインデックスと上記データメモリ
に記憶された上記コピーされた文字列を示す上記ポイン
タを対応づけるエントリを前記変換表に追加するための
変換表更新手段を有することを特徴とするデータ伸長装
置。
【請求項７】上記変換表の上記エントリのそれぞれは、
インデックスと、上記データメモリに記憶された復元さ
れた文字列を示すポインタと、探索木の根側において上
記復元された文字列の最後の文字に最も近い分岐節から
計数された該復元された文字列の文字数を対応づけるこ
とを特徴とする請求項６記載のデータ伸長装置。