JPH09232967A

JPH09232967A - データ圧縮装置及び復元装置

Info

Publication number: JPH09232967A
Application number: JP8034493A
Authority: JP
Inventors: Yoshiyuki Okada; 佳之岡田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-02-22
Filing date: 1996-02-22
Publication date: 1997-09-05

Abstract

(57)【要約】【課題】ＬＺＷ符号化と復号化における辞書検索と辞書
登録を高速化して処理速度を高める。【解決手段】データ圧縮装置は、辞書を２つに分けて辞
書メモリ１８，２０とし、辞書アクセス切替部１６によ
って、一方の辞書メモリ１８を辞書検索部１０で検索中
に、他方の辞書メモリ２０に辞書登録部１４により登録
する。辞書検索部１０、辞書登録部１２及びインデック
ス符号化部１４は、パイプライン制御部２２によりパイ
プライン動作される。データ復元装置も、２つの辞書メ
モリ３６，３８に分け、一方の辞書メモリ３６を検索復
元中に、他方の辞書メモリ３８に登録を同時に行う。イ
ンデックス復号化部２４、辞書検索部２６、辞書登録部
２８、スタック蓄積部３０，３２、およびスタック出力
部３４も、パイプライン制御部２５によりパイプライン
動作される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力文字列と辞書
に既に登録した文字部分列との最長一致検索により符号
化するデータ圧縮装置及びその復元装置に関し、特に辞
書検索と辞書登録を同時に行えるようにしたデータ圧縮
装置及びその復元装置に関する。

【０００２】

【従来の技術】近年、文字コード、ベクトル情報、画像
など様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときは、データの中の冗長な
部分を省いてデータ量を圧縮することで、記憶容量を減
らしたり、速く伝送したりできるようになる。

【０００３】様々なデータを１つの方式でデータ圧縮で
きる方法としてユニバーサル符号化が提案されている。
ここで、本発明の分野は、文字コードの圧縮に限らず、
様々なデータに適用できるが、以下では、情報理論で用
いられている呼称を踏襲し、データの１ワード単位を文
字と呼び、データが任意の複数ワードにつながったもの
を文字列と呼ぶことにする。

【０００４】ユニバーサル符号の代表的な方法として、
ジブ・レンペル（Ziv-Lempel）符号がある（詳しくは、
例えば、宗像「Ziv-Lempelのデータ圧縮法」、情報処
理、Vol.26,No.1,1985年を参照のこと）。ジブ・レンペ
ル符号には、スライド辞書法と、動的辞書法（Incremen
talparsing)の２つのアルゴリズムが提案されている。
更に、スライド辞書型アルゴリズムの改良として、ＬＺ
ＳＳ符号がある（T.C. Bell,"Better OPM/L TextCompre
ssion",IEEE Trans. on Commun., Vol.COM-34,No.12, D
ec. 1986参照）。

【０００５】また動的辞書型アルゴリズムの改良として
は、ＬＺＷ（Lempel-Ziv-Welch）符号がある（T.A. Wel
ch,"A Technique for High-Performance DataCompressi
on",Computer, June 1984参照）。これらの符号のう
ち、高速処理ができることと、アルゴリズムの簡単さか
らＬＺＷ符号が記憶装置のファイル圧縮などで使われる
ようになっている。

【０００６】図１１にＬＺＷ符号における辞書の木構成
を示し、図１２にＬＺＷ符号における文字列の符号化の
原理を示す。ＬＺＷ符号化は、書き替え可能な辞書を持
ち、入力文字列（ソースデータ）中を相異なる文字列に
分け、この文字列を出現した順に番号をつけて辞書に登
録すると共に、現在入力している文字列を辞書に登録し
てある最長一致文字列の番号で表して、符号化するもの
である。

【０００７】図１３はＦＣモード（ＦＣ： First Chara
cter) として知られたＬＺＷ符号化処理の具体例であ
り、説明を簡単にするため、ａ，ｂ，ｃの３文字の場合
を例にとっている。このため符号化に使用する図１４の
辞書には、文字ａ，ｂ，ｃの各々が初期登録されてい
る。ＦＣモードのＬＺＷ符号化では、辞書の検索で不一
致となった１文字を現在の登録済み文字列に付加して辞
書に登録する。

【０００８】図１３において、入力データは左から右へ
読み込む。最初の文字ａを入力したとき、辞書には文字
ａの他に一致する文字列がないので、参照番号（インデ
ックス）を符号語として出力する。そして、拡張した文
字列ａｂに参照番号４をつけて辞書に登録する。実際の
登録は文字列１ｂの形となる。続いて２番目の文字ｂが
文字列の先頭になる。辞書には文字ｂの他に一致する文
字列がないので、参照番号２を符号語として出力し、拡
張した文字列ｂａを実際には２ａの形で参照番号５をつ
けて辞書に登録する。３番目のａが次の文字列の先頭に
なる。以下、同様にこの処理を続ける。

【０００９】図１５のフローチャートは、ＦＣモードに
おけるＬＺＷ符号化のアルゴリズムである。まずステッ
プＳ１で予め全文字につき１文字からなる文字列を初期
値として辞書に登録してから符号化を始める。ステップ
Ｓ２では入力した最初の文字Ｋを辞書検索の参照番号
（インデックス）ωとし、これを語頭文字列（prefixst
ring）とする。またＴを０とし、更に検索アドレスＬに
辞書の先頭アドレスＮをセットする。

【００１０】次にステップＳ３で入力データの次の文字
Ｋを読み込み、ステップＳ４ではステップＳ２で求めた
語頭文字列ωにステップＳ３で読み込んだ文字Ｋを加え
た文字列（ωＫ）が現在の辞書にあるか否か検索する。
ステップＳ４で文字列（ωＫ）が辞書に存在すれば、ス
テップＳ５でＴ＝０を判別してステップＳ９に進み、文
字列（ωＫ）が直前に登録された検索アドレスＬに存在
するか否かチェックする。存在しなければステップＳ６
に進んで文字列（ωＫ）を参照番号ωに置き換える。存
在する場合には、ステップＳ１０に進んで符号語code
（ω）を出力し、文字Ｋを参照番号ωとし、またＴを１
にセットする。

【００１１】続いてステップＳ７で入力データが終了か
どうかを判断した後、再びステップＳ３に戻って文字列
（ωＫ）が辞書から探せなくなるまで最大一致長の検索
を続ける。この検索中にステップＳ４で文字列（ωＫ）
が辞書に存在しなくなれば、、ステップＳ８に進んでス
テップＳ２で求めた文字Ｋの参照番号ωを符号語code
（ω）として出力する。

【００１２】また文字列（ωＫ）に新たな参照番号を付
加して辞書に登録し、ステップＳ２の入力文字Ｋを参照
番号ωに置き換えるとともに、辞書アドレスＮをインク
リメントし、更にＴを０に戻す。そしてステップＳ７の
データ終了チェックを行った後、ステップＳ３に戻って
次の文字Ｋを読み込む。図１６はＦＣモードにおけるＬ
ＺＷ復号化処理の具体例であり、説明を簡単にするた
め、ａ，ｂ，ｃの３文字の組み合わせを例にとってい
る。まず最初の入力符号は１であり、１文字ａ，ｂ，ｃ
については、図１３のように既に参照番号１，２，３と
して辞書に登録されているため、辞書の参照により符号
１に一致する参照番号の文字列ａに置き換えて出力す
る。

【００１３】次の符号２についても同様にして文字ｂに
置き換えて出力する。このとき前回処理した符号と今回
復号した最初の１文字ｂとを組み合わせた（１ｂ）に新
たな参照番号４を付加して辞書に登録する。３番目の符
号４は辞書の探索により１ｂからａｂと置き換えて文字
列ａｂを出力する。同時に前回処理した符号２と今回復
号した文字列の１番目の文字ａとの組み合わせ文字列２
ａ（＝ｂａ）を新たな参照番号５を付加して辞書に登録
する。以下同様に、この処理を繰り返す。

【００１４】ここで、図１６の復号化には次の例外処理
がある。この例外処理は、第６番目の入力符号８の復号
を生ずる。符号８は復号時に辞書に定義されておらず、
復号できない。この場合には、前回処理した符号５に前
回復号した文字列ｂａの最初の１文字ｂを加えた文字列
５ｂを求め、さらに２ａｂ，ｂａｂと置き換えられて出
力される。そして、文字列の出力語に前回の符号語５に
今回復号した文字列の文字ｂを加えた文字列５ｂに参照
番号８を付加して辞書に登録する。

【００１５】図１７のフローチャートは、ＦＣモードに
おけるＬＺＷ復号化のアルゴリズムであり、図１４の符
号化の逆の操作を行う。まずステップＳ１において符号
化と同様に予め辞書に全文字につき１文字からなる文字
列を初期値として登録してから復号を始める。ステップ
Ｓ２で最初の符号（参照番号）を読み込み、現在のCODE
をOLDcode とし、最初の符号は既に辞書に登録された１
文字の参照番号のいずれかに該当することから、入力符
号CODEに一致する文字code（Ｋ）を探し出し、文字Ｋを
出力する。なお、出力した文字（Ｋ）は後の例外処理の
ためcharにセットしておく。

【００１６】次にステップＳ３に進んで次の符号を読み
込んでCODEにNEWcode としてセットする。次にステップ
Ｓ４に進み、ステップＳ３で入力された符号CODEが辞書
に定義（登録）されているか否かチェックする。通常、
入力した符号語は前回までの処理で辞書に登録されてい
るため、ステップＳ５に進んで符号CODEに対応する文字
列code（ωＫ）を辞書から読み出し、文字列Ｋを一時的
にスタックし、参照番号code（ω）を新たなCODEとして
再度ステップＳ４に戻り、このステップＳ４，ステップ
Ｓ５の手順を再帰的に参照番号ωが１文字に至るまで繰
り返す。

【００１７】最後にステップＳ６に進んで、ステップＳ
５でスタックした文字をＬＩＬＯ（Last In Fast Out）
形式でポップアップして出力する。同時に、前回使った
符号ωと今回復元した文字列の最初の１文字Ｋを組
（ω，Ｋ）と表した文字列に新たな参照番号を付加して
辞書に登録する。なお、辞書に登録されていない符号
（符号化において直前の参照番号を参照する場合におき
る）の場合は、即ち図１６の第６番目の入力符号８の復
号で生ずる例外処理は、OLDcode をCODEに、code(OLDco
de,char)をNEWcode に戻した後にステップＳ４へ進むよ
うにする。

【００１８】図１８は、ＡＰモード（ＡＰ：All Prefi
x）として知られたＬＺＷ符号化の具体例であり、説明
を簡単にするため、ａ，ｂ，ｃの３文字の場合を例にと
っており、図１９に辞書を示す。ＡＰモードのＬＺＷ符
号化では、ＦＣモードの辞書登録に加え、直前の文字列
に不一致となるまでの現在の文字列を追加登録する。例
えば、図１８の２番目の文字ｂを入力した場合は、ＦＣ
モードでは、３番目の文字ａを入力して文字列ｂａを参
照番号５で２ａの形で登録しているが、これに加えＡＰ
モードでは、４番目の文字ｂを入力して直前の文字列ｂ
ａに不一致となった時に、現在入力している文字列ｂａ
ｂに参照番号６を付して５ｂの形で追加登録する。この
ＡＰモードによる追加登録は、参照番号９，１０，１
２，１６，１７でも行っている。

【００１９】図２０はＡＰモードにおけるＬＺＷ符号化
アルゴリズムであり、また図２１はＡＰモードにおける
ＬＺＷ復号化の具体例であり、更に、図２２はＡＰモー
ドにおけるＬＺＷ復号化アルゴリズムである。

【００２０】

【発明が解決しようとする課題】図２３（Ａ）は従来の
データ圧縮装置であり、図２３（Ｂ）に処理手順を示
す。従来のデータ圧縮装置は、入力される文字列と最長
一致する登録文字列を検索する辞書検索部１０２、辞書
検索後に最後の不一致データを加えた文字列を登録する
辞書登録部１０４、最長一致の文字列を符号化するイン
デックス符号化部１０６、及び辞書検索部１０２、辞書
登録部１０６の要求に従ってアクセスされる辞書メモリ
１０８から構成される。

【００２１】従来のデータ圧縮装置は、図２３（Ｂ）の
ように、例えば〜のように１〜４バイト目の順番に
辞書検索を行い、４バイト目で辞書登録がなかったとす
ると、で３バイト目までの文字列の参照番号に４バイ
ト目の文字を加えた文字列に新たな参照番号を付して辞
書に登録し、でインデックス符号化出力を行い、以
下、これを繰り返す。

【００２２】しかし、このような従来のデータ圧縮装置
にあっては、辞書検索と辞書登録を逐次行わなければな
らないため、高速処理に適していない。即ち、一組の文
字列に対する辞書検索、辞書登録、及びインデックス符
号化の過程を一通り経過した後に、次の組の文字列の処
理を行うというバッチ・シリアル処理（プロセッサによ
る通常のプログラム動作に相当）である。

【００２３】また辞書検索と辞書登録は必ず同じ辞書メ
モリ１０８をアクセスするため、原理的に同時にアクセ
スするのが困難で、結果としてバッチ・シリアル処理を
余儀無くされ、高速処理に適していない。図２４（Ａ）
は、従来のデータ復元装置であり、図２４（Ｂ）に処理
手順を示す。図２４（Ａ）の従来のデータ復元装置は、
入力されたインデックスを復号化するインデックス復号
化部１１０、復号化したインデックスから文字列を逆に
検索する辞書検索部１１２、辞書検索により復元した文
字列をスタック蓄積し先入れ後出し（first in last ou
t ）により順序を並べ替えて文字列を出力するスタック
蓄積出力部１１６、文字列を登録する辞書登録部１１
４、および辞書検索部１１２又は辞書登録部１１４の要
求に従いアクセスされる辞書メモリ１１８から構成され
る。

【００２４】この従来のデータ復元装置は、図２４
（Ｂ）の例えば〜のように、で入力したインデッ
クス（符号）について、の辞書検索で文字が復元され
るとでスタック蓄積し、これを〜のように繰り返
す。そしてで復元した文字列の辞書登録を行った後、
スタックした文字を順次出力し、以下、これを繰り返
す。しかし、このような従来のデータ復元装置にあって
も、辞書検索、スタック蓄積および辞書登録を逐次行わ
なければならないため、高速処理に適していない。即
ち、１つのインデックスに対するインデックス復号化、
辞書検索、スタック蓄積と出力、および辞書登録という
復号化の過程を一通り経過した後に、次の組のインデッ
クスの処理を行うというバッチ・シリアル処理（プロセ
ッサによる通常のプログラム動作に相当）である。

【００２５】また辞書検索と辞書登録は必ず同じ辞書メ
モリ１１８をアクセスするため、原理的に同時にアクセ
スするのが困難で、結果としてバッチ・シリアル処理を
余儀無くされ、高速処理に適していない。本発明は、こ
のような従来の問題点に鑑みてなされたもので、入力さ
れる文字列と辞書に既に登録した文字列との最長一致検
索により符号及びその復号化での辞書検索と登録を高速
化して処理速度を高めるようにしたデータ圧縮装置及び
その復元装置を提供することを目的とする。

【００２６】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明は、図１（ａ）の入力される文字
列と辞書に既に登録した文字列との最長一致検索により
符号化を行うデータ圧縮装置を対象とする。データ圧縮
装置は、辞書検索部１０により入力される文字列と辞書
に既に登録した文字列との最長一致を検索し、この検索
された入力文字列に最長一致する登録済み文字列のイン
デックス（辞書番号）をインデックス符号化部１４で符
号化する。同時に、辞書登録部１４が、入力文字列に最
長一致する登録済み文字列のインデックスに入力文字列
を加えた文字列を新たなインデックスを付して辞書に登
録する。

【００２７】このようなデータ圧縮装置につき本発明に
あっては、辞書を２つに分けられた一対の辞書メモリ１
８，２０とし、辞書アクセス切替部１６によって、一方
の辞書メモリ１８（又は２０）を辞書検索部１０で検索
中に、他方の辞書メモリ２０（又は１８）に辞書登録部
１２により登録を同時に行うことを特徴とする。更に、
辞書検索部１０、辞書登録部１２及びインデックス符号
化部１４を、パイプライン動作により並列処理させるパ
イプライン制御部２２を設け、高速化を図る。辞書検索
部１０および辞書登録部１２は、内部ハッシュにより各
辞書メモリ１８，２０のアクセスを行う。この場合、辞
書検索部１０は、辞書登録部１２による直前の登録を、
次の検索に使用しない。

【００２８】一対の辞書メモリ１８，２０は、図１
（Ｂ）のように、辞書の木構造での枝の深さを示す複数
階層につき、奇数階層と偶数階層とに分けられた奇数階
層辞書メモリ１８と偶数階層辞書メモリ２０とする。こ
の場合、辞書検索部１０と辞書登録部１２が同じ階層辞
書メモリにアクセスする場合、辞書登録部１０による登
録を優先させる。

【００２９】このように本発明のデータ圧縮装置は、図
１（Ｂ）のＬＺＷ符号の木構造から見て、先頭の文字か
ら奇数番目の文字列と偶数番目の文字列を別々の辞書メ
モリ１８，２０に登録する。そして奇数番目の辞書メモ
リ１８に文字列を新規に登録する際、次に符号化すべき
新たな文字列を偶数番目の辞書メモリ２０から同時に検
索する。

【００３０】これによって登録と検索を並行して行うこ
とができ、高速処理ができる。ここで、１文字目は、辞
書メモリ１８，２０に初期登録されているため、最初の
検索は必ず偶数文字列から始まる。更に、本発明のデー
タ圧縮装置は、辞書検索、辞書登録、インデックス符号
化の各々をパイプラインで並列処理とすることで、更に
高速処理とすることができる。

【００３１】また本発明は、図１（Ｃ）のように、入力
される符号により辞書のインデックスを復号して辞書に
登録した文字列を復元するデータ復元装置を対象とする
もので、インデックス復号化部２４により符号を入力し
て辞書のインデックスを復号し、復号したインデックス
を使用した辞書検索部２６による辞書の検索で文字を復
元する。

【００３２】辞書検索部２６で復元された文字はスタッ
ク蓄積部３０，３２にスタックされ、その後、スタック
出力部３４がスタック蓄積部３０，３２に蓄積された複
数の文字を選択的に出力して元の文字列を復元する。こ
の時、辞書登録部２８は、検索済みインデックスに直前
の入力文字列を加えた文字列を、新たなインデックスを
付して辞書に登録する。

【００３３】このようなデータ復元装置についても、本
発明は、辞書を２つの辞書メモリ３６，３８に分け、一
方の辞書メモリ３６（又は３８）を検索復元中に、他方
の辞書メモリ３８（又は３６）に登録を同時に行う。更
に本発明のデータ復元装置は、インデックス復号化部２
４、辞書検索部２６、辞書登録部２８、スタック蓄積部
３０，３２、およびスタック出力部３４を、パイプライ
ン動作により並列処理させるパイプライン制御部２５を
設けたことを特徴とする。

【００３４】この場合も、辞書検索部２６および辞書登
録部２８は、内部ハッシュにより各辞書メモリのアクセ
スを行う。また辞書検索部２６は、辞書登録部２８によ
る直前の登録を、次の検索に使用しない。復号に使用す
る一対の辞書メモリ３６，３８は、辞書の木構造での枝
の深さを示す複数階層につき、奇数階層と偶数階層とに
分けられた奇数階層辞書メモリ３６と偶数階層辞書メモ
リ３８とする。更に辞書検索部２６と辞書登録部２８が
同じ階層辞書メモリアクセスする場合、辞書登録部によ
る登録を優先させる。

【００３５】このように本発明によるデータ復元装置で
は、インデックス復号化、辞書検索、スタック蓄積、ス
タック出力、辞書登録の各処理をパイプラインで高速に
並列処理する。また復元した文字のスタック蓄積とスタ
ック出力を、複数のスタック蓄積部３０，３２により交
互に行うことで並列化し、高速処理を実現している。

【００３６】

【発明の実施の形態】図２は本発明のデータ圧縮装置の
ブロック図である。図２において、本発明のデータ圧縮
装置は辞書検索部１０、辞書登録部１２、インデックス
符号化部１４、辞書アクセス切替部１６、奇数階層辞書
メモリ１８、偶数階層辞書メモリ２０及びパイプライン
制御部２２で構成される。辞書検索部１０は、入力され
る文字列Ｋ１，Ｋ２，・・・と最長一致する辞書の登録
文字列を検索する。

【００３７】具体的には、辞書アクセス切替部１６を介
して奇数階層辞書メモリ１８または偶数階層辞書メモリ
２０のリードによる一致検索を行う。辞書登録部１２
は、辞書検索部１０による検索終了時に、検索できた最
長一致する登録文字列のインデックスωに最後の不一致
文字Ｋを加えた文字列ωＫを辞書に登録する。インデッ
クス符号化部１４は、辞書検索部１０で得られた最長一
致する文字列のインデックスを符号化する。辞書検索部
１０及び辞書登録部１２に対し設けられた２つの奇数階
層辞書メモリ１８と偶数階層辞書メモリ２０は、図３に
示す辞書構成を有する。

【００３８】図３は、ＬＺＷ符号の木構造から見た奇数
階層辞書メモリ１８と偶数階層辞書メモリ２０の取出し
方である。ＬＺＷ符号の木構造において、まず先頭文字
となる第１階層には、例えばインデックス０〜２５５で
示す２５６種類の文字が初期登録されている。この第１
階層の先頭文字に対し、ＬＺＷ符号化における辞書検索
と辞書登録により第１階層、第２階層、第３階層、第４
階層というように、枝の深さの木構造が作り出される。

【００３９】このような木構造について本発明にあって
は、奇数階層となる第１階層、第３階層、第５階層、・
・・の文字列を奇数階層辞書メモリ１８に登録し、第２
階層、第４階層、第６階層、・・・の文字列を偶数階層
辞書メモリ２０に登録する。このように辞書を奇数階層
辞書メモリ１８と偶数階層辞書メモリ２０に分けている
場合には、第１階層の先頭文字は初期登録により予め奇
数階層辞書メモリ１８に登録されていることから、辞書
検索部１０による辞書検索は、第２階層から検索すれば
よく、したがって辞書検索は必ず偶数階層辞書メモリ２
０から開始する。

【００４０】このため辞書登録部１２で奇数階層辞書メ
モリ１８に新規に文字列を登録する際には、辞書検索部
１０は次に符号化すべき新たな文字列を偶数階層辞書メ
モリ２０から同時に検索することができ、登録と検索の
並行処理により処理速度を向上できる。尚、偶数階層辞
書メモリ２０に文字列を新規に登録する際には、次に符
号化すべき新たな文字列の検索は同じ偶数階層辞書メモ
リ２０から開始しなければならないが、この場合には辞
書検索は休止する。

【００４１】更に図２の実施形態にあっては、パイプラ
イン制御部２２によって辞書検索部１０、辞書登録部１
２及びインデックス符号化部１４の各処理過程をパイプ
ライン動作させることで並列処理することができる。こ
のため、従来のバッチ処理に比べ処理速度を原理的には
３倍に向上させることができる。図４は図２のデータ圧
縮装置におけるＦＣモードのＬＺＷ符号化における辞書
検索、辞書登録、インデックス符号化のタイムチャート
であり、〜(10)サイクルを例にとって示している。こ
の図４のＦＣモードのＬＺＷ符号化にあっては、辞書検
索を完全ハッシュにより行っており、これによって入力
データ１バイトにつき１サイクルで処理を完了する。

【００４２】まずサイクルで１バイト目の文字を入力
し、偶数階層辞書メモリ２０の参照で偶数階層、即ち第
２階層からの辞書検索を開始し、一致する文字列を検索
する。続いてサイクルで２バイト目の文字を入力し、
第３階層となる奇数階層における奇数階層辞書メモリ１
８を対象とした検索を行って、一致した文字列を得る。
続いてサイクルにあっては３バイト目の文字を入力
し、再び第４階層となる偶数階層に戻って、偶数階層辞
書メモリ２０の検索で、一致する文字列を検索する。
サイクルの４バイト目については、第５階層となる奇数
階層であることから、奇数階層辞書メモリ１８を検索す
る。

【００４３】この４バイト目の奇数階層辞書メモリ１８
の検索で一致する文字列が得られなかったとする。続い
てサイクルの５バイト目については、辞書検索は再び
第２階層となる偶数階層からの一致検索となる。同時に
辞書登録としてサイクルの４バイトで、奇数階層にお
ける検索で文字列がなかったことから、奇数階層辞書メ
モリ１８に対する登録を行う。

【００４４】更に、サイクルで得られた３バイト目ま
での一致文字列のインデックスωに不一致となった４バ
イト目の文字Ｋを加えた文字列ωＫをインデックス符号
化する。次の〜にあっては、５バイト目、６バイト
目にあっては、偶数階層辞書メモリ２０及び奇数階層辞
書メモリ１８の検索で文字列の一致が得られるが、７バ
イト目における偶数階層辞書メモリ２０の検索で一致検
索が得られなかったとする。

【００４５】この場合には、次のサイクルで文字列検
索ができなかった偶数階層辞書メモリ２０に対する辞書
登録を行う。しかし、新たな８バイト目の文字列の辞書
検索は同じ偶数階層辞書メモリ２０から行わなければな
らないため、辞書登録と同時の辞書検索はできず、辞書
検索は休みとしている。もちろん、偶数辞書登録に並行
して７バイト目までの辞書検索で得られた６バイト目の
一致文字列のインデックスと７バイト目の不一致文字を
合わせた文字列のインデックス符号化が行われる。

【００４６】図５は、図４のＦＣモードにおける内部ハ
ッシュによる辞書検索と辞書登録の手順の一例である。
図５において、まず最初のインデックスω１と次の文字
Ｋ２からハッシュ値Ｈ（ω１，Ｋ２）によりハッシュア
ドレスω２を作り、偶数階層辞書メモリ２０を検索す
る。この偶数階層辞書メモリ２０の検索でハッシュアド
レスω２に登録している文字列（ω１，Ｋ２）と入力文
字列（ω１，Ｋ２）が一致すれば、次に検索したアドレ
スω２と次の文字Ｋ３からハッシュ値Ｈ（ω２，Ｋ３）
を作り、奇数階層辞書メモリ１８を検索する。

【００４７】以下同様に、次の入力文字Ｋ４及びＫ５に
ついて同様な動作を行い、（ω４，Ｋ５）の組合わせの
文字列が奇数階層辞書メモリ１８になかったので、この
時点で辞書検索を終了する。続いて奇数階層辞書メモリ
１８に対し文字列（ω４，Ｋ５）の組のハッシュ値Ｈ
（ω４，Ｋ５）を作って、インデックスω５に（ω４，
Ｋ５）の組を登録する。

【００４８】同時に偶数階層辞書メモリ２０にあって
は、新たなインデックスと文字の組合せω１Ｋ２による
検索を開始する。このように内部ハッシュにより検索と
登録を同時に行うことでＬＺＷ符号化の高速処理を実現
する。図６は図２のデータ圧縮装置について、ＡＰモー
ドにおける辞書検索、辞書登録及びインデックス符号化
のパイプライン動作を示している。ＡＰモードのＬＺＷ
符号化においても、〜サイクルで１〜４バイト目の
文字のバイト単位の入力を行い、偶数階層辞書メモリ２
０と奇数階層辞書メモリ１８の順番で交互に辞書検索を
行う。

【００４９】この場合、サイクルの４バイト目の奇数
階層辞書メモリ１８の検索で文字列が存在せず、次の
サイクルの５バイト目で新たな文字列の符号化を開始す
る。この５バイト目の辞書検索の際には、最初であるこ
とから偶数階層辞書メモリ２０の辞書検索となり、同時
に４バイト目の文字列不一致が奇数階層辞書メモリ１８
で起きていたことから奇数階層辞書メモリ１８に対する
辞書登録を並行して行う。また４バイト目までの辞書検
索で得られたインデックスと不一致文字の組の文字列を
インデックス符号化する。

【００５０】続いて〜サイクルで５〜７バイト目の
文字列の検索が同様にして行われるが、ＡＰモードにあ
っては、６バイト目及び７バイト目のサイクルに並
行して、前回符号化が済んだ文字列について辞書に追加
登録を行う。この場合の追加登録は、サイクルの新規
登録が奇数階層辞書メモリ１８であったことから次の追
加登録は偶数階層辞書メモリ２０に対する追加登録とな
り、辞書検索における６バイト目の奇数階層辞書メモリ
１８の辞書検索と並行して行うことができる。またサ
イクルの辞書登録は奇数階層辞書メモリ１８に切り替わ
り、７バイト目の偶数階層辞書メモリ２０の辞書検索に
並行して行うことができる。そしてサイクルで７バイ
ト目の偶数階層辞書メモリ２０の検索で文字列の不一致
となった場合には、サイクルで、文字列不一致となっ
た偶数階層辞書メモリ２０に対する辞書登録を行う。

【００５１】このとき次の８バイト目からの新たな文字
列の符号化については、同じ偶数階層辞書メモリ２０の
辞書検索となることから、辞書検索を１回休む。サイ
クルからは８バイト目となる新たな文字列の辞書検索で
あり、最初は偶数階層辞書メモリ２０の辞書検索となる
ため、符号化が済んだ５〜７バイト目の文字列の追加登
録をサイクルで同時に奇数階層メモリ１８に対し行
う。

【００５２】図７は、図６のＡＰモードにおける内部ハ
ッシュによる本発明の辞書検索と辞書登録の手順の具体
例である。まず最初のインデックスω１と次の文字Ｋ２
とからハッシュ値Ｈ（ω１，Ｋ２）を作り、偶数階層辞
書メモリ２０から検索を開始し、文字（Ｋ３，Ｋ４，Ｋ
５）と一致検索し、文字Ｋ５による奇数階層辞書メモリ
１８の検索で未登録となって検索が終了したとする。

【００５３】このような辞書検索に並行して、まず偶数
階層辞書メモリ２０の検索開始と同時に奇数階層辞書メ
モリ１８に対し、前回検索終了となった文字列（ω４，
Ｋ５）の組合せの文字列を登録する。次の奇数階層辞書
メモリ１８に対するインデックスω２と文字Ｋ３による
辞書検索に並行して、偶数階層辞書メモリ２０に対して
は、直前に登録したインデックスω５に直前の文字Ｋ２
を加えた文字列（ω５，Ｋ２）をハッシュ値Ｈ（ω５，
Ｋ２）から求めたアドレスω６を使用して追加登録す
る。

【００５４】このような追加登録は偶数階層辞書メモリ
２０，奇数階層辞書メモリ１８に対する検索と同時に交
互に行われ、文字列（ω４，Ｋ５）による奇数階層辞書
メモリ１８の検索で未登録となる追加登録（ω７，Ｋ
４）までを行う。このようにＡＰモードにあっては、辞
書検索と辞書登録を切り替えながら同時に行うことでＬ
ＺＷ符号化の高速処理が実現できる。

【００５５】図８は本発明のデータ復元装置のブロック
図である。図８においてデータ復元装置は、インデック
ス復号化部２４、辞書検索部２６、辞書登録部２８、二
組のスタック蓄積部３０，３２、セレクタとして機能す
るスタック出力部３４、辞書アクセス切替部３５、奇数
階層辞書メモリ３６及び偶数階層辞書メモリ３８で構成
される。

【００５６】インデックス復号化部２４は、入力された
符号からインデックスを復元する。辞書検索部２６は、
復号化されたインデックスによる辞書の参照で逆に文字
列を検索する。奇数階層辞書メモリ３６及び偶数階層辞
書メモリ３８は、図３のデータ圧縮装置の場合と同じＬ
ＺＷ符号の木構造の奇数階層と偶数階層のそれぞれの文
字登録を行う。

【００５７】奇数階層辞書メモリ３６及び偶数階層辞書
メモリ３８は、辞書アクセス切替部３５により辞書検索
部２６及び辞書登録部２８に対するアクセス経路を切り
替えることができる。辞書検索部２６による奇数階層辞
書メモリ３６と偶数階層辞書メモリ３８の検索は、イン
デックス復号化部２４で復号されたインデックスが奇数
階層か偶数階層かを識別して検索対象を決定する。

【００５８】スタック蓄積部３０，３２は、辞書検索部
２６による辞書の検索で復元された文字列を符号単位に
交互にスタック蓄積する。選択部としてのスタック出力
部３４は、スタック蓄積部３０，３２にスタックされた
文字列をfirst in lastout （先入れ後出し）により順
序を並べ替えて、文字列を符号単位に交互に出力する。

【００５９】辞書登録部２８は、辞書検索部２６による
入力符号の文字列への復元が終了するごとに、前回復元
した文字列のインデックスに今回復元した文字列の先頭
文字を加えた文字列の登録を行う。更にパイプライン制
御部２５が設けられ、インデックス復号化部２４、辞書
検索部２６、辞書登録部２８、スタック蓄積部３０，３
２、及びスタック出力部３４の各々の復号化の処理過程
をパイプライン動作により並列的に処理する。

【００６０】図９は図８のデータ復元装置におけるＦＣ
モードにおけるＬＺＷ復号化を示している。まずサイ
クルで１コード目の符号を入力してインデックス復号化
し、次のサイクルで２コード目の符号を入力して復号
化すると同時に、辞書検索のため１コード目の復号化に
より得られたインデックスからＬＺＷ木構造における階
層を認識し、この場合、偶数階層であったとする。

【００６１】このためサイクルで認識した偶数階層に
対応する偶数階層辞書メモリ３８のインデックスを参照
し、得られた文字を次のサイクルで例えばスタック蓄
積部３０にスタックする。同時にサイクルでは、サ
イクルで得られたインデックスにより奇数階層辞書メモ
リ３６を参照し、得られた文字列を次のサイクルでス
タック蓄積し、同時にサイクルでは、サイクルで得
られたインデックスによる偶数階層辞書メモリ３８の検
索を行う。

【００６２】そしてサイクルでの辞書登録で未登録と
なった場合には、サイクルで、サイクルにおいて復
号化している２コード目のインデックスの階層を奇数階
層と認識する。また最後の復元文字のスタックを行う。
更にサイクルでは、３コード目の符号のインデックス
復号化が行われる。次のサイクルでは、奇数階層と判
別された２コード目の符号によるインデックスを使用し
た奇数階層辞書メモリ３６の辞書検索となるが、この場
合、サイクルでの検索終了に伴う奇数階層辞書メモリ
３６に対する辞書登録が行われることから、辞書検索は
１回休みとしている。

【００６３】これに対し(11)サイクルにあっては、奇数
階層辞書メモリ３６の検索と同時に偶数階層辞書メモリ
３８に対する辞書登録が並行して行われており、検索と
登録を交互に同時に行うことで高速化が図られている。
またスタック蓄積部３０，３２を交互に使用して蓄積と
出力を行うことで、復元処理を高速化している。図１０
は、図８のデータ復元装置におけるＡＰモードでのイン
デックス復号化、辞書検索、辞書登録、スタック蓄積及
びスタック出力のパイプライン処理である。ＡＰモード
にあっては、サイクルで復号した１コード目の符号の
インデックスについて、サイクルで辞書検索が未登録
となった後のサイクルにおける辞書登録に続いて、
，サイクルで追加登録を行っている点が相違する。

【００６４】このＡＰモードにあっても、奇数階層辞書
メモリ３６と偶数階層辞書メモリ３８に対する検索と登
録を交互に同時に行うことで高速化でき、更にスタック
蓄積部３０，３２を交互に切り替えて蓄積と蓄積出力を
行うことで高速化を実現できる。

【００６５】

【発明の効果】以上説明してきたように本発明によれ
ば、入力文字列と辞書に登録された文字列との最長一致
検索によるＬＺＷ符号に使用する辞書について、木構造
の奇数階層と偶数階層により２つの辞書に分けて奇数文
字列と偶数文字列の辞書を別々に持たせたことで、辞書
の検索と登録を交互に同時に行うことができ、データ圧
縮及びデータ復元の高速処理を実現することができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明のデータ圧縮装置のブロック図

【図３】図２で使用するＬＺＷ符号の辞書の木構造から
見た奇数階層と偶数階層別の辞書メモリの説明図

【図４】図２のＦＣモードのＬＺＷ符号化におけるパイ
プライン動作の説明図

【図５】ＦＣモードのＬＺＷ符号化について内部ハッシ
ュによる辞書検索と辞書登録の各手順の説明図

【図６】図２のＡＰモードのＬＺＷ符号化におけるパイ
プライン動作の説明図

【図７】ＡＰモードのＬＺＷ符号化について内部ハッシ
ュによる辞書検索と辞書登録の各手順の説明図

【図８】本発明のデータ復元装置のブロック図

【図９】図８のＦＣモードのＬＺＷ復号化におけるパイ
プライン動作の説明図

【図１０】図８のＡＰモードのＬＺＷ復号化におけるパ
イプライン動作の説明図

【図１１】従来のＬＺＷ符号における辞書の木構造の説
明図

【図１２】ＬＺＷ符号における文字列の符号化の説明図

【図１３】ＦＣモードのＬＺＷ符号化の具体例の説明図

【図１４】図１３の符号化で使用する辞書の説明図

【図１５】ＦＣモードのＬＺＷ符号化アルゴリズムのフ
ローチャート

【図１６】ＦＣモードにおけるＬＺＷ復号化の具体例の
説明図

【図１７】ＦＣモードにおけるＬＺＷ復号化アルゴリズ
ムのフローチャート

【図１８】ＡＰモードのＬＺＷ符号化の具体例の説明図

【図１９】図１７の符号化で使用する辞書の説明図

【図２０】ＡＰモードのＬＺＷ符号化アルゴリズムのフ
ローチャート

【図２１】ＡＰモードにおけるＬＺＷ復号化の具体例の
説明図

【図２２】ＡＰモードにおけるＬＺＷ復号化アルゴリズ
ムのフローチャート

【図２３】ＬＺＷ符号化をシリアルバッジ処理を行う従
来のデータ圧縮装置のブロック図

【図２４】ＬＺＷ復号化をシリアルバッジ処理を行う従
来のデータ復元装置のブロック図

【符号の説明】

１０，２６：辞書検索部１２，２８：辞書登録部１４：インデックス符号化部１６：辞書アクセス切替部１８，３６：奇数階層辞書メモリ２０，３８：偶数階層辞書メモリ２２，２５：パイプライン制御部２４：インデックス復号化部３０，３２：スタック蓄積部３４：スタック出力部

Claims

【特許請求の範囲】

【請求項１】入力される文字列と辞書に既に登録した文
字列との最長一致を検索する辞書検索部と、前記辞書検索部で検索された入力文字列に最長一致する
登録済み文字列のインデックスを符号化するインデック
ス符号化部と、前記入力文字列に最長一致する登録済み文字列のインデ
ックスに入力文字列を加えた文字列を新たなインデック
スを付して前記辞書に登録する辞書登録部と、を備え、
入力される文字列と辞書に既に登録した文字部分列との
最長一致検索により符号化を行うデータ圧縮装置に於い
て、前記辞書を構成する２つに分けられた一対の辞書メモリ
と、前記一方の辞書メモリを前記辞書検索部で検索中に、他
方の辞書メモリに前記辞書登録部により文字列の登録を
同時に行う辞書アクセス切替部と、を設けたことを特徴
とするデータ圧縮装置。
【請求項２】請求項１記載のデータ圧縮装置に於いて、
更に、前記辞書検索部、辞書登録部及びインデックス符
号化部を、パイプライン動作により並列処理させるパイ
プライン制御部を設けたことを特徴とするデータ圧縮装
置。
【請求項３】請求項１記載のデータ圧縮装置に於いて、
前記辞書検索部および前記辞書登録部は、内部ハッシュ
により前記各辞書メモリのアクセスを行うことを特徴と
するデータ圧縮装置。
【請求項４】請求項１記載のデータ圧縮装置に於いて、
前記一対の辞書メモリは、辞書の木構造での枝の深さを
示す複数階層につき、奇数階層と偶数階層とに分けられ
た奇数階層辞書メモリと偶数階層辞書メモリであること
を特徴とするデータ圧縮装置。
【請求項５】請求項４記載のデータ圧縮装置に於いて、
前記辞書検索部と辞書登録部が同じ階層辞書メモリにア
クセスする場合、前記辞書登録部による登録を優先させ
ることを特徴とするデータ圧縮装置。
【請求項６】符号を入力して辞書のインデックスを復号
するインデックス復号化部と、インデックス復号化部で復号したインデックスによる辞
書の検索で文字を復元する辞書検索部と、前記辞書検索部で復元された文字をスタックするスタッ
ク蓄積部と、前記スタック蓄積部に蓄積された複数の文字を選択的に
出力して元の文字列を復元するスタック出力部と、検索済みインデックスに直前の入力文字列を加えた文字
列を、新たなインデックスを付して前記辞書に登録する
辞書登録部と、を備え、入力される符号から復号したイ
ンデックスによる辞書の検索により文字字列を復元する
データ復元装置に於いて、前記辞書を構成する２つに分けられた一対の辞書メモリ
と、一方の辞書メモリを検索復元中に、他方の辞書メモリに
登録を同時に行う辞書アクセス切替部と、を設けたこと
を特徴とするデータ復元装置。
【請求項７】請求項６記載のデータ復元装置に於いて、
前記インデックス復号化部、辞書検索部、辞書登録部、
スタック蓄積部、およびスタック出力部を、パイプライ
ン動作により並列処理させるパイプライン制御部を設け
たことを特徴とするデータ復元装置。
【請求項８】請求項６記載のデータ復元装置に於いて、
前記辞書検索部および前記辞書登録部は、内部ハッシュ
により前記各辞書メモリのアクセスを行うことを特徴と
するデータ復元装置。
【請求項９】請求項６記載のデータ復元装置に於いて、
前記一対の辞書メモリは、辞書の木構造での枝の深さを
示す複数階層につき、奇数階層と偶数階層とに分けられ
た奇数階層辞書メモリと偶数階層辞書メモリであること
を特徴とするデータ復元装置。
【請求項１０】請求項９記載のデータ復元装置に於い
て、前記辞書検索部と辞書登録部が同じ階層辞書メモリ
にアクセスする場合、前記辞書登録部による登録を優先
させることを特徴とするデータ復元装置。