JP2952068B2

JP2952068B2 - データ圧縮及び復元方式

Info

Publication number: JP2952068B2
Application number: JP3056706A
Authority: JP
Inventors: 広隆千葉; 佳之岡田; 茂吉田; 泰彦中野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-03-20
Filing date: 1991-03-20
Publication date: 1999-09-20
Anticipated expiration: 2014-09-20
Also published as: JPH0683575A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユバーサル符号化の一
種である増分分解型の改良としてのＬＺＷ符号化による
デ−タ圧縮及び復元方式に関する。

【０００２】近年、文字コ−ド、ベクトル情報、画像な
ど様々な種類のデ−タがコンピュ−タで扱われるように
なっており、扱われるデ−タ量も急速に増加してきてい
る。大量のデ−タを扱うときは、デ−タの中の冗長な部
分を省いてデ−タ量を圧縮することで、記憶容量を減ら
したり、速く伝送したりできるようになる。このような
様々なデ−タを１つの方式でデ−タ圧縮できる方法とし
てユニバ−サル符号化が提案されている。

【０００３】ここで、本発明の分野は、文字コ−ドの圧
縮に限らず、様々なデ−タに適用できるが、以下では、
情報理論で用いられている呼称を踏襲し、デ−タの１ワ
ード単位を文字と呼び、デ−タが複数ワードツながった
ものを文字列と呼ぶことにする。

【０００４】ユニバ−サル符号の代表的な方法として、
ジブーレンペル（Ziv-Lempel）符号がある（詳しくは、
例えば、宗像「Ziv-Lempelのデ−タ圧縮法」、情報処
理、Vol.26,No.1,1985年を参照のこと）。ジフーレンペ
ル符号では、ユニバ−サル型増分分解型（Incremental parsing ）の２つのアルゴリズムが提案されている。

【０００５】更に、ユニバ−サル型アルゴリズムの改良
として、ＬＺＳＳ符号がある（T.C.Bell, “Better OPM
/L Text Compression ”,IEEE Trans. on Commun.,Vol.
COM-34,No.12,DEC.1986 参照）。また、増分分解型アル
ゴリズムの改良としては、ＬＺＷ（Lempel-Ziv-Welch）
符号がある（T.A.Welch,“A Technique for High-Perfo
rmance Data Compression ”,Computer,June 1984 参
照）。

【０００６】これらの符号の内、高速処理ができること
と、アルゴリズムの簡単さからＬＺＷ符号が記憶装置の
ファイル圧縮などで使われるようになっている。

【０００７】

【従来の技術】従来のＬＺＷ符号による符号化処理フロ
ーを第１０図に示し、復号化処理フローを図１１に示
す。まずＬＺＷ符号化処理は、書き替え可能な辞書を持
ち、入力文字列の中を相異なる文字列（部分列）に分
け、この文字列を出現した順に参照番号を付けて辞書に
登録すると共に、現在入力している文字列を、辞書に登
録してある最長一致文字列の参照番号で表して符号化す
るものである。

【０００８】図１２にＬＺＷ符号化の説明図を示すと共
に図１４にＬＺＷ復号化の説明図を示し、更に図１３に
符号化及び復号化時に作成される辞書構成例を示す。
尚、図１２，１３，１４にあっては説明を簡単にするた
め、ａｂｃの３文字の組合せからなるデ―タを圧縮、復
元する場合の例を取り上げている。図１０のＬＺＷ符号
化処理では、まずステップＳ１で予め辞書に全文字につ
き一文字からなる文字列を初期値として登録してから符
号化を始める。

【０００９】ステップＳ１の符号化は入力した最初の文
字Ｋにより辞書を検索して参照番号ωを求め、これを語
頭文字列とする。次にステップＳ２で入力データの次の
文字Ｋを読込み、ステップＳ３で文字入力が終了したか
否かチェックした後、ステップＳ４に進んでステップＳ
１で求めた語頭文字列ωにステップＳ２で読込んだ文字
Ｋを加えた拡張文字列（ωＫ）が辞書にあるか否か探
す。

【００１０】ステップＳ４で文字列（ωＫ）が辞書にな
ければ、ステップＳ６に進んでステップＳ１で求めた文
字Ｋの参照番号ωを符号語code（ω）として出力し、ま
た文字列（ωＫ）に新たな参照番号を付加して辞書に登
録し、更にステップＳ２の入力文字Ｋを参照番号ωに置
き換えると共に辞書アドレスｎをインクリメントしてス
テップＳ２に戻って次の文字Ｋを読み込む。

【００１１】一方、ステップＳ４で文字列（ωＫ）が辞
書にあればステップＳ５で文字列（ωＫ）を参照番号ω
に置き換え、再びステップＳ２に戻ってステップＳ４で
文字列（ωＫ）が辞書から探せなくなるまで最大一致長
の検索を続ける。

【００１２】図１２，１３を参照してＬＺＷ符号化を具
体的に説明すると次のようになる。まず図１２の入力デ
ータinput は左から右へと読む。最初の文字ａを入力し
た時、辞書には文字ａの他に一致する文字列がないの
で、OUTPUT CODE １（参照番号ω）を符号語して出力す
る。そして文字ａを語頭文字列ωとする。次に２番目の
文字ｂを入力したとすると、この入力文字を語頭文字列
ωに加えた拡張文字列ωＫ＝ａｂは辞書にないことか
ら、文字ｂのOUTPUT CODE ２を符号語として出力する。
そして、拡張文字列ωＫ＝ａｂに参照番号４を付けて辞
書に登録する。実際の辞書登録は図１３の右側に示すよ
うに文字列１ｂとして登録される。そして文字ｂが語頭
文字列ωとなる。

【００１３】続いて３番目の文字ａを入力したとする
と、文字ｂに語頭文字列ωを加えた拡張文字列ωＫ＝ｂ
ａ＝２ａは辞書にないことから、文字ａのOUTPUT CODE
1 を符号語として出力した後、拡張文字列ωＫ＝ｂａを
２ａで表わし、参照番号５を付けて辞書に登録する。そ
して文字ａが新たな語頭文字列ωとなる。４番目の入力
文字ｂについては拡張文字列ωＫ＝ａｂは１ｂの符号語
４として既に辞書に登録されているので、文字列ωＫを
新たな語頭文字列ωとし、５番目の文字ｃを入力して拡
張文字列ωＫ＝４ｃ＝ａｂｃを作る。この拡張文字列ω
Ｋ＝ａｂｃは辞書に登録されていないことから、文字列
ａｂ＝１ｂのOUTPUT CODE4 を符号語として出力し、拡
張文字列ωＫ＝ａｂｃを辞書に４ｃの形で符号語６とし
て登録する。以下同様に、この処理を続ける。

【００１４】図１１の復号化処理は図１０の符号化の逆
の操作を行う。図１１のＬＺＷ復号化では、符号化時と
同様に予め辞書に全文字につき一文字からなる文字列を
初期値として登録してから復号化を始める。まずステッ
プＳ１で最初の符号（参照番号）を読込み、現在のCODE
をOLDcodeとし、最初の符号は既に辞書に登録された一
文字の参照番号いずれかに該当することから、入力符号
CODEに一致する文字code(K) を探し出し、文字Ｋを出力
する。

【００１５】尚、出力した文字Ｋは後の例外処理のため
FINchar にセットしておく。次にステップＳ２に進んで
次の符号を読込んでCODEにINcodeとしてセットする。ス
テップＳ３で新たな符号があるか否か、即ち符号入力の
終了の有無をチェックしてステップＳ４に進み、ステッ
プＳ３で入力された符号CODEが辞書に定義（登録）され
ているか否かチェックする。

【００１６】通常、入力した符号語は前回までの処理で
辞書に登録されているため、ステップＳ５に進んで符号
CODEに対応する文字列code（ωＫ）を辞書から読出し、
ステップＳ６で文字Ｋを一時的にスタックし、参照番号
CODE（ω）を新な符号CODEとして再度ステップＳ５に戻
り、このステップＳ５，ステップＳ６の手順を再帰的に
参照番号ωが一文字Ｋに至るまで繰り返し、最後にステ
ップＳ７に進んでステップＳ６でスタックした文字をＬ
ＩＦＯ（Last In Fast Out) 形式でポップアップして出
力する。

【００１７】同時にステップＳ７において、前回使った
符号ωと今回復元した文字列の最初の１文字Ｋを組（ω
Ｋ）と表した文字列に、新たな参照番号を付加して辞書
に登録する。

【００１８】図１４を参照してＬＺＷ復号化処理を具体
的に説明すると次のようになる。まず図１４で最初の入
力符号語(INPUT CODE)は１であり、一文字ａ，ｂ，ｃに
ついては既に参照番号１，２，３として図１３に示すよ
うに辞書に登録されているため、辞書の参照により符号
語１に一致する参照番号の文字列ａに置き換えて出力す
る。

【００１９】次の符号語２についても同様にして文字ｂ
に置き換えて出力する。このとき前回処理した符号語１
と今回復号した文字列の１番目の文字ｂとを組合わせた
文字列ωＫ＝１ｂに新たな参照番号４を付加して辞書に
登録する。３番目の符号語４は辞書の検索により求めた
文字列１ｂから文字列ａｂと置き換えて文字列ａｂを出
力する。同時に前回処理した符号語２と今回復号した文
字列の１番目の文字ａとの組合せた文字列ωＫ＝２ａ
（＝ｂａ）に新たな参照番号５を付加して辞書に登録す
る。

【００２０】以下同様に、この処理を繰り返す。

【００２１】図１４のＬＺＷ復号化では次の例外処理が
ある。この例外処理は、第６番目の入力符号語８の復号
で生ずる。符号語８は復号時に辞書に定義されておら
ず、復号できない。この場合には、前回処理した符号語
５に前回復号した文字列ｂａの最初の一文字ｂを加えた
文字列５ｂを求め、更に５ｂ＝２ａｂ＝ｂａｂと置き換えて出力する例外処理を行う。そして、文字列
の出力後に前回の符号語５に今回復号した文字列の１番
目の文字ｂを加えた文字列５ｂに参照番号８を付加して
辞書に登録する。

【００２２】この例外処理は、図１１の復号化処理フロ
ーのステップＳ４，ステップＳ８の処理を通じて行わ
れ、最終的にステップＳ７で文字列の出力と新たな文字
列に参照番号を付加した辞書への登録がステップＳ７で
行われる。尚、１１，１４のＬＺＷ復号化は、復号側で
符号を解読しながら辞書をリアルタイムで作り出す場合
を説明したが、符号化の際に作られた辞書をそのまま復
号化側にコピーとして使用することで符号化しても良
い。この場合に復号化側での例外処理は不要になる。

【００２３】しかし図１０の処理フロー図に示す手順で
ＬＺＷ符号化を行うと、１つの文字列を辞書検索するた
びに、最悪、辞書全体をサ−チしなければならならず、
辞書検索に時間がかかる問題があった。そこで従来の辞
書検索方式にあっては、外部ハッシュ法（open hashing
又はchaining）を用いて処理速度を上げている。

【００２４】まず一般的なハッシュ法による辞書検索に
あっては、複数の文字列からなる集合Ｓを考えたとき、
集合Ｓの文字列ｘの格納位置を、文字列ｘそのものから
格納位置を示すアドレスを直接計算できる仕組みになっ
ており、高速の辞書検索ができる。文字列の記憶場所、
即ちハッシュ表に０からm-1 までのアドレスが付されて
いるとすると、ハッシュ法では、関数ｈ：Ｓ→〔０，１，・・・，m-1 〕を一つ定めて、集合Ｓの文字列ｘのアドレスをｈ（ｘ）
として求める。この関数ｈをハッシュ関数、値ｈ（ｘ）
を文字列ｘのハッシュアドレスという。

【００２５】ハッシュ法は、通常、集合Ｓの大きさがア
ドレス数ｍに比べてはるかに大きい場合に用いられる。
しかしながら、ハッシュ関数ｈをどのように選んだとし
ても、集合Ｓの相異なる文字列ｘ１，ｘ２に対してｈ（ｘ１）＝ｈ（ｘ２）ハッシュアドレスが一致してしまう場合が起こり得る。
これを衝突と呼び、衝突に対する対策の一つとして外部
ハッシュ法（open hashing, またはchaining）が用いら
れる。

【００２６】外部ハッシュ法は図１５に示すように、索
引（ディレクトリ）で示されるハッシュアドレスｉ毎に
連結リストを用意し、衝突を起こしたハッシュアドレス
ｈ（ｘ）＝ｉの文字列ｘは、連結リストの先頭から順番
に格納する。同じハッシュアドレスｈ（ｘ）をもつそれ
ぞれの連結リストはバケット（bucket) と呼ばれる。

【００２７】辞書検索に外部ハッシュ法のリスト構造を
利用したＬＺＷ符号化の処理フローを図１６に示す。ま
た図１７に従来の辞書の構成例を示し、この辞書構成に
対応して辞書メモリ上の配置を図１８に示す。まず図１
８において、辞書メモリは、ファーストメモリ（ｆｉｒ
ｓｔ）１００、ネクストメモリ（ｎｅｘｔ）２００及び
拡張メモリ（ｅｘｔｅｎｔｉｏｎ；ｅｘｔと省略）３０
０で構成される。ここでファーストメモリ１００が図１
５に示した外部ハッシュ法の索引（ディレクトリ）に対
応し、ネクストメモリ２００が図１５の連結リストの
「next」に対応し、更に拡張メモリ３００が図１５の
「name」に対応する。

【００２８】また図１７の辞書構成にあっては、右下に
取出して示すように、１つのノードに次の情報を示して
いる。（１）ノード内；拡張メモリの登録シンボル（２）ノード左上；アドレス（３）ノード左下；次のファーストメモリのアドレス（４）ノード右下；ネクストメモリのアドレス尚、数値Ｏはメモリ内容が空であることを示す。図１６のＬＺＷ符号化処理を、説明を簡単にするため文
字Ａ、Ｂ、Ｃの３文字を対象とした場合を例にとって説
明すると次のようになる。

【００２９】まずステップＳ１で次の初期化処理を行
う。（１）第１番目の文字を含むように辞書を初期化する。
ここでアルファベットＡ、Ｂ、Ｃの３文字を対象として
いることから、Ａ、Ｂ、Ｃの文字コードをそのままハッ
シュアドレスとして図１８の辞書メモリのアドレス１，
２，３に登録する。

【００３０】（２）辞書への現在文字登録数ｎを前記
（２）で登録した文字数にセットする。アルファベット
３文字の場合には、ｎ＝３となる。（３）入力した最初の文字Ｋを語頭文字列ｉとする。こ
の場合、最初の入力文字は「Ａ」であることから語頭文
字列ｉ＝１とする。（４）辞書検索用配列を０に初期化する。即ち、ファー
スト、ネクスト及び拡張のメモリの検索用配列はfirst
[1,Nmax],next［1,Nmax］、EXT ［1,Nmax］で表わされ
るので、これを０に初期化する。

【００３１】以上のステップＳ１の初期化処理が済んだ
ならば、ステップＳ２移行の処理に進み、その結果、現
在図１７及び図１８に示す辞書が作成された段階にある
ものとする。この状態でいま文字列「ＡＡＡＡ」を入力
して符号化する場合の処理を説明する。

【００３２】ステップＳ１の初期化は済んでいるので、
最初の入力文字「Ａ」を語頭文字列ω＝１とし、ステッ
プＳ１で最初の入力文字「Ａ」を語頭文字列ω＝１と
し、ステップＳ２で２番目の入力文字「Ａ」を読む。続
いてステップＳ３で未処理文字があることが判別されて
ステップＳ５〜ステップＳ９に示す辞書検索ステップに
進む。

【００３３】辞書検索ステップでは、まずステップＳ５
で語頭文字列ω＝１をカウンタｉにｉ＝１としてセット
し、且つｊカウンタをｊ＝０にセットする。ここでカウ
ンタｉはファーストメモリの格納値で指定される辞書メ
モリのアドレス値であり、またカンウタｊはネクストメ
モリの格納値で指定される辞書メモリのアドレス値であ
る。

【００３４】次にステップＳ６でｉカウンタで指定され
た図１６の辞書メモリのアドレス１の内容を読み、拡張
メモリ３００からシンボル（ｓｍｂｏｌ）として「Ａ」
を読出し、またファーストメモリ１００から次のファー
ストアドレス「４」を読出してｉカウンタをｉ＝４にセ
ットする。続いてステップＳ７に進み、辞書登録ステッ
プに移行するか否か判断するためにｉ＝０か否かチェッ
クし、このときｉ＝４であることからステップＳ８に進
み、ステップＳ６のアドレス１の拡張メモリ３００を参
照して得たシンボル「Ａ」と、１番目の入力文字「Ａ」
との一致を判別する。この場合、両者は一致しているこ
とからステップＳ２に戻り、３番目の入力文字「Ａ」を
読込む。

【００３５】続いてステップＳ３を介してステップＳ５
に進み、辞書メモリのアドレスωにそのときのカウンタ
ｉの値ｉ＝４をセットし、辞書メモリのアドレス４を参
照する。次にステップＳ６で辞書メモリのアドレス４の
内容を読み、拡張メモリ３００に格納したシンボル（ｓ
ｍｂｏｌ）として「Ｂ」を読出し、またファーストメモ
リ１００から次のファーストアドレス「６」を読出して
ｉカウンタをｉ＝６にセットする。

【００３６】続いてステップＳ７に進み、ｉ＝０か否か
チェックし、このときｉ＝６であることからステップＳ
８に進み、ステップＳ６のアドレス４の拡張メモリ３０
０から得たシンボル「Ｂ」と、ステップＳ２で得ている
入力文字「Ａ」との一致を判別する。この場合、両者は
不一致あることからステップＳ９に進む。ステップＳ９
では、まずｉカウンタに辞書メモリのアドレス４の参照
でネクストメモリ２００から得たｊ＝１０の値をセット
してｉ＝１０とする。このｉカウンタとｊカウンタの置
き換えは、ステップＳ７の判断をｉカウンタについての
み行っていることから、これをｊカウンタについてもで
きるようにするためである。

【００３７】続いて置き換えが済んだｉカウンタで指定
される辞書メモリのアドレス１０を参照し、アドレス１
０の拡張メモリ３００に格納したシンボル「Ａ」を読出
し、更に、アドレス１０のファーストメモリ１００に格
納している次のファーストメモリのアドレス値１１をｉ
カウンタにセットする。次にステップＳ７に戻り、この
ときｉ＝１１であることからステップＳ９で得られたア
ドレス１０のシンボル「Ａ」と入力文字「Ａ」とを比較
し、一致していることからステップＳ２に進み、３番目
の文字の処理に進む。

【００３８】３番目及び４番目の入力文字「Ａ」につい
ては１番目の入力文字と同様の処理が行われ、辞書メモ
リのアドレス１０から１１、更にアドレス１１から１２
に進み、アドレス１２の処理が済むとステップＳ３で処
理対象となる文字がなくなることからステップＳ１６に
進んで最終アドレスω＝１２を符号語ｃｏｄｅ（ω）と
して出力して一連の処理を終える。

【００３９】次にステップＳ１１〜ステップＳ１５の辞
書登録ステップの処理を説明する。辞書登録は辞書検索
ステップのファーストメモリ１００又はネクストメモリ
２００の検索でｉ＝０となった時に行われる。即ち、ス
テップＳ７でｉ＝０が判別されると、もはや辞書検索は
できないのでステップＳ１０でそのときの辞書アドレス
ωを符号語ｃｏｄｅ（ω）として出力して辞書登録ステ
ップに入る。

【００４０】辞書登録ステップでは、まずステップＳ１
１でその時点での辞書メモリの現在登録文字数ｎをｉカ
ウンタにセットし、更にｎを１つインクリメントする。
続いてステップＳ１２でｊ＝０か否かチェックし、ｊ＝
０でなければｉ＝０であるのでステップＳ１３に進んで
ファーストメモリ１００の登録処理を行う。ｊ＝０であ
ればステップＳ１４に進んでネクストメモリの登録処理
を行う。

【００４１】ステップＳ１３のファーストメモリ１００
の登録処理は、（１）ｉカウンタで指定されるメモリア
ドレスｎのファーストメモリ１００に中に、次の登録先
を示す（ｎ＋１）の値を格納し、（２）次のメモリアド
レス（ｎ＋１）の拡張メモリ１００に入力文字Ｋをシン
ボルとして登録する。

【００４２】具体的に図１７、図１８でアドレス１１に
続いて入力文字「Ａ」を登録する場合を例にとると、ｉ
カウンタで指定されるメモリアドレス１１のファースト
メモリ１００に中に、次の登録先を示すアドレス値１２
を格納し、次のメモリアドレス１２の拡張メモリ１００
に入力文字「Ａ」をシンボルとして登録する。一方、ス
テップＳ１４のネクストメモリ２００の登録処理は、
（１）ｉカウンタで指定されるメモリアドレスのネクス
トメモリ２００に中に、次の登録先を示す（ｎ＋１）の
値を格納し、（２）次のメモリアドレス（ｎ＋１）の拡
張メモリ１００に入力文字Ｋをシンボルとして登録す
る。

【００４３】具体的に図１７、図１８でアドレス１０で
入力文字「Ａ」を登録する場合を例にとると、まずｉカ
ウンタで指定されるメモリアドレス４のネクストメモリ
２００に中に、次のネクストメモリの登録先を示すアド
レス値１０を格納し、メモリアドレ１０の拡張メモリ３
００に入力文字「Ａ」をシンボルとして登録する。以上
の登録処理が済むと、登録が済んだ文字Ｋをｉカウンタ
にセットしてステップＳ２からの辞書検索ステップに戻
る。

【００４４】図１９は従来のＬＺＷ符号化における辞書
登録及び検索処理を示したフローチャートであり、図２
０に復元時の辞書構成の具体例を示し、図２１に図２０
の辞書構成に対応した辞書メモリの配置を示す。尚、図
２０のノードは、右下に取出して示すように、（１）ノード内部；拡張メモリの登録シンボル（２）ノード左上；アドレス（３）ノード左下；ビフォーメモリのアドレスを示す。

【００４５】図１９において、ステップＳ１−１，ステ
ップＳ１−２の初期化は、辞書検索用配列としてビフォ
ーメモリ４００と拡張メモリ５００をに初期化する以外
は図１１の復号化と同じである。更にステップＳ２〜ス
テップＳ８の辞書検索による復元も図１１と基本的に同
じである。例えば図２０、図２１で符号語ＣＯＤＥ＝１
２を復元する場合を例にとると、ＣＯＤＥ＝１２で指定
される辞書メモリのアドレス１２を参照して拡張メモリ
５００のシンボル「Ａ」を読出してスタックし、次にビ
フォーメモリ４００から次のアドレス１１を読出す。以
下同様な処理を繰り返すことで、アドレス１１、１０，
１の拡張メモリのシンボル「ＡＡＡ」が読出されてスタ
ックされ、アドレス１で次のメモリアドレスが０となっ
てアドレス最小値ＮＭＩＮ以下となるので、それまでに
スタックしたシンボル列「ＡＡＡＡ」を復元した文字列
として出力する。

【００４６】このような復元時の辞書検索に加えステッ
プＳ７で辞書登録が行われる。この辞書登録はシンボル
の復元に対し１スステップ遅れて行われ、復元した文字
列を出力した後に次の符号語を復元して得た最初の文字
を、現在登録文字数ｎのメモリアドレスのビフォーメモ
リ４００に登録し、且つ拡張メモリ５００に文字をシン
ボル登録する。

【００４７】

【発明が解決しようとする課題】このように従来のＬＺ
Ｗ符号化は、記憶装置上に確保した領域上に辞書を作成
しながら、その辞書を使用して符号化処理を行う。辞書
の内容は連結リストで構成され、辞書検索時に連結リス
トをたどって符号語に変換する。ところで、このような
辞書検索処理は、記憶装置上のデータが外部的な要因な
どで破壊されないという前提条件のもとで成立する。し
かし、圧縮復元装置として構成した場合、記憶装置が破
壊されたり、データが化けるといった障害も発生する。
この場合、従来のＬＺＷ符号では誤ったデータが読みだ
されて符号化および復元処理に使用され、しかも使用さ
れたデータが正しいデータ誤ったデータかを判断するこ
とができないという問題があった。

【００４８】本発明は、このような従来の問題点に鑑み
てなされたもので、辞書検索が正しく行われたか否かを
確認可能にして信頼性の高いデータ圧縮および復元方式
を提供することを目的とする。

【００４９】

【課題を解決するための手段】図１、図２は本発明の原
理説明図であり、データ圧縮方式とデータ復元方式に分
けて示している。まず図１に示すように、本発明は、符
号化済データを相異なる部分列に分けて各部分列毎に異
なる参照番号を付加して辞書１に登録しておき、入力デ
ータを辞書１中の部分列の内、最大長一致するものの参
照番号で指定して符号化してデータ圧縮方式を対象とす
る。

【００５０】このようなデータ圧縮方式につき本発明に
あっては、部分列の検索に外部ハッシュ法を使用し、辞
書１に登録した部分列番号の参照番号をハッシュ・アド
レスとする辞書検索手段２と、部分列が属する相対的な
関係を示す付加情報を前記辞書１の参照番号に対応して
付加するデータ付加手段３と、辞書検索時に付加情報の
正誤を判定する判定手段４とを設けたことを特徴とす
る。

【００５１】また本発明は図２に示すように、符号化済
データを相異なる部分列に分けて各部分列毎に異なる参
照番号を付加して辞書１に登録しておき、入力データを
辞書１中の部分列の内、最大長一致するものの参照番号
で指定して符号化した符号語から元の文字列を復元する
データ復元方式を対象とする。このデータ復元方式につ
き本発明にあってはデータ圧縮方式と同様に、部分列の
検索に外部ハッシュ法を使用し、辞書１に登録した部分
列番号の参照番号をハッシュ・アドレスとする辞書検索
手段２と、部分列が属する相対的な関係を示す付加情報
を辞書１の参照番号に対応して付加するデータ付加手段
３と、辞書検索時に付加情報の正誤を判定する判定手段
４とを設けたことを特徴とする。

【００５２】ここで図１、２のデータ付加手段４は、辞
書１中の検索木の構造の位置関係を示す付加情報を付加
する。具体的には例えば図１のように、辞書１中の検索
木構造の同一階層の登録順番を示すノード中の連続番号
を付加する。また図２に示すように、辞書１中の検索木
構造のノードの深さを示す番号を付加するしてもよい。

【００５３】またデータ付加手段４は、辞書１に登録さ
れる検索木構造の前後関係にあるノードに含まれる文字
コード等の複製データを付加するようにしてもよい。

【００５４】

【作用】このような構成を備えた本発明のデータ圧縮及
び復元方式によれば、辞書の連結リストを書き込む時、
次のデータのアドレス（ポインタ）と共に、１つのノー
ド中の連続番号などをリスト関係（検索木構造）を示す
別の付加データを書き込んでおき、辞書検索時にはリス
トの連続番号等の付加データの正否を判定しながら否な
がら辞書の検索処理を行う。このため辞書中に書き込ん
だ連結リストデータが誤って読みだされても、付加デー
タとして別に書き込まれている連続番号等を判定するこ
とで、読みだされた辞書内容が誤っていることが判定で
きる。これにより符号化動作の無効を処理途中で判定
し、信頼性の高い圧縮復元装置が実現できる。

【００５５】

【実施例】図３は本発明の辞書検索機能を備えたデータ
圧縮復元装置の一実施例を示した実施例構成図である。
図３において、処理対象となる原デ−タ（文字データ或
いは符号語データ）１０はＤＭＡ（Direct Memory Acce
ss）制御回路１２を介して入力される。制御手段として
のＭＰＵ１４は入力された原デ−タ１０を、１文字と今
までの文字列の参照番号を辞書検索回路１６の複数文字
読込み回路１８にセットした後、辞書検索回路１６を起
動する。

【００５６】辞書検索回路１６は以後、辞書メモリ２０
より１文字伸ばした文字列の候補文字を読込み、一致検
査回路２２で入力文字と候補文字との一致検査（照合）
を行ない、連結検出回路２４で候補文字の有無の検出を
行なう。パイプライン制御回路２６は、一致検査回路２
２による入力文字と候補文字の照合と連結検出回路２４
による候補文字の有無の検出とに並行して辞書メモリ２
０に次の候補文字の読出しをかける。このようにパイプ
ライン制御回路２６でパイプライン処理を行なうこと
で、候補文字の複数個ごとの探索と照合処理が辞書メモ
リ２０のサイクル・タイムで実行することができる。

【００５７】更に辞書検索回路１６には連続アドレス回
路２８が設けられ、連続アドレス回路２８は連続アドレ
スを発生し、複数文字読込み回路１８に辞書メモリ２０
の連続アドレスに登録されているハッシュアドレス及び
候補文字を読出すようにする。ＬＺＷ符号の符号化で
は、辞書メモリ２０中の最大長一致する文字列を求め
る。従って、入力文字を付加して文字列を逐次一文字ず
つ伸ばしていき、候補文字がなくなったところで最大一
致長の文字列であることが分かる。このとき、最大一致
長文字列まではアドレスωを使用した参照番号で表わさ
れており、その参照番号ωを入出力ポ−ト３０から外部
に圧縮された符号語code（ω）として出力する。

【００５８】一方、ＬＺＷ符号の復元は、入力コードで
辞書メモリ２０をアクセスして連結リストを前にたどり
ながら１文字ずつ復元し、参照番号が０になったとに既
に復元した複数の文字列を文字列データとして出力す
る。

【００５９】次にアルファベットＡ、Ｂ、Ｃの３文字を
例にとり、図４のフローチャートを参照して本発明のＬ
ＺＷ符号化を説明する。ここで辞書メモリには既に図５
の辞書構成及び図６のメモリ配置が行なわれていたもの
とする。図４において、ステップＳ１〜ステップＳ１６
の初期化処理、辞書検索ステップ及び辞書登録ステップ
は付加情報に関する処理を除き図１６の従来方式と同じ
である。

【００６０】本発明の復号化では、図５、図６に示すよ
うに、辞書メモリの検索機のノードの右上に示すように
「ノード中の連続番号ＮＯ」を付加情報として新たに登
録している。このノード中の連続番号ＮＯは、例えばア
ドレス４のノードの下に位置する斜線で示すアドレス４
のノードとアドレス１０のノードに着目してみると、こ
の２つのノードは検索木の同じ親ノードの下の同じ階層
位置に属することから、ノード中の連続番号として、登
録純にＮＯ＝１、ＮＯ＝２を付加情報として付けてい
る。尚、他のノードについては全て各階層の最初のノー
ドであることから全てＮＯ＝１としている。

【００６１】このノード中の連続番号の登録は、図４の
辞書登録ステップの中のステップＳ１３又はステップＳ
１４で行われる。ステップＳ１３ではファーストメモリ
１００への文字登録であることから、登録アドレスのノ
ード中の連続番号ＮＯにＮＯ＝１を登録する。ステップ
Ｓ１４はネクストメモリ２００への文字登録であること
から、親ノードを同じにする最初のネクストノードでｃ
ｏｕｎｔ＝２となり、同一階層であれば以下ステップＳ
１４の処理を行う毎にｃｏｕｎｔ＝３，４，５，・・・
と増加される。

【００６２】一方、辞書検索ステップにおいては、ステ
ップＳ６及びステップＳ９に付加情報として登録してい
るノード中の連続番号ＮＯを読出す処理と、読出番号Ｎ
Ｏの判別基準となるｃｏｕｎｔをセットする処理が加え
られる。更に、ステップＳ７とステップＳ８の間に読出
番号ＮＯと判定値ｃｏｕｎｔとの一致を判別する処理ス
テップＳ１７が付加され、不一致を判別した場合にはエ
ラー処理に移行できるようにしている。

【００６３】図５、図６について具体的に説明すると、
いまアドレス１２に登録される文字列「ＡＡＡＡ」の検
索する場合、１番目の文字「Ａ」はルート（根）の下の
アドレス１のシンボル「Ａ」と一致するので、２番目の
文字「Ａ」が登録されているか探す。このときアドレス
１をもつ１段目のノードのファーストを読むと２段目の
先頭アドレス４が分かり、アドレス４の拡張メモリのシ
ンボル「Ｂ」と文字「Ａ」を比較する。不一致であるの
で次の候補を探す。

【００６４】ここではアドレス４のネクストメモリを読
むことで次の候補のアドレス１０が求まる。このアドレ
ス１０のまシンボル「Ａ」と文字「Ａ」を比較して一致
するので３段目の検索に移り、同様に、ファーストメモ
リとネクストメモリを読むことで検索することができ
る。

【００６５】外部ハッシュで実現されているこの検索法
は、アルファベット３文字を例にとった場合、１つのノ
ードの下に最大３個の子供のノードがぶら下がる。実際
には、文字種２５６であることから、最大 256個の子供
のノードがぶら下がる。本発明では１つの親ノードの下
にぶら下がる３個の子ノードに、登録順に連続番号ＮＯ
を登録させている。例えばアドスレ１のノードを親とす
る２段目のアドレス４の子ノードは連続番号ＮＯ＝１を
付け、同じ段のアドレス１０の２番目の子ノードは連続
番号ＮＯ＝２を付けておく。

【００６６】検索時に連続番号ＮＯが順に検索されてい
るかを判断する。例えばアドレス４をもつ２段目のシン
ボル「Ｂ」のノードのネクストアドレス１０が誤ってア
ドレス８と読出された場合、従来方式ではそのまま検索
を続けて符号化を行ったが、本発明では連続番号を調
べ、この場合には、連続番号がＮＯ＝１から同じＮＯ＝
１と変化し、順番になっていないことで読出されたデー
タが誤っていることが分かり、符号化を中断することが
できる。

【００６７】ここでは子ノードの登録順を記憶して判定
したが、相対的な関係が分かれば他のデータでもよい。
例えば、上のノードのネクストメモリの格納アドレス値
のコピー、子供のノードの先頭の拡張メモリの登録シン
ボル値のコピーなどでもよい。また、記憶場所が限られ
ている場合は、アドレス値、シンボル値の１部の値のコ
ピーでもよい。

【００６８】次にアルファベットＡ、Ｂ、Ｃの３文字を
例にとり、図７のフローチャートを参照して本発明のＬ
ＺＷ復元処理を説明する。ここで辞書メモリには既に図
８の辞書構成及び図９のメモリ配置が行なわれていたも
のとする。図７において、ステップＳ１−１〜ステップ
Ｓ８の処理は図１９の従来方式と基本的に同じである。
ここの中でステップＳ１−２の初期処理に、前回のノー
ド深さＯＬＤｎｏを１にセットし、１文字目と２文字目
移行の復元を示すＦＬＧを１文字目を示す０にセット
し、更に最初のノード深さｎｏを保持するｔｍｐを１に
セットしている。

【００６９】またステップＳ７の登録処理の中に、前回
の復元処理で得られたノードの深さｔｍｐを登録アドレ
スにｎｏとして登録する処理が加わる。さらに辞書検索
による復元処理の中のステップＳ５とステップＳ６の間
に、ステップＳ９〜ステップＳ１２でなるノードの深さ
ｎｏの読出しと比較判定を行う処理が追加される。

【００７０】このステップＳ９〜ステップＳ１０の処理
は、符号語ＣＯＤＥから１文字目を復元するＦＬＧ＝０
の際には、ステップＳ９からステップＳ１０に進み、符
号語ＣＯＤＥでせ指定されたアドレスのノードの深さｎ
ｏを読出してｔｍｐにセットし、更に２文字目の復元の
ためにＦＬＧを１にセットする。２文字目以降について
は、ＦＬＧ＝１であることからステップＳ９からステッ
プＳ１１に進み、ｎｏを１つ減らし、ステップＳ１２で
次のアドレスから読出したノードの深さＮＯ［ＣＯＤ
Ｅ］がｎｏに一致するか否か判定し、一致すればステッ
プＳ６に進み、一致しなければエラー処理を行う。具体
例として符号語ＣＯＤＥ＝１２が復元される様子を図
８、図９について説明する。

【００７１】符号語のコード１２から辞書メモリのアド
レス１２を読み、アドレス１２の拡張メモリ５００のシ
ンボル「Ａ」をスタックに置く。アドレス１２のビフォ
ーメモリ４００を読むことで１つ前のアドレス１１が次
の文字であることが分かり、拡張メモリ５００のシンボ
ル「Ａ」をスタックに置く。この処理を検索木のルート
（根）まで繰り返し、最後にスタックのデータを取り出
して文字列「ＡＡＡＡ」復元の処理が終わる。ここでル
ートに近い部分が復元データの先頭であり、葉の部分が
復元データの最後である。

【００７２】本発明では、登録時にノードの深さＮＯを
示すデータを記憶させておく。例えば先ほどのアドレス
１２をもつ４段目のシンボル「Ａ」はノードにはノード
の深さｎｏ＝４を付け、３段目のアドレス１１のノード
にはＮＯ＝３を連続番号を付けておく。検索時には、最
初に読みだしたノードの深さＮＯを変数にセットして辞
書を辿るごとに値を減らしながら、読出されるＮＯと比
較判定する。このとき、例えばアドレス１１をもつ３段
目のノードのビフォーアドレス１０が誤ってアドレス２
と読みだされた場合、従来法ではそのまま検索を続けて
復元を行っていたが、本発明では連続番号が３から２に
変化すべきものが、アドレス２では連続番号が３から１
と変化するので、読出されたデータが誤っていることが
分かり、復元を中断することができる。

【００７３】ここでは子供のノードの深さを記憶して判
定しているが、相対的な関係が分かれば他のデータでも
よい。例えば、最上位のノードの拡張メモリのシンボル
値のコピーなどでもよい。また、記憶場所が限られてい
る場合は、データの１部の値のコピーでもよい。

【００７４】

【発明の効果】以上説明したように本発明によれば、辞
書の連結リストを書き込む際に、次のデータのアドレス
（ポインタ）と共に、１つのノード中の連続番号などを
リストの関係を示す別の付加データを同一の記憶場所に
書き込んでおき、検索時にはこれら連続番号等の付加デ
ータを判定しながら処理を行うことで、辞書中に書き込
んだ連結リストデータが誤って読みだされたも、別に書
き込まれている連続番号を判定することにより読みださ
れた辞書内容が誤っているか判定できる。これにより符
号化或いは復元動作の無効を処理の途中に判定すること
ができ、信頼性の高いデータ圧縮及び復元ができる。

【図面の簡単な説明】

【図１】本発明の圧縮方式の原理説明図

【図２】本発明の復元方式の原理説明図

【図３】本発明の実施例構成図

【図４】本発明のＬＺＷ符号の符号化アルゴリズムを示
したフローチャート

【図５】図４の符号化に使用する辞書メモリの構成を示
した説明図

【図６】図５に対応した辞書メモリの配置説明図

【図７】本発明のＬＺＷ符号の復元アルゴリズムを示し
たフローチャート

【図８】図７の復元に使用する辞書メモリの構成を示し
た説明図

【図９】図８に対応した辞書メモリの配置説明図

【図１０】従来のＬＺＷ符号化アルゴリズムのフローチ
ャート

【図１１】従来のＬＺＷ復号化アルゴリズムのフローチ
ャート

【図１２】従来のＬＺＷ符号化の具体例説明図

【図１３】辞書構成例の説明図

【図１４】従来のＬＺＷ復号化の具体例説明図

【図１５】外部ハッシュ法のリスト構造説明図

【図１６】外部ハッシュ法を用いた従来のＬＺＷ符号の
符号化アルゴリズムを示したフローチャート

【図１７】図１６の符号化に使用する辞書メモリの構成
を示した説明図

【図１８】図１７に対応した辞書メモリの配置説明図

【図１９】外部ハッシュ法を用いた従来のＬＺＷ符号の
復号化アルゴリズムを示したフローチャート

【図２０】図１９の符号化に使用する辞書メモリの構成
を示した説明図

【図２１】図２０に対応した辞書メモリの配置説明図

【符号の説明】

１：辞書２：辞書検索手段３：データ付加手段４：判定手段１０：原データ１２：ＤＭＡ制御回路１４：ＭＰＵ１６：辞書検索手段（辞書検索回路）１８：複数文字読込み回路２０：辞書メモリ２２：一致検査回路２４：連結検出回路 100:ファーストメモリ（ｆｉｒｓｔ） 200:ネクストメモリ（ｎｅｘｔ） 300,500:拡張メモリ（ｅｘｔ） 400:ビフォーメモリ（ｂｅｆｏｒｅ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者中野泰彦神奈川県川崎市中原区上小田中1015番地富士通株式会社内 (56)参考文献特開平３−179562（ＪＰ，Ａ) 特開平２−227735（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 5/00 G06F 17/30 G06T 9/00 H03M 7/40 H04N 1/41

Claims

(57)【特許請求の範囲】

【請求項１】符号化済データを相異なる部分列に分けて
各部分列毎に異なる参照番号を付加して辞書（１）に登
録しておき、入力データを該辞書（１）中の部分列の
内、最大長一致するものの参照番号で指定して符号化し
てデータ圧縮方式に於いて、部分列の検索に外部ハッシュ法を使用し、前記辞書
（１）に登録した部分列番号の参照番号をハッシュ・ア
ドレスとする辞書検索手段（２）と、前記部分列が属する相対的な関係を示す付加情報を前記
辞書（１）の参照番号に対応して付加するデータ付加手
段（３）と、辞書検索時に前記付加情報の正誤を判定する判定手段
（４）と、を備えることを特徴とするデータ圧縮方式。
【請求項２】符号化済データを相異なる部分列に分けて
各部分列毎に異なる参照番号を付加して辞書（１）に登
録しておき、入力データを該辞書（１）中の部分列の
内、最大長一致するものの参照番号で指定して符号化し
た符号語から元の文字列を復元するデータ復元方式に於
いて、部分列の検索に外部ハッシュ法を使用し、前記辞書
（１）に登録した部分列番号の参照番号をハッシュ・ア
ドレスとする辞書検索手段（２）と、前記部分列が属する相対的な関係を示す付加情報を前記
辞書（１）の参照番号に対応して付加するデータ付加手
段（３）と、辞書検索時に前記付加情報の正誤を判定する判定手段
（４）と、を備えることを特徴とするデータ復元方式。
【請求項３】請求項１、２記載のデータ圧縮及び復元方
式に於いて、前記データ付加手段（４）は、前記辞書（１）中の検索
木の構造の位置関係を示す付加情報を付加することを特
徴とするデータ圧縮及び復元方式。
【請求項４】請求項３記載のデータ圧縮及び復元方式に於いて、前記
データ付加手段（４）は、前記辞書（１）中の検索木構
造の同一階層の登録順番を示すノード中の連続番号を付
加することを特徴とするデータ圧縮及び復元方式。
【請求項５】請求項３記載のデータ圧縮及び復元方式に
於いて、前記データ付加手段（４）は、前記辞書（１）中の検索
木構造のノードの深さを示す番号を付加することを特徴
とするデータ圧縮及び復元方式。
【請求項６】請求項１、２記載のデータ圧縮及び復元方
式に於いて、前記データ付加手段（４）は、前記辞書（１）に登録さ
れる検索機構造の前後関係にあるノードに含まれる文字
コード等の複製データを付加することを特徴とするデー
タ圧縮及び復元方式。