JPH04149767A

JPH04149767A - データ圧縮装置の辞書書き替え方式

Info

Publication number: JPH04149767A
Application number: JP2275836A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田; Yasuhiko Nakano; 泰彦中野; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-10-15
Filing date: 1990-10-15
Publication date: 1992-05-22
Anticipated expiration: 2015-06-19
Also published as: JP3054183B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概要］ユニバーサル符号化の一種である増分分解型の改良とし
てのＬＺＷ符号によるデータ圧縮装置の辞書書き替え方
式に関し、辞書の学習結果を有効に活用して圧縮率を向上すること
を目的とし、辞書の各参照番号毎に最近参照されたか否か記憶してお
き、辞書登録が一杯になった時には、最近参照された文
字列のみを辞書に残し、参照された時点の古い文字列を
捨てて新たな登録スペースを空けるように構成する。

［産業上の利用分野］本発明は、ユニバーサル符号化の一種である増分分解型
の改良とし、てのＬＺＷ符号によるデータ圧縮装置辞書
書き替え方式に関し、特に符号化済みの文字列を相異な
る部分列に分けて辞書に登録しておき、入力文字列を該
辞書（１０）の中の部分列の内、最大長一致するものの
参照番号で指定してＬＺＷ符号に符号化するデータ圧縮
装置の辞ｉｕｔき替え方式に関する。

近年、文字コード、ベクトル情報、画像など様々な種類
のデータがコンピュータで扱われるようになっており、
扱われるデータ量も急速に増加してきている。大量のデ
ータを扱うときは、データの中の冗長な部分を省いてデ
ータ量を圧縮することで、記憶容量を減らしたり、速く
伝送し、たりすることが望まれる。

このような様々なデータを１つの方式でデータ圧縮でき
る方法としてユニバーサル符号化が提案されている。

ここで、本発明の分野は、文字コートの圧縮に限らず、
様々なデータに適用できるが、以下では、情報理論で用
いられている呼称を踏襲し、データの１ワ一ド単位を文
字と呼び、データが任意ワードつながったものを文字列
と呼ぶことにする。

ユニバーサル符号の代表的な方法として、２ｉｖＬｅｍ
ｐｅｌ　（ジブーレンペル）符号がある（詳しくは、例
えば、学僧［ｉｖ−Ｌｅｍｐｅｌのデータ圧縮法］、情
報処理、ＶＯＬ、　２６．　Ｎｏ、　１．１９８５年を
参照のこと）。

２ｉｖｔｅｍｐｅｌ符号ては ■ユニバーサル型と、 ■増分分解型（Ｉｎｃｒｅｍｅｎｔａｌ　　ｐａｔｔｉ
ｎｇ）の２つのアルゴリズムが提案されている。

更に、ユニバーサル型アルゴリズムの改良として、ＬＺ
ＳＳ符号がある（Ｔ、　Ｃ，Ｂｅ１１．　　“Ｂｅｌｔ
ＨＯＰＭ／Ｌ　Ｔｅｘｔ　Ｃｏｍｐｒｅｓｓｉｏｎ　　
、ＩＥＥＥ　Ｔｒａｎｓ、　　ｏｎＣｏｍｍｕｎ　　Ｖ
ｏｌ、Ｃ０Ｍ−３４，Ｎｏ、１２．Ｄｅｃ、１９８６参
照）。

また増分分解型アルゴリズムの改良としては、Ｌ　ＺＷ
　（Ｌｅｍｐｅｌ−４ｉｖ−Ｗｅｌｃｈ）符号がある（
Ｔ＾Ｗｅｌｃｈ　　”＾Ｔｅｃｈｎｉｑｕｅ　ｌｏｔ　
）Ｉｉｇｈ−Ｐｅ＋ｔｏ＋ｍａｎｃｅＤａｔａ　Ｃｏｍ
ｐｒｅｓｓｉｏｎ　　、　Ｃｏ１Ｉｌｐｕｔｕ、　Ｉｕ
ｎｃ１９８４参照）。

これらの符号の内、高速処理ができることと、アルゴリ
ズムの簡単さからＬＺＷ符号が記憶装置のファイル圧縮
などで使われるようになっている。

し従来の技術〕従来のＬＺＷ符号化アルゴリズムのフローチャートをを
第６図に示す。

ＬＺＷ符号化は、書き替え可能な辞書を持ち、入力文字
コード、データ中を相異なる文字列に分け、この文字列
を出現した順に番号を付けて辞書に登録すると共に、現
在入力している文字列を辞書に登録しである最長一致来
字列の番号で表して、符号化するものである。

第６図のＬＺＷ符号化処理では、まずステップＳｌ（以
下「ステップ」は省略）で予め辞書に全文字につき一文
字からなる文字列を初期値として登録してから符号化を
始める。Ｓｌの符号化は入力した最初の文字Ｋにより辞
書を検索ｊ２て参照番号ωを求め、これを語頭文字列と
する。次にＳ２で入力データの次の文字Ｋを読み込み、
Ｓ３で全ての文字入力の読込みが終了したか否かチエツ
クした後、Ｓ４に進んでＳｌで求めた語頭文字列ωに８
２で読み込んだ文字Ｋを加えた（ωＫ）が辞書にあるか
否か探す。

Ｓ４で文字列（ωＫ）が辞書になければ、Ｓ６に進んで
Ｓｌで求めた文字にの参照番号ωを符号語ｃｏｄｅ　（
ω）として出力し、また文字列（ωＫ）に新たな参照番
号を付加して辞書に登録し、更にＳ２の入力文字Ｋを参
照番号ωに置き換えると共に辞書アドレスｎをインクリ
メントしてＳ２に戻って次の文字Ｋを読み込む。

一方、Ｓ４で文字列（ωＫ）が辞書にあればＳ５で文字
列（ωＫ）を参照番号ωに置き換え、再びＳ２に戻って
Ｓ４で文字列（ωＫ）が辞書から探せなくなるまで最大
−成長の検索を続ける。

Ｓ６で辞書登録を行なうとＳ７で辞書が一杯になったか
否か、即ち、辞書の最大アドレスＮＭＡＸまで登録した
か否か判定し、最大アドレスＮＭＡＸまで登録すると、
辞書への登録を止めて８８で例えば数１００キロバイト
単位に圧縮率をチエツクする。

そして、Ｓ９で圧縮率が前回チエツクしたときと比べ悪
化する方向に動いていれば、辞書がデータの統計的性質
とズレができていると判断し、Ｓ１０で第１文字のみ含
むように辞書を初期化した後、Ｓ２に戻って再度、辞書
への登録を行ないながら、符号化を行なう。尚、復号化
は符号化の逆の操作を行なう。

第７図にＬＺＷ符号化の具体例を示すとともに、第８図
に符号化時の辞書の内容を示す。尚、第７゜８図は、簡
単にするため、ａｂｃ３文字からなるデータを圧縮する
場合の例を取上げている。

第７図において、入力データ１ｎｐｕｔは左から右へと
読む。最初の文字ａを入力した時、辞書には文字ａの他
に一致する文字列がないので、０ＬＴＰｔｌＴＣＯＤＥ
　１　（参照番号の）を符号語して出力する。

そして文字ａを語頭文字列ωとする。

次に２番目の文字すを入力したとすると、この入力文字
を語頭文字列ωに加えた文字列ωに＝ａｂは辞書にない
ことから、入力文字すの０ＵＴＰＵＴＣＯＤＥ　２を符
号語として出力する。そして、拡張した文字列ωに＝ａ
ｂに参照番号４を付けて辞書に登録する。実際の辞書登
録は第８図の右側に示すように文字列１ｂとして登録さ
れる。そして文字すが語頭文字列ωとなる。

続いて３番目の文字ａを入力したとすると、入力文字ａ
に語頭文字列ωを加えた拡張文字列ωに＝ｂａ＝２ａは
辞書にないことから、文字すの０ＵＴＰｔｌＴ　Ｃ０Ｄ
Ｅ　２を符号語として出力した後、拡張文字列ωに＝ｂ
ａを２８で表わし、参照番号５を付けて辞書に登録する
。そして３番目に入力した文字ａが新たな語頭文字列ω
となる。

４番目の入力文字すについては拡張文字列ωに＝ａｂは
符号語４として既に辞書に登録されているので、文字列
ωＫを新たな語頭文字列ωとし、５番目の文字Ｃを入力
して拡張文字列ωに＝４ｃ−ａｂｃを作る。この拡張文
字列ωに＝ａｂｃは辞書に登録されていないことから、
文字列ａｂ＝１ｂの０ＵＴＰＵＴ　Ｃ０ＤＥ　４を符号
語として出力し、拡張文字列ωに＝ａｂｃを辞書に４Ｃ
の形で参照番号６を付けて登録する。以下同様に、この
処理を続ける。

［発明が解決しようとする課題］従来のＬＺＷ符号化アルゴリズムにあっては、辞書が一
杯になったときに圧縮率をチエツクし、圧縮率が悪化し
たとき、第１文字のみ含むように辞書を初期化した後、
再学習を行なつっており、辞書の初期化は簡単なため高
速で処理ができる利点がある。

しかしながら、従来方式では、今までの学習した履歴を
全部捨ててしまうため、初期化の回数が多いとき、十分
大きい辞書サイズをもって辞書の初期化なしで符号化す
る理想的な場合に比べ、圧縮率が低下するという問題が
あった。

本発明は、このような従来の問題点に鑑みてなされたも
ので、辞書の学習結果を有効に活用して圧縮率を向上す
るようにしたデータ圧縮装置の辞書書き替え方式を提供
することを目的とする。

［課題を解決するための手段］第１図は本発明の原理説明図である。

まず本発明は、符号化済みの文字列を相異なる部分列に
分けて辞書１０に登録しておき、入力文字列を辞書１０
の中の部分列の内、最大長一致するものの参照番号で指
定してＬＺＷ符号に符号化するデータ圧縮装置を対象と
する。

このようなデータ圧縮装置につき本発明の辞書書き替え
方式にあっては、辞書１０の部分列が参照されたときの辞ＩＦ登録の時間
的な進行状態を示す値を格納する参照時点記憶手段３０
と：辞書１０への登録か一杯になったとき、所定の閾値Ｔよ
り参照時点記憶手段３０に格納した値か古い部分列を辞
書１０より削除して登録スペースを空け、再度、辞書へ
の登録と該最大一致長部分列の番号での符号化を行なわ
せる辞書削除手段２４とを備えたことを特徴とする。

ここで参照時点記憶手段３０に格納する辞書登録の時間
的な進行状態を示す値として、辞書登録済みアドレスの
一部を用い、辞書削除手段２４はこのアドレスの一部が
所定の閾値Ｔより小さい部分列を古い部分列として削除
する。具体的には、参照時点記憶手段３０に格納する辞
書登録の時間的な進行状態を示す値として、辞書登録済
みアドレスの上位２ビットを用い、辞書削除手段２，１
はこのアドレスの上位２ヒ・ノドか所定の閾値Ｔより小
さい部分列を古い部分列として削除する。つ［作用］このような構成を備えた本発明によるデーや圧縮装置の
辞書書き替え方式によれば、辞書の各参照番号毎に最近
参照されたか否かを記憶しておき、辞書への登録が一杯
になったとき、最近参照された文字列のみ辞書に残し、
参照された時点か古（１文字列を捨て新たに登録する辞
書スペ−スを空けるようになり、最近出現した文字列は
辞書に残されるので、いままで学習した結果を損ねるこ
となしに、学習符号化を続けることができる。

［実施例］第２図は本発明の一実施例を示した実施例構成図である
。

第２図において、１２は制御手段としてのＣＰＵてあり
、ＣＰＵ１２に対［、てはプログラムメモリ１４とデー
タメモリ２６が接続される。

プログラムメモリ１４にはコントロールソフト１６、ｔ
、ＺＷ符号を用いた最大−数置検索を行なう最大−成長
検索ソフト１８、人力文字列をＬＺＷ符号に変換する符
号化ソフト２０、符号化ソフト２０でＬＺＷ符号に変換
された符号を元の文字列に復元する復号化ソフト２２、
及び辞書登録が一杯になった時に辞書書き替えを行なう
辞書書き替えソフト２４を備える。

一方、データメモリ２６には、これから符号化りようと
する文字列、或いはこれから復号化しようとする符号列
を格納するデータバッファ２８乏、ＬＺＷ符号を対象と
した符号化及び復号化の際に逐次作成されながら使用さ
れる辞１１０を備える。

更に本発明にあっては、辞書１０に対して辞書登録の参
照番号毎に辞書登録の時間的な進行状態を示す値として
の参照時点を格納した参照時点メモリ部３０が設けられ
ている。

即ち、参照時点メモリ部３０は、各文字列（語頭文字列
ω）に最近どの時点でその文字列が参照されたかを知る
メモリとして設けられる１、符号化時には、辞１１１１
０の参照により最大−数置の５〈字列ωが得られると、
この文字列は一文字■くすつ伸ばされてωにとなって次
の最大−数置の検索を行い、この検索で参照された既登
録の文字列は辞書の内部節点、即ち語頭か同して短い文
字列点なる。

本発明では、このような符号化の際に、■辞書１０に新
たに登録した文字９すと、■参照された内部節点の文字
列、のそれぞれにつき参照時点メモリ部３０に辞書登録済ア
ドレスｎの上位ビ・・ノドをセ・・ノドする。例えば、
参照時点メモリ３０を２ヒ・・ノドとＡれば、第３図に
示すように、辞書登録済アドレスｎのＩ＝−（、ｉ′１
２ビット００．０１，１０．１１か参照時点メモリ３０
に格納される。尚、説明の都合上、参照、時点メモリ部
３０に参照時点の値００．ＯＬ　　１屹１１を順番に入
れているが、実際には符躬化に応してランダムに存在す
る。

第４図は本発明の符号化アルゴリズノ、を示］、たフロ
ーチャートであり、８１〜Ｓ６の符号化手順は第５図に
示した従来の処理手順と同じである。

これに加えて本発明にあっては、５１００の辞書登録ス
ペースのチエツクルーチンが新たに加わり、これを第５
図にサブルーチンとして示す。

第５図のチエツクルーチンにおいては、まずＳｌで辞書
に登録スペースがあるか否か、辞書登録済みアドレスｎ
と辞書１０の最大アドレスＮＭＡ　Ｘとを比較して調べ
る。もし辞書アドレスｎが辞書１０の最大アドレスＮＭ
ＡＸ以下で登録スペースがあれば、そのまま第４図の８
２の処理に戻る。

一方、辞書アドレスｎが辞書１０の最大アドレスＮＭＡ
Ｘより大きければ、登録スペースがないので、Ｓ２以降
の処理に進み、参照時点メモリ部３０に格納されている
値ｒ＋ｎ（ｉ）が閾値１以上となる文字列のみ残し、閾
値Ｔり小さい値ｒｍ（ｉ）の文字列は辞書１０から削除
する。これには各文字列の参照時点メモＩＪ　３０の値
ｒｍ（ｉ）を順に調べ、閾値Ｔより小さい文字列の番号
ωと拡張文字にの組を削除すると共に、辞書のアドレス
ω以降にあるωより大きい文字列番号を１つ下げるよう
にする。

Ｓ２以降を詳細に説明すると次のようになる。

まずＳ２で辞書アドレス】をゼロにリセットし、続いて
Ｓ３で辞書アドレスｉを１つインクリメントし、Ｓ４で
最終アドレスｎに達したか否かチエツクした後、Ｓ５に
進んで参照時点メモリ３０のアドレスｉの値、即ち参照
時点＋ｍ（ｉ）が最近の参照時点を示す予め定めた閾値
Ｔより小さいか否かチエツクする。

もし、参照時点＋ｍ（ｉ）の値が閾値Ｔより小さければ
Ｓ６に進んで、現在の辞書アドレスｉを削除して次の辞
書アドレスｊに置き換える削除処理を行なう。続いてＳ
７に進み、削除した辞書アドレス１に続く次の辞書アド
レスｊが最終アドレスｎ以内にあるかチエツクし、最終
アドレスｎ以内にあればＳ８に進んで、辞書アドレスｌ
以降にｉ＝ωより大きい参照番号ωをもつ文字列が存在
するか否かチエツクする。削除した辞書アドレス１以降
に参照番号ωより大きい参照番号をもつ文字列が存在し
たならばＳ９に進んで、文字列の中の参照番号ωの値を
デクリメントにより１つ減らし、Ｓ　］、　０に進んで
辞書アドレスｊの文字列（ωＫ）を１つ前の辞書アドレ
スｊ−１に登録する。そして、処理か済んだ辞書アドレ
スｊを次の処理のためにｊ＋ｌとインクリメントしてＳ
７に戻り、辞書アドレスｊが最終アドレスｎを越えるま
でＳ７゜Ｓ８．Ｓ９及びＳ１０の処理を繰り返す。即ち
、閾値Ｔより小さい参照時点の古い文字列を削除した場
合には、削除した文字列のアドレス以降に存在する文字
列の中の参照番号を１つ減らし、且つ登録アドレスを１
つ詰める処理を繰り返す。

８７〜Ｓ１０の処理が終了すると８７から８１１に進み
、文字列を１つ削除したことから最終アドレスｎを１つ
デクリメントし、再びＳ３に戻って辞書アドレスｌをイ
ンクリメントして次の文字列に対する参照時点のチエツ
クを行ない、Ｓ４で最終アドレスｎが判別するまで繰り
返す。

Ｓ４で最終アドレスｎへの到達が判別されると８１２に
進んで辞書の最終アドレスｎと辞書の内容をデータメモ
リ２８に書き込んで第４図の８２に戻る。

この処理により高頻度で出現する文字列を辞書１０に残
したまま、辞書１０に新たな登録スペスを確保すること
ができる。そして、辞書１０への登録が一杯になるたび
に、繰り返し辞書１０を圧縮して、辞書１０への登録ス
ペースを空けることになる。

本発明における辞書１０の登録スペース確保としては、
例えば、第３図に示したように参照時点メモリ部３０を
２ビットに取り、辞書登録済みアドレスの上位２ビット
を参照時点の値としてセットするようにした場合、辞書
１０への登録が一杯になったとき、閾値Ｔとして２進で
（０１）、　（１０）又は（１１）を取れば、それぞれ
の場合につき辞書１０に１／４．２／４又は３／４のス
ペースを空けることができる。

この場合、辞書１０にスペースを空ける区切りは、参照
時点メモリ部３０のビット数を多く取れば、それだけ細
かく制御できる。

尚、上記の実施例では参照時点メモリ部３０に辞書登録
済みアドレスの一部を格納するようにしたが、本発明は
これに限定されず、辞書登録の時間的な進行状態が知り
得る値であれば、適宜の値を用いても良い。

また、第５図のチエツクルーチンでは、削除すべき部分
列を一つずつ見つけながら辞書全体を見て更新を行なっ
たが、本発明はこれに限定されず、本願発明者等がすで
に提案している高速処理法（特願平２−１９４３９６号
）を用いても良い。

［発明の効果］以上説明したように本発明によれば、辞書への登録が一
杯になったとき、最近出現した文字列は辞書に残される
ので、いままで学習した結果を損ねることなしに、学習
符号化を続けることができる。このため、入力データの
量に比べ、小さいサイズの辞書を用いても本発明では、
上針大きい辞書サイズをもって辞書の初期化なしで符号
化する場合に近い圧縮率が得られる。

【図面の簡単な説明】

第１−図は本発明の原理説明図第２図は本発明の実施例構成図。第３図は本発明の辞書と参照時点メモリ部の対応説明図
：第４図は本発明の符号化アルゴリズムのフローチャート
；第５図は本発明での辞書登録スペースのヂエック処理の
フローチャート；第６図は従来のＬＺＷ符号符号ロアロゴリズムローチャ
ート；第７図は従来のＬＺＷ符号化の具体例説明図。第８図は辞書構成例の説明図ンである。図中、１０、辞書１２：ＣＰＵ１４ニブログラムメモリ１６　コントロールソフト１８：最大−成長検索ソフ２０：符号化ソフトト・復号化ソフト辞書削除手段（辞書書き替えソフデータメモリデータバッファ参照時点記憶手段（参照時点メモト）ノ部）

Claims

【特許請求の範囲】

（１）符号化済みの文字列を相異なる部分列に分けて辞
書（１０）に登録しておき、入力文字列を該辞書（１０
）の中の部分列の内、最大長一致するものの参照番号で
指定して符号化するデータ圧縮装置に於いて、前記辞書（１０）の部分列が参照されたときの辞書登録
の時間的な進行状態を示す値を格納する参照時点記憶手
段（３０）；前記辞書（１０）への登録が一杯になったとき、所定の
閾値（Ｔ）より前記参照時点記憶手段（３０）に格納し
た値が古い部分列を前記辞書（１０）より削除して登録
スペースを空け、再度、辞書への登録と該最大一致長部
分列の番号での符号化を行なわせる辞書削除手段（２４
）と；を備えたことを特徴とするデータ圧縮装置の辞書書き替
え方式。
（２）請求項１記載のデータ圧縮装置の辞書書き替え方
式に於いて、前記参照時点記憶手段（３０）に格納する辞書登録の時
間的な進行状態を示す値として、辞書登録済みアドレス
の一部を用い、前記辞書削除手段（２４）は前記アドレ
スの一部が所定の閾値（Ｔ）より小さい部分列を古い部
分列として削除することを特徴とするデータ圧縮装置の
辞書書き替え方式。
（３）請求項２記載のデータ圧縮装置の辞書書き替え方
式に於いて、前記参照時点記憶手段（３０）に格納する辞書登録の時
間的な進行状態を示す値として、辞書登録済みアドレス
の上位２ビットを用い、前記辞書削除手段（２４）は前
記アドレスの上位２ビットが所定の閾値（Ｔ）より小さ
い部分列を古い部分列として削除することを特徴とする
データ圧縮装置の辞書書き替え方式。