JPH03247167A

JPH03247167A - データ圧縮方式

Info

Publication number: JPH03247167A
Application number: JP2045163A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yasuhiko Nakano; 泰彦中野; Yoshiyuki Okada; 佳之岡田; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1990-02-26
Filing date: 1990-02-26
Publication date: 1991-11-05
Anticipated expiration: 2015-05-08
Also published as: JP3038223B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概要〕ユニバーサル符号化の一種である増分分解型符号化の改
良としてのＬＺＷ符号化によるデータ圧縮方式に関し、符号化及び復号化時の入力データの初めの部分での圧縮
率の低下を防止することを目的とし、サンプルデータを
符号化する学習処理で得られた辞書の文字列の内、出現
頻度の高い文字列を取り出して辞書初期値を設定し、符
号化又は復号化時に辞書を初期化する際には、学習済み
の辞書初期値を辞書に格納する初期化を行なうように構
成する。

［産業上の利用分野］本発明は、ユニバーサル符号の一種である増分分解型の
改良として知られたＬＺＷ符号によるデータ圧縮方式に
関する。

近年、文字コード、ベクトル情報、画像など様々な種類
のデータがコンピュータで扱われるようになっており、
扱われるデータ量も急速に増加してきている。大量のデ
ータを扱うときは、データの中の冗長な部分を省いてデ
ータ量を圧縮することで記憶容量を減らしたり、速く伝
送したりすることが望まれる。

このように様々なデータを１つの方式でデータ圧縮でき
る方法としてユニバーサル符号化が提案されている。

ここで、本発明の分野は、文字コードの圧縮に限らず、
様々なデータに適用できるか、以下では、情報理論で用
いられている呼称を踏襲し、データの１ワ一ド単位を文
字と呼び、データが複数ワードつながったものを文字列
と呼ぶことにする。

ユニバーサル符号化の代表的な方法として、ジブーレン
ペル（ｚｉｖ−Ｌｅｍｐｅｌ）符号がある（詳しくは、
例えば宗像「２ｉｖ−Ｌｅｍｐｅｌのデータ圧縮法」。

情報処理、　ｖｏｌ、　２６．　Ｎｏ、　１．１９８５
年を参照のこと）。

２ｉｖ−Ｌｅｍｐｅｌ符号では、 ■ユニバーサル型と、 ■増分分解型（Ｉｎｃｒｅｍｅｎｔａｌ　ｐａｒｓｉｎ
ｇ　）の２つのアルゴリズムが提案されている。

更に、ユニバーサル型アルコリズムの改良として、ＬＺ
ＳＳ符号がある（Ｔ、Ｃ，−Ｂｅｌｌ、’ＢｅｓｅｒＯ
ＰＭ／Ｌ　Ｔｅｘｔ　Ｃｏｍｐｒｅｓｓｉｏｎ’、　Ｉ
ＥＥＥ　Ｔｒａｎｓ、　ｏｎ　ＣｏｍｍｕｎＶｏｌ、　
Ｃ０Ｍ−３４，Ｎｏ、　１２．　Ｄｅｃ、　１９８６年
参照）。

また、増分分解型アルゴリズムの改良としては、Ｌ　Ｚ
Ｗ　（Ｌｓｍｐｅｌ　２ｉｖ−Ｗｅｌｃｈ）符号がある
（Ｔ、　ＡＷｅｌｃｈ、’＾Ｔｅｃｈｎｉｑｕｅ　ｌｏ
「Ｈｉｇｈ−Ｐｅｒｆｏ＋ｍａｎｃｃ　ＤａｔａＣｏｍ
ｐｒｅｓｓｉｏｎ’、　Ｃｏｍｐｕｔｅｒ、　Ｊｕｎｅ
　１９８４年参照）。

これらの符号化方式の内、高速処理ができることと、ア
ルゴリズムの簡単さからＬＺＷ符号が記憶装置のファイ
ル圧縮などで使われるようになっている。

［従来の技術］従来のＬＺＷ符号による符号化処理フローを第７図に示
すと共に、復号化処理フローを第８図に示す。

まずＬＺＷ符号化処理は、書き替え可能な辞書を持ち、
入力文字列の中を相異なる文字列（部分列）に分け、こ
の文字列を出現した順に参照番号を付けて辞書に登録す
ると共に、現在入力している文字列を辞書に登録しであ
る最長−散文字列の参照番号で表して符号化するもので
ある。

第１０図にＬＺＷ符号化の説明図を示すと共に第１２図
にＬＺＷ復号化の説明図を示し、更に第１１図に復号化
と復号化時の辞書の内容を示す。

尚、第１０．１１．１２図では説明を簡単にするため、
ａｂｃの３文字の組合せからなるデータを圧縮、復元す
る場合の例を取り上げている。

第８図のＬＺＷ符号化処理では、まずステップＳｔ（以
下「ステップ」は省略）で予め辞書に全文字につき一文
字からなる文字列を初期値として登録してから符号化を
始める。Ｓｌの符号化は入力した最初の文字Ｋにより辞
書を検索して参照番号ωを求め、これを語頭文字列とす
る。次に８２で入力データの次の文字Ｋを読み込み、Ｓ
３で全ての文字入力の読込みが終了したか否かチエツク
した後、Ｓ４に進んでＳｌで求めた語頭文字列ωに８２
で読み込んだ文字Ｋを加えた（ωＫ）が辞書にあるか否
か探す。

Ｓ４で文字列（ωＫ）が辞書になければ、Ｓ６に進んで
Ｓｌで求めた文字にの参照番号ωを符号語ｃｏｄｅ　（
ω）として出力し、また文字列（ωＫ）に新たな参照番
号を付加して辞書に登録し、更にＳ２の人力文字Ｋを参
照番号ωに置き換えると共に辞書アドレスｎをインクリ
メントしてＳ２に戻って次の文字Ｋを読み込む。

一方、Ｓ４で文字列（ωＫ）が辞書にあればＳ５で文字
列（ωＫ）を参照番号ωに置き換え、再びＳ２に戻って
Ｓ４で文字列（ωＫ）が辞書から探せなくなるまで最大
一致長の検索を続ける。

第１０．１１図を参照して符号化を具体的に説明すると
次のようになる。

まず第１０図の入力データ１ｎｐｕｔは左から右へと読
む。最初の文字ａを入力した時、辞書にはａの他に一致
する文字列がないので、０ｂ丁ＰＵＴ　Ｃ０ＤＥ１（参
照番号ω）を符号語として出力する。そして、拡張した
文字列ａｂに参照番号４を付けて辞書に登録する。実際
の登録は文字列（１ｂ）の形となる。

続いて２番目のｂが文字列の先頭になる。辞書にはｂの
他に一致する文字がないので参照番号２を符号語として
出力し、同時に、拡張した文字列ｂａも辞書にないので
、文字列ｂａに、実際には２ａに参照番号５を付けて辞
書に登録する。３番目のａが次の文字列の先頭になる。

以下同様に、この処理を続ける。

第９図の復号化処理は第８図の符号化の逆の操作を行な
う。

第９図の復号化では、符号化時と同様に予め辞書に全文
字につき一文字からなる文字列を初期値として登録して
から復号化を始める。

まずＳｌで最初の符号（参照番号）読み込み、現在のＣ
０ＤＥを０ＬＤｃｏｄｅとし、最初の符号は既に辞書に
登録された一文字の参照番号いずれかに該当することか
ら、入力符号Ｃ０ＤＨに一致する文字ｃｏｄｅ（Ｋ）を
探し出し、文字Ｋを出力する。

尚、出力した文字には後の例外処理のためＦＩＮｃｈａ
＋　にセットしておく。

次に８２に進んで次の符号を読み込んでＣ０ＤＥにＩＮ
ｃｏｄｅとしてセットする。Ｓ３で新たな符号があるか
否か、即ち符号入力の終了の有無をチエツクしてＳ４に
進み、Ｓ３で入力された符号Ｃ０ＤＥが辞書に定義（登
録）されているか否かチエツクする。

通常、入力した符号語は前回までの処理で辞書に登録さ
れているため、Ｓ５に進んで符号Ｃ０ＤＨに対応する文
字列ｃｏｄｅ　（ωＫ）を辞書から読み出し、Ｓ６で文
字Ｋを一時的にスタックし、参照番号Ｃ０ＤＥ（ω）を
新たな符号Ｃ０ＤＥとして再度Ｓ５に戻り、このＳ５．
Ｓ６の手順を再帰的に参照番号ωが一文字Ｋに至るまで
繰り返し、最後に８７に進んでＳ６でスタックした文字
をＬ　Ｉ　ＦＯ（Ｌａｓｔ　Ｉｎ　Ｆａｓｌ　０ｕｔ）
型式でポツプアップして出力する。同時に８７において
、前回使った符号ωと今回復元した文字列の最初の１文
字Ｋを組（ω、Ｋ）と表した文字列に、新たな参照番号
を付加して辞書に登録する。

第１２図を参照して復号化処理を具体的に説明すると次
のようになる。

まず第１２図で最初の入力符号は１であり、文字ａ、　
　ｂ、　　ｃについては既に参照番号１，２゜３として
第１２図に示すように辞書に登録されているため、辞書
の参照により符号１に一致する参照番号の文字列ａに置
き換えて出力される。次の符号２についても同様にして
文字すに置き換えて出力する。このとき前回処理した符
号と今回復号した最初の１文字すとを組み合わせた（１
ｂ）に新たな参照番号４を付加して辞書に登録する。

３番目の符号４は辞書の検索により１ｂからａｂと置き
換えて文字列ａｂを出力する。同時に前回処理した符号
２と今回復号した文字列の１番目の文字ａとの組合せた
文字列２ａ（＝ｂａ）を新たな参照番号５を付加して辞
書に登録する。

以下同様に、この処理を繰り返す。

第１２図の復号化では次の例外処理がある。

この例外処理は、第６番目の入力符号８の復号で生ずる
。符号８は復号時に辞書に定義されておらず、復号でき
ない。この場合には、前回処理した符号５に前回復号し
た文字列ｂａの最初の一文字すを加えた文字列５ｂを求
め、更に２　ａ　ｂ＝ｂａｂと置き換えられて出力され
る。そして、文字列の出力後に前回の符号５に今回復号
した文字列の１番目の文字すを加えた文字列５ｂに参照
番号８を付加して辞書に登録する。

この例外処理は、第９図の復号化処理フローの８４．Ｓ
８の処理を通じて行なわれ、最終的に８７で文字列の出
力と新たな文字列に参照番号を付加した辞書への登録が
８７で行なわれる。

尚、第９，１２図の復号化処理は、復号側で符号を解読
しながら辞書をリアルタイムで作り出す場合を説明した
が、符号化の際に作られた辞書をそのまま復号化側にコ
ピーとして使用することで符号化しても良い。この場合
に復号化側での例外処理は不要になる。

［発明が解決しようとする課題］このように従来のＬＺＷ符号によるデータ圧縮は、完全
なユニバーサル性を前提にしており、辞書は第１文字の
み、或いは全一文字のみを登録した空白に近い状態から
符号化を始めるようにしている。このため、従来のＬＺ
Ｗ符号化にあっては、入力データの初めの方で学習量が
少ないため、即ち辞書への登録文字列数が少ないため、
圧縮率が低くなるという問題があった。

ＬＺＷ符号化ではユニバーサル性も重要であるが、様々
な種類のデータの内、入力データとして特定の種類だむ
特に多く現れるときは、辞書は必ずしも空白に近い状態
から符号化する必要はない。

この問題はＬＺＷ符号の復号化時にも同じである。

本発明は、かかる事情に鑑みてなされたもので、符号化
及び復号化時の入力データの初めの部分での圧縮率の低
下を防止するＬＺＷ符号を用いたデータ圧縮方式を提供
することを目的とする。

［課題を解決するための手段］第１図は本発明の原理説明図である。

まず本発明は、符号化時には、入力文字列を辞書に登録
された既に符号化済みの部分列の内、最大長一致する部
分列の参照番号で指定して符号化すると共に参照番号と
して指定された符号語に次の１文字を付加した部分列に
新たな参照番号を付加して辞書１０に登録し、復号化時
には、部分列の参照番号で指定された符号語を辞書１０
に登録された部分列の検索により元の部分列を復元する
と共に、前回復元された符号語に今回復号された部分列
の最初の１文字を付加した部分列を新たな参照番号を指
定して辞書１０に登録するＬＺＷ符号を用いたデータ圧
縮方式を対象とする。

このようなデータ圧縮方式につき本発明にあっては、辞
書１０の初期化時に、所望のサンプリング文字列を対象
とした前記符号化により辞書登録された部分列の内、出
現頻度の高い部分列を既に符号化済みの部分列と見做し
て前記辞書１０に初期値として登録するように構成する
。

［作用］このような構成を備えた本発明の画像データ圧縮方式に
よれば、様々な種類のデータの内、入力データとして特
定の種類だけ特に多く現れるブタをサンプルデータとし
て準備し、第２図（ａ）に示すように、出現頻度の高い
サンプルデータについてＬＺＷ符号化により辞書を作成
し、作成辞書の中の出現頻度の高い部分列のみを残すよ
うに辞書を圧縮して辞書の初期値を作り出す。

そして第２図（ｂ）（ｃ）に示すように、サンプルデー
タの学習により求めた初期値を辞書にロドする初期化処
理を行なった後に、ＬＺＷ符号化及びＬＺＷ復号化を行
ない、入力データの初めの部分でも十分な量の部分列の
登録が辞書に得られていることから、圧縮率を向上でき
る。

具体的には、サンプルデータのＬＺＷ符号化の際に、辞
書の参照番号毎にカウンタを設け、各参照番号が符号化
時に使われた回数を計数するようにし、計数値の小さい
文字列を辞書から削除し、高頻度で出現する文字列のみ
辞書に残した辞書を求める。そして次のいずれかの方法
で符号化或いは復号化する。

■予め記憶装置に取り出しておいた高頻度の文字列を初
期値として辞書にロードした後、符号化或いは復号化す
る。

■予め作成した高頻度の文字列を初期値として辞書の先
頭に書き替えをしない固定部分として設定しておき、符
号化或いは復号化する。

［実施例］第３図は本発明の一実施例を示した実施例構成図である
。

第３図において、１２は制御手段としてのＣＰＵであり
、ＣＰＵ１２に対してはプログラムメモリ１４とデータ
メモリ２６が接続される。

プログラムメモリ１４にはコントロールソフト１６、Ｌ
ＺＷ符号を用いた最大一致長検索を行なう最大−成長検
索ソフト１８、入力文字列をＬＺＷ符号に変換する符号
化ソフト２０、符号化ソフト２０でＬＺＷ符号に変換さ
れた符号を元の文字列に復元する復号化ソフト２２、及
び所望のサンプリングデータを対象としたＬＺＷ符号化
で得られた辞書登録の内の出現頻度の高い部分列を辞書
初期値として作り出す辞書初期値作成ソフト２４を備え
る。

一方、データメモリ２６には、これから符号化しようと
する文字列、或いはこれから復号化しようとする符号列
を格納するデータバッファ２８と、ＬＺＷ符号を対象と
した符号化及び復号化の際に逐次作成されながら使用さ
れる辞書１０を備える。

この第３図の実施例における本発明のデータ圧縮方式の
概略は次のようになる。

まず、符号化及び復号化に先立ち、データメモリ２６の
データバッファ２８に対しては所望のサンプリングデー
タが格納される。このサンプリングデータとしては様々
な入力データの内、統計的に出現頻度が高い特定種類の
データを使用する。

データバッファ２８にサンプルデータが格納された状態
でＣＰｔＪ１２はコントロールソフト１６による制御の
もとに辞書初期値作成ソフト２４を起動し、辞書初期値
作成処理を行なう。具体的には、辞書初期値作成ソフト
２４は符号化ソフト２０を使用してデータバッファ２８
のサンプルデータを対象としたＬＺＷ符号化処理を実行
し、符号化済み文字列に参照番号を付加したデータを辞
書１０に順次登録していく。この辞書登録に際しては参
照番号毎にカウンタが設けられており、符号化時に、あ
る参照番号の文字列を経由した最大一致長検索が行なわ
れると、その都度カウンタかインクリメントされ、各文
字列の出現頻度を計数できるようにしている。

サンプリングデータを対象としたＬＺＷ符号化が終了す
ると、データメモリ２６に得られた辞書１０の内、カウ
ンタの計数値が閾値１以上出現した文字列のみを残すよ
うに辞書１０を圧縮することで辞書初期値を作成する。

このように辞書初期値が作成されたならば、辞書初期値
はデータメモリ２６の特定のエリアに保存しておき、符
号化または復号化を行なう初期化処理の際に辞書１０に
ロードする。また、辞書初期値を符号化及び復号化に使
用する辞書１０の先頭部分にそのまま残しておき、この
辞書初期値の部分を書き替え禁止領域とするようにして
もよい。

次に、第４図を参照して本発明のサンプルデータによる
辞書初期値の作成処理を説明する。

第４図において、まずＳｌでサンプルデータを構成する
文字列の第１番目の文字を含むように辞書を初期化する
。即ち、第１番目の文字コードｉを辞書のアドレスｉに
登録する。次に、辞書への現在の登録文字列の数を示す
カウンタｎを一文字全体の文字数ｎとし、続いて入力し
た最初の一文字にの辞書検索で得られた参照番号ωを、
語頭文字列ωとする。

尚、Ｓｌの初期化にあっては、サンプルデータを構成す
る文字列の全一文字を参照番号を付けて辞書に登録する
ようにしてもよい。

次に８２に進み、次の入力文字Ｋを読み込み、Ｓ３で文
字Ｋがあるか否か、即ち入力文字列の読込みが終了した
か否かチエツクしてＳ４に進む。

Ｓ４にあっては、第１番目に入力した文字の参照番号ω
、即ち語頭文字列ωに２番目の入力文字Ｋを組み合わせ
た文字列（ωＫ）が辞書にあるか否か検索する。このと
き、２文字目までしか入力していないので辞書には文字
列（ωＫ）が存在せず、従って８５に進み、文字列（ω
Ｋ）を辞書アドレスｎに登録し、２番目の文字Ｋを語頭
文字列ωに置き換え、更に参照番号ωの出現頻度を示す
カウンタｃｎｊ　　（ｎ）を作成してゼロにリセットし
、辞書への現在登録している文字列の数を示すカウン夕
ｎをインクリメントする。

一方、Ｓ４で文字列（ωＫ）が辞書に存在した場合には
Ｓ５に進み、文字列（ωＫ）を語頭文字列ωに置き換え
、これにより参照番号ωの文字列が使用されたことにな
るので、参照番号ωの文字列を示すカウンタｃｎ＋　　
（ω）をインクリメントする。

以上の８２〜Ｓ６に亘る処理の繰り返しにより全入力文
字の処理が終了すると８３から８７に進み、その時点で
得られた辞書の最終アドレスｎと辞書の内容を記憶装置
に書き込んで一連の辞書作成処理を終了する。

第５図は第４図の処理により作成された辞書について、
高頻度の文字列のみを辞書に残す辞書圧縮の処理フロー
図である。

第５図において、まずＳｌで第４図の処理で得られた辞
書の最終アドレスｎと辞書の内容をメモリにロードし、
辞書アドレスｉをゼロにリセットする。

続いてＳ２で辞書アドレスをインクリメントし、Ｓ３で
最終アドレスに達したか否かチエツクした後、Ｓ４に進
んで辞書アドレスｉのカウンタｃｎｌ（ｉ）が予め定め
た出現頻度を示す閾値Ｔより小さいか否かチエツクする
。

もし、カウンタｃｎｔ　　（ｉ）が閾値Ｔより小さけれ
ばＳ５に進んで、現在の辞書アドレスｉを削除して次の
辞書アドレスｊに置き換える削除処理を行なう。続いて
Ｓ６に進み、削除した辞書アドレスｉに続く次の辞書ア
ドレスｊが最終アドレスｎ以内にあるかチエツクし、最
終アドレスｎ以内にあればＳ７に進んで、辞書アドレス
ｉ以降に１−ωより大きい参照番号ωをもつ文字列が存
在するか否かチエツクする。削除した辞書アドレスｉ以
降に参照番号ωより大きい参照番号をもつ文字列が存在
したならばＳ８に進んで、文字列の中の参照番号ωの値
をデクリメントにより１つ減らし、Ｓ９に進んで辞書ア
ドレスｊの文字列（ωＫ）を１つ前の辞書アドレスｊ−
１に登録する。そして、処理が済んだ辞書アドレスｊを
次の処理のためにｊ＋１とインクリメントしてＳ６に戻
り、辞書アドレスｊが最終アドレスｎを越えるまでＳ６
．Ｓ７、Ｓ８及びＳ９の処理を繰り返す。即ち、閾値Ｔ
より小さい出現頻度の文字列を削除した場合には、削除
した文字列のアドレス以降に存在する文字列の中の参照
番号を１つ減らし、且つ登録アドレスを１つ詰める処理
を繰り返す。

Ｓ６〜Ｓ９の処理が終了すると８６からＳＩＯに進み、
文字列を１つ削除したことから最終アドレスｎを１つデ
クリメントし、再びＳ２に戻って辞書アドレスｉをイン
クリメントして次の文字列に対する出現頻度の計数値の
チエツクを行ない、Ｓ３で最終アドレスｎが判別するま
で繰り返す。

Ｓ３で最終アドレスｎへの到達が判別されると８１１に
進んで辞書の最終アドレスｎと辞書の内容を記憶装置に
書き込み、これにより圧縮された辞書初期値の生成が完
了する。

第６図は第４．５図の処理で得られた辞書初期値を使用
した本発明の符号化処理フロー図である。

第６図の符号化にあっては、まずＳｌで予めサンプルデ
ータに基づいて生成されている辞書初期値を記憶装置か
ら読み出し、読み出した辞書の最終アドレスｎと辞書の
内容を辞書として使用するメモリにロードする。この辞
書初期値のロードが第８図に示した従来の符号化処理と
異なる点である。続いてＳｌにあっては入力した最初の
文字Ｋにより辞書を検索して一致した文字列の参照番号
ωを取り出して語頭文字列とし、Ｓ２で次の文字Ｋを入
力し、Ｓ３で入力文字の終了の有無をチエツクした後、
語頭文字列ωに今回入力した文字Ｋを組み合われた文字
列（ωＫ）が辞書にあるか否かチエツクする。従来方式
にあっては、入力データの初期段階で文字列（ωＫ）が
辞書に存在する割合は少なかったが、本発明にあっては
、Ｓｌでサンプルデータの学習により得られた辞書初期
値としての文字列を既に格納しているため、Ｓ４で文字
列（ωＫ）が辞書にあることが判別されてＳ５に進み、
文字列（ωＫ）を語頭文字列ωに置き換えて再びＳ２に
戻り、以下、辞書の検索結果が得られなくなるまで最大
一致長となる部分列を検索する処理を繰り返す。この結
果、入力データの参照についても辞書から検索できる部
分列の連鎖数が増加し、圧縮率を向上することができる
。

勿論、Ｓ４で部分列（ωＫ）が辞書になかった場合には
Ｓ６に進んで、そのときの参照番号ωを符号語ｃｏｄｅ
　（ω）として出力し、今回処理した参照番号ωに次の
文字Ｋを加えた文字列（ωＫ）を、新たな参照番号を付
加して辞書に登録し、１文字Ｋを新たな語頭文字列に置
き換え、Ｓ２に戻って新たな部分列の最大一致長を求め
る符号化処理を行なう。

第７図は本発明の復号化処理フロー図であり、この符号
化処理にあっても、まずＳｌで第４，５図の処理で得ら
れた辞書初期値をメモリから読み出して、読み出した辞
書の最終アドレスｎと辞書の内容を復号化時に辞書とし
て使用するメモリにロードする点に特徴がある。

Ｓｌで既に得られた辞書初期値の辞書のロードが終了す
ると、Ｓ２で最初の符号を読み込み、Ｓ３で符号入力の
読込みが全て終了したか否かチエツクしてＳ４に進み、
符号が辞書に定義されているか否かチエツクする。Ｓ４
で辞書に定義されていることが判別されると８５に進み
、符号語に対応する参照番号をもつ文字列（ωＫ）を読
み出し、文字列（ωＫ）が得られればＳ６に進んで文字
Ｋをスタックし、文字Ｋを除いた参照番号ωの検索によ
り次の文字列（ωＫ）を８５で求め、参照番号ωが文字
Ｋに帰着するまでＳ５，８６の処理を行なった後、Ｓ７
に進み、Ｓ６でスタックした一連の文字をＬＩＦＯ型式
でポツプアップして出力する。

尚、Ｓ４で符号が辞書に定義されていない場合の８８に
おける例外処理は、Ｓｌにおける辞書初期値のロードに
より発生頻度がかなり低減しており、はとんど例外処理
に移行することなく符号から文字列を復号することが可
能となる。

このように、復号化については入力した最初の符号から
辞書に文字列として既に登録されているため、第９図の
従来の復号化にあっては、最初、まず１文字から復元し
ていたものの、第７図の本発明の復号化にあっては最初
の符号から文字列に復元することができる。

尚、第６，７図の符号化及び復号化の処理にあっては、
辞書の初期値を記憶装置からロードしてから符号化ある
いは復号化を始めるようにしているが、学習により得ら
れた初期値を辞書の先頭に格納して書き替えしない禁止
部分として設定して、辞書初期化による消去を禁止する
ことで符号化あるいは復号化してもよい。

また、上記の実施例にあっては辞書の初期値をサンプル
データを構成している１つの文字列から作成しているが
、これ以外に複数個のサンプルデータをつないだものを
入力して辞書の初期値を作成してもよい。また、１つの
サンプルデータから作成した初期値をロードした後に、
次のサンプルデータを使用して辞書を作り、この辞書の
中の高頻度の文字列のみを取り出すという処理を繰り返
すことで、累積して複数のサンプルデータに共通な辞書
の初期値を作成するようにしてもよい。

［発明の効果］以上説明してきたように本発明によれば、多く現れる特
定種類のデータをサンプルデータとして学習処理により
得られた辞書の初期値を符号化あるいは復号化に用いる
ことで、ＬＺＷ符号のアルゴリズムの簡易さをほとんど
変えることなく、圧縮率を大幅に向上することができる
。

また、初期値として辞書登録されていない出現照度の少
ない種類のデータについては、初期値設定後の辞書の空
きスペースに新たな文字列として登録することによって
、初期値として登録した特定種類のデータ以外のデータ
についてのユニバサル性を損うことなくデータ圧縮を行
なうことができる。

更に、出現頻度の高いデータの種類が予め予想できる場
合には、辞書初期値をデータの種類によって何種類か準
備しておき、辞書にロードする初期値の部分を切り換え
ることによって、予想した特定種のデータに対し強力な
データ圧縮を実現する符号化方式を実現することができ
る。

【図面の簡単な説明】

第１図は本発明の原理説明図；第２図は本発明の作用説明図；第３図は本発明の実施例構成図；第４図は本発明のサンプルデータによる辞書の作成処理
フロー図；第５図は本発明による辞書圧縮の処理フロー図；第６図
は本発明の符号化処理フロー図；第７図は本発明の復号
化処理フロー図；第８図は従来のＬＺＷ符号化処理フロ
ー図；第９図は従来のＬＺＷ復号化処理フロー図；第１
０図はＬＺＷ符号化説明図；第１１図は辞書構成例の説明図；第１２図はＬＺＷ復号化説明図である。図中、１０：辞書１２：ＣＰＵ１４ニブログラムメモリ１６　コントロールソフト１８・最大−成長検索ソフト２０：符号化ソフト２２：復号化ソフト２４：辞書初期値作成ソフト２６：データメモリ２８：データバッファ

Claims

【特許請求の範囲】

（１）符号化時には、入力字列を辞書（１０）に登録さ
れた既に符号化済みの部分列の内、最大長一致する部分
列の参照番号を指定して符号化すると共に該符号語とし
て得られた参照番号に次の１文字を付加した部分列を新
たな参照番号を付加して前記辞書（１０）に登録し、復
号時には、前記部分列の参照番号で表わされた符号語に
より前記辞書（１０）に既に登録された部分列を検索し
て元の部分列を復元すると共に前回処理された符号語に
今回復元した部分列の先頭文字を付加した部分列を新た
な参照番号を付加して前記辞書（１０）に登録する画像
データ圧縮方式に於いて、前記辞書（１０）の初期化時に、所望のサンプリングデ
ータを対象とした前記符号化により辞書登録された部分
列の内、出現頻度の高い部分列を既に符号化済みの部分
列と見做して前記辞書（１０）に初期値として登録する
ことを特徴とするデータ圧縮方式。
（２）前記サンプルデータの符号化により得られた辞書
初期値を、辞書にロードした後に符号化及び復号化を行
なうことを特徴とする請求項１記載のデータ圧縮方式。
（３）前記サンプルデータの符号化により得られた辞書
初期値を、前記辞書（１０）の先頭の書き替え禁止部分
に固定的に設定したことを特徴とする請求項１記載のデ
ータ圧縮方式。