JPH0628149A

JPH0628149A - 複数種類データのデータ圧縮方法

Info

Publication number: JPH0628149A
Application number: JP18328892A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田; Yasuhiko Nakano; 泰彦中野; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-07-10
Filing date: 1992-07-10
Publication date: 1994-02-04

Abstract

(57)【要約】【目的】ＬＺＷ符号等の動的辞書型アルゴリズムを用い
て入力データを圧縮符号化する複数種類データのデータ
圧縮方法に関し、複数種類のデータを対象に調べた高頻
度に出現する文字列を初期登録した符号化における辞書
探索を一本化し、処理時間を増加させることなく高い圧
縮率が得られるようにする。【構成】サンプルデータ１，２のＬＺＷ符号化で検出し
た出現頻度が、複数種類のデータで共通に高頻度となる
部分列を共通部分列群Ｓ₀₀として抽出して辞書領域Ａ₀
に初期登録する。また複数種類のデータ毎に高頻度とな
る部分列を固有部分列群Ｓ₁₀，Ｓ₂₀として抽出して辞書
領域Ａ₁ ，Ａ₂ に初期登録する。データ１，２が混在す
る入力文字列を符号化する際には、入力文字列に最長一
致する登録済み部分列を辞書から検索し、検索した部分
列の属する部分列群の群番号ｊと部分列群内での検索文
字列の登録番号ｉとを用いて入力文字列を符号化する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＬＺＷ符号等の動的辞
書型アルゴリズムを用いて入力データを圧縮符号化する
複数種類データのデータ圧縮方法に関する。近年、文字
コード，ベクトル情報，画像など様々な種類のデータが
コンピュータで扱われるようになっており、扱われるデ
ータ量も急速に増加してきている。

【０００２】大量のデータを扱うときは、データの中の
冗長な部分を省いてデータ量を圧縮することで、記憶容
量を減らしたり、速く伝送したりできるようになる。様
々なデータを１つの方式でデータ圧縮できる方法として
ユニバーサル符号化が提案されている。ここで、本発明
の分野は、文字コードの圧縮に限らず、様々なデータに
適用できるが、以下では、情報理論で用いられている呼
称を踏襲し、データの１ワード単位を文字と呼び、デー
タが任意ワードつながったものを文字列と呼ぶことにす
る。

【０００３】ユニバーサル符号の代表的な方法として、
ジブ−レンペル（Ziv-Lempel）符号がある（詳しくは、
例えば、宗像『Ziv-Lempelのデータ圧縮法』、情報処
理、Vol.26,No.1,1985年を参照のこと）。ジブ−レンペル符号ではユニバーサル型（スライド辞書型）と、増分分解型（Incremental parsing ；動的辞書型）の２つのアルゴリズムが提案されている。

【０００４】さらに、ユニバーサル型アルゴリズムの改
良として、ＬＺＳＳ符号、（T.C. Bell,“Better OPM/L
Text Compression ”,IEEE Trans. on Commun.,Vol.CO
M-34,No.12 Dec.1986 参照）。また、増分分解型アルゴ
リズムの改良としては、ＬＺＷ（Lempel-Ziv-Welch）符
号がある（T.A.Welch,“A Technique for High-Perform
ance Data Compression ”,Computer,June 1984 参
照）。

【０００５】これらの符号の内、高速処理ができること
と、アルゴリズムの簡単さからＬＺＷ符号が記憶装置の
ファイル圧縮などで使われるようになっている。

【０００６】

【従来の技術】従来のＬＺＷ符号の符号化アルゴリズム
を図１５のフローチャートに示す。ＬＺＷ符号化は、書
き替え可能な辞書をもち、入力文字列を相異なる部分列
に分け、この部分列を出現した順に参照番号を付けて辞
書に登録するとともに、現在入力している文字列を辞書
に登録してある最長一致する部分文字列の参照番号だけ
で表して、符号化するものである。

【０００７】尚、増分分解型符号およびＬＺＷ符号の技
術は、特開昭５９−２３１６８３号、米国特許第４，５
５８，３０２号，米国特許第４，８１４，７４６号で開
示されている。図１５の符号化処理は次のようになる。ステップＳ１；予め全文字につき一文字からなる文字列
を初期値として登録してから符号化を始める。辞書の登
録数ｎを文字種数Ａと置く。

【０００８】カーソルをデータの先頭の位置に置く。ステップＳ２；カーソルの位置からの文字列に一致する
辞書登録の最長文字列Ｓを見つける。ステップＳ３；文字列Ｓの識別番号を［ｌｏｇ₂ ｎ］ビ
ットで表して出力する。但し、［ｘ］はｘ以上の最小の
整数である。辞書登録数ｎを一つインクリメントする。

【０００９】ステップＳ４；文字列Ｓにカーソルの最初
の文字Ｃを付加した文字列ＳＣを辞書に登録する。カー
ソルはＳの後の文字に移動させる。ステップＳ５；入力データの終了をチェックし、終了す
るまでステップＳ２〜Ｓ４の処理を繰り返す。図１６は従来のＬＺＷ復号化のアルゴリズムを示したフ
ローチャートであり、図１５の符号化アルゴリズムと逆
の操作を行って入力符号から文字列を復元し、同時に辞
書を作成する。

【００１０】このような従来のＬＺＷ符号では、複数の
異なる性質をもつ複数種類のデータが混在するデータを
符号化すると、複数種のデータに合わせた辞書が作成さ
れて符号化が行なわれる。複数種が混在するデータとし
ては、例えば、文字コードと画像が混在するデータが挙
げられる。辞書のサイズが十分大きいときは、出現した
全てのデータ種を含む辞書が作られるため、個々のデー
タ種単独で圧縮した場合に比べて圧縮率が悪化するとい
う問題がある。

【００１１】また、辞書のサイズが小さいために１種類
のデータ分しか登録できないようなきは、各データの種
類が著しく異なれば、辞書をクリアして再学習するた
め、個々のデータ種に合わせた辞書が作られ、圧縮率は
低下しない。しかし、データ中に同じデータ種が交互に
出現するときは、そのつど学習し直すため、圧縮率が高
められないという問題点があった。

【００１２】この問題点を解決するため、本願発明者ら
は、データの種類ごとに辞書を分けて作成することで高
い圧縮率を得るようにした方法を提案している。図１７
にデータの種類毎に辞書を作成して符号化するＬＺＷ符
号化アルゴリズムを示す。図１７のＬＺＷ符号化は次の
ようになる。

【００１３】ステップＳ１；データの種類ごとに高頻度
で出現する文字列を求め、辞書の初期値とする。ステップＳ２；データの種類ごとに初期値を分割辞書に
設定する。カーソルを１とし、辞書アドレスｎ_j をデー
タｊの初期値の個数Ａｊとし、直前辞書番号をｐｐ＝０
とする。

【００１４】ステップＳ３；カーソルをセットした位置
からの入力文字列に一致する各辞書ｊ中の最長の文字列
Ｓｊ＝Ｓ１，Ｓ２，・・・，Ｓｋを見つける。ステップＳ４；ステップＳ３で見つけた文字列Ｓｊの中
から最長の文字列Ｓｐを求める。

【００１５】ステップＳ５；現在辞書番号ｐと直前辞書
番号ｐｐが一致するかどうか判定する。ステップＳ６；辞書番号が不一致の場合は、［ｌｏｇ₂
ｎ_pp］ビットを用いて辞書が変ったことを示す識別番号
０を表わし、また［ｌｏｇ₂Ｋ］ビットを用いて変った
辞書番号ｐを表わして出力する。

【００１６】ステップＳ７；ステップＳ６の出力が済み
またはステップＳ５で辞書番号が一致した場合に、ステ
ップＳ４で検索した文字部分列Ｓｐの番号を［ｌｏｇ₂
ｎ_p ］ビットを用いて表わし、出力する。辞書アドレス
ｎ_p を１つインクリメントする。ステップＳ８；文字列Ｓの次の文字をＣにセットする。
符号化済み文字列Ｓｐに文字Ｃを加えた文字列ＳｐＣ
を、辞書アドレスｎ_p で辞書に登録する。現在辞書番号
ｐを直前辞書番号ｐｐに置き替える。

【００１７】カーソルを文字列Ｓの位置の文字に移動さ
せる。ステップＳ９；データ終了の有無を判別し、終了してい
なければステップＳ３に戻り、終了していれば一連の処
理を終る。図１８は図１７のＬＺＷ符号化アルゴリズムの変形を示
したもので、図１６のステップＳ５，Ｓ６で行っている
参照辞書が変化を示す情報の符号化出力を除いており、
他の点は同じになる。

【００１８】この図１７，図１８に示す複数種類データ
のデータ圧縮方法では、データの種類ごとに高頻度で出
現する文字列を調べて、データの種類ごとの辞書Ｄｉに
予め設定しておき、複数個の辞書Ｄｉから検索した最長
一致文字列の中から最も一致長が長い文字列の辞書を選
んで符号化するものである。このため高頻度の初期値を
元にデータの種類が分類され、データ種に適する辞書Ｄ
ｉが選ばれるため、高圧縮率を得ることができる。

【００１９】

【発明が解決しようとする課題】しかしながら、複数種
類のデータが混在するデータを図１７，図１８の方法で
符号化する場合、高圧縮率は得られるものの、複数個の
辞書について最長一致する文字列を検索しなければなら
ず、辞書検索に時間がかかるという問題がある。この辞
書検索の問題は、ハードウェアで並列処理を行うように
すれば単一辞書を用いた従来のＬＺＷ符号化と同等の処
理速度が得られるが、ソフトウェアによるシーケンシャ
ル処理では辞書の複数の個数分の検索時間がかかり、処
理速度が低下する問題があった。

【００２０】本発明は、このような問題点に鑑みてなさ
れたもので、複数種類のデータを対象に調べた高頻度に
出現する文字列を初期登録した場合の符号化における辞
書探索を一本化し、処理時間を増加させることなく高い
圧縮率が得られるようにした複数種類データのデータ圧
縮方法を提供することを目的とする。

【００２１】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明は、複数種類のデータが混在する
入力データを符号化して圧縮する複数種類データのデー
タ圧縮方法として、次のようにする。［第１過程］複数種類のデータをＬＺＷ符号化し、この
符号化における辞書に登録した文字列の出現頻度を検出
する。

【００２２】［第２過程］第１過程のＬＺＷ符号化で検
出した出現頻度が、複数種類のデータで共通に高頻度と
なる部分列を共通部分列群Ｓ₀₀として抽出し、共通部分
列群Ｓ₀₀に特定の群番号ｊ＝０を付けて辞書領域Ａ₀ を
確保し、この辞書領域Ａ₀ に共通部分列群Ｓ₀₀に属する
各部分列を初期登録する。

【００２３】また第１過程のＬＺＷ符号化で検出した出
現頻度が、複数種類のデータ毎に高頻度となる部分列を
固有部分列群Ｓ₁₀，Ｓ₂₀として抽出し、各固有部分列群
Ｓ₁₀，Ｓ₂₀毎に特定の群番号ｊ＝１，ｊ＝２を付けて辞
書領域Ａ₁ ，Ａ₂ を確保し、辞書領域Ａ₁ ，Ａ₂ に該当
する固有部分列群Ｓ₁₀，Ｓ₂₀に属する各部分列を初期登
録する。

【００２４】［第３過程］複数種類のデータが混在する
入力文字列を符号化する際に、入力文字列に最長一致す
る登録済み部分列を辞書１０から検索し、検索した部分
列の属する部分列群の群番号ｊと該部分列群内での検索
文字列の登録番号ｉとを用いて入力文字列を符号化す
る。

【００２５】また本発明の他の複数種類データのデータ
圧縮方法としては、辞書領域を各データに共通な領域を
各データに固有な領域と一緒にしてもよい。この場合の
処理は、次のようになる。［第１過程］複数種類のデータをＬＺＷ符号化し、この
符号化における辞書に登録した文字列の出現頻度を検出
する。

【００２６】［第２過程］第１過程のＬＺＷ符号化で検
出した出現頻度が複数種類のデータで共通に高頻度とな
る共通部分列群Ｓ₀₀と各データ毎に高頻度となる部分列
群Ｓ₁₀，Ｓ₂₀とを合わせた固有部分列群（Ｓ₀₀＋Ｓ₁₀，
Ｓ₀₀＋Ｓ₂₀）を抽出し、各固有部分列群（Ｓ₀₀＋Ｓ₁₀，
Ｓ₀₀＋Ｓ₂₀）毎に特定の群番号ｊ＝１，２を付けて辞書
領域Ａ₁，Ａ₂ を確保し、該辞書領域に各固有部分列群
に属する各部分列を初期登録する。

【００２７】［第３過程］複数種類のデータが混在する
入力文字列を符号化する際に、入力文字列に最長一致す
る部分列を辞書から検索し、検索した部分列が共通部分
列群Ｓ₀₀に属するときは共通部分列群内の登録番号ｎを
用いて符号化し、一方、固有部分列群Ｓ₁₀，Ｓ₂₀に属す
るときは、固有部分列群の群番号ｊ＝１，２と該群内の
登録番号ｎ _j とを用いて符号化する。

【００２８】

【作用】このような本発明の複数種類データのデータ圧
縮方法にあっては、予め出現するデータ種が例えば２種
類の場合を例にとると、辞書に初期登録する文字列を２
種類のデータについて高頻度で共通に現れる文字列と、
各種類のデータだけに高頻度で現れる文字列との３つの
集合Ｓ₀₀，Ｓ₁₀，Ｓ₂₀（文字列群）に分けて辞書に格納
しておき、符号化時に入力データと最長一致する辞書中
の文字列を、対応する集合ごとの参照番号ｊ＝０，１，
２を付けて符号化する。

【００２９】これにより複数種類のデータ毎に調べた高
頻度の文字列を単一の辞書に初期登録して複数種類のデ
ータが混在するデータの符号化を行うことができ、ソフ
トウェアによる符号化であっても辞書検索を通常のＬＺ
Ｗと同等の処理速度で行って高い圧縮率を得ることがで
きる。

【００３０】

【実施例】図２は複数種類のデータが混在したデータを
符号化する本発明の複数種類データのデータ圧縮方法を
実現する装置構成の一実施例を示した実施例構成図であ
る。図２において、１６はＣＰＵであり、ＣＰＵ１６に
対してはプログラムメモリ１８とデータメモリ３０が接
続される。プログラムメモリ１８にはコントロールソフ
ト２０，符号化ソフト２２，初期値作成手段としての機
能を備えた辞書作成ソフト１４，出現頻度カウントテー
ブル２６及び出現頻度格納テーブル２８が設けられる。

【００３１】符号化ソフト２２は入力文字列に最長一致
する辞書中の文字列を検索して辞書の参照番号を符号デ
ータとして出力する、例えばＬＺＷ符号化アルゴリズム
を基本的に備える。また、復号化ソフト２４は符号化ソ
フト２２により符号化された入力符号列で辞書中の参照
番号を検索し、対応する文字列を複号する例えばＬＺＷ
復号化アルゴリズムを行う。

【００３２】辞書作成ソフト１４は符号化あるいは復号
化に先立って行う初期値作成処理と符号化及び復号化の
処理中に新たな文字列を辞書に登録する処理の２つを行
う。この辞書作成ソフト１４における初期値作成機能は
データメモリ３０に格納された複数種類のデータを代表
するサンプルデータ、例えば２種類のサンプルデータ
１，２を対象に符号化ソフト２２に従った符号化を行
い、この符号化時に辞書から文字を検索して符号データ
として出力する毎に、符号データとして検索された辞書
中の文字列の参照番号の使用回数を出現頻度カウントテ
ーブル２６を使用してカウントアップし、文字列の出現
頻度を検出する。

【００３３】サンプルデータの符号化が終了したならば
出現頻度カウントテーブル２６の中のサンプルデータ
１，２毎の出現頻度を参照し、２種類のデータ１，２に
共通する高頻度の文字列の集合を初期値Ｓ₀₀として登録
し、またデータ１，２のそれぞれで独立に高頻度に生ず
る文字列の集合を初期値Ｓ₁₀，Ｓ₂₀として登録する。一
方、データメモリ３０には辞書１０とデータバッファ３
２の各メモリ領域が確保される。

【００３４】初期値作成時にはデータバッファ３２には
初期値作成の対象となる複数種類のサンプルデータ、例
えばサンプルデータ１，２が格納され、また辞書１０に
は初期値作成のための符号化時に辞書作成ソフト１４で
作成された文字列が参照番号と共に登録される。初期値
作成が済むと、辞書１０には辞書作成ソフト１４で作成
された複数種類、例えば２種類のデータ１，２の共通の
初期値Ｓ₀₀、各データ１，２毎の初期値Ｓ₁₀，Ｓ₂₀がそ
れぞれに割り当てられた領域Ａ₀ ，Ａ₁ ，Ａ₂ 毎に初期
登録が行われる。そしてデータバッファ３２には新たに
符号化しようとするデータ１，２が混在した文字列ある
いは復号化しようとする符号列が格納され、符号化ソフ
ト２２による文字列の復号化あるいは復号化ソフト２４
による文字列の復元が行われる。

【００３５】図３は本発明において２種類のサンプルデ
ータ１，２を対象に辞書に登録する初期値の作成処理を
示したフローチャートである。図３の初期値作成処理に
あっては、まずステップＳ１で２種類のデータ１，２を
対象にＬＺＷ符号化を行い、データ１，２に共通な高頻
度の初期値Ｓ₀₀を作成する。

【００３６】続いてステップＳ２で共通の初期値Ｓ₀₀を
辞書のＡ₀₀領域に格納してデータ１のみをＬＺＷ符号化
し、データ１に特有の高頻度の初期値Ｓ₁₀を作成する。
続いてステップＳ３で共通の初期値Ｓ₀₀を辞書のＡ₀₀領
域に格納してデータ２のみをＬＺＷ符号化し、データ２
に特有の高頻度の初期値Ｓ₂₀を作成する。具体的には、
図４に示すようにサンプルデータ１，２を対象にＬＺＷ
符号化を行って辞書に符号化済み文字列の部分列を参照
番号と共に登録し、サンプルデータ１の符号化における
出現頻度ｆ₁ とサンプルデータ２の符号化における出現
頻度ｆ₂ のそれぞれを計数する。

【００３７】図５はサンプルデータ１，２の符号化で得
られた出現頻度を縦軸にとり辞書の要素番号（参照番
号）を横軸にとって示した説明図である。図５におい
て、サンプルデータ１，２中の要素（文字列）の出現頻
度をそれぞれｆ₁ ，ｆ₂ とし、また共通初期値Ｓ₀₀の閾
値をＴ₀ 、各サンプルデータ１，２特有の閾値をＴ₁ ，
Ｔ₂ とすると、初期値Ｓ₀₀，Ｓ₁₀，Ｓ₂₀の集合は次のよ
うになる。初期値Ｓ₀₀：ｆ₁ ＞Ｔ₀ かつｆ₂ ＞Ｔ₀ の要素の集
合初期値Ｓ₁₀：ｆ₁ ≧Ｔ₀ かつｆ₂ ≦Ｔ₀ かつｆ
₁ ＞Ｔ₁ の要素の集合初期値Ｓ₂₀：ｆ₁ ≦Ｔ₀ かつｆ₂ ≧Ｔ₀ かつｆ
₂ ＞Ｔ₂ の要素の集合このようにデータ１，２が混在した場合の符号化で作成
される辞書要素の全体をデータ１，２に共通の集合Ｓ₀₀
とデータ１，２に固有の集合Ｓ₁₀，Ｓ₂₀に分類して辞書
に初期登録しておけば、この初期登録した辞書を用いた
符号化で符号化中のデータが最長一致する辞書の参照番
号がどの集合に属するかを調べることでデータ１，２の
変移区間Ｓ₀₀なのか特定データ１，２の区間Ｓ₁₀または
Ｓ₂₀にあるかを判別することができ、単一の辞書を用い
てデータの種類に対応した効率の良い符号化を行うこと
ができる。

【００３８】図６は図３のステップＳ１に示したデータ
１，２に共通の初期値Ｓ₀₀を作成する初期値作成処理を
詳細に示したフローチャートである。図６において、ま
ずステップＳ１にデータ１，２のそれぞれにおける全て
の単一文字を初期値として登録してから符号化を始め
る。また辞書の登録数ｎを文字種数Ａと置き、カーソル
をデータの先頭位置にセットし、更に出現頻度を計数す
るカウンタｆ₁ を変移要素Ｎ個分準備して０に初期化す
る。

【００３９】次にステップＳ２でサンプルデータ１の入
力を開始し、ステップＳ３でデータ入力の終了をチェッ
クした後、ステップＳ４に進んでカーソル位置からの文
字列に一致する辞書中の最長の文字列Ｓを見付ける。続
いてステップＳ５で見付けた最長一致の文字列に含まれ
る全てのセット文字列について出現頻度ｆ₁ を１つイン
クリメントする。

【００４０】次にステップＳ６で辞書アドレスｎを１つ
インクリメントし、符号化した最長一致文字列Ｓの次の
文字をＣとし、この次の１文字を文字列Ｓに加えた文字
列ＳＣを参照番号ｎを付けて辞書に登録する。そして、
カーソルを文字列Ｓの次の文字に移動させ、ステップＳ
２で次のサンプルデータ１を入力する。ステップＳ２〜
Ｓ６の処理の繰返しにより、ステップＳ３でサンプルデ
ータ１の入力終了が判別されるとステップＳ７に進み、
再びカーソルを１にセットし、サンプルデータにおける
出現頻度計数のため、サンプルデータ２の全要素分Ｎ個
のカウンタｆ₂ を０にリセットし、ステップＳ８でサン
プルデータ２の入力を開始する。

【００４１】続いてステップＳ９を介してステップＳ１
０に進み、サンプルデータ２のカーソル位置からの文字
列に一致する辞書中の最長一致する文字列Ｓを見付け、
ステップＳ１１で見付けた最長一致の文字列に含まれる
全てのセット文字列について出現頻度ｆ₂ を１つインク
リメントする。続いてステップＳ１２で辞書番号ｎを１
つインクリメントし、検索した最長一致文字列Ｓの次の
１文字をＣとし、最長一致文字列Ｓ₁ に次の１文字Ｃを
加えた文字列ＳＣを参照番号ｎを付けて辞書に登録し、
カーソルを文字列Ｓの次の文字に移動させ、再びステッ
プＳ８に戻る。

【００４２】ステップＳ９でサンプルデータ２の入力終
了が判別されるとステップＳ１３に進み、サンプルデー
タ１の出現頻度ｆ₁ 及びサンプルデータ２の出現頻度ｆ
₂ が共に閾値Ｔ₀ となる辞書中の文字列を取り出して初
期値Ｓ₀₀とする。図７は図３の初期値作成処理における
ステップＳ２及びＳ３の詳細を示したフローチャートで
ある。

【００４３】図７にあっては、まずステップＳ１で図６
で作成したサンプルデータ１，２に共通な高頻度の初期
値Ｓ₀₀を辞書Ｄに格納し、カーソルを１に合わせ、辞書
アドレスをｎ₀ 及びｎ₁ にセットし、出現頻度を計数す
るカウンタｆを０にリセットする。続いてステップＳ２
でまずサンプルデータ１を入力し、ステップＳ３を介し
てステップＳ４で辞書中の最長一致する文字列Ｓを見つ
け、ステップＳ４で最長一致文字列に含まれる全てのセ
ット文字列について出現頻度ｆを１つインクリメントす
る。

【００４４】続いてステップＳ６で辞書アドレスｎを１
つインクリメントし、最長一致文字列Ｓの次の１文字を
Ｃとし、この１文字を最長一致文字列Ｓに加えた文字列
ＳＣに参照番号ｎを付けて辞書に登録する。続いてカー
ソルを文字列Ｓの後ろの１文字に移動させ、ステップＳ
２に戻って次のサンプルデータ１を入力する。以上のス
テップＳ２〜Ｓ６の処理の繰返しによりサンプルデータ
１の符号化が済むとサンプルデータ２の符号化に切り替
わり、同様な処理を繰返す。

【００４５】ステップＳ３でデータ入力の終了が判別さ
れるとステップＳ７に進み、サンプルデータ１，２毎に
計数されている出現頻度ｆ₁ ，ｆ₂ に付き、閾値Ｔ₁ ，
Ｔ₂以上となる辞書中の文字列を取り出してサンプルデ
ータ１，２に特有な初期値Ｓ ₁₀，Ｓ₂₀とする。図８はサ
ンプルデータ１，２から作成された初期値Ｓ₀₀，Ｓ₁₀，
Ｓ₂₀を用いた本発明によるＬＺＷ符号化アルゴリズムを
示したフローチャートである。

【００４６】図８において、まずステップＳ１において
予めサンプルデータ１，２から作成した初期値Ｓ₀₀，Ｓ
₁₀，Ｓ₂₀をそれぞれ辞書の領域Ａ₀₀，Ａ₁₀，Ａ₂₀に格納
する。また、各領域における既存の辞書登録の要素数ｎ
₀ ，ｎ₁ ，ｎ₂ を設定する。図９は図８のＬＺＷ符号化
で使用される辞書構成を示した説明図である。図９にお
いて、各符号は次の内容を示す。Ａ₀ ，Ａ₁ ，Ａ₂ ：共通部分、データ種１，データ種２
の格納領域Ｎ_0max，Ｎ_1max，Ｎ_2max：格納領域Ａ₀ ，Ａ₁ ，Ａ₂ の
各格納領域の最大要数Ｓ₀₀，Ｓ₁₀，Ｓ₂₀：共通部分，データ種１，データ種２
の初期値Ａ₀₀，Ａ₁₀，Ａ₂₀：共通部分，データ種１，データ種２
の初期値の格納領域ｎ₀₀，ｎ₁₀，ｎ₂₀：共通部分，データ種１，データ種２
の初期値の要素数Ａ₀₁，Ａ₁₁，Ａ₂₁：共通部分，データ種１，データ種２
の既登録要素の格納領域ｎ₀ ，ｎ₁ ，ｎ₂ ：共通部分，データ種１，データ種２
の既登録要素数Ａ₀₂，Ａ₁₂，Ａ₂₂：共通部分，データ種１，データ種２
の空き領域例えば、データ１，２に共通な高頻度をもつ初期値Ｓ₀₀
を登録した辞書領域Ａ ₀ についてみると、初期格納領域
Ａ₀₀に初期要素数ｎ₀₀の初期値Ｓ₀₀を登録している。こ
の領域Ａ₀₀に続いて初期値Ｓ₀₀を用いた符号化で新たに
登録された要素を含む既登録要素領域Ａ₀₁が設けられ、
ここまでの既存の登録要素数をｎ₀ としている。また領
域Ａ₀ ，Ａ₁ ，Ａ₂ については最大要素数をＮ_0max，Ｎ
_1max及びＮ_2maxと予め定めている。

【００４７】再び図８を参照するに、辞書に対する初期
登録が済むとステップＳ２で入力データと最長一致する
辞書中の文字列（要素）を探索し、参照番号ｉを求め
る。続いて参照番号ｉが含まれる辞書領域Ａ_j より辞書
領域番号ｊを求める。この実施例ではデータは２種類で
はあることから辞書領域ｊは図９に示すようにＡ₀，Ａ₁
，Ａ₂ の３つであり、辞書領域番号ｊはｊ＝０，１，
２のいずれかとなる。

【００４８】次にステップＳ４で前回の辞書領域番号と
今回求めた辞書領域番号ｊとが等しいか否かチェック
し、等しければステップＳ６に進み、参照番号ｉを辞書
領域Ａ _j に対応する番号ｉ_j に変換して符号化出力す
る。一方、前回の辞書領域番号が今回求めた辞書領域番
号ｊに一致しなかった場合にはステップＳ５で新たな辞
書領域番号ｊを符号化してからステップＳ６で参照番号
ｉの符号化出力を行う。

【００４９】続いてステップＳ７で辞書領域Ａ_j に空き
があれば、その辞書領域の辞書アドレスｎ_j を１つイン
クリメントし、最長一致した文字列に次の１文字を付加
した文字列を辞書領域Ａに参照番号ｎ_j を付けて追加登
録する。ステップＳ８ではデータ終了の有無をチェック
しており、データが終了しなければステップＳ２に戻っ
て同様な処理を繰り返し、データが終了すれば一連の符
号化処理を終わる。

【００５０】図８のステップＳ６における参照番号ｉを
辞書領域Ａ_j に対応する参照番号ｉ _j に変換する処理は
次のモード１〜３に従って行う。［モード１］０≦ｉ＜Ｎ_0max；辞書領域番号＝０辞書領域の対応番号ｉ₀ ＝ｉ＋Ｎｐ［モード２］Ｎ_0max≦ｉ＜Ｎ_1max；辞書領域番号＝１辞書領域の対応番号ｉ₁ ＝ｉ−Ｎ_0max＋Ｎｐ［モード３］Ｎ_1max≦ｉ；辞書領域番号＝２辞書領域に対応番号ｉ₂ ＝ｉ−（Ｎ_0max＋Ｎ_1max）＋Ｎ
ｐここで、Ｎｐは予約語の数であり、この実施例では例え
ばＮｐ＝５の予約語を辞書領域の先頭に設けている。例
えば、図１０に示すように、辞書の先頭アドレス０〜４
を予約語領域とし、この辞書アドレス即ち参照番号０〜
４を各予約領域に示した意味をもつ情報として使用す
る。

【００５１】即ち、参照番号０は辞書領域番号Ａ₀ を示
し、参照番号１は辞書領域Ａ₁ を示し、また参照番号２
は辞書領域番号Ａ₂ を示す。また、参照番号３は辞書の
初期化を指令する制御コマンドとしての意味をもつ。更
に参照番号４は符号化データの終了を示すＥＯＦ等に用
いる。このため、実際の辞書領域は予約語領域に続くア
ドレス５、即ち参照番号５から開始され、モード１〜３
に示すように検索した参照番号ｉに予約語数Ｎｐを加え
ることで実アドレスが求まる。

【００５２】またモード１〜３における辞書領域に対応
した参照番号ｉ₀ ，ｉ₁ ，ｉ₂ は図９に示した辞書領域
Ａ₀ ，Ａ₁ ，Ａ₂ における領域内での相対位置を示して
いる。このため、絶対位置を示す参照番号ｉに対し各領
域Ａ₀ 〜Ａ₂ 内での相対位置を示す参照番号ｉ₀ ，ｉ
₁ ，ｉ₂ に変換することで、より少ない数値の参照番号
とでき、符号化データのビット長を短縮して圧縮率を高
めることができる。

【００５３】また、前記モード１〜３に示すようにして
求めた各領域の対応番号ｉ_j ＝ｉ₀，ｉ₁ ，ｉ₂ は各領
域の要素数ｎ_j ＝ｎ₀ ，ｎ₁ ，ｎ₂ を用いて表現し得る
最小ビット数である［ｌｏｇ₂ （ｎ_j ＋Ｎｐ）］ビットで符号化する。但し、［Ｘ］はＸ以上の最小の整数を示
している。

【００５４】更に図８のステップＳ５における辞書領域
番号ｊの符号化にあっては、辞書領域番号ｊを［ｌｏｇ₂ （ｎ_k ＋Ｎｐ）］ビットで符号化することになる。図１１は図８のＬＺＷ符号化
で得られた符号化データの説明図であり、図１１にあっ
ては符号化に使用する辞書領域が領域Ａ₁ ，Ａ₀ ，Ａ₂
と変移していったときの符号化データを示す。

【００５５】即ち、最初は辞書領域ｊ＝１にあることか
ら辞書領域番号ｊ＝１を符号化し、続いて領域Ａ₁ に属
する文字列の符号化データを出力する。符号化データを
３つ出力すると４番目の符号化データは領域Ａ₀ に属し
ていることから、ここで領域ｊ＝０を符号データとした
後に文字列の符号データを出力する。更に、符号化デー
タが領域Ａ₂ に属すると領域ｊ＝２を符号化して出力し
た後に領域Ａ₂ に属する文字列の参照番号の符号データ
を出力する。

【００５６】図１２は図８のＬＺＷ符号化アルゴリズム
で得られた符号データから元の文字列を復元するＬＺＷ
復号化アルゴリズムを示したフローチャートである。図
１２において、まずステップＳ１で図８の符号化と同
様、初期値Ｓ₀₀，Ｓ₁₀，Ｓ₂₀をそれぞれ辞書の対応領域
Ａ₀₀，Ａ₁₀，Ａ₂₀に格納する。続いてステップＳ２で符
号を入力し、ステップＳ３で辞書領域番号の符号入力の
有無をチェックし、辞書領域番号があればステップＳ５
で現在の辞書領域番号を更新してステップＳ２で本来の
符号を入力する。

【００５７】続いてステップＳ４で現在の辞書領域に対
応する番号ｉ_j である符号を、前述したモード１〜３の
対応番号を求める関係式を使用して辞書の参照番号ｉに
戻す。次にステップＳ５で辞書を参照し、参照番号ｉに
対応する文字列を復元する。ステップＳ６で前回の辞書
領域Ａ_k に空き領域があれば辞書アドレスｎ_k を１つイ
ンクリメントし、前回の復元した文字列に今回復元した
文字列の先頭文字を付加した文字列を辞書領域Ａ_k に辞
書アドレスｎ_k を付けて登録する。

【００５８】以上の処理をステップＳ７で全ての符号デ
ータの入力が済むまで繰り返し、符号データの入力がな
くなれば処理を終了する。図１３は本発明の第２実施例
で使用する辞書構成を示した説明図である。即ち、図９
に示す辞書構成の実施例にあっては、辞書をデータ１，
２に共通の領域Ａ₀ とデータ１，２に特有な領域Ａ₁ ，
Ａ₂ に分けていたが、図１３の実施例にあっては、デー
タ１，２に共通な領域の各々とデータ１，２に特有な領
域を一緒にして１つの辞書領域としたことを特徴とす
る。

【００５９】即ち、図１３の辞書構成にあっては、デー
タ１，２に共通な高頻度の初期値Ｓ ₀₀を登録した領域に
ついては、データ１，２に固有な領域Ａ₁ またはＡ₂ の
一部に含ませており、この共通の初期値Ｓ₀₀にデータ
１，２に特有な領域Ａ₁ ，Ａ₂のそれぞれを加えた領域
が実際の符号化に使用するデータ１，２に固有な辞書領
域となる。

【００６０】図１３のように共通領域を各データに固有
の領域と一緒にした場合の辞書構成におけるＬＺＷ符号
化アルゴリズムは図８と同じになるが、図８のステップ
Ｓ６における最長一致した辞書の参照番号ｉを辞書領域
に対応する番号ｉ_j に変換するモード１〜３の処理が異
なる。図１３の第２実施例における参照番号ｉを各領域
の対応番号ｉ_j に直す処理は次のモード１〜３のように
なる。［モード１］０≦ｉ＜Ｎ_0max；辞書領域番号＝１または２辞書領域の対応番号ｉ₀ ＝ｉ＋Ｎｐ［モード２］Ｎ_0max≦ｉ＜Ｎ_1max；辞書番号＝１辞書領域の対応番号ｉ₁ ＝ｎ₀ ＋ｉ−Ｎ_0max＋Ｎｐ［モード３］Ｎ_1max≦ｉ；辞書番号＝２辞書領域に対応番号ｉ₂ ＝ｎ₀ ＋ｉ−（Ｎ_0max＋
Ｎ_1max）＋Ｎｐこの第２実施例におけるモード１〜３における対応番号
ｉ₀ 〜ｉ₂ への変換は、モード１の共通領域Ａ₀ につい
ては最初の実施例と同じであるが、モード２，３につい
ては共通領域Ｓ₀₀の既登録要素数ｎ₀ 分だけ領域Ａ₁ ，
Ａ₂ を拡張するように対応番号を求める。

【００６１】図１４は辞書参照番号ｉが領域Ａ₁ に属し
た場合の対応番号ｉ₁ への変換を示したもので、想像線
で示す実際の辞書番号ｉに対する対応番号ｉ_j を求める
と、領域Ａ₁ の一部である共通領域Ａ₀ の既登録要素数
ｎ₀ 分だけ領域Ａ₁ を拡張した参照番号に変換すること
を意味する。これによって、領域Ａ₁ は共通領域Ａ₀を
含む１つの領域として扱われることになる。

【００６２】その結果、入力データと最長一致する文字
列が領域Ａ₁ またはＡ₂ の一部である共通領域Ａ₀ に属
するときは辞書領域番号ｊ＝１，２の指定は不要とな
る。この共通領域Ａ₀₀を各データ特有の領域Ａ₁₀，Ａ₂₀
と一緒にした辞書構成による符号化は、結局は２つの辞
書を切り換えて使用していることと同じになる。また、
上記の実施例におけるＬＺＷ符号化にあっては、入力す
る混在データの統計的性質の変動も考慮し、共通初期値
Ｓ₀₀の登録領域Ａ₀₀，Ａ₁₀，Ａ₂₀に続いて空き領域
Ａ₀₂，Ａ₁₂，Ａ₂₂を設け、実際のＬＺＷ符号化で得られ
た新たな文字列を登録する学習領域とし、学習によって
混在データの統計的性質の変動を吸収している。

【００６３】しかしながら、入力データの統計的性質が
データの種類ごとに予め分かっていれば辞書の初期値登
録領域に続く空き領域Ａ₀₂，Ａ₁₂，Ａ₂₂は設けず、初期
値だけで符号化を行っても良い。このように初期値
Ｓ₀₀，Ｓ₁₀，Ｓ₂₀のみでＬＺＷ符号化を行った場合には
辞書への登録操作が省略できるため、更に処理速度を向
上させることができる。

【００６４】更に、上記の実施例にあっては２種類のデ
ータの符号化に適用した場合を例にとるものであった
が、本発明はこれに限定されず、２種類以上のデータに
ついても全く同様に適用することができ、この場合には
データの種類毎に高頻度の共通部分と各データ固有の高
頻度の部分とに分けて集合を作り、各集合毎に参照番号
を割り振って符号化すれば良い。

【００６５】

【発明の効果】以上説明したように本発明によれば、複
数種類のデータについて調べた高頻度の出現文字列の初
期値を１つの辞書に登録して複数種類の混在データの符
号化及び復号化を行うことができ、単一辞書であること
からソフトウエアによるシーケンシャル処理であっても
データの種類毎に分割辞書を用いた方法に比べ、より高
速の処理を行って高圧縮率を得ることができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の複数種類データのデータ圧縮方法を実
施する装置構成の実施例構成図

【図３】本発明の初期値作成処理の概略を示したフロー
チャート

【図４】本発明における初期値作成処理の内容を示した
説明図

【図５】本発明の初期値作成における符号化で得られた
サンプルデータ１，２の出現頻度を示した説明図

【図６】図３の共通部分Ｓ₀₀の初期値作成アルゴリズム
を示したフローチャート

【図７】図３の固有部分Ｓ₁₀，Ｓ₂₀の初期値作成アルゴ
リズムを示したフローチャート

【図８】本発明の第１実施例におけるＬＺＷ符号化アル
ゴリズムを示したフローチャート

【図９】図９の符号化で使用される辞書構成の説明図

【図１０】図８の領域内の番号に変換する際に使用する
予約語数Ｎｐの辞書内容を示した説明図

【図１１】図８の符号化で得られる符号データの説明図

【図１２】本発明の第２実施例におけるＬＺＷ符号化ア
ルゴリズムを示したフローチャート

【図１３】図１２のＬＺＷ符号化で使用される辞書構成
の説明図

【図１４】図１３における領域内の対応番号が意味する
辞書領域の説明図

【図１５】従来のＬＺＷ符号化アルゴリズムを示したフ
ローチャート

【図１６】従来のＬＺＷ復号化アルゴリズムを示したフ
ローチャート

【図１７】データの種類毎に調べて高頻度の文字列を分
割辞書に初期登録して行うＬＺＷ符号化アルゴリズムを
示したフローチャート

【図１８】図１７の変形を示したフローチャート

【符号の説明】

１０：辞書１６：ＣＰＵ１８：プログラムメモリ２０：コントロールソフト２２：符号化ソフト２４：復号化ソフト２６：出現頻度カウントテーブル２８：頻度閾値格納テーブル３０：データメモリ３２：データバッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】複数種類のデータが混在する入力データを
符号化して圧縮する複数種類データのデータ圧縮方法に
於いて、複数種類の各データを相異なる部分列に分けて辞書に登
録し、各データ毎に入力文字列に最長一致する辞書に登
録済みの部分列を検索し、検索した部分列の登録番号で
表わして入力文字列を圧縮符号化し、該符号化における
部分列の出現頻度を検出する第１過程と、前記第１過程で検出した出現頻度が、複数種類のデータ
で共通に高頻度となる部分列を共通部分列群（Ｓ₀₀）と
して抽出し、該共通部分列群（Ｓ₀₀）に特定の群番号
（ｊ＝０）を付けて辞書領域（Ａ₀ ）を確保し、該辞書
領域（Ａ₀ ）に該共通部分列群（Ｓ₀₀）に属する各部分
列を初期登録し、また前記第１過程で検出した出現頻度
が、複数種類のデータ毎に高頻度となる部分列を固有部
分列群（Ｓ ₁₀，Ｓ₂₀）として抽出し、各固有部分列群
（Ｓ₁₀，Ｓ₂₀）毎に特定の群番号（ｊ＝１，２）を付け
て辞書領域（Ａ₁ ，Ａ₂ ）を確保し、該辞書領域（Ａ
₁ ，Ａ₂）に該当する固有部分列群（Ｓ₁₀，Ｓ₂₀）に属
する各部分列を初期登録する第２過程と、複数種類のデータが混在する入力文字列を符号化する際
に、入力文字列に最長一致する登録済み部分列を前記辞
書から検索し、検索した部分列の属する部分列群
（Ｓ₀₀，Ｓ₁₀，Ｓ₂₀）の群番号（ｊ＝０，１，２）と該
部分列群内での検索文字列の登録番号（ｉ_j ）とを用い
て入力文字列を符号化する第３過程と、を備えたことを
特徴とする複数種類データのデータ圧縮方法。
【請求項２】複数種類のデータが混在する入力データを
符号化して圧縮する複数種類データのデータ圧縮方法に
於いて、複数種類の各データを相異なる部分列に分けて辞書に登
録し、各データ毎に入力文字列に最長一致する辞書に登
録済みの部分列を検索し、検索した部分列の登録番号で
表わして入力文字列を圧縮符号化し、該符号化における
部分列の出現頻度を検出する第１過程と、前記第１過程で検出した出現頻度が複数種類のデータで
共通に高頻度となる共通部分列群（Ｓ₀₀）と各データ毎
に高頻度となる部分列群とを合わせた固有部分列群（Ｓ
₁₀，Ｓ₂₀）を抽出し、各固有部分列群（Ｓ₁₀，Ｓ₂₀）毎
に特定の群番号（ｊ＝１，２）を付けて辞書領域（Ａ
₁ ，Ａ₂ ）を確保し、該辞書領域（Ａ₁ ，Ａ₂ ）に前記
共通部分列群（Ｓ₀₀）を合せた各固有部分列群（Ｓ₁₀，
Ｓ₂₀）に属する各部分列を初期登録する第２過程と、複数種類のデータが混在する入力文字列を符号化する際
に、入力文字列に最長一致する部分列を前記辞書から検
索し、検索した部分列が前記共通部分列群（Ｓ ₀₀）に属
するときは該共通部分列群（Ｓ₀₀）内の登録番号（ｉ）
を用いて符号化し、一方、固有部分列群（Ｓ₁₀，Ｓ₂₀）
に属するときは、該固有部分列群の群番号（Ａ₁ ，Ａ
₂ ）と該群内の登録番号（ｉ_j ）とを用いて符号化する
第３過程と、を備えたことを特徴とする複数種類データ
のデータ圧縮方法。
【請求項３】請求項１，２記載の複数種類データのデー
タ圧縮方法に於いて、前記第３過程では、符号化すべき
入力文字列に最長一致する部分列が、前回符号化で最長
一致した部分列と同じ部分列群に属しているときは、該
群内の登録番号のみを用いて符号化し、前回符号化で最
長一致した部分列と異なる部分列群に属しているとき
は、該群番号と該群内の登録番号を用いて符号化するこ
とを特徴とする複数種類データのデータ圧縮方法。
【請求項４】請求項１，２記載の複数種類データのデー
タ圧縮方法に於いて、前記第１過程では、出現する全種
類のデータのサンプルごとに符号化を行って相異なる部
分列の出現頻度を計数することを特徴とする複数種類デ
ータのデータ圧縮方法。
【請求項５】請求項１，２記載の複数種類データのデー
タ圧縮方法に於いて、前記第３過程にあっては、入力文
字列を辞書の最長一致する部分列の検索で符号化した際
に、該符号化済み文字に次の入力一文字を加えた文字列
を、符号化文字列が属する部分列群に新たな参照番号を
付けて登録することを特徴とする複数種類データのデー
タ圧縮方法。
【請求項６】請求項１，２記載の複数種類データのデー
タ圧縮方法に於いて、前記第２過程にあっては、各部分
列群ごとに最大登録個数を予め定めて該部分列群を登録
するメモリ領域を割り当てておき、前各群に属する部分
列の登録番号を各メモリ領域の先頭からの位置で表すこ
とを特徴とする複数種類データのデータ圧縮方法。