JPH06149537A

JPH06149537A - データ圧縮方法及び復元方法

Info

Publication number: JPH06149537A
Application number: JP4295648A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田; Yasuhiko Nakano; 泰彦中野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1992-11-05
Filing date: 1992-11-05
Publication date: 1994-05-27

Abstract

(57)【要約】【目的】動的辞書型アルゴリズムを用いたＬＺＪ符号に
よるデータ圧縮及び復元方法に関し、辞書に確率構造が
入らないというＬＺＪ符号の欠点を解消してデータの種
類を問わず高圧縮を可能とする。【構成】データ圧縮は、入力文字列を部分列に分解し、
各部分列を辞書に登録済み部分列中で閾値Ｔ以上の高頻
度で出現する部分列の内の最長一致部分列の参照番号で
表して符号化し、さらに符号化済み文字列から辞書を作
成する。符号データの復元は、符号データを復号して得
られる参照番号で指定される高頻度部分列を復元し、さ
らに復元した高頻度の部分列を組み合わせてできる部分
列を順次登録した辞書を作成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、動的辞書型アルゴリズ
ムを用いたＬＺＪ符号によるデータ圧縮及び復元方法に
関する。近年、文字コード、ベクトル情報，画像など様
々な種類のデータがコンピュータで扱われるようになっ
ており、扱われるデータ量も急速に増加してきている。

【０００２】大量のデータを扱うときは、データの中の
冗長な部分を省いてデータ量を圧縮することで、記憶容
量を減らしたり、速く伝送したりできるようになる。様
々なデータを１つの方式でデータ圧縮できる方法として
ユニバーサル符号化が提案されている。ここで、本発明
の分野は、文字コードの圧縮に限らず、様々なデータに
適用できるが、以下では、情報理論で用いられている呼
称を踏襲し、データの１ワード単位を文字と呼び、デー
タが任意ワードつながったものを文字列と呼ぶことにす
る。

【０００３】ユニバーサル符号の代表的な方法として、
ジブーレンペル（Ｚｉｖ−Ｌｅｍｐｅｌ）符号がある
（詳しくは、例えば、宗像「Ｚｉｖ−Ｌｅｍｐｅｌのデ
ータ圧縮法」，情報処理，Ｖｏｌ．２６，Ｎｏ．１，１
９８５年を参照のこと）。ジブーレンペル符号ではス
ライド辞書型（ユニバーサル型ともいう）と、動的辞
書型（増分分解型ともいう）の２つのアルゴリズムが提
案されている。

【０００４】更に、スライド辞書型アルゴリズムの改良
として、ＬＺＳＳ符号（T.C.Bell,"Better OPM/L Text
Compression",IEEE Trans.on Commun.,Vol.COM-34,No.1
2,Dec,1986参照）や１／４インチ・カートリッジ磁気テ
ープの標準圧縮方式であるＱＩＣ−１２２符号がある。
また、動的辞書型アルゴリズムの改良としては、ＬＺＷ
（Lempel-Ziv-Welch）符号がある（T.A.Welch,"A Techn
ique for High-Performance Data Compression",Comput
er,June 1984参照）。

【０００５】これらの改良方法は、補助記憶装置のファ
イル圧縮や、パソコン通信でのデータ伝送に利用される
ようになっている。

【０００６】

【従来の技術】まず従来の動的辞書型のアリゴリズムに
ついて説明する。［動的辞書型（増分分解）アルゴリズム］このアルゴリ
ズムは、圧縮率はユニバーサル型より劣るが、シンプル
で、計算も容易であることが知られている。

【０００７】増分分解型ジプーレンペル符号では、入力
シンボルの系列をＸ＝ａａｂａｂａｂａａ・・・とすると、成分系列Ｘ＝Ｘ₀ Ｘ₁ Ｘ₂ ・・・への増分分
解は次のようにする。まずＸ₁ を既成分の右端のシンボ
ルを取り除いた最長の列とし、Ｘ＝ａ・ａｂ・ａｂａ・ｂ・ａａ・・・・となる。従って、Ｘ₀ ＝λ（空列）Ｘ₁ ＝Ｘ₀ ａＸ₂ ＝Ｘ₁ ｂＸ₃ ＝Ｘ₂ ａＸ₄ ＝Ｘ₀ ｂＸ₅ ＝Ｘ₁ ａ・・・と分解できる。増分分解した各成分系列は既成分系列を
用いて次のような組で符号化する。

【０００８】

【表１】

【０００９】すなわち、増分分解型アルゴリズムは、符
号化パターンについて、過去に分解した部分列の内、最
大長一致するものを求め、過去に分解した部分列の複製
として符号化するものである。動的辞書型アルゴリズム
は、辞書内の系列は過去に符号化した（サンプリングし
た）系列の中だけから選ぶため、処理速度が速い。しか
し、過去に現れたデータの一部の系列しか含めないため
圧縮率が高く取れない欠点がある。

【００１０】動的辞書型アルゴリズムの改良版として、
辞書への学習量を増やしインデックスのみで符号化でき
るようにしたＬＺＪ符号がある(M.Jakobsson,"Comperss
ionof Character Strings by An Adaptive Dictionary,
BIT,25 号，１９８５年，５９３−６０３頁参照）。〔ＬＺＪ符号〕ＬＺＪ符号の符号化アルゴリズムを図８
のフローチャートに示し、また復号化アルゴリズムを図
９のフローチャートに示す。

【００１１】ここで、辞書と文字列の表記法を次のよう
に定義する。文字種の集合をＡとし、集合Ａの文字を組
み合わせてできる文字列をＳで表す。文字列Ｓのｉ番目
の文字をＳ（ｉ）とする。更に複数の部分文字列Ｓ
（ｉ），Ｓ（ｉ＋１），・・・，Ｓ（ｊ）をＳ（ｉ，
ｊ）とする。辞書をＤ_h （Ｓ）で表わし、辞書の木（ｔ
ｒｅｅ）の根（ｒｏｏｔ）から葉（ｌｅａｆ）へのパス
として文字列Ｓ中の予め定めた一定長ｈの全ての部分文
字列を登録する。

【００１２】図８のＬＺＪ符号化処理は次のようにな
る。［ステップＳ１］辞書に全文字種の一文字を初期値とし
て登録してから符号化を始める。辞書の登録数ｎを文字
種数Ａとおく。カーソルｋ＝０とおく。［ステップＳ２〜Ｓ５］ｋ番目の入力文字まで符号化が
終了したとして文字列Ｓ（１，ｋ）の全ての部分文字列
がすでに辞書Ｄ_h （Ｓ（１，ｋ））に登録してある。Ｓ
（ｋ＋１），・・・の文字列から符号化する。

【００１３】詳細に説明すると、次のようになる。［ステップＳ２］文字列Ｓ（ｋ＋１），・・から辞書Ｄ
_h （Ｓ（１，ｋ）) の登録文字列に最長一致する部分文
字列Ｓ（ｋ＋１，ｋ＋ｚ）を見つける。［ステップＳ３］部分文字列Ｓ（ｋ＋１，Ｋ＋ｚ）の辞
書番号ａ_x を［ｌｏｇ₂ ｎ］ビットで表して出力する。
ただし、ｎは辞書の現在の登録数であり、［ｌｏｇ₂
ｎ］はｌｏｇ₂ ｎ以上の最小の整数である。ここで、符
号語ａ_x は部分文字列Ｓ（ｉ_x ，ｊ _x ）を表す。各々の
符号語ａ_x は辞書Ｄ_h （Ｓ（１，ｊ_x-1 ）），（ｉ_x ≦
ｊ_x≦ｉ_x ＋ｈ，ｉ_x ＝ｊ_x-1 ＋１）の辞書番号であ
る。

【００１４】［ステップＳ４］一定長ｈの部分文字列Ｓ
（ｋ−ｈ＋２，ｋ＋１），・・・，Ｓ（ｋ＋ｚ−ｈ＋
１，ｋ＋ｚ）にｎをインクリメントしながら辞書番号を
付けて辞書に追加し、辞書Ｄ_h （Ｓ（１，ｋ＋ｚ））を
構成する。［ステップＳ５］カーソルｋ＝ｋ＋ｚとおく。

【００１５】［ステップＳ６］全文字を処理するまでス
テップＳ１〜Ｓ５を繰り返す。ここでステップＳ４の文
字列の辞書登録を図示すると図１０に示すようになる。
次に図９のＬＺＪ復号化処理は次のようになる。

【００１６】［ステップＳ１］図８のステップＳ１と同
様に辞書に全文字種の一文字を初期値として登録する。
辞書の登録数ｎを文字種数Ａとおく。カーソルｋ＝０と
おく。［ステップＳ２〜Ｓ４］辞書番号ａ_w が復号化され、文
字列Ｓ（１，ｊ_w ）まで利用することができ、辞書Ｄ_h
（Ｓ（１，ｊ_w ））が再構成されている。次に符号語ａ
_w+1 を復号する。詳細に説明すると次のようになる。

【００１７】［ステップＳ２］符号語ａ_w+1 を復号した
辞書番号より辞書Ｄ_h （Ｓ（１，ｊ_w ））内の部分列Ｓ
（ｉ_w+1 ，ｊ_w+1 ）を復元する。部分列Ｓ（ｉ_w+1 ，ｊ
_w+1 ）は辞書内で根（ｒｏｏｔ）からアドレスａ_w+1 の
節点で表わされる文字列である。［ステップＳ３］文字列Ｓ（１，ｊ_w+1 ）を復号した
後、辞書Ｄ_h （Ｓ（１，ｊ_w+1 ））を図１６のＳ４と同
様に構成する。

【００１８】［ステップＳ４］カーソルｋ＝ｊ_w+1 とお
く。［ステップＳ５］全符号を処理するまでステップＳ１〜
Ｓ４を繰り返す。

【００１９】

【発明が解決しようとする課題】しかしながら、ＬＺＪ
符号は、過去に現れた長さｈの全ての部分文字列から符
号化の最長一致部分文字列を得るため、過去の全ての部
分文字列との照合一致を取ることはできるが、辞書内の
部分文字列は出現頻度に関係なく登録してあるために確
率的な構造が入らず、辞書番号の符号化に無駄を生じて
いる。すなわち、辞書に登録してある全ての節点は同一
長の辞書番号が割り当てられ、対応する部分文字列が出
現したときに符号化に用いられる。

【００２０】オリジナルの増分分解型では、新たな文字
列を既登録文字列から一文字ずつ伸ばして登録するた
め、出易い文字列程長く伸びて、等確率で出現する可変
長文字列に対して固定長の番号を割り当てるという確率
的な構造が入っている。これに対しＬＺＪ符号では出現
した部分文字列は全て登録しており確率的な構造はな
い。このため、辞書番号に統計的な冗長性が残り、圧縮
がかからない種類のデータも存在するという問題があっ
た。

【００２１】本発明は、このような従来の問題点に鑑み
てなされたもので、ＬＺＪ符号の辞書に確率構造が入ら
ないという欠点を解消してデータの種類を問わず高圧縮
ができるデータ圧縮及び復元方法を提供することを目的
とする。

【００２２】

【課題を解決するための手段】図１は本発明の原理説明
図である。本発明のデータ圧縮方法は、入力文字列を部
分列に分解し、各部分列を辞書１０に登録済み部分列中
の高頻度で出現する部分列の内の最長一致部分列の参照
番号で表して符号化する符号化過程と、符号化済み文字
列を辞書１０に登録する辞書作成過程とを備えたことを
特徴とする。

【００２３】ここで辞書作成過程は、入力文字列を符号
化するごとに、符号化済み文字列の先頭から最後までの
各文字を最終文字とする所定の長さをもつ全ての部分列
を辞書に登録するＬＺＪ符号化方法に従った辞書登録を
行う。また辞書作成過程は、辞書に登録済の部分列の使
用回数を計数する出現頻度計数過程と、出現頻度計数過
程で計数した登録部分列の出現頻度計数値が所定の閾値
Ｔ以上となったとき、この文字列を符号化に用いる高頻
度文字列とみなして新たな参照番号を割付ける参照番号
割付過程とを備える。

【００２４】更に高頻度文字列としての出現頻度を判定
する閾値Ｔを、辞書登録数の増大とともに徐々に大きい
値に更新する。一方、本発明のデータ復元方法は、入力
文字列を部分列に分解し、各部分列を辞書に登録済み部
分列中の高頻度で出現する部分列の内の最長一致部分列
の参照番号で表して符号化した符号データを入力し、こ
の符号データを復号して得られる参照番号で指定される
高頻度部分列を復元する復号化過程と、復元した高頻度
の部分列を組み合わせてできる部分列を順次登録した辞
書を作成する辞書作成過程とを備えたことを特徴とす
る。辞書作成過程はデータ圧縮方法の場合と同様であ
る。

【００２５】

【作用】このような本発明のデータ圧縮及び復元方法に
よれば、ＬＺＪ符号の辞書の中から使用頻度の高い文字
列を取り出して符号化あるいは復号化に使用する辞書と
して新たな参照番号を割付けることで、確率構造が入ら
ないというＬＺＪ符号の辞書の欠点を解消することがで
きる。

【００２６】すなわち本発明は、ＬＺＪ符号において学
習と節点への番号付を分離する。具体的には各節点にカ
ウンタを備えて節点で与えられる文字列の出現頻度を計
数し、出現頻度が所定の閾値以上の節点のみ参照番号を
与えて符号化に用いるようにしている。

【００２７】

【実施例】図２は本発明の一実施例を示した実施例構成
図である。図２において、１２はＣＰＵであり、ＣＰＵ
１２に対してはプログラムメモリ１４とデータメモリ２
６が設けられる。プログラムメモリ１４にはコントロー
ルソフト１６，符号化ソフト１８，復号化ソフト２０，
辞書作成ソフト２２及び出現頻度カウントテーブル２４
が設けられる。

【００２８】符号化ソフト１８は入力文字列を部分列に
分解し、各部分列をデータメモリ２６の辞書１０に登録
済みの部分列の中の高頻度で出現する部分列の内の最長
一致する部分列の参照番号（辞書番号）で表わして符号
化する。また復号化ソフト２０は、符号化ソフト１８に
より符号化された符号データを入力し、符号データの復
号で得られた参照番号で指定される辞書１０の高頻度の
部分列を復元する。

【００２９】辞書作成ソフト２２は符号化ソフト１８に
よる符号化済みの部分列あるいは復号化ソフト２０で復
元済みの文字列に基づき、圧縮時及び復元時の各々にお
いて符号化済み文字列あるいは復元済み文字列に基づく
辞書登録を行う。図３は本発明で用いる辞書の辞書登録
と文字列の出現頻度の計数を具体的に示した説明図であ
る。

【００３０】図３にあっては、説明を簡単にするため、
処理対象となる文字種としてａ，ｂ，ｃ，ｄの４文字を
例にとっている。図３に示す辞書の登録は図１０に示し
たＬＺＪ符号と全く同じ辞書登録を行っている。図３に
おいて、辞書の根から最初の歯へのパスとして全文字種
ａｂｃｄが登録され、番号０，１，２，３が付けられて
いる。この初期登録を行った状態で、例えば文字列ａａａａａａｂａｂｂａａｂａｂｃｂｂｂｂｂｃｂ・・
・を入力して符号化を行わせたとすると、図３に示すよう
な辞書登録が行われる。

【００３１】本発明にあっては、この辞書登録における
各節点に四角で示すカウンタを設けており、各節点を通
る文字列が符号化に使用される毎に出現頻度を求めるた
めにカウンタの値を１つずつインクリメントする。図４
は図３のＬＺＪ符号の辞書において、節点に設けたカウ
ンタの計数値が閾値Ｔ＝３以上の文字列を高頻度の文字
列と判定し、文字列の符号化に用いる辞書番号を割り付
けた高頻度の文字列の辞書構造を示している。

【００３２】このようにＬＺＪ符号の辞書から高頻度の
文字列のみを取り出して辞書番号を付けて入力文字列の
符号化に用いることで、辞書に確率的な構造をもたせる
ことができる。ここで、図４の高頻度文字列の符号化に
用いる辞書を得るための閾値Ｔの取り方を説明する。

【００３３】高頻度文字列を判断するための閾値Ｔを大
きな値に固定的に設定していると、出現頻度の大きい文
字列のみを用いた確率的な要素の強い尤もらしい符号化
が可能と思われる。しかし閾値Ｔが大きいために、図４
に示したような辞書番号付きの高頻度文字列の増加が遅
くなるため学習速度が低下し、従って入力データ量に対
する圧縮率の改善の度合が鈍くなる。

【００３４】そこで本発明にあっては、高頻度文字列を
判断するための閾値ＴをＬＺＪ符号の辞書登録数の増加
と共に徐々に大きくした値を用いる。例えば、文字種の
数をＡ、入力文字列の文字数をＮ、ＬＺＪ符号の辞書登
録数をｎとすると、閾値Ｔは次式で表わすことができ
る。Ｔ＝｛（Ａ＋Ｎ）／ｎ｝×α （１）ここで、（１）式の右辺の（Ｎ／ｎ）は１文字列当りの
平均出現回数を表わしており、この平均出現回数のα倍
出現したときに、この文字列を高頻度文字列として符号
化に用いる辞書番号付きの文字列として取り出すことを
意味し、係数αとしては１以上の値をとる。

【００３５】このようにすることで閾値Ｔは１に近い値
から始まり、徐々に一定値に収束するようになる。ま
た、係数αの値はデータの種類によって最適値が変化す
るので、複数種類のデータに対し圧縮率が向上するよう
な平均的な値を設定する。尚、α＝１とした場合はＬＺ
Ｊ符号の辞書登録そのものである。図５は図３及び図４
に示した本発明で用いる辞書のリスト構造を示したもの
で、辞書番号ｎにより符号化済み文字列がＬＺＪ符号に
おける辞書作成手順に従って登録されている。文字種ａ
ｂｃｄに続く辞書番号ｎ＝４以降については、使用頻度
を示すカウント値が設けられる。このカウント値は図２
に示した出現頻度カウントテーブル２４の内容をポイン
タで示すリスト構造で実現される。カウント値におい
て、閾値Ｔ＝３以上の文字列について高頻度文字列とし
て符号化辞書番号ｍが割り付けられている。

【００３６】この図５に示すような辞書を用いた符号化
にあっては、高頻度文字列であることを示す符号化辞書
番号ｍがついている文字列のみを対象に入力文字列に最
長一致する文字列の検索が行われる。次に図６のフロー
チャートを参照して本発明のデータ圧縮方法を実現する
符号化アルゴリズムを説明する。

【００３７】まず本発明で用いる辞書は次のように登録
する。辞書をＤｍ（Ｓ）で表わし、辞書の辞書の木（ｔ
ｒｅｅ）の根（ｒｏｏｔ）から葉（ｌｅａｆ）へのパス
として文字列Ｓ中の先頭から始まる相異なる全ての部分
列を登録する。即ち、辞書Ｄｍ｛Ｓ（１，ｋ）｝はＳ
（１），Ｓ（２），・・・Ｓ（ｋ）の各文字から始まる
辞書中の最長一致する高頻度の辞書番号付き文字列を求
め、求めた最長一致する辞書番号中の文字列について、
その中の各文字を最終文字として、予め定めた長さｈの
全ての部分文字列を登録して構成する、いわゆるＬＺＪ
符号の辞書登録を行う。

【００３８】本発明のデータ圧縮方法を実現する符号化
アルゴリズムを図６のフローチャートを参照して説明す
ると、次のステップＳ１〜Ｓ７のようになる。［ステップＳ１］辞書に全文字種の一文字を初期値とし
て登録してから符号化を始める。辞書の登録数ｎを文字
種数Ａとおき、高頻度の辞書番号付文字列の数ｍを文字
種数Ａとおく。符号化済文字列の位置を表すカーソルを
ｋ＝０とおく。辞書登録済の部分文字列の位置を表すカ
ーソルをｌ＝０とおく。

【００３９】［ステップＳ２〜Ｓ７］ｋ番目の入力文字
まで符号化が終了したとして文字列Ｓ（１，ｋ）の全て
の部分文字列がすでに辞書Ｄｍ（Ｓ（１，ｋ））に登録
してある。Ｓ（ｋ＋１），・・・の文字列から符号化す
る。詳細は次のステップＳ２〜Ｓ７のようになる。［ステップＳ２］文字列Ｓ（ｋ＋１）・・・から辞書Ｄ
ｍ（Ｓ（１，ｋ））の登録文字列に最長一致する番号付
文字列Ｓ（ｋ＋１，ｋ＋ｚ）を見つける。

【００４０】［ステップＳ３］部分文字列Ｓ（ｋ＋１，
ｋ＋ｚ）の辞書番号ｂ_xを［ｌｏｇ₂ ｍ］ビットで表し
て出力する。ただし、ｍは現在の高頻度の辞書番号付文
字列の数である。ここで、符号語ｂ_x は高頻度の辞書番
号付文字列Ｓ（ｉ_x ，ｊ_x ）を表す。［ステップＳ３］部分文字列Ｓ（ｌ＋１，ｊ₁ ＋１），
Ｓ（ｌ＋２，ｊ₂ ＋１），・・・，Ｓ（ｌ＋ｙ，ｊ_y ＋
１）に登録数ｎをインクリメントしながら辞書に追加す
る。

【００４１】ただし、Ｓ（ｌ＋１，ｊ₁ ＋１），Ｓ（ｌ
＋２，ｊ₂ ＋１），・・・，Ｓ（ｌ＋ｙ，ｊ_y ）はそれ
ぞれの開始点における辞書登録文字列部分文字化であ
り、ｌ＋１＜ｊ₁ ＜ｋ＋ｚ，ｌ＋２＜ｊ₂ ＜ｋ＋ｚ，・・・，ｌ＋ｙ＜ｊ_y ＜ｋ＋ｚである。Ｓ（ｌ＋ｙ，ｊ_y ）はｊ_y ＜ｋ＋ｚの関係が保てる最大の開始位置の文字列である。

【００４２】このとき、新たな登録文字列の出現数カウ
ンタを０とおき、既に登録してある文字列は出現数カウ
ンタを＋１する。［ステップＳ５］新たに出現数≧Ｔとなった文字列に高
頻度の辞書番号付文字列の数ｍをインクリメントしなが
ら番号を割付け、辞書Ｄ_m（Ｓ（１，ｋ＋ｚ））を構成
する。

【００４３】［ステップＳ６］符号化済文字位置カーソ
ルｋ＝ｋ＋ｚとおき、辞書登録済文字位置カーソルｌ＝
ｌ＋ｊ_yとおく。［ステップＳ７］全ての文字の符号化を終了するまでス
テップＳ２〜Ｓ６の処理を繰り返す。

【００４４】図７は本発明のデータ復元方法を実現する
復号化アルゴリズムを示したフローチャートであり、次
のステップＳ１〜Ｓ６のようになる。［ステップＳ１］図６のステップＳ１と同様に、辞書に
全文字種の一文字を初期値として登録する。辞書の登録
数ｎを文字種数Ａとおき、高頻度の辞書番号付文字列の
数ｍをＡとおく。符号化済文字列の位置を表すカーソル
ｋ＝０とおく。辞書登録済の部分文字列の位置を表すカ
ーソルをｌ＝０とおく。

【００４５】［ステップＳ２〜Ｓ６］入力した符号デー
タから辞書番号ａ_w が復号化されており、文字列Ｓ
（１，ｊ _w ）まで登録された辞書Ｄ_m（Ｓ（１，ｊ
_w ））が再構成されている。次に符号語ａ_w+1 を復号す
る。詳細はステップＳ２〜Ｓ６のようになる。［ステップＳ２］符号語ａ_w+1 を復号した辞書番号より
辞書Ｄ_m（Ｓ（１，ｊ_w ））内の部分列Ｓ（ｉ_w+1 ，ｊ
_w+1 ）を復元する。部分列Ｓ（ｉ_w+1 ，ｊ_w+1 ）は辞書
内で根（ｒｏｏｔ）より、番号ａ_w+1 から求めたアドレ
スの節点までの文字列である。［ステップＳ３］文字列Ｓ（１，ｊ_w+1 ）を復号した
後、辞書Ｄ_m（Ｓ（１，ｊ_w+1 ））を図６のステップＳ
４，Ｓ５に示したと同様に構成する。

【００４６】［ステップＳ４］符号化済文字位置カーソ
ルｋをｋ＝ｊ_w+1 とおき、辞書登録済文字位置カーソル
ｌをｌ＝ｌ＋ｊ_y とおく。このように本発明の符号化お
よび復号化のアルゴリズムが図８，図９に示した従来の
符号化および復号化アルゴリズムと異なるところは、図
６のステップＳ５および図７のステップＳ３であり、辞
書登録文字列の内、高頻度のものに番号を付け、高頻度
文字列のみ符号化に用いることである。

【００４７】

【発明の効果】以上説明してきたように本発明によれ
ば、過去に出現した全ての部分文字列が辞書に登録され
て最大限の学習が行われると共に、出現頻度が所定の閾
値以上の文字列のみを符号化するため、等確率で出現す
る文字列に同じ符号長を与えることができ、ほぼ理想に
近い符号割当てができる。

【００４８】また、滅多に現われることのない出現頻度
の低い文字列に余分に番号を割り当てている従来のＬＺ
Ｊ符号における無駄が省け、高い圧縮率を得ることがで
きる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の実施例構成図

【図３】本発明における辞書登録と出現頻度の計数を示
した説明図

【図４】図３の辞書登録から得られた高頻度文字列と辞
書番号の説明図

【図５】図３および図４に対応する辞書のリスト構造を
示した説明図

【図６】本発明の符号化アルゴリズムを示したフローチ
ャート

【図７】本発明の復号化アルゴリズムを示したフローチ
ャート

【図８】従来のＬＺＪ符号化アルゴリズムを示したフロ
ーチャート

【図９】従来のＬＺＪ復号化アルゴリズムを示したフロ
ーチャート

【図１０】ＬＺＪ符号における文字列の辞書登録を示し
た説明図

【符号の説明】

１０：辞書１２：ＣＰＵ１４：プログラムメモリ１６：コントロールソフト１８：符号化ソフト２０：復号化ソフト２２：辞書作成ソフト２４：出現頻度カウントテーブル２６：データメモリ２８：データバッファ

Claims

【特許請求の範囲】

【請求項１】入力文字列を部分列に分解し、各部分列を
辞書に登録済み部分列中の高頻度で出現する部分列の内
の最長一致部分列の参照番号で表して符号化する符号化
過程と、符号化済み文字列を辞書に登録する辞書作成過
程とを備えたことを特徴とするデータ圧縮方法。
【請求項２】請求項１記載のデータ圧縮方法に於いて、
前記辞書作成過程は、入力文字列を符号化するごとに、
符号化済み文字列の先頭から最後までの各文字を最終文
字とする所定の長さをもつ全ての部分列を辞書に登録す
ることを特徴とするデータ圧縮方法。
【請求項３】請求項１記載のデータ圧縮方法に於いて、
前記辞書作成過程は、辞書に登録済の部分列の使用回数を計数する出現頻度計
数過程と、該出現頻度計数過程で計数した登録部分列の出現頻度計
数値が所定の閾値以上となったとき、該文字列を符号化
に用いる高頻度文字列とみなして新たな参照番号を割付
ける参照番号割付過程と、を備えたことを特徴とするデータ圧縮方式。
【請求項４】請求項１又は３記載のデータ圧縮方法に於
いて、高頻度文字列としての出現頻度を判定する閾値
を、辞書登録数の増大とともに徐々に大きい値に更新す
ることを特徴とするデータ圧縮方法。
【請求項５】請求項４記載のデータ圧縮方法に於いて、
高頻度文字列としての出現頻度を判定する閾値（Ｔ）
を、文字種（Ａ）、入力文字数（Ｎ）および辞書登録数
（ｎ）としたとき、Ｔ＝｛（Ａ＋Ｎ）／ｎ｝×α として求め、係数αを辞書登録数ｎの増加に対し閾値Ｔ
が１または１に近い値から始まるように設定したことを
特徴とするデータ圧縮方法。
【請求項６】入力文字列を部分列に分解し、各部分列を
辞書に登録済み部分列中の高頻度で出現する部分列の内
の最長一致部分列の参照番号で表して符号化した符号デ
ータを入力し、該符号データを復号して得られる参照番
号で指定される高頻度部分列を復元する復号化過程と、復元した高頻度の部分列を組み合わせてできる部分列を
順次登録した辞書を作成する辞書作成過程と、を備えたことを特徴とするデータ復元方法。
【請求項７】請求項６記載のデータ復元方法に於いて、
前記辞書作成過程は、高頻度文字列を復元するごとに、
復元済み文字列の先頭から最後までの各文字を最終文字
とする所定の長さをもつ全ての部分列を辞書に登録する
ことを特徴とするデータ復元方法。
【請求項８】請求項１記載のデータ復元方法に於いて、
前記辞書作成過程は、辞書に登録済の部分列の使用回数を計数する出現頻度計
数過程と、該出現頻度計数過程で計数した登録部分列の出現頻度計
数値が所定の閾値以上となったとき、該文字列を符号化
に用いる高頻度文字列とみなして新たな参照番号を割付
ける参照番号割付過程と、を備えたことを特徴とするデータ復元方式。
【請求項９】請求項６又は８記載のデータ復元方法に於
いて、高頻度文字列としての出現頻度を判定する閾値
を、辞書登録数の増大とともに徐々に大きい値に更新す
ることを特徴とするデータ復元方法。
【請求項１０】請求項９記載のデータ復元方法に於い
て、高頻度文字列としての出現頻度を判定する閾値
（Ｔ）を、文字種（Ａ）、入力文字数（Ｎ）および辞書
登録数（ｎ）としたとき、Ｔ＝｛（Ａ＋Ｎ）／ｎ｝×α として求め、係数αを辞書登録数ｎの増加に対し閾値Ｔ
が１または１に近い値から始まるように設定したことを
特徴とするデータ復元方法。