JPH05152971A

JPH05152971A - データ圧縮・復元方法

Info

Publication number: JPH05152971A
Application number: JP31693991A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Yoshiyuki Okada; 佳之岡田; Yasuhiko Nakano; 泰彦中野; Hirotaka Chiba; 広隆千葉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-11-29
Filing date: 1991-11-29
Publication date: 1993-06-18

Abstract

(57)【要約】【目的】コンピュータ等で扱われるデータを，動的に更
新される辞書を用いて圧縮または復元するデータ圧縮・
復元方法に関し，辞書の能率を向上させ，かつデータ圧
縮率を向上させることを目的とする。【構成】データ圧縮手段11は，入力データの文字列を，
辞書に登録されている文字列の中から最長一致するもの
の番号で指定して符号化し, 符号化済文字列データ中の
各文字から始まる相異なる部分文字列であって，既に辞
書に登録されているものの中で最長一致する文字列を１
文字伸ばした部分文字列を，新たに番号を付けて辞書に
登録する。データ復元手段15は，復元する圧縮データに
基づく番号により辞書を検索して復号化し, 復号化済文
字列データ中の各文字から始まる相異なる部分文字列で
あって，既に辞書に登録されているものの中で最長一致
する文字列を１文字伸ばした部分文字列を，新たに番号
を付けて辞書に登録する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，通信対象や記憶装置へ
の格納対象となるデータを，動的に更新される辞書を用
いて圧縮または復元するデータ圧縮・復元方法に関す
る。

【０００２】近年，文字コード，ベクトル情報，画像な
ど，様々な種類のデータがコンピュータで扱われるよう
になっており，扱われるデータ量も急速に増加してきて
いる。大量のデータを扱うときには，データの中の冗長
な部分を省いて，データ量を圧縮することにより，記憶
容量を減らしたり，速く伝送したりすることができるよ
うになる。

【０００３】様々なデータを一つの方式でデータ圧縮で
きる方法として，ユニバーサル符号化が提案されてい
る。このようなデータ圧縮では，高い圧縮率を実現する
ことが要求される。ここで，本発明は，文字コードの圧
縮に限らず，様々なデータに適用できるが，以下では，
情報理論で用いられている呼称を踏襲し，データの１ｗ
ｏｒｄ単位を文字と呼び，データが任意ｗｏｒｄつなが
ったものを文字列と呼ぶことにする。

【０００４】

【従来の技術】ユニバーサル符号の代表的な方法とし
て，ジブ−レンペル（Ziv-Lempel）符号がある（詳しく
は，例えば，宗像『Ziv-Lempelのデータ圧縮法』，情報
処理，Vol.26, No.1, 1985年を参照のこと）。このジブ
−レンペル符号では，スライド辞書型と，動的辞書
型（増分分解型ともいう）の２つのアルゴリズムが提案
されている。

【０００５】さらに，スライド辞書型アルゴリズムの改
良として，ＬＺＳＳ符号（T.C.Bell,"Better OPM/L Tex
t Compression", IEEE Trans. on Commun., Vol.COM-3
4, No.12, Dec.1986 参照）や，１／４インチ・カート
リッジ磁気テープの標準圧縮方式であるＱＩＣ−１２２
符号がある。

【０００６】また，動的辞書型アルゴリズムの改良とし
ては，ＬＺＷ（Lempel-Ziv-Welch）符号がある（T.A.We
lch,"A Technique for High-Performance Data Compres
sion", Computer, June 1984参照）。これらの改良方法
は補助記憶装置のファイル圧縮や，パソコン通信でのデ
ータ伝送に利用されるようになっている。

【０００７】本発明は，以上のようなジブ−レンペル符
号のアルゴリズムの改良に関係している。次に，本発明
が改良を加える動的辞書型アルゴリズムについて説明す
る。

【０００８】〔動的辞書型（増分分解）アルゴリズム〕
このアルゴリズムは，圧縮率は中程度であるが，シンプ
ルで，計算も容易で高速処理ができる特長がある。動的
辞書型ジブ−レンペル符号では，入力シンボルの系列を
Ｘ＝ａａｂａｂａｂａａ・・・とすると，成分系列Ｘ＝
Ｘ₀Ｘ₁Ｘ₂・・・への増分分解は次のようにする。

【０００９】Ｘ_jを既成分の右端のシンボルを取り除い
た最長の列とし，入力シンボル系列を分けると，Ｘ＝ａ・ａｂ・ａｂａ・ｂ・ａａ・・・となる。

【００１０】従って，Ｘ₀＝λ（空列），Ｘ₁＝Ｘ
₀ａ，Ｘ₂＝Ｘ₁ｂ，Ｘ₃＝Ｘ₂ａ，Ｘ₄＝Ｘ₀ｂ，Ｘ
₅＝Ｘ₁ａ，・・・と分解できる。増分分解した各成分系列は既成分系列を
用いて次のような組で符号化する。

【００１１】［成分のインデックス（各成分の出た順番）］［次のシ
ンボル］

【００１２】すなわち，動的辞書型アルゴリズムは，符
号化パターンについて，過去に分解した部分列の内，最
長一致するものを求め，過去に分解した部分列の複製と
して符号化するものである。

【００１３】動的辞書型では，辞書内の系列は過去に符
号化した（サンプリングした）系列の中だけから選ぶた
め，処理速度が速いものの，過去に現れたデータの一部
の系列しか含めないため圧縮率が高く取れない欠点があ
った。

【００１４】このような動的辞書型の改良版として，辞
書への学習量を増やしインデックスのみで符号化できる
ようにしたＬＺＪ符号がある（ M.Jakobsson,"Compress
ionof Character Strings by An Adaptive Dictionar
y", BIT, 25号，1985年，593-603 頁参照のこと）。こ
のＬＺＪ符号では，以下のようにデータの圧縮・復元を
行う。

【００１５】〔ＬＺＪ符号〕ＬＺＪ符号の符号化，復号
化の処理フローを，図５および図６に示す。ここで，辞
書と文字列の表記法を次のように定義する。

【００１６】文字種の集合をＡとし，集合Ａの文字を組
み合わせてできる文字列をＳで表す。文字列Ｓのｉ番目
の文字をＳ(i) とし，Ｓ(i,j) を部分文字列Ｓ(i),Ｓ(i
+1),…，Ｓ(j) とする。辞書をＤ_h(S) で表し，辞書の
木（tree）の根（root）から葉（leaf）へのパスとして
文字列Ｓ中の長さｈの全ての部分文字列を登録する。

【００１７】〔符号化手順（図５）〕Ｅ１：辞書に全文
字種の一文字を初期値として登録してから符号化を始め
る。辞書の登録数ｎを文字種数Ａとおく。符号化済文字
列の位置を表すカーソルをｋとし，ｋ＝０とおく。

【００１８】Ｅ２：ｋ番目の入力文字まで符号化が終了
したとすると，文字列Ｓ(1, k)の全ての部分文字列がす
でに辞書Ｄ_h(S(1, k)）に登録してある。そこで，次の
ようにＳ(k+1),…の文字列から符号化する。

【００１９】E2.1：Ｓ(k+1),…から辞書Ｄ_h(S(1, k)）
の登録文字列に最長一致する部分文字列Ｓ(k+1, k+z)を
見つける。 E2.2：部分文字列Ｓ(k+1, k+z)の辞書番号ａ_xを［ log
₂ｎ］ビットで表して出力する。ただし，ｎは辞書の現
在の登録数であり，［ｙ］はｙ以上の最小の整数であ
る。ここで，符号語ａ_xは部分文字列Ｓ（ｉ_x, j_x）を
表す。各々のａ_xは辞書Ｄ_h(S(1,j_x-1）),（ｉ_x≦ｊ
_x≦ｉ_x＋ｈ，ｉ_x＝ｊ_x-1＋１）の辞書番号である。

【００２０】E2.3：部分文字列Ｓ(k-h+2, k+1)，…，Ｓ
(k+z-h+1, k+z)にｎをインクリメントしながら辞書番号
をつけて辞書に追加し，辞書Ｄ_h(S(1, k+z)) を構成す
る。

【００２１】E2.4：カーソルｋ＝ｋ＋ｚとおく。

【００２２】〔復号化手順（図６）〕Ｄ１：Ｅ１と同様に辞書に全文字種の一文字を初期値と
して登録する。辞書の登録数ｎを文字種数Ａとおく。カ
ーソルｋ＝０とおく。

【００２３】Ｄ２：辞書番号ａ_wが復号化され，文字列
Ｓ(1,j_w) まで利用することができ，辞書Ｄ_h(S(1,
j_w))が再構成されている。次に符号語ａ_w+1を復号す
る。

【００２４】D2.1：符号語ａ_w+1を復号した辞書番号よ
り辞書Ｄ_h(S(1,j_w))内の部分列Ｓ(i_w+1, j_w+1）を復
元する。部分列Ｓ(i_w+1, j_w+1）は，辞書内で根（roo
t）からアドレスａ_w+1の節点で表される文字列であ
る。

【００２５】D2.2：文字列Ｓ(1,j_w+1）を復号した後，
辞書Ｄ_h(S(1,j_w+1))を，E2.3と同様に構成する。 D2.3：カーソルｋ＝ｊ_w+1とおく。

【００２６】次に，このＬＺＪ符号による符号化の具体
例を，図７に従って説明する。ここでは，説明を簡単に
するために，入力文字の種類は，ａ，ｂ，ｃ，ｄの４個
のアルファベットに限られるものとする。また，辞書に
登録する文字列の長さｈは，ｈ＝３とする。

【００２７】図７の（イ）に示すような入力データの文
字列“ａｂａｂｃａｂｃｄａｂｃｄ・・・”は，ＬＺＪ
符号化の際に，図７の（ロ）に示すように部分文字列に
分解され，各部分文字列は，同図に示すような辞書番号
で表されて符号化される。図７の（ロ）に〜で示す
分解時点は，文字列分解の順番を表している。符号化
に用いる辞書には，図７の（ハ）に示すように，最初，
ａ，ｂ，ｃ，ｄの４文字を初期値として登録しておい
て，符号化を始める。新たな文字列は，各分解時点に新
しい番号を付けて辞書に登録する。

【００２８】分解時点では，辞書を参照することによ
り，ａが番号(0) に符号化される。分解時点では，同
様にｂが番号(1) に符号化される。分解時点では，３
番目の文字ａを番号(0) で符号化した後，１番目の文字
ａから始まる文字列ａｂとａｂａを，番号(4) ，(5) と
して辞書に登録する。すなわち，ｈ＝３であるので，３
文字分になるまでの新たな文字列を辞書に登録する。こ
の時点では，２番目の文字ｂから始まる文字列は，３文
字分揃っていないので登録できない。

【００２９】分解時点では，４番目の文字ｂを番号
(1) に符号化した後，２番目の文字ｂから始まる文字列
の登録ができるようになり，文字列ｂａとｂａｂを辞書
に登録する。以下同様に，各分解時点，，…におい
て，辞書により符号化を行い，３文字分揃った文字列の
中の新しい文字列を辞書に登録していく。

【００３０】最終的に図７の（イ）に示す入力データの
文字列は，図７の（ロ）に辞書番号として示すように，
“(0) (1) (0) (1) (2) (5) (3) (5) (3) …”と符号化
され，データが圧縮されることになる。

【００３１】復号化は，この符号化の逆操作となる。符
号化された番号を辞書を参照し，元の文字列に戻す。各
文字列を復号化した時点（分解時点と同じ）で，符号化
と同じ新たな文字列を辞書に登録する。

【００３２】

【発明が解決しようとする課題】オリジナルの増分分解
型では，新たな文字列を既登録文字列から一文字ずつ伸
ばして登録するため，出易い文字列程長く伸びて，等確
率で出現する可変長文字列に対して固定長の番号を割り
当てるという確率的な構造が入れられていた。

【００３３】これに対し，ＬＺＪ符号は，過去に現れた
長さｈの全ての部分文字列から符号化の最長一致部分文
字列を得るため，過去の全ての部分文字列との照合一致
は取れるものの，辞書には部分文字列が出現頻度に関係
なく登録されることになり，確率的な面から見て，辞書
番号の符号化に無駄が生じていた。すなわち，辞書に登
録してある全ての節点は，同一長の辞書番号が割り当て
られて対応する部分文字列が出現したときに符号化に用
いられ，無駄が生じる。このように，ＬＺＪ符号では出
現した部分文字列は全て登録しており確率的な構造はな
いため，辞書番号に統計的な冗長性が残り，圧縮がかか
らない種類のデータもあった。

【００３４】本発明は上記問題点の解決を図り，オリジ
ナルの増分分解型に比較して辞書への学習量を増やして
データの圧縮率を向上させるとともに，ＬＺＪ符号に比
較して辞書の能率を向上させ，少ない辞書登録個数で効
率のよい部分文字列への分解を可能とすることを目的と
している。

【００３５】

【課題を解決するための手段】図１は本発明の原理説明
図である。図１において，１０は符号化対象となる入力
データ，１１は符号化によりデータを圧縮するデータ圧
縮手段，１２は符号化用辞書，１３は辞書検索符号化処
理，１４は符号化における辞書登録処理，１５は復号化
によりデータを復元するデータ復元手段，１６は復号化
用辞書，１７は辞書検索復号化処理，１８は復号化にお
ける辞書登録処理を表す。

【００３６】データ圧縮手段１１は，入力データ１０を
圧縮する符号化を行う場合，辞書検索符号化処理１３に
より，入力データ１０の文字列を，符号化用辞書１２に
登録されている文字列の中から最長一致するものの番号
で指定して符号化する処理と，辞書登録処理１４によ
り，符号化済文字列データ中の各文字から始まる相異な
る部分文字列であって，既に符号化用辞書１２に登録さ
れているものの中で最長一致する文字列を１文字伸ばし
た部分文字列を，新たに番号を付けて符号化用辞書１２
に登録する処理とを行う。

【００３７】辞書登録処理１４の処理では，辞書検索符
号化処理１３により，入力データ１０の文字列を，符号
化用辞書１２に登録されている文字列の中から最長一致
するものの番号で指定して符号化した後，新たに符号化
した文字列を符号化済文字列データに組み入れたとき
に，符号化済文字列データ中で，各文字から辞書中の最
長一致文字列より１文字伸ばした文字列が確保できた前
回の最大文字位置の次の文字から，辞書中の最長一致文
字列の部分文字列を抽出し，その１文字伸ばした部分文
字列を符号化用辞書１２に追加登録する。こうすること
により，符号化用辞書１２に登録する部分文字列を出現
確率に基づくようにすることができる。

【００３８】データ復元手段１５は，データ圧縮手段１
１が圧縮したデータを復元する場合，辞書検索復号化処
理１７により，復元する圧縮データに基づく番号によっ
て復号化用辞書１６を検索し，復号化する処理と，辞書
登録処理１８により，復号化済文字列データ中の各文字
から始まる相異なる部分文字列であって，既に復号化用
辞書１６に登録されているものの中で最長一致する文字
列を１文字伸ばした部分文字列を，新たに番号を付けて
復号化用辞書１６に登録する処理とを行う。

【００３９】辞書登録処理１８では，辞書検索復号化処
理１７により，圧縮データを復元した後，新たに復号化
した文字列を復号化済文字列データに組み入れたとき
に，復号化済文字列データ中で，各文字から辞書中の最
長一致文字列より１文字伸ばした文字列が確保できた前
回の最大文字位置の次の文字から，辞書中の最長一致文
字列の部分文字列を抽出し，その１文字伸ばした部分文
字列を復号化用辞書１６に追加登録する。こうすること
により，復号化用辞書１６に登録する部分文字列を出現
確率に基づくようにすることができる。

【００４０】

【作用】本発明は，ＬＺＪ符号の辞書に確率構造が入ら
ないという欠点を鑑み解決法を与えるものである。本発
明では，過去に現れたデータから辞書と最長一致する部
分文字列から１文字分伸ばした全ての部分文字列を登録
するようにするものである。

【００４１】符号化用辞書１２には，１文字ずつの全文
字種が初期値として登録され_,その後_,符号化に伴い新
しい部分文字列が登録されていく。ここで，入力データ
１０の各文字をＣ_i（ｉ＝１，２，…，Ｌ；Ｌは入力デ
ータ長）とし，Ｃ₁からＣ_kまでが既に符号化圧縮され
たとする。

【００４２】辞書検索符号化処理１３では，次の文字Ｃ
_k+1から始まる文字列で，符号化用辞書１２に既登録の
登録文字列と最長一致する部分文字列Ｃ_k+1，…，Ｃ_p
を抽出する。その部分文字列を辞書番号のａ_iで符号化
する。

【００４３】辞書登録処理１４では，前回の登録処理
で，Ｃ_jまでの部分文字列が登録されていたとすると，
Ｃ_j+1からＣ_p（今回の符号化で符号化済文字列に組み
入れられた最終文字）までの各文字から始まる部分文字
列で，符号化用辞書１２に既に登録されているものと最
長一致する文字列に，次の１文字を加えた文字列を，符
号化用辞書１２に登録する。

【００４４】例えば，Ｃ_j+1からＣ_pまでの文字列“ａ
ｂｃｄｅ”で，既に“ａｂ”，“ｂｃ”，“ｃｄｅ”，
“ｄｅ”が符号化用辞書１２に登録されていたとする
と，辞書登録処理１４では，最長一致文字列“ａｂ”，
“ｂｃ”を１文字ずつ伸ばして，新たに“ａｂｃ”，
“ｂｃｄ”を符号化用辞書１２に登録する。

【００４５】逆に，辞書検索復号化処理１７では，Ｃ₁
からＣ_kまでの文字列が復号化されていたとすると，次
の符号語ａ₁に対して，復号化用辞書１６を参照し，復
号化済文字列にＣ_k+1，…，Ｃ_pの部分文字列を加え
る。この復号化済文字列から，復号化用辞書１６に登録
する文字列を選び出す処理は，データ圧縮時の辞書登録
処理１４の処理と同様である。

【００４６】

【実施例】本発明の実施例による符号化，復号化の処理
フローを，図２および図３に示す。ここで，辞書と文字
列の表記法を次のように定義する。

【００４７】文字種の集合をＡとし，集合Ａの文字を組
み合わせてできる文字列をＳで表す。文字列Ｓのｉ番目
の文字をＳ(i) とし，Ｓ(i,j) を部分文字列Ｓ(i),Ｓ(i
+1),…，Ｓ(j) とする。辞書をＤv(S)で表し，辞書の木
（tree）の根（root）から葉（leaf）へのパスとして文
字列Ｓ中の先頭から始まる，相異なる全ての部分文字列
を登録する。すなわち，辞書Ｄv(S(1,k)) は，Ｓ(1),Ｓ
(2),…Ｓ(K) の各文字から始まる辞書中の最長一致文字
列を求め，その最長一致系列を一文字伸ばした部分文字
列を登録して構成したものである。以下，図２および図
３に従って，本発明の実施例による符号化，復号化の処
理手順を説明する。

【００４８】〔符号化手順（図２）〕Ｅ１：辞書に全文字種の一文字を初期値として登録して
から符号化を始める。辞書の登録数ｎを文字種数Ａとお
く。符号化済文字列の位置を表すカーソルをｋ＝０とお
く。辞書登録済の部分文字列の位置を表すカーソルをｍ
＝０とおく。

【００４９】Ｅ２：ｋ番目の入力文字まで符号化が終了
したとすると，文字列Ｓ(1, k)の全ての部分文字列がす
でに辞書Ｄv(S(1,k)) に登録してある。Ｓ(k+1),…の文
字列から，次のように符号化する。

【００５０】E2.1：Ｓ(k+1),…から辞書Ｄv(S(1,k)) の
登録文字列に最長一致する部分文字列Ｓ(k+1, k+z)を見
つける。 E2.2：部分文字列Ｓ(k+1, k+z)の辞書番号ａ_xを［ log
₂ｎ］ビットで表して出力する。ただし，ｎは辞書の現
在の登録数である。ここで，符号語ａ_xは部分文字列Ｓ
(i_x, j_x) を表す。

【００５１】E2.3：部分文字列Ｓ(m+1,j₁) ，Ｓ(m+2,j
₂) ，…，Ｓ(m+y,j_y) にｎをインクリメントしながら
辞書番号を付けて辞書に追加し，辞書Ｄv(S(1, k+z))を
構成する。

【００５２】ただし，Ｓ(m+1,j₁) ，Ｓ(m+2,j₂) ，
…，Ｓ(m+y,j_y) はそれぞれの開始点における辞書登録
文字列との最長一致文字列であり，m+1 ≦ j₁≦k+z, m
+2≦ j₂≦k+z,…，m+y ≦ j_y≦k+z である。

【００５３】Ｓ(m+y,j_y) は j_y≦k+z の関係が保てる
最大の開始位置の最長一致文字列である。 E2.4：符号化済文字位置カーソルｋ＝ｋ＋ｚ，辞書登録
済文字位置カーソルのｍをｍ＝ｍ＋ｙとおく。

【００５４】〔図３に示す復号化手順〕Ｄ１：Ｅ１と同様に辞書に全文字種の一文字を初期値と
して登録する。辞書の登録数ｎを文字種数Ａとおく。符
号化済文字列の位置を表すカーソルのｋをｋ＝０とお
く。辞書登録済の部分文字列の位置を表すカーソルのｍ
を，ｍ＝０とおく。

【００５５】Ｄ２：辞書番号ａ_wが復号化され，文字列
Ｓ(1,j_W) まで利用することができ，辞書Ｄv(S(1,
j_w))が再構成されている。次に符号語ａ_w+1を復号す
る。

【００５６】D2.1：符号語ａ_w+1を復号した辞書番号よ
り辞書Ｄ_v(S(1,j_w))内の部分文字列Ｓ(i_w+1, j_w+1)
を復元する。部分文字列Ｓ(i_w+1, j_w+1) は，辞書内で
根（root）からアドレスａ_w+1の節点で表される文字列
である。

【００５７】D2.2：文字列Ｓ(1,j_w+1) を復号した後，
辞書Ｄv(S(1, j_w+1))を，E2.3と同様に構成する。 D2.3：復号化済文字位置カーソルのｋをｋ＝ｊ_w+1，辞
書登録済文字位置カーソルのｍをｍ＝ｍ＋ｙとおく。

【００５８】本発明が従来の符号化，復号化アルゴリズ
ムと異なるところは主にE2.3，D2.2のステップであり，
符号化が行われるたびに符号化文字列を付加してできる
最長一致文字列から一文字伸ばした文字列を辞書に逐次
登録する。

【００５９】以上のような符号化，復号化の処理におい
て，辞書が登録文字列で一杯になったときは，例えば従
来技術と同様にＬＲＵ（Least Recently Used ）やＬＦ
Ｕ（Least FrequentlyUsed ）の文字列を辞書から捨て
て，スペースを空け，新たな文字列を登録する。

【００６０】次に，本発明の実施例による符号化の具体
例を，図４に従って説明する。ここでは，説明を簡単に
するために，入力文字の種類は，ａ，ｂ，ｃ，ｄの４個
のアルファベットに限られるものとする。

【００６１】図４の（イ）に示すような入力データの文
字列“ａｂａｂｃａｂｃｄａｂｃｄ・・・”は，符号化
の際に，図４の（ロ）に示すような部分文字列に分解さ
れ，各部分文字列は，同図に示すような辞書番号で表さ
れて符号化される。図４の（ロ）に〜で示す分解時
点は，文字列分解の順番を表している。

【００６２】符号化に用いる辞書には，図４の（ハ）に
示すように，最初，ａ，ｂ，ｃ，ｄの４文字を初期値と
して登録しておいて，符号化を始める。新たな文字列
は，各分解時点に新しい辞書番号を付けて辞書に登録す
る。

【００６３】分解時点では，辞書を参照することによ
り，ａが番号(0) に符号化される。分解時点では，同
様にｂが番号(1) に符号化される。この分解時点で，
１番目の文字ａを１文字伸ばした文字列ａｂを，番号
(4) として登録する。この時点では，２番目の文字ｂか
ら始まる文字列の登録はできない。

【００６４】分解時点では，３番目の文字から始まる
文字列ａｂを，番号(4) で符号化した後，２番目の文字
から始まる文字列ｂａを，番号(5)として辞書に登録す
る。分解時点では，５番目の文字ｃを，番号(2) で符
号化した後，３番目の文字から始まる文字列ａｂｃ（既
登録の文字列ａｂを１文字伸ばしたもの）を，番号(6)
として登録する。以下同様に，符号化と辞書への登録を
続ける。

【００６５】例えば，分解時点では，６番目以降の文
字から始まる文字列ａｂｃｄの中で，既登録の文字列を
１文字伸ばした部分文字列を登録できるようになり，６
番目，７番目，８番目の文字から始まる文字列ａｂｃ
ｄ，ｂｃ，ｃｄが，それぞれ番号(8),(10),(11) で新規
に登録される。

【００６６】最終的に図４の（イ）に示す入力データの
文字列は，図４の（ロ）に辞書番号として示すように，
“(0) (1) (4) (2) (6) (3) (8) …”と符号化され，デ
ータが圧縮されることになる。

【００６７】復号化は，この符号化の逆操作となる。符
号化された番号を辞書を参照し，元の文字列に戻す。各
文字列を復号化した時点（分解時点と同じ）で，符号化
と同じ新たな文字列を辞書に登録する。

【００６８】なお，本発明は，コンピュータプログラム
によるソフトウェアや，マイクロプログラムによるファ
ームウェア，または論理回路によるハードウェアのいず
れによっても簡単に実現できる。通常の文字コード・テ
キストに限らず，ベクトル・データや画像データ等の種
々のデータに適用できることは言うまでもない。

【００６９】

【発明の効果】従来のＬＺＪ符号によれば，出難い文字
列も出易い文字列も出現頻度に関係なく，所定の長さま
での全ての文字列が辞書に登録され，使う頻度が小さい
文字列で辞書が急速に埋まってしまうことがある。これ
に対して，本発明によれば，出易い文字列だけが伸ばさ
れて登録され，出難い文字列は伸ばされず，使う頻度に
応じた文字列のバリェーションが辞書に登録される。こ
のため，辞書の能率が良くなり，辞書登録個数が減ると
ともに，部分文字列への分解個数も減り，データ圧縮率
が向上する。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】本発明の実施例によるデータ圧縮（符号化）の
処理フローを示す図である。

【図３】本発明の実施例によるデータ復元（復号化）の
処理フローを示す図である。

【図４】本発明の実施例による符号化例説明図である。

【図５】従来のＬＺＪ符号による符号化処理フローを示
す図である。

【図６】従来のＬＺＪ符号の復号化処理フローを示す図
である。

【図７】従来のＬＺＪ符号化例説明図である。

【符号の説明】

１０入力データ１１データ圧縮手段１２符号化用辞書１３辞書検索符号化処理１４辞書登録処理１５データ復元手段１６復号化用辞書１７辞書検索復号化処理１８辞書登録処理

───────────────────────────────────────────────────── フロントページの続き (72)発明者千葉広隆神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】動的に更新される辞書を用いてデータを
圧縮する符号化を行うデータ圧縮方法において，入力データの文字列を，辞書に登録されている文字列の
中から最長一致するものの番号で指定して符号化する過
程(13)と，符号化済文字列データ中の各文字から始まる相異なる部
分文字列であって，既に辞書に登録されているものの中
で最長一致する文字列を１文字伸ばした部分文字列を，
新たに番号を付けて辞書に登録する過程(14)とを備えた
ことを特徴とするデータ圧縮方法
【請求項２】請求項１記載のデータ圧縮方法におい
て，入力データの文字列を，辞書に登録されている文字列の
中から最長一致するものの番号で指定して符号化した
後，新たに符号化した文字列を符号化済文字列データに組み
入れたときに，符号化済文字列データ中で，各文字から
辞書中の最長一致文字列より１文字伸ばした文字列が確
保できた前回の最大文字位置の次の文字から，辞書中の
最長一致文字列を１文字伸ばした部分文字列を抽出し，
その部分文字列を辞書に追加登録することを特徴とする
データ圧縮方法。
【請求項３】動的に更新される辞書を用いて圧縮され
たデータを，同様に動的に更新される辞書を用いて復元
するデータ復元方法において，復元する圧縮データに基づく番号により辞書を検索し復
号化する過程(17)と，復号化済文字列データ中の各文字から始まる相異なる部
分文字列であって，既に辞書に登録されているものの中
で最長一致する文字列を１文字伸ばした部分文字列を，
新たに番号を付けて辞書に登録する過程(18)とを備えた
ことを特徴とするデータ復元方法
【請求項４】請求項３記載のデータ復元方法におい
て，復元する圧縮データに基づく番号により辞書を検索して
復号化した後，新たに復号化した文字列を復号化済文字列データに組み
入れたときに，復号化済文字列データ中で，各文字から
辞書中の最長一致文字列より１文字伸ばした文字列が確
保できた前回の最大文字位置の次の文字から，辞書中の
最長一致文字列を１文字伸ばした部分文字列を抽出し，
その部分文字列を辞書に追加登録することを特徴とする
データ復元方法。