JPH06291677A

JPH06291677A - データ圧縮装置及びデータ復元装置

Info

Publication number: JPH06291677A
Application number: JP7654293A
Authority: JP
Inventors: Yasuhiko Nakano; 泰彦中野; Yoshiyuki Okada; 佳之岡田; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-04-02
Filing date: 1993-04-02
Publication date: 1994-10-18

Abstract

(57)【要約】【目的】本発明は、ユニバーサル符号によるデータ圧縮
装置と、そのデータ復元装置に関し、特に、動的辞書型
に従うユニバーサル符号化構成を採るときにあって、高
いデータ圧縮を実現できるようにすることを目的とす
る。【構成】検索された辞書登録の最長一致文字列か、その
最長一致文字列の辞書番号の内の短い方を符号として設
定していくことを基本構成にして、この両者の識別のた
めに用意する識別フラグによりデータ圧縮効果が実現で
きないときには、辞書番号のみの符号を用いたり、文字
列のみをそのまま符号として用いる構成を採ったり、識
別フラグの集合を可変長符号化する構成を採ったり、最
長一致文字列を可変長符号化する構成を採る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユニバーサル符号によ
るデータ圧縮装置と、そのデータ復元装置に関し、特
に、動的辞書型に従うユニバーサル符号化構成を採ると
きにあって、高いデータ圧縮を実現できるデータ圧縮装
置と、そのデータ復元装置に関するものである。

【０００２】近年、文字コードやベクトル情報や画像
等、様々な種類のデータがコンピュータで扱われるよう
になっており、扱われるデータ量も急激に増加しつつあ
る。このような大量のデータを扱うときには、記憶容量
の削減を図り、高速伝送を実現するためにも、データ中
の冗長な部分を省いてデータ量を圧縮していく必要があ
る。

【０００３】データ圧縮の方法としては種々のものが提
案されているが、様々な種類のデータを１つの方式でデ
ータ圧縮できる方法として、ユニバーサル符号が提案さ
れている。このユニバーサル符号の代表的な方法として
ジブーレンペル（Ziv-Lempel）符号があり、このジブー
レンペル符号では、大きく分けてスライド辞書型（ユニ
バーサル型とも称せられている）と、動的辞書型（増分
分解型とも称せられている）という２つのアルゴリズム
が提案されている。そして、この動的辞書型のアルゴリ
ズムの改良として、ＬＺＷ（Lempel-Ziv-Welch）符号が
提案されている。このようなユニバーサル符号を実用的
なものとしていくためには、更に改良を図って、高いデ
ータ圧縮を実現できるようにしていく必要がある。

【０００４】なお、本発明は、文字コードの圧縮に限ら
れずに、様々なデータの圧縮に適用できるものである
が、以下では、情報理論で用いられている呼称を踏襲し
て、データの１ワードを文字と呼び、データが任意ワー
ドつながったものを文字列と呼ぶことにする。

【０００５】

【従来の技術】本発明は、動的辞書型ジブーレンペル符
号と、その改良型であるＬＺＷ符号の改良に関するもの
である。これから、ここでは、動的辞書型ジブーレンペ
ル符号化処理と、その改良型であるＬＺＷ符号化処理の
従来技術について説明する。

【０００６】動的辞書型ジブーレンペル符号は、入力さ
れたデータを互いに異なる文字列に分解し、この文字列
を辞書番号とともに辞書に管理していく構成を採って、
入力中のデータを、辞書登録の最長一致文字列の辞書番
号とその最長一致文字列に続く１文字とを対とする成分
系列に置き換えていくことで、長い文字列を短い辞書番
号で表すことでもって符号化を実行する構成を採るもの
である。なお、以下において、辞書番号を参照番号と称
することがある。

【０００７】具体例で説明するならば、入力データの系
列を、Ｘ＝ａａｂａｂａｂａａ・・・・・・・・とすると、Ｘ＝ａ・ａｂ・ａｂａ・ｂ・ａａ・・・・と増分分解することで、Ｘ＝Ｘ₀Ｘ₁Ｘ₂Ｘ₃Ｘ₄Ｘ₅・・・・・但し、Ｘ₀＝λ（空列），Ｘ₁＝Ｘ₀ａ，Ｘ₂＝Ｘ
₁ｂ，Ｘ₃＝Ｘ₂ａ，Ｘ₄＝Ｘ₀ｂ，Ｘ₅＝Ｘ₁ａ，・
・・という成分系列に置き換えていって、各成分系列Ｘ
_iを、辞書番号を表すｉ番号と次の１文字との組で符号
化していくのである。

【０００８】一方、ＬＺＷ符号は、動的辞書型ジブーレ
ンペル符号の改良を図って、入力データに出現する可能
性のある１文字構成の文字を予め辞書に登録する構成を
採ることで、辞書番号のみで入力データを符号化できる
ようにするものである。

【０００９】図２０に、ＬＺＷ符号による符号化処理の
処理フロー、図２１に、ＬＺＷ符号による復元化処理の
処理フローを図示する。ＬＺＷ符号によるデータ符号化
処理を実行する場合には、図２０の処理フローに示すよ
うに、先ず最初に、ステップ１で、符号化対象となる文
字列に出現する可能性のある全ての単一文字を辞書に登
録し、参照番号の最大値Ｎにその単一文字種類数を設定
する。次に、ステップ２で、符号化対象の入力データの
最初の文字Ｋを入力して、その文字Ｋの参照番号を語頭
文字列ωとして設定する。続いて、ステップ３で、符号
化対象の入力データから次の文字Ｋを読み込み、続くス
テップ４で、参照番号を表す語頭文字列ωとこの読み込
んだ文字Ｋとの組み合わせの文字列ωＫが、辞書に登録
されているか否かを判断する。

【００１０】このステップ４で、文字列ωＫが辞書に登
録されていると判断するときには、ステップ５に進ん
で、この文字列ωＫの参照番号を新たな語頭文字列ωと
して設定し、続くステップ６で、符号化対象の入力デー
タの全文字についての処理が終了したか否かを判断し
て、終了していないことを判断するときには、ステップ
３に戻っていくことで最長一致文字列を検索し、終了し
たことを判断するときには、ステップ８に進んで、語頭
文字列ωの参照番号を出力して処理を終了する。

【００１１】一方、ステップ４で、文字列ωＫが辞書に
登録されていないと判断するときには、語頭文字列ωの
示す文字列が最長一致文字列であることに対応して、ス
テップ７に進んで、語頭文字列ωの参照番号を出力する
とともに、この文字列ωＫを参照番号を付加して辞書に
登録する。そして、それまでの語頭文字列ωに続く１文
字Ｋの参照番号を新たな語頭文字列ωとして設定すると
ともに、参照番号の最大値を１つインクリメントしてか
らステップ６に進んでいくことで、次の最長一致文字列
の検索に入っていく。

【００１２】図２２に従って、この処理フローによるＬ
ＺＷ符号生成について具体的に説明すると、ステップ１
の処理に従って、文字ａが参照番号１、文字ｂが参照番
号２、文字ｃが参照番号３とともに辞書に登録される。
次に、ステップ２の処理に従って、入力データの先頭文
字ａが読み出されて、その参照番号１が語頭文字列ωと
して設定される。

【００１３】続いて、ステップ３の処理に従って、入力
データの第２番目の文字ｂが読み出され、ステップ４の
処理に従って、文字列１ｂ（＝ａｂ）が辞書に登録され
ていないことが判断されて、ステップ７の処理に従っ
て、語頭文字列ωの参照番号１が出力されるとともに、
文字列１ｂが参照番号４とともに辞書に登録され、更
に、この文字ｂの参照番号２が新たな語頭文字列ωとし
て設定される。

【００１４】続いて、ステップ３の処理に従って、入力
データの第３番目の文字ａが読み出され、ステップ４の
処理に従って、文字列２ａ（＝ｂａ）が辞書に登録され
ていないことが判断されて、ステップ７の処理に従っ
て、語頭文字列ωの参照番号２が出力されるとともに、
文字列２ａが参照番号５とともに辞書に登録され、更
に、この文字ａの参照番号１が新たな語頭文字列ωとし
て設定される。

【００１５】続いて、ステップ３の処理に従って、入力
データの第４番目の文字ｂが読み出され、ステップ４の
処理に従って、文字列１ｂが辞書に登録されていること
が判断されて、ステップ５の処理に従って、この文字列
１ｂの参照番号４が新たな語頭文字列ωとして設定され
る。

【００１６】続いて、ステップ３の処理に従って、入力
データの第５番目の文字ｃが読み出され、ステップ４の
処理に従って、文字列４ｃ（＝ａｂｃ）が辞書に登録さ
れていないことが判断されて、ステップ７の処理に従っ
て、語頭文字列ωの参照番号４が出力されるとともに、
文字列４ｃが参照番号６とともに辞書に登録され、更
に、この文字ｃの参照番号３が新たな語頭文字列ωとし
て設定される。

【００１７】以下同様の処理を繰り返していくことで、
図２２に示すような符号化が実行されていくことにな
る。図２３に、このときの辞書登録構成を図示する。一
方、ＬＺＷ符号によるデータ復元化処理を実行する場合
には、図２１の処理フローに示すように、先ず最初に、
ステップ１で、復元される文字列に出現する可能性のあ
る全ての単一文字を辞書に登録し、参照番号の最大値Ｎ
にその単一文字種類数を設定する。次に、ステップ２
で、復元対象となる入力データ（参照番号列である）の
最初の符号（CODE）を読み込み、OLDcode として設定す
るとともに、辞書を検索して、このCODEの指す文字Ｋを
探し出して出力する。ここで、出力した文字Ｋは、後の
例外処理のためにcharにセットしていく。

【００１８】続いて、ステップ３で、復元対象となる入
力データから次の符号（CODE）を読み込み、NEWcode と
して設定する。続いて、ステップ４で、ステップ３で読
み込んだCODEが辞書に登録されているか否かをチェック
する。このステップ４で、CODEが辞書に登録されている
ことを判断すると、ステップ５に進んで、このCODEの指
す文字列ωＫを辞書から読み出し、続くステップ６で、
この文字列ωＫの文字Ｋをスタックに格納するととも
に、この文字列ωＫの参照番号ωを新たなCODEとして設
定してステップ５の処理に戻っていく。

【００１９】このステップ５及びステップ６の処理を再
帰的に実行していくことで、CODEが１文字を指す状態に
達することを判断すると、ステップ７に進んで、ステッ
プ６でスタックした文字列をＬＩＬＯ（Last In Fast O
ut）形式でポップアップして出力するとともに、OLDcod
e に設定される前回使用した参照番号ωと、今回復元し
た文字列の先頭の１文字との組み合わせからなる文字列
ωＫを参照番号を付加して辞書に登録する。そして、復
元文字列の先頭の１文字を後の例外処理のためにcharに
セットし、NEWcode のCODEをOLDcode として設定すると
ともに、参照番号の最大値を１つインクリメントする。

【００２０】ステップ７の処理を終了すると、ステップ
８に進んで、復元対象となる入力データの全符号につい
ての処理が終了したか否かを判断して、終了していない
ことを判断するときには、ステップ３に戻っていくこと
で次の符号の復元処理を実行し、終了したことを判断す
るときには処理を終了する。

【００２１】そして、ステップ４で、ステップ３で読み
込んだCODEが辞書に登録されていないことを判断すると
きには、ステップ９に進んで、以下の例外処理を実行す
る。ここで、このような状態は、符号化において直前の
参照番号を参照する場合に起こることになる。これか
ら、ステップ９では、charを出力し、OLDcode をCODEと
して設定するとともに、OLDcode とcharとの組み合わせ
をNEWcode として設定して、ステップ５に進んでいく処
理を実行することになる。

【００２２】図２４に従って、この処理フローによるＬ
ＺＷ符号の復号化処理について具体的に説明すると、ス
テップ１の処理に従って、文字ａが参照番号１、文字ｂ
が参照番号２、文字ｃが参照番号３とともに辞書に登録
される。次に、ステップ２の処理に従って、入力データ
の先頭符号１が読み出されて、その符号１の指す文字ａ
が出力される。

【００２３】続いて、ステップ３の処理に従って、入力
データの第２番目の符号２が読み出され、ステップ５な
いしステップ７の処理に従って、その符号２の指す文字
ｂが出力されるとともに、前回処理した符号１と今回復
元した文字列の先頭の１文字ｂとの組み合わせの文字列
１ｂが参照番号４とともに辞書に登録される。

【００２４】続いて、ステップ３の処理に従って、入力
符号列の第３番目の符号４が読み出され、ステップ５な
いしステップ７の処理に従って、その符号４の指す文字
列ａｂが出力されるとともに、前回処理した符号２と今
回復元した文字列の先頭の１文字ａとの組み合わせの文
字列２ａが参照番号５とともに辞書に登録される。

【００２５】以下同様の処理を繰り返していくことで、
図２４に示すような符号化が実行されていくことになる
が、入力データの第６番目の符号８が読み出されるとき
には、符号８はこの復元時には辞書に登録されていな
い。これから、ステップ９の処理に従って例外処理が実
行されて、前回処理した符号５に前回復元した文字列ｂ
ａの先頭文字ｂを加えた文字列５ｂが求められ、これを
復元していくことで符号８の指す文字列ｂａｂが求めら
れて出力されるとともに、前回処理した符号５に今回復
元した文字列の先頭文字ｂを加えた文字列５ｂが参照番
号８とともに辞書に登録されることになるのである。

【００２６】この構成を採るときにあって、従来の動的
辞書型ジブーレンペル符号やＬＺＷ符号では、辞書番号
をそのまま用いていくという構成を採っている。

【００２７】

【発明が解決しようとする課題】しかしながら、このよ
うな従来技術に従っていると、辞書番号を符号とするよ
りも生文字をそのまま符号とする方がデータ圧縮を実現
できるにもかかわらず、必ず辞書番号を符号とするとい
う不都合が発生する。すなわち、従来技術に従っている
と、辞書に登録される文字列数が多くなることで辞書番
号を表すのに長いビット長が必要になり、辞書番号を表
すよりも少ないビット長で表現可能な最長一致文字列が
検索されるときでも、長いビット長の辞書番号を用いて
いくという不都合が生ずるのである。

【００２８】このような不都合を解決するために、本出
願人は、先に出願の特願平３-275293 号（発明の名称：
データ圧縮符号化及び復号化方式）で、生文字の方がデ
ータ圧縮を実現できる場合には、辞書番号ではなくて生
文字をそのまま符号として用いていくという発明を開示
した。

【００２９】この発明では、初期登録の単一文字を８ビ
ットで想定するＬＺＷ符号で説明するならば、図２０に
示した処理フローのステップ４とステップ７との間と、
ステップ６とステップ８との間とに、図２５に示す処理
を挿入し、図２１に示した処理フローのステップ３の一
部として、図２６に示す処理を挿入することで、生文字
の方がデータ圧縮を実現できる場合には、辞書番号では
なくて生文字をそのまま符号として用いていくという構
成を開示したのである。

【００３０】すなわち、符号化する場合には、図２５に
示すように、参照番号ωが８ビットの最大値“２５６”
よりも小さいか否かを判断して、“２５６”よりも小さ
いと判断するとき、従って、「参照番号＝生文字」と判
断するときには、先頭に識別フラグの“１”を付加する
ことで９ビットに設定して、この設定した９ビットで表
した参照番号（＝生文字）をそのまま出力し、一方、
“２５６”よりも大きいと判断するときには、参照番号
を表現可能とするlog₂Ｎビットに識別フラグの“０”を
付加したビット長を設定して、この設定したビット長で
表した参照番号を出力していくよう処理する。図２７
に、このときの出力形態を図示する。

【００３１】そして、復元する場合には、図２６に示す
ように、読み込んだ符号の識別フラグが“１”であるの
か“０”であるのかを判断して、“１”と判断するとき
には、符号が生文字であることから、符号語の切り出し
長を９ビットに設定して、この設定した９ビットでもっ
て生文字を切り出し、一方、“０”と判断するときに
は、符号が参照番号であることから、符号の切り出し長
を（log₂Ｎ＋１）ビットに設定して、この設定した（lo
g₂Ｎ＋１）ビットでもって辞書番号を切り出していくよ
う処理する。

【００３２】このようにして、先に出願の発明は、生文
字の方がデータ圧縮を実現できる場合には、辞書番号で
はなくて生文字をそのまま符号として用いていくという
構成を採ることで、データ圧縮の改善を図るものであ
る。そして、この先の出願では、更に、辞書の登録個数
が増加すると８ビットの単一文字の出現の可能性が少な
くなることから、辞書登録個数が規定数以上となるとき
には常に辞書番号を出力していく構成を採るという発明
についても開示した。

【００３３】しかるに、この先の出願の発明を用いる
と、識別フラグを付加することで冗長性が増すことにな
るが、この先の出願では、この冗長性を削減するための
積極的な構成を開示していない。これから、データ圧縮
の改善に余地が残されていることになる。

【００３４】本発明はかかる事情に鑑みてなされたもの
であって、この先の出願の発明を一歩進めることで、動
的辞書型に従うユニバーサル符号化構成を採るときにあ
って、更に高いデータ圧縮を実現できる新たなデータ圧
縮装置と、そのデータ復元装置の提供を目的とする。

【００３５】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図１（イ）に本発明のデータ圧縮装置の原
理構成、図１（ロ）にそのデータ復元装置の原理構成を
図示する。

【００３６】また、図２（イ）に本発明の他のデータ圧
縮装置の原理構成、図２（ロ）にそのデータ復元装置の
原理構成を図示する。また、図３（イ）に本発明の他の
データ圧縮装置の原理構成、図３（ロ）にそのデータ復
元装置の原理構成を図示する。

【００３７】図１（イ）に原理構成を図示するデータ圧
縮装置１は、入力データから分解される互いに異なる文
字列を辞書番号とともに格納する辞書１０ａと、規定量
の入力データを格納するバッファ手段１１ａと、バッフ
ァ手段１１ａに格納される入力データから辞書登録の最
長一致文字列を切り出してそれが持つ辞書番号を検索す
る検索手段１２ａと、検索手段１２ａの検索する最長一
致文字列対応に、最長一致文字列長か辞書番号のいずれ
が短いのかを判断する判断手段１３ａと、判断手段１３
ａの判断結果を参照しつつ、有利となる符号化形態モー
ドを判定する判定手段１４ａと、判定手段１４ａの指示
する符号化形態モードに従って、バッファ手段１１ａに
格納される入力データを符号化して出力する出力手段１
５ａと、検索手段１２ａの検索する最長一致文字列とそ
れに続く１文字からなる文字列を辞書１０ａに登録する
登録手段１６ａとを備える。

【００３８】図１（ロ）に原理構成を図示するデータ復
元装置２は、復元データから分解される互いに異なる文
字列を辞書番号とともに格納する辞書３０ａと、制御符
号を参照することで符号化形態モードを検出する検出手
段３１ａと、検出手段３１ａの検出結果に応じて符号を
復元する復元手段３２ａと、復元手段３２ａの復元する
文字列とそれに続く１文字とからなる文字列を辞書３０
ａに登録する登録手段３３ａとを備える。

【００３９】図２（イ）に原理構成を図示するデータ圧
縮装置１は、入力データから分解される互いに異なる文
字列を辞書番号とともに格納する辞書１０ｂと、入力デ
ータから辞書登録の最長一致文字列を切り出してそれが
持つ辞書番号を検索する検索手段１２ｂと、検索手段１
２ｂの検索する最長一致文字列対応に、最長一致文字列
長か辞書番号のいずれが短いのかを判断する判断手段１
３ｂと、判断手段１３ｂの判断結果を参照しつつ、有利
となる符号化形態モードを判定する判定手段１４ｂと、
判定手段１４ｂの指示する符号化形態モードに従って、
入力データを符号化して出力する出力手段１５ｂと、検
索手段１２ｂの検索する最長一致文字列とそれに続く１
文字からなる文字列を辞書１０ｂに登録する登録手段１
６ｂとを備える。

【００４０】図２（ロ）に原理構成を図示するデータ復
元装置２は、復元データから分解される互いに異なる文
字列を辞書番号とともに格納する辞書３０ｂと、制御符
号を参照することで符号化形態モードを検出する検出手
段３１ｂと、検出手段３１ｂの検出結果に応じて符号を
復元する復元手段３２ｂと、復元手段３２ｂの復元する
文字列とそれに続く１文字とからなる文字列を辞書３０
ｂに登録する登録手段３３ｂとを備える。

【００４１】図３（イ）に原理構成を図示するデータ圧
縮装置１は、入力データから分解される互いに異なる文
字列を辞書番号とともに格納する辞書１０ｃと、入力デ
ータから辞書登録の最長一致文字列を切り出してそれが
持つ辞書番号を検索する検索手段１２ｃと、符号や各種
情報を外部に出力する出力手段１５ｃと、検索手段１２
ｃの検索する最長一致文字列とそれに続く１文字からな
る文字列を辞書１０ｃに登録する登録手段１６ｃと、最
長一致文字列か辞書番号のいずれか一方を符号として設
定する設定手段１７ｃと、設定手段１７ｃの設定する複
数の符号に識別フラグを割り付ける割付手段１８ｃと、
割付手段１８ｃの割り付ける識別フラグを可変長符号化
する符号手段１９ｃと、符号手段１９ｃの可変長符号化
処理に用いられる符号化データを管理する符号化テーブ
ル２０ｃと、符号化テーブル２０ｃの符号化データを更
新する更新手段２１ｃと、設定手段１７ｃにより符号と
して設定される最長一致文字列を可変長符号化する符号
手段２２ｃと、符号手段２２ｃの可変長符号化処理に用
いられる符号化データを管理する符号化テーブル２３ｃ
と、符号化テーブル２３ｃの符号化データを更新する更
新手段２４ｃとを備える。

【００４２】図３（ロ）に原理構成を図示するデータ復
元装置２は、復元データから分解される互いに異なる文
字列を辞書番号とともに格納する辞書３０ｃと、符号が
最長一致文字列を表示するのか、辞書番号を表示するの
かを検出する検出手段３１ｃと、検出手段３１ｃの検出
結果に応じて符号を復元する復元手段３２ｃと、復元手
段３２ｃの復元する文字列とそれに続く１文字とからな
る文字列を辞書３０ｃに登録する登録手段３３ｃと、検
出手段３１ｃや復元手段３２ｃの実行する可変長符号化
逆変換処理に用いられる復号化データを管理する復号化
テーブル３４ｃと、復号化テーブル３４ｃの復号化デー
タを更新する更新手段３５ｃとを備える。

【００４３】

【作用】図１（イ）のデータ圧縮装置１では、判断手段
１３ａが最長一致文字列長か辞書番号長のいずれが短い
のかを判断していくときにあって、判定手段１４ａは、
例えば、最長一致文字列長の方が短いと判断される判断
回数が規定値以下であるときには、辞書番号のみを使用
する単一モードの符号化形態を有利と判定し、一方、最
長一致文字列長の方が短いと判断される判断回数が規定
値以上のときには、最長一致文字列と辞書番号の内の短
い方を使用する混在モードの符号化形態を有利と判定し
たり、バッファ手段１１ａの入力データを辞書番号のみ
で符号化するときのビット数と、最長一致文字列と辞書
番号の内の短い方で符号化するときのビット数とを求め
て、前者のビット数が後者のビット数よりも小さいと判
定するときには、辞書番号のみを使用する単一モードの
符号化形態を有利と判定し、一方、前者のビット数が後
者のビット数よりも大きいと判定するときに、最長一致
文字列と辞書番号の内の短い方を使用する混在モードの
符号化形態を有利と判定する。

【００４４】この判定結果を受けて、出力手段１５ａ
は、バッファ手段１１ａの格納する入力データに対して
の符号として、判定手段１４ａが単一モードの符号化形
態を有利と判定するときには、その旨の制御符号を付加
しつつ辞書番号のみを出力し、一方、判定手段１４ａが
混在モードの符号化形態を有利と判定するときには、そ
の旨の制御符号を付加しつつ最長一致文字列と辞書番号
の内の短い方を識別フラグとともに出力する。

【００４５】このように、図１（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
するときには識別フラグを付加しなければならないとい
う点を考慮して、バッファ手段１１ａに格納される入力
データが、この識別フラグによる符号長の増加があって
もデータ圧縮を実現できるというデータ状態にあるとき
には、最長一致文字列と辞書番号の内の短い方を使用す
る混在モードに従って符号を生成し、一方、実現できな
いというデータ状態にあるときには、辞書番号のみを使
用する本来の単一モードに従って符号を生成する構成を
採るのである。これにより、高いデータ圧縮を実現でき
ることになる。

【００４６】図１（ロ）のデータ復元装置２では、検出
手段３１ａは、制御符号を参照することで、その制御符
号に対応付けられる符号の符号化形態が辞書番号のみを
使用する単一モードの符号化形態を表示するものなの
か、最長一致文字列と辞書番号の内の短い方を使用する
混在モードの符号化形態を表示するものなのかを検出す
る。

【００４７】この検出結果を受けて、復元手段３２ａ
は、検出手段３１ａにより単一モードの符号化形態を表
示するものと検出されるときには、符号の表示する辞書
番号の指す辞書中の文字列を検索して出力し、一方、検
出手段３１ａにより混在モードの符号化形態を表示する
ものと検出されるときには、付加される識別フラグによ
り最長一致文字列と判断される符号については、そのま
ま出力するとともに、付加される識別フラグにより辞書
番号と判断される符号については、その辞書番号の指す
辞書中の文字列を検索して出力していくことでデータを
復元する。

【００４８】このように、図１（ロ）のデータ復元装置
２は、図１（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【００４９】図２（イ）のデータ圧縮装置１では、判断
手段１３ｂが最長一致文字列長か辞書番号長のいずれが
短いのかを判断していくときにあって、判定手段１４ｂ
は、例えば、辞書番号の方が短いと判断されることが規
定回数連続する場合には、辞書番号のみを使用する辞書
番号単一モードの符号化形態を有利と判定し、一方、最
長一致文字列の方が短いと判断されることが規定回数連
続する場合には、文字列のみを使用する文字列単一モー
ドの符号化形態を有利と判定し、一方、これらの連続状
態が発生しない場合には、最長一致文字列と辞書番号の
内の短い方を使用する混在モードの符号化形態を有利と
判定する。この判定結果を受けて、出力手段１５ｂは、
入力データに対しての符号として、判定手段１４ｂが辞
書番号単一モードの符号化形態を有利と判定するときに
は、その旨の制御符号を付加しつつ規定期間の間は辞書
番号のみを出力し、一方、判定手段１４ｂが文字列単一
モードの符号化形態を有利と判定するときには、その旨
の制御符号を付加しつつ規定期間の間は文字列のみを出
力し、一方、判定手段１４ｂが混在モードの符号化形態
を有利と判定するときには、最長一致文字列と辞書番号
の内の短い方を識別フラグとともに出力する。ここで、
判定手段１４ｂが固定的な規定回数の連続性をもって符
号化形態を判定していく構成を採る場合には、データ復
元装置２の側でも辞書番号単一モード／文字列単一モー
ドに入ることを自動認識することが可能であることか
ら、この制御符号の付加を省略することができる。

【００５０】このように、図２（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
するときには識別フラグを付加しなければならないとい
う点を考慮して、入力データの符号として辞書番号が連
続して選択されるようなときには、それから以降の規定
期間の間は、辞書番号単一モードの符号化形態に従って
識別フラグを付加せずに辞書番号のみの符号を生成し、
一方、入力データの符号として最長一致文字列が連続し
て選択されるようなときには、それから以降の規定期間
の間は、文字列単一モードの符号化形態に従って識別フ
ラグを付加せずに文字列のみの符号を生成し、一方、入
力データの符号して辞書番号と最長一致文字列の双方が
連続して選択されないようなときには、混在モードの符
号化形態に従って識別フラグを付加しつつ最長一致文字
列か辞書番号の符号を生成する構成を採るものである。
これにより、高いデータ圧縮を実現できることになる。

【００５１】図２（ロ）のデータ復元装置２では、検出
手段３１ｂは、符号を参照することで、その符号に対応
付けられる符号の符号形態が辞書番号のみを使用する辞
書番号単一モードの符号化形態を表示するものなのか、
文字列のみを使用する文字列単一モードの符号化形態を
表示するものなのか、最長一致文字列と辞書番号の内の
短い方を使用する混在モードの符号化形態を表示するも
のなのか検出する。

【００５２】この検出結果を受けて、復元手段３２ｂ
は、検出手段３１ｂにより辞書番号単一モードの符号化
形態を表示するものと検出されるときには、符号の表示
する辞書番号の指す辞書中の文字列を検索して出力し、
一方、検出手段３１ｂにより文字列単一モードの符号化
形態を表示するものと検出されるときには、符号の表示
する文字列をそのまま出力し、一方、検出手段３１ｂに
より混在モードの符号化形態を表示するものと検出され
るときには、付加される識別フラグにより最長一致文字
列と判断される符号については、そのまま出力するとと
もに、付加される識別フラグにより辞書番号と判断され
る符号については、その辞書番号の指す辞書中の文字列
を検索して出力する。

【００５３】このように、図２（ロ）のデータ復元装置
２は、図２（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【００５４】図３（イ）のデータ圧縮装置１では、設定
手段１７ｃが最長一致文字列長か辞書番号長のいずれが
短いのかを判断して、文字列長の方が短いと判断すると
きには最長一致文字列を符号として設定し、辞書番号長
の方が短いと判断するときには辞書番号を符号として設
定していくときにあって、割付手段１８ｃは、設定手段
１７ｃの設定する複数の符号に対応付けて、符号が最長
一致文字列か辞書番号のいずれに属するのかを表示する
識別フラグ群を割り付け、符号手段１９ｃは、符号化テ
ーブル２０ｃの符号化データを参照しつつ、この割り付
けられた識別フラグ群を出現頻度の高いもの程短い符号
長となるようにと可変長符号化する。そして、出力手段
１５ｃは、符号手段１９ｃの生成する可変長符号を設定
手段１７ｃの設定する複数の符号の先頭に対応付けて出
力していく。

【００５５】このとき、符号手段２２ｃは、符号化テー
ブル２３ｃの符号化データを参照しつつ、設定手段１７
ｃの設定する最長一致文字列を出現頻度の高いもの程短
い符号長となるようにと可変長符号化することがあり、
また、更新手段２１ｃは、復元側と同期をとりつつ、あ
るいは非同期でもって識別フラグ群の出現確率を測定す
ることで、符号化テーブル２０ｃの符号化データを動的
に書き換えていくことがあり、また、更新手段２４ｃ
は、復元側と同期をとりつつ、あるいは非同期でもって
最長一致文字列の出現確率を測定することで、符号化テ
ーブル２３ｃの符号化データを動的に書き換えていくこ
とがあり、また、出力手段１５ｃは、復元側と非同期で
もって符号化テーブル２０ｃ，２３ｃの符号化データが
動的に書き換えられるときにあって、復元側のために、
符号化テーブル２０ｃ，２３ｃの更新情報を出力するこ
とがある。

【００５６】あるいは、図３（イ）のデータ圧縮装置１
では、設定手段１７ｃが最長一致文字列長か辞書番号長
のいずれが短いのかを判断して、識別フラグを割り付け
つつ、文字列長の方が短いと判断するときには最長一致
文字列を符号として設定し、辞書番号長の方が短いと判
断するときには辞書番号を符号として設定していくとき
にあって、符号手段２２ｃは、符号化テーブル２３ｃの
符号化データを参照しつつ、設定手段１７ｃの設定する
最長一致文字列を出現頻度の高いもの程短い符号長とな
るようにと可変長符号化する。そして、出力手段１５ｃ
は、符号手段２２ｃの生成する可変長符号を設定手段１
７ｃの設定する最長一致文字列の代わりに出力してい
く。

【００５７】このとき、更新手段２４ｃは、復元側と同
期をとりつつ、あるいは非同期でもって最長一致文字列
の出現確率を測定することで、符号化テーブル２３ｃの
符号化データを動的に書き換えていくことがあり、ま
た、出力手段１５ｃは、復元側と非同期でもって符号化
テーブル２３ｃの符号化データが動的に書き換えられる
ときにあって、復元側のために、符号化テーブル２３ｃ
の更新情報を出力することがある。

【００５８】このようにして、図３（イ）のデータ圧縮
装置１では、最長一致文字列と辞書番号の内の短い方で
符号化するときにあって、この２種類の識別のために用
意する識別フラグのデータ圧縮を実現する構成を採った
り、最長一致文字列と辞書番号の内の短い方で符号化す
るときにあって、この最長一致文字列のデータ圧縮を実
現する構成を採るのである。

【００５９】図３（ロ）のデータ復元装置２では、検出
手段３１ｃは、可変長符号化されている符号を復号する
ことで識別フラグ群を得ていくことで、対応付けられる
符号が最長一致文字列を表示するのか、辞書番号を表示
するのかを検出し、この検出結果を受けて、復元手段３
２ｃは、検出手段３１ｃにより最長一致文字列を表示す
るものと検出される符号については、その最長一致文字
列をそのまま出力し、一方、検出手段３１ｃにより辞書
番号を表示するものと検出される符号については、その
辞書番号の指す辞書中の文字列を検索して出力する。

【００６０】このとき、復元手段３２ｃは、符号の最長
一致文字列が可変長符号化されているときには、逆変換
を実行することで最長一致文字列を復元していくことが
あり、また、更新手段３５ｃは、圧縮側と同期をとりつ
つ、識別フラグ群や最長一致文字列の出現確率を測定す
ることで、検出手段３１ｃや復元手段３２ｃの用いる復
号化テーブル３４ｃの復号化データを動的に書き換えて
いったり、圧縮側からの更新情報に従って復元化テーブ
ル３４ｃの復号化データを動的に書き換えていくことが
ある。

【００６１】あるいは、図３（ロ）のデータ復元装置２
では、識別フラグを参照することで、対応付けられる符
号が可変長符号化されている最長一致文字列を表示する
のか、辞書番号を表示するのかを検出し、この検出結果
を受けて、復元手段３２ｃは、検出手段３１ｃにより可
変長符号化されている最長一致文字列を表示するものと
検出される符号については、この可変長符号化の逆変換
を実行することで最長一致文字列を復元して出力し、一
方、検出手段３１ｃにより辞書番号を表示するものと検
出される符号については、その辞書番号の指す辞書中の
文字列を検索して出力する。

【００６２】このとき、更新手段３５ｃは、圧縮側と同
期をとりつつ、最長一致文字列の出現確率を測定するこ
とで、復元手段３２ｃの用いる復号化テーブル３４ｃの
復号化データを動的に書き換えていったり、圧縮側から
の更新情報に従って復号化テーブル３４ｃの復号化デー
タを動的に書き換えていくことがある。

【００６３】このように、図３（ロ）のデータ復元装置
２は、図３（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【００６４】

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図４に、図１（イ）のデータ圧縮装置１の実行する
データ圧縮処理フローの一実施例、図５に、図１（ロ）
のデータ復元装置２の実行するデータ復元処理フローの
一実施例を図示する。

【００６５】次に、これらの処理フローに従って、この
データ圧縮装置１の実行するデータ圧縮処理と、このデ
ータ復元装置２の実行するデータ復元処理について詳細
に説明する。

【００６６】図１（イ）のデータ圧縮装置１は、図４の
処理フローに示すように、先ず最初に、ステップ１で、
入力ファイルから圧縮対象の入力データを受け取って中
間バッファに格納すると、次に、ステップ２で、辞書１
０ａを検索することで、中間バッファの格納データから
辞書登録の最長一致文字列を切り出して、その最長一致
文字列の持つ辞書番号を特定する。

【００６７】続いて、ステップ３で、ステップ２の符号
化処理で得られた最長一致文字列／辞書番号の関係を用
いて、最長一致文字列長の方が辞書番号長よりも短くな
るケース数を計数する。すなわち、生文字の方が有利と
なるデータ数を計数するのである。続いて、ステップ４
で、ステップ３の検出したケース数が規定値以下の場合
には、辞書番号のみを使用する単一モードの符号化形態
を選択し、ステップ３の検出したケース数が規定値以上
の場合には、最長一致文字列と辞書番号の内の短い方を
使用する混在モードの符号化形態を選択することで、中
間バッファの格納データの符号化形態を選択する。

【００６８】続いて、ステップ５で、ステップ４で選択
したモード種別を表示するモード符号を出力し、続くス
テップ６で、これに続けて、ステップ４で選択した符号
化形態に従って符号語を出力してから、ステップ１に戻
っていく。すなわち、このステップ６では、図６に示す
ように、ステップ４で選択したモードが単一モードであ
るときには、識別フラグを付けずに辞書番号のみを出力
し、一方、ステップ４で選択したモードが混在モードで
あるときには、識別フラグを付けつつ最長一致文字列と
辞書番号の内の短い方を出力するのである。

【００６９】この図４の処理フローでは、ステップ４
で、最長一致文字列の方が辞書番号よりも有利とする発
生頻度を使ってモードを選択する構成を開示したが、単
一モードで符号化するビット数と、混在モードで符号化
するビット数とを求めて、前者のビット数が後者のビッ
ト数よりも小さいと判定するときには、単一モードを選
択し、前者のビット数が後者のビット数よりも大きいと
判定するときに、混在モードを選択する方法を採ること
も可能である。

【００７０】このように、図１（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
する構成を採るときにあって、両者を区別するための識
別フラグによりデータ圧縮効果を実現できない場合に
は、単一モードに従って識別フラグを付けずに辞書番号
のみを出力していく構成を採るものである。

【００７１】図１（ロ）のデータ復元装置２は、図５の
処理フローに示すように、先ず最初に、ステップ１で、
入力ファイルから復元対象の入力データ（符号語）を受
け取って中間バッファに格納すると、次にステップ２
で、受け取ったモード符号をデコードすることで、符号
化形態が単一モードに設定されているのか、混在モード
に設定されているのかを検出する。

【００７２】続いて、ステップ３で、ステップ２で検出
されたモードに従って、モード符号に続く中間バッファ
の格納符号を復号化する。すなわち、ステップ２で単一
モードであると検出されるときには、符号の表示する辞
書番号の指す文字列を辞書２０ａから読み出し、一方、
ステップ２で混在モードであると検出されるときには、
識別フラグにより最長一致文字列と判断される符号につ
いては、そのままとするとともに、識別フラグにより辞
書番号と判断される符号については、その辞書番号の指
す文字列を辞書２０ａから読み出すのである。続いて、
ステップ４で、ステップ３で復号化したデータを出力し
てステップ１に戻っていく。

【００７３】このように、図１（ロ）のデータ復元装置
２は、図１（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【００７４】図７に、図２（イ）のデータ圧縮装置１の
実行するデータ圧縮処理フローの一実施例、図８に、図
２（ロ）のデータ復元装置２の実行するデータ復元処理
フローの一実施例を図示する。

【００７５】次に、これらの処理フローに従って、この
データ圧縮装置１の実行するデータ圧縮処理と、このデ
ータ復元装置２の実行するデータ復元処理について詳細
に説明する。

【００７６】図２（イ）のデータ圧縮装置１は、図７の
処理フローに示すように、先ず最初に、ステップ１で、
入力ファイルから圧縮対象の入力データを受け取ると、
次に、ステップ２で、辞書１０ｂを検索することで、入
力データから辞書登録の最長一致文字列を切り出して、
その最長一致文字列の持つ辞書番号を特定してから、最
長一致文字列長の方が短くなる場合には最長一致文字列
を符号として設定し、辞書番号の方が短くなる場合には
辞書番号を符号として設定する。

【００７７】続いて、ステップ３で、ステップ２で符号
として設定される最長一致文字列が連続しているか否か
を判断して、連続している場合には、最長一致文字列の
連続値を管理する変数の管理値Ｎを１つカウントアップ
し、連続が途切れた場合には、この管理値Ｎをクリアす
るとともに、ステップ２で符号として設定される辞書番
号が連続しているか否かを判断して、連続している場合
には、辞書番号の連続値を管理する変数の管理値Ｎを１
つカウントアップし、連続が途切れた場合には、この管
理値Ｎをクリアする。

【００７８】続いて、ステップ４で、最長一致文字列の
連続値を管理する変数の管理値Ｎが規定の閾値よりも大
きくなったか否かを判断するとともに、辞書番号の連続
値を管理する変数の管理値Ｎが規定の閾値よりも大きく
なったか否かを判断する。このステップ４で両者とも閾
値よりも小さいと判断するときには、ステップ５に進ん
で、最長一致文字列と辞書番号の内の短い方を使用する
混在モードに従ってステップ２で設定された符号を２モ
ード符号で出力してから、ステップ１に戻っていく。す
なわち、識別フラグを付けつつ最長一致文字列と辞書番
号の内の短い方を出力するのである。

【００７９】一方、ステップ４で、どちらかの管理値Ｎ
が閾値よりも大きいと判断するときには、ステップ６に
進んで、どちらの管理値Ｎが閾値よりも大きくなったか
を判断（この判断の終了後にその管理値Ｎをクリアす
る）して、辞書番号の管理値Ｎであると判断するときに
は、ステップ７に進んで、規定量の入力データを読み込
み、続くステップ８で、辞書１０ｂを検索することで、
この読み込んだ入力データから辞書登録の最長一致文字
列を切り出して、その最長一致文字列の持つ辞書番号を
特定する。そして、続くステップ９で、辞書番号単一モ
ードである旨のモード符号を出力してから、ステップ２
で設定された辞書番号と、この特定した辞書番号とを識
別フラグを付けずに連続的に出力し、続くステップ１０
で、単一モードの終了を表示する単一モード終了符号を
出力してから、ステップ１に戻っていく。

【００８０】一方、ステップ６で、閾値よりも大きくな
ったのが最長一致文字列の管理値Ｎであると判断すると
きには、ステップ１１に進んで、規定量の入力データを
読み込み、続くステップ１２で、文字列単一モードであ
る旨のモード符号を出力してから、ステップ２で設定さ
れた最長一致文字列と、この読み込んだ文字列とをその
まま連続的に出力し、続くステップ１３で、単一モード
の終了を表示する単一モード終了符号を出力してから、
ステップ１に戻っていく。

【００８１】このように、図２（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
する構成を採るときにあって、どちらかが連続する場合
には、図９に示すように、連続する方の形式に従って符
号化するとともに、両者を区別するための識別フラグを
削除していくという構成を採るものである。

【００８２】図２（ロ）のデータ復元装置２は、図８の
処理フローに示すように、先ず最初に、ステップ１で、
入力ファイルから復元対象の入力データ（符号語）を受
け取ると、次にステップ２で、受け取ったモード符号を
デコードすることで、符号化形態が辞書番号単一モード
に設定されているのか、文字列単一モードに設定されて
いるのか、混在モードに設定されているのかを検出す
る。

【００８３】続いて、ステップ３で、ステップ２で検出
されたモードに従って、モード符号に続く符号を復号化
してから、ステップ１に戻っていく。すなわち、ステッ
プ２で辞書単一モードであると検出されるときには、符
号の表示する辞書番号の指す文字列を辞書２０ｂから読
み出して出力し、一方、ステップ２で文字列単一モード
であると検出されるときには、符号をそのまま出力し、
一方、混在モードであると検出されるときには、識別フ
ラグにより最長一致文字列と判断される符号について
は、その符号をそのまま出力するとともに、識別フラグ
により辞書番号と判断される符号については、その辞書
番号の指す文字列を辞書２０ｂから読み出して出力する
のである。

【００８４】このように、図２（ロ）のデータ復元装置
２は、図２（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【００８５】図１０、図１２及び図１４に、図３（イ）
のデータ圧縮装置１の実行するデータ圧縮処理フローの
一実施例、図１１、図１３及び図１５に、図３（ロ）の
データ復元装置２の実行するデータ復元処理フローの一
実施例を図示する。

【００８６】次に、これらの処理フローに従って、この
データ圧縮装置１の実行するデータ圧縮処理と、このデ
ータ復元装置２の実行するデータ復元処理について詳細
に説明する。

【００８７】図３（イ）のデータ圧縮装置１は、図１０
の処理フローに示すように、先ず最初に、ステップ１
で、入力ファイルから圧縮対象の入力データを受け取る
と、次に、ステップ２で、符号化を実行することで辞書
番号で符号化するのか、最長一致文字列で符号化するの
かを決定して、この決定により生成される符号を複数個
数生成する。すなわち、辞書１０ｃを検索することで、
入力データから辞書登録の最長一致文字列を切り出し
て、その最長一致文字列の持つ辞書番号を特定してか
ら、最長一致文字列長の方が短くなる場合には最長一致
文字列を符号として設定し、辞書番号の方が短くなる場
合には辞書番号を符号として設定することを複数個数に
対して実行するのである。

【００８８】続いて、ステップ３で、ステップ２で生成
した符号に関しての識別フラグ群を抽出する。すなわ
ち、図１６に示すように、例えば４個の符号を生成する
ときに、最長一致文字列に対して“１”の識別フラグを
割り付け、辞書番号に対して“０”の識別フラグを割り
付けるときには、この４個の符号の持つ識別フラグ群を
抽出するのである。

【００８９】続いて、ステップ４で、ステップ３で抽出
した識別フラグ群をハフマン符号化する。例えば、図１
７に示すように、最長一致文字列（生データ）が無い識
別フラグ群の事象の発生確率が“０.3”で、最長一致
文字列が１個となる識別フラグ群の事象の発生確率が
“０.4”で、最長一致文字列が２個となる識別フラグ群
の事象の発生確率が“０.18 ”で、最長一致文字列が
３個となる識別フラグ群の事象の発生確率が“０.1”
で、最長一致文字列が４個となる識別フラグ群の事象
の発生確率が“０.02 ”であるとともに、各事象の持つ
事象単位の辞書内での発生確率が同一であると仮定する
場合には、図１８に示すようなハフマン木に従って、図
１９に示すように、“００００”という識別フラグ群を
持つ事象単位ａに対しては、“１００”というハフマン
符号を割り付けていくことでハフマン符号化するのであ
る。

【００９０】続いて、ステップ５で、ステップ２で生成
した符号に先立って、ステップ４で生成したハフマン符
号の識別フラグ群を出力し、続いて、この後にステップ
２で生成した複数の符号を出力してから、ステップ１に
戻っていく。

【００９１】このように、図３（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
する構成を採るときにあって、両者を区別するために用
意する識別フラグのデータ圧縮を図る構成を採るのであ
る。

【００９２】図３（ロ）のデータ復元装置２は、図１１
の処理フローに示すように、先ず最初に、ステップ１
で、入力ファイルから復元対象の入力データ（符号語）
を受け取ると、次にステップ２で、受け取ったハフマン
符号の識別フラグ群をデコードすることで、この識別フ
ラグ群の後に続く複数の符号の各々が最長一致文字列を
表示しているのか、辞書番号を表示しているのかを検出
する。

【００９３】続いて、ステップ３で、ステップ２で検出
結果に従って、ハフマン符号の識別フラグ群に続く複数
の符号をデコードする。すなわち、ステップ２で辞書番
号と検出される符号については、その辞書番号の指す文
字列を辞書２０ｃから読み出し、一方、ステップ２で最
長一致文字列と検出される符号については、そのままと
するのである。続いて、ステップ４で、ステップ３で復
号化したデータを出力してから、ステップ１に戻ってい
く。

【００９４】このように、図３（ロ）のデータ復元装置
２は、図３（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【００９５】次に、図３（イ）のデータ圧縮装置１の実
行する図１２の処理フローの符号化処理について説明す
る。図３（イ）のデータ圧縮装置１は、図１２の処理フ
ローに示すように、先ず最初に、ステップ１で、入力フ
ァイルから圧縮対象の入力データを受け取ると、次に、
ステップ２で、辞書登録の最長一致文字列の出現確率分
布を測定して、それを更新する。続いて、ステップ３
で、ステップ２で更新された確率分布に従ってハフマン
木を作成し、続くステップ４で、この新たなハフマン木
がそれまでに使用していたハフマン木と異なるものであ
るのか否かを判断する。

【００９６】このステップ４で従来のものと違わないこ
とを判断するときには、ステップ５に進んで、辞書１０
ｃを検索することで、入力データから辞書登録の最長一
致文字列を切り出して、その最長一致文字列の持つ辞書
番号を特定してから、最長一致文字列長の方が短くなる
場合には最長一致文字列をハフマンテーブルに従って可
変長符号化し、辞書番号の方が短くなる場合には辞書番
号を符号として符号化する。

【００９７】一方、ステップ４で従来のものと違うこと
を判断するときは、ステップ６に進んで、確率分布変更
の特殊コードを出力してから、続くステップ７で、新た
なハフマンテーブルの生成に必要となるステップ２で測
定された確率分布情報を出力する。そして、ステップ５
に進んで、辞書１０ｃを検索することで、入力データか
ら辞書登録の最長一致文字列を切り出して、その最長一
致文字列の持つ辞書番号を特定してから、最長一致文字
列長の方が短くなる場合には最長一致文字列を新たなハ
フマンテーブルに従って可変長符号化し、辞書番号の方
が短くなる場合には辞書番号を符号として符号化する。

【００９８】このように、図３（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
する構成を採るときにあって、この最長一致文字列のデ
ータ圧縮を図る構成を採るのである。

【００９９】この図３（イ）のデータ圧縮装置１の符号
化処理を受けて、図３（ロ）のデータ復元装置２は、図
１３の処理フローに示すように、先ず最初に、ステップ
１で、入力ファイルから復元対象の入力データ（符号
語）を受け取ると、次にステップ２で、受け取った符号
が特殊コードであるか否かを判断して、特殊コードでな
いと判断するときには、ステップ３に進んで、符号の復
号処理を実行する。すなわち、識別フラグにより最長一
致文字列と判断される符号については、ハフマンテーブ
ルに従って可変長符号化の逆変換を実行することで最長
一致文字列を復号して出力するとともに、識別フラグに
より辞書番号と判断される符号については、その辞書番
号の指す文字列を辞書２０ｃから読み出して出力するの
である。

【０１００】一方、ステップ２で受け取った符号が特殊
コードであると判断するときには、ステップ４に進ん
で、特殊コードに続く確率分布情報をデコードすること
で新たなハフマンテーブルを作成してから、ステップ１
に戻っていく。

【０１０１】このように、図３（ロ）のデータ復元装置
２は、図３（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。

【０１０２】次に、図３（イ）のデータ圧縮装置１の実
行する図１４の処理フローの符号化処理について説明す
る。図３（イ）のデータ圧縮装置１は、図１４の処理フ
ローに示すように、先ず最初に、ステップ１で、入力フ
ァイルから圧縮対象の入力データを受け取ると、次に、
ステップ２で、入力データ数Ｎをカウントし、続くステ
ップ３で、このカウント値Ｎが規定の閾値よりも大きく
なったか否かを判断する。

【０１０３】このステップ３で入力データ数が規定の閾
値よりも小さいと判断するときには、ステップ４に進ん
で、辞書１０ｃを検索することで、入力データから辞書
登録の最長一致文字列を切り出して、その最長一致文字
列の持つ辞書番号を特定してから、最長一致文字列長の
方が短くなる場合には最長一致文字列をハフマンテーブ
ルに従って可変長符号化し、辞書番号の方が短くなる場
合には辞書番号を符号として符号化する。

【０１０４】一方、ステップ３で入力データ数が規定の
閾値よりも大きいと判断するときには、ステップ５に進
んで、入力データ数をクリアするとともに、前回のハフ
マンテーブルの更新時から測定した辞書登録の最長一致
文字列の出現確率分布に従ってハフマンテーブルを更新
してから、ステップ４に進んで上述の符号化処理を実行
する。

【０１０５】このように、図３（イ）のデータ圧縮装置
１は、最長一致文字列と辞書番号の内の短い方で符号化
する構成を採るときにあって、この最長一致文字列のデ
ータ圧縮を図る構成を採るのである。ここで、図１２の
処理フローの符号化処理と異なる点は、データ復元装置
２側にハフマンテーブルの更新に必要となる確率分布情
報を出力しない点である。

【０１０６】この図３（イ）のデータ圧縮装置１の符号
化処理を受けて、図３（ロ）のデータ復元装置２は、図
１５の処理フローに示すように、先ず最初に、ステップ
１で、入力ファイルから復元対象の入力データ（符号
語）を受け取ると、次にステップ２で、入力データ数Ｎ
をカウントし、続くステップ３で、このカウント値Ｎが
規定の閾値よりも大きくなったか否かを判断する。

【０１０７】このステップ３で入力データ数が規定の閾
値よりも小さいと判断するときには、ステップ４に進ん
で、符号の復号処理を実行する。すなわち、識別フラグ
により最長一致文字列と判断される符号については、ハ
フマンテーブルに従って可変長符号化の逆変換を実行す
ることで最長一致文字列を復号して出力するとともに、
識別フラグにより辞書番号と判断される符号について
は、その辞書番号の指す文字列を辞書２０ｃから読み出
して出力するのである。

【０１０８】一方、ステップ３で入力データ数が規定の
閾値よりも大きいと判断するときには、ステップ５に進
んで、入力データ数をクリアするとともに、前回のハフ
マンテーブルの更新時から測定した辞書登録の最長一致
文字列の出現確率分布に従ってハフマンテーブルを更新
してから、ステップ４に進んで上述の復号処理を実行す
る。

【０１０９】このように、図３（ロ）のデータ復元装置
２は、図３（イ）のデータ圧縮装置１の逆変換処理を実
行することで、このデータ圧縮装置１の生成する符号語
を復元していくのである。ここで、図１３の処理フロー
の復元化処理と異なる点は、データ復元装置２は、デー
タ圧縮装置１からハフマンテーブルの更新に必要となる
確率分布情報を受け取るのではなくて、自らがデータ圧
縮装置１と同期をとりつつハフマンテーブルの更新に必
要となる確率分布情報を得る点である。

【０１１０】

【発明の効果】以上説明したように、本発明によれば、
動的辞書型に従うユニバーサル符号化構成に従い、最長
一致文字列と辞書番号の内の短い方で符号化する構成を
採るときにあって、従来技術よりも高いデータ圧縮を実
現できるようになる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の原理構成図である。

【図３】本発明の原理構成図である。

【図４】本発明のデータ圧縮装置の実行する処理フロー
の一実施例である。

【図５】本発明のデータ復元装置の実行する処理フロー
の一実施例である。

【図６】本発明の符号化処理の説明図である。

【図７】本発明のデータ圧縮装置の実行する処理フロー
の一実施例である。

【図８】本発明のデータ復元装置の実行する処理フロー
の一実施例である。

【図９】本発明の符号化処理の説明図である。

【図１０】本発明のデータ圧縮装置の実行する処理フロ
ーの一実施例である。

【図１１】本発明のデータ復元装置の実行する処理フロ
ーの一実施例である。

【図１２】本発明のデータ圧縮装置の実行する処理フロ
ーの一実施例である。

【図１３】本発明のデータ復元装置の実行する処理フロ
ーの一実施例である。

【図１４】本発明のデータ圧縮装置の実行する処理フロ
ーの一実施例である。

【図１５】本発明のデータ復元装置の実行する処理フロ
ーの一実施例である。

【図１６】本発明の符号化処理の説明図である。

【図１７】本発明の符号化処理の説明図である。

【図１８】本発明の符号化処理の説明図である。

【図１９】本発明の符号化処理の説明図である。

【図２０】ＬＺＷ符号によるデータ符号化処理の説明図
である。

【図２１】ＬＺＷ符号によるデータ復元化処理の説明図
である。

【図２２】ＬＺＷ符号によるデータ符号化処理の説明図
である。

【図２３】ＬＺＷ符号における辞書登録構成の説明図で
ある。

【図２４】ＬＺＷ符号によるデータ復元化処理の説明図
である。

【図２５】先に出願したＬＺＷ符号の符号化処理の説明
図である。

【図２６】先に出願したＬＺＷ符号の復号化処理の説明
図である。

【図２７】先に出願したＬＺＷ符号の符号化処理の説明
図である。

【符号の説明】

１データ圧縮装置２データ復元装置１０ａ辞書１１ａバッファ手段１２ａ検索手段１３ａ判断手段１４ａ判定手段１５ａ出力手段１６ａ登録手段３０ａ辞書３１ａ検出手段３２ａ復元手段３３ａ登録手段

Claims

【特許請求の範囲】

【請求項１】入力されたデータを互いに異なる文字列
に分解し、該文字列を辞書番号とともに辞書に管理して
いく構成を採って、入力中のデータを辞書登録の最長一
致文字列の辞書番号を用いて符号化する構成を採るデー
タ圧縮装置において、規定量の入力データを格納するバッファ手段(11a) と、上記バッファ手段(11a) の格納する入力データから検索
された最長一致文字列対応に、該最長一致文字列の文字
列長か該最長一致文字列の辞書番号長のいずれが短いの
かを判断する判断手段(13a) と、上記判断手段(13a) の判断結果を参照しつつ、上記バッ
ファ手段(11a) の格納する入力データに対しての符号化
形態として、辞書番号のみを使用する単一モードの符号
化形態が有利なのか、最長一致文字列と辞書番号の内の
短い方を使用する混在モードの符号化形態が有利なのか
を判定する判定手段(14a) と、上記バッファ手段(11a) の格納する入力データに対して
の符号として、上記判定手段(14a) が単一モードの符号
化形態を有利と判定するときには、その旨の制御符号を
付加しつつ辞書番号のみを出力し、一方、上記判定手段
(14a) が混在モードの符号化形態を有利と判定するとき
には、その旨の制御符号を付加しつつ最長一致文字列と
辞書番号の内の短い方を識別フラグとともに出力する出
力手段(15a) とを備えることを、特徴とするデータ圧縮装置。
【請求項２】請求項１記載のデータ圧縮装置におい
て、判定手段(14a) は、最長一致文字列長の方が短いと判断
される判断回数が規定値以下であるときには、単一モー
ドの符号化形態を有利と判定し、一方、最長一致文字列
長の方が短いと判断される判断回数が規定値以上のとき
には、混在モードの符号化形態を有利と判定するよう処
理することを、特徴とするデータ圧縮装置。
【請求項３】請求項１記載のデータ圧縮装置におい
て、判定手段(14a) は、バッファ手段(11a) の入力データを
辞書番号のみで符号化するときのビット数と、最長一致
文字列と辞書番号の内の短い方で符号化するときのビッ
ト数とを求めて、前者のビット数が後者のビット数より
も小さいと判定するときには、単一モードの符号化形態
を有利と判定し、一方、前者のビット数が後者のビット
数よりも大きいと判定するときに、混在モードの符号化
形態を有利と判定するよう処理することを、特徴とする
データ圧縮装置。
【請求項４】復元されたデータを互いに異なる文字列
に分解し、該文字列を辞書番号とともに辞書に管理し
て、符号の指定する辞書番号から該辞書中の対応する文
字列を特定していく構成を採って、入力中の符号をこの
特定する文字列に置き換えていくことで復元化する構成
を採るデータ復元装置において、符号を参照することで、対応付けられる符号の符号化形
態が辞書番号のみを使用する単一モードの符号化形態を
表示するものなのか、最長一致文字列と辞書番号の内の
短い方を使用する混在モードの符号化形態を表示するも
のなのかを検出する検出手段(31a) と、上記検出手段(31a) により単一モードの符号化形態を表
示するものと検出されるときには、符号の表示する辞書
番号の指す辞書中の文字列を検索して出力し、一方、上
記検出手段(31a) により混在モードの符号化形態を表示
するものと検出されるときには、付加される識別フラグ
により最長一致文字列と判断される符号については、そ
のまま出力するとともに、付加される識別フラグにより
辞書番号と判断される符号については、該辞書番号の指
す辞書中の文字列を検索して出力する復元手段(32a) と
を備えることを、特徴とするデータ復元装置。
【請求項５】入力されたデータを互いに異なる文字列
に分解し、該文字列を辞書番号とともに辞書に管理して
いく構成を採って、入力中のデータを辞書登録の最長一
致文字列の辞書番号を用いて符号化する構成を採るデー
タ圧縮装置において、検索された最長一致文字列の文字列長か該最長一致文字
列の辞書番号長のいずれが短いのかを判断する判断手段
(13b) と、上記判断手段(13b) の判断結果の時系列データを参照す
ることで、入力データに対しての符号化形態として、辞
書番号のみを使用する辞書番号単一モードの符号化形態
が有利なのか、文字列のみを使用する文字列単一モード
の符号化形態が有利なのか、最長一致文字列と辞書番号
の内の短い方を使用する混在モードの符号化形態が有利
なのかを判定する判定手段(14b) と、入力データに対しての符号化形態として、上記判定手段
(14b) が辞書番号単一モードの符号化形態を有利と判定
するときには、その旨の制御符号を付加しつつ規定の期
間の間は辞書番号のみを出力し、一方、上記判定手段(1
4b) が文字列単一モードの符号化形態を有利と判定する
ときには、その旨の制御符号を付加しつつ規定の期間の
間は文字列のみを出力し、一方、上記判定手段(14b) が
混在モードの符号化形態を有利と判定するときには、最
長一致文字列と辞書番号の内の短い方を識別フラグとと
もに出力する出力手段(15b) とを備えることを、特徴とするデータ圧縮装置。
【請求項６】請求項５記載のデータ圧縮装置におい
て、判定手段(14b) は、辞書番号の方が短いと判断されるこ
とが規定回数連続する場合には、辞書番号単一モードの
符号化形態を有利と判定し、一方、最長一致文字列の方
が短いと判断されることが規定回数連続する場合には、
文字列単一モードの符号化形態を有利と判定し、一方、
これらの連続状態が発生しない場合には、混在モードの
符号化形態を有利と判定するよう処理することを、特徴とするデータ圧縮装置。
【請求項７】請求項６記載のデータ圧縮装置におい
て、出力手段(15b) は、制御符号の付加を省略するよう処理
することを、特徴とするデータ圧縮装置。
【請求項８】復元されたデータを互いに異なる文字列
に分解し、該文字列を辞書番号とともに辞書に管理し
て、符号の指定する辞書番号から該辞書中の対応する文
字列を特定していく構成を採って、入力中の符号をこの
特定する文字列に置き換えていくことで復元化する構成
を採るデータ復元装置において、符号を参照することで、対応付けられる符号の符号化形
態が辞書番号のみを使用する辞書番号単一モードの符号
化形態を表示するものなのか、文字列のみを使用する文
字列単一モードの符号化形態を表示するものなのか、最
長一致文字列と辞書番号の内の短い方を使用する混在モ
ードの符号化形態を表示するものなのかを検出する検出
手段(31b) と、上記検出手段(31b) により辞書番号単一モードの符号化
形態を表示するものと検出されるときには、符号の表示
する辞書番号の指す辞書中の文字列を検索して出力し、
一方、上記検出手段(31b) により文字列単一モードの符
号化形態を表示するものと検出されるときには、符号の
表示する文字列をそのまま出力し、一方、上記検出手段
(31b) により混在モードの符号化形態を表示するものと
検出されるときには、付加される識別フラグにより最長
一致文字列と判断される符号については、そのまま出力
するとともに、付加される識別フラグにより辞書番号と
判断される符号については、該辞書番号の指す辞書中の
文字列を検索して出力する復元手段(32b) とを備えるこ
とを、特徴とするデータ復元装置。
【請求項９】入力されたデータを互いに異なる文字列
に分解し、該文字列を辞書番号とともに辞書に管理して
いく構成を採って、入力中のデータを辞書登録の最長一
致文字列の辞書番号を用いて符号化する構成を採るデー
タ圧縮装置において、検索された最長一致文字列の文字列長か該最長一致文字
列の辞書番号長のいずれが短いのかを判断して、文字列
長の方が短いと判断するときには最長一致文字列を符号
として設定し、辞書番号長の方が短いと判断するときに
は辞書番号を符号として設定する設定手段(17c) と、上記設定手段(17c) の設定する複数の符号に対応付け
て、該符号が最長一致文字列か辞書番号のいずれに属す
るのかを表示する識別フラグ群を割り付ける割付手段(1
8c) と、上記割付手段(18c) の割り付ける識別フラグ群を出現頻
度の高いもの程短い符号長となるようにと可変長符号化
する符号手段(19c) とを備えることを、特徴とするデータ圧縮装置。
【請求項１０】請求項９記載のデータ圧縮装置におい
て、設定手段(17c) の設定する最長一致文字列を出現頻度の
高いもの程短い符号長となるようにと可変長符号化する
符号手段(22c) を備えることを、特徴とするデータ圧縮装置。
【請求項１１】入力されたデータを互いに異なる文字
列に分解し、該文字列を辞書番号とともに辞書に管理し
ていく構成を採って、入力中のデータを辞書登録の最長
一致文字列の辞書番号を用いて符号化する構成を採るデ
ータ圧縮装置において、検索された最長一致文字列の文字列長か該最長一致文字
列の辞書番号長のいずれが短いのかを判断して、識別フ
ラグを割り付けつつ、文字列長の方が短いと判断すると
きには最長一致文字列を符号として設定し、辞書番号長
の方が短いと判断するときには辞書番号を符号として設
定する設定手段(17c) と、上記設定手段(17c) の設定する最長一致文字列を出現頻
度の高いもの程短い符号長となるようにと可変長符号化
する符号手段(22c) とを備えることを、特徴とするデータ圧縮装置。
【請求項１２】請求項９、１０又は１１記載のデータ
圧縮装置において、可変長符号化対象のデータの出現確率を測定すること
で、可変長符号化に用いる符号化テーブルを動的に書き
換えていく更新手段(21c,24c) を備えることを、特徴とするデータ圧縮装置。
【請求項１３】請求項１２記載のデータ圧縮装置にお
いて、符号化テーブルの更新に必要となる更新情報を出力する
出力手段(15c) を備えることを、特徴とするデータ圧縮装置。
【請求項１４】復元されたデータを互いに異なる文字
列に分解し、該文字列を辞書番号とともに辞書に管理し
て、符号の指定する辞書番号から該辞書中の対応する文
字列を特定していく構成を採って、入力中の符号をこの
特定する文字列に置き換えていくことで復元化する構成
を採るデータ復元装置において、可変長符号化されている符号を復号することで、対応付
けられる符号が最長一致文字列を表示するのか、辞書番
号を表示するのかを検出する検出手段(31c) と、上記検出手段(31c) により最長一致文字列を表示するも
のと検出される符号については、該最長一致文字列をそ
のまま出力し、一方、上記検出手段(31c) により辞書番
号を表示するものと検出される符号については、該辞書
番号の指す辞書中の文字列を検索して出力する復元手段
(32c) とを備えることを、特徴とするデータ復元装置。
【請求項１５】請求項１４記載のデータ復元装置にお
いて、復元手段(32c) は、符号の表示する最長一致文字列が可
変長符号化されているときには、逆変換を実行すること
で最長一致文字列を復元していくよう処理することを、特徴とするデータ復元装置。
【請求項１６】復元されたデータを互いに異なる文字
列に分解し、該文字列を辞書番号とともに辞書に管理し
て、符号の指定する辞書番号から該辞書中の対応する文
字列を特定していく構成を採って、入力中の符号をこの
特定する文字列に置き換えていくことで復元化する構成
を採るデータ復元装置において、符号を参照することで、対応付けられる符号が可変長符
号化されている最長一致文字列を表示するのか、辞書番
号を表示するのかを検出する検出手段(31c) と、上記検出手段(31c) により可変長符号化されている最長
一致文字列を表示するものと検出される符号について
は、該可変長符号化の逆変換を実行することで最長一致
文字列を復元して出力し、一方、上記検出手段(31c) に
より辞書番号を表示するものと検出される符号について
は、該辞書番号の指す辞書中の文字列を検索して出力す
る復元手段(32c) とを備えることを、特徴とするデータ復元装置。
【請求項１７】請求項１４、１５又は１６記載のデー
タ復元装置において、可変長符号化逆変換対象のデータの出現確率を測定する
ことで、可変長符号化逆変換に用いる復号化テーブルを
動的に書き換えていく更新手段(35c) を備えることを、特徴とするデータ復元装置。
【請求項１８】請求項１４、１５又は１６記載のデー
タ復元装置において、可変長符号化逆変換に用いる復号化テーブルの更新に必
要となる更新情報を受け取って、該更新情報に従って該
復号化テーブルを書き換えていく更新手段(35c) を備え
ることを、特徴とするデータ復元装置。