JPH0865172A

JPH0865172A - データ圧縮装置

Info

Publication number: JPH0865172A
Application number: JP19672994A
Authority: JP
Inventors: Hitoshi Ono; 均大野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-08-22
Filing date: 1994-08-22
Publication date: 1996-03-08

Abstract

(57)【要約】【目的】本発明は、データ圧縮の技術に関し、データ
圧縮効率を向上させ、それによるコストの削減を図ると
共にファイル装置の容量を実質的に増大させ、またデー
タ伝送を行う場合にその送信時間の短縮に寄与すること
を目的とする。【構成】ＤＯＳ上で作成されたファイルに関して予め
当該ファイルに特有のデータ構造に適応させて符号化さ
れた圧縮アルゴリズム又はデータテーブルを格納する記
憶手段２と、圧縮の対象となるファイルが指定された時
に該ファイルに固有の情報を判断してそのデータ構造を
特定し、記憶手段２を検索して前記データ構造に対応す
る最適な圧縮アルゴリズム又はデータテーブルを選択
し、該選択に基づいて、ファイル装置１から読み出した
当該ファイルのデータ列を可変長符号化データ列に変換
する圧縮制御手段３とを具備するように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、データ圧縮の技術に係
り、特に、コンピュータシステム上で動作するディスク
オペレーティングシステム（以下「ＤＯＳ」と称する）
で作成されたファイル（例えばテキストファイル、プロ
グラムファイル、ビットマップファイル等）のデータを
最適な形で符号化し圧縮するための装置に関する。

【０００２】本発明に係るデータ圧縮装置は、例えば磁
気ディスク装置や半導体ディスク装置等のファイル装置
（外部記憶装置）を備えたコンピュータシステム、更に
はこのシステムで作成されたファイルデータを通信回線
等を使用して他のコンピュータシステムに伝送する場合
等に好適に利用され得る。

【０００３】

【従来の技術】データ圧縮の技術は、大別して、伸長す
れば完全に元のデータ（圧縮していない原データ）に復
元できる圧縮方式、すなわち圧縮しても情報量を損失し
ない方式（これをロスレス(lossless)型データ圧縮、又
は可逆符号化と称する）と、圧縮した時に情報量を損失
する方式（これを lossy型データ圧縮、又は不可逆符号
化と称する）とに分かれる。本発明は、この２つの方式
のうち前者の方式、つまり１００％データを復元できる
圧縮方式を対象としている。

【０００４】従来、ロスレス型データ圧縮方式として
は、ランレングス符号化、ハフマン符号化、算術符号
化、ＬＺ(Lempel-Ziv)方式などが知られているが、この
うちＬＺ方式が圧縮率で優れており、ロスレス型データ
圧縮の主流を占めている。このＬＺ方式の基本アルゴリ
ズムには、１９７７年に発表されたＬＺ７７（スライド
辞書法）と１９７８年に発表されたＬＺ７８（動的辞書
法）の二つがある。このうち、スライド辞書法がデータ
圧縮ツールの大半を占めている。なお、このスライド辞
書法にかかる技術については、例えば、刊行物「日経エ
レクトロニクス（１９９３年５月１０日発行）」のp.11
0 〜p.113 に記載されている。

【０００５】かかるスライド辞書法を用いた従来のデー
タ圧縮方式では、ＤＯＳ上で作成されたファイルのデー
タ（圧縮していない原データ）を符号化データ列に変換
して圧縮する際に、その対象となるファイルのデータ構
造に関係なく、一律に同じ手法で圧縮処理を行ってい
る。

【０００６】

【発明が解決しようとする課題】上述したように、従
来、データ圧縮ツールの主流を占めているＬＺ７７（ス
ライド辞書法）では、対象となるファイルのデータ構造
に係わらず常に画一的な手法でデータ圧縮を行っていた
ため、ファイルの種類又はその属性によっては、必ずし
もデータ圧縮効率が良好ではない場合が生じるといった
問題があった。

【０００７】また、データ圧縮効率が良くないとコスト
も上昇し、またデータ圧縮効率の悪い分だけ圧縮後のデ
ータ量も増えるため、磁気ディスク装置等のファイル装
置の容量が見かけ上小さくなるといった不利がある。さ
らに、圧縮されたデータを他のシステム等へ伝送する場
合には、その送信に要する時間が相対的に長くなるとい
った不都合も生じる。

【０００８】本発明は、かかる従来技術における課題に
鑑み創作されたもので、データ圧縮効率を向上させ、そ
れによるコストの削減を図ると共に、コンピュータシス
テムにおけるファイル装置の容量を実質的に増大させ、
またデータ伝送を行う場合にその送信時間の短縮に寄与
することができるデータ圧縮装置を提供することを目的
とする。

【０００９】

【課題を解決するための手段】上記課題を解決するた
め、本発明では、ＤＯＳ上で作成されたファイル（テキ
ストファイル、プログラムファイル等）に関して、それ
ぞれのファイルに特有のデータ構造に応じて符号化され
た圧縮アルゴリズム又はデータテーブルを幾つか用意し
ておき、この中で最適なものを選択することでデータ圧
縮を行うようにしている。

【００１０】従って本発明によれば、図１の原理構成図
に示されるように、ＤＯＳ上で作成されたファイルのデ
ータが格納されているファイル装置１を備えたシステム
において、前記ＤＯＳ上で作成されたファイルに関して
予め当該ファイルに特有のデータ構造に適応させて符号
化された少なくとも１つの圧縮アルゴリズム又はデータ
テーブルを格納する記憶手段２と、圧縮の対象となるフ
ァイルが指定（Ａ）された時に該ファイルに固有の情報
を判断してそのデータ構造を特定し、前記記憶手段を検
索（Ｂ）して前記データ構造に対応する最適な圧縮アル
ゴリズム又はデータテーブルを選択（Ｃ）し、該選択し
た圧縮アルゴリズム又はデータテーブルに基づき、前記
ファイル装置から読み出した当該ファイルのデータ列
（Ｄ）を可変長符号化データ列（Ｅ）に変換する圧縮制
御手段３と、を具備することを特徴とするデータ圧縮装
置が提供される。

【００１１】本発明の好適な実施態様においては、前記
固有の情報は、指定されたファイルを特定するファイル
名、又はＤＯＳで定められたファイルの種類を特定する
ファイルの拡張子である。

【００１２】

【作用】本発明の構成によれば、図１に矢印Ａ〜Ｅで示
すように、圧縮の対象となるファイルが指定された時
に、圧縮制御手段３は、そのファイルに固有の情報（好
適な実施態様においては、ファイル名又はファイルの拡
張子）を判断してそのデータ構造を特定し、記憶手段２
を検索してそのデータ構造に対応する最適な圧縮アルゴ
リズム又はデータテーブルを選択する。次いで圧縮制御
手段３は、ファイル装置１から当該ファイルのデータ列
を読み出し、選択した圧縮アルゴリズム又はデータテー
ブルに基づいてその入力データ列を可変長符号化データ
列（つまり圧縮データ）に変換する。

【００１３】このように、圧縮の対象となるファイルに
対して、従来のように常に画一的な手法でデータ圧縮を
行うのではなく、そのファイルのデータ構造に最も適し
た圧縮形態を選択するようにしているので、データ圧縮
効率を常に良好に維持することができる。また、これに
関連してコストの削減が可能となり、ファイル装置の容
量を見かけ上増大させることができる。さらに、圧縮さ
れたデータの伝送を行う場合、その送信時間を短縮し、
高速化に寄与することができる。

【００１４】なお、本発明の他の構成上の特徴及び作用
の詳細については、添付図面を参照しつつ以下に記述さ
れる実施例を用いて説明する。

【００１５】

【実施例】図２には本発明に係るデータ圧縮装置を実現
するシステムのハードウエア構成が示される。同図にお
いて、１０はコンピュータシステム上で動作するＤＯＳ
で作成されたファイル（例えばテキストファイル、プロ
グラムファイル等）のデータが格納されている磁気ディ
スク装置、２０は後述するデータ圧縮処理を制御するた
めの中央処理装置（ＣＰＵ）、２１はＣＰＵ２０が行う
処理を規定したアプリケーションプログラムを格納する
と共に、ＤＯＳ上で作成されたファイルに関して予め当
該ファイル毎に特有のデータ構造に適応させて符号化さ
れた複数の圧縮アルゴリズム又はデータテーブル（いわ
ゆる「辞書」）を格納するメモリ、２２はデータ圧縮に
係るユーザの指示（例えば圧縮したいファイルの指定な
ど）を必要に応じて入力するためのキーボード（入力手
段）、２３はデータ圧縮に係る処理内容を必要に応じて
可視表示するためのＣＲＴディスプレイ（出力手段）、
２４は各構成ユニット間を相互に接続するシステムバス
を示す。

【００１６】一般に、コンピュータシステム上で動作す
るＤＯＳでは、ファイルの種類を特定し又は識別する部
分（ファイルの「拡張子」という）が、ファイル名と結
合した形で規定されている。図３にその一例が示され
る。例えば、ファイル名“ＦＩＬＥＮＡＭＥ．Ｃ”は、
拡張子“．Ｃ”によりＣソースプログラムを表してお
り、ファイル名“ＦＩＬＥＮＡＭＥ．ＥＸＥ”は、拡張
子“．ＥＸＥ”により機械語の実行形式を表しており、
ファイル名“ＦＩＬＥＮＡＭＥ．ＢＡＴ”は、拡張
子“．ＢＡＴ”により一括処理を表している。

【００１７】本実施例では、後述するように、ＤＯＳ上
で作成されたファイルのファイル名又はそのＤＯＳで定
められたファイルの拡張子を判断することにより、当該
ファイルのデータ構造に適した最も効率的な圧縮形態を
選択するようにしている。このため本実施例では、ファ
イル名又はそのファイルの拡張子に対応するデータファ
イルの中で、出現頻度の比較的高いデータ列を予め符号
化した複数のテーブル（つまり辞書）を作成しておく。
この作成された辞書は、前述したようにメモリ２１に格
納される。

【００１８】ファイル名のみでデータ構造を判断する場
合は、予めデータ構造に対応したものを規定しておく必
要がある。例えば、先頭にＣを付加したファイルは、Ｃ
ソースプログラムと規定する。また、ファイルの拡張子
によりデータ構造を判断する場合は、その拡張子によっ
ていかなるデータ列が出現するか予測できるため、それ
に応じた辞書を作成することが可能である。例えば、Ｃ
ソースプログラムの場合、出現するキーワードが予め分
かっているので、符号化しておくことが容易である。

【００１９】また、機械語命令の実行形式のファイルの
場合でも、例えば図４に一例として示すように、そのオ
ペコードと命令語長が分かっているので、符号化した辞
書を作成することができる。なお、機械語命令の実行形
式を表すファイルにはニーモニックの部分は入っていな
いが、図４の例示では、説明を分かり易くするために機
械語とニーモニックの対応関係を示している。図４の例
から、上位２バイト「２６８９」のオペコードが共通の
符号に置き換えることが可能であることが分かる。

【００２０】このようにして、図５に一例として示すよ
うに、ファイル名又はファイルの拡張子に対応した複数
の辞書（図示の例では２種類の辞書Ａ，Ｂ）を用意する
ことになる。なお、辞書の作成に際しては、ファイル名
又は拡張子に対応したファイルのデータ構造が予測でき
るため、その種類に応じた最適な圧縮が可能となるよう
に符号化を行う。つまり、出現頻度の比較的高い原デー
タ列に対する符号を定め、テーブルにしておく。

【００２１】次に、ＣＰＵ２０（図２参照）が行うデー
タ圧縮処理について、図６に示すフローチャートを参照
しながら説明する。先ず、ステップ３１では、キーボー
ド２２を介してユーザがキー入力により指定したデータ
圧縮の対象となるファイルのファイル名を読み込む。次
に、ステップ３２では、ファイル名又はファイルの拡張
子を判断してそのデータ構造を特定し、メモリ２１を検
索してそのデータ構造に対応する最適な圧縮アルゴリズ
ム又は辞書を選択する。

【００２２】次に、ステップ３３においてデータ圧縮処
理を行い、この後、本フローは「エンド」となる。ステ
ップ３３でのデータ圧縮処理は、図７に補足的に示すよ
うに、磁気ディスク装置１０から原データファイルを読
み出し、そのデータ列を分解して解析し、メモリ２１に
格納されている辞書を参照して入力データ列を符号化し
た圧縮データに変換することにより、実行される。具体
的には、原データファイルを読み出した後、辞書の中で
一致する文字列もしくはデータ列が有るかどうか検索
し、有った場合に対応する符号に変換する。この際、最
も長いデータ列で一致するものに変換し、圧縮データと
して出力する。

【００２３】図８には圧縮された符号化データの構成例
が示される。図示の例では、符号化データの種類に応じ
て１〜ｎバイトまで対応できる構成となっている。従っ
て、１バイトの符号化から順に原データ列と対応させた
辞書を作成していくことになる。このように本実施例に
係るデータ圧縮装置によれば、圧縮の対象となるファイ
ルに対しそのデータ構造に最も適した圧縮形態を採用す
るようにしているので、データ圧縮効率を常に良好に維
持することができる。

【００２４】また、これによってコストの削減を図り、
磁気ディスク装置１０の容量を見かけ上増大させること
ができる。さらに、圧縮されたデータを他のシステム等
へ伝送する場合には、その送信時間を短縮し、高速化を
図ることができる。なお、圧縮された符号化データを元
の原データに復元する場合は、適当な伸長プログラム又
は伸長ツールを用いて、図７に示した処理フローと逆の
処理フローを実行すればよい。一般にデータを使用する
場合は、この復元処理を行う必要がある。

【００２５】

【発明の効果】以上説明したように本発明によれば、圧
縮の対象となるファイルのデータ構造に応じて最適な圧
縮形態を選択することにより、データ圧縮をより効率的
に行うことができる。また、データ圧縮の効率化により
コストの削減を図り、コンピュータシステムにおけるフ
ァイル装置の容量を実質的に増大させることができる。

【００２６】また、圧縮されたデータを伝送する場合
に、その送信時間を短縮して高速化を図ることが可能と
なる。

【図面の簡単な説明】

【図１】本発明に係るデータ圧縮装置の原理構成図であ
る。

【図２】本発明に係るデータ圧縮装置を実現するシステ
ムのハードウエア構成を示すブロック図である。

【図３】ファイルの拡張子の説明図である。

【図４】機械語命令の実行形式をもつファイルの説明図
である。

【図５】図２のメモリに格納される辞書の一例を示す図
である。

【図６】図２のＣＰＵが行うデータ圧縮処理の一例を示
すフローチャートである。

【図７】図６におけるデータ圧縮処理の補足説明図であ
る。

【図８】圧縮された符号化データの構成例を示す図であ
る。

【符号の説明】

１…ファイル装置２…記憶手段３…圧縮制御手段Ａ…圧縮の対象となるファイルの指定Ｂ…記憶手段の検索Ｃ…最適な圧縮アルゴリズム又はデータテーブルの選択Ｄ…指定されたファイルのデータ列（原データ）の読み
出しＥ…可変長符号化データ列（圧縮データ）の書き込み

Claims

【特許請求の範囲】

【請求項１】ディスクオペレーティングシステム上で
作成されたファイルのデータが格納されているファイル
装置（１）を備えたシステムにおいて、前記ディスクオペレーティングシステム上で作成された
ファイルに関して予め当該ファイルに特有のデータ構造
に適応させて符号化された少なくとも１つの圧縮アルゴ
リズム又はデータテーブルを格納する記憶手段（２）
と、圧縮の対象となるファイルが指定（Ａ）された時に該フ
ァイルに固有の情報を判断してそのデータ構造を特定
し、前記記憶手段を検索（Ｂ）して前記データ構造に対
応する最適な圧縮アルゴリズム又はデータテーブルを選
択（Ｃ）し、該選択した圧縮アルゴリズム又はデータテ
ーブルに基づき、前記ファイル装置から読み出した当該
ファイルのデータ列（Ｄ）を可変長符号化データ列
（Ｅ）に変換する圧縮制御手段（３）と、を具備することを特徴とするデータ圧縮装置。
【請求項２】前記固有の情報は、指定されたファイル
を特定するファイル名であることを特徴とする請求項１
に記載のデータ圧縮装置。
【請求項３】前記固有の情報は、前記ディスクオペレ
ーティングシステムで定められたファイルの種類を特定
するファイルの拡張子であることを特徴とする請求項１
に記載のデータ圧縮装置。
【請求項４】前記圧縮制御手段は、前記記憶手段から
前記最適なデータテーブルを選択して圧縮のためのデー
タ変換を行う際に、該データテーブル中で前記入力デー
タ列に一致する最も長いデータ列に対応する符号を選択
することを特徴とする請求項１から３のいずれか一項に
記載のデータ圧縮装置。
【請求項５】前記記憶手段に格納されるデータテーブ
ルは、前記固有の情報に対して予測され得るファイルの
データ構造に応じた最適な圧縮が可能となるように予め
選定された出現頻度の比較的高いデータ列とそれに対応
する符号との関係を規定することを特徴とする請求項１
から３のいずれか一項に記載のデータ圧縮装置。