JPH0865172A - データ圧縮装置 - Google Patents

データ圧縮装置

Info

Publication number
JPH0865172A
JPH0865172A JP19672994A JP19672994A JPH0865172A JP H0865172 A JPH0865172 A JP H0865172A JP 19672994 A JP19672994 A JP 19672994A JP 19672994 A JP19672994 A JP 19672994A JP H0865172 A JPH0865172 A JP H0865172A
Authority
JP
Japan
Prior art keywords
data
file
compression
string
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP19672994A
Other languages
English (en)
Inventor
Hitoshi Ono
均 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP19672994A priority Critical patent/JPH0865172A/ja
Publication of JPH0865172A publication Critical patent/JPH0865172A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、データ圧縮の技術に関し、データ
圧縮効率を向上させ、それによるコストの削減を図ると
共にファイル装置の容量を実質的に増大させ、またデー
タ伝送を行う場合にその送信時間の短縮に寄与すること
を目的とする。 【構成】 DOS上で作成されたファイルに関して予め
当該ファイルに特有のデータ構造に適応させて符号化さ
れた圧縮アルゴリズム又はデータテーブルを格納する記
憶手段2と、圧縮の対象となるファイルが指定された時
に該ファイルに固有の情報を判断してそのデータ構造を
特定し、記憶手段2を検索して前記データ構造に対応す
る最適な圧縮アルゴリズム又はデータテーブルを選択
し、該選択に基づいて、ファイル装置1から読み出した
当該ファイルのデータ列を可変長符号化データ列に変換
する圧縮制御手段3とを具備するように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データ圧縮の技術に係
り、特に、コンピュータシステム上で動作するディスク
オペレーティングシステム(以下「DOS」と称する)
で作成されたファイル(例えばテキストファイル、プロ
グラムファイル、ビットマップファイル等)のデータを
最適な形で符号化し圧縮するための装置に関する。
【0002】本発明に係るデータ圧縮装置は、例えば磁
気ディスク装置や半導体ディスク装置等のファイル装置
(外部記憶装置)を備えたコンピュータシステム、更に
はこのシステムで作成されたファイルデータを通信回線
等を使用して他のコンピュータシステムに伝送する場合
等に好適に利用され得る。
【0003】
【従来の技術】データ圧縮の技術は、大別して、伸長す
れば完全に元のデータ(圧縮していない原データ)に復
元できる圧縮方式、すなわち圧縮しても情報量を損失し
ない方式(これをロスレス(lossless)型データ圧縮、又
は可逆符号化と称する)と、圧縮した時に情報量を損失
する方式(これを lossy型データ圧縮、又は不可逆符号
化と称する)とに分かれる。本発明は、この2つの方式
のうち前者の方式、つまり100%データを復元できる
圧縮方式を対象としている。
【0004】従来、ロスレス型データ圧縮方式として
は、ランレングス符号化、ハフマン符号化、算術符号
化、LZ(Lempel-Ziv)方式などが知られているが、この
うちLZ方式が圧縮率で優れており、ロスレス型データ
圧縮の主流を占めている。このLZ方式の基本アルゴリ
ズムには、1977年に発表されたLZ77(スライド
辞書法)と1978年に発表されたLZ78(動的辞書
法)の二つがある。このうち、スライド辞書法がデータ
圧縮ツールの大半を占めている。なお、このスライド辞
書法にかかる技術については、例えば、刊行物「日経エ
レクトロニクス(1993年5月10日発行)」のp.11
0 〜p.113 に記載されている。
【0005】かかるスライド辞書法を用いた従来のデー
タ圧縮方式では、DOS上で作成されたファイルのデー
タ(圧縮していない原データ)を符号化データ列に変換
して圧縮する際に、その対象となるファイルのデータ構
造に関係なく、一律に同じ手法で圧縮処理を行ってい
る。
【0006】
【発明が解決しようとする課題】上述したように、従
来、データ圧縮ツールの主流を占めているLZ77(ス
ライド辞書法)では、対象となるファイルのデータ構造
に係わらず常に画一的な手法でデータ圧縮を行っていた
ため、ファイルの種類又はその属性によっては、必ずし
もデータ圧縮効率が良好ではない場合が生じるといった
問題があった。
【0007】また、データ圧縮効率が良くないとコスト
も上昇し、またデータ圧縮効率の悪い分だけ圧縮後のデ
ータ量も増えるため、磁気ディスク装置等のファイル装
置の容量が見かけ上小さくなるといった不利がある。さ
らに、圧縮されたデータを他のシステム等へ伝送する場
合には、その送信に要する時間が相対的に長くなるとい
った不都合も生じる。
【0008】本発明は、かかる従来技術における課題に
鑑み創作されたもので、データ圧縮効率を向上させ、そ
れによるコストの削減を図ると共に、コンピュータシス
テムにおけるファイル装置の容量を実質的に増大させ、
またデータ伝送を行う場合にその送信時間の短縮に寄与
することができるデータ圧縮装置を提供することを目的
とする。
【0009】
【課題を解決するための手段】上記課題を解決するた
め、本発明では、DOS上で作成されたファイル(テキ
ストファイル、プログラムファイル等)に関して、それ
ぞれのファイルに特有のデータ構造に応じて符号化され
た圧縮アルゴリズム又はデータテーブルを幾つか用意し
ておき、この中で最適なものを選択することでデータ圧
縮を行うようにしている。
【0010】従って本発明によれば、図1の原理構成図
に示されるように、DOS上で作成されたファイルのデ
ータが格納されているファイル装置1を備えたシステム
において、前記DOS上で作成されたファイルに関して
予め当該ファイルに特有のデータ構造に適応させて符号
化された少なくとも1つの圧縮アルゴリズム又はデータ
テーブルを格納する記憶手段2と、圧縮の対象となるフ
ァイルが指定(A)された時に該ファイルに固有の情報
を判断してそのデータ構造を特定し、前記記憶手段を検
索(B)して前記データ構造に対応する最適な圧縮アル
ゴリズム又はデータテーブルを選択(C)し、該選択し
た圧縮アルゴリズム又はデータテーブルに基づき、前記
ファイル装置から読み出した当該ファイルのデータ列
(D)を可変長符号化データ列(E)に変換する圧縮制
御手段3と、を具備することを特徴とするデータ圧縮装
置が提供される。
【0011】本発明の好適な実施態様においては、前記
固有の情報は、指定されたファイルを特定するファイル
名、又はDOSで定められたファイルの種類を特定する
ファイルの拡張子である。
【0012】
【作用】本発明の構成によれば、図1に矢印A〜Eで示
すように、圧縮の対象となるファイルが指定された時
に、圧縮制御手段3は、そのファイルに固有の情報(好
適な実施態様においては、ファイル名又はファイルの拡
張子)を判断してそのデータ構造を特定し、記憶手段2
を検索してそのデータ構造に対応する最適な圧縮アルゴ
リズム又はデータテーブルを選択する。次いで圧縮制御
手段3は、ファイル装置1から当該ファイルのデータ列
を読み出し、選択した圧縮アルゴリズム又はデータテー
ブルに基づいてその入力データ列を可変長符号化データ
列(つまり圧縮データ)に変換する。
【0013】このように、圧縮の対象となるファイルに
対して、従来のように常に画一的な手法でデータ圧縮を
行うのではなく、そのファイルのデータ構造に最も適し
た圧縮形態を選択するようにしているので、データ圧縮
効率を常に良好に維持することができる。また、これに
関連してコストの削減が可能となり、ファイル装置の容
量を見かけ上増大させることができる。さらに、圧縮さ
れたデータの伝送を行う場合、その送信時間を短縮し、
高速化に寄与することができる。
【0014】なお、本発明の他の構成上の特徴及び作用
の詳細については、添付図面を参照しつつ以下に記述さ
れる実施例を用いて説明する。
【0015】
【実施例】図2には本発明に係るデータ圧縮装置を実現
するシステムのハードウエア構成が示される。同図にお
いて、10はコンピュータシステム上で動作するDOS
で作成されたファイル(例えばテキストファイル、プロ
グラムファイル等)のデータが格納されている磁気ディ
スク装置、20は後述するデータ圧縮処理を制御するた
めの中央処理装置(CPU)、21はCPU20が行う
処理を規定したアプリケーションプログラムを格納する
と共に、DOS上で作成されたファイルに関して予め当
該ファイル毎に特有のデータ構造に適応させて符号化さ
れた複数の圧縮アルゴリズム又はデータテーブル(いわ
ゆる「辞書」)を格納するメモリ、22はデータ圧縮に
係るユーザの指示(例えば圧縮したいファイルの指定な
ど)を必要に応じて入力するためのキーボード(入力手
段)、23はデータ圧縮に係る処理内容を必要に応じて
可視表示するためのCRTディスプレイ(出力手段)、
24は各構成ユニット間を相互に接続するシステムバス
を示す。
【0016】一般に、コンピュータシステム上で動作す
るDOSでは、ファイルの種類を特定し又は識別する部
分(ファイルの「拡張子」という)が、ファイル名と結
合した形で規定されている。図3にその一例が示され
る。例えば、ファイル名“FILENAME.C”は、
拡張子“.C”によりCソースプログラムを表してお
り、ファイル名“FILENAME.EXE”は、拡張
子“.EXE”により機械語の実行形式を表しており、
ファイル名“FILENAME.BAT”は、拡張
子“.BAT”により一括処理を表している。
【0017】本実施例では、後述するように、DOS上
で作成されたファイルのファイル名又はそのDOSで定
められたファイルの拡張子を判断することにより、当該
ファイルのデータ構造に適した最も効率的な圧縮形態を
選択するようにしている。このため本実施例では、ファ
イル名又はそのファイルの拡張子に対応するデータファ
イルの中で、出現頻度の比較的高いデータ列を予め符号
化した複数のテーブル(つまり辞書)を作成しておく。
この作成された辞書は、前述したようにメモリ21に格
納される。
【0018】ファイル名のみでデータ構造を判断する場
合は、予めデータ構造に対応したものを規定しておく必
要がある。例えば、先頭にCを付加したファイルは、C
ソースプログラムと規定する。また、ファイルの拡張子
によりデータ構造を判断する場合は、その拡張子によっ
ていかなるデータ列が出現するか予測できるため、それ
に応じた辞書を作成することが可能である。例えば、C
ソースプログラムの場合、出現するキーワードが予め分
かっているので、符号化しておくことが容易である。
【0019】また、機械語命令の実行形式のファイルの
場合でも、例えば図4に一例として示すように、そのオ
ペコードと命令語長が分かっているので、符号化した辞
書を作成することができる。なお、機械語命令の実行形
式を表すファイルにはニーモニックの部分は入っていな
いが、図4の例示では、説明を分かり易くするために機
械語とニーモニックの対応関係を示している。図4の例
から、上位2バイト「2689」のオペコードが共通の
符号に置き換えることが可能であることが分かる。
【0020】このようにして、図5に一例として示すよ
うに、ファイル名又はファイルの拡張子に対応した複数
の辞書(図示の例では2種類の辞書A,B)を用意する
ことになる。なお、辞書の作成に際しては、ファイル名
又は拡張子に対応したファイルのデータ構造が予測でき
るため、その種類に応じた最適な圧縮が可能となるよう
に符号化を行う。つまり、出現頻度の比較的高い原デー
タ列に対する符号を定め、テーブルにしておく。
【0021】次に、CPU20(図2参照)が行うデー
タ圧縮処理について、図6に示すフローチャートを参照
しながら説明する。先ず、ステップ31では、キーボー
ド22を介してユーザがキー入力により指定したデータ
圧縮の対象となるファイルのファイル名を読み込む。次
に、ステップ32では、ファイル名又はファイルの拡張
子を判断してそのデータ構造を特定し、メモリ21を検
索してそのデータ構造に対応する最適な圧縮アルゴリズ
ム又は辞書を選択する。
【0022】次に、ステップ33においてデータ圧縮処
理を行い、この後、本フローは「エンド」となる。ステ
ップ33でのデータ圧縮処理は、図7に補足的に示すよ
うに、磁気ディスク装置10から原データファイルを読
み出し、そのデータ列を分解して解析し、メモリ21に
格納されている辞書を参照して入力データ列を符号化し
た圧縮データに変換することにより、実行される。具体
的には、原データファイルを読み出した後、辞書の中で
一致する文字列もしくはデータ列が有るかどうか検索
し、有った場合に対応する符号に変換する。この際、最
も長いデータ列で一致するものに変換し、圧縮データと
して出力する。
【0023】図8には圧縮された符号化データの構成例
が示される。図示の例では、符号化データの種類に応じ
て1〜nバイトまで対応できる構成となっている。従っ
て、1バイトの符号化から順に原データ列と対応させた
辞書を作成していくことになる。このように本実施例に
係るデータ圧縮装置によれば、圧縮の対象となるファイ
ルに対しそのデータ構造に最も適した圧縮形態を採用す
るようにしているので、データ圧縮効率を常に良好に維
持することができる。
【0024】また、これによってコストの削減を図り、
磁気ディスク装置10の容量を見かけ上増大させること
ができる。さらに、圧縮されたデータを他のシステム等
へ伝送する場合には、その送信時間を短縮し、高速化を
図ることができる。なお、圧縮された符号化データを元
の原データに復元する場合は、適当な伸長プログラム又
は伸長ツールを用いて、図7に示した処理フローと逆の
処理フローを実行すればよい。一般にデータを使用する
場合は、この復元処理を行う必要がある。
【0025】
【発明の効果】以上説明したように本発明によれば、圧
縮の対象となるファイルのデータ構造に応じて最適な圧
縮形態を選択することにより、データ圧縮をより効率的
に行うことができる。また、データ圧縮の効率化により
コストの削減を図り、コンピュータシステムにおけるフ
ァイル装置の容量を実質的に増大させることができる。
【0026】また、圧縮されたデータを伝送する場合
に、その送信時間を短縮して高速化を図ることが可能と
なる。
【図面の簡単な説明】
【図1】本発明に係るデータ圧縮装置の原理構成図であ
る。
【図2】本発明に係るデータ圧縮装置を実現するシステ
ムのハードウエア構成を示すブロック図である。
【図3】ファイルの拡張子の説明図である。
【図4】機械語命令の実行形式をもつファイルの説明図
である。
【図5】図2のメモリに格納される辞書の一例を示す図
である。
【図6】図2のCPUが行うデータ圧縮処理の一例を示
すフローチャートである。
【図7】図6におけるデータ圧縮処理の補足説明図であ
る。
【図8】圧縮された符号化データの構成例を示す図であ
る。
【符号の説明】
1…ファイル装置 2…記憶手段 3…圧縮制御手段 A…圧縮の対象となるファイルの指定 B…記憶手段の検索 C…最適な圧縮アルゴリズム又はデータテーブルの選択 D…指定されたファイルのデータ列(原データ)の読み
出し E…可変長符号化データ列(圧縮データ)の書き込み

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ディスクオペレーティングシステム上で
    作成されたファイルのデータが格納されているファイル
    装置(1)を備えたシステムにおいて、 前記ディスクオペレーティングシステム上で作成された
    ファイルに関して予め当該ファイルに特有のデータ構造
    に適応させて符号化された少なくとも1つの圧縮アルゴ
    リズム又はデータテーブルを格納する記憶手段(2)
    と、 圧縮の対象となるファイルが指定(A)された時に該フ
    ァイルに固有の情報を判断してそのデータ構造を特定
    し、前記記憶手段を検索(B)して前記データ構造に対
    応する最適な圧縮アルゴリズム又はデータテーブルを選
    択(C)し、該選択した圧縮アルゴリズム又はデータテ
    ーブルに基づき、前記ファイル装置から読み出した当該
    ファイルのデータ列(D)を可変長符号化データ列
    (E)に変換する圧縮制御手段(3)と、 を具備することを特徴とするデータ圧縮装置。
  2. 【請求項2】 前記固有の情報は、指定されたファイル
    を特定するファイル名であることを特徴とする請求項1
    に記載のデータ圧縮装置。
  3. 【請求項3】 前記固有の情報は、前記ディスクオペレ
    ーティングシステムで定められたファイルの種類を特定
    するファイルの拡張子であることを特徴とする請求項1
    に記載のデータ圧縮装置。
  4. 【請求項4】 前記圧縮制御手段は、前記記憶手段から
    前記最適なデータテーブルを選択して圧縮のためのデー
    タ変換を行う際に、該データテーブル中で前記入力デー
    タ列に一致する最も長いデータ列に対応する符号を選択
    することを特徴とする請求項1から3のいずれか一項に
    記載のデータ圧縮装置。
  5. 【請求項5】 前記記憶手段に格納されるデータテーブ
    ルは、前記固有の情報に対して予測され得るファイルの
    データ構造に応じた最適な圧縮が可能となるように予め
    選定された出現頻度の比較的高いデータ列とそれに対応
    する符号との関係を規定することを特徴とする請求項1
    から3のいずれか一項に記載のデータ圧縮装置。
JP19672994A 1994-08-22 1994-08-22 データ圧縮装置 Withdrawn JPH0865172A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19672994A JPH0865172A (ja) 1994-08-22 1994-08-22 データ圧縮装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19672994A JPH0865172A (ja) 1994-08-22 1994-08-22 データ圧縮装置

Publications (1)

Publication Number Publication Date
JPH0865172A true JPH0865172A (ja) 1996-03-08

Family

ID=16362627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19672994A Withdrawn JPH0865172A (ja) 1994-08-22 1994-08-22 データ圧縮装置

Country Status (1)

Country Link
JP (1) JPH0865172A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778103B2 (en) 1998-08-13 2004-08-17 Fujitsu Limited Encoding and decoding apparatus using context
CN102929783A (zh) * 2012-10-25 2013-02-13 华为技术有限公司 一种数据存储的方法、装置和系统
CN112054802A (zh) * 2020-07-29 2020-12-08 北京市腾河电子技术有限公司 一种电力计量数据压缩、解压缩方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778103B2 (en) 1998-08-13 2004-08-17 Fujitsu Limited Encoding and decoding apparatus using context
US6906644B2 (en) 1998-08-13 2005-06-14 Fujitsu Limited Encoding and decoding apparatus with matching length means for symbol strings
CN102929783A (zh) * 2012-10-25 2013-02-13 华为技术有限公司 一种数据存储的方法、装置和系统
CN112054802A (zh) * 2020-07-29 2020-12-08 北京市腾河电子技术有限公司 一种电力计量数据压缩、解压缩方法、装置及电子设备
CN112054802B (zh) * 2020-07-29 2023-10-13 北京市腾河电子技术有限公司 一种电力计量数据压缩、解压缩方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US5870036A (en) Adaptive multiple dictionary data compression
CN106407285B (zh) 一种基于rle和lzw的优化比特文件压缩与解压缩方法
US5467087A (en) High speed lossless data compression system
JP2534465B2 (ja) デ―タ圧縮装置および方法
US5374916A (en) Automatic electronic data type identification process
US7924183B2 (en) Method and system for reducing required storage during decompression of a compressed file
JP3778087B2 (ja) データ符号化装置及びデータ復号装置
JP3397431B2 (ja) データ圧縮方法および装置ならびにデータ復元方法および装置
KR20070086661A (ko) 선택적 압축과 복원 및 압축 데이터에 대한 데이터 포맷을위한 장치 및 방법
WO2000046688A1 (en) Intelligent method for computer file compression
US9665590B2 (en) Bitmap compression for fast searches and updates
JP6467937B2 (ja) 文書処理プログラム、情報処理装置および文書処理方法
US6748520B1 (en) System and method for compressing and decompressing a binary code image
JP3488160B2 (ja) 命令セットの拡張を通じて、risc実行可能コードを圧縮する方法及びシステム
JPH0865172A (ja) データ圧縮装置
JP2011090526A (ja) 圧縮プログラム、方法及び装置、並びに解凍プログラム、方法及び装置
US20020178332A1 (en) Method and system to pre-fetch compressed memory blocks suing pointers
JP6428936B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR101705461B1 (ko) 문자열 압축 및 해제를 위한 방법 및 장치
Berz et al. Comparison of lossless data compression methods
JP6693549B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP3708318B2 (ja) データ圧縮/復元装置およびデータ圧縮/復元方法
JP2001092627A (ja) データ圧縮方法
Mahmoudi et al. Comparison of Compression Algorithms in text data for Data Mining
JP3442105B2 (ja) データ圧縮および復元方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20011106