JPH0233632A - データ圧縮方式 - Google Patents

データ圧縮方式

Info

Publication number
JPH0233632A
JPH0233632A JP63183700A JP18370088A JPH0233632A JP H0233632 A JPH0233632 A JP H0233632A JP 63183700 A JP63183700 A JP 63183700A JP 18370088 A JP18370088 A JP 18370088A JP H0233632 A JPH0233632 A JP H0233632A
Authority
JP
Japan
Prior art keywords
data
compression
compressed
item
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63183700A
Other languages
English (en)
Inventor
Kazuyuki Wakamatsu
若松 和幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63183700A priority Critical patent/JPH0233632A/ja
Publication of JPH0233632A publication Critical patent/JPH0233632A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、データの復元可能なイメージを圧縮してデー
タを記憶することにより、大量のデータの記憶スペース
を縮小するためのデータ圧縮方式に関する。
〔従来の技術〕
データの復元可能なイメージを圧縮してデータを記憶す
ることにより、大量のデータの記憶スペース全縮小する
ためのデータ圧縮方式としては1次の方式がある。
(1)ブランク全サプレスして圧縮する方式この方式で
は、データを後方からスキャンしてトレーリングブラン
クの個数を調べ、データのトレーリングブランクを除い
た部分金。
そのぜイズとともに管理し、後方のブランクを除いた残
りのデータ金記憶する。即ち、トレーリングブランクを
除いてデータを可変長として管理、記憶する。
以下余日 (2)ゼロをサプレスして管理する方式この方式では、
数値データの先行するゼロをサプレスして数f直データ
を圧縮し記憶、管理する。
(6)データを可変長として管理する方式この方式では
、データを始めから可変長データとして管理しておき、
データが常に圧縮されている状態に保たれている事にな
っている。即ち、トレーリングブランクは常にサプレス
された状態でデータの記憶、管理が行われている。
(4)反復パターンを管理する方式 この方式では、データ内に反復して出現するパターンを
検出し、データ内の反復して現れるパターンとそのパタ
ーンの反復回数を保持することにより、データを圧縮し
て記憶。
管理する。
〔発明が解決しようとする課題〕
上述した従来の方式(1)及び(2)では、トレーリン
グブランクまたはリーディングゼロのサプレスが行われ
圧縮はされるが、可変長データの管理と大差がなく、ト
レーリングブランクまたはリーディングゼロが少ない場
合にはデータ圧縮の効果が得られないという欠点がある
。さらに。
従来方式(1) 、 (21、(31および(4)のい
ずれの方式においても、データの圧縮はレコード内に記
憶されているデータ項目内の圧縮処理に閉じており。
レコード間の重複データの圧縮は行われていないため、
レコード間での重複データに関しての圧縮効率が良くな
いという欠点がある。
本発明の目的は上記欠点を除去し、圧縮効果の向上がは
かれるデータ圧縮方式を提供することにある。
〔問題点全解決するための手段〕
本発明は、データの復元可能なイメージを圧縮して記憶
することにより、大量のデータの記憶スペース金縮小す
るためのデータ圧縮方式において、データの件数が多く
、ソート後のデータ間の差異が少なく、データ長が長い
場合のデータ項目のレコード間の重複データの圧縮に着
目し、データファイル内のデータの構造に関する定義情
報をデータ定義情報ファイルから抽出しデータの圧縮の
制御ヲ行うデータ圧縮制御手段と、データ圧縮制御手段
により呼び出され。
データレコードを読み込み、データ項目ごとにデータを
ソートするデータ項目抽出手段と、データ項目抽出手段
によってソートされた各データ項目ごとに、レコード間
の一致するデータの部分圧縮、トレーリングブランクサ
プレス、反復パターン圧縮によりデータの圧縮を行うデ
ータ項目圧縮手段と、データ項目圧縮手段によって圧縮
されたデータ項目を用いて、圧縮後のレコードを生成す
る圧縮レコード生成手段と?有する。
〔実施例〕
本発明の実施例について図面を参照しながら説明する。
第1図は本発明のデータ圧縮方式の一実施例金示すブロ
ック図である。第1図を参照すると。
本発明の一実施例は、データファイル1.データ定義情
報ファイル2.データ圧縮制御手段3゜データ項目抽出
手段4.データ項目圧縮手段5゜圧縮レコード生成手段
6.圧縮データフ1イル7とから構成されている。
第2図は、データ圧縮制御手段3の処理の流れを示すフ
ローチャートである。第2図を参照すると、データ圧縮
制御手段3では、データファイル1のデータに対するデ
ータの定義情報をデータ定義情報ファイル2から抽出す
る(ステップ21)。抽出されたデータ定義情報を使用
してデータ項目抽出手段4を実行し、レコード内の各デ
ータ項目ごとにデータ項目の(直によシソ−tf行う(
ステップ22)。次に、データ項目抽出手段4によって
抽出されソートされている各データ項目ごとのデータの
圧縮金データ項目圧縮手段5を実行し行う(ステップ2
3)。
最後に、各データ項目ごとにデータ項目圧縮手段5によ
り圧縮されたデータ全レコード通番でソートしなおし、
圧縮後のデータを使用して圧縮前のレコード内のデータ
項目出現I@に従つて圧縮後のレコードを組み立て、デ
ータファイル1から抽出したレコードの順に従って、圧
縮データファイルにレコードを書き込む圧縮レコード生
成手段6を実行しくステップ24)、処理を終了する。
(1)データの定義情報 圧縮前のデータの定義情報は、圧縮前のレコードの各デ
ータ項目のレコード内出現順。
開始位置とサイズとして抽出し、圧縮の為のデータ項目
抽出及び圧縮レコードの生成で使用する。
(2)  データ項目のソート データ項目抽出では、データ項目(直のソートを行うが
、圧縮レコード生成手段でレコードの出現順を管理する
ために、以下の項目金持つレコードとしてソートを行う
レコード抽出時のレコード通番 データ項目(直 レコード通番は、データ圧縮後、圧縮レコードを生成す
るときに、レコードの抽出順にデータ項目をソートする
ために使用する。
第6図全参照しながら、データ項目抽出手段4の処理の
概要を説明する。
まず、データファイルからレコード全貌み込み(ステッ
プ31)、レコードの読み込みが終了したかを判定しく
ステップ52)、終了であれば処理を終了する。レコー
ドが読み込めたら、現在のデータレコード内に処理すべ
き項目が残っているか判定しくステップ33)、レコー
ド内の項目について処理が終了していれば次のデータレ
コードを読み込むステップ(ステップ61)へ戻る。処
理すべき項目があれば、データ項目1直の抽出を行い(
ステップ34)、圧縮レコードの生成でのソートのため
のレコード通番を付加(ステップ35)した後、生成し
たレコードをソート処理に渡しソートを行い(ステップ
36)。
未処理項目の判定処理(ステップ36)に戻る。
臥下弦日 (3)圧縮データの生成 第4図には、前方圧縮及び後方圧縮されたデータ項目の
構成が示されている。圧縮されたデータ項目は圧縮デー
タ制御部と圧縮された記憶データとから構成される。圧
縮データ制釧部は、データ圧縮のためにデータ項目1直
によってソートした時の出現頭金ソート通番としてもつ
データ項目、直前のレコード内の対応するデータ項目と
の前方向からの一致サイズをもつデータ項目および圧縮
後の記憶すべきデータのサイズをもつデータ項目で構成
されている。また、記憶データは、前方圧縮および後方
圧縮および反復圧縮により圧縮された実際に記憶するべ
きデータを持つ。
第5図は、前方圧縮および後方圧縮後のデータ項目の圧
縮状態金示す図である。N番目のレコードのデータ項目
のイメージは”abcdθfg“と”スペース5個”、
N+1番目のレコードのデータ項目のイメージは6ab
cdeXYZ″と”ブランク4個”である。
このとき、前方圧縮によりN+1番目のレコードのデー
タ項目の先頭から5文字、即ち。
“abcde″がN番目のレコードのデータ項目の先頭
から5文字と一致するので前方−致データサイズとして
5を制御部にもつ。また、後方圧縮によりN+1番目の
レコードのデータ項目の後方からブランクが4個存在す
るので後方ブランクデータサイズとして4全得る。更に
、データ項目のサイズ12から前方および後方圧縮サイ
ズ(5+4=9)を引いた残り3を圧縮後の記憶データ
サイズとして制御部にもつ。記憶データはデータ項目の
データから、前方一致データ”abcde″および後方
ブランクを除いた残りのイメージ“XYZ″である。
前方圧縮および後方圧縮後のデータに対して反復パター
ンが存在する場合には1反復パターンと反復回数をデー
タの中に持ち1反復パターン圧縮後のデータサイズを記
憶データサイズとして記憶すれ°ば良い。
当方式においては、圧縮データの制御部のサイズに等し
いか、または、小さいデータ項目は圧縮対象とはしない
(4)  レコードの復元 圧縮レコードを復元するためには、まずレコードの定義
情報を抽出し、レコード内のデータ項目の出現順を得る
。次に、各データ項目を抽出し、レコード通番と圧縮デ
ータをもつレコードを生成し、圧縮データの制御部にあ
るデータ項目のソート通番によりソートを行う。ソート
通番のソート後記憶されているデータが反復圧縮されて
いれば反復パターンを復元し、その後、前方圧縮イメー
ジの復元を行う。この前方圧縮イメージの復元は、直前
のデータを前方から前方一致データサイズ分現在のデー
タの直前に付加することにより行う。さらに、後方圧縮
データの復元は、データ定義情報ファイルに定義されて
いるデータ項目サイズから1反復および前方圧縮全復元
した後のデータサイズの差分サイズ分現在のデータの直
後にブランクを付加することにより行う。可変長データ
の場合には、後方データの復元は不要である。
次に、復元されたデータ項目全レコード通番でソートシ
、レコード内のデータ項目の定義順にデータ項目全結合
することにより、圧縮前のレコードが復元できる。
〔発明の効果〕
以上、詳細に述べてきたことから明らかなように9本発
明によれば、レコード間の重複するデータ全前方向から
サプレスすることにより。
レコード間の重複データの重複記憶を少なくすることが
出来るという利点がある。この方式を大規模データベー
スの退避に適用すると、データベースには、データペー
スの規模が大きくなればなるほどレコード間のデータの
重複部分が多くなるため、当方式によるデータ圧縮の圧
縮適用率が高くなり、データペースの退避ファイルの容
量の縮小が可能となるといった利点がある。特にレコー
ド間で完全に一致するデータが多数存在する場合には2
重複データは、制御部のみとすることができ、かなりの
圧縮効果が得られる。
【図面の簡単な説明】
第1図は本発明のデータ圧縮方式の一実施例を示すブロ
ック図、第2図はデータ圧縮制御手段3の動作を示す流
れ図、第3図はデータ項目抽出手段4の動作を示す流れ
図、第4図は圧縮データのデータ項目の構成を示す図、
第5図はデータ圧縮の概念を示す図である。 第1図において。 1・・・データファイル、2・・・データ定義情報ファ
イル、5・・・データ圧縮制御手段、4・・・データ項
目抽出手段、5・・・データ項目圧縮手段、6・・・圧
縮レコード生成手段、7・・・圧縮データファイル である。 第 図 C1コD 第 図 第 図 圧縮データ制御部 第 図 サイズ 第 図

Claims (1)

    【特許請求の範囲】
  1. 1、データの復元可能なイメージを圧縮して記憶するこ
    とにより、大量のデータの記憶スペースを縮小するため
    のデータ圧縮方式において、データファイル(2)内の
    データの構造に関する定義情報をデータ定義情報ファイ
    ルから抽出しデータの圧縮の制御を行うデータ圧縮制御
    手段(3)と、データ圧縮制御手段により呼び出され、
    データレコードを読み込み、データ項目ごとにデータを
    ソートするデータ項目抽出手段(4)と、データ項目抽
    出手段によってソートされた各データ項目ごとに、デー
    タの圧縮を行うデータ項目圧縮手段(5)と、データ項
    目圧縮手段によって圧縮されたデータ項目を用いて、圧
    縮後のレコードを生成する圧縮レコード生成手段(6)
    とを有し、前記データ項目圧縮手段は、連続するレコー
    ドのデータ項目に対して、直前のレコード内のデータ項
    目の開始位置からのデータイメージと現在のレコード内
    のデータ項目の開始位置からのデータイメージを1文字
    ずつ順次比較して一致しなくなった時点で、前方からの
    一致した文字数を前方圧縮サイズとして抽出し、次に現
    在のデータ項目のデータの後方からのブランク文字数を
    後方圧縮サイズとして抽出し、更に前方及び後方圧縮後
    のイメージに対しては従来の反復に対する圧縮方式を利
    用して、データの圧縮を行い、前方圧縮サイズ及び前方
    、後方、反復圧縮後のデータサイズ及び復元時に再ソー
    トするためのソートキー値として前記データ項目抽出手
    段によってソートされた際の項目内ソート通番とともに
    圧縮後のデータを記憶することを特徴とするデータ圧縮
    方式。
JP63183700A 1988-07-25 1988-07-25 データ圧縮方式 Pending JPH0233632A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63183700A JPH0233632A (ja) 1988-07-25 1988-07-25 データ圧縮方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63183700A JPH0233632A (ja) 1988-07-25 1988-07-25 データ圧縮方式

Publications (1)

Publication Number Publication Date
JPH0233632A true JPH0233632A (ja) 1990-02-02

Family

ID=16140417

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63183700A Pending JPH0233632A (ja) 1988-07-25 1988-07-25 データ圧縮方式

Country Status (1)

Country Link
JP (1) JPH0233632A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03164951A (ja) * 1989-11-24 1991-07-16 Nec Software Ltd ファイルのデータ保管装置
JPH06236302A (ja) * 1993-02-09 1994-08-23 Daimaru Joho Center:Kk ファイル圧縮方法
JP2011145883A (ja) * 2010-01-14 2011-07-28 Fujitsu Ltd 圧縮装置、方法及びプログラム、並びに展開装置、方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03164951A (ja) * 1989-11-24 1991-07-16 Nec Software Ltd ファイルのデータ保管装置
JPH06236302A (ja) * 1993-02-09 1994-08-23 Daimaru Joho Center:Kk ファイル圧縮方法
JP2011145883A (ja) * 2010-01-14 2011-07-28 Fujitsu Ltd 圧縮装置、方法及びプログラム、並びに展開装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
JP3217781B2 (ja) 多重レベルを利用するデータ圧縮
EP2724269B1 (en) System, method and data structure for fast loading, storing and access to huge data sets in real time
US5842208A (en) High performance recover/build index system by unloading database files in parallel
JPH0785248B2 (ja) デ−タフアイルシステム
US7756818B1 (en) Database table recovery system
JPH0233632A (ja) データ圧縮方式
CN115048282B (zh) 重复操作的提取方法及电子设备、存储介质
Islam et al. A new external sorting algorithm with no additional disk space
JP3241570B2 (ja) 整数列データの圧縮及び解凍方法
JP3422412B2 (ja) 可変長レコードの差分圧縮方法
CN112612648B (zh) 一种SQL Server数据库恢复方法、终端设备及存储介质
JP4036514B2 (ja) データ圧縮方法とデータ復元方法およびソートマージ処理装置とソートマージ処理方法およびこれら方法のプログラムを記録した媒体
JP2604492B2 (ja) 順編成ファイルのデータ圧縮処理方式
JP2923952B2 (ja) マージ処理方法
Manchev Parallel algorithm for run length encoding
JP2596332B2 (ja) データ組合せ抽出方法およびその装置
JPH0573265A (ja) ソート処理方式
JPS63298437A (ja) デ−タ圧縮レコ−ドソ−ト処理方式
JP2835854B2 (ja) 画像ファイル装置の制御方法
JPH11284518A (ja) 前処理付きデータ圧縮方法および圧縮データの伸長方法
CN115577433A (zh) 一种使bim模型轻量化的方法
JPH06197226A (ja) 画像データ復元装置
JPH0773202A (ja) 有向グラフ再構成方法
JPH02136942A (ja) データ圧縮・復元方式
JPH06214751A (ja) データ圧縮方法