JPH0264770A - 辞書を用いたデータ圧縮復元方式 - Google Patents
辞書を用いたデータ圧縮復元方式Info
- Publication number
- JPH0264770A JPH0264770A JP63214793A JP21479388A JPH0264770A JP H0264770 A JPH0264770 A JP H0264770A JP 63214793 A JP63214793 A JP 63214793A JP 21479388 A JP21479388 A JP 21479388A JP H0264770 A JPH0264770 A JP H0264770A
- Authority
- JP
- Japan
- Prior art keywords
- data
- dictionary
- compression
- character
- transferred
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013144 data compression Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 16
- 230000006837 decompression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 abstract description 19
- 230000006835 compression Effects 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 7
- 238000007796 conventional method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、データの内容をその意味情報を損うことなく
圧縮したり、またはその逆の復元を行う技術に関するも
のである。
圧縮したり、またはその逆の復元を行う技術に関するも
のである。
従来、データの圧縮、復元の方式では、数値等のように
文字型である数字を、計算機内で2進数や、4ビツト1
桁数値に変換したり、連続する文字をサプレスしたりす
る単純なデータ圧縮方式が用いられていた。
文字型である数字を、計算機内で2進数や、4ビツト1
桁数値に変換したり、連続する文字をサプレスしたりす
る単純なデータ圧縮方式が用いられていた。
上述した従来におけるデータ圧縮方式は、データの物理
的な形式に従う単純な圧縮方式となっているため1例え
ば同じデータが連続して出現しなかった場合等は、圧縮
の効果が出ないという欠点がある。また、同じ文字列1
例えば同一の固有名詞や、データの並びがあったとして
も、従来の単純データ圧縮方式では、それらを何度も出
現する文字列として認識出来ないため9文字列によるサ
プレスはなされないという欠点がある。
的な形式に従う単純な圧縮方式となっているため1例え
ば同じデータが連続して出現しなかった場合等は、圧縮
の効果が出ないという欠点がある。また、同じ文字列1
例えば同一の固有名詞や、データの並びがあったとして
も、従来の単純データ圧縮方式では、それらを何度も出
現する文字列として認識出来ないため9文字列によるサ
プレスはなされないという欠点がある。
本発明の辞書を用いたデータ圧縮復元方式は。
データをコード化して圧縮するために利用する辞書ファ
イルと、その辞書ファイルから辞書データを読込む辞書
データ読取手段と、読取った辞書ファイルの内容が格納
される辞書データテーブルと。
イルと、その辞書ファイルから辞書データを読込む辞書
データ読取手段と、読取った辞書ファイルの内容が格納
される辞書データテーブルと。
辞書データテーブル内のデータやコードをサーチする辞
書テーブルサーチ手段と、辞書テーブルサーチ手段を用
いてデータの圧縮を行うデータ圧縮手段と、圧縮された
データを元の形に復元するデータ復元手段とを有してい
る。
書テーブルサーチ手段と、辞書テーブルサーチ手段を用
いてデータの圧縮を行うデータ圧縮手段と、圧縮された
データを元の形に復元するデータ復元手段とを有してい
る。
次に1本発明について図面を参照して説明する。
第1図は2本発明の一実施例の全体構成図である。まず
、データの圧縮、復元処理を行うに先立って辞書データ
読取手段3は、辞書ファイル2内のデータの文字列とそ
れに対応するコードとを読み込み、その内容の全てを電
子計算機1の主記憶内の辞書データテーブル4に格納す
る。この処理は、データ圧縮、復元の処理に先立って唯
一回実行されれば良い。もちろん、辞書グアイルの内容
の変更がなされた場合には、再度辞書ファイルの内容が
読み込まれなければならない。
、データの圧縮、復元処理を行うに先立って辞書データ
読取手段3は、辞書ファイル2内のデータの文字列とそ
れに対応するコードとを読み込み、その内容の全てを電
子計算機1の主記憶内の辞書データテーブル4に格納す
る。この処理は、データ圧縮、復元の処理に先立って唯
一回実行されれば良い。もちろん、辞書グアイルの内容
の変更がなされた場合には、再度辞書ファイルの内容が
読み込まれなければならない。
データの圧縮は、まず、データ圧縮手段6に対して、圧
縮前データ8が渡される。データ圧縮手段6は、渡され
たデータを先頭から1文字ずつずらして辞書テーブルサ
ーチ手段5に渡す。辞書テーブルサーチ手段5は、渡さ
れた文字列を、辞書データテーブル4内のデータ部分と
比較し、その−数件のチエツクを行う。もし一致したな
らば。
縮前データ8が渡される。データ圧縮手段6は、渡され
たデータを先頭から1文字ずつずらして辞書テーブルサ
ーチ手段5に渡す。辞書テーブルサーチ手段5は、渡さ
れた文字列を、辞書データテーブル4内のデータ部分と
比較し、その−数件のチエツクを行う。もし一致したな
らば。
一致した文字列の長さと、そのコードをデータ圧縮手段
6に返す。また、一致しなければ、その旨のステータス
をデータ圧縮手段6に返し、コード化が出来なかったこ
とを通知する。
6に返す。また、一致しなければ、その旨のステータス
をデータ圧縮手段6に返し、コード化が出来なかったこ
とを通知する。
データ圧縮手段6では、辞書テーブルサーチ手段5から
返された内容によシ圧縮後データ9を作る。コード化が
出来なかったときには、同じ文字が連続するか否かの判
定を行う。もし、同じ文字が連続するならば、連続する
同一文字をサプレスし、何回同一文字が連続するかとい
うその個数と。
返された内容によシ圧縮後データ9を作る。コード化が
出来なかったときには、同じ文字が連続するか否かの判
定を行う。もし、同じ文字が連続するならば、連続する
同一文字をサプレスし、何回同一文字が連続するかとい
うその個数と。
その文字を圧縮後データとして作る。コード化も。
同一文字によるサプレスも出来なかった場合には。
さらに1文字光にずらして上記の一連の処理を続ける。
これらの処理は、データの終りが来た時点で終了する。
次に、データの復元であるが、まずデータ復元手段7に
対して復元前データ10が渡される。データ復元手段7
は、復元前のデータ1oの先頭から1文字ずつを取出し
、圧縮制御文字か否かの判定を行う。
対して復元前データ10が渡される。データ復元手段7
は、復元前のデータ1oの先頭から1文字ずつを取出し
、圧縮制御文字か否かの判定を行う。
圧縮制御文字の種類は第4図に示す通シである。
もし、圧縮なしの圧縮制御文字が出現したならば。
データ復元手段7は、圧縮制御文字とともに示される文
字の数だけ文字列を復元後データ11にコピーする。も
し、圧縮あシ(連続文字)の圧縮制御文字が出現したな
らば、データ復元手段7は。
字の数だけ文字列を復元後データ11にコピーする。も
し、圧縮あシ(連続文字)の圧縮制御文字が出現したな
らば、データ復元手段7は。
圧縮制御文字とともに示される数だけ、その次に現われ
る文字を繰返して文字列を作り、復元後ブタに移送する
。もし、圧縮あり(コード化)の圧縮制御文字が出現し
たならば、データ復元手段7は、それに続くコードを、
辞書テーブルサーチ手段5に渡し元の文字列を得る。そ
して、その内容を復元後データ11に移送する。
る文字を繰返して文字列を作り、復元後ブタに移送する
。もし、圧縮あり(コード化)の圧縮制御文字が出現し
たならば、データ復元手段7は、それに続くコードを、
辞書テーブルサーチ手段5に渡し元の文字列を得る。そ
して、その内容を復元後データ11に移送する。
次に、従来方式でのデータ圧縮と1本方式にょるデータ
圧縮の比較を例を用いて説明する。
圧縮の比較を例を用いて説明する。
第2図は従来方式でのデータ圧縮の例である。
従来方式であると、単純なデータ圧縮しか行なわれない
。例えば、第2図の例では、連続する文字。
。例えば、第2図の例では、連続する文字。
つまシブランク(Δで示さ扛る)と、ゼロ(0)が圧縮
されている。この場合2元のデータが30バイトあり、
圧縮によって25バイトになったことを示している。も
ちろんこの値は1文字の連続の度合によって異なってく
る。
されている。この場合2元のデータが30バイトあり、
圧縮によって25バイトになったことを示している。も
ちろんこの値は1文字の連続の度合によって異なってく
る。
第3図は1本方式によるデータ圧縮の例である。
従来方式であると1例えば連続するデータのみが圧縮さ
れたが1本方式では、頻繁に出現する文字列をコード化
して辞書ファイル2にあらかじめ登録しておくことによ
って長い文字列を短いコードに置きかえ圧縮することが
できる。第3図の例では、°′日本電気株式会社”とい
う漢字8文字(データとしては16バイト)が、4バイ
トのコードに置換えられたことを示している。つまシ、
30バイトあった元のデータが、13バイトに変換され
たことを示している。本方式によるデータ圧縮の効果は
、出現頻度の高い文字列を出来るだけ多く辞書ファイル
に登録する程、高い効果が得られる。
れたが1本方式では、頻繁に出現する文字列をコード化
して辞書ファイル2にあらかじめ登録しておくことによ
って長い文字列を短いコードに置きかえ圧縮することが
できる。第3図の例では、°′日本電気株式会社”とい
う漢字8文字(データとしては16バイト)が、4バイ
トのコードに置換えられたことを示している。つまシ、
30バイトあった元のデータが、13バイトに変換され
たことを示している。本方式によるデータ圧縮の効果は
、出現頻度の高い文字列を出来るだけ多く辞書ファイル
に登録する程、高い効果が得られる。
以上説明したように本発明は、辞書ファイルを用いるこ
とによって連続する長いデータを短いコードに置きかえ
ることによシ、従来方式では得られなかった高いデータ
圧縮効果がある。この圧縮効果により9元のデータを補
助記憶装置1例えば磁気テープ装置や、磁気ディスク装
置に書く場合よシも、よシ少ないデータ量で済み、従っ
て補助記憶装置の利用容量の節約と入出力時間の節約が
できるという効果がある。
とによって連続する長いデータを短いコードに置きかえ
ることによシ、従来方式では得られなかった高いデータ
圧縮効果がある。この圧縮効果により9元のデータを補
助記憶装置1例えば磁気テープ装置や、磁気ディスク装
置に書く場合よシも、よシ少ないデータ量で済み、従っ
て補助記憶装置の利用容量の節約と入出力時間の節約が
できるという効果がある。
辞書データ読取手段、4・・・辞書データテーブル。
5・・・辞書テーブルサーチ手段、6・・・データ圧縮
手段、7・・・データ復元手段、8・・・圧縮前データ
、9・・・圧縮後データ、10・・・復元前データ、1
1・・・復元後データ。
手段、7・・・データ復元手段、8・・・圧縮前データ
、9・・・圧縮後データ、10・・・復元前データ、1
1・・・復元後データ。
第1図は2本発明の全体構成図、第2図は、従来方式で
のデータ圧縮例、第3図は1本発明方式によるデータ圧
縮例、第4図は、圧縮制御文字の種類である。 1・・・電子計算機本体、2・・・辞書ファイル、3・
・・鵬1図 第2図 第3図 (13バイドン
のデータ圧縮例、第3図は1本発明方式によるデータ圧
縮例、第4図は、圧縮制御文字の種類である。 1・・・電子計算機本体、2・・・辞書ファイル、3・
・・鵬1図 第2図 第3図 (13バイドン
Claims (1)
- 1、データをコード化するために、コードとデータが格
納された辞書データテーブルと、そのテーブルからデー
タをコード化するためにデータ又はコードをサーチする
辞書テーブルサーチ手段と、これらを用いてデータを圧
縮するデータ圧縮手段と、圧縮されたデータを復元する
データ復元手段とを有することを特徴とする辞書を用い
たデータ圧縮復元方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63214793A JPH0264770A (ja) | 1988-08-31 | 1988-08-31 | 辞書を用いたデータ圧縮復元方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63214793A JPH0264770A (ja) | 1988-08-31 | 1988-08-31 | 辞書を用いたデータ圧縮復元方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0264770A true JPH0264770A (ja) | 1990-03-05 |
Family
ID=16661623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63214793A Pending JPH0264770A (ja) | 1988-08-31 | 1988-08-31 | 辞書を用いたデータ圧縮復元方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0264770A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04267478A (ja) * | 1991-02-21 | 1992-09-24 | Fujitsu Ltd | ビットマップ照合方式 |
JPH06348569A (ja) * | 1993-06-14 | 1994-12-22 | Nec Corp | データベースシステム |
JP2001282829A (ja) * | 2000-03-29 | 2001-10-12 | Mitsubishi Electric Corp | データベース検索装置及びデータベース検索方法 |
-
1988
- 1988-08-31 JP JP63214793A patent/JPH0264770A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04267478A (ja) * | 1991-02-21 | 1992-09-24 | Fujitsu Ltd | ビットマップ照合方式 |
JPH06348569A (ja) * | 1993-06-14 | 1994-12-22 | Nec Corp | データベースシステム |
JP2001282829A (ja) * | 2000-03-29 | 2001-10-12 | Mitsubishi Electric Corp | データベース検索装置及びデータベース検索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5933104A (en) | Method and system for compression and decompression using variable-sized offset and length fields | |
JP3009727B2 (ja) | 改良形データ圧縮装置 | |
US6047298A (en) | Text compression dictionary generation apparatus | |
US5870036A (en) | Adaptive multiple dictionary data compression | |
TW312771B (ja) | ||
US7817069B2 (en) | Alternative encoding for LZSS output | |
US5956504A (en) | Method and system for compressing a data stream in a database log so as to permit recovery of only selected portions of the data stream | |
JPH03204233A (ja) | データ圧縮方法 | |
JPS62212849A (ja) | デ−タフアイルシステム | |
US5502439A (en) | Method for compression of binary data | |
US5701125A (en) | Method for compression of data using single pass LZSS and run-length encoding | |
JPH05241777A (ja) | データ圧縮方式 | |
Hahn | A new technique for compression and storage of data | |
JPH0264770A (ja) | 辞書を用いたデータ圧縮復元方式 | |
JPH03204234A (ja) | 圧縮データ復元方法 | |
JP3038223B2 (ja) | データ圧縮方式 | |
JP3105598B2 (ja) | ユニバーサル符号を用いたデータ圧縮方式 | |
JPH10190476A (ja) | データ圧縮方法及びその装置 | |
JPH03206533A (ja) | データ圧縮方式 | |
JPH05241776A (ja) | データ圧縮方式 | |
JPH06168097A (ja) | データ符号化方式及びデータ復元方式 | |
JP3083329B2 (ja) | データ圧縮復元方式 | |
JPH04167821A (ja) | データ符号化及び復号化方法 | |
JP3442105B2 (ja) | データ圧縮および復元方式 | |
Ainon | Storing text using integer codes |