JPH06309143A

JPH06309143A - データ圧縮装置及び方法

Info

Publication number: JPH06309143A
Application number: JP29962593A
Authority: JP
Inventors: Kenichi Nogami; 謙一野上; Yukio Nakamoto; 幸夫中本; Isamu Iwai; 勇岩井; Motoi Kurihara; 基栗原
Original assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Current assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Priority date: 1993-02-25
Filing date: 1993-11-30
Publication date: 1994-11-04

Abstract

(57)【要約】【目的】本発明は、２進数のビット列で取り扱われる大
容量のデータに対して効果的にデータ量を小さくする圧
縮を行ない、記憶装置を有効的に利用すると共に、デー
タの取扱いを容易にすることを可能にする。【構成】２進数のビット列で取り扱われるデータについ
て、ビット「０」あるいはビット「１」の何れか一方を
固定ビットとして設定し、ビット列の各ビットが固定ビ
ットであるか否かを判別するビット判別部２０４と、ビ
ット列について、ビット判別部２０４によって固定ビッ
トと判別されたビット位置から、次に固定ビットが出現
するビット位置までのビットの差分数を計数するビット
差分カウント部２０５と、計数された差分数を、その差
分数を最小のバイト数で表現する形式のデータに変換す
る最適バイト数判別部２０６とを具備し、ビット列を固
定ビットに基づく差分を用いてデータ変換することを特
徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、２進数のビット列で取
り扱われるデータを圧縮するデータ圧縮装置及び方法に
関する。

【０００２】

【従来の技術】一般に、２進数のビット列で取り扱われ
るデータのデータ量が大規模になるにつれて、記憶装置
内におけるデータの占有量が増加し、データの取扱いが
困難になり、また取扱いの時間が多くかかってしまうと
いう問題がある。この問題に対して、データが持つ情報
量を減少させることなくデータ量を小さくするために、
データの圧縮を行なうデータ圧縮方式が利用されてい
る。

【０００３】従来のデータ圧縮方式は、２進数のビット
列で取り扱われる各種データ用となっている。すなわ
ち、各種データ用となっているため、平均的にデータの
圧縮率が良くなるような方式となっている。このため、
従来の圧縮方式では、あまり効果の得ることの出来ない
データが存在することがあった。

【０００４】また、従来のデータ圧縮方式は、圧縮の対
象とするデータを一括して圧縮しているため、データを
取り扱うためには圧縮データ全体を圧縮前のデータに戻
す必要がある。すなわち、記憶装置内でのデータ占有量
は小さくなるが、データの取り扱いについては、圧縮デ
ータ全体を圧縮前のデータに戻してから扱うため、結局
は大容量のデータを扱うことになる。

【０００５】

【発明が解決しようとする課題】このように従来のデー
タ圧縮方式では、２進数のビット列で取り扱われるデー
タに対して圧縮を行なったとしても、データの内容によ
っては、十分な効果が得られずに、記憶装置の占有量が
大きい、データの取扱いが困難、及びデータの取扱いに
時間がかかるという問題を回避できない場合があった。

【０００６】また、データを扱うためには、圧縮データ
全体を圧縮前のデータに戻す必要があるため、データの
取扱いが困難、データの取扱いに時間がかかるという問
題があった。

【０００７】本発明は前記のような点を考慮してなされ
たもので、従来のデータ圧縮方式では十分に圧縮できな
かった２進数のビット列で取り扱われる大容量のデータ
に対して効果的にデータ量を小さくする圧縮を行ない、
記憶装置を有効的に利用すると共に、データの取扱いを
容易にすることが可能なデータ圧縮装置及び方法を提供
することを目的とする。

【０００８】

【課題を解決するための手段】本発明は、２進数のビッ
ト列で取り扱われるデータについて、ビット「０」ある
いはビット「１」の何れか一方を固定ビットとして設定
し、前記ビット列の各ビットが前記固定ビットであるか
否かを判別するビット判別手段と、前記ビット列につい
て、前記ビット判別手段によって前記固定ビットと判別
されたビット位置から、次に前記固定ビットが出現する
ビット位置までのビットの差分数を計数するビット差分
計数手段と、前記ビット差分計数手段によって計数され
た差分数を、その差分数が最小のバイト数で表現される
形式のデータに変換する最適バイト数判別変換手段とを
具備し、前記ビット列を前記固定ビットに基づく差分を
用いてデータ変換することを特徴とする。

【０００９】また本発明は、２進数のビット列で取り扱
われているデータにおいて、ビット「０」あるいはビッ
ト「１」の何れか一方のビットを固定ビットとして設定
し、前記ビット列のデータの先頭ビットを起点として、
この起点から順次、前記固定ビットの第Ｎ＋１ビットが
出現するまでのビット数の差分をＮ番目のデータとして
表現するようなデータ形式に変換し、固定ビットが出現
するまでのビット数の差分を用いて元のデータを表現す
ることを特徴とする。

【００１０】また、前記固定ビットの第Ｎビットから第
Ｎ＋１ビットが出現するまでのビット数の差分を、その
差分を表現できる最小のバイト数で表現するデータ形式
に変換することを特徴とする。

【００１１】また本発明は、Ｍ個（Ｍ≧１）のブロック
に分けられた２進数のビット列で取り扱われるデータに
ついて、１つのブロックのデータ中でビット「０」ある
いはビット「１」の何れか一方を固定ビットとして設定
し、前記ビット列の各ビットが前記固定ビットであるか
否かを判別するビット判別手段と、前記ビット列につい
て、前記ビット判別手段によって前記固定ビットと判別
されたビット位置から、次に前記固定ビットが出現する
ビット位置までのビットの差分数を計数するビット差分
計数手段と、前記ビット差分計数手段によって計数され
た差分数を、その差分数が最小のバイト数で表現される
形式のデータに変換する最適バイト数判別変換手段と、
前記最適バイト数判別変換手段の変換によって得られた
データのデータ量と変換前の元データのデータ量とを比
較してデータ量が少ないデータを選択する圧縮判別手段
と、前記圧縮判別手段によって選択されたデータを保存
するデータ保存手段とを具備し、前記ビット列を前記固
定ビットに基づく差分を用いてデータ変換することによ
って得られたデータ、または変換前の元データのデータ
量の少ない何れか一方を、各ブロック単位で保存するこ
とを特徴とする。

【００１２】また、前記データ保存手段によって保存さ
れるデータに対応して、前記ブロック毎に、ブロック内
の元データのデータ量、前記元データに対する処理の結
果、前記圧縮判別手段に何れが選択されたかを示す情
報、及び前記圧縮判別手段によって選択されたデータの
データ量を含むテーブルを保存することを特徴とする。
さらに、前記テーブルをもとに、前記データ保存手段に
よって保存されたデータ変換されたデータを、ブロック
単位で元のデータに戻すことを特徴とする。

【００１３】

【作用】このような構成によれば、データの圧縮の方式
は、データのビット列において「０」あるいは「１」の
何れかのビットの一つを固定し、その固定した同一ビッ
トが出現するまでのビットの差分数を用いて表現する。
差分数は最小バイト数で表現する。このことにより、ユ
ーザが作成したデータを効率よく小規模に変換し、記憶
装置を有効的に利用することができる。また、ユーザに
よるデータの取扱いが容易にできる。

【００１４】また、構造的にブロックに分けられたデー
タのビット列について、ブロック単位でデータを変換す
る。その際に、変換して得られたデータが、元のデータ
よりもデータ量が大きくなった場合には、元のデータを
保存することにより、より効率的に全体のデータ量を小
規模にすることができる。

【００１５】また、保存されたデータのデータ構造をブ
ロック単位で保存しておくことにより、変換によって圧
縮されたデータをブロック単位で元のデータに戻すこと
ができ、データの取扱いが容易となる。

【００１６】

【実施例】以下、図面を参照して本発明の実施例を説明
する。図１は本発明の第１実施例におけるデータ圧縮装
置を実現する装置の概略構成を示すブロック図である。
図１に示すように、制御装置１、及び外部記憶装置２か
ら構成されている。制御装置１は、ＣＰＵ、メモリ等か
ら構成されており、後述するデータ圧縮装置２０を実現
する。外部記憶装置２は、制御装置１で扱われる各種デ
ータを格納するためのものである。

【００１７】制御装置１は、図２に示すデータ圧縮装置
２０を実現している。データ圧縮装置２０は、処理部２
２、及びバッファ部２４によって構成されている。処理
部２２は、初期化部２０１、データ読み込み部２０２、
データ保存部２０３、ビット判別部２０４、ビット差分
カウント部２０５、最適バイト数判別部２０６、及びバ
ッファクリア部２０７によって構成されている。バッフ
ァ部２４は、データ格納バッファ２２０、圧縮データ格
納バッファ２２１、差分格納バッファ２２２、データ量
格納バッファ２２３、元データ量格納バッファ２２４、
及び作業バッファ２２５の各バッファから構成されてい
る。

【００１８】初期化部２０１は、データ圧縮処理の開始
前に、バッファ部２４内の各バッファの初期化を行な
う。データ読み込み部２０２は、外部記憶装置２に格納
された圧縮前の圧縮対象となるデータを読み込み、バッ
ファ部２４内のデータ格納バッファ２２０へ格納する。

【００１９】データ保存部２０３は、圧縮データ格納バ
ッファ２２１に格納されている圧縮されたデータを外部
記憶装置２へ書き込むものである。ビット判別部２０４
は、圧縮対象データにおける、現在調べているビットが
「０」か「１」かの判別を行なうものである。

【００２０】ビット差分カウント部２０５は、ビット判
別部２０４による判別結果を用いて、固定したビット
（「０」または「１」）と同一のビットが出現するまで
のビット数のカウントを行い、カウントを行なったビッ
ト数を差分格納バッファ２２２へ格納する。

【００２１】最適バイト数判別部２０６は、差分格納バ
ッファ２２２に格納されている差分のビット数を表現で
きる最小のバイト数に変換を行い、圧縮データ格納バッ
ファ２２１への格納を行なう。

【００２２】バッファクリア部２０７は、ビット差分カ
ウント部２０５によりカウントが開始される前に、差分
格納バッファ２２２をクリアするものである。データ格
納バッファ２２０は、データ読み込み部２０２から読み
込まれた圧縮の対象とするデータを格納するためのもの
である。圧縮データ格納バッファ２２１は、所定のデー
タ形式で圧縮された圧縮済みのデータを格納するための
ものである。差分格納バッファ２２２は、基準となるビ
ット（第１実施例では「１」から）が出現してから次の
同じビットが出現するまでのビット数（差分）をカウン
トするためのものである。データ量格納バッファ２２３
は、圧縮データのデータ量を格納するためのものであ
る。元データ量格納バッファ２２４は、データ格納バッ
ファ２２０に格納された圧縮対象とするデータのデータ
量を格納するためのものである。作業バッファ２２５
は、ビット判別部２０４によるビット判別の処理対象と
する１バイトのデータを格納するためのものである。

【００２３】次に、第１実施例の動作について、図３に
示すフローチャートを参照しながら説明する。第１実施
例では、圧縮対象データに対して、「１」のビットが出
現してから次の「１」が出現するまでの差分（ビット
「０」が連続する数）に基づいて、データ圧縮を行なう
例を用いて説明する。この場合、ビット「１」の出現頻
度が少ないデータに有効となる。

【００２４】この種、データとしては、大量の文書が格
納されたデータベース中から、単語をキーとして所望す
る文書を検索する際に用いられる検索用インデックスデ
ータがある。例えば、検索用インデックスデータは、デ
ータベース登録の際に文書と共に登録される１つ以上の
検索用単語について、単語毎に同単語を検索キーとする
文書が何れであるのかを、各ビット１文書に対応させて
登録している。すなわち、検索用インデックスデータ
は、全ての単語毎に全文書について登録の有無（ある単
語が検索キーとして登録されている場合には、対応する
文書に当たるビットが「１」となる）が設定されるの
で、全インデックスデータからするとビット「１」の出
現頻度が少ない。しかも、各ビットはそれぞれ意味があ
るので、削除できないデータとなっている。本願発明に
よるデータ圧縮は、この種、２進数のビット列で取り扱
われているデータに有効である。

【００２５】まず、初期化部２０１は、バッファ部２４
中の各バッファを初期化する（ステップＳ１）。データ
読み込み部２０２は、外部記憶装置２に格納されている
圧縮対象データを読み込み、データ格納バッファ２２０
に格納する（ステップＳ２）。

【００２６】例として、「１００００００００〜０
００１０００００」（総バイト数１００バイトで１ビッ
ト目と７９５ビット目に「１」がある）というデータが
読み込まれ、データ格納バッファ２２０に格納されたも
のとする。

【００２７】また、データ読み込み部２０２は、データ
格納バッファ２２０に格納されているデータのデータ量
を元データ量格納バッファ２２６に格納する（ステップ
Ｓ３）。（例では「１００」という数値データが格納さ
れる）。

【００２８】ビット判別部２０４は、データ格納バッフ
ァ２２０に格納されているデータの先頭から順に１バイ
ト（８ビット）ずつ作業バッファ２２５に格納し（ステ
ップＳ４）、（例では「１０００００００」が格納され
る）、先頭ビットが「１」か「０」かの判別を行なう
（ステップＳ５）。

【００２９】ここで、ビット判別部２０４により先頭ビ
ットが「１」と判別された場合（はじめに第１バイトの
１ビット目）、最適バイト数判別部２０６が起動し、差
分格納バッファ２２２に格納されている差分数（１ビッ
ト目の場合、差分格納バッファ２２２に格納されている
差分数は「０」）に１を加える（ステップＳ６）。

【００３０】また、最適バイト数判別部２０６は、その
差分数の値を表現するのに必要な最小のバイト数を判別
し（ステップＳ７）、そのバイト数で後述する所定の圧
縮データの形式に差分数を変換し（１ビット目について
は１バイトの圧縮データとなる）、圧縮データ格納バッ
ファ２２１に格納する（ステップＳ８，Ｓ９）。また、
最適バイト数判別部２０６は、圧縮データのバイト数
を、データ量格納バッファ２２３に格納されている値
（初期値は０）に加える（ステップＳ１０）。

【００３１】ここで、バッファクリア部２０７は、差分
格納バッファ２２２をクリアし、次ビットの処理に備え
る（ステップＳ１１）。ビット判別部２０４は、データ
を１ビット左にシフトし、判別対象とするビットを次の
ビットに変更する（ステップＳ１２）。

【００３２】ビット判別部２０４は、作業バッファ２２
５中の１バイト分の全ビットに対してビット判別を行な
ったかどうか判定する（ステップＳ１３）。全ビットに
対してビット判別を行なっていないならばステップＳ５
に戻る。

【００３３】処理が２ビット目に移ると、ステップＳ５
において、ビット判別部２０４は、先頭ビットが「０」
と判別する。ビット差分カウント部２０５は、差分格納
バッファ２２２に格納されている差分数（初期値は０）
に１を加え（ステップＳ１４）、差分格納バッファ２２
２に再格納を行なう。

【００３４】２ビット目以降、圧縮対象データは、図４
（ａ）に示すように、７９３個の「０」が連続してい
る。従って、全バイトに対してビット判別を行なったか
どうか判定しながら（ステップＳ１５）、ステップＳ１
２，Ｓ１３，Ｓ５，Ｓ１４の処理を繰り返した結果、次
のビット「１」が出現するまでに（第１００バイトの５
ビット目）、差分格納バッファ２２２には、図４（ｂ）
に示すように「７９４」が差分数として格納される。

【００３５】最適バイト数判別部２０６は、差分数の値
「７９４」を表現するのに必要な最小のバイト数を判別
する（ステップＳ７）。この場合、図４（ｃ）に示すよ
うに、２バイトで表現することができる。そして、最適
バイト数判別部２０６は、図４（ｄ）に示すような、所
定の圧縮データの形式に差分数を変換する（ステップＳ
８，Ｓ９）。

【００３６】この変換では何バイトに変換されたかが判
別できるように、圧縮データの各バイトの先頭ビットを
フラグとして用い、残りの７ビットで差分数を表現す
る。バイトの先頭ビットが「１」のときは、そのバイト
が差分を表現しているバイトの先頭を表し、先頭ビット
が「０」の時は前のバイトから連続していることを表す
ものとする。従って、圧縮データの１バイトは７ビット
で表現できる数、２バイトは１４ビットで表現できる
数、以下７ビットずつ増加するビット数で、差分数を表
現することが可能である。

【００３７】この結果、図４（ａ）の例では、１ビット
目の「１」は「１００００００１」という１バイトの圧
縮データ、次のビット「１」が出現するまでの差分数
「７９４」は、図４（ｄ）に示すように、「１００００
１１００００１１０１０」という２バイトの圧縮データ
に変換される。

【００３８】このとき、最適バイト数判別部２０６は、
データ量格納バッファ２２３に格納されているバイト数
に変換されたバイト数を加え、再びデータ量格納バッフ
ァ２２３に格納する（ステップ３０８）。

【００３９】最適バイト数判別部２０６は、データ量格
納バッファ２２３に格納されている「１」（第１ビット
についての圧縮データのバイト数）に、連続するビット
「０」に関する圧縮データのバイト数「２」を加えて、
データ量格納バッファ２２３に再格納する（圧縮データ
バイト数「３」）。この結果、第７９５ビットまでのデ
ータに関する圧縮データは、図５に示すようになる。

【００４０】前述のようにして圧縮データを生成し、全
バイトについての処理が終了すると、データ保存部２０
３は、図６に示すようなデータ形式、すなわちデータ量
格納バッファ２２３に格納された圧縮データバイト数、
元データ量格納バッファ２２４に格納された元データバ
イト数、及び圧縮データ格納バッファ２２１に格納され
た圧縮データを、外部記憶装置２に格納する。

【００４１】外部記憶装置２に格納された圧縮データ
は、各バイトの内容に基づいて展開することにより、元
のデータに伸張することができる。このようにして、２
進数のビット列で取り扱われているデータにおいて、例
えばビット「１」を固定し、次のビット「１」が出現す
るまでのビットの差分数を、最小のバイト数で表現でき
る形式の圧縮データとするので、ビット「１］の出現頻
度が少ないデータについて、非常に良好な圧縮率でデー
タ圧縮を行なうことができる。

【００４２】なお、第１実施例においては、ビット
「１」の出現頻度が少ないデータを例にして説明した
が、ビット「０」の出現頻度が少ないデータにも応用で
きる。すなわち、差分数を求めるための基準ビットを
「０」とするか、あるいは圧縮対象データの全てのビッ
トを反転させ、第１実施例と同様の処理を実行すること
で、同一の圧縮率による圧縮が可能となる。

【００４３】また、本発明は文書データベース用の検索
用インデックスデータの場合に限らず、ビット変化が少
なく、かつ各ビットに削除できない情報を持つデータに
対して有効に実現することができる。

【００４４】次に、第２実施例について説明する。図７
は本発明の第１実施例におけるデータ圧縮装置を実現す
る装置の概略構成を示すブロック図である。図７に示す
ように、制御装置５、外部記憶装置６、及び入力装置７
から構成されている。制御装置５は、ＣＰＵ、メモリ等
から構成されており、後述するデータ圧縮装置５０を実
現する。外部記憶装置６は、制御装置５で扱われる各種
データを格納するためのものである。入力装置７は、制
御装置５で扱われる各種データを入力するためのもので
あり、キーボード、マウス等により構成される。

【００４５】制御装置５は、図８に示すデータ圧縮装置
５０を実現している。データ圧縮装置５０は、制御部５
１、処理部５２、及びバッファ部５４によって構成され
ている。図９にはデータ圧縮装置５０の詳細な構成を示
している。

【００４６】処理部５２は、初期化部５０１、データ読
み込み部５０２、データ保存部５０３、ビット判別部５
０４、ビット差分カウント部５０５、最適バイト数判別
部５０６、バッファクリア部５０７、圧縮判別部５０
８、及びループ判別部５０９によって構成されている。

【００４７】バッファ部５４は、データ格納バッファ５
２０、圧縮データ格納バッファ５２１、差分格納バッフ
ァ５２２、データ量格納バッファ５２３、元データ量格
納バッファ５２４、処理データ格納バッファ５２５、フ
ラグ格納バッファ５２６、ブロック数格納バッファ５２
７、及びループカウントバッファ５２８の各バッファか
ら構成されている。

【００４８】初期化部５０１は、データ圧縮処理の開始
前に、バッファ部５４内の各バッファの初期化を行な
う。データ読み込み部５０２は、外部記憶装置６に格納
された圧縮前の圧縮対象となるデータを読み込み、バッ
ファ部５４内のデータ格納バッファ５２０へ格納する。

【００４９】データ保存部５０３は、圧縮データ格納バ
ッファ５２１に格納されている圧縮されたデータを外部
記憶装置６へ書き込むものである。ビット判別部５０４
は、圧縮対象データにおける、現在調べているビットが
「０」か「１」かの判別を行なうものである。

【００５０】ビット差分カウント部５０５は、ビット判
別部５０４による判別結果を用いて、固定したビット
（「０」または「１」）と同一のビットが出現するまで
のビット数のカウントを行い、カウントを行なったビッ
ト数を差分格納バッファ５２２へ格納する。

【００５１】最適バイト数判別部５０６は、差分格納バ
ッファ５２２に格納されている差分のビット数を、表現
できる最小のバイト数に変換を行ない、圧縮データ格納
バッファ５２１への格納を行なう。

【００５２】バッファクリア部５０７は、ビット差分カ
ウント部５０５によりカウントが開始される前や処理中
に、必要に応じて差分格納バッファ５２２をはじめとす
る各バッファをクリアするものである。

【００５３】圧縮判別部５０８は、固定ビットを基にし
た差分数を用いた圧縮により得られた圧縮データと、元
データ量との比較を行ない、外部記憶装置６に格納すべ
きデータを圧縮によって得られた圧縮データか、あるい
は元データかを判別するものである。圧縮判別部５０８
は、元データ量格納バッファ５２４に格納されている元
のデータ量と、データ量格納バッファ５２３に格納され
ているデータ量とを比較する。

【００５４】ループ判別部５０９は、ブロック数格納バ
ッファ５２７とループカウントバッファ５２８に格納さ
れている数値の比較を行ない、必要とする繰り返しの処
理（全てのブロックについての処理）が実行されたかを
判別する。

【００５５】データ格納バッファ５２０は、データ読み
込み部５０２から読み込まれた圧縮の対象とするデータ
を格納するためのものである。圧縮データ格納バッファ
５２１は、所定のデータ形式で圧縮された圧縮済みのデ
ータを格納するためのものである。差分格納バッファ５
２２は、基準となるビット（第２実施例では「１」か
ら）が出現してから次の同じビットが出現するまでのビ
ット数（差分）をカウントするためのものである。デー
タ量格納バッファ５２３は、圧縮データのデータ量を格
納するためのものである。元データ量格納バッファ５２
４は、データ格納バッファ５２０に格納された圧縮対象
とするデータのデータ量を格納するためのものである。
処理データ格納バッファ５２５は、処理対象とする１バ
イト分のデータを格納するためのものである。フラグ格
納バッファ５２６は、「圧縮」の実行、あるいは「非圧
縮」を示す情報である圧縮フラグを格納するためのもの
である。ブロック数格納バッファ５２７は、処理対象と
するデータのブロック数を格納するためのものである。
ループカウントバッファ５２８は、処理対象とするデー
タの幾つのブロックに対して処理を実行したかをカウン
トするためのものである。

【００５６】次に、第２実施例の動作について、図１０
及び図１１に示すフローチャートを参照しながら説明す
る。第２実施例では、圧縮対象データに対して、「１」
のビットが出現してから次の「１」が出現するまでの差
分（ビット「０」が連続する数）に基づいて、データ圧
縮を行なう例を用いて説明する。

【００５７】まず、初期化部５０１は、バッファ部５４
中の各バッファを初期化する（ステップＡ１）。データ
読み込み部５０２は、圧縮の対象となるデータがいくつ
のブロックから構成されているか、その数を入力装置７
を介して入力する。データ読み込み部５０２は、入力さ
れたデータのブロック数をブロック数格納バッファ５２
７に格納する（ステップＡ２）。

【００５８】ここで、バッファクリア部５０７は、ブロ
ック数格納バッファ５２７、及びループカウントバッフ
ァ５２８を除く、他のバッファを全てクリアする（ステ
ップＡ３）。

【００５９】ループ判別部５０９は、ループカウントバ
ッファ５２８に格納されている数値が、ブロック数格納
バッファ５２７に格納されている数値と比較する（ステ
ップＡ３）。この結果、ループカウントバッファ５２８
に格納されている数値の方が小さい場合、すなわち処理
を継続する必要がある場合には、データ読み込み部５０
２が起動される。

【００６０】データ読み込み部５０２は、外部記憶装置
６に格納されている圧縮対象データの１ブロック分を読
み込み、データ格納バッファ５２０に格納する（ステッ
プＡ５）。

【００６１】例えば、図１２に示すように、「１０００
０００００〜０００１０００００」（総バイト数１
００バイトで１ビット目と７９５ビット目に「１」があ
る）という１ブロック分の圧縮対象データが読み込ま
れ、データ格納バッファ５２０に格納されたものとす
る。

【００６２】また、データ読み込み部５０２は、データ
格納バッファ５２０に格納されているデータのデータ量
を元データ量格納バッファ５２４に格納する（ステップ
Ａ６）。（例では「１００」という数値データが格納さ
れる）。

【００６３】ビット判別部５０４は、データ格納バッフ
ァ５２０に格納されているデータの先頭から順に１バイ
ト（８ビット）ずつ処理データ格納バッファ５２５に格
納し（ステップＡ７）、（例では「１０００００００」
が格納される）、先頭ビットが「１」か「０」かの判別
を行なう（ステップＡ８）。

【００６４】ここで、ビット判別部５０４により先頭ビ
ットが「１」と判別された場合（はじめに第１バイトの
１ビット目）、最適バイト数判別部５０６が起動し、差
分格納バッファ５２２に格納されている差分数（１ビッ
ト目の場合、差分格納バッファ５２２に格納されている
差分数は「０」）に１を加える（ステップＡ９）。

【００６５】また、最適バイト数判別部５０６は、その
差分数の値（ここでは１」）を表現するのに必要な最小
のバイト数を判別し、そのバイト数で後述する所定の圧
縮データの形式に差分数を変換し（１ビット目について
は１バイトの圧縮データとなる）、圧縮データ格納バッ
ファ５２１に格納する（ステップＡ１０）。また、最適
バイト数判別部５０６は、圧縮データのバイト数（ここ
では「１」バイト）を、データ量格納バッファ５２３に
格納されている値（初期値は０）に加える（ステップＡ
１３）。

【００６６】次に、圧縮判別部５０８が起動される。圧
縮判別部５０８は、元データ量格納バッファ５２４に格
納されている元のデータ量と、データ量格納バッファ５
２３に格納されているデータ量の比較を行なう（ステッ
プＡ１５）。

【００６７】この比較の結果、元データ量格納バッファ
５２４に格納されている元データ量が、データ量格納バ
ッファ５２３に格納されているデータ量より大きい場合
には、バッファクリア部５０７が起動される。すなわ
ち、圧縮を行なうことによってデータ量を縮小できたた
め、外部記憶装置６に格納するデータとして圧縮データ
が選択される。

【００６８】バッファクリア部５０７は、差分格納バッ
ファ５２２をクリアし、次ビットの処理に備える（ステ
ップＡ１６）。ビット判別部５０４は、データを１ビッ
ト左にシフトし、判別対象とするビットを次のビットに
変更する（ステップＡ１７）。

【００６９】ここで、ビット判別部５０４は、処理デー
タ格納バッファ５２５中の１バイト分の全ビットに対し
てビット判別を行なったかどうか判定する（ステップＡ
１８）。全ビットに対してビット判別を行なっていない
ならばステップＡ８に戻る。

【００７０】処理が２ビット目に移ると、ステップＡ８
において、ビット判別部５０４は、先頭ビットが「０」
と判別する。ビット差分カウント部５０５は、差分格納
バッファ５２２に格納されている差分数（初期値は０）
に１を加え（ステップＡ９）、差分格納バッファ５２２
に再格納する。

【００７１】２ビット目以降、圧縮対象データは、図１
３（ａ）に示すように、７９３個の「０」が連続してい
る。従って、全バイトに対してビット判別を行なったか
どうか判定しながら（ステップＡ１９）、ステップＡ１
７，Ａ１８，Ａ１９，Ａ７，Ａ８，Ａ１４の処理を繰り
返した結果、次のビット「１」が出現するまでに（第１
００バイトの５ビット目）、差分格納バッファ５２２に
は、図１３（ｂ）に示すように「７９４」が差分数とし
て格納される。

【００７２】最適バイト数判別部５０６は、差分数の値
「７９４」を表現するのに必要な最小のバイト数を判別
する（ステップＡ１０）。この場合、図１３（ｃ）に示
すように、２バイトで表現することができる。そして、
最適バイト数判別部５０６は、図１３（ｄ）に示すよう
な、所定の圧縮データの形式に差分数を変換する（ステ
ップＡ１１）。

【００７３】この変換では何バイトに変換されたかが判
別できるように、図１４に示すように、圧縮データの各
バイトの先頭ビットをフラグとして用い、残りの７ビッ
トで差分数を表現する。バイトの先頭ビットが「１」の
ときは、そのバイトが差分を表現しているバイトの先頭
を表し、先頭ビットが「０」の時は前のバイトから連続
していることを表すものとする。

【００７４】従って、圧縮データの１バイトは、図１４
（ａ）に示すように、７ビットで表現できる数、２バイ
トは、図１４（ｂ）（ｃ）に示すように、１４ビットで
表現できる数、以下７ビットずつ増加するビット数で、
差分数を表現することが可能である。

【００７５】ただし、１バイトで表現できる数は、「１
２７」がフラグ「１」を付した際に、後述する圧縮デー
タの区切り記号「ｆｆ」（１６進数表記）と同一となる
ため「１２６」までとし、２バイトで表現できる数は、
上位バイトが圧縮データの区切り記号「ｆｆ」（１６進
数表記）と同一とならないように「１６２５５」までと
する。

【００７６】この結果、図１３（ａ）の例では、１ビッ
ト目の「１」は「１００００００１」（１６進数表記で
「８１」）という１バイトの圧縮データ、次のビット
「１」が出現するまでの差分数「７９４」は、図１３
（ｄ）に示すように、「１００００１１００００１１０
１０」（１６進数表記で「８６１Ａ」）という２バイト
の圧縮データに変換される。すなわち、圧縮データ格納
バッファ５２１には、図１５に示すような圧縮データが
格納される。

【００７７】このとき、最適バイト数判別部５０６は、
データ量格納バッファ５２３に格納されているバイト数
に変換されたバイト数を加え、再びデータ量格納バッフ
ァ５２３に格納する（ステップＡ１３）。

【００７８】つまり、最適バイト数判別部５０６は、デ
ータ量格納バッファ５２３に格納されている「１」（第
１ビットについての圧縮データのバイト数）に、連続す
るビット「０」に関する圧縮データのバイト数「２」を
加えて、データ量格納バッファ５２３に再格納する（圧
縮データバイト数「３」）。

【００７９】次に、圧縮判別部５０８が起動される。圧
縮判別部５０８は、元データ量格納バッファ５２４に格
納されている元のデータ量と、データ量格納バッファ５
２３に格納されているデータ量の比較を行なう（ステッ
プＡ１５）。

【００８０】この比較の結果、データ量格納バッファ５
２３に格納されているデータ量が、元データ量格納バッ
ファ５２３に格納されている元データ量より小さく、全
バイトについてビット判別を行なった場合（ステップＡ
１９）には、圧縮判別部５０８は、「圧縮」の実行を示
す情報（圧縮フラグ「１」）をフラグ格納バッファ５２
６に格納する（ステップＡ２０）。その後、データ保存
部５０３が起動される。

【００８１】データ保存部５０は、図１６に示すよう
に、圧縮データ格納バッファ５２１に格納されている圧
縮データに区切り記号を加えて外部記憶装置６に格納す
る（ステップＡ２１）。本実施例では、区切り記号とし
て「ｆｆ」（１６進数表記）を用いている。

【００８２】さらに、データ保存部５０は、元データ量
格納バッファ５２４に格納されている元データのデータ
量、及びフラグ格納バッファ５２６に格納されている圧
縮・非圧縮の何れかを示す圧縮フラグの内容（ここでは
圧縮フラグ「１」）、及びデータ量格納バッファ５２３
に格納されているデータ量を、区切り符号を付加して、
図１７に示すように（例では「１００１３／」）、
外部記憶装置６に格納する（ステップＡ２２）。（各ブ
ロック毎に外部記憶装置６に格納される、これらのデー
タを圧縮データ構造テーブルとする）。そして、ループ
カウントバッファ５２８に格納されている数値に「１」
を加えて、ステップＡ４の処理に戻る。

【００８３】一方、ステップＡ１５における比較の結
果、データ量格納バッファ５２３に格納されているデー
タ量が、元データ量格納バッファ５２４に格納されてい
る元データ量より小さくない場合には、データ保存部５
０３が起動される。すなわち、圧縮を行なうことによっ
てデータ量を縮小できないため、外部記憶装置６に格納
するデータとして元のデータが選択される。

【００８４】データ保存部５０は、データ格納バッファ
５２０に格納されているデータに、区切り記号を加えて
外部記憶装置６に格納する（ステップＡ２４）。また、
データ保存部５０は、フラグ格納バッファ５２６に「非
圧縮」を示す情報（圧縮フラグ「０」」を格納し、さら
にデータ量格納バッファ５２３に、元データ量格納バッ
ファ５２４に格納されている元のデータ量を示すデータ
を格納する（ステップＡ２５）。データ保存部５０は、
フラグ格納バッファ５２６に格納されている圧縮・非圧
縮の何れかを示す圧縮フラグの内容（ここでは圧縮フラ
グ「０」）、及びデータ量格納バッファ５２３に格納さ
れているデータ量（ここでは元データ量と同じ）を、区
切り符号を付加して、外部記憶装置６に格納する（ステ
ップＡ２２）。そして、ループカウントバッファ５２８
に格納されている数値に「１」を加えて、ステップＡ４
の処理に移る。

【００８５】以上で、１つのブロックのデータの圧縮が
終了する。図１６に示すように、外部記憶装置６に格納
された圧縮データは、各バイトの内容に基づいて展開す
ることにより、元のデータに伸張することができる。例
えば、図１８（ａ）に示すような圧縮データ構造テーブ
ルと、図１８（ｃ）に示すような圧縮データが外部記憶
装置６に格納されている際に、３番目のブロックに対応
する圧縮データを元に戻す場合について説明する。

【００８６】まず、圧縮データ構造テーブルから、対象
とするデータの直前（２番目のブロック）までのデータ
を参照し、直前のデータまでのデータ量を図１８（ｂ）
に示すようにして求める。図１８（ａ）に示す例では、
図１８（ｂ）に示すように、１番目の圧縮データのデー
タ量（３バイト）＋区切り記号（１バイト）と、２番目
の元データのデータ量（１５０バイト）＋区切り記号
（１バイト）の総和で、１５５バイトとなる。

【００８７】すなわち、図１８（ｃ）に示す圧縮データ
の先頭から４０５バイトが不要なデータであり、１５６
バイト目から次の区切り記号までのデータ（圧縮データ
構造テーブルの３番目のデータの情報が示すデータ量５
バイト）が、対象とする３番目のデータとなる。図１８
（ｄ）に示す、３番目のデータのみを元に戻すことで、
所望するデータが得られる。

【００８８】このようにして、構造的に複数のブロック
に分割して２進数のビット列で取り扱われているデータ
について、ブロック単位で固定ビット（例えば「１」）
の差分数を基にした圧縮を行なうことにより、データ量
を小規模化し、外部記憶装置６内のデータ占有率を減少
させることができる。さらに、ブロック単位でデータを
扱えるため、データの取扱いが容易となり、処理時間も
短縮できる。

【００８９】また、データ圧縮を行なった際に、圧縮デ
ータのデータ量が圧縮を行なう前の元データ量を越えた
場合には、圧縮データを用いないことにより、ブロック
単位で常に最適な（データ量の少ない方の）データが格
納され、効果的な圧縮が可能となる。

【００９０】

【発明の効果】以上のように本発明によれば、従来のデ
ータ圧縮方式では十分に圧縮できなかった２進数のビッ
ト列で取り扱われる大容量のデータに対して効果的にデ
ータ量を小さくする圧縮を行ない、記憶装置を有効的に
利用すると共に、データの取扱いを容易にすることが可
能となるものである。

【００９１】さらに本発明によれば、ブロック単位で圧
縮を行なうので、データの取扱いが容易となると共に処
理時間が短縮され、またブロック毎に最適なデータが選
択されて記憶装置に格納されるので効率的なデータ圧縮
が実現できるものである。

【図面の簡単な説明】

【図１】本発明の第１実施例を実現するための装置の概
略構成を示すブロック図。

【図２】第１実施例におけるデータ圧縮装置の構成を示
すブロック図。

【図３】第１実施例におけるデータ圧縮処理の動作を説
明するためのフローチャート。

【図４】第１実施例で用いられる圧縮データの形式を説
明するための図。

【図５】第１実施例において圧縮データ格納バッファ２
２１に格納された圧縮データの例を示す図。

【図６】第１実施例において外部記憶装置２に格納され
る圧縮データの例を示す図。

【図７】本発明の第２実施例を実現するための装置の概
略構成を示すブロック図。

【図８】第２実施例における図７に示す制御装置５の内
部構成の概略を示すブロック図。

【図９】第２実施例におけるデータ圧縮装置の構成を示
すブロック図。

【図１０】第２実施例におけるデータ圧縮処理の動作の
一部を説明するためのフローチャート。

【図１１】第２実施例におけるデータ圧縮処理の動作の
一部を説明するためのフローチャート。

【図１２】第２実施例におけるデータ格納バッファ５２
０に格納される処理対象とするブロックのデータの一例
を示す図。

【図１３】第２実施例で用いられる圧縮データの形式を
説明するための図。

【図１４】第２実施例で用いられる圧縮データが表現す
る数値を説明するための図。

【図１５】第２実施例における圧縮データ格納バッファ
５２１に格納される圧縮データの一例を示す図。

【図１６】第２実施例における外部記憶装置２に格納さ
れる圧縮データの一例を示す図。

【図１７】第２実施例における外部記憶装置６に格納さ
れる圧縮データ格納テーブルの一例を示す図。

【図１８】第２実施例における圧縮データから所望する
データを取得する処理を説明するための図。

【符号の説明】

１，５…制御装置、２，６…外部記憶装置、７…入力装
置、２０１、５０１…初期化部、２０２，５０２…デー
タ読み込み部、２０３，５０３…データ保存部、２０
４，５０４…ビット判別部、２０５，５０５…ビット差
分カウント部、２０６，５０６…最適バイト数判別部、
２０７，５０７…バッファクリア部、２２０，５２０…
データ格納バッファ、２２１，５２１…圧縮データ格納
バッファ、２２２，５２２…差分格納バッファ、２２
３，５２３…データ量格納バッファ、２２４，５２４…
元データ量格納バッファ、２２５…作業バッファ、５０
８…圧縮判別部、５０９…ループ判別部、５２５…処理
データ格納バッファ、５２６…フラグ格納バッファ、５
２７…ブロック数格納バッファ、５２８…ループカウン
トバッファ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者中本幸夫東京都青梅市新町1381番地１東芝コンピュ―タエンジニアリング株式会社内 (72)発明者岩井勇神奈川県川崎市幸区柳町70番地株式会社東芝柳町工場内 (72)発明者栗原基東京都青梅市末広町２丁目９番地株式会社東芝青梅工場内

Claims

【特許請求の範囲】

【請求項１】２進数のビット列で取り扱われるデータ
について、ビット「０」あるいはビット「１」の何れか
一方を固定ビットとして設定し、前記ビット列の各ビッ
トが前記固定ビットであるか否かを判別するビット判別
手段と、前記ビット列について、前記ビット判別手段によって前
記固定ビットと判別されたビット位置から、次に前記固
定ビットが出現するビット位置までのビットの差分数を
計数するビット差分計数手段と、前記ビット差分計数手段によって計数された差分数を、
その差分数が最小のバイト数で表現される形式のデータ
に変換する最適バイト数判別変換手段と、を具備し、前記ビット列を前記固定ビットに基づく差分を用いてデ
ータ変換することを特徴とするデータ圧縮装置。
【請求項２】２進数のビット列で取り扱われているデ
ータにおいて、ビット「０」あるいはビット「１」の何
れか一方のビットを固定ビットとして設定し、前記ビット列のデータの先頭ビットを起点として、この
起点から順次、前記固定ビットの第Ｎ＋１ビットが出現
するまでのビット数の差分をＮ番目のデータとして表現
するようなデータ形式に変換し、固定ビットが出現するまでのビット数の差分を用いて元
のデータを表現することを特徴とするデータ圧縮方法。
【請求項３】前記固定ビットの第Ｎビットから第Ｎ＋
１ビットが出現するまでのビット数の差分を、その差分
を表現できる最小のバイト数で表現するデータ形式に変
換することを特徴とする請求項２記載のデータ圧縮方
法。
【請求項４】Ｍ個（Ｍ≧１）のブロックに分けられた
２進数のビット列で取り扱われるデータについて、１つ
のブロックのデータ中でビット「０」あるいはビット
「１」の何れか一方を固定ビットとして設定し、前記ビ
ット列の各ビットが前記固定ビットであるか否かを判別
するビット判別手段と、前記ビット列について、前記ビット判別手段によって前
記固定ビットと判別されたビット位置から、次に前記固
定ビットが出現するビット位置までのビットの差分数を
計数するビット差分計数手段と、前記ビット差分計数手段によって計数された差分数を、
その差分数が最小のバイト数で表現される形式のデータ
に変換する最適バイト数判別変換手段と、前記最適バイト数判別変換手段の変換によって得られた
データのデータ量と変換前の元データのデータ量とを比
較してデータ量が少ないデータを選択する圧縮判別手段
と、前記圧縮判別手段によって選択されたデータを保存する
データ保存手段と、を具備し、前記ビット列を前記固定ビットに基づく差分を用いてデ
ータ変換することによって得られたデータ、または変換
前の元データのデータ量の少ない何れか一方を、各ブロ
ック単位で保存することを特徴とするデータ圧縮装置。
【請求項５】前記データ保存手段によって保存される
データに対応して、前記ブロック毎に、ブロック内の元
データのデータ量、前記元データに対する処理の結果、
前記圧縮判別手段に何れが選択されたかを示す情報、及
び前記圧縮判別手段によって選択されたデータのデータ
量を含むテーブルを保存することを特徴とする請求項４
記載のデータ圧縮装置。
【請求項６】前記テーブルをもとに、前記データ保存
手段によって保存されたデータ変換されたデータを、ブ
ロック単位で元のデータに戻すことを特徴とする請求項
５記載のデータ圧縮装置。