JP2000082967A

JP2000082967A - デ―タ圧縮方法及びデ―タ圧縮装置

Info

Publication number: JP2000082967A
Application number: JP11150217A
Authority: JP
Inventors: Nobuko Sato; 宣子佐藤; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-07-09
Filing date: 1999-05-28
Publication date: 2000-03-21
Anticipated expiration: 2019-05-28
Also published as: US20020196166A1; US6563956B1; JP4242970B2; US6876774B2

Abstract

(57)【要約】【課題】検索作業に必要なテーブル領域の低減化かつ
文字列検索の高速化を図る。【解決手段】圧縮すべきデータ列の連続する複数の文
字を文字列に設定し、この文字列を表現するビット列中
の各ビットを２個のコードに振り分けて第１、第２のコ
ードを生成し、この第１、第２のコードを配列のアドレ
スとして予め過去の文字列の出現位置に関する情報が登
録された第１、第２のテーブルから第１、第２の配列内
容を取得し、第１、第２の配列内容を照合して両者が一
致した場合、配列内容に基づいてこの文字列の過去の出
現位置に関する情報を取得し、符号化する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字コードや画像
データ等の、様々な種類のデータ中に含まれる冗長な部
分を省いてデータ量を圧縮する、データ圧縮方法及びデ
ータ圧縮装置に関する。さらに特定すると、圧縮処理対
象となるデータ列の類似性を利用する辞書型符号化方式
を利用した、データ圧縮方法及びデータ圧縮装置に関す
る。

【０００２】

【従来の技術】近年、文字コード、画像データ等の、様
々な種類のデータがコンピュータ等の情報処理装置で扱
われるように成っている。その結果、情報処理装置で取
り扱われるデータ量も増大している。このような大量の
データには、多くの場合冗長なデータ列が含まれてお
り、この冗長な部分を省くための圧縮処理を実行するこ
とにより、情報処理装置においてデータ保存のための記
憶容量を減らすことができる。また圧縮されたデータを
用いることにより情報処理装置におけるデータ転送容量
を低減できるので、データ転送時間を短縮することがで
きる。

【０００３】辞書型符号化方式を用いたデータ圧縮の代
表的な方法として、ＬＺ７７圧縮方法とＬＺ７８圧縮方
法が知られている。ＬＺ７７圧縮方法では、ＬＺ７８圧
縮方法に比べて簡単な処理で充分な圧縮率が得られる。
そのため、実際の使用ではＬＺ７７圧縮方法が主流とな
っている。以下では、従ってＬＺ７７圧縮方法について
説明を行う。

【０００４】なお本発明の分野は文字コードの圧縮に限
らず、様々なデータに適用できるが、以下では情報理論
に基づきデータの１ワード（ＷＯＲＤ）単位を文字（ア
ルファベット）といい、データが任意ワードつながった
ものを文字列と呼ぶようにする。ＬＺ７７圧縮方法で
は、図１に示すように、まず一定の容量（図示の例では
１６文字）を持つスライドバッファ１を設け、このバッ
ファ内に既に符号化し圧縮した文字列２ａ（ｄｅｆａｂ
ｑａａａａｃａｂｃｄｅ）を格納しておく。次に、格納
された文字列２ａと、これから圧縮する入力文字列２ｂ
（ａｂｃｄａａａｑ…）との間で、最大一致する文字列
２ｃ（ａｂｃｄ）を検索し、検索した最大一致する文字
列の位置の相対アドレス５（入力文字列の最初の文字か
ら過去にさかのぼって５文字目）とその文字列長である
一致長４を符号化し、符号（５，４）で最大一致した入
力文字列２ｃ（ａｂｃｄ）を置換し、圧縮する。

【０００５】次にスライドバッファ１を４文字スライド
して、バッファ内の文字列２ａをｂｑａａａａｃａｂｃ
ｄｅａｂｃｄとし、次の入力文字列２ｂ（ａａａｑ…）
に対する検索を上記と同様にして行う。この結果、最大
一致文字列２ｃ（ａａａ）の一致が見いだされるので、
この文字列ａａａのバッファ１内での出現位置１３（入
力文字列ａａａの最初のａから過去にさかのぼって１３
文字目）と最大一致長３を（１３，３）の形式で符号化
し置換する。

【０００６】このようにＬＺ７７圧縮方法は、符号化を
進めるにつれてスライドバッファをスライドしていくこ
とから、スライド辞書法とも呼ばれている。ところがこ
の様なＬＺ７７圧縮方法では、スライドバッファの容量
を上げれば最大一致する文字列も長くなり、圧縮率が向
上するが、バッファの容量が上がるに連れて検索に要す
る文字列の組み合わせが膨大な量となり、バッファ内を
順に検索していくと、検索に要する手間と時間が膨大な
ものとなる。従って実際のＬＺ７７法では、バッファ内
の全ての文字列と入力文字列とを照合するのではなく、
入力文字列の最初の２〜４文字程度の文字列（接頭部）
とその出現位置をテーブルに随時登録して行き、入力文
字列の接頭部とテーブルに登録された文字列とを照合す
る方法を取っている。この方法によって、検索に要する
時間は大幅に短縮される。

【０００７】この様な検索に使用するテーブルに、ルッ
クアップテーブル（ＬｏｏｋＵｐＴａｂｌｅ）とハッ
シュテーブル（ＨａｓｈＴａｂｌｅ）がある。ルック
アップテーブルを使用する方法は、図２に示す様に、検
索文字列２ｄをルックアップテーブル３のアドレスに一
対一で対応させる。対応するアドレスの内容には、その
文字列の過去の出現位置（相対アドレス）が登録されて
いる。この方法によれば、一回のテーブル引きで、検索
文字列２ｄ（ａｂ）を検索して、その過去の出現位置を
知ることができる。そのため、検索を非常に高速で行う
事ができると言う利点を有している。

【０００８】しかしながら検索文字列が長い場合、文字
列の組み合わせが累乗的に増加するので、ルックアップ
テーブルを構成するためのアドレス数が膨大となる。そ
のためこのような数のアドレスを確保するのに、非常に
大きなメモリ領域が必要となる欠点を有している。例え
ば、文字数が１（１文字８ビット）の場合、２^8*1＝２
５６個の記憶領域が必要である。２文字の場合は、２
^8*2≒６４キロ、３文字の場合で、２^8*3≒１６メガと
なり、実際には２文字が限界である。しかも、検索する
文字列が長くなると、実際に使用される（すなわち、ル
ックアップテーブルに登録される）領域は一部分だけ
で、ルックアップテーブル内がまばらな状態になり、テ
ーブルの利用効率が低くなると言う欠点も有している。

【０００９】ハッシュテーブルを用いた文字列検索方法
では、図３に示す様に、検索文字列２ｄのコードに対し
てそのビット数を減らすようなマスク処理を行って（縮
退をかける）、ハッシュコード６を生成し（４）、縮退
状態が共通である複数の文字列でハッシュテーブル５の
一つの領域７を共有するようにしている。このため、ル
ックアップテーブルを用いた文字列検索方法に比べて、
同等の検索領域でより長い文字列を検索することができ
るといった特徴を備えている。

【００１０】しかしながら、この様にして得たハッシュ
テーブルでは、検索文字列に対して縮退処理を行ってい
るので、検索文字列２ｄ（ａｂｃ）と縮退状態が共通で
ある異なる文字列が、ハッシュテーブル内の同じ領域７
に登録される場合があると言う問題（衝突問題）が発生
する。この衝突問題を解決するために、検索で見つかっ
た文字列と検索文字列中の各文字とを照合して（８）、
検索された文字列が実際に検索している文字列であるか
否かをチェックする作業が新たに必要となる。

【００１１】

【発明が解決しようとする課題】以上に説明したよう
に、ＬＺ７７圧縮方法におけるルックアップテーブルを
用いた文字列検索方法の場合、ルックアップテーブルに
対する一回のテーブルびきのみで、高速に検索対象の文
字列を探し出すことができる反面、テーブルサイズが検
索文字数の増加と共に累乗的に増加して膨大となるた
め、検索のための文字数を余り多く取る（事実上２文字
が限界）ことができない。その結果圧縮率をあまり高く
することが出来ないと言う欠点を有している。

【００１２】一方、前述のハッシュテーブルを用いた文
字列検索方法の場合、ルックアップテーブルを用いた文
字列検索方法に比べて必要なテーブルサイズが小さく、
リーズナブルなテーブルサイズの使用で早い検索をする
ことができるが、衝突問題を解決するための照合作業が
新たに必要となる欠点を有している。なおこの照合作業
は、各検索文字について行う必要があるため、かなりの
手間を要する。

【００１３】本発明は、このような従来技術の問題点を
解決することを課題としており、特に衝突問題を避ける
ために検索文字列に対して、各文字を照合する処理を行
う事無く、しかも３文字、４文字の長い文字列に対する
検索であっても、ハッシュテーブルを用いた文字列検索
方法と同程度のテーブルサイズで文字列検索が可能な、
データ圧縮方法およびデータ圧縮装置を実現することを
課題としている。

【００１４】

【課題を解決するための手段】本発明の第１の特徴によ
れば、上記課題を解決するために、被圧縮データ列に圧
縮処理を行って圧縮データを作成するデータ圧縮方法に
おいて、被圧縮データ列内の連続する複数の文字を検索
する文字列に設定する文字列設定工程と、前記文字列を
表現するビット列中の各ビットを少なくとも２個のコー
ドに振り分けて第１、第２の検索用コードを生成する検
索用コード振り分け工程と、前記第１、第２の検索用コ
ードをそれぞれ配列のアドレスとして用いて予め過去の
文字列の出現位置に関する情報が登録された第１、第２
の配列テーブルから第１、第２の配列内容を取得する、
配列内容取得工程と、前記取得した第１、第２の配列内
容を照合する照合工程と、前記照合した第１、第２の配
列内容が一致したとき、前記第１または第２の配列内容
に基づいて前記文字列に対する過去の出現位置情報を取
得する出現位置情報取得工程、を備えるデータ圧縮方法
を提供する。

【００１５】本発明の第２の特徴によれば、被圧縮デー
タ列に圧縮処理を行って圧縮データを作成するデータ圧
縮方法において、被圧縮データ列内の連続する複数の文
字を検索する文字列に設定する文字列設定工程と、前記
文字列を表現するビット列中の各ビットを２個のコード
に振り分けて検索用の第１のコードと該第１のコードの
相補コードである第２のコードを生成する検索用コード
振り分け工程と、現時点で検索すべき文字列に関する前
記第１のコードを配列のアドレスとして用いて、過去に
出現した文字列に関する前記第２のコードが予め登録さ
れた第１の配列テーブルから、配列の内容を取得する、
配列内容取得工程と、前記取得した配列内容と前記第２
のコードを照合する照合工程と、前記照合結果が一致の
場合、前記第１のコードを配列のアドレスとして用いて
予め過去の文字列の出現位置に関する情報が登録された
第２の配列テーブルから前記設定された文字列の過去の
出現位置に関する情報を取得する出現位置情報取得工
程、を備えるデータ圧縮方法を提供する。

【００１６】本発明の第３の特徴によれば、被圧縮デー
タ列に圧縮処理を行って圧縮データを作成するデータ圧
縮方法において、被圧縮データ列内の連続する複数の文
字を検索する文字列に設定する文字列設定工程と、前記
文字列を表現するビット列中の各ビットを２個のコード
に振り分けて検索用の第１のコードと該第１のコードの
相補コードである第２のコードを生成する検索用コード
振り分け工程と、前記第１のコードに演算を行って前記
第１のコードを起点とする複数のコードを取得する、演
算工程と、現時点で圧縮すべき文字列に関する前記取得
された複数のコードを配列のアドレスとして用いて過去
に出現した文字列に関する前記第２のコードが予め登録
された第１の配列テーブルから複数の配列内容を取得す
る、配列内容取得工程と、前記取得した複数の配列内容
と前記第２のコードとを照合する照合工程と、前記照合
結果が一致の場合、前記演算工程で得られたコードを配
列のアドレスとして用いて予め過去の文字列の出現位置
に関する情報が登録された第２の配列テーブルから前記
設定された文字列の過去の出現位置に関する情報を取得
する出現位置情報取得工程を備える、データ圧縮方法を
提供する。

【００１７】上記各構成のデータ圧縮方法では、圧縮す
べき文字列を表現するビット列中の各ビットを、少なく
とも２個のコードに振り分け、各コード別々にテーブル
引きを行い、その結果を互いに照合することによって、
その文字列が過去に出現し、テーブル内にその過去の出
現位置に関する情報が登録されているか否かが検出され
る。従って、文字列を少なくとも２個のコードに振り分
けてアドレスを構成したことによって、各コードのテー
ブル引きに要するテーブルのサイズが、文字列を表すビ
ット列をそのままの状態でアドレスとした場合（ルック
アップテーブルを用いた場合）に比べて、大幅に減少す
る。

【００１８】従って、設定する文字列を比較的長い文字
列（例えば３文字、４文字等）に設定した場合であって
も、必要な記憶領域は従来の物に比べてそれ程増大しな
い。さらに、テーブル引き後の一致確認の作業も、配列
内容の一致を確認するのみであるので、検索文字列の各
文字に対する一致確認が必要な従来のハッシュ方法に比
べて、その作業が大幅に軽減される。

【００１９】

【発明の実施の形態】以下に本発明のデータ圧縮方法お
よび装置を、その実施形態を説明するための図面を参照
しながら、詳細に説明する。図４は本発明の第１の実施
形態にかかるデータ圧縮方法およびそのための装置の動
作原理の説明に提供するブロック図である。この実施形
態では、スライドバッファの代わりに入力バッファ１０
を用いて、この中に入力された文字列に対してポインタ
を順次移動させて行き、ポインタで指示される位置を先
頭とする文字列について検索を実行する方法を取る。今
ポインタが入力バッファ１０の位置ｔ（Ｉｎｂｕｆ
〔ｔ〕）にあり、これに連続する位置（Ｉｎｂｕｆ〔ｔ
＋１〕，Ｉｎｂｕｆ〔ｔ＋２〕）にある３個の文字列ｘ
１ｘ２ｘ３が過去に出現したか否かを検索する場合を例
にして、本実施形態の構成を説明する。

【００２０】まず、取得された文字列ｘ１ｘ２ｘ３をビ
ットの振り分け部１１に入力して、この文字列の全ビッ
ト（１文字を８ビットとすると、２４ビット）を例えば
１２個づつの第１、第２のビットコードＳ１、Ｓ２に振
り分ける。本実施形態では、元の文字列の特徴を示すビ
ットが、コードＳ１、Ｓ２になるべく均等に分散される
ように、ビットの振り分けを行うことが望ましい。この
振り分けの方法については後述する。

【００２１】１２、１３は第１、第２のアドレステーブ
ルであり、各テーブル中にはビットの振り分け部１１に
よって形成された第１、第２のビットコードＳ１、Ｓ２
を配列のアドレスとして使用して、過去に出現した文字
列の先頭部の出現位置、即ち入力バッファ１０内のアド
レスが予め登録されている。従って今、位置ｔから始ま
る３文字の文字列について形成された第１、第２のビッ
トコードＳ１、Ｓ２を配列のアドレスとして使用して、
テーブル引きを行うと、その文字列が過去に出現してい
た場合は、各テーブル１２、１３から得られた内容ａｄ
ｄｒｅｓｓ１〔Ｓ１〕とａｄｄｒｅｓｓ２〔Ｓ２〕は互
いに一致する。

【００２２】照合（一致検出）部１４は、ａｄｄｒｅｓ
ｓ１〔Ｓ１〕とａｄｄｒｅｓｓ２〔Ｓ２〕の一致を確認
するための手段である。若し両者が一致しない場合（ａ
ｄｄｒｅｓｓ１〔Ｓ１〕≠ａｄｄｒｅｓｓ２〔Ｓ２〕）
は、その文字列が過去に出現していないこと（未登録で
あること）を示す。一致した場合（ａｄｄｒｅｓｓ１
〔Ｓ１〕＝ａｄｄｒｅｓｓ２〔Ｓ２〕）は、ａｄｄｒｅ
ｓｓ１〔Ｓ１〕またはａｄｄｒｅｓｓ２〔Ｓ２〕が検索
文字列ｘ１ｘ２ｘ３の、入力バッファ１０における過去
の出現位置を示す。

【００２３】本実施形態では、以上の様に、文字列をそ
れぞれ１２ビットずつの第１、第２のビットコードに分
け、そのそれぞれについてアドレステーブルを作成して
いるため、各アドレステーブルのサイズは、２¹²とな
る。したがって２個のアドレステーブル全体で２×２¹²
＝２¹³個のメモリ領域を必要とするのみで良く、メモリ
領域が従来の方法に比べて大幅に削減される。なお、図
１に示す従来の方法では、この場合必要とされるメモリ
領域は、２²⁴個である。

【００２４】また、各ビットコードＳ１、Ｓ２に対し
て、対応するテーブルのアドレスは一対一の関係にある
ため、互いに一回のテーブル引きで検索結果を確定でき
る。そのため、図１に示した従来の方法と同程度の非常
に早い検索スピードを獲得することができる。図４に示
す実施形態では、アドレステーブル１２、１３の内容と
して、直接過去の入力バッファ１０内のアドレスを入
れ、符号として相対アドレスを出力している。しかしな
がら、図５に示す様に、ビットコードＳ１、Ｓ２を配列
のアドレスとする内容にインデックス（ｉｎｄｅｘ）値
を入れた、第１、第２のインデックステーブル１５、１
６を利用する事も可能である。この場合、各テーブル１
５、１６から得られた内容ｉｎｄｅｘ１〔Ｓ１〕とｉｎ
ｄｅｘ２〔Ｓ２〕の一致を、照合（一致検出）部１４で
確認し、一致（ｉｎｄｅｘ１〔Ｓ１〕＝ｉｎｄｅｘ２
〔Ｓ２〕）が確認されたら、アドレステーブル１７から
過去に出現したアドレスを獲得する。ｉｎｄｅｘ１〔Ｓ
１〕≠ｉｎｄｅｘ２〔Ｓ２〕（衝突）の場合は、その検
索文字列が未登録であることを示す。この方法によれ
ば、メモリ領域が更に効率的に使用される。

【００２５】また、その詳細については後述するが、ビ
ットコードの振り分けに当たって、必ずしも２種類のコ
ードに分解する必要はなく、２個以上であれば良い。さ
らに、各ビットコードについて、必ずしも同じ数のビッ
トに分解する必要もない。また、振り分けられたビット
コードＳ１、Ｓ２が、元の文字列の同じビット（例えば
各文字の最下位ビット）を共通して含んでいてもよい。

【００２６】図６は、上記実施形態の圧縮方法を実行す
る装置のブロック図である。図示する様に本データ圧縮
装置６０は、文字列設定手段６１、検索用コード振り分
け手段６２、配列内容取得手段６３、照合手段６４、出
現位置情報取得手段６５、コピー符号生成部６６ａ及び
リテラル符号生成部６６ｂとを備えた符号化手段６６を
中心とするハードウェア構成になっている。

【００２７】文字列設定手段６１、検索用コード振り分
け手段６２、配列内容取得手段６３、照合手段６４、出
現位置情報取得手段６５および符号化手段６６は、図４
または５に示したデータ圧縮方法を記述したプログラム
コードを実行できるマイクロプロセッサーを中心にして
構成されている。文字列設定手段６１は、圧縮処理対象
としてバッファＩｎｂｕｆ内に蓄えられている被圧縮デ
ータ列内の連続する複数の文字Ｉｎｂｕｆ〔ｔ〕，Ｉｎ
ｂｕｆ〔ｔ＋１〕，Ｉｎｂｕｆ〔ｔ＋２〕を検索文字列
に設定する機能を有し、後述する検索用コード振り分け
手段６２に文字を受け渡す工程を主に実行する手段であ
る。本実施形態では、バッファＩｎｂｕｆ内に蓄えられ
ている被圧縮データ列内の連続する８ビット構成の３文
字Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋１〕，Ｉｎｂｕ
ｆ〔ｔ＋２〕を２４ビット構成の検索文字列に設定して
いる。

【００２８】検索用コード振り分け手段６２は、文字列
設定手段６１が求めた検索文字列を表現するビット列中
の各ビットを複数個の検索用コードに振り分ける機能を
有し、後述する検索用コード振り分け工程を主に実行す
る手段である。本実施形態では、文字列設定手段６１が
求めた２４ビット構成の検索文字列を表現するビット列
中の各ビットを、２個の検索用コードＳ１，Ｓ２に各々
振り分けている。

【００２９】２４ビット構成の検索文字列に対して検索
用コードＳ１と検索用コードＳ２を定める場合、例え
ば、検索用コードＳ１のビット数を２０ビットとし、検
出用コードＳ２のビット数を４ビットにすることや、検
索用コードＳ１のビット数と検出用コードＳ２のビット
数とを共に１２ビットにすること、更に検索文字列を表
現したビット列の一部のビットを複数の検索用コードに
重複して包含する事も可能である。本実施形態では、検
索用コードＳ１のビット数を１２ビットとし、検出用コ
ードＳ２のビット数を１２ビットとしている。

【００３０】配列内容取得手段６３は、検索用コード振
り分け手段６２で定めた検索用コードを配列アドレスと
し、インデックステーブルあるいはアドレステーブルか
ら配列内容を取得する。照合手段６４はこの様にして得
た各々の配列内容が一致するか否かを照合する処理を実
行する。出現位置情報取得手段６５は、照合した配列内
容が一致したときに一致した配列内容またはそれに準ず
るものに基づいて検索文字列に対する過去出現位置情報
を取得する機能を有している。

【００３１】符号化手段６６は、検索文字列に対する過
去出現位置情報が取得できたときにコピー符号を出力す
るコピー符号生成部６６ａと、検索文字列に対する過去
出現位置情報が取得できなかったときにリテラル符号を
出力するリテラル符号生成部６６ｂとを有しており、後
述するコピー符号生成工程、リテラル符号生成工程を主
に実行する手段である。

【００３２】コピー符号生成部６６ａは、過去の出現ア
ドレスを起点として、起点以降のアドレスに対応する配
列の内容と入力データとが連続して一致する文字列長を
一致長情報ＦＬとして求める一致長算出処理、過去の出
現アドレス情報として、入力バッファ内のアドレス（Ａ
ｄｒｅｓｓ〔Ｉｎｄｅｘ〔Ｓ１〕〕）、または現入力位
置との相対アドレス（Ａｄｒｅｓｓ〔Ｉｎｄｅｘ〔Ｓ
１〕〕−ｔ）を出力する処理、過去の出現アドレス情報
として、テーブルに過去に登録した登録番号Ｉｎｄｅｘ
１〔Ｓ１〕、または現在の登録番号との相対番号（Ｃｏ
ｕｎｔｅｒ−Ｉｎｄｅｘ１〔Ｓ１〕）を出力する処理、
過去の出現アドレス情報と一致長情報ＦＬとを符号化し
て出力する符号化出力処理を実行する。

【００３３】リテラル符号生成部６６ｂは、バッファＩ
ｎｂｕｆ内に蓄えられている被圧縮データ列をそのま
ま、または被圧縮データ列に準ずる（例えば、被圧縮デ
ータ列を符号化したもの）データを出力する符号化出力
処理を実行できる。図７は、本発明の第１の実施形態で
ある、データ圧縮方法の基本的工程を説明する工程図で
あり、図８はプログラミングのための基本フローチャー
トである。

【００３４】なお、以下の説明では、前述の辞書型符号
化方法を実行する際に過去の出現位置を検索するために
本発明のデータ圧縮方法を適用した実施形態を説明する
が、本発明は辞書型符号化方法等の圧縮技術に限定され
るものではなく、一般の文字列検索に用いることができ
る。第１実施形態のデータ圧縮方法は、図７に示す様
に、初期化工程７０、文字列設定工程７１、検索用コー
ド振り分け工程７２、配列内容取得工程７３、照合工程
７４、出現位置情報取得工程７５、符号化工程７６およ
び圧縮データの出力工程７７を中心とする論理構成にな
っており、前述のマイクロプロセッサーで実行可能なプ
ログラムコードで記述されている。

【００３５】初期化工程７０は、図８のフローチャート
において例えばステップＴ１およびＴ２で示され、ｉｎ
ｄｅｘ１を初期化しかつ入力バッファＩｎｂｕｆ内のこ
れから圧縮する位置を示すｔを０に、文字列登録数カウ
ンタを１に設定する。文字列設定工程７１は、バッファ
Ｉｎｂｕｆ内に蓄えられている被圧縮データ列の現符号
化位置ｔを起点として連続する複数の文字Ｉｎｂｕｆ
〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋１〕，Ｉｎｂｕｆ〔ｔ＋２〕
を検索文字列（８ビット×３＝２４ビット）に設定す
る。

【００３６】検索用コード振り分け工程７２は、前工程
で得られた検索文字列を表現するビット列を構成する各
ビットを複数個の検索用コードに振り分ける工程であ
り、検索用コード振り分け手段６２が中心となって実行
する工程である。本実施形態では２４ビット構成の検索
文字列を表現するビット列を構成する各ビットを２個の
検索用コードＳ１，Ｓ２に各々振り分けている。なお図
８のフローチャートでは、この工程はステップＴ３に示
されている。

【００３７】配列内容取得工程７３は、前工程で構成さ
れた検索用コードＳ１、Ｓ２を配列のアドレスとして、
インデックステーブルあるいは直接アドレステーブルか
ら配列内容ｉｎｄｅｘ１〔Ｓ１〕、ｉｎｄｅｘ２〔Ｓ
２〕あるいはａｄｄｒｅｓｓ１〔Ｓ１〕、ａｄｄｒｅｓ
ｓ２〔Ｓ２〕を取得する工程である。工程７３は、配列
内容取得手段６３が主として実行する。

【００３８】照合工程７４は、前工程７３で取得した各
々の配列内容ｉｎｄｅｘ１〔Ｓ１〕、配列内容ｉｎｄｅ
ｘ２〔Ｓ２〕若しくはａｄｄｒｅｓｓ１〔Ｓ１〕、ａｄ
ｄｒｅｓｓ２〔Ｓ２〕とが一致するか否かを照合する工
程であり、照合手段６４が中心となって実行する工程で
ある。図８のフローチャートでは、ステップＴ４によっ
て主として実行されている。

【００３９】出現位置情報取得工程７４は、前工程で照
合された配列内容ｉｎｄｅｘ１〔Ｓ１〕もしくは配列内
容ｉｎｄｅｘ２〔Ｓ２〕とが一致したとき（ステップＴ
４のＹＥＳ）、あるいは配列内容ａｄｄｒｅｓｓ１〔Ｓ
１〕、ａｄｄｒｅｓｓ２〔Ｓ２〕とが一致したときに、
配列内容に基づいて、検索文字列に対する過去出現位置
情報を取得する工程である。図４の例では、取得された
過去出現位置情報は、ａｄｄｒｅｓｓ１〔Ｓ１〕または
ａｄｄｒｅｓｓ２〔Ｓ２〕（両者は一致する）であり、
図５の例では、ａｄｄｒｅｓｓ〔Ｉｎｄｅｘ〔Ｓ１また
はＳ２〕〕である。

【００４０】なお、図８に示すフローチャートでは、ス
テップＴ５において、取得された配列内容ｉｎｄｅｘ１
〔Ｓ１〕、ｉｎｄｅｘ２〔Ｓ２〕が最近出現しているか
否か（Ｃｏｕｎｔｅｒ−Ｉｎｄｅｘ１〔Ｓ１〕＜２¹²）
が、更に出現位置情報の一部として取得されている（ス
テップＴ５）。符号化工程７６は、出現位置情報取得工
程７４において出現位置情報が得られた場合（ステップ
Ｔ５のＹＥＳ）コピー符号を生成するコピー符号生成工
程と、出現位置情報が得られない場合（ステップＴ４ま
たはステップＴ５のＮＯ）にリテラル符号を生成するリ
テラル符号生成工程とを有している。コピー符号生成工
程は、図８のフローチャートにおいてステップＴ６以下
ステップＴ１５迄を示し、リテラル符号生成工程はステ
ップＴ５−１からステップＴ５−２（またはステップＴ
５−３）までを示す。

【００４１】コピー符号生成工程は、図６のコピー符号
生成部６６ａが中心となって実行する工程であり、リテ
ラル符号生成工程は、リテラル符号生成部６６ｂが中心
となって実行する工程である。出力工程７７は、得られ
たコピー符号から圧縮データを出力するか、またはリテ
ラル符号を出力する。以下に上記図８のフローチャート
の動作について、更に説明を加える。例えば図５に示す
例において、配列内容Ｉｎｄｅｘ１〔Ｔ１〕もしくは配
列内容Ｉｎｄｅｘ２〔Ｔ２〕が等しい場合（ステップＴ
４のＹＥＳ）、Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋
１〕，Ｉｎｂｕｆ〔ｔ＋２〕の検索文字列が過去に出現
していることが分かる。このとき、図５に示すＩｎｄｅ
ｘテーブルに保持されている配列内容Ｉｎｄｅｘ１〔Ｓ
１〕または配列内容Ｉｎｄｅｘ２〔Ｓ２〕をアドレスと
して、検索文字列に対する過去の検索において出現して
いたアドレスを図５に示すＡｄｒｅｓｓテーブルから得
る（ステップＴ７）。

【００４２】なお、ステップＴ７において、Ｐ１、Ｐ２
はステップＴ７〜Ｔ９（Ｔ１２〜Ｔ１３）で一時的に使
用する変数であり、Ｐ１には過去の出現位置を、Ｐ２に
は現在の位置を代入する。ステップＴ７〜ステップＴ９
では、過去に出現した３バイトに続くバイトと入力デー
タＩｎｂｕｆ〔ｔ＋３〕以降とが続けて一致する長さＦ
Ｌ（一致長）を調べ、その一致長情報ＦＬを求めてい
る。現在の位置Ｐ２として、ｔ＋３としているのは、先
頭の３文字の一致確認は既にステップＴ３からＴ４で済
ませている為である。

【００４３】こうして求めた一致長情報ＦＬと相対アド
レス情報（Ｃｏｕｎｔ−Ｉｎｄｅｘ１〔Ｓ１〕）を出力
（ステップＴ１１とステップＴ９−１）する。ステップ
Ｔ５でＮＯの場合は、リテラルモードを指定する符号
（ｌｉｔｅｒａｌ符号）及びそのときのＩｎｂｕｆ
〔ｔ〕とを出力する（ステップＴ５−１）。本実施形態
では、一致長情報が２⁴−１以上の場合（ステップＴ１
０のＹＥＳ）、続けて８ビットを一致長符号に割り当て
る（ステップＴ１５）。リテラルモードの場合には、１
バイト分、そのまま生で出力する（ステップＴ５−
１）。

【００４４】一方、リテラル符号生成工程（ステップＴ
５−１，Ｔ５−２）では、バッファＩｎｂｕｆ（ｔ）内
に蓄えられている被圧縮データ列をそのまま、または被
圧縮データ列に準ずるデータを符号化して出力する。以
上の検索及び符号化工程（ステップＴ１、…、ステップ
Ｔ１６）は、入力されたファイルに対する圧縮作業が終
了するまで繰り返される。

【００４５】以上説明したように、本発明の第１の実施
形態のデータ圧縮方法及びデータ圧縮装置では、ハッシ
ュテーブルを使用した場合と同等の少ないテーブルの記
憶領域でルックアップテーブルを用いた場合と同様の検
索スピードにより、文字の検索を実行し、データを圧縮
することができる。また、ハッシュテーブルを用いた場
合に必要である各文字についての照合は、本実施形態で
は必要ではないので、一致確認の簡素化を図ることがで
きる。

【００４６】図９は、本発明にかかるデータ圧縮方法の
第２実施形態の基本動作を説明するための概念図であ
り、図１０はこのデータ圧縮方法を実現するための装置
の構成を示すブロック図、図１１はこの実施形態の基本
的工程を説明する工程図、さらに図１２はプログラミン
グのための基本フローチャートである。以下に、本発明
の第２の実施形態の構成および動作を、上記図９〜１２
を参照して詳細に説明する。

【００４７】本実施形態では、図９に示す様に、まず入
力された文字列Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋
１〕，Ｉｎｂｕｆ〔ｔ＋２〕を、ビットコード振り分け
部１１において、Ｓ１、Ｓ２のビットコードに振り分け
る。コードＳ１、Ｓ２は、第１の実施形態とは異なっ
て、各文字の特徴を表すビットがなるべくコードＳ１に
振り分けられる様にする。

【００４８】また、コードＳ１、Ｓ２は、振り分けられ
る前のビット列に対して互いに相補的である。即ち、コ
ードＳ２は、元のビット列からコードＳ１を取り除いた
残りのビット（Ｒｅｍａｉｎｂｉｔ）で構成される。本
実施形態では、過去に出現した文字列で構成されたコー
ドＳ１、Ｓ２において、コードＳ１を配列のアドレスと
し、配列の内容にコードＳ２を登録したテーブル（Ｒｅ
ｍａｉｎｂｉｔＴａｂｌｅ）２０が用意されている。

【００４９】データ圧縮を行う場合、入力された文字列
Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋１〕，Ｉｎｂｕｆ
〔ｔ＋２〕から構成したコードＳ１を配列のアドレスと
してテーブル引きを行い、配列の内容を取得する。この
配列の内容をコードＳ２と照合し、両者が一致すればそ
の文字列が過去に出現していたことが分かる。従って、
コードＳ１を配列のアドレスとしてインデックステーブ
ル２１を参照する事によって、あるいは直接アドレステ
ーブル２２を参照することによって、第１の実施形態と
同様に入力文字列の過去の出現位置が取得される。

【００５０】上記第２の実施形態に対して、図９に示す
様に、コードＳ１に演算を行って複数（ｈ個、ｈは任意
の整数）のアドレスを形成することにより、リメインビ
ットテーブル２０において一致候補を複数取得する変形
例も可能である。この場合、複数の一致候補とコードＳ
２を照合することにより、一致の確率が向上する。なお
ｈを１と見做せば、上記第２の実施形態は、この変形例
に含まれるので、以降、両者を同じと見なして説明す
る。

【００５１】上記第２実施形態のデータ圧縮方法は、辞
書型符号化方法における文字列検索を高速かつ簡便に行
うことができるといった特徴を有し、図１１において示
す様に初期化工程９０（図１２のフローチャートではス
テップＲ１，Ｒ２，Ｒ４）、文字列設定工程９１（ステ
ップＲ３）、検索用コード振り分け工程９２（ステップ
Ｒ３）、演算工程９３、配列内容取得工程９４、照合工
程９５（ステップＲ５）、出現位置情報取得工程９６、
符号化工程９７および出力工程９８を中心とする論理構
成になっており、前述のマイクロプロセッサーで実行可
能なプログラムコードで記述されている。

【００５２】文字列設定工程９１（ステップＲ３）は、
バッファＩｎｂｕｆ内に蓄えられている被圧縮データ列
内の文字検索開始位置ｔを起点として連続する複数の文
字Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋１〕，Ｉｎｂｕ
ｆ〔ｔ＋２〕を検索文字列に設定する工程であり、図１
０の文字列設定手段８１が中心となって実行する工程で
ある。本実施形態では、前述の第１実施形態のデータ圧
縮方法と同様に、３文字Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ
〔ｔ＋１〕，Ｉｎｂｕｆ〔ｔ＋２〕を検索文字列に設定
している。

【００５３】検索用コード振り分け工程９２（ステップ
Ｒ３）は、前工程で得られた検索文字列を表現するビッ
ト列を構成する各ビットを２つの検索用コードＳ１，Ｓ
２に振り分け、その一方を検索用コードＳ１とすると同
時に、その他方を検出用コードＳ２とする工程であり、
検索用コード振り分け手段９２が中心となって実行する
工程である。なお本実施形態の一つの特徴は、上述した
ように、コードＳ１とＳ２が検索文字列に対して相補コ
ードを形成することである。

【００５４】即ち、２４ビット構成の検索文字列に対し
て検索用コードＳ１と検出用コードＳ２を定める場合、
検索用コードＳ１のビット数と検出用コードＳ２のビッ
ト数との和が２４ビットであれば良い。例えば、検索用
コードＳ１のビット数を２０ビットとし、検出用コード
Ｓ２のビット数を４ビットにすることや、検索用コード
Ｓ１のビット数と検出用コードＳ２のビット数とを共に
１２ビットにするといったように、合計が２４ビットで
あれば、検索用コードＳ１のビット数と検出用コードＳ
２のビット数との組み合わせは任意である。コードＳ１
とＳ２が元の２４ビットコードのそれぞれのビットに一
対一で対応すれば良い。

【００５５】本実施形態では、検索用コードＳ１のビッ
ト数を１２ビットとし、検出用コードＳ２のビット数を
１２ビットとしている。更に本実施形態では、検索用コ
ードＳ１に、なるべく元のビット列の特徴となる部分が
集中する様にしている。本実施形態では、図９に示す様
に、検索用コードＳ１に演算を行って、検索用コードＳ
１からｈ個の配列のアドレスを形成している。このｈ個
のアドレスに基づいて、リメインビットテーブル２０の
予め登録されている配列の内容を取得する。この様にし
て得たｈ個の一致候補を検出用コードＳ２そのものと照
合する。照合の結果、検出用コードＳ２がテーブル２０
のｈ個の一致候補の何れかと一致すれば、その検索文字
列が過去に出現していたことが分かる。従って、コード
Ｓ１に演算を行ったものを配列アドレスとしてインデッ
クステーブル２１から配列の内容を取得し、更にアドレ
ステーブル２２からその文字列の過去の出現位置を取得
する。

【００５６】演算工程９３は、上述した様に、コード振
り分け工程９２で得られた検索用コードＳ１に対して、
掛け算またはシフト演算のいずれか一方の演算を実行
し、ｈ個のコードＳ１×ｈ、・・・（Ｓ１＋１）×（ｈ
−１）を得る工程であり、演算手段８３が中心となって
実行する工程である。例えば、検索用コードＳ１におい
て、ｈを４としたとき、検索用コードＳ１を２ビット分
だけシフト演算して、図９に示す様にｈ個のコードを得
る。

【００５７】配列内容取得工程９４は、前工程９３で得
られたｈ個のコードを配列のアドレスとして、リメイン
ビットテーブル２０からそれらのアドレスに予め登録さ
れている配列内容Ｒｅｍａｉｎｂｉｔ〔Ｓ１×ｈ〕，
…，Ｒｅｍａｉｎｂｉｔ〔（Ｓ１＋１）×ｈ−１〕を得
る工程であり、図１０の配列内容取得手段が中心となっ
て実行する工程である。

【００５８】照合工程９５（図１２のフローチャートの
ステップＲ５、Ｒ５−１、Ｒ５−２に相当）は、前工程
で取得した配列内容Ｒｅｍａｉｎｂｉｔ〔Ｓ１×ｈ〕，
…，Ｒｅｍａｉｎｂｉｔ〔（Ｓ１＋１）×ｈ−１〕と前
工程で得られた検出用コードＳ２とが一致しているか否
かを照合する工程であり、照合手段８５が中心となって
実行する工程である。

【００５９】照合工程９５において一致が検出される
と、即ちＲｅｍａｉｎｂｉｔ〔Ｓ１×ｈ＋ｏｒｄ〕が検
出用コードＳ２と一致すると、出現位置情報取得工程９
６においてインデックステーブル２１およびアドレステ
ーブル２２を参照して、現検出文字列の過去の出現位置
に関する情報を取得する。即ち、図９に示すインデック
ステーブルに記録されているＩｎｄｅｘ１〔Ｓ１〕を参
照し、アドレステーブル２２から過去の出現位置Ａｄｒ
ｅｓｓ〔Ｉｎｄｅｘ｛Ｓ１｝〕を得ることができる。

【００６０】なお、図１２のフローチャートには記載さ
れていないが、ステップＲ５以降に第１の実施形態の場
合（図８のフローチャート参照）と同様に、この検索文
字列が最近出現したか否かを検出するステップ（Ｃｏｕ
ｎｔ−Ｉｎｄｅｘ〔Ｓ１〕＜２¹²）を設けても良いこと
は勿論である。出現位置情報取得工程９６は、図１０の
出現位置情報取得手段８６が主に実行する工程である。

【００６１】符号化工程９７は、コピー符号生成工程と
リテラル符号生成工程と備えている。ここでコピー符号
生成工程は、辞書型符号化方法における検索文字列に対
する過去出現位置情報を取得できたときにコピーモード
を指定する符号（Ｃｏｐｙ符号）を出力する工程であ
り、コピー符号生成部８７ａが中心となって実行する工
程である。

【００６２】なお、ステップＲ６以下のコピー符号生成
工程は、第１の実施形態において説明したコピー符号生
成工程（図８のフローチャートにおけるステップＴ６以
下）と同じであるため、詳細な説明は省略する。照合工
程９５で一致が得られない場合は、符号化工程９７にお
いて、入力された検索文字列からリテラル符号を生成す
る。リテラル符号の生成は、図１０の符号化手段８７に
おけるリテラル符号生成部８７ｂが主となって実行する
工程である。図１２に示すフローチャートの場合は、リ
テラル符号出力としてステップＲ−３で、そのときのＩ
ｎｂｕｆ〔ｔ〕を出力する。

【００６３】なお、図１２のフローチャートにおけるリ
テラル符号形成のための各ステップについては、これが
単に一例であるため、ここで詳細には説明しない。この
ような工程を設けた結果、第２実施形態のデータ圧縮方
法及びデータ圧縮装置では、ハッシュテーブルを使用し
た場合と同等の少ないテーブルの記憶領域でルックアッ
プテーブルを用いた場合と同様の検索スピードにより、
文字の検索を実行し、データを圧縮することができる。

【００６４】また、ハッシュテーブルを用いた場合に必
要である各文字についての照合は、本実施形態では必要
ではないので、一致確認の簡素化を図ることができる。
なお、データ圧縮方法の第１実施形態または第２実施形
態は、過去の出現位置として相対番号を符号化して出力
しているが、直接過去の入力バッファＩｎｂｕｆのアド
レスをそのまま、もしくは符号化して出力してもよい。
またこれらの実施形態は、辞書型符号化方法に文字列検
索を適用しているが、辞書型符号化方法に囚われず、文
字列検索に用いることができる。

【００６５】また、第１の実施形態の説明の部分では述
べていないが、第１の実施形態においても、コードＳ１
またはコードＳ２に演算を行って、一致候補を複数個形
成することも可能であることに注意されたい。次に、上
述のデータ圧縮方法の各実施形態で使用可能な検索コー
ド（または検出コード）Ｓ１，Ｓ２の作成方法につい
て、実例を挙げて説明する。

【００６６】図１３は、検索文字列を表現するビット列
の特徴的なビットを検索用コードＳ１，Ｓ２の各々にな
るべく均一に振り分ける場合を示す。これは、特に第１
の実施形態に適するコードの振り分け方法である。通
常、特徴的なビットは、下位のビットであるため、各文
字コードの下位ビットを成るべく検索用コードＳ１、Ｓ
２に均等に成るように振り分ける。従って図示する様
に、検索文字Ｉｎｂｕｆ〔ｔ〕、Ｉｎｂｕｆ〔ｔ＋２〕
の偶数ビットと検索文字Ｉｎｂｕｆ〔ｔ＋１〕の奇数ビ
ットを組み合わせて検索用コードＳ１を形成する。ま
た、検索文字Ｉｎｂｕｆ〔ｔ〕、Ｉｎｂｕｆ〔ｔ＋２〕
の奇数ビットと、検索文字Ｉｎｂｕｆ〔ｔ＋１〕の偶数
ビットを組み合わせて検索用コードＳ２を形成する。

【００６７】これにより、検索用コードＳ１には一個の
最下位ビット（格子状にハッチングされている）が、検
索用コードＳ２には２個の最下位ビットが含まれる様に
なり、文字コードの特徴が比較的均等にコードＳ１、Ｓ
２に分配される。図１４は、図１３のコード振り分け方
法に類似の方法を示す。この振り分け方法では、検索用
コードＳ１、Ｓ２の下位８ビットを検索文字Ｉｎｂｕｆ
〔ｔ＋１〕とＩｎｂｕｆ〔ｔ＋２〕の各ビットを交互に
配置することにより、形成している。上位４ビットは、
検索文字Ｉｎｂｕｆ〔ｔ〕の各ビットで構成されてい
る。図から明らかなように、コードＳ１には１個の最下
位ビットが、コードＳ２には２個の最下位ビットが含ま
れ、何れかのコードに最下位ビットが集中することは避
けられる。

【００６８】図１５に示す例は、図１３に示す例と同様
に、検索文字Ｉｎｂｕｆ〔ｔ〕、Ｉｎｂｕｆ〔ｔ＋２〕
の偶数ビットと検索文字Ｉｎｂｕｆ〔ｔ＋１〕の奇数ビ
ットを組み合わせて検索用コードＳ１を形成するが、こ
の場合各検索文字の最下位ビットをコードＳ１に含ませ
ている。更に、検索文字Ｉｎｂｕｆ〔ｔ〕、Ｉｎｂｕｆ
〔ｔ＋２〕の奇数ビットと検索文字Ｉｎｂｕｆ〔ｔ＋
１〕の偶数ビットを組み合わせて検索用コードＳ２を形
成するが、この時も同様に各検索文字の最下位ビットを
含ませている。

【００６９】この様にして、各検索文字の特徴を共通に
含む、１４ビットのコードＳ１と、１３ビットのコード
Ｓ２が形成される。なお、図１３および１４に示したコ
ードの振り分け方法は、本発明の第１の実施形態に適し
た方法であるが、第２の実施形態にも適用可能である。
しかしながら図１５に示した方法は、コードＳ１、Ｓ２
が相補コードではないため（コードＳ１は１４ビット、
コードＳ２は１３ビットであるため）、第２の実施形態
には適用することが出来ない。

【００７０】図１６に示すコードの振り分け方法は、特
に第２の実施形態に適した振り分け方法である。即ちこ
の方法では、各検索文字Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ
〔ｔ＋１〕，Ｉｎｂｕｆ〔ｔ＋２〕の下位４ビットで、
検索用コードＳ１を形成することによって、コードＳ１
に文字の特徴を表すビットを集中させる。一方、各検索
文字Ｉｎｂｕｆ〔ｔ〕，Ｉｎｂｕｆ〔ｔ＋１〕，Ｉｎｂ
ｕｆ〔ｔ＋２〕の上位４ビットで、検出用コードＳ２を
形成することによって、文字の特徴をあまり含まない検
出用コードＳ２が作成される。

【００７１】なお、図１６に示す振り分け方法もまた第
１の実施形態に適用できることは勿論であるが、しかし
ながら第１の実施形態にはあまり好ましくない振り分け
方法である。

【００７２】

【発明の効果】本発明によれば、辞書型符号化方法で実
行される文字列の過去の出現位置検出がリーズナブルな
テーブル領域でかつ高速に検索できるようになる。即
ち、ルックアップテーブルを用いた文字列検索方法のよ
うに、出現可能な検索文字列に１対１に対応したテーブ
ルサイズを必要とせず、３文字、４文字といった長い検
索文字列に対する文字検索であっても、検索作業に必要
なテーブル領域の低減化を図ることができるようにな
る。

【００７３】またハッシュテーブルを用いた文字列検索
方法のような、候補文字列と検索文字列とを一対一で照
合してそれが実際に検索している検索文字列であるか否
かをチェックする作業が必要ではないので、一致確認の
作業を大幅に簡素化することができる。

【図面の簡単な説明】

【図１】辞書型符号化方法を用いた従来のデータ圧縮方
法の基本動作を説明するための概念図である。

【図２】図１のデータ圧縮方法において、ルックアップ
テーブルを用いた文字列検索方法の基本動作を説明する
ための概念図である。

【図３】図１のデータ圧縮方法において、ハッシュテー
ブルを用いた文字列検索方法の基本動作を説明するため
の概念図である。

【図４】本発明のデータ圧縮方法にかかる第１の実施形
態の基本原理を説明するための機能ブロック図である。

【図５】図４に示す第１の実施形態の変形例を示す機能
ブロック図である。

【図６】本発明の第１の実施形態にかかるデータ圧縮方
法を実行するための装置の構成を示すブロック図であ
る。

【図７】本発明の第１の実施形態にかかるデータ圧縮方
法を実行するための工程を示すブロック図である。

【図８】本発明の第１の実施形態をプログラミングによ
って実現する場合の基本フローチャートの一例を示す図
である。

【図９】本発明のデータ圧縮方法にかかる第２の実施形
態の基本原理を説明するための機能ブロック図である。

【図１０】本発明の第２の実施形態にかかるデータ圧縮
方法を実行するための装置の構成を示すブロック図であ
る。

【図１１】本発明の第２の実施形態にかかるデータ圧縮
方法を実行するための工程を示すブロック図である。

【図１２】本発明の第２の実施形態をプログラミングに
よって実現する場合の基本フローチャートの一例を示す
図である。

【図１３】本発明のデータ圧縮方法における検索用（ま
たは検出用）コードの１作成方法を示す概念図である。

【図１４】本発明のデータ圧縮方法における検索用（ま
たは検出用）コードのその他の作成方法を示す概念図で
ある。

【図１５】本発明のデータ圧縮方法における検索用（ま
たは検出用）コードの更にその他の作成方法を示す概念
図である。

【図１６】本発明のデータ圧縮方法における検索用（ま
たは検出用）コードの更にその他の作成方法を示す概念
図である。

【符号の説明】

１０…入力バッファ１１…ビット振り分け部１２、１３…アドレステーブル１４…照合部１５、１６…インデックステーブル１７…アドレステーブル２０…リメインビットテーブル２１…インデックステーブル２２…アドレステーブル６０…データ圧縮装置６１…文字列設定手段６２…検索用コード振り分け手段６３…配列内容取得手段６４…照合手段６５…出現位置情報取得手段６６…符号化手段６６ａ…コピー符号生成部６６ｂ…リテラル符号生成部８０…データ圧縮装置８１…文字列設定手段８２…検索用コード振り分け手段８３…演算手段８４…配列内容取得手段８５…照合手段８６…出現位置情報取得手段８７…符号化手段８７ａ…コピー符号生成部８７ｂ…リテラル符号生成部Ｓ１、Ｓ２…第１、第２のコード

Claims

【特許請求の範囲】

【請求項１】被圧縮データ列に圧縮処理を行って圧縮
データを作成するデータ圧縮方法において、被圧縮データ列内の連続する複数の文字を検索する文字
列に設定する文字列設定工程と、前記文字列を表現するビット列中の各ビットを少なくと
も２個のコードに振り分けて第１、第２の検索用コード
を生成する検索用コード振り分け工程と、前記第１、第２の検索用コードをそれぞれ配列のアドレ
スとして用いて予め過去の文字列の出現位置に関する情
報が登録された第１、第２の配列テーブルから第１、第
２の配列内容を取得する、配列内容取得工程と、前記取得した第１、第２の配列内容を照合する照合工程
と、および前記照合した第１、第２の配列内容が一致し
たとき、前記第１または第２の配列内容に基づいて前記
文字列に対する過去の出現位置情報を取得する出現位置
情報取得工程、を備える、データ圧縮方法。
【請求項２】被圧縮データ列に圧縮処理を行って圧縮
データを作成するデータ圧縮方法において、被圧縮データ列内の連続する複数の文字を検索する文字
列に設定する文字列設定工程と、前記文字列を表現するビット列中の各ビットを２個のコ
ードに振り分けて検索用の第１のコードと該第１のコー
ドの相補コードである第２のコードを生成する検索用コ
ード振り分け工程と、現時点で検索すべき文字列に関する前記第１のコードを
配列のアドレスとして用いて、過去に出現した文字列に
関する前記第２のコードが予め登録された第１の配列テ
ーブルから、配列の内容を取得する、配列内容取得工程
と、前記取得した配列内容と前記第２のコードを照合する照
合工程と、および前記照合結果が一致の場合、前記第１
のコードを配列のアドレスとして用いて予め過去の文字
列の出現位置に関する情報が登録された第２の配列テー
ブルから前記設定された文字列の過去の出現位置に関す
る情報を取得する出現位置情報取得工程、を備える、デ
ータ圧縮方法。
【請求項３】被圧縮データ列に圧縮処理を行って圧縮
データを作成するデータ圧縮方法において、被圧縮データ列内の連続する複数の文字を検索する文字
列に設定する文字列設定工程と、前記文字列を表現するビット列中の各ビットを２個のコ
ードに振り分けて検索用の第１のコードと該第１のコー
ドの相補コードである第２のコードを生成する検索用コ
ード振り分け工程と、前記第１のコードに演算を行って前記第１のコードを起
点とする複数のコードを取得する、演算工程と、現時点で検索すべき文字列に関する前記取得された複数
のコードを配列のアドレスとして用いて、過去に出現し
た文字列に関する前記第２のコードが予め登録された第
１の配列テーブルから、複数の配列内容を取得する、配
列内容取得工程と、前記取得した複数の配列内容と前記第２のコードとを照
合する照合工程と、および前記照合結果が一致の場合、
前記演算工程で得られたコードを配列のアドレスとして
用いて、予め過去の文字列の出現位置に関する情報が登
録された第２の配列テーブルから前記設定された文字列
の過去の出現位置に関する情報を取得する出現位置情報
取得工程、を備える、データ圧縮方法。
【請求項４】前記演算工程における演算は、掛け算ま
たはシフト演算の何れか一方である、請求項３に記載の
データ圧縮方法。
【請求項５】さらに、前記取得された出現位置情報を
符号化して出力する符号化工程を備える、請求項１乃至
４の何れか１項に記載のデータ圧縮方法。
【請求項６】前記符号化工程は、前記出現位置情報取得工程において前記文字列に対する
過去の出現位置にかかる情報を取得できたときにコピー
符号を出力するコピー符号生成工程と、前記出現位置情報取得工程において前記文字列に対する
過去の出現位置にかかる情報を取得できなかったときに
リテラル符号を出力するリテラル符号生成工程とを有す
る、請求項５に記載のデータ圧縮方法。
【請求項７】前記コピー符号生成工程は、前記出現位置情報取得工程において得られた前記設定さ
れた文字列の出現位置を起点として当該起点以降のアド
レスに対応する配列の内容と前記設定された文字列以降
の文字列とが連続して一致する文字列長を一致長情報と
して求める一致長算出工程と、前記過去の出現位置情報と前記一致長情報とを符号化し
て出力する符号化出力工程とを有する、請求項６に記載
のデータ圧縮方法。
【請求項８】前記リテラル符号生成工程は、前記設定
された文字列の最初の文字の入力データをそのまままた
は符号化して出力する工程を有する、請求項６または７
に記載のデータ圧縮方法。
【請求項９】前記第１および第２のコードは、前記設
定された文字列の各文字を表すビット列の複数の下位ビ
ットおよび複数の上位ビットが比較的均等に両者に分配
される様に振り分けられる、請求項１に記載のデータ圧
縮方法。
【請求項１０】前記第１および第２のコードは、前記
設定された文字列の各文字を表すビット列の最下位ビッ
トが比較的均等に両者に分配される様に振り分けられ
る、請求項１または９に記載のデータ圧縮方法。
【請求項１１】前記第１および第２のコードは、前記
設定された文字列の各文字を表すビット列の最下位ビッ
トを共通に含む様に振り分けられる、請求項１に記載の
データ圧縮方法。
【請求項１２】前記第１のコードは、前記設定された
文字列の各文字を表すビット列の下位複数のビットで構
成され、前記第２のコードは、その上位複数のビットで
構成されている、請求項２または３に記載のデータ圧縮
方法。
【請求項１３】被圧縮データ列に圧縮処理を行って圧
縮データを作成するデータ圧縮装置において、被圧縮データ列内の連続する複数の文字を検索する文字
列に設定する文字列設定手段と、前記文字列を表現するビット列中の各ビットを少なくと
も２個のコードに振り分けて第１、第２の検索用コード
を生成する検索用コード振り分け手段と、前記第１、第２の検索用コードをそれぞれ配列のアドレ
スとして用いて予め過去の文字列の出現位置に関する情
報が登録された第１、第２の配列テーブルから第１、第
２の配列内容を取得する、配列内容取得手段と、前記取得した第１、第２の配列内容を照合する照合手段
と、および前記照合した第１、第２の配列内容が一致し
たとき、前記第１または第２の配列内容に基づいて前記
文字列に対する過去の出現位置情報を取得する出現位置
情報取得手段、を備える、データ圧縮装置。
【請求項１４】被圧縮データ列に圧縮処理を行って圧
縮データを作成するデータ圧縮装置において、被圧縮データ列内の連続する複数の文字を検索する文字
列に設定する文字列設定手段と、前記文字列を表現するビット列中の各ビットを２個のコ
ードに振り分けて検索用の第１のコードと該第１のコー
ドの相補コードである第２のコードを生成する検索用コ
ード振り分け手段と、現時点で検索すべき文字列に関する前記第１のコードを
配列のアドレスとして用いて、過去に出現した文字列に
関する前記第２のコードが予め登録された第１の配列テ
ーブルから、配列の内容を取得する、配列内容取得手段
と、前記取得した配列内容と前記第２のコードを照合する照
合手段と、および前記照合結果が一致の場合、前記第１
のコードを配列のアドレスとして用いて予め過去の文字
列の出現位置に関する情報が登録された第２の配列テー
ブルから前記設定された文字列の過去の出現位置に関す
る情報を取得する出現位置情報取得手段、を備える、デ
ータ圧縮装置。
【請求項１５】被圧縮データ列に圧縮処理を行って圧
縮データを作成するデータ圧縮装置において、被圧縮データ列内の連続する複数の文字を検索する文字
列に設定する文字列設定手段と、前記文字列を表現するビット列中の各ビットを２個のコ
ードに振り分けて検索用の第１のコードと該第１のコー
ドの相補コードである第２のコードを生成する検索用コ
ード振り分け手段と、前記第１のコードに演算を行って前記第１のコードを起
点とする複数のコードを取得する、演算手段と、現時点で検索すべき文字列に関する前記取得された複数
のコードを配列のアドレスとして用いて、過去に出現し
た文字列に関する前記第２のコードが予め登録された第
１の配列テーブルから、複数の配列内容を取得する、配
列内容取得手段と、前記取得した複数の配列内容と前記第２のコードとを照
合する照合手段と、および前記照合結果が一致の場合、
前記演算手段で得られたコードを配列のアドレスとして
用いて、予め過去の文字列の出現位置に関する情報が登
録された第２の配列テーブルから前記設定された文字列
の過去の出現位置に関する情報を取得する出現位置情報
取得手段、を備える、データ圧縮装置。
【請求項１６】前記演算手段における演算は、掛け算
またはシフト演算の何れか一方である、請求項１５に記
載のデータ圧縮装置。
【請求項１７】さらに、前記取得された出現位置情報
を符号化して出力する符号化手段を備える、請求項１３
乃至１６の何れか１項に記載のデータ圧縮装置。
【請求項１８】前記符号化手段は、前記出現位置情報取得手段において前記文字列に対する
過去の出現位置にかかる情報を取得できたときにコピー
符号を出力するコピー符号生成手段と、前記出現位置情報取得手段において前記文字列に対する
過去の出現位置にかかる情報を取得できなかったときに
リテラル符号を出力するリテラル符号生成手段とを有す
る、請求項１７に記載のデータ圧縮装置。
【請求項１９】前記コピー符号生成手段は、前記出現位置情報取得手段において得られた前記設定さ
れた文字列の出現位置を起点として当該起点以降のアド
レスに対応する配列の内容と前記設定された文字列以降
の文字列とが連続して一致する文字列長を一致長情報と
して求める一致長算出手段と、前記過去の出現位置情報と前記一致長情報とを符号化し
て出力する符号化出力手段とを有する、請求項１８に記
載のデータ圧縮装置。
【請求項２０】前記リテラル符号生成手段は、前記設
定された文字列の最初の文字の入力データをそのままま
たは符号化して出力する手段を有する、請求項１８また
は１９に記載のデータ圧縮装置。