JP2001345710A

JP2001345710A - データ圧縮装置および方法

Info

Publication number: JP2001345710A
Application number: JP2001067975A
Authority: JP
Inventors: Nobuko Sato; 宣子佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-03-31
Filing date: 2001-03-12
Publication date: 2001-12-14
Anticipated expiration: 2021-03-12
Also published as: JP4261779B2

Abstract

(57)【要約】【課題】データ圧縮処理において、入力データに応じ
たリーズナブルなメモリ量で文字列検索を実現し、最長
一致検索を効率よく行うことが課題である。【解決手段】ソート部２５は、入力バッファ２１に格
納された文字列データの各アドレスを始点とする文字列
を所定の順序で並べ換えて、順位リスト２７を生成し、
出現位置保持部２６に格納する。一致検出部２２は、順
位リスト２７に基づいて、符号化対象文字列の一致候補
の位置を取得し、符号化対象文字列と一致候補を照合し
て、一致長を求める。符号生成部２３は、一致候補の位
置と一致長を用いて符号を生成し、符号生成部２４は、
その符号を圧縮データとして出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、被圧縮データ列か
ら生成される辞書を用いて、そのデータ列を圧縮する装
置および方法に関する。本発明は、文字コードの圧縮に
限らず、様々なデータの圧縮に適用できるが、以下では
情報理論に基づき、データ列をワード単位に分割し、１
ワードのデータを文字と呼び、任意のワード数のデータ
列を文字列と呼ぶことにする。

【０００２】

【従来の技術】近年、文字コード、画像データ等の様々
な種類のデータがコンピュータで扱われるようになるの
に伴い、取り扱われるデータ量も増大している。そのよ
うな大量のデータを扱う場合、データ中の冗長な部分を
省いて圧縮することにより、必要な記憶容量を減らした
り、遠隔地へ高速に伝送したりすることができる。

【０００３】従来のデータ圧縮技術には、データ系列の
類似性を利用した辞書型符号化と、データ列の出現頻度
を利用した確率統計型符号化とがある。このうち、前者
の辞書型符号化の代表的な方法として、ＬＺ７７符号化
とＬＺ７８符号化が知られている（植松友彦（うえまつ
ともひこ）著、“文書データ圧縮アルゴリズム入
門”、ＣＱ出版、ｐｐ．１３１−２０８、１９９５
年）。ＬＺ７７符号化とＬＺ７８符号化では、ＬＺ７７
符号化の方が、簡単な処理で充分な圧縮率が得られるこ
とから、実際の使用では主流となっている。

【０００４】ＬＺ７７符号化では、図２１に示すよう
に、一定サイズのスライドバッファ１を設け、このバッ
ファ１内で入力文字列と最長一致する文字列を検索し、
その位置と長さを用いて入力文字列を符号化する。符号
化が進むにつれてバッファ１をスライドさせていくこと
から、この符号化方法は、スライド辞書法とも呼ばれ
る。

【０００５】図２１では、バッファ１の右隣の入力文字
列“ａｂｃｄａａａｑ．．．”が符号化されるとき、バ
ッファ１内で一致する文字列のうち最長のものは“ａｂ
ｃｄ”である。そこで、この最長一致文字列の先頭位置
と入力文字列の先頭位置の相対アドレス“５（バイ
ト）”を一致位置とし、最長一致文字列の長さ“４（バ
イト）”を一致長として、（一致位置，一致長）＝
（５，４）のような符号を生成する。これにより、入力
文字列の先頭の“ａｂｃｄ”が（５，４）に置き換えら
れる。同様にして、次の文字列“ａａａ”は、符号（１
３，３）に置き換えられる。

【０００６】しかし、実際に用いられるスライドバッフ
ァはもっと長く、最長一致する文字列を発見するために
バッファ内の文字列を順に検索していくと、膨大な時間
を要する。このため、実際には、バッファ内のすべての
文字列と照合するのではなく、文字列の接頭部（２〜４
文字程度）の出現位置を随時テーブルに登録し、テーブ
ルに保持されている位置の文字列のみと照合している。
このような検索に使用されるテーブルとしては、ルック
アップテーブル（Look Up Table ，ＬＵＴ）とハッシュ
テーブル（Hash Table）とがある。

【０００７】図２２は、ＬＵＴを用いた文字列検索を示
している。図２２のＬＵＴ２は、バッファ１内の文字列
の接頭部をアドレスとして、その文字列のバッファ１内
における出現位置（アドレスまたはポインタ）を格納し
ている。そして、検索時には、入力文字列の接頭部をア
ドレスとして、ＬＵＴ２の領域にアクセスし、対応する
文字列の位置を取得する。

【０００８】同じ接頭部の文字列がバッファ１内に複数
存在する場合は、リンクドリスト３の形式で複数の出現
位置が保持される。したがって、ＬＵＴ２に１回アクセ
スするだけで、バッファ１内のすべての対応する文字列
の位置を取得することができる。ここでは、２文字分の
接頭部が用いられており、入力文字列の接頭部“ａｂ”
に対応するＬＵＴ２の領域は、リンクドリスト３を利用
して２つの出現位置を保持している。

【０００９】このように、ＬＵＴは、検索する文字列を
テーブルの領域に１対１に対応させ、１回のテーブル引
きのみで必要な情報を取得できるため、非常に高速な検
索を行うことができる。しかし、長い文字列を検索する
場合、テーブルに必要な領域の数は出現可能な文字の数
の巾乗で増えるため、必要な領域が膨大になる。例え
ば、出現可能な文字の数を２⁸＝２５６とすると、ｎ文
字の接頭部に対して２５６ⁿ個の領域が必要となる。

【００１０】ところが、検索する文字列が多少長くなる
と、用意された領域のうち実際に使用される（登録され
る）部分は一部分のみに止まり、テーブル内はまばらな
状態になる。したがって、長い文字列を検索する場合に
は、メモリの使用効率が悪化する。

【００１１】そこで、ハッシュテーブルでは、検索文字
列を縮退させて、複数の文字列が１つの領域を共有する
ようにしている。このため、テーブル引きの後で、得ら
れた文字列が実際に検索している文字列かどうかをチェ
ックする必要があるが、ＬＵＴに比べて、同等のテーブ
ル領域でより長い文字列を検索することができる。

【００１２】図２３は、ハッシュテーブルを用いた文字
列検索を示している。図２３のハッシュコード生成部４
は、入力文字列の接頭部“ａｂｃ”からハッシュコード
５を生成し、それをアドレスとしてハッシュテーブル６
にアクセスする。ハッシュテーブル６には、ハッシュコ
ード５に対応するバッファ１内の位置が格納されてお
り、その位置にある文字列“ａｂｃｄｅ”と入力文字列
を照合することで、両者の接頭部が一致するかどうかが
チェックされる。そして、それらが一致すれば、入力文
字列と一致する文字列がバッファ１内に存在すると判断
される。

【００１３】ハッシュテーブルの場合も、ＬＵＴの場合
と同様に、バッファ１内の同じ接頭部を持つ複数の文字
列に対しては、リンクドリストの形式で複数の出現位置
が保持される。いずれの場合も、リンクドリストは、最
長一致文字列を検索するために用いられる。

【００１４】

【発明が解決しようとする課題】しかしながら、上述し
た従来のデータ圧縮技術には、次のような問題がある。
ＬＵＴを用いて長い文字列を検索する場合、上述したよ
うに、膨大な領域を持つテーブルを用意しても、その一
部分のみしか使用されないので、テーブル内はまばらな
状態になる。ハッシュテーブルでは、ＬＵＴと比べると
テーブルサイズが小さくなるが、入力データが少なけれ
ば、同じようにテーブル内がまばらな状態になる。した
がって、メモリが必ずしも有効に利用されないという問
題がある。

【００１５】また、最長一致文字列を検索する際、リン
クドリストに保持された複数の出現位置を一つ一つ辿ら
なければならず、同じ接頭部を持つ文字列が多くなる
と、検索処理に時間がかかるという問題もある。

【００１６】本発明の課題は、辞書型符号化に基づくデ
ータ圧縮において、入力データに応じたリーズナブルな
メモリ量で文字列検索を実現し、最長一致検索を効率よ
く行うデータ圧縮装置およびその方法を提供することで
ある。

【００１７】

【課題を解決するための手段】図１は、本発明のデータ
圧縮装置の原理図である。図１のデータ圧縮装置は、デ
ータ格納手段１１、ソート手段１２、出現位置格納手段
１３、検出手段１４、および符号化手段１５を備える。

【００１８】データ格納手段１１は、圧縮すべき文字列
データを格納し、ソート手段１２は、データ格納手段１
１内の複数のアドレスの各々を始点とする各文字列を、
各文字列の内容に基づいて並べ換える。出現位置格納手
段１３は、並べ換えられた文字列の順序で、各文字列の
アドレスを表すアドレス情報を格納する。検出手段１４
は、出現位置格納手段１３に格納されたアドレス情報に
基づいて、繰返し文字列を検出し、符号化手段１５は、
検出された繰返し文字列を符号化して出力する。

【００１９】まず、データ格納手段１１内の複数のアド
レスの各々に、圧縮すべき文字列データに含まれる各文
字が格納される。次に、ソート手段１２は、それらのア
ドレスをそれぞれ始点とする複数の文字列を、各文字列
の内容に基づいて所定の順序で並べ換え、各文字列のア
ドレス情報を、その順序で出現位置格納手段１３に格納
する。

【００２０】次に、検出手段１４は、出現位置格納手段
１３に格納された各アドレス情報と、出現位置格納手段
１３内におけるそのアドレス情報の順位（格納位置）と
の関係を参照して、データ格納手段１１内で繰り返し出
現する文字列を検出する。そして、符号化手段１５は、
２回目以降に出現した繰返し文字列を符号化して出力す
る。

【００２１】このようなデータ圧縮装置によれば、デー
タ格納手段１１内に出現する複数の文字列が、その内容
に応じて規則的に並べ換えられて、出現位置格納手段１
３に格納される。このため、出現位置格納手段１３を参
照すれば、同じ文字列が出現する複数の位置を容易に見
つけることができ、文字列検索が効率化される。このと
き、複数の同じ文字列が互いに隣接するように文字列を
並べ換えることで、最長一致検索をさらに効率化するこ
とができる。

【００２２】また、出現位置格納手段１３内のアドレス
情報の数は、被圧縮データを格納するデータ格納手段１
１内のアドレスの数とほぼ同じになるため、入力データ
にほぼ比例するメモリ量で文字列検索を行うことができ
る。

【００２３】例えば、図１のデータ格納手段１１、ソー
ト手段１２、出現位置格納手段１３、および検出手段１
４は、それぞれ、後述する図５の入力バッファ２１、ソ
ート部２５、出現位置保持部２６、および一致検出部２
２に対応し、図１の符号化手段１５は、図５の符号生成
部２３および符号出力部２４に対応する。

【００２４】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本実施形態では、入
力文字列を保持する入力バッファを設け、バッファ中の
各アドレスを始点とする各文字列を、文字列の内容に従
って並びかえて、順位リストを生成する。そして、この
順位リストを辞書として利用して文字列検索を行い、一
致位置と一致長を求める。

【００２５】例えば、図２のような入力バッファを設け
た場合、まず、バッファ内の各アドレスを始点とする各
文字列から、それぞれ、３文字分の接頭部を抽出し、図
３のような順位リストを生成する。図３の順位リスト
は、図２の入力バッファとほぼ同じ数の要素（レコー
ド）を有するテーブルに対応し、各レコードには、図２
の入力バッファにおいて、各接頭部が出現する位置のア
ドレスが格納される。

【００２６】ここでは、入力バッファに、“ｃｏｍｐｒ
ｅｓｓｉｏｎ＿ｄｅｃｏｍｐｒｅｓｓ＿ｃｏｍｐｒｅｓ
ｓｉｏｎ”という３４バイトの入力文字列が保持されて
おり、アドレス１、２、および３からは、それぞれ、
“ｃｏｍ”、“ｏｍｐ”、および“ｍｐｒ”という接頭
部が抽出されている。他のアドレスからも、同様にし
て、３文字の接頭部が抽出される。ただし、記号“＿”
はスペースを表す。そして、順位リストには、これらの
接頭部の出現位置に対応する“１”〜“３２”のアドレ
スが格納される。

【００２７】次に、この順位リストに保持されたアドレ
スを、対応する接頭部の各文字のコード順に並べ換え
て、図４のような順位リストを生成する。図４の順位リ
ストは、図３の順位リストと同じ数のレコードを有し、
並べ換えられた順序で、各接頭部のアドレスを保持して
いる。

【００２８】ここでは、“ｃｏｍ”や“ｓｓｉ”のよう
に、入力バッファ内に含まれる複数の同じ接頭部が、出
現順に隣接して並んでいる。このため、ある文字列と同
じ接頭部を持つ文字列のうちで、最近出現したもののア
ドレスは、必ずその文字列のアドレスが格納されたレコ
ードの直前（１つ上の順位）のレコードに格納されてい
る。したがって、入力バッファ内の符号化対象の文字列
を、直前のレコードに保持されたアドレスの文字列と比
較すれば、一致する文字列を容易に検索することができ
る。

【００２９】また、他の一致候補のアドレスも連続して
格納されているため、最長一致検索の場合は、符号化対
象の文字列を、連続して格納された複数のアドレスに対
応する複数の文字列と比較すればよく、最長一致検索が
高速化される。さらに、入力バッファと順位リストは、
ほぼ同じ程度の長さになるため、入力バッファの長さに
ほぼ比例したサイズのメモリ量で、検索に必要な情報を
格納することができる。

【００３０】次に、図５から図１８までを参照しなが
ら、図４に示した順位リストを用いた圧縮処理につい
て、より詳細に説明する。図５は、本実施形態のデータ
圧縮装置の構成図である。図５のデータ圧縮装置は、例
えば、コンピュータを用いて構成され、入力バッファ２
１、一致検出部２２、符号生成部２３、符号出力部２
４、ソート部２５、および出現位置保持部２６を備え
る。

【００３１】入力バッファ２１は、入力された文字列を
被圧縮データ列として保持する。ソート部２５は、入力
バッファ２１内の各アドレスを始点とする文字列を、文
字列の内容に従って並べ換え、並べ換えられた順序で文
字列のアドレスを保持する順位リスト２７を生成する。
出現位置保持部２６は、順位リストを出現位置情報とし
て保持する。

【００３２】一致検出部２２は、順位リスト２７の情報
に基づいて、入力バッファ２１内の繰返し文字列を検出
し、他の文字列とともに符号生成部２３に渡す。符号生
成部２３は、一致検出部２２から受け取った文字列の符
号を生成し、符号出力部２４は、生成された符号を圧縮
データとして出力する。順位リスト２７を利用した繰返
し文字列の検索方法としては、次の３つが考えられる。（１）逆引きテーブル（逆引きリスト）を用いる方法（２）一致位置テーブル（一致位置リスト）を用いる方
法（３）検索テーブル（ハッシュテーブル）を用いる方法まず、図６から図９までは、逆引きリストを用いたデー
タ圧縮処理を示している。

【００３３】この場合、一致検出部２２は、図６に示す
ように、逆引きリスト３１と照合部３２を備える。逆引
きリスト３１は、入力バッファ２１内の符号化対象の文
字列のアドレスから、順位リスト２７におけるその文字
列の順位を求めるための情報を格納する。そして、一致
検出部２２は、逆引きリスト３１から得られた順位より
上の順位のアドレスから始まる文字列を、一致候補とし
て採用する。

【００３４】照合部３２は、符号化対象の文字列と一致
候補の文字列とを照合し、一致した文字列の長さを求め
る。そして、符号生成部２３は、得られた長さを一致長
とし、一致した文字列のアドレスを一致位置として、文
字列を符号化する。最長一致検索を行う場合は、複数の
一致候補のうち最も長い一致長を有するものを符号化す
る。

【００３５】例えば、図２の入力文字列からは、図７の
ような逆引きリストと順位リストが生成される。図７の
順位リストＯｄｒ２Ｐ［］は、図４の順位リストと同様
である。逆引きリストＰ２Ｏｄｒ［］は、順位リストＯ
ｄｒ２Ｐ［］に保持された各アドレスの順位を表す番号
を、それぞれ、そのアドレスに対応するレコードに格納
していくことで、容易に生成される。例えば、順位リス
トＯｄｒ２Ｐ［］の１番目のアドレス“２３”に対して
は、逆引きリストＰ２Ｏｄｒ［］のアドレス“２３”の
レコードに、順位番号“１”が格納されている。

【００３６】繰返し文字列を検出するとき、一致検出部
２２は、符号化対象の文字列のアドレスに基づいて、逆
引きリストＰ２Ｏｄｒ［］と順位リストＯｄｒ２Ｐ［］
にアクセスし、一致候補の文字列を求める。

【００３７】例えば、入力バッファＩｎＢｕｆ［］のア
ドレス“２４”を始点とする文字列“ｃｏｍｐｒｅｓｓ
ｉｏｎ”が符号化対象であれば、逆引きリストＰ２Ｏｄ
ｒ［］のアドレス“２４”に保持された順位番号“５”
を取得し、順位リストＯｄｒ２Ｐ［］のその順位にアク
セスする。次に、それより上の順位“３”および“４”
に保持されたアドレス“１”および“１５”を取得す
る。そして、それらのアドレスを始点とする文字列“ｃ
ｏｍｐｒｅｓｓｉｏｎ＿ｄｅｃｏｍ．．．”および“ｄ
ｅｃｏｍｐｒｅｓｓ＿ｃｏｍ．．．”を一致候補とす
る。

【００３８】最長一致検索を行わない場合は、１つ上の
順位の文字列“ｄｅｃｏｍｐｒｅｓｓ＿ｃｏｍ．．．”
のみが一致候補となり、最長一致検索を行う場合は、両
方の文字列が一致候補となる。

【００３９】このように、逆引きリストを設けること
で、容易に順位リストにアクセスすることができ、文字
列検索が効率化される。また、逆引きリストは順位リス
トと同じ長さなので、これらを合わせても、入力バッフ
ァの長さにほぼ比例するメモリ量で、必要な情報を格納
することができる。

【００４０】図８は、図６の一致検出部を用いたデータ
圧縮処理のフローチャートである。この処理では、最長
一致検索は行われず、最近出現した一致候補のみが検索
される。

【００４１】データ圧縮装置は、まず、入力バッファＩ
ｎＢｕｆ［］に、所定のサイズＢＵＦＳＩＺＥ分のデー
タを入力し、符号化位置を表す変数ｔを１とおく（ステ
ップＳ１）。また、ＩｎＢｕｆ［］の各アドレスを始点
とする３文字の文字列をアルファベット順に並べて、順
位リストＯｄｒ２Ｐ［］を作成し、Ｏｄｒ２Ｐ［］用の
逆引きリストＰ２Ｏｄｒ［］を作成する。

【００４２】次に、アドレスｔを始点とする文字列がｔ
より前に出現しているかどうかをチェックする。ここで
は、まず、最近出現した一致候補の順位を表す変数ｏｄ
ｒを、Ｐ２Ｏｄｒ［ｔ］−１とおき、一致位置のアドレ
スを表す変数ｐを、Ｏｄｒ２Ｐ［ｏｄｒ］とおく（ステ
ップＳ２）。ｏｄｒは、Ｏｄｒ２Ｐ［］において、符号
化位置を始点とする文字列の順位の１つ上の順位に対応
する。

【００４３】次に、アドレスｔを始点とする３文字の文
字列Ｃｔ＝（ＩｎＢｕｆ［ｔ］，ＩｎＢｕｆ［ｔ＋
１］，ＩｎＢｕｆ［ｔ＋２］）と、アドレスｐを始点と
する３文字の文字列Ｃｐとを比較する（ステップＳ
３）。

【００４４】ＣｔとＣｐが一致すれば、Ｃｐで始まる文
字列を一致候補として、次に、一致長を求める。ここで
は、まず、一致長を表す変数ｓを３とおき（ステップＳ
４）、ＩｎＢｕｆ［ｔ＋ｓ］とＩｎＢｕｆ［ｐ＋ｓ］を
比較する（ステップＳ５）。これらが一致すれば、ｓ＝
ｓ＋１とおいて（ステップＳ６）、ステップＳ５の処理
を繰り返す。

【００４５】ステップＳ５において、ＩｎＢｕｆ［ｔ＋
ｓ］とＩｎＢｕｆ［ｐ＋ｓ］が一致しなければ、（ｐ，
ｓ）を符号として出力し、ｔ＝ｔ＋ｓとおいて（ステッ
プＳ７）、ｔとＢＵＦＳＩＺＥを比較する（ステップＳ
８）。そして、ｔ＜ＢＵＦＳＩＺＥであれば、ステップ
Ｓ２以降の処理を繰り返す。

【００４６】ステップＳ８において、ｔ≧ＢＵＦＳＩＺ
Ｅとなれば、次に、被圧縮データが終了したかどうかを
チェックする（ステップＳ９）。被圧縮データが残って
いれば、ステップＳ１以降の処理を繰り返し、被圧縮デ
ータがなくなれば、処理を終了する。

【００４７】また、ステップＳ３において、ＣｔとＣｐ
が一致しなければ、一致候補が存在しないので、Ｃｔの
先頭文字ＩｎＢｕｆ［ｔ］をそのまま符号として出力
し、ｔ＝ｔ＋１とおいて（ステップＳ１０）、ステップ
Ｓ８以降の処理を行う。

【００４８】例えば、図７の被圧縮データの場合は、図
８の処理により、“ｃｏｍｐｒｅｓｓｉｏｎ＿ｄｅ
（１，８）＿（１５，８）（９，３）”のような圧縮デ
ータが生成される。

【００４９】図９は、最長一致検索を行う場合のデータ
圧縮処理のフローチャートである。図９のステップＳ１
１、Ｓ１３〜Ｓ１６、およびＳ２２〜Ｓ２４の処理は、
図８のステップＳ１、Ｓ３〜Ｓ６、およびＳ８〜Ｓ１０
の処理と同様である。

【００５０】ステップＳ１１において、Ｏｄｒ２Ｐ［］
とＰ２Ｏｄｒ［］を作成すると、データ圧縮装置は、次
に、ｏｄｒ＝Ｐ２Ｏｄｒ［ｔ］−１、ｐ＝Ｏｄｒ２Ｐ
［ｏｄｒ］とおく（ステップＳ１２）。このとき、さら
に、最長一致文字列の一致位置を表す変数ｐｒｅをｐと
おき、その一致長を表す変数ｌｅｎを０とおく。そし
て、ステップＳ３〜Ｓ６の処理により、最近出現した一
致候補の一致長ｓを求める。

【００５１】次に、ｓとｌｅｎを比較し（ステップＳ１
７）、ｓ＞ｌｅｎであれば、ｌｅｎ＝ｓ、ｐｒｅ＝ｐと
おく（ステップＳ１８）。そして、より長い一致候補を
求めるために、ｏｄｒ＝ｏｄｒ−１、ｐ＝Ｏｄｒ２Ｐ
［ｏｄｒ］とおいて（ステップＳ１９）、ＣｔとＣｐを
比較する（ステップＳ２０）。ステップＳ１７におい
て、ｓ≦ｌｅｎであれば、ｌｅｎとｐｒｅを更新せず
に、ステップＳ１９以降の処理を行う。

【００５２】ＣｔとＣｐが一致すれば、新たな一致候補
が見つかったので、ステップＳ１４以降の処理を繰り返
し、その候補の一致長がｌｅｎより長ければ、ｌｅｎと
ｐｒｅを更新する。

【００５３】そして、ステップＳ２０において、Ｃｔと
Ｃｐが一致しなくなると、（ｐｒｅ，ｌｅｎ）を符号と
して出力し、ｔ＝ｔ＋ｌｅｎとおいて（ステップＳ２
１）、ステップＳ２２以降の処理を行う。こうして、最
終的に、一致長が最も長い文字列の位置と長さが符号と
して出力される。

【００５４】例えば、図７の被圧縮データの場合は、図
９の処理により、“ｃｏｍｐｒｅｓｓｉｏｎ＿ｄｅ
（１，８）＿（１，１１）”のような圧縮データが生成
される。次に、図１０から図１３までは、一致位置リス
トを用いたデータ圧縮処理を示している。この処理で
は、入力データは、一旦、一致位置リストに変換されて
から圧縮される。

【００５５】この場合、一致検出部２２は、図１０に示
すように、一致位置リスト４１、領域検出部４２、およ
び照合部４３を備える。一致位置リスト４１は、順位リ
スト２７から生成され、入力バッファ２１内の各文字列
のアドレスから最近出現した同じ文字列の位置（一致位
置）を求めるための情報を格納する。

【００５６】例えば、図７の順位リストＯｄｒ２Ｐ［］
は、図１１のような一致位置リストＰ２ＰｒｅＰ［］に
変換される。この一致位置リストＰ２ＰｒｅＰ［］は、
入力バッファの要素と同じ数のレコードからなる。そし
て、各アドレスのレコードには、順位リストＯｄｒ２Ｐ
［］において、そのアドレスを始点とする接頭部の順位
の１つ上の順位に保持されたアドレスが、一致位置とし
て格納されている。ただし、１つ上の順位に登録された
接頭部が異なる場合は、一致候補が存在しないことを表
す記号“Ｎ”が格納される。

【００５７】一致位置リストＰ２ＰｒｅＰ［］の生成時
に、一致検出部２２は、順位リストＯｄｒ２Ｐ［］に保
持されたアドレスを上位から順に見ていく。そして、注
目する順位に登録された接頭部が１つ上の順位に登録さ
れた接頭部と同じであれば、前者の順位に保持されたア
ドレスに対応するレコードに、後者の順位に保持された
アドレスを格納する。

【００５８】また、注目する順位に登録された接頭部が
１つ上の順位に登録された接頭部と異なれば、前者の順
位に保持されたアドレスに対応するレコードに、記号
“Ｎ”を格納する。このような操作を繰返すことで、一
致位置リストＰ２ＰｒｅＰ［］が容易に生成される。

【００５９】例えば、順位リストＯｄｒ２Ｐ［］の１番
目のアドレス“２３”に対しては、１つ上の順位のレコ
ードが存在しない。そこで、一致位置リストＰ２Ｐｒｅ
Ｐ［］のアドレス“２３”には、記号“Ｎ”が格納され
る。また、順位リストＯｄｒ２Ｐ［］の５番目のアドレ
ス“２４”に対しては、４番目のアドレス“１５”のレ
コードが同じ接頭部“ｃｏｍ”に対応する。そこで、一
致位置リストＰ２ＰｒｅＰ［］のアドレス“２４”に
は、４番目のレコードに保持されたアドレス“１５”が
格納される。

【００６０】図１０の領域検出部４２は、このような一
致位置リスト４１の隣接するレコードの値（アドレス）
を比較して、一致位置を示す値が連続して１ずつ増えて
いるような領域を検出する。そして、符号生成部２３
は、その領域の先頭の値を一致位置とし、値が連続して
いる長さから一致長を求めて、文字列を符号化する。

【００６１】例えば、図１１の一致位置リストＰ２Ｐｒ
ｅＰ［］では、アドレス“１５”〜“２０”の領域にお
いて、レコードの値が“１”から“６”まで連続して１
ずつ増えている。そこで、この領域の長さ“６”に、順
位リストに登録された接頭部の長さ“３”を加え、
“１”を引いた結果“８（＝６＋３−１）”を、一致長
とする。そして、先頭のレコードの値“１”を一致位置
として、（１，８）のような符号が生成される。

【００６２】また、最長一致検索を行う場合、領域検出
部４２は、一致位置リスト４１において、値が連続して
いる領域が２つ以上繋がっている部分を検出する。そし
て、一致検出部２２は、検出された複数の連続領域に保
持されているアドレスを分析して、複数の一致候補の位
置を求める。

【００６３】次に、照合部３２は、符号化対象の文字列
と各一致候補の文字列とを照合し、一致した文字列の長
さを求める。そして、符号生成部２３は、複数の一致候
補のうち、一致した長さが最も長いものの一致位置と一
致長を用いて、文字列を符号化する。

【００６４】例えば、図１１の一致位置リストＰ２Ｐｒ
ｅＰ［］では、アドレス“２４”〜“２９”の領域にお
いて、レコードの値が“１５”から“２０”まで連続し
て増えており、アドレス“３０”〜“３２”の領域にお
いて、レコードの値が“７”から“９”まで連続して増
えている。これらの２つの連続領域は繋がっているた
め、アドレス“２４”を始点とする文字列“ｃｏｍｐｒ
ｅｓｓｉｏｎ”を符号化対象として、最長一致検索が行
われる。

【００６５】この場合、２番目の連続領域“３０”〜
“３２”の値に基づいて、１番目の連続領域のアドレス
“２４”には、アドレス“１５”の一致候補より長いア
ドレス“１”の候補があることが分かる。その一致長
は、２つの連続領域の長さ“９”に、接頭部の長さ
“３”を加え、“１”を引くことで求められ、“１１
（＝９＋３−１）”となる。こうして、（１，１１）の
ような符号が生成される。

【００６６】３個以上の連続領域が繋がっている場合
も、同様にして、最長一致文字列の一致位置と一致長を
表す符号が生成される。一般に、ｎ個の連続領域が繋が
っている場合は、少なくともｎ個の一致候補が存在し、
それらの中に最長一致文字列が含まれている。

【００６７】このように、順位リストを一致位置リスト
に変換することで、一致位置と一致長が容易に求められ
るようになり、文字列検索が効率化される。また、一致
位置リストは入力バッファと同じ長さなので、入力バッ
ファの長さに比例するメモリ量で、必要な情報を格納す
ることができる。図１１では、一致位置のアドレスその
ものを一致位置リストに格納しているが、各アドレスか
ら一致位置までの相対アドレスを格納してもよい。

【００６８】図１２は、図１０の一致検出部を用いたデ
ータ圧縮処理のフローチャートである。この処理では、
最長一致検索は行われず、最近出現した一致候補のみが
検索される。

【００６９】データ圧縮装置は、まず、入力バッファＩ
ｎＢｕｆ［］に、ＢＵＦＳＩＺＥ分のデータを入力し、
変数ｔを１とおく（ステップＳ３１）。また、ＩｎＢｕ
ｆ［］のデータから順位リストＯｄｒ２Ｐ［］を作成
し、Ｏｄｒ２Ｐ［］から一致位置リストＰ２Ｐｒｅ
Ｐ［］を作成する。

【００７０】次に、Ｐ２ＰｒｅＰ［ｔ］を“Ｎ”と比較
して、アドレスｔを始点とする文字列の一致候補が存在
するかどうかをチェックする（ステップＳ３２）。そし
て、その値が“Ｎ”でなければ、一致候補が存在するの
で、“連続領域の長さ−１”を表す変数ｓを０とおい
て、Ｐ２ＰｒｅＰ［ｔ＋ｓ］とＰ２ＰｒｅＰ［ｔ＋ｓ＋
１］−１とを比較する（ステップＳ３４）。

【００７１】Ｐ２ＰｒｅＰ［ｔ＋ｓ］とＰ２ＰｒｅＰ
［ｔ＋ｓ＋１］−１が一致すれば、Ｐ２ＰｒｅＰ［ｔ＋
ｓ＋１］は“Ｎ”ではなく、Ｐ２ＰｒｅＰ［ｔ＋ｓ］よ
り１だけ大きい値を表す。そこで、ｓ＝ｓ＋１とおいて
（ステップＳ３５）、ステップＳ３４の処理を繰り返
す。

【００７２】ステップＳ３４において、Ｐ２ＰｒｅＰ
［ｔ＋ｓ］とＰ２ＰｒｅＰ［ｔ＋ｓ＋１］−１が一致し
なければ、Ｐ２ＰｒｅＰ［ｔ］を一致位置とし、ｓ＋３
を一致長として、符号（Ｐ２ＰｒｅＰ［ｔ］，（ｓ＋
３））を出力する（ステップＳ３６）。そして、ｔ＝ｔ
＋ｓ＋３とおいて、ｔとＢＵＦＳＩＺＥを比較する（ス
テップＳ３７）。そして、ｔ＜ＢＵＦＳＩＺＥであれ
ば、ステップＳ３２以降の処理を繰り返す。

【００７３】ステップＳ３７において、ｔ≧ＢＵＦＳＩ
ＺＥとなれば、次に、被圧縮データが終了したかどうか
をチェックする（ステップＳ３８）。被圧縮データが残
っていれば、ステップＳ３１以降の処理を繰り返し、被
圧縮データがなくなれば、処理を終了する。

【００７４】また、ステップＳ３２において、Ｐ２Ｐｒ
ｅＰ［ｔ］が“Ｎ”であれば、一致候補が存在しないの
で、ＩｎＢｕｆ［ｔ］をそのまま符号として出力し、ｔ
＝ｔ＋１とおいて（ステップＳ３９）、ステップＳ３７
以降の処理を行う。

【００７５】例えば、図７の被圧縮データの場合は、図
１２の処理により、“ｃｏｍｐｒｅｓｓｉｏｎ＿ｄｅ
（１，８）＿（１５，８）（９，３）”のような圧縮デ
ータが生成される。

【００７６】図１３は、最長一致検索を行う場合のデー
タ圧縮処理のフローチャートである。図１３のステップ
Ｓ４１〜Ｓ４２、Ｓ４４〜Ｓ４５、およびＳ５０〜Ｓ５
２の処理は、図１２のステップＳ３１〜Ｓ３２、Ｓ３４
〜Ｓ３５、およびＳ３７〜Ｓ３９の処理と同様である。

【００７７】ステップＳ４２において、Ｐ２ＰｒｅＰ
［ｔ］が“Ｎ”でなければ、データ圧縮装置は、次に、
ｓ＝０とおき、最長一致文字列の一致位置を表す変数ｐ
をＰ２ＰｒｅＰ［ｔ］とおく（ステップＳ４３）。そし
て、ステップＳ４４〜Ｓ４５の処理により、ｓの値を更
新する。

【００７８】ステップＳ４４において、Ｐ２ＰｒｅＰ
［ｔ＋ｓ］とＰ２ＰｒｅＰ［ｔ＋ｓ＋１］−１が一致し
なければ、次に、Ｐ２ＰｒｅＰ［ｔ＋ｓ＋１］と“Ｎ”
を比較して、最初の連続領域と繋がった次の連続領域が
存在するかどうかをチェックする（ステップＳ４６）。

【００７９】例えば、図１１の場合は、ｔ＝２４、ｓ＝
５のときに、Ｐ２ＰｒｅＰ［２４＋５］＝２０となり、
Ｐ２ＰｒｅＰ［２４＋５＋１］−１＝７−１＝６となっ
て、両者が一致しないので、Ｐ２ＰｒｅＰ［３０］＝７
が“Ｎ”と比較される。

【００８０】Ｐ２ＰｒｅＰ［ｔ＋ｓ＋１］が“Ｎ”でな
ければ、次の連続領域が存在することが分かる。そこ
で、その領域の先頭の値Ｐ２ＰｒｅＰ［ｔ＋ｓ＋１］か
ら求められるアドレスＰ２ＰｒｅＰ［ｔ＋ｓ＋１］−
（ｓ＋１）を新たな一致候補の位置として、その文字列
と符号化対象の文字列とを比較する。

【００８１】ここでは、まず、アドレスｔを始点とする
長さｓ＋１の文字列をＳｔｒ（ｔ，ｓ）＝（ＩｎＢｕｆ
［ｔ］，ＩｎＢｕｆ［ｔ＋１］，．．．，ＩｎＢｕｆ
［ｔ＋ｓ］）とおいて、Ｓｔｒ（Ｐ２ＰｒｅＰ［ｔ＋ｓ
＋１］−（ｓ＋１），ｓ）とＳｔｒ（ｔ，ｓ）とを比較
する（ステップＳ４７）。

【００８２】これらの文字列が一致すれば、新たな一致
候補を最長一致文字列とみなして、ｓ＝ｓ＋１とおき、
ｐ＝Ｐ２ＰｒｅＰ［ｔ＋ｓ＋１］−（ｓ＋１）とおいて
（ステップＳ４８）、ステップＳ４４以降の処理を繰り
返す。

【００８３】そして、ステップＳ４７において、２つの
文字列が一致しなくなると、（ｐ，（ｓ＋３））を符号
として出力し、ｔ＝ｔ＋ｓ＋３とおいて（ステップＳ４
９）、ステップＳ５０以降の処理を行う。

【００８４】また、ステップＳ４６において、Ｐ２Ｐｒ
ｅＰ［ｔ＋ｓ＋１］が“Ｎ”であれば、次の連続領域が
存在しないので、そのままステップＳ４９以降の処理を
行う。こうして、最終的に、一致長が最も長い文字列の
位置と長さが符号として出力される。

【００８５】図１１の場合は、ステップＳ４７におい
て、Ｓｔｒ（Ｐ２ＰｒｅＰ［２４＋５＋１］−（５＋
１），５）＝Ｓｔｒ（１，５）とＳｔｒ（２４，５）が
比較される。これらの文字列はともに“ｃｏｍｐｒｅ”
を表すので、次に、ｓ＝６、ｐ＝１とおいて、ステップ
Ｓ４４以降の処理が繰り返される。

【００８６】そして、ｓ＝８のとき、ステップＳ４６に
おいて、Ｐ２ＰｒｅＰ［２４＋８＋１］＝Ｎとなるの
で、（１，（８＋３））＝（１，１１）のような符号が
生成される。したがって、最終的には、“ｃｏｍｐｒｅ
ｓｓｉｏｎ＿ｄｅ（１，８）＿（１，１１）”のような
圧縮データが生成される。

【００８７】次に、図１４から図１６までは、ハッシュ
テーブルを用いたデータ圧縮処理を示している。この処
理では、図７の逆引きリストの代わりに、ハッシュテー
ブルを用いて、順位リストがアクセスされる。

【００８８】この場合、一致検出部２２は、図１４に示
すように、ハッシュテーブル５１、照合部５２、および
更新部５３を備える。ハッシュテーブル５１は、入力バ
ッファ２１内の符号化対象の文字列の接頭部から、順位
リスト２７における同じ接頭部を有する文字列の順位を
求めるための情報を格納する。そして、一致検出部２２
は、ハッシュテーブル５１から得られた順位、または、
それより上の順位のアドレスから始まる文字列を、一致
候補として採用する。

【００８９】照合部５２は、符号化対象の文字列と一致
候補の文字列とを照合し、一致した文字列の長さを求め
る。そして、符号生成部２３は、得られた長さを一致長
とし、一致した文字列のアドレスを一致位置として、文
字列を符号化する。最長一致検索を行う場合は、複数の
一致候補のうち最も長い一致長を有するものを符号化す
る。また、更新部５３は、ハッシュテーブル５１から得
られる順位を、最近出現した、同じ接頭部を有する文字
列の順位に変更する。

【００９０】図１５は、このようなハッシュテーブルを
用いて順位リストにアクセスする処理の例を示してい
る。図１５の順位リストＯｄｒ２Ｐ［］は、図４の順位
リストと同様である。ハッシュテーブルｈａｓｈ２Ｏｄ
ｒ［］は、ハッシュ値をアドレスとして、順位リストＯ
ｄｒ２Ｐ［］における順位番号を格納する。このテーブ
ルにアクセスするためのハッシュ値は、例えば、図２３
に示したようなハッシュコード生成部４により、ハッシ
ュ関数Ｈを用いて生成される。また、このテーブルのサ
イズは一般に２^Mであり、整数Ｍにより指定される。

【００９１】順位リストＯｄｒ２Ｐ［］に複数の同じ接
頭部が登録されている場合、初期状態のハッシュテーブ
ルｈａｓｈ２Ｏｄｒ［］には、その接頭部から得られる
ハッシュ値に対応して、それらの接頭部のブロックの１
つ上の順位番号が保持される。例えば、３文字の接頭部
“ｃｏｍ”は、順位リストＯｄｒ２Ｐ［］の３番目、４
番目、および５番目に登録されているが、圧縮処理の開
始時には、“ｃｏｍ”のハッシュ値Ｈ（“ｃｏｍ”）に
対応するアドレスに、順位番号“２”が格納される。

【００９２】繰返し文字列を検出するとき、一致検出部
２２は、符号化対象の文字列の３文字の接頭部に基づい
て、ハッシュテーブルｈａｓｈ２Ｏｄｒ［］と順位リス
トＯｄｒ２Ｐ［］にアクセスし、一致候補の文字列を求
める。

【００９３】例えば、入力バッファＩｎＢｕｆ［］のア
ドレス“１”を始点とする文字列“ｃｏｍｐｒｅｓｓｉ
ｏｎ＿ｄｅｃｏｍ．．．”が符号化対象であれば、ま
ず、３文字の接頭部“ｃｏｍ”からハッシュ値Ｈ（“ｃ
ｏｍ”）を生成する。次に、ハッシュテーブルｈａｓｈ
２Ｏｄｒ［］において、そのハッシュ値のアドレスに保
持された順位番号“２”を取得し、順位リストＯｄｒ２
Ｐ［］のその順位にアクセスする。

【００９４】この場合、その順位には同じ接頭部が登録
されていないので、一致候補は存在しない。そこで、先
頭文字“ｃ”をそのまま出力して、ハッシュテーブルｈ
ａｓｈ２Ｏｄｒ［］のアドレスＨ（“ｃｏｍ”）に保持
された順位番号“２”に１を加算する。これにより、接
頭部“ｃｏｍ”から得られる順位“２”が、１つ下の順
位“３”に変更される。

【００９５】その後、アドレス“１５”を始点とする文
字列“ｃｏｍｐｒｅｓｓ＿ｃｏｍ．．．”が符号化対象
になったとき、接頭部“ｃｏｍ”のハッシュ値に基づ
き、ハッシュテーブルｈａｓｈ２Ｏｄｒ［］から、更新
された順位番号“３”を取得する。そして、順位リスト
Ｏｄｒ２Ｐ［］のその順位にアクセスする。

【００９６】次に、その順位“３”に保持されたアドレ
ス“１”を取得し、そのアドレスを始点とする文字列
“ｃｏｍｐｒｅｓｓｉｏｎ＿ｄｅｃｏｍ．．．”を一致
候補とする。そして、一致位置と一致長の符号を出力
し、再び、ハッシュテーブルｈａｓｈ２Ｏｄｒ［］の値
を更新する。これにより、接頭部“ｃｏｍ”から得られ
る順位“３”が、１つ下の順位“４”に変更される。

【００９７】その後、アドレス“２４”を始点とする文
字列“ｃｏｍｐｒｅｓｓｉｏｎ”が符号化対象になった
とき、ハッシュテーブルｈａｓｈ２Ｏｄｒ［］から、更
新された順位番号“４”を取得し、順位リストＯｄｒ２
Ｐ［］のその順位にアクセスする。

【００９８】次に、その順位“３”と、その１つ上の順
位“４”に保持されたアドレス“１”、“１５”を取得
する。そして、それらのアドレスを始点とする文字列
“ｃｏｍｐｒｅｓｓｉｏｎ＿ｄｅｃｏｍ．．．”および
“ｄｅｃｏｍｐｒｅｓｓ＿ｃｏｍ．．．”を一致候補と
する。ここで、最長一致検索を行わない場合は、順位
“３”の文字列“ｄｅｃｏｍｐｒｅｓｓ＿ｃｏ
ｍ．．．”のみが一致候補となり、最長一致検索を行う
場合は、両方の文字列が一致候補となる。

【００９９】このように、ハッシュテーブルを設けるこ
とで、容易に順位リストにアクセスすることができ、文
字列検索が効率化される。また、ハッシュテーブルの長
さは順位リストの長さ以下にすることができるので、こ
れらを合わせても、入力バッファの長さに比例するメモ
リ量以内で、必要な情報を格納することができる。ま
た、符号化が行われる度に、ハッシュテーブルが指す順
位を１つずつ下にシフトすることにより、最近出現した
一致候補の順位を保持することができ、最長一致検索が
効率化される。

【０１００】図１６は、図１４の一致検出部を用いたデ
ータ圧縮処理のフローチャートである。この処理では、
最長一致検索は行われず、最近出現した一致候補のみが
検索される。図１６のステップＳ６３〜Ｓ６７およびＳ
６９〜Ｓ７１の処理は、図８のステップＳ３〜Ｓ７およ
びＳ８〜Ｓ１０の処理と同様である。

【０１０１】データ圧縮装置は、まず、入力バッファＩ
ｎＢｕｆ［］に、ＢＵＦＳＩＺＥ分のデータを入力し、
変数ｔを１とおく（ステップＳ６１）。また、ＩｎＢｕ
ｆ［］のデータから順位リストＯｄｒ２Ｐ［］を作成
し、Ｏｄｒ２Ｐ［］用のハッシュテーブルｈａｓｈ２Ｏ
ｄｒ［］を作成する。

【０１０２】次に、ここでは、まず、アドレスｔを始点
とする３文字の文字列をＣｔ＝（ＩｎＢｕｆ［ｔ］，Ｉ
ｎＢｕｆ［ｔ＋１］，ＩｎＢｕｆ［ｔ＋２］）として、
ハッシュ値を表す変数ｈａｓｈをＨ（Ｃｔ）とおく（ス
テップＳ６２）。また、最近出現した一致候補の順位を
表す変数ｏｄｒを、ｈａｓｈ２Ｏｄｒ［ｈａｓｈ］とお
き、一致位置を表す変数ｐを、Ｏｄｒ２Ｐ［ｏｄｒ］と
おく。

【０１０３】次に、ステップＳ６３〜Ｓ６７の処理によ
り、アドレスｔを始点とする文字列がｔより前に出現し
ているかどうかをチェックし、そのような文字列が出現
していれば、一致位置と一致長を符号として出力する。
そして、ｈａｓｈ２Ｏｄｒ［ｈａｓｈ］に１を加算し
て、ｈａｓｈに対応する順位を１つ下にシフトし（ステ
ップＳ６８）、ステップＳ６９以降の処理を行う。ま
た、ステップＳ７１において、ＩｎＢｕｆ［ｔ］を符号
として出力し、ｔ＝ｔ＋１とおいた後は、ステップＳ６
８以降の処理を行う。

【０１０４】図１６の処理による圧縮結果は、図８の処
理による結果と同様である。また、最長一致検索を行う
場合は、図１６の処理に対して、図９と同様の変更を加
えればよい。

【０１０５】ところで、上述した順位リストは、入力バ
ッファ内の各アドレスを始点とする文字列の接頭部を、
各文字のコード順にソートして、各文字列の出現位置の
アドレスを並べ換えることにより、生成される。このと
き、基底法（radix sort）、クイックソート、バブルソ
ート等の任意のソート方法を用いることができる。

【０１０６】例えば、基底法では、Ｎ文字（Ｎバイト）
の接頭部に含まれるｋ番目（ｋ＝１，．．．，Ｎ）の文
字に注目してビンソート（bin sort）を行う操作を、Ｎ
番目の文字から順に繰り返すことで、ソート処理が行わ
れる。また、クイックソートでは、Ｎ文字の接頭部の集
合を１つの接頭部を基準にして２つに分割する操作を繰
り返すことで、ソート処理が行われる。また、バブルソ
ートでは、隣接する２つの接頭部を比較して、その結果
からそれらの接頭部を交換する操作を繰り返すことで、
ソート処理が行われる。

【０１０７】図１７および図１８は、基底法に基づく順
位リスト生成処理のフローチャートである。ここでは、
図５のソート部２５により、３文字の接頭部の各文字に
ついてビンソートが行われる。実験的には、接頭部を３
文字に限定してソートすることで、最長一致検索が効率
化されることが分かっている。

【０１０８】ビンソートにおいては、０〜２５５の各値
（文字コード）の出現回数がカウントされ、各カウント
値を元にして、その文字コード未満の文字コードの個数
が計算される。これにより、出現した各文字コードが最
終的に配列のどの位置に納まるべきかが決定される。

【０１０９】入力バッファＩｎＢｕｆ［］にＢＵＦＳＩ
ＺＥ分のデータが入力されると、ソート部２５は、ま
ず、０〜２５５の文字コードの出現回数を表す配列Ｃｏ
ｕｎｔｅｒ［２５６］の各要素を０に初期化し、変数ｔ
を１とおく（ステップＳ８１）。

【０１１０】次に、Ｃｏｕｎｔｅｒ［ＩｎＢｕｆ
［ｔ］］に１を加算して、ＩｎＢｕｆ［ｔ］に保持され
た文字コードの出現回数をインクリメントする（ステッ
プＳ８２）。そして、ｔに１を加算して、ｔとＢＵＦＳ
ＩＺＥを比較する（ステップＳ８３）。ｔ＜ＢＵＦＳＩ
ＺＥであれば、ステップＳ８２の処理を繰り返し、ｔが
ＢＵＦＳＩＺＥに達すると、ｔ＝１、Ｓｕｍ［０］＝０
とおく（ステップＳ８４）。

【０１１１】次に、Ｓｕｍ［ｔ］＝Ｃｏｕｎｔｅｒ［ｔ
−１］＋Ｓｕｍ［ｔ−１］とおき、ｔに１を加算して
（ステップＳ８５）、ｔと２５６を比較する（ステップ
Ｓ８６）。ここで、Ｓｕｍ［ｔ］は、０〜ｔ−１までの
文字コードの出現回数の総和を表す。ｔ≦２５６であれ
ば、ステップＳ８５の処理を繰り返し、ｔが２５６を越
えると、次に、図１８の処理を行う。

【０１１２】図１８では、ソート部２５は、まず、接頭
部の３番目の文字でビンソートを行う。この場合、ま
ず、ｔ＝１とおき、ＳｔａｃｋＰ［］にＳｕｍ［］をコ
ピーする（ステップＳ８７）。ここで、配列Ａ［］は、
ＩｎＢｕｆ［］のアドレスｔを始点とする文字列の３番
目の文字でソートしたアドレスを格納する。３番目の文
字が値ｘである場合、ＳｔａｃｋＰ［ｘ］は、ソート結
果として格納されるべき配列Ａ［］の添字を格納する。

【０１１３】次に、Ａ［ＳｔａｃｋＰ［ＩｎＢｕｆ［ｔ
＋２］］］＝ｔとおき、ＳｔａｃｋＰ［ＩｎＢｕｆ［ｔ
＋２］］に１を加算し、ｔに１を加算する（ステップＳ
８８）。ここで、ＳｔａｃｋＰ［ＩｎＢｕｆ［ｔ＋
２］］は、アドレスｔを始点とする接頭部の３番目の文
字に対応するＡ［］の添字を表し、Ａ［ＳｔａｃｋＰ
［ＩｎＢｕｆ［ｔ＋２］］］は、その接頭部のアドレス
を表す。次に、ｔとＢＵＦＳＩＺＥを比較し（ステップ
Ｓ８９）、ｔ＜ＢＵＦＳＩＺＥであれば、ステップＳ８
８の処理を繰り返す。

【０１１４】そして、ｔがＢＵＦＳＩＺＥに達すると、
次に、生成された配列Ａ［］を、接頭部の２番目の文字
でビンソートする。この場合、まず、ｔ＝１とおき、Ｓ
ｔａｃｋＰ［］にＳｕｍ［］をコピーする（ステップＳ
９０）。ここで、配列ＳｔａｃｋＰ［］は、ソート結果
を格納する配列Ｂ［］の添字を格納する。

【０１１５】次に、Ｂ［ＳｔａｃｋＰ［ＩｎＢｕｆ［Ａ
［ｔ］＋１］］］＝ｔとおき、ＳｔａｃｋＰ［ＩｎＢｕ
ｆ［Ａ［ｔ］＋１］］に１を加算し、ｔに１を加算する
（ステップＳ９１）。ここで、ＳｔａｃｋＰ［ＩｎＢｕ
ｆ［Ａ［ｔ］＋１］］は、配列Ａ［］の添字ｔの位置に
格納された接頭部の２番目の文字に対応するＢ［］の添
字を表し、Ｂ［ＳｔａｃｋＰ［ＩｎＢｕｆ［Ａ［ｔ］＋
１］］］は、その接頭部のアドレスを表す。次に、ｔと
ＢＵＦＳＩＺＥを比較し（ステップＳ９２）、ｔ＜ＢＵ
ＦＳＩＺＥであれば、ステップＳ９１の処理を繰り返
す。

【０１１６】そして、ｔがＢＵＦＳＩＺＥに達すると、
次に、生成された配列Ｂ［］を、接頭部の１番目の文字
でビンソートする。この場合、まず、ｔ＝１とおき、Ｓ
ｔａｃｋＰ［］にＳｕｍ［］をコピーする（ステップＳ
９３）。ここで、配列ＳｔａｃｋＰ［］は、ソート結果
を格納する順位リストＯｄｒ２Ｐ［］の添字（順位番
号）を格納する。

【０１１７】次に、Ｏｄｒ２Ｐ［ＳｔａｃｋＰ［ＩｎＢ
ｕｆ［Ｂ［ｔ］］］］＝ｔとおき、ＳｔａｃｋＰ［Ｉｎ
Ｂｕｆ［Ｂ［ｔ］］］に１を加算し、ｔに１を加算する
（ステップＳ９４）。ここで、ＳｔａｃｋＰ［ＩｎＢｕ
ｆ［Ｂ［ｔ］］］は、配列Ｂ［］の添字ｔの位置に格納
された接頭部の１番目の文字の順位を表し、Ｏｄｒ２Ｐ
［ＳｔａｃｋＰ［ＩｎＢｕｆ［Ｂ［ｔ］］］］は、その
接頭部のアドレスを表す。

【０１１８】次に、ｔとＢＵＦＳＩＺＥを比較し（ステ
ップＳ９５）、ｔ＜ＢＵＦＳＩＺＥであれば、ステップ
Ｓ９４の処理を繰り返す。そして、ｔがＢＵＦＳＩＺＥ
に達すると、処理を終了する。こうして、順位リストＯ
ｄｒ２Ｐ［］が生成される。

【０１１９】上述の実施形態では、順位リストを生成す
るときに、各文字列の固定長（Ｎ文字）の接頭部を比較
することで文字列をソートしているが、その代わりに、
可変長の接頭部を比較するようにしてもよい。また、上
述の実施形態では、ＬＺ７７符号化における文字列検索
について説明したが、本発明は、ＬＺ７７符号化に限ら
ず、任意の符号化における文字列検索に適用することが
できる。

【０１２０】図５のデータ圧縮装置は、例えば、図１９
に示すような情報処理装置（コンピュータ）を用いて構
成することができる。図１９の情報処理装置は、ＣＰＵ
（中央処理装置）６１、メモリ６２、入力装置６３、出
力装置６４、外部記憶装置６５、媒体駆動装置６６、お
よびネットワーク接続装置６７を備え、それらはバス６
８により互いに接続されている。

【０１２１】メモリ６２は、例えば、ＲＯＭ（read onl
y memory）、ＲＡＭ（random access memory）等を含
み、処理に用いられるプログラムとデータを格納する。
ＣＰＵ６１は、メモリ６２を利用してプログラムを実行
することにより、必要な処理を行う。

【０１２２】例えば、図５の入力バッファ２１、出現位
置保持部２６、図６の逆引きリスト３１、図１０の一致
位置リスト４１、および図１４のハッシュテーブル５１
は、メモリ６２内に設けられる。また、図５の一致検出
部２２、符号生成部２３、符号出力部２４、ソート部２
５、図６の照合部３２、図１０の領域検出部４２、照合
部４３、図１４の照合部５２および更新部５３は、プロ
グラムにより記述されたソフトウェアコンポーネントと
してメモリ６２に格納される。

【０１２３】入力装置６３は、例えば、キーボード、ポ
インティングデバイス、タッチパネル等であり、ユーザ
からの指示や情報の入力に用いられる。出力装置６４
は、例えば、ディスプレイ、プリンタ、スピーカ等であ
り、ユーザへの問い合わせや処理結果の出力に用いられ
る。

【０１２４】外部記憶装置６５は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク（magneto-op
tical disk）装置、テープ装置等である。情報処理装置
は、この外部記憶装置６５に、上述のプログラムとデー
タを保存しておき、必要に応じて、それらをメモリ６２
にロードして使用する。

【０１２５】媒体駆動装置６６は、可搬記録媒体６９を
駆動し、その記録内容にアクセスする。可搬記録媒体６
９としては、メモリカード、フロッピー（登録商標）デ
ィスク、ＣＤ−ＲＯＭ（compact disk read only memor
y ）、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。ユーザは、
この可搬記録媒体６９に上述のプログラムとデータを格
納しておき、必要に応じて、それらをメモリ６２にロー
ドして使用する。

【０１２６】ネットワーク接続装置６７は、ＬＡＮ（Lo
cal Area Network）等の任意の通信ネットワークに接続
され、通信に伴うデータ変換を行う。また、情報処理装
置は、上述のプログラムとデータをネットワーク接続装
置６７を介して他の装置から受け取り、必要に応じて、
それらをメモリ６２にロードして使用する。

【０１２７】図２０は、図１９の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体６９や
外部のデータベース７０に保存されたプログラムとデー
タは、メモリ６２にロードされる。そして、ＣＰＵ６１
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。

【０１２８】（付記１）圧縮すべき文字列データを格
納するデータ格納手段と、前記データ格納手段内の複数
のアドレスの各々を始点とする各文字列を、各文字列の
内容に基づいて並べ換えるソート手段と、並べ換えられ
た文字列の順序で、各文字列のアドレスを表すアドレス
情報を格納する出現位置格納手段と、前記出現位置格納
手段に格納されたアドレス情報に基づいて、繰返し文字
列を検出する検出手段と、検出された繰返し文字列を符
号化して出力する符号化手段とを備えることを特徴とす
るデータ圧縮装置。（付記２）前記ソート手段は、各文字列に含まれる所
定文字数の接頭部を用いて、文字列を並べ換えることを
特徴とする付記１記載のデータ圧縮装置。（付記３）前記ソート手段は、各文字列に含まれる３
文字の接頭部を用いて、前記文字列を並べ換えることを
特徴とする付記２記載のデータ圧縮装置。（付記４）前記ソート手段は、複数の同じ接頭部が互
いに隣接するように、前記文字列を並べ換えることを特
徴とする付記２記載のデータ圧縮装置。（付記５）前記ソート手段は、基底法を用いて、前記
文字列を並べ換えることを特徴とする付記２記載のデー
タ圧縮装置。（付記６）前記ソート手段は、クイックソートを用い
て、前記文字列を並べ換えることを特徴とする付記２記
載のデータ圧縮装置。（付記７）符号化対象文字列のアドレスから、前記出
現位置格納手段における該符号化対象文字列の順位を求
めるための情報を格納する逆引き手段をさらに備え、前
記検出手段は、該逆引き手段から得られた順位より上の
順位に格納されたアドレス情報に対応する文字列を一致
候補とし、該符号化対象文字列と該一致候補とを照合し
て一致長を求め、前記符号化手段は、該一致候補の位置
を示す情報と該一致長とを用いて、該符号化対象文字列
を符号化することを特徴とする付記１記載のデータ圧縮
装置。（付記８）各文字列のアドレスに対応して、最近出現
した同じ文字列のアドレス情報を格納する一致位置格納
手段をさらに備え、前記検出手段は、前記出現位置格納
手段に格納されたアドレス情報から、該一致位置格納手
段に格納されるアドレス情報を生成し、該一致位置格納
手段の隣接するアドレス情報を比較して、アドレス情報
が連続している連続領域を検出し、前記符号化手段は、
該連続領域の位置に対応する文字列を符号化対象文字列
とし、該連続領域に格納されたアドレス情報と該連続領
域の長さとを用いて、該符号化対象文字列を符号化する
ことを特徴とする付記１記載のデータ圧縮装置。（付記９）前記検出手段は、前記出現位置格納手段の
１つの順位に注目し、注目する順位の文字列の接頭部が
１つ上の順位の文字列の接頭部と同じであるとき、前記
一致位置格納手段において、該注目する順位に格納され
たアドレス情報に対応する位置に、該１つ上の順位に格
納されたアドレス情報を格納することを特徴とする付記
８記載のデータ圧縮装置。（付記１０）前記検出手段は、前記一致位置格納手段
内で２つ以上の連続領域が繋がっている部分を検出し、
該２つ以上の連続領域に格納されたアドレス情報に基づ
いて複数の一致候補の文字列を求め、前記符号化手段
は、該複数の一致候補のうち最も長い一致長を有する一
致候補の位置を示す情報と、該最も長い一致長とを用い
て、前記符号化対象文字列を符号化することを特徴とす
る付記８記載のデータ圧縮装置。（付記１１）符号化対象文字列に含まれる所定文字数
の接頭部から、前記出現位置格納手段における同じ接頭
部を含む文字列の順位を求めるための情報を格納する検
索手段をさらに備え、前記検出手段は、該検索手段から
得られた順位に格納されたアドレス情報に対応する文字
列を一致候補とし、該符号化対象文字列と該一致候補と
を照合して一致長を求め、前記符号化手段は、該一致候
補の位置を示す情報と該一致長とを用いて、該符号化対
象文字列を符号化することを特徴とする付記１記載のデ
ータ圧縮装置。（付記１２）前記検出手段は、前記所定文字数の接頭
部に対応して前記検索手段から得られる順位が、最近出
現した同じ接頭部を含む文字列の順位になるように、該
検索手段に格納された情報を更新することを特徴とする
付記１１記載のデータ圧縮装置。（付記１３）コンピュータのためのプログラムを記録
した記録媒体であって、前記プログラムは、圧縮すべき
文字列データが有する複数のアドレスの各々を始点とす
る各文字列を、各文字列の内容に基づいて並べ換え、並
べ換えられた文字列の順序で、各文字列のアドレスを表
すアドレス情報を記録し、記録されたアドレス情報に基
づいて、繰返し文字列を検出し、検出された繰返し文字
列を符号化する処理を前記コンピュータに実行させるこ
とを特徴とするコンピュータ読み取り可能な記録媒体。（付記１４）圧縮すべき文字列データが有する複数の
アドレスの各々を始点とする各文字列を、各文字列の内
容に基づいて並べ換え、並べ換えられた文字列の順序
で、各文字列のアドレスを表すアドレス情報を記録し、
記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化することを特徴
とするデータ圧縮方法。（付記１５）圧縮すべき文字列データが有する複数の
アドレスの各々を始点とする各文字列を、各文字列の内
容に基づいて並べ換え、並べ換えられた文字列の順序
で、各文字列のアドレスを表すアドレス情報を記録し、
記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化する処理をコン
ピュータに実行させるためのプログラム。

【０１２９】

【発明の効果】本発明によれば、データを圧縮すると
き、入力データにほぼ比例したメモリ量で文字列検索を
行うことができ、特に、少量のデータを圧縮する場合、
既存の方法より少ないメモリ量で済む。また、最長一致
文字列の検索の負荷が低いため、高い圧縮率の処理を高
速に行うことが可能となる。

【図面の簡単な説明】

【図１】本発明のデータ圧縮装置の原理図である。

【図２】入力バッファを示す図である。

【図３】第１の順位リストを示す図である。

【図４】第２の順位リストを示す図である。

【図５】データ圧縮装置の構成図である。

【図６】第１の一致検出部の構成図である。

【図７】逆引きリストと順位リストを示す図である。

【図８】第１の圧縮処理のフローチャートである。

【図９】第２の圧縮処理のフローチャートである。

【図１０】第２の一致検出部の構成図である。

【図１１】順位リストと一致位置リストを示す図であ
る。

【図１２】第３の圧縮処理のフローチャートである。

【図１３】第４の圧縮処理のフローチャートである。

【図１４】第３の一致検出部の構成図である。

【図１５】ハッシュテーブルと順位リストを示す図であ
る。

【図１６】第５の圧縮処理のフローチャートである。

【図１７】順位リスト生成処理のフローチャート（その
１）である。

【図１８】順位リスト生成処理のフローチャート（その
２）である。

【図１９】情報処理装置の構成図である。

【図２０】記録媒体を示す図である。

【図２１】従来の圧縮方法を示す図である。

【図２２】ＬＵＴによる検索を示す図である。

【図２３】ハッシュテーブルによる検索を示す図であ
る。

【符号の説明】

１スライドバッファ２ＬＵＴ３リンクドリスト４ハッシュコード生成部５ハッシュ値６、５１ハッシュテーブル１１データ格納手段１２ソート手段１３出現位置格納手段１４検出手段１５符号化手段２１入力バッファ２２一致検出部２３符号生成部２４符号出力部２５ソート部２６出現位置保持部２７順位リスト３１逆引きリスト３２、４３、５２照合部４１一致位置リスト４２領域検出部５３更新部６１ＣＰＵ６２メモリ６３入力装置６４出力装置６５外部記憶装置６６媒体駆動装置６７ネットワーク接続装置６８バス６９可搬記録媒体７０データベース

Claims

【特許請求の範囲】

【請求項１】圧縮すべき文字列データを格納するデー
タ格納手段と、前記データ格納手段内の複数のアドレスの各々を始点と
する各文字列を、各文字列の内容に基づいて並べ換える
ソート手段と、並べ換えられた文字列の順序で、各文字列のアドレスを
表すアドレス情報を格納する出現位置格納手段と、前記出現位置格納手段に格納されたアドレス情報に基づ
いて、繰返し文字列を検出する検出手段と、検出された繰返し文字列を符号化して出力する符号化手
段とを備えることを特徴とするデータ圧縮装置。
【請求項２】前記ソート手段は、各文字列に含まれる
所定文字数の接頭部を用いて、文字列を並べ換えること
を特徴とする請求項１記載のデータ圧縮装置。
【請求項３】前記ソート手段は、複数の同じ接頭部が
互いに隣接するように、前記文字列を並べ換えることを
特徴とする請求項２記載のデータ圧縮装置。
【請求項４】前記ソート手段は、基底法を用いて、前
記文字列を並べ換えることを特徴とする請求項２記載の
データ圧縮装置。
【請求項５】符号化対象文字列のアドレスから、前記
出現位置格納手段における該符号化対象文字列の順位を
求めるための情報を格納する逆引き手段をさらに備え、
前記検出手段は、該逆引き手段から得られた順位より上
の順位に格納されたアドレス情報に対応する文字列を一
致候補とし、該符号化対象文字列と該一致候補とを照合
して一致長を求め、前記符号化手段は、該一致候補の位
置を示す情報と該一致長とを用いて、該符号化対象文字
列を符号化することを特徴とする請求項１記載のデータ
圧縮装置。
【請求項６】各文字列のアドレスに対応して、最近出
現した同じ文字列のアドレス情報を格納する一致位置格
納手段をさらに備え、前記検出手段は、前記出現位置格
納手段に格納されたアドレス情報から、該一致位置格納
手段に格納されるアドレス情報を生成し、該一致位置格
納手段の隣接するアドレス情報を比較して、アドレス情
報が連続している連続領域を検出し、前記符号化手段
は、該連続領域の位置に対応する文字列を符号化対象文
字列とし、該連続領域に格納されたアドレス情報と該連
続領域の長さとを用いて、該符号化対象文字列を符号化
することを特徴とする請求項１記載のデータ圧縮装置。
【請求項７】前記検出手段は、前記出現位置格納手段
の１つの順位に注目し、注目する順位の文字列の接頭部
が１つ上の順位の文字列の接頭部と同じであるとき、前
記一致位置格納手段において、該注目する順位に格納さ
れたアドレス情報に対応する位置に、該１つ上の順位に
格納されたアドレス情報を格納することを特徴とする請
求項６記載のデータ圧縮装置。
【請求項８】前記検出手段は、前記一致位置格納手段
内で２つ以上の連続領域が繋がっている部分を検出し、
該２つ以上の連続領域に格納されたアドレス情報に基づ
いて複数の一致候補の文字列を求め、前記符号化手段
は、該複数の一致候補のうち最も長い一致長を有する一
致候補の位置を示す情報と、該最も長い一致長とを用い
て、前記符号化対象文字列を符号化することを特徴とす
る請求項６記載のデータ圧縮装置。
【請求項９】符号化対象文字列に含まれる所定文字数
の接頭部から、前記出現位置格納手段における同じ接頭
部を含む文字列の順位を求めるための情報を格納する検
索手段をさらに備え、前記検出手段は、該検索手段から
得られた順位に格納されたアドレス情報に対応する文字
列を一致候補とし、該符号化対象文字列と該一致候補と
を照合して一致長を求め、前記符号化手段は、該一致候
補の位置を示す情報と該一致長とを用いて、該符号化対
象文字列を符号化することを特徴とする請求項１記載の
データ圧縮装置。
【請求項１０】前記検出手段は、前記所定文字数の接
頭部に対応して前記検索手段から得られる順位が、最近
出現した同じ接頭部を含む文字列の順位になるように、
該検索手段に格納された情報を更新することを特徴とす
る請求項９記載のデータ圧縮装置。
【請求項１１】コンピュータのためのプログラムを記
録した記録媒体であって、前記プログラムは、圧縮すべき文字列データが有する複数のアドレスの各々
を始点とする各文字列を、各文字列の内容に基づいて並
べ換え、並べ換えられた文字列の順序で、各文字列のアドレスを
表すアドレス情報を記録し、記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化する処理を前記コンピ
ュータに実行させることを特徴とするコンピュータ読み
取り可能な記録媒体。
【請求項１２】圧縮すべき文字列データが有する複数
のアドレスの各々を始点とする各文字列を、各文字列の
内容に基づいて並べ換え、並べ換えられた文字列の順序で、各文字列のアドレスを
表すアドレス情報を記録し、記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化することを特徴とする
データ圧縮方法。
【請求項１３】圧縮すべき文字列データが有する複数
のアドレスの各々を始点とする各文字列を、各文字列の
内容に基づいて並べ換え、並べ換えられた文字列の順序で、各文字列のアドレスを
表すアドレス情報を記録し、記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化する処理をコンピュー
タに実行させるためのプログラム。