JP2001345710A - データ圧縮装置および方法 - Google Patents

データ圧縮装置および方法

Info

Publication number
JP2001345710A
JP2001345710A JP2001067975A JP2001067975A JP2001345710A JP 2001345710 A JP2001345710 A JP 2001345710A JP 2001067975 A JP2001067975 A JP 2001067975A JP 2001067975 A JP2001067975 A JP 2001067975A JP 2001345710 A JP2001345710 A JP 2001345710A
Authority
JP
Japan
Prior art keywords
character string
address
matching
order
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001067975A
Other languages
English (en)
Other versions
JP4261779B2 (ja
Inventor
Nobuko Sato
宣子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001067975A priority Critical patent/JP4261779B2/ja
Publication of JP2001345710A publication Critical patent/JP2001345710A/ja
Application granted granted Critical
Publication of JP4261779B2 publication Critical patent/JP4261779B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 データ圧縮処理において、入力データに応じ
たリーズナブルなメモリ量で文字列検索を実現し、最長
一致検索を効率よく行うことが課題である。 【解決手段】 ソート部25は、入力バッファ21に格
納された文字列データの各アドレスを始点とする文字列
を所定の順序で並べ換えて、順位リスト27を生成し、
出現位置保持部26に格納する。一致検出部22は、順
位リスト27に基づいて、符号化対象文字列の一致候補
の位置を取得し、符号化対象文字列と一致候補を照合し
て、一致長を求める。符号生成部23は、一致候補の位
置と一致長を用いて符号を生成し、符号生成部24は、
その符号を圧縮データとして出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、被圧縮データ列か
ら生成される辞書を用いて、そのデータ列を圧縮する装
置および方法に関する。本発明は、文字コードの圧縮に
限らず、様々なデータの圧縮に適用できるが、以下では
情報理論に基づき、データ列をワード単位に分割し、1
ワードのデータを文字と呼び、任意のワード数のデータ
列を文字列と呼ぶことにする。
【0002】
【従来の技術】近年、文字コード、画像データ等の様々
な種類のデータがコンピュータで扱われるようになるの
に伴い、取り扱われるデータ量も増大している。そのよ
うな大量のデータを扱う場合、データ中の冗長な部分を
省いて圧縮することにより、必要な記憶容量を減らした
り、遠隔地へ高速に伝送したりすることができる。
【0003】従来のデータ圧縮技術には、データ系列の
類似性を利用した辞書型符号化と、データ列の出現頻度
を利用した確率統計型符号化とがある。このうち、前者
の辞書型符号化の代表的な方法として、LZ77符号化
とLZ78符号化が知られている(植松友彦(うえまつ
ともひこ)著、“文書データ圧縮アルゴリズム入
門”、CQ出版、pp.131−208、1995
年)。LZ77符号化とLZ78符号化では、LZ77
符号化の方が、簡単な処理で充分な圧縮率が得られるこ
とから、実際の使用では主流となっている。
【0004】LZ77符号化では、図21に示すよう
に、一定サイズのスライドバッファ1を設け、このバッ
ファ1内で入力文字列と最長一致する文字列を検索し、
その位置と長さを用いて入力文字列を符号化する。符号
化が進むにつれてバッファ1をスライドさせていくこと
から、この符号化方法は、スライド辞書法とも呼ばれ
る。
【0005】図21では、バッファ1の右隣の入力文字
列“abcdaaaq...”が符号化されるとき、バ
ッファ1内で一致する文字列のうち最長のものは“ab
cd”である。そこで、この最長一致文字列の先頭位置
と入力文字列の先頭位置の相対アドレス“5(バイ
ト)”を一致位置とし、最長一致文字列の長さ“4(バ
イト)”を一致長として、(一致位置,一致長)=
(5,4)のような符号を生成する。これにより、入力
文字列の先頭の“abcd”が(5,4)に置き換えら
れる。同様にして、次の文字列“aaa”は、符号(1
3,3)に置き換えられる。
【0006】しかし、実際に用いられるスライドバッフ
ァはもっと長く、最長一致する文字列を発見するために
バッファ内の文字列を順に検索していくと、膨大な時間
を要する。このため、実際には、バッファ内のすべての
文字列と照合するのではなく、文字列の接頭部(2〜4
文字程度)の出現位置を随時テーブルに登録し、テーブ
ルに保持されている位置の文字列のみと照合している。
このような検索に使用されるテーブルとしては、ルック
アップテーブル(Look Up Table ,LUT)とハッシュ
テーブル(Hash Table)とがある。
【0007】図22は、LUTを用いた文字列検索を示
している。図22のLUT2は、バッファ1内の文字列
の接頭部をアドレスとして、その文字列のバッファ1内
における出現位置(アドレスまたはポインタ)を格納し
ている。そして、検索時には、入力文字列の接頭部をア
ドレスとして、LUT2の領域にアクセスし、対応する
文字列の位置を取得する。
【0008】同じ接頭部の文字列がバッファ1内に複数
存在する場合は、リンクドリスト3の形式で複数の出現
位置が保持される。したがって、LUT2に1回アクセ
スするだけで、バッファ1内のすべての対応する文字列
の位置を取得することができる。ここでは、2文字分の
接頭部が用いられており、入力文字列の接頭部“ab”
に対応するLUT2の領域は、リンクドリスト3を利用
して2つの出現位置を保持している。
【0009】このように、LUTは、検索する文字列を
テーブルの領域に1対1に対応させ、1回のテーブル引
きのみで必要な情報を取得できるため、非常に高速な検
索を行うことができる。しかし、長い文字列を検索する
場合、テーブルに必要な領域の数は出現可能な文字の数
の巾乗で増えるため、必要な領域が膨大になる。例え
ば、出現可能な文字の数を28 =256とすると、n文
字の接頭部に対して256n 個の領域が必要となる。
【0010】ところが、検索する文字列が多少長くなる
と、用意された領域のうち実際に使用される(登録され
る)部分は一部分のみに止まり、テーブル内はまばらな
状態になる。したがって、長い文字列を検索する場合に
は、メモリの使用効率が悪化する。
【0011】そこで、ハッシュテーブルでは、検索文字
列を縮退させて、複数の文字列が1つの領域を共有する
ようにしている。このため、テーブル引きの後で、得ら
れた文字列が実際に検索している文字列かどうかをチェ
ックする必要があるが、LUTに比べて、同等のテーブ
ル領域でより長い文字列を検索することができる。
【0012】図23は、ハッシュテーブルを用いた文字
列検索を示している。図23のハッシュコード生成部4
は、入力文字列の接頭部“abc”からハッシュコード
5を生成し、それをアドレスとしてハッシュテーブル6
にアクセスする。ハッシュテーブル6には、ハッシュコ
ード5に対応するバッファ1内の位置が格納されてお
り、その位置にある文字列“abcde”と入力文字列
を照合することで、両者の接頭部が一致するかどうかが
チェックされる。そして、それらが一致すれば、入力文
字列と一致する文字列がバッファ1内に存在すると判断
される。
【0013】ハッシュテーブルの場合も、LUTの場合
と同様に、バッファ1内の同じ接頭部を持つ複数の文字
列に対しては、リンクドリストの形式で複数の出現位置
が保持される。いずれの場合も、リンクドリストは、最
長一致文字列を検索するために用いられる。
【0014】
【発明が解決しようとする課題】しかしながら、上述し
た従来のデータ圧縮技術には、次のような問題がある。
LUTを用いて長い文字列を検索する場合、上述したよ
うに、膨大な領域を持つテーブルを用意しても、その一
部分のみしか使用されないので、テーブル内はまばらな
状態になる。ハッシュテーブルでは、LUTと比べると
テーブルサイズが小さくなるが、入力データが少なけれ
ば、同じようにテーブル内がまばらな状態になる。した
がって、メモリが必ずしも有効に利用されないという問
題がある。
【0015】また、最長一致文字列を検索する際、リン
クドリストに保持された複数の出現位置を一つ一つ辿ら
なければならず、同じ接頭部を持つ文字列が多くなる
と、検索処理に時間がかかるという問題もある。
【0016】本発明の課題は、辞書型符号化に基づくデ
ータ圧縮において、入力データに応じたリーズナブルな
メモリ量で文字列検索を実現し、最長一致検索を効率よ
く行うデータ圧縮装置およびその方法を提供することで
ある。
【0017】
【課題を解決するための手段】図1は、本発明のデータ
圧縮装置の原理図である。図1のデータ圧縮装置は、デ
ータ格納手段11、ソート手段12、出現位置格納手段
13、検出手段14、および符号化手段15を備える。
【0018】データ格納手段11は、圧縮すべき文字列
データを格納し、ソート手段12は、データ格納手段1
1内の複数のアドレスの各々を始点とする各文字列を、
各文字列の内容に基づいて並べ換える。出現位置格納手
段13は、並べ換えられた文字列の順序で、各文字列の
アドレスを表すアドレス情報を格納する。検出手段14
は、出現位置格納手段13に格納されたアドレス情報に
基づいて、繰返し文字列を検出し、符号化手段15は、
検出された繰返し文字列を符号化して出力する。
【0019】まず、データ格納手段11内の複数のアド
レスの各々に、圧縮すべき文字列データに含まれる各文
字が格納される。次に、ソート手段12は、それらのア
ドレスをそれぞれ始点とする複数の文字列を、各文字列
の内容に基づいて所定の順序で並べ換え、各文字列のア
ドレス情報を、その順序で出現位置格納手段13に格納
する。
【0020】次に、検出手段14は、出現位置格納手段
13に格納された各アドレス情報と、出現位置格納手段
13内におけるそのアドレス情報の順位(格納位置)と
の関係を参照して、データ格納手段11内で繰り返し出
現する文字列を検出する。そして、符号化手段15は、
2回目以降に出現した繰返し文字列を符号化して出力す
る。
【0021】このようなデータ圧縮装置によれば、デー
タ格納手段11内に出現する複数の文字列が、その内容
に応じて規則的に並べ換えられて、出現位置格納手段1
3に格納される。このため、出現位置格納手段13を参
照すれば、同じ文字列が出現する複数の位置を容易に見
つけることができ、文字列検索が効率化される。このと
き、複数の同じ文字列が互いに隣接するように文字列を
並べ換えることで、最長一致検索をさらに効率化するこ
とができる。
【0022】また、出現位置格納手段13内のアドレス
情報の数は、被圧縮データを格納するデータ格納手段1
1内のアドレスの数とほぼ同じになるため、入力データ
にほぼ比例するメモリ量で文字列検索を行うことができ
る。
【0023】例えば、図1のデータ格納手段11、ソー
ト手段12、出現位置格納手段13、および検出手段1
4は、それぞれ、後述する図5の入力バッファ21、ソ
ート部25、出現位置保持部26、および一致検出部2
2に対応し、図1の符号化手段15は、図5の符号生成
部23および符号出力部24に対応する。
【0024】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本実施形態では、入
力文字列を保持する入力バッファを設け、バッファ中の
各アドレスを始点とする各文字列を、文字列の内容に従
って並びかえて、順位リストを生成する。そして、この
順位リストを辞書として利用して文字列検索を行い、一
致位置と一致長を求める。
【0025】例えば、図2のような入力バッファを設け
た場合、まず、バッファ内の各アドレスを始点とする各
文字列から、それぞれ、3文字分の接頭部を抽出し、図
3のような順位リストを生成する。図3の順位リスト
は、図2の入力バッファとほぼ同じ数の要素(レコー
ド)を有するテーブルに対応し、各レコードには、図2
の入力バッファにおいて、各接頭部が出現する位置のア
ドレスが格納される。
【0026】ここでは、入力バッファに、“compr
ession_decompress_compres
sion”という34バイトの入力文字列が保持されて
おり、アドレス1、2、および3からは、それぞれ、
“com”、“omp”、および“mpr”という接頭
部が抽出されている。他のアドレスからも、同様にし
て、3文字の接頭部が抽出される。ただし、記号“_”
はスペースを表す。そして、順位リストには、これらの
接頭部の出現位置に対応する“1”〜“32”のアドレ
スが格納される。
【0027】次に、この順位リストに保持されたアドレ
スを、対応する接頭部の各文字のコード順に並べ換え
て、図4のような順位リストを生成する。図4の順位リ
ストは、図3の順位リストと同じ数のレコードを有し、
並べ換えられた順序で、各接頭部のアドレスを保持して
いる。
【0028】ここでは、“com”や“ssi”のよう
に、入力バッファ内に含まれる複数の同じ接頭部が、出
現順に隣接して並んでいる。このため、ある文字列と同
じ接頭部を持つ文字列のうちで、最近出現したもののア
ドレスは、必ずその文字列のアドレスが格納されたレコ
ードの直前(1つ上の順位)のレコードに格納されてい
る。したがって、入力バッファ内の符号化対象の文字列
を、直前のレコードに保持されたアドレスの文字列と比
較すれば、一致する文字列を容易に検索することができ
る。
【0029】また、他の一致候補のアドレスも連続して
格納されているため、最長一致検索の場合は、符号化対
象の文字列を、連続して格納された複数のアドレスに対
応する複数の文字列と比較すればよく、最長一致検索が
高速化される。さらに、入力バッファと順位リストは、
ほぼ同じ程度の長さになるため、入力バッファの長さに
ほぼ比例したサイズのメモリ量で、検索に必要な情報を
格納することができる。
【0030】次に、図5から図18までを参照しなが
ら、図4に示した順位リストを用いた圧縮処理につい
て、より詳細に説明する。図5は、本実施形態のデータ
圧縮装置の構成図である。図5のデータ圧縮装置は、例
えば、コンピュータを用いて構成され、入力バッファ2
1、一致検出部22、符号生成部23、符号出力部2
4、ソート部25、および出現位置保持部26を備え
る。
【0031】入力バッファ21は、入力された文字列を
被圧縮データ列として保持する。ソート部25は、入力
バッファ21内の各アドレスを始点とする文字列を、文
字列の内容に従って並べ換え、並べ換えられた順序で文
字列のアドレスを保持する順位リスト27を生成する。
出現位置保持部26は、順位リストを出現位置情報とし
て保持する。
【0032】一致検出部22は、順位リスト27の情報
に基づいて、入力バッファ21内の繰返し文字列を検出
し、他の文字列とともに符号生成部23に渡す。符号生
成部23は、一致検出部22から受け取った文字列の符
号を生成し、符号出力部24は、生成された符号を圧縮
データとして出力する。順位リスト27を利用した繰返
し文字列の検索方法としては、次の3つが考えられる。 (1)逆引きテーブル(逆引きリスト)を用いる方法 (2)一致位置テーブル(一致位置リスト)を用いる方
法 (3)検索テーブル(ハッシュテーブル)を用いる方法 まず、図6から図9までは、逆引きリストを用いたデー
タ圧縮処理を示している。
【0033】この場合、一致検出部22は、図6に示す
ように、逆引きリスト31と照合部32を備える。逆引
きリスト31は、入力バッファ21内の符号化対象の文
字列のアドレスから、順位リスト27におけるその文字
列の順位を求めるための情報を格納する。そして、一致
検出部22は、逆引きリスト31から得られた順位より
上の順位のアドレスから始まる文字列を、一致候補とし
て採用する。
【0034】照合部32は、符号化対象の文字列と一致
候補の文字列とを照合し、一致した文字列の長さを求め
る。そして、符号生成部23は、得られた長さを一致長
とし、一致した文字列のアドレスを一致位置として、文
字列を符号化する。最長一致検索を行う場合は、複数の
一致候補のうち最も長い一致長を有するものを符号化す
る。
【0035】例えば、図2の入力文字列からは、図7の
ような逆引きリストと順位リストが生成される。図7の
順位リストOdr2P[]は、図4の順位リストと同様
である。逆引きリストP2Odr[]は、順位リストO
dr2P[]に保持された各アドレスの順位を表す番号
を、それぞれ、そのアドレスに対応するレコードに格納
していくことで、容易に生成される。例えば、順位リス
トOdr2P[]の1番目のアドレス“23”に対して
は、逆引きリストP2Odr[]のアドレス“23”の
レコードに、順位番号“1”が格納されている。
【0036】繰返し文字列を検出するとき、一致検出部
22は、符号化対象の文字列のアドレスに基づいて、逆
引きリストP2Odr[]と順位リストOdr2P[]
にアクセスし、一致候補の文字列を求める。
【0037】例えば、入力バッファInBuf[]のア
ドレス“24”を始点とする文字列“compress
ion”が符号化対象であれば、逆引きリストP2Od
r[]のアドレス“24”に保持された順位番号“5”
を取得し、順位リストOdr2P[]のその順位にアク
セスする。次に、それより上の順位“3”および“4”
に保持されたアドレス“1”および“15”を取得す
る。そして、それらのアドレスを始点とする文字列“c
ompression_decom...”および“d
ecompress_com...”を一致候補とす
る。
【0038】最長一致検索を行わない場合は、1つ上の
順位の文字列“decompress_com...”
のみが一致候補となり、最長一致検索を行う場合は、両
方の文字列が一致候補となる。
【0039】このように、逆引きリストを設けること
で、容易に順位リストにアクセスすることができ、文字
列検索が効率化される。また、逆引きリストは順位リス
トと同じ長さなので、これらを合わせても、入力バッフ
ァの長さにほぼ比例するメモリ量で、必要な情報を格納
することができる。
【0040】図8は、図6の一致検出部を用いたデータ
圧縮処理のフローチャートである。この処理では、最長
一致検索は行われず、最近出現した一致候補のみが検索
される。
【0041】データ圧縮装置は、まず、入力バッファI
nBuf[]に、所定のサイズBUFSIZE分のデー
タを入力し、符号化位置を表す変数tを1とおく(ステ
ップS1)。また、InBuf[]の各アドレスを始点
とする3文字の文字列をアルファベット順に並べて、順
位リストOdr2P[]を作成し、Odr2P[]用の
逆引きリストP2Odr[]を作成する。
【0042】次に、アドレスtを始点とする文字列がt
より前に出現しているかどうかをチェックする。ここで
は、まず、最近出現した一致候補の順位を表す変数od
rを、P2Odr[t]−1とおき、一致位置のアドレ
スを表す変数pを、Odr2P[odr]とおく(ステ
ップS2)。odrは、Odr2P[]において、符号
化位置を始点とする文字列の順位の1つ上の順位に対応
する。
【0043】次に、アドレスtを始点とする3文字の文
字列Ct=(InBuf[t],InBuf[t+
1],InBuf[t+2])と、アドレスpを始点と
する3文字の文字列Cpとを比較する(ステップS
3)。
【0044】CtとCpが一致すれば、Cpで始まる文
字列を一致候補として、次に、一致長を求める。ここで
は、まず、一致長を表す変数sを3とおき(ステップS
4)、InBuf[t+s]とInBuf[p+s]を
比較する(ステップS5)。これらが一致すれば、s=
s+1とおいて(ステップS6)、ステップS5の処理
を繰り返す。
【0045】ステップS5において、InBuf[t+
s]とInBuf[p+s]が一致しなければ、(p,
s)を符号として出力し、t=t+sとおいて(ステッ
プS7)、tとBUFSIZEを比較する(ステップS
8)。そして、t<BUFSIZEであれば、ステップ
S2以降の処理を繰り返す。
【0046】ステップS8において、t≧BUFSIZ
Eとなれば、次に、被圧縮データが終了したかどうかを
チェックする(ステップS9)。被圧縮データが残って
いれば、ステップS1以降の処理を繰り返し、被圧縮デ
ータがなくなれば、処理を終了する。
【0047】また、ステップS3において、CtとCp
が一致しなければ、一致候補が存在しないので、Ctの
先頭文字InBuf[t]をそのまま符号として出力
し、t=t+1とおいて(ステップS10)、ステップ
S8以降の処理を行う。
【0048】例えば、図7の被圧縮データの場合は、図
8の処理により、“compression_de
(1,8)_(15,8)(9,3)”のような圧縮デ
ータが生成される。
【0049】図9は、最長一致検索を行う場合のデータ
圧縮処理のフローチャートである。図9のステップS1
1、S13〜S16、およびS22〜S24の処理は、
図8のステップS1、S3〜S6、およびS8〜S10
の処理と同様である。
【0050】ステップS11において、Odr2P[]
とP2Odr[]を作成すると、データ圧縮装置は、次
に、odr=P2Odr[t]−1、p=Odr2P
[odr]とおく(ステップS12)。このとき、さら
に、最長一致文字列の一致位置を表す変数preをpと
おき、その一致長を表す変数lenを0とおく。そし
て、ステップS3〜S6の処理により、最近出現した一
致候補の一致長sを求める。
【0051】次に、sとlenを比較し(ステップS1
7)、s>lenであれば、len=s、pre=pと
おく(ステップS18)。そして、より長い一致候補を
求めるために、odr=odr−1、p=Odr2P
[odr]とおいて(ステップS19)、CtとCpを
比較する(ステップS20)。ステップS17におい
て、s≦lenであれば、lenとpreを更新せず
に、ステップS19以降の処理を行う。
【0052】CtとCpが一致すれば、新たな一致候補
が見つかったので、ステップS14以降の処理を繰り返
し、その候補の一致長がlenより長ければ、lenと
preを更新する。
【0053】そして、ステップS20において、Ctと
Cpが一致しなくなると、(pre,len)を符号と
して出力し、t=t+lenとおいて(ステップS2
1)、ステップS22以降の処理を行う。こうして、最
終的に、一致長が最も長い文字列の位置と長さが符号と
して出力される。
【0054】例えば、図7の被圧縮データの場合は、図
9の処理により、“compression_de
(1,8)_(1,11)”のような圧縮データが生成
される。次に、図10から図13までは、一致位置リス
トを用いたデータ圧縮処理を示している。この処理で
は、入力データは、一旦、一致位置リストに変換されて
から圧縮される。
【0055】この場合、一致検出部22は、図10に示
すように、一致位置リスト41、領域検出部42、およ
び照合部43を備える。一致位置リスト41は、順位リ
スト27から生成され、入力バッファ21内の各文字列
のアドレスから最近出現した同じ文字列の位置(一致位
置)を求めるための情報を格納する。
【0056】例えば、図7の順位リストOdr2P[]
は、図11のような一致位置リストP2PreP[]に
変換される。この一致位置リストP2PreP[]は、
入力バッファの要素と同じ数のレコードからなる。そし
て、各アドレスのレコードには、順位リストOdr2P
[]において、そのアドレスを始点とする接頭部の順位
の1つ上の順位に保持されたアドレスが、一致位置とし
て格納されている。ただし、1つ上の順位に登録された
接頭部が異なる場合は、一致候補が存在しないことを表
す記号“N”が格納される。
【0057】一致位置リストP2PreP[]の生成時
に、一致検出部22は、順位リストOdr2P[]に保
持されたアドレスを上位から順に見ていく。そして、注
目する順位に登録された接頭部が1つ上の順位に登録さ
れた接頭部と同じであれば、前者の順位に保持されたア
ドレスに対応するレコードに、後者の順位に保持された
アドレスを格納する。
【0058】また、注目する順位に登録された接頭部が
1つ上の順位に登録された接頭部と異なれば、前者の順
位に保持されたアドレスに対応するレコードに、記号
“N”を格納する。このような操作を繰返すことで、一
致位置リストP2PreP[]が容易に生成される。
【0059】例えば、順位リストOdr2P[]の1番
目のアドレス“23”に対しては、1つ上の順位のレコ
ードが存在しない。そこで、一致位置リストP2Pre
P[]のアドレス“23”には、記号“N”が格納され
る。また、順位リストOdr2P[]の5番目のアドレ
ス“24”に対しては、4番目のアドレス“15”のレ
コードが同じ接頭部“com”に対応する。そこで、一
致位置リストP2PreP[]のアドレス“24”に
は、4番目のレコードに保持されたアドレス“15”が
格納される。
【0060】図10の領域検出部42は、このような一
致位置リスト41の隣接するレコードの値(アドレス)
を比較して、一致位置を示す値が連続して1ずつ増えて
いるような領域を検出する。そして、符号生成部23
は、その領域の先頭の値を一致位置とし、値が連続して
いる長さから一致長を求めて、文字列を符号化する。
【0061】例えば、図11の一致位置リストP2Pr
eP[]では、アドレス“15”〜“20”の領域にお
いて、レコードの値が“1”から“6”まで連続して1
ずつ増えている。そこで、この領域の長さ“6”に、順
位リストに登録された接頭部の長さ“3”を加え、
“1”を引いた結果“8(=6+3−1)”を、一致長
とする。そして、先頭のレコードの値“1”を一致位置
として、(1,8)のような符号が生成される。
【0062】また、最長一致検索を行う場合、領域検出
部42は、一致位置リスト41において、値が連続して
いる領域が2つ以上繋がっている部分を検出する。そし
て、一致検出部22は、検出された複数の連続領域に保
持されているアドレスを分析して、複数の一致候補の位
置を求める。
【0063】次に、照合部32は、符号化対象の文字列
と各一致候補の文字列とを照合し、一致した文字列の長
さを求める。そして、符号生成部23は、複数の一致候
補のうち、一致した長さが最も長いものの一致位置と一
致長を用いて、文字列を符号化する。
【0064】例えば、図11の一致位置リストP2Pr
eP[]では、アドレス“24”〜“29”の領域にお
いて、レコードの値が“15”から“20”まで連続し
て増えており、アドレス“30”〜“32”の領域にお
いて、レコードの値が“7”から“9”まで連続して増
えている。これらの2つの連続領域は繋がっているた
め、アドレス“24”を始点とする文字列“compr
ession”を符号化対象として、最長一致検索が行
われる。
【0065】この場合、2番目の連続領域“30”〜
“32”の値に基づいて、1番目の連続領域のアドレス
“24”には、アドレス“15”の一致候補より長いア
ドレス“1”の候補があることが分かる。その一致長
は、2つの連続領域の長さ“9”に、接頭部の長さ
“3”を加え、“1”を引くことで求められ、“11
(=9+3−1)”となる。こうして、(1,11)の
ような符号が生成される。
【0066】3個以上の連続領域が繋がっている場合
も、同様にして、最長一致文字列の一致位置と一致長を
表す符号が生成される。一般に、n個の連続領域が繋が
っている場合は、少なくともn個の一致候補が存在し、
それらの中に最長一致文字列が含まれている。
【0067】このように、順位リストを一致位置リスト
に変換することで、一致位置と一致長が容易に求められ
るようになり、文字列検索が効率化される。また、一致
位置リストは入力バッファと同じ長さなので、入力バッ
ファの長さに比例するメモリ量で、必要な情報を格納す
ることができる。図11では、一致位置のアドレスその
ものを一致位置リストに格納しているが、各アドレスか
ら一致位置までの相対アドレスを格納してもよい。
【0068】図12は、図10の一致検出部を用いたデ
ータ圧縮処理のフローチャートである。この処理では、
最長一致検索は行われず、最近出現した一致候補のみが
検索される。
【0069】データ圧縮装置は、まず、入力バッファI
nBuf[]に、BUFSIZE分のデータを入力し、
変数tを1とおく(ステップS31)。また、InBu
f[]のデータから順位リストOdr2P[]を作成
し、Odr2P[]から一致位置リストP2Pre
P[]を作成する。
【0070】次に、P2PreP[t]を“N”と比較
して、アドレスtを始点とする文字列の一致候補が存在
するかどうかをチェックする(ステップS32)。そし
て、その値が“N”でなければ、一致候補が存在するの
で、“連続領域の長さ−1”を表す変数sを0とおい
て、P2PreP[t+s]とP2PreP[t+s+
1]−1とを比較する(ステップS34)。
【0071】P2PreP[t+s]とP2PreP
[t+s+1]−1が一致すれば、P2PreP[t+
s+1]は“N”ではなく、P2PreP[t+s]よ
り1だけ大きい値を表す。そこで、s=s+1とおいて
(ステップS35)、ステップS34の処理を繰り返
す。
【0072】ステップS34において、P2PreP
[t+s]とP2PreP[t+s+1]−1が一致し
なければ、P2PreP[t]を一致位置とし、s+3
を一致長として、符号(P2PreP[t],(s+
3))を出力する(ステップS36)。そして、t=t
+s+3とおいて、tとBUFSIZEを比較する(ス
テップS37)。そして、t<BUFSIZEであれ
ば、ステップS32以降の処理を繰り返す。
【0073】ステップS37において、t≧BUFSI
ZEとなれば、次に、被圧縮データが終了したかどうか
をチェックする(ステップS38)。被圧縮データが残
っていれば、ステップS31以降の処理を繰り返し、被
圧縮データがなくなれば、処理を終了する。
【0074】また、ステップS32において、P2Pr
eP[t]が“N”であれば、一致候補が存在しないの
で、InBuf[t]をそのまま符号として出力し、t
=t+1とおいて(ステップS39)、ステップS37
以降の処理を行う。
【0075】例えば、図7の被圧縮データの場合は、図
12の処理により、“compression_de
(1,8)_(15,8)(9,3)”のような圧縮デ
ータが生成される。
【0076】図13は、最長一致検索を行う場合のデー
タ圧縮処理のフローチャートである。図13のステップ
S41〜S42、S44〜S45、およびS50〜S5
2の処理は、図12のステップS31〜S32、S34
〜S35、およびS37〜S39の処理と同様である。
【0077】ステップS42において、P2PreP
[t]が“N”でなければ、データ圧縮装置は、次に、
s=0とおき、最長一致文字列の一致位置を表す変数p
をP2PreP[t]とおく(ステップS43)。そし
て、ステップS44〜S45の処理により、sの値を更
新する。
【0078】ステップS44において、P2PreP
[t+s]とP2PreP[t+s+1]−1が一致し
なければ、次に、P2PreP[t+s+1]と“N”
を比較して、最初の連続領域と繋がった次の連続領域が
存在するかどうかをチェックする(ステップS46)。
【0079】例えば、図11の場合は、t=24、s=
5のときに、P2PreP[24+5]=20となり、
P2PreP[24+5+1]−1=7−1=6となっ
て、両者が一致しないので、P2PreP[30]=7
が“N”と比較される。
【0080】P2PreP[t+s+1]が“N”でな
ければ、次の連続領域が存在することが分かる。そこ
で、その領域の先頭の値P2PreP[t+s+1]か
ら求められるアドレスP2PreP[t+s+1]−
(s+1)を新たな一致候補の位置として、その文字列
と符号化対象の文字列とを比較する。
【0081】ここでは、まず、アドレスtを始点とする
長さs+1の文字列をStr(t,s)=(InBuf
[t],InBuf[t+1],...,InBuf
[t+s])とおいて、Str(P2PreP[t+s
+1]−(s+1),s)とStr(t,s)とを比較
する(ステップS47)。
【0082】これらの文字列が一致すれば、新たな一致
候補を最長一致文字列とみなして、s=s+1とおき、
p=P2PreP[t+s+1]−(s+1)とおいて
(ステップS48)、ステップS44以降の処理を繰り
返す。
【0083】そして、ステップS47において、2つの
文字列が一致しなくなると、(p,(s+3))を符号
として出力し、t=t+s+3とおいて(ステップS4
9)、ステップS50以降の処理を行う。
【0084】また、ステップS46において、P2Pr
eP[t+s+1]が“N”であれば、次の連続領域が
存在しないので、そのままステップS49以降の処理を
行う。こうして、最終的に、一致長が最も長い文字列の
位置と長さが符号として出力される。
【0085】図11の場合は、ステップS47におい
て、Str(P2PreP[24+5+1]−(5+
1),5)=Str(1,5)とStr(24,5)が
比較される。これらの文字列はともに“compre”
を表すので、次に、s=6、p=1とおいて、ステップ
S44以降の処理が繰り返される。
【0086】そして、s=8のとき、ステップS46に
おいて、P2PreP[24+8+1]=Nとなるの
で、(1,(8+3))=(1,11)のような符号が
生成される。したがって、最終的には、“compre
ssion_de(1,8)_(1,11)”のような
圧縮データが生成される。
【0087】次に、図14から図16までは、ハッシュ
テーブルを用いたデータ圧縮処理を示している。この処
理では、図7の逆引きリストの代わりに、ハッシュテー
ブルを用いて、順位リストがアクセスされる。
【0088】この場合、一致検出部22は、図14に示
すように、ハッシュテーブル51、照合部52、および
更新部53を備える。ハッシュテーブル51は、入力バ
ッファ21内の符号化対象の文字列の接頭部から、順位
リスト27における同じ接頭部を有する文字列の順位を
求めるための情報を格納する。そして、一致検出部22
は、ハッシュテーブル51から得られた順位、または、
それより上の順位のアドレスから始まる文字列を、一致
候補として採用する。
【0089】照合部52は、符号化対象の文字列と一致
候補の文字列とを照合し、一致した文字列の長さを求め
る。そして、符号生成部23は、得られた長さを一致長
とし、一致した文字列のアドレスを一致位置として、文
字列を符号化する。最長一致検索を行う場合は、複数の
一致候補のうち最も長い一致長を有するものを符号化す
る。また、更新部53は、ハッシュテーブル51から得
られる順位を、最近出現した、同じ接頭部を有する文字
列の順位に変更する。
【0090】図15は、このようなハッシュテーブルを
用いて順位リストにアクセスする処理の例を示してい
る。図15の順位リストOdr2P[]は、図4の順位
リストと同様である。ハッシュテーブルhash2Od
r[]は、ハッシュ値をアドレスとして、順位リストO
dr2P[]における順位番号を格納する。このテーブ
ルにアクセスするためのハッシュ値は、例えば、図23
に示したようなハッシュコード生成部4により、ハッシ
ュ関数Hを用いて生成される。また、このテーブルのサ
イズは一般に2M であり、整数Mにより指定される。
【0091】順位リストOdr2P[]に複数の同じ接
頭部が登録されている場合、初期状態のハッシュテーブ
ルhash2Odr[]には、その接頭部から得られる
ハッシュ値に対応して、それらの接頭部のブロックの1
つ上の順位番号が保持される。例えば、3文字の接頭部
“com”は、順位リストOdr2P[]の3番目、4
番目、および5番目に登録されているが、圧縮処理の開
始時には、“com”のハッシュ値H(“com”)に
対応するアドレスに、順位番号“2”が格納される。
【0092】繰返し文字列を検出するとき、一致検出部
22は、符号化対象の文字列の3文字の接頭部に基づい
て、ハッシュテーブルhash2Odr[]と順位リス
トOdr2P[]にアクセスし、一致候補の文字列を求
める。
【0093】例えば、入力バッファInBuf[]のア
ドレス“1”を始点とする文字列“compressi
on_decom...”が符号化対象であれば、ま
ず、3文字の接頭部“com”からハッシュ値H(“c
om”)を生成する。次に、ハッシュテーブルhash
2Odr[]において、そのハッシュ値のアドレスに保
持された順位番号“2”を取得し、順位リストOdr2
P[]のその順位にアクセスする。
【0094】この場合、その順位には同じ接頭部が登録
されていないので、一致候補は存在しない。そこで、先
頭文字“c”をそのまま出力して、ハッシュテーブルh
ash2Odr[]のアドレスH(“com”)に保持
された順位番号“2”に1を加算する。これにより、接
頭部“com”から得られる順位“2”が、1つ下の順
位“3”に変更される。
【0095】その後、アドレス“15”を始点とする文
字列“compress_com...”が符号化対象
になったとき、接頭部“com”のハッシュ値に基づ
き、ハッシュテーブルhash2Odr[]から、更新
された順位番号“3”を取得する。そして、順位リスト
Odr2P[]のその順位にアクセスする。
【0096】次に、その順位“3”に保持されたアドレ
ス“1”を取得し、そのアドレスを始点とする文字列
“compression_decom...”を一致
候補とする。そして、一致位置と一致長の符号を出力
し、再び、ハッシュテーブルhash2Odr[]の値
を更新する。これにより、接頭部“com”から得られ
る順位“3”が、1つ下の順位“4”に変更される。
【0097】その後、アドレス“24”を始点とする文
字列“compression”が符号化対象になった
とき、ハッシュテーブルhash2Odr[]から、更
新された順位番号“4”を取得し、順位リストOdr2
P[]のその順位にアクセスする。
【0098】次に、その順位“3”と、その1つ上の順
位“4”に保持されたアドレス“1”、“15”を取得
する。そして、それらのアドレスを始点とする文字列
“compression_decom...”および
“decompress_com...”を一致候補と
する。ここで、最長一致検索を行わない場合は、順位
“3”の文字列“decompress_co
m...”のみが一致候補となり、最長一致検索を行う
場合は、両方の文字列が一致候補となる。
【0099】このように、ハッシュテーブルを設けるこ
とで、容易に順位リストにアクセスすることができ、文
字列検索が効率化される。また、ハッシュテーブルの長
さは順位リストの長さ以下にすることができるので、こ
れらを合わせても、入力バッファの長さに比例するメモ
リ量以内で、必要な情報を格納することができる。ま
た、符号化が行われる度に、ハッシュテーブルが指す順
位を1つずつ下にシフトすることにより、最近出現した
一致候補の順位を保持することができ、最長一致検索が
効率化される。
【0100】図16は、図14の一致検出部を用いたデ
ータ圧縮処理のフローチャートである。この処理では、
最長一致検索は行われず、最近出現した一致候補のみが
検索される。図16のステップS63〜S67およびS
69〜S71の処理は、図8のステップS3〜S7およ
びS8〜S10の処理と同様である。
【0101】データ圧縮装置は、まず、入力バッファI
nBuf[]に、BUFSIZE分のデータを入力し、
変数tを1とおく(ステップS61)。また、InBu
f[]のデータから順位リストOdr2P[]を作成
し、Odr2P[]用のハッシュテーブルhash2O
dr[]を作成する。
【0102】次に、ここでは、まず、アドレスtを始点
とする3文字の文字列をCt=(InBuf[t],I
nBuf[t+1],InBuf[t+2])として、
ハッシュ値を表す変数hashをH(Ct)とおく(ス
テップS62)。また、最近出現した一致候補の順位を
表す変数odrを、hash2Odr[hash]とお
き、一致位置を表す変数pを、Odr2P[odr]と
おく。
【0103】次に、ステップS63〜S67の処理によ
り、アドレスtを始点とする文字列がtより前に出現し
ているかどうかをチェックし、そのような文字列が出現
していれば、一致位置と一致長を符号として出力する。
そして、hash2Odr[hash]に1を加算し
て、hashに対応する順位を1つ下にシフトし(ステ
ップS68)、ステップS69以降の処理を行う。ま
た、ステップS71において、InBuf[t]を符号
として出力し、t=t+1とおいた後は、ステップS6
8以降の処理を行う。
【0104】図16の処理による圧縮結果は、図8の処
理による結果と同様である。また、最長一致検索を行う
場合は、図16の処理に対して、図9と同様の変更を加
えればよい。
【0105】ところで、上述した順位リストは、入力バ
ッファ内の各アドレスを始点とする文字列の接頭部を、
各文字のコード順にソートして、各文字列の出現位置の
アドレスを並べ換えることにより、生成される。このと
き、基底法(radix sort)、クイックソート、バブルソ
ート等の任意のソート方法を用いることができる。
【0106】例えば、基底法では、N文字(Nバイト)
の接頭部に含まれるk番目(k=1,...,N)の文
字に注目してビンソート(bin sort)を行う操作を、N
番目の文字から順に繰り返すことで、ソート処理が行わ
れる。また、クイックソートでは、N文字の接頭部の集
合を1つの接頭部を基準にして2つに分割する操作を繰
り返すことで、ソート処理が行われる。また、バブルソ
ートでは、隣接する2つの接頭部を比較して、その結果
からそれらの接頭部を交換する操作を繰り返すことで、
ソート処理が行われる。
【0107】図17および図18は、基底法に基づく順
位リスト生成処理のフローチャートである。ここでは、
図5のソート部25により、3文字の接頭部の各文字に
ついてビンソートが行われる。実験的には、接頭部を3
文字に限定してソートすることで、最長一致検索が効率
化されることが分かっている。
【0108】ビンソートにおいては、0〜255の各値
(文字コード)の出現回数がカウントされ、各カウント
値を元にして、その文字コード未満の文字コードの個数
が計算される。これにより、出現した各文字コードが最
終的に配列のどの位置に納まるべきかが決定される。
【0109】入力バッファInBuf[]にBUFSI
ZE分のデータが入力されると、ソート部25は、ま
ず、0〜255の文字コードの出現回数を表す配列Co
unter[256]の各要素を0に初期化し、変数t
を1とおく(ステップS81)。
【0110】次に、Counter[InBuf
[t]]に1を加算して、InBuf[t]に保持され
た文字コードの出現回数をインクリメントする(ステッ
プS82)。そして、tに1を加算して、tとBUFS
IZEを比較する(ステップS83)。t<BUFSI
ZEであれば、ステップS82の処理を繰り返し、tが
BUFSIZEに達すると、t=1、Sum[0]=0
とおく(ステップS84)。
【0111】次に、Sum[t]=Counter[t
−1]+Sum[t−1]とおき、tに1を加算して
(ステップS85)、tと256を比較する(ステップ
S86)。ここで、Sum[t]は、0〜t−1までの
文字コードの出現回数の総和を表す。t≦256であれ
ば、ステップS85の処理を繰り返し、tが256を越
えると、次に、図18の処理を行う。
【0112】図18では、ソート部25は、まず、接頭
部の3番目の文字でビンソートを行う。この場合、ま
ず、t=1とおき、StackP[]にSum[]をコ
ピーする(ステップS87)。ここで、配列A[]は、
InBuf[]のアドレスtを始点とする文字列の3番
目の文字でソートしたアドレスを格納する。3番目の文
字が値xである場合、StackP[x]は、ソート結
果として格納されるべき配列A[]の添字を格納する。
【0113】次に、A[StackP[InBuf[t
+2]]]=tとおき、StackP[InBuf[t
+2]]に1を加算し、tに1を加算する(ステップS
88)。ここで、StackP[InBuf[t+
2]]は、アドレスtを始点とする接頭部の3番目の文
字に対応するA[]の添字を表し、A[StackP
[InBuf[t+2]]]は、その接頭部のアドレス
を表す。次に、tとBUFSIZEを比較し(ステップ
S89)、t<BUFSIZEであれば、ステップS8
8の処理を繰り返す。
【0114】そして、tがBUFSIZEに達すると、
次に、生成された配列A[]を、接頭部の2番目の文字
でビンソートする。この場合、まず、t=1とおき、S
tackP[]にSum[]をコピーする(ステップS
90)。ここで、配列StackP[]は、ソート結果
を格納する配列B[]の添字を格納する。
【0115】次に、B[StackP[InBuf[A
[t]+1]]]=tとおき、StackP[InBu
f[A[t]+1]]に1を加算し、tに1を加算する
(ステップS91)。ここで、StackP[InBu
f[A[t]+1]]は、配列A[]の添字tの位置に
格納された接頭部の2番目の文字に対応するB[]の添
字を表し、B[StackP[InBuf[A[t]+
1]]]は、その接頭部のアドレスを表す。次に、tと
BUFSIZEを比較し(ステップS92)、t<BU
FSIZEであれば、ステップS91の処理を繰り返
す。
【0116】そして、tがBUFSIZEに達すると、
次に、生成された配列B[]を、接頭部の1番目の文字
でビンソートする。この場合、まず、t=1とおき、S
tackP[]にSum[]をコピーする(ステップS
93)。ここで、配列StackP[]は、ソート結果
を格納する順位リストOdr2P[]の添字(順位番
号)を格納する。
【0117】次に、Odr2P[StackP[InB
uf[B[t]]]]=tとおき、StackP[In
Buf[B[t]]]に1を加算し、tに1を加算する
(ステップS94)。ここで、StackP[InBu
f[B[t]]]は、配列B[]の添字tの位置に格納
された接頭部の1番目の文字の順位を表し、Odr2P
[StackP[InBuf[B[t]]]]は、その
接頭部のアドレスを表す。
【0118】次に、tとBUFSIZEを比較し(ステ
ップS95)、t<BUFSIZEであれば、ステップ
S94の処理を繰り返す。そして、tがBUFSIZE
に達すると、処理を終了する。こうして、順位リストO
dr2P[]が生成される。
【0119】上述の実施形態では、順位リストを生成す
るときに、各文字列の固定長(N文字)の接頭部を比較
することで文字列をソートしているが、その代わりに、
可変長の接頭部を比較するようにしてもよい。また、上
述の実施形態では、LZ77符号化における文字列検索
について説明したが、本発明は、LZ77符号化に限ら
ず、任意の符号化における文字列検索に適用することが
できる。
【0120】図5のデータ圧縮装置は、例えば、図19
に示すような情報処理装置(コンピュータ)を用いて構
成することができる。図19の情報処理装置は、CPU
(中央処理装置)61、メモリ62、入力装置63、出
力装置64、外部記憶装置65、媒体駆動装置66、お
よびネットワーク接続装置67を備え、それらはバス6
8により互いに接続されている。
【0121】メモリ62は、例えば、ROM(read onl
y memory)、RAM(random access memory)等を含
み、処理に用いられるプログラムとデータを格納する。
CPU61は、メモリ62を利用してプログラムを実行
することにより、必要な処理を行う。
【0122】例えば、図5の入力バッファ21、出現位
置保持部26、図6の逆引きリスト31、図10の一致
位置リスト41、および図14のハッシュテーブル51
は、メモリ62内に設けられる。また、図5の一致検出
部22、符号生成部23、符号出力部24、ソート部2
5、図6の照合部32、図10の領域検出部42、照合
部43、図14の照合部52および更新部53は、プロ
グラムにより記述されたソフトウェアコンポーネントと
してメモリ62に格納される。
【0123】入力装置63は、例えば、キーボード、ポ
インティングデバイス、タッチパネル等であり、ユーザ
からの指示や情報の入力に用いられる。出力装置64
は、例えば、ディスプレイ、プリンタ、スピーカ等であ
り、ユーザへの問い合わせや処理結果の出力に用いられ
る。
【0124】外部記憶装置65は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク(magneto-op
tical disk)装置、テープ装置等である。情報処理装置
は、この外部記憶装置65に、上述のプログラムとデー
タを保存しておき、必要に応じて、それらをメモリ62
にロードして使用する。
【0125】媒体駆動装置66は、可搬記録媒体69を
駆動し、その記録内容にアクセスする。可搬記録媒体6
9としては、メモリカード、フロッピー(登録商標)デ
ィスク、CD−ROM(compact disk read only memor
y )、光ディスク、光磁気ディスク等、任意のコンピュ
ータ読み取り可能な記録媒体が用いられる。ユーザは、
この可搬記録媒体69に上述のプログラムとデータを格
納しておき、必要に応じて、それらをメモリ62にロー
ドして使用する。
【0126】ネットワーク接続装置67は、LAN(Lo
cal Area Network)等の任意の通信ネットワークに接続
され、通信に伴うデータ変換を行う。また、情報処理装
置は、上述のプログラムとデータをネットワーク接続装
置67を介して他の装置から受け取り、必要に応じて、
それらをメモリ62にロードして使用する。
【0127】図20は、図19の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体69や
外部のデータベース70に保存されたプログラムとデー
タは、メモリ62にロードされる。そして、CPU61
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。
【0128】(付記1) 圧縮すべき文字列データを格
納するデータ格納手段と、前記データ格納手段内の複数
のアドレスの各々を始点とする各文字列を、各文字列の
内容に基づいて並べ換えるソート手段と、並べ換えられ
た文字列の順序で、各文字列のアドレスを表すアドレス
情報を格納する出現位置格納手段と、前記出現位置格納
手段に格納されたアドレス情報に基づいて、繰返し文字
列を検出する検出手段と、検出された繰返し文字列を符
号化して出力する符号化手段とを備えることを特徴とす
るデータ圧縮装置。 (付記2) 前記ソート手段は、各文字列に含まれる所
定文字数の接頭部を用いて、文字列を並べ換えることを
特徴とする付記1記載のデータ圧縮装置。 (付記3) 前記ソート手段は、各文字列に含まれる3
文字の接頭部を用いて、前記文字列を並べ換えることを
特徴とする付記2記載のデータ圧縮装置。 (付記4) 前記ソート手段は、複数の同じ接頭部が互
いに隣接するように、前記文字列を並べ換えることを特
徴とする付記2記載のデータ圧縮装置。 (付記5) 前記ソート手段は、基底法を用いて、前記
文字列を並べ換えることを特徴とする付記2記載のデー
タ圧縮装置。 (付記6) 前記ソート手段は、クイックソートを用い
て、前記文字列を並べ換えることを特徴とする付記2記
載のデータ圧縮装置。 (付記7) 符号化対象文字列のアドレスから、前記出
現位置格納手段における該符号化対象文字列の順位を求
めるための情報を格納する逆引き手段をさらに備え、前
記検出手段は、該逆引き手段から得られた順位より上の
順位に格納されたアドレス情報に対応する文字列を一致
候補とし、該符号化対象文字列と該一致候補とを照合し
て一致長を求め、前記符号化手段は、該一致候補の位置
を示す情報と該一致長とを用いて、該符号化対象文字列
を符号化することを特徴とする付記1記載のデータ圧縮
装置。 (付記8) 各文字列のアドレスに対応して、最近出現
した同じ文字列のアドレス情報を格納する一致位置格納
手段をさらに備え、前記検出手段は、前記出現位置格納
手段に格納されたアドレス情報から、該一致位置格納手
段に格納されるアドレス情報を生成し、該一致位置格納
手段の隣接するアドレス情報を比較して、アドレス情報
が連続している連続領域を検出し、前記符号化手段は、
該連続領域の位置に対応する文字列を符号化対象文字列
とし、該連続領域に格納されたアドレス情報と該連続領
域の長さとを用いて、該符号化対象文字列を符号化する
ことを特徴とする付記1記載のデータ圧縮装置。 (付記9) 前記検出手段は、前記出現位置格納手段の
1つの順位に注目し、注目する順位の文字列の接頭部が
1つ上の順位の文字列の接頭部と同じであるとき、前記
一致位置格納手段において、該注目する順位に格納され
たアドレス情報に対応する位置に、該1つ上の順位に格
納されたアドレス情報を格納することを特徴とする付記
8記載のデータ圧縮装置。 (付記10) 前記検出手段は、前記一致位置格納手段
内で2つ以上の連続領域が繋がっている部分を検出し、
該2つ以上の連続領域に格納されたアドレス情報に基づ
いて複数の一致候補の文字列を求め、前記符号化手段
は、該複数の一致候補のうち最も長い一致長を有する一
致候補の位置を示す情報と、該最も長い一致長とを用い
て、前記符号化対象文字列を符号化することを特徴とす
る付記8記載のデータ圧縮装置。 (付記11) 符号化対象文字列に含まれる所定文字数
の接頭部から、前記出現位置格納手段における同じ接頭
部を含む文字列の順位を求めるための情報を格納する検
索手段をさらに備え、前記検出手段は、該検索手段から
得られた順位に格納されたアドレス情報に対応する文字
列を一致候補とし、該符号化対象文字列と該一致候補と
を照合して一致長を求め、前記符号化手段は、該一致候
補の位置を示す情報と該一致長とを用いて、該符号化対
象文字列を符号化することを特徴とする付記1記載のデ
ータ圧縮装置。 (付記12) 前記検出手段は、前記所定文字数の接頭
部に対応して前記検索手段から得られる順位が、最近出
現した同じ接頭部を含む文字列の順位になるように、該
検索手段に格納された情報を更新することを特徴とする
付記11記載のデータ圧縮装置。 (付記13) コンピュータのためのプログラムを記録
した記録媒体であって、前記プログラムは、圧縮すべき
文字列データが有する複数のアドレスの各々を始点とす
る各文字列を、各文字列の内容に基づいて並べ換え、並
べ換えられた文字列の順序で、各文字列のアドレスを表
すアドレス情報を記録し、記録されたアドレス情報に基
づいて、繰返し文字列を検出し、検出された繰返し文字
列を符号化する処理を前記コンピュータに実行させるこ
とを特徴とするコンピュータ読み取り可能な記録媒体。 (付記14) 圧縮すべき文字列データが有する複数の
アドレスの各々を始点とする各文字列を、各文字列の内
容に基づいて並べ換え、並べ換えられた文字列の順序
で、各文字列のアドレスを表すアドレス情報を記録し、
記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化することを特徴
とするデータ圧縮方法。 (付記15) 圧縮すべき文字列データが有する複数の
アドレスの各々を始点とする各文字列を、各文字列の内
容に基づいて並べ換え、並べ換えられた文字列の順序
で、各文字列のアドレスを表すアドレス情報を記録し、
記録されたアドレス情報に基づいて、繰返し文字列を検
出し、検出された繰返し文字列を符号化する処理をコン
ピュータに実行させるためのプログラム。
【0129】
【発明の効果】本発明によれば、データを圧縮すると
き、入力データにほぼ比例したメモリ量で文字列検索を
行うことができ、特に、少量のデータを圧縮する場合、
既存の方法より少ないメモリ量で済む。また、最長一致
文字列の検索の負荷が低いため、高い圧縮率の処理を高
速に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明のデータ圧縮装置の原理図である。
【図2】入力バッファを示す図である。
【図3】第1の順位リストを示す図である。
【図4】第2の順位リストを示す図である。
【図5】データ圧縮装置の構成図である。
【図6】第1の一致検出部の構成図である。
【図7】逆引きリストと順位リストを示す図である。
【図8】第1の圧縮処理のフローチャートである。
【図9】第2の圧縮処理のフローチャートである。
【図10】第2の一致検出部の構成図である。
【図11】順位リストと一致位置リストを示す図であ
る。
【図12】第3の圧縮処理のフローチャートである。
【図13】第4の圧縮処理のフローチャートである。
【図14】第3の一致検出部の構成図である。
【図15】ハッシュテーブルと順位リストを示す図であ
る。
【図16】第5の圧縮処理のフローチャートである。
【図17】順位リスト生成処理のフローチャート(その
1)である。
【図18】順位リスト生成処理のフローチャート(その
2)である。
【図19】情報処理装置の構成図である。
【図20】記録媒体を示す図である。
【図21】従来の圧縮方法を示す図である。
【図22】LUTによる検索を示す図である。
【図23】ハッシュテーブルによる検索を示す図であ
る。
【符号の説明】
1 スライドバッファ 2 LUT 3 リンクドリスト 4 ハッシュコード生成部 5 ハッシュ値 6、51 ハッシュテーブル 11 データ格納手段 12 ソート手段 13 出現位置格納手段 14 検出手段 15 符号化手段 21 入力バッファ 22 一致検出部 23 符号生成部 24 符号出力部 25 ソート部 26 出現位置保持部 27 順位リスト 31 逆引きリスト 32、43、52 照合部 41 一致位置リスト 42 領域検出部 53 更新部 61 CPU 62 メモリ 63 入力装置 64 出力装置 65 外部記憶装置 66 媒体駆動装置 67 ネットワーク接続装置 68 バス 69 可搬記録媒体 70 データベース

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 圧縮すべき文字列データを格納するデー
    タ格納手段と、 前記データ格納手段内の複数のアドレスの各々を始点と
    する各文字列を、各文字列の内容に基づいて並べ換える
    ソート手段と、 並べ換えられた文字列の順序で、各文字列のアドレスを
    表すアドレス情報を格納する出現位置格納手段と、 前記出現位置格納手段に格納されたアドレス情報に基づ
    いて、繰返し文字列を検出する検出手段と、 検出された繰返し文字列を符号化して出力する符号化手
    段とを備えることを特徴とするデータ圧縮装置。
  2. 【請求項2】 前記ソート手段は、各文字列に含まれる
    所定文字数の接頭部を用いて、文字列を並べ換えること
    を特徴とする請求項1記載のデータ圧縮装置。
  3. 【請求項3】 前記ソート手段は、複数の同じ接頭部が
    互いに隣接するように、前記文字列を並べ換えることを
    特徴とする請求項2記載のデータ圧縮装置。
  4. 【請求項4】 前記ソート手段は、基底法を用いて、前
    記文字列を並べ換えることを特徴とする請求項2記載の
    データ圧縮装置。
  5. 【請求項5】 符号化対象文字列のアドレスから、前記
    出現位置格納手段における該符号化対象文字列の順位を
    求めるための情報を格納する逆引き手段をさらに備え、
    前記検出手段は、該逆引き手段から得られた順位より上
    の順位に格納されたアドレス情報に対応する文字列を一
    致候補とし、該符号化対象文字列と該一致候補とを照合
    して一致長を求め、前記符号化手段は、該一致候補の位
    置を示す情報と該一致長とを用いて、該符号化対象文字
    列を符号化することを特徴とする請求項1記載のデータ
    圧縮装置。
  6. 【請求項6】 各文字列のアドレスに対応して、最近出
    現した同じ文字列のアドレス情報を格納する一致位置格
    納手段をさらに備え、前記検出手段は、前記出現位置格
    納手段に格納されたアドレス情報から、該一致位置格納
    手段に格納されるアドレス情報を生成し、該一致位置格
    納手段の隣接するアドレス情報を比較して、アドレス情
    報が連続している連続領域を検出し、前記符号化手段
    は、該連続領域の位置に対応する文字列を符号化対象文
    字列とし、該連続領域に格納されたアドレス情報と該連
    続領域の長さとを用いて、該符号化対象文字列を符号化
    することを特徴とする請求項1記載のデータ圧縮装置。
  7. 【請求項7】 前記検出手段は、前記出現位置格納手段
    の1つの順位に注目し、注目する順位の文字列の接頭部
    が1つ上の順位の文字列の接頭部と同じであるとき、前
    記一致位置格納手段において、該注目する順位に格納さ
    れたアドレス情報に対応する位置に、該1つ上の順位に
    格納されたアドレス情報を格納することを特徴とする請
    求項6記載のデータ圧縮装置。
  8. 【請求項8】 前記検出手段は、前記一致位置格納手段
    内で2つ以上の連続領域が繋がっている部分を検出し、
    該2つ以上の連続領域に格納されたアドレス情報に基づ
    いて複数の一致候補の文字列を求め、前記符号化手段
    は、該複数の一致候補のうち最も長い一致長を有する一
    致候補の位置を示す情報と、該最も長い一致長とを用い
    て、前記符号化対象文字列を符号化することを特徴とす
    る請求項6記載のデータ圧縮装置。
  9. 【請求項9】 符号化対象文字列に含まれる所定文字数
    の接頭部から、前記出現位置格納手段における同じ接頭
    部を含む文字列の順位を求めるための情報を格納する検
    索手段をさらに備え、前記検出手段は、該検索手段から
    得られた順位に格納されたアドレス情報に対応する文字
    列を一致候補とし、該符号化対象文字列と該一致候補と
    を照合して一致長を求め、前記符号化手段は、該一致候
    補の位置を示す情報と該一致長とを用いて、該符号化対
    象文字列を符号化することを特徴とする請求項1記載の
    データ圧縮装置。
  10. 【請求項10】 前記検出手段は、前記所定文字数の接
    頭部に対応して前記検索手段から得られる順位が、最近
    出現した同じ接頭部を含む文字列の順位になるように、
    該検索手段に格納された情報を更新することを特徴とす
    る請求項9記載のデータ圧縮装置。
  11. 【請求項11】 コンピュータのためのプログラムを記
    録した記録媒体であって、前記プログラムは、 圧縮すべき文字列データが有する複数のアドレスの各々
    を始点とする各文字列を、各文字列の内容に基づいて並
    べ換え、 並べ換えられた文字列の順序で、各文字列のアドレスを
    表すアドレス情報を記録し、 記録されたアドレス情報に基づいて、繰返し文字列を検
    出し、 検出された繰返し文字列を符号化する処理を前記コンピ
    ュータに実行させることを特徴とするコンピュータ読み
    取り可能な記録媒体。
  12. 【請求項12】 圧縮すべき文字列データが有する複数
    のアドレスの各々を始点とする各文字列を、各文字列の
    内容に基づいて並べ換え、 並べ換えられた文字列の順序で、各文字列のアドレスを
    表すアドレス情報を記録し、 記録されたアドレス情報に基づいて、繰返し文字列を検
    出し、 検出された繰返し文字列を符号化することを特徴とする
    データ圧縮方法。
  13. 【請求項13】 圧縮すべき文字列データが有する複数
    のアドレスの各々を始点とする各文字列を、各文字列の
    内容に基づいて並べ換え、 並べ換えられた文字列の順序で、各文字列のアドレスを
    表すアドレス情報を記録し、 記録されたアドレス情報に基づいて、繰返し文字列を検
    出し、 検出された繰返し文字列を符号化する処理をコンピュー
    タに実行させるためのプログラム。
JP2001067975A 2000-03-31 2001-03-12 データ圧縮装置および方法 Expired - Lifetime JP4261779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001067975A JP4261779B2 (ja) 2000-03-31 2001-03-12 データ圧縮装置および方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-98834 2000-03-31
JP2000098834 2000-03-31
JP2001067975A JP4261779B2 (ja) 2000-03-31 2001-03-12 データ圧縮装置および方法

Publications (2)

Publication Number Publication Date
JP2001345710A true JP2001345710A (ja) 2001-12-14
JP4261779B2 JP4261779B2 (ja) 2009-04-30

Family

ID=26589212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001067975A Expired - Lifetime JP4261779B2 (ja) 2000-03-31 2001-03-12 データ圧縮装置および方法

Country Status (1)

Country Link
JP (1) JP4261779B2 (ja)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008516297A (ja) * 2004-04-19 2008-05-15 エクシビブリオ ベー.フェー. レンダリングされた文書からの視覚的取得データに対する処理技術
JP2012054835A (ja) * 2010-09-02 2012-03-15 Fujitsu Ltd 圧縮装置、圧縮方法、圧縮プログラムおよび復元装置
US8214387B2 (en) 2004-02-15 2012-07-03 Google Inc. Document enhancement system and method
US8418055B2 (en) 2009-02-18 2013-04-09 Google Inc. Identifying a document by performing spectral analysis on the contents of the document
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US8447111B2 (en) 2004-04-01 2013-05-21 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8505090B2 (en) 2004-04-01 2013-08-06 Google Inc. Archive of text captures from rendered documents
US8531710B2 (en) 2004-12-03 2013-09-10 Google Inc. Association of a portable scanner with input/output and storage devices
JP2013197850A (ja) * 2012-03-19 2013-09-30 Fujitsu Ltd 符号化方法、符号化装置及びコンピュータプログラム
US8600196B2 (en) 2006-09-08 2013-12-03 Google Inc. Optical scanners, such as hand-held optical scanners
US8619287B2 (en) 2004-04-01 2013-12-31 Google Inc. System and method for information gathering utilizing form identifiers
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8619147B2 (en) 2004-02-15 2013-12-31 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
JP2014082762A (ja) * 2012-10-15 2014-05-08 Samsung Electronics Co Ltd データ圧縮装置及び方法、データ圧縮装置を含むメモリシステム
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8903759B2 (en) 2004-12-03 2014-12-02 Google Inc. Determining actions involving captured information and electronic content associated with rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
JP2015159352A (ja) * 2014-02-21 2015-09-03 富士通株式会社 データ圧縮装置、データ圧縮方法、及びプログラム
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9268852B2 (en) 2004-02-15 2016-02-23 Google Inc. Search engines and systems with handheld document data capture devices
US9275051B2 (en) 2004-07-19 2016-03-01 Google Inc. Automatic modification of web pages
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9454764B2 (en) 2004-04-01 2016-09-27 Google Inc. Contextual dynamic advertising based upon captured rendered text
CN111628778A (zh) * 2019-02-28 2020-09-04 深圳捷誊技术有限公司 一种基于动态规划的无损压缩方法和装置
US10769431B2 (en) 2004-09-27 2020-09-08 Google Llc Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
CN115834504A (zh) * 2022-11-04 2023-03-21 电子科技大学 一种基于axi总线的数据压缩/解压缩方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023131392A (ja) 2022-03-09 2023-09-22 キオクシア株式会社 辞書式圧縮装置及びメモリシステム

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515816B2 (en) 2004-02-15 2013-08-20 Google Inc. Aggregate analysis of text captures performed by multiple users from rendered documents
US8831365B2 (en) 2004-02-15 2014-09-09 Google Inc. Capturing text from rendered documents using supplement information
US8214387B2 (en) 2004-02-15 2012-07-03 Google Inc. Document enhancement system and method
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US8447144B2 (en) 2004-02-15 2013-05-21 Google Inc. Data capture from rendered documents using handheld device
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US9268852B2 (en) 2004-02-15 2016-02-23 Google Inc. Search engines and systems with handheld document data capture devices
US8619147B2 (en) 2004-02-15 2013-12-31 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8619287B2 (en) 2004-04-01 2013-12-31 Google Inc. System and method for information gathering utilizing form identifiers
US8620760B2 (en) 2004-04-01 2013-12-31 Google Inc. Methods and systems for initiating application processes by data capture from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9514134B2 (en) 2004-04-01 2016-12-06 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9454764B2 (en) 2004-04-01 2016-09-27 Google Inc. Contextual dynamic advertising based upon captured rendered text
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US8447111B2 (en) 2004-04-01 2013-05-21 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US8505090B2 (en) 2004-04-01 2013-08-06 Google Inc. Archive of text captures from rendered documents
US9633013B2 (en) 2004-04-01 2017-04-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8781228B2 (en) 2004-04-01 2014-07-15 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
JP2008516297A (ja) * 2004-04-19 2008-05-15 エクシビブリオ ベー.フェー. レンダリングされた文書からの視覚的取得データに対する処理技術
US9030699B2 (en) 2004-04-19 2015-05-12 Google Inc. Association of a portable scanner with input/output and storage devices
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8799099B2 (en) 2004-05-17 2014-08-05 Google Inc. Processing techniques for text capture from a rendered document
US9275051B2 (en) 2004-07-19 2016-03-01 Google Inc. Automatic modification of web pages
US10769431B2 (en) 2004-09-27 2020-09-08 Google Llc Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8531710B2 (en) 2004-12-03 2013-09-10 Google Inc. Association of a portable scanner with input/output and storage devices
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8903759B2 (en) 2004-12-03 2014-12-02 Google Inc. Determining actions involving captured information and electronic content associated with rendered documents
US8953886B2 (en) 2004-12-03 2015-02-10 Google Inc. Method and system for character recognition
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8600196B2 (en) 2006-09-08 2013-12-03 Google Inc. Optical scanners, such as hand-held optical scanners
US8638363B2 (en) 2009-02-18 2014-01-28 Google Inc. Automatically capturing information, such as capturing information using a document-aware device
US8418055B2 (en) 2009-02-18 2013-04-09 Google Inc. Identifying a document by performing spectral analysis on the contents of the document
US9075779B2 (en) 2009-03-12 2015-07-07 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
JP2012054835A (ja) * 2010-09-02 2012-03-15 Fujitsu Ltd 圧縮装置、圧縮方法、圧縮プログラムおよび復元装置
JP2013197850A (ja) * 2012-03-19 2013-09-30 Fujitsu Ltd 符号化方法、符号化装置及びコンピュータプログラム
JP2014082762A (ja) * 2012-10-15 2014-05-08 Samsung Electronics Co Ltd データ圧縮装置及び方法、データ圧縮装置を含むメモリシステム
JP2015159352A (ja) * 2014-02-21 2015-09-03 富士通株式会社 データ圧縮装置、データ圧縮方法、及びプログラム
CN111628778A (zh) * 2019-02-28 2020-09-04 深圳捷誊技术有限公司 一种基于动态规划的无损压缩方法和装置
CN115834504A (zh) * 2022-11-04 2023-03-21 电子科技大学 一种基于axi总线的数据压缩/解压缩方法及装置

Also Published As

Publication number Publication date
JP4261779B2 (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
JP2001345710A (ja) データ圧縮装置および方法
JP3149337B2 (ja) システム生成辞書を用いたデータ圧縮のための方法及びシステム
US6392567B2 (en) Apparatus for repeatedly compressing a data string and a method thereof
US5546578A (en) Data base retrieval system utilizing stored vicinity feature values
US5721899A (en) Retrieval apparatus using compressed trie node and retrieval method thereof
EP0293161B1 (en) Character processing system with spelling check function
JP3234104B2 (ja) 圧縮データをサーチする方法及びシステム
US7536399B2 (en) Data compression method, program, and apparatus to allow coding by detecting a repetition of a matching character string
US6233580B1 (en) Word/number and number/word mapping
Itoh et al. An efficient method for in memory construction of suffix arrays
US20130103655A1 (en) Multi-level database compression
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
US9916314B2 (en) File extraction method, computer product, file extracting apparatus, and file extracting system
EP0471518A1 (en) Data compression method and apparatus
Reznik Coding of sets of words
JPS59231683A (ja) データ圧縮方法
US5394143A (en) Run-length compression of index keys
US5551026A (en) Stored mapping data with information for skipping branches while keeping count of suffix endings
JP4208326B2 (ja) 情報索引装置
JPH10261969A (ja) データ圧縮方法および装置
Klein Space-and time-efficient decoding with canonical Huffman trees
WO2009001174A1 (en) System and method for data compression and storage allowing fast retrieval
Üçoluk et al. A genetic algorithm approach for verification of the syllable-based text compression technique
JP2993540B2 (ja) 昇順整数列データの圧縮および復号システム
JPH06251070A (ja) 単語検索のための電子辞書圧縮方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4261779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 5

EXPY Cancellation because of completion of term