JP6032291B2 - 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム - Google Patents

圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム Download PDF

Info

Publication number
JP6032291B2
JP6032291B2 JP2014552756A JP2014552756A JP6032291B2 JP 6032291 B2 JP6032291 B2 JP 6032291B2 JP 2014552756 A JP2014552756 A JP 2014552756A JP 2014552756 A JP2014552756 A JP 2014552756A JP 6032291 B2 JP6032291 B2 JP 6032291B2
Authority
JP
Japan
Prior art keywords
data
storage area
compression
code
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014552756A
Other languages
English (en)
Other versions
JPWO2014097356A1 (ja
Inventor
片岡 正弘
正弘 片岡
泰裕 鈴木
泰裕 鈴木
貢嗣 山本
貢嗣 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP6032291B2 publication Critical patent/JP6032291B2/ja
Publication of JPWO2014097356A1 publication Critical patent/JPWO2014097356A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3086Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing a sliding window, e.g. LZ77
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データの圧縮技術または伸張技術の少なくとも一方に関する。
LZ77と呼ばれる圧縮アルゴリズムがあり、ZIPなどの圧縮ファイルフォーマットに採用されている。
LZ77では、圧縮対象ファイルの先頭から順次圧縮処理が行なわれる。LZ77においては、データ参照領域(スライド窓などと呼ばれる)が設定され、圧縮対象ファイルのうち、圧縮処理が行なわれたデータは、順次スライド窓に格納される。スライド窓のサイズは予め設定されており、スライド窓内に格納されるデータがスライド窓のサイズを超えると、スライド窓内に先に格納されたデータを更新しつつデータが格納される。
LZ77において順次行なわれる圧縮処理は、スライド窓内に含まれるデータのうち、圧縮対象ファイル内で圧縮処理の処理対象となるデータと最も長く一致するデータ列(最長一致データ列)に基づいて生成される圧縮符号が用いられる。圧縮符号は、スライド窓の最長一致データ列の一致長およびスライド窓内の位置を組み合わせた情報である。
LZ77によれば、最長一致データ列の一致長が長いほど、多くのデータが1つの圧縮符号(一致長と位置との組み合わせ)により表現されるので、圧縮率が向上する。一致長の長い最長一致データ列が多く抽出されれば圧縮率が向上するので、スライド窓のサイズが大きくなれば圧縮率が向上する傾向にある。これは、より多くのデータから処理対象のデータと一致するデータを探し当てることになるため、一致長が長いデータ列を特定する確率が向上するためである。
特開平5−241777号公報
しかし、圧縮率を向上させるためにスライド窓のサイズを大きくすると、処理対象のデータとスライド窓内に格納されたデータとの照合回数が増大するため、圧縮対象ファイルの圧縮に要する時間が増大する。
本発明の一側面において、圧縮に要する処理時間を低減させることを目的とする。
一態様によれば、圧縮プログラムは、コンピュータに、メモリに第1記憶領域および第2記憶領域を設定し、圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較し、前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成し、前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較することであって、前記圧縮対象データは前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記第2記憶領域に移動され、前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納する、処理を実行させる。
一態様によれば、圧縮装置は、メモリと、前記メモリに第1記憶領域および第2記憶領域を設定する制御部と、圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較する第1参照部と、前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成する第1生成部と、前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較する第2参照部と、前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記圧縮対象データを前記第2記憶領域に移動する第1更新部と、前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納する第2更新部と、を含む。
一態様によれば、伸張プログラムは、圧縮ファイルから圧縮データを順次読み出し、前記読み出した圧縮データが第1圧縮符号であると判定される場合、前記第1圧縮符号に応じた第2メモリの第4記憶領域内のデータに基づいて第1伸張データを生成し、前記読み出した圧縮データが第2圧縮符号であると判定される場合、前記第2圧縮符号に応じた前記第2メモリの第5記憶領域内のデータに基づいて第2伸張データを生成し、前記第2伸張データが生成される場合、前記第2圧縮符号および前記第2伸張データに応じて前記第4記憶領域を更新し、前記読み出した圧縮データが第3圧縮符号であると判定される場合、前記符号化処理に対応する復号処理によって前記読み出した圧縮データから第3伸張データを生成し、前記第3伸張データを前記第4記憶領域に格納する、処理を実行させる。前記圧縮ファイルは、第1メモリに第1記憶領域および第2記憶領域を設定し、圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較し、前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための前記第1圧縮符号を生成し、前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較することであって、前記圧縮対象データは前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記第2記憶領域に移動され、前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納し且つ前記第2記憶領域内のデータに基づいて前記圧縮対象データのための前記第2圧縮符号を生成することであって、前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、前記圧縮対象データと前記第2記憶領域内のデータとの比較に基づいて前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の第2一致性が検出されない場合、前記第1圧縮符号と前記第2圧縮符号と異なる種類の符号化処理によって前記圧縮対象データのための前記第3圧縮符号を生成し、前記第1圧縮符号、前記第2圧縮符号および前記第3圧縮符号に基づいて生成されたものである。
一態様によれば、伸張装置は、第1メモリと、圧縮ファイルから圧縮データを順次読み出す制御部と、前記読み出した圧縮データが第1圧縮符号であると判定される場合、前記第1圧縮符号に応じた前記第1メモリの第4記憶領域内のデータに基づいて第1伸張データを生成する第1生成部と、前記読み出した圧縮データが第2圧縮符号であると判定される場合、前記第2圧縮符号に応じた前記第1メモリの第5記憶領域内のデータに基づいて第2伸張データを生成する第2生成部と、前記第2伸張データが生成される場合、前記第2圧縮符号および前記第2伸張データに応じて前記第4記憶領域を更新する更新部と、前記読み出した圧縮データが第3圧縮符号であると判定される場合、前記符号化処理に対応する復号処理によって前記読み出した圧縮データから第3伸張データを生成する第3生成部と、を含み、前記制御部によって前記第3伸張データが前記第4記憶領域に格納される。前記圧縮ファイルは、第2メモリに第1記憶領域および第2記憶領域を設定し、圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較し、前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための前記第1圧縮符号を生成し、前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較することであって、前記圧縮対象データは前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記第2記憶領域に移動され、前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納し且つ前記第2記憶領域内のデータに基づいて前記圧縮対象データのための前記第2圧縮符号を生成することであって、前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、前記圧縮対象データと前記第2記憶領域内のデータとの比較に基づいて前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の第2一致性が検出されない場合、前記第1圧縮符号と前記第2圧縮符号と異なる種類の符号化処理によって前記圧縮対象データのための前記第3圧縮符号を生成し、前記第1圧縮符号、前記第2圧縮符号および前記第3圧縮符号に基づいて生成されたものである。
一態様によれば、システムは、圧縮装置および伸張装置を含む。その圧縮装置は、第1メモリと、前記第1メモリに第1記憶領域および第2記憶領域を設定する第1制御部と、圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較する第1参照部と、前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成する第1生成部と、前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較する第2参照部と、前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記圧縮対象データを前記第2記憶領域に移動する第1更新部と、前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納する第2更新部と、前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記第2記憶領域内のデータに基づいて前記圧縮対象データのための第2圧縮符号を生成する第2生成部であって、前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、前記圧縮対象データと前記第2記憶領域内のデータとの比較に基づいて前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の第2一致性が検出されない場合、前記第1圧縮符号と前記第2圧縮符号と異なる種類の符号化処理によって前記圧縮対象データのための第3圧縮符号を生成する第3生成部とを含み、前記制御部によって前記第1圧縮符号、前記第2圧縮符号および前記第3圧縮符号に基づいて圧縮ファイルが生成される。また、伸張装置は、第2メモリと、圧縮ファイルから圧縮データを順次読み出す第2制御部と、前記読み出した圧縮データが前記第1圧縮符号であると判定される場合、前記第1圧縮符号に応じた前記第1メモリの第4記憶領域内のデータに基づいて第1伸張データを生成する第4生成部と、前記読み出した圧縮データが前記第2圧縮符号であると判定される場合、前記第2圧縮符号に応じた前記第1メモリの第5記憶領域内のデータに基づいて第2伸張データを生成する第5生成部と、前記第2伸張データが生成される場合、前記第2圧縮符号および前記第2伸張データに応じて前記第4記憶領域を更新する第3更新部と、前記読み出した圧縮データが前記第3圧縮符号であると判定される場合、前記符号化処理に対応する復号処理によって前記読み出した圧縮データから第3伸張データを生成する第6生成部と、を含み、前記第2制御部によって前記第3伸張データが前記第4記憶領域に格納される。
一側面によれば、圧縮処理に要する処理時間を低減させることができる。
図1は、圧縮処理の流れの一例を示す。 図2は、伸張処理の流れの一例を示す。 図3は、機能構成例を示す。 図4は、位置情報テーブルT1の例を示す。 図5は、圧縮処理の全体フローチャート例を示す。 図6は、記憶領域A3の参照処理のフローチャート例を示す。 図7は、記憶領域A2の参照処理のフローチャート例を示す。 図8は、記憶領域A3の更新処理のフローチャート例を示す。 図9は、記憶領域A2の更新処理のフローチャート例を示す。 図10は、圧縮データの生成・書込みのフローチャート例を示す。 図11は、圧縮データのフォーマット例を示す。 図12は、位置情報テーブルT2の例を示す。 図13は、伸張処理のフローチャート例を示す。 図14は、記憶領域B3の参照処理のフローチャート例を示す。 図15は、記憶領域B2の参照処理のフローチャート例を示す。 図16は、記憶領域B3の更新処理のフローチャート例を示す。 図17は、記憶領域B2の更新処理のフローチャート例を示す。 図18は、記憶領域B2の参照処理のフローチャート例を示す。 図19は、コンピュータ1のハードウェア構成例を示す。 図20は、コンピュータ1で動作するプログラムの構成例を示す。 図21は、実施形態のシステムにおける装置の構成例を示す。 図22は、抽出回数カウントの例を示す。 図23は、記憶領域A2および記憶領域A3のサイズ制御の例を示す。
以下に、実施の形態について説明する。
図1は、圧縮処理の流れの一例を示す。圧縮処理のワークエリアとして、メモリに記憶領域A1、記憶領域A2および記憶領域A3が設けられる。記憶領域A1にロードされた圧縮対象のファイルF1から順次データが読み出され、読み出された処理対象のデータは順次圧縮データに変換される。得られた圧縮データは順次記憶領域A4に格納され、記憶領域A4に格納された圧縮データに基づき、圧縮ファイルF2が生成される。図1に示す圧縮処理では、ファイルF1から処理対象のデータが読み出されるごとに、記憶領域A3の参照結果に応じた圧縮データの生成、記憶領域A2の参照結果に応じた記憶領域A3への更新、記憶領域A2への更新のいずれか少なくとも1つが行なわれる。
圧縮データの生成は、上述の通り、記憶領域A1内の処理対象のデータについての記憶領域A3内への参照処理の結果か、記憶領域A2への参照処理の結果に基づいて行われる。処理対象のデータと、記憶領域A3内のデータ列との照合(図1に示す「照合1」)により、処理対象のデータと最も長く一致するデータ列(最長一致データ列)が抽出される。照合1により所定の長さLmin以上の長さの最長一致データ列が得られると、最長一致データ列の長さと記憶領域A3における位置とに基づいて、圧縮符号が生成される。また、照合1による最長一致データ列の長さが所定の長さLminよりも短い場合には、処理対象のデータと、記憶領域A2内のデータ列との照合(図1に示す「照合2」)により、最長一致データ列が抽出される。照合2により得られる最長一致データ列が所定の長さLmin以上の長さの一致長を有する場合には、最長一致データ列の長さと記憶領域A2における位置とに基づいて、圧縮符号が生成される。照合2により得られる最長一致データ列の一致長が所定の長さLminよりも短い場合には、圧縮符号が生成されずに、処理対象のデータに対してハフマン符号化を行ない、得られたハフマン符号が圧縮データとなる。この場合にハフマン符号化を行なわずに、処理対象のデータそのままを用いて圧縮符号としてもよい。さらには、本実施例以外の圧縮処理が用いられてもよい。照合1でも照合2でも所定長Lmin以上の一致長の最長一致データ列が得られなかった場合の圧縮データの生成が、いずれの方法で行なわれるかは予め定められ、その方法を判別可能な情報が、例えば圧縮ファイルのヘッダに格納される。
生成された圧縮符号は、記憶領域A4に書き込まれる(図1に示す「書込み」)。所定の長さLminは本実施例の圧縮処理により圧縮符号を生成するか否かの閾値として設定される長さであり、少なくとも1バイト以上である。所定の長さLminは、例えばZIPのフォーマットに合わせると、3バイトと設定される。
また、圧縮データは、符号の形式を示す識別子を含む。例えば、照合1でも照合2でも所定長Lmin以上の一致長の最長一致データ列が得られなかった場合の圧縮データは、処理対象のデータに対応するハフマン符号(または処理対象のデータそのもの)であることを示す識別子(例えば、「0」)などを含む。また、例えば、照合1または照合2により得られた最長一致データ長が所定の長さLminを超える場合には、圧縮データが本実施例の圧縮処理を用いて得られた圧縮符号であることを示す識別子(例えば「1」)を含む。識別子に「1」を含む圧縮符号について、例えば、照合1により得られた最長一致データ列に基づく圧縮符号を示す識別子は「11」とし、照合2により得られた最長一致データ列に基づく圧縮符号を示す識別子は「10」などとする。例えば、圧縮データの先頭に識別子を含み、圧縮データの先頭ビットが「0」であれば、照合1でも照合2でも所定長Lmin以上の一致長の最長一致データ列が得られなかった場合の圧縮データであることが判別される。また、圧縮データの先頭ビットが「1」であれば、最長一致データ列に基づき符号化された圧縮符号を含むことが判別され、さらにその後続のビットにより、照合1による最長一致データ列であるか照合2による最長一致データ列であるかが示される。後続のビットが「0」であれば、照合2により得られる最長一致データ列に基づく圧縮符号であることが判別され、「1」であれば、照合1により得られる最長一致データ列に基づく圧縮符号であることが判別される。
記憶領域A3は、処理対象のデータおよび記憶領域A2に格納されたデータに基づいて、更新される。例えば、照合2により抽出される最長一致データ列は、記憶領域A3に格納される(図1に示す「更新1」)。
記憶領域A3は、例えば、データサイズが定められた(例えば、数キロバイト〜数十キロバイト程度)記憶領域である。例えば、定められたデータサイズ以上のデータが格納される場合には、記憶領域A3の先頭に格納された古いデータの上に、新しいデータが格納される。さらに、データの格納に応じて論理的な先頭が順次更新される。記憶領域A3内に格納されたデータは、例えば、データの格納に応じてスライドされる先頭の書込み位置からの相対的なアドレスにより示される。論理的な先頭の書き込み位置からの相対的なアドレスにより記憶領域A3における格納データ間での格納順序の先後が示される。
上述の記憶領域A3の更新1は、例えば、照合1による最長一致データ列の長さが所定の長さLminよりも短いことにより、処理対象のデータに対応する圧縮符号の生成が行われなかった場合に行われることとしてもよい。
記憶領域A2は、ファイルF1から順次読み出される処理対象のデータに基づいて更新される。例えば、記憶領域A1の処理対象のデータが記憶領域A2に書き込まれる(更新2)。記憶領域A2は、例えば、データサイズが定められた(例えば数キロバイト〜数十キロバイト程度)記憶領域である。例えば、記憶領域A2に定められたデータサイズ以上のデータが格納される場合には、記憶領域A2の先頭に格納された古いデータの上に、新しいデータが格納される。
上述の更新2は、例えば、照合2による最長一致データ列の長さが所定の長さLminよりも短いことにより、記憶領域A3の更新が行われなかった場合に行われることとしてもよい。さらには、更新2は、照合1による最長一致データ列および照合2による最長一致データ列のいずれの一致長も所定の長さLminよりも短い場合に行なわれることとしてもよい。
図1に示すファイルF1の例では、「・・・1st horse・・・2nd horse・・・3rd horse・・・」という文字列が含まれる(「・・・」は不特定な文字列である)。
「1st horse・・・」の「h」以降が処理対象のデータである場合には、記憶領域A3内で「horse・・・」の最長一致データ列が探索される。図1に示す通り、記憶領域A3にはデータが格納されていない状態なので、そもそも先頭のデータである「h」と一致するデータが存在しない。すなわち、照合1による最長一致データ列は所定の長さLminよりも短い。さらに、記憶領域A2内で「horse・・・」の最長一致データ列が探索される。記憶領域A2においても「h」と一致するデータが含まれないので、照合2による最長一致データ列は所定の長さLminよりも短い。
図1の例において、「1st horse・・・」の「h」以降が処理対象のデータである場合には、照合1でも照合2でも所定の長さLmin以上の一致長の最長一致データ列が得られないため、処理対象のデータの先頭データ「h」のハフマン符号化が行なわれる。上述の通り、ハフマン符号化の代わりに、他の圧縮処理が用いられてもよいし、文字データ「h」がそのまま用いられてもよい。先頭データに基づき得られる圧縮データd1は、記憶領域A4に書き込まれる。
また、照合2による最長一致データ列が所定の長さよりも短いため、記憶領域A3の更新(更新1)は行なわれない。照合1でも照合2でも所定の長さLmin以上の一致長の最長一致データ列が得られないので、記憶領域A2が更新される(更新2)。更新2では、処理対象のデータの先頭データ「h」が記憶領域A2に格納される。
次の処理対象のデータは「o・・・」となる。「orse・・・」の場合も、「horse・・・」同様に「o」のハフマン符号化と、記憶領域A2への「o」の格納が行なわれる。
「2nd horse・・・」の「h」以降が処理対象のデータである場合には、記憶領域A3内で「horse・・・」の最長一致データ列が探索される。図1に示す通り、記憶領域A3にはデータが格納されていない状態なので、そもそも先頭のデータである「h」と一致するデータが存在しない。すなわち、照合1による最長一致データ列は所定の長さLminよりも短い。
さらに、記憶領域A2内で「horse・・・」の最長一致データ列が探索される(照合2)。記憶領域A2内には既に「・・・1st horse・・・」が格納されている。例えば、まず記憶領域A2に対して「h」の探索が行われ、探索により得られた記憶領域A2内の「h」の箇所から「o」、「r」、「s」、「e」・・・と連続しているか否か、順次照合される。図1の例では、処理対象のデータ「horse・・・」と記憶領域A2内の「・・・1st horse・・・」の「horse」が一致する。一致した「horse」が最長一致データ列であり、一致長が所定の長さLmin以上であれば、最長一致データ列「horse」の記憶領域A2内のアドレスおよび一致長に基づき圧縮符号が生成される。生成された圧縮符号を含む圧縮データd2は記憶領域A4に格納される。
また、照合2により得られた最長一致データ列の一致長が所定の長さLmin以上であるので、最長一致データ列に基づいて記憶領域A3の更新が行なわれる(更新1)。すなわち、最長一致データ列「horse」が記憶領域A3に格納される。
「3rd horse・・・」の「h」以降が処理対象のデータである場合には、記憶領域A3内で「horse・・・」の最長一致データ列が探索される(照合1)。図1に示す通り、記憶領域A3内には既に「horse」が格納されている。例えば、まず記憶領域A3に対して「h」の探索が行われ、探索により得られた記憶領域A3内の「h」の箇所から「o」、「r」、「s」、「e」・・・と連続しているか否か、順次照合される。図1の例では、照合1によりデータ列「horse」が一致する。一致した「horse」が最長一致データ列であり、一致長が所定の長さLmin以上であれば、最長一致データ列「horse」の記憶領域A3内のアドレスおよび一致長に基づき圧縮符号が生成される。生成された圧縮符号を含む圧縮データd3は、記憶領域A4に格納される。
照合1により得られた最長一致データ列が所定長の長さLmin以上なので、例えば、照合2、更新1および更新2を行なわずに、後続のデータについて処理が行なわれる。照合2、更新1および更新2のうち、更新2のみが行なわれることとしてもよい。
図1に示す圧縮処理によれば、記憶領域A3には、ファイルF1内に複数回出現するデータ列が格納される。すなわち、圧縮符号は、ファイルF1内に複数回出現したデータ列が格納された記憶領域A3を参照した結果に応じて生成される。ファイルF1内で同じデータが多用されるならば、記憶領域A3に格納されるデータはファイルF1で多用されるデータである可能性が高い。つまり、記憶領域A3に格納されたデータとの照合により、通常のLZ77のスライド窓よりも一致データが見つかる可能性が高い。さらに、記憶領域A3には記憶領域A2内の最長一致データ列が格納されるため、ファイルF1内で繰り返されるデータの長さが長ければ、記憶領域A3においても、データ長が長いデータ列が最長一致データ列として抽出される可能性が高い。これにより最長一致データ列を用いた圧縮の特性が維持される。そのため、LZ77で使用するスライド窓よりも記憶領域A3のサイズを小さくしても圧縮率が維持され、かつ処理対象のデータとの照合を行なうデータのサイズが小さく済むため、圧縮の速度向上が見込まれる。
また、ファイルF1に対して1回のデータ読み出しで圧縮処理が行なわれる。そのため、圧縮辞書を生成してから圧縮辞書に基づいて圧縮処理を行なうよりも、各記憶領域が設けられたメモリへのアクセスが抑制される。また、記憶領域A2の更新が、記憶領域A3が更新されなかった場合に行われることとすると、記憶領域A2の更新の回数が抑制される。
図1の例の変形例として、記憶領域A2に所定の長さLmin以上の最長一致データ列が存在する場合にも、ハフマン符号を含む圧縮データが生成されてもよい。図1の例において、「・・・2nd horse・・・」の「h」以降が処理対象のデータである場合には、上述の通り、照合1では所定の長さLmin以上の最長一致データ列が得られず、照合2により所定の長さLmin以上の最長一致データ列が得られた。この場合に、例えば、記憶領域A2内の最長一致データ列「horse」を用いずに、「h」のハフマン符号を含む識別子「0」の圧縮データが生成される。この場合においても最長一致データ列「horse」に基づく記憶領域A3の更新処理(更新1)は行なわれる。すると、次回に処理対象のデータが「horse・・・」となった場合に、記憶領域A3の照合(照合1)による圧縮符号が生成される。この変形例においては、記憶領域A2の照合により生成された圧縮符号は用いないので、記憶領域A3の照合により生成された圧縮符号に付与される識別子は、「1」でよい。「10」や「11」のように2ビット目での判別をせずともどの記憶領域を参照して復号化すれば良いかが判断可能なためである。この変形例では、同じデータ列が2回目に出現した際には、最長一致データ列に基づく圧縮符号が生成されないが、3回目以降には、最長一致データ列に基づく圧縮符号が生成される。その一方で上述したように、伸張方法を判別するため識別子が1ビットで表現される。
図2は、伸張処理の流れの一例を示す。伸張処理のワークエリアとして、メモリに記憶領域B1、記憶領域B2および記憶領域B3が設けられる。記憶領域B1にロードされた伸張対象の圧縮ファイルF2から順次圧縮データが読み出され、読み出された処理対象の圧縮データは順次伸張データに変換される。圧縮ファイルF2に含まれる圧縮データは、上述の通り、本実施例の圧縮処理による圧縮符号、またはハフマン符号などの本実施例以外の圧縮処理による圧縮符号(または処理対象のデータそのもの)である。得られた伸張データは順次記憶領域B4に格納され、記憶領域B4に格納された伸張データに基づき、伸張ファイルF3が生成される。図2に示す伸張処理では、ファイルF2から処理対象の圧縮データが読み出されるたびに、伸張データの生成、記憶領域B2の参照結果に応じた記憶領域B3への更新、記憶領域B2への更新のいずれか少なくとも1つが行なわれる。
処理対象の圧縮データが本実施例の圧縮処理による圧縮符号である場合(例えば識別子が「10」または「11」)には、記憶領域B2または記憶領域B3に格納されたデータを用いて伸張データが生成される。圧縮データがハフマン符号などの本実施例以外の圧縮処理による圧縮符号である場合(例えば識別子が「0」)には、その圧縮処理に合わせて伸張データが生成される。圧縮データが本実施例の圧縮処理による圧縮符号であるか否かは、圧縮データに付与された識別子に基づいて判断される。
例えば、処理対象の圧縮データの識別子が「11」である場合には、圧縮符号に含まれる最長一致データ列の位置と一致長とに基づいて記憶領域B3からデータが取得される。取得されるデータは、記憶領域B3内の圧縮符号に示される位置に存在し、圧縮符号に示される一致長のデータである。取得されたデータが伸張データとなる。処理対象の圧縮データの識別子が「10」である場合には、記憶領域B2において圧縮符号に示される位置に存在する、圧縮符号に示される長さのデータが取得される。取得されたデータが伸張データとなる。処理対象の圧縮データの識別子が「0」の場合には、その圧縮データに基づき伸張データが生成される。この圧縮データが本実施例以外の圧縮処理による圧縮符号である場合には、その圧縮処理に対応する伸張処理により伸張データが取得され、そもそも圧縮符号でない場合には、そのまま伸張データとなる。
各圧縮データの伸張に応じて、記憶領域B2および記憶領域B3の更新が随時行なわれる。圧縮データに含まれる識別子が「0」の場合は、記憶領域B3の更新処理(更新1)は行なわれず、記憶領域B2の更新処理(更新2)が行なわれる。圧縮データに含まれる識別子が「10」の場合は、記憶領域B2の更新処理(更新2)は行なわれず、記憶領域B3の更新処理(更新1)が行なわれる。図1の圧縮処理において、識別子「10」を付与する圧縮符号の生成に応じて、更新2を行なうことと定められている場合には、伸張処理時においても識別子「10」が付与された圧縮データの伸張に応じて更新2も行なわれる。圧縮データに含まれる識別子が「11」の場合は、記憶領域B2の更新処理(更新2)も記憶領域B3の更新処理(更新1)も行なわれない。図1の圧縮処理において、識別子「11」を付与する圧縮符号の生成に応じて、更新2を行なうことと定められている場合には、伸張処理時においても識別子「11」が付与された圧縮データの伸張に応じて更新2が行なわれる。
記憶領域B3は、例えば、データサイズが定められた(例えば、数キロバイト〜数十キロバイト程度)記憶領域である。例えば、記憶領域B3に定められたデータサイズ以上のデータが格納される場合には、記憶領域B3の先頭に格納された古いデータの上に、新しいデータが格納される。さらに、データの格納に応じて論理的な先頭が順次更新される。記憶領域B3内に格納されたデータは、例えば、順次更新される先頭の書き込み位置からの相対的なアドレスにより示される。論理的な先頭の書き込み位置からの相対的なアドレスにより記憶領域B3における格納データ間での格納順序の先後が示される。
記憶領域B2も記憶領域B3と同様、例えば、データサイズが定められた(例えば、数キロバイト〜数十キロバイト程度)記憶領域である。例えば、記憶領域B2に定められたデータサイズ以上のデータが格納される場合には、記憶領域B2の先頭に格納された古いデータの上に新しいデータが格納される。さらに、データの格納に応じて論理的な先頭が順次更新される。記憶領域B2内に格納されたデータは、例えば、順次更新される先頭の書き込み位置からの相対的なアドレスにより示される。論理的な先頭の書き込み位置からの相対的なアドレスにより記憶領域B2における格納データ間での格納順序の先後が示される。
図2には、図1で例示された圧縮データd1、圧縮データd2および圧縮データd3それぞれについての伸張処理例が示される。圧縮ファイルF2に含まれる圧縮データは、圧縮データに含まれる識別子に応じた手順で伸張される。
圧縮データd1の読出しにおいて、まず識別子が「0」であることが確認される。ハフマン符号化を用いて圧縮データd1を生成した場合には、ハフマン符号化に基づく復号化手順により、伸張データ「h」を生成する。圧縮データd1がデータ「h」そのものを含む場合には、データ「h」を伸張データとする。また、識別子が「0」である場合には、記憶領域B2への更新(図2に示す更新2)が行なわれる。更新2では、伸張データ「h」が記憶領域B2に格納される。
圧縮データd2の読出しにおいては、まず識別子が「10」であることが確認される。識別子が「10」である場合には、圧縮データd2内の圧縮符号に基づいて記憶領域B2を参照する(図2に示す参照2)。図2の例において、記憶領域B2における圧縮符号に示される位置から、圧縮符号に示される一致長の長さのデータは、「horse」となる。圧縮データd2よりも先に読み出された圧縮データに基づいて、記憶領域B2が更新され(図2に示す更新2)、図1の例において圧縮データd2を生成した際の記憶領域A2と同じ状態であるために、位置と長さの指定により同じデータ「horse」が取得される。また、識別子が「10」である場合には、記憶領域B3への更新(図2に示す更新1)が行なわれる。更新1では、伸張データ「horse」が記憶領域B3に格納される。識別子「10」の場合に、更新2が行なわれるか否かは設定に応じて変更される。圧縮処理において、識別子「10」の圧縮データを生成する際に、記憶領域A2の更新(図1に示す更新2)を行なっていれば、伸張処理においても記憶領域B2の更新(図2に示す更新2)を行なう。
圧縮データd3の読出しにおいては、まず識別子「11」であることが確認される。識別子が「11」である場合には、圧縮データd3内の圧縮符号に基づいて記憶領域B3を参照する(図2に示す参照1)。図2の例において、記憶領域B3における圧縮符号に示される位置から、圧縮符号に示される一致長の長さのデータは、「horse」となる。圧縮データd3よりも先に読み出された圧縮データに基づいて、記憶領域B3が更新され(図2に示す更新1)、図1の例において圧縮データd3を生成した際の記憶領域A3と同じ状態であるために、位置と長さの指定により同じデータ「horse」が取得される。識別子「11」の場合に、更新1と更新2とが行なわれるか否かは設定に応じて変更される。圧縮処理において、識別子「11」の圧縮データを生成する際に、記憶領域A2の更新(図1に示す更新2)を行なっていれば、伸張処理においてもそれに合わせて更新を行なう。 図2に示す伸張処理によれば、記憶領域B3の更新は、圧縮データが本実施例以外の圧縮処理による圧縮符号である場合(または処理対象のデータそのものである場合)に行われる。そのため、LZ77などのように圧縮データの伸張処理ごとにスライド窓の更新が行われず、更新回数が抑制されることにより、伸張速度の高速化が図れる。
図1において説明した圧縮処理の変形例においては、「0」と「1」との2通りの識別子が用いられ、記憶領域A2内のデータを示す圧縮符号は用いられない。この変形例に対応する伸張処理においては、識別子「0」の圧縮データについては、伸張データを生成し、記憶領域B2に格納する(更新2)とともに、伸張データと記憶領域B2内のデータとを照合する。照合の結果、伸張データと所定の長さLmin以上の長さで一致する最長一致データ列が記憶領域B2内に存在すれば、最長一致データ列を記憶領域B3に格納する(更新1)。これにより記憶領域B3は、記憶領域A3と同じ状態となる。
図3は、機能構成例を示す。本実施形態の処理を実行するコンピュータ1は、記憶部13を含み、さらに、圧縮部11と伸張部12との少なくとも一方を含む。圧縮部11は圧縮処理を行ない、伸張部12は伸張処理を行なう。記憶部13は、圧縮対象のファイルF1や、圧縮処理により得られるファイルF2や、ファイルF2を伸張して得られるファイルF3などを格納する。また、記憶部13は、圧縮部11や伸張部12のワークエリアとして用いられる。圧縮部11は、制御部111、参照部112、更新部113、参照部114および更新部115を含む。伸張部12は、制御部121、参照部122、更新部123、参照部124および更新部125を含む。
制御部111は、参照部112、更新部113、参照部114および更新部115を制御して、圧縮機能を実現させる。また、制御部111は、各機能部の処理に用いるデータを保持するため、記憶部13に記憶領域(例えば、上述の記憶領域A1、記憶領域A2、記憶領域A3および記憶領域A4)を確保する。参照部112は、記憶領域A1内の読出し位置のデータ列に基づき、記憶領域A2内のデータの参照処理を実行する。更新部113は、記憶領域A1内の読出し位置のデータ列の読出しに応じて、記憶領域A2内のデータを更新する。参照部114は、記憶領域A1内の読出し位置のデータ列に基づき、図1に示す記憶領域A3の参照処理を実行する。制御部111は、参照部114による記憶領域A3内の参照結果に応じて圧縮データを生成する。更新部115は、参照部112による記憶領域A2の参照結果に応じて、記憶領域A3を更新する。圧縮部11内の各機能部による処理の実行手順については後述する。
制御部121は、参照部122、更新部123、参照部124および更新部125を制御して、伸張機能を実現させる。また、制御部121は、各機能部の処理に用いるデータを保持するため、記憶部13に記憶領域(例えば、上述の記憶領域B1、記憶領域B2、記憶領域B3および記憶領域B4)を確保する。参照部122は、記憶領域B1内の読出し位置の圧縮データに基づき、記憶領域B2内のデータの参照処理を実行する。更新部123は、記憶領域B1内の読出し位置の圧縮データに応じて、記憶領域B2内のデータを更新する。参照部124は、記憶領域B1内の読出し位置のデータ列に基づき、図2に示す記憶領域B3の参照処理を実行する。更新部125は、参照部122による記憶領域B2の参照結果に応じて、記憶領域B3を更新する。伸張部12内の各機能部による処理の実行手順については後述する。
図4は、記憶領域の位置情報の管理に用いられる位置情報テーブルT1の例を示す。位置情報テーブルT1は、圧縮処理に用いられる各記憶領域(記憶領域A1、記憶領域A2、記憶領域A3および記憶領域A4など)の記憶部13における位置の管理に用いられる。位置情報テーブルT1には、ファイルF1をロードする記憶領域A1の開始位置P1、終了位置P2および読出し位置P3が含まれる。また、位置情報テーブルT1には、記憶領域A2の開始位置P4、終了位置P5、参照位置P6および更新位置P7が含まれる。さらに、位置情報テーブルT1には、記憶領域A3の開始位置P8、終了位置P9、参照位置P10および更新位置P11が含まれる。ファイルF2生成用に設けられた記憶領域A4の開始位置P12、終了位置P13および書込み位置P14が含まれる。位置情報テーブルT1に格納されるそれぞれの位置情報の初期値は、制御部111により設定される。各記憶領域の開始位置と終了位置は、圧縮や伸張の対象となるデータの格納開始位置、終了位置を示す。ヘッダ等を除くため、例えば、読出し位置P3の初期値は、開始位置P1と同じである。また、参照位置P6および更新位置P7の初期値も開始位置P4と同じである。参照位置P10および更新位置P11の初期値も開始位置P8と同じであるし、書込み位置P14も開始位置P12と同じである。
図5は、圧縮処理の手順例を示す。まず、コンピュータ1内のオペレーティング・システムやアプリケーションプログラムの動作により圧縮機能が呼び出される(S101)と、制御部111は、前処理を実行する(S102)。S102の前処理は、例えば、図1に示す記憶領域A1、記憶領域A2および記憶領域A3の確保、圧縮データを記憶する記憶領域A4の確保、各記憶領域内の各位置情報(例えば、図4に示す各位置情報)の設定などである。
S102の処理を終えると、制御部111は、圧縮対象のファイルF1を記憶領域A1にロードする(S103)。制御部111は、ファイルF1の終端に基づいて終了位置P2を設定する。次に、制御部111は、参照部114に記憶領域A3の参照処理を実行させる(S104)。
図6は、記憶領域A3の参照処理のフローチャート例を示す。参照部114は、制御部111に参照処理を指示される(S200)と、参照位置P10、一致長L3aおよび最長一致位置P3aをセットする(S201)。参照位置P10及び最長一致位置P3aは、開始位置P8と同じか、もしくは更新位置P11と同じにセットされる。一致長L3aは例えば、「0」などにセットされる。参照部114は、さらにカウンタ値jを初期値(例えばj=0)にセットする(S202)。
参照部114は、記憶領域A1内の単位データと記憶領域A3内の単位データとが一致するか否か判定を行なう(S203)。この判定においては、記憶領域A1の読出し位置P3からカウンタ値j移動した位置(P3+j)の単位データと、記憶領域A3の参照位置P10からカウンタ値j移動した位置(P10+j)の単位データとが一致するか否かが判定される。単位データは、例えば文字などの単位の情報である。本実施例においては、単位データは、カウンタ値jや参照位置P10などを表現する単位量であり、カウンタ値jや参照位置P10のインクリメントによる増分と同じデータ量で表される。
位置(P3+j)の単位データと位置(P10+j)の単位データとが一致する場合(S203:Yes)には、参照部114はカウンタ値jをインクリメントする(S204)。参照部114は、さらにカウンタ値jが所定の長さLmax以上であるか否かを判定する(S205)。所定の長さLmaxは、本実施例の圧縮処理で取り扱う一致長L3aに対して設定された最大値である。本実施例においては、カウンタ値jのインクリメントの増分が、所定の長さLmaxの長さ表現の単位量(単位データのデータ量)であるので、S205の処理においては、「等しい」か否かの判断が行なわれればよい。S203において、単位データ間での一致判定でなく、複数の単位データごとの一致判定が行われ、それに応じた量のインクリメントがS204で行なわれるならば、カウンタ値jは所定の長さLmaxよりも大きくなり得る。その場合は、S205で「以上」か否かの判断が行なわれればよい。後述の所定の長さLmaxとの比較処理についても同様であり、インクリメントされるデータ量が長さ表現の単位量であれば、「等しい」か否かが判断され、インクリメントされるデータ量が長さ表現の単位量よりも大きいことがあるならば、「以上」か否かが判断される。
もしカウンタ値jが所定の長さLmax以上であれば(S205:Yes)、参照部114は、一致長L3aにカウンタ値jを代入し、最長一致位置P3aに参照位置P10の値を代入する(S206)。図6のS206の処理に示される「L3a=j,P3a=P10」の「=」は代入演算子を示す。カウンタ値jが所定の長さLmax以上でなければ(S205:No)、参照部114は、再度S203の判定を行なう。S205及びS206は付加的な手順であり、S204が行なわれると必ずS203の判定が行なわれることとしてもよい。
位置(P3+j)の単位データと位置(P10+j)の単位データとが一致しない場合(S203:No)には、参照部114は、カウンタ値jが一致長L3aよりも大きいか否かを判定する(S207)。カウンタ値jが一致長L3aよりも大きい場合(S207:Yes)には、参照部114は、一致長L3aにカウンタ値jを代入し、最長一致位置P3aに参照位置P10の値を代入する(S208)。カウンタ値jが一致長L3a以下である(S207:No)か、S208の処理が行なわれると、参照部114は参照位置P10をインクリメントする(S209)。
参照部114は、S209でインクリメントされた参照位置P10が終了位置P9に達しているか否かを判定する(S210)。
図6のS210の処理に示される「P10=P9」の「=」は等号を示す。参照位置P10が終了位置P9に達していない場合(S210:No)には、参照部114はS202の処理を再度行なう。S201において参照位置P10が開始位置P8に設定されれば上述の通りであるが、参照位置P10が更新位置P11に設定されるならば、参照位置P10が更新位置P11に達しているか否かがS210で判断される。参照位置P10が更新位置P11に初期設定されるならば、参照位置P10が終了位置P9に達した場合にはS209の処理で参照位置P10は開始位置P8に戻される。
参照位置P10が終了位置P9に達している(S210:Yes)か、S206の処理が行なわれた場合には、参照部114は、最長一致位置P3aおよび一致長L3aを制御部111に返し、記憶領域A3の参照処理を終了する(S211)。
参照部114による参照結果が制御部111に返されると、制御部111は、参照部112に記憶領域A2の参照処理を実行させる(S105)。
図7は、記憶領域A2の参照処理のフローチャート例を示す。参照部112は、制御部111により記憶領域A2の参照を指示される(S300)と、参照部114の処理により得られた一致長L3aが所定の長さLminよりも短いか否かを判定する(S301)。一致長L3aが所定の長さLmin以上である場合(S301:No)には、参照部112は処理を終了する(S314)。
一致長L3aが所定の長さLminよりも短い場合(S301:Yes)には、参照部112は、参照位置P6、一致長L2aおよび最長一致位置P2aをセットする(S302)。参照位置P6及び最長一致位置P2aは、開始位置P4と同じか、もしくは更新位置P7と同じにセットされる。一致長L2aは例えば、「0」などにセットされる。参照部112は、さらにカウンタ値iを初期値(例えばi=0)にセットする(S303)。
参照部112は、記憶領域A1内の単位データと記憶領域A2内の単位データとが一致するか否か判定を行なう(S304)。この判定においては、記憶領域A1の読出し位置P3からカウンタ値i移動した位置(P3+i)の単位データと、記憶領域A2の参照位置P6からカウンタ値i移動した位置(P6+i)の単位データとが一致するか否かが判定される。
位置(P3+i)の単位データと位置(P6+i)の単位データとが一致する場合(S304:Yes)には、参照部112はカウンタ値iをインクリメントする(S305)。参照部112は、さらにカウンタ値iが所定の長さLmax以上であるか否かを判定する(S306)。所定の長さLmaxは、図6における所定の長さLmaxと同じでも異なっていてもよい。カウンタ値iが所定の長さLmax以上であれば(S306:Yes)、参照部112は、一致長L2aにカウンタ値iを代入し(S307)、最長一致位置P2aに参照位置P6の値を代入する(S308)。図7のS307および308の処理に示される「=」は代入演算子を示す。カウンタ値iが所定の長さLmax以上でなければ(S306:No)、参照部112は、再度S304の判定を行なう。S306〜S308は付加的な手順であり、S305が行なわれると必ずS304の判定が行なわれることとしてもよい。
位置(P3+i)の単位データと位置(P6+i)の単位データとが一致しない場合(S304:No)には、参照部112は、カウンタ値iが一致長L2aよりも大きいか否かを判定する(S309)。カウンタ値iが一致長L2aよりも大きい場合(S309:Yes)には、参照部112は、一致長L2aにカウンタ値iを代入し(S310)、最長一致位置P2aに参照位置P6の値を代入する(S311)。カウンタ値iが一致長L2a以下である(S309:No)か、S311の処理が行なわれると、参照部112は、参照位置P6をインクリメントする(S312)。
参照部112は、S312でインクリメントされた参照位置P6が終了位置P5であるか否かを判定する(S313)。S302において参照位置P6が開始位置P4に設定されれば上述の通りであるが、参照位置P6が更新位置P7に設定されるならば、参照位置P6が更新位置P7であるか否かがS313で判断される。参照位置P6が更新位置P7に初期設定されるならば、参照位置P6が終了位置P5である場合にはS312の処理で参照位置P6は開始位置P4に戻される。図7のS313の処理に示される「P6=P5」の「=」は等号を示す。参照位置P6が終了位置P5でない場合(S313:No)には、参照部112はS303の処理を再度行なう。
参照位置P6が終了位置P5である(S313:Yes)か、S308の処理が行なわれた場合には、参照部112は、最長一致位置P2aおよび一致長L2aを制御部111に返し、記憶領域A2の参照処理を終了する(S314)。
次に、制御部111は、S105の記憶領域A2への参照処理の結果(一致長L2aおよび最長一致位置P2a)に基づいて、更新部115に記憶領域A3への更新処理を実行させる(S106)。
図8は、記憶領域A3の更新処理のフローチャート例を示す。更新部115は、制御部111から記憶領域A3の更新処理を指示される(S400)と、参照部114の処理により得られた一致長L3aが所定の長さLminよりも短いか否かを判定する(S401)。一致長L3aが所定の長さLminよりも短い場合(S401:Yes)には、更新部115は、さらに、参照部112の処理により得られた一致長L2aが所定の長さLmin以上であるか否かを判定する(S402)。一致長L3aが所定の長さLmin以上である(S401:No)か、一致長L2aが所定の長さLminよりも短い場合(S402:No)には、更新部115は処理を終了する(S406)。
一致長L2aが所定の長さLmin以上である場合(S402:Yes)には、更新部115は、記憶領域A2内の最長一致位置P2aから、一致長L2aの長さのデータを読み出す(S403)。更新部115は、S403で読みだしたデータを、記憶領域A3の更新位置P11に格納する(S404)。さらに、更新部115は、S404のデータ格納に応じて、更新位置P11を更新する(S405)。S405において、更新位置P11は、一致長L2aだけ移動される。図8のS405の処理「P11=P11+L2a」の「=」は代入演算子を示す。更新部115は、S405の処理を終えると、処理を終了する(S406)。
制御部111は、更新部115が処理を終えると、更新部113に記憶領域A2への更新処理を実行させる(S107)。
図9は、記憶領域A2の更新処理のフローチャート例を示す。更新部113は、制御部111から記憶領域A2の更新処理を指示される(S500)と、参照部114の処理により得られた一致長L3aが所定の長さLmin以上であるか否かを判定する(S501)。
一致長L3aが所定の長さLmin以上である場合(S501:Yes)には、更新部113は、記憶領域A1の読出し位置P3から一致長L3aのデータを読み出し、記憶領域A2の更新位置P7に、読みだしたデータを格納する(S502)。S502のデータの格納に応じて、更新部113は、更新位置P7を更新する(S503)。S503において、更新位置P7は、一致長L3aだけ移動される。図9のS503の処理「P7=P7+L3a」における「=」は代入演算子である。
一致長L3aが所定の長さLmin以上でない場合(S501:No)には、さらに、一致長L2aが所定の長さLmin以上であるか否かが判定される(S504)。S504の判定において一致長L2aが所定の長さLmin以上であると判定される場合(S504:Yes)には、更新部113は、記憶領域A1の読出し位置P3から一致長L2aのデータを読み出し、記憶領域A2の更新位置P7に、読みだしたデータを格納する(S505)。S505のデータの格納に応じて、更新部113は、更新位置P7を更新する(S506)。S506において、更新位置P7は、一致長L2aだけ移動される。図9のS506の処理「P7=P7+L2a」における「=」は代入演算子である。
一方、一致長L2aが所定の長さLminよりも短い場合(S504:No)には、更新部113は、記憶領域A1の読出し位置P3から単位データを読み出し、記憶領域A2の更新位置P7に、読み出したデータを格納する(S507)。更新部113は、更新位置P7を更新する(S508)。S508において、更新位置P7は、単位データの長さだけ移動される。単位データは、例えば文字などの単位の情報である。本実施例においては、単位データは、カウンタ値jや参照位置P10などのインクリメントによる増分と同じデータ量で表される。図9のS508の処理「P7=P7+(単位長)」における「=」は代入演算子である。
S503、S506またはS508の処理が行なわれると、更新部113は処理を終了する(S509)。更新部113が処理を終了すると、制御部111は、圧縮データを生成し、生成した圧縮データを記憶領域A4の書込み位置P14に書き込む(S108)。
図10は、圧縮データの生成・書込みのフローチャート例を示す。制御部111が生成・書込み処理を開始する(S600)と、参照部114の処理により得られた一致長L3aが所定の長さLmin以上であるか否かを判定する(S601)。
一致長L3aが所定の長さLmin以上である場合(S601:Yes)には、制御部111は、最長一致位置P3aおよび一致長L3aに基づき圧縮符号を生成し、生成した圧縮符号に識別子「11」を付与して、圧縮データを生成する(S602)。制御部111は、S603で生成した圧縮データを書込み位置P14に書き込む(S603)。さらに、制御部111は、書込み位置P14を更新する(S604)。S604において、書込み位置P14は、一致長L3a+2ビットだけ移動される。一致長L3aは圧縮符号の書込みサイズであり、2ビットは圧縮符号に付与される識別子の書込みサイズである。図10のS604の処理「P14=P14+L3a+2」における「=」は代入演算子である。
一致長L3aが所定の長さLmin以上でない場合(S601:No)には、さらに、一致長L2aが所定の長さLmin以上であるか否かが判定される(S605)。S605の判定において一致長L2aが所定の長さLmin以上であると判定される場合(S605:Yes)には、制御部111は、最長一致位置P2aおよび一致長L2aに基づき圧縮符号を生成し、生成した圧縮符号に識別子「10」を付与して、圧縮データを生成する(S606)。制御部111は、S606で生成した圧縮データを書込み位置P14に書き込む(S607)。さらに、制御部111は、書込み位置P14を更新する(S608)。S608において、書込み位置P14は、一致長L2a+2ビットだけ移動される。一致長L2aは圧縮符号の書込みサイズであり、2ビットは圧縮符号に付与される識別子の書込みサイズである。図10のS608の処理「P14=P14+L2a+2」における「=」は代入演算子である。
一方、一致長L2aが所定の長さLminよりも短い場合(S605:No)には、制御部111は、読出し位置P3の単位データをハフマン符号化し、ハフマン符号に識別子「0」を付与して圧縮データを生成する(S609)。上述の通り、ハフマン符号化以外にも、本実施例以外の圧縮処理を行なう設定であれば、制御部111は、設定に応じた圧縮処理を行なって得られるデータに識別子「0」を付して圧縮データを生成する。また、圧縮処理を行なわない設定であれば、制御部111は、単位データに対して識別子を付与して、圧縮データを生成する。制御部111は、S601で生成した圧縮データを書込み位置P14に書き込む(S607)。さらに、制御部111は、書込み位置P14を更新する(S611)。S611において、書込み位置P14は、生成したハフマン符号の符号長+1ビットだけ移動される。1ビットは圧縮符号に付与される識別子の書込みサイズである。図10のS611の処理「P14=P14+(単位長)+1」における「=」は代入演算子である。
S604、S608またはS611の処理が行なわれると、制御部111は処理を終了する(S612)。図10の手順により生成される圧縮データの例は、図11を用いて後述する。さらに、制御部111は、記憶領域A1の読出し位置P3の位置を更新する(S109)。S109において、読出し位置P3は一致長L3aに応じた量だけ移動される。一致長L3aが所定の長さLminよりも短い場合には、読出し位置P3は単位長だけ移動される。一致長L3aが所定の長さLmin以上である場合には、読出し位置P3は一致長L3aだけ移動される。制御部111は、更新された読出し位置P3がファイルF1の終点位置P2に達しているか否かを判断する(S110)。読出し位置P3がファイルF1の終点位置P2に達していない場合(S110:No)には、制御部111はS104の処理を再度行なう。
読出し位置P3がファイルF1の終点位置P2に達している場合(S110:Yes)には、制御部111は、記憶領域A4に格納された圧縮データに基づき、圧縮ファイルF2を生成する(S111)。圧縮ファイルF2のヘッダなどに、本実施例の圧縮処理が行なわれたことを示す識別情報が含まれる。S111の処理が終わると、制御部111は、圧縮機能を終了する(S112)。例えば、S112において、制御部111は、圧縮機能の呼び出し先に対して圧縮処理終了の通知を行なう。
上述の圧縮処理により、記憶領域A3および記憶領域A2をワークエリアとした圧縮処理が行なわれる。ファイルF1に長さをもったデータが何度も繰り返されるようであれば、そのデータが記憶領域A3内に格納されるので、記憶領域A3のサーチにより圧縮符号が生成される。その場合には、記憶領域A2へのサーチは抑制される。また、記憶領域A3へのサーチにより圧縮符号が生成されない場合には、記憶領域A2へのサーチが行なわれ、その結果が記憶領域A3に反映される。そのため、記憶領域A3へのサーチのみで効率的に圧縮符号の生成が行なわれる。
図11は、圧縮データのフォーマット例を示す。図11の例では、記憶領域A1に読出し位置P3から「horse・・・」とデータが格納されている。図11の(1)は、この場合において、一致長L3aおよび一致長L2aがともに所定の長さLminより短い場合の圧縮データの例を示している。また、図11の(2)は、一致長L3aが所定の長さLminよりも短く、一致長L2aが所定の長さLmin以上である場合の圧縮データの例を示している。図11の(3)は、一致長L3aが所定の長さLmin以上である場合の圧縮データの例を示している。
圧縮データ例の(1)は、識別子「0」とハフマン符号とを含む。識別子「0」は、本実施例の圧縮処理による圧縮符号でないことを示す。圧縮データ例の(1)に含まれるハフマン符号は、読出し位置P3に存在する単位データである文字「h」に対応するハフマン符号である。また、ハフマン符号でなくとも、本実施例の圧縮処理とは異なる他の圧縮処理により圧縮された圧縮符号でもよい。
圧縮符号例の(2)は、識別子、最長一致位置P2aおよび一致長L2aを含む。識別子「10」の先頭ビット「1」は、本実施例の圧縮処理を用いた圧縮符号であることを示す。最長一致位置P2aは、記憶領域A2の中で、処理対象のデータと最も長く一致したデータの存在位置を示す。図11の例では、最長一致位置P2aは、12ビットで表現されており、0x5E6である。この例では、1バイト文字で構成されたデータ列におけるデータの位置の表現に12ビット用いている。12ビットのデータでは、0〜4095までの値を表現できるので、最長一致位置P2aは、4KB程度のデータ列における位置を表現することができる。最長一致位置P2aが12ビットで位置を表現可能な記憶領域A2のサイズは、4KB程度かそれよりも小さい。逆に言えば、記憶領域A2のサイズ設定に応じて最長一致位置P2aのビット数が定められ、例えば、記憶領域A2が4KBならば最長一致位置P2aは12ビットで表現される。一致長L2aは、0x5を示す。一致長L2aが0x5なので、図11の例の最長一致データ列は、「horse」の5文字である。一致長L2aの表現に4ビット用いられているので、図11の例においては、一致長L2aは0xF(10進数で15)まで表現できる。一致長L2aを表現するビット数は、所定の長さLmaxの設定に応じて定められる。
圧縮符号例の(3)は、識別子、最長一致位置P3aおよび一致長L3aを含む。識別子「11」の先頭ビット「1」は、本実施例の圧縮処理を用いた圧縮符号であることを示す。最長一致位置P3aは、記憶領域A3の中で、処理対象のデータと最も長く一致したデータの存在位置を示す。図11の例では、最長一致位置P3aは、12ビットで表現されており、0x5E6である。この例では、1バイト文字で構成されたデータ列におけるデータの位置の表現に12ビット用いているので、記憶領域A3のサイズは、4KB程度かそれよりも小さい。一致長L3aは、0x5を示す。一致長L3aが0x5なので、図11の例の最長一致データ列は、「horse」の5文字である。一致長L3aの表現に4ビット用いられているので、図11の例においては、所定の長さLmaxの設定の上限は、0xF(10進数で15)である。
図12は、記憶領域の位置情報の管理に用いられる位置情報テーブルT2の例を示す。位置情報テーブルT2は、伸張処理に用いられる各記憶領域(記憶領域B1、記憶領域B2、記憶領域B3および記憶領域B4など)の記憶部13における位置の管理に用いられる。位置情報テーブルT2には、ファイルF2をロードする記憶領域B1の開始位置Q1、終了位置Q2および読出し位置Q3が含まれる。また、位置情報テーブルT2には、記憶領域B2の開始位置Q4、終了位置Q5、参照位置Q6および更新位置Q7が含まれる。さらに、位置情報テーブルT2には、記憶領域B3の開始位置Q8、終了位置Q9、参照位置Q10および更新位置Q11が含まれる。ファイルF3生成のために確保された記憶領域B4の開始位置Q12、終了位置Q13および書込み位置Q14が含まれる。位置情報テーブルT2に格納されるそれぞれの位置情報の初期値は、制御部121により設定される。各記憶領域の開始位置と終了位置は、圧縮や伸張の対象となるデータの格納開始位置、終了位置を示す。ヘッダ等を除くため、例えば、読出し位置Q3の初期値は、開始位置Q1と同じである。また、参照位置Q6および更新位置Q7の初期値も開始位置Q4と同じである。参照位置Q10および更新位置Q11の初期値も開始位置Q8と同じであるし、書込み位置Q14も開始位置Q12と同じである。
図13は、伸張処理のフローチャート例を示す。まず、コンピュータ1内のオペレーティング・システムやアプリケーションプログラムの動作により伸張機能が呼び出される(S700)と、制御部121は、前処理を実行する(S701)。S701の前処理は、例えば、図2に示す記憶領域B1、記憶領域B2および記憶領域B3の確保、伸張データを記憶する記憶領域B4の確保、各記憶領域内の各位置情報(例えば、図12に示す各位置情報)の設定などである。また、S701の処理は、圧縮ファイルのヘッダに本実施例の圧縮処理が行なわれたことを示す識別子が含まれる場合にのみ行なわれることとしてもよい。S701の処理を終えると、制御部121は、伸張対象のファイルF2を記憶領域B1にロードする(S702)。制御部121は、ファイルF2の終端に基づいて終了位置Q2を設定する。
次に、制御部121は、記憶領域B1の読出し位置Q3のデータ(識別子)を参照し、識別子が本実施例の圧縮処理による圧縮符号であることを示す(識別子が「0」)か否(識別子が「10」または「11」)かを判定する(S703)。図11に例示した圧縮データのフォーマットによれば、圧縮データの先頭が識別子であるため、読出し位置Q3のデータが識別子である。圧縮データ内の別の位置に識別子が付与されている場合には、制御部121は、S703でその位置を参照する。
S703において、識別子が「0」である場合(S703:Yes)には、制御部121は、伸張データを生成し、生成した伸張データを記憶領域B4の書込み位置Q14に書き込む(S704)。S704で生成される伸張データは、圧縮データに含まれるハフマン符号を伸張して得られるデータである。上述の通り、ハフマン符号化以外を用いて圧縮データが生成されている場合には、その圧縮処理に応じた伸張処理が行なわれる。さらに、制御部121は、伸張データの書込み位置Q14を単位データの長さ分(単位長)ずらす。 一方、S703において、識別子が「10」または「11」である場合(S703:No)には、制御部121は、参照部124に記憶領域B3の参照を実行させる。
図14は、記憶領域B3の参照処理のフローチャート例を示す。参照部124は、制御部121から記憶領域B3の参照処理を指示される(S800)と、参照部124は、識別子が「11」であるか否(識別子が「10」)かを判定する(S801)。識別子が「11」である場合(S801:Yes)には、参照部124は、記憶領域B1の読出し位置Q3から圧縮符号を読み出す(S802)。参照部124は、圧縮符号に示される位置QXと長さLXとに基づき記憶領域B3内の位置QXから長さLXのデータを読み出す(S803)。位置QXは、圧縮処理時における記憶領域A3内の最長一致位置を示す。長さLXは、圧縮処理時における最長一致データ列の一致長P3aを示す。参照部124は、S803の処理後に、S803で読みだしたデータを制御部121に返すか、S801の判定で識別子が「11」でない場合(S801:No)に、処理を終了する(S804)。
図15は、記憶領域B2の参照処理のフローチャート例を示す。参照部122は、制御部121から記憶領域B2の参照処理を指示される(S900)と、参照部122は、識別子が「10」であるか否(識別子が「11」)かを判定する(S901)。識別子が「10」である場合(S901:Yes)には、参照部122は、記憶領域B1の読出し位置Q3から圧縮符号を読み出す(S902)。参照部122は、圧縮符号に示される位置QXと長さLXとに基づき記憶領域B2内の位置QXから長さLXのデータを読み出す(S903)。位置QXは、圧縮処理時における記憶領域A2内の最長一致位置を示す。長さLXは、圧縮処理時における最長一致データ列の一致長P2aを示す。参照部122は、S903の処理後にS903で読みだしたデータを制御部121に返すか、S901の判定で識別子が「10」でない場合(S901:No)に、処理を終了する(S904)。
制御部121は、S705およびS706の参照結果に応じて、伸張データを生成し、生成した伸張データを記憶領域B4の書込み位置Q14に書き込む(S707)。すなわち、S707において、制御部121は、S803またはS903において読み出されたデータを伸張データとして書込み位置Q14に書き込む。
さらに、制御部121は、参照部122の参照結果に基づく記憶領域B3の更新処理を更新部125に指示する(S708)。
図16は、記憶領域B3の更新処理のフローチャート例を示す。更新部125は、制御部121から記憶領域B3の更新処理を指示される(S1000)と、処理対象の圧縮データの識別子が「10」であるか否かを判定する(S1001)。識別子が「10」である場合(S1001:Yes)には、更新部125は、記憶領域B2の位置QXから長さLXのデータを読み出す(S1002)。更新部125は、さらに、S1002で読みだしたデータを記憶領域B3の更新位置Q11に格納する(S1003)。更新部125は、S1003の格納に応じて更新位置Q11を更新する(S1004)。S1004において、更新位置Q11は、長さLXだけ移動される。識別子が「10」でない(S1001:No)か、S1004の処理が行なわれた場合には、更新部125は処理を終了する(S1005)。
制御部121は、更新部125の処理が終了する(S708の処理が終了する)か、S704の処理が終了すると、記憶領域B2の更新処理を更新部123に指示する(S709)。制御部121が実行するS705の処理と、S706の処理との処理順序が入れ替えられてもよい。また、S707の処理とS708の処理との処理順序が入れ替えられてもよい。
図17は、記憶領域B2の更新処理のフローチャート例を示す。更新部123は、制御部121に記憶領域B2の更新処理を指示される(S1100)と、処理対象の圧縮データの識別子が「0」であるか否かを判定する(S1101)。S1101で識別が「0」の場合(S1101:Yes)には、更新部123は、S704で生成した伸張データを更新位置Q7に格納する(S1102)。S1102の格納に応じて、更新部123は、更新位置Q7の更新を行なう(S1103)。S1103の更新では、更新位置Q7が単位データの長さ(単位長)分移動される。
S1101で、識別子が「0」でない場合(S1110:No)には、更新部123は、識別子が「10」であるか否かを判定する(S1104)。識別子が「10」である場合(S1104:Yes)には、S1002で記憶領域B2から読み出したデータを更新位置Q7に格納する(S1105)。S1105の格納に応じて、更新部123は、更新位置Q7の更新を行なう(S1106)。S1106の更新では、更新位置Q7が単位データの長さ(単位長)分移動される。S1103もしくはS1106の処理が行なわれるか、S1104で識別子が「10」でない場合(S1104:No)には、更新部123は処理を終了する(S1107)。
更新部123が記憶領域B2の更新処理を終了した場合に、制御部121は読出し位置Q3の更新を行なう(S710)。S710において、読出し位置Q3は圧縮データに応じた量だけ移動される。制御部121は、更新された読出し位置Q3が圧縮ファイルF2の終点位置Q2に達しているか否かを判断する(S711)。読出し位置Q3が圧縮ファイルF2の終点位置Q2に達していない場合(S711:No)には、制御部121はS703の処理を再度行なう。
読出し位置Q3が圧縮ファイルF2の終点位置Q2に達している場合(S711:Yes)には、制御部121は、記憶領域B4に格納された伸張データに基づき、伸張ファイルF3を生成する(S712)。S712の処理が終わると、制御部121は、伸張機能を終了する(S713)。例えば、S713において、制御部121は、伸張機能の呼び出し先に対して伸張処理終了の通知を行なう。
図2の説明において上述したとおり、圧縮処理の変形例に対応する伸張処理において、識別子「0」の圧縮データについては、伸張データを生成し、記憶領域B2に格納するとともに、伸張データと記憶領域B2内のデータとを照合する。照合の結果、伸張データと所定の長さLmin以上の長さで一致する最長一致データ列が記憶領域B2内に存在すれば、最長一致データ列を記憶領域B3に格納する。これにより記憶領域B3は、記憶領域A3と同じ状態となる。すなわち、参照部122は、識別子「0」の圧縮データから得られる伸張データ記憶領域B2内のデータとの照合処理を行ない、更新部125は、参照部122の照合結果に応じて記憶領域B3の更新を行なう。
図18は、記憶領域B2の参照処理のフローチャート例を示す。参照部122は、制御部121に記憶領域B2の参照処理を指示される(S1200)と、参照位置Q6、一致長L2bおよび最長一致位置Q2bをセットする(S1201)。参照位置Q6及び最長一致位置Q2bは、開始位置Q4と同じか、もしくは更新位置Q7と同じにセットされる。一致長L2bは例えば、「0」などにセットされる。参照部112は、さらにカウンタ値kを初期値(例えばk=0)にセットする(S1202)。
参照部122は、記憶領域B1の読出し位置Q3からカウンタ値k移動した位置(Q3+k)のデータの識別子が、本実施例の圧縮処理による圧縮符号でないことを示す(「0」である)か否かを判定する(S1203)。位置(Q3+k)の識別子が、本実施例の圧縮処理による圧縮符号でないことを示す(「0」である)場合(S1203:Yes)に、参照部122は、記憶領域B1内の単位データと記憶領域B2内の単位データとが一致するか否か判定を行なう(S1204)。この判定においては、記憶領域B1の読出し位置Q3からカウンタ値k移動した位置(Q3+k)の単位データと、記憶領域B2の参照位置Q6からカウンタ値k移動した位置(Q6+k)の単位データとが一致するか否かが判定される。
位置(Q3+k)の単位データと位置(Q6+k)の単位データとが一致する場合(S1204:Yes)には、参照部122は、カウンタ値kをインクリメントする(S1205)。参照部122は、さらにカウンタ値kが所定の長さLmax以上であるか否かを判定する(S1206)。所定の長さLmaxは、図7における所定の長さLmaxと同じである。カウンタ値kが所定の長さLmax以上であれば(S1206:Yes)、参照部122は、一致長L2bにカウンタ値kを代入し、最長一致位置Q2bに参照位置Q6の値を代入する(S1207)。図18のS1207の処理に示される「=」は代入演算子を示す。カウンタ値kが所定の長さLmax以上でなければ(S1206:No)、参照部122は、再度S1203の判定を行なう。S1206およびS1207は付加的な手順であり、S1205が行なわれると必ずS1203の判定が行なわれることとしてもよい。
位置(Q3+k)の識別子が「10」または「11」である場合(S1203:No)か、位置(Q3+k)の単位データと位置(Q6+k)の単位データとが一致しない場合(S1204:No)には、参照部122は、カウンタ値kが一致長L2bよりも大きいか否かを判定する(S1208)。カウンタ値kが一致長L2bよりも大きい場合(S1208:Yes)には、参照部122は、一致長L2bにカウンタ値kを代入し、最長一致位置Q2bに参照位置Q6の値を代入する(S1209)。カウンタ値kが一致長L2b以下である(S1208:No)か、S1209の処理が行なわれると、参照部122は、参照位置Q6をインクリメントする(S1210)。
参照部122は、S1210でインクリメントされた参照位置Q6が終了位置Q5であるか否かを判定する(S1211)。S1211において参照位置Q6が開始位置Q4に設定されれば上述の通りであるが、参照位置Q6が更新位置Q7に設定されるならば、参照位置Q6が更新位置Q7であるか否かがS1211で判断される。参照位置Q6が更新位置Q7に初期設定されるならば、参照位置Q6が終了位置Q5に達した場合にはS1210の処理で参照位置Q6は開始位置Q4に戻される。図18のS1211の処理に示される「Q6=Q5」の「=」は等号を示す。参照位置Q6が終了位置Q5でない場合(S1211:No)には、参照部122はS1202の処理を再度行なう。
参照位置Q6が終了位置Q5である(S1211:Yes)か、S1207の処理が行なわれた場合には、参照部122は、最長一致位置Q2bおよび一致長L2bを制御部121に返し、記憶領域B2の参照処理を終了する(S1212)。
制御部121は、図18の手順で得られた一致長L2bが所定の長さLmin以上である場合に、更新部125に記憶領域B3の更新処理を行なわせる。更新部125は、記憶領域B2内の最長一致位置Q2bから長さL2bのデータを読出し、読みだしたデータを記憶領域B3の更新位置Q14に格納する。更新部125の処理により、変形例においても、記憶領域B3は記憶領域A3と同じ状態に保たれる。
上述の伸張処理によれば、記憶領域B3を、圧縮処理に用いられる記憶領域A3と同じ状態に更新しつつ伸張が行なわれる。
下記に、本実施形態に用いられるハードウェア及びソフトウェアについて説明する。
図19は、コンピュータ1のハードウェア構成例を示す。コンピュータ1は、例えば、プロセッサ301、RAM(Random Access Memory)302、ROM(Read Only Memory)303、ドライブ装置304、記憶媒体305、入力インターフェース(I/F)306、入力デバイス307、出力インターフェース(I/F)308、出力デバイス309、通信インターフェース(I/F)310、SAN(Storage Area Network)インターフェース(I/F)311およびバス312などを含む。それぞれのハードウェアはバス312を介して接続されている。
RAM302は読み書き可能なメモリ装置であって、例えば、SRAM(Static RAM)やDRAM(Dynamic RAM)などの半導体メモリ、またはRAMでなくてもフラッシュメモリなどが用いられる。ROM303は、PROM(Programmable ROM)なども含む。ドライブ装置304は、記憶媒体305に記録された情報の読み出しか書き込みかの少なくともいずれか一方を行なう装置である。記憶媒体305は、ドライブ装置304によって書き込まれた情報を記憶する。記憶媒体305は、例えば、ハードディスク、SSD(Solid State Drive)などのフラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスクなどの記憶媒体である。また、例えば、コンピュータ1は、複数種類の記憶媒体それぞれについて、ドライブ装置304及び記憶媒体305を設ける。
入力インターフェース306は、入力デバイス307と接続されており、入力デバイス307から受信した入力信号をプロセッサ301に伝達する回路である。出力インターフェース308は、出力デバイス309と接続されており、出力デバイス309に、プロセッサ301の指示に応じた出力を実行させる回路である。通信インターフェース310はネットワーク3を介した通信の制御を行なう回路である。通信インターフェース310は、例えばネットワークインターフェースカード(NIC)などである。SANインターフェース311は、ストレージエリアネットワークによりコンピュータ1と接続された記憶装置との通信の制御を行なう回路である。SANインターフェース311は、例えばホストバスアダプタ(HBA)などである。
入力デバイス307は、操作に応じて入力信号を送信する装置である。入力デバイス307は、例えば、キーボードやコンピュータ1の本体に取り付けられたボタンなどのキー装置や、マウスやタッチパネルなどのポインティングデバイスである。出力デバイス309は、コンピュータ1の制御に応じて情報を出力する装置である。出力デバイス309は、例えば、ディスプレイなどの画像出力装置(表示デバイス)や、スピーカーなどの音声出力装置などである。また、例えば、タッチスクリーンなどの入出力装置が、入力デバイス307及び出力デバイス309として用いられる。また、入力デバイス307及び出力デバイス309は、コンピュータ1と一体になっていてもよいし、コンピュータ1に含まれず、例えば、コンピュータ1に外部から接続する装置であってもよい。
例えば、プロセッサ301は、ROM303や記憶媒体305に記憶されたプログラムをRAM302に読み出し、読み出されたプログラムの手順に従って圧縮部11の処理または伸張部12の処理を行なう。その際にRAM302はプロセッサ301のワークエリアとして用いられる。記憶部13の機能は、ROM303および記憶媒体305がプログラムファイル(後述のアプリケーションプログラム24、ミドルウェア23およびOS22など)やデータファイル(圧縮対象のファイルF1、圧縮されたファイルF2など)を記憶し、RAM302がプロセッサ301のワークエリアとして用いられることによって実現される。プロセッサ301が読み出すプログラムについては、図22を用いて説明する。
図20は、コンピュータ1で動作するプログラムの構成例を示す。コンピュータ1において、図19に示すハードウェア群21(301〜312)の制御を行なうOS(オペレーティング・システム)22が動作する。OS22に従った手順でプロセッサ301が動作して、ハードウェア群21の制御・管理が行なわれることにより、アプリケーションプログラム24やミドルウェア23に従った処理がハードウェア群21で実行される。さらに、コンピュータ1において、ミドルウェア23またはアプリケーションプログラム24が、RAM302に読み出されてプロセッサ301により実行される。
プロセッサ301が、圧縮機能が呼び出された場合に、ミドルウェア23またはアプリケーションプログラム24の少なくとも一部に基づく処理を行なうことにより、(それらの処理をOS22に基づいてハードウェア群21を制御して)圧縮部11の機能が実現される。また、プロセッサ301が、伸張機能が呼び出された場合に、ミドルウェア23またはアプリケーションプログラム24の少なくとも一部に基づく処理を行なうことにより、(それらの処理をOS22に基づいてハードウェア群21を制御して)伸張部12の機能が実現される。圧縮機能および伸張機能は、それぞれアプリケーションプログラム24自体に含まれてもよいし、アプリケーションプログラム24に従って呼び出されることで実行されるミドルウェア23の一部であってもよい。
アプリケーションプログラム24(またはミドルウェア23)の圧縮機能では、処理対象のデータに合致するデータを抽出するための検索範囲が抑制されるため、プロセッサ301のメモリアクセスの負荷が抑制される。そのため、RAM302上にワークエリアを確保する時間も削減される。
図21は、実施形態のシステムにおける装置の構成例を示す。図21のシステムは、コンピュータ1a、コンピュータ1b、基地局2およびネットワーク3を含む。コンピュータ1aは、無線または有線の少なくとも一方により、コンピュータ1bと接続されたネットワーク3に接続している。
図3に示す圧縮部11と伸張部12とは、図21に示すコンピュータ1aとコンピュータ1bとのいずれに含まれてもよい。コンピュータ1bが圧縮部11を含み、コンピュータ1aが伸張部12を含んでもよいし、コンピュータ1が圧縮部11を含み、コンピュータ1が伸張部12を含んでもよい。また、コンピュータ1aとコンピュータ1bとの双方が、圧縮部11および伸張部12を備えてもよい。
本実施形態の圧縮処理によれば、圧縮処理に要する処理時間を低減される。また、本実施形態の圧縮処理は、最長一致データ列と判定されたデータ列のみが格納される記憶領域内のデータと再度一致判定が行なわれるので、繰り返し同じデータ列が用いられるファイル(例えば、住所録など)ほど、この効果が増大する。
以下、上述の実施形態における変形例の一例を説明する。下記の変形例のみでなく、本発明の本旨を逸脱しない範囲の設計変更は適宜行なわれうる。
図22は、抽出回数カウントの例を示す。記憶領域A5は、記憶領域A3に格納される各単位データに対応する数値を格納可能な記憶領域である。各単位データに対応する数値は、最長一致データ列として抽出された回数を示す。図22において、記憶領域A3に格納された単位データ「h」が最長一致データ列の一部として抽出された回数は8回であることが示されている。記憶領域A5において、各単位データに対応する数値は、例えば4ビットで表現される。すると、各単位データについて15回まで抽出された回数をカウント可能となる。例えば、図5のS108において、制御部111が記憶領域A3から最長一致位置P3aから一致長L3aのデータを読み出す際に、読み出すデータに対応する数値のそれぞれをインクリメントすることにより、抽出された回数がカウントされる。また、図8のS404で更新位置P11へのデータの書込みを行なう際に、書込みが行なわれた位置のデータに対応する数値がリセットされる。
抽出された回数は、例えば、記憶領域A3の更新の際に利用される。S404でデータが格納される位置のデータの抽出回数が閾値よりも大きい場合には、S405の処理後、再度S404の処理でそのデータの格納を行なうこととしてもよい。
ファイルF1内に何度も同じデータが出現するならば、記憶領域A3が除かれたデータを記憶領域A2への参照により再度記憶領域A3に格納することとなってしまう。しかしながら、抽出回数をカウントし、抽出回数の多いデータを記憶領域A3内に再登録することとすると、記憶領域A2への参照回数が抑制される。
図22の仕組みを圧縮処理に用いた場合には、伸張処理にも同様の仕組みが設けられる。伸張処理においては、図13のS705において抽出回数がカウントされる。また、図16のS1003において、抽出回数を示す値がリセットされ、さらに閾値よりも大きいか否かが判定される。抽出回数が閾値よりも大きい場合には、S1004の処理後、再度S1003の処理が行なわれ記憶領域A3に格納される。
図23は、記憶領域A2および記憶領域A3のサイズ制御の例を示す。上述の圧縮処理の手順に従うと、圧縮処理の序盤においては記憶領域A3内に格納されるデータは少ない。記憶領域A3内にデータが多く格納されている方が本実施例の圧縮処理による圧縮符号が生成される確率が高くなるので、なるべく早期に記憶領域A3内にデータが格納された方が圧縮ファイル内の本実施例の圧縮処理による圧縮符号割合が高くなり、圧縮率向上が見込まれる。記憶領域A2内のデータが多い方が処理対象のデータと一致するデータが見つかりやすいので、記憶領域A2のデータサイズが多い方が早く記憶領域A3内にデータが格納される確率が高くなる。すなわち、圧縮処理の序盤においては、記憶領域A3のサイズは大きくなくても構わないが、記憶領域A2のサイズが大きい方が圧縮率の向上が見込める。
一方、記憶領域A3内にデータがたまると、処理対象のデータと一致するデータが記憶領域A3内から抽出されやすくなる。ファイルF1内のデータについて記憶領域A3の参照による圧縮符号化が行なわれやすくなると、記憶領域A3の更新が頻繁に行なわれなくとも圧縮率は維持される。その一方で、ファイルF1内には、繰り返されるデータだけでなく1回しか出現しないデータも出現しうるので、そういったデータに対して、記憶領域A2の参照自体が無駄な処理となってしまう。
そこで、例えば、制御部111は、記憶領域A3に閾値以上のデータが格納されたら(更新位置P11が閾値を超えたら)、記憶領域A2のデータサイズを小さくする制御を行なってもよい。この場合に、例えば、記憶領域A2内の古いデータから削除される。すなわち、更新位置P7からデータサイズ変更分のデータが削除される。図23は、更新位置P11が閾値を超えていない段階の記憶領域A2から、更新位置P7以降のデータが除かれて、更新位置P11が閾値を超えた段階の記憶領域A2となっている様を模式的に示している。
また、記憶領域A2のサイズを小さくする制御を行なうとともに、記憶領域A3のサイズを大きくする制御を行なってもよい。これにより、記憶領域A3内に格納されるデータであって何度も最長一致データ列に含まれるデータが記憶領域A3の更新処理により削除されてしまうこと、もしくは図22を用いて説明した制御が行なわれることの頻度が低減される。
図23に示されるサイズ制御が行なわれる場合には、制御部121も記憶領域B2および記憶領域B3に対して同様のサイズ制御を行なう。これにより圧縮側と伸張側とで同一のデータの参照により符号の変換が行なわれる。
また、圧縮処理の対象は、ファイル内のデータ以外にも、システムから出力される監視メッセージなどでもよい。例えば、バッファに順次格納される監視メッセージを上述の圧縮処理により圧縮し、ログファイルとして格納するなどの処理が行なわれる。また、例えば、データベース内のページ単位に圧縮が行なわれてもよいし、複数のページをまとめた単位で圧縮が行なわれてもよい。
また、上述の圧縮処理の対象となるデータは、上述の通り、文字情報に限定されるものでない。数値のみの情報であってもよいし、画像・音声などのデータに対して上述の圧縮処理を用いてもよい。例えば、音声合成により得られるデータを多量に含むファイルなどは、データ内に繰り返しを多く含むため動的辞書により圧縮率が向上することが見込まれる。また、固定カメラにより撮影された動画像についても各フレームの画像が似たものになることから繰り返しが多く含まれる。そのため、上述の圧縮処理を適用することにより、文書データや音声データと同様の効果を得ることができる。
1 コンピュータ
2 基地局
3 ネットワーク
1a コンピュータ
1b コンピュータ
11 圧縮部
12 伸張部
13 記憶部
111 制御部
112 参照部
113 更新部
114 参照部
115 更新部
121 制御部
122 参照部
123 更新部
124 参照部
125 更新部

Claims (12)

  1. コンピュータに、
    メモリに第1記憶領域および第2記憶領域を設定し、
    圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較し、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成し、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較することであって、前記圧縮対象データは前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記第2記憶領域に移動され、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納する、
    処理を実行させることを特徴とする圧縮プログラム。
  2. 前記圧縮対象データと前記第1記憶領域内のデータとの間の前記所定の一致性は、前記圧縮対象データと前記第1記憶領域内のデータ間での最長一致データのデータサイズが所定サイズ以上である
    ことを特徴とする請求項1に記載の圧縮プログラム。
  3. 前記コンピュータに、さらに、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の一致性が検出される場合、前記第2記憶領域内のデータに基づいて前記圧縮対象データのための第2圧縮符号を生成する
    処理を実行させることを特徴とする請求項1または2に記載の圧縮プログラム。
  4. 前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、
    前記コンピュータに、さらに、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記第1圧縮符号および前記第2圧縮符号の符号化処理と異なる種類の符号化処理によって前記圧縮対象データのための第3圧縮符号を生成する
    処理を実行させることを特徴とする請求項3に記載の圧縮プログラム。
  5. 前記第2記憶領域は、前記メモリに第1サイズで設定され、
    前記圧縮対象データは、前記第1記憶領域内の位置を示す位置情報に従って前記第1記憶領域に格納され、前記位置情報は前記第1記憶領域に格納された前記圧縮対象データのサイズに応じて更新され、
    前記コンピュータに、さらに、
    前記位置情報によって示される前記第1記憶領域内のデータの合計サイズが所定サイズを超える場合に、前記第2記憶領域のサイズを前記第1サイズから前記第1サイズよりも小さい第2サイズに変更する
    処理を実行させることを特徴とする請求項1〜4のいずれか1項に記載の圧縮プログラム。
  6. 前記第2記憶領域に記憶されたデータのうち、最先で記憶されたデータを前記第2記憶領域から削除する
    ことを特徴とする請求項5に記載の圧縮プログラム。
  7. 前記第1記憶領域は、前記メモリに第3サイズで設定され、
    前記コンピュータに、さらに、
    前記第2記憶領域のサイズが前記第1サイズから前記第2サイズに変更される場合、前記第1記憶領域のサイズを前記第3サイズから前記第3サイズよりも大きい第4サイズに変更する
    処理を実行させることを特徴とする請求項5または6に記載の圧縮プログラム。
  8. 前記第1記憶領域は、前記メモリに第3サイズで設定され、
    前記圧縮対象データは、前記第1記憶領域内の位置を示す位置情報に従って前記第1記憶領域に格納され、
    前記コンピュータに、さらに、
    前記格納された圧縮対象データのサイズに応じて前記位置情報を更新し、
    前記第3サイズ内に前記圧縮対象データが格納されるよう前記位置情報の更新を制御し、
    前記圧縮対象データと前記所定の一致性が検出された前記第1記憶領域内のデータの検出回数をカウントし、
    前記位置情報に従って前記検出回数が所定回数を超えている前記第1記憶領域内の格納済みデータに前記圧縮対象データが上書きされる場合、前記圧縮対象データに続いて前記格納済みデータを前記第1記憶領域内に再登録する、
    処理を実行させることを特徴とする請求項1〜6のいずれか1項に記載の圧縮プログラム。
  9. メモリと、
    前記メモリに第1記憶領域および第2記憶領域を設定する制御部と、
    圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較する第1参照部と、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成する第1生成部と、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較する第2参照部と、
    前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記圧縮対象データを前記第2記憶領域に移動する第1更新部と、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納する第2更新部と、
    を含むことを特徴とする圧縮装置。
  10. コンピュータに、
    圧縮ファイルから圧縮データを順次読み出すことであって、
    前記圧縮ファイルは、
    第1メモリに第1記憶領域および第2記憶領域を設定し、
    圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較し、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成し、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較することであって、前記圧縮対象データは前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記第2記憶領域に移動され、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納し且つ前記第2記憶領域内のデータに基づいて前記圧縮対象データのための第2圧縮符号を生成することであって、前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、
    前記圧縮対象データと前記第2記憶領域内のデータとの比較に基づいて前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の第2一致性が検出されない場合、前記第1圧縮符号と前記第2圧縮符号と異なる種類の符号化処理によって前記圧縮対象データのための第3圧縮符号を生成し
    前記第1圧縮符号、前記第2圧縮符号および前記第3圧縮符号に基づいて生成されたものであり、
    前記読み出した圧縮データが前記第1圧縮符号であると判定される場合、前記第1圧縮符号に応じた第2メモリの第4記憶領域内のデータに基づいて第1伸張データを生成し、
    前記読み出した圧縮データが前記第2圧縮符号であると判定される場合、前記第2圧縮符号に応じた前記第2メモリの第5記憶領域内のデータに基づいて第2伸張データを生成し、
    前記第2伸張データが生成される場合、前記第2圧縮符号および前記第2伸張データに応じて前記第4記憶領域を更新し、
    前記読み出した圧縮データが前記第3圧縮符号であると判定される場合、前記符号化処理に対応する復号処理によって前記読み出した圧縮データから第3伸張データを生成し、
    前記第3伸張データを前記第4記憶領域に格納する、
    処理を実行させることを特徴とする伸張プログラム。
  11. 第1メモリと、
    圧縮ファイルから圧縮データを順次読み出す制御部であって、前記圧縮ファイルは、
    第2メモリに第1記憶領域および第2記憶領域を設定し、
    圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較し、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成し、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較することであって、前記圧縮対象データは前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記第2記憶領域に移動され、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納し且つ前記第2記憶領域内のデータに基づいて前記圧縮対象データのための第2圧縮符号を生成することであって、前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、
    前記圧縮対象データと前記第2記憶領域内のデータとの比較に基づいて前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の第2一致性が検出されない場合、前記第1圧縮符号と前記第2圧縮符号と異なる種類の符号化処理によって前記圧縮対象データのための第3圧縮符号を生成し、
    前記第1圧縮符号、前記第2圧縮符号および前記第3圧縮符号に基づいて生成されたものであり、
    前記読み出した圧縮データが前記第1圧縮符号であると判定される場合、前記第1圧縮符号に応じた前記第1メモリの第4記憶領域内のデータに基づいて第1伸張データを生成する第1生成部と、
    前記読み出した圧縮データが前記第2圧縮符号であると判定される場合、前記第2圧縮符号に応じた前記第1メモリの第5記憶領域内のデータに基づいて第2伸張データを生成する第2生成部と、
    前記第2伸張データが生成される場合、前記第2圧縮符号および前記第2伸張データに応じて前記第4記憶領域を更新する更新部と、
    前記読み出した圧縮データが前記第3圧縮符号であると判定される場合、前記符号化処理に対応する復号処理によって前記読み出した圧縮データから第3伸張データを生成する第3生成部と、を含み、
    前記制御部によって前記第3伸張データが前記第4記憶領域に格納されることを特徴とする伸張装置
  12. 第1メモリと、
    前記第1メモリに第1記憶領域および第2記憶領域を設定する第1制御部と、
    圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとを比較する第1参照部と、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に所定の一致性が検出される場合、前記第1記憶領域内のデータに基づいて前記圧縮対象データのための第1圧縮符号を生成する第1生成部と、
    前記圧縮対象データと前記第1記憶領域内のデータとの間に前記所定の一致性が検出されない場合、前記圧縮対象データと前記第2記憶領域内のデータとを比較する第2参照部と、
    前記圧縮対象データと前記第1記憶領域内のデータとの比較の後に前記圧縮対象データを前記第2記憶領域に移動する第1更新部と、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に所定の一致性が検出される場合、前記圧縮対象データを前記第1記憶領域に格納する第2更新部と、
    前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の一致性が検出される場合、前記第2記憶領域内のデータに基づいて前記圧縮対象データのための第2圧縮符号を生成する第2生成部であって、前記第1圧縮符号と前記第2圧縮符号は、同種の符号でありかつ前記圧縮対象ファイル内の圧縮対象データと前記第1記憶領域内のデータとの比較および前記圧縮対象データと前記第2記憶領域内のデータとの比較のいずれかに基づいて生成されたことを示す識別子を含み、
    前記圧縮対象データと前記第2記憶領域内のデータとの比較に基づいて前記圧縮対象データと前記第2記憶領域内のデータとの間に前記所定の第2一致性が検出されない場合、前記第1圧縮符号と前記第2圧縮符号と異なる種類の符号化処理によって前記圧縮対象データのための第3圧縮符号を生成する第3生成部と、を含み、
    前記制御部によって前記第1圧縮符号、前記第2圧縮符号および前記第3圧縮符号に基づいて圧縮ファイルが生成される、圧縮装置と、
    第2メモリと、
    圧縮ファイルから圧縮データを順次読み出す第2制御部と、
    前記読み出した圧縮データが前記第1圧縮符号であると判定される場合、前記第1圧縮符号に応じた前記第1メモリの第4記憶領域内のデータに基づいて第1伸張データを生成する第4生成部と、
    前記読み出した圧縮データが前記第2圧縮符号であると判定される場合、前記第2圧縮符号に応じた前記第1メモリの第5記憶領域内のデータに基づいて第2伸張データを生成する第5生成部と、
    前記第2伸張データが生成される場合、前記第2圧縮符号および前記第2伸張データに応じて前記第4記憶領域を更新する第3更新部と、
    前記読み出した圧縮データが前記第3圧縮符号であると判定される場合、前記符号化処理に対応する復号処理によって前記読み出した圧縮データから第3伸張データを生成する第6生成部と、を含み、
    前記第2制御部によって前記第3伸張データが前記第4記憶領域に格納される、伸張装置と、
    を含むことを特徴とするシステム
JP2014552756A 2012-12-19 2012-12-19 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム Active JP6032291B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/008138 WO2014097356A1 (ja) 2012-12-19 2012-12-19 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法および伸張装置

Publications (2)

Publication Number Publication Date
JP6032291B2 true JP6032291B2 (ja) 2016-11-24
JPWO2014097356A1 JPWO2014097356A1 (ja) 2017-01-12

Family

ID=50977746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014552756A Active JP6032291B2 (ja) 2012-12-19 2012-12-19 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム

Country Status (3)

Country Link
US (2) US9496895B2 (ja)
JP (1) JP6032291B2 (ja)
WO (1) WO2014097356A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6032291B2 (ja) * 2012-12-19 2016-11-24 富士通株式会社 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム
JP6175924B2 (ja) * 2013-06-13 2017-08-09 富士通株式会社 プログラム、情報処理システムおよびデータ更新制御方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03209922A (ja) * 1990-01-12 1991-09-12 Fujitsu Ltd データ圧縮方式
JPH0832454A (ja) * 1994-07-19 1996-02-02 Hitachi Ltd データ符号化及び復号化方式
JPH08116269A (ja) * 1994-10-17 1996-05-07 Fujitsu Ltd データ処理装置及びデータ処理方法
US5635932A (en) * 1994-10-17 1997-06-03 Fujitsu Limited Lempel-ziv compression with expulsion of dictionary buffer matches
JPH11154872A (ja) * 1997-11-20 1999-06-08 Matsushita Denso System Kk データ圧縮伸長処理方法及び通信装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2729424B2 (ja) 1991-10-31 1998-03-18 シャープ株式会社 テキスト圧縮装置およびテキスト圧縮用辞書の自動構築装置
JPH05233312A (ja) 1992-02-19 1993-09-10 Fujitsu Ltd 遷移規則表生成方式
JP3241788B2 (ja) 1992-02-28 2001-12-25 富士通株式会社 データ圧縮方式
JPH0628149A (ja) 1992-07-10 1994-02-04 Fujitsu Ltd 複数種類データのデータ圧縮方法
JP3449338B2 (ja) 1993-06-22 2003-09-22 セイコーエプソン株式会社 データ圧縮方法、データ復元方法及び情報処理装置
JP3346626B2 (ja) 1993-11-30 2002-11-18 京セラ株式会社 データ圧縮装置
JP2693914B2 (ja) 1994-08-30 1997-12-24 北海道日本電気ソフトウェア株式会社 検索システム
US5612693A (en) 1994-12-14 1997-03-18 International Business Machines Corporation Sliding window data compression using a toroidal bit shift register
JP3499671B2 (ja) 1996-02-09 2004-02-23 富士通株式会社 データ圧縮装置及びデータ復元装置
JP4242970B2 (ja) 1998-07-09 2009-03-25 富士通株式会社 データ圧縮方法及びデータ圧縮装置
US6307488B1 (en) * 2000-05-04 2001-10-23 Unisys Corporation LZW data compression and decompression apparatus and method using grouped data characters to reduce dictionary accesses
US6426711B1 (en) * 2001-05-14 2002-07-30 Unisys Corporation Character table implemented data compression method and apparatus
US6466144B1 (en) * 2001-11-30 2002-10-15 Unisys Corporation Data decompressor for use with a data compressor implemented with limited length character tables and compact string codes
JP4456554B2 (ja) 2005-10-31 2010-04-28 富士通株式会社 データ圧縮方法及び圧縮データ送信方法
JP6032291B2 (ja) * 2012-12-19 2016-11-24 富士通株式会社 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03209922A (ja) * 1990-01-12 1991-09-12 Fujitsu Ltd データ圧縮方式
JPH0832454A (ja) * 1994-07-19 1996-02-02 Hitachi Ltd データ符号化及び復号化方式
JPH08116269A (ja) * 1994-10-17 1996-05-07 Fujitsu Ltd データ処理装置及びデータ処理方法
US5635932A (en) * 1994-10-17 1997-06-03 Fujitsu Limited Lempel-ziv compression with expulsion of dictionary buffer matches
JPH11154872A (ja) * 1997-11-20 1999-06-08 Matsushita Denso System Kk データ圧縮伸長処理方法及び通信装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013013700; 野口 雄太 他: '"複数辞書を用いたデータ圧縮法とその誤り回復"' 電子情報通信学会技術研究報告 第106巻,第402号, 20061201, pp.35-40, 社団法人電子情報通信学会 *
JPN6013013704; 荒木 豊 他: '"トークン辞書を付加したLZSS圧縮法"' 電子情報通信学会技術研究報告 第95巻,第593号, 19960319, pp.49-52, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
WO2014097356A1 (ja) 2014-06-26
US20150288383A1 (en) 2015-10-08
US9496895B2 (en) 2016-11-15
JPWO2014097356A1 (ja) 2017-01-12
US20170033803A1 (en) 2017-02-02

Similar Documents

Publication Publication Date Title
JP6742692B2 (ja) 符号化プログラムおよび伸長プログラム
JP6531398B2 (ja) プログラム
JP6641857B2 (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP6527462B2 (ja) 圧縮装置、圧縮方法、記録媒体および伸張装置
JP6648620B2 (ja) 符号化プログラム、符号化装置および符号化方法
JP2017194762A (ja) インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
US20160210479A1 (en) Computer-readable recording medium, encrypting apparatus, and encrypting method
JP6032292B2 (ja) 圧縮プログラム、圧縮装置、伸張プログラムおよび伸張装置
JP6540308B2 (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
JP6834327B2 (ja) 符号化プログラム、符号化装置および符号化方法
JP6032291B2 (ja) 圧縮プログラム、圧縮装置、伸張プログラム、伸張装置およびシステム
JP6252489B2 (ja) 圧縮装置、圧縮方法、圧縮プログラム、伸張装置、伸張方法、伸張プログラム、および圧縮伸張システム
US11055328B2 (en) Non-transitory computer readable medium, encode device, and encode method
US9479195B2 (en) Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device
WO2014030180A1 (ja) 格納プログラム、格納方法、格納装置、伸張プログラム、伸張方法及び伸張装置
JP2017195628A (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法及び復号化装置
JP2016134754A (ja) 変換処理プログラム、情報処理装置および変換処理方法
JP2016171589A (ja) 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法及び復号化装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161010

R150 Certificate of patent or registration of utility model

Ref document number: 6032291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150