JP2016143994A

JP2016143994A - 符号化プログラムおよび伸長プログラム

Info

Publication number: JP2016143994A
Application number: JP2015017716A
Authority: JP
Inventors: 片岡　正弘; Masahiro Kataoka; 正弘片岡; 泰裕鈴木; Yasuhiro Suzuki; 量松村; Ryo Matsumura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2016-08-08
Anticipated expiration: 2035-01-30
Also published as: KR101772312B1; AU2016200550B2; EP3051430A1; CN105846825B; AU2016200550A1; EP3051430B1; JP6742692B2; KR20160094315A; CN105846825A; US20160226511A1; US9509334B2

Abstract

【課題】圧縮データのデータ長が長くなること解消すること。
【解決手段】本実施例にかかる情報処理装置１００は、静的辞書Ｃ２を用いて圧縮対象の文字列を圧縮する際、静的辞書に圧縮対象の文字列が登録されているか否かをビットフィルタＣ１を用いて判定する。そして、情報処理装置１００は、静的辞書に登録されていない文字列を検出した場合には、検出した文字列に動的辞書に登録し、動的辞書の登録番号を文字列の圧縮符号とする。
【選択図】図６

Description

本発明は、符号化プログラム等に関する。

近年、静的辞書を用いて圧縮対象ファイルを符号化する従来技術が存在する。この静的辞書は、一般的な英語辞典、国語辞典や教科書などを基にして、文書中に出現する単語や文字の出現頻度を特定し、出現頻度のより高い単語に対して、より短い圧縮符号を割当てた辞書である。従来技術では、静的辞書をもとに、圧縮対象ファイルのテキストを静的辞書の単語や文字に割り当てられた圧縮符号に変換することで、圧縮処理を行い、圧縮ファイルを作成する。

特開平８−２８８８６１号公報特表２００４−５１４３６６号公報特開平６−２２２９０３号公報

しかしながら、上述した従来技術では、圧縮ファイルのデータにおいて、静的辞書に登録されていない単語に関して、割り当てられる圧縮符号長が長くなり、圧縮率が低下するという問題がある。

例えば、従来技術で用いる静的辞書には、人名、地名、作品名などの単語は登録されていないため、単語を構成する文字に分解され、各文字に割り当てられた圧縮符号に変換され、圧縮処理が行われる。このような場合には、圧縮対象ファイルの圧縮率が低下してしまう。

１つの側面では、圧縮ファイルの単語などの文字列に割り当てられる圧縮符号長が長くなること解消する符号化プログラムおよび伸長プログラムを提供することを目的とする。

第１の案では、コンピュータに、下記の処理を実行させる。コンピュータは、入力データに含まれる圧縮対象の文字列について、文字列および該文字列に対応する圧縮符号を対応付けた第１辞書を用いて、圧縮対象の文字列が第１辞書に登録されているか否かを判定する。コンピュータは、圧縮対象の文字列が前記第１辞書に登録されている場合は、第１辞書に登録された圧縮対象の文字列に対応する圧縮符号を出力する。コンピュータは、圧縮対象の文字列が前記第１辞書に登録されていない場合は、入力データの一部であって、圧縮対象の文字列の処理より前に第１辞書に登録されていないと判定された文字列を蓄積した第１のデータと、圧縮対象の文字列とを照合する。コンピュータは、一致した文字列を第１辞書と異なる第２辞書に登録し、圧縮対象の文字列の第２辞書における登録番号に対応する圧縮符号を出力する。

本発明の１実施態様によれば、圧縮ファイルの単語などの文字列に対応した圧縮符号長が長くなること解消することができるという効果を奏する。

図１は、本実施例に係る情報処理装置の圧縮処理の流れの一例を示す図（１）である。図２は、動的辞書部の一例を示す図である。図３は、本実施例に係る情報処理装置の圧縮処理の流れの一例を示す図（２）である。図４は、圧縮ファイルＦ２のブロック構成例を示す図である。図５は、本実施例に係る情報処理装置の伸長処理の流れの一例を示す図である。図６は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図７は、圧縮用のケヤキ木のデータ構造の一例を示す図である。図８は、伸長用のケヤキのデータ構造の一例を示す図である。図９は、本実施例に係る圧縮部の構成の一例を示す機能ブロック図である。図１０は、本実施例に係る伸長部の構成の一例を示す機能ブロック図である。図１１は、本実施例に係る圧縮部の処理手順を示すフローチャートである。図１２は、本実施例に係る伸長部の処理手順を示すフローチャートである。図１３は、コンピュータのハードウェア構成例を示す図である。図１４は、コンピュータで動作するプログラムの構成例を示す図である。図１５は、実施形態のシステムにおける装置の構成例を示す図である。

以下に、本願の開示する符号化プログラムおよび伸長プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例に係る情報処理装置の圧縮処理の流れの一例を示す図である。情報処理装置は、圧縮処理のワークエリアとして、メモリに記憶領域Ａ１、記憶領域Ａ２、記憶領域Ａ３、記憶領域Ａ４を設ける。以下の説明では適宜、記憶領域Ａ１、記憶領域Ａ２、記憶領域Ａ３をそれぞれ、符号化部、参照部、動的辞書部と呼ぶ。

情報処理装置は、圧縮対象のファイルＦ１を読み出し、ファイルＦ１のテキストに対し、先頭文字から終端記号を区切りとする文字列を単語として抽出する。例えば、ファイルＦ１には「・・・Kataoka△talks△・・・」というデータが含まれる。「Kataoka△」や「talks△」などの単語が存在する。終端記号は、空白（スペース）やカンマ（，）ピリオド（．）の記号である。本実施例では一例として、終端記号を「△（三角）」で表す。

情報処理装置は、ビットフィルタＣ１と文字列とを比較して、文字列がビットフィルタＣ１にヒットするか否かを判定する。ビットフィルタは、静的辞書を用いて圧縮する単語の文字列を特定するフィルタである。情報処理装置は、文字列がビットフィルタＣ１にヒットした場合には、静的辞書に基づいて単語の文字列に対応する圧縮符号に変換し、圧縮データを出力する。これに対して、情報処理装置は、文字列がビットフィルタＣ１の静的辞書にヒットしない場合には、動的辞書に登録された単語の文字列に対応する圧縮符号に
変換し、圧縮データを出力する。

ここで、静的辞書とは、一般的な英語辞書、国語辞典や教科書などを基にして文書中に出現する単語や文字の出現頻度を特定し、出現頻度のより高い単語や文字に対して、より短い圧縮符号を割当てた辞書である。

動的辞書は、ビットフィルタＣ１にヒットしない文字列はスライド窓の符号化部に格納され、蓄積された参照部の文字列と照合される。一致した文字列は、動的辞書に登録され、その登録番号が圧縮符号に割り当てられる。動的辞書に関する詳しい説明は後述する。

情報処理装置が圧縮対象のファイルＦ１の単語の文字列「talks△」の圧縮データを生成する場合の処理について説明する。また、単語の文字列「talks△」は、ビットフィルタＣ１にヒットするものとする。

情報処理装置は、単語の文字列「talks△」とビットフィルタＣ１とを比較して、単語の文字列「talks△」がビットフィルタＣ１にヒットするか否かを判定する。情報処理装置は、単語の文字列「talks△」がビットフィルタＣ１にヒットするため、単語の文字列「talks△」を静的辞書に登録されている圧縮符号に符号化する。情報処理装置は、識別子「０」と単語の文字列「talks△」の圧縮符号とを含む圧縮データｄ１を生成する。識別子「０」は、文字列が静的辞書に基づいて符号化されたことを示す情報である。情報処理装置は、圧縮データｄ１を記憶領域Ａ４に書き込む。

次に、情報処理装置が圧縮対象のファイルＦ１の単語の文字列「Kataoka△」の圧縮データを生成する場合の処理について説明する。また、単語の文字列「Kataoka△」は、ビットフィルタＣ１にヒットしないものとする。

情報処理装置は、単語の文字列「Kataoka△」とビットフィルタＣ１とを比較して、単語の文字列「Kataoka△」がビットフィルタＣ１にヒットするか否かを判定する。情報処理装置は、単語の文字列「Kataoka△」がビットフィルタＣ１にヒットしないため、下記の処理を実行する。

情報処理装置は、単語の文字列「Kataoka△」を記憶領域Ａ１に格納し、記憶領域Ａ２に格納された単語の文字列と、記憶領域Ａ１の単語の文字列とを比較して、一致単語を検索する。「一致単語」は、記憶領域Ａ１に格納された単語の文字列と一致する記憶領域Ａ２に格納された単語である。例えば、記憶領域Ａ２に文字列「・・・Kataoka△・・・」が既に格納されている場合には、一致単語は「Kataoka△」となる。情報処理装置は、記憶領域Ａ２に対して「K」の探索を行い、探索により得られた記憶領域Ａ２内の「K」の位置から「a」、「t」、「a」、「o」、「k」、「a」、「△」と連続しているか否か、順次照合する。

情報処理装置は、一致単語が所定の長さＬｍｉｎ以上である場合に、一致単語「Kataoka△」を動的辞書部の記憶領域Ａ３に登録する。情報処理装置は、動的辞書部の登録内容に基づいて圧縮符号を生成する。すなわち、情報処理装置は、動的辞書部に登録した一致単語の登録番号を、文字列「Kataoka△」の圧縮符号として特定する。情報処理装置は、識別子「１」と単語の文字列「Kataoka△」の圧縮符号とを含む圧縮データｄ２を生成する。識別子「１」は、文字列が動的辞書に基づいて符号化されたことを示す情報である。情報処理装置は、圧縮データｄ２を記憶領域Ａ４に書き込む。また、情報処理装置は、記憶領域Ａ１に格納された文字列を、記憶領域Ａ２に追記することで、記憶領域Ａ２を更新する。

記憶領域Ａ２は、それぞれのデータサイズが定められたデータ領域である。例えば、記憶領域Ａ２は、数キロバイト〜数十キロバイト（例えば、６４Ｋバイト）程度の記憶領域である。情報処理装置は、記憶領域Ａ２に定められたデータサイズ以上のデータを格納する場合には、記憶領域Ａ２の先頭に格納された古いデータの上から新しいデータを格納する。記憶領域Ａ２内に格納されるデータは、データの格納に応じて更新される書き込み位置からの相対的なアドレスにより、先頭位置が示される。

記憶領域Ａ３は、入力ファイルの大きさに応じて、データサイズが定められた記憶領域である。例えば、記憶領域Ａ３は、数キロバイト〜数十キロバイト程度（例えば、６４Ｋバイト）の記憶領域である。例えば、情報処理装置は、記憶領域Ａ３に定められたデータサイズ以上のデータを格納する場合には、新たなデータの格納を抑止する。

図２は、動的辞書部の一例を示す図である。図２に示される動的辞書部は、記憶領域Ａ３と参照テーブルＴ１とを含む。参照テーブルＴ１は、登録番号と、格納位置と、データ長とを対応づけて保持する。図２に示す例では、登録番号、格納位置、データ長を２進数で表す。登録番号は、記憶領域Ａ３に登録された一致単語が、何番目に登録されたデータであるかを示す情報である。なお、本実施例では、１番目に登録されたデータの登録番号を「００００００００」とする。格納位置は、一致単語の先頭文字が格納された記憶領域Ａ３内の位置を示す情報である。データ長は、一致単語の長さを示す情報である。

例えば、一致単語「Kataoka△」が記憶領域Ａ３に２番目に登録された一致単語である場合には、情報処理装置は、一致単語「Kataoka△」に対応する登録番号として、参照テーブルＴ１の登録番号に「０００００００１」を登録する。また、情報処理装置は、一致単語「Kataoka△」の先頭文字「K」が記憶領域Ａ３の「５」に格納されているため、格納位置に「０００００００００１０１」を登録する。情報処理装置は、一致単語「Kataoka△」のデータ長が「８」であるため、データ長に「１００００」を登録する。

図２に示すように、一致単語「Kataoka△」が動的辞書部に登録されたものとすると、一致単語「Kataoka△」の登録番号は「０００００００１」となる。この場合には、情報処理装置は、文字列「Kataoka△」の圧縮符号を「０００００００１」とする。このため、情報処理装置は、文字列「Kataoka△」の圧縮データｄ２として、識別子「１」、登録番号「０００００００１」を含む圧縮データｄ２を生成する。

図３は、本実施例に係る情報処理装置の圧縮処理の流れの一例を示す図（２）である。情報処理装置は、圧縮対象のファイルＦ１を読み出し、ファイルＦ１の先頭文字から終端記号を区切りとする文字列を圧縮対象のファイルＦ１から抽出する。例えば、ファイルＦ１には「・・・Kataoka△talks△・・・」というデータが含まれる。

情報処理装置が圧縮対象のファイルＦ１の単語の文字列「talks△」の圧縮データを生成する場合の処理は、図１に示した処理と同様であるため、説明を省略する。

情報処理装置が圧縮対象のファイルＦ１の単語の文字列「Kataoka△」の圧縮データを生成する場合の処理について説明する。また、単語の文字列「Kataoka△」は、ビットフィルタＣ１にヒットしないものとする。

情報処理装置は、単語の文字列「Kataoka△」を記憶領域Ａ１に格納し、記憶領域Ｂ１に格納された単語の文字列と、記憶領域Ａ１の単語の文字列とを比較して、一致単語を検索する。例えば、記憶領域Ａ２に「Kataoka△」が格納されていない場合には、情報処理装置は、単語の文字列「Kataoka△」の各文字を、静的辞書によって符号化する。すなわち、情報処理装置は、「K」、「a」、「t」、「a」、「o」、「k」、「a」、「△」をそれぞれ静的辞書で符号化することで、圧縮データｄ３を生成する。情報処理装置は、圧縮データｄ３を記憶領域Ａ４に書き込む。

圧縮データｄ３は、圧縮データｄ３１，ｄ３２，ｄ３３，ｄ３４，ｄ３５，ｄ３６，ｄ３７，ｄ３８を有する。圧縮データｄ３１は、識別子「０」と「K」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３２は、識別子「０」と「a」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３３は、識別子「０」と「t」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３４は、識別子「０」と「a」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３５は、識別子「０」と「o」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３６は、識別子「０」と「k」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３７は、識別子「０」と「a」の静的辞書に登録されている圧縮符号を有する。圧縮データｄ３８は、識別子「０」と「△」の静的辞書に登録されている圧縮符号を有する。

情報処理装置は、記憶領域Ａ４に格納された圧縮データを、圧縮ファイルＦ２に格納する。

図４は、圧縮ファイルＦ２のブロック構成例を示す図である。図４に示すように、圧縮ファイルＦ２は、ヘッダ部と、圧縮データと、トレーラ部とを有する。ヘッダ部は、例えば、圧縮ファイルＦ２の生成に用いられた圧縮アルゴリズムを識別する情報や、圧縮に用いられたパラメータなどの情報を有する。圧縮データは、情報処理装置が生成した各圧縮データに対応する。トレーラ部は、圧縮処理が完了した後の動的辞書部の情報を有する。動的辞書部の情報は、図２に示した動的辞書部の情報に対応する。

図５は、本実施例に係る情報処理装置の伸長処理の流れの一例を示す図である。情報処理装置は、伸長処理のワークエリアとして、メモリに記憶領域Ｂ１、記憶領域Ｂ２および記憶領域Ｂ３を設ける。情報処理装置は、圧縮ファイルＦ２を記憶領域Ｂ１にロードし、順次圧縮データを読み出す。情報処理装置は、読み出した圧縮データに基づいて、伸長データの生成を行う。

情報処理装置は、圧縮データに含まれる識別子に応じた生成処理を行う。情報処理装置は、生成した伸長データを記憶領域Ｂ３に格納し、記憶領域Ｂ３に格納された伸長データに基づいて伸長ファイルＦ３が生成される。また、情報処理装置は、記憶領域Ｂ２に、図４のトレーラ部に格納された動的辞書部の情報をロードする。以下の説明では適宜、記憶領域Ｂ１を符号化部と呼び、記憶領域Ｂ２を動的辞書部と呼ぶ。図１に示した圧縮データｄ１，ｄ２に対する伸長処理を説明する。

情報処理装置は、圧縮データｄ１を読み出し、圧縮データｄ１の識別子を判定する。情報処理装置は、圧縮データｄ１の識別子が「０」である場合には、圧縮データｄ１が、静的辞書によって符号化されたと判定する。情報処理装置は、圧縮データｄ１と伸長用ケヤキ木とを比較して、伸長用ケヤキ木に示される伸長データを特定する。情報処理装置は、伸長データを、記憶領域Ｂ３に書き込む。

情報処理装置は、圧縮データｄ２を読み出し、圧縮データｄ２の識別子を判定する。情報処理装置は、圧縮データｄ２の識別子が「１」である場合には、圧縮データｄ２が、動的辞書によって符号化されたと判定する。情報処理装置は、圧縮データｄ２内の圧縮符号に基づいて、動的辞書部を参照し、伸長データを生成する。

例えば、情報処理装置は、圧縮データｄ２に含まれる登録番号と、動的辞書部の参照テーブルＴ１とを比較して、記憶領域Ｂ２内の格納位置およびデータ長を特定する。情報処理装置は、格納位置およびデータ長に対応するデータを、記憶領域Ｂ２から読み出し、読み出したデータを伸長データとする。例えば、圧縮データｄ２内の登録番号は、動的辞書部内の「Kataoka△」を示すため、伸長データとして「Kataoka」が生成される。

図６は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図６に示すように、この情報処理装置１００は、圧縮部１００ａと、伸長部１００ｂと、記憶部１００ｃとを有する。

圧縮部１００ａは、図１〜図３に示した圧縮処理を実行する処理部である。伸長部１００ｂは、図５に示した伸長処理を実行する処理部である。記憶部１００ｃは、圧縮対象のファイルＦ１、圧縮処理により得られる圧縮ファイルＦ２、ファイルＦ２を伸長して得られるファイルＦ３等を格納する。

また、情報処理装置１００は、図１、図５等に示した記憶領域Ａ１，Ａ２，Ａ３，Ａ４、Ｂ１，Ｂ２，Ｂ３を、記憶部１００ｃに設定する。また、記憶部１００ｃは、圧縮用のケヤキ木および伸長用のケヤキ木を記憶する。

図７は、圧縮用のケヤキ木のデータ構造の一例を示す図である。図７に示すように、圧縮用のケヤキ木５０は、２グラム、ビットマップ、ポインタ、基礎単語、文字列長、出現頻度、符号長、圧縮符号を有する。このうち、２グラム、ビットマップ、ポインタ、基礎単語、文字列長は、ビットフィルタＣ１に対応する。また、基礎単語、文字列長、出現頻度、符号長、圧縮符号は、静的辞書Ｃ２に対応する。

２グラムは、２文字の文字列を示す情報である。ビットマップは、２グラムの文字列に対応するビットマップを示す。例えば、「aa」に対応するビットマップは「０＿０＿０＿０＿０」となる。ポインタは、ビットマップに対応する連結単語の位置を示すポインタである。

基礎単語は、静的辞書Ｃ２に登録された単語である。文字列長は、基礎単語に対応する文字列長である。出現頻度は、基礎単語の出現頻度である。符号長は、圧縮符号の符号長である。圧縮符号は、基礎単語に割り当てられた圧縮符号である。

図８は、伸長用のケヤキのデータ構造の一例を示す図である。図８に示すように、伸長用のケヤキ６０は、複数の枝６０−１〜６０−ｎと、葉６１−１〜６０−ｍとを有する。各枝６０−１〜６０−ｎには、所定のビット列が割り当てられる。情報処理装置１００は、圧縮データのビット列と、枝６０−１〜６０−ｎに割り当てられたビット列とを比較して、圧縮データのビット列にヒットする枝に接続される葉が特定する。葉には、圧縮データに対応する文字列の情報が格納される。

例えば、葉のデータ構造は、６１に示すものとなる。例えば、葉には、葉識別情報と、圧縮符号長と、文字コードまたは基礎単語へのポインタとが格納される。葉識別情報は、葉を一意に識別する情報である。圧縮符号長は、各枝６０−１〜６０−ｎと比較した圧縮データのビット列の内、有効な長さを示す情報である。文字コードまたは基礎単語へのポインタは、圧縮符号を伸長した場合の伸長データを一意に示す情報である。

例えば、ビット列「０１０１１１１１０１１１１０１」が枝６０−４にヒットし、枝６０−４に接続される葉６１−４の圧縮符号長が「１１」であり、基礎単語へのポインタで示される基礎単語が「talks△」であるとする。この場合には、ビット列の先頭から１１ビット目までのビット列「０１０１１１１１０１１」が、基礎単語「talks△」に対応する圧縮符号となる。

図９は、本実施例に係る圧縮部の構成の一例を示す機能ブロック図である。図９に示すように、この圧縮部１００ａは、ファイルリード部１０１、判定部１０２、第１符号化部１０３、第２符号化部１０４、更新部１０５、ファイルライト部１０６を有する。

ファイルリード部１０５は、ファイルＦ１内のコンテンツ部分のデータを読み出す処理部である。ファイルリード部１０５は、読み出したデータに含まれる文字列を先頭から走査し、終端記号を区切りとする文字列を順次抽出し、抽出した文字列を判定部１０２に順次出力する。

例えば、ファイルリード部１０５は、ファイルＦ１のコンテンツ部分の単語の文字列が「Kataoka△talks△about△・・・」である場合には、単語の文字列「Kataoka△」、「talks△」、「about△」の順に、各単語の文字列を判定部１０２に出力する。

判定部１０２は、文字列とビットフィルタＣ１とを比較して、文字列がビットフィルタＣ１にヒットするか否かを判定する処理部である。判定部１０２は、文字列がビットフィルタＣ１にヒットした場合には、文字列を第１符号化部１０３に出力する。判定部１０２は、文字列がビットフィルタＣ１にヒットしない場合には、文字列を第２符号化部１０４に出力する。

判定部１０２の処理を、図７を用いて説明する。また、判定対象の単語の文字列を「talks△」とする。判定部１０２は、文字列を先頭から２グラムずつビットフィルタＣ１の２グラムと比較し、ビットマップを特定する。例えば、判定部１０２は、単語の文字列が「talks△」である場合には、「ta」、「al」、「lk」、「k△」に対応するビットマップをそれぞれ組み合わせる。判定部１０２は、ビットマップの各桁において、すべてのビットマップの値が０となっている場合には、組み合わせたビットマップの該当する桁を「０」とする。これに対して、１が一つでも含まれる場合には該当する桁を「１」に設定することで、ビットマップを組み合わせる。

例えば、「ta」のビットマップが「０＿０＿０＿０＿０」、「al」のビットマップが「０＿１＿０＿０＿０」、「lk」のビットマップが「０＿０＿１＿０＿０」、「k△」のビットマップが「０＿１＿１＿０＿０」とする。この場合には、各ビットマップを組み合わせたビットマップは「０＿１＿１＿０＿０」となる。

判定部１０２は、組み合わせたビットマップと、ビットフィルタＣ１のポインタとを比較して、ビットマップに対応するポインタが示す位置の基礎単語を特定する。判定部１０２は、特定した基礎単語から順に、文字列に対応する基礎単語を検索する。判定部１０２は、文字列に対応する基礎単語が存在する場合には、文字列がビットフィルタＣ１にヒットしたと判定する。これに対して、判定部１０２は、文字列に対応する基礎単語が存在しない場合には、文字列がビットフィルタＣ１にヒットしないと判定する。

第１符号化部１０２は、判定部１０２から取得した文字列を静的辞書Ｃ２に基づいて符号化する処理部である。第１符号化部１０２は、静的辞書Ｃ２を参照し、文字列に対応する基礎単語を、静的辞書Ｃ２から特定し、特定した基礎単語に対応する圧縮符号を特定する。そして、第１符号化部１０２は、識別子に「０」と、静的辞書Ｃ２に登録されている文字列の圧縮符号を含む圧縮データを生成し、圧縮データをファイルライト部１０６に出力する。

第２符号化部１０３は、判定部１０２から取得した単語の文字列を動的辞書に基づいて符号化する処理部である。第２符号化部１０３は、単語の文字列を符号化部となる記憶領域Ａ１に格納する。第２符号化部１０３は、記憶領域Ａ１と、参照部となる記憶領域Ａ２に格納されたデータとを比較して、一致単語を検索する。

第２符号化部１０３は、一致単語が所定の長さＬｍｉｎ以上である場合に、一致単語を動的辞書部の記憶領域Ａ３に登録する。第２符号化部１０３は、動的辞書部の登録内容に基づいて圧縮符号を生成する。すなわち、第２符号化部１０３は、動的辞書部に登録した一致単語の登録番号を、単語の文字列の圧縮符号として特定する。第２符号化部１０３は、識別子「１」と、動的辞書の登録番号とを含む圧縮データを生成し、圧縮データをファイルライト部１０６に出力する。

例えば、第２符号化部１０３は、単語の文字列「Kataoka△」が記憶領域Ａ３に２番目に登録された一致単語である場合には、一致単語「Kataoka△」に対応する登録番号として、参照テーブルＴ１の登録番号に「０００００００１」を登録する。また、第２符号化部１０３は、一致単語「Kataoka△」の先頭文字「K」が記憶領域Ａ３の「５」に格納されているため、格納位置に「０００００００００１０１」を登録する。第２符号化部１０３は、一致単語「Kataoka△」のデータ長が「８」であるため、データ長に「１００００」を登録する。

第２符号化部１０３は、図２に示すように、一致単語「Kataoka△」が動的辞書部に登録されたものとすると、一致単語「Kataoka△」の登録番号は「０００００００１」となる。この場合には、第２符号化部１０３は、単語の文字列「Kataoka△」の圧縮符号を「０００００００１」とする。このため、第２符号化部１０３は、単語の文字列「Kataoka△」の圧縮データとして、識別子「１」、登録番号「０００００００１」を含む圧縮データを生成し、ファイルライト部１０６に出力する。

これに対して、第２符号化部１０３は、一致単語が所定の長さＬｍｉｎ未満である場合には、単語の文字列の各文字を、静的辞書Ｃ２によって符号化する。例えば、第２符号化部１０３は、単語の文字列「Kataoka△」に対応する一致単語が、長さＬｍｉｎ未満である場合には、図３で説明したように、「K」、「a」、「t」、「a」、「o」、「k」、「a」、「△」をそれぞれ静的辞書で符号化することで、圧縮データを生成する。

ところで、第２符号化部１０３は、符号化対象の単語の文字列と同一の単語の文字列が記憶領域Ａ３に既に登録されている場合には、既に登録されている単語の文字列の登録番号を、単語の文字列の圧縮符号として特定する。例えば、第２符号化部１０３は、符号化対象となる単語の文字列と、記憶領域Ａ３の各単語の文字列を比較し、符号化対象の単語の文字列と同一の文字列が記憶領域Ａ３に登録されていない場合に、上記一致単語検索を行う。

更新部１０５は、第２符号化部１０３によって、一致単語の検索が完了した後に、記憶領域Ａ１に格納された文字列を、記憶領域Ａ２に格納することで、記憶領域Ａ２を更新する処理部である。更新部１０５は、第２符号化部１０３による一致単語の検索が完了するたびに、記憶領域Ａ２を更新する。

ファイルライト部１０６は、第１符号化部１０３および第２符号化部１０４から圧縮データを取得し、取得した圧縮データを記憶領域Ａ４に書き込む処理部である。

図１０は、本実施例に係る伸長部の構成の一例を示す機能ブロック図である。図１０に示すように、この伸長部１００ｂは、ファイルリード部１１０、識別子判定部１１１、第１伸長部、第２伸長部１１３、更新部１１３、ファイルライト部１１５を有する。

ファイルリード部１１０は、圧縮ファイルＦ２内の圧縮データを記憶領域Ｂ１に読み出す処理部である。ファイルリード部１２３は、記憶領域Ｂ１に格納された圧縮データに対する処理が終了した場合に、新たな圧縮データを圧縮ファイルＦ２から読み出し、記憶領域Ｂ１に格納された圧縮データを更新する。

また、ファイルリード部１１０は、圧縮ファイルＦ２のトレーラ部に格納された動的辞書部の情報を読み出して、記憶領域Ｂ２に格納する。

識別子判定部１１１は、記憶領域Ｂ１に格納された圧縮データの識別子を読み出し、識別子が「０」であるか「１」であるかを判定する処理部である。識別子は、圧縮データの先頭ビットに対応する。識別子が「０」である場合には、圧縮データが静的辞書によって符号化されたことを示す。識別子が「１」である場合には、圧縮データが動的辞書によって符号化されたことを示す。

識別子判定部１１１は、圧縮データの識別子が「０」である場合には、圧縮データを第１伸長部１１２に出力する。識別子判定部１１１は、圧縮データの識別子が「１」である場合には、圧縮データを第２伸長部１１３に出力する。

第１伸長部１１２は、伸長用のケヤキ木６０を用いて圧縮データを伸長する処理部である。伸長用のケヤキ木６０のデータ構造は、図８に示したものに対応する。第１伸長部１１２は、ケヤキ木６０の各枝に割り当てられたビット列と、識別子を除いた圧縮データとを比較して、圧縮データと同一のビット列となる枝に対応付けられた葉を特定する。第１伸長部１１２は、特定した葉を参照し、基礎単語のポインタに示される文字列を、圧縮データの伸長データとして生成し、生成した伸長データをファイルライト部１１５に出力する。

伸長部１１２は、図８において、例えば、ビット列「０１０１１１１１０１１１１０１」が、ケヤキ木６０の枝６０−４にヒットし、枝６０−４に接続される葉６１−４の圧縮符号が「１１」であり、基礎単語へのポインタで示される基礎単語が「talks△」であるとする。この場合には、伸長部１１２は、圧縮データのビット列のうち、先頭から１１ビット目までのビット列「０１０１１１１１０１１」に対応する伸長データとして「talks△」を生成する。

第２伸長部１１３は、記憶領域Ｂ２に格納された動的辞書部の情報を用いて圧縮データを伸長する処理部である。第２伸長部１１３は、圧縮データから識別子を取り除くことで、動的辞書部の登録番号を取得する。第２伸長部１１３は、取得した登録番号と、参照テーブルＴ１とを比較して、記憶領域Ｂ２に格納された伸長データの格納位置およびデータ長を特定する。第２伸長部１１３は、格納位置およびデータ長に対応する単語の文字列を記憶領域Ｂ２から取得し、取得した単語の文字列を伸長データとして生成する。

例えば、圧縮データから取得した登録番号を「０００００００１」として、第２伸長部１１３の処理を説明する。第２伸長部１１３は、登録番号「０００００００１」と参照テーブルＴ１とを比較して、格納位置「０００００００００１０１」とデータ長「１０００」を取得する。第２伸長部１１３は、記憶領域Ｂ２を参照し、格納位置「０００００００００１０１」を先頭とし、データ長「１０００」となる単語の文字列「Kataoka△」を取得する。第２伸長部１１３は、取得した単語の文字列「Kataoka△」を伸長データとし、ファイルライト部１１５に出力する。

更新部１１４は、圧縮データが格納された記憶領域Ｂ１を更新する処理部である。更新部１１４は、圧縮データの識別子が「０」である場合には、第１伸長部１１２に読み出された圧縮データのうち、識別子と、圧縮符号長に対応するビット列を、記憶領域Ｂ１から削除する。更新部１１４は、圧縮データの識別子が「１」である場合には、第２伸長部１１２に読み出された圧縮データを記憶領域Ｂ１から削除する。

ファイルライト部１１５は、第１伸長部１１２および第２伸長部１１３から伸長データを取得し、取得した伸長データを記憶領域Ｂ３に書き込む処理部である。

次に、図９および図１０に示した圧縮部１００ａおよび伸長部１００ｂの処理手順について説明する。

図１１は、本実施例に係る圧縮部の処理手順を示すフローチャートである。図１１に示すように、圧縮部１００ａは、前処理を実行する（ステップＳ１０１）。ステップＳ１０１の前処理において、圧縮部１００ａは、記憶領域Ａ１、記憶領域Ａ２、記憶領域Ａ３を記憶部１００ｃに確保する。

圧縮部１００ａは、圧縮対象のファイルＦ１を読み出し（ステップＳ１０２）、終端記号までの単語の文字列を抽出する（ステップＳ１０３）。圧縮部１００ａは、文字列とビットフィルタＣ１とを比較し、ビットフィルタＣ１にヒットするか否かを判定する（ステップＳ１０４）。

圧縮部１００ａは、文字列がビットフィルタＣ１にヒットしない場合には（ステップＳ１０４，Ｎｏ）、動的辞書を参照し、文字列が動的辞書に既に存在しているか否かを判定する（ステップＳ１０５）。圧縮部１００ａは、文字列が動的辞書に存在している場合には（ステップＳ１０６，Ｙｅｓ）、ステップＳ１０９に移行する。

一方、圧縮部１００ａは、文字列が動的辞書に存在しない場合には（ステップＳ１０６，Ｎｏ）、一致する単語を検索を実行する（ステップＳ１０７）。圧縮部１００ａは、動的辞書を更新する（ステップＳ１０８）。

圧縮部１００ａは、識別子「１」と動的辞書の登録番号とを含む圧縮データを出力する（ステップＳ１０９）。圧縮部１００ａは、圧縮データの書き込みを行い（ステップＳ１１０）、ファイルＦ１の終点か否かを判定する（ステップＳ１１１）。圧縮部１００ａは、ファイルＦ２の終点でない場合には（ステップＳ１１１，Ｎｏ）、ステップＳ１０３に移行する。圧縮部１００ａは、ファイルＦ２の終点の場合には（ステップＳ１１１，Ｙｅｓ）、処理を終了する。

ところで、圧縮部１００ａは、ステップＳ１０４において、文字列がビットフィルタＣ１にヒットした場合には（ステップＳ１０４，Ｙｅｓ）、静的辞書Ｃ２に登録されている圧縮符号を特定する（ステップＳ１１２）。圧縮部１００ａは、識別子「０」と圧縮符号とを含む圧縮データを出力し（ステップＳ１１３）、ステップＳ１１０に移行する。

図１２は、本実施例に係る伸長部の処理手順を示すフローチャートである。図１２に示すように、伸長部１００ｂは、前処理を実行する（ステップＳ２０１）。ステップＳ２０１の前処理において、伸長部１００ｂは、記憶領域Ｂ１、記憶領域Ｂ２、記憶領域Ｂ３を記憶部１００ｃに確保する。

伸長部１００ｂは、圧縮ファイルＦ２を読み出し（ステップＳ２０２）、伸長用のケヤキ木６０および動的辞書を読み出す（ステップＳ２０３）。例えば、伸長部１００ｂは、トレーラ部に格納された静的辞書に関する情報を、記憶領域Ｂ２に格納する。

伸長部１００ｂは、圧縮データの識別子が「１」であるか否かを判定する（ステップＳ２０４）。伸長部１００ｂは、識別子が「０」である場合には（ステップＳ２０４，Ｎｏ）、伸長用のケヤキ木６０と圧縮データとを比較して、伸長データを特定し（ステップＳ２０５）、ステップＳ２０７に移行する。

伸長部１００ｂは、圧縮データの識別子が「０」である場合には（ステップＳ２０４，Ｙｅｓ）、動的辞書の登録番号を基にして伸長データを特定する（ステップＳ２０６）。伸長部１００ｂは、記憶領域Ｂ３に伸長データの書き込みを行う（ステップＳ２０７）。

伸長部１００ｂは、圧縮ファイルＦ２の終点であるか否かを判定する（ステップＳ２０８）。伸長部１００ｂは、圧縮ファイルＦ２の終点でない場合には（ステップＳ２０８，Ｎｏ）、ステップＳ２０４に移行する。一方、伸長部１００ｂは、圧縮ファイルＦ２の終点である場合には（ステップＳ２０８，Ｙｅｓ）、圧縮ファイルＦ２をクローズする（ステップＳ２０９）。

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、静的辞書Ｃ２を用いて圧縮対象の文字列を圧縮する際、静的辞書に圧縮対象の文字列が登録されているか否かをビットフィルタＣ１を用いて判定する。情報処理装置１００は、静的辞書に登録されていない文字列を検出した場合には、検出した文字列に動的辞書に登録し、動的辞書の登録番号を文字列の圧縮符号とする。このため、情報処理装置１００によれば、静的辞書に存在しない文字列を、動的辞書の登録番号として圧縮でき、圧縮率の変動を防ぐことができる。また、圧縮データのデータ長が長くなること解消することができる。

また、本実施例に係る情報処理装置１００によれば、ビットフィルタＣ１に登録されていない文字列に対して一致する単語の探索を行い、一致する単語が所定長以上となる場合に、一致する単語を動的辞書に登録し、一致する単語を登録番号として圧縮する。このため、一致する単語に対する圧縮符号のデータ長を削減することができる。

また、本実施例に係る情報処理装置１００によれば、ビットフィルタＣ１に登録されていない文字列に対して一致する単語の探索を行い、一致する単語が所定長未満となる場合に、静的辞書を用いて、一致する単語の文字列を文字毎に圧縮する。このため、動的辞書の情報量が増加することを防止することができる。

また、本実施例に係る情報処理装置１００によれば、圧縮符号の識別子が「０」である場合には、伸長用のケヤキ木と圧縮符号とを基にして、圧縮符号を伸長する。なお、圧縮符号の識別子が「１」である場合には、動的辞書部と圧縮符号とを基にして、圧縮符号を伸長する。このため、圧縮データのデータ長が長くなることを解消できるとともに、この圧縮データを正確に伸長することもできる。

下記に、本実施形態に用いられるハードウェア及びソフトウェアについて説明する。図１３は、コンピュータ１のハードウェア構成例を示す。コンピュータ１は、例えば、プロセッサ３０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３０３、ドライブ装置３０４、記憶媒体３０５、入力インターフェース（Ｉ／Ｆ）３０６、入力デバイス３０７、出力インターフェース（Ｉ／Ｆ）３０８、出力デバイス３０９、通信インターフェース（Ｉ／Ｆ）３１０、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）インターフェース（Ｉ／Ｆ）３１１およびバス３１２などを含む。それぞれのハードウェアはバス３１２を介して接続されている。

ＲＡＭ３０２は読み書き可能なメモリ装置であって、例えば、ＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）やＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）などの半導体メモリ、またはＲＡＭでなくてもフラッシュメモリなどが用いられる。ＲＯＭ３０３は、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）なども含む。ドライブ装置３０４は、記憶媒体３０５に記録された情報の読み出しか書き込みかの少なくともいずれか一方を行なう装置である。記憶媒体３０５は、ドライブ装置３０４によって書き込まれた情報を記憶する。記憶媒体３０５は、例えば、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などのフラッシュメモリ、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ブルーレイディスクなどの記憶媒体である。また、例えば、コンピュータ１は、複数種類の記憶媒体それぞれについて、ドライブ装置３０４及び記憶媒体３０５を設ける。

入力インターフェース３０６は、入力デバイス３０７と接続されており、入力デバイス３０７から受信した入力信号をプロセッサ３０１に伝達する回路である。出力インターフェース３０８は、出力デバイス３０９と接続されており、出力デバイス３０９に、プロセッサ３０１の指示に応じた出力を実行させる回路である。通信インターフェース３１０はネットワーク３を介した通信の制御を行なう回路である。通信インターフェース３１０は、例えばネットワークインターフェースカード（ＮＩＣ）などである。ＳＡＮインターフェース３１１は、ストレージエリアネットワークによりコンピュータ１と接続された記憶装置との通信の制御を行なう回路である。ＳＡＮインターフェース３１１は、例えばホストバスアダプタ（ＨＢＡ）などである。

入力デバイス３０７は、操作に応じて入力信号を送信する装置である。入力信号は、例えば、キーボードやコンピュータ１の本体に取り付けられたボタンなどのキー装置や、マウスやタッチパネルなどのポインティングデバイスである。出力デバイス３０９は、コンピュータ１の制御に応じて情報を出力する装置である。出力デバイス３０９は、例えば、ディスプレイなどの画像出力装置（表示デバイス）や、スピーカーなどの音声出力装置などである。また、例えば、タッチスクリーンなどの入出力装置が、入力デバイス３０７及び出力デバイス３０９として用いられる。また、入力デバイス３０７及び出力デバイス３０９は、コンピュータ１と一体になっていてもよいし、コンピュータ１に含まれず、例えば、コンピュータ１に外部から接続する装置であってもよい。

例えば、プロセッサ３０１は、ＲＯＭ３０３や記憶媒体３０５に記憶されたプログラムをＲＡＭ３０２に読み出し、読み出されたプログラムの手順に従って圧縮部１００ａの処理または伸張部１００ｂの処理を行なう。その際にＲＡＭ３０２はプロセッサ３０１のワークエリアとして用いられる。記憶部１００ｃの機能は、ＲＯＭ３０３および記憶媒体３０５がプログラムファイル（後述のアプリケーションプログラム２４、ミドルウェア２３およびＯＳ２２など）やデータファイル（圧縮対象のファイルＦ１、圧縮されたファイルＦ２など）を記憶し、ＲＡＭ３０２がプロセッサ３０１のワークエリアとして用いられることによって実現される。プロセッサ３０１が読み出すプログラムについては、図１４を用いて説明する。

図１４は、コンピュータ１で動作するプログラムの構成例を示す。コンピュータ１において、図１３に示すハードウェア群２１（３０１〜３１２）の制御を行なうＯＳ（オペレーティング・システム）２２が動作する。ＯＳ２２に従った手順でプロセッサ３０１が動作して、ハードウェア群２１の制御・管理が行なわれることにより、アプリケーションプログラム２４やミドルウェア２３に従った処理がハードウェア群２１で実行される。さらに、コンピュータ１において、ミドルウェア２３またはアプリケーションプログラム２４が、ＲＡＭ３０２に読み出されてプロセッサ３０１により実行される。

プロセッサ３０１が、圧縮機能が呼び出された場合に、ミドルウェア２３またはアプリケーションプログラム２４の少なくとも一部に基づく処理を行なうことにより、（それらの処理をＯＳ２２に基づいてハードウェア群２１を制御して）圧縮部１００ａの機能が実現される。また、プロセッサ３０１が、伸張機能が呼び出された場合に、ミドルウェア２３またはアプリケーションプログラム２４の少なくとも一部に基づく処理を行なうことにより、（それらの処理をＯＳ２２に基づいてハードウェア群２１を制御して）伸張部１００ｂの機能が実現される。圧縮機能および伸張機能は、それぞれアプリケーションプログラム２４自体に含まれてもよいし、アプリケーションプログラム２４に従って呼び出されることで実行されるミドルウェア２３の一部であってもよい。

アプリケーションプログラム２４（またはミドルウェア２３）の圧縮機能により得られる圧縮ファイルＦ２は、圧縮ファイルＦ２内の圧縮辞書Ｄ１に基づいて部分的に伸張可能である。圧縮ファイルＦ２の途中を伸張する場合には、伸張対象の部分までの圧縮データの伸張処理が抑制されるため、プロセッサ３０１の負荷が抑制される。また、伸張対象の圧縮データを部分的にＲＡＭ３０２上に展開するので、ワークエリアも削減される。

図１５は、実施形態のシステムにおける装置の構成例を示す。図１５のシステムは、コンピュータ１ａ、コンピュータ１ｂ、基地局２およびネットワーク３を含む。コンピュータ１ａは、無線または有線の少なくとも一方により、コンピュータ１ｂと接続されたネットワーク３に接続している。

図６に示す圧縮部１００ａと伸張部１００ｂとは、図１５に示すコンピュータ１ａとコンピュータ１ｂとのいずれに含まれてもよい。コンピュータ１ｂが圧縮部１００ａを含み、コンピュータ１ａが伸張部１００ｂを含んでもよいし、コンピュータ１ｂが圧縮部１００ａを含み、コンピュータ１ａが伸張部１００ｂを含んでもよい。また、コンピュータ１ａとコンピュータ１ｂとの双方が、圧縮部１００ａおよび伸張部１００ｂを備えてもよい。

以下、上述の実施形態における変形例の一部を説明する。下記の変形例のみでなく、本発明の本旨を逸脱しない範囲の設計変更は適宜行われうる。圧縮処理の対象は、ファイル内のデータ以外にも、システムから出力される監視メッセージなどでもよい。例えば、バッファに順次格納される監視メッセージを上述の圧縮処理により圧縮し、ログファイルとして格納するなどの処理が行なわれる。また、例えば、データベース内のページ単位に圧縮が行なわれてもよいし、複数のページをまとめた単位で圧縮が行なわれてもよい。

また、上述の圧縮処理の対象となるデータは、上述の通り、文字情報に限定されるものでない。数値のみの情報であってもよいし、画像・音声などのデータに対して上述の圧縮処理を用いてもよい。例えば、音声合成により得られるデータを多量に含むファイルなどは、データ内に繰り返しを多く含むため動的辞書により圧縮率が向上することが見込まれる。当然その一部のみが利用される場合には、部分伸張により余分な伸張処理が抑制される。また、固定カメラにより撮影された動画像についても各フレームの画像が似たものになることから繰り返しが多く含まれる。そのため、上述の圧縮処理を適用することにより、文書データや音声データと同様の効果を得ることができる。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）コンピュータに、
入力データに含まれる圧縮対象の文字列について、文字列および該文字列に対応する圧縮符号を対応付けた第１辞書を用いて、前記圧縮対象の文字列が前記第１辞書に登録されているか否かを判定し、
前記圧縮対象の文字列が前記第１辞書に登録されている場合は、前記第１辞書に登録された前記圧縮対象の文字列に対応する圧縮符号を出力し、
前記圧縮対象の文字列が前記第１辞書に登録されていない場合は、前記入力データの一部であって、前記圧縮対象の文字列の処理より前に前記第１辞書に登録されていないと判定された文字列を蓄積した第１のデータと、前記圧縮対象の文字列とを照合し、一致した文字列を前記第１辞書と異なる第２辞書に登録し、前記圧縮対象の文字列の前記第２辞書における登録番号に対応する圧縮符号を出力する
処理を実行させることを特徴とする符号化プログラム。

（付記２）前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長以上となる場合は、前記一致する単語を前記第２辞書に登録し、登録番号に基づく情報を出力することを特徴とする付記１に記載の符号化プログラム。

（付記３）前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長未満となる場合は、前記第１辞書に基づいて前記圧縮対象の文字列の各文字に対応する圧縮符号を出力することを特徴とする付記１または２に記載の符号化プログラム。

（付記４）コンピュータに、
圧縮符号の識別子が第１識別子であるか第２識別子であるかを判定し、
前記圧縮符号の識別子が第１識別子である場合は、符号列および伸長情報を対応付けた情報と、前記圧縮符号とを基にして、前記圧縮符号を伸長し、
前記圧縮データの識別子が第２識別子である場合は、前記圧縮データに含まれる登録位置に基づく情報に示される位置の情報を基にして、前記圧縮符号を伸長する
処理を実行させることを特徴とする伸長プログラム。

（付記５）コンピュータが実行する圧縮方法であって、
入力データに含まれる圧縮対象の文字列について、文字列および該文字列に対応する圧縮符号を対応付けた第１辞書を用いて、前記圧縮対象の文字列が前記第１辞書に登録されているか否かを判定し、
前記圧縮対象の文字列が前記第１辞書に登録されている場合は、前記第１辞書に登録された前記圧縮対象の文字列に対応する圧縮符号を出力し、
前記圧縮対象の文字列が前記第１辞書に登録されていない場合は、前記入力データの一部であって、前記圧縮対象の文字列の処理より前に前記第１辞書に登録されていないと判定された文字列を蓄積した第１のデータと、前記圧縮対象の文字列とを照合し、一致した文字列を前記第１辞書と異なる第２辞書に登録し、前記圧縮対象の文字列の前記第２辞書における登録番号に対応する圧縮符号を出力する
処理を実行させることを特徴とする圧縮方法。

（付記６）前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長以上となる場合は、前記一致する単語を前記第２辞書に登録し、登録番号に基づく情報を出力することを特徴とする付記５に記載の圧縮方法。

（付記７）前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長未満となる場合は、前記第１辞書に基づいて前記圧縮対象の文字列の各文字に対応する圧縮符号を出力することを特徴とする付記５または６に記載の圧縮方法。

（付記８）コンピュータが実行する伸長方法であって、
圧縮符号の識別子が第１識別子であるか第２識別子であるかを判定し、
前記圧縮符号の識別子が第１識別子である場合は、符号列および伸長情報を対応付けた情報と、前記圧縮符号とを基にして、前記圧縮符号を伸長し、
前記圧縮データの識別子が第２識別子である場合は、前記圧縮データに含まれる登録位置に基づく情報に示される位置の情報を基にして、前記圧縮符号を伸長する
処理を実行させることを特徴とする伸長方法。

（付記９）入力データに含まれる圧縮対象の文字列について、文字列および該文字列に対応する圧縮符号を対応付けた第１辞書を用いて、前記圧縮対象の文字列が前記第１辞書に登録されているか否かを判定する判定部と、
前記圧縮対象の文字列が前記第１辞書に登録されている場合は、前記第１辞書に登録された前記圧縮対象の文字列に対応する圧縮符号を出力する第１符号化部と、
前記圧縮対象の文字列が前記第１辞書に登録されていない場合は、前記入力データの一部であって、前記圧縮対象の文字列の処理より前に前記第１辞書に登録されていないと判定された文字列を蓄積した第１のデータと、前記圧縮対象の文字列とを照合し、一致した文字列を前記第１辞書と異なる第２辞書に登録し、前記圧縮対象の文字列の前記第２辞書における登録番号に対応する圧縮符号を出力する第２符号化部と、
を有することを特徴とする圧縮装置。

（付記１０）第１符号化部は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長以上となる場合は、前記一致する単語を前記第２辞書に登録し、登録番号に基づく情報を出力することを特徴とする付記９に記載の圧縮装置。

（付記１１）第１符号化部は、前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長未満となる場合は、前記第１辞書に基づいて前記圧縮対象の文字列の各文字に対応する圧縮符号を出力することを特徴とする付記９または１０に記載の圧縮装置。

（付記１２）圧縮符号の識別子が第１識別子であるか第２識別子であるかを判定する識別子判定部と、
前記圧縮符号の識別子が第１識別子である場合は、符号列および伸長情報を対応付けた情報と、前記圧縮符号とを基にして、前記圧縮符号を伸長する第１伸長部と、
前記圧縮データの識別子が第２識別子である場合は、前記圧縮データに含まれる登録位置に基づく情報に示される位置の情報を基にして、前記圧縮符号を伸長する第２伸長部と、
を有することを特徴とする伸長プログラム。

１００情報処理装置
１００ａ圧縮部
１００ｂ伸長部
１００ｃ記憶部

Claims

コンピュータに、
入力データに含まれる圧縮対象の文字列について、文字列および該文字列に対応する圧縮符号を対応付けた第１辞書を用いて、前記圧縮対象の文字列が前記第１辞書に登録されているか否かを判定し、
前記圧縮対象の文字列が前記第１辞書に登録されている場合は、前記第１辞書に登録された前記圧縮対象の文字列に対応する圧縮符号を出力し、
前記圧縮対象の文字列が前記第１辞書に登録されていない場合は、前記入力データの一部であって、前記圧縮対象の文字列の処理より前に前記第１辞書に登録されていないと判定された文字列を蓄積した第１のデータと、前記圧縮対象の文字列とを照合し、一致した文字列を前記第１辞書と異なる第２辞書に登録し、前記圧縮対象の文字列の前記第２辞書における登録番号に対応する圧縮符号を出力する
処理を実行させることを特徴とする符号化プログラム。
前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長以上となる場合は、前記一致する単語を前記第２辞書に登録し、登録番号に基づく情報を出力することを特徴とする請求項１に記載の符号化プログラム。
前記出力する処理は、前記第１辞書に登録されていない圧縮対象の文字列に対して一致する単語探索を行い、一致する単語が所定長未満となる場合は、前記第１辞書に基づいて前記圧縮対象の文字列の各文字に対応する圧縮符号を出力することを特徴とする請求項１または２に記載の符号化プログラム。
コンピュータに、
圧縮符号の識別子が第１識別子であるか第２識別子であるかを判定し、
前記圧縮符号の識別子が第１識別子である場合は、符号列および伸長情報を対応付けた情報と、前記圧縮符号とを基にして、前記圧縮符号を伸長し、
前記圧縮データの識別子が第２識別子である場合は、前記圧縮データに含まれる登録位置に基づく情報に示される位置の情報を基にして、前記圧縮符号を伸長する
処理を実行させることを特徴とする伸長プログラム。