JPH10261969A

JPH10261969A - データ圧縮方法および装置

Info

Publication number: JPH10261969A
Application number: JP6589797A
Authority: JP
Inventors: Yoshiaki Hattori; 芳明服部; Yutaka Yoshiura; 裕吉浦; Taiji Hidaka; 大治日▲高▼
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-03-19
Filing date: 1997-03-19
Publication date: 1998-09-29

Abstract

(57)【要約】【課題】従来は、動的辞書のみによる圧縮、伸長処理を
行ってきた。動的辞書は、文字列を効率的に登録、削除
するために、余分なメモリを必要とするので、処理に必
要なメモリが大きかった。【解決手段】静的辞書は、文字列の登録、削除がなく、
検索のみを行えばよいので、１文字列当たりの所用メモ
リが削減できる。また、動的辞書と静的辞書を併用し、
動的辞書への文字列の登録を静的辞書中の文字列との差
分として表現することで、動的辞書をより効率よく活用
することができる。入出力処理（１０３）は、平文（１
１２）を読み込んで記憶し、制御処理（１０４）によっ
て１文字ずつ読み込む。読み込んだ文字列が、静的辞書
（１０８）、動的辞書（１１０）に存在するか、検索
（１０５）し、圧縮文（１１１）として出力する。ま
た、静的辞書、動的辞書に存在しない文字列を、ハッシ
ュテーブル（１０９）を用いて動的辞書に登録（１０
６）し、動的辞書が一杯になれば、文字列を削除（１０
７）する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データ圧縮に関
し、特に、所用メモリ量が少なく、圧縮率の高いデータ
の圧縮方法および装置に関する。

【０００２】

【従来の技術】通信の利用機会の増加、マルチメディア
化に伴う個々のデータの巨大化に伴い、通信処理の効率
化のためのデータ圧縮の必要性が増大している。特に、
ＷＡＮや無線では通信帯域が狭いので、効率の良い圧縮
が重要である。

【０００３】従来の主な方法は、入力データ中の文字列
を動的辞書に登録し、その後、入力データ中に登録済み
の文字列が再度出現した時、その文字列を番号に変換す
ることで、符号化を行う。そして、動的辞書が満杯にな
ると一定の規則に従って文字列を辞書から削除してい
た。

【０００４】動的辞書では、文字列の動的な追加、削除
を効率的に実行するために、文字列そのもの以外に付加
的な情報を記憶する必要があった。そのため、１文字列
あたりの所用メモリが多かった。

【０００５】動的辞書が満杯になると古い文字列を辞書
から削除する圧縮方式（ＬＺＴ）において、１文字列を
記憶するためには、・親となる記号列（当該文字列より１文字だけ短い文字
列）の識別子（２バイト）・当該記号列と親記号列の差分となる文字（１バイト）・親を同じくする文字列（兄弟文字列）へのポインタ
（２バイト）・当該文字列を親文字列とする文字列（子文字列）への
ポインタ（２バイト）の計７バイト必要であった。

【０００６】例えば、図１に示すように、文字列“ｔｈ
ｅ”を動的辞書に登録する過程を述べる。動的辞書の文
字列番号の０〜２５５番までは、アスキーコード番号に
相当する文字すなわち長さ１の文字列を表す。これら
は、入力データを処理する以前に予め登録する。これら
の長さ１の文字列の親文字列は存在せず、弟文字列の番
号は文字列番号より１多い番号、差分文字は文字列番号
のアスキーコード表に対応する文字である。例えば、11
6番には、“ｔ”が登録されている。

【０００７】入力データ中に文字列“ｔｈ”が出現した
時、この文字列を動的辞書に登録する。動的辞書には文
字列の出現順に上から登録するが、今1035番目まで、文
字列の登録がなされていたとすると、1036番目に文字列
“ｔｈ”を登録する。その親文字(t)の識別子は116であ
り、差分文字は、"ｈ"である。この時、親文字列“ｔ”
を持つ文字列は、初めて登録するので、文字列116(t)の
子文字列は、1036(th)となる。

【０００８】次に、入力データ中に文字列“ｔｈｅ”が
出現し、この文字列を2487番目に登録するとする。親文
字列は1036(th)であり、差分文字は、“ｅ”である。こ
の時同様に、親文字列“ｔｈ”を持つ文字列は、初めて
登録するので、文字列1036(th)の子文字列は、2487(th
e)となる。

【０００９】その後、入力データ中に文字列“ｔｕ”が
出現した場合、同じ親文字列116(t)を持つ文字列は、
“ｔｈ”“ｔｕ”の２つであり、その差分文字すなわち
“ｈ”と“ｕ”をアスキーコード順に並べると、“ｈ”
が最初で、“ｕ”が２番目だから、3953(tu)を文字列10
36(th)の弟文字列とする。（逆に、入力データ中に文字
列“ｔａ”が出現した場合には、同じ親文字列116(t)を
持つ文字列は、“ｔａ”“ｔｈ”の２つであり、その差
分文字すなわち“ａ”と“ｈ”をアスキーコード順に並
べた時、“ａ”が最初で、“ｈ”が２番目なので、親文
字列116(t)の子文字列を3953(ta)とし、文字列3953(ta)
の弟文字列を1036(th)とする。）上記方式以外に、文字
列の動的な追加、削除を行わない静的辞書を用いる方法
もあるが、静的辞書の特徴を活かして１文字列当たりの
所用メモリを削減する方法は提案されていない。

【００１０】また、現在のネットワーク環境において
は、複数の通信相手とコネクションをつなげることが多
い。その場合、入力データに応じて動的辞書を変更する
ので、相手毎に個別の辞書を作成しなくてはならず、さ
らには、送信側と受信側で２つの同じ辞書を持たねばな
らない。その結果、一般に、クライアントは４〜６個程
度ないしサーバでは数十個の動的辞書が必要となる。

【００１１】

【発明が解決しようとする課題】上記従来の圧縮技術で
は、動的辞書における１文字列当たりのバイト数が多い
ので、メモリの必要量が大きい。また、通信相手が多く
なるほど、急速に、多くのメモリを必要とするという問
題がある。

【００１２】本発明の目的は、文字列の追加、削除を行
わない静的辞書と動的辞書を用いることを活かして、１
文字列当たりの所用メモリを削減し、複数の通信相手が
ある場合のシステム全体の所用メモリを削減することを
課題とする。

【００１３】

【課題を解決するための手段】静的辞書は、処理中の文
字列登録・削除が不要なので、検索のみ効率的に実行で
きればよい。また、予め検索のために構成を最適化して
おくことが可能である。

【００１４】本発明の第１の方法では、上記静的辞書の
性質を利用する。静的辞書に存在する文字列を「親とな
る文字列の番号」と「当該文字列と親文字列の差分とな
る文字」により表現し、上記文字列番号と差分文字の少
なくとも一方に関して整列することによって構成する。
圧縮処理は、文字列の整列順序に基づいて、入力データ
中の文字列と一致する文字列を静的辞書から探索する。
その結果、静的辞書では、１つの文字列に対して、「親
となる文字列番号（２バイト）」と「当該文字列と親文
字列の差分となる文字（１バイト）」だけを記憶すれば
よいので、１文字列当たり３バイトにできる。さらに、
実施例で詳述するように、親番号に関する情報をさらに
コンパクトに表現することにより、１文字列当たり約２
バイトにできる。

【００１５】また、伸長処理は、文字列の整列順序に基
づいて、入力データ中の文字列番号に対応する文字列を
文字列記憶手段から検索する。

【００１６】本発明の第２の方法では、圧縮、伸長処理
において、動的辞書を静的辞書との差分で表す。その結
果、動的辞書に静的辞書と重複する文字列を記憶する必
要がないので、辞書をより有効に利用できる。

【００１７】本発明の第３の方法では、異なる入力デー
タに対する各々の圧縮処理において、静的辞書について
は同じものを共通に利用する。動的辞書については従来
と同様に、通信相手毎に設ける。その結果、共通の静的
辞書は、各計算機に１つでよく、動的辞書と静的辞書を
あわせたシステム全体のメモリを削減できる。

【００１８】

【発明の実施の形態】本発明をより詳細に述べるため
に、添付の図面に従ってこれを説明する。また、以下で
は、本発明の２つの実施例を述べる。まず、図２〜図１
１を用いて、第１の実施例を説明する。第１の実施例
は、前記第１、３、４、６、７の方法の具体例である。
図２は、第１の実施例の機能構成の全体図を示す。ブロ
ック１０１はＣＰＵ内の処理動作であり、入出力処理１
０３、制御処理１０４、検索処理１０５、登録処理１０
６、削除処理１０７、の各処理から構成される。ブロッ
ク１０２は、ハードディスクや主記憶であり、静的辞書
１０８、ハッシュテーブル１０９、動的辞書１１０、圧
縮文１１１、平文１１２を記憶する。

【００１９】入出力処理１０３は、平文を入力し、これ
を記憶する。また、符号化コマンドを入力し、制御処理
１０４に渡す。制御処理１０４は、符号化コマンドを受
け取ったときに、検索処理１０５、登録処理１０６、削
除処理１０７を順次起動して平文を符号化し、記憶す
る。

【００２０】検索１０５は、入力データ中の文字列が静
的辞書および動的辞書中に存在するかどうか調べる。登
録１０６は、入力データ中の文字列が静的辞書および動
的辞書中に存在しない時、静的辞書およびハッシュテー
ブルを用いてその文字列を動的辞書に登録する。削除処
理１０７は、動的辞書が満杯になった時、ハッシュテー
ブルを用いて文字列を動的辞書から削除する。これらの
処理については、後に、図３〜ず９を用いて詳述する。

【００２１】図３は、図２の制御１０４の動作を表すフ
ローチャートである。ステップ３１は、入力データから
１文字読み込み、それを親文字列とする。ステップ３２
は、入力データ中の文字列が静的辞書に存在するかどう
かを検索する。この処理の詳細については、図６を用い
て後に説明する。ステップ３３は、入力データ中の文字
列が動的辞書に存在するかどうかを検索する。この処理
の詳細については、図７を用いて後に説明する。ステッ
プ３４は、動的辞書に文字列を登録する。この処理の詳
細については、図８を用いて後に説明する。ステップ３
５は、動的辞書が一杯になったかどうかを判定する。一
杯の場合は、ステップ３６に進み、動的辞書の古い文字
列を削除しする。この処理の詳細については、図９を用
いて後に説明する。そうでない場合は、ステップ３７へ
進む。ステップ３７は、この時点での親文字列の番号を
出力する。ステップ３８は、入力データの最後まで符号
化を行ったかどうかを判定する。行っていれば終了し、
行っていなければ、ステップ３１に戻る。

【００２２】次に、図４を用いて、静的辞書の構造につ
いて、簡単に説明する。静的辞書中の文字列は、「親文
字列＋１文字」で表す。ここでは、親文字列の番号が
ｉ、差分文字がＣｋ、文字列番号がＰの文字列を表現し
ている。「文字列検索テーブル」は、親文字列番号順で
ソートされており、親文字列番号ｉを持つ文字列の番号
を" j1 + 1 〜 j2 "で表現している。「差分テーブル」
は、文字列番号順でソートされており、さらに、同じ親
文字列を持つ文字列は、差分文字のアスキーコード順で
ソートされ、１ケ所に集まっている。ここでは、親文字
列ｉを持つ文字列Ｐの差分文字Ｃｋは、で表現してい
る。

【００２３】次に、図５を用いて、図３のステップ３２
の詳細を示す。ステップ５１は、親文字列から「文字列
検索テーブル」を用いて、当該文字列が「差分テーブ
ル」のどこに存在するかを検索する。ここで、「文字列
検索テーブル」は、親文字列の番号順にソートされてい
るので、その親文字列を持つ文字列が、「差分テーブ
ル」のどこに存在するかをすぐに発見できる。ステップ
５２は、入力データから次の文字を読み込む。ステップ
５３は、当該文字列が「差分テーブル」に存在するか否
かを判断している。ここで、「差分テーブル」の位置は
文字列の番号を表し、「文字列検索テーブル」から得ら
れた領域には、同じ親文字列を持つ文字列が集まってい
る。さらに、その領域で、それらの差分文字が、アスキ
ーコード順にソートされているので、バイナリーサーチ
によって、素早く目的の差分文字を発見することができ
る。当該文字列が、「差分テーブル」に存在すれば、ス
テップ５４に進んで、親文字列を更新する、存在しなけ
れば、リターンする。

【００２４】次に、図６にその静的辞書の具体例を示
す。入力データ中に文字列“ｉｍａｇｅ”があるとき、
まず最初に、親文字列“ｉ”から「文字列検索テーブ
ル」を用いて、親文字列“ｉ”を持つ文字列が、「差分
テーブル」のどこに存在するかを検索すると、8121〜81
60であることがわかる。その後、入力データから１文字
“ｍ”を読み込み、「差分テーブル」のその領域を見る
と、差分文字“ｍ”が存在した。そこで、親文字列を
“ｉｍ”に更新し、再び「文字列検索テーブル」を用い
て、親文字列“ｉｍ”を持つ文字列が、「差分テーブ
ル」のどこに存在するかを検索すると、12501〜12555で
あることがわかる。同様にして、入力データ中の文字列
を読み込み、「差分テーブル」を検索し、親を更新する
処理を続けると、文字列“ｉｍａｇｅ”（文字列番号36
952）が静的辞書中に存在することがわかる。

【００２５】次に、図７を用いて、ハッシュテーブルと
動的辞書の関係およびそれぞれの構成について説明す
る。文字列を、静的辞書との差分として動的辞書に登録
する際、まず、ハッシュ関数に従って、静的辞書中の親
文字列と読み込んだ１文字からハッシュ値を計算する。
その結果、得られるハッシュ値をｉ１〜ｉ３で表現し、
それから得られる動的辞書の文字列番号をｊ１〜ｊ３で
表現している。異なった文字列で、ハッシュ値が重なっ
た場合、別のハッシュ値を与えられるよう、「ハッシュ
テーブル上へのポインタ」ｉ２〜ｉ３を持っている。

【００２６】次に、図８を用いて、図３のステップ３３
の詳細を示す。ステップ８１は、この前の段階で、文字
列が静的辞書に存在していたかどうかを判断している。
文字列が、静的辞書に存在していたなら、ステップ８２
に進んで、静的辞書の文字列を親文字列とし、ハッシュ
関数に従って、親文字列と読み込んだ１文字からハッシ
ュ値を計算し、ステップ８３に進む。文字列が、静的辞
書に存在していなかったなら、ステップ８４に進む。ス
テップ８３は、得られたハッシュ値とハッシュテーブル
から、当該文字列の存在する可能性のある動的辞書のア
ドレスが得られるか否かを判断している。動的辞書のア
ドレスが得られたら、ステップ８５に進み、得られなか
ったらリターンする。ステップ８４は、子文字列と弟文
字列をたどることで、当該文字列が静的辞書中に存在す
るか否かを検索している。存在すれば、ステップ８６に
進んで、親文字列を更新し、入力データから１文字読み
込む。存在しなければ、リターンする。ステップ８５
は、動的辞書のアドレスに、当該文字列が存在するか否
かを判断する。存在すれば、ステップ８６に進み、存在
しなければ、ステップ７３に戻って、当該文字列が存在
する可能性のある動的辞書のアドレスの次の候補を得
る。

【００２７】次に、図９を用いて、図３のステップ３４
の詳細を示す。ステップ９１は、ステップ８１と同様、
ハッシュ関数に従って、親文字列と読み込んだ１文字か
らハッシュ値を計算する。ステップ９２は、今から登録
しようとする文字列を動的辞書中のどこに登録するかを
ハッシュテーブルに登録しておく。ステップ９３は、文
字列を動的辞書に登録する。この時、動的辞書には、親
文字列と差分文字のみを登録する。ステップ９４は、ス
テップ９３で登録した文字列と同じ親文字列を持つ文字
列の差分文字を、アスキーコード順に並べた時、今回登
録した文字列が何番目になるかを判定する。１番目の場
合は、ステップ９６に進み、親文字列の子文字列番号を
今回登録の文字列番号にする。ｎ（＞１）番目の場合
は、ステップ９５に進み、ｎ−１番目文字列の弟文字列
番号をｎ番目の文字列番号に変更する。ステップ９７
は、ｎ＋１番目文字列が辞書に存在するかどうかを判断
する。存在しなければ、そのままリターンする。存在す
れば、ステップ９８に進み、ｎ番目の文字列の弟文字列
番号をｎ＋１番目の文字列番号にして、リターンする。

【００２８】次に、図１０を用いて、図３のステップ３
６の詳細を示す。ステップ１００は、前回削除した文字
列（削除が最初の場合は、文字列番号の一番小さい文字
列）から文字列番号の大きい方に向かって動的辞書を検
索し、最初に見つかった子文字列の存在しない文字列を
削除する。ステップ１０１は、ステップ１００で削除し
た文字列（当該文字列）は、これと同じ親文字列を持つ
文字列を差分文字のアスキーコード順に並べた時、何番
目になるかを判定する。１番目の場合は、ステップ１０
２に進み、そうでない場合は、ステップ１０５に進む。
ステップ１０２は、n+1 番目文字列が動的辞書に存在す
るかどうかを判断する。存在すれば、ステップ１０３に
進み、当該文字列の親文字列の子文字列番号をn+1 番目
文字列にする。存在しなければ、ステップ１０４に進
み、当該文字列の親文字列の子文字列番号を削除する。
ステップ１０５も、n+1 番目文字列が動的辞書に存在す
るかどうかを判断する。存在すれば、ステップ１０６
に進み、n-1 番目文字列の弟文字列番号をn+1 番目文字
列に変更。存在しなければ、ステップ１０７に進み、n-
1番目文字列の弟文字列番号を削除する。ステップ１０
８は、削除した文字列の親文字列が、静的辞書中のもの
か否かを判断している。静的辞書中のものでなければ、
そのままリターンし、静的辞書中のものであれば、ステ
ップ１０９に進み、動的辞書中のアドレスをハッシュテ
ーブルから削除し、リターンする。

【００２９】次に、図１１を用いて、ハッシュテーブル
および動的辞書の構成、動的辞書中の文字列の検索、動
的辞書への文字列の登録、削除の具体例を示す。入力デ
ータ中に文字列“ｉｍａｇｅｓ ”があるとき、図６で
示した通り、静的辞書を検索して文字列“ｉｍａｇｅ”
が存在することがわかった。しかし、これを親文字列と
する文字列の差分文字に“ｓ”が存在しなかったので、
静的辞書には、文字列“ｉｍａｇｅｓ”が存在しないこ
とがわかった。そこで、次に動的辞書を検索する。ハッ
シュ関数に従って親文字列“ｉｍａｇｅ”と差分文字
“ｓ”からハッシュ値を求めると "589" であるとす
る。これとハッシュテーブルより、当該文字列“ｉｍａ
ｇｅｓ”の存在する可能性のある動的辞書のアドレス "
2590" を得る。しかし、動的辞書中の文字列番号 "259
0" を見に行っても、該当する文字列が存在しなかった
ので、ハッシュテーブルへのポインタから、新たなハッ
シュ値"3265"を得る。このハッシュ値から動的辞書のア
ドレス"1036"を得るので、動的辞書中の文字列番号 "10
36" を見に行くと、“ｉｍａｇｅ”（文字列番号3695
2）を親文字列とし、差分文字を“ｓ”とする文字列
“ｉｍａｇｅｓ”が存在することがわかる。上記のよう
にして、静的辞書中の文字列を親文字列とする文字列を
動的辞書から検索できる。その後、入力データ中に文字
列“ｉｍａｇｅｄ”があったとする。同様にして静的辞
書、動的辞書の順に検索したが、文字列“ｉｍａｇｅ
ｄ”は動的辞書に存在しなかったので、これを動的辞書
に登録したところが、図１１である。

【００３０】ここで、動的辞書が一杯になったとする。
前回削除した文字列（ここでは、削除するのは初めてな
ので、２文字以上の文字列のうち番号の一番小さい文字
列）から文字列番号の大きい方へ向かって動的辞書を検
索する（辞書の最後まで検索した場合は、最初に戻
る）。すると、文字列番号1036の文字列“ｉｍａｇｅ
ｓ”が、子文字列の存在しない最初の文字列なので、こ
の文字列を動的辞書から削除する。この際、今回削除し
た文字列は、これと同じ親文字列を持つ文字列を差分文
字のアスキーコード順に並べると、２番目であり（文字
列“ｉｍａｇｅｄ”が１番目）、３番目の文字列が存在
しないので、１番目の文字列の弟文字列番号"1036"を削
除する。また、削除した文字列の親文字列は、静的辞書
中の文字列なので、削除した文字列の動的辞書中のアド
レス"1036"をハッシュテーブルから削除する。

【００３１】以上述べたように、本実施例によれば、動
的辞書と比較すると、静的辞書は、１文字列あたり、２
／７の所用メモリで済むので、辞書のメモリ量を大幅に
削減できる。また、動的辞書への文字列の登録を、静的
辞書との差分として表現することで、文字列が動的辞書
と静的辞書に重複して登録されることを防ぎ、動的辞書
をより有効に活用できる。

【００３２】次に、図１２〜図１６を用いて、第２の実
施例を説明する。第２の実施例は、前記第２、３、５、
６、７の方法の具体例である。図１２は、第２の実施例
の機能構成の全体図を示す。ブロック１２０１はＣＰＵ
内の処理動作であり、入出力処理１２０３、制御処理１
２０４、検索処理１２０５、追加処理１２０６、削除処
理１２０７、の各処理から構成される。ブロック１２０
２は、ハードディスクや主記憶であり、静的辞書１２０
９、動的辞書１２１０、平文１２１１、圧縮文１２０８
を記憶する。

【００３３】入出力処理１２０３は、圧縮文を入力し、
これを記憶する。また、復号化コマンドを入力し、制御
処理１２０４に渡す。制御処理１２０４は、復号化コマ
ンドを受け取ったときに、検索処理１２０５、登録処理
１２０６、削除処理１２０７を順次起動して圧縮文を復
号化する。

【００３４】検索処理１２０５は、入力データ中の文字
列番号から、静的辞書および動的辞書を用いて、文字列
を復元する。登録処理１２０６は、入力データ中の文字
列が静的辞書および動的辞書中に存在しない時、その文
字列を動的辞書に登録する。削除処理１２０７は、動的
辞書が一杯になった時、文字列を動的辞書から削除す
る。これらの処理については、後に、図１３〜図１６を
用いて詳述する。

【００３５】図１３は、図１２の制御１２０４の動作を
表すフローチャートである。ステップ１３１は、入力デ
ータから文字列番号（当該文字列番号）を読み込む。ス
テップ１３２は、当該文字列番号から動的辞書および静
的辞書を検索し、文字列を復元する。この処理の詳細に
ついては、図１４を用いて後に説明する。ステップ１３
３は、動的辞書に文字列を登録する。この処理の詳細に
ついては、図１５を用いて後に説明する。ステップ１３
４は、動的辞書が一杯になったかどうかを判定する。一
杯の場合は、ステップ１３５に進み、古い文字列を削除
する。この処理の詳細については、図１６を用いて後に
説明する。動的辞書が一杯でない場合は、ステップ１３
６へ進む。ステップ１３６は、復元した文字列を出力す
る。ステップ１３７は、入力データの最後まで復号を行
ったかどうかを判定する。行っていれば終了し、行って
いなければ、ステップ１３１に戻る。

【００３６】ここで、図６、図１１を用いて、読み込ま
れた文字列番号から動的辞書と静的辞書を用いて、文字
列を復元する過程を説明する。今、読み込んだ当該文字
列番号が4096とすると、これは、動的辞書の文字列番号
なので、動的辞書のそのアドレスを見に行くと、親文字
列番号が36952であり、差分文字が“ｄ”であることが
わかった。（図１１）次に、上で得られた親文字列番号
は、静的辞書の文字列番号なので、まず「差分テーブ
ル」を見に行く。すると、この文字列の差分文字は、
“ｅ”であることがわかる。次に、「文字列検索テーブ
ル」を見に行くと、その親文字列番号は、25841である
ことがわかる。そこで、この親文字列番号を当該文字列
番号とし、同様の処理を繰り返すことで、１文字ずつ復
元でき、最後に、文字列“ｉｍａｇｅｓ”をすべて復元
できる。（図６）次に、図１４を用いて、図１３のステ
ップ１３２について詳述する。ステップ１４１は、今回
読み込んだ文字列番号（当該文字列番号）が、4096以上
なら静的辞書の、4096未満なら動的辞書中の文字列番号
であると判断する。動的辞書の番号であれば、ステップ
１４３へ進み、動的辞書を検索する。また、動的辞書の
番号でなければ、ステップ１４２に進み、静的辞書を検
索する。ステップ１４２では、動的辞書中の当該文字列
番号から差分文字と親文字列番号を得る。ステップ１４
３では、まず、「差分テーブル」を見に行き、当該文字
列番号より差分文字を得る。次に、「文字列検索テーブ
ル」を見に行き、当該文字列より親文字列番号を得る。
ステップ１４４は、文字列番号から文字列へ、完全に復
元されたかどうかを判断している。これは、当該文字列
が、長さ１の文字列すなわち当該文字列番号が255以下
であるかによって判定する。文字列が復元されていたら
リターンし、されていなければステップ１４５に進ん
で、親文字列番号を当該文字列番号とし、ステップ１４
１に戻る。

【００３７】次に、図１５を用いて、図１３のステップ
１３３について詳述する。ステップ１５１は、図１３の
前サイクルで出力した文字列を親文字列とし、今回復元
した文字列の先頭文字を差分文字として動的辞書に登録
する。ステップ１５２は、ステップ１５１で登録した文
字列と同じ親文字列を持つ文字列の差分文字を、アスキ
ーコード順に並べた時、今回登録した文字列が何番目に
なるかを判定する。１番目の場合は、ステップ１５４に
進み、親文字列の子文字列番号を今回登録の文字列番号
にする。ｎ（＞１）番目の場合は、ステップ１５３に進
み、ｎ−１番目文字列の弟文字列番号をｎ番目の文字列
番号に変更する。ステップ１５５は、ｎ＋１番目文字列
が辞書に存在するかどうかを判断する。存在しなけれ
ば、そのままリターンする。存在すれば、ステップ１５
６に進み、ｎ番目の文字列の弟文字列番号をｎ＋１番目
の文字列番号にして、リターンする。

【００３８】次に、図１６を用いて、図１３のステップ
１３５について詳述する。ステップ１６０は、最近削除
した文字列から文字列番号の大きい方に向かって動的辞
書を検索し、子文字列の存在しない最初の文字列を削除
する。ステップ１６１は、ステップ１６０で削除した文
字列（当該文字列）が、同じ親文字列を持つ文字列を差
分文字のアスキーコード順に並べると何番目になるかを
判断している。１番目の場合は、ステップ１６２に進
み、２番目以上の場合は、ステップ１６５に進む。ステ
ップ１６２は、当該文字列の弟文字列（２番目文字列）
が動的辞書に存在するかどうかを判断する。存在すれ
ば、ステップ１６３に進み、当該文字列の親文字列の子
文字列番号を当該文字列の弟文字列（２番目文字列）と
する。存在しなければ、ステップ１６４に進み、当該文
字列の親文字列の子文字列番号を削除する。ステップ１
６５も、当該文字列の弟文字列（n+1番目文字列）が動
的辞書に存在するかどうかを判断する。存在すれば、
ステップ１６６に進み、n-1番目文字列の弟文字列番号
を当該文字列の弟文字列（n+1番目文字列）に変更。存
在しなければ、ステップ１６７に進み、n-1番目文字列
の弟文字列番号を削除する。ステップ１６８は、削除し
た文字列の親文字列は、静的辞書中の文字列かどうかを
判断している。そうなら、ステップ１６９に進み、削除
した文字列の動的辞書中のアドレスをハッシュテーブル
から削除し、リターンする。そうでないなら、そのまま
リターンする。

【００３９】以上述べたように、本実施例によれば、圧
縮時とまったく同様に、静的辞書や動的辞書を素早く検
索でき、動的辞書に文字列を登録、削除でき、平文を正
しく復元することができる。

【００４０】次に、図１７を用いて、第３、第４の実施
例を説明する。第３の実施例は、前記第８、１０の方法
の具体例であり、第４の実施例は、前記第９、１０の方
法の具体例である。図１７は、２つのサーバーがそれぞ
れ４つのクライアントと通信している様子である。個々
のサーバ及びクライアントにおける圧縮、復元の処理方
法は、上記第１、２の実施例と同じである。本構成によ
ると、動的辞書のみ用いる従来方式では、サーバでは４
倍、クライアントでは２倍のメモリが必要であったが、
今回の方式では、動的辞書の部分のみ４倍あるいは２倍
にすればよい。このように、本実施例によれば、辞書に
必要なメモリ量を削減することができる。

【００４１】以上述べたように、本実施例によれば、入
力データを圧縮、伸長する際、静的辞書と動的辞書を併
用することを活かして、複数の通信相手がある場合のシ
ステム全体の所用メモリを削減できる。

【００４２】最後に、典型的なネットワーク構成による
実施例１〜４の総合効果を述べる。図１７のように、２
つのサーバと４つのクライアントの間で通信していると
する。従来は、動的辞書のみで通信していた。今、動的
辞書の大きさを１００００文字列とすると、動的辞書の
メモリ量は、１文字列あたり７バイト必要なので、クラ
イアントの所用メモリ量は、１００００＊７＊２＝１４
０ｋバイト、サーバの所用メモリ量は、１００００＊７
＊４＝２８０ｋバイトとなる。しかし、今回発明した方
法では、動的辞書と静的辞書を併用しているため、動的
辞書の大きさを２５００文字列、静的辞書の大きさを７
５００文字列にでき、静的辞書のメモリ量は、１文字列
あたり２バイト、動的辞書のメモリ量は、１文字列あた
り１１バイト必要なので、クライアントの所用メモリ量
は、７５００＊２＋２５００＊１１＊２＝７０ｋバイ
ト、サーバの所用メモリ量は、７５００＊２＋２５００
＊１１＊４＝１２５ｋバイトとなり、所用メモリ量は、
クライアントで半分、サーバで半分以下になる。もし、
同じメモリ量を使えるなら、圧縮率は、２倍の効率にな
る。

【００４３】

【発明の効果】文字列の検索のみを行えばよい静的辞書
の特徴を活かすことで、動的辞書と比べて１文字列あた
りの所用メモリを１/３以下にした。さらに、文字列
を、静的辞書中の文字列との差分として動的辞書に登録
することで、動的辞書をより有効なものにした。また、
複数の相手と通信する場合、各サーバまたはクライアン
トに静的辞書を持ち、動的辞書と併用することで、動的
辞書のみ用いていた従来方式よりも、システム全体のメ
モリ量を削減できる。典型的なシステム構成の場合、メ
モリ量は、クライアントで半分、サーバで半分以下にな
る。一方、同じメモリ量の辞書を用いた場合、多数の文
字列を登録できるので、圧縮率が向上できる。

【図面の簡単な説明】

【図１】入力データに応じて動的辞書を作成した一例を
示す図である。

【図２】本発明の一実施例の機能構成を示す全体図であ
る。

【図３】入力データ（平文）を読み込んで符号化を終了
するまでの一連の処理を示すフローチャートである。

【図４】静的辞書の構成を示す図である。

【図５】静的辞書の検索部分を示すフローチャートであ
る。

【図６】静的辞書の内容の例を示す図である。

【図７】ハッシュテーブルと動的辞書の構成を示す図で
ある。

【図８】圧縮（符号化）時に、動的辞書、静的辞書中の
文字列を検索する部分を示すフローチャートである。

【図９】圧縮（符号化）時に、動的辞書へ文字列を登録
する部分を示すフローチャートである。

【図１０】圧縮（符号化）時に、動的辞書から文字列を
削除する部分を示すフローチャートである。

【図１１】ハッシュテーブルと動的辞書の内容の例を示
す図である。

【図１２】本発明の他の実施例の機能構成を示す全体図
である。

【図１３】入力データ（圧縮文）を読み込んで復号化を
終了するまでの一連の処理を示すフローチャートであ
る。

【図１４】伸長（復号化）時に、読み込んだ文字列番号
から動的辞書と静的辞書を探索して、文字列を復元する
部分を示すフローチャートである。

【図１５】伸長（復号化）時に、動的辞書へ文字列を登
録する部分を示すフローチャートである。

【図１６】伸長（復号化）時に、動的辞書から文字列を
削除する部分を示すフローチャートである。

【図１７】本発明の他の実施例を示す図である。

【符号の説明】

１０１…ＣＰＵ、１０３…入出力処理部、１０４…制御処理部、１０５…検索処理部、１０６…登録処理部、１０７…削除処理部、１０８…静的辞書、１０９…ハッシュテーブル、１１０…動的辞書、１１１…圧縮文、１１２…平文。

Claims

【特許請求の範囲】

【請求項１】データを入力または受信する入力処理手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の記号列を前記記号列記憶手段中の記号列の
識別子で表すことにより入力データを圧縮する圧縮処理
手段とを有する情報処理システムにおいて、前記記号列記憶手段中の記号列の少なくとも一部は、入
力データに依存した追加、削除がなされない静的記号列
であり、当該静的記号列の各々は、親となる記号列の識
別子および当該記号列と親記号列の差分となる文字によ
り表現され、前記親記号列識別子と差分文字の少なくと
も一方に関して整列されており、前記圧縮処理は、上記記号列の整列順序に基づいて、入
力データ中の記号列と一致する記号列を前記記号列記憶
手段から探索することを特徴とするデータ圧縮方法。
【請求項２】データを入力または受信する入力処理手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の識別子から前記記号列記憶手段中の記号列
を復元することにより入力データを伸長する伸長処理手
段を有する情報処理システムにおいて、前記記号列記憶手段中の記号列の少なくとも一部は、入
力データに依存した追加、削除がなされない静的記号列
であり、当該静的記号列の各々は、親となる記号列の識
別子および当該記号列と親記号列の差分となる文字によ
り表現され、上記親記号列識別子と差分文字の少なくと
も一方に関して整列されており、前記伸長処理は、前記記号列の整列順序に基づいて、入
力データ中の識別子に対応する記号列を記号列記憶手段
から探索することを特徴とするデータ圧縮方法。
【請求項３】請求項１又は請求項２記載のデータ圧縮方
法において、前記整列された記号列の順序が、主記憶内における記号
列の配置順序により表されており、記号列の順序を表す
ための他の情報が記憶されていないことを特徴とするデ
ータ圧縮方法。
【請求項４】データを入力または受信する入力処理手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の記号列を前記記号列記憶手段中の記号列の
識別子で表すことにより入力データを圧縮する圧縮処理
手段を有する情報処理システムにおいて、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、前記動的記号列が上記静的記号列と共
通部分を有する場合に、前記動的記号列を前記静的記号
列との差分により表現することを特徴とするデータ圧縮
方法。
【請求項５】データを入力または受信する入力処理手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の識別子から上記記号列記憶手段中の記号列
を復元することにより入力データを伸長する伸長処理手
段を有する情報処理システムにおいて、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、上記動的記号列が上記静的記号列と共
通部分を有する場合に、上記動的記号列を上記静的記号
列との差分により表現することを特徴とするデータ圧縮
方法。
【請求項６】請求項４又は請求項５記載ののデータ圧縮
方法において、前記静的記号列の識別子あるいはこの識別子を元にして
算出した値が、この静的記号列と共通部分を有する動的
記号列のデータに含まれることを特徴とするデータ圧縮
方法。
【請求項７】請求項４又は請求項５記載のデータ圧縮方
法において、前記静的記号列と、当該静的記号列との差分により表現
した動的記号列との対応関係を表す情報を設けることを
特徴とするデータ圧縮方法。
【請求項８】データを入力または受信する入力処理手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の記号列を上記記号列記憶手段中の記号列の
識別子で表すことにより入力データを圧縮する圧縮処理
手段を有する情報処理システムにおいて、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、異なる入力データあるいは入力データ
の異なる部分に対する各々の圧縮処理が、静的記号列に
ついては同じものを共通に利用し、動的記号列について
は同じものを共通に利用しないことを特徴とするデータ
圧縮方法。
【請求項９】データを入力または受信する入力処理手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の識別子から上記記号列記憶手段中の記号列
を復元することにより入力データを伸長する伸長処理手
段を有する情報処理システムにおいて、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、異なる入力データあるいは入力データ
の異なる部分に対する各々の伸長処理が、静的記号列に
ついては同じものを共通に利用し、動的記号列について
は同じものを共通に利用しないことを特徴とするデータ
圧縮方法。
【請求項１０】請求項８又は請求項９記載のデータ圧縮
方法において、前記各々の圧縮処理が、通信相手毎の圧縮処理であるこ
とを特徴とするデータ圧縮方法。
【請求項１１】データを入力または受信する入力手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の記号列を前記記号列記憶手段中の記号列の
識別子で表すことにより入力データを圧縮する圧縮手段
とを有する情報処理装置において、前記記号列記憶手段中の記号列の少なくとも一部は、入
力データに依存した追加、削除がなされない静的記号列
であり、これらの静的記号列の各々は、親となる記号列
の識別子および当該記号列と親記号列の差分となる文字
により表現され、上記親記号列識別子と差分文字の少な
くとも一方に関して整列されており、前記圧縮手段は、前記記号列の整列順序に基づいて、入
力データ中の記号列と一致する記号列を前記記号列記憶
手段から探索することを特徴とするデータ圧縮装置。
【請求項１２】データを入力または受信する入力手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の識別子から上記記号列記憶手段中の記号列
を復元することにより入力データを伸長する伸長手段を
有する情報処理装置において、前記記号列記憶手段中の記号列の少なくとも一部は、入
力データに依存した追加、削除がなされない静的記号列
であり、当該静的記号列の各々は、親となる記号列の識
別子および当該記号列と親記号列の差分となる文字によ
り表現され、前記親記号列識別子と差分文字の少なくと
も一方に関して整列されており、前記伸長手段は、上記記号列の整列順序に基づいて、入
力データ中の識別子に対応する記号列を前記記号列記憶
手段から探索することを特徴とするデータ圧縮装置。
【請求項１３】請求項１１又は請求項１２記載のデータ
圧縮装置において、前記整列された記号列の順序が、主記憶内における記号
列の配置順序により表されており、記号列の順序を表す
ための他の情報が記憶されていないことを特徴とするデ
ータ圧縮装置。
【請求項１４】データを入力または受信する入力手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の記号列を前記記号列記憶手段中の記号列の
識別子で表すことにより入力データを圧縮する圧縮手段
を有する情報処理装置において、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、前記動的記号列が上記静的記号列と共
通部分を有する場合に、前記動的記号列を前記静的記号
列との差分により表現することを特徴とするデータ圧縮
装置。
【請求項１５】データを入力または受信する入力手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の識別子から前記記号列記憶手段中の記号列
を復元することにより入力データを伸長する伸長手段を
有する情報処理装置において、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、前記動的記号列が前記静的記号列と共
通部分を有する場合に、前記動的記号列を前記静的記号
列との差分により表現することを特徴とするデータ圧縮
装置。
【請求項１６】請求項１４又は請求項１５記載のデータ
圧縮装置において、前記静的記号列の識別子あるいはこの識別子を元にして
算出した値が、この静的記号列と共通部分を有する動的
記号列のデータに含まれることを特徴とするデータ圧縮
装置。
【請求項１７】請求項１４又は請求項１５記載のデータ
圧縮方法において、前記静的記号列と、この静的記号列との差分により表現
した動的記号列との対応関係を表す情報を設けることを
特徴とするデータ圧縮装置。
【請求項１８】データを入力または受信する入力手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の記号列を前記記号列記憶手段中の記号列の
識別子で表すことにより入力データを圧縮する複数の圧
縮手段を有する情報処理装置において、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、前記複数の圧縮手段が、静的記号列に
ついては同じものを共通に利用し、動的記号列について
は同じものを共通に利用しないことを特徴とするデータ
圧縮装置。
【請求項１９】データを入力または受信する入力手段
と、一つ以上の記号列を記憶する記号列記憶手段と、入
力データ中の識別子から前記記号列記憶手段中の記号列
を復元することにより入力データを伸長する複数の伸長
手段を有する情報処理システムにおいて、前記記号列記憶手段中の記号列の一部は、入力データに
依存して追加、削除される動的記号列であり、残りの一
部は、入力データに依存した追加、削除がなされない静
的記号列であり、上記複数の伸長手段が、静的記号列に
ついては同じものを共通に利用し、動的記号列について
は同じものを共通に利用しないことを特徴とするデータ
圧縮装置。
【請求項２０】請求項１８又は請求項１９記載のデータ
圧縮装置において、前記各々の圧縮手段が、通信相手毎に割り当て割れるこ
とを特徴とするデータ圧縮装置。