JP2000201080A

JP2000201080A - 付加コ―ドを用いたデ―タ圧縮／復元装置および方法

Info

Publication number: JP2000201080A
Application number: JP11002129A
Authority: JP
Inventors: Nobuko Sato; 宣子佐藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-01-07
Filing date: 1999-01-07
Publication date: 2000-07-18
Also published as: US6834283B1

Abstract

(57)【要約】【課題】コードにより表されるデータを高い圧縮率で
圧縮し、圧縮データの任意の位置から復元することが課
題である。【解決手段】入力文字列“圧縮するＣＡＤデータ”の
うち、“圧縮”、“する”、および“データ”のコード
は登録単語として、それぞれ、語コード“０ｘ８２６
０”、“０ｘ００１１”、および“０ｘ８２６１”に変
換される。しかし、“Ｃ”、“Ａ”、および“Ｄ”から
始まる単語は辞書に登録されていないため、これらの文
字は、それぞれ、１バイト単位に分割され、得られた各
部分の前に付加コード“０ｘＦＦ”が付加されて出力さ
れる。復元の際は、この付加コードに基づいて語コード
か否かが判別される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書データ、ＣＡ
Ｄ（computer aided design ）データ、プログラムコー
ド等のように、特定の意味を持つ１種類以上のビットサ
イズのコードを記述したコード表に基づくデータの圧縮
／復元技術に関する。

【０００２】

【従来の技術】近年、文書データ、ＣＡＤデータ等の様
々な種類のデータがコンピュータで扱われるようになる
のに伴い、取り扱われるデータ量も増大している。その
ような大量を扱う場合、データ中の冗長な部分を省いて
圧縮することにより、記憶容量を減らしたり、遠隔地へ
の伝送を高速に行うことができる。

【０００３】例えば、文書データを対象とする圧縮方法
の１つとして、単語とそれに対応する語コードを有する
辞書を持ち、この辞書に従って入力文字列をそれより短
い語コードに変換する方法がある。この圧縮方法では、
単語とそれに対応する語コードをあらかじめ準備してお
く必要があるが、一般に、単語の数は多く、固有名詞等
の特殊な単語もあるので、入力データのすべての単語に
対してあらかじめ語コードを割り当てることはできな
い。そこで、あらかじめ準備できない単語の扱いとし
て、大きく分けて次の２つの方法が提案されている。

【０００４】第１の方法は、すべての文字に対して出力
コードを割り当てておき、空きコードを単語に割り当て
る方法である。例えば、ＪＩＳ（日本工業規格）コード
等の日本語コードでは、利用可能なすべての２バイトコ
ードのうち、一部のコードのみを仮名や漢字等の文字と
して使用しているため、空いているコードに単語を割り
当てることができる。

【０００５】図１９は、このような２バイトコードのコ
ード空間における文字コードの領域を示している。この
コード空間は、２バイトコードの上位バイトが表す数０
ｘ００〜０ｘＦＦ（１６進数表記）を第１の座標とし、
下位バイトが表す数０ｘ００〜０ｘＦＦを第２の座標と
する２次元空間に対応する。ここでは、上位バイトおよ
び下位バイトがそれぞれ０ｘ２１〜０ｘ７Ｅに対応する
領域が文字コードとして用いられており、それ以外の領
域の空きコードが単語の語コードとして用いられる。

【０００６】第２の方法は、圧縮結果において、変換さ
れていないコードと変換後の語コードとの間に切り替え
コードを挿入して、入力データと同じコードと語コード
とを区別する方法である。この方法では、変換されてい
ない元のコードを語コードと重複して使用することがで
き、圧縮結果に挿入された切り替えコードを検出するこ
とで、次のコードが語コードなのか元のコードなのかが
区別される。

【０００７】図２０は、上述の２バイトコードのコード
空間を語コードとして用いた場合を示している。ここで
は、“０ｘＦＦＦＦ”以外のすべてのコードが語コード
として用いられ、“０ｘＦＦＦＦ”は切り替えコードと
して用いられている。この切り替えコードは、例えば、
図２１に示すようにして、圧縮結果に挿入される。

【０００８】図２１の入力文字列“圧縮するＣＡＤデー
タ”のコードのうち、“圧縮”に対応する“０ｘ８８ｂ
３８ｆ６ｂ”が語コード“０ｘ８２６０”に変換され、
“する”に対応する“０ｘ８２ｂ７８２ｅ９”が語コー
ド“０ｘ００１１”に変換され、“データ”に対応する
“０ｘ８３６６８１５ｂ８３５ｅ”が語コード“０ｘ８
２６１”に変換される。そして、“ＣＡＤ”に対応する
“０ｘ８２６２８２６０８２６３”は元のままで残さ
れ、その前後に切り替えコード“０ｘＦＦＦＦ”が挿入
される。

【０００９】

【発明が解決しようとする課題】しかしながら、上述し
た従来のデータ圧縮方法には、次のような問題がある。

【００１０】あらかじめすべての文字を登録しておく方
法では、文字の数が多いと登録できる単語の数が少なく
なり、わずかな単語しか語コードに置き換えることがで
きない。このため、データをあまり圧縮することができ
ない。例えば、世界の主要文字を網羅するUnicode を用
いた場合、図１９のコード空間の多くの領域が文字に割
り当てられ、単語として使用可能な空きコードの数が少
なくなる。ユーザが外字コードを登録する場合にも、同
様の問題が生じる。

【００１１】一方、切り替えコードを挿入する方法で
は、圧縮データの復元の際に切り替えコードが出現する
と、それに続くコードはそれまでのコードとは異なる種
類であるものとみなされる。例えば、図２１の圧縮デー
タにおいて、語コード“０ｘ００１１”の次に“０ｘＦ
ＦＦＦ”が出現すると、それ以降のコードは変換されて
いない元のコードと認識され、コード“０ｘ８２６３”
の次に“０ｘＦＦＦＦ”が出現すると、それ以降のコー
ドは再び語コードと認識される。

【００１２】このように、切り替えコードの位置によっ
てその前後のコードの意味するところが違ってくるた
め、常に圧縮データを先頭から復元する必要があり、そ
れを途中から復元することはできない。

【００１３】本発明の課題は、あらかじめ決められたコ
ードにより表されるデータを高い圧縮率で圧縮し、圧縮
データの任意の位置から復元することのできるデータ圧
縮／復元装置およびその方法を提供することである。

【００１４】

【課題を解決するための手段】図１は、本発明のデータ
圧縮／復元装置の原理図である。

【００１５】図１のデータ圧縮装置は、コード入力手段
１、辞書手段２、登録コード出力手段３、および符号化
手段４を備え、１種類以上のサイズのコードを含むデー
タを圧縮する。

【００１６】コード入力手段１は、データをコード単位
で入力し、辞書手段２は、１つ以上のコードからなるコ
ード列と、そのコード列に対応する登録コードを保持す
る。登録コード出力手段３は、入力コード列が辞書手段
２に保持されているとき、その入力コード列に対応する
登録コードを出力する。また、符号化手段４は、入力コ
ード列が辞書手段２に保持されていないとき、その入力
コード列中の入力コードに付加コードを付加して新たな
コードを生成し、新たなコードを出力する。

【００１７】このような構成によれば、コード入力手段
１は、与えられた処理対象のデータを１コードずつ入力
し、登録コード出力手段３は、入力コード列に対応する
登録コードが辞書手段２に登録されているとき、その登
録コードを圧縮結果として出力する。また、符号化手段
４は、１つの入力コードから始まるコード列が辞書手段
２に登録されていないとき、その入力コードの適当な位
置にあらかじめ決められた付加コードを付加し、付加コ
ードを含む新たなコードを圧縮結果として出力する。

【００１８】符号化手段４を備えることで、辞書手段２
に登録されていない入力コードに対して動的に圧縮結果
を生成することができるため、圧縮のためにすべての単
コードをあらかじめ登録しておく必要がない。このた
め、使用するコード表の種類によらず、コード列に割り
当てる登録コードを多く確保することができ、圧縮率が
向上する。

【００１９】また、付加コードを用いることで、圧縮デ
ータに含まれるコードが登録コードかどうかを、切り替
えコードなしでも容易に判別することができる。したが
って、圧縮データを先頭から辿らなくても、途中から復
元することが可能になる。

【００２０】次に、図１のデータ復元装置は、辞書手段
２、単位入力手段５、除去手段６、およびコード列復元
手段７を備え、１種類以上のサイズのコードを含むデー
タを圧縮して得られた圧縮データを復元する。

【００２１】単位入力手段５は、データを一定単位で入
力し、辞書手段２は、１つ以上のコードからなるコード
列と、そのコード列に対応する登録コードを保持する。
除去手段６は、入力データの一部があらかじめ決められ
た付加コードであるとき、その入力データから付加コー
ドを除去してデータを生成し、生成されたデータを出力
する。また、コード列復元手段７は、入力データの一部
が付加コードでないとき、その入力データを登録コード
とみなして、入力データに対応するコード列を出力す
る。

【００２２】このような構成によれば、単位入力手段５
は、与えられた処理対象のデータを一定単位で入力し、
除去手段６は、入力データの特定の部分が付加コードで
あるとき、その入力データから付加コードを除去して、
残されたデータを復元結果として出力する。また、コー
ド列復元手段７は、入力データの特定の部分が付加コー
ドでないとき、その入力データを辞書手段２に登録され
た登録コードとみなして、入力データに対応するコード
列を取得し、それを復元結果として出力する。

【００２３】除去手段６を備えることで、辞書手段２に
登録されていない入力データから元のデータを復元する
ことができるため、圧縮のためにすべての単コードをあ
らかじめ登録しておく必要がない。このため、使用する
コード表の種類によらず、コード列に割り当てる登録コ
ードを多く確保することができ、圧縮率が向上する。

【００２４】また、付加コードを用いることで、圧縮デ
ータに含まれるコードが登録コードかどうかを、切り替
えコードなしでも容易に判別することができる。したが
って、圧縮データを先頭から辿らなくても、途中から復
元することが可能になる。

【００２５】例えば、図１のコード入力手段１、辞書手
段２、登録コード出力手段３、および符号化手段４は、
それぞれ、後述する図２の文字入力部１１、辞書保持部
１３、語コード出力部１５、および文字符号化部１４に
対応し、図１の単位入力手段５、除去手段６、およびコ
ード列復元手段７は、それぞれ、後述する図３の一定単
位入力部２１、付加コード除去部２３、および単語復元
部２４に対応する。

【００２６】また、例えば、コード入力手段１が入力す
るコードは、文字入力部１１が入力する文字に対応し、
辞書手段２が保持するコード列および登録コードは、辞
書保持部１３が保持する単語および語コードに対応す
る。

【００２７】

【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。

【００２８】本発明は、文書データのように、特定の意
味を持つ１種類以上のビットサイズのコードを記述した
コード表から生成されたデータの圧縮／復元に適用でき
る。以下では、コード表に登録された情報の１つの単位
をコードまたは文字と呼ぶことにする。例えば、ＳＪＩ
Ｓ（シフトＪＩＳ）コードの場合、制御コードやアルフ
ァベット等の文字は、１バイトのビットサイズで表さ
れ、漢字や平仮名等の文字は、２バイトのビットサイズ
で表される。

【００２９】また、以下では、１つ以上の文字からなる
文字列を単語と呼ぶことにする。ここでは、１つの名詞
や動詞のような通常の単語のみに限らず、複数の単語の
複雑な組合せを含む任意の文字列を単語として扱ってい
る。

【００３０】本実施形態においては、単語とそれに対応
する語コードを辞書として保持する。データ圧縮の際
に、辞書に登録されていない単語が出現すると、その単
語の先頭の文字のコードを特定のサイズに分割し、あら
かじめ決められた付加コードを付加して、語コードと同
じ長さのコードを生成する。こうして生成された未登録
文字のコードは、登録単語に対して割り当てられた語コ
ードと重複しないようにしておく。

【００３１】例えば、分割単位を１バイトにすると、１
バイトで表現可能な２５６個のコードを、未登録文字を
出力するために使用することができる。この方法では、
未登録文字に対して動的にコードを割り当てることがで
きるため、図１９に示したように、すべての文字をあら
かじめ登録しておく必要がない。このため、使用するコ
ード表の種類によらず、登録単語に割り当てられる空き
コードを多く確保することができ、圧縮率の向上に寄与
する。

【００３２】また、付加コードを用いることで、圧縮デ
ータに含まれるコードの長さが統一され、また切り替え
コードなしでも容易に語コードか未登録文字のコードか
を区別することができる。したがって、圧縮データを先
頭から辿らなくても、途中から復元することが可能にな
る。

【００３３】図２は、本実施形態のデータ圧縮装置の構
成図である。図２のデータ圧縮装置は、文字入力部１
１、単語検索部１２、辞書保持部１３、文字符号化部１
４、語コード出力部１５、および圧縮データ出力部１６
を備える。

【００３４】文字入力部１１は、与えられたコード表に
従って、被圧縮データを文字単位で入力する。辞書保持
部１３は、１つ以上の文字からなる単語とそれに対応す
る語コードを登録した辞書を保持し、単語検索部１２
は、入力された文字列が辞書に登録されているかどうか
を検索する。

【００３５】文字符号化部１４は、分割部１７とコード
付加部１８を含み、入力文字列が辞書に登録されていな
かった場合、その文字列の先頭の文字を符号化して出力
する。分割部１７は、与えられた文字コードをあらかじ
め決められた単位に分割し、コード付加部１８は、分割
により生成された各部分にあらかじめ決められた付加コ
ードを付加する。また、入力文字列が辞書に登録されて
いた場合、語コード出力部１５は、それに対応する語コ
ードを出力する。

【００３６】圧縮データ出力部１６は、文字符号化部１
４と語コード出力部１５から出力されたコードを順に並
べて、圧縮データとして出力する。

【００３７】また、図３は、本実施形態のデータ復元装
置の構成図である。図３のデータ復元装置は、辞書保持
部１３、一定単位入力部２１、付加コード判別部２２、
付加コード除去部２３、単語復元部２４、および復元デ
ータ出力部２５を備える。

【００３８】一定単位入力部２１は、図２のデータ圧縮
装置により圧縮されたデータをあらかじめ決められた単
位で入力し、付加コード判別部２２は、入力データの一
部が付加コードに対応するかどうかを判別する。

【００３９】入力データの特定部分が付加コードに対応
する場合、付加コード除去部２３は、入力データから付
加コードを除去して、残されたデータを復元する。ま
た、単語復元部２４は、語コード検索部２６と単語出力
部２７を含み、入力データの特定部分が付加コードに対
応しない場合、入力データを語コードとみなして単語を
復元する。語コード検索部２６は、入力データを辞書保
持部１３に保持された辞書の語コードと照合し、入力デ
ータに対応する単語を検索する。単語出力部２７は、検
索された単語を出力する。

【００４０】復元データ出力部２５は、付加コード除去
部２３と単語復元部２４から出力されたデータを順に並
べて、復元データとして出力する。このように、データ
圧縮／復元装置は、圧縮／復元双方に同じ辞書を保持
し、辞書に従って単語を語コードに圧縮するとともに、
語コードを単語に復元する。

【００４１】例えば、被圧縮データをＳＪＩＳコードの
コード表を用いて生成されたデータとし、圧縮後の語コ
ードのサイズを２バイトとし、分割単位を１バイトと
し、付加コードを０ｘＦＦとした場合、以下のような圧
縮処理が行われる。

【００４２】入力された単語が辞書にない場合、その単
語の先頭の２バイト文字“０ｘｉｊｋｍ”を、１バイト
単位の“０ｘｉｊ”と“０ｘｋｍ”に分割し、各々に付
加コード“０ｘＦＦ”を付加して、２バイトコード“０
ｘＦＦｉｊ”と“０ｘＦＦｋｍ”を生成する。ただし、
制御コードや半角コードのように、元々１バイトの文字
“０ｘｐｑ”については、そのまま付加コード“０ｘＦ
Ｆ”を付加して、“０ｘＦＦｐｑ”を出力する。ここ
で、ｉ、ｊ、ｋ、ｍ、ｐ、ｑは、それぞれ、０ｘ０〜０
ｘＦのいずれかの値を表している。

【００４３】図４は、このような付加コードを用いた場
合のコード空間を示している。ここでは、上位バイトが
０ｘ００〜０ｘＦＥの領域があらかじめ語コードとして
登録単語に割り当てられ、上位バイトが０ｘＦＦの領域
が付加コードを用いて生成される未登録文字のコードと
して用いられる。

【００４４】このような圧縮処理により、図２１に示し
た入力文字列“圧縮するＣＡＤデータ”のコードは、図
５に示すようなコードに変換される。ここで、“圧
縮”、“する”、および“データ”は登録単語として、
それぞれ、図２１と同様の語コードに変換される。

【００４５】しかし、“Ｃ”、“Ａ”、および“Ｄ”か
ら始まる単語は辞書に登録されていないため、これらの
文字は登録されていない単語の先頭の文字（未登録文
字）として扱われる。そして、これらの文字のコード
“０ｘ８２６２”、“０ｘ８２６０”、“０ｘ８２６
３”は、それぞれ、１バイト単位に分割され、得られた
各部分の前に付加コード“０ｘＦＦ”が付加される。

【００４６】例えば、“Ｃ”に対応するコード“０ｘ８
２６２”は、“０ｘ８２”と“０ｘ６２”の２つの部分
に分割され、それぞれの部分に“０ｘＦＦ”が付加され
て、“０ｘＦＦ８２”と“０ｘＦＦ６２”に変換され
る。“Ａ”と“Ｄ”についても同様である。

【００４７】一方、復元処理においては、２バイトの入
力データの上位バイトが０ｘＦＦである場合、０ｘＦＦ
を除いた下位バイトを出力する。また、上位バイトが０
ｘＦＦでない場合は、その入力データは語コードを表す
ものと判断し、辞書に従ってその語コードに対応する単
語を出力する。

【００４８】図５の圧縮データ“０ｘ８２６０００１１
ＦＦ８２ＦＦ６２ＦＦ８２ＦＦ６０ＦＦ８２ＦＦ６３８
２６１”の場合、語コード“０ｘ８２６０”、“０ｘ０
０１１”、“０ｘ８２６１”は、それぞれ、辞書に従っ
て元のコードに変換される。

【００４９】しかし、“ＣＡＤ”に対応するコード“０
ｘＦＦ８２”、“０ｘＦＦ６２”、“０ｘＦＦ８２”、
“０ｘＦＦ６０”、“０ｘＦＦ８２”、“０ｘＦＦ６
３”の上位バイトは０ｘＦＦであり、これは付加コード
に対応する。このため、これらのコードは、それぞれ、
１バイトのコード“０ｘ８２”、“０ｘ６２”、“０ｘ
８２”、“０ｘ６０”、“０ｘ８２”、“０ｘ６３”に
変換される。そして、２つの連続する１バイトコードか
ら２バイトコードが生成され、元のコードに対応する
“０ｘ８２６２”、“０ｘ８２６０”、“０ｘ８２６
３”が出力される。

【００５０】ところで、図５に示した例では、“圧
縮”、“する”、および“データ”の各単語について
は、それより短い語コードに変換されているが、“ＣＡ
Ｄ”については元のコードより長いコードに変換されて
いる。このため、一見、必ずしも高い圧縮率が得られて
いないように見えるかも知れない。

【００５１】しかし、圧縮処理では、一般に、頻繁に出
現する情報に短いコードを割り当て、ほとんど出現しな
い情報に長いコードを割り当てることによって、全体と
して元のデータより短いコードが生成される。この例で
は、未登録文字のコードは２倍の長さになるが、登録単
語は１／２以下の長さになるので、頻繁に出現する多く
の単語を登録しておくことで、全体として元のデータの
１／２以下に圧縮することが可能である。

【００５２】図６は、図２のデータ圧縮装置による圧縮
処理のフローチャートである。まず、文字入力部１１
は、制御変数ｎを０とおき（ステップＳ１）、入力デー
タが終了したかどうかを判定する（ステップＳ２）。未
処理の入力データがあれば、１文字分のコードを入力
し、バッファＰ［ｎ］に入力文字のコードを入力する
（ステップＳ３）。そして、単語検索部１２は、文字列
Ｐ［０］Ｐ［１］．．．Ｐ［ｎ］から始まる単語が辞書
に登録されているかどうかを調べる（ステップＳ４）。

【００５３】そのような単語が辞書に登録されていれ
ば、ｎに１を加算して（ステップＳ５）、ステップＳ２
以降の処理を繰り返す。そして、ステップＳ４におい
て、文字列Ｐ［０］Ｐ［１］．．．Ｐ［ｎ］から始まる
単語が辞書に登録されていなければ、次に、ｎ＝０かど
うかを判定する（ステップＳ６）。

【００５４】ｎ＝０でなければ、文字列Ｐ［０］Ｐ
［１］．．．Ｐ［ｎ］からＰ［ｎ］を除いた文字列Ｐ
［０］Ｐ［１］．．．Ｐ［ｎ−１］は、単語として辞書
に登録されているので、その単語に対応する語コードを
辞書から取り出し、語コード出力部１５に渡す（ステッ
プＳ７）。これを受けて、語コード出力部１５は、その
語コードを変換結果として出力し、圧縮データ出力部１
６は、それを圧縮データとして出力する。そして、文字
入力部１１は、Ｐ［０］＝Ｐ［ｎ］、ｎ＝０とおいて
（ステップＳ８）、ステップＳ４以降の処理を繰り返
す。

【００５５】また、ステップＳ６においてｎ＝０であれ
ば、Ｐ［ｎ］（＝Ｐ［０］）から始まる単語は辞書に登
録されていないので、分割部１７は、Ｐ［０］をあらか
じめ決められた単位の部分に分割し（ステップＳ９）、
コード付加部１８は、各部分に付加コードを付加して
（ステップＳ１０）、出力する（ステップＳ１１）。そ
して、圧縮データ出力部１６は、付加コードが付加され
たコードを圧縮データとして出力し、文字入力部１１
は、ステップＳ２以降の処理を繰り返す。

【００５６】そして、ステップＳ２において入力データ
が終了すると、データ圧縮装置は、圧縮処理を終了す
る。

【００５７】例えば、図５の入力文字列の場合、最初の
文字“圧”が入力されると、Ｐ［０］＝“０ｘ８８ｂ
３”となる（ステップＳ３）。このとき、“圧”から始
まる“圧縮”という単語が辞書に登録されているので、
次の文字“縮”が入力されて、Ｐ［１］＝“０ｘ８ｆ６
ｂ”となり（ステップＳ３）、続いて“す”が入力され
て、Ｐ［２］＝“０ｘ８２ｂ７”となる（ステップＳ
３）。

【００５８】ここで、“圧縮す”から始まる単語は辞書
に登録されておらず、ｎ＝２≠０であるので、Ｐ［０］
Ｐ［１］に対応する単語“圧縮”の語コード“０ｘ８２
６０”が出力される（ステップＳ７）。そして、Ｐ
［０］＝Ｐ［２］＝“０ｘ８２ｂ７”、ｎ＝０となる
（ステップＳ８）。

【００５９】このとき、“す”から始まる“する”とい
う単語が辞書に登録されているので、次の文字“る”が
入力されて、Ｐ［１］＝“０ｘ８２ｅ９”となり（ステ
ップＳ３）、続いて“Ｃ”が入力されて、Ｐ［２］＝
“０ｘ８２６２”となる（ステップＳ３）。

【００６０】ここで、“するＣ”から始まる単語は辞書
に登録されておらず、ｎ＝２≠０であるので、Ｐ［０］
Ｐ［１］に対応する単語“する”の語コード“０ｘ００
１１”が出力される（ステップＳ７）。そして、Ｐ
［０］＝Ｐ［２］＝“０ｘ８２６２”、ｎ＝０となる
（ステップＳ８）。

【００６１】このとき、“Ｃ”から始まる単語は辞書に
登録されておらず、ｎ＝０であるので、Ｐ［０］＝“０
ｘ８２６２”は“０ｘ８２”と“０ｘ６２”の２つの部
分に分割され（ステップＳ９）、それぞれの部分に付加
コード“０ｘＦＦ”が付加されて（ステップＳ１０）、
“０ｘＦＦ８２”と“０ｘＦＦ６２”が出力される（ス
テップＳ１１）。

【００６２】同様にして、文字“Ａ”が入力されると、
“０ｘＦＦ８２”と“０ｘＦＦ６０”が出力され（ステ
ップＳ１１）、文字“Ｄ”が入力されると、“０ｘＦＦ
８２”と“０ｘＦＦ６３”が出力される（ステップＳ１
１）。

【００６３】次に、文字“デ”が入力されると、Ｐ
［０］＝“０ｘ８３６６”となる（ステップＳ３）。こ
のとき、“デ”から始まる“データ”という単語が辞書
に登録されているので、次の文字“ー”が入力されて、
Ｐ［１］＝“０ｘ８１５ｂ”となり（ステップＳ３）、
続いて“タ”が入力されて、Ｐ［２］＝“０ｘ８３５
ｅ”となる（ステップＳ３）。

【００６４】続いて、不図示の次の文字が入力されてＰ
［３］に設定され、Ｐ［０］Ｐ［１］Ｐ［２］Ｐ［３］
から始まる単語が辞書に登録されていないものとする。
このとき、ｎ＝３≠０であるので、Ｐ［０］Ｐ［１］Ｐ
［２］に対応する単語“データ”の語コード“０ｘ８２
６１”が出力される（ステップＳ７）。

【００６５】図７は、図３のデータ復元装置による復元
処理のフローチャートである。まず、一定単位入力部２
１は、入力データから１つのコードを入力し（ステップ
Ｓ２１）、付加コード判別部２２は、それに付加コード
が付加されているかどうかを判別する（ステップＳ２
２）。

【００６６】入力コードに付加コードが付加されていれ
ば、付加コード除去部２３は、入力コードから付加コー
ドを除去し（ステップＳ２３）、復元データ出力部２５
は、残された部分を復元データとして出力する（ステッ
プＳ２４）。一定単位入力部２１は、入力データが終了
したかどうかを判定して（ステップＳ２５）、未処理の
データが残っていれば、ステップＳ２１以降の処理を繰
り返す。

【００６７】ステップＳ２２において入力コードに付加
コードが付加されていなければ、語コード検索部２６
は、それを語コードとみなして辞書を検索し、単語出力
部２７は、対応する単語のコードを出力する（ステップ
Ｓ２６）。そして、復元データ出力部２５は、その単語
のコードを復元データとして出力し、一定単位入力部２
１は、ステップＳ２５以降の処理を繰り返す。

【００６８】そして、ステップＳ２５において入力デー
タが終了すると、データ復元装置は、復元処理を終了す
る。

【００６９】例えば、図５の圧縮データの場合、最初の
２つのコード“０ｘ８２６０”および“０ｘ００１１”
には付加コードが付加されていないので、これらは語コ
ードと認識される。その結果、“０ｘ８２６０”は“０
ｘ８８ｂ３８ｆ６ｂ”に変換され（ステップＳ２６）、
“０ｘ００１１”は“０ｘ８２ｂ７８２ｅ９”に変換さ
れる（ステップＳ２６）。得られたコードは、２つの単
語“圧縮”および“する”に対応している。

【００７０】次の６つのコード“０ｘＦＦ８２”、“０
ｘＦＦ６２”、“０ｘＦＦ８２”、“０ｘＦＦ６０”、
“０ｘＦＦ８２”、および“０ｘＦＦ６３”には付加コ
ード“０ｘＦＦ”が付加されているので、それが除去さ
れて、“０ｘ８２６２８２６０８２６３”が出力される
（ステップＳ２４）。出力されたコードは、“ＣＡＤ”
に対応している。

【００７１】また、次のコード“０ｘ８２６１”には付
加コードが付加されていないので、これは語コードと認
識され、“０ｘ８３６６８１５ｂ８３５ｅ”に変換され
る（ステップＳ２６）。得られたコードは、単語“デー
タ”に対応している。

【００７２】次に、図８から図１２までを参照しなが
ら、圧縮データを途中から復元する処理について説明す
る。

【００７３】圧縮データを途中から復元する場合、復元
開始位置の先頭の２バイトコードに付加コードが含まれ
ていると、そこから忠実に復元しても意味のある結果が
得られない場合がある。例えば、図５に示した圧縮デー
タを、図８に示すような途中位置Ｐから復元する場合、
先頭の２バイトコード“０ｘＦＦ６２”は、その前の２
バイトコード“０ｘＦＦ８２”と合わせて１つの文字
“Ｃ”を表しており、“０ｘＦＦ６２”から付加コード
を除いた１バイトコード“０ｘ６２”だけでは、文字を
なさない。

【００７４】そこで、圧縮データを途中から復元する場
合、最初の語コードが出現するまで復元を行わない方法
と、文字コードの切れ目を判別して、文字を意味しない
先頭の復元コードを削除する方法の２通りが考えられ
る。

【００７５】前者の方法では、図９に示すように、最初
の語コード“０ｘ８２６１”の前の５つのコード“０ｘ
ＦＦ６２”、“０ｘＦＦ８２”、“０ｘＦＦ６０”、
“０ｘＦＦ８２”、および“０ｘＦＦ６３”は復元され
ずにスキップされ、“０ｘ８２６１”以降のコードが復
元される。

【００７６】図１０は、このような復元処理のフローチ
ャートである。まず、一定単位入力部２１は、入力デー
タから１つのコードを入力し（ステップＳ３１）、付加
コード判別部２２は、それに付加コードが付加されてい
るかどうかを判別する（ステップＳ３２）。そして、入
力コードに付加コードが付加されていれば、一定単位入
力部２１は、ステップＳ３１以降の処理を繰り返す。

【００７７】ステップＳ３２において入力コードに付加
コードが付加されていなければ、語コード検索部２６
は、それを語コードとみなして辞書を検索し、単語出力
部２７は、対応する単語のコードを出力する（ステップ
Ｓ３３）。そして、復元データ出力部２５は、その単語
のコードを復元データとして出力する。その後、データ
復元装置は、ステップＳ３４、Ｓ３５、Ｓ３６、Ｓ３
７、Ｓ３８、およびＳ３９において、図７と同様の復元
処理を行う。

【００７８】また、後者の方法では、図１１に示すよう
に、文字をなさない先頭のコード“０ｘＦＦ６２”は復
元されず、次の“０ｘＦＦ８２”以降のコードが復元さ
れる。

【００７９】図１２は、このような復元処理のフローチ
ャートである。まず、一定単位入力部２１は、区切り判
別用バッファｓｔｋ［］を用意し、制御変数ｎを０とお
いて（ステップＳ４１）、入力データから１つのコード
を入力する（ステップＳ４２）。

【００８０】次に、付加コード判別部２２は、入力コー
ドに付加コードが付加されているかどうかを判別する
（ステップＳ４３）。入力コードに付加コードが付加さ
れていれば、付加コード除去部２３は、入力コードから
付加コードを除去して（ステップＳ４４）、残された部
分をｓｔｋ［ｎ］に入力する（ステップＳ４５）。そし
て、一定単位入力部２１は、ｎに１を加算して（ステッ
プＳ４６）、ステップＳ４２以降の処理を繰り返す。

【００８１】ステップＳ４３において入力コードに付加
コードが付加されていなければ、付加コード除去部２３
は、次に、ｓｔｋ［０］内のコードが文字コードの切れ
目と一致するかどうかを判定する（ステップＳ４７）。
そして、そのコードが文字コードの切れ目と一致すれ
ば、ｓｔｋ［０］，ｓｔｋ［１］，．．．，ｓｔｋ
［ｎ］内のコードを順に出力し（ステップＳ４８）、そ
のコードが文字コードの切れ目と一致しなければ、ｓｔ
ｋ［０］を除いて、ｓｔｋ［１］，．．．，ｓｔｋ
［ｎ］内のコードを順に出力する（ステップＳ４９）。

【００８２】次に、語コード検索部２６は、入力コード
を語コードとみなして辞書を検索し、単語出力部２７
は、対応する単語のコードを出力する（ステップＳ５
０）。そして、復元データ出力部２５は、その単語のコ
ードを復元データとして出力する。その後、データ復元
装置は、ステップＳ５１、Ｓ５２、Ｓ５３、Ｓ５４、Ｓ
５５、およびＳ５６において、図７と同様の復元処理を
行う。

【００８３】ところで、このような付加データを用いた
圧縮処理によれば、圧縮データに含まれる各コードは同
じ長さであり、それぞれ１対１で特定の単語または文字
を表しているため、この処理を他の圧縮処理の前処理と
して使用することができる。圧縮データを他の圧縮処理
により再度圧縮すると、さらに各単語の出現頻度に見合
った長さのコードを割り当てることができ、圧縮率が向
上する。この場合、語コードのサイズを単位として圧縮
することが望ましい。

【００８４】他の圧縮処理としては、ハフマンコード、
キャノニカルハフマンコード、スプレイコード（splay
code）、算術コード、ｐｐｍ（prediction by partial
match ）、ＬＺ７７コード、ＬＺ７８コードのような任
意の符号化を用いることができる。

【００８５】図１３は、付加データを用いた圧縮処理を
他の圧縮処理の前処理として用いた複合圧縮処理のフロ
ーチャートである。この処理では、データ圧縮装置は、
まず、入力データに付加データを用いた圧縮処理を施し
（ステップＳ６１）、次に、他の圧縮処理を施して（ス
テップＳ６２）、圧縮データを生成する。

【００８６】また、図１４は、こうして生成された圧縮
データを復元する複合復元処理のフローチャートであ
る。この処理では、データ復元装置は、まず、入力デー
タにステップＳ６２の圧縮処理と組み合わされる他の復
元処理を施し（ステップＳ７１）、次に、付加データを
用いた復元処理を施して（ステップＳ７２）、復元デー
タを生成する。

【００８７】さらに、本実施形態の圧縮処理は、データ
検索にも利用することができる。データ検索は、通常、
圧縮されていない元のデータの形式で行われるが、圧縮
されたデータ内で文字列等を検索すると、圧縮せずに検
索する場合よりも、検索するデータ量が少なくなり、検
索速度を向上させることができる。特に、本実施形態の
圧縮処理によれば、圧縮データに含まれる各コードは同
じ長さであり、それぞれ１対１で特定の単語または文字
を表しているため、圧縮データ内の検索を高速に行うこ
とができる。

【００８８】図１５は、このような検索処理を行う検索
装置の構成図である。図１５の検索装置は、検索キー入
力部３１、データ圧縮装置３２、文字列検索部３３、検
索結果出力部３４、およびデータベース３５を備え、図
１６に示すような処理を行う。

【００８９】まず、検索キー入力部３１は、ユーザまた
はシステムにより指定された検索キー（query ）をバッ
ファＳ［］に入力し（ステップＳ８１）、データ圧縮装
置３２は、その検索キーを圧縮して圧縮検索キーを生成
し、それをバッファＳ′［］に格納する（ステップＳ８
２）。

【００９０】データ圧縮装置３２としては、図２に示し
たデータ圧縮装置を用いることが望ましいが、他の静的
な符号化に基づくデータ圧縮装置を用いてもよい。デー
タベース３５には、データ圧縮装置３２と同じ圧縮方法
により圧縮された検索対象のデータが格納されている。

【００９１】文字列検索部３３は、データベースから取
り出した圧縮データをバッファＰ［］に格納し、その中
でＳ′［］の圧縮検索キーを検索する（ステップＳ８
３）。そして、検索結果出力部３４は、検索結果を出力
して（ステップＳ８４）、処理を終了する。

【００９２】以上説明した実施形態では、文書データを
圧縮する例を示しているが、本発明は、文書データに限
らず、ＣＡＤデータおよびプログラムコードを含む任意
のデータに適用できる。また、適用対象コードのビット
サイズは、２バイトに限らず、３バイトまたは４バイト
であっても、２種類以上のビットサイズの混合であって
もよい。いずれの場合でも、辞書に登録されている単語
／文字は語コードに置き換えられ、未登録の単語に含ま
れる文字は一定単位の部分に分割されて、各部分に付加
コードが付加される。

【００９３】また、上述した付加コードは、圧縮データ
として出力されるコードの任意の位置に付加することが
できる。例えば、図５の圧縮データにおいて、文字
“Ｃ”のコードを２つの部分“０ｘ８２”と“０ｘ６
２”に分割した後、各部分の後に付加コード“０ｘＦ
Ｆ”を付加して、“０ｘ８２ＦＦ”と“０ｘ６２ＦＦ”
のようなコードを生成してもよい。また、付加コードと
しては、“０ｘＦＦ”以外にも任意のコードを用いるこ
とができる。

【００９４】このとき、文字コードの分割単位として
は、任意のビットサイズを用いることができ、分割数も
任意である。例えば、２バイト（１６ビット）の文字コ
ードを４つの４ビットコードに分割して、各部分に１２
ビットの付加コードを付加してもよい。

【００９５】図２のデータ圧縮装置、図３のデータ復元
装置、および図１５の検索装置は、例えば、図１７に示
すような情報処理装置（コンピュータ）を用いて構成さ
れる。図１７の情報処理装置は、ＣＰＵ（中央処理装
置）４１、メモリ４２、入力装置４３、出力装置４４、
外部記憶装置４５、媒体駆動装置４６、およびネットワ
ーク接続装置４７を備え、それらはバス４８により互い
に接続されている。

【００９６】メモリ４２は、例えば、ＲＯＭ（read onl
y memory）、ＲＡＭ（random access memory）等を含
み、処理に用いられるプログラムとデータを格納する。
ＣＰＵ４１は、メモリ４２を利用してプログラムを実行
することにより、必要な処理を行う。

【００９７】図２の文字入力部１１、単語検索部１２、
文字符号化部１４、語コード出力部１５、および圧縮デ
ータ出力部１６、図３の一定単位入力部２１、付加コー
ド判別部２２、付加コード除去部２３、単語復元部２
４、および復元データ出力部２５、図１５の検索キー入
力部３１、文字列検索部３３、および検索結果出力部３
４は、例えば、プログラムにより記述されたソフトウェ
アコンポーネントとして、メモリ４２の特定のプログラ
ムコードセグメントに格納される。また、メモリ４２
は、図２および図３の辞書保持部１３としても用いられ
る。

【００９８】入力装置４３は、例えば、キーボード、ポ
インティングデバイス、タッチパネル等であり、ユーザ
からの指示や情報の入力に用いられる。出力装置４４
は、例えば、ディスプレイやプリンタ等であり、ユーザ
への問い合わせ、処理結果等の出力に用いられる。

【００９９】外部記憶装置４５は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク（magneto-op
tical disk）装置等である。この外部記憶装置４５に、
上述のプログラムとデータを保存しておき、必要に応じ
て、それらをメモリ４２にロードして使用することもで
きる。また、外部記憶装置４５は、図１５のデータベー
ス３５としても用いられる。

【０１００】媒体駆動装置４６は、可搬記録媒体４９を
駆動し、その記録内容にアクセスする。可搬記録媒体４
９としては、メモリカード、フロッピーディスク、ＣＤ
−ＲＯＭ（compact disk read only memory ）、光ディ
スク、光磁気ディスク等、任意のコンピュータ読み取り
可能な記録媒体が用いられる。この可搬記録媒体４９に
上述のプログラムとデータを格納しておき、必要に応じ
て、それらをメモリ４２にロードして使用することもで
きる。

【０１０１】ネットワーク接続装置４７は、ＬＡＮ（lo
cal area network）等の任意のネットワーク（回線）を
介して外部の装置と通信し、通信に伴うデータ変換を行
う。また、必要に応じて、上述のプログラムとデータを
外部の装置から受け取り、それらをメモリ４２にロード
して使用することもできる。

【０１０２】図１８は、図１７の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体４９や
外部のデータベース５０に保存されたプログラムとデー
タは、メモリ４２にロードされる。そして、ＣＰＵ４１
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。

【０１０３】

【発明の効果】本発明によれば、どのようなコード表か
ら生成されたデータでも高い圧縮率で圧縮することがで
き、また圧縮データのどの位置からでも復元することが
できる。

【０１０４】また、得られた圧縮データに含まれる各コ
ードは同じ長さであり、それぞれ１対１で特定の単語ま
たは文字を表しているため、この処理を他の圧縮処理の
前処理として使用することができ、そのまま復元せずに
検索処理に利用することもできる。

【図面の簡単な説明】

【図１】本発明のデータ圧縮／復元装置の原理図であ
る。

【図２】データ圧縮装置の構成図である。

【図３】データ復元装置の構成図である。

【図４】付加コードを用いる方法を示す図である。

【図５】付加コードを用いた符号化を示す図である。

【図６】圧縮処理のフローチャートである。

【図７】復元処理のフローチャートである。

【図８】復元開始位置を示す図である。

【図９】途中から復元する第１の処理を示す図である。

【図１０】第１の処理のフローチャートである。

【図１１】途中から復元する第２の処理を示す図であ
る。

【図１２】第２の処理のフローチャートである。

【図１３】複合圧縮処理のフローチャートである。

【図１４】複合復元処理のフローチャートである。

【図１５】検索装置の構成図である。

【図１６】検索処理のフローチャートである。

【図１７】情報処理装置の構成図である。

【図１８】記録媒体を示す図である。

【図１９】空きコードを単語に割り当てる方法を示す図
である。

【図２０】切り替えコードを挿入する方法を示す図であ
る。

【図２１】切り替えコードの例を示す図である。

【符号の説明】

１コード入力手段２辞書手段３登録コード出力手段４符号化手段５単位入力手段６除去手段７コード列復元手段１１文字入力部１２単語検索部１３辞書保持部１４文字符号化部１５語コード出力部１６圧縮データ出力部１７分割部１８コード付加部２１一定単位入力部２２付加コード判別部２３付加コード除去部２４単語復元部２５復元データ出力部２６語コード検索部２７単語出力部３１検索キー入力部３２データ圧縮装置３３文字列検索部３４検索結果出力部３５、５０データベース４１ＣＰＵ４２メモリ４３入力装置４４出力装置４５外部記憶装置４６媒体駆動装置４７ネットワーク接続装置４８バス４９可搬記録媒体

Claims

【特許請求の範囲】

【請求項１】１種類以上のサイズのコードを含むデー
タを圧縮するデータ圧縮装置であって、データをコード単位で入力するコード入力手段と、１つ以上のコードからなるコード列と、該コード列に対
応する登録コードを保持する辞書手段と、入力コード列が前記辞書手段に保持されているとき、該
入力コード列に対応する登録コードを出力する登録コー
ド出力手段と、入力コード列が前記辞書手段に保持されていないとき、
該入力コード列中の入力コードに付加コードを付加して
新たなコードを生成し、該新たなコードを出力する符号
化手段とを備えることを特徴とするデータ圧縮装置。
【請求項２】前記入力コード列が前記辞書手段に保持
されているかどうかをチェックする検索手段と、前記入
力コードをあらかじめ決められた単位で複数の部分に分
割する分割手段と、得られた各部分に前記付加コードを
付加して前記新たなコードを生成する付加手段とをさら
に備えることを特徴とする請求項１記載のデータ圧縮装
置。
【請求項３】前記符号化手段は、前記登録コードのサ
イズに一致する新たなコードを生成することを特徴とす
る請求項２記載のデータ圧縮装置。
【請求項４】前記辞書手段は、２バイトの登録コード
を保持し、前記分割手段は、前記入力コードを１バイト
単位で複数の部分に分割し、前記付加手段は、得られた
各部分に１バイトの付加コードを付加して２バイトの新
たなコードを生成することを特徴とする請求項３記載の
データ圧縮装置。
【請求項５】前記圧縮データをさらに圧縮する圧縮手
段をさらに備えることを特徴とする請求項１記載のデー
タ圧縮装置。
【請求項６】１種類以上のサイズのコードを含むデー
タを圧縮するデータ圧縮装置であって、データをコード単位で入力するコード入力手段と、１つ以上のコードからなるコード列と、該コード列に対
応する登録コードを保持する辞書手段と、入力コード列が前記辞書手段に保持されているとき、該
入力コード列に対応する登録コードを出力する登録コー
ド出力手段と、入力コード列が前記辞書手段に保持されていないとき、
該入力コード列中の入力コードを分割して新たなコード
を生成し、該新たなコードを出力する符号化手段とを備
えることを特徴とするデータ圧縮装置。
【請求項７】１種類以上のサイズのコードを含むデー
タを圧縮して得られた圧縮データを復元するデータ復元
装置であって、データを一定単位で入力する単位入力手段と、１つ以上のコードからなるコード列と、該コード列に対
応する登録コードを保持する辞書手段と、入力データの一部があらかじめ決められた付加コードで
あるかどうかを判別する判別手段と、前記入力データの一部が前記付加コードであるとき、該
入力データから該付加コードを除去してデータを生成
し、生成されたデータを出力する除去手段と、前記入力データの一部が前記付加コードでないとき、該
入力データを登録コードとみなして、該入力データに対
応するコード列を出力するコード列復元手段とを備える
ことを特徴とするデータ復元装置。
【請求項８】前記単位入力手段は、データを２バイト
単位で入力し、前記除去手段は、入力データから１バイ
トの付加コードを除去して、１バイトのデータを生成す
ることを特徴とする請求項７記載のデータ復元装置。
【請求項９】前記圧縮データの途中から復元を行う場
合、前記判別手段は、最初の付加コードなしのデータが
入力されるまで、付加コードを含むデータを前記除去手
段に入力しないことを特徴とする請求項７記載のデータ
復元装置。
【請求項１０】前記圧縮データの途中から復元を行う
場合、復元開始位置の入力データが付加コードを含んで
おり、該復元開始位置の入力データから意味のあるコー
ドが生成されなければ、前記除去手段は、該復元開始位
置の入力データから生成されたデータを出力しないこと
を特徴とする請求項７記載のデータ復元装置。
【請求項１１】前記除去手段は、前記復元開始位置の
入力データから生成されたデータを待避させ、待避させ
たデータが意味のあるコードを生成するかどうかを判別
し、該待避させたデータを出力するかどうかを決定する
ことを特徴とする請求項１０記載のデータ復元装置。
【請求項１２】検索キーを入力する入力手段と、入力された検索キーを圧縮する圧縮手段と、圧縮された検索キーを圧縮データ内で検索する検索手段
と、検索結果を出力する出力手段とを備えることを特徴とす
る検索装置。
【請求項１３】前記圧縮手段は、前記検索キーをコー
ド単位で入力するコード入力手段と、１つ以上のコード
からなるコード列と、該コード列に対応する登録コード
を保持する辞書手段と、入力コード列が前記辞書手段に
保持されているとき、該入力コード列に対応する登録コ
ードを出力する登録コード出力手段と、入力コード列が
前記辞書手段に保持されていないとき、該入力コード列
中の入力コードに付加コードを付加して新たなコードを
生成し、該新たなコードを出力する符号化手段とを含む
ことを特徴とする請求項１２記載の検索装置。
【請求項１４】１種類以上のサイズのコードを含むデ
ータを圧縮するコンピュータのためのプログラムを記録
した記録媒体であって、データをコード単位で入力するステップと、入力コード列が辞書に登録されているとき、該入力コー
ド列に対応する登録コードを出力するステップと、入力コード列が前記辞書に登録されていないとき、該入
力コード列中の入力コードに付加コードを付加して新た
なコードを生成し、該新たなコードを出力するステップ
とを含む処理を前記コンピュータに実行させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体。
【請求項１５】１種類以上のサイズのコードを含むデ
ータを圧縮して得られた圧縮データを復元するコンピュ
ータのためのプログラムを記録した記録媒体であって、データを一定単位で入力するステップと、入力データの一部があらかじめ決められた付加コードで
あるとき、該入力データから該付加コードを除去してデ
ータを生成し、生成されたデータを出力するステップ
と、入力データの一部が前記付加コードでないとき、該入力
データを登録コードとみなして、該入力データに対応し
て辞書に登録されたコード列を出力するステップとを含
む処理を前記コンピュータに実行させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体。
【請求項１６】１種類以上のサイズのコードを含むデ
ータを圧縮するデータ圧縮方法であって、データをコード単位で入力し、入力コード列が辞書に登録されているとき、該入力コー
ド列に対応する登録コードを出力し、入力コード列が前記辞書に登録されていないとき、該入
力コード列中の入力コードに付加コードを付加して新た
なコードを生成して、該新たなコードを出力することを
特徴とするデータ圧縮方法。
【請求項１７】１種類以上のサイズのコードを含むデ
ータを圧縮して得られた圧縮データを復元するデータ復
元方法であって、データを一定単位で入力し、入力データの一部があらかじめ決められた付加コードで
あるとき、該入力データから該付加コードを除去してデ
ータを生成して、生成されたデータを出力し、入力データの一部が前記付加コードでないとき、該入力
データを登録コードとみなして、該入力データに対応し
て辞書に登録されたコード列を出力することを特徴とす
るデータ復元方法。