JP2000201080A - 付加コ―ドを用いたデ―タ圧縮/復元装置および方法 - Google Patents

付加コ―ドを用いたデ―タ圧縮/復元装置および方法

Info

Publication number
JP2000201080A
JP2000201080A JP11002129A JP212999A JP2000201080A JP 2000201080 A JP2000201080 A JP 2000201080A JP 11002129 A JP11002129 A JP 11002129A JP 212999 A JP212999 A JP 212999A JP 2000201080 A JP2000201080 A JP 2000201080A
Authority
JP
Japan
Prior art keywords
code
data
input
unit
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11002129A
Other languages
English (en)
Inventor
Nobuko Sato
宣子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11002129A priority Critical patent/JP2000201080A/ja
Priority to US09/457,597 priority patent/US6834283B1/en
Publication of JP2000201080A publication Critical patent/JP2000201080A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Abstract

(57)【要約】 【課題】 コードにより表されるデータを高い圧縮率で
圧縮し、圧縮データの任意の位置から復元することが課
題である。 【解決手段】 入力文字列“圧縮するCADデータ”の
うち、“圧縮”、“する”、および“データ”のコード
は登録単語として、それぞれ、語コード“0x826
0”、“0x0011”、および“0x8261”に変
換される。しかし、“C”、“A”、および“D”から
始まる単語は辞書に登録されていないため、これらの文
字は、それぞれ、1バイト単位に分割され、得られた各
部分の前に付加コード“0xFF”が付加されて出力さ
れる。復元の際は、この付加コードに基づいて語コード
か否かが判別される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データ、CA
D(computer aided design )データ、プログラムコー
ド等のように、特定の意味を持つ1種類以上のビットサ
イズのコードを記述したコード表に基づくデータの圧縮
/復元技術に関する。
【0002】
【従来の技術】近年、文書データ、CADデータ等の様
々な種類のデータがコンピュータで扱われるようになる
のに伴い、取り扱われるデータ量も増大している。その
ような大量を扱う場合、データ中の冗長な部分を省いて
圧縮することにより、記憶容量を減らしたり、遠隔地へ
の伝送を高速に行うことができる。
【0003】例えば、文書データを対象とする圧縮方法
の1つとして、単語とそれに対応する語コードを有する
辞書を持ち、この辞書に従って入力文字列をそれより短
い語コードに変換する方法がある。この圧縮方法では、
単語とそれに対応する語コードをあらかじめ準備してお
く必要があるが、一般に、単語の数は多く、固有名詞等
の特殊な単語もあるので、入力データのすべての単語に
対してあらかじめ語コードを割り当てることはできな
い。そこで、あらかじめ準備できない単語の扱いとし
て、大きく分けて次の2つの方法が提案されている。
【0004】第1の方法は、すべての文字に対して出力
コードを割り当てておき、空きコードを単語に割り当て
る方法である。例えば、JIS(日本工業規格)コード
等の日本語コードでは、利用可能なすべての2バイトコ
ードのうち、一部のコードのみを仮名や漢字等の文字と
して使用しているため、空いているコードに単語を割り
当てることができる。
【0005】図19は、このような2バイトコードのコ
ード空間における文字コードの領域を示している。この
コード空間は、2バイトコードの上位バイトが表す数0
x00〜0xFF(16進数表記)を第1の座標とし、
下位バイトが表す数0x00〜0xFFを第2の座標と
する2次元空間に対応する。ここでは、上位バイトおよ
び下位バイトがそれぞれ0x21〜0x7Eに対応する
領域が文字コードとして用いられており、それ以外の領
域の空きコードが単語の語コードとして用いられる。
【0006】第2の方法は、圧縮結果において、変換さ
れていないコードと変換後の語コードとの間に切り替え
コードを挿入して、入力データと同じコードと語コード
とを区別する方法である。この方法では、変換されてい
ない元のコードを語コードと重複して使用することがで
き、圧縮結果に挿入された切り替えコードを検出するこ
とで、次のコードが語コードなのか元のコードなのかが
区別される。
【0007】図20は、上述の2バイトコードのコード
空間を語コードとして用いた場合を示している。ここで
は、“0xFFFF”以外のすべてのコードが語コード
として用いられ、“0xFFFF”は切り替えコードと
して用いられている。この切り替えコードは、例えば、
図21に示すようにして、圧縮結果に挿入される。
【0008】図21の入力文字列“圧縮するCADデー
タ”のコードのうち、“圧縮”に対応する“0x88b
38f6b”が語コード“0x8260”に変換され、
“する”に対応する“0x82b782e9”が語コー
ド“0x0011”に変換され、“データ”に対応する
“0x8366815b835e”が語コード“0x8
261”に変換される。そして、“CAD”に対応する
“0x826282608263”は元のままで残さ
れ、その前後に切り替えコード“0xFFFF”が挿入
される。
【0009】
【発明が解決しようとする課題】しかしながら、上述し
た従来のデータ圧縮方法には、次のような問題がある。
【0010】あらかじめすべての文字を登録しておく方
法では、文字の数が多いと登録できる単語の数が少なく
なり、わずかな単語しか語コードに置き換えることがで
きない。このため、データをあまり圧縮することができ
ない。例えば、世界の主要文字を網羅するUnicode を用
いた場合、図19のコード空間の多くの領域が文字に割
り当てられ、単語として使用可能な空きコードの数が少
なくなる。ユーザが外字コードを登録する場合にも、同
様の問題が生じる。
【0011】一方、切り替えコードを挿入する方法で
は、圧縮データの復元の際に切り替えコードが出現する
と、それに続くコードはそれまでのコードとは異なる種
類であるものとみなされる。例えば、図21の圧縮デー
タにおいて、語コード“0x0011”の次に“0xF
FFF”が出現すると、それ以降のコードは変換されて
いない元のコードと認識され、コード“0x8263”
の次に“0xFFFF”が出現すると、それ以降のコー
ドは再び語コードと認識される。
【0012】このように、切り替えコードの位置によっ
てその前後のコードの意味するところが違ってくるた
め、常に圧縮データを先頭から復元する必要があり、そ
れを途中から復元することはできない。
【0013】本発明の課題は、あらかじめ決められたコ
ードにより表されるデータを高い圧縮率で圧縮し、圧縮
データの任意の位置から復元することのできるデータ圧
縮/復元装置およびその方法を提供することである。
【0014】
【課題を解決するための手段】図1は、本発明のデータ
圧縮/復元装置の原理図である。
【0015】図1のデータ圧縮装置は、コード入力手段
1、辞書手段2、登録コード出力手段3、および符号化
手段4を備え、1種類以上のサイズのコードを含むデー
タを圧縮する。
【0016】コード入力手段1は、データをコード単位
で入力し、辞書手段2は、1つ以上のコードからなるコ
ード列と、そのコード列に対応する登録コードを保持す
る。登録コード出力手段3は、入力コード列が辞書手段
2に保持されているとき、その入力コード列に対応する
登録コードを出力する。また、符号化手段4は、入力コ
ード列が辞書手段2に保持されていないとき、その入力
コード列中の入力コードに付加コードを付加して新たな
コードを生成し、新たなコードを出力する。
【0017】このような構成によれば、コード入力手段
1は、与えられた処理対象のデータを1コードずつ入力
し、登録コード出力手段3は、入力コード列に対応する
登録コードが辞書手段2に登録されているとき、その登
録コードを圧縮結果として出力する。また、符号化手段
4は、1つの入力コードから始まるコード列が辞書手段
2に登録されていないとき、その入力コードの適当な位
置にあらかじめ決められた付加コードを付加し、付加コ
ードを含む新たなコードを圧縮結果として出力する。
【0018】符号化手段4を備えることで、辞書手段2
に登録されていない入力コードに対して動的に圧縮結果
を生成することができるため、圧縮のためにすべての単
コードをあらかじめ登録しておく必要がない。このた
め、使用するコード表の種類によらず、コード列に割り
当てる登録コードを多く確保することができ、圧縮率が
向上する。
【0019】また、付加コードを用いることで、圧縮デ
ータに含まれるコードが登録コードかどうかを、切り替
えコードなしでも容易に判別することができる。したが
って、圧縮データを先頭から辿らなくても、途中から復
元することが可能になる。
【0020】次に、図1のデータ復元装置は、辞書手段
2、単位入力手段5、除去手段6、およびコード列復元
手段7を備え、1種類以上のサイズのコードを含むデー
タを圧縮して得られた圧縮データを復元する。
【0021】単位入力手段5は、データを一定単位で入
力し、辞書手段2は、1つ以上のコードからなるコード
列と、そのコード列に対応する登録コードを保持する。
除去手段6は、入力データの一部があらかじめ決められ
た付加コードであるとき、その入力データから付加コー
ドを除去してデータを生成し、生成されたデータを出力
する。また、コード列復元手段7は、入力データの一部
が付加コードでないとき、その入力データを登録コード
とみなして、入力データに対応するコード列を出力す
る。
【0022】このような構成によれば、単位入力手段5
は、与えられた処理対象のデータを一定単位で入力し、
除去手段6は、入力データの特定の部分が付加コードで
あるとき、その入力データから付加コードを除去して、
残されたデータを復元結果として出力する。また、コー
ド列復元手段7は、入力データの特定の部分が付加コー
ドでないとき、その入力データを辞書手段2に登録され
た登録コードとみなして、入力データに対応するコード
列を取得し、それを復元結果として出力する。
【0023】除去手段6を備えることで、辞書手段2に
登録されていない入力データから元のデータを復元する
ことができるため、圧縮のためにすべての単コードをあ
らかじめ登録しておく必要がない。このため、使用する
コード表の種類によらず、コード列に割り当てる登録コ
ードを多く確保することができ、圧縮率が向上する。
【0024】また、付加コードを用いることで、圧縮デ
ータに含まれるコードが登録コードかどうかを、切り替
えコードなしでも容易に判別することができる。したが
って、圧縮データを先頭から辿らなくても、途中から復
元することが可能になる。
【0025】例えば、図1のコード入力手段1、辞書手
段2、登録コード出力手段3、および符号化手段4は、
それぞれ、後述する図2の文字入力部11、辞書保持部
13、語コード出力部15、および文字符号化部14に
対応し、図1の単位入力手段5、除去手段6、およびコ
ード列復元手段7は、それぞれ、後述する図3の一定単
位入力部21、付加コード除去部23、および単語復元
部24に対応する。
【0026】また、例えば、コード入力手段1が入力す
るコードは、文字入力部11が入力する文字に対応し、
辞書手段2が保持するコード列および登録コードは、辞
書保持部13が保持する単語および語コードに対応す
る。
【0027】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。
【0028】本発明は、文書データのように、特定の意
味を持つ1種類以上のビットサイズのコードを記述した
コード表から生成されたデータの圧縮/復元に適用でき
る。以下では、コード表に登録された情報の1つの単位
をコードまたは文字と呼ぶことにする。例えば、SJI
S(シフトJIS)コードの場合、制御コードやアルフ
ァベット等の文字は、1バイトのビットサイズで表さ
れ、漢字や平仮名等の文字は、2バイトのビットサイズ
で表される。
【0029】また、以下では、1つ以上の文字からなる
文字列を単語と呼ぶことにする。ここでは、1つの名詞
や動詞のような通常の単語のみに限らず、複数の単語の
複雑な組合せを含む任意の文字列を単語として扱ってい
る。
【0030】本実施形態においては、単語とそれに対応
する語コードを辞書として保持する。データ圧縮の際
に、辞書に登録されていない単語が出現すると、その単
語の先頭の文字のコードを特定のサイズに分割し、あら
かじめ決められた付加コードを付加して、語コードと同
じ長さのコードを生成する。こうして生成された未登録
文字のコードは、登録単語に対して割り当てられた語コ
ードと重複しないようにしておく。
【0031】例えば、分割単位を1バイトにすると、1
バイトで表現可能な256個のコードを、未登録文字を
出力するために使用することができる。この方法では、
未登録文字に対して動的にコードを割り当てることがで
きるため、図19に示したように、すべての文字をあら
かじめ登録しておく必要がない。このため、使用するコ
ード表の種類によらず、登録単語に割り当てられる空き
コードを多く確保することができ、圧縮率の向上に寄与
する。
【0032】また、付加コードを用いることで、圧縮デ
ータに含まれるコードの長さが統一され、また切り替え
コードなしでも容易に語コードか未登録文字のコードか
を区別することができる。したがって、圧縮データを先
頭から辿らなくても、途中から復元することが可能にな
る。
【0033】図2は、本実施形態のデータ圧縮装置の構
成図である。図2のデータ圧縮装置は、文字入力部1
1、単語検索部12、辞書保持部13、文字符号化部1
4、語コード出力部15、および圧縮データ出力部16
を備える。
【0034】文字入力部11は、与えられたコード表に
従って、被圧縮データを文字単位で入力する。辞書保持
部13は、1つ以上の文字からなる単語とそれに対応す
る語コードを登録した辞書を保持し、単語検索部12
は、入力された文字列が辞書に登録されているかどうか
を検索する。
【0035】文字符号化部14は、分割部17とコード
付加部18を含み、入力文字列が辞書に登録されていな
かった場合、その文字列の先頭の文字を符号化して出力
する。分割部17は、与えられた文字コードをあらかじ
め決められた単位に分割し、コード付加部18は、分割
により生成された各部分にあらかじめ決められた付加コ
ードを付加する。また、入力文字列が辞書に登録されて
いた場合、語コード出力部15は、それに対応する語コ
ードを出力する。
【0036】圧縮データ出力部16は、文字符号化部1
4と語コード出力部15から出力されたコードを順に並
べて、圧縮データとして出力する。
【0037】また、図3は、本実施形態のデータ復元装
置の構成図である。図3のデータ復元装置は、辞書保持
部13、一定単位入力部21、付加コード判別部22、
付加コード除去部23、単語復元部24、および復元デ
ータ出力部25を備える。
【0038】一定単位入力部21は、図2のデータ圧縮
装置により圧縮されたデータをあらかじめ決められた単
位で入力し、付加コード判別部22は、入力データの一
部が付加コードに対応するかどうかを判別する。
【0039】入力データの特定部分が付加コードに対応
する場合、付加コード除去部23は、入力データから付
加コードを除去して、残されたデータを復元する。ま
た、単語復元部24は、語コード検索部26と単語出力
部27を含み、入力データの特定部分が付加コードに対
応しない場合、入力データを語コードとみなして単語を
復元する。語コード検索部26は、入力データを辞書保
持部13に保持された辞書の語コードと照合し、入力デ
ータに対応する単語を検索する。単語出力部27は、検
索された単語を出力する。
【0040】復元データ出力部25は、付加コード除去
部23と単語復元部24から出力されたデータを順に並
べて、復元データとして出力する。このように、データ
圧縮/復元装置は、圧縮/復元双方に同じ辞書を保持
し、辞書に従って単語を語コードに圧縮するとともに、
語コードを単語に復元する。
【0041】例えば、被圧縮データをSJISコードの
コード表を用いて生成されたデータとし、圧縮後の語コ
ードのサイズを2バイトとし、分割単位を1バイトと
し、付加コードを0xFFとした場合、以下のような圧
縮処理が行われる。
【0042】入力された単語が辞書にない場合、その単
語の先頭の2バイト文字“0xijkm”を、1バイト
単位の“0xij”と“0xkm”に分割し、各々に付
加コード“0xFF”を付加して、2バイトコード“0
xFFij”と“0xFFkm”を生成する。ただし、
制御コードや半角コードのように、元々1バイトの文字
“0xpq”については、そのまま付加コード“0xF
F”を付加して、“0xFFpq”を出力する。ここ
で、i、j、k、m、p、qは、それぞれ、0x0〜0
xFのいずれかの値を表している。
【0043】図4は、このような付加コードを用いた場
合のコード空間を示している。ここでは、上位バイトが
0x00〜0xFEの領域があらかじめ語コードとして
登録単語に割り当てられ、上位バイトが0xFFの領域
が付加コードを用いて生成される未登録文字のコードと
して用いられる。
【0044】このような圧縮処理により、図21に示し
た入力文字列“圧縮するCADデータ”のコードは、図
5に示すようなコードに変換される。ここで、“圧
縮”、“する”、および“データ”は登録単語として、
それぞれ、図21と同様の語コードに変換される。
【0045】しかし、“C”、“A”、および“D”か
ら始まる単語は辞書に登録されていないため、これらの
文字は登録されていない単語の先頭の文字(未登録文
字)として扱われる。そして、これらの文字のコード
“0x8262”、“0x8260”、“0x826
3”は、それぞれ、1バイト単位に分割され、得られた
各部分の前に付加コード“0xFF”が付加される。
【0046】例えば、“C”に対応するコード“0x8
262”は、“0x82”と“0x62”の2つの部分
に分割され、それぞれの部分に“0xFF”が付加され
て、“0xFF82”と“0xFF62”に変換され
る。“A”と“D”についても同様である。
【0047】一方、復元処理においては、2バイトの入
力データの上位バイトが0xFFである場合、0xFF
を除いた下位バイトを出力する。また、上位バイトが0
xFFでない場合は、その入力データは語コードを表す
ものと判断し、辞書に従ってその語コードに対応する単
語を出力する。
【0048】図5の圧縮データ“0x82600011
FF82FF62FF82FF60FF82FF638
261”の場合、語コード“0x8260”、“0x0
011”、“0x8261”は、それぞれ、辞書に従っ
て元のコードに変換される。
【0049】しかし、“CAD”に対応するコード“0
xFF82”、“0xFF62”、“0xFF82”、
“0xFF60”、“0xFF82”、“0xFF6
3”の上位バイトは0xFFであり、これは付加コード
に対応する。このため、これらのコードは、それぞれ、
1バイトのコード“0x82”、“0x62”、“0x
82”、“0x60”、“0x82”、“0x63”に
変換される。そして、2つの連続する1バイトコードか
ら2バイトコードが生成され、元のコードに対応する
“0x8262”、“0x8260”、“0x826
3”が出力される。
【0050】ところで、図5に示した例では、“圧
縮”、“する”、および“データ”の各単語について
は、それより短い語コードに変換されているが、“CA
D”については元のコードより長いコードに変換されて
いる。このため、一見、必ずしも高い圧縮率が得られて
いないように見えるかも知れない。
【0051】しかし、圧縮処理では、一般に、頻繁に出
現する情報に短いコードを割り当て、ほとんど出現しな
い情報に長いコードを割り当てることによって、全体と
して元のデータより短いコードが生成される。この例で
は、未登録文字のコードは2倍の長さになるが、登録単
語は1/2以下の長さになるので、頻繁に出現する多く
の単語を登録しておくことで、全体として元のデータの
1/2以下に圧縮することが可能である。
【0052】図6は、図2のデータ圧縮装置による圧縮
処理のフローチャートである。まず、文字入力部11
は、制御変数nを0とおき(ステップS1)、入力デー
タが終了したかどうかを判定する(ステップS2)。未
処理の入力データがあれば、1文字分のコードを入力
し、バッファP[n]に入力文字のコードを入力する
(ステップS3)。そして、単語検索部12は、文字列
P[0]P[1]...P[n]から始まる単語が辞書
に登録されているかどうかを調べる(ステップS4)。
【0053】そのような単語が辞書に登録されていれ
ば、nに1を加算して(ステップS5)、ステップS2
以降の処理を繰り返す。そして、ステップS4におい
て、文字列P[0]P[1]...P[n]から始まる
単語が辞書に登録されていなければ、次に、n=0かど
うかを判定する(ステップS6)。
【0054】n=0でなければ、文字列P[0]P
[1]...P[n]からP[n]を除いた文字列P
[0]P[1]...P[n−1]は、単語として辞書
に登録されているので、その単語に対応する語コードを
辞書から取り出し、語コード出力部15に渡す(ステッ
プS7)。これを受けて、語コード出力部15は、その
語コードを変換結果として出力し、圧縮データ出力部1
6は、それを圧縮データとして出力する。そして、文字
入力部11は、P[0]=P[n]、n=0とおいて
(ステップS8)、ステップS4以降の処理を繰り返
す。
【0055】また、ステップS6においてn=0であれ
ば、P[n](=P[0])から始まる単語は辞書に登
録されていないので、分割部17は、P[0]をあらか
じめ決められた単位の部分に分割し(ステップS9)、
コード付加部18は、各部分に付加コードを付加して
(ステップS10)、出力する(ステップS11)。そ
して、圧縮データ出力部16は、付加コードが付加され
たコードを圧縮データとして出力し、文字入力部11
は、ステップS2以降の処理を繰り返す。
【0056】そして、ステップS2において入力データ
が終了すると、データ圧縮装置は、圧縮処理を終了す
る。
【0057】例えば、図5の入力文字列の場合、最初の
文字“圧”が入力されると、P[0]=“0x88b
3”となる(ステップS3)。このとき、“圧”から始
まる“圧縮”という単語が辞書に登録されているので、
次の文字“縮”が入力されて、P[1]=“0x8f6
b”となり(ステップS3)、続いて“す”が入力され
て、P[2]=“0x82b7”となる(ステップS
3)。
【0058】ここで、“圧縮す”から始まる単語は辞書
に登録されておらず、n=2≠0であるので、P[0]
P[1]に対応する単語“圧縮”の語コード“0x82
60”が出力される(ステップS7)。そして、P
[0]=P[2]=“0x82b7”、n=0となる
(ステップS8)。
【0059】このとき、“す”から始まる“する”とい
う単語が辞書に登録されているので、次の文字“る”が
入力されて、P[1]=“0x82e9”となり(ステ
ップS3)、続いて“C”が入力されて、P[2]=
“0x8262”となる(ステップS3)。
【0060】ここで、“するC”から始まる単語は辞書
に登録されておらず、n=2≠0であるので、P[0]
P[1]に対応する単語“する”の語コード“0x00
11”が出力される(ステップS7)。そして、P
[0]=P[2]=“0x8262”、n=0となる
(ステップS8)。
【0061】このとき、“C”から始まる単語は辞書に
登録されておらず、n=0であるので、P[0]=“0
x8262”は“0x82”と“0x62”の2つの部
分に分割され(ステップS9)、それぞれの部分に付加
コード“0xFF”が付加されて(ステップS10)、
“0xFF82”と“0xFF62”が出力される(ス
テップS11)。
【0062】同様にして、文字“A”が入力されると、
“0xFF82”と“0xFF60”が出力され(ステ
ップS11)、文字“D”が入力されると、“0xFF
82”と“0xFF63”が出力される(ステップS1
1)。
【0063】次に、文字“デ”が入力されると、P
[0]=“0x8366”となる(ステップS3)。こ
のとき、“デ”から始まる“データ”という単語が辞書
に登録されているので、次の文字“ー”が入力されて、
P[1]=“0x815b”となり(ステップS3)、
続いて“タ”が入力されて、P[2]=“0x835
e”となる(ステップS3)。
【0064】続いて、不図示の次の文字が入力されてP
[3]に設定され、P[0]P[1]P[2]P[3]
から始まる単語が辞書に登録されていないものとする。
このとき、n=3≠0であるので、P[0]P[1]P
[2]に対応する単語“データ”の語コード“0x82
61”が出力される(ステップS7)。
【0065】図7は、図3のデータ復元装置による復元
処理のフローチャートである。まず、一定単位入力部2
1は、入力データから1つのコードを入力し(ステップ
S21)、付加コード判別部22は、それに付加コード
が付加されているかどうかを判別する(ステップS2
2)。
【0066】入力コードに付加コードが付加されていれ
ば、付加コード除去部23は、入力コードから付加コー
ドを除去し(ステップS23)、復元データ出力部25
は、残された部分を復元データとして出力する(ステッ
プS24)。一定単位入力部21は、入力データが終了
したかどうかを判定して(ステップS25)、未処理の
データが残っていれば、ステップS21以降の処理を繰
り返す。
【0067】ステップS22において入力コードに付加
コードが付加されていなければ、語コード検索部26
は、それを語コードとみなして辞書を検索し、単語出力
部27は、対応する単語のコードを出力する(ステップ
S26)。そして、復元データ出力部25は、その単語
のコードを復元データとして出力し、一定単位入力部2
1は、ステップS25以降の処理を繰り返す。
【0068】そして、ステップS25において入力デー
タが終了すると、データ復元装置は、復元処理を終了す
る。
【0069】例えば、図5の圧縮データの場合、最初の
2つのコード“0x8260”および“0x0011”
には付加コードが付加されていないので、これらは語コ
ードと認識される。その結果、“0x8260”は“0
x88b38f6b”に変換され(ステップS26)、
“0x0011”は“0x82b782e9”に変換さ
れる(ステップS26)。得られたコードは、2つの単
語“圧縮”および“する”に対応している。
【0070】次の6つのコード“0xFF82”、“0
xFF62”、“0xFF82”、“0xFF60”、
“0xFF82”、および“0xFF63”には付加コ
ード“0xFF”が付加されているので、それが除去さ
れて、“0x826282608263”が出力される
(ステップS24)。出力されたコードは、“CAD”
に対応している。
【0071】また、次のコード“0x8261”には付
加コードが付加されていないので、これは語コードと認
識され、“0x8366815b835e”に変換され
る(ステップS26)。得られたコードは、単語“デー
タ”に対応している。
【0072】次に、図8から図12までを参照しなが
ら、圧縮データを途中から復元する処理について説明す
る。
【0073】圧縮データを途中から復元する場合、復元
開始位置の先頭の2バイトコードに付加コードが含まれ
ていると、そこから忠実に復元しても意味のある結果が
得られない場合がある。例えば、図5に示した圧縮デー
タを、図8に示すような途中位置Pから復元する場合、
先頭の2バイトコード“0xFF62”は、その前の2
バイトコード“0xFF82”と合わせて1つの文字
“C”を表しており、“0xFF62”から付加コード
を除いた1バイトコード“0x62”だけでは、文字を
なさない。
【0074】そこで、圧縮データを途中から復元する場
合、最初の語コードが出現するまで復元を行わない方法
と、文字コードの切れ目を判別して、文字を意味しない
先頭の復元コードを削除する方法の2通りが考えられ
る。
【0075】前者の方法では、図9に示すように、最初
の語コード“0x8261”の前の5つのコード“0x
FF62”、“0xFF82”、“0xFF60”、
“0xFF82”、および“0xFF63”は復元され
ずにスキップされ、“0x8261”以降のコードが復
元される。
【0076】図10は、このような復元処理のフローチ
ャートである。まず、一定単位入力部21は、入力デー
タから1つのコードを入力し(ステップS31)、付加
コード判別部22は、それに付加コードが付加されてい
るかどうかを判別する(ステップS32)。そして、入
力コードに付加コードが付加されていれば、一定単位入
力部21は、ステップS31以降の処理を繰り返す。
【0077】ステップS32において入力コードに付加
コードが付加されていなければ、語コード検索部26
は、それを語コードとみなして辞書を検索し、単語出力
部27は、対応する単語のコードを出力する(ステップ
S33)。そして、復元データ出力部25は、その単語
のコードを復元データとして出力する。その後、データ
復元装置は、ステップS34、S35、S36、S3
7、S38、およびS39において、図7と同様の復元
処理を行う。
【0078】また、後者の方法では、図11に示すよう
に、文字をなさない先頭のコード“0xFF62”は復
元されず、次の“0xFF82”以降のコードが復元さ
れる。
【0079】図12は、このような復元処理のフローチ
ャートである。まず、一定単位入力部21は、区切り判
別用バッファstk[]を用意し、制御変数nを0とお
いて(ステップS41)、入力データから1つのコード
を入力する(ステップS42)。
【0080】次に、付加コード判別部22は、入力コー
ドに付加コードが付加されているかどうかを判別する
(ステップS43)。入力コードに付加コードが付加さ
れていれば、付加コード除去部23は、入力コードから
付加コードを除去して(ステップS44)、残された部
分をstk[n]に入力する(ステップS45)。そし
て、一定単位入力部21は、nに1を加算して(ステッ
プS46)、ステップS42以降の処理を繰り返す。
【0081】ステップS43において入力コードに付加
コードが付加されていなければ、付加コード除去部23
は、次に、stk[0]内のコードが文字コードの切れ
目と一致するかどうかを判定する(ステップS47)。
そして、そのコードが文字コードの切れ目と一致すれ
ば、stk[0],stk[1],...,stk
[n]内のコードを順に出力し(ステップS48)、そ
のコードが文字コードの切れ目と一致しなければ、st
k[0]を除いて、stk[1],...,stk
[n]内のコードを順に出力する(ステップS49)。
【0082】次に、語コード検索部26は、入力コード
を語コードとみなして辞書を検索し、単語出力部27
は、対応する単語のコードを出力する(ステップS5
0)。そして、復元データ出力部25は、その単語のコ
ードを復元データとして出力する。その後、データ復元
装置は、ステップS51、S52、S53、S54、S
55、およびS56において、図7と同様の復元処理を
行う。
【0083】ところで、このような付加データを用いた
圧縮処理によれば、圧縮データに含まれる各コードは同
じ長さであり、それぞれ1対1で特定の単語または文字
を表しているため、この処理を他の圧縮処理の前処理と
して使用することができる。圧縮データを他の圧縮処理
により再度圧縮すると、さらに各単語の出現頻度に見合
った長さのコードを割り当てることができ、圧縮率が向
上する。この場合、語コードのサイズを単位として圧縮
することが望ましい。
【0084】他の圧縮処理としては、ハフマンコード、
キャノニカルハフマンコード、スプレイコード(splay
code)、算術コード、ppm(prediction by partial
match )、LZ77コード、LZ78コードのような任
意の符号化を用いることができる。
【0085】図13は、付加データを用いた圧縮処理を
他の圧縮処理の前処理として用いた複合圧縮処理のフロ
ーチャートである。この処理では、データ圧縮装置は、
まず、入力データに付加データを用いた圧縮処理を施し
(ステップS61)、次に、他の圧縮処理を施して(ス
テップS62)、圧縮データを生成する。
【0086】また、図14は、こうして生成された圧縮
データを復元する複合復元処理のフローチャートであ
る。この処理では、データ復元装置は、まず、入力デー
タにステップS62の圧縮処理と組み合わされる他の復
元処理を施し(ステップS71)、次に、付加データを
用いた復元処理を施して(ステップS72)、復元デー
タを生成する。
【0087】さらに、本実施形態の圧縮処理は、データ
検索にも利用することができる。データ検索は、通常、
圧縮されていない元のデータの形式で行われるが、圧縮
されたデータ内で文字列等を検索すると、圧縮せずに検
索する場合よりも、検索するデータ量が少なくなり、検
索速度を向上させることができる。特に、本実施形態の
圧縮処理によれば、圧縮データに含まれる各コードは同
じ長さであり、それぞれ1対1で特定の単語または文字
を表しているため、圧縮データ内の検索を高速に行うこ
とができる。
【0088】図15は、このような検索処理を行う検索
装置の構成図である。図15の検索装置は、検索キー入
力部31、データ圧縮装置32、文字列検索部33、検
索結果出力部34、およびデータベース35を備え、図
16に示すような処理を行う。
【0089】まず、検索キー入力部31は、ユーザまた
はシステムにより指定された検索キー(query )をバッ
ファS[]に入力し(ステップS81)、データ圧縮装
置32は、その検索キーを圧縮して圧縮検索キーを生成
し、それをバッファS′[]に格納する(ステップS8
2)。
【0090】データ圧縮装置32としては、図2に示し
たデータ圧縮装置を用いることが望ましいが、他の静的
な符号化に基づくデータ圧縮装置を用いてもよい。デー
タベース35には、データ圧縮装置32と同じ圧縮方法
により圧縮された検索対象のデータが格納されている。
【0091】文字列検索部33は、データベースから取
り出した圧縮データをバッファP[]に格納し、その中
でS′[]の圧縮検索キーを検索する(ステップS8
3)。そして、検索結果出力部34は、検索結果を出力
して(ステップS84)、処理を終了する。
【0092】以上説明した実施形態では、文書データを
圧縮する例を示しているが、本発明は、文書データに限
らず、CADデータおよびプログラムコードを含む任意
のデータに適用できる。また、適用対象コードのビット
サイズは、2バイトに限らず、3バイトまたは4バイト
であっても、2種類以上のビットサイズの混合であって
もよい。いずれの場合でも、辞書に登録されている単語
/文字は語コードに置き換えられ、未登録の単語に含ま
れる文字は一定単位の部分に分割されて、各部分に付加
コードが付加される。
【0093】また、上述した付加コードは、圧縮データ
として出力されるコードの任意の位置に付加することが
できる。例えば、図5の圧縮データにおいて、文字
“C”のコードを2つの部分“0x82”と“0x6
2”に分割した後、各部分の後に付加コード“0xF
F”を付加して、“0x82FF”と“0x62FF”
のようなコードを生成してもよい。また、付加コードと
しては、“0xFF”以外にも任意のコードを用いるこ
とができる。
【0094】このとき、文字コードの分割単位として
は、任意のビットサイズを用いることができ、分割数も
任意である。例えば、2バイト(16ビット)の文字コ
ードを4つの4ビットコードに分割して、各部分に12
ビットの付加コードを付加してもよい。
【0095】図2のデータ圧縮装置、図3のデータ復元
装置、および図15の検索装置は、例えば、図17に示
すような情報処理装置(コンピュータ)を用いて構成さ
れる。図17の情報処理装置は、CPU(中央処理装
置)41、メモリ42、入力装置43、出力装置44、
外部記憶装置45、媒体駆動装置46、およびネットワ
ーク接続装置47を備え、それらはバス48により互い
に接続されている。
【0096】メモリ42は、例えば、ROM(read onl
y memory)、RAM(random access memory)等を含
み、処理に用いられるプログラムとデータを格納する。
CPU41は、メモリ42を利用してプログラムを実行
することにより、必要な処理を行う。
【0097】図2の文字入力部11、単語検索部12、
文字符号化部14、語コード出力部15、および圧縮デ
ータ出力部16、図3の一定単位入力部21、付加コー
ド判別部22、付加コード除去部23、単語復元部2
4、および復元データ出力部25、図15の検索キー入
力部31、文字列検索部33、および検索結果出力部3
4は、例えば、プログラムにより記述されたソフトウェ
アコンポーネントとして、メモリ42の特定のプログラ
ムコードセグメントに格納される。また、メモリ42
は、図2および図3の辞書保持部13としても用いられ
る。
【0098】入力装置43は、例えば、キーボード、ポ
インティングデバイス、タッチパネル等であり、ユーザ
からの指示や情報の入力に用いられる。出力装置44
は、例えば、ディスプレイやプリンタ等であり、ユーザ
への問い合わせ、処理結果等の出力に用いられる。
【0099】外部記憶装置45は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク(magneto-op
tical disk)装置等である。この外部記憶装置45に、
上述のプログラムとデータを保存しておき、必要に応じ
て、それらをメモリ42にロードして使用することもで
きる。また、外部記憶装置45は、図15のデータベー
ス35としても用いられる。
【0100】媒体駆動装置46は、可搬記録媒体49を
駆動し、その記録内容にアクセスする。可搬記録媒体4
9としては、メモリカード、フロッピーディスク、CD
−ROM(compact disk read only memory )、光ディ
スク、光磁気ディスク等、任意のコンピュータ読み取り
可能な記録媒体が用いられる。この可搬記録媒体49に
上述のプログラムとデータを格納しておき、必要に応じ
て、それらをメモリ42にロードして使用することもで
きる。
【0101】ネットワーク接続装置47は、LAN(lo
cal area network)等の任意のネットワーク(回線)を
介して外部の装置と通信し、通信に伴うデータ変換を行
う。また、必要に応じて、上述のプログラムとデータを
外部の装置から受け取り、それらをメモリ42にロード
して使用することもできる。
【0102】図18は、図17の情報処理装置にプログ
ラムとデータを供給することのできるコンピュータ読み
取り可能な記録媒体を示している。可搬記録媒体49や
外部のデータベース50に保存されたプログラムとデー
タは、メモリ42にロードされる。そして、CPU41
は、そのデータを用いてそのプログラムを実行し、必要
な処理を行う。
【0103】
【発明の効果】本発明によれば、どのようなコード表か
ら生成されたデータでも高い圧縮率で圧縮することがで
き、また圧縮データのどの位置からでも復元することが
できる。
【0104】また、得られた圧縮データに含まれる各コ
ードは同じ長さであり、それぞれ1対1で特定の単語ま
たは文字を表しているため、この処理を他の圧縮処理の
前処理として使用することができ、そのまま復元せずに
検索処理に利用することもできる。
【図面の簡単な説明】
【図1】本発明のデータ圧縮/復元装置の原理図であ
る。
【図2】データ圧縮装置の構成図である。
【図3】データ復元装置の構成図である。
【図4】付加コードを用いる方法を示す図である。
【図5】付加コードを用いた符号化を示す図である。
【図6】圧縮処理のフローチャートである。
【図7】復元処理のフローチャートである。
【図8】復元開始位置を示す図である。
【図9】途中から復元する第1の処理を示す図である。
【図10】第1の処理のフローチャートである。
【図11】途中から復元する第2の処理を示す図であ
る。
【図12】第2の処理のフローチャートである。
【図13】複合圧縮処理のフローチャートである。
【図14】複合復元処理のフローチャートである。
【図15】検索装置の構成図である。
【図16】検索処理のフローチャートである。
【図17】情報処理装置の構成図である。
【図18】記録媒体を示す図である。
【図19】空きコードを単語に割り当てる方法を示す図
である。
【図20】切り替えコードを挿入する方法を示す図であ
る。
【図21】切り替えコードの例を示す図である。
【符号の説明】
1 コード入力手段 2 辞書手段 3 登録コード出力手段 4 符号化手段 5 単位入力手段 6 除去手段 7 コード列復元手段 11 文字入力部 12 単語検索部 13 辞書保持部 14 文字符号化部 15 語コード出力部 16 圧縮データ出力部 17 分割部 18 コード付加部 21 一定単位入力部 22 付加コード判別部 23 付加コード除去部 24 単語復元部 25 復元データ出力部 26 語コード検索部 27 単語出力部 31 検索キー入力部 32 データ圧縮装置 33 文字列検索部 34 検索結果出力部 35、50 データベース 41 CPU 42 メモリ 43 入力装置 44 出力装置 45 外部記憶装置 46 媒体駆動装置 47 ネットワーク接続装置 48 バス 49 可搬記録媒体

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 1種類以上のサイズのコードを含むデー
    タを圧縮するデータ圧縮装置であって、 データをコード単位で入力するコード入力手段と、 1つ以上のコードからなるコード列と、該コード列に対
    応する登録コードを保持する辞書手段と、 入力コード列が前記辞書手段に保持されているとき、該
    入力コード列に対応する登録コードを出力する登録コー
    ド出力手段と、 入力コード列が前記辞書手段に保持されていないとき、
    該入力コード列中の入力コードに付加コードを付加して
    新たなコードを生成し、該新たなコードを出力する符号
    化手段とを備えることを特徴とするデータ圧縮装置。
  2. 【請求項2】 前記入力コード列が前記辞書手段に保持
    されているかどうかをチェックする検索手段と、前記入
    力コードをあらかじめ決められた単位で複数の部分に分
    割する分割手段と、得られた各部分に前記付加コードを
    付加して前記新たなコードを生成する付加手段とをさら
    に備えることを特徴とする請求項1記載のデータ圧縮装
    置。
  3. 【請求項3】 前記符号化手段は、前記登録コードのサ
    イズに一致する新たなコードを生成することを特徴とす
    る請求項2記載のデータ圧縮装置。
  4. 【請求項4】 前記辞書手段は、2バイトの登録コード
    を保持し、前記分割手段は、前記入力コードを1バイト
    単位で複数の部分に分割し、前記付加手段は、得られた
    各部分に1バイトの付加コードを付加して2バイトの新
    たなコードを生成することを特徴とする請求項3記載の
    データ圧縮装置。
  5. 【請求項5】 前記圧縮データをさらに圧縮する圧縮手
    段をさらに備えることを特徴とする請求項1記載のデー
    タ圧縮装置。
  6. 【請求項6】 1種類以上のサイズのコードを含むデー
    タを圧縮するデータ圧縮装置であって、 データをコード単位で入力するコード入力手段と、 1つ以上のコードからなるコード列と、該コード列に対
    応する登録コードを保持する辞書手段と、 入力コード列が前記辞書手段に保持されているとき、該
    入力コード列に対応する登録コードを出力する登録コー
    ド出力手段と、 入力コード列が前記辞書手段に保持されていないとき、
    該入力コード列中の入力コードを分割して新たなコード
    を生成し、該新たなコードを出力する符号化手段とを備
    えることを特徴とするデータ圧縮装置。
  7. 【請求項7】 1種類以上のサイズのコードを含むデー
    タを圧縮して得られた圧縮データを復元するデータ復元
    装置であって、 データを一定単位で入力する単位入力手段と、 1つ以上のコードからなるコード列と、該コード列に対
    応する登録コードを保持する辞書手段と、 入力データの一部があらかじめ決められた付加コードで
    あるかどうかを判別する判別手段と、 前記入力データの一部が前記付加コードであるとき、該
    入力データから該付加コードを除去してデータを生成
    し、生成されたデータを出力する除去手段と、 前記入力データの一部が前記付加コードでないとき、該
    入力データを登録コードとみなして、該入力データに対
    応するコード列を出力するコード列復元手段とを備える
    ことを特徴とするデータ復元装置。
  8. 【請求項8】 前記単位入力手段は、データを2バイト
    単位で入力し、前記除去手段は、入力データから1バイ
    トの付加コードを除去して、1バイトのデータを生成す
    ることを特徴とする請求項7記載のデータ復元装置。
  9. 【請求項9】 前記圧縮データの途中から復元を行う場
    合、前記判別手段は、最初の付加コードなしのデータが
    入力されるまで、付加コードを含むデータを前記除去手
    段に入力しないことを特徴とする請求項7記載のデータ
    復元装置。
  10. 【請求項10】 前記圧縮データの途中から復元を行う
    場合、復元開始位置の入力データが付加コードを含んで
    おり、該復元開始位置の入力データから意味のあるコー
    ドが生成されなければ、前記除去手段は、該復元開始位
    置の入力データから生成されたデータを出力しないこと
    を特徴とする請求項7記載のデータ復元装置。
  11. 【請求項11】 前記除去手段は、前記復元開始位置の
    入力データから生成されたデータを待避させ、待避させ
    たデータが意味のあるコードを生成するかどうかを判別
    し、該待避させたデータを出力するかどうかを決定する
    ことを特徴とする請求項10記載のデータ復元装置。
  12. 【請求項12】 検索キーを入力する入力手段と、 入力された検索キーを圧縮する圧縮手段と、 圧縮された検索キーを圧縮データ内で検索する検索手段
    と、 検索結果を出力する出力手段とを備えることを特徴とす
    る検索装置。
  13. 【請求項13】 前記圧縮手段は、前記検索キーをコー
    ド単位で入力するコード入力手段と、1つ以上のコード
    からなるコード列と、該コード列に対応する登録コード
    を保持する辞書手段と、入力コード列が前記辞書手段に
    保持されているとき、該入力コード列に対応する登録コ
    ードを出力する登録コード出力手段と、入力コード列が
    前記辞書手段に保持されていないとき、該入力コード列
    中の入力コードに付加コードを付加して新たなコードを
    生成し、該新たなコードを出力する符号化手段とを含む
    ことを特徴とする請求項12記載の検索装置。
  14. 【請求項14】 1種類以上のサイズのコードを含むデ
    ータを圧縮するコンピュータのためのプログラムを記録
    した記録媒体であって、 データをコード単位で入力するステップと、 入力コード列が辞書に登録されているとき、該入力コー
    ド列に対応する登録コードを出力するステップと、 入力コード列が前記辞書に登録されていないとき、該入
    力コード列中の入力コードに付加コードを付加して新た
    なコードを生成し、該新たなコードを出力するステップ
    とを含む処理を前記コンピュータに実行させるためのプ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体。
  15. 【請求項15】 1種類以上のサイズのコードを含むデ
    ータを圧縮して得られた圧縮データを復元するコンピュ
    ータのためのプログラムを記録した記録媒体であって、 データを一定単位で入力するステップと、 入力データの一部があらかじめ決められた付加コードで
    あるとき、該入力データから該付加コードを除去してデ
    ータを生成し、生成されたデータを出力するステップ
    と、 入力データの一部が前記付加コードでないとき、該入力
    データを登録コードとみなして、該入力データに対応し
    て辞書に登録されたコード列を出力するステップとを含
    む処理を前記コンピュータに実行させるためのプログラ
    ムを記録したコンピュータ読み取り可能な記録媒体。
  16. 【請求項16】 1種類以上のサイズのコードを含むデ
    ータを圧縮するデータ圧縮方法であって、 データをコード単位で入力し、 入力コード列が辞書に登録されているとき、該入力コー
    ド列に対応する登録コードを出力し、 入力コード列が前記辞書に登録されていないとき、該入
    力コード列中の入力コードに付加コードを付加して新た
    なコードを生成して、該新たなコードを出力することを
    特徴とするデータ圧縮方法。
  17. 【請求項17】 1種類以上のサイズのコードを含むデ
    ータを圧縮して得られた圧縮データを復元するデータ復
    元方法であって、 データを一定単位で入力し、 入力データの一部があらかじめ決められた付加コードで
    あるとき、該入力データから該付加コードを除去してデ
    ータを生成して、生成されたデータを出力し、 入力データの一部が前記付加コードでないとき、該入力
    データを登録コードとみなして、該入力データに対応し
    て辞書に登録されたコード列を出力することを特徴とす
    るデータ復元方法。
JP11002129A 1999-01-07 1999-01-07 付加コ―ドを用いたデ―タ圧縮/復元装置および方法 Withdrawn JP2000201080A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11002129A JP2000201080A (ja) 1999-01-07 1999-01-07 付加コ―ドを用いたデ―タ圧縮/復元装置および方法
US09/457,597 US6834283B1 (en) 1999-01-07 1999-12-09 Data compression/decompression apparatus using additional code and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11002129A JP2000201080A (ja) 1999-01-07 1999-01-07 付加コ―ドを用いたデ―タ圧縮/復元装置および方法

Publications (1)

Publication Number Publication Date
JP2000201080A true JP2000201080A (ja) 2000-07-18

Family

ID=11520743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11002129A Withdrawn JP2000201080A (ja) 1999-01-07 1999-01-07 付加コ―ドを用いたデ―タ圧縮/復元装置および方法

Country Status (2)

Country Link
US (1) US6834283B1 (ja)
JP (1) JP2000201080A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080833A (ja) * 2000-11-30 2009-04-16 Coppereye Ltd データベース
JP5001458B1 (ja) * 2011-12-26 2012-08-15 義尚 神山 2分割処理圧縮プログラムを記録した記録媒体
JPWO2014030189A1 (ja) * 2012-08-23 2016-07-28 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
JP2016149786A (ja) * 2016-03-22 2016-08-18 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
EP3119002A1 (en) 2015-07-14 2017-01-18 Fujitsu Limited Encoding program, encoding method, information processsing device, replacement program, and replacement method
JP2020036291A (ja) * 2018-08-31 2020-03-05 国立大学法人 筑波大学 データ圧縮器、データ圧縮方法、データ圧縮プログラム、データ解凍器、データ解凍方法、データ解凍プログラムおよびデータ圧縮解凍システム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272663B2 (en) * 2001-08-28 2007-09-18 International Business Machines Corporation Method and system for delineating data segments subjected to data compression
US7398276B2 (en) * 2002-05-30 2008-07-08 Microsoft Corporation Parallel predictive compression and access of a sequential list of executable instructions
JP5418218B2 (ja) * 2009-12-25 2014-02-19 富士通株式会社 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置
US20150199958A1 (en) * 2014-01-13 2015-07-16 Harman International Industries, Incorporated Text to audio conversion of social media content
JP6476647B2 (ja) * 2014-08-20 2019-03-06 富士通株式会社 圧縮プログラム、圧縮装置、圧縮方法、伸長プログラム、伸長装置および伸長方法
JP7013957B2 (ja) * 2018-03-12 2022-02-01 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60241157A (ja) 1984-05-15 1985-11-30 Sharp Corp 電子辞書を利用した文章デ−タ圧縮方法
JPS6268325A (ja) 1985-09-20 1987-03-28 Oki Electric Ind Co Ltd 文章圧縮・伸展方式
US5254990A (en) * 1990-02-26 1993-10-19 Fujitsu Limited Method and apparatus for compression and decompression of data
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
JP3397431B2 (ja) * 1994-03-16 2003-04-14 富士通株式会社 データ圧縮方法および装置ならびにデータ復元方法および装置
JP3522331B2 (ja) * 1994-04-22 2004-04-26 株式会社セタ データ圧縮方法
JP3278297B2 (ja) * 1994-07-20 2002-04-30 富士通株式会社 データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
JP3238854B2 (ja) * 1995-02-21 2001-12-17 富士通株式会社 データ圧縮方法及びデータ圧縮装置、並びにデータ復元方法及びデータ復元装置
JP3273119B2 (ja) * 1995-09-29 2002-04-08 京セラ株式会社 データ圧縮・伸長装置
JP3258552B2 (ja) * 1996-02-08 2002-02-18 富士通株式会社 データ圧縮装置及びデータ復元装置
JP3256121B2 (ja) * 1996-02-13 2002-02-12 富士通株式会社 データ符号化装置およびデータ復号装置およびその方法
US6489902B2 (en) * 1997-12-02 2002-12-03 Hughes Electronics Corporation Data compression for use with a communications channel
JP3337633B2 (ja) * 1997-12-03 2002-10-21 富士通株式会社 データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3421700B2 (ja) * 1998-01-22 2003-06-30 富士通株式会社 データ圧縮装置及び復元装置並びにその方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080833A (ja) * 2000-11-30 2009-04-16 Coppereye Ltd データベース
JP5001458B1 (ja) * 2011-12-26 2012-08-15 義尚 神山 2分割処理圧縮プログラムを記録した記録媒体
JPWO2014030189A1 (ja) * 2012-08-23 2016-07-28 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
EP3119002A1 (en) 2015-07-14 2017-01-18 Fujitsu Limited Encoding program, encoding method, information processsing device, replacement program, and replacement method
US9965448B2 (en) 2015-07-14 2018-05-08 Fujitsu Limited Encoding method and information processing device
JP2016149786A (ja) * 2016-03-22 2016-08-18 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
JP2020036291A (ja) * 2018-08-31 2020-03-05 国立大学法人 筑波大学 データ圧縮器、データ圧縮方法、データ圧縮プログラム、データ解凍器、データ解凍方法、データ解凍プログラムおよびデータ圧縮解凍システム
WO2020045238A1 (ja) * 2018-08-31 2020-03-05 国立大学法人筑波大学 データ圧縮器、データ圧縮方法、データ圧縮プログラム、データ解凍器、データ解凍方法、データ解凍プログラムおよびデータ圧縮解凍システム
US11196443B2 (en) 2018-08-31 2021-12-07 University Of Tsukuba Data compressor, data decompressor, and data compression/decompression system
JP7074989B2 (ja) 2018-08-31 2022-05-25 国立大学法人 筑波大学 データ圧縮器、データ圧縮方法、データ圧縮プログラム、データ解凍器、データ解凍方法、データ解凍プログラムおよびデータ圧縮解凍システム

Also Published As

Publication number Publication date
US6834283B1 (en) 2004-12-21

Similar Documents

Publication Publication Date Title
EP0584992B1 (en) Text compression technique using frequency ordered array of word number mappers
JP3234104B2 (ja) 圧縮データをサーチする方法及びシステム
JPH0869370A (ja) データ圧縮方法およびシステム
US6094634A (en) Data compressing apparatus, data decompressing apparatus, data compressing method, data decompressing method, and program recording medium
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
JPH1153349A (ja) タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2004062110A1 (ja) データ圧縮方法、プログラム及び装置
JP2000082967A (ja) デ―タ圧縮方法及びデ―タ圧縮装置
JP4003854B2 (ja) データ圧縮装置及び復元装置並びにその方法
JP4077409B2 (ja) 高速最長一致探索方法及び装置
JP2000201080A (ja) 付加コ―ドを用いたデ―タ圧縮/復元装置および方法
JP6467937B2 (ja) 文書処理プログラム、情報処理装置および文書処理方法
WO2014097359A1 (ja) 圧縮プログラム、圧縮方法、圧縮装置およびシステム
JP6931442B2 (ja) 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法
JP7003443B2 (ja) 符号化プログラム、符号化装置および符号化方法
JPH10261969A (ja) データ圧縮方法および装置
US10915559B2 (en) Data generation method, information processing device, and recording medium
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
JPH0546358A (ja) テキストデータの圧縮方法
JP5807592B2 (ja) 符号化方法、符号化装置及びコンピュータプログラム
JPH0554077A (ja) 単語辞書検索装置
JPH07182354A (ja) 電子文書の作成方法
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
JPH06290021A (ja) ソースプログラム圧縮方法
JPH0140370B2 (ja)

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060307