JP2000269822A - データ圧縮装置、及びデータ復元装置 - Google Patents

データ圧縮装置、及びデータ復元装置

Info

Publication number
JP2000269822A
JP2000269822A JP11066441A JP6644199A JP2000269822A JP 2000269822 A JP2000269822 A JP 2000269822A JP 11066441 A JP11066441 A JP 11066441A JP 6644199 A JP6644199 A JP 6644199A JP 2000269822 A JP2000269822 A JP 2000269822A
Authority
JP
Japan
Prior art keywords
dictionary
data
character string
auxiliary
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11066441A
Other languages
English (en)
Inventor
Hironori Yahagi
裕紀 矢作
Shigeru Yoshida
茂 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11066441A priority Critical patent/JP2000269822A/ja
Priority to CN 00100994 priority patent/CN1267963A/zh
Publication of JP2000269822A publication Critical patent/JP2000269822A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明は、例えば文書データの圧縮装置、及
びデータ復元装置に関し、特に文書データ特有の単語等
の文字列を記憶する補助辞書を使用し、記憶容量を小さ
くでき、高圧縮率のデータ圧縮を可能とするものであ
る。 【解決手段】 静的単語辞書4には通常使用される汎用
的な単語、語句等の文字列が登録され、文字列検出部1
は上記静的単語辞書4に含まれる単語、語句等の文字列
を含めて、元の文書データの中の文字列を検出し、拡大
辞書3に登録する。補助辞書登録部2は拡大辞書3に登
録した文字列の中で、上記静的単語辞書4に予め登録さ
れた文字列、及び登録しても意味のない文字列を除いた
文字列を補助辞書5に登録する。このようにして補助辞
書5に文書データ特有の文字列を登録した後、単語分割
部6によって元の文書データを分割し、静的単語辞書4
と補助辞書5を検索して対応する文字列のデータを読み
出し、可変長符号化部7によって圧縮処理する。また、
圧縮符号化されたデータは、不図示のデータ復元装置に
よって復元される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データ等のデ
ータの圧縮処理や復元処理を行うデータ圧縮装置、及び
データ復元装置に関する。
【0002】
【従来の技術】近年、文字コード、画像データ等の様々
な種類のデータがコンピュータで扱われている。また、
今日のインターネットや、イントラネット、エクストラ
ネット等のコンピュータネットワークの普及に伴い、電
子メール等の電子化文書の使用が増加している。このよ
うな電子化文書の使用は今後益々増加すると共に、文書
自体も大容量化している。このため、データ中の冗長な
部分を省き、記憶容量を減らし、短時間で遠隔地に送る
ことを可能とするべく、データの圧縮技術が強く求めら
れている。
【0003】そこで、従来静的単語辞書を持ち、固定長
符号に変換したデータを可変長符号に変換し、データ圧
縮処理を行う方法が提案されている。図28は従来のデ
ータ圧縮方式を説明する図である。従来のデータ圧縮
は、単語分割部50、可変長符号化部51で構成され、
単語分割部50は供給される元の文書データに対して、
静的単語辞書を参照しながら元の文書データに含まれる
単語を分割する。静的単語辞書には汎用的な単語や語句
等の文字列のデータが予め登録されており、対応する文
字列を固定長符号(中間符号)として、可変長符号化部
51に出力する。
【0004】可変長符号化部51は、供給される固定長
符号(中間符号)を圧縮符号に変換し、例えば文書メモ
リ等に書き込み、更にインターネットやイントラネット
を介して他のコンピュータに送る。
【0005】一方、圧縮データを受信したコンピュータ
は、図29に示す復元方式に従って圧縮データを復号す
る。すなわち、可変長復号化部52によって圧縮符号を
固定長符号に復号し、単語復元部53によって静的単語
辞書を参照しつつ元の文書データに復元する。
【0006】
【発明が解決しようとする課題】上記従来のデータ圧縮
方法では、静的単語辞書を使用し、当該静的単語辞書に
予め登録された文字列のデータを使用しつつ圧縮処理を
行う。しかし、辞書の内容が固定されているため、新し
い単語や当該文書特有の単語がある場合対応できない。
したがって、かかる場合、従来のデータ圧縮方法では、
単語を文字単位に分割し符号化する。このため、圧縮率
は低下する。
【0007】本発明は上記課題の解決を図り、文書特有
の単語や語句等の文字列を記憶する補助辞書を使用し、
高い圧縮率のデータ圧縮処理を行い、データ容量を小さ
くでき、高速なデータ転送を行うことが可能なデータ圧
縮装置、及びその圧縮データの復元装置を提供するもの
である。
【0008】
【課題を解決するための手段】上記課題は本発明の第1
の態様によれば、予め単語や語句の文字列を登録した静
的単語辞書と、圧縮処理の対象となる文書データを検索
し、前記静的単語辞書に含まれない文字列を検出する文
字列検出手段と、該文字列検出手段によって検出した文
字列の中で、前記文書データ特有の文字列の選定を行
い、選定した文字列を補助辞書に登録する選定登録手段
と、前記圧縮処理の対象となる文書データに対し、前記
静的単語辞書と補助辞書を検索し、前記静的単語辞書又
は補助辞書に登録された文字データを固定長符号に変換
する単語分割手段と、該単語分割手段から出力される固
定長符号を圧縮符号に変換する可変長符号化手段とを有
するデータ圧縮装置を提供することで達成できる。
【0009】ここで、静的単語辞書には標準的に使用さ
れる単語や語句が階層構造に予め登録されており、上記
文字列検出手段は静的単語辞書を検索して元の文書デー
タの文字列を検出する。また、この時静的単語辞書に登
録されていない新たな文字列は、例えば拡大辞書上に抽
出され、新たな文字列の中で選定登録手段によって選定
された文字列のみを補助辞書に登録する。
【0010】ここで、上記選定は、例えば一定のしきい
値以上の節点数、及び文字列長を有することが条件であ
り、意味を持たない文字列の登録を防止し、正確に文書
データ特有の文字列のみを補助辞書に登録する。
【0011】また、単語分割手段は上記静的単語辞書、
及び補助辞書を使用して元の文書データの分割処理を行
い、静的単語辞書のみならず補助辞書に登録された文字
列についても固定長符号に変換し、圧縮処理を行う。
【0012】このように構成することにより、元の文書
データ特有の文字列に対しても圧縮符号化することがで
き、高効率の圧縮処理を行うことができると共に、圧縮
データの容量を小さくできるデータ圧縮装置を提供でき
る。
【0013】上記課題は本発明の第2の態様によれば、
予め単語や語句の文字列を登録した静的単語辞書と、圧
縮処理の対象となった文書データを検索し、前記静的単
語辞書に含まれなかった前記文書データ特有の単語や語
句の文字列を検出し、該文字列の中で更に選定を行い、
文字列の登録が行われた補助辞書と、前記文書データの
圧縮符号を復号する復号手段と、該復号手段によって復
号された固定長符号に対し、前記静的単語辞書と補助辞
書を使用し、元の前記文書データに復元するデータ復元
手段とを有するデータ復元装置を提供することで達成で
きる。
【0014】本態様は、上記データ圧縮装置によって圧
縮符号化されたデータを復元する構成であり、復号手段
によって圧縮符号を復号した後、標準的に使用される単
語や語句が予め登録されて静的単語辞書と、新たに作成
した補助辞書を使用し、固定長符号の文字列を元の文書
データに復元する。
【0015】このように構成することにより、圧縮デー
タを復号する際にも、圧縮データの容量が小さく、効率
よくデータ復元処理を行うことができる。上記課題は本
発明の第3の態様によれば、予め単語や語句の文字列を
登録した静的単語辞書と、圧縮処理の対象となる文書デ
ータを検索し、前記静的単語辞書に含まれない文字列を
検出する文字列検出手段と、該文字列検出手段によって
検出した文字列の中で、前記文書データ特有の文字列の
選定を行い、選定した文字列を補助辞書に登録する選定
登録手段と、前記圧縮処理の対象となる文書データに対
し、前記静的単語辞書と補助辞書を検索し、前記静的単
語辞書又は補助辞書に登録された文字データを固定長符
号に変換する単語分割手段と、該単語分割手段から出力
される固定長符号を圧縮符号に変換する可変長符号化手
段と、前記補助辞書に登録した文字列のデータを前記可
変長符号化手段によって作成した圧縮符号の前に付加し
て通信ネットワークに送信する送信手段とを有するデー
タ圧縮装置を提供することで達成できる。
【0016】本態様は、本発明のデータ圧縮装置を使用
して圧縮符号に変換したデータを、インターネット等の
通信回線を介して他のコンピュータに送り、受信側のコ
ンピュータによって復元させるための構成である。した
がって、静的単語辞書の構成、補助辞書に登録する文字
列の内容は上記第1の態様と同様であるが、通信回線に
のせるための構成が異なる。
【0017】すなわち、データ圧縮装置で作成する補助
辞書のデータを通信回線を介して受信側に送らなければ
ならず、この為送信手段によって圧縮符号の出力前に、
作成した補助辞書のデータを送信する。
【0018】このように構成することにより、通信回線
で接続された他のコンピュータに対しても圧縮データを
送ることができ、しかも補助辞書を用いて元の文書デー
タ特有の文字列も圧縮符号化したデータであり、データ
容量が小さく高速送信を行うことができる。
【0019】上記課題は本発明の第4の態様によれば、
予め単語や語句の文字列を登録した静的単語辞書と、通
信ネットワークを通して送信された補助辞書登録データ
を記憶する補助辞書記憶手段と、文書データの圧縮符号
を復号する復号手段と、該復号手段によって復号された
固定長符号に対し、前記静的単語辞書と補助辞書記憶手
段に記憶した補助辞書を使用し、元の文書データに復元
するデータ復元手段とを有するデータ復元装置を提供す
ることで達成できる。
【0020】本態様は、上記第3の態様のデータ圧縮装
置によって圧縮符号化されたデータを復元するものであ
り、更に圧縮符号に変換されたデータを、インターネッ
ト等の通信回線を介して受信したデータを元の文書デー
タに復元させるものである。
【0021】このため、通信ネットワークを介して供給
される補助辞書登録データを補助辞書記憶手段に登録
し、以後入力する圧縮符号を元の文書データに復元す
る。このように構成することにより、通信回線で接続さ
れた他のコンピュータで作成された圧縮データを復元す
ることができ、しかも使用する補助辞書はデータ圧縮処
理に使用された辞書と同じであり、効率よいデータ復元
処理を行うことができる。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。 <第1の実施形態>図1は、第1の実施形態で使用する
データ圧縮装置のシステム構成図である。本例のデータ
圧縮装置は、文字列検出部1、補助辞書登録部2、拡大
辞書3、静的単語辞書4、補助辞書5、単語分割部6、
可変長符号化部7で構成されている。文字列検出部1は
入力する元の文書データの文字列を検出する。この文字
列の検出は静的単語辞書4を参照しながら行う。静的単
語辞書4には、予め標準的に使用される単語や熟語等の
文字列が階層構造(いわゆるトライ構造)の形態で登録
されており、上述の文字列検出部1は入力する元の文書
データに対し、順次静的単語辞書4を参照し、文字列の
検出を行う。
【0023】拡大辞書3は上述の文字列検出部1によっ
て抽出された元の文書データに含まれる全ての文字列の
データを格納する。すなわち、静的単語辞書4に登録さ
れる文字列以外に、当該文書データ特有の単語や熟語等
の文字列、又は意味内容が明確でない文字列も登録され
る。
【0024】補助辞書登録部2は上述の拡大辞書3内に
抽出された文字列の中で、静的単語辞書4に登録されて
いない文字列であって、意味内容が不明確な文字列を除
いた、例えば元の文書データ特有の単語や熟語等の文字
列を補助辞書5に登録する。
【0025】補助辞書5には上述の補助辞書登録部2の
選択登録処理により、元の文書データ特有の文字列が登
録され、例えば補助辞書5に登録される文字列は、当該
文書特有の表現や、新しい用語、流行語等が考えられ
る。尚、この補助辞書5に登録される文字列も階層構造
(トライ構造)の形態で登録される。
【0026】単語分割部6は、上述の補助辞書5に元の
文書データ特有の文字列の登録が行われた後、再度元の
文書データを読み込んだ際、元の文書データの単語分割
を行う。単語分割部6は、予め標準的な熟語等の文字列
が登録された静的単語辞書4、及び新たに作成された補
助辞書5の登録データを検索し、元の文書データの分割
処理を行う。
【0027】可変長符号化部7は、上述の単語分割部6
によって分割された文字列のデータに対し、データ圧縮
を行う。単語分割部6から出力されるデータは、分割さ
れた各単語固有の固定長符号の連続であり、可変長符号
化部7はこの固定長符号を圧縮符号に変換する。可変長
符号化部7によって圧縮符号に変換されたデータは、例
えば文書メモリに出力され、後述する復元処理に使用さ
れる。
【0028】ここで、上述の静的単語辞書4には、前述
のように予め標準的な単語や熟語等の文字列のデータが
階層構造の形態で登録されている。図2は静的単語辞書
4の登録データを説明する図であり、例えば静的単語辞
書4には節点の指標(以下、単に節点で示す)、及び当
該節点に登録する文字データが登録されている。
【0029】例えば、節点「1」には当該節点に登録す
る文字(漢字)データとして、「電」の文字コードが登
録されている。また、節点「2」には当該節点に登録す
る文字データとして、「学」の文字コードが登録され、
節点「3」には当該節点に登録する文字データとして、
「商」の文字コードが登録され、以下、各節点には同図
に示す文字データが各々登録されている。
【0030】また、静的単語辞書4は上述のように階層
構造であり、各節点はリンクされ、各節点に登録する文
字データは上位及び下位のリンク先節点に接続する。但
し、最上位に位置する節点、又は最下位に位置する節点
にリンクする上位、又は下位の節点はない。
【0031】図3は、上述の階層構造を模式的に示す図
である。この例の場合、節点「1」には文字(漢字)デ
ータ「電」が登録され、その下位リンク先として節点
「4」の文字データ「気」、及び節点「5」の文字デー
タ「子」が接続されている。また、節点「2」には文字
データ「学」が登録され、その下位リンク先として節点
「6」の文字データ「会」が接続されている。したがっ
て、リンク先を結合することによって、静的単語辞書4
には例えば「電気」、「電子」、「学会」、等の標準的
な単語や語句の文字列が予め登録されている。
【0032】以上の構成において、以下にフローチャー
トを用いて本例の処理動作を説明する。図4は本例の処
理全体を説明するフローチャートである。本例の処理
は、元の文書データに対して2回の読み込みを行い、最
初の読み込み処理(1回目のパス)によって元の文書デ
ータに含まれる特有の熟語等の文字列を抽出し、補助辞
書5への登録処理を行う。
【0033】すなわち、文字列検出部1を使用し、文字
列の検出処理(ステップ(以下Sで示す)1)を行い、
元の文書データに含まれる全ての文字列の検出を行い、
拡大辞書3に割付け、更に補助辞書登録部2により拡大
辞書3に割り付けた文字列の中で選択処理を行い、意味
のある元の文書データ特有の文字列の抽出を行い、抽出
した文字列のデータを補助辞書5に登録する(S2)。
また、2回目の読み込み処理(2回目のパス)では、先
ず静的単語辞書4を使用した単語分割処理を行い(S
3)、更に新たに作成した補助辞書5を使用した単語分
割処理(S4)を行い、両処理(S3、S4)によって
得られた固定長符号のデータを可変長符号化部7によっ
て圧縮符号とする(S5)。
【0034】尚、図4に示すフローチャートにおいて、
太枠で囲った処理は本例特有の処理を示す。以下、具体
的に各処理を説明する。先ず、図5は上述の文字列検出
処理(S1)を具体例に説明するフローチャートであ
る。この処理は、先ず拡大辞書3に全ての文字、並びに
静的単語辞書4の全ての文字列を割り付ける(S1
1)。また、この処理において、入力データのポインタ
位置を“1”に初期設定し、辞書番号nをNにセットす
る。ここで、Nは静的単語辞書4に予め登録した文字列
情報の数であり、静的単語辞書4に登録された文字列の
最後の辞書番号を示す。
【0035】次に、ポインタの位置から文字列に一致す
る最長の文字列Sを見つける(S12)。初期時、ポイ
ンタ位置は上述のように“1”であり、元の文書データ
の文字列を検索して初期位置(“1”)から始まる最長
の文字列Sを探す(S12)。
【0036】例えば、図6に示す文書は元の文書データ
の一部を示すものである。この例の場合、ポインタの位
置“1”は元の文書データの初期位置であり、文字(漢
字)データ「電」の位置を指示し、この初期位置
(“1”)から始まる最長の文字列Sを探す。この処理
は、例えば前述の静的単語辞書4を検索し、文字データ
「電」を探し、当該文字データの節点「1」を検出す
る。そして、次にポインタの位置を更新し、ポインタ位
置“2”に対応する文字データ「気」が静的単語辞書4
に登録されているか検索し、上述の例の場合当該文字デ
ータが節点“4”に登録されており、次にポインタの位
置“3”に対応する文字データ「は」が静的単語辞書4
に登録されているか調べる。ここで、例えば静的単語辞
書4には文字データ「は」が登録されていないとすれ
ば、ポインタの位置“1”から始まる最初の最長の文字
列Sは、「電気」の文字列である。
【0037】次に、辞書番号n(N)をインクリメント
し、辞書番号をN+1とし(S13)、Cを文字列Sの
次の文字(C=文字列Sの次の文字)とし、文字列SC
を辞書に付け加え、辞書番号n(N+1)を付加する
(S14)。また、ポインタの位置を文字列Sの後の文
字に移動する。したがって、上述の処理により「電気
は」の文字列を構成する「は」の文字データが、辞書番
号N+1に対応して抽出される。
【0038】次に、処理(S12)に戻り、ポインタ位
置“3”に対応する文字、すなわち文字データ「は」か
ら始まる文字列に一致する最長の文字列Sを探す。この
場合、静的単語辞書4には文字データ「は」に関する文
字列の登録がないとすれば、最長文字列Sは「は」とな
り、辞書番号nをインクリメントし、辞書番号をN+2
とし(S13)、文字列SCを辞書に付け加え、辞書番
号n(N+2)に登録するデータの候補として抽出する
(S14)。すなわち、この場合、「は今」の文字列が
抽出されることになる。
【0039】以下、同様に処理することによって、例え
ば図6に示す例の場合、「今日必」、「必要な」、・・
・の文字列が拡大辞書3に順次抽出される。以上のよう
にして、元の文書データの全ての文字列に対する抽出処
理が完了すると、前述の補助辞書の登録処理を行う(図
4に示すS2)。この処理を具体的に説明する図が、図
7に示すフローチャートである。この処理は補助辞書登
録部2が行い、拡大辞書3に抽出した文字列のデータの
中で、補助辞書5に登録する文字列を決定し、補助辞書
5に当該文字列を登録する処理である。したがって、節
点「N」までのデータは既に静的単語辞書4に登録され
ており、節点「N」以降のデータを対象とする。
【0040】すなわち、階層構造の静的単語辞書4内を
リンクに従って節点から順にたどり、節点nがn>Nと
なる節点に達したことを判断した後、文字列の選別処理
を行い(S21が否)、子の節点数がしきい値を越えて
いるか(S22)、また対象となる文字列の長さがしき
い値を越えているか判断する(S23)。すなわち、判
断(S22)は子の節点数がしきい値を越えているか判
断するものであり、判断(S22)が否である場合、対
象となる文字列の頭文字が熟語を構成し難い文字である
可能性が高い。また、判断(S23)は対象となる文字
列の長さがしきい値を越えているか判断するものであ
り、判断(S23)が否である場合、当該文字列が何ら
意味を持たない文字列を構成する場合が多い。例えば、
先頭文字が漢字でない場合などである。したがって、こ
のような場合、例え拡大辞書3に一旦抽出した文字列で
あっても当該文字列は登録しない(S22が否、S23
が否、S24)。例えば、上述の例において文字列長の
しきい値が“2”である場合、前述の文字列「は今」は
登録から除外され(S24)、例えば文字列「必要な」
は登録される。
【0041】一方、上述の条件に合致する文字列は両判
断(S22、S23)の両方、又は片方において正とな
り、補助辞書5に登録される。そして、上述の処理を繰
り返し、n>Nである節点nの全ての判断が完了するの
を待つ。
【0042】その後、n>Nである節点nの全ての判断
処理が完了すると(S21が正)、上述の条件を満たし
た文字列を補助辞書5に登録する(S25)。次に、n
>Nの節点に対応する文字列の符号計算を行う(S2
6)。この文字列の符号計算を具体的に説明するフロー
チャートが図8である。先ず、前述の静的単語辞書4の
最後の文字列YYYを入力し(S26−1)、補助辞書
5の登録語数lを入力する(S26−2)。次に、2
m>lとなる最小のmを算出する(S26−3)。例え
ば、補助辞書5の登録語数lを“1000”とすれば、
2m>lとなる最小のmは、“10”となる。また、補
助辞書5の登録語数lを“2000”とすれば、mは
“11”となる。そして、上述のようにして設定したm
の値を以下の計算式に代入して補助辞書5の各文字列の
符号とする(S26−4)。このようにして算出された
符号値は、補助辞書5に登録される(図7のS27)以
上のように処理することによって補助辞書5への新たな
文字列の登録処理が完了する。図9は上述の処理によっ
て作成された補助辞書5のデータ構成例である。また、
図10は静的単語辞書4と補助辞書5を含めた文字列の
データ構成例である。また、図11は上述の静的単語辞
書4、及び補助辞書5に登録されたデータを階層構造と
して模式的に示す図である。上述の例の場合、節点
「1」に文字(漢字)データ「電」が登録され、その下
位リンク先として節点「4」の文字データ「気」、及び
節点「5」の文字データ「子」が接続されており、更に
節点「N+3」に文字データ「話」が接続されているこ
とが分かる。さらに、上述の節点「5」の文字データ
「子」には、下位リンク先として節点「N+6」の文字
データ「出」、更に文字データ「出」の下位リンク先と
して節点「N+7」の文字データ「版」が登録されてい
る。
【0043】また、他の節点についても同様であり、節
点「2」の文字データ「学」には新たに補助辞書5に下
位リンク先として節点「N+2」の文字データ「問」が
登録され、節点「7」の文字データ「売」には新たに補
助辞書5に下位リンク先として節点「N+4」の文字デ
ータ「上」が登録され、更に文字データ「上」の下位リ
ンク先として節点「N+5」に文字データ「手」が登録
されている。以下、補助辞書5に新たに登録されたデー
タは、同図に網掛け黒丸で示す通りである。
【0044】また、図12は静的単語辞書4と補助辞書
5の符号空間を示す図である。静的単語辞書4及び補助
辞書5共に、コードデータとして登録されており、例え
ば1文字2バイト構成で登録されている。また、同図に
示すESCは退出確率であり、補助辞書5を必要とする
確率を表し、予め決められた値を設定する。
【0045】次に、上述の静的単語辞書4及び新たに作
成された補助辞書5を用いて、元の文書データの2回目
の読み込み処理(2回目のパス)を行う。図13に示す
処理は単語分割処理(図4に示すS3、S4)を具体的
に説明する図である。拡大辞書3、静的単語辞書4、及
び補助辞書5に文字列を割り付け、入力する元の文書デ
ータのポインタ位置を“1”に初期設定する(S3
1)。
【0046】次に、上述のポインタ位置からの文字列に
一致する辞書中の最長の文字列Sを見つける(S3
2)。ここで、図14に示すフローチャートは上述の最
長の文字列Sを見つけるための具体的な処理を示す図で
ある。例えば、前述の例において、「電気は」という文
字列が文書データの最初に表れるとき、初めの(ポイン
タの位置が“1”の)文字Wは「電」であり(S32−
1)、例えばこの文字データを注目文字として入力する
(S32−2)。
【0047】次に、静的単語辞書4の中で上述の注目文
字と一致する文字が存在するか判断する(S32−
3)。また、静的単語辞書4にない場合、補助辞書5の
中に一致する文字が存在するか判断する(S32−
4)。上述の例の場合、「電」の文字(漢字)データは
静的単語辞書4の中にあり、ポイントの位置を更新して
次の「気」の文字(漢字)データに対して同様の処理を
行う(S32−3があり、S32−5)。
【0048】次の「気」の文字(漢字)データについて
も、同じ静的単語辞書4から検索され(S32−3があ
り、S32−5)、更に次の「は」の文字の一致が判断
される。この文字データ「は」は補助辞書5の節点N+
1にあり(S32−4があり、S32−5)、更に次の
文字データ「今」が判断される。そして、上述の例の場
合、静的単語辞書4及び補助辞書5の何れにも「電気
は」に続く文字はなく、初めの(語頭の)Wの文字(文
字データ「電」)の最長一致文字列Sとして「電気は」
の文字列を出力する(S32−6、図13に示すS3
2)。
【0049】次に、図13の処理に戻って、固定長ビッ
トを用いて文字列Sに関する番号を出力する(S3
3)。この出力により文字列「電気は」の固定長ビット
のデータが順次出力される。この場合、文字データ
「は」の節点「N+1」に対応する固定長符号が文字列
「電気は」に対応する符号として出力される。
【0050】次に、上述のポインタ位置を文字列Sの後
の文字位置に移動し(S34)、更に次の文字データ
「今」を注目文字として上述の処理を繰り返す。したが
って、上述の処理を繰り返すことによって、例えば文字
列「今日」に対応する固定長符号のデータ、文字列「必
要」に対応する固定長符号のデータ、・・・が順次可変
長符号化部7に出力される。
【0051】このようにして、固定長符号のデータが可
変長符号化部7に供給されると、可変長符号化部7は固
定長符号を圧縮符号に変換する(図4に示すS5)。こ
の処理は単語分割部6から出力される固定長符号を圧縮
符号に変換するものであり、図15、図16に圧縮符号
の符号値の例を示す。例えば、図15は静的単語辞書4
にのみ登録された文字列の符号値を示し、図16は補助
辞書5に登録された文字列の符号値を示す。
【0052】例えば、単語分割部6によって文字列「電
気」を示す固定長符号が入力した場合、可変長符号化部
7は対応する符号値“0000001”を出力する。ま
た、文字列「電子」の固定長符号が入力した場合、可変
長符号化部7は対応する符号値“0000011”を出
力する。一方、文字列「電気は」の固定長符号が入力し
た場合、可変長符号化部7は図16に示す符号値“YY
Y000001”を出力する。また、文字列「電子出
版」の固定長符号が入力した場合、同図に示す符号値
“YYY000010”を出力する。
【0053】尚、単語分割部6から出力される他の固定
長符号の場合にも、図15又は図16に示す対応する符
号値を出力する。また、上述のようにして出力された圧
縮符号は、例えば図示されない文書メモリに書き込まれ
る。
【0054】以上のように処理することにより、従来の
静的単語辞書のみを用いて圧縮処理した場合に比べ圧縮
効率を上げ、小さな容量の圧縮データとすることができ
る。したがって、容量の小さな文書メモリを使用して圧
縮データを書き込むことができる。
【0055】次に、上述のようにして、例えば文書メモ
リに書き込んだ圧縮符号(圧縮データ)を復元する場合
について説明する。図17は本例の復元装置のシステム
構成図であり、可変長復号化部10、単語復元部11、
及び前述の静的単語辞書4、及び補助辞書5で構成され
ている。また、単語復元部11には上述の静的単語辞書
4、及び補助辞書5が接続され、単語復元部11が元の
文書データに復元する際、静的単語辞書4及び補助辞書
5を検索する構成である。
【0056】図18は復元処理を説明するフローチャー
トである。先ず、可変長復号化部10は、例えば文書メ
モリに記憶された圧縮符号(圧縮データ)を入力し、圧
縮符号を前述とは逆の方法で伸張処理し、元の固定長符
号に復号する(S41)。すなわち、前述の図15、図
16を検索し、圧縮符号値(圧縮データ)に対応する固
定長符号(固定長データ)に復号する。例えば、圧縮符
号値“0000001”が入力した場合、文字列「電
気」の固定長符号を出力し、圧縮符号“000001
1”が入力した場合、文字列「電子」の固定長符号を出
力する。一方、圧縮符号“YYY000001”が入力
した場合、文字列「電気は」の固定長符号を出力し、圧
縮符号“YYY000010”が入力した場合、文字列
「電子出版」の固定長符号を出力する。
【0057】次に、可変長復号化部10で復号された固
定長符号のデータは、単語復元部11に供給され、先ず
静的単語辞書4を検索して単語の復元処理が行われる
(S42)。例えば、可変長復号化部10から供給され
る固定長符号が文字列「電気」に相当する場合、静的単
語辞書4から対応する「電気」の文字コードが順次読み
出され、元の文書データとして出力される。また、可変
長復号化部10から供給される固定長符号が文字列「電
子」に相当する場合、静的単語辞書4から対応する「電
子」の文字コードが順次読み出され、元の文書データと
して出力される。一方、可変長復号化部10から供給さ
れる符号値が文字列「電気は」に相当する場合、静的単
語辞書4には登録されていない文字列であり、単語復元
部11は補助辞書5を検索し、「電気は」に対応する文
字コードを読み出す(S43)。また、同様に可変長復
号化部10から供給される符号値が文字列「電子出版」
に相当する場合、静的単語辞書4には登録されていない
文字列であり、補助辞書5を検索し、「電子出版」に対
応する文字コードを読み出す。
【0058】以上の処理を継続し、単語復元部11は静
的単語辞書4と補助辞書5を検索しながら、順次符号情
報を元の文書データに戻し、全ての処理が完了すると、
元の文書データの再生が終了する。
【0059】以上のように上述の復元処理によって、圧
縮符号(圧縮データ)を元の文書データに再生すること
ができ、この場合にも補助辞書5を使用して符号化され
た圧縮符号を文書メモリから送信するので、送信処理を
短時間で行うことができる。
【0060】尚、上述の実施形態例の説明では、データ
圧縮装置とデータ復元装置を別々に説明したが、データ
圧縮装置とデータ復元装置を共にもつ装置であっても同
様に実施することができる。 <第2の実施形態>次に、本発明の第2の実施形態につ
いて説明する。
【0061】本例のデータ圧縮装置は、前述の第1の実
施形態の場合と異なり、作成した圧縮データをインター
ネット等の通信回線を介して他のコンピュータに送信
し、復元する構成であり、送信元で作成する補助辞書を
他のコンピュータに通信回線を介して送る構成である。
【0062】図19は本実施形態例で使用するデータ圧
縮装置のシステム構成図である。本例は、文字列検出部
21、補助辞書登録部22、拡大辞書23、静的単語辞
書24、補助辞書25、単語分割部26、可変長符号化
部27、及び補足部28で構成されている。静的単語辞
書24には前述と同様、標準的な単語や語句等の文字列
が登録され、文字列検出部21は静的単語辞書24を参
照しながら元の文書データに含まれる文字列の検出を行
う。
【0063】また、補助辞書25には、静的単語辞書2
4に登録されていない熟語等の文字列のデータが登録さ
れる。この登録処理は補助辞書登録部22の処理によっ
て行われ、拡大辞書23に抽出された文字列の中で、元
の文書データ特有の文字列が登録される。
【0064】単語分割部26も前述の実施形態と同様、
上述の補助辞書25に単語、語句等の文字列の登録処理
が行われた後、再度元の文書データを読み込んだ際、元
の文書データの単語分割を行う。また、可変長符号化部
7も上述の単語分割部6によって単語分割されたデータ
に対し、データ圧縮処理を行う。
【0065】一方、補足部28は本実施形態例で作成し
た補助辞書25の情報を読み出し、インターネット等の
通信回線に出力する構成であり、可変長符号化部27か
ら出力する圧縮符号の出力前に送信する。
【0066】尚、予め標準的な単語や語句等の文字列が
登録された静的単語辞書24の構成は前述と同様であ
り、階層構造の形態で登録されている。以上の構成にお
いて、以下にフローチャートを用いて本例の処理動作を
説明する。
【0067】図20は第2実施形態の処理動作を説明す
るフローチャートである。本例においても、元の文書デ
ータに対して2回の読み込み処理を行い、最初の読み込
み処理(1回目のパス)で元の文書データに含まれる特
有の文字列の抽出を行い、補助辞書25に登録する。す
なわち、先ず文字列の検出処理を行い(S51)、元の
文書データ特有の文字列の抽出を行い、更に抽出した文
字列のデータを補助辞書25に登録する(S52)。
【0068】尚、文字列の検出処理(S51)は、前述
の第1実施形態で説明した処理(図5に示すフローチャ
ート)と同じであり、拡大辞書23に元の文書データの
文字列を抽出する。また、元の文書データ特有の文字列
の登録処理も前述の第1実施形態で説明した処理(図7
に示すフローチャート)と同じであり、補助辞書25に
特有の文字列のデータのみを登録する。このように処理
することによって、静的単語辞書4と補助辞書5には前
述の図10に示すようなデータ登録が行われる。
【0069】本例では、更に図20に示すフローチャー
トの処理の如く、補助辞書25に登録したデータを出力
ファイルの先頭に付加する(S53)。この処理は前述
の補足部28が行い、具体的には図21に示すフローチ
ャートに従って処理される。また、この処理によって作
成されるファイル形式を図22に示す。
【0070】先ず、対象となる文字列が、n>Nとなる
節点で終わる文字列か判断する(S61)。例えば、前
述の文字列「電気」の場合、当該文字列はn<Nとなる
節点「4」で終わる文字列であり、該当しない(S61
が否)。一方、文字列「電気は」の場合、当該文字列は
n>Nとなる節点「N+1」で終わる文字列であり、該
当する(S61が正)。この場合、n<=Nとなる親の
節点を検索し、例えば上述の「電気は」の文字列の場
合、「は」の親の節点「4」を探し文字列の登録を行う
(S62、S63)。この処理により、図22に示すフ
ァイルには「は」の親の節点(の指標)と「は」の文字
コードが書き込まれる。さらに、対応する文字列の符号
語“YYY000001”が書き込まれる(S64)。
【0071】また、文字列が「電子出版」である場合、
「出版」の親の節点「5」を探し文字列の登録を行い、
図22に示すファイルには、「出版」の親の節点(の指
標)と「出版」の文字コードが書き込まれる。さらに、
対応する文字列の符号語“YYY000010”が書き
込まれる。
【0072】また、上述の図22に示すファイル形式
は、補助辞書の登録内容の一部を示すものであり、更に
補助辞書の情報が書き込まれた後、この補助辞書の後に
圧縮符号を付加して出力する。図23は補助辞書が書き
込まれた補助辞書部に更に圧縮符号を付加した出力ファ
イル全体の出力形式を示す図である。尚、圧縮符号部に
は後述する可変長符号化部27から出力される圧縮符号
が付加される。
【0073】次に、単語分割部26では元の文書データ
に対する文字列の分割処理を行う(図20に示すS5
4、S55)。この処理も前述と同様であり、元の文書
データに対して静的単語辞書24、補助辞書25を検索
しながら文字列の固定長符号を作成する。例えば、文字
列「電気」の場合、静的単語辞書24を検索して対応す
る固定長符号を出力する。一方、文字列「電気は」の場
合、補助辞書25を検索して対応する固定長符号を出力
する。
【0074】また、可変長符号化部27は単語分割部2
6から出力される固定長符号を圧縮符号に変換する。こ
の処理も前述の第1の実施形態の場合と同様であり、例
えば文字列「電気」の固定長符号が入力した場合、可変
長符号化部27は対応する圧縮符号“0000001”
を出力する。一方、文字列「電気は」の固定長符号が入
力した場合、可変長符号化部27は圧縮符号“YYY0
00001”を出力する。
【0075】以上のように処理することにより、前述の
補足部28によって補助辞書25の内容を出力した後、
実際の圧縮符号を出力する。すなわち、前述の補助辞書
25の内容と圧縮符号のデータは、前述の図23に示す
形式の出力ファイルに記述され、インターネット等の通
信回線を介して他のコンピュータに出力され、圧縮符号
の再生処理が行われる。
【0076】したがって、本例によれば補助辞書25に
登録したデータに基づいて元の文書データ特有の文字列
も符号化することができ、極めて容量の小さな圧縮デー
タとすることができ、インターネット等の通信回線を介
してデータ転送を行う際にも、データの転送時間も短く
することができる。
【0077】次に、上述のようにして、通信回線を介し
て供給された圧縮データを復元する場合について説明す
る。図24は本例の復元装置のシステム構成図であり、
可変長復号化部30、単語復元部31、静的単語辞書3
4、補助辞書33、及び補助辞書登録部32で構成され
ている。単語復元部31は上述の静的単語辞書34、及
び補助辞書33に接続され、単語復元部31が元の文書
データに復元する際、静的単語辞書34及び補助辞書3
3を検索する構成である。また、補助辞書登録部32は
通信回線を介して供給される補助辞書情報を補助辞書3
3に登録する。
【0078】図25は、上述の構成の第2実施形態の復
元処理を説明するフローチャートである。先ず、本例に
おいては補助辞書の登録処理を行う(S71)。この処
理は、前述の図22(図23)に示すファイルの状態で
入力するデータを補助辞書登録部32によって検出し、
復元装置側の補助辞書33に登録する処理である。
【0079】ここで、図26に示すフローチャートはこ
の処理を説明する図である。すなわち、補助辞書部に含
まれる各文字列の親の節点(の指標)を入力する(S8
1)。この処理により、例えば図22の例の場合、
「は」の親の節点(の指標)「4」が読み出され、
「は」の文字コードと、文字列の符号語“YYY000
001”が読み出される(S82、S83)。また、次
の「出版」の親の節点(の指標)「5」が読み出され、
対応する文字コードと、文字列の符号語“YYY000
010”が読み出される。
【0080】以上の処理を繰り返すことにより、補助辞
書33には前述のデータ圧縮装置側の補助辞書25と同
じデータが登録される。一方、可変長符号化部30で
は、前述と同様、インターネット等の通信回線を介して
供給されるデータの復号処理を行う(図25に示すS7
2)。例えば、通信回線を介して供給される圧縮符号
(圧縮データ)を入力し、固定長符号に復元する。この
処理は前述の処理と同じであり、例えば圧縮符号“00
00001”は、文字列「電気」の固定長符号に復号さ
れ、圧縮符号“YYY000001”は、文字列「電気
は」の固定長符号に復号される。
【0081】次に、可変長復元化部30で復号された固
定長符号は単語復元部31に供給され、先ず静的単語辞
書24を検索して単語の復元処理が行われる(S7
3)。例えば、可変長復元化部30から供給される符号
が文字列「電気」に相当する場合、「電気」に対応する
文字コードを出力する。また、可変長復元化部30から
供給される符号が文字列「電子」に相当する場合も、
「電子」に対応する文字コードを出力する。
【0082】一方、可変長復元化部30から供給される
符号値が文字列「電気は」に相当する場合、静的単語辞
書34には登録されていない符号値であり、単語復元部
31は補助辞書33を検索する(S74)。このとき、
補助辞書33には上述のように、インターネット等の通
信回線を介してデータ圧縮装置側の補助辞書25と同じ
データが書き込まれており、単語復元部31が補助辞書
33を検索することによって、対応する文字コードを検
出することができる。また、符号値が文字列「電子出
版」である場合にも、静的単語辞書24には登録されて
いない符号値であり、単語復元部31は補助辞書33を
検索し、対応する文字コードを検出できる。
【0083】このようにして検出した文字コードのデー
タは順次元の文書データとして出力される。以上の処理
を継続し、単語復元部31は静的単語辞書34と補助辞
書33を検索しながら、順次符号情報を元の文書データ
に復元し、全ての処理が完了すると、元の文書データの
復元処理が終了する。
【0084】以上のように、第2実施形態はデータ圧縮
装置側で作成した補助辞書の情報をインターネット等の
通信回線を介して受信側のコンピュータに登録し、元の
文書データの圧縮データをこの補助辞書、及び標準的な
静的単語辞書を用いて復元する構成であり、データ転送
を効率よく行い、補助辞書の転送後短時間でデータ復元
処理を行うことができる。
【0085】尚、図27はフロッピー(登録商標)ディ
スクやCD−ROM等の可搬性の記録媒体やハードディ
スク等の外部記憶装置などのメモリに本例のデータアク
セス処理のプログラムを記憶し、該記憶媒体をコンピュ
ータのドライブに挿入することにより本実施形態の処理
を実現するシステムである。
【0086】また、インターネットやLAN、WAN等
の通信回線を介して本実施形態のプログラムをプログラ
ム提供者からコンピュータにダウンロードして本実施形
態の処理を実現する構成としてもよい。
【0087】
【発明の効果】以上説明したように、本発明によれば文
書データ特有の単語や語句の文字列を補助辞書に登録す
るので、圧縮率を向上し、小容量の圧縮データとするこ
とができる。
【0088】また、小容量の圧縮データとすることがで
き、圧縮データを文書メモリ等に記憶する際、小容量の
メモリを使用することができる。さらに、圧縮データを
インターネット等の通信回線を介して送信する際、デー
タ容量が小さくので、短い送信時間で圧縮データの転送
を行うことができる。
【図面の簡単な説明】
【図1】第1実施形態のデータ圧縮装置のシステム構成
図である。
【図2】静的単語辞書の登録データを説明する図であ
る。
【図3】本例の階層構造を模式的に示す図である。
【図4】第1実施形態の処理を全体的に説明するフロー
チャートである。
【図5】文字列検出部が行う上述の文字列検出処理の具
体例を説明するものである。
【図6】文書データの一部を示す具体例である。
【図7】補助辞書の登録処理を具体的に説明するフロー
チャートである。
【図8】文字列の符号計算を具体的に説明するフローチ
ャートである。
【図9】補助辞書のデータ構成例を示す図である。
【図10】静的単語辞書と補助辞書を含めた文字列のデ
ータ構成例を示す図である。
【図11】静的単語辞書、及び補助辞書に登録されたデ
ータの階層構造を模式的に示す図である。
【図12】静的単語辞書と補助辞書の符号空間を示す図
である。
【図13】単語分割処理を具体的に説明する図である。
【図14】最長の文字列Sを見つけるための具体的な処
理を示すフローチャートである。
【図15】文字列に対応する符号値の例を示す図であ
る。
【図16】文字列に対応する符号値の例を示す図であ
る。
【図17】第1実施形態の復元装置のシステム構成図で
ある。
【図18】復元処理を説明示すフローチャートである。
【図19】第2実施形態のデータ圧縮装置のシステム構
成図である。
【図20】第2実施形態の処理を全体的に説明するフロ
ーチャートである。
【図21】補助辞書の情報を出力ファイルに記述するた
めのフローチャートである。
【図22】出力ファイルの補助辞書部の一部の構成を示
す図である。
【図23】出力ファイルの全体構成を示す図である。
【図24】第2実施形態のデータ復元装置のシステム構
成図である。
【図25】第2実施形態のデータ復元装置の処理を説明
するフローチャートである。
【図26】補助辞書情報を読み出す処理を説明するフロ
ーチャートである。
【図27】記録媒体を使用するデータ圧縮処理、及びデ
ータ復元処理のシステム構成図である。
【図28】従来のデータ圧縮装置のシステム構成図であ
る。
【図29】従来のデータ復元装置のシステム構成図であ
る。
【符号の説明】
1、21 文字列検出部 2 補助辞書登録部 3、23 拡大辞書 4 静的単語辞書 5 補助辞書 6、26 単語分割部 7、10、27 可変長符号化部 11 単語復元部 22 補助辞書登録部 24、34 静的単語辞書 25、33 補助辞書 28 補足部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 SA08 5J064 AA02 BA09 BA11 BC01 BC02 BC29 BD02 BD03 CA02 CB12

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 予め単語や語句の文字列を登録した静的
    単語辞書と、 圧縮処理の対象となる文書データを検索し、前記静的単
    語辞書に含まれない文字列を検出する文字列検出手段
    と、 該文字列検出手段によって検出した文字列の中で、前記
    文書データ特有の文字列の選定を行い、選定した文字列
    を補助辞書に登録する選定登録手段と、 前記圧縮処理の対象となる文書データに対し、前記静的
    単語辞書と補助辞書を検索し、前記静的単語辞書又は補
    助辞書に登録された文字データを固定長符号として出力
    する単語分割手段と、 該単語分割手段から出力される固定長符号を圧縮符号に
    変換する可変長符号化手段と、 を有することを特徴とするデータ圧縮装置。
  2. 【請求項2】 前記圧縮符号を固定長符号に復号する復
    号手段と、該復号手段によって復号された固定長符号に
    対し、前記静的単語辞書と補助辞書を使用し、元の文書
    データを復元するデータ復元手段と、を有することを特
    徴とする請求項1記載のデータ圧縮装置。
  3. 【請求項3】 予め単語や語句の文字列を登録した静的
    単語辞書と、 圧縮処理の対象となった文書データを検索し、前記静的
    単語辞書に含まれなかった前記文書データ特有の単語や
    語句の文字列を検出し、該文字列の中で更に選定を行
    い、文字列の登録が行われた補助辞書と、 前記文書データの圧縮符号を固定長符号に復号する復号
    手段と、 該復号手段によって復号された固定長符号に対し、前記
    静的単語辞書と補助辞書を検索し、元の文書データに復
    元するデータ復元手段と、 を有することを特徴とするデータ復元装置。
  4. 【請求項4】 予め単語や語句の文字列を登録した静的
    単語辞書と、 圧縮処理の対象となる文書データを検索し、前記静的単
    語辞書に含まれない文字列を検出する文字列検出手段
    と、 該文字列検出手段によって検出した文字列の中で、前記
    文書データ特有の文字列の選定を行い、選定した文字列
    を補助辞書に登録する選定登録手段と、 前記圧縮処理の対象となる文書データに対し、前記静的
    単語辞書と補助辞書を検索し、前記静的単語辞書又は補
    助辞書に登録された文字データを固定長符号に変換する
    単語分割手段と、 該単語分割手段から出力される固定長符号を圧縮符号に
    変換する可変長符号化手段と、 前記補助辞書に登録した文字列のデータを前記可変長符
    号化手段によって作成する圧縮符号の前に付加して通信
    ネットワークに送信する送信手段と、 を有することを特徴とするデータ圧縮装置。
  5. 【請求項5】 前記通信ネットワークを通して送信され
    た補助辞書に登録したデータを受信し、補助辞書記憶手
    段に登録する補助辞書登録制御手段と、前記圧縮符号を
    固定長符号に復号する復号手段と、該復号手段によって
    復号された固定長符号に対し、受信側の静的単語辞書と
    前記補助辞書記憶手段を検索し、元の文書データを復元
    するデータ復元手段と、を有することを特徴とする請求
    項4記載のデータ圧縮装置。
  6. 【請求項6】 予め単語や語句の文字列を登録した静的
    単語辞書と、 通信ネットワークを通して送信された補助辞書登録デー
    タを記憶する補助辞書記憶手段と、 文書データの圧縮符号を固定長符号に復号する復号手段
    と、 該復号手段によって復号された固定長符号に対し、前記
    静的単語辞書と補助辞記憶手段に記憶した補助辞書を検
    索し、元の文書データに復元するデータ復元手段と、 を有することを特徴とするデータ復元装置。
  7. 【請求項7】 予め単語や語句の文字列を登録した静的
    単語辞書を使用し、圧縮処理の対象となる文書データを
    検索し、前記静的単語辞書に含まれない文字列を検出す
    る文字列検出処理と、 該文字列検出処理によって検出された文字列の中で、前
    記文書データ特有の文字列の選定を行い、選定された文
    字列を補助辞書に登録する選定登録処理と、 前記圧縮処理の対象となる文書データに対し、前記静的
    単語辞書と補助辞書を検索し、前記静的単語辞書又は補
    助辞書に登録された文字データを固定長符号に変換する
    単語分割処理と、 該単語分割処理によって変換された固定長符号を圧縮符
    号に変換する可変長符号化処理と、 を行うことを特徴とするデータ圧縮方法。
  8. 【請求項8】 予め単語や語句の文字列を登録した静的
    単語辞書を使用し、圧縮処理の対象となった文書データ
    を検索し、前記静的単語辞書に含まれなかった前記文書
    データ特有の単語や語句の文字列を検出し、該文字列の
    中で更に選定を行い、補助辞書に文字列の登録を行う選
    定登録処理と、 前記文書データの圧縮符号を固定長符号に復号する復号
    処理と、 該復号処理によって復号された固定長符号に対し、前記
    静的単語辞書と補助辞書を使用し、元の文書データに復
    元するデータ復元処理と、 を行うことを特徴とするデータ復元方法。
  9. 【請求項9】 予め単語や語句の文字列を登録した静的
    単語辞書を使用し、圧縮処理の対象となる文書データを
    検索し、前記静的単語辞書に含まれない文字列を検出す
    る文字列検出処理と、 該文字列検出処理によって検出された文字列の中で、前
    記文書データ特有の文字列の選定を行い、選定した文字
    列を補助辞書に登録する選定登録処理と、 前記圧縮処理の対象となる文書データに対し、前記静的
    単語辞書と補助辞書を検索し、前記静的単語辞書又は補
    助辞書に登録された文字データを固定長符号に変換する
    単語分割処理と、 該固定長符号を圧縮符号に変換する可変長符号化処理
    と、 前記補助辞書に登録した文字列のデータを前記可変長符
    号化処理によって作成した圧縮符号の前に付加して通信
    ネットワークに送信する送信処理と、 を行うことを特徴とするデータ圧縮方法。
  10. 【請求項10】 通信ネットワークを通して送信された
    補助辞書登録データを記憶する補助辞書記憶処理と、 文書データの圧縮符号を固定長符号に復号する復号処理
    と、 該復号処理によって復号された固定長符号に対し、静的
    単語辞書と補助辞書登録データを使用し、元の文書デー
    タに復元するデータ復元処理と、 を行うことを特徴とするデータ復元方法。
  11. 【請求項11】 予め単語や語句の文字列を登録した静
    的単語辞書を使用し、圧縮処理の対象となる文書データ
    を検索し、前記静的単語辞書に含まれない文字列を検出
    する文字列検出機能と、 該文字列検出機能によって検出された文字列の中で、前
    記文書データ特有の文字列の選定を行い、選定された文
    字列を補助辞書に登録する選定登録機能と、 前記圧縮処理の対象となる文書データに対し、前記静的
    単語辞書と補助辞書を検索し、前記静的単語辞書又は補
    助辞書に登録された文字データを固定長符号に変換する
    単語分割機能と、 該固定長符号を圧縮符号に変換する可変長符号化機能
    と、 から成るデータ圧縮処理をコンピュータに実行させるプ
    ログラムを格納した前記コンピュータが読み取り可能な
    記録媒体。
JP11066441A 1999-03-12 1999-03-12 データ圧縮装置、及びデータ復元装置 Withdrawn JP2000269822A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11066441A JP2000269822A (ja) 1999-03-12 1999-03-12 データ圧縮装置、及びデータ復元装置
CN 00100994 CN1267963A (zh) 1999-03-12 2000-01-18 数据压缩设备和数据恢复设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11066441A JP2000269822A (ja) 1999-03-12 1999-03-12 データ圧縮装置、及びデータ復元装置

Publications (1)

Publication Number Publication Date
JP2000269822A true JP2000269822A (ja) 2000-09-29

Family

ID=13315877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11066441A Withdrawn JP2000269822A (ja) 1999-03-12 1999-03-12 データ圧縮装置、及びデータ復元装置

Country Status (2)

Country Link
JP (1) JP2000269822A (ja)
CN (1) CN1267963A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2427803A (en) * 2005-06-29 2007-01-03 Symbian Software Ltd E-mail/text message compression using differences from earlier messages or standard codebooks with specific message supplements
JP2007124561A (ja) * 2005-10-31 2007-05-17 Fujitsu Ltd データ圧縮方法及び圧縮データ送信方法
JP2007129683A (ja) * 2006-03-13 2007-05-24 Fujitsu Ltd 圧縮データ送信方法
JP2014204358A (ja) * 2013-04-08 2014-10-27 日本電信電話株式会社 文字列圧縮における階層型サンプル文字列辞書作成方法及び装置
JP2014204357A (ja) * 2013-04-08 2014-10-27 日本電信電話株式会社 サンプル文字列辞書作成方法及び装置
CN105808513A (zh) * 2015-01-19 2016-07-27 富士通株式会社 转换装置和转换方法
JPWO2014030189A1 (ja) * 2012-08-23 2016-07-28 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
JP2016149786A (ja) * 2016-03-22 2016-08-18 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
US9973206B2 (en) 2016-03-31 2018-05-15 Fujitsu Limited Computer-readable recording medium, encoding device, encoding method, decoding device, and decoding method
US20190115934A1 (en) * 2017-10-16 2019-04-18 International Business Machines Corporation Compressing a plurality of documents
JP2019193129A (ja) * 2018-04-26 2019-10-31 株式会社日立製作所 データ転送装置及びデータ転送方法、並びにデータ転送装置を備えたネットワークシステム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627816B2 (en) * 2005-04-12 2009-12-01 International Business Machines Corporation Method for providing a transient dictionary that travels with an original electronic document
CN101751451B (zh) * 2008-12-11 2012-04-25 高德软件有限公司 一种中文数据压缩及解压缩方法及相关设备
CN102142845A (zh) * 2010-01-28 2011-08-03 北京四维图新科技股份有限公司 电子地图中地名字符串的压缩编码方法及装置
CN104025080B (zh) * 2011-11-04 2017-05-03 富士通株式会社 对照控制程序、对照控制装置以及对照控制方法
CN107153637A (zh) * 2017-05-16 2017-09-12 中国人民解放军重庆通信学院 应用于低速率应急通信的混合汉字编码方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7587458B2 (en) 2005-06-29 2009-09-08 Nokia Corporation Delta code messaging
GB2427803A (en) * 2005-06-29 2007-01-03 Symbian Software Ltd E-mail/text message compression using differences from earlier messages or standard codebooks with specific message supplements
JP2007124561A (ja) * 2005-10-31 2007-05-17 Fujitsu Ltd データ圧縮方法及び圧縮データ送信方法
JP2007129683A (ja) * 2006-03-13 2007-05-24 Fujitsu Ltd 圧縮データ送信方法
JPWO2014030189A1 (ja) * 2012-08-23 2016-07-28 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
JP2014204358A (ja) * 2013-04-08 2014-10-27 日本電信電話株式会社 文字列圧縮における階層型サンプル文字列辞書作成方法及び装置
JP2014204357A (ja) * 2013-04-08 2014-10-27 日本電信電話株式会社 サンプル文字列辞書作成方法及び装置
CN105808513B (zh) * 2015-01-19 2019-01-01 富士通株式会社 转换装置和转换方法
US9425821B2 (en) 2015-01-19 2016-08-23 Fujitsu Limited Converting device and converting method
KR101748982B1 (ko) 2015-01-19 2017-06-19 후지쯔 가부시끼가이샤 매체에 저장된 프로그램
CN105808513A (zh) * 2015-01-19 2016-07-27 富士通株式会社 转换装置和转换方法
JP2016149786A (ja) * 2016-03-22 2016-08-18 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
US9973206B2 (en) 2016-03-31 2018-05-15 Fujitsu Limited Computer-readable recording medium, encoding device, encoding method, decoding device, and decoding method
US20190115934A1 (en) * 2017-10-16 2019-04-18 International Business Machines Corporation Compressing a plurality of documents
US10956440B2 (en) * 2017-10-16 2021-03-23 International Business Machines Corporation Compressing a plurality of documents
JP2019193129A (ja) * 2018-04-26 2019-10-31 株式会社日立製作所 データ転送装置及びデータ転送方法、並びにデータ転送装置を備えたネットワークシステム

Also Published As

Publication number Publication date
CN1267963A (zh) 2000-09-27

Similar Documents

Publication Publication Date Title
JP2000269822A (ja) データ圧縮装置、及びデータ復元装置
JP3278297B2 (ja) データ圧縮方法及びデータ復元方法並びにデータ圧縮装置及びデータ復元装置
US7102552B1 (en) Data compression with edit-in-place capability for compressed data
JP4814999B2 (ja) データ圧縮・復元方法及び圧縮・復元プログラム
JP4003854B2 (ja) データ圧縮装置及び復元装置並びにその方法
JP2000124810A (ja) 符号化装置及び復号化装置
JP3083730B2 (ja) データ情報を圧縮するためのシステムおよび方法
JP2531508B2 (ja) デ―タ列圧縮の方法
JPH07226846A (ja) 入力データストリームの処理方法及び圧縮フォーマットの生成方法
JPS6356726B2 (ja)
US20150248432A1 (en) Method and system
JPH08223053A (ja) 圧縮データの伸張方法
JP2536422B2 (ja) デ―タ圧縮装置及びデ―タ復元装置
JP4093200B2 (ja) データ圧縮方法及びプログラムならびにデータ復元方法及び装置
JP4093193B2 (ja) データ圧縮方法及びプログラムならびにデータ復元方法及び装置
JP4726046B2 (ja) 文字列検索装置及びコンピュータプログラム及び文字列検索方法
JPH05152971A (ja) データ圧縮・復元方法
JP4497029B2 (ja) データ符号化装置,およびデータ符号化方法
JP3384844B2 (ja) データ圧縮方法および装置並びにデータ復元方法および装置
JP3083550B2 (ja) データ圧縮及び復元方法
JPH1155125A (ja) 文字データの圧縮・復元方法
Ng et al. Dynamic word based text compression
JP3051501B2 (ja) データ圧縮方法
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
KR101400124B1 (ko) 가변 길이 정보 메시지의 최적화 장치 및 방법

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606