JP3265268B2 - 文字列圧縮方式 - Google Patents

文字列圧縮方式

Info

Publication number
JP3265268B2
JP3265268B2 JP20343398A JP20343398A JP3265268B2 JP 3265268 B2 JP3265268 B2 JP 3265268B2 JP 20343398 A JP20343398 A JP 20343398A JP 20343398 A JP20343398 A JP 20343398A JP 3265268 B2 JP3265268 B2 JP 3265268B2
Authority
JP
Japan
Prior art keywords
compression
character string
dictionary
string
postal code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20343398A
Other languages
English (en)
Other versions
JP2000036756A (ja
Inventor
利雄 門口
Original Assignee
エヌイーシーマイクロシステム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エヌイーシーマイクロシステム株式会社 filed Critical エヌイーシーマイクロシステム株式会社
Priority to JP20343398A priority Critical patent/JP3265268B2/ja
Publication of JP2000036756A publication Critical patent/JP2000036756A/ja
Application granted granted Critical
Publication of JP3265268B2 publication Critical patent/JP3265268B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ジブ・レンペル法
を利用した文字列圧縮方式に関するものである。
【0002】
【従来の技術】従来の文字列圧縮方式は、ジブ・レンペ
ル法にしろハフマン法にしろ、あるいはこれらの2方式
を組み合わせたLHA方式にしろ、基本的には圧縮前文
字列を元に圧縮後文字列を生成するか、または圧縮前文
字列を元に辞書及び圧縮後文字列を生成するものであっ
た。要するに、辞書を使うにしろ使わないにしろ、その
辞書は圧縮前文字列を元に(もしくは圧縮の為だけに)
作られたものであった。図5及び図6に従来の圧縮方式
の一例を示した。図5はイメージ図、図6は圧縮文字列
テーブルのイメージ図である。
【0003】
【発明が解決しようとする課題】従来の圧縮方式では、
図6のジブ・レンペル方式の圧縮後文字列を見ると判る
ように、如何に効率良く圧縮を行っても、例えば「東京
都千代田区岩本町」という文字列を必ずどこかに文字列
情報として持つ必要があるという事が問題であった。
【0004】本発明は、前記事情に鑑みてなされたもの
であり、ジブ・レンペル法を利用した文字列圧縮方式で
あって、圧縮率を向上させた文字列圧縮方式を提供する
ことを目的とする。
【0005】
【課題を解決するための手段】本発明は、前記目的を達
成するため、ジブ・レンペル法を利用した文字列圧縮方
において、圧縮前文字列を元に作られたものではな
く、かつ文字列圧縮のために作られたものでない既存の
外部辞書を参照して文字列の圧縮を行う前処理を行った
後、前記前処理を行った文字列を元に、圧縮後文字列を
生成する圧縮を行うか、または辞書及び圧縮後文字列を
生成する圧縮を行うことを特徴とする文字列圧縮方
提供する。
【0006】本発明は、ジブ・レンペル法を利用した文
字列圧縮方式において、自己生成した圧縮辞書のみなら
ず、外部辞書としてシステム(ワープロやPDA等)が
既に持っている外部辞書をも利用する事により、圧縮率
を向上させようというものである。図1を用いて本発明
の構成を説明する。通常のジブ・レンペル法を用いた圧
縮方式では、圧縮前文字列11を元に圧縮後文字列12
を作成する。これに対し、本発明では圧縮前文字列11
及び外部辞書13を用いて圧縮後文字列12を生成す
る。これにより、圧縮後文字列12のファイルサイズを
低減する(圧縮率を向上させる)事が可能となる。
【0007】本発明で利用することができる外部辞書と
しては、例えば、郵便番号辞書、ID辞書等のIDと文
字列とがペアとなって格納されている辞書を挙げること
ができる。但し、日本語変換に用いられている「仮名漢
字変換辞書」は一般的に利用できない。なぜなら、「仮
名漢字変換辞書」は2文字〜3文字単位で構成されてい
るものがほとんどである為、本方式の処理を行うと符号
化した圧縮後文字列の方が大きくなるという結果を生む
可能性が高いからである。
【0008】
【発明の実施の形態】第1実施形態 図2及び図4のフローチャートを用いて本発明の第1の
実施例を説明する。図2の圧縮前文字列21は図1の圧
縮前文字列11の一具体例である。同じように、図2の
圧縮後文字列22は図1の圧縮後文字列12の一具体例
である。さらに、図2の郵便番号辞書23は図1の外部
辞書13の一具体例である。なお、図4の説明は図2を
データテーブルとみなしての説明となっている。
【0009】圧縮前文字列21のように同じような住所
が頻繁に出てくる文字列を圧縮する為に、郵便番号辞書
23を用いる。この郵便番号辞書23はこの圧縮処理の
為に新たに作成したものではなく、ワープロやPDA等
に付いている既存のものを流用する。
【0010】まず、圧縮前文字列ポインタをクリアして
おく(41)。クリアされた圧縮前文字列ポインタは、
最初は圧縮前文字列21の頭の文字である「東京都千代
田区…」の「東」の字をポイントしている。
【0011】次に、郵便番号辞書ポインタをクリアして
おく(42)。クリアされた郵便番号辞書ポインタは、
郵便番号辞書23の最初の「東京都千代田区飯田橋」の
「東」の字をポイントしている。
【0012】次に、郵便番号辞書と圧縮前文字列とを比
較する(43)。比較される文字サイズは、郵便番号辞
書23のポインタが指している「東」の字からターミネ
ータ文字(一般には改行コードが用いられる)までであ
る。本実施例の場合は、「東京都千代田区飯田橋」の1
0文字(Shift-JIS等の2バイトコードで表されている
場合は20バイト)が比較されるサイズとなる。圧縮前
文字列21のポイント位置から10文字は「東京都千代
田区岩本町」であるので、「岩本町」の部分と「飯田
橋」の部分が不一致となり、次の処理である郵便番号辞
書ポインタインクリメント47へと進む。
【0013】次に、郵便番号辞書のEOF(End Of Fil
e)かどうかのチェック46が行われる。この処理は、
ポインタが郵便番号辞書23の最後まで来たかをチェッ
クする処理である。この場合、ポインタは2行目の「東
京都千代田区一番町」の頭の「東」の文字に進んでいる
ので、判断結果は「No」となり、処理は郵便番号辞書
=圧縮前文字列?43に戻る。
【0014】同じように、郵便番号辞書23の2行目と
圧縮前文字列21とのコンペアが行われるが、やはり
「一番町」と「岩本町」の部分が一致しない為、処理は
3行目のコンペアに進む。
【0015】3回目のコンペアで郵便番号辞書23の3
行目の「東京都千代田区岩本町」と圧縮前文字列21の
最初の「東京都千代田区岩本町」とが一致するので、一
致部分をコード化し(44)、圧縮前文字列31と郵便
番号辞書33とに一致を見たとき、圧縮後文字列22に
「アドレス及び文字サイズ」を格納する。図2では
「A」という記号で抽象化して示しているが、一般的に
はこの「A」の部分には郵便番号辞書23の3行目であ
る「東京都千代田区岩本町」の格納されているアドレス
及び文字数(もしくはバイト数)を格納する。
【0016】次に、圧縮前文字列ポインタがインクリメ
ントされ(47)、「田中一郎」の「田」の字をポイン
トする。このポインタ位置では郵便番号辞書と一致する
ことはありえないので、圧縮後文字列22に「田」の字
を追加し、ポインタ位置は次の「田中一郎」の「中」に
進む。しかし、同じように文字列は一致せず、ポインタ
は順次進み、「田中一郎」と「吉田太郎」との間の「東
京都千代田区岩本町」の「東」の字をポイントする。ま
た、圧縮後文字列22には「田中一郎」全体がそのまま
追加される。
【0017】この時点で最初と同じように郵便番号辞書
23の3行目の「東京都千代田区岩本町」と一致が確認
され、圧縮後文字列22には2回目の「アドレス及びバ
イト数(A)」が格納される。
【0018】上記の処理を圧縮前文字列21が無くなる
まで行い、圧縮前文字列のEOF(End Of File)まで
ポインタが進んだ段階で処理は終了する。
【0019】上記一連の処理を一般的ジブ・レンペル法
を用いた圧縮の前処理として行う事により、ジブ・レン
ペル法単独での圧縮より圧縮率を向上させる事が可能と
なる。
【0020】第2実施形態 次に、図3を用いて本発明の第2の実施例を説明する。
第1の実施例と第2の実施例の相違点は、図2と図3の
相違点のみである。すなわち、第2の実施例が第1の実
施例と異なる点は、圧縮前文字列31と郵便番号辞書3
3とに一致を見たとき、第1の実施例の如く圧縮後文字
列22に「アドレス及び文字サイズ」を格納するのでは
なく、一致した文字列(この場合は住所)に対応した
「郵便番号」を格納する点である。
【0021】第1の実施例では、圧縮時の郵便番号辞書
23と解凍時の郵便番号辞書23が、格納アドレスのレ
ベルまで同一である必要があった。しかし、第2の実施
例においては、「郵便番号」と「住所」との関係は一義
的に決まる事が保証されている限り、郵便番号辞書23
の格納アドレスが変わっても解凍が行えるという利点が
ある。
【0022】以上の各実施例から判るように、本発明の
効果は、前述した一連の処理をジブ・レンペル法を用い
た圧縮の前処理として行う事により、ジブ・レンペル法
単独での圧縮より圧縮率を向上させる事が出来るという
ことにある。なお、前記例では外部辞書として郵便番号
辞書を取り上げたが、その他にもIDと文字列とがペア
となって格納されている辞書ならば同様に応用する事が
出来る。
【0023】
【発明の効果】本発明によれば、ジブ・レンペル法を利
用した文字列圧縮方式において、既存の「外部辞書」を
有効利用することにより、圧縮率を向上させることがで
きる。
【図面の簡単な説明】
【図1】本発明の具体的イメージを表した図である。
【図2】図1の各要素に対しての一具体例をデータテー
ブル形式で示した図である。
【図3】本発明の第2の実施例でのデータテーブルを示
した図である。
【図4】本発明の実行手順の一例をフローチャートで表
した図である。
【図5】従来の実施例のイメージ図である(図1に対
応)。
【図6】従来の実施例のテーブルイメージ図である(図
2に対応)。
【符号の説明】
11 圧縮前文字列 12 圧縮後文字列 13 外部辞書
フロントページの続き (56)参考文献 特開 昭60−116228(JP,A) 特開 平3−247167(JP,A) 特開 平4−265020(JP,A) 特開 平9−214352(JP,A) (58)調査した分野(Int.Cl.7,DB名) H03M 7/40

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 ジブ・レンペル法を利用した文字列圧縮
    において、圧縮前文字列を元に作られたものではな
    く、かつ文字列圧縮のために作られたものでない既存の
    外部辞書を参照して文字列の圧縮を行う前処理を行った
    後、前記前処理を行った文字列を元に、圧縮後文字列を
    生成する圧縮を行うか、または辞書及び圧縮後文字列を
    生成する圧縮を行うことを特徴とする文字列圧縮方
  2. 【請求項2】 外部辞書が、IDと文字列とがペアとな
    って格納されている辞書である請求項1に記載の文字列
    圧縮方
  3. 【請求項3】 外部辞書が郵便番号辞書である請求項1
    又は2に記載の文字列圧縮方
  4. 【請求項4】 圧縮前文字列と郵便番号辞書とに一致を
    見たときに、圧縮後文字列に郵便番号を格納する請求項
    1〜3のいずれか1項に記載の文字列圧縮方
JP20343398A 1998-07-17 1998-07-17 文字列圧縮方式 Expired - Fee Related JP3265268B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20343398A JP3265268B2 (ja) 1998-07-17 1998-07-17 文字列圧縮方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20343398A JP3265268B2 (ja) 1998-07-17 1998-07-17 文字列圧縮方式

Publications (2)

Publication Number Publication Date
JP2000036756A JP2000036756A (ja) 2000-02-02
JP3265268B2 true JP3265268B2 (ja) 2002-03-11

Family

ID=16474020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20343398A Expired - Fee Related JP3265268B2 (ja) 1998-07-17 1998-07-17 文字列圧縮方式

Country Status (1)

Country Link
JP (1) JP3265268B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014045318A1 (ja) * 2012-09-21 2014-03-27 富士通株式会社 圧縮プログラム、圧縮方法及び圧縮装置
JP6065914B2 (ja) 2012-09-21 2017-01-25 富士通株式会社 制御プログラム、制御方法および制御装置

Also Published As

Publication number Publication date
JP2000036756A (ja) 2000-02-02

Similar Documents

Publication Publication Date Title
US10033405B2 (en) Data compression systems and method
US6309424B1 (en) Content independent data compression method and system
US6529912B2 (en) Data compressing apparatus and a data decompressing apparatus, a data compressing method and a data decompressing method, and a data compressing or decompressing dictionary creating apparatus and a computer readable recording medium storing a data compressing program or a data decompressing program
US6778103B2 (en) Encoding and decoding apparatus using context
JP3025301B2 (ja) データ予備圧縮装置及びデータ予備圧縮システム及びデータ圧縮比改善方法
JP4814999B2 (ja) データ圧縮・復元方法及び圧縮・復元プログラム
CN110868222B (zh) Lzss压缩数据误码检测方法及装置
JP3265268B2 (ja) 文字列圧縮方式
WO2002039591A1 (en) Content independent data compression method and system
JP3061278B2 (ja) 可変ビット長コード語のビット長通信方法
JP3036868B2 (ja) 可変長復号化器
JP3152772B2 (ja) 画像データ復元装置
JP2003318739A (ja) データシーケンスを圧縮するシステム、方法、およびコンピュータ読み取り可能媒体
KR100467620B1 (ko) 이진 영상 압축 및/또는 복원 방법 및 장치
JPH06274311A (ja) データ圧縮装置及びデータ復元装置
JP3190855B2 (ja) 圧縮データの復元方式
Rajendra 16 BIT UNICODE TEXT COMPRESSION
JPH05244015A (ja) データの圧縮方式
JPH056260A (ja) 日本語データ圧縮方式
JPH06178124A (ja) 画像データ圧縮伸長装置
JP2002344326A (ja) 合成インデックスによるデータ圧縮方法及び圧縮データの完全復元方法
JPH08171478A (ja) テキストデータの符号化方法及び装置並びにその復号化方法及び装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees