JPH08171478A - テキストデータの符号化方法及び装置並びにその復号化方法及び装置 - Google Patents

テキストデータの符号化方法及び装置並びにその復号化方法及び装置

Info

Publication number
JPH08171478A
JPH08171478A JP6333740A JP33374094A JPH08171478A JP H08171478 A JPH08171478 A JP H08171478A JP 6333740 A JP6333740 A JP 6333740A JP 33374094 A JP33374094 A JP 33374094A JP H08171478 A JPH08171478 A JP H08171478A
Authority
JP
Japan
Prior art keywords
characters
character
control code
compression
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6333740A
Other languages
English (en)
Inventor
Osamu Miura
修 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Electric Power Company Holdings Inc
Original Assignee
Tokyo Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Electric Power Co Inc filed Critical Tokyo Electric Power Co Inc
Priority to JP6333740A priority Critical patent/JPH08171478A/ja
Publication of JPH08171478A publication Critical patent/JPH08171478A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 1パス方式を採用するとともに、圧縮率の向
上を図るテテキストデータの符号化方法を提供すること 【構成】 制御コードとして、図示のような後続の文字
が圧縮しているか否かを示す圧縮タイプを示す部分と、
その制御コードが管理する後続の文字数を示す部分とを
備えたものを用いる。圧縮タイプは、非圧縮(00)と
3種類の圧縮(01,10,11)の合計4種類に分け
て設定し、特殊文字である「0」,「スペース」を圧縮
する場合には「01」,「10」を使用する。すると、
圧縮タイプが「01」,「10」の時は、圧縮対象の文
字列が一義的に決まるためその特殊文字を圧縮する場合
には制御コードのみにより符号化する。これにより、従
来圧縮する場合には、必ず2バイト必要であったのに対
し、1バイトで表現可能となり、圧縮率が向上する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストデータの符号
化方法及び装置並びにその復号化方法及び装置に関する
もので、より具体的には1パス方式で行うテキストデー
タに対する圧縮方式(符号化/復合化)の改良に関す
る。
【0002】
【従来の技術】文字列から構成されるテキストデータを
送信する際に、処理時間の短縮を図るために、処理対象
のテキストデータに対して所定の方式でデータを圧縮
し、元のデータに比較して少ない情報数(バイト数)で
表現した圧縮データを相手に送り、相手側は、所定の方
式に従って圧縮データを復元(解凍)し、本来のテキス
トデータに戻すようにしている。
【0003】そして、この種の圧縮方式は、1パス方式
と2パス(3パス以上も含む)方式があり、前者は、処
理対象のテキストデータを先頭から順に読取り解析しつ
つ変換(圧縮)処理を行うもので、テキストデータを1
回走査すると、圧縮データが生成される。
【0004】そして係る圧縮を行う方式として、従来、
INTAP−TSI圧縮方法が良く知られている。この
圧縮方法は、テキスト中に同一文字が連続して存在する
場合に、それを2バイトで符号化するようにしている。
具体的には、図10に示すような8ビットの制御コード
を用い、この制御コードと圧縮対象文字(多くとも8ビ
ットで表現する)を組み合わせて表現する。
【0005】すなわち、制御コードは、先頭の2ビット
が圧縮タイプを示し、残りの6ビットがこの制御コード
に続く文字列の文字数を現している。そして、圧縮タイ
プとしては、「後続の文字列が圧縮されていない(0
0)」と、「後続の文字列が圧縮されている(11)」
の2種類を判別するようになっている。圧縮タイプが
「00(非圧縮)」の場合には、制御コードの残りの6
ビットは、後続する圧縮されていない文字の数を示し、
圧縮タイプが「11」の場合には、制御コードの残りの
6ビットは、後続する圧縮された同一文字の連続文字数
を示すようになっている。
【0006】そして、圧縮の一例を示すと、例えば圧縮
前のテキストが図11(A)に示すようになっていると
すると、まず、テキストデータの先頭の「AB」は同一
文字が連続していないため、圧縮後のデータでは、まず
制御コードが非圧縮を示す「00」とそれに続く文字数
(2)を示す「00010」の組み合わせ(1バイト)
からなり、その制御コードに続いて、圧縮されなかった
文字「AB」(2バイト)がくる。そして、「B」の次
には、「C」が5個続いているので、「B」の次には、
制御コード(圧縮を示す「11」と、それに続く文字数
(5)を示す「00101」を組み合わせて構成され
る)と、それに続いて圧縮された「C」を示すコード
(1バイト)となり、以下、上記処理を繰り返すことに
より、同図(B)に示すような圧縮後のデータが得られ
る。この例では、圧縮前は、29バイトあったのに対
し、圧縮後は21バイトで表現される。なお、図中「四
角」は「スペース」を意味している。
【0007】一方、後者は、処理対象のテキストデータ
に対して何回も繰り返し走査し、同一のパターン(文字
列)で繰り返されている部分を検出し、係る文字列を所
定の圧縮データに変換するようにする。そして、この繰
り返しは、連続して繰り返されているもののみを着目し
処理対象とする方式と、テキストデータ全体に不連続状
態で出現される文字列も処理対象とする方式等種々のも
のがある。
【0008】
【発明が解決しようとする課題】しかしながら、上記し
た従来の各種の圧縮方法では、それぞれ下記に示す問題
を有している。すなわち、1パス方式の場合には、処理
時間が短く、処理を行うCPUに対して与える付加も少
なくて済むが、圧縮する場合に制御コードと圧縮する文
字を必ずペアにして表現するため、圧縮率が悪く、ま
た、同一文字が3文字(バイト)以上連続しない場合に
は圧縮の効果が生じない。すなわち、2文字が連続して
いるだけでは圧縮してもしなくても使用するバイト数は
2バイト必要であるからである。
【0009】また、2パス方式の圧縮方法では、圧縮率
は非常に高くなるが、少なくとも2回以上テキストデー
タを読み取る処理が必要であるともとに、複雑なアプリ
ケーションにより圧縮するため、CPUに対する負荷が
大きく、さらに1つのテキストデータに対して行う処理
時間が長くなる。
【0010】したがって、例えば処理対象のテキストデ
ータの数が多い場合には、CPUが他の大量のバッチ処
理のために稼働しており、余裕がない時には、2パス方
式は実用に供し得ない。
【0011】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、上記した問題を解決
し、1パス方式を採用するとともに、簡単なシステムに
より圧縮・解凍(復号)可能とし、CPUに与える付加
を小さくして短時間で多量のテキストデータに対する圧
縮処理等を行うことができ、しかも、圧縮率を可及的に
抑制することのできるテキストデータの符号化方法及び
装置並びにその復号化方法及び装置を提供することにあ
る。
【0012】
【課題を解決するための手段】上記した目的を達成する
ため、本発明に係るテキストデータの符号化方法では、
テキストデータに対して行う1回のサーチで、前記テキ
ストデータ中に存在する同一文字が連続する文字列を検
出し、それを制御コードを用いて符号化して圧縮データ
を作成する符号化方法において、前記制御コードとし
て、後続の文字が圧縮しているか否かを示す圧縮タイプ
を示す部分と、その制御コードが管理する後続の文字数
を示す部分とを備えたものを用いる。前記圧縮タイプと
しては、少なくとも1つの予め定めた特殊文字を示す符
号と、その特殊文字以外の通常文字を示す符号とを備え
る。そして前記圧縮対象の文字列が前記特殊文字により
構成される場合には、前記制御コードのみにより符号化
し、前記圧縮対象の文字列が前記普通文字により構成さ
れる場合には、前記制御コードにその圧縮対象文字を付
加して符号化し、非圧縮文字が存在する場合には、前記
制御コードに非圧縮文字を付加して符号化するようにし
た。
【0013】そして、前記特殊文字が、「0」または
「スペース」の少なくとも一方であることが好ましい。
また前記普通文字に対して行う圧縮は、同一文字が3文
字以上連続する場合に圧縮対象文字列と判定し、圧縮タ
イプの制御コードとともに符号化するようにすると良
く、しかもその場合に、圧縮文字列を現わす前記制御コ
ード中の後続の文字数を示す部分に格納する数値を、実
際の文字数から2を減算して得られる数値とするとなお
良い。
【0014】上記の方法を実施するのに適した本発明に
係る符号化装置では、テキストデータをサーチして同一
文字が所定数連続する文字列を検出する圧縮対象文字列
検出手段と、前記検出した圧縮対象の文字列を構成する
文字が特殊文字か否かを判断する文字種類判別手段と、
圧縮対象文字及び非圧縮文字の連続する文字数を検出す
る文字数検出手段と、前記検出した文字数と文字種類に
基づいて制御コードを生成するとともに符号化する手段
とから構成した。
【0015】さらに、上記の方法により符号化した圧縮
データを元のテキストデータに複合化するための本発明
に係る復号化方法としては、圧縮データ中の制御コード
を検出し、その制御コードに格納された圧縮タイプを判
別し、判別結果が、特殊文字に対する圧縮の場合には、
制御コードに格納された文字数に関するデータに基づい
て、前記特種文字を所定数出力し、判別結果が、普通文
字に対する圧縮の場合には、その制御コードに続く圧縮
対象文字を、その制御コードに格納された文字数に関す
るデータに基づいて所定数出力し、判別結果が非圧縮の
場合には、制御コードに格納された文字数に関するデー
タに基づいてその制御コードの後ろに続く非圧縮文字の
文字数を求め、当該制御コードに続く非圧縮文字を出力
するようにした。
【0016】さらに、上記方法を実施するために適した
圧縮データを入力する入力手段と、前記入力手段を介し
て与えられる圧縮データ中の制御コードを検出し、その
制御コード中の圧縮タイプを判別する圧縮タイプ判別手
段と、その圧縮タイプ判別手段の判別結果に基づいて、
前記制御コード中の文字数に関するデータに基づいて、
その制御コードに続く圧縮/非圧縮文字または所定の特
種文字を所定数出力する手段とから構成した。
【0017】
【作用】符号化する場合には、処理対象のテキストデー
タを先頭から順にサーチして行き、前後に続く文字が同
じか否かを判断する。そして、異なる場合にはその前の
文字は非圧縮文字と認定され、また同一の場合には圧縮
対象文字(3文字以上連続することを条件とする場合に
は、圧縮対象文字候補)とされる。
【0018】仮に非圧縮文字が続いている場合には、次
に圧縮対象文字が出現するまでその連続する非圧縮文字
列を確保する。そして、圧縮対象文字列が検出されたな
ら、それまで確保しておいた文字列の文字数を検出し、
非圧縮を示す圧縮タイプとその検出した文字数からなる
制御コードを生成するとともに、その制御コードに続い
て上記文字列を配置する。これにより、非圧縮文字列の
符号化が行われる。なお、1つの制御コードで表現可能
な最大字数を越えている場合には、複数に分割して表現
・符号化する。
【0019】同一の普通文字が連続して構成される圧縮
対象文字列が検出されたなら、その文字列の文字数を検
出し、普通文字の圧縮を示す圧縮タイプとその検出した
文字数からなる制御コードを生成するとともに、その制
御コードに続いて圧縮した文字を1文字配置する。これ
により、普通文字の圧縮文字列の符号化が行われる。な
お、1つの制御コードで表現可能な最大字数を越えてい
る場合には、複数に分割して表現・符号化する。なおま
た、制御コードを構成する文字数を示す数値は、実際の
文字数をそのまま格納するようにしても良く、また、実
際の文字数よりも2だけ減らした値としても良く、後者
の場合には、1つの制御コードで表現できる文字数が前
者のものに比べて2文字増える。
【0020】また、同一の特種文字が連続して構成され
る圧縮対象文字列が検出されたなら、その文字列の文字
数を検出し、特殊文字の圧縮を示す圧縮タイプとその検
出した文字数からなる制御コードを生成し、その制御コ
ードのみで符号化する。これにより、特殊文字の圧縮文
字列の符号化が行われる。なお、1つの制御コードで表
現可能な最大字数を越えている場合には、複数に分割し
て表現・符号化する。これにより、1回のサーチで圧縮
データが生成される。
【0021】一方、上記のようにして符号化された圧縮
データを通常のテキストデータに復元するための復号化
処理は、圧縮データを先頭よりサーチし、制御コードを
検出し、その制御コード中の圧縮タイプを解読する。そ
して、圧縮タイプが特殊文字の場合には、制御コードの
後ろには圧縮対象文字がないので、制御コードに格納さ
れた文字数に関するデータに基づいて、所定の特種文字
を所定数出力する。
【0022】また、圧縮タイプが普通文字に対する圧縮
の場合には、その制御コードの後ろには圧縮した文字が
1つだけ続いて配置されているので、その圧縮対象文字
を、その制御コードに格納された文字数に関するデータ
に基づいて所定数出力する。
【0023】さらに圧縮タイプが非圧縮の場合には、制
御コードの後ろにはその制御コードで管理・表現される
すべての非圧縮文字が存在しているので、当該制御コー
ドに格納された文字数に関するデータに基づいてその制
御コードの後ろに続く非圧縮文字の文字数を求め、当該
制御コードに続く非圧縮文字を出力する。これにより、
1回のサーチで通常のテキストデータに解凍・復元され
る。
【0024】
【実施例】以下、本発明に係るテキストデータの符号化
方法及び装置並びにその復号化方法及び装置の好適な実
施例を添付図面を参照にして詳述する。図1は、本発明
の一実施例を示すシステムの概略構成を示している。図
中左側に示す圧縮データを生成する符号化装置10と、
図中右側に示す生成された圧縮データを元のテキストデ
ータに復元する復号化装置20とが、専用回線・公衆回
線等の所定の通信回線30を介して接続されている。符
号化装置10,復号化装置20は、ネットワークを組ん
だホストコンピュータと端末装置であったり、対等のコ
ンピュータ同士であったり、或いはデータ通信を行うた
めに接続されたコンピュータ同士である等の他、種々の
態様がある。そして、ホストコンピュータと端末装置の
場合には、いずれもが符号化装置10並びに復号化装置
20になり得るとともに、例えばホストコンピュータの
下位に所定数のサーバを接続し、さらにそのサーバの下
位に所定数の端末を接続した3層或いはそれ以上の階層
構造からなるネットワークにも適用できる。
【0025】そして、本例では、本出願人が使用する電
力計の検針票データをホストコンピュータから各事業所
のサーバ(各事業所ではこのサーバにLAN等で端末装
置が接続されている)にダウンロードする場合に適用
し、具体的にはホストコンピュータが符号化装置10に
対応し、サーバが復号化装置20に対応する。
【0026】符号化装置10は、入力装置11を介して
所定のテキストデータが入力され、そのテキストデータ
が第1CPU12内のバッファメモリに格納され、その
第1CPU12による符号化処理により生成された圧縮
データが第1記憶部13に格納されるようになる。入力
装置11としては、例えばキーボード,マウス,OCR
等のほか、他の装置で入力されたデータを用いる場合に
は、FDD,磁気テープリーダ等の記憶媒体読取装置等
が用いられる。
【0027】そして、第1記憶部13に格納されたデー
タの中で、所定のデータ(当日或いは翌日等に検針処理
を行う顧客についての検針票に必要なデータ)を抽出
し、通信制御部14を介してサーバである復号化装置2
0に転送するようになる。そして、係る抽出・転送の制
御も第1CPU12で行うが、係る具体的な制御フロー
は、従来と同様であり、本発明と直接関係ないためその
詳細な説明を省略する。また、図中符号15は、CRT
等の表示装置である。
【0028】次に、第1CPU12で行う本発明に係る
圧縮方法の一例について説明する。まず、本例では圧縮
する際に使用する制御コードフォーマット(8ビット)
を図2に示すように、従来と同様に先頭の2ビットで圧
縮タイプを現わし、下位の6ビットで圧縮対象文字列の
文字数或いは非圧縮文字列の文字数を現すようになって
いる。
【0029】ここで本実施例では、圧縮タイプとして、
非圧縮(00)と3種類の圧縮(01,10,11)の
合計4種類に分けて設定した。そして、圧縮の内容は、
後続の文字列が所定数連続して「0」の時は「01」で
現わし、後続の文字列が所定数連続して「スペース」の
時は「10」で現わし、後続の文字列が所定数連続して
「上記以外の普通文字」の時は「11」で現わすように
している。そして、圧縮タイプが「01」,「10」の
時には、後続の文字は「0」または「スペース」と一義
的に決まるため、圧縮文字を対にして符号化する必要は
ないので、制御コードのみで圧縮した文字及びその連続
する文字数を表現するようにした。これにより、従来圧
縮する場合には、必ず2バイト必要であったのに対し、
本例では1バイトで表現可能となった。
【0030】上記のように本例では、予め定める特殊文
字として「0」,「スペース」を用いることとした。そ
してこのように特殊文字に上記2つを決定したのは、検
針票中の文字は、統計的に「0」及び「スペース」が多
いため、それらを特殊文字にすることにより、圧縮率の
向上を図るためである。
【0031】検針データ等のように元から数字で表現さ
れるものに加え、顧客番号等のように数字でコード化し
て表現されるものもあり、数値データが多数存在する。
そして、各数値データは、それそれ所定の枠内に文字デ
ータとして格納されるため、桁合わせの必要から予め設
定した枠の文字数に足りない場合には、先頭に0が付加
される。従って、必然的に0が多くなる。
【0032】また、1つの検針票を出力するために必要
なデータは、それぞれ固定長として予めメモリが確保さ
れているため、そのように確保されたデータの中には、
ほとんど使用しないものもある。例えば検針用の電力量
計の交換の有無及び交換時のメータ値や、契約容量の変
更等に関するデータは、毎月生じるものではないが、か
かる事態が生じた場合には、検針票にその事実を出力し
なければならないため、それに関するデータを格納する
枠を予め取っておく必要がある。しかし、係るデータ
は、通常は使用しないため、該当するメモリ内の枠には
データが格納されず、スペースとなる。従って、必然的
に「スペース」も多くなる。
【0033】なお、係る現象は、検針票等に限る特殊な
例ではなく、各種伝票(納品書,請求書等)の帳票類を
作成・出力するアプリケーションにおいても、各票の欄
をすべて使用するわけではないので、データ中にスペー
スが多く存在し、また、請求書等の管理番号,各種の品
番等もコード化されるとともに、文字データとして扱う
必要から桁合わせを行うために「0」の使用頻度も高く
なる。よって、そのような各種の分野に適用することが
できる。
【0034】また、特殊文字としては、一般には「0」
及びまたは「スペース」が多く存在する可能性が高いた
め、本実施例では、それらを選定したが、使用する分野
に応じて文字の使用頻度に偏りがある場合には、できる
だけ多く使用している文字を特殊文字として予め決定登
録すると良く、「0」や「スペース」に限らず任意の文
字を特殊文字に使用することが良いのはもちろんであ
る。
【0035】なお、非圧縮(00)及び上記以外の圧縮
文字に対する圧縮に対して、従来と同様である。すなわ
ち、非圧縮文字の場合には、所定の制御コード(「0
0」に非圧縮文字が続く文字数に関する数値を組み合わ
せて構成される)の後ろに、すべての非圧縮文字をその
まま付加することにより現わす。また、普通文字に対す
る圧縮は、、所定の制御コード(「11」に圧縮文字が
続く文字数(圧縮対象文字列の文字数)に関する数値を
組み合わせて構成される)の後ろに、圧縮対象となった
圧縮文字を付加することにより、2バイトで現わす。
【0036】さらに本例では、普通文字に対する圧縮処
理は、普通文字が3個以上並んだ文字列を圧縮対象文字
列にするようにし、同一の2文字のみが並んでいる場合
には、非圧縮文字とし、他の1文字ずつの非圧縮文字と
並んでいる場合には、それらをまとめて符号化するよう
にしている。
【0037】すなわち、2文字の場合には、そのまま表
記しても2バイトであり、また、圧縮したとしても制御
コード(1バイト)とそれに付加する圧縮文字(1バイ
ト)の2バイトで圧縮の効果がなく、さらに、一般に同
一文字が2文字のみで存在している可能性よりも、他の
非圧縮文字と並んでいる場合のほうが大きく、係る場合
は、その非圧縮文字用の制御コードにより上記2文字文
分もまとめて管理できるため、圧縮効率が低下しない。
また、異なる文字が並んだ文字列の間に、同一の2文字
が挿入配置されているような場合には、その同一の2文
字により分断された前後の非圧縮文字列に対してそれぞ
れ制御コードを付す必要があるが、係る2文字を非圧縮
文字とすることにより、一連の1つの非圧縮文字列とみ
なせ、1つの制御コードで管理できるため、圧縮率が高
くなる可能性もある。
【0038】そして、同一文字が2文字のみ並んでいる
場合に非圧縮文字とすることによる圧縮率の影響は、同
一の2文字のみが並んでいる部分と、その前後に並ぶ他
の文字との関係で一概に向上するとはいえないが、圧縮
率が低下(数値が大きくなる)するのは、他の非圧縮文
字とつながることなく2文字のみ単独で存在する場合で
あり、全体的には圧縮率が向上する。
【0039】さらに本例では、3文字並んでいる場合の
数値を「1」としたため、例えば文字数を現す部分を6
ビットで表現した場合、従来は最大63文字並んでいる
ものしかまとめて圧縮・符号化できなかったが、圧縮対
象文字列の文字数の最低が3文字となることから、3文
字を「000001」で表現することにより65文字ま
で表現できるようになる。このように、1つの制御コー
ドで管理できる文字数が増えることにより、圧縮率が向
上する可能性がより高まる。
【0040】また、特殊文字は2文字以上連続する場合
にすべて圧縮対象文字列と判定し、圧縮するようにして
いる。すなわち、本発明では、特殊文字の場合には、制
御コードのみ(1バイト)で表現するため、2文字(2
バイト)以上から圧縮の効果が発揮するためである。そ
して、制御コード中の文字数を現す部分(6ビット)
は、2文字を「000001」、すなわち、実際の文字
数から1を引いて得られる数値とする。
【0041】なお、非圧縮文字についての文字数の表記
方法は、1文字のみ存在することがあるので、従来と同
様に文字数をそのままの数値として用いるようにした。
【0042】次に、上記方法の実施例を実施するための
符号化装置10の要部となる第1CPU12の機能につ
いて説明する。圧縮・符号化のための機能は、図3〜図
6に示すフローチャートのようになっており、具体的に
は、まず、処理すべきテキストデータの有無を判断し、
存在する場合にはその文字列をサーチし、同一文字が連
続しているか否かを判断する(ST1〜ST3)。そし
て、ここまでのステップ1〜3までの処理を行う機能部
分が、本発明における圧縮対象文字列検出手段に該当す
る。
【0043】そして、同一文字が連続している場合に
は、その文字列数をカウントした(ST4)後ステップ
1に戻り、次の文字が同一文字になっているかを判断す
る。これにより、同一文字が連続している限り、ステッ
プ1〜ステップ4のループが実行され、連続する文字列
が抽出される。
【0044】そしてステップ3の分岐判断で、同一文字
でない、すなわち、異なる文字が出現したならばステッ
プ5に飛び、その一つ前の文字(同一文字が連続した文
字列を構成する文字)が「0」であるか否かが判断さ
れ、「0」の場合には、「0」についての圧縮処理を行
った(ST6)後、ステップ1に戻る。また、「0」で
ない時にはステップ7に飛び、係る連続した文字が「ス
ペース」であるか否かが判断され、「スペース」の場合
には、「スペース」についての圧縮処理を行った(ST
8)後、ステップ1に戻る。また、「スペース」でない
時には通常文字列処理を行った(ST9)後、ステップ
1に戻る。以後、上記処理を繰り返し行う。なお、ステ
ップ7における「スペースでない」に該当する場合は、
「0」または「スペース」以外の通常文字が連続してい
る場合と、同一でない文字が続いている場合の両方が該
当する。
【0045】そして、ステップ5,7の処理を行うこと
により、連続する文字の種類を判別される。すなわち、
特殊文字である「0」または「スペース」、或いはそれ
以外の普通文字の3種類のうちのどれに該当するかが判
別される。
【0046】次に、上記各圧縮処理ステップの詳細な処
理について説明する。まず、ステップ9の普通文字列処
理は、図4に示すようになっている。まず、この処理フ
ローにくる文字列について考えると、「0」または「ス
ペース」以外の同じ文字が連続する場合がある。この文
字列の文字数は、2以上である。また、異なる文字が続
く場合があるが、係る場合には、同一でない1つ前の文
字が1文字だけ送られることになる。すなわち、仮に文
字列が「abc,…」と異なる文字が続いているとする
と、まず先頭の「a」の場合には、同一文字か否かの比
較対象がないためそのままステップ1〜4をスルーす
る。そして、ステップ2にて次の文字「b」を取得し、
ステップ3で1つ前の文字「a」と比較する。すると、
同一文字でないため1つ前の文字「a」がステップ5に
送られ、順次分岐処理を経てステップ9に行く。この
時、ステップ4におけるカウント処理は、1(aが連続
する文字数)である。以後同様の処理により、「b」,
「c」…と順にステップ9に1文字ずつ送られる。
【0047】上記の現象を考慮して以下普通文字列処理
について説明する。まず最初に送られてきた文字列の文
字数が3未満であるか否かを判断する(ST10)。す
なわち、本例では、圧縮効率の向上を図るため、普通文
字の場合には連続する文字数が3以上のときに圧縮を行
うようにしたため、このステップ10で普通文字の圧縮
対象文字列か否かが判別される。したがって、この分岐
判断でYES、すなわち、文字数が2以下の場合には、
ステップ11に飛び、さらに文字数が0か否かが判断さ
れ(ST11)、0の場合には今回の普通文字列処理が
終了し、図3に示すステップ1に戻る。なお、この時文
字列数のカウンタ(ステップ4でカウントする際に使用
するもの)をリセットしておく(初期値は1)。
【0048】また、ステップ11の分岐判断で0でない
(ステップ10から来た場合にはすべて該当する)と判
断されたなら、ステップ12に行き、当該文字を非圧縮
文字列テーブルにセットする。具体的には、すでに非圧
縮文字列テーブルに文字列がセットされている場合に
は、その後に追加し、また、同一文字が2文字連続する
場合にはその同じ文字を2文字文追加格納する。さら
に、異なる文字の場合には、1文字ずつ送られるため、
ステップ10,11,12を経て、その1文字ずつ順に
非圧縮文字列テーブルに格納される。従って、上記した
ように、「abc…」と並んでいる場合には、最終的に
非圧縮文字列には「abc…」とセットされることにな
り、これは圧縮対象文字が検出されるまで追加されてい
く。
【0049】一方、ステップ10の判断で、「No」す
なわち、同じ文字が連続して3以上並んでいる場合に
は、ステップ13に飛び、まず非圧縮文字列テーブルに
格納された、非圧縮文字列に対して符号化する。すなわ
ち、非圧縮テーブルに格納されている文字列を読み出す
とともにその文字数を検出し、非圧縮をあらわす「0
0」の後ろに文字数(6ビットで表現する)をつけて構
成される制御コードを生成し、それに続けて読出した文
字列を接続する。なお、この読出しとともに非圧縮文字
列テーブルに格納されていた文字列を消去する。また、
非圧縮文字列テーブルに格納された文字数が6ビットで
表現できる最大値(63)を越えている場合には、63
文字ずつ分割して上記制御コードを生成し付与するよう
になる。
【0050】上記非圧縮文字列に対する符合化が終了し
たならば、ステップ14〜19に示す今回の3文字以上
連続する文字列の圧縮符号化処理を行う。すなわち、ま
ず文字列を構成する数が65未満であるか否かについて
判断し、65未満の場合には、ステップ15に飛びさら
に文字数が3より小さいか否かについて判断される。そ
して、3文字未満であると、圧縮対象外(本実施例では
たとえ2文字が連続している場合でも圧縮しないように
している)のでステップ11に飛び、文字が存在してい
る場合には当該文字を非圧縮文字列テーブルにセットす
る(ST12)。この時、文字数が2の場合には同一の
文字を2文字続けてセットする。
【0051】一方、文字数が3以上ある場合には、ステ
ップ15の分岐判断の結果ステップ16に飛び、まず文
字数から2を引く(ST16)。そして、普通文字の圧
縮を示す「11」と、上記2を減じた数字を6ビットで
表現した値からなる1バイトの制御コードを生成し、そ
の次に圧縮した文字を付加する。これにより、2バイト
の圧縮コードが生成される。
【0052】また、文字列を構成する文字数が65文字
以上ある時には、1つの制御コードで表現できない(文
字数オーバー)ため、上記したステップ14の分岐判断
によりステップ18に飛び、65文字分を圧縮する制御
コードを生成する。すなわち、普通文字の圧縮を示す
「11」と、65文字に対応する「111111」(6
5−2=63)からなる1バイトの制御コードを生成
し、その次に圧縮した文字を付加する。これにより、2
バイトの圧縮コードが生成される。その後、連続する文
字数から上記処理によりすでに圧縮した文字数65を減
じた(ST19)後、ステップ14に戻り、再度文字数
に対する分岐判断が行われる。
【0053】以下上記処理を繰り返し行うことにより、
残り文字数が2以下になるまで圧縮処理が繰り返し行わ
れ、圧縮されずに残った文字が存在した場合には、その
文字を非圧縮文字として取り扱うようになる。なお、ス
テップ14,15における文字数の分岐判断対象となる
数は、ステップ4でカウントした値またはその値からス
テップ9により65ずつ減じた各値となる。
【0054】一方、ステップ6の特殊文字「0」につい
ての圧縮処理は、具体的には図5に示すようになってい
る。すなわち、まず非圧縮文字列テーブルに格納され
た、非圧縮文字列に対して符号化する(ST20)。こ
の符合化処理は、ステップ13と同様で、非圧縮テーブ
ルに格納されている文字列を読み出すとともにその文字
数を検出し、非圧縮をあらわす「00」の後ろに文字数
(6ビットで表現する)をつけて構成される制御コード
を生成し、それに続けて読出した文字列を接続する。な
お、この読出しとともに非圧縮文字列テーブルに格納さ
れていた文字列を消去する。また、非圧縮文字列テーブ
ルに格納された文字数が6ビットで表現できる最大値
(63)を越えている場合には、63文字ずつ分割して
上記制御コードを生成し付与するようになる。
【0055】上記非圧縮文字列に対する符合化が終了し
たならば、ステップ21〜28に示す「0」に対する圧
縮符号化処理を行う。すなわち、まず文字列を構成する
数が64文字未満であるか否かについて判断する。ここ
で、上記した普通の文字に対する圧縮処理では65文字
未満か否かで分岐判断を行ったのに対し、を[0」の場
合に64文字未満としたのは、普通文字の場合には3文
字以上連続する場合に圧縮対象としたのに対して特殊文
字の場合には2文字以上連続する場合に圧縮対象とした
のに対応させている。
【0056】また、文字列を構成する文字数が64文字
以上ある時には、1つの制御コードで表現できない(文
字数オーバー)ため、64文字分を圧縮する制御コード
を生成する。すなわち、「0」の圧縮を示す「01」
と、64文字に対応する「111111」(64−1=
63)からなる1バイトの制御コードを生成し、出力す
る。これにより、1バイトの圧縮コードが生成される
(ST22)。その後、連続する文字数から上記処理に
よりすでに圧縮した文字数64を減じた(ST23)
後、ステップ21に戻り、再度文字数に対する分岐判断
が行われる。
【0057】そして、上記処理を繰り返し行うことによ
り、文字数が64未満になると、ステップ21の分岐判
断でステップ24に飛び、さらに文字数が2より小さい
か否かについて判断される。そして、2文字以上である
と、圧縮対象文字列が存在することを意味するので、ス
テップ25に飛び、まず文字数から1を引き、次いで
「0」の圧縮を示す「01」と、上記1を減じた数字を
6ビットで表現した値からなる1バイトの制御コードを
生成し、出力する(ST26)。これにより、1バイト
の圧縮コードが生成される。
【0058】また、文字数が2未満、すなわち、1また
は0の時には、ステップ24の分岐判断でステップ27
に飛び、文字数が1の場合には、「0」を1文字分だけ
非圧縮文字テーブルにセットする(ST27,28)。
【0059】一方、ステップ9における特殊文字「スペ
ース」に対する圧縮処理は、具体的には、図6に示すよ
うになっている。同図から明らかなように、基本的には
図5に示す上記「0」に対する圧縮処理と同様であり、
異なる点は、ステップ32,36の制御コードを生成す
る際の先頭の2ビットを「10」にすることである。そ
の他の処理は、上記した「0」の場合と同様であるた
め、詳細な説明を省略する。
【0060】次に、具体的な文字列を用いて上記圧縮方
法について説明する。処理対象の文字列が、図7(A)
に示すようになっているとする。なお図中「四角」は
「スペース」を意味する。図示の例では、「C」が連続
して5個並んでいるため、普通文字の圧縮対象文字列と
なり、また、「0」,「スペース」もそれぞれ特殊文字
の圧縮対象文字列となる。
【0061】係る文字列を符合化装置10に入力する。
すると、文字列の先頭から順番にサーチが行われ、図3
に示すステップ3にて「A」と「B」が比較される。す
ると、両者は異なるため、文字「A」がステップ5に送
られ、最終的に非圧縮文字列テーブルにセットされる。
同様に「B」も次の文字「C」と比較され、両者は異な
るため、「B」が非圧縮文字列テーブルにセットされ
る。これにより、テーブルには「AB」が格納される。
【0062】次に、3番目の「C」と4番目の「C」と
が比較される。すると、同じであるため、さらに次の5
番目の「C」と比較される。このようにして異なる文字
「D」が出現するまで、ステップ1〜4のループを繰り
返し行うことになる。そして、ステップ3で8番目の文
字「D」と比較されると、両者が異なるため、1つ前の
文字「C」がステップ5に飛び、最終的にステップ9の
処理が実行される。
【0063】すなわち、「C」の文字数が5であるので
図4に示すステップ13が実行されて、まず非圧縮文字
列テーブルに格納されている「AB」についての符合化
が行われる。これにより、「00」に文字数(2)をあ
らわす「000010」を付加して制御コードの後ろに
処理対象の文字「AB」を連続して出力する。
【0064】これに続いて、圧縮文字「C」の処理が行
われ、本例の場合では、ステップ14,15を経てステ
ップ16に行き、最終的にステップ17が実行されて
「11」の後ろに文字数3(=5−2)をあらわす「0
0011」を付加して構成される制御コードと、それに
続いて対象文字「C」が出力される。
【0065】以下同様に、「0」についてはステップ6
が、またスペースについてステップ8がそれぞれ実行さ
れ、それ以外はステップ9が実行されることにより、図
7(B)に示すような状態で圧縮される。そして、この
圧縮は、1パスにより作成できる。
【0066】そして、この例では圧縮前のテキストデー
タが29バイトあったのに対し、圧縮により19バイト
で表現されるようになる。これにより上記した従来方法
の圧縮(21バイト)よりもさらに圧縮されたことが確
認された。さらに、特殊文字が連続して64文字存在し
ている場合や、普通文字が連続して65文字存在してい
る場合には、本実施例ではそれぞれ1バイト(特殊文
字),2バイトで表現できるのに対し、従来の圧縮方法
では、いずれの場合も4バイトが必要となり、連続する
文字数が多くなるほど、その圧縮の効果は顕著となる。
【0067】そして、図8(A)に示すような実際の検
診票のデータについて圧縮処理を行ったところ、同図
(B)のような圧縮後のデータがえられた。なお、図
(A)中空白部分はすべせてスペースが存在している。
また、同図(B)中「@」,「#」,「$」,「*」は
各文字列の制御コードを記号化して示しており、実際に
は、圧縮タイプを示す所定の2ビットとそれに続く文字
数に対応した6ビットにより表現される。そして、この
例では、圧縮前のデータ量は584バイトあったのに対
し、圧縮後のデータ量は211バイトとなり、36%の
圧縮率が得られた。
【0068】次に、復号化装置20について説明する。
復号化装置20は、上記符号化装置10により圧縮され
たデータを解凍(伸長)し元のテキストデータに復号化
するための装置で、図1に示すように、符号化装置10
より送られる圧縮データを通信制御部21を介して第2
CPU21が受けとり、所定の復号化処理を行い得られ
た元のテキストデータを第2記憶部23に格納するよう
にしている。そして、第2記憶部23に格納されたデー
タを、順次プリンター25に出力し、これにより、検針
票がプリントアウトされる。なお、符号26はCRT等
の表示装置で、処理状態を表示可能となっている。
【0069】そして、実際の復号化処理を行う第2CP
U22の機能は、図9に示すようになっている。すなわ
ち、処理すべきデータがある場合には、文字列の先頭か
ら順にデータを読み込む。すると、先頭には必ず制御コ
ードが存在するため、その制御コードを読み込む(ST
41,42)。
【0070】そして、先頭の2ビットを検出し、その内
容に応じて所定の処理を行う(ST43)。すなわち、
先頭の2ビットが「00」の場合には、ステップ44に
飛ぶ。そして、「00」は圧縮しないタイプであるの
で、その後ろの6ビット(制御コードの下位6ビット)
で表現される数値はそのまま制御コードに続く文字数を
意味する。従って、当該文字数(バイト数)だけ、その
制御コードに続く文字列を出力する。これにより、非圧
縮文字列が復元される。
【0071】また、先頭の2ビットが「01」の場合に
は、ステップ45に飛ぶ。そして、「01」は特殊文字
「0」についての圧縮タイプであるのて、それに続く6
ビットで表現される数値は、圧縮した文字数よりも1少
ない値である。従って、まずその6ビットの数値に1を
加えて、圧縮した連続する文字数を算出する。次いで、
「0」の場合には、制御コードの後ろには圧縮対象の文
字である「0」を配置していないので、上記計算したバ
イト数だけ「0」を出力する(ST46)。
【0072】同様に、先頭の2ビットが「10」の場合
には、ステップ46に飛ぶ。そして、「10」は特殊文
字「1」についての圧縮タイプであるのて、それに続く
6ビットで表現される数値は、圧縮した文字数よりも1
少ない値である。従って、まずその6ビットの数値に1
を加えて、圧縮した連続する文字数を算出する。次い
で、「1」の場合には、制御コードの後ろには圧縮対象
の文字である「1」を配置していないので、上記計算し
たバイト数だけ「1」を出力する(ST48)。
【0073】さらに、先頭の2ビットが「11」の場合
には、ステップ49に飛ぶ。そして、「11」は普通文
字についての圧縮タイプであるので、それに続く6ビッ
トで表現される数値は、圧縮した文字数よりも2少ない
値である。従って、まずその6ビットの数値に2を加え
て、圧縮した連続する文字数を算出する。次いで、普通
文字の場合には、制御コードの後ろに圧縮した文字が連
続して配置されているので、当該文字を上記計算したバ
イト数だけ出力する(ST50)。以下、上記処理を処
理すべきデータがなくなるまで繰り返し行うことによ
り、圧縮した文字列を復元(伸長)することができる。
【0074】なお、上記した実施例では、符号化装置と
復号化装置とは、通信回線を介して接続されているが、
本発明はこれに限ることなく、所定のケーブルはもちろ
んのこと、例えばFD等の記憶媒体を用いてデータの送
受を行うようにしたり、或いは1つの装置内に実装され
ているものでもよく、その使用態様は任意である。さら
に、符号化装置と復号化装置は1対1のペアで使用され
ることに限られないのはいうまでもない。
【0075】
【発明の効果】以上のように、本発明に係るテキストデ
ータの符号化方法及び装置並びにその復号化方法及び装
置では、文字を圧縮する場合に、特殊文字と普通文字に
分け、予め定めた特殊文字についての圧縮は、そのタイ
プと文字数からなる制御コードのみにより表現したた
め、1バイトでの表現が可能となった。その結果、圧縮
率が向上する。
【0076】そして、圧縮は、前後の文字が同じか否か
を検出するとともに、同一の文字が予め決めた特種文字
か否かを判断するだけで、その判断結果に基づいて圧縮
のための制御コード等を生成することができるので、1
パス方式により圧縮することができる。よって簡単なシ
ステムにより圧縮・解凍(復号)可能とし、CPUに与
える付加を小さくして短時間で多量のテキストデータに
対する圧縮処理等を行うことができる。
【0077】また、普通文字を圧縮する場合に、連続す
る文字数が3文字以上の時に圧縮対象文字列と認定する
ようにした場合には、2文字の場合にはそれに続く他の
非圧縮文字列とまとめて1つの制御コードにより符号化
されるため、符号化に使用する制御コードの数が少なく
なる可能性が高く、より圧縮率が高まる。
【0078】さらに、係る場合に制御コード中の文字数
を表現するエリアに格納する数値として、実際の文字数
よりも2だけ少なくした値を用いることにより、1つの
制御コードで表現可能な連続する文字数を多くする(6
ビットの場合には63文字から65文字にする)ことが
できる。その結果、連続する文字数が多い程、それを表
現するために必要な制御コード数を少なくすることがで
き、より圧縮率が高まる。
【図面の簡単な説明】
【図1】本発明に係る符号化方法及び復号化方法を実施
するためのシステム全体を示す構成図である。
【図2】本実施例で使用する制御コードのデータ構造を
示す図である。
【図3】第1CPUの機能である符号化方法の一例を示
すフローチャートである。
【図4】図3のステップ9の具体的な処理を示すフロー
チャートである。
【図5】図3のステップ6の具体的な処理を示すフロー
チャートである。
【図6】図3のステップ8の具体的な処理を示すフロー
チャートである。
【図7】符号化方法の実施例の作用を説明する図であ
る。
【図8】符号化方法の実施例の作用を説明する図であ
る。
【図9】第2CPUの機能である復号化方法の一例を示
すフローチャートである。
【図10】従来の圧縮方法に用いる制御コードの一例を
示す図である。
【図11】従来の圧縮方法の作用を説明する図である。
【符号の説明】
10 符号化装置 11 入力装置 12 第1CPU 13 第1記憶部 14 通信制御部(出力手段) 15 CRT(出力手段) 20 符合化装置 21 通信制御部(入力手段) 22 第2CPU 23 第2記憶部 25 プリンタ(出力手段) 26 CRT(出力手段)

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータに対して行う1回のサー
    チで、前記テキストデータ中に存在する同一文字が連続
    する文字列を検出し、それを制御コードを用いて符号化
    して圧縮データを作成する符号化方法において、 前記制御コードとして、後続の文字が圧縮しているか否
    かを示す圧縮タイプを示す部分と、その制御コードが管
    理する後続の文字数を示す部分とを備えたものを用い、 前記圧縮タイプが、少なくとも1つの予め定めた特殊文
    字を示す符号と、その特殊文字以外の通常文字を示す符
    号とを備え、 前記圧縮対象の文字列が前記特殊文字により構成される
    場合には、前記制御コードのみにより符号化し、 前記圧縮対象の文字列が前記普通文字により構成される
    場合には、前記制御コードにその圧縮対象文字を付加し
    て符号化し、 非圧縮文字が存在する場合には、前記制御コードに非圧
    縮文字を付加して符号化するようにしたテキストデータ
    の符号化方法。
  2. 【請求項2】 前記特殊文字が、「0」または「スペー
    ス」の少なくとも一方である請求項1に記載のテキスト
    データの符号化方法。
  3. 【請求項3】 前記普通文字に対して行う圧縮は、同一
    文字が3文字以上連続する場合に圧縮対象文字列と判定
    し、圧縮タイプの制御コードとともに符号化するように
    した請求項1または2に記載のテキストデータの符号化
    方法。
  4. 【請求項4】 普通文字からなる圧縮文字列を現わす前
    記制御コード中の後続の文字数を示す部分に格納する数
    値を、実際の文字数から2を減算して得られる数値とし
    た請求項3に記載のテキストデータの符号化方法。
  5. 【請求項5】 特殊文字からなる圧縮文字列を現わす前
    記制御コード中の後続の文字数を示す部分に格納する数
    値を、実際の文字数から1を減算して得られる数値とし
    た請求項1〜4のいずれか1項に記載のテキストデータ
    の符号化方法。
  6. 【請求項6】 テキストデータを入力する入力手段と、 前記入力手段を介して与えられるテキストデータをサー
    チして同一文字が所定数連続する文字列を検出する圧縮
    対象文字列検出手段と、 前記検出した圧縮対象の文字列を構成する文字が特殊文
    字か否かを判断する文字種類判別手段と、 圧縮対象文字及び非圧縮文字の連続する文字数を検出す
    る文字数検出手段と、 前記検出した文字数と文字種類に基づいて制御コードを
    生成するとともに、符号化する手段と前記生成した制御
    コードを含む圧縮データを出力する出力手段とを備えた
    テキストデータの符号化装置。
  7. 【請求項7】 圧縮データ中の制御コードを検出し、そ
    の制御コードに格納された圧縮タイプを判別し、 判別結果が、特殊文字に対する圧縮の場合には、制御コ
    ードに格納された文字数に関するデータに基づいて、前
    記特種文字を所定数出力し、 判別結果が、普通文字に対する圧縮の場合には、その制
    御コードに続く圧縮対象文字を、その制御コードに格納
    された文字数に関するデータに基づいて所定数出力し、 判別結果が非圧縮の場合には、制御コードに格納された
    文字数に関するデータに基づいてその制御コードの後ろ
    に続く非圧縮文字の文字数を求め、当該制御コードに続
    く非圧縮文字を出力するようにしたテキストデータの復
    号化方法。
  8. 【請求項8】 圧縮データを入力する入力手段と、 前記入力手段を介して与えられる圧縮データ中の制御コ
    ードを検出し、その制御コード中の圧縮タイプを判別す
    る圧縮タイプ判別手段と、 その圧縮タイプ判別手段の判別結果に基づいて、前記制
    御コード中の文字数に関するデータに基づいて、その制
    御コードに続く圧縮/非圧縮文字または所定の特種文字
    を所定数出力する手段とを備えたテキストデータの復号
    化装置。
JP6333740A 1994-12-19 1994-12-19 テキストデータの符号化方法及び装置並びにその復号化方法及び装置 Withdrawn JPH08171478A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6333740A JPH08171478A (ja) 1994-12-19 1994-12-19 テキストデータの符号化方法及び装置並びにその復号化方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6333740A JPH08171478A (ja) 1994-12-19 1994-12-19 テキストデータの符号化方法及び装置並びにその復号化方法及び装置

Publications (1)

Publication Number Publication Date
JPH08171478A true JPH08171478A (ja) 1996-07-02

Family

ID=18269431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6333740A Withdrawn JPH08171478A (ja) 1994-12-19 1994-12-19 テキストデータの符号化方法及び装置並びにその復号化方法及び装置

Country Status (1)

Country Link
JP (1) JPH08171478A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338903A (ja) * 2004-05-24 2005-12-08 Fujitsu Ltd 文書開示方法、プログラム及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338903A (ja) * 2004-05-24 2005-12-08 Fujitsu Ltd 文書開示方法、プログラム及び装置

Similar Documents

Publication Publication Date Title
JP3859313B2 (ja) タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
TW312771B (ja)
JP3553106B2 (ja) テキスト圧縮駆動部構築方法及び入力テキスト列圧縮方法
US6563438B2 (en) Encoding and decoding apparatus with matching length means for symbol strings
US6529912B2 (en) Data compressing apparatus and a data decompressing apparatus, a data compressing method and a data decompressing method, and a data compressing or decompressing dictionary creating apparatus and a computer readable recording medium storing a data compressing program or a data decompressing program
CN100576753C (zh) 静态赫夫曼解码的系统和方法
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
US7483585B2 (en) Image compression using variable bit size run length encoding
CN108322220A (zh) 编解码方法、装置及编解码设备
EP1803225A1 (en) Adaptive compression scheme
US11070231B2 (en) Reducing storage of blockchain metadata via dictionary-style compression
US5444445A (en) Master + exception list method and apparatus for efficient compression of data having redundant characteristics
TWI273779B (en) Method and apparatus for optimized lossless compression using a plurality of coders
Rahman et al. A novel lossless coding technique for image compression
JP2015534795A (ja) セキュアで損失のないデータ圧縮
JPH08171478A (ja) テキストデータの符号化方法及び装置並びにその復号化方法及び装置
JPH10164374A (ja) パタン符号化方式及び復号化方式とこの方式を用いた符号化装置及び復号化装置
US20090083267A1 (en) Method and System for Compressing Data
Shanmugasundaram et al. IIDBE: A lossless text transform for better compression
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
US5548687A (en) Method and apparatus for controlling a printer using the N/2r format
Nguyen et al. Decision tree algorithms for image data type identification
JP3265268B2 (ja) 文字列圧縮方式
Ong et al. A data compression scheme for Chinese text files using Huffman coding and a two-level dictionary
JPH1155125A (ja) 文字データの圧縮・復元方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020305