JPH08171478A

JPH08171478A - テキストデータの符号化方法及び装置並びにその復号化方法及び装置

Info

Publication number: JPH08171478A
Application number: JP6333740A
Authority: JP
Inventors: Osamu Miura; 修三浦
Original assignee: Tokyo Electric Power Co Inc
Current assignee: Tokyo Electric Power Company Holdings Inc
Priority date: 1994-12-19
Filing date: 1994-12-19
Publication date: 1996-07-02

Abstract

(57)【要約】【目的】１パス方式を採用するとともに、圧縮率の向
上を図るテテキストデータの符号化方法を提供すること【構成】制御コードとして、図示のような後続の文字
が圧縮しているか否かを示す圧縮タイプを示す部分と、
その制御コードが管理する後続の文字数を示す部分とを
備えたものを用いる。圧縮タイプは、非圧縮（００）と
３種類の圧縮（０１，１０，１１）の合計４種類に分け
て設定し、特殊文字である「０」，「スペース」を圧縮
する場合には「０１」，「１０」を使用する。すると、
圧縮タイプが「０１」，「１０」の時は、圧縮対象の文
字列が一義的に決まるためその特殊文字を圧縮する場合
には制御コードのみにより符号化する。これにより、従
来圧縮する場合には、必ず２バイト必要であったのに対
し、１バイトで表現可能となり、圧縮率が向上する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テキストデータの符号
化方法及び装置並びにその復号化方法及び装置に関する
もので、より具体的には１パス方式で行うテキストデー
タに対する圧縮方式（符号化／復合化）の改良に関す
る。

【０００２】

【従来の技術】文字列から構成されるテキストデータを
送信する際に、処理時間の短縮を図るために、処理対象
のテキストデータに対して所定の方式でデータを圧縮
し、元のデータに比較して少ない情報数（バイト数）で
表現した圧縮データを相手に送り、相手側は、所定の方
式に従って圧縮データを復元（解凍）し、本来のテキス
トデータに戻すようにしている。

【０００３】そして、この種の圧縮方式は、１パス方式
と２パス（３パス以上も含む）方式があり、前者は、処
理対象のテキストデータを先頭から順に読取り解析しつ
つ変換（圧縮）処理を行うもので、テキストデータを１
回走査すると、圧縮データが生成される。

【０００４】そして係る圧縮を行う方式として、従来、
ＩＮＴＡＰ−ＴＳＩ圧縮方法が良く知られている。この
圧縮方法は、テキスト中に同一文字が連続して存在する
場合に、それを２バイトで符号化するようにしている。
具体的には、図１０に示すような８ビットの制御コード
を用い、この制御コードと圧縮対象文字（多くとも８ビ
ットで表現する）を組み合わせて表現する。

【０００５】すなわち、制御コードは、先頭の２ビット
が圧縮タイプを示し、残りの６ビットがこの制御コード
に続く文字列の文字数を現している。そして、圧縮タイ
プとしては、「後続の文字列が圧縮されていない（０
０）」と、「後続の文字列が圧縮されている（１１）」
の２種類を判別するようになっている。圧縮タイプが
「００（非圧縮）」の場合には、制御コードの残りの６
ビットは、後続する圧縮されていない文字の数を示し、
圧縮タイプが「１１」の場合には、制御コードの残りの
６ビットは、後続する圧縮された同一文字の連続文字数
を示すようになっている。

【０００６】そして、圧縮の一例を示すと、例えば圧縮
前のテキストが図１１（Ａ）に示すようになっていると
すると、まず、テキストデータの先頭の「ＡＢ」は同一
文字が連続していないため、圧縮後のデータでは、まず
制御コードが非圧縮を示す「００」とそれに続く文字数
（２）を示す「０００１０」の組み合わせ（１バイト）
からなり、その制御コードに続いて、圧縮されなかった
文字「ＡＢ」（２バイト）がくる。そして、「Ｂ」の次
には、「Ｃ」が５個続いているので、「Ｂ」の次には、
制御コード（圧縮を示す「１１」と、それに続く文字数
（５）を示す「００１０１」を組み合わせて構成され
る）と、それに続いて圧縮された「Ｃ」を示すコード
（１バイト）となり、以下、上記処理を繰り返すことに
より、同図（Ｂ）に示すような圧縮後のデータが得られ
る。この例では、圧縮前は、２９バイトあったのに対
し、圧縮後は２１バイトで表現される。なお、図中「四
角」は「スペース」を意味している。

【０００７】一方、後者は、処理対象のテキストデータ
に対して何回も繰り返し走査し、同一のパターン（文字
列）で繰り返されている部分を検出し、係る文字列を所
定の圧縮データに変換するようにする。そして、この繰
り返しは、連続して繰り返されているもののみを着目し
処理対象とする方式と、テキストデータ全体に不連続状
態で出現される文字列も処理対象とする方式等種々のも
のがある。

【０００８】

【発明が解決しようとする課題】しかしながら、上記し
た従来の各種の圧縮方法では、それぞれ下記に示す問題
を有している。すなわち、１パス方式の場合には、処理
時間が短く、処理を行うＣＰＵに対して与える付加も少
なくて済むが、圧縮する場合に制御コードと圧縮する文
字を必ずペアにして表現するため、圧縮率が悪く、ま
た、同一文字が３文字（バイト）以上連続しない場合に
は圧縮の効果が生じない。すなわち、２文字が連続して
いるだけでは圧縮してもしなくても使用するバイト数は
２バイト必要であるからである。

【０００９】また、２パス方式の圧縮方法では、圧縮率
は非常に高くなるが、少なくとも２回以上テキストデー
タを読み取る処理が必要であるともとに、複雑なアプリ
ケーションにより圧縮するため、ＣＰＵに対する負荷が
大きく、さらに１つのテキストデータに対して行う処理
時間が長くなる。

【００１０】したがって、例えば処理対象のテキストデ
ータの数が多い場合には、ＣＰＵが他の大量のバッチ処
理のために稼働しており、余裕がない時には、２パス方
式は実用に供し得ない。

【００１１】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、上記した問題を解決
し、１パス方式を採用するとともに、簡単なシステムに
より圧縮・解凍（復号）可能とし、ＣＰＵに与える付加
を小さくして短時間で多量のテキストデータに対する圧
縮処理等を行うことができ、しかも、圧縮率を可及的に
抑制することのできるテキストデータの符号化方法及び
装置並びにその復号化方法及び装置を提供することにあ
る。

【００１２】

【課題を解決するための手段】上記した目的を達成する
ため、本発明に係るテキストデータの符号化方法では、
テキストデータに対して行う１回のサーチで、前記テキ
ストデータ中に存在する同一文字が連続する文字列を検
出し、それを制御コードを用いて符号化して圧縮データ
を作成する符号化方法において、前記制御コードとし
て、後続の文字が圧縮しているか否かを示す圧縮タイプ
を示す部分と、その制御コードが管理する後続の文字数
を示す部分とを備えたものを用いる。前記圧縮タイプと
しては、少なくとも１つの予め定めた特殊文字を示す符
号と、その特殊文字以外の通常文字を示す符号とを備え
る。そして前記圧縮対象の文字列が前記特殊文字により
構成される場合には、前記制御コードのみにより符号化
し、前記圧縮対象の文字列が前記普通文字により構成さ
れる場合には、前記制御コードにその圧縮対象文字を付
加して符号化し、非圧縮文字が存在する場合には、前記
制御コードに非圧縮文字を付加して符号化するようにし
た。

【００１３】そして、前記特殊文字が、「０」または
「スペース」の少なくとも一方であることが好ましい。
また前記普通文字に対して行う圧縮は、同一文字が３文
字以上連続する場合に圧縮対象文字列と判定し、圧縮タ
イプの制御コードとともに符号化するようにすると良
く、しかもその場合に、圧縮文字列を現わす前記制御コ
ード中の後続の文字数を示す部分に格納する数値を、実
際の文字数から２を減算して得られる数値とするとなお
良い。

【００１４】上記の方法を実施するのに適した本発明に
係る符号化装置では、テキストデータをサーチして同一
文字が所定数連続する文字列を検出する圧縮対象文字列
検出手段と、前記検出した圧縮対象の文字列を構成する
文字が特殊文字か否かを判断する文字種類判別手段と、
圧縮対象文字及び非圧縮文字の連続する文字数を検出す
る文字数検出手段と、前記検出した文字数と文字種類に
基づいて制御コードを生成するとともに符号化する手段
とから構成した。

【００１５】さらに、上記の方法により符号化した圧縮
データを元のテキストデータに複合化するための本発明
に係る復号化方法としては、圧縮データ中の制御コード
を検出し、その制御コードに格納された圧縮タイプを判
別し、判別結果が、特殊文字に対する圧縮の場合には、
制御コードに格納された文字数に関するデータに基づい
て、前記特種文字を所定数出力し、判別結果が、普通文
字に対する圧縮の場合には、その制御コードに続く圧縮
対象文字を、その制御コードに格納された文字数に関す
るデータに基づいて所定数出力し、判別結果が非圧縮の
場合には、制御コードに格納された文字数に関するデー
タに基づいてその制御コードの後ろに続く非圧縮文字の
文字数を求め、当該制御コードに続く非圧縮文字を出力
するようにした。

【００１６】さらに、上記方法を実施するために適した
圧縮データを入力する入力手段と、前記入力手段を介し
て与えられる圧縮データ中の制御コードを検出し、その
制御コード中の圧縮タイプを判別する圧縮タイプ判別手
段と、その圧縮タイプ判別手段の判別結果に基づいて、
前記制御コード中の文字数に関するデータに基づいて、
その制御コードに続く圧縮／非圧縮文字または所定の特
種文字を所定数出力する手段とから構成した。

【００１７】

【作用】符号化する場合には、処理対象のテキストデー
タを先頭から順にサーチして行き、前後に続く文字が同
じか否かを判断する。そして、異なる場合にはその前の
文字は非圧縮文字と認定され、また同一の場合には圧縮
対象文字（３文字以上連続することを条件とする場合に
は、圧縮対象文字候補）とされる。

【００１８】仮に非圧縮文字が続いている場合には、次
に圧縮対象文字が出現するまでその連続する非圧縮文字
列を確保する。そして、圧縮対象文字列が検出されたな
ら、それまで確保しておいた文字列の文字数を検出し、
非圧縮を示す圧縮タイプとその検出した文字数からなる
制御コードを生成するとともに、その制御コードに続い
て上記文字列を配置する。これにより、非圧縮文字列の
符号化が行われる。なお、１つの制御コードで表現可能
な最大字数を越えている場合には、複数に分割して表現
・符号化する。

【００１９】同一の普通文字が連続して構成される圧縮
対象文字列が検出されたなら、その文字列の文字数を検
出し、普通文字の圧縮を示す圧縮タイプとその検出した
文字数からなる制御コードを生成するとともに、その制
御コードに続いて圧縮した文字を１文字配置する。これ
により、普通文字の圧縮文字列の符号化が行われる。な
お、１つの制御コードで表現可能な最大字数を越えてい
る場合には、複数に分割して表現・符号化する。なおま
た、制御コードを構成する文字数を示す数値は、実際の
文字数をそのまま格納するようにしても良く、また、実
際の文字数よりも２だけ減らした値としても良く、後者
の場合には、１つの制御コードで表現できる文字数が前
者のものに比べて２文字増える。

【００２０】また、同一の特種文字が連続して構成され
る圧縮対象文字列が検出されたなら、その文字列の文字
数を検出し、特殊文字の圧縮を示す圧縮タイプとその検
出した文字数からなる制御コードを生成し、その制御コ
ードのみで符号化する。これにより、特殊文字の圧縮文
字列の符号化が行われる。なお、１つの制御コードで表
現可能な最大字数を越えている場合には、複数に分割し
て表現・符号化する。これにより、１回のサーチで圧縮
データが生成される。

【００２１】一方、上記のようにして符号化された圧縮
データを通常のテキストデータに復元するための復号化
処理は、圧縮データを先頭よりサーチし、制御コードを
検出し、その制御コード中の圧縮タイプを解読する。そ
して、圧縮タイプが特殊文字の場合には、制御コードの
後ろには圧縮対象文字がないので、制御コードに格納さ
れた文字数に関するデータに基づいて、所定の特種文字
を所定数出力する。

【００２２】また、圧縮タイプが普通文字に対する圧縮
の場合には、その制御コードの後ろには圧縮した文字が
１つだけ続いて配置されているので、その圧縮対象文字
を、その制御コードに格納された文字数に関するデータ
に基づいて所定数出力する。

【００２３】さらに圧縮タイプが非圧縮の場合には、制
御コードの後ろにはその制御コードで管理・表現される
すべての非圧縮文字が存在しているので、当該制御コー
ドに格納された文字数に関するデータに基づいてその制
御コードの後ろに続く非圧縮文字の文字数を求め、当該
制御コードに続く非圧縮文字を出力する。これにより、
１回のサーチで通常のテキストデータに解凍・復元され
る。

【００２４】

【実施例】以下、本発明に係るテキストデータの符号化
方法及び装置並びにその復号化方法及び装置の好適な実
施例を添付図面を参照にして詳述する。図１は、本発明
の一実施例を示すシステムの概略構成を示している。図
中左側に示す圧縮データを生成する符号化装置１０と、
図中右側に示す生成された圧縮データを元のテキストデ
ータに復元する復号化装置２０とが、専用回線・公衆回
線等の所定の通信回線３０を介して接続されている。符
号化装置１０，復号化装置２０は、ネットワークを組ん
だホストコンピュータと端末装置であったり、対等のコ
ンピュータ同士であったり、或いはデータ通信を行うた
めに接続されたコンピュータ同士である等の他、種々の
態様がある。そして、ホストコンピュータと端末装置の
場合には、いずれもが符号化装置１０並びに復号化装置
２０になり得るとともに、例えばホストコンピュータの
下位に所定数のサーバを接続し、さらにそのサーバの下
位に所定数の端末を接続した３層或いはそれ以上の階層
構造からなるネットワークにも適用できる。

【００２５】そして、本例では、本出願人が使用する電
力計の検針票データをホストコンピュータから各事業所
のサーバ（各事業所ではこのサーバにＬＡＮ等で端末装
置が接続されている）にダウンロードする場合に適用
し、具体的にはホストコンピュータが符号化装置１０に
対応し、サーバが復号化装置２０に対応する。

【００２６】符号化装置１０は、入力装置１１を介して
所定のテキストデータが入力され、そのテキストデータ
が第１ＣＰＵ１２内のバッファメモリに格納され、その
第１ＣＰＵ１２による符号化処理により生成された圧縮
データが第１記憶部１３に格納されるようになる。入力
装置１１としては、例えばキーボード，マウス，ＯＣＲ
等のほか、他の装置で入力されたデータを用いる場合に
は、ＦＤＤ，磁気テープリーダ等の記憶媒体読取装置等
が用いられる。

【００２７】そして、第１記憶部１３に格納されたデー
タの中で、所定のデータ（当日或いは翌日等に検針処理
を行う顧客についての検針票に必要なデータ）を抽出
し、通信制御部１４を介してサーバである復号化装置２
０に転送するようになる。そして、係る抽出・転送の制
御も第１ＣＰＵ１２で行うが、係る具体的な制御フロー
は、従来と同様であり、本発明と直接関係ないためその
詳細な説明を省略する。また、図中符号１５は、ＣＲＴ
等の表示装置である。

【００２８】次に、第１ＣＰＵ１２で行う本発明に係る
圧縮方法の一例について説明する。まず、本例では圧縮
する際に使用する制御コードフォーマット（８ビット）
を図２に示すように、従来と同様に先頭の２ビットで圧
縮タイプを現わし、下位の６ビットで圧縮対象文字列の
文字数或いは非圧縮文字列の文字数を現すようになって
いる。

【００２９】ここで本実施例では、圧縮タイプとして、
非圧縮（００）と３種類の圧縮（０１，１０，１１）の
合計４種類に分けて設定した。そして、圧縮の内容は、
後続の文字列が所定数連続して「０」の時は「０１」で
現わし、後続の文字列が所定数連続して「スペース」の
時は「１０」で現わし、後続の文字列が所定数連続して
「上記以外の普通文字」の時は「１１」で現わすように
している。そして、圧縮タイプが「０１」，「１０」の
時には、後続の文字は「０」または「スペース」と一義
的に決まるため、圧縮文字を対にして符号化する必要は
ないので、制御コードのみで圧縮した文字及びその連続
する文字数を表現するようにした。これにより、従来圧
縮する場合には、必ず２バイト必要であったのに対し、
本例では１バイトで表現可能となった。

【００３０】上記のように本例では、予め定める特殊文
字として「０」，「スペース」を用いることとした。そ
してこのように特殊文字に上記２つを決定したのは、検
針票中の文字は、統計的に「０」及び「スペース」が多
いため、それらを特殊文字にすることにより、圧縮率の
向上を図るためである。

【００３１】検針データ等のように元から数字で表現さ
れるものに加え、顧客番号等のように数字でコード化し
て表現されるものもあり、数値データが多数存在する。
そして、各数値データは、それそれ所定の枠内に文字デ
ータとして格納されるため、桁合わせの必要から予め設
定した枠の文字数に足りない場合には、先頭に０が付加
される。従って、必然的に０が多くなる。

【００３２】また、１つの検針票を出力するために必要
なデータは、それぞれ固定長として予めメモリが確保さ
れているため、そのように確保されたデータの中には、
ほとんど使用しないものもある。例えば検針用の電力量
計の交換の有無及び交換時のメータ値や、契約容量の変
更等に関するデータは、毎月生じるものではないが、か
かる事態が生じた場合には、検針票にその事実を出力し
なければならないため、それに関するデータを格納する
枠を予め取っておく必要がある。しかし、係るデータ
は、通常は使用しないため、該当するメモリ内の枠には
データが格納されず、スペースとなる。従って、必然的
に「スペース」も多くなる。

【００３３】なお、係る現象は、検針票等に限る特殊な
例ではなく、各種伝票（納品書，請求書等）の帳票類を
作成・出力するアプリケーションにおいても、各票の欄
をすべて使用するわけではないので、データ中にスペー
スが多く存在し、また、請求書等の管理番号，各種の品
番等もコード化されるとともに、文字データとして扱う
必要から桁合わせを行うために「０」の使用頻度も高く
なる。よって、そのような各種の分野に適用することが
できる。

【００３４】また、特殊文字としては、一般には「０」
及びまたは「スペース」が多く存在する可能性が高いた
め、本実施例では、それらを選定したが、使用する分野
に応じて文字の使用頻度に偏りがある場合には、できる
だけ多く使用している文字を特殊文字として予め決定登
録すると良く、「０」や「スペース」に限らず任意の文
字を特殊文字に使用することが良いのはもちろんであ
る。

【００３５】なお、非圧縮（００）及び上記以外の圧縮
文字に対する圧縮に対して、従来と同様である。すなわ
ち、非圧縮文字の場合には、所定の制御コード（「０
０」に非圧縮文字が続く文字数に関する数値を組み合わ
せて構成される）の後ろに、すべての非圧縮文字をその
まま付加することにより現わす。また、普通文字に対す
る圧縮は、、所定の制御コード（「１１」に圧縮文字が
続く文字数（圧縮対象文字列の文字数）に関する数値を
組み合わせて構成される）の後ろに、圧縮対象となった
圧縮文字を付加することにより、２バイトで現わす。

【００３６】さらに本例では、普通文字に対する圧縮処
理は、普通文字が３個以上並んだ文字列を圧縮対象文字
列にするようにし、同一の２文字のみが並んでいる場合
には、非圧縮文字とし、他の１文字ずつの非圧縮文字と
並んでいる場合には、それらをまとめて符号化するよう
にしている。

【００３７】すなわち、２文字の場合には、そのまま表
記しても２バイトであり、また、圧縮したとしても制御
コード（１バイト）とそれに付加する圧縮文字（１バイ
ト）の２バイトで圧縮の効果がなく、さらに、一般に同
一文字が２文字のみで存在している可能性よりも、他の
非圧縮文字と並んでいる場合のほうが大きく、係る場合
は、その非圧縮文字用の制御コードにより上記２文字文
分もまとめて管理できるため、圧縮効率が低下しない。
また、異なる文字が並んだ文字列の間に、同一の２文字
が挿入配置されているような場合には、その同一の２文
字により分断された前後の非圧縮文字列に対してそれぞ
れ制御コードを付す必要があるが、係る２文字を非圧縮
文字とすることにより、一連の１つの非圧縮文字列とみ
なせ、１つの制御コードで管理できるため、圧縮率が高
くなる可能性もある。

【００３８】そして、同一文字が２文字のみ並んでいる
場合に非圧縮文字とすることによる圧縮率の影響は、同
一の２文字のみが並んでいる部分と、その前後に並ぶ他
の文字との関係で一概に向上するとはいえないが、圧縮
率が低下（数値が大きくなる）するのは、他の非圧縮文
字とつながることなく２文字のみ単独で存在する場合で
あり、全体的には圧縮率が向上する。

【００３９】さらに本例では、３文字並んでいる場合の
数値を「１」としたため、例えば文字数を現す部分を６
ビットで表現した場合、従来は最大６３文字並んでいる
ものしかまとめて圧縮・符号化できなかったが、圧縮対
象文字列の文字数の最低が３文字となることから、３文
字を「０００００１」で表現することにより６５文字ま
で表現できるようになる。このように、１つの制御コー
ドで管理できる文字数が増えることにより、圧縮率が向
上する可能性がより高まる。

【００４０】また、特殊文字は２文字以上連続する場合
にすべて圧縮対象文字列と判定し、圧縮するようにして
いる。すなわち、本発明では、特殊文字の場合には、制
御コードのみ（１バイト）で表現するため、２文字（２
バイト）以上から圧縮の効果が発揮するためである。そ
して、制御コード中の文字数を現す部分（６ビット）
は、２文字を「０００００１」、すなわち、実際の文字
数から１を引いて得られる数値とする。

【００４１】なお、非圧縮文字についての文字数の表記
方法は、１文字のみ存在することがあるので、従来と同
様に文字数をそのままの数値として用いるようにした。

【００４２】次に、上記方法の実施例を実施するための
符号化装置１０の要部となる第１ＣＰＵ１２の機能につ
いて説明する。圧縮・符号化のための機能は、図３〜図
６に示すフローチャートのようになっており、具体的に
は、まず、処理すべきテキストデータの有無を判断し、
存在する場合にはその文字列をサーチし、同一文字が連
続しているか否かを判断する（ＳＴ１〜ＳＴ３）。そし
て、ここまでのステップ１〜３までの処理を行う機能部
分が、本発明における圧縮対象文字列検出手段に該当す
る。

【００４３】そして、同一文字が連続している場合に
は、その文字列数をカウントした（ＳＴ４）後ステップ
１に戻り、次の文字が同一文字になっているかを判断す
る。これにより、同一文字が連続している限り、ステッ
プ１〜ステップ４のループが実行され、連続する文字列
が抽出される。

【００４４】そしてステップ３の分岐判断で、同一文字
でない、すなわち、異なる文字が出現したならばステッ
プ５に飛び、その一つ前の文字（同一文字が連続した文
字列を構成する文字）が「０」であるか否かが判断さ
れ、「０」の場合には、「０」についての圧縮処理を行
った（ＳＴ６）後、ステップ１に戻る。また、「０」で
ない時にはステップ７に飛び、係る連続した文字が「ス
ペース」であるか否かが判断され、「スペース」の場合
には、「スペース」についての圧縮処理を行った（ＳＴ
８）後、ステップ１に戻る。また、「スペース」でない
時には通常文字列処理を行った（ＳＴ９）後、ステップ
１に戻る。以後、上記処理を繰り返し行う。なお、ステ
ップ７における「スペースでない」に該当する場合は、
「０」または「スペース」以外の通常文字が連続してい
る場合と、同一でない文字が続いている場合の両方が該
当する。

【００４５】そして、ステップ５，７の処理を行うこと
により、連続する文字の種類を判別される。すなわち、
特殊文字である「０」または「スペース」、或いはそれ
以外の普通文字の３種類のうちのどれに該当するかが判
別される。

【００４６】次に、上記各圧縮処理ステップの詳細な処
理について説明する。まず、ステップ９の普通文字列処
理は、図４に示すようになっている。まず、この処理フ
ローにくる文字列について考えると、「０」または「ス
ペース」以外の同じ文字が連続する場合がある。この文
字列の文字数は、２以上である。また、異なる文字が続
く場合があるが、係る場合には、同一でない１つ前の文
字が１文字だけ送られることになる。すなわち、仮に文
字列が「ａｂｃ，…」と異なる文字が続いているとする
と、まず先頭の「ａ」の場合には、同一文字か否かの比
較対象がないためそのままステップ１〜４をスルーす
る。そして、ステップ２にて次の文字「ｂ」を取得し、
ステップ３で１つ前の文字「ａ」と比較する。すると、
同一文字でないため１つ前の文字「ａ」がステップ５に
送られ、順次分岐処理を経てステップ９に行く。この
時、ステップ４におけるカウント処理は、１（ａが連続
する文字数）である。以後同様の処理により、「ｂ」，
「ｃ」…と順にステップ９に１文字ずつ送られる。

【００４７】上記の現象を考慮して以下普通文字列処理
について説明する。まず最初に送られてきた文字列の文
字数が３未満であるか否かを判断する（ＳＴ１０）。す
なわち、本例では、圧縮効率の向上を図るため、普通文
字の場合には連続する文字数が３以上のときに圧縮を行
うようにしたため、このステップ１０で普通文字の圧縮
対象文字列か否かが判別される。したがって、この分岐
判断でＹＥＳ、すなわち、文字数が２以下の場合には、
ステップ１１に飛び、さらに文字数が０か否かが判断さ
れ（ＳＴ１１）、０の場合には今回の普通文字列処理が
終了し、図３に示すステップ１に戻る。なお、この時文
字列数のカウンタ（ステップ４でカウントする際に使用
するもの）をリセットしておく（初期値は１）。

【００４８】また、ステップ１１の分岐判断で０でない
（ステップ１０から来た場合にはすべて該当する）と判
断されたなら、ステップ１２に行き、当該文字を非圧縮
文字列テーブルにセットする。具体的には、すでに非圧
縮文字列テーブルに文字列がセットされている場合に
は、その後に追加し、また、同一文字が２文字連続する
場合にはその同じ文字を２文字文追加格納する。さら
に、異なる文字の場合には、１文字ずつ送られるため、
ステップ１０，１１，１２を経て、その１文字ずつ順に
非圧縮文字列テーブルに格納される。従って、上記した
ように、「ａｂｃ…」と並んでいる場合には、最終的に
非圧縮文字列には「ａｂｃ…」とセットされることにな
り、これは圧縮対象文字が検出されるまで追加されてい
く。

【００４９】一方、ステップ１０の判断で、「Ｎｏ」す
なわち、同じ文字が連続して３以上並んでいる場合に
は、ステップ１３に飛び、まず非圧縮文字列テーブルに
格納された、非圧縮文字列に対して符号化する。すなわ
ち、非圧縮テーブルに格納されている文字列を読み出す
とともにその文字数を検出し、非圧縮をあらわす「０
０」の後ろに文字数（６ビットで表現する）をつけて構
成される制御コードを生成し、それに続けて読出した文
字列を接続する。なお、この読出しとともに非圧縮文字
列テーブルに格納されていた文字列を消去する。また、
非圧縮文字列テーブルに格納された文字数が６ビットで
表現できる最大値（６３）を越えている場合には、６３
文字ずつ分割して上記制御コードを生成し付与するよう
になる。

【００５０】上記非圧縮文字列に対する符合化が終了し
たならば、ステップ１４〜１９に示す今回の３文字以上
連続する文字列の圧縮符号化処理を行う。すなわち、ま
ず文字列を構成する数が６５未満であるか否かについて
判断し、６５未満の場合には、ステップ１５に飛びさら
に文字数が３より小さいか否かについて判断される。そ
して、３文字未満であると、圧縮対象外（本実施例では
たとえ２文字が連続している場合でも圧縮しないように
している）のでステップ１１に飛び、文字が存在してい
る場合には当該文字を非圧縮文字列テーブルにセットす
る（ＳＴ１２）。この時、文字数が２の場合には同一の
文字を２文字続けてセットする。

【００５１】一方、文字数が３以上ある場合には、ステ
ップ１５の分岐判断の結果ステップ１６に飛び、まず文
字数から２を引く（ＳＴ１６）。そして、普通文字の圧
縮を示す「１１」と、上記２を減じた数字を６ビットで
表現した値からなる１バイトの制御コードを生成し、そ
の次に圧縮した文字を付加する。これにより、２バイト
の圧縮コードが生成される。

【００５２】また、文字列を構成する文字数が６５文字
以上ある時には、１つの制御コードで表現できない（文
字数オーバー）ため、上記したステップ１４の分岐判断
によりステップ１８に飛び、６５文字分を圧縮する制御
コードを生成する。すなわち、普通文字の圧縮を示す
「１１」と、６５文字に対応する「１１１１１１」（６
５−２＝６３）からなる１バイトの制御コードを生成
し、その次に圧縮した文字を付加する。これにより、２
バイトの圧縮コードが生成される。その後、連続する文
字数から上記処理によりすでに圧縮した文字数６５を減
じた（ＳＴ１９）後、ステップ１４に戻り、再度文字数
に対する分岐判断が行われる。

【００５３】以下上記処理を繰り返し行うことにより、
残り文字数が２以下になるまで圧縮処理が繰り返し行わ
れ、圧縮されずに残った文字が存在した場合には、その
文字を非圧縮文字として取り扱うようになる。なお、ス
テップ１４，１５における文字数の分岐判断対象となる
数は、ステップ４でカウントした値またはその値からス
テップ９により６５ずつ減じた各値となる。

【００５４】一方、ステップ６の特殊文字「０」につい
ての圧縮処理は、具体的には図５に示すようになってい
る。すなわち、まず非圧縮文字列テーブルに格納され
た、非圧縮文字列に対して符号化する（ＳＴ２０）。こ
の符合化処理は、ステップ１３と同様で、非圧縮テーブ
ルに格納されている文字列を読み出すとともにその文字
数を検出し、非圧縮をあらわす「００」の後ろに文字数
（６ビットで表現する）をつけて構成される制御コード
を生成し、それに続けて読出した文字列を接続する。な
お、この読出しとともに非圧縮文字列テーブルに格納さ
れていた文字列を消去する。また、非圧縮文字列テーブ
ルに格納された文字数が６ビットで表現できる最大値
（６３）を越えている場合には、６３文字ずつ分割して
上記制御コードを生成し付与するようになる。

【００５５】上記非圧縮文字列に対する符合化が終了し
たならば、ステップ２１〜２８に示す「０」に対する圧
縮符号化処理を行う。すなわち、まず文字列を構成する
数が６４文字未満であるか否かについて判断する。ここ
で、上記した普通の文字に対する圧縮処理では６５文字
未満か否かで分岐判断を行ったのに対し、を［０」の場
合に６４文字未満としたのは、普通文字の場合には３文
字以上連続する場合に圧縮対象としたのに対して特殊文
字の場合には２文字以上連続する場合に圧縮対象とした
のに対応させている。

【００５６】また、文字列を構成する文字数が６４文字
以上ある時には、１つの制御コードで表現できない（文
字数オーバー）ため、６４文字分を圧縮する制御コード
を生成する。すなわち、「０」の圧縮を示す「０１」
と、６４文字に対応する「１１１１１１」（６４−１＝
６３）からなる１バイトの制御コードを生成し、出力す
る。これにより、１バイトの圧縮コードが生成される
（ＳＴ２２）。その後、連続する文字数から上記処理に
よりすでに圧縮した文字数６４を減じた（ＳＴ２３）
後、ステップ２１に戻り、再度文字数に対する分岐判断
が行われる。

【００５７】そして、上記処理を繰り返し行うことによ
り、文字数が６４未満になると、ステップ２１の分岐判
断でステップ２４に飛び、さらに文字数が２より小さい
か否かについて判断される。そして、２文字以上である
と、圧縮対象文字列が存在することを意味するので、ス
テップ２５に飛び、まず文字数から１を引き、次いで
「０」の圧縮を示す「０１」と、上記１を減じた数字を
６ビットで表現した値からなる１バイトの制御コードを
生成し、出力する（ＳＴ２６）。これにより、１バイト
の圧縮コードが生成される。

【００５８】また、文字数が２未満、すなわち、１また
は０の時には、ステップ２４の分岐判断でステップ２７
に飛び、文字数が１の場合には、「０」を１文字分だけ
非圧縮文字テーブルにセットする（ＳＴ２７，２８）。

【００５９】一方、ステップ９における特殊文字「スペ
ース」に対する圧縮処理は、具体的には、図６に示すよ
うになっている。同図から明らかなように、基本的には
図５に示す上記「０」に対する圧縮処理と同様であり、
異なる点は、ステップ３２，３６の制御コードを生成す
る際の先頭の２ビットを「１０」にすることである。そ
の他の処理は、上記した「０」の場合と同様であるた
め、詳細な説明を省略する。

【００６０】次に、具体的な文字列を用いて上記圧縮方
法について説明する。処理対象の文字列が、図７（Ａ）
に示すようになっているとする。なお図中「四角」は
「スペース」を意味する。図示の例では、「Ｃ」が連続
して５個並んでいるため、普通文字の圧縮対象文字列と
なり、また、「０」，「スペース」もそれぞれ特殊文字
の圧縮対象文字列となる。

【００６１】係る文字列を符合化装置１０に入力する。
すると、文字列の先頭から順番にサーチが行われ、図３
に示すステップ３にて「Ａ」と「Ｂ」が比較される。す
ると、両者は異なるため、文字「Ａ」がステップ５に送
られ、最終的に非圧縮文字列テーブルにセットされる。
同様に「Ｂ」も次の文字「Ｃ」と比較され、両者は異な
るため、「Ｂ」が非圧縮文字列テーブルにセットされ
る。これにより、テーブルには「ＡＢ」が格納される。

【００６２】次に、３番目の「Ｃ」と４番目の「Ｃ」と
が比較される。すると、同じであるため、さらに次の５
番目の「Ｃ」と比較される。このようにして異なる文字
「Ｄ」が出現するまで、ステップ１〜４のループを繰り
返し行うことになる。そして、ステップ３で８番目の文
字「Ｄ」と比較されると、両者が異なるため、１つ前の
文字「Ｃ」がステップ５に飛び、最終的にステップ９の
処理が実行される。

【００６３】すなわち、「Ｃ」の文字数が５であるので
図４に示すステップ１３が実行されて、まず非圧縮文字
列テーブルに格納されている「ＡＢ」についての符合化
が行われる。これにより、「００」に文字数（２）をあ
らわす「００００１０」を付加して制御コードの後ろに
処理対象の文字「ＡＢ」を連続して出力する。

【００６４】これに続いて、圧縮文字「Ｃ」の処理が行
われ、本例の場合では、ステップ１４，１５を経てステ
ップ１６に行き、最終的にステップ１７が実行されて
「１１」の後ろに文字数３（＝５−２）をあらわす「０
００１１」を付加して構成される制御コードと、それに
続いて対象文字「Ｃ」が出力される。

【００６５】以下同様に、「０」についてはステップ６
が、またスペースについてステップ８がそれぞれ実行さ
れ、それ以外はステップ９が実行されることにより、図
７（Ｂ）に示すような状態で圧縮される。そして、この
圧縮は、１パスにより作成できる。

【００６６】そして、この例では圧縮前のテキストデー
タが２９バイトあったのに対し、圧縮により１９バイト
で表現されるようになる。これにより上記した従来方法
の圧縮（２１バイト）よりもさらに圧縮されたことが確
認された。さらに、特殊文字が連続して６４文字存在し
ている場合や、普通文字が連続して６５文字存在してい
る場合には、本実施例ではそれぞれ１バイト（特殊文
字），２バイトで表現できるのに対し、従来の圧縮方法
では、いずれの場合も４バイトが必要となり、連続する
文字数が多くなるほど、その圧縮の効果は顕著となる。

【００６７】そして、図８（Ａ）に示すような実際の検
診票のデータについて圧縮処理を行ったところ、同図
（Ｂ）のような圧縮後のデータがえられた。なお、図
（Ａ）中空白部分はすべせてスペースが存在している。
また、同図（Ｂ）中「＠」，「＃」，「＄」，「＊」は
各文字列の制御コードを記号化して示しており、実際に
は、圧縮タイプを示す所定の２ビットとそれに続く文字
数に対応した６ビットにより表現される。そして、この
例では、圧縮前のデータ量は５８４バイトあったのに対
し、圧縮後のデータ量は２１１バイトとなり、３６％の
圧縮率が得られた。

【００６８】次に、復号化装置２０について説明する。
復号化装置２０は、上記符号化装置１０により圧縮され
たデータを解凍（伸長）し元のテキストデータに復号化
するための装置で、図１に示すように、符号化装置１０
より送られる圧縮データを通信制御部２１を介して第２
ＣＰＵ２１が受けとり、所定の復号化処理を行い得られ
た元のテキストデータを第２記憶部２３に格納するよう
にしている。そして、第２記憶部２３に格納されたデー
タを、順次プリンター２５に出力し、これにより、検針
票がプリントアウトされる。なお、符号２６はＣＲＴ等
の表示装置で、処理状態を表示可能となっている。

【００６９】そして、実際の復号化処理を行う第２ＣＰ
Ｕ２２の機能は、図９に示すようになっている。すなわ
ち、処理すべきデータがある場合には、文字列の先頭か
ら順にデータを読み込む。すると、先頭には必ず制御コ
ードが存在するため、その制御コードを読み込む（ＳＴ
４１，４２）。

【００７０】そして、先頭の２ビットを検出し、その内
容に応じて所定の処理を行う（ＳＴ４３）。すなわち、
先頭の２ビットが「００」の場合には、ステップ４４に
飛ぶ。そして、「００」は圧縮しないタイプであるの
で、その後ろの６ビット（制御コードの下位６ビット）
で表現される数値はそのまま制御コードに続く文字数を
意味する。従って、当該文字数（バイト数）だけ、その
制御コードに続く文字列を出力する。これにより、非圧
縮文字列が復元される。

【００７１】また、先頭の２ビットが「０１」の場合に
は、ステップ４５に飛ぶ。そして、「０１」は特殊文字
「０」についての圧縮タイプであるのて、それに続く６
ビットで表現される数値は、圧縮した文字数よりも１少
ない値である。従って、まずその６ビットの数値に１を
加えて、圧縮した連続する文字数を算出する。次いで、
「０」の場合には、制御コードの後ろには圧縮対象の文
字である「０」を配置していないので、上記計算したバ
イト数だけ「０」を出力する（ＳＴ４６）。

【００７２】同様に、先頭の２ビットが「１０」の場合
には、ステップ４６に飛ぶ。そして、「１０」は特殊文
字「１」についての圧縮タイプであるのて、それに続く
６ビットで表現される数値は、圧縮した文字数よりも１
少ない値である。従って、まずその６ビットの数値に１
を加えて、圧縮した連続する文字数を算出する。次い
で、「１」の場合には、制御コードの後ろには圧縮対象
の文字である「１」を配置していないので、上記計算し
たバイト数だけ「１」を出力する（ＳＴ４８）。

【００７３】さらに、先頭の２ビットが「１１」の場合
には、ステップ４９に飛ぶ。そして、「１１」は普通文
字についての圧縮タイプであるので、それに続く６ビッ
トで表現される数値は、圧縮した文字数よりも２少ない
値である。従って、まずその６ビットの数値に２を加え
て、圧縮した連続する文字数を算出する。次いで、普通
文字の場合には、制御コードの後ろに圧縮した文字が連
続して配置されているので、当該文字を上記計算したバ
イト数だけ出力する（ＳＴ５０）。以下、上記処理を処
理すべきデータがなくなるまで繰り返し行うことによ
り、圧縮した文字列を復元（伸長）することができる。

【００７４】なお、上記した実施例では、符号化装置と
復号化装置とは、通信回線を介して接続されているが、
本発明はこれに限ることなく、所定のケーブルはもちろ
んのこと、例えばＦＤ等の記憶媒体を用いてデータの送
受を行うようにしたり、或いは１つの装置内に実装され
ているものでもよく、その使用態様は任意である。さら
に、符号化装置と復号化装置は１対１のペアで使用され
ることに限られないのはいうまでもない。

【００７５】

【発明の効果】以上のように、本発明に係るテキストデ
ータの符号化方法及び装置並びにその復号化方法及び装
置では、文字を圧縮する場合に、特殊文字と普通文字に
分け、予め定めた特殊文字についての圧縮は、そのタイ
プと文字数からなる制御コードのみにより表現したた
め、１バイトでの表現が可能となった。その結果、圧縮
率が向上する。

【００７６】そして、圧縮は、前後の文字が同じか否か
を検出するとともに、同一の文字が予め決めた特種文字
か否かを判断するだけで、その判断結果に基づいて圧縮
のための制御コード等を生成することができるので、１
パス方式により圧縮することができる。よって簡単なシ
ステムにより圧縮・解凍（復号）可能とし、ＣＰＵに与
える付加を小さくして短時間で多量のテキストデータに
対する圧縮処理等を行うことができる。

【００７７】また、普通文字を圧縮する場合に、連続す
る文字数が３文字以上の時に圧縮対象文字列と認定する
ようにした場合には、２文字の場合にはそれに続く他の
非圧縮文字列とまとめて１つの制御コードにより符号化
されるため、符号化に使用する制御コードの数が少なく
なる可能性が高く、より圧縮率が高まる。

【００７８】さらに、係る場合に制御コード中の文字数
を表現するエリアに格納する数値として、実際の文字数
よりも２だけ少なくした値を用いることにより、１つの
制御コードで表現可能な連続する文字数を多くする（６
ビットの場合には６３文字から６５文字にする）ことが
できる。その結果、連続する文字数が多い程、それを表
現するために必要な制御コード数を少なくすることがで
き、より圧縮率が高まる。

【図面の簡単な説明】

【図１】本発明に係る符号化方法及び復号化方法を実施
するためのシステム全体を示す構成図である。

【図２】本実施例で使用する制御コードのデータ構造を
示す図である。

【図３】第１ＣＰＵの機能である符号化方法の一例を示
すフローチャートである。

【図４】図３のステップ９の具体的な処理を示すフロー
チャートである。

【図５】図３のステップ６の具体的な処理を示すフロー
チャートである。

【図６】図３のステップ８の具体的な処理を示すフロー
チャートである。

【図７】符号化方法の実施例の作用を説明する図であ
る。

【図８】符号化方法の実施例の作用を説明する図であ
る。

【図９】第２ＣＰＵの機能である復号化方法の一例を示
すフローチャートである。

【図１０】従来の圧縮方法に用いる制御コードの一例を
示す図である。

【図１１】従来の圧縮方法の作用を説明する図である。

【符号の説明】

１０符号化装置１１入力装置１２第１ＣＰＵ１３第１記憶部１４通信制御部（出力手段）１５ＣＲＴ（出力手段）２０符合化装置２１通信制御部（入力手段）２２第２ＣＰＵ２３第２記憶部２５プリンタ（出力手段）２６ＣＲＴ（出力手段）

Claims

【特許請求の範囲】

【請求項１】テキストデータに対して行う１回のサー
チで、前記テキストデータ中に存在する同一文字が連続
する文字列を検出し、それを制御コードを用いて符号化
して圧縮データを作成する符号化方法において、前記制御コードとして、後続の文字が圧縮しているか否
かを示す圧縮タイプを示す部分と、その制御コードが管
理する後続の文字数を示す部分とを備えたものを用い、前記圧縮タイプが、少なくとも１つの予め定めた特殊文
字を示す符号と、その特殊文字以外の通常文字を示す符
号とを備え、前記圧縮対象の文字列が前記特殊文字により構成される
場合には、前記制御コードのみにより符号化し、前記圧縮対象の文字列が前記普通文字により構成される
場合には、前記制御コードにその圧縮対象文字を付加し
て符号化し、非圧縮文字が存在する場合には、前記制御コードに非圧
縮文字を付加して符号化するようにしたテキストデータ
の符号化方法。
【請求項２】前記特殊文字が、「０」または「スペー
ス」の少なくとも一方である請求項１に記載のテキスト
データの符号化方法。
【請求項３】前記普通文字に対して行う圧縮は、同一
文字が３文字以上連続する場合に圧縮対象文字列と判定
し、圧縮タイプの制御コードとともに符号化するように
した請求項１または２に記載のテキストデータの符号化
方法。
【請求項４】普通文字からなる圧縮文字列を現わす前
記制御コード中の後続の文字数を示す部分に格納する数
値を、実際の文字数から２を減算して得られる数値とし
た請求項３に記載のテキストデータの符号化方法。
【請求項５】特殊文字からなる圧縮文字列を現わす前
記制御コード中の後続の文字数を示す部分に格納する数
値を、実際の文字数から１を減算して得られる数値とし
た請求項１〜４のいずれか１項に記載のテキストデータ
の符号化方法。
【請求項６】テキストデータを入力する入力手段と、前記入力手段を介して与えられるテキストデータをサー
チして同一文字が所定数連続する文字列を検出する圧縮
対象文字列検出手段と、前記検出した圧縮対象の文字列を構成する文字が特殊文
字か否かを判断する文字種類判別手段と、圧縮対象文字及び非圧縮文字の連続する文字数を検出す
る文字数検出手段と、前記検出した文字数と文字種類に基づいて制御コードを
生成するとともに、符号化する手段と前記生成した制御
コードを含む圧縮データを出力する出力手段とを備えた
テキストデータの符号化装置。
【請求項７】圧縮データ中の制御コードを検出し、そ
の制御コードに格納された圧縮タイプを判別し、判別結果が、特殊文字に対する圧縮の場合には、制御コ
ードに格納された文字数に関するデータに基づいて、前
記特種文字を所定数出力し、判別結果が、普通文字に対する圧縮の場合には、その制
御コードに続く圧縮対象文字を、その制御コードに格納
された文字数に関するデータに基づいて所定数出力し、判別結果が非圧縮の場合には、制御コードに格納された
文字数に関するデータに基づいてその制御コードの後ろ
に続く非圧縮文字の文字数を求め、当該制御コードに続
く非圧縮文字を出力するようにしたテキストデータの復
号化方法。
【請求項８】圧縮データを入力する入力手段と、前記入力手段を介して与えられる圧縮データ中の制御コ
ードを検出し、その制御コード中の圧縮タイプを判別す
る圧縮タイプ判別手段と、その圧縮タイプ判別手段の判別結果に基づいて、前記制
御コード中の文字数に関するデータに基づいて、その制
御コードに続く圧縮／非圧縮文字または所定の特種文字
を所定数出力する手段とを備えたテキストデータの復号
化装置。