JPH0546357A

JPH0546357A - テキストデータの圧縮方法および復元方法

Info

Publication number: JPH0546357A
Application number: JP3172857A
Authority: JP
Inventors: Hirokatsu Akiyama; 広勝秋山; Hitoshi Suzuki; 等鈴木; Akira Hamada; 明濱田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1991-07-15
Filing date: 1991-07-15
Publication date: 1993-02-26
Anticipated expiration: 2013-03-18
Also published as: JP2729416B2

Abstract

(57)【要約】【目的】データの出現パターンと関係なく効率よくテ
キストを圧縮し、柔軟かつ正確に復元する。【構成】バッファ１５に格納されたテキストを単語に
分割し、自立語辞書１１に含まれる単語をそのアドレス
に変換して出力バッファ９に順次出力してテキストを圧
縮する。圧縮されたテキストをディスク１４に出力する
際には、辞書１１を特定する識別情報を識別情報付加部
４によって付加する。復元時には、識別情報に基づき、
復元と圧縮の際の辞書１１が同一か否かを判断し、異な
る場合には２つの辞書のアドレスを置換するためのテー
ブル１２を用意する。テキスト中の辞書アドレスは辞書
アドレス置換部７によってテーブル１２を参照して復元
時の辞書１１の対応アドレスに変換される。そのアドレ
スに格納された単語を文章復元部６によってテキストデ
ータに取込むことにより、圧縮されたテキストデータが
復元される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明はデータの符号化／復号
化に関し、特に、ワードプロセッサ、ワークステーショ
ン、コンピュータなどにおいて取扱われるテキストデー
タの圧縮／伸長技術に関する。

【０００２】

【従来の技術】コンピュータなどにおいて、データの格
納領域を削減することにより記憶装置を有効に利用する
ために、あるいは通信の分野において、送信されるデー
タの量を削減することにより通信の効率を向上させるた
めに、データを圧縮／伸長する技術の研究が行なわれて
いる。この種の従来の技術としては、以下のようなもの
がある。

【０００３】まず第１に、連続文字圧縮方式がある。こ
の方式は、テキストデータ中において連続して同一文字
が出現する場合に、その文字の種類と、その長さとの情
報を含むより短いデータに変換する方式である。この方
法を用いることにより、たとえばテキストデータ中の空
白部分のデータ量を削減することができる。また、デー
タの格納装置内において利用されていない部分（たとえ
ば００Ｈによって埋められている部分。なお、本明細書
中において以後、「文字（０〜９，Ａ〜Ｆ）＋Ｈ」は、
１６進数を表わす）を、より短いデータに変換すること
ができる。

【０００４】第２に、ハフマン方式などの、出現頻度の
多いパターンに短いビット列のコードを与える方式があ
る。この方式においては、出現頻度の少ないパターンに
は長いビット列が割当られる。しかし、よく現われるパ
ターンが短いビット列に変換されるため、テキスト全体
としてはデータ圧縮が行なわれる。

【０００５】上述のような方式により圧縮されたテキス
トデータを格納し、あるいは送信することにより、記憶
領域あるいは通信資源を有効に利用することができる。
このようにして圧縮されたデータを利用する場合には、
圧縮する際と逆の変換によりデータを伸長し、それによ
って元のデータを復元する必要がある。上述の各方法に
おいて、このような復元技術は圧縮技術とペアになって
開発されており、いずれの方法を用いても元のデータを
復元することができる。

【０００６】

【発明が解決しようとする課題】しかし、上述の従来の
テキストデータの圧縮・復元方法においては、以下のよ
うな問題点がある。たとえば連続文字列圧縮方式では、
入力テキストのごく特殊な部分のみが有効に圧縮され、
他はほとんど圧縮され得ない。また、ハフマン方式など
の方法では、出現頻度の高いデータパターンは効率よく
圧縮されるものの、出現頻度の低いデータパターンは圧
縮効率が低い。さらに、圧縮時と復元時とで全く同じデ
ータ圧縮・復元用の変換テーブルを用いる必要があり、
そのため柔軟性に乏しいという問題点があった。

【０００７】それゆえにこの発明の目的は、データの出
現パターンと関係なく効率よくテキストの圧縮が行なえ
るデータの圧縮方法と、この方法によって圧縮されたテ
キストデータを、圧縮時と異なる環境下でも正しく復元
できる柔軟性に富んだテキストデータの復元方法を提供
することである。

【０００８】

【課題を解決するための手段】請求項１に記載のテキス
トデータの圧縮方法は、各々が、見出しとしてのコード
化された第１の文字列と、第１の文字列と１対１の対応
関係によって対応づけられ、第１の文字列よりもそのデ
ータ長の短い文字列対応データとを含む複数の文字列変
換対を含む文字列変換辞書を準備するステップと、１文
字単位にコード化されたテキストデータを受け、テキス
トデータを単語単位の入力文字列に分割するステップ
と、入力文字列と一致する文字列変換辞書中の第１の文
字列を検索するステップと、検索された第１の文字列に
対応する文字列対応データによって入力文字列を置換
し、それによってテキストデータを圧縮するステップ
と、準備された文字列変換辞書の種類を識別するための
識別情報を、圧縮されたテキストデータに付加するステ
ップとを含む。

【０００９】請求項２に記載のテキストデータの復元方
法は、請求項１に記載されたテキストデータの圧縮方法
により圧縮されたテキストデータを復元するための方法
であって、互いに異なる対応関係を有する複数個の文字
列変換辞書の、任意の２つの組合わせの各々に対して、
各文字列変換辞書中の同一の第１の文字列に対応する文
字列対応データの対からなる文字列対応データ変換テー
ブルを準備するステップと、複数個の文字列変換辞書の
１つを、圧縮されたテキストデータを復元する際に用い
る復元用辞書として選択するステップと、入力される圧
縮されたテキストデータに付加された識別情報を抽出す
るステップと、抽出された識別情報により特定される文
字列変換辞書と、復元用辞書との組合わせに対応する文
字列対応データ変換テーブルを選択するステップと、入
力される圧縮されたテキストデータ中から、文字列対応
データを抽出するステップと、選択された文字列対応デ
ータ変換テーブル内を検索し、抽出された文字列対応デ
ータと対を形成する文字列対応データを取出すステップ
と、復元用文字列変換辞書内を検索し、取出された文字
列対応データと対を形成している第１の文字列を取出
し、入力されたテキストデータ中の抽出された文字列デ
ータを、取出された第１の文字列で置換することによ
り、テキストデータを復元するためのステップとを含
む。

【００１０】

【作用】請求項１に記載のテキストデータの圧縮方法に
おいては、入力されたテキストデータはまず単語単位で
入力文字列に分割される。入力文字列が文字列変換辞書
中に見出しとして用意されているか否かが調べられる。
見出しが存在している場合には、その見出しに対応する
文字列対応データが出力される。文字列対応データは入
力文字列よりも短いデータ長を有する。これにより、テ
キストデータ全体が圧縮される。圧縮されたテキストデ
ータには、使用された文字列変換辞書を特定するための
識別情報が付加されている。そのため、このテキストデ
ータの復元の際には、識別情報を参照することにより、
圧縮時に用いられた文字列変換辞書を知ることができ
る。

【００１１】請求項２に記載のテキストデータの復元方
法においては、圧縮されたテキストデータの識別情報が
抽出される。この識別情報に基づき、データ圧縮時に用
いられた文字列変換辞書が特定される。特定された文字
列変換辞書における対応関係と、復元に用いられる復元
用辞書における対応関係との間を関連づけるように、文
字列対応データ変換テーブルが選択される。圧縮テキス
ト中に含まれる、文字列変換辞書内で特定の第１の文字
列と対応づけられた文字列対応データは、文字列対応デ
ータ変換テーブルを参照して復元用辞書内において同一
の第１の文字列と対応づけられた文字列対応データに変
換される。この変換された文字列対応データと対応づけ
られた第１の文字列を復元用辞書内から取出せば、この
語は、圧縮される前のテキストデータ中の文字列と同一
のものとなる。

【００１２】

【実施例】図１は、本発明に係るテキストデータの圧縮
方法を実施するための装置のブロック図である。図１を
参照して、この装置は、装置各部の制御を行なうための
制御回路１と、制御回路１に接続され、文章の表示など
を行なうためのＣＲＴ（Ｃａｔｈｏｄｅ−ＲａｙＴｕ
ｂｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓ
ｐｌａｙ）などからなるディスプレイ２と、使用者が文
章を入力したり、制御のための情報などを入力したりす
るための、制御回路１に接続されたキーボード３と、制
御回路１に接続され、フレキシブルディスクをドライブ
して、フレキシブルディスクへのデータの書込や、フレ
キシブルディスクからのデータの読出を行なうためのフ
レキシブルディスクドライブ１３と、制御回路１に接続
され、テキストデータなどを格納するための磁気ディス
ク１４と、制御回路１に接続され、使用者がキーボード
３から入力した文章や、フレキシブルディスクドライバ
１３によってフレキシブルディスクから読出されたテキ
ストデータや、ディスク１４から読出されたテキストデ
ータを一時格納するための入力バッファ１５と、制御回
路１に接続され、入力バッファ１５から読出されて所定
の変換を施されたテキストデータを一時格納するための
出力バッファ９とを含む。

【００１３】この装置はさらに、入力される文字に対し
て圧縮処理を行なう際に、入力されたテキストデータを
単語単位に分割するために行なう形態素解析の際に利用
される、付属語以外の単語（自立語）を格納した自立語
辞書１１と、同じく形態素解析の際に用いられる、付属
語や接辞などを格納した付属語テーブル１０と、制御回
路１と付属語テーブル１０と自立語辞書１１とに接続さ
れ、制御回路１から与えられるテキストデータに対し
て、自立語辞書１１および付属語テーブル１０を参照し
て形態素解析を行ない、テキストデータを単語単位に分
割するための辞書検索部５と、制御回路１と付属語テー
ブル１０と自立語辞書１１とに接続され、一旦圧縮され
たデータを、付属語テーブル１０および自立語辞書１１
を参照して復元するための文章復元部６と、自立語辞書
１１および制御回路１に接続され、テキストデータ圧縮
の際に、テキストデータに、圧縮に用いられた自立語辞
書１１の種類を特定するための識別情報を付加するため
の識別情報付加部４と、制御回路１に接続され、圧縮さ
れたテキストデータを復元する際に、圧縮のときに用い
られた自立語辞書１１と復元の際に用いられる自立語辞
書１１とが異なった種類のものであるときに、圧縮され
たテキストデータ中に含まれる、圧縮の際に用いられた
自立語辞書中のアドレスを、復元の際に用いられる自立
語辞書１１のアドレスに変換するための辞書アドレス置
換部７と、辞書アドレス置換部７に接続され、異なる種
類の自立語辞書の間でアドレス置換を行なう際に参照す
るための、アドレス間の対応関係を含む、アドレス置換
用テーブル１２と、制御回路１に接続され、辞書検索部
５によって検索された、自立語辞書１１内の対応見出し
のアドレスによって、処理対象となる単語を置換えるこ
とにより文章を圧縮するための文章圧縮部８とを含む。

【００１４】図２を参照して、辞書検索部５と文章圧縮
部８とは、テキストデータ圧縮部１６を形成する。

【００１５】図１および図２を参照して、この装置にお
いてテキストデータの圧縮は以下のようにして行なわれ
る。まず、入力バッファ１５内にテキストデータとして
のコード化された入力文章が準備される。この準備は、
キーボード３を介して使用者がテキストデータを入力し
たり、フレキシブルディスクドライバ１３を介して、他
の装置で準備されたテキストデータを入力バッファ１５
に読込んだり、ディスク１４に格納されていた、予め準
備されたテキストデータを入力バッファ１５に読込んだ
りすることによって行なわれる。

【００１６】テキストデータは、制御回路１によって辞
書検索部５に与えられる。辞書検索部５は、入力される
テキストデータを自立語辞書１１および付属語テーブル
１０を参照して形態素解析を行なう。辞書検索部５は、
入力文章中のある単語が自立語辞書１１中に発見された
場合には、そのアドレスを制御回路１を介して文章圧縮
部８に与える。文章圧縮部８は、自立語辞書１１内に見
出された、入力文章中の単語を、その自立語辞書１１内
におけるアドレスと置換える。文章圧縮部８は、このよ
うにして各単語を辞書アドレスに変換しながら、出力バ
ッファ９にテキストデータを出力していく。

【００１７】辞書検索部５と制御回路１と文章圧縮部８
とは、テキストデータ中に、自立語辞書１１に含まれな
い単語が出てきたときには、以下のような未登録語処理
を行なう。自立語辞書１１に登録されていない単語は、
最終的には制御回路１および辞書検索部５によって文字
単位にまで分割される。分割された各文字は順に文章圧
縮部８に与えられる。文章圧縮部８は、入力されたテキ
ストデータがこのように文字単位にまで分割されてきた
場合には、これをそのまま出力テキストデータに追加出
力する。

【００１８】このような処理が入力されたテキストデー
タが終了するまで繰返し行なわれる。この結果、圧縮処
理がされたテキストデータが出力バッファ９に得られる
ことになる。

【００１９】図７は、自立語辞書１１の構成を示す模式
図である。図７を参照して、自立語辞書１１中には、よ
り短いデータに変換されるべき文字列が見出しとして順
に格納されている。各見出しの文字列には、それぞれに
固有のアドレスが割当てられている。このアドレスと各
見出しとは、１対１に対応している。すなわち、見出し
の文字列を与えることによりそのアドレスがユニークに
定まり、逆にアドレスを与えることにより、そのアドレ
スに格納されている文字列がユニークに定まる。図７に
示される例の場合には、アドレス８２００Ｈに「一寸法
師」という単語が、アドレス９０００Ｈに「鬼」という
単語が、アドレスＣ０００Ｈに「退治」という単語がそ
れぞれ格納されている。

【００２０】図８、図９は、制御回路１、辞書検索部
５、文章圧縮部８によって行なわれる、自立語辞書１１
の検索処理および検索された単語の、辞書内のアドレス
との置換えの様子を示す模式図である。図８（ａ）に示
される文が入力テキストである。入力テキストの各文字
には、２バイトずつのコードが割当てられている。例と
して「一寸法師」という語を１６進数で表わすと、図８
（ｂ）に示されるように、８バイトのデータとなる。辞
書検索部５は、入力文中の「一寸法師」という語を自立
語辞書１１中を検索して見出すことにより、その自立語
辞書１１内でのアドレスを制御回路１を介して文章圧縮
部８に与える。文章圧縮部８は、辞書検索部５から与え
られる情報に従って、入力テキスト中の「一寸法師」と
いう語（３０６Ｃ４０２３４Ｂ２１３Ｂ５５Ｈというデ
ータ）を、その辞書内のアドレス８２００Ｈと置換え、
出力バッファ９に出力する。これにより、８バイトのテ
キストデータが２バイトのテキストデータに圧縮された
ことになる。同様に辞書検索部５、制御回路１、文章圧
縮部８は、「鬼」、「退治」という語をそれぞれ９００
０Ｈ、Ｃ０００Ｈという、自立語辞書１１内のアドレス
に変換して出力バッファ９に与える。なお、各語のアド
レスの先頭バイトのＭＳＢ（最上位ビット）は１となっ
ている。

【００２１】さらに本実施例の場合には文章圧縮部８
は、入力テキスト中に平仮名が含まれていた場合には、
以下のような処理を行なう。平仮名は、ＪＩＳ漢字コー
ド体系において、２４２１Ｈ〜２４７３Ｈというコード
が割当てられている。これら各コードに共通して言える
ことは、１バイト目が２４Ｈであり、２バイト目が７３
Ｈ以下であるということである。したがって本実施例で
は、入力テキスト中に平仮名が含まれていた場合には、
その１バイト目を省略して出力バッファに出力すること
としている。たとえば、「が」には２４２ＣＨというコ
ードが割当てられているが、図１に示される装置におい
ては、その１バイト目の２４Ｈが省略され、下位１バイ
トの２ＣＨというデータのみが出力バッファに出力され
る。「を」、「した」などについても同様である。

【００２２】上述のような作業を行なうことにより、図
８（ａ）に示される入力テキストは、図９に示されるよ
うなデータに圧縮される。図８（ａ）の入力テキストに
は１１文字が含まれている。したがって、このテキスト
を単純にコード化するためには２２バイトが必要であっ
た。しかし、図９に示されるように、本発明に係る方法
を用いて、この入力テキストを１０バイトにまで圧縮す
ることができる。上述のような変換の他、片仮名、英数
字、記号等は１文字単位に２バイトで出力バッファ９に
出力される。また、日本語における「〜たことにより」
などのような付属語の連続からなる付属語列なども２バ
イトのコードに変換して出力される。

【００２３】図１に示される装置においては、出力バッ
ファ９に圧縮後のデータが得られた後、以下のような処
理が行なわれる。自立語辞書１１には、その辞書の種類
や版（バージョン）数、更新年月日などを含む、辞書の
種類を識別するための情報が付与されている。出力バッ
ファ９に得られた圧縮後のデータはたとえばディスク１
４内のファイルに改めて格納されるのが通常であるが、
この際識別情報付加部４は、自立語辞書１１に付与され
ている識別情報をこの圧縮後のデータに付加しておく。
識別情報の付加の態様としては、図１０（ａ）に示され
るように、圧縮後のデータの先頭の何バイトかをこの情
報のために割当てておく方法でもよいし、圧縮データ中
の他の特定の位置に識別情報を格納するようにしてもよ
い。また、特定のビット列が出現したら、それ以降が識
別情報であると定義して、任意の位置に挿入しても良
い。

【００２４】識別情報の例が図１０（ｂ）に示されてい
る。前述のように識別情報は、その辞書の名前や、その
辞書のバージョン数、その辞書が更新された日付などの
情報を含んでいる。この情報を圧縮後のデータに付加し
ておくことにより、復元処理において、圧縮時と異なっ
た自立語辞書を用いた場合にも、誤った復元処理が行な
われることを防止できる。その詳細は以下に説明され
る。

【００２５】図１および図４を参照して、ディスク１４
に格納された識別情報付圧縮データは、以下のようにし
て復元される。説明の前に、この復元処理において用い
られるアドレス置換用テーブル１２の構造について、図
１１を参照して説明する。図１１を参照して、アドレス
置換用テーブル１２は、圧縮データに付与されている識
別情報によって特定される、圧縮時に使用された自立語
辞書の所定のアドレスに格納されていた見出し語が、復
元時に使用される自立語辞書では、どのアドレスに格納
されているか、を示すためのテーブルである。すなわ
ち、アドレス置換用テーブル１２は、ある単語の、圧縮
時に使用された辞書中のアドレスと、復元時に使用され
る辞書のアドレスとの対を複数個含んでいる。そして、
旧アドレスを与えられることにより、新アドレスが得ら
れるようになっている。

【００２６】復元処理は以下のようにして行なわれる。
図１、図４を参照して、ディスク１４に格納されている
識別情報付圧縮データは、順次辞書アドレス置換部７に
与えられる。辞書アドレス置換部７は、入力されるテキ
ストを、先頭から１バイト単位でそのＭＳＢ（最上位ビ
ット）を調べていく。前述のように２バイトの辞書アド
レスの、１バイト目のＭＳＢは１である。一方、１バイ
トのデータに圧縮された平仮名を表わすデータは、高々
７ＣＨ（２進数で０１１１１１００）である。したが
って、平仮名の場合にはそのＭＳＢはゼロである。ゆえ
に、前述のように入力テキストの各バイトのＭＳＢを調
べていき、１のものがあれば、そこから２バイトは辞書
アドレスに変換された単語を表わし、ＭＳＢがゼロのも
のがあれば、そこから１バイト分が１バイトに短縮され
た平仮名を表わす。

【００２７】辞書アドレス置換部７は上述のようにして
辞書アドレスに変換された単語を見つけると、アドレス
置換用テーブル１２を参照し、新アドレスに置換して文
章復元部６に与える。辞書アドレス置換部７はまた、平
仮名であると判断されたデータはそのまま文章復元部６
に与える。

【００２８】文章復元部６は、辞書アドレス置換部７か
ら与えられた新アドレスを用いて自立語辞書１１を検索
し、該当アドレスに格納されていた見出しの単語を取出
す。文章復元部６は取出された単語を、テキストデータ
中の辞書アドレスと置換え、出力バッファ９に出力す
る。また文章復元部６は、辞書アドレス置換部７から１
バイトのデータのみが与えられたときには、このデータ
が平仮名であると判断し、その先頭に２４Ｈという１バ
イトのデータを付加して出力バッファ９に出力する。

【００２９】上述の処理はテキストデータすべてについ
て繰返し行なわれる。テキストデータすべてについてこ
の処理が行なわれることにより、出力バッファ９には復
元文章、すなわち元のテキストデータが得られることに
なる。

【００３０】図１に示される装置は、コンピュータを用
いて実現されることが通常である。図５は、コンピュー
タを用いてこの方法を実施したときの、データ圧縮のた
めのプログラムの概略のフローチャートである。図５を
参照してステップ（以下単に「Ｓ」と呼ぶ）０１におい
て、処理対象となる文章が入力バッファ１５（図１）に
格納される。

【００３１】Ｓ０２において、入力されたテキストの１
文が取出され、形態素解析のための単語分割が行なわれ
る。制御はＳ０３に進む。

【００３２】Ｓ０３においては、Ｓ０２の処理におい
て、入力テキストの文章の終了への到達が検出されたか
否かが判断される。判断の答がＹＥＳであれば制御はＳ
０８に進み、さもなければ制御はＳ０４に進む。

【００３３】Ｓ０４においては、分割された単語をキー
として自立語辞書１１（図１）の検索が行なわれる。す
なわち、自立語辞書１１内に、分割された単語と同一の
見出しを見出す処理が行なわれる。制御はＳ０５に進
む。

【００３４】Ｓ０５においては、処理対象の単語と同一
の見出しが自立語辞書１１内にあったか否かが判断され
る。判断の答がＹＥＳであれば制御はＳ０６に進み、さ
もなければ制御はＳ０７に進む。

【００３５】Ｓ０６に制御が進んだ場合には、処理対象
の単語を、自立語辞書１１内においてその単語に割当て
られた２バイトのアドレスに変換して出力バッファ９に
出力する処理が行なわれる。制御はＳ０２に戻る。

【００３６】Ｓ０５からＳ０７に制御が進んだ場合に
は、その単語についての未登録語処理が行なわれる。未
登録語処理とは、前述のように処理対象の単語を文字単
位にまで分割し、各文字毎に所定の２バイトのコードを
与える処理のことである。この処理の後、制御はＳ０２
に戻る。

【００３７】Ｓ０３における判断の答がＹＥＳであった
場合、制御はＳ０８に進む。Ｓ０８に制御が進んだ場合
には、入力されたテキストデータについての処理がすべ
て終了したということであるから、出力バッファ９に圧
縮後のテキストデータが得られている。得られた圧縮後
のテキストデータに対し、識別情報付加部４から与えら
れる、自立語辞書１１を特定するための辞書識別情報が
付加される。制御はＳ０９に進む。

【００３８】Ｓ０９においては、出力バッファ９に得ら
れた識別情報付の圧縮データがたとえば磁気ディスク１
４に出力される。

【００３９】以上のようにして、コンピュータを用いた
場合のテキストデータの圧縮が行なわれる。

【００４０】図６は、図５に示されるプログラムに従っ
て圧縮されたテキストデータを復元するときに実行され
るプログラムのフローチャートである。図６を参照し
て、Ｓ２１において、磁気ディスク１４（図１）などに
格納されていた、圧縮済のデータがたとえば入力バッフ
ァ１５に入力される。制御はＳ２２に進む。

【００４１】Ｓ２２においては、圧縮データに付加され
ていた辞書識別情報の抽出が行なわれる。この抽出は、
入力された圧縮データのうちの、予め定められた特定の
位置に付加されている識別情報を読出すことにより行な
われる。制御はＳ２３に進む。

【００４２】Ｓ２３においては、圧縮データの先頭から
１バイトずつ順に読出される。制御はＳ２４に進む。

【００４３】Ｓ２４においては、Ｓ２３の処理の結果圧
縮データの終わりに到達したか否かが判断される。判断
の答がＹＥＳであればこのプログラムは終了し、さもな
ければ制御はＳ２５に進む。

【００４４】Ｓ２５においては、処理対象の１バイトの
ＭＳＢが１であるか否かが判断される。この判断は、前
述のように処理対象の１バイトが辞書アドレスの２バイ
トのうちの先頭の１バイトであるのか、あるいは１バイ
トに短縮された平仮名データであるのかを判断するため
に行なわれる。判断の答がＹＥＳであれば制御はＳ２６
に進み、さもなければ制御はＳ３１に進む。

【００４５】Ｓ２６においては、処理対象となる１バイ
トが辞書アドレスの先頭の１バイトであるということで
あるから、圧縮データの次の１バイトが読出される。制
御はＳ２７に進む。

【００４６】Ｓ２７においては、Ｓ２２において抽出さ
れた、圧縮時の辞書のバージョンが、復元時に使用され
る自立語辞書のバージョンと一致しているか否かが判断
される。両者が一致していれば制御は直接Ｓ２９に進む
が、さもなければ制御は一旦Ｓ２８に移る。

【００４７】Ｓ２８においては、図１１に示されるよう
なアドレス置換用テーブルを参照して、Ｓ２３、Ｓ２６
で取出された２バイトからなる旧アドレスが、現在使用
されている辞書のアドレスに置換される。制御はＳ２９
に進む。

【００４８】Ｓ２９においては、Ｓ２３、Ｓ２６におい
て読出された２バイトのアドレス、またはＳ２８におい
て上述の２バイトのデータが変換された新アドレスに基
づいて、自立語辞書１１内の該当アドレスが検索され
る。制御はＳ３０に進む。

【００４９】Ｓ３０においては、入力テキストデータ内
の、Ｓ２３およびＳ２６において読出された２バイトの
アドレスデータが、Ｓ２９の処理の結果得られた自立語
辞書内の見出しと置換される。制御はＳ３２に進む。

【００５０】Ｓ２５からＳ３１に処理が進んだ場合、前
述のようにこの１バイトは平仮名を表わすデータであ
る。したがってＳ３１においては、Ｓ２３において読出
されたデータの前に２４Ｈという１バイトのデータが付
加され、２バイトのデータに変換される。制御はＳ３２
に進む。

【００５１】Ｓ３２においては、Ｓ３０において得られ
た、自立語辞書内の見出しデータまたは、Ｓ３１におい
て得られた２バイトのデータが、出力バッファ９に既に
出力されている復元済のデータの最後尾に付け加えて出
力される。制御はＳ２３に戻る。

【００５２】Ｓ２３〜Ｓ３２の処理が繰返し行なわれる
ことにより、ディスクに格納されていた圧縮済のデータ
が伸長され、出力バッファ９内に復元される。この復元
の際、圧縮データに付加されていた辞書識別情報を用い
ることにより、圧縮時の自立語辞書と復元時に使用され
る自立語辞書とが一致するか、一致しないかを前述のよ
うに判断することができる。そして、一致していない場
合には図１１に示されるようなアドレス置換用テーブル
１２を用いて、復元時に用いられる自立語辞書の正しい
アドレスを得ることができる。したがって、自立語辞書
が時の経過と共に順次新たなものに置換えられていった
場合にも、古いバージョンの辞書を用いて圧縮されたデ
ータを正しく復元することができる。この場合、過去に
使用された自立語辞書が複数種類ある場合には、それら
の各辞書について、図１１に示されるようなテーブルを
作成しておけばよい。また、新しいバージョンの辞書を
用いて圧縮したデータを古い辞書を用いて復元するよう
な場合もあり得ることに備えて、図１２に示されるよう
な構成とは逆に、新しいバージョンの辞書のアドレス
を、古いバージョンの辞書のアドレスに変換するような
テーブルを用意しておくこともできる。

【００５３】以上のようにこの発明によれば、入力され
たテキストデータはまず単語に分割される。各単語は、
圧縮のために用意された辞書を参照することにより、そ
の辞書内においてその単語に割当てられたアドレスに変
換される。このアドレスは通常元の単語よりもデータ長
が短い。したがって、このアドレスを処理対象の単語に
変えてテキスト中に出力していくことにより、テキスト
が圧縮される。辞書に用意される見出しは、出現頻度と
関係なく選ぶことができる。したがって、従来の方法と
異なり、出現頻度の低い単語でも効率よく圧縮すること
ができる。さらに、従来用いられていたような圧縮方法
を併用することにより、さらに大きな圧縮効率を得るこ
とができる。

【００５４】以上、この発明が実施例に基づいて説明さ
れた。しかし、この発明は上述の実施例には限定されな
い。たとえば、上述の実施例中においては、入力される
テキストデータ中の単語を、辞書内においてその単語に
割当てられたアドレスに変換する例が示された。しか
し、変換方法はこれには限定されず、たとえばその辞書
中においてその単語が出現する順位を、前述のアドレス
に変えて用いてもよい。

【００５５】

【発明の効果】以上のように請求項１に係るテキストデ
ータの圧縮方法によれば、入力されたテキストデータの
うち、文字列変換辞書に見出しとして用意されていた文
字列は、辞書中の文字列対応データによって置換えられ
る。文字列対応データは入力文字列よりもデータ長が短
い。したがって、本発明の方法に従った処理をされたテ
キストデータは圧縮される。文字列が同一文字の反復で
ある必要はない。また、文字列変換辞書内に、文字列が
見出しとして用意されてさえいれば、出現頻度の大小に
かかわりなくその文字列は効率よく圧縮される。そのう
え、圧縮に用いられた辞書を特定するための識別情報が
付加されているため、テキストデータの復元時において
正しい辞書を用いて元のテキストデータを復元すること
が可能である。

【００５６】請求項２に記載のテキストデータの復元方
法によれば、圧縮されたテキストデータに付加されてい
た識別情報に基づき、圧縮時に使用された文字列変換辞
書が特定される。準備された復元用辞書が圧縮時に使用
された文字列変換辞書と異なっていても、適切な文字列
対応データ変換テーブルを用いることによって、圧縮テ
キストデータ中の文字列対応データに正しく対応する第
１の文字列を復元用の辞書から読出すことができる。圧
縮時、復元時に用いられる辞書が異なっていても、正し
くテキストデータを復元することができる。

【００５７】その結果、文字列の出現パターンに依存す
ることなく、圧縮されたテキストデータを圧縮時と異な
る環境下でも復元できる柔軟性に富んだ、テキストデー
タの復元方法を提供することができる。

【００５８】その結果、データの出現パターンに関係な
く効率よくテキストの圧縮／復元をすることができる、
柔軟性に富んだテキストデータの圧縮方法および復元方
法を提供することができる。

【図面の簡単な説明】

【図１】図１は本発明に係る方法を実施するための装置
のブロック図である。

【図２】図２は、本発明に係る方法を用いてテキストを
圧縮する際の処理の構成を示すブロック図である。

【図３】本発明に係る方法を用いてテキストデータを圧
縮し、さらに識別情報を付加するときの処理の構成を示
すブロック図である。

【図４】図４は、本発明に係る方法を用いて圧縮したデ
ータを復元する際の処理の構成を示すブロック図であ
る。

【図５】図５は、本発明に係る方法を実施するためのプ
ログラムのフローチャートである。

【図６】図６は、本発明に係る方法を用いて圧縮したテ
キストデータを、辞書を用いて復元する際のプログラム
のフローチャートである。

【図７】図７は自立語辞書の構成を示す模式図である。

【図８】入力されるテキストデータの一例を示す図であ
る。

【図９】圧縮後のテキストデータを示す模式図である。

【図１０】図１０は、識別情報付の圧縮データおよび識
別情報の構成を示す模式図である。

【図１１】図１１はアドレス置換用テーブルの構成を示
す模式図である。

【符号の説明】

１制御回路２ディスプレイ３キーボード４識別情報付加部５辞書検索部６文章復元部７辞書アドレス置換部８文章圧縮部９出力バッファ１０付属語テーブル１１自立語辞書１２アドレス置換用テーブル１３フレキシブルディスクドライブ１４固定ディスク１５入力バッファ１６テキスト圧縮部

Claims

【特許請求の範囲】

【請求項１】各々が、見出しとしてのコード化された
第１の文字列と、前記第１の文字列と１対１の対応関係
によって対応づけられ、前記第１の文字列よりもそのデ
ータ長の短い文字列対応データとを含む複数の文字列変
換対を含む文字列変換辞書を準備するステップと、１文字単位にコード化されたテキストデータを受け、前
記テキストデータを単語単位の入力文字列に分割するス
テップと、前記入力文字列と一致する前記文字列変換辞書中の前記
第１の文字列を検索するステップと、前記検索された第１の文字列に対応する前記文字列対応
データによって前記入力文字列を置換し、それによって
前記テキストデータを圧縮するステップと、前記準備された文字列変換辞書の種類を識別するための
識別情報を前記圧縮されたテキストデータに付加するス
テップとを含むテキストデータの圧縮方法。
【請求項２】各々が、見出しとしてのコード化された
第１の文字列と、前記第１の文字列と１対１の対応関係
によって対応づけられ、前記第１の文字列よりもそのデ
ータ長の短い文字列対応データとを含む複数の文字列変
換対を含む文字列変換辞書を準備するステップと、１文字単位にコード化されたテキストデータを受け、前
記テキストデータを単語単位の入力文字列に分割するス
テップと、前記入力文字列と一致する前記文字列変換辞書中の前記
第１の文字列を検索するステップと、前記検索された第１の文字列に対応する前記文字列対応
データによって前記入力文字列を置換し、それによって
前記テキストデータを圧縮するステップと、前記準備された文字列変換辞書の種類を識別するための
識別情報を前記圧縮されたテキストデータに付加するス
テップとを含むテキストデータの圧縮方法によって圧縮
されたテキストデータを復元するための方法であって、互いに異なる前記対応関係を有する複数個の前記文字列
変換辞書の、任意の２つの組合わせの各々に対して、各
前記文字列変換辞書中の同一の前記第１の文字列に対応
する前記文字列対応データの対からなる文字列対応デー
タ変換テーブルを準備するステップと、前記複数個の文字列変換辞書の１つを、前記圧縮された
テキストデータを復元する際に用いる復元用辞書として
選択するステップと、入力される前記圧縮されたテキストデータに付加された
前記識別情報を抽出するステップと、前記抽出された識別情報により特定される前記文字列変
換辞書と、前記復元用辞書との組合わせに対応する前記
文字列対応データ変換テーブルを選択するステップと、入力される前記圧縮されたテキストデータ中から、前記
文字列対応データを抽出するステップと、前記選択された文字列対応データ変換テーブル内を検索
し、前記抽出された文字列対応データと対を形成する前
記文字列対応データを取出すステップと、前記復元用文字列変換辞書内を検索し、前記取出された
文字列対応データと対を形成している前記第１の文字列
を取出し、前記入力されたテキストデータ中の前記抽出
された文字列データを前記取出された第１の文字列で置
換することにより、前記テキストデータを復元するステ
ップとを含むテキストデータの復元方法。