JPH0546358A

JPH0546358A - テキストデータの圧縮方法

Info

Publication number: JPH0546358A
Application number: JP3172858A
Authority: JP
Inventors: Hirokatsu Akiyama; 広勝秋山; Hitoshi Suzuki; 等鈴木; Akira Hamada; 明濱田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1991-07-15
Filing date: 1991-07-15
Publication date: 1993-02-26

Abstract

(57)【要約】【目的】テキストデータ内のデータ出現パターンに関
わりなく効率よくテキストデータを圧縮する。【構成】Ｓ０１において入力されたテキストデータ
を、Ｓ０２において単語に分割する。続いてＳ０４にお
いて、分割された単語が予め用意された辞書内にあるか
どうか検索し、Ｓ０５においてあったか否かを判断す
る。一致した見出しが辞書内にあった場合には、Ｓ０６
においてテキストデータ内のその単語が辞書内の、その
単語に割当てられたアドレスに変換されて出力される。
単語が辞書内にない場合には、Ｓ０６と異なる、別に用
意された未登録語処理がＳ０７において行なわれる。Ｓ
０４において参照される辞書にある単語は、この方法に
より効率よく短いデータに圧縮できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明はデータの符号化／復号
化に関し、特に、ワードプロセッサ、ワークステーショ
ン、コンピュータなどにおいて取扱われるテキストデー
タの圧縮／伸長技術に関する。

【０００２】

【従来の技術】コンピュータなどにおいて、データの格
納領域を削減することにより記憶装置を有効に利用する
ために、あるいは通信の分野において、送信されるデー
タの量を削減することにより通信の効率を向上させるた
めに、データを圧縮／伸長する技術の研究が行なわれて
いる。この種の従来の技術としては、以下のようなもの
がある。

【０００３】まず第１に、連続文字圧縮方式がある。こ
の方式は、テキストデータ中において連続して同一文字
が出現する場合に、その文字の種類と、その長さとの情
報を含むより短いデータに変換する方式である。この方
法を用いることにより、たとえばテキストデータ中の空
白部分のデータ量を削減することができる。また、デー
タの格納装置内において利用されていない部分（たとえ
ば００Ｈによって埋められている部分。なお、本明細書
中において以後、「文字（０〜９，Ａ〜Ｆ）＋Ｈ」は、
１６進数を表わす）を、より短いデータに変換すること
ができる。

【０００４】第２に、ハフマン方式などの、出現頻度の
多いパターンに短いビット列のコードを与える方式があ
る。この方式においては、出現頻度の少ないパターンに
は長いビット列が割当られる。しかし、よく現われるパ
ターンが短いビット列に変換されるため、テキスト全体
としてはデータ圧縮が行なわれる。

【０００５】上述のような方式により圧縮されたテキス
トデータを格納し、あるいは送信することにより、記憶
領域あるいは通信資源を有効に利用することができる。
このようにして圧縮されたデータを利用する場合には、
圧縮する際と逆の変換によりデータを伸長し、それによ
って元のデータを復元する必要がある。上述の各方法に
おいて、このような復元技術は圧縮技術とペアになって
開発されており、いずれの方法を用いても元のデータを
復元することができる。

【０００６】

【発明が解決しようとする課題】しかし、上述の従来の
方法においては、以下のような問題点がある。連続文字
圧縮方式を用いた場合、同一の文字が連続する場合にの
み圧縮の効果がある。しかし、実際のテキストデータに
おいては、空白領域を除いてはこのような状況は発生し
ない。そのため、この方式を用いた場合には、圧縮の効
率に限界があった。また、格納方式などを用いた場合に
は、ワードプロセッサなどで取扱われるテキストデータ
のように、パターンの出現頻度にそれほどの偏りがない
場合には、あまり有効な圧縮は行なわれない。すなわ
ち、この方式の場合にはどのパターンの出現頻度も平均
して少ないようなデータについては、データを効果的に
圧縮することができなかった。

【０００７】それゆえに、この発明の目的は、テキスト
データに含まれるデータのパターンにかかわらず効率よ
くデータを圧縮することができる、テキストデータの圧
縮方式を提供することである。

【０００８】

【課題を解決するための手段】請求項１に記載のテキス
トデータの圧縮方法は、各々が、見出しとしてのコード
化された第１の文字列と、第１の文字列と１対１の対応
関係により対応づけられ、第１の文字列よりもそのデー
タ長の短い文字列対応データとを含む複数個の文字列変
換対を含む文字列変換辞書を準備するステップと、１文
字単位にコード化されたテキストデータを受け、テキス
トデータを単語単位の入力文字列に分割するステップ
と、入力文字列と一致する文字列変換辞書中の第１の文
字列を検索するステップと、検索された第１の文字列に
対応する文字列対応データによって入力文字列を置換し
て、それによってテキストデータを圧縮するステップと
を含む。

【０００９】

【作用】上述のテキストデータの圧縮方法においては、
入力されたテキストデータはまず単語単位で入力文字列
に分割される。そして、入力文字列が文字列変換辞書中
に見出しとして用意されているか否かが調べられる。見
出しが存在している場合には、その見出しに対応する文
字列対応データによって入力文字が置換される。文字列
変換辞書中に用意される見出しは、その出現頻度と無関
係に準備することができる。したがって、従来できなか
ったような、出現頻度の低いパターンに対しても有効に
圧縮を行なうことができる。

【００１０】

【実施例】図１は、本発明に係るテキストデータの圧縮
方法を実施するための装置のブロック図である。図１を
参照して、この装置は、装置各部の制御を行なうための
制御回路１と、制御回路１に接続され、文章の表示など
を行なうためのＣＲＴ（Ｃａｔｈｏｄｅ−ＲａｙＴｕ
ｂｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓ
ｐｌａｙ）などからなるディスプレイ２と、使用者が文
章を入力したり、制御のための情報などを入力したりす
るための、制御回路１に接続されたキーボード３と、制
御回路１に接続され、フレキシブルディスクをドライブ
して、フレキシブルディスクへのデータの書込や、フレ
キシブルディスクからのデータの読出を行なうためのフ
レキシブルディスクドライブ１３と、制御回路１に接続
され、テキストデータなどを格納するための磁気ディス
ク１４と、制御回路１に接続され、使用者がキーボード
３から入力した文章や、フレキシブルディスクドライバ
１３によってフレキシブルディスクから読出されたテキ
ストデータや、ディスク１４から読出されたテキストデ
ータを一時格納するための入力バッファ１５と、制御回
路１に接続され、入力バッファ１５から読出されて所定
の変換を施されたテキストデータを一時格納するための
出力バッファ９とを含む。

【００１１】この装置はさらに、入力される文字に対し
て圧縮処理を行なう際に、入力されたテキストデータを
単語単位に分割するために行なう形態素解析の際に利用
される、付属語以外の単語（自立語）を格納した自立語
辞書１１と、同じく形態素解析の際に用いられる、付属
語や接辞などを格納した付属語テーブル１０と、制御回
路１と付属語テーブル１０と自立語辞書１１とに接続さ
れ、制御回路１から与えられるテキストデータに対し
て、自立語辞書１１および付属語テーブル１０を参照し
て形態素解析を行ない、テキストデータを単語単位に分
割するための辞書検索部５と、制御回路１と付属語テー
ブル１０と自立語辞書１１とに接続され、一旦圧縮され
たデータを、付属語テーブル１０および自立語辞書１１
を参照して復元するための文章復元部６と、自立語辞書
１１および制御回路１に接続され、テキストデータ圧縮
の際に、テキストデータに、圧縮に用いられた自立語辞
書１１の種類を特定するための識別情報を付加するため
の識別情報付加部４と、制御回路１に接続され、圧縮さ
れたテキストデータを復元する際に、圧縮のときに用い
られた自立語辞書１１と復元の際に用いられる自立語辞
書１１とが異なった種類のものであるときに、圧縮され
たテキストデータ中に含まれる、圧縮の際に用いられた
自立語辞書中のアドレスを、復元の際に用いられる自立
語辞書１１のアドレスに変換するための辞書アドレス置
換部７と、辞書アドレス置換部７に接続され、異なる種
類の自立語辞書の間でアドレス置換を行なう際に参照す
るための、アドレス間の対応関係を含むアドレス置換用
テーブル１２と、制御回路１に接続され、辞書検索部５
によって検索された、自立語辞書１１内の対応見出しの
アドレスによって、処理対象となる単語を置換えること
により文章を圧縮するための文章圧縮部８とを含む。

【００１２】図２を参照して、辞書検索部５と文章圧縮
部８とは、テキストデータ圧縮部１６を形成する。

【００１３】図１および図２を参照して、この装置にお
いてテキストデータの圧縮は以下のようにして行なわれ
る。まず、入力バッファ１５内にテキストデータとして
のコード化された入力文章が準備される。この準備は、
キーボード３を介して使用者がテキストデータを入力し
たり、フレキシブルディスクドライバ１３を介して、他
の装置で準備されたテキストデータを入力バッファ１５
に読込んだり、ディスク１４に格納されていた、予め準
備されたテキストデータを入力バッファ１５に読込んだ
りすることによって行なわれる。

【００１４】テキストデータは、制御回路１によって辞
書検索部５に与えられる。辞書検索部５は、入力される
テキストデータを自立語辞書１１および付属語テーブル
１０を参照して形態素解析を行なう。辞書検索部５は、
入力文章中のある単語が自立語辞書１１中に発見された
場合には、そのアドレスを制御回路１を介して文章圧縮
部８に与える。文章圧縮部８は、自立語辞書１１内に見
出された、入力文章中の単語を、その自立語辞書１１内
におけるアドレスと置換える。文章圧縮部８は、このよ
うにして各単語を辞書アドレスに変換しながら、出力バ
ッファ９にテキストデータを出力していく。

【００１５】辞書検索部５と制御回路１と文章圧縮部８
とは、テキストデータ中に、自立語辞書１１に含まれな
い単語が出てきたときには、以下のような未登録語処理
を行なう。自立語辞書１１に登録されていない単語は、
最終的には制御回路１および辞書検索部５によって文字
単位にまで分割される。分割された各文字は順に文章圧
縮部８に与えられる。文章圧縮部８は、入力されたテキ
ストデータがこのように文字単位にまで分割されてきた
場合には、これをそのまま出力テキストデータに追加出
力する。

【００１６】このような処理が入力されたテキストデー
タが終了するまで繰返し行なわれる。この結果、圧縮処
理がされたテキストデータが出力バッファ９に得られる
ことになる。

【００１７】図７は、自立語辞書１１の構成を示す模式
図である。図７を参照して、自立語辞書１１中には、よ
り短いデータに変換されるべき文字列が見出しとして順
に格納されている。各見出しの文字列には、それぞれに
固有のアドレスが割当てられている。このアドレスと各
見出しとは、１対１に対応している。すなわち、見出し
の文字列を与えることによりそのアドレスがユニークに
定まり、逆にアドレスを与えることにより、そのアドレ
スに格納されている文字列がユニークに定まる。図７に
示される例の場合には、アドレス８２００Ｈに「一寸法
師」という単語が、アドレス９０００Ｈに「鬼」という
単語が、アドレスＣ０００Ｈに「退治」という単語がそ
れぞれ格納されている。

【００１８】図８、図９は、制御回路１、辞書検索部
５、文章圧縮部８によって行なわれる、自立語辞書１１
の検索処理および検索された単語の、辞書内のアドレス
との置換えの様子を示す模式図である。図８（ａ）に示
される文が入力テキストである。入力テキストの各文字
には、２バイトずつのコードが割当てられている。例と
して「一寸法師」という語を１６進数で表わすと、図８
（ｂ）に示されるように、８バイトのデータとなる。辞
書検索部５は、入力文中の「一寸法師」という語を自立
語辞書１１中を検索して見出すことにより、その自立語
辞書１１内でのアドレスを制御回路１を介して文章圧縮
部８に与える。文章圧縮部８は、辞書検索部５から与え
られる情報に従って、入力テキスト中の「一寸法師」と
いう語（３０６Ｃ４０２３４Ｂ２１３Ｂ５５Ｈというデ
ータ）を、その辞書内のアドレス８２００Ｈと置換え、
出力バッファ９に出力する。これにより、８バイトのテ
キストデータが２バイトのテキストデータに圧縮された
ことになる。同様に辞書検索部５、制御回路１、文章圧
縮部８は、「鬼」、「退治」という語をそれぞれ９００
０Ｈ、Ｃ０００Ｈという、自立語辞書１１内のアドレス
に変換して出力バッファ９に与える。なお、各語のアド
レスの先頭バイトのＭＳＢ（最上位ビット）は１となっ
ている。

【００１９】さらに本実施例の場合には文章圧縮部８
は、入力テキスト中に平仮名が含まれていた場合には、
以下のような処理を行なう。平仮名は、ＪＩＳ漢字コー
ド体系において、２４２１Ｈ〜２４７３Ｈというコード
が割当てられている。これら各コードに共通して言える
ことは、１バイト目が２４Ｈであり、２バイト目が７３
Ｈ以下であるということである。したがって本実施例で
は、入力テキスト中に平仮名が含まれていた場合には、
その１バイト目を省略して出力バッファに出力すること
としている。たとえば、「が」には２４２ＣＨというコ
ードが割当てられているが、図１に示される装置におい
ては、その１バイト目の２４Ｈが省略され、下位１バイ
トの２ＣＨというデータのみが出力バッファに出力され
る。「を」、「した」などについても同様である。

【００２０】上述のような作業を行なうことにより、図
８（ａ）に示される入力テキストは、図９に示されるよ
うなデータに圧縮される。図８（ａ）の入力テキストに
は１１文字が含まれている。したがって、このテキスト
を単純にコード化するためには２２バイトが必要であっ
た。しかし、図９に示されるように、本発明に係る方法
を用いて、この入力テキストを１０バイトにまで圧縮す
ることができる。上述のような変換の他、片仮名、英数
字、記号等は１文字単位に２バイトで出力バッファ９に
出力される。また、日本語における「〜たことにより」
などのような付属語の連続からなる付属語列なども２バ
イトのコードに変換して出力される。

【００２１】図１に示される装置においては、出力バッ
ファ９に圧縮後のデータが得られた後、以下のような処
理が行なわれる。自立語辞書１１には、その辞書の種類
や版（バージョン）数、更新年月日などを含む、辞書の
種類を識別するための情報が付与されている。出力バッ
ファ９に得られた圧縮後のデータはたとえばディスク１
４内のファイルに改めて格納されるのが通常であるが、
この際識別情報付加部４は、自立語辞書１１に付与され
ている識別情報をこの圧縮後のデータに付加しておく。
識別情報の付加の態様としては、図１０（ａ）に示され
るように、圧縮後のデータの先頭の何バイトかをこの情
報のために割当てておく方法でもよいし、圧縮データ中
の他の特定の位置に識別情報を格納するようにしてもよ
い。また、特定のビット列が出現したら、それ以降が識
別情報であると定義して、任意の位置に挿入しても良
い。

【００２２】識別情報の例が図１０（ｂ）に示されてい
る。前述のように識別情報は、その辞書の名前や、その
辞書のバージョン数、その辞書が更新された日付などの
情報を含んでいる。この情報を圧縮後のデータに付加し
ておくことにより、復元処理において、圧縮時と異なっ
た自立語辞書を用いた場合にも、誤った復元処理が行な
われることを防止できる。その詳細は以下に説明され
る。

【００２３】図１および図４を参照して、ディスク１４
に格納された識別情報付圧縮データは、以下のようにし
て復元される。説明の前に、この復元処理において用い
られるアドレス置換用テーブル１２の構造について、図
１１を参照して説明する。図１１を参照して、アドレス
置換用テーブル１２は、圧縮データに付与されている識
別情報によって特定される、圧縮時に使用された自立語
辞書の所定のアドレスに格納されていた見出し語が、復
元時に使用される自立語辞書では、どのアドレスに格納
されているか、を示すためのテーブルである。すなわ
ち、アドレス置換用テーブル１２は、ある単語の、圧縮
時に使用された辞書中のアドレスと、復元時に使用され
る辞書のアドレスとの対を複数個含んでいる。そして、
旧アドレスを与えられることにより、新アドレスが得ら
れるようになっている。

【００２４】復元処理は以下のようにして行なわれる。
図１、図４を参照して、ディスク１４に格納されている
識別情報付圧縮データは、順次辞書アドレス置換部７に
与えられる。辞書アドレス置換部７は、入力されるテキ
ストを、先頭から１バイト単位でそのＭＳＢ（最上位ビ
ット）を調べていく。前述のように２バイトの辞書アド
レスの、１バイト目のＭＳＢは１である。一方、１バイ
トのデータに圧縮された平仮名を表わすデータは、高々
７ＣＨ（２進数で０１１１１１００）である。したが
って、平仮名の場合にはそのＭＳＢはゼロである。ゆえ
に、前述のように入力テキストの各バイトのＭＳＢを調
べていき、１のものがあれば、そこから２バイトは辞書
アドレスに変換された単語を表わし、ＭＳＢがゼロのも
のがあれば、そこから１バイト分が１バイトに短縮され
た平仮名を表わす。

【００２５】辞書アドレス置換部７は上述のようにして
辞書アドレスに変換された単語を見つけると、アドレス
置換用テーブル１２を参照し、新アドレスに置換して文
章復元部６に与える。辞書アドレス置換部７はまた、平
仮名であると判断されたデータはそのまま文章復元部６
に与える。

【００２６】文章復元部６は、辞書アドレス置換部７か
ら与えられた新アドレスを用いて自立語辞書１１を検索
し、該当アドレスに格納されていた見出しの単語を取出
す。文章復元部６は取出された単語を、テキストデータ
中の辞書アドレスと置換え、出力バッファ９に出力す
る。また文章復元部６は、辞書アドレス置換部７から１
バイトのデータのみが与えられたときには、このデータ
が平仮名であると判断し、その先頭に２４Ｈという１バ
イトのデータを付加して出力バッファ９に出力する。

【００２７】上述の処理はテキストデータすべてについ
て繰返し行なわれる。テキストデータすべてについてこ
の処理が行なわれることにより、出力バッファ９には復
元文章、すなわち元のテキストデータが得られることに
なる。

【００２８】図１に示される装置は、コンピュータを用
いて実現されることが通常である。図５は、コンピュー
タを用いてこの方法を実施したときの、データ圧縮のた
めのプログラムの概略のフローチャートである。図５を
参照してステップ（以下単に「Ｓ」と呼ぶ）０１におい
て、処理対象となる文章が入力バッファ１５（図１）に
格納される。

【００２９】Ｓ０２において、入力されたテキストの１
文が取出され、形態素解析のための単語分割が行なわれ
る。制御はＳ０３に進む。

【００３０】Ｓ０３においては、Ｓ０２の処理におい
て、入力テキストの文章の終了への到達が検出されたか
否かが判断される。判断の答がＹＥＳであれば制御はＳ
０８に進み、さもなければ制御はＳ０４に進む。

【００３１】Ｓ０４においては、分割された単語をキー
として自立語辞書１１（図１）の検索が行なわれる。す
なわち、自立語辞書１１内に、分割された単語と同一の
見出しを見出す処理が行なわれる。制御はＳ０５に進
む。

【００３２】Ｓ０５においては、処理対象の単語と同一
の見出しが自立語辞書１１内にあったか否かが判断され
る。判断の答がＹＥＳであれば制御はＳ０６に進み、さ
もなければ制御はＳ０７に進む。

【００３３】Ｓ０６に制御が進んだ場合には、処理対象
の単語を、自立語辞書１１内においてその単語に割当て
られた２バイトのアドレスに変換して出力バッファ９に
出力する処理が行なわれる。制御はＳ０２に戻る。

【００３４】Ｓ０５からＳ０７に制御が進んだ場合に
は、その単語についての未登録語処理が行なわれる。未
登録語処理とは、前述のように処理対象の単語を文字単
位にまで分割し、各文字毎に所定の２バイトのコードを
与える処理のことである。この処理の後、制御はＳ０２
に戻る。

【００３５】Ｓ０３における判断の答がＹＥＳであった
場合、制御はＳ０８に進む。Ｓ０８に制御が進んだ場合
には、入力されたテキストデータについての処理がすべ
て終了したということであるから、出力バッファ９に圧
縮後のテキストデータが得られている。得られた圧縮後
のテキストデータに対し、識別情報付加部４から与えら
れる、自立語辞書１１を特定するための辞書識別情報が
付加される。制御はＳ０９に進む。

【００３６】Ｓ０９においては、出力バッファ９に得ら
れた識別情報付の圧縮データがたとえば磁気ディスク１
４に出力される。

【００３７】以上のようにして、コンピュータを用いた
場合のテキストデータの圧縮が行なわれる。

【００３８】図６は、図５に示されるプログラムに従っ
て圧縮されたテキストデータを復元するときに実行され
るプログラムのフローチャートである。図６を参照し
て、Ｓ２１において、磁気ディスク１４（図１）などに
格納されていた、圧縮済のデータがたとえば入力バッフ
ァ１５に入力される。制御はＳ２２に進む。

【００３９】Ｓ２２においては、圧縮データに付加され
ていた辞書識別情報の抽出が行なわれる。この抽出は、
入力された圧縮データのうちの、予め定められた特定の
位置に付加されている識別情報を読出すことにより行な
われる。制御はＳ２３に進む。

【００４０】Ｓ２３においては、圧縮データの先頭から
１バイトずつ順に読出される。制御はＳ２４に進む。

【００４１】Ｓ２４においては、Ｓ２３の処理の結果圧
縮データの終わりに到達したか否かが判断される。判断
の答がＹＥＳであればこのプログラムは終了し、さもな
ければ制御はＳ２５に進む。

【００４２】Ｓ２５においては、処理対象の１バイトの
ＭＳＢが１であるか否かが判断される。この判断は、前
述のように処理対象の１バイトが辞書アドレスの２バイ
トのうちの先頭の１バイトであるのか、あるいは１バイ
トに短縮された平仮名データであるのかを判断するため
に行なわれる。判断の答がＹＥＳであれば制御はＳ２６
に進み、さもなければ制御はＳ３１に進む。

【００４３】Ｓ２６においては、処理対象となる１バイ
トが辞書アドレスの先頭の１バイトであるということで
あるから、圧縮データの次の１バイトが読出される。制
御はＳ２７に進む。

【００４４】Ｓ２７においては、Ｓ２２において抽出さ
れた、圧縮時の辞書のバージョンが、復元時に使用され
る自立語辞書のバージョンと一致しているか否かが判断
される。両者が一致していれば制御は直接Ｓ２９に進む
が、さもなければ制御は一旦Ｓ２８に移る。

【００４５】Ｓ２８においては、図１１に示されるよう
なアドレス置換用テーブルを参照して、Ｓ２３、Ｓ２６
で取出された２バイトからなる旧アドレスが、現在使用
されている辞書のアドレスに置換される。制御はＳ２９
に進む。

【００４６】Ｓ２９においては、Ｓ２３、Ｓ２６におい
て読出された２バイトのアドレス、またはＳ２８におい
て上述の２バイトのデータが変換された新アドレスに基
づいて、自立語辞書１１内の該当アドレスが検索され
る。制御はＳ３０に進む。

【００４７】Ｓ３０においては、入力テキストデータ内
の、Ｓ２３およびＳ２６において読出された２バイトの
アドレスデータが、Ｓ２９の処理の結果得られた自立語
辞書内の見出しと置換される。制御はＳ３２に進む。

【００４８】Ｓ２５からＳ３１に処理が進んだ場合、前
述のようにこの１バイトは平仮名を表わすデータであ
る。したがってＳ３１においては、Ｓ２３において読出
されたデータの前に２４Ｈという１バイトのデータが付
加され、２バイトのデータに変換される。制御はＳ３２
に進む。

【００４９】Ｓ３２においては、Ｓ３０において得られ
た、自立語辞書内の見出しデータまたは、Ｓ３１におい
て得られた２バイトのデータが、出力バッファ９に既に
出力されている復元済のデータの最後尾に付け加えて出
力される。制御はＳ２３に戻る。

【００５０】Ｓ２３〜Ｓ３２の処理が繰返し行なわれる
ことにより、ディスクに格納されていた圧縮済のデータ
が伸長され、出力バッファ９内に復元される。この復元
の際、圧縮データに付加されていた辞書識別情報を用い
ることにより、圧縮時の自立語辞書と復元時に使用され
る自立語辞書とが一致するか、一致しないかを前述のよ
うに判断することができる。そして、一致していない場
合には図１１に示されるようなアドレス置換用テーブル
１２を用いて、復元時に用いられる自立語辞書の正しい
アドレスを得ることができる。したがって、自立語辞書
が時の経過と共に順次新たなものに置換えられていった
場合にも、古いバージョンの辞書を用いて圧縮されたデ
ータを正しく復元することができる。この場合、過去に
使用された自立語辞書が複数種類ある場合には、それら
の各辞書について、図１１に示されるようなテーブルを
作成しておけばよい。また、新しいバージョンの辞書を
用いて圧縮したデータを古い辞書を用いて復元するよう
な場合もあり得ることに備えて、図１２に示されるよう
な構成とは逆に、新しいバージョンの辞書のアドレス
を、古いバージョンの辞書のアドレスに変換するような
テーブルを用意しておくこともできる。

【００５１】以上のようにこの発明によれば、入力され
たテキストデータはまず単語に分割される。各単語は、
圧縮のために用意された辞書を参照することにより、そ
の辞書内においてその単語に割当てられたアドレスに変
換される。このアドレスは通常元の単語よりもデータ長
が短い。したがって、このアドレスを処理対象の単語に
変えてテキスト中に出力していくことにより、テキスト
が圧縮される。辞書に用意される見出しは、出現頻度と
関係なく選ぶことができる。したがって、従来の方法と
異なり、出現頻度の低い単語でも効率よく圧縮すること
ができる。さらに、従来用いられていたような圧縮方法
を併用することにより、さらに大きな圧縮効率を得るこ
とができる。

【００５２】以上、この発明が実施例に基づいて説明さ
れた。しかし、この発明は上述の実施例には限定されな
い。たとえば、上述の実施例中においては、入力される
テキストデータ中の単語を、辞書内においてその単語に
割当てられたアドレスに変換する例が示された。しか
し、変換方法はこれには限定されず、たとえばその辞書
中においてその単語が出現する順位を、前述のアドレス
に変えて用いてもよい。

【００５３】

【発明の効果】以上のように本発明に係るテキストデー
タの圧縮方法によれば、入力されたテキストデータのう
ち、文字列変換辞書に見出しとして用意されていた文字
列は、辞書中の文字列対応データに置換えられる。文字
列対応データは入力文字列よりも通常データ長は短い。
したがって、本発明の方法に従った処理をされたテキス
トデータは、入力時よりもその長さが短くなる。すなわ
ち、この方法によりテキストデータは圧縮される。見出
しとして、出現頻度の低い文字列も用意しておくことに
より、出現頻度の低い文字列でも、従来と異なりより短
いデータに効率よく変換することができる。

【００５４】その結果、効率よくテキストデータを圧縮
することができるテキストデータの圧縮方法を提供する
ことができる。

【図面の簡単な説明】

【図１】図１は本発明に係る方法を実施するための装置
のブロック図である。

【図２】図２は、本発明に係る方法を用いてテキストを
圧縮する際の処理の構成を示すブロック図である。

【図３】本発明に係る方法を用いてテキストデータを圧
縮し、さらに識別情報を付加するときの処理の構成を示
すブロック図である。

【図４】図４は、本発明に係る方法を用いて圧縮したデ
ータを復元する際の処理の構成を示すブロック図であ
る。

【図５】図５は、本発明に係る方法を実施するためのプ
ログラムのフローチャートである。

【図６】図６は、本発明に係る方法を用いて圧縮したテ
キストデータを、辞書を用いて復元する際のプログラム
のフローチャートである。

【図７】図７は自立語辞書の構成を示す模式図である。

【図８】入力されるテキストデータの一例を示す図であ
る。

【図９】圧縮後のテキストデータを示す模式図である。

【図１０】図１０は、識別情報付の圧縮データおよび識
別情報の構成を示す模式図である。

【図１１】図１１はアドレス置換用テーブルの構成を示
す模式図である。

【符号の説明】

１制御回路２ディスプレイ３キーボード４識別情報付加部５辞書検索部６文章復元部７辞書アドレス置換部８文章圧縮部９出力バッファ１０付属語テーブル１１自立語辞書１２アドレス置換用テーブル１３フレキシブルディスクドライブ１４固定ディスク１５入力バッファ１６テキスト圧縮部

Claims

【特許請求の範囲】

【請求項１】各々が、見出しとしてのコード化された
第１の文字列と、前記第１の文字列と１対１の対応関係
により対応づけられ、前記第１の文字列よりもそのデー
タ長の短い文字列対応データとを含む複数個の文字列変
換対を含む文字列変換辞書を準備するステップと、１文字単位にコード化されたテキストデータを受け、前
記テキストデータを単語単位の入力文字列に分割するス
テップと、前記入力文字列と一致する前記文字列変換辞書中の前記
第１の文字列を検索するステップと、前記検索された第１の文字列に対応する前記文字列対応
データによって前記入力文字列を置換し、それによって
前記テキストデータを圧縮するステップとを含むテキス
トデータの圧縮方法。