JPH0546357A - テキストデータの圧縮方法および復元方法 - Google Patents

テキストデータの圧縮方法および復元方法

Info

Publication number
JPH0546357A
JPH0546357A JP3172857A JP17285791A JPH0546357A JP H0546357 A JPH0546357 A JP H0546357A JP 3172857 A JP3172857 A JP 3172857A JP 17285791 A JP17285791 A JP 17285791A JP H0546357 A JPH0546357 A JP H0546357A
Authority
JP
Japan
Prior art keywords
character string
data
dictionary
text data
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3172857A
Other languages
English (en)
Other versions
JP2729416B2 (ja
Inventor
Hirokatsu Akiyama
広勝 秋山
Hitoshi Suzuki
等 鈴木
Akira Hamada
明 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3172857A priority Critical patent/JP2729416B2/ja
Publication of JPH0546357A publication Critical patent/JPH0546357A/ja
Application granted granted Critical
Publication of JP2729416B2 publication Critical patent/JP2729416B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 データの出現パターンと関係なく効率よくテ
キストを圧縮し、柔軟かつ正確に復元する。 【構成】 バッファ15に格納されたテキストを単語に
分割し、自立語辞書11に含まれる単語をそのアドレス
に変換して出力バッファ9に順次出力してテキストを圧
縮する。圧縮されたテキストをディスク14に出力する
際には、辞書11を特定する識別情報を識別情報付加部
4によって付加する。復元時には、識別情報に基づき、
復元と圧縮の際の辞書11が同一か否かを判断し、異な
る場合には2つの辞書のアドレスを置換するためのテー
ブル12を用意する。テキスト中の辞書アドレスは辞書
アドレス置換部7によってテーブル12を参照して復元
時の辞書11の対応アドレスに変換される。そのアドレ
スに格納された単語を文章復元部6によってテキストデ
ータに取込むことにより、圧縮されたテキストデータが
復元される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明はデータの符号化/復号
化に関し、特に、ワードプロセッサ、ワークステーショ
ン、コンピュータなどにおいて取扱われるテキストデー
タの圧縮/伸長技術に関する。
【0002】
【従来の技術】コンピュータなどにおいて、データの格
納領域を削減することにより記憶装置を有効に利用する
ために、あるいは通信の分野において、送信されるデー
タの量を削減することにより通信の効率を向上させるた
めに、データを圧縮/伸長する技術の研究が行なわれて
いる。この種の従来の技術としては、以下のようなもの
がある。
【0003】まず第1に、連続文字圧縮方式がある。こ
の方式は、テキストデータ中において連続して同一文字
が出現する場合に、その文字の種類と、その長さとの情
報を含むより短いデータに変換する方式である。この方
法を用いることにより、たとえばテキストデータ中の空
白部分のデータ量を削減することができる。また、デー
タの格納装置内において利用されていない部分(たとえ
ば00Hによって埋められている部分。なお、本明細書
中において以後、「文字(0〜9,A〜F)+H」は、
16進数を表わす)を、より短いデータに変換すること
ができる。
【0004】第2に、ハフマン方式などの、出現頻度の
多いパターンに短いビット列のコードを与える方式があ
る。この方式においては、出現頻度の少ないパターンに
は長いビット列が割当られる。しかし、よく現われるパ
ターンが短いビット列に変換されるため、テキスト全体
としてはデータ圧縮が行なわれる。
【0005】上述のような方式により圧縮されたテキス
トデータを格納し、あるいは送信することにより、記憶
領域あるいは通信資源を有効に利用することができる。
このようにして圧縮されたデータを利用する場合には、
圧縮する際と逆の変換によりデータを伸長し、それによ
って元のデータを復元する必要がある。上述の各方法に
おいて、このような復元技術は圧縮技術とペアになって
開発されており、いずれの方法を用いても元のデータを
復元することができる。
【0006】
【発明が解決しようとする課題】しかし、上述の従来の
テキストデータの圧縮・復元方法においては、以下のよ
うな問題点がある。たとえば連続文字列圧縮方式では、
入力テキストのごく特殊な部分のみが有効に圧縮され、
他はほとんど圧縮され得ない。また、ハフマン方式など
の方法では、出現頻度の高いデータパターンは効率よく
圧縮されるものの、出現頻度の低いデータパターンは圧
縮効率が低い。さらに、圧縮時と復元時とで全く同じデ
ータ圧縮・復元用の変換テーブルを用いる必要があり、
そのため柔軟性に乏しいという問題点があった。
【0007】それゆえにこの発明の目的は、データの出
現パターンと関係なく効率よくテキストの圧縮が行なえ
るデータの圧縮方法と、この方法によって圧縮されたテ
キストデータを、圧縮時と異なる環境下でも正しく復元
できる柔軟性に富んだテキストデータの復元方法を提供
することである。
【0008】
【課題を解決するための手段】請求項1に記載のテキス
トデータの圧縮方法は、各々が、見出しとしてのコード
化された第1の文字列と、第1の文字列と1対1の対応
関係によって対応づけられ、第1の文字列よりもそのデ
ータ長の短い文字列対応データとを含む複数の文字列変
換対を含む文字列変換辞書を準備するステップと、1文
字単位にコード化されたテキストデータを受け、テキス
トデータを単語単位の入力文字列に分割するステップ
と、入力文字列と一致する文字列変換辞書中の第1の文
字列を検索するステップと、検索された第1の文字列に
対応する文字列対応データによって入力文字列を置換
し、それによってテキストデータを圧縮するステップ
と、準備された文字列変換辞書の種類を識別するための
識別情報を、圧縮されたテキストデータに付加するステ
ップとを含む。
【0009】請求項2に記載のテキストデータの復元方
法は、請求項1に記載されたテキストデータの圧縮方法
により圧縮されたテキストデータを復元するための方法
であって、互いに異なる対応関係を有する複数個の文字
列変換辞書の、任意の2つの組合わせの各々に対して、
各文字列変換辞書中の同一の第1の文字列に対応する文
字列対応データの対からなる文字列対応データ変換テー
ブルを準備するステップと、複数個の文字列変換辞書の
1つを、圧縮されたテキストデータを復元する際に用い
る復元用辞書として選択するステップと、入力される圧
縮されたテキストデータに付加された識別情報を抽出す
るステップと、抽出された識別情報により特定される文
字列変換辞書と、復元用辞書との組合わせに対応する文
字列対応データ変換テーブルを選択するステップと、入
力される圧縮されたテキストデータ中から、文字列対応
データを抽出するステップと、選択された文字列対応デ
ータ変換テーブル内を検索し、抽出された文字列対応デ
ータと対を形成する文字列対応データを取出すステップ
と、復元用文字列変換辞書内を検索し、取出された文字
列対応データと対を形成している第1の文字列を取出
し、入力されたテキストデータ中の抽出された文字列デ
ータを、取出された第1の文字列で置換することによ
り、テキストデータを復元するためのステップとを含
む。
【0010】
【作用】請求項1に記載のテキストデータの圧縮方法に
おいては、入力されたテキストデータはまず単語単位で
入力文字列に分割される。入力文字列が文字列変換辞書
中に見出しとして用意されているか否かが調べられる。
見出しが存在している場合には、その見出しに対応する
文字列対応データが出力される。文字列対応データは入
力文字列よりも短いデータ長を有する。これにより、テ
キストデータ全体が圧縮される。圧縮されたテキストデ
ータには、使用された文字列変換辞書を特定するための
識別情報が付加されている。そのため、このテキストデ
ータの復元の際には、識別情報を参照することにより、
圧縮時に用いられた文字列変換辞書を知ることができ
る。
【0011】請求項2に記載のテキストデータの復元方
法においては、圧縮されたテキストデータの識別情報が
抽出される。この識別情報に基づき、データ圧縮時に用
いられた文字列変換辞書が特定される。特定された文字
列変換辞書における対応関係と、復元に用いられる復元
用辞書における対応関係との間を関連づけるように、文
字列対応データ変換テーブルが選択される。圧縮テキス
ト中に含まれる、文字列変換辞書内で特定の第1の文字
列と対応づけられた文字列対応データは、文字列対応デ
ータ変換テーブルを参照して復元用辞書内において同一
の第1の文字列と対応づけられた文字列対応データに変
換される。この変換された文字列対応データと対応づけ
られた第1の文字列を復元用辞書内から取出せば、この
語は、圧縮される前のテキストデータ中の文字列と同一
のものとなる。
【0012】
【実施例】図1は、本発明に係るテキストデータの圧縮
方法を実施するための装置のブロック図である。図1を
参照して、この装置は、装置各部の制御を行なうための
制御回路1と、制御回路1に接続され、文章の表示など
を行なうためのCRT(Cathode−Ray Tu
be)やLCD(Liquid CrystalDis
play)などからなるディスプレイ2と、使用者が文
章を入力したり、制御のための情報などを入力したりす
るための、制御回路1に接続されたキーボード3と、制
御回路1に接続され、フレキシブルディスクをドライブ
して、フレキシブルディスクへのデータの書込や、フレ
キシブルディスクからのデータの読出を行なうためのフ
レキシブルディスクドライブ13と、制御回路1に接続
され、テキストデータなどを格納するための磁気ディス
ク14と、制御回路1に接続され、使用者がキーボード
3から入力した文章や、フレキシブルディスクドライバ
13によってフレキシブルディスクから読出されたテキ
ストデータや、ディスク14から読出されたテキストデ
ータを一時格納するための入力バッファ15と、制御回
路1に接続され、入力バッファ15から読出されて所定
の変換を施されたテキストデータを一時格納するための
出力バッファ9とを含む。
【0013】この装置はさらに、入力される文字に対し
て圧縮処理を行なう際に、入力されたテキストデータを
単語単位に分割するために行なう形態素解析の際に利用
される、付属語以外の単語(自立語)を格納した自立語
辞書11と、同じく形態素解析の際に用いられる、付属
語や接辞などを格納した付属語テーブル10と、制御回
路1と付属語テーブル10と自立語辞書11とに接続さ
れ、制御回路1から与えられるテキストデータに対し
て、自立語辞書11および付属語テーブル10を参照し
て形態素解析を行ない、テキストデータを単語単位に分
割するための辞書検索部5と、制御回路1と付属語テー
ブル10と自立語辞書11とに接続され、一旦圧縮され
たデータを、付属語テーブル10および自立語辞書11
を参照して復元するための文章復元部6と、自立語辞書
11および制御回路1に接続され、テキストデータ圧縮
の際に、テキストデータに、圧縮に用いられた自立語辞
書11の種類を特定するための識別情報を付加するため
の識別情報付加部4と、制御回路1に接続され、圧縮さ
れたテキストデータを復元する際に、圧縮のときに用い
られた自立語辞書11と復元の際に用いられる自立語辞
書11とが異なった種類のものであるときに、圧縮され
たテキストデータ中に含まれる、圧縮の際に用いられた
自立語辞書中のアドレスを、復元の際に用いられる自立
語辞書11のアドレスに変換するための辞書アドレス置
換部7と、辞書アドレス置換部7に接続され、異なる種
類の自立語辞書の間でアドレス置換を行なう際に参照す
るための、アドレス間の対応関係を含む、アドレス置換
用テーブル12と、制御回路1に接続され、辞書検索部
5によって検索された、自立語辞書11内の対応見出し
のアドレスによって、処理対象となる単語を置換えるこ
とにより文章を圧縮するための文章圧縮部8とを含む。
【0014】図2を参照して、辞書検索部5と文章圧縮
部8とは、テキストデータ圧縮部16を形成する。
【0015】図1および図2を参照して、この装置にお
いてテキストデータの圧縮は以下のようにして行なわれ
る。まず、入力バッファ15内にテキストデータとして
のコード化された入力文章が準備される。この準備は、
キーボード3を介して使用者がテキストデータを入力し
たり、フレキシブルディスクドライバ13を介して、他
の装置で準備されたテキストデータを入力バッファ15
に読込んだり、ディスク14に格納されていた、予め準
備されたテキストデータを入力バッファ15に読込んだ
りすることによって行なわれる。
【0016】テキストデータは、制御回路1によって辞
書検索部5に与えられる。辞書検索部5は、入力される
テキストデータを自立語辞書11および付属語テーブル
10を参照して形態素解析を行なう。辞書検索部5は、
入力文章中のある単語が自立語辞書11中に発見された
場合には、そのアドレスを制御回路1を介して文章圧縮
部8に与える。文章圧縮部8は、自立語辞書11内に見
出された、入力文章中の単語を、その自立語辞書11内
におけるアドレスと置換える。文章圧縮部8は、このよ
うにして各単語を辞書アドレスに変換しながら、出力バ
ッファ9にテキストデータを出力していく。
【0017】辞書検索部5と制御回路1と文章圧縮部8
とは、テキストデータ中に、自立語辞書11に含まれな
い単語が出てきたときには、以下のような未登録語処理
を行なう。自立語辞書11に登録されていない単語は、
最終的には制御回路1および辞書検索部5によって文字
単位にまで分割される。分割された各文字は順に文章圧
縮部8に与えられる。文章圧縮部8は、入力されたテキ
ストデータがこのように文字単位にまで分割されてきた
場合には、これをそのまま出力テキストデータに追加出
力する。
【0018】このような処理が入力されたテキストデー
タが終了するまで繰返し行なわれる。この結果、圧縮処
理がされたテキストデータが出力バッファ9に得られる
ことになる。
【0019】図7は、自立語辞書11の構成を示す模式
図である。図7を参照して、自立語辞書11中には、よ
り短いデータに変換されるべき文字列が見出しとして順
に格納されている。各見出しの文字列には、それぞれに
固有のアドレスが割当てられている。このアドレスと各
見出しとは、1対1に対応している。すなわち、見出し
の文字列を与えることによりそのアドレスがユニークに
定まり、逆にアドレスを与えることにより、そのアドレ
スに格納されている文字列がユニークに定まる。図7に
示される例の場合には、アドレス8200Hに「一寸法
師」という単語が、アドレス9000Hに「鬼」という
単語が、アドレスC000Hに「退治」という単語がそ
れぞれ格納されている。
【0020】図8、図9は、制御回路1、辞書検索部
5、文章圧縮部8によって行なわれる、自立語辞書11
の検索処理および検索された単語の、辞書内のアドレス
との置換えの様子を示す模式図である。図8(a)に示
される文が入力テキストである。入力テキストの各文字
には、2バイトずつのコードが割当てられている。例と
して「一寸法師」という語を16進数で表わすと、図8
(b)に示されるように、8バイトのデータとなる。辞
書検索部5は、入力文中の「一寸法師」という語を自立
語辞書11中を検索して見出すことにより、その自立語
辞書11内でのアドレスを制御回路1を介して文章圧縮
部8に与える。文章圧縮部8は、辞書検索部5から与え
られる情報に従って、入力テキスト中の「一寸法師」と
いう語(306C40234B213B55Hというデ
ータ)を、その辞書内のアドレス8200Hと置換え、
出力バッファ9に出力する。これにより、8バイトのテ
キストデータが2バイトのテキストデータに圧縮された
ことになる。同様に辞書検索部5、制御回路1、文章圧
縮部8は、「鬼」、「退治」という語をそれぞれ900
0H、C000Hという、自立語辞書11内のアドレス
に変換して出力バッファ9に与える。なお、各語のアド
レスの先頭バイトのMSB(最上位ビット)は1となっ
ている。
【0021】さらに本実施例の場合には文章圧縮部8
は、入力テキスト中に平仮名が含まれていた場合には、
以下のような処理を行なう。平仮名は、JIS漢字コー
ド体系において、2421H〜2473Hというコード
が割当てられている。これら各コードに共通して言える
ことは、1バイト目が24Hであり、2バイト目が73
H以下であるということである。したがって本実施例で
は、入力テキスト中に平仮名が含まれていた場合には、
その1バイト目を省略して出力バッファに出力すること
としている。たとえば、「が」には242CHというコ
ードが割当てられているが、図1に示される装置におい
ては、その1バイト目の24Hが省略され、下位1バイ
トの2CHというデータのみが出力バッファに出力され
る。「を」、「した」などについても同様である。
【0022】上述のような作業を行なうことにより、図
8(a)に示される入力テキストは、図9に示されるよ
うなデータに圧縮される。図8(a)の入力テキストに
は11文字が含まれている。したがって、このテキスト
を単純にコード化するためには22バイトが必要であっ
た。しかし、図9に示されるように、本発明に係る方法
を用いて、この入力テキストを10バイトにまで圧縮す
ることができる。上述のような変換の他、片仮名、英数
字、記号等は1文字単位に2バイトで出力バッファ9に
出力される。また、日本語における「〜たことにより」
などのような付属語の連続からなる付属語列なども2バ
イトのコードに変換して出力される。
【0023】図1に示される装置においては、出力バッ
ファ9に圧縮後のデータが得られた後、以下のような処
理が行なわれる。自立語辞書11には、その辞書の種類
や版(バージョン)数、更新年月日などを含む、辞書の
種類を識別するための情報が付与されている。出力バッ
ファ9に得られた圧縮後のデータはたとえばディスク1
4内のファイルに改めて格納されるのが通常であるが、
この際識別情報付加部4は、自立語辞書11に付与され
ている識別情報をこの圧縮後のデータに付加しておく。
識別情報の付加の態様としては、図10(a)に示され
るように、圧縮後のデータの先頭の何バイトかをこの情
報のために割当てておく方法でもよいし、圧縮データ中
の他の特定の位置に識別情報を格納するようにしてもよ
い。また、特定のビット列が出現したら、それ以降が識
別情報であると定義して、任意の位置に挿入しても良
い。
【0024】識別情報の例が図10(b)に示されてい
る。前述のように識別情報は、その辞書の名前や、その
辞書のバージョン数、その辞書が更新された日付などの
情報を含んでいる。この情報を圧縮後のデータに付加し
ておくことにより、復元処理において、圧縮時と異なっ
た自立語辞書を用いた場合にも、誤った復元処理が行な
われることを防止できる。その詳細は以下に説明され
る。
【0025】図1および図4を参照して、ディスク14
に格納された識別情報付圧縮データは、以下のようにし
て復元される。説明の前に、この復元処理において用い
られるアドレス置換用テーブル12の構造について、図
11を参照して説明する。図11を参照して、アドレス
置換用テーブル12は、圧縮データに付与されている識
別情報によって特定される、圧縮時に使用された自立語
辞書の所定のアドレスに格納されていた見出し語が、復
元時に使用される自立語辞書では、どのアドレスに格納
されているか、を示すためのテーブルである。すなわ
ち、アドレス置換用テーブル12は、ある単語の、圧縮
時に使用された辞書中のアドレスと、復元時に使用され
る辞書のアドレスとの対を複数個含んでいる。そして、
旧アドレスを与えられることにより、新アドレスが得ら
れるようになっている。
【0026】復元処理は以下のようにして行なわれる。
図1、図4を参照して、ディスク14に格納されている
識別情報付圧縮データは、順次辞書アドレス置換部7に
与えられる。辞書アドレス置換部7は、入力されるテキ
ストを、先頭から1バイト単位でそのMSB(最上位ビ
ット)を調べていく。前述のように2バイトの辞書アド
レスの、1バイト目のMSBは1である。一方、1バイ
トのデータに圧縮された平仮名を表わすデータは、高々
7CH(2進数で0111 1100)である。したが
って、平仮名の場合にはそのMSBはゼロである。ゆえ
に、前述のように入力テキストの各バイトのMSBを調
べていき、1のものがあれば、そこから2バイトは辞書
アドレスに変換された単語を表わし、MSBがゼロのも
のがあれば、そこから1バイト分が1バイトに短縮され
た平仮名を表わす。
【0027】辞書アドレス置換部7は上述のようにして
辞書アドレスに変換された単語を見つけると、アドレス
置換用テーブル12を参照し、新アドレスに置換して文
章復元部6に与える。辞書アドレス置換部7はまた、平
仮名であると判断されたデータはそのまま文章復元部6
に与える。
【0028】文章復元部6は、辞書アドレス置換部7か
ら与えられた新アドレスを用いて自立語辞書11を検索
し、該当アドレスに格納されていた見出しの単語を取出
す。文章復元部6は取出された単語を、テキストデータ
中の辞書アドレスと置換え、出力バッファ9に出力す
る。また文章復元部6は、辞書アドレス置換部7から1
バイトのデータのみが与えられたときには、このデータ
が平仮名であると判断し、その先頭に24Hという1バ
イトのデータを付加して出力バッファ9に出力する。
【0029】上述の処理はテキストデータすべてについ
て繰返し行なわれる。テキストデータすべてについてこ
の処理が行なわれることにより、出力バッファ9には復
元文章、すなわち元のテキストデータが得られることに
なる。
【0030】図1に示される装置は、コンピュータを用
いて実現されることが通常である。図5は、コンピュー
タを用いてこの方法を実施したときの、データ圧縮のた
めのプログラムの概略のフローチャートである。図5を
参照してステップ(以下単に「S」と呼ぶ)01におい
て、処理対象となる文章が入力バッファ15(図1)に
格納される。
【0031】S02において、入力されたテキストの1
文が取出され、形態素解析のための単語分割が行なわれ
る。制御はS03に進む。
【0032】S03においては、S02の処理におい
て、入力テキストの文章の終了への到達が検出されたか
否かが判断される。判断の答がYESであれば制御はS
08に進み、さもなければ制御はS04に進む。
【0033】S04においては、分割された単語をキー
として自立語辞書11(図1)の検索が行なわれる。す
なわち、自立語辞書11内に、分割された単語と同一の
見出しを見出す処理が行なわれる。制御はS05に進
む。
【0034】S05においては、処理対象の単語と同一
の見出しが自立語辞書11内にあったか否かが判断され
る。判断の答がYESであれば制御はS06に進み、さ
もなければ制御はS07に進む。
【0035】S06に制御が進んだ場合には、処理対象
の単語を、自立語辞書11内においてその単語に割当て
られた2バイトのアドレスに変換して出力バッファ9に
出力する処理が行なわれる。制御はS02に戻る。
【0036】S05からS07に制御が進んだ場合に
は、その単語についての未登録語処理が行なわれる。未
登録語処理とは、前述のように処理対象の単語を文字単
位にまで分割し、各文字毎に所定の2バイトのコードを
与える処理のことである。この処理の後、制御はS02
に戻る。
【0037】S03における判断の答がYESであった
場合、制御はS08に進む。S08に制御が進んだ場合
には、入力されたテキストデータについての処理がすべ
て終了したということであるから、出力バッファ9に圧
縮後のテキストデータが得られている。得られた圧縮後
のテキストデータに対し、識別情報付加部4から与えら
れる、自立語辞書11を特定するための辞書識別情報が
付加される。制御はS09に進む。
【0038】S09においては、出力バッファ9に得ら
れた識別情報付の圧縮データがたとえば磁気ディスク1
4に出力される。
【0039】以上のようにして、コンピュータを用いた
場合のテキストデータの圧縮が行なわれる。
【0040】図6は、図5に示されるプログラムに従っ
て圧縮されたテキストデータを復元するときに実行され
るプログラムのフローチャートである。図6を参照し
て、S21において、磁気ディスク14(図1)などに
格納されていた、圧縮済のデータがたとえば入力バッフ
ァ15に入力される。制御はS22に進む。
【0041】S22においては、圧縮データに付加され
ていた辞書識別情報の抽出が行なわれる。この抽出は、
入力された圧縮データのうちの、予め定められた特定の
位置に付加されている識別情報を読出すことにより行な
われる。制御はS23に進む。
【0042】S23においては、圧縮データの先頭から
1バイトずつ順に読出される。制御はS24に進む。
【0043】S24においては、S23の処理の結果圧
縮データの終わりに到達したか否かが判断される。判断
の答がYESであればこのプログラムは終了し、さもな
ければ制御はS25に進む。
【0044】S25においては、処理対象の1バイトの
MSBが1であるか否かが判断される。この判断は、前
述のように処理対象の1バイトが辞書アドレスの2バイ
トのうちの先頭の1バイトであるのか、あるいは1バイ
トに短縮された平仮名データであるのかを判断するため
に行なわれる。判断の答がYESであれば制御はS26
に進み、さもなければ制御はS31に進む。
【0045】S26においては、処理対象となる1バイ
トが辞書アドレスの先頭の1バイトであるということで
あるから、圧縮データの次の1バイトが読出される。制
御はS27に進む。
【0046】S27においては、S22において抽出さ
れた、圧縮時の辞書のバージョンが、復元時に使用され
る自立語辞書のバージョンと一致しているか否かが判断
される。両者が一致していれば制御は直接S29に進む
が、さもなければ制御は一旦S28に移る。
【0047】S28においては、図11に示されるよう
なアドレス置換用テーブルを参照して、S23、S26
で取出された2バイトからなる旧アドレスが、現在使用
されている辞書のアドレスに置換される。制御はS29
に進む。
【0048】S29においては、S23、S26におい
て読出された2バイトのアドレス、またはS28におい
て上述の2バイトのデータが変換された新アドレスに基
づいて、自立語辞書11内の該当アドレスが検索され
る。制御はS30に進む。
【0049】S30においては、入力テキストデータ内
の、S23およびS26において読出された2バイトの
アドレスデータが、S29の処理の結果得られた自立語
辞書内の見出しと置換される。制御はS32に進む。
【0050】S25からS31に処理が進んだ場合、前
述のようにこの1バイトは平仮名を表わすデータであ
る。したがってS31においては、S23において読出
されたデータの前に24Hという1バイトのデータが付
加され、2バイトのデータに変換される。制御はS32
に進む。
【0051】S32においては、S30において得られ
た、自立語辞書内の見出しデータまたは、S31におい
て得られた2バイトのデータが、出力バッファ9に既に
出力されている復元済のデータの最後尾に付け加えて出
力される。制御はS23に戻る。
【0052】S23〜S32の処理が繰返し行なわれる
ことにより、ディスクに格納されていた圧縮済のデータ
が伸長され、出力バッファ9内に復元される。この復元
の際、圧縮データに付加されていた辞書識別情報を用い
ることにより、圧縮時の自立語辞書と復元時に使用され
る自立語辞書とが一致するか、一致しないかを前述のよ
うに判断することができる。そして、一致していない場
合には図11に示されるようなアドレス置換用テーブル
12を用いて、復元時に用いられる自立語辞書の正しい
アドレスを得ることができる。したがって、自立語辞書
が時の経過と共に順次新たなものに置換えられていった
場合にも、古いバージョンの辞書を用いて圧縮されたデ
ータを正しく復元することができる。この場合、過去に
使用された自立語辞書が複数種類ある場合には、それら
の各辞書について、図11に示されるようなテーブルを
作成しておけばよい。また、新しいバージョンの辞書を
用いて圧縮したデータを古い辞書を用いて復元するよう
な場合もあり得ることに備えて、図12に示されるよう
な構成とは逆に、新しいバージョンの辞書のアドレス
を、古いバージョンの辞書のアドレスに変換するような
テーブルを用意しておくこともできる。
【0053】以上のようにこの発明によれば、入力され
たテキストデータはまず単語に分割される。各単語は、
圧縮のために用意された辞書を参照することにより、そ
の辞書内においてその単語に割当てられたアドレスに変
換される。このアドレスは通常元の単語よりもデータ長
が短い。したがって、このアドレスを処理対象の単語に
変えてテキスト中に出力していくことにより、テキスト
が圧縮される。辞書に用意される見出しは、出現頻度と
関係なく選ぶことができる。したがって、従来の方法と
異なり、出現頻度の低い単語でも効率よく圧縮すること
ができる。さらに、従来用いられていたような圧縮方法
を併用することにより、さらに大きな圧縮効率を得るこ
とができる。
【0054】以上、この発明が実施例に基づいて説明さ
れた。しかし、この発明は上述の実施例には限定されな
い。たとえば、上述の実施例中においては、入力される
テキストデータ中の単語を、辞書内においてその単語に
割当てられたアドレスに変換する例が示された。しか
し、変換方法はこれには限定されず、たとえばその辞書
中においてその単語が出現する順位を、前述のアドレス
に変えて用いてもよい。
【0055】
【発明の効果】以上のように請求項1に係るテキストデ
ータの圧縮方法によれば、入力されたテキストデータの
うち、文字列変換辞書に見出しとして用意されていた文
字列は、辞書中の文字列対応データによって置換えられ
る。文字列対応データは入力文字列よりもデータ長が短
い。したがって、本発明の方法に従った処理をされたテ
キストデータは圧縮される。文字列が同一文字の反復で
ある必要はない。また、文字列変換辞書内に、文字列が
見出しとして用意されてさえいれば、出現頻度の大小に
かかわりなくその文字列は効率よく圧縮される。そのう
え、圧縮に用いられた辞書を特定するための識別情報が
付加されているため、テキストデータの復元時において
正しい辞書を用いて元のテキストデータを復元すること
が可能である。
【0056】請求項2に記載のテキストデータの復元方
法によれば、圧縮されたテキストデータに付加されてい
た識別情報に基づき、圧縮時に使用された文字列変換辞
書が特定される。準備された復元用辞書が圧縮時に使用
された文字列変換辞書と異なっていても、適切な文字列
対応データ変換テーブルを用いることによって、圧縮テ
キストデータ中の文字列対応データに正しく対応する第
1の文字列を復元用の辞書から読出すことができる。圧
縮時、復元時に用いられる辞書が異なっていても、正し
くテキストデータを復元することができる。
【0057】その結果、文字列の出現パターンに依存す
ることなく、圧縮されたテキストデータを圧縮時と異な
る環境下でも復元できる柔軟性に富んだ、テキストデー
タの復元方法を提供することができる。
【0058】その結果、データの出現パターンに関係な
く効率よくテキストの圧縮/復元をすることができる、
柔軟性に富んだテキストデータの圧縮方法および復元方
法を提供することができる。
【図面の簡単な説明】
【図1】図1は本発明に係る方法を実施するための装置
のブロック図である。
【図2】図2は、本発明に係る方法を用いてテキストを
圧縮する際の処理の構成を示すブロック図である。
【図3】本発明に係る方法を用いてテキストデータを圧
縮し、さらに識別情報を付加するときの処理の構成を示
すブロック図である。
【図4】図4は、本発明に係る方法を用いて圧縮したデ
ータを復元する際の処理の構成を示すブロック図であ
る。
【図5】図5は、本発明に係る方法を実施するためのプ
ログラムのフローチャートである。
【図6】図6は、本発明に係る方法を用いて圧縮したテ
キストデータを、辞書を用いて復元する際のプログラム
のフローチャートである。
【図7】図7は自立語辞書の構成を示す模式図である。
【図8】入力されるテキストデータの一例を示す図であ
る。
【図9】圧縮後のテキストデータを示す模式図である。
【図10】図10は、識別情報付の圧縮データおよび識
別情報の構成を示す模式図である。
【図11】図11はアドレス置換用テーブルの構成を示
す模式図である。
【符号の説明】
1 制御回路 2 ディスプレイ 3 キーボード 4 識別情報付加部 5 辞書検索部 6 文章復元部 7 辞書アドレス置換部 8 文章圧縮部 9 出力バッファ 10 付属語テーブル 11 自立語辞書 12 アドレス置換用テーブル 13 フレキシブルディスクドライブ 14 固定ディスク 15 入力バッファ 16 テキスト圧縮部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 各々が、見出しとしてのコード化された
    第1の文字列と、前記第1の文字列と1対1の対応関係
    によって対応づけられ、前記第1の文字列よりもそのデ
    ータ長の短い文字列対応データとを含む複数の文字列変
    換対を含む文字列変換辞書を準備するステップと、 1文字単位にコード化されたテキストデータを受け、前
    記テキストデータを単語単位の入力文字列に分割するス
    テップと、 前記入力文字列と一致する前記文字列変換辞書中の前記
    第1の文字列を検索するステップと、 前記検索された第1の文字列に対応する前記文字列対応
    データによって前記入力文字列を置換し、それによって
    前記テキストデータを圧縮するステップと、 前記準備された文字列変換辞書の種類を識別するための
    識別情報を前記圧縮されたテキストデータに付加するス
    テップとを含むテキストデータの圧縮方法。
  2. 【請求項2】 各々が、見出しとしてのコード化された
    第1の文字列と、前記第1の文字列と1対1の対応関係
    によって対応づけられ、前記第1の文字列よりもそのデ
    ータ長の短い文字列対応データとを含む複数の文字列変
    換対を含む文字列変換辞書を準備するステップと、 1文字単位にコード化されたテキストデータを受け、前
    記テキストデータを単語単位の入力文字列に分割するス
    テップと、 前記入力文字列と一致する前記文字列変換辞書中の前記
    第1の文字列を検索するステップと、 前記検索された第1の文字列に対応する前記文字列対応
    データによって前記入力文字列を置換し、それによって
    前記テキストデータを圧縮するステップと、 前記準備された文字列変換辞書の種類を識別するための
    識別情報を前記圧縮されたテキストデータに付加するス
    テップとを含むテキストデータの圧縮方法によって圧縮
    されたテキストデータを復元するための方法であって、 互いに異なる前記対応関係を有する複数個の前記文字列
    変換辞書の、任意の2つの組合わせの各々に対して、各
    前記文字列変換辞書中の同一の前記第1の文字列に対応
    する前記文字列対応データの対からなる文字列対応デー
    タ変換テーブルを準備するステップと、 前記複数個の文字列変換辞書の1つを、前記圧縮された
    テキストデータを復元する際に用いる復元用辞書として
    選択するステップと、 入力される前記圧縮されたテキストデータに付加された
    前記識別情報を抽出するステップと、 前記抽出された識別情報により特定される前記文字列変
    換辞書と、前記復元用辞書との組合わせに対応する前記
    文字列対応データ変換テーブルを選択するステップと、 入力される前記圧縮されたテキストデータ中から、前記
    文字列対応データを抽出するステップと、 前記選択された文字列対応データ変換テーブル内を検索
    し、前記抽出された文字列対応データと対を形成する前
    記文字列対応データを取出すステップと、 前記復元用文字列変換辞書内を検索し、前記取出された
    文字列対応データと対を形成している前記第1の文字列
    を取出し、前記入力されたテキストデータ中の前記抽出
    された文字列データを前記取出された第1の文字列で置
    換することにより、前記テキストデータを復元するステ
    ップとを含むテキストデータの復元方法。
JP3172857A 1991-07-15 1991-07-15 テキストデータの復元方法 Expired - Lifetime JP2729416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3172857A JP2729416B2 (ja) 1991-07-15 1991-07-15 テキストデータの復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3172857A JP2729416B2 (ja) 1991-07-15 1991-07-15 テキストデータの復元方法

Publications (2)

Publication Number Publication Date
JPH0546357A true JPH0546357A (ja) 1993-02-26
JP2729416B2 JP2729416B2 (ja) 1998-03-18

Family

ID=15949583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3172857A Expired - Lifetime JP2729416B2 (ja) 1991-07-15 1991-07-15 テキストデータの復元方法

Country Status (1)

Country Link
JP (1) JP2729416B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306863A (ja) * 1994-05-13 1995-11-21 Nippon Steel Corp ドキュメント・辞書間リンク生成装置
JPH08227422A (ja) * 1994-12-20 1996-09-03 Tamotsu Tonegawa 文字−図形パターン変換システム及び翻訳システム
JPH09191256A (ja) * 1995-05-22 1997-07-22 Mb Video Gmbh 静止ビルトシルムテキストの蓄積体の記憶・再生方法
JPH1185459A (ja) * 1997-09-01 1999-03-30 Denso Corp 文字データ符号化方法および記録媒体
US6047298A (en) * 1996-01-30 2000-04-04 Sharp Kabushiki Kaisha Text compression dictionary generation apparatus
JP2019035850A (ja) * 2017-08-15 2019-03-07 公立大学法人会津大学 秘密データの隠蔽方法、これを実施するプログラム、及び秘密データ通信システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63151224A (ja) * 1986-12-04 1988-06-23 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン データ圧縮方法
JPS6459437A (en) * 1987-08-29 1989-03-07 Nec Corp File compressing system
JPH01102613A (ja) * 1987-10-14 1989-04-20 Sharp Corp 文字処理装置
JPH0247736A (ja) * 1988-08-09 1990-02-16 Nec Corp ファイル管理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63151224A (ja) * 1986-12-04 1988-06-23 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン データ圧縮方法
JPS6459437A (en) * 1987-08-29 1989-03-07 Nec Corp File compressing system
JPH01102613A (ja) * 1987-10-14 1989-04-20 Sharp Corp 文字処理装置
JPH0247736A (ja) * 1988-08-09 1990-02-16 Nec Corp ファイル管理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306863A (ja) * 1994-05-13 1995-11-21 Nippon Steel Corp ドキュメント・辞書間リンク生成装置
JPH08227422A (ja) * 1994-12-20 1996-09-03 Tamotsu Tonegawa 文字−図形パターン変換システム及び翻訳システム
JPH09191256A (ja) * 1995-05-22 1997-07-22 Mb Video Gmbh 静止ビルトシルムテキストの蓄積体の記憶・再生方法
US6047298A (en) * 1996-01-30 2000-04-04 Sharp Kabushiki Kaisha Text compression dictionary generation apparatus
JPH1185459A (ja) * 1997-09-01 1999-03-30 Denso Corp 文字データ符号化方法および記録媒体
JP2019035850A (ja) * 2017-08-15 2019-03-07 公立大学法人会津大学 秘密データの隠蔽方法、これを実施するプログラム、及び秘密データ通信システム

Also Published As

Publication number Publication date
JP2729416B2 (ja) 1998-03-18

Similar Documents

Publication Publication Date Title
US6047298A (en) Text compression dictionary generation apparatus
US5229768A (en) Adaptive data compression system
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
US8712977B2 (en) Computer product, information retrieval method, and information retrieval apparatus
KR20000068018A (ko) 스트링 검색이 포함되어 있는 즉각적인 사전 갱신을 갖춘 데이터
JP5831298B2 (ja) プログラム、情報処理装置およびインデックス生成方法
JPH0682370B2 (ja) 文字処理装置
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
KR970059917A (ko) 데이타압축, 신장방법 및 장치와 이것을 사용한 데이타처리장치 및 네트워크시스템
US7026962B1 (en) Text compression method and apparatus
KR100490240B1 (ko) 데이타압축장치,데이타복원장치,데이타압축방법,데이타복원방법및프로그램기록매체
JPH07283739A (ja) 短ブロックのデータを圧縮、伸長するための方法、及び装置
CN101783788A (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
EP0127815B1 (en) Data compression method
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
WO2018226221A1 (en) Context-dependent shared dictionaries
JP2729416B2 (ja) テキストデータの復元方法
JPH0546358A (ja) テキストデータの圧縮方法
US8463759B2 (en) Method and system for compressing data
Anto et al. A Compression System for Unicode Files Using an Enhanced Lzw Method.
JPH0554077A (ja) 単語辞書検索装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPS6268325A (ja) 文章圧縮・伸展方式
JPH07182354A (ja) 電子文書の作成方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971111