JP2729416B2 - テキストデータの復元方法 - Google Patents

テキストデータの復元方法

Info

Publication number
JP2729416B2
JP2729416B2 JP3172857A JP17285791A JP2729416B2 JP 2729416 B2 JP2729416 B2 JP 2729416B2 JP 3172857 A JP3172857 A JP 3172857A JP 17285791 A JP17285791 A JP 17285791A JP 2729416 B2 JP2729416 B2 JP 2729416B2
Authority
JP
Japan
Prior art keywords
character string
data
dictionary
text data
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3172857A
Other languages
English (en)
Other versions
JPH0546357A (ja
Inventor
広勝 秋山
等 鈴木
明 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP3172857A priority Critical patent/JP2729416B2/ja
Publication of JPH0546357A publication Critical patent/JPH0546357A/ja
Application granted granted Critical
Publication of JP2729416B2 publication Critical patent/JP2729416B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明はデータの符号化/復号
化に関し、特に、ワードプロセッサ、ワークステーショ
ン、コンピュータなどにおいて取扱われるテキストデー
タの圧縮/伸長技術に関する。
【0002】
【従来の技術】コンピュータなどにおいて、データの格
納領域を削減することにより記憶装置を有効に利用する
ために、あるいは通信の分野において、送信されるデー
タの量を削減することにより通信の効率を向上させるた
めに、データを圧縮/伸長する技術の研究が行なわれて
いる。この種の従来の技術としては、以下のようなもの
がある。
【0003】まず第1に、連続文字圧縮方式がある。こ
の方式は、テキストデータ中において連続して同一文字
が出現する場合に、その文字の種類と、その長さとの情
報を含むより短いデータに変換する方式である。この方
法を用いることにより、たとえばテキストデータ中の空
白部分のデータ量を削減することができる。また、デー
タの格納装置内において利用されていない部分(たとえ
ば00Hによって埋められている部分。なお、本明細書
中において以後、「文字(0〜9,A〜F)+H」は、
16進数を表わす)を、より短いデータに変換すること
ができる。
【0004】第2に、ハフマン方式などの、出現頻度の
多いパターンに短いビット列のコードを与える方式があ
る。この方式においては、出現頻度の少ないパターンに
は長いビット列が割当られる。しかし、よく現われるパ
ターンが短いビット列に変換されるため、テキスト全体
としてはデータ圧縮が行なわれる。
【0005】上述のような方式により圧縮されたテキス
トデータを格納し、あるいは送信することにより、記憶
領域あるいは通信資源を有効に利用することができる。
このようにして圧縮されたデータを利用する場合には、
圧縮する際と逆の変換によりデータを伸長し、それによ
って元のデータを復元する必要がある。上述の各方法に
おいて、このような復元技術は圧縮技術とペアになって
開発されており、いずれの方法を用いても元のデータを
復元することができる。
【0006】
【発明が解決しようとする課題】しかし、上述の従来の
テキストデータの圧縮・復元方法においては、以下のよ
うな問題点がある。たとえば連続文字列圧縮方式では、
入力テキストのごく特殊な部分のみが有効に圧縮され、
他はほとんど圧縮され得ない。また、ハフマン方式など
の方法では、出現頻度の高いデータパターンは効率よく
圧縮されるものの、出現頻度の低いデータパターンは圧
縮効率が低い。さらに、圧縮時と復元時とで全く同じデ
ータ圧縮・復元用の変換テーブルを用いる必要があり、
そのため柔軟性に乏しいという問題点があった。
【0007】それゆえにこの発明の目的は、データの出
現パターンと関係なく効率よくテキストの圧縮が行なえ
るデータの圧縮方法によって圧縮されたテキストデータ
を、圧縮時と異なる環境下でも正しく復元できる柔軟性
に富んだテキストデータの復元方法を提供することであ
る。
【0008】
【課題を解決するための手段】請求項1に記載のテキス
トデータの復元方法は、各々が、見出しとしてのコード
化された第1の文字列と、第1の文字列と1対1の対応
関係によって対応づけられ、第1の文字列よりもそのデ
ータ長の短い文字列対応データとを関連付ける複数の文
字列変換対を含む文字列変換辞書を準備するステップ
と、1文字単位にコード化されたテキストデータを受
け、テキストデータを単語単位の入力文字列に分割する
ステップと、入力文字列と一致する文字列変換辞書中の
第1の文字列を検索するステップと、検索された第1の
文字列に対応する文字列対応データによって入力文字列
を置換し、それによってテキストデータを圧縮するステ
ップと、準備された文字列変換辞書の種類を識別するた
めの識別情報を、圧縮されたテキストデータに付加する
ステップとを含むテキストデータの圧縮方法により圧縮
されたテキストデータを復元するための方法である。こ
の復元方法は、互いに異なる対応関係を有する複数個の
文字列変換辞書の、任意の2つの組合わせの各々に対し
て、各文字列変換辞書中の同一の第1の文字列に対応す
る文字列対応データの対からなる文字列対応データ変換
テーブルを準備するステップと、複数個の文字列変換辞
書の1つを、圧縮されたテキストデータを復元する際に
用いる復元用辞書として選択するステップと、入力され
る圧縮されたテキストデータに付加された識別情報を抽
出するステップと、抽出された識別情報により特定され
る文字列変換辞書と、復元用辞書との組合わせに対応す
る文字列対応データ変換テーブルを選択するステップ
と、入力される圧縮されたテキストデータ中から、文字
列対応データを抽出するステップと、選択された文字列
対応データ変換テーブル内を検索し、抽出された文字列
対応データと対を形成する文字列対応データを取出すス
テップと、復元用文字列変換辞書内を検索し、取出され
た文字列対応データが関連付けられている第1の文字列
を取出し、入力されたテキストデータ中の抽出された文
字列データを、取出された第1の文字列で置換すること
により、テキストデータを復元するためのステップとを
含む。
【0009】
【0010】
【作用】請求項1に記載のテキストデータの復元方法に
おいては、圧縮されたテキストデータには、使用された
文字列変換辞書を特定するための識別情報が付加されて
いる。そのため、このテキストデータの復元の際には、
識別情報を参照することにより、圧縮時に用いられた文
字列変換辞書を知ることができる。
【0011】復元時には、圧縮されたテキストデータの
識別情報が抽出される。この識別情報に基づき、データ
圧縮時に用いられた文字列変換辞書が特定される。特定
された文字列変換辞書における対応関係と、復元に用い
られる復元用辞書における対応関係との間を関連づける
ように、文字列対応データ変換テーブルが選択される。
圧縮テキスト中に含まれる、文字列変換辞書内で特定の
第1の文字列と関連づけられた文字列対応データは、文
字列対応データ変換テーブルを参照して復元用辞書内に
おいて同一の第1の文字列と対応づけられた文字列対応
データに変換される。この変換された文字列対応データ
と関連づけられた第1の文字列を復元用辞書内から取出
せば、この語は、圧縮される前のテキストデータ中の文
字列と同一のものとなる。
【0012】
【実施例】図1は、本発明に係るテキストデータの復元
方法により復元されるテキストを圧縮するための装置の
ブロック図である。図1を参照して、この装置は、装置
各部の制御を行なうための制御回路1と、制御回路1に
接続され、文章の表示などを行なうためのCRT(Ca
thode−Ray Tube)やLCD(Liqui
d Crystal Display)などからなるデ
ィスプレイ2と、使用者が文章を入力したり、制御のた
めの情報などを入力したりするための、制御回路1に接
続されたキーボード3と、制御回路1に接続され、フレ
キシブルディスクをドライブして、フレキシブルディス
クへのデータの書込や、フレキシブルディスクからのデ
ータの読出を行なうためのフレキシブルディスクドライ
ブ13と、制御回路1に接続され、テキストデータなど
を格納するための磁気ディスク14と、制御回路1に接
続され、使用者がキーボード3から入力した文章や、フ
レキシブルディスクドライバ13によってフレキシブル
ディスクから読出されたテキストデータや、ディスク1
4から読出されたテキストデータを一時格納するための
入力バッファ15と、制御回路1に接続され、入力バッ
ファ15から読出されて所定の変換を施されたテキスト
データを一時格納するための出力バッファ9とを含む。
【0013】この装置はさらに、入力される文字に対し
て圧縮処理を行なう際に、入力されたテキストデータを
単語単位に分割するために行なう形態素解析の際に利用
される、付属語以外の単語(自立語)を格納した自立語
辞書11と、同じく形態素解析の際に用いられる、付属
語や接辞などを格納した付属語テーブル10と、制御回
路1と付属語テーブル10と自立語辞書11とに接続さ
れ、制御回路1から与えられるテキストデータに対し
て、自立語辞書11および付属語テーブル10を参照し
て形態素解析を行ない、テキストデータを単語単位に分
割するための辞書検索部5と、制御回路1と付属語テー
ブル10と自立語辞書11とに接続され、一旦圧縮され
たデータを、付属語テーブル10および自立語辞書11
を参照して復元するための文章復元部6と、自立語辞書
11および制御回路1に接続され、テキストデータ圧縮
の際に、テキストデータに、圧縮に用いられた自立語辞
書11の種類を特定するための識別情報を付加するため
の識別情報付加部4と、制御回路1に接続され、圧縮さ
れたテキストデータを復元する際に、圧縮のときに用い
られた自立語辞書11と復元の際に用いられる自立語辞
書11とが異なった種類のものであるときに、圧縮され
たテキストデータ中に含まれる、圧縮の際に用いられた
自立語辞書中のアドレスを、復元の際に用いられる自立
語辞書11のアドレスに変換するための辞書アドレス置
換部7と、辞書アドレス置換部7に接続され、異なる種
類の自立語辞書の間でアドレス置換を行なう際に参照す
るための、アドレス間の対応関係を含む、アドレス置換
用テーブル12と、制御回路1に接続され、辞書検索部
5によって検索された、自立語辞書11内の対応見出し
のアドレスによって、処理対象となる単語を置換えるこ
とにより文章を圧縮するための文章圧縮部8とを含む。
【0014】図2を参照して、辞書検索部5と文章圧縮
部8とは、テキストデータ圧縮部16を形成する。
【0015】図1および図2を参照して、この装置にお
いてテキストデータの圧縮は以下のようにして行なわれ
る。まず、入力バッファ15内にテキストデータとして
のコード化された入力文章が準備される。この準備は、
キーボード3を介して使用者がテキストデータを入力し
たり、フレキシブルディスクドライバ13を介して、他
の装置で準備されたテキストデータを入力バッファ15
に読込んだり、ディスク14に格納されていた、予め準
備されたテキストデータを入力バッファ15に読込んだ
りすることによって行なわれる。
【0016】テキストデータは、制御回路1によって辞
書検索部5に与えられる。辞書検索部5は、入力される
テキストデータを自立語辞書11および付属語テーブル
10を参照して形態素解析を行なう。辞書検索部5は、
入力文章中のある単語が自立語辞書11中に発見された
場合には、そのアドレスを制御回路1を介して文章圧縮
部8に与える。文章圧縮部8は、自立語辞書11内に見
出された、入力文章中の単語を、その自立語辞書11内
におけるアドレスと置換える。文章圧縮部8は、このよ
うにして各単語を辞書アドレスに変換しながら、出力バ
ッファ9にテキストデータを出力していく。
【0017】辞書検索部5と制御回路1と文章圧縮部8
とは、テキストデータ中に、自立語辞書11に含まれな
い単語が出てきたときには、以下のような未登録語処理
を行なう。自立語辞書11に登録されていない単語は、
最終的には制御回路1および辞書検索部5によって文字
単位にまで分割される。分割された各文字は順に文章圧
縮部8に与えられる。文章圧縮部8は、入力されたテキ
ストデータがこのように文字単位にまで分割されてきた
場合には、これをそのまま出力テキストデータに追加出
力する。
【0018】このような処理が入力されたテキストデー
タが終了するまで繰返し行なわれる。この結果、圧縮処
理がされたテキストデータが出力バッファ9に得られる
ことになる。
【0019】図7は、自立語辞書11の構成を示す模式
図である。図7を参照して、自立語辞書11中には、よ
り短いデータに変換されるべき文字列が見出しとして順
に格納されている。各見出しの文字列には、それぞれに
固有のアドレスが割当てられている。このアドレスと各
見出しとは、1対1に対応している。すなわち、見出し
の文字列を与えることによりそのアドレスがユニークに
定まり、逆にアドレスを与えることにより、そのアドレ
スに格納されている文字列がユニークに定まる。図7に
示される例の場合には、アドレス8200Hに「一寸法
師」という単語が、アドレス9000Hに「鬼」という
単語が、アドレスC000Hに「退治」という単語がそ
れぞれ格納されている。
【0020】図8、図9は、制御回路1、辞書検索部
5、文章圧縮部8によって行なわれる、自立語辞書11
の検索処理および検索された単語の、辞書内のアドレス
との置換えの様子を示す模式図である。図8(a)に示
される文が入力テキストである。入力テキストの各文字
には、2バイトずつのコードが割当てられている。例と
して「一寸法師」という語を16進数で表わすと、図8
(b)に示されるように、8バイトのデータとなる。辞
書検索部5は、入力文中の「一寸法師」という語を自立
語辞書11中を検索して見出すことにより、その自立語
辞書11内でのアドレスを制御回路1を介して文章圧縮
部8に与える。文章圧縮部8は、辞書検索部5から与え
られる情報に従って、入力テキスト中の「一寸法師」と
いう語(306C40234B213B55Hというデ
ータ)を、その辞書内のアドレス8200Hと置換え、
出力バッファ9に出力する。これにより、8バイトのテ
キストデータが2バイトのテキストデータに圧縮された
ことになる。同様に辞書検索部5、制御回路1、文章圧
縮部8は、「鬼」、「退治」という語をそれぞれ900
0H、C000Hという、自立語辞書11内のアドレス
に変換して出力バッファ9に与える。なお、各語のアド
レスの先頭バイトのMSB(最上位ビット)は1となっ
ている。
【0021】さらに本実施例の場合には文章圧縮部8
は、入力テキスト中に平仮名が含まれていた場合には、
以下のような処理を行なう。平仮名は、JIS漢字コー
ド体系において、2421H〜2473Hというコード
が割当てられている。これら各コードに共通して言える
ことは、1バイト目が24Hであり、2バイト目が73
H以下であるということである。したがって本実施例で
は、入力テキスト中に平仮名が含まれていた場合には、
その1バイト目を省略して出力バッファに出力すること
としている。たとえば、「が」には242CHというコ
ードが割当てられているが、図1に示される装置におい
ては、その1バイト目の24Hが省略され、下位1バイ
トの2CHというデータのみが出力バッファに出力され
る。「を」、「した」などについても同様である。
【0022】上述のような作業を行なうことにより、図
8(a)に示される入力テキストは、図9に示されるよ
うなデータに圧縮される。図8(a)の入力テキストに
は11文字が含まれている。したがって、このテキスト
を単純にコード化するためには22バイトが必要であっ
た。しかし、図9に示されるように、この圧縮方法を用
いて、この入力テキストを10バイトにまで圧縮するこ
とができる。上述のような変換の他、片仮名、英数字、
記号等は1文字単位に2バイトで出力バッファ9に出力
される。また、日本語における「〜たことにより」など
のような付属語の連続からなる付属語列なども2バイト
のコードに変換して出力される。
【0023】図1に示される装置においては、出力バッ
ファ9に圧縮後のデータが得られた後、以下のような処
理が行なわれる。自立語辞書11には、その辞書の種類
や版(バージョン)数、更新年月日などを含む、辞書の
種類を識別するための情報が付与されている。出力バッ
ファ9に得られた圧縮後のデータはたとえばディスク1
4内のファイルに改めて格納されるのが通常であるが、
この際識別情報付加部4は、自立語辞書11に付与され
ている識別情報をこの圧縮後のデータに付加しておく。
識別情報の付加の態様としては、図10(a)に示され
るように、圧縮後のデータの先頭の何バイトかをこの情
報のために割当てておく方法でもよいし、圧縮データ中
の他の特定の位置に識別情報を格納するようにしてもよ
い。また、特定のビット列が出現したら、それ以降が識
別情報であると定義して、任意の位置に挿入しても良
い。
【0024】識別情報の例が図10(b)に示されてい
る。前述のように識別情報は、その辞書の名前や、その
辞書のバージョン数、その辞書が更新された日付などの
情報を含んでいる。この情報を圧縮後のデータに付加し
ておくことにより、復元処理において、圧縮時と異なっ
た自立語辞書を用いた場合にも、誤った復元処理が行な
われることを防止できる。その詳細は以下に説明され
る。
【0025】図1および図4を参照して、ディスク14
に格納された識別情報付圧縮データは、以下のようにし
て復元される。説明の前に、この復元処理において用い
られるアドレス置換用テーブル12の構造について、図
11を参照して説明する。図11を参照して、アドレス
置換用テーブル12は、圧縮データに付与されている識
別情報によって特定される、圧縮時に使用された自立語
辞書の所定のアドレスに格納されていた見出し語が、復
元時に使用される自立語辞書では、どのアドレスに格納
されているか、を示すためのテーブルである。すなわ
ち、アドレス置換用テーブル12は、ある単語の、圧縮
時に使用された辞書中のアドレスと、復元時に使用され
る辞書のアドレスとの対を複数個含んでいる。そして、
旧アドレスを与えられることにより、新アドレスが得ら
れるようになっている。
【0026】復元処理は以下のようにして行なわれる。
図1、図4を参照して、ディスク14に格納されている
識別情報付圧縮データは、順次辞書アドレス置換部7に
与えられる。辞書アドレス置換部7は、入力されるテキ
ストを、先頭から1バイト単位でそのMSB(最上位ビ
ット)を調べていく。前述のように2バイトの辞書アド
レスの、1バイト目のMSBは1である。一方、1バイ
トのデータに圧縮された平仮名を表わすデータは、高々
7CH(2進数で0111 1100)である。したが
って、平仮名の場合にはそのMSBはゼロである。ゆえ
に、前述のように入力テキストの各バイトのMSBを調
べていき、1のものがあれば、そこから2バイトは辞書
アドレスに変換された単語を表わし、MSBがゼロのも
のがあれば、そこから1バイト分が1バイトに短縮され
た平仮名を表わす。
【0027】辞書アドレス置換部7は上述のようにして
辞書アドレスに変換された単語を見つけると、アドレス
置換用テーブル12を参照し、新アドレスに置換して文
章復元部6に与える。辞書アドレス置換部7はまた、平
仮名であると判断されたデータはそのまま文章復元部6
に与える。
【0028】文章復元部6は、辞書アドレス置換部7か
ら与えられた新アドレスを用いて自立語辞書11を検索
し、該当アドレスに格納されていた見出しの単語を取出
す。文章復元部6は取出された単語を、テキストデータ
中の辞書アドレスと置換え、出力バッファ9に出力す
る。また文章復元部6は、辞書アドレス置換部7から1
バイトのデータのみが与えられたときには、このデータ
が平仮名であると判断し、その先頭に24Hという1バ
イトのデータを付加して出力バッファ9に出力する。
【0029】上述の処理はテキストデータすべてについ
て繰返し行なわれる。テキストデータすべてについてこ
の処理が行なわれることにより、出力バッファ9には復
元文章、すなわち元のテキストデータが得られることに
なる。
【0030】図1に示される装置は、コンピュータを用
いて実現されることが通常である。図5は、コンピュー
タを用いてこの方法を実施したときの、データ圧縮のた
めのプログラムの概略のフローチャートである。図5を
参照してステップ(以下単に「S」と呼ぶ)01におい
て、処理対象となる文章が入力バッファ15(図1)に
格納される。
【0031】S02において、入力されたテキストの1
文が取出され、形態素解析のための単語分割が行なわれ
る。制御はS03に進む。
【0032】S03においては、S02の処理におい
て、入力テキストの文章の終了への到達が検出されたか
否かが判断される。判断の答がYESであれば制御はS
08に進み、さもなければ制御はS04に進む。
【0033】S04においては、分割された単語をキー
として自立語辞書11(図1)の検索が行なわれる。す
なわち、自立語辞書11内に、分割された単語と同一の
見出しを見出す処理が行なわれる。制御はS05に進
む。
【0034】S05においては、処理対象の単語と同一
の見出しが自立語辞書11内にあったか否かが判断され
る。判断の答がYESであれば制御はS06に進み、さ
もなければ制御はS07に進む。
【0035】S06に制御が進んだ場合には、処理対象
の単語を、自立語辞書11内においてその単語に割当て
られた2バイトのアドレスに変換して出力バッファ9に
出力する処理が行なわれる。制御はS02に戻る。
【0036】S05からS07に制御が進んだ場合に
は、その単語についての未登録語処理が行なわれる。未
登録語処理とは、前述のように処理対象の単語を文字単
位にまで分割し、各文字毎に所定の2バイトのコードを
与える処理のことである。この処理の後、制御はS02
に戻る。
【0037】S03における判断の答がYESであった
場合、制御はS08に進む。S08に制御が進んだ場合
には、入力されたテキストデータについての処理がすべ
て終了したということであるから、出力バッファ9に圧
縮後のテキストデータが得られている。得られた圧縮後
のテキストデータに対し、識別情報付加部4から与えら
れる、自立語辞書11を特定するための辞書識別情報が
付加される。制御はS09に進む。
【0038】S09においては、出力バッファ9に得ら
れた識別情報付の圧縮データがたとえば磁気ディスク1
4に出力される。
【0039】以上のようにして、コンピュータを用いた
場合のテキストデータの圧縮が行なわれる。
【0040】図6は、図5に示されるプログラムに従っ
て圧縮されたテキストデータを復元するときに実行され
るプログラムのフローチャートである。図6を参照し
て、S21において、磁気ディスク14(図1)などに
格納されていた、圧縮済のデータがたとえば入力バッフ
ァ15に入力される。制御はS22に進む。
【0041】S22においては、圧縮データに付加され
ていた辞書識別情報の抽出が行なわれる。この抽出は、
入力された圧縮データのうちの、予め定められた特定の
位置に付加されている識別情報を読出すことにより行な
われる。制御はS23に進む。
【0042】S23においては、圧縮データの先頭から
1バイトずつ順に読出される。制御はS24に進む。
【0043】S24においては、S23の処理の結果圧
縮データの終わりに到達したか否かが判断される。判断
の答がYESであればこのプログラムは終了し、さもな
ければ制御はS25に進む。
【0044】S25においては、処理対象の1バイトの
MSBが1であるか否かが判断される。この判断は、前
述のように処理対象の1バイトが辞書アドレスの2バイ
トのうちの先頭の1バイトであるのか、あるいは1バイ
トに短縮された平仮名データであるのかを判断するため
に行なわれる。判断の答がYESであれば制御はS26
に進み、さもなければ制御はS31に進む。
【0045】S26においては、処理対象となる1バイ
トが辞書アドレスの先頭の1バイトであるということで
あるから、圧縮データの次の1バイトが読出される。制
御はS27に進む。
【0046】S27においては、S22において抽出さ
れた、圧縮時の辞書のバージョンが、復元時に使用され
る自立語辞書のバージョンと一致しているか否かが判断
される。両者が一致していれば制御は直接S29に進む
が、さもなければ制御は一旦S28に移る。
【0047】S28においては、図11に示されるよう
なアドレス置換用テーブルを参照して、S23、S26
で取出された2バイトからなる旧アドレスが、現在使用
されている辞書のアドレスに置換される。制御はS29
に進む。
【0048】S29においては、S23、S26におい
て読出された2バイトのアドレス、またはS28におい
て上述の2バイトのデータが変換された新アドレスに基
づいて、自立語辞書11内の該当アドレスが検索され
る。制御はS30に進む。
【0049】S30においては、入力テキストデータ内
の、S23およびS26において読出された2バイトの
アドレスデータが、S29の処理の結果得られた自立語
辞書内の見出しと置換される。制御はS32に進む。
【0050】S25からS31に処理が進んだ場合、前
述のようにこの1バイトは平仮名を表わすデータであ
る。したがってS31においては、S23において読出
されたデータの前に24Hという1バイトのデータが付
加され、2バイトのデータに変換される。制御はS32
に進む。
【0051】S32においては、S30において得られ
た、自立語辞書内の見出しデータまたは、S31におい
て得られた2バイトのデータが、出力バッファ9に既に
出力されている復元済のデータの最後尾に付け加えて出
力される。制御はS23に戻る。
【0052】S23〜S32の処理が繰返し行なわれる
ことにより、ディスクに格納されていた圧縮済のデータ
が伸長され、出力バッファ9内に復元される。この復元
の際、圧縮データに付加されていた辞書識別情報を用い
ることにより、圧縮時の自立語辞書と復元時に使用され
る自立語辞書とが一致するか、一致しないかを前述のよ
うに判断することができる。そして、一致していない場
合には図11に示されるようなアドレス置換用テーブル
12を用いて、復元時に用いられる自立語辞書の正しい
アドレスを得ることができる。したがって、自立語辞書
が時の経過と共に順次新たなものに置換えられていった
場合にも、古いバージョンの辞書を用いて圧縮されたデ
ータを正しく復元することができる。この場合、過去に
使用された自立語辞書が複数種類ある場合には、それら
の各辞書について、図11に示されるようなテーブルを
作成しておけばよい。また、新しいバージョンの辞書を
用いて圧縮したデータを古い辞書を用いて復元するよう
な場合もあり得ることに備えて、図12に示されるよう
な構成とは逆に、新しいバージョンの辞書のアドレス
を、古いバージョンの辞書のアドレスに変換するような
テーブルを用意しておくこともできる。
【0053】以上のようにこの発明によれば、入力され
たテキストデータはまず単語に分割される。各単語は、
圧縮のために用意された辞書を参照することにより、そ
の辞書内においてその単語に割当てられたアドレスに変
換される。このアドレスは通常元の単語よりもデータ長
が短い。したがって、このアドレスを処理対象の単語に
変えてテキスト中に出力していくことにより、テキスト
が圧縮される。辞書に用意される見出しは、出現頻度と
関係なく選ぶことができる。したがって、従来の方法と
異なり、出現頻度の低い単語でも効率よく圧縮すること
ができる。さらに、従来用いられていたような圧縮方法
を併用することにより、さらに大きな圧縮効率を得るこ
とができる。
【0054】以上、この発明が実施例に基づいて説明さ
れた。しかし、この発明は上述の実施例には限定されな
い。たとえば、上述の実施例中においては、入力される
テキストデータ中の単語を、辞書内においてその単語に
割当てられたアドレスに変換する例が示された。しか
し、変換方法はこれには限定されず、たとえばその辞書
中においてその単語が出現する順位を、前述のアドレス
に変えて用いてもよい。
【0055】
【発明の効果】以上のように請求項1に係るテキストデ
ータの復元方法では、圧縮時に、圧縮に用いられた辞書
を特定するための識別情報が付加されているため、テキ
ストデータの復元時において正しい辞書を用いて元のテ
キストデータを復元することが可能であるが、仮に圧縮
時と同一の辞書がなくとも以下のようにしてテキストデ
ータの復元ができる。
【0056】すなわち請求項1に記載のテキストデータ
の復元方法によれば、圧縮されたテキストデータに付加
されていた識別情報に基づき、圧縮時に使用された文字
列変換辞書が特定される。準備された復元用辞書が圧縮
時に使用された文字列変換辞書と異なっていても、適切
な文字列対応データ変換テーブルを用いることによっ
て、圧縮テキストデータ中の文字列対応データに正しく
関連付けられた第1の文字列を復元用の辞書から読出す
ことができる。圧縮時、復元時に用いられる辞書が異な
っていても、正しくテキストデータを復元することがで
きる。
【0057】その結果、文字列の出現パターンに依存す
ることなく、圧縮されたテキストデータを圧縮時と異な
る環境下でも復元できる柔軟性に富んだ、テキストデー
タの復元方法を提供することができる。
【0058】
【図面の簡単な説明】
【図1】図1は本発明におけるテキストの圧縮を実施す
るための装置のブロック図である。
【図2】図2は、本発明においてテキストを圧縮する際
の処理の構成を示すブロック図である。
【図3】本発明においてテキストデータを圧縮し、さら
に識別情報を付加するときの処理の構成を示すブロック
図である。
【図4】図4は、本発明において圧縮したデータを復元
する際の処理の構成を示すブロック図である。
【図5】図5は、本発明に係る方法で復元されるテキス
トデータを圧縮するためのプログラムのフローチャート
である。
【図6】図6は、圧縮したテキストデータを、本発明に
したがって辞書を用いて復元する際のプログラムのフロ
ーチャートである。
【図7】図7は自立語辞書の構成を示す模式図である。
【図8】入力されるテキストデータの一例を示す図であ
る。
【図9】圧縮後のテキストデータを示す模式図である。
【図10】図10は、識別情報付の圧縮データおよび識
別情報の構成を示す模式図である。
【図11】図11はアドレス置換用テーブルの構成を示
す模式図である。
【符号の説明】
1 制御回路 2 ディスプレイ 3 キーボード 4 識別情報付加部 5 辞書検索部 6 文章復元部 7 辞書アドレス置換部 8 文章圧縮部 9 出力バッファ 10 付属語テーブル 11 自立語辞書 12 アドレス置換用テーブル 13 フレキシブルディスクドライブ 14 固定ディスク 15 入力バッファ 16 テキスト圧縮部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−102613(JP,A) 特開 平2−47736(JP,A) 特開 昭64−59437(JP,A) 特開 昭63−151224(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 各々が、見出しとしてのコード化された
    第1の文字列と、前記第1の文字列と1対1の対応関係
    によって対応づけられ、前記第1の文字列よりもそのデ
    ータ長の短い文字列対応データとを関連付ける複数の文
    字列変換対を含む文字列変換辞書を準備するステップ
    と、 1文字単位にコード化されたテキストデータを受け、前
    記テキストデータを単語単位の入力文字列に分割するス
    テップと、 前記入力文字列と−致する前記文字列変換辞書中の前記
    第1の文字列を検索するステップと、 前記検索された第1の文字列に関連付けられた前記文字
    列対応データによって前記入力文字列を置換し、それに
    よって前記テキストデータを圧縮するステップと、 前記準備された文字列変換辞書の種類を識別するための
    識別情報を前記圧縮されたテキストデータに付加するス
    テップとを含むテキストデータの圧縮方法によって圧縮
    されたテキストデータを復元するための方法であって、 互いに異なる前記対応関係を有する複数個の前記文字列
    変換辞書の、任意の2つの組合わせの各々に対して、各
    前記文字列変換辞書中の同一の前記第1の文字列に対応
    する前記文字列対応データの対からなる文字列対応デー
    タ変換テーブルを準備するステップと、 前記複数個の文字列変換辞書の1つを、前記圧縮された
    テキストデータを復元する際に用いる復元用辞書として
    選択するステップと、 入力される前記圧縮されたテキストデータに付加された
    前記識別情報を抽出するステップと、 前記抽出された識別情報により特定される前記文字列変
    換辞書と、前記復元用辞書との組合わせに対応する前記
    文字列対応データ変換テーブルを選択するステップと、 入力される前記圧縮されたテキストデータ中から、前記
    文字列対応データを抽出するステップと、 前記選択された文字列対応データ変換テーブル内を検索
    し、前記抽出された文字列対応データと対を形成する前
    記文字列対応データを取出すステップと、 前記復元用文字列変換辞書内を検索し、前記取出された
    文字列対応データが関連付けられている前記第1の文字
    列を取出し、前記入力されたテキストデータ中の前記抽
    出された文字列データを前記取出された第1の文字列で
    置換することにより、前記テキストデータを復元するス
    テップとを含むテキストデータの復元方法。
JP3172857A 1991-07-15 1991-07-15 テキストデータの復元方法 Expired - Lifetime JP2729416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3172857A JP2729416B2 (ja) 1991-07-15 1991-07-15 テキストデータの復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3172857A JP2729416B2 (ja) 1991-07-15 1991-07-15 テキストデータの復元方法

Publications (2)

Publication Number Publication Date
JPH0546357A JPH0546357A (ja) 1993-02-26
JP2729416B2 true JP2729416B2 (ja) 1998-03-18

Family

ID=15949583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3172857A Expired - Lifetime JP2729416B2 (ja) 1991-07-15 1991-07-15 テキストデータの復元方法

Country Status (1)

Country Link
JP (1) JP2729416B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3431685B2 (ja) * 1994-05-13 2003-07-28 新日鉄ソリューションズ株式会社 ドキュメント・辞書間リンク生成装置
JPH08227422A (ja) * 1994-12-20 1996-09-03 Tamotsu Tonegawa 文字−図形パターン変換システム及び翻訳システム
DE19518367C2 (de) * 1995-05-22 1999-04-15 Mb Video Gmbh Verfahren zum Abspeichern und Wiedergeben von festen Bildschirmtexten
JP3566441B2 (ja) * 1996-01-30 2004-09-15 シャープ株式会社 テキスト圧縮用辞書作成装置
JPH1185459A (ja) * 1997-09-01 1999-03-30 Denso Corp 文字データ符号化方法および記録媒体
JP7143973B2 (ja) * 2017-08-15 2022-09-29 公立大学法人会津大学 秘密データの隠蔽方法、これを実施するプログラム、及び秘密データ通信システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843389A (en) * 1986-12-04 1989-06-27 International Business Machines Corp. Text compression and expansion method and apparatus
JPS6459437A (en) * 1987-08-29 1989-03-07 Nec Corp File compressing system
JPH01102613A (ja) * 1987-10-14 1989-04-20 Sharp Corp 文字処理装置
JPH0247736A (ja) * 1988-08-09 1990-02-16 Nec Corp ファイル管理装置

Also Published As

Publication number Publication date
JPH0546357A (ja) 1993-02-26

Similar Documents

Publication Publication Date Title
US6047298A (en) Text compression dictionary generation apparatus
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
EP0293161B1 (en) Character processing system with spelling check function
US5893102A (en) Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression
US4295124A (en) Communication method and system
US20160321282A1 (en) Extracting method, information processing method, computer product, extracting apparatus, and information processing apparatus
KR100490240B1 (ko) 데이타압축장치,데이타복원장치,데이타압축방법,데이타복원방법및프로그램기록매체
KR20000068018A (ko) 스트링 검색이 포함되어 있는 즉각적인 사전 갱신을 갖춘 데이터
JPH026252B2 (ja)
JPS61500345A (ja) デ−タ圧縮方法および装置
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
JP2729416B2 (ja) テキストデータの復元方法
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
JPH0546358A (ja) テキストデータの圧縮方法
WO2018226221A1 (en) Context-dependent shared dictionaries
US20090083267A1 (en) Method and System for Compressing Data
JPH07182354A (ja) 電子文書の作成方法
JPH07287716A (ja) 辞書検索装置
JPH0554077A (ja) 単語辞書検索装置
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPH07135471A (ja) データ圧縮装置およびデータ伸張装置
JPS6268325A (ja) 文章圧縮・伸展方式
JPH07282040A (ja) 日本語情報圧縮方式
JPS63263561A (ja) 日本語文の圧縮方法
JPH0969785A (ja) データ圧縮方法及びデータ圧縮装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971111