JPH0546358A - テキストデータの圧縮方法 - Google Patents

テキストデータの圧縮方法

Info

Publication number
JPH0546358A
JPH0546358A JP3172858A JP17285891A JPH0546358A JP H0546358 A JPH0546358 A JP H0546358A JP 3172858 A JP3172858 A JP 3172858A JP 17285891 A JP17285891 A JP 17285891A JP H0546358 A JPH0546358 A JP H0546358A
Authority
JP
Japan
Prior art keywords
dictionary
data
word
text data
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3172858A
Other languages
English (en)
Inventor
Hirokatsu Akiyama
広勝 秋山
Hitoshi Suzuki
等 鈴木
Akira Hamada
明 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3172858A priority Critical patent/JPH0546358A/ja
Publication of JPH0546358A publication Critical patent/JPH0546358A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 テキストデータ内のデータ出現パターンに関
わりなく効率よくテキストデータを圧縮する。 【構成】 S01において入力されたテキストデータ
を、S02において単語に分割する。続いてS04にお
いて、分割された単語が予め用意された辞書内にあるか
どうか検索し、S05においてあったか否かを判断す
る。一致した見出しが辞書内にあった場合には、S06
においてテキストデータ内のその単語が辞書内の、その
単語に割当てられたアドレスに変換されて出力される。
単語が辞書内にない場合には、S06と異なる、別に用
意された未登録語処理がS07において行なわれる。S
04において参照される辞書にある単語は、この方法に
より効率よく短いデータに圧縮できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明はデータの符号化/復号
化に関し、特に、ワードプロセッサ、ワークステーショ
ン、コンピュータなどにおいて取扱われるテキストデー
タの圧縮/伸長技術に関する。
【0002】
【従来の技術】コンピュータなどにおいて、データの格
納領域を削減することにより記憶装置を有効に利用する
ために、あるいは通信の分野において、送信されるデー
タの量を削減することにより通信の効率を向上させるた
めに、データを圧縮/伸長する技術の研究が行なわれて
いる。この種の従来の技術としては、以下のようなもの
がある。
【0003】まず第1に、連続文字圧縮方式がある。こ
の方式は、テキストデータ中において連続して同一文字
が出現する場合に、その文字の種類と、その長さとの情
報を含むより短いデータに変換する方式である。この方
法を用いることにより、たとえばテキストデータ中の空
白部分のデータ量を削減することができる。また、デー
タの格納装置内において利用されていない部分(たとえ
ば00Hによって埋められている部分。なお、本明細書
中において以後、「文字(0〜9,A〜F)+H」は、
16進数を表わす)を、より短いデータに変換すること
ができる。
【0004】第2に、ハフマン方式などの、出現頻度の
多いパターンに短いビット列のコードを与える方式があ
る。この方式においては、出現頻度の少ないパターンに
は長いビット列が割当られる。しかし、よく現われるパ
ターンが短いビット列に変換されるため、テキスト全体
としてはデータ圧縮が行なわれる。
【0005】上述のような方式により圧縮されたテキス
トデータを格納し、あるいは送信することにより、記憶
領域あるいは通信資源を有効に利用することができる。
このようにして圧縮されたデータを利用する場合には、
圧縮する際と逆の変換によりデータを伸長し、それによ
って元のデータを復元する必要がある。上述の各方法に
おいて、このような復元技術は圧縮技術とペアになって
開発されており、いずれの方法を用いても元のデータを
復元することができる。
【0006】
【発明が解決しようとする課題】しかし、上述の従来の
方法においては、以下のような問題点がある。連続文字
圧縮方式を用いた場合、同一の文字が連続する場合にの
み圧縮の効果がある。しかし、実際のテキストデータに
おいては、空白領域を除いてはこのような状況は発生し
ない。そのため、この方式を用いた場合には、圧縮の効
率に限界があった。また、格納方式などを用いた場合に
は、ワードプロセッサなどで取扱われるテキストデータ
のように、パターンの出現頻度にそれほどの偏りがない
場合には、あまり有効な圧縮は行なわれない。すなわ
ち、この方式の場合にはどのパターンの出現頻度も平均
して少ないようなデータについては、データを効果的に
圧縮することができなかった。
【0007】それゆえに、この発明の目的は、テキスト
データに含まれるデータのパターンにかかわらず効率よ
くデータを圧縮することができる、テキストデータの圧
縮方式を提供することである。
【0008】
【課題を解決するための手段】請求項1に記載のテキス
トデータの圧縮方法は、各々が、見出しとしてのコード
化された第1の文字列と、第1の文字列と1対1の対応
関係により対応づけられ、第1の文字列よりもそのデー
タ長の短い文字列対応データとを含む複数個の文字列変
換対を含む文字列変換辞書を準備するステップと、1文
字単位にコード化されたテキストデータを受け、テキス
トデータを単語単位の入力文字列に分割するステップ
と、入力文字列と一致する文字列変換辞書中の第1の文
字列を検索するステップと、検索された第1の文字列に
対応する文字列対応データによって入力文字列を置換し
て、それによってテキストデータを圧縮するステップと
を含む。
【0009】
【作用】上述のテキストデータの圧縮方法においては、
入力されたテキストデータはまず単語単位で入力文字列
に分割される。そして、入力文字列が文字列変換辞書中
に見出しとして用意されているか否かが調べられる。見
出しが存在している場合には、その見出しに対応する文
字列対応データによって入力文字が置換される。文字列
変換辞書中に用意される見出しは、その出現頻度と無関
係に準備することができる。したがって、従来できなか
ったような、出現頻度の低いパターンに対しても有効に
圧縮を行なうことができる。
【0010】
【実施例】図1は、本発明に係るテキストデータの圧縮
方法を実施するための装置のブロック図である。図1を
参照して、この装置は、装置各部の制御を行なうための
制御回路1と、制御回路1に接続され、文章の表示など
を行なうためのCRT(Cathode−Ray Tu
be)やLCD(Liquid CrystalDis
play)などからなるディスプレイ2と、使用者が文
章を入力したり、制御のための情報などを入力したりす
るための、制御回路1に接続されたキーボード3と、制
御回路1に接続され、フレキシブルディスクをドライブ
して、フレキシブルディスクへのデータの書込や、フレ
キシブルディスクからのデータの読出を行なうためのフ
レキシブルディスクドライブ13と、制御回路1に接続
され、テキストデータなどを格納するための磁気ディス
ク14と、制御回路1に接続され、使用者がキーボード
3から入力した文章や、フレキシブルディスクドライバ
13によってフレキシブルディスクから読出されたテキ
ストデータや、ディスク14から読出されたテキストデ
ータを一時格納するための入力バッファ15と、制御回
路1に接続され、入力バッファ15から読出されて所定
の変換を施されたテキストデータを一時格納するための
出力バッファ9とを含む。
【0011】この装置はさらに、入力される文字に対し
て圧縮処理を行なう際に、入力されたテキストデータを
単語単位に分割するために行なう形態素解析の際に利用
される、付属語以外の単語(自立語)を格納した自立語
辞書11と、同じく形態素解析の際に用いられる、付属
語や接辞などを格納した付属語テーブル10と、制御回
路1と付属語テーブル10と自立語辞書11とに接続さ
れ、制御回路1から与えられるテキストデータに対し
て、自立語辞書11および付属語テーブル10を参照し
て形態素解析を行ない、テキストデータを単語単位に分
割するための辞書検索部5と、制御回路1と付属語テー
ブル10と自立語辞書11とに接続され、一旦圧縮され
たデータを、付属語テーブル10および自立語辞書11
を参照して復元するための文章復元部6と、自立語辞書
11および制御回路1に接続され、テキストデータ圧縮
の際に、テキストデータに、圧縮に用いられた自立語辞
書11の種類を特定するための識別情報を付加するため
の識別情報付加部4と、制御回路1に接続され、圧縮さ
れたテキストデータを復元する際に、圧縮のときに用い
られた自立語辞書11と復元の際に用いられる自立語辞
書11とが異なった種類のものであるときに、圧縮され
たテキストデータ中に含まれる、圧縮の際に用いられた
自立語辞書中のアドレスを、復元の際に用いられる自立
語辞書11のアドレスに変換するための辞書アドレス置
換部7と、辞書アドレス置換部7に接続され、異なる種
類の自立語辞書の間でアドレス置換を行なう際に参照す
るための、アドレス間の対応関係を含むアドレス置換用
テーブル12と、制御回路1に接続され、辞書検索部5
によって検索された、自立語辞書11内の対応見出しの
アドレスによって、処理対象となる単語を置換えること
により文章を圧縮するための文章圧縮部8とを含む。
【0012】図2を参照して、辞書検索部5と文章圧縮
部8とは、テキストデータ圧縮部16を形成する。
【0013】図1および図2を参照して、この装置にお
いてテキストデータの圧縮は以下のようにして行なわれ
る。まず、入力バッファ15内にテキストデータとして
のコード化された入力文章が準備される。この準備は、
キーボード3を介して使用者がテキストデータを入力し
たり、フレキシブルディスクドライバ13を介して、他
の装置で準備されたテキストデータを入力バッファ15
に読込んだり、ディスク14に格納されていた、予め準
備されたテキストデータを入力バッファ15に読込んだ
りすることによって行なわれる。
【0014】テキストデータは、制御回路1によって辞
書検索部5に与えられる。辞書検索部5は、入力される
テキストデータを自立語辞書11および付属語テーブル
10を参照して形態素解析を行なう。辞書検索部5は、
入力文章中のある単語が自立語辞書11中に発見された
場合には、そのアドレスを制御回路1を介して文章圧縮
部8に与える。文章圧縮部8は、自立語辞書11内に見
出された、入力文章中の単語を、その自立語辞書11内
におけるアドレスと置換える。文章圧縮部8は、このよ
うにして各単語を辞書アドレスに変換しながら、出力バ
ッファ9にテキストデータを出力していく。
【0015】辞書検索部5と制御回路1と文章圧縮部8
とは、テキストデータ中に、自立語辞書11に含まれな
い単語が出てきたときには、以下のような未登録語処理
を行なう。自立語辞書11に登録されていない単語は、
最終的には制御回路1および辞書検索部5によって文字
単位にまで分割される。分割された各文字は順に文章圧
縮部8に与えられる。文章圧縮部8は、入力されたテキ
ストデータがこのように文字単位にまで分割されてきた
場合には、これをそのまま出力テキストデータに追加出
力する。
【0016】このような処理が入力されたテキストデー
タが終了するまで繰返し行なわれる。この結果、圧縮処
理がされたテキストデータが出力バッファ9に得られる
ことになる。
【0017】図7は、自立語辞書11の構成を示す模式
図である。図7を参照して、自立語辞書11中には、よ
り短いデータに変換されるべき文字列が見出しとして順
に格納されている。各見出しの文字列には、それぞれに
固有のアドレスが割当てられている。このアドレスと各
見出しとは、1対1に対応している。すなわち、見出し
の文字列を与えることによりそのアドレスがユニークに
定まり、逆にアドレスを与えることにより、そのアドレ
スに格納されている文字列がユニークに定まる。図7に
示される例の場合には、アドレス8200Hに「一寸法
師」という単語が、アドレス9000Hに「鬼」という
単語が、アドレスC000Hに「退治」という単語がそ
れぞれ格納されている。
【0018】図8、図9は、制御回路1、辞書検索部
5、文章圧縮部8によって行なわれる、自立語辞書11
の検索処理および検索された単語の、辞書内のアドレス
との置換えの様子を示す模式図である。図8(a)に示
される文が入力テキストである。入力テキストの各文字
には、2バイトずつのコードが割当てられている。例と
して「一寸法師」という語を16進数で表わすと、図8
(b)に示されるように、8バイトのデータとなる。辞
書検索部5は、入力文中の「一寸法師」という語を自立
語辞書11中を検索して見出すことにより、その自立語
辞書11内でのアドレスを制御回路1を介して文章圧縮
部8に与える。文章圧縮部8は、辞書検索部5から与え
られる情報に従って、入力テキスト中の「一寸法師」と
いう語(306C40234B213B55Hというデ
ータ)を、その辞書内のアドレス8200Hと置換え、
出力バッファ9に出力する。これにより、8バイトのテ
キストデータが2バイトのテキストデータに圧縮された
ことになる。同様に辞書検索部5、制御回路1、文章圧
縮部8は、「鬼」、「退治」という語をそれぞれ900
0H、C000Hという、自立語辞書11内のアドレス
に変換して出力バッファ9に与える。なお、各語のアド
レスの先頭バイトのMSB(最上位ビット)は1となっ
ている。
【0019】さらに本実施例の場合には文章圧縮部8
は、入力テキスト中に平仮名が含まれていた場合には、
以下のような処理を行なう。平仮名は、JIS漢字コー
ド体系において、2421H〜2473Hというコード
が割当てられている。これら各コードに共通して言える
ことは、1バイト目が24Hであり、2バイト目が73
H以下であるということである。したがって本実施例で
は、入力テキスト中に平仮名が含まれていた場合には、
その1バイト目を省略して出力バッファに出力すること
としている。たとえば、「が」には242CHというコ
ードが割当てられているが、図1に示される装置におい
ては、その1バイト目の24Hが省略され、下位1バイ
トの2CHというデータのみが出力バッファに出力され
る。「を」、「した」などについても同様である。
【0020】上述のような作業を行なうことにより、図
8(a)に示される入力テキストは、図9に示されるよ
うなデータに圧縮される。図8(a)の入力テキストに
は11文字が含まれている。したがって、このテキスト
を単純にコード化するためには22バイトが必要であっ
た。しかし、図9に示されるように、本発明に係る方法
を用いて、この入力テキストを10バイトにまで圧縮す
ることができる。上述のような変換の他、片仮名、英数
字、記号等は1文字単位に2バイトで出力バッファ9に
出力される。また、日本語における「〜たことにより」
などのような付属語の連続からなる付属語列なども2バ
イトのコードに変換して出力される。
【0021】図1に示される装置においては、出力バッ
ファ9に圧縮後のデータが得られた後、以下のような処
理が行なわれる。自立語辞書11には、その辞書の種類
や版(バージョン)数、更新年月日などを含む、辞書の
種類を識別するための情報が付与されている。出力バッ
ファ9に得られた圧縮後のデータはたとえばディスク1
4内のファイルに改めて格納されるのが通常であるが、
この際識別情報付加部4は、自立語辞書11に付与され
ている識別情報をこの圧縮後のデータに付加しておく。
識別情報の付加の態様としては、図10(a)に示され
るように、圧縮後のデータの先頭の何バイトかをこの情
報のために割当てておく方法でもよいし、圧縮データ中
の他の特定の位置に識別情報を格納するようにしてもよ
い。また、特定のビット列が出現したら、それ以降が識
別情報であると定義して、任意の位置に挿入しても良
い。
【0022】識別情報の例が図10(b)に示されてい
る。前述のように識別情報は、その辞書の名前や、その
辞書のバージョン数、その辞書が更新された日付などの
情報を含んでいる。この情報を圧縮後のデータに付加し
ておくことにより、復元処理において、圧縮時と異なっ
た自立語辞書を用いた場合にも、誤った復元処理が行な
われることを防止できる。その詳細は以下に説明され
る。
【0023】図1および図4を参照して、ディスク14
に格納された識別情報付圧縮データは、以下のようにし
て復元される。説明の前に、この復元処理において用い
られるアドレス置換用テーブル12の構造について、図
11を参照して説明する。図11を参照して、アドレス
置換用テーブル12は、圧縮データに付与されている識
別情報によって特定される、圧縮時に使用された自立語
辞書の所定のアドレスに格納されていた見出し語が、復
元時に使用される自立語辞書では、どのアドレスに格納
されているか、を示すためのテーブルである。すなわ
ち、アドレス置換用テーブル12は、ある単語の、圧縮
時に使用された辞書中のアドレスと、復元時に使用され
る辞書のアドレスとの対を複数個含んでいる。そして、
旧アドレスを与えられることにより、新アドレスが得ら
れるようになっている。
【0024】復元処理は以下のようにして行なわれる。
図1、図4を参照して、ディスク14に格納されている
識別情報付圧縮データは、順次辞書アドレス置換部7に
与えられる。辞書アドレス置換部7は、入力されるテキ
ストを、先頭から1バイト単位でそのMSB(最上位ビ
ット)を調べていく。前述のように2バイトの辞書アド
レスの、1バイト目のMSBは1である。一方、1バイ
トのデータに圧縮された平仮名を表わすデータは、高々
7CH(2進数で0111 1100)である。したが
って、平仮名の場合にはそのMSBはゼロである。ゆえ
に、前述のように入力テキストの各バイトのMSBを調
べていき、1のものがあれば、そこから2バイトは辞書
アドレスに変換された単語を表わし、MSBがゼロのも
のがあれば、そこから1バイト分が1バイトに短縮され
た平仮名を表わす。
【0025】辞書アドレス置換部7は上述のようにして
辞書アドレスに変換された単語を見つけると、アドレス
置換用テーブル12を参照し、新アドレスに置換して文
章復元部6に与える。辞書アドレス置換部7はまた、平
仮名であると判断されたデータはそのまま文章復元部6
に与える。
【0026】文章復元部6は、辞書アドレス置換部7か
ら与えられた新アドレスを用いて自立語辞書11を検索
し、該当アドレスに格納されていた見出しの単語を取出
す。文章復元部6は取出された単語を、テキストデータ
中の辞書アドレスと置換え、出力バッファ9に出力す
る。また文章復元部6は、辞書アドレス置換部7から1
バイトのデータのみが与えられたときには、このデータ
が平仮名であると判断し、その先頭に24Hという1バ
イトのデータを付加して出力バッファ9に出力する。
【0027】上述の処理はテキストデータすべてについ
て繰返し行なわれる。テキストデータすべてについてこ
の処理が行なわれることにより、出力バッファ9には復
元文章、すなわち元のテキストデータが得られることに
なる。
【0028】図1に示される装置は、コンピュータを用
いて実現されることが通常である。図5は、コンピュー
タを用いてこの方法を実施したときの、データ圧縮のた
めのプログラムの概略のフローチャートである。図5を
参照してステップ(以下単に「S」と呼ぶ)01におい
て、処理対象となる文章が入力バッファ15(図1)に
格納される。
【0029】S02において、入力されたテキストの1
文が取出され、形態素解析のための単語分割が行なわれ
る。制御はS03に進む。
【0030】S03においては、S02の処理におい
て、入力テキストの文章の終了への到達が検出されたか
否かが判断される。判断の答がYESであれば制御はS
08に進み、さもなければ制御はS04に進む。
【0031】S04においては、分割された単語をキー
として自立語辞書11(図1)の検索が行なわれる。す
なわち、自立語辞書11内に、分割された単語と同一の
見出しを見出す処理が行なわれる。制御はS05に進
む。
【0032】S05においては、処理対象の単語と同一
の見出しが自立語辞書11内にあったか否かが判断され
る。判断の答がYESであれば制御はS06に進み、さ
もなければ制御はS07に進む。
【0033】S06に制御が進んだ場合には、処理対象
の単語を、自立語辞書11内においてその単語に割当て
られた2バイトのアドレスに変換して出力バッファ9に
出力する処理が行なわれる。制御はS02に戻る。
【0034】S05からS07に制御が進んだ場合に
は、その単語についての未登録語処理が行なわれる。未
登録語処理とは、前述のように処理対象の単語を文字単
位にまで分割し、各文字毎に所定の2バイトのコードを
与える処理のことである。この処理の後、制御はS02
に戻る。
【0035】S03における判断の答がYESであった
場合、制御はS08に進む。S08に制御が進んだ場合
には、入力されたテキストデータについての処理がすべ
て終了したということであるから、出力バッファ9に圧
縮後のテキストデータが得られている。得られた圧縮後
のテキストデータに対し、識別情報付加部4から与えら
れる、自立語辞書11を特定するための辞書識別情報が
付加される。制御はS09に進む。
【0036】S09においては、出力バッファ9に得ら
れた識別情報付の圧縮データがたとえば磁気ディスク1
4に出力される。
【0037】以上のようにして、コンピュータを用いた
場合のテキストデータの圧縮が行なわれる。
【0038】図6は、図5に示されるプログラムに従っ
て圧縮されたテキストデータを復元するときに実行され
るプログラムのフローチャートである。図6を参照し
て、S21において、磁気ディスク14(図1)などに
格納されていた、圧縮済のデータがたとえば入力バッフ
ァ15に入力される。制御はS22に進む。
【0039】S22においては、圧縮データに付加され
ていた辞書識別情報の抽出が行なわれる。この抽出は、
入力された圧縮データのうちの、予め定められた特定の
位置に付加されている識別情報を読出すことにより行な
われる。制御はS23に進む。
【0040】S23においては、圧縮データの先頭から
1バイトずつ順に読出される。制御はS24に進む。
【0041】S24においては、S23の処理の結果圧
縮データの終わりに到達したか否かが判断される。判断
の答がYESであればこのプログラムは終了し、さもな
ければ制御はS25に進む。
【0042】S25においては、処理対象の1バイトの
MSBが1であるか否かが判断される。この判断は、前
述のように処理対象の1バイトが辞書アドレスの2バイ
トのうちの先頭の1バイトであるのか、あるいは1バイ
トに短縮された平仮名データであるのかを判断するため
に行なわれる。判断の答がYESであれば制御はS26
に進み、さもなければ制御はS31に進む。
【0043】S26においては、処理対象となる1バイ
トが辞書アドレスの先頭の1バイトであるということで
あるから、圧縮データの次の1バイトが読出される。制
御はS27に進む。
【0044】S27においては、S22において抽出さ
れた、圧縮時の辞書のバージョンが、復元時に使用され
る自立語辞書のバージョンと一致しているか否かが判断
される。両者が一致していれば制御は直接S29に進む
が、さもなければ制御は一旦S28に移る。
【0045】S28においては、図11に示されるよう
なアドレス置換用テーブルを参照して、S23、S26
で取出された2バイトからなる旧アドレスが、現在使用
されている辞書のアドレスに置換される。制御はS29
に進む。
【0046】S29においては、S23、S26におい
て読出された2バイトのアドレス、またはS28におい
て上述の2バイトのデータが変換された新アドレスに基
づいて、自立語辞書11内の該当アドレスが検索され
る。制御はS30に進む。
【0047】S30においては、入力テキストデータ内
の、S23およびS26において読出された2バイトの
アドレスデータが、S29の処理の結果得られた自立語
辞書内の見出しと置換される。制御はS32に進む。
【0048】S25からS31に処理が進んだ場合、前
述のようにこの1バイトは平仮名を表わすデータであ
る。したがってS31においては、S23において読出
されたデータの前に24Hという1バイトのデータが付
加され、2バイトのデータに変換される。制御はS32
に進む。
【0049】S32においては、S30において得られ
た、自立語辞書内の見出しデータまたは、S31におい
て得られた2バイトのデータが、出力バッファ9に既に
出力されている復元済のデータの最後尾に付け加えて出
力される。制御はS23に戻る。
【0050】S23〜S32の処理が繰返し行なわれる
ことにより、ディスクに格納されていた圧縮済のデータ
が伸長され、出力バッファ9内に復元される。この復元
の際、圧縮データに付加されていた辞書識別情報を用い
ることにより、圧縮時の自立語辞書と復元時に使用され
る自立語辞書とが一致するか、一致しないかを前述のよ
うに判断することができる。そして、一致していない場
合には図11に示されるようなアドレス置換用テーブル
12を用いて、復元時に用いられる自立語辞書の正しい
アドレスを得ることができる。したがって、自立語辞書
が時の経過と共に順次新たなものに置換えられていった
場合にも、古いバージョンの辞書を用いて圧縮されたデ
ータを正しく復元することができる。この場合、過去に
使用された自立語辞書が複数種類ある場合には、それら
の各辞書について、図11に示されるようなテーブルを
作成しておけばよい。また、新しいバージョンの辞書を
用いて圧縮したデータを古い辞書を用いて復元するよう
な場合もあり得ることに備えて、図12に示されるよう
な構成とは逆に、新しいバージョンの辞書のアドレス
を、古いバージョンの辞書のアドレスに変換するような
テーブルを用意しておくこともできる。
【0051】以上のようにこの発明によれば、入力され
たテキストデータはまず単語に分割される。各単語は、
圧縮のために用意された辞書を参照することにより、そ
の辞書内においてその単語に割当てられたアドレスに変
換される。このアドレスは通常元の単語よりもデータ長
が短い。したがって、このアドレスを処理対象の単語に
変えてテキスト中に出力していくことにより、テキスト
が圧縮される。辞書に用意される見出しは、出現頻度と
関係なく選ぶことができる。したがって、従来の方法と
異なり、出現頻度の低い単語でも効率よく圧縮すること
ができる。さらに、従来用いられていたような圧縮方法
を併用することにより、さらに大きな圧縮効率を得るこ
とができる。
【0052】以上、この発明が実施例に基づいて説明さ
れた。しかし、この発明は上述の実施例には限定されな
い。たとえば、上述の実施例中においては、入力される
テキストデータ中の単語を、辞書内においてその単語に
割当てられたアドレスに変換する例が示された。しか
し、変換方法はこれには限定されず、たとえばその辞書
中においてその単語が出現する順位を、前述のアドレス
に変えて用いてもよい。
【0053】
【発明の効果】以上のように本発明に係るテキストデー
タの圧縮方法によれば、入力されたテキストデータのう
ち、文字列変換辞書に見出しとして用意されていた文字
列は、辞書中の文字列対応データに置換えられる。文字
列対応データは入力文字列よりも通常データ長は短い。
したがって、本発明の方法に従った処理をされたテキス
トデータは、入力時よりもその長さが短くなる。すなわ
ち、この方法によりテキストデータは圧縮される。見出
しとして、出現頻度の低い文字列も用意しておくことに
より、出現頻度の低い文字列でも、従来と異なりより短
いデータに効率よく変換することができる。
【0054】その結果、効率よくテキストデータを圧縮
することができるテキストデータの圧縮方法を提供する
ことができる。
【図面の簡単な説明】
【図1】図1は本発明に係る方法を実施するための装置
のブロック図である。
【図2】図2は、本発明に係る方法を用いてテキストを
圧縮する際の処理の構成を示すブロック図である。
【図3】本発明に係る方法を用いてテキストデータを圧
縮し、さらに識別情報を付加するときの処理の構成を示
すブロック図である。
【図4】図4は、本発明に係る方法を用いて圧縮したデ
ータを復元する際の処理の構成を示すブロック図であ
る。
【図5】図5は、本発明に係る方法を実施するためのプ
ログラムのフローチャートである。
【図6】図6は、本発明に係る方法を用いて圧縮したテ
キストデータを、辞書を用いて復元する際のプログラム
のフローチャートである。
【図7】図7は自立語辞書の構成を示す模式図である。
【図8】入力されるテキストデータの一例を示す図であ
る。
【図9】圧縮後のテキストデータを示す模式図である。
【図10】図10は、識別情報付の圧縮データおよび識
別情報の構成を示す模式図である。
【図11】図11はアドレス置換用テーブルの構成を示
す模式図である。
【符号の説明】
1 制御回路 2 ディスプレイ 3 キーボード 4 識別情報付加部 5 辞書検索部 6 文章復元部 7 辞書アドレス置換部 8 文章圧縮部 9 出力バッファ 10 付属語テーブル 11 自立語辞書 12 アドレス置換用テーブル 13 フレキシブルディスクドライブ 14 固定ディスク 15 入力バッファ 16 テキスト圧縮部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 各々が、見出しとしてのコード化された
    第1の文字列と、前記第1の文字列と1対1の対応関係
    により対応づけられ、前記第1の文字列よりもそのデー
    タ長の短い文字列対応データとを含む複数個の文字列変
    換対を含む文字列変換辞書を準備するステップと、 1文字単位にコード化されたテキストデータを受け、前
    記テキストデータを単語単位の入力文字列に分割するス
    テップと、 前記入力文字列と一致する前記文字列変換辞書中の前記
    第1の文字列を検索するステップと、 前記検索された第1の文字列に対応する前記文字列対応
    データによって前記入力文字列を置換し、それによって
    前記テキストデータを圧縮するステップとを含むテキス
    トデータの圧縮方法。
JP3172858A 1991-07-15 1991-07-15 テキストデータの圧縮方法 Withdrawn JPH0546358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3172858A JPH0546358A (ja) 1991-07-15 1991-07-15 テキストデータの圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3172858A JPH0546358A (ja) 1991-07-15 1991-07-15 テキストデータの圧縮方法

Publications (1)

Publication Number Publication Date
JPH0546358A true JPH0546358A (ja) 1993-02-26

Family

ID=15949602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3172858A Withdrawn JPH0546358A (ja) 1991-07-15 1991-07-15 テキストデータの圧縮方法

Country Status (1)

Country Link
JP (1) JPH0546358A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09191256A (ja) * 1995-05-22 1997-07-22 Mb Video Gmbh 静止ビルトシルムテキストの蓄積体の記憶・再生方法
JPH1185459A (ja) * 1997-09-01 1999-03-30 Denso Corp 文字データ符号化方法および記録媒体
JP2004511928A (ja) * 2000-07-25 2004-04-15 ペリビット・ネットワークス,インコーポレイテッド 漸進的で連続的なデータ圧縮のためのシステム及び方法
US6747582B2 (en) 1998-01-22 2004-06-08 Fujitsu Limited Data compressing apparatus, reconstructing apparatus, and its method
WO2014097359A1 (ja) * 2012-12-19 2014-06-26 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置およびシステム
JP2019083477A (ja) * 2017-10-31 2019-05-30 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09191256A (ja) * 1995-05-22 1997-07-22 Mb Video Gmbh 静止ビルトシルムテキストの蓄積体の記憶・再生方法
JPH1185459A (ja) * 1997-09-01 1999-03-30 Denso Corp 文字データ符号化方法および記録媒体
US6747582B2 (en) 1998-01-22 2004-06-08 Fujitsu Limited Data compressing apparatus, reconstructing apparatus, and its method
JP2004511928A (ja) * 2000-07-25 2004-04-15 ペリビット・ネットワークス,インコーポレイテッド 漸進的で連続的なデータ圧縮のためのシステム及び方法
JP4759214B2 (ja) * 2000-07-25 2011-08-31 ジュニパー ネットワークス, インコーポレイテッド 漸進的で連続的なデータ圧縮のためのシステム及び方法
WO2014097359A1 (ja) * 2012-12-19 2014-06-26 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置およびシステム
US9391636B2 (en) 2012-12-19 2016-07-12 Fujitsu Limited Method and system
JP6032292B2 (ja) * 2012-12-19 2016-11-24 富士通株式会社 圧縮プログラム、圧縮装置、伸張プログラムおよび伸張装置
JPWO2014097359A1 (ja) * 2012-12-19 2017-01-12 富士通株式会社 圧縮プログラム、圧縮装置、伸張プログラムおよび伸張装置
US9577666B2 (en) 2012-12-19 2017-02-21 Fujitsu Limited Method and system
JP2019083477A (ja) * 2017-10-31 2019-05-30 富士通株式会社 データ生成プログラム、データ生成方法および情報処理装置

Similar Documents

Publication Publication Date Title
US6047298A (en) Text compression dictionary generation apparatus
EP0083393B1 (en) Method of compressing information and an apparatus for compressing english text
US5229768A (en) Adaptive data compression system
US8712977B2 (en) Computer product, information retrieval method, and information retrieval apparatus
EP0293161B1 (en) Character processing system with spelling check function
JP5831298B2 (ja) プログラム、情報処理装置およびインデックス生成方法
JPH07283739A (ja) 短ブロックのデータを圧縮、伸長するための方法、及び装置
KR20000068018A (ko) 스트링 검색이 포함되어 있는 즉각적인 사전 갱신을 갖춘 데이터
JPH0756955A (ja) 圧縮データをサーチする方法及びシステム
JPS59231683A (ja) データ圧縮方法
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
US11669553B2 (en) Context-dependent shared dictionaries
US6834283B1 (en) Data compression/decompression apparatus using additional code and method thereof
JP2729416B2 (ja) テキストデータの復元方法
JPH0546358A (ja) テキストデータの圧縮方法
US8463759B2 (en) Method and system for compressing data
Anto et al. A Compression System for Unicode Files Using an Enhanced Lzw Method.
JPH0554077A (ja) 単語辞書検索装置
JPH07182354A (ja) 電子文書の作成方法
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JPH07287716A (ja) 辞書検索装置
JPS6268325A (ja) 文章圧縮・伸展方式
JPS63263561A (ja) 日本語文の圧縮方法
JP3236747B2 (ja) データ伸長方式
JPH0969785A (ja) データ圧縮方法及びデータ圧縮装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19981008