JPH05324427A

JPH05324427A - 文書情報圧縮装置

Info

Publication number: JPH05324427A
Application number: JP4135341A
Authority: JP
Inventors: Hiroaki Iguchi; 博彰井口; Yasuo Kurosu; 康雄黒須; Masaaki Fujinawa; 雅章藤縄
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-05-27
Filing date: 1992-05-27
Publication date: 1993-12-07

Abstract

(57)【要約】【目的】多量の文書情報の登録／検索を行う場合にお
いて、文書データの容量を削減する文書情報圧縮装置を
提供することにある。【構成】複数の文書情報を入力して記録し、記録され
た文書情報を検索して出力する文書情報検索システムの
文書情報登録方法において、入力された文書情報を単語
に区切り、該単語が圧縮コードを割り当てられた単語で
あるかないかを検出し、割り当てられていない場合に
は、単語に圧縮コードを割り当てて、該単語を割り当て
られた圧縮コードに変換して圧縮テキストを記録し、出
力時には、圧縮コードに対応する単語を用いて圧縮テキ
ストを伸長して出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報登録／蓄積／検索
システムに係り、特に、日本語／英語文書テキストやプ
ログラム言語等テキストデータ応用に好適な文書情報の
圧縮装置に関する。

【０００２】

【従来の技術】近年、文献情報や特許情報などのデータ
ベースサービスが普及し、テキストデータを扱う情報文
野もますます大型化・汎用化する傾向にある。これに伴
い、大型システムのみならず汎用小型ＯＡ機器において
も、扱う文書情報は爆発的に増加する傾向にある。制限
された蓄積容量に更に多くの文書情報を登録することを
考慮するとき、あるいは、低速なデータ蓄積媒体への文
書の登録／検索／読み出しの高速化を考慮するときに、
テキストデータを圧縮した状態で蓄積媒体へ登録する手
法は有効な手段である。

【０００３】従来、テキストデータ記述方式として、１
つの文字キャラクタに対して１つのコードを割り当てる
方式が用いられている。しかしながら、このような従来
の構成では、日本語／英語文書テキストデータやプログ
ラム言語等、同一の単語（文字データ列）が何度も入力
される場合でも、入力された単語（文字データ列）は、
単語（文字データ列）を構成する個々のキャラクタデー
タに分割され、蓄積媒体へ登録される。従って、テキス
トデータは冗長を多く含むものとなり、大きな蓄積容量
を必要とするという問題点を有している。

【０００４】上記問題点を解決する従来の装置として、
特開昭６２−１４０１３６号公報記載の装置が挙げられ
る。この従来技術は、同一の単語（文字データ列）が何
度も入力されることがあらかじめわかっている場合に
は、前記単語（文字データ列）に対して１つの圧縮コー
ドを割当てて変換し、その後、蓄積媒体に記憶すること
により、前記蓄積容量が従来よりも小さくなるようなデ
ータ記憶装置を提供することを目的とする。

【０００５】

【発明が解決しようとする課題】上記従来技術によれ
ば、文書テキストデータを圧縮した状態で蓄積媒体に登
録することが可能となり、テキストデータの容量削減に
対し有効な手段となる。しかしながら、上記従来技術で
は、あらかじめ入力される文書の内容が明らかであり、
ある定まった同一の単語（文字データ列）が何度も入力
されるテキストデータのみに有効である。従って、該方
式では、未知のテキストデータを入力した場合、偶然圧
縮コードが割り当てられている単語（文字データ列）が
出現しない限り、テキストデータの圧縮を全く行わない
という問題点がある。

【０００６】さらに、該方式では、新たに入力された未
知のテキストデータ中に繰り返し出現する単語（文字デ
ータ列）がある場合には、効果的な圧縮手段を講じるこ
とができない問題点がある。

【０００７】本発明の目的は、上記課題を解決すべく、
テキストデータの蓄積容量を削減し、効率的な圧縮コー
ドが得られる文書情報圧縮装置を提供することにある。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、本発明による文書テキスト圧縮装置では圧縮コード
を割り当てる単語（文字データ列）の登録手法に着目す
る。

【０００９】本発明は、文書情報を入力する入力部と、
入力された文書情報を文字列情報に区切るテキスト解析
部と、文字列情報と圧縮コードとの対を蓄積するコード
変換辞書と、コード変換辞書に登録されていない文字列
情報を検出し、登録されていない文字列情報をコード変
換辞書に登録して文字列情報を圧縮コードに対して割り
当てる文字列登録手段と、コード変換辞書を参照して文
字列情報を対応する圧縮コードに変換するテキスト圧縮
部と、圧縮された文字列情報の圧縮テキストを格納する
圧縮テキスト格納手段とを有する。

【００１０】また、入力された文書情報の文字列情報の
出現頻度を示す出現頻度情報を記録する出現語登録辞書
と、前記文字列情報の出現頻度情報およびコード長を用
いて各々の文字列情報に対する圧縮効果を算出する圧縮
語判別部とをさらに有し、前記圧縮語判別部は、文書情
報の文字列情報の圧縮効果から、文書情報の文字列情報
に対し、最適な圧縮効果の得られる文字列情報を決定
し、前記文字列登録手段は、前記圧縮語判別部からの文
字列情報をコード変換辞書に登録することができる。

【００１１】前記文字列登録手段は、前記コード変換辞
書の圧縮コード登録領域が有限の場合、文字列情報に順
次圧縮コードを割り当てて、圧縮コード登録領域がなく
なったことを検知し、圧縮コードの割り当てを終了し、
前記テキスト圧縮部は、圧縮コードの割り当て終了後
は、既に前記コード変換辞書に登録されている文字列情
報を圧縮コードに変換し、登録されていない文字列情報
は、圧縮変換しないで圧縮テキスト格納手段に格納させ
る。

【００１２】もしくは、前記文字列登録手段は、前記コ
ード変換辞書の圧縮コード登録領域が有限の場合、文字
列情報に順次圧縮コードを割り当てて、圧縮コード登録
領域がなくなったことを検知し、割り当てる圧縮コード
登録領域がなくなった時点で、前記コード変換辞書中の
内容と該コード変換辞書の識別情報とを蓄積し、前記コ
ード変換辞書の識別情報を圧縮テキストとともに前記圧
縮テキスト格納手段に格納し、新たにコード変換辞書を
作成して文字列情報をコード変換辞書に登録するように
してもよい。さらに、圧縮テキストを伸長して出力する
テキスト伸長部を有し、前記テキスト伸長部は、文書情
報読み出し時に、テキスト圧縮時と同じコード変換辞書
を用いて圧縮テキストの伸長処理を行う。

【００１３】上記複数のコード変換辞書の内容と該コー
ド変換辞書の識別情報とを圧縮テキストとともに前記圧
縮テキスト格納手段に格納することができる。

【００１４】もしくは、複数のコード変換辞書を蓄積す
るコード変換辞書ファイルをさらに有し、コード変換辞
書中の内容と該コード変換辞書の識別情報との蓄積は、
該コード変換辞書ファイルに蓄積することもできる。

【００１５】また、前記文字列登録手段は、前記コード
変換辞書の圧縮コード登録領域が有限の場合、文字列情
報に順次圧縮コードを割り当て、圧縮コード登録領域が
なくなったことを検知し、前記圧縮語判別部は、割り当
てる圧縮コード登録領域がなくなった時点で、圧縮効果
に従い、最適な圧縮効果の得られる文字列情報を、圧縮
効果の低い文字列情報と置換して圧縮コードを割当てる
こともできる。この場合、前記圧縮判別部は、圧縮テキ
スト格納手段の前記圧縮テキストを読みだして圧縮率の
低い文字列情報の圧縮コードを伸長し、圧縮テキスト格
納手段に格納する。

【００１６】予め特定の文字列情報を格納した文字列テ
ーブルをさらに有し、前記文字列登録手段は、前記コー
ド変換辞書に登録されていない文字列情報が、文字列テ
ーブルの文字列情報に一致するか否かを判別し、一致す
る文字列情報をコード変換辞書に登録するようにしても
よい。

【００１７】テキスト解析部は、文書情報を文字列情報
に区切るテキスト解析手法として、形態素解析処理を用
いることができる。

【００１８】また、入力された文書情報を文字列情報に
区切るための文字列情報を予め蓄積しておくテキスト解
析辞書をさらに有し、前記テキスト解析部は、文書情報
を文字列情報に区切るテキスト解析手法として、前記テ
キスト解析辞書との文字列マッチングをするようにして
もよい。前記テキスト解析辞書が、入力された文書情報
の文字列情報の出現頻度を計数し、文字列情報の出現頻
度情報を記録する出現語登録辞書であってもよい。

【００１９】前記テキスト解析辞書との文字列マッチン
グにて多重照合が生じた場合は、前記テキスト解析辞書
に登録された最長の文字列情報で区切ることができる。

【００２０】前記圧縮語判別部は、文書情報の文字列情
報の圧縮効果から、予め定めた圧縮効果以上の圧縮効果
が得られる文字列情報に対して圧縮コードを割り当てる
ようにしてもよい。

【００２１】さらに、コード変換辞書を圧縮テキストデ
ータと共に圧縮テキスト格納手段に格納することができ
る。

【００２２】前記圧縮テキスト格納手段は、磁気ディス
ク装置や光ディスク装置を用いることができる。また、
コード変換辞書は、半導体メモリや磁気ディスク装置、
光ディスク装置に格納することができる。

【００２３】また、文書情報を入力する入力装置と、情
報を処理する中央演算処理部と、処理結果を出力する出
力装置と、文書情報を記憶する記憶装置とを有する情報
処理システムにおいて、文字列情報と圧縮コードとの対
を蓄積するコード変換辞書を有し、前記中央演算処理部
は、前記入力装置で入力された文書情報を文字列情報に
区切り、該文字列情報が前記コード変換辞書に蓄積され
ている文字列情報か否かを検出し、蓄積されていない場
合には、文字列情報に圧縮コードを割り当てて、前記コ
ード変換辞書に蓄積し、文字列情報を割り当てられた圧
縮コードに変換し、前記記憶装置に圧縮した文書情報を
記憶させることができる。

【００２４】前記入力装置は、画像情報を入力する画像
情報入力部と、前記画像情報から文字情報を認識する文
字認識部とを備えることができ、文書情報を検索するた
めのキー情報の入力を受け付けるキー入力手段をさらに
有してもよい。

【００２５】

【作用】本発明では、文書テキストデータの蓄積にあた
り、文書テキストの意味最小単位は、文字ではなく単語
（名詞、動詞、接続詞、あるいは繰り返し出現する文字
データ列）であり、この単語の文字列情報を用いて文書
テキストの圧縮が可能である点、さらに、文字列情報の
出現頻度とデータ長により圧縮効率が変化する点に着目
し、これを利用する。

【００２６】単語（文字列情報／文字コード列）に圧縮
コードを割り当てる具体的な文書データ圧縮手法につい
て以下に述べる。

【００２７】まず、文書情報（テキストデータ）を入力
部より入力する。入力部としては、他の情報機器からイ
ンタフェースを介して読み込む手法、スキャナおよびＯ
ＣＲを用い紙面情報を読み込む手法、キーボードなどが
ある。つぎに、テキスト解析部は、この文書情報を解析
し、文字列に区切って分解する。分解され抽出された単
語（文字コード列）は、その出現頻度と共に出現語登録
辞書に登録される。圧縮語判別部は、登録された単語
（文字コード列）の出現頻度およびコード長より各単語
（文字コード列）の圧縮に対する寄与の度合の圧縮効果
を演算する（単純なものとしては出現頻度とコード長の
積を圧縮貢献度として用いる）。文字列登録手段は、選
別された単語（文字コード列）に圧縮コードを割り当て
て、コード変換辞書に登録する。最後に、テキスト圧縮
部が、コード変換辞書に従い文書情報を圧縮コードに変
換し、圧縮テキスト格納手段に格納される。

【００２８】さらに、テキストデータ読み出し時には、
文書の検索情報に従い、圧縮テキストを読み出し、圧縮
に用いたコード変換辞書に従い文書情報の伸長処理を行
うことにより、原文書情報に復元する。

【００２９】かくして本発明によれば、上記単語（文字
データ列）／圧縮コード変換を利用したテキスト圧縮部
を用いることにより、原文書の情報を何ら削減すること
なく膨大なテキストデータを削減することが可能とな
る。内容の明らかでない未知の文書テキストデータに対
し、文書解析手法を用い、単語（文字データ列）を切り
出して圧縮コードを割り当てることにより、圧縮コード
を割り当てる単語（文字データ列）をあらかじめ登録し
ておかなくてもよい。このため、未知のテキストデータ
入力に対しても適切な圧縮コードを割り当てることがで
き、常に最適な圧縮効果を得る単語を圧縮することが可
能となる。

【００３０】さらに、登録する単語（文字データ列）の
出現頻度と文字列長を演算し、圧縮コードを割り当てる
単語（文字データ列）を決定することにより、最適な効
率の得られる単語に対して圧縮コードを割り当てること
ができる。

【００３１】

【実施例】以下、本発明の実施例について図面を用いて
説明する。

【００３２】まず、図１に本発明が適応される装置の一
例としての文書データ圧縮装置の構成を示す。

【００３３】図１において、１０１は、テキスト入力部
であり、ネットワークもしくは各種インタフェースを介
してテキストデータを取り込む。１０２は、テキスト解
析部であり、入力されたテキストデータを解析する。１
０３は、テキスト解析辞書であり、テキストデータを解
析して各単語要素に分解する為に用いられ、予め単語が
蓄積されている辞書である。１０４は、出現語登録辞書
であり、解析された単語と出現頻度とを登録する。１０
５は、コード変換辞書であり、コード圧縮／伸長時に用
いる圧縮コードと原テキストデータとデータ列を対応さ
せて蓄積する。出現語登録辞書１０４およびコード変換
辞書１０５への文字データ列の登録は、文字列登録手段
が行う。文字列登録手段の機能は、出現語登録辞書１０
４やテキスト解析部１０２に備えることができる。１０
６は、テキスト圧縮部であり、コード変換辞書１０５を
用い解析されたテキストデータをコード変換し、テキス
トの圧縮処理を行う。１０７は、圧縮語判別部であり、
出現語登録辞書１０４を用いて最適な圧縮率の得られる
データ列（単語）を判別する。１０８は、圧縮テキスト
格納手段の圧縮テキストファイルであり、圧縮された文
書テキストデータを登録する。１０９は、テキスト伸長
部であり、文書テキストデータ読み出し時にコード変換
辞書１０５を用い圧縮テキストの伸長処理を行う。１１
０は、ディスプレイ／プリンタなどのテキスト出力部で
あり、その他各種インタフェースあるいはネットワーク
を介してテキストデータを出力する。１１１は、コード
変換辞書ファイルであり、複数のコード変換辞書の内容
を登録／蓄積しておく。１１２は、キーボードなどの検
索情報入力部であり、テキストデータ検索時にテキスト
検索情報を入力する。１１３は、テキスト検索部であ
り、入力された検索情報に従いテキストの検索／読み出
しを行う。１１４は、データバスであり、データバスを
介して相互にデータのやり取りを実行できる。

【００３４】つぎに、図１に示す各部の動作を、テキス
トデータ登録時とテキストデータ読み出し時に分けて、
機能ブロック図およびフローチャート（Probrem-Anarys
is・Diagram、ＰＡＤ）を用い詳説する。

【００３５】図２（ａ）に、本発明によるテキストデー
タ圧縮登録方式の一実施例である機能ブロック図を示
す。また、図３に本発明によるテキストデータ圧縮登録
方式の一実施例であるフローチャート（ＰＡＤ）を示
す。

【００３６】まず、テキスト入力部１０１より文書情報
をテキストデータとして入力する（Ｓ３０２）。入力す
るテキストデータは、他の情報機器よりネットワークも
しくは各種インタフェースを介して読み込むものでも良
いし、スキャナ等画像入力装置を用い入力した画像デー
タをＯＣＲ等文字認識装置を用い文字コードへ変換した
ものでも良いし、キーボードを用いテキストデータを直
接入力するものでも良い。つぎに、入力されたテキスト
データの圧縮を行う前処理としてテキスト解析部１０２
にてテキストデータの解析を行う（Ｓ３０３）。テキス
ト解析部１０２での解析手法として、形態素解析を採用
し、テキストデータを自立語と接続詞等へ分解する。形
態素解析は、文書情報を解析し、それぞれ単語／述語／
接続詞等の文字列情報に区切る。さらに、予め単語が蓄
積されているテキスト解析辞書１０３を用い、各意味要
素（単語）のデータ列に分解しても良い。また、形態素
解析を用いる代わりに、テキストデータとテキスト解析
辞書１０３との文字列マッチングを行い、テキスト解析
辞書１０３に登録されている単語のみをテキストデータ
より抽出しても良い。この場合、文字列マッチングを行
った結果、多重照合が生じたときには、テキスト解析辞
書１０３に登録されている最長の単語で区切るようにし
てもよい。

【００３７】上記解析／抽出された単語および付属語等
の文字データ列は、出現語登録辞書１０４に登録され
る。出現語登録辞書１０４には、これまで入力されたテ
キストデータより解析／抽出された単語および付属語等
文字データ列が登録され、合わせて文字データ列の出現
頻度が計数されて登録される。これは、まず、文字列登
録手段が、テキストデータより解析／抽出された文字デ
ータ列が、出現語登録辞書１０４に既に登録されている
か判定する（Ｓ３０４）。この時、文字データ列が辞書
に登録されていない場合、その文字データ列（単語）を
出現語登録辞書１０４に登録する（Ｓ３０６）。反対に
文字データ列が既に登録済みの場合、その文字データ列
の頻度情報に１を加える（Ｓ３０５）。

【００３８】上記出現語登録辞書１０４に登録された文
字データ列は、文字列登録手段により、順次コード変換
辞書１０５にも登録される。コード変換辞書１０５で
は、テキストデータより解析／抽出された文字データ列
とその圧縮コードを対にして登録し、１つの文字データ
列に対し１つの圧縮コードを与える。コード変換辞書１
０５には、あらかじめ圧縮コードのみを登録しておき、
文字列登録手段により、順次文字データ列を登録する。

【００３９】さらに、テキスト圧縮部１０６では、前記
コード変換辞書１０５を用い、テキストデータの単語
（文字データ列）を順次圧縮コードに置き換えることに
よりテキストデータの圧縮を行い（Ｓ３１１）、圧縮さ
れたテキストデータは圧縮テキストファイル１０８に登
録される（Ｓ３１２）。

【００４０】圧縮コード登録領域が無限に存在する場
合、コード登録領域を順次増加させる場合、もしくは、
圧縮コード登録領域が飽和状態にないとき、上記圧縮手
法は有効である。しかしながら、圧縮コード登録領域が
限られている場合、コード変換辞書１０５は飽和し、テ
キストデータより抽出された単語（文字データ列）は登
録不能となる。コード変換辞書１０５の登録領域が有限
である場合には、つぎに記述する４つの手法を用いるこ
とができる。

【００４１】（１）テキストデータより解析／抽出され
た文字データ列に対し圧縮コードの割当てが可能な限り
コード変換辞書１０５に登録を行い、圧縮コード登録領
域が飽和した時点で、最適な圧縮率が得られるようにコ
ード変換辞書に登録した単語（文字データ列）を変更す
る（Ｓ３０７）。すなわち、入力されたテキストデータ
より解析／抽出された単語（文字データ列）とその出現
頻度とは、全て出現語登録辞書１０４に登録されてお
り、上記単語の文字列長と出現頻度情報より、圧縮語判
別部１０７は、各単語（文字データ列）の圧縮効果を演
算し、圧縮貢献度（コード変換辞書登録優先度）を判断
する。圧縮語判別部は、文書情報の全ての文字列情報の
圧縮効果から、文書情報の文字列情報に対し、最適な圧
縮率の得られる圧縮コードを適応的に決定し、前記文字
列登録手段は、前記圧縮語判別部の最適な圧縮コードと
文字列情報とを登録する。これにより、文字列登録手段
は、コード変換辞書１０５に登録した単語（文字データ
列）を最適な圧縮率の得られる単語に入れ替える（Ｓ３
０８）。すなわち、圧縮コード登録領域が無くなった場
合には、より圧縮率が大きい単語に圧縮コードを割り当
てるようにし、既にコード変換辞書１０５に登録されて
いる圧縮率の小さい単語には圧縮コードを割り当てない
ように入れ替える。上記手法において、コード変換辞書
１０５の単語（文字データ列）を入れ替える場合、これ
まで圧縮され圧縮テキストファイル１０８に登録されて
いるテキストデータは、コード変換辞書１０５が変更さ
れるので原文書に伸長できなくなる。よって、コード変
換辞書１０５を変更する場合、これまで登録した圧縮テ
キストデータに対し、全て再圧縮処理を行うこととする
（Ｓ３０９）。Ｓ３０９における処理は、まず、圧縮テ
キストファイル１０８より圧縮テキストデータを取りだ
す。つぎに、テキスト伸長部１０９にて、コード変換辞
書１０５の登録単語（文字データ列）が変更されたもの
について、圧縮コードを原文書文字データ列に伸長す
る。つぎに、圧縮テキストファイル１０８より取り出し
一部伸長処理を施した、全ての圧縮テキストを再びテキ
スト圧縮部１０６にて圧縮処理する。この圧縮時には、
変更され最適化されたコード変換辞書１０５を用いる。
最後に、圧縮処理されたテキストデータを圧縮テキスト
ファイル１０８に登録する。もしくは、伸長処理の高速
化を計るために、出現語登録辞書１０４の登録単語（文
字データ列）にその単語が出現したファイル情報（ファ
イル名、ファイル番号、ファイルのインデックス等）を
付加しておき、単語が出現したファイルのみ伸長処理を
行うことも可能である。コード変換辞書１０５の変更処
理および登録テキストデータ再圧縮処理は、文書テキス
トデータを入力する毎に行うことができる。また、ある
一定のテキストデータ登録後に行うことも可能である。
また、全てのテキストデータ登録を終了した時点で、行
うことも可能である。これらは、文字列登録手段および
圧縮語判別部１０７に処理方法をあらかじめ定義してお
くか、もしくは、文字列登録手段は、コード変換辞書１
０５の圧縮コード登録領域が飽和したかしないかを監視
し、圧縮コード登録領域が飽和したことを検知し、飽和
時には、どのように対応するかの選択指示を受け付けて
処理するようにしてもよい。

【００４２】（２）テキストデータより解析／抽出され
た単語（文字データ列）に対し、圧縮コードの割当てが
可能な限りコード変換辞書１０５に登録を行い、圧縮コ
ードが飽和した時点でコード変換辞書１０５への登録を
終了する。すなわち、文字列登録手段は、コード変換辞
書１０５の圧縮コード登録領域が飽和したかしないかを
監視し、圧縮コード登録領域が飽和したことを検知し、
飽和時には、コード変換辞書１０５への新たな登録を終
了する。辞書が飽和した後は、入力されるテキストデー
タのうち、コード変換辞書１０５に登録された単語（文
字データ列）のみ圧縮コードに変換され、既に登録され
ていない単語は圧縮しないでそのまま格納する。この場
合、圧縮語判別部１０７は必要ない。また、前記単語
（文字データ列）を直接コード変換辞書に登録する構成
も可能で、この場合出現語登録辞書１０４についても省
略可能である。

【００４３】（３）テキストデータより解析／抽出され
た単語（文字データ列）に対し、圧縮コードの割当てが
可能な限りコード変換辞書１０５に登録を行い、圧縮コ
ードが飽和した時点で、コード変換辞書をクリアし、新
たなコード変換辞書を作成し、単語（文字データ列）を
登録していく。すなわち、文字列登録手段は、コード変
換辞書１０５の圧縮コード登録領域が飽和したかしない
かを監視し、圧縮コード登録領域が飽和したことを検知
し、飽和時には、飽和したコード変換辞書を蓄積してお
き、新たにコード変換辞書を作成する。この場合、複数
個のコード変換辞書が生じる。飽和したコード変換辞書
は、圧縮テキストとともに圧縮テキストファイル１０８
ヘ登録するか、コード変換辞書ファイル１１１ヘ登録す
る。圧縮テキストファイル１０８へ登録されたテキスト
データには、どのコード変換辞書にて圧縮されたものか
明らかにする為にコード変換辞書の識別情報（例えば辞
書のシリアルナンバー）を加えておく。また、コード変
換辞書の識別情報を登録する際にも、該コード変換辞書
の識別情報を付加しておく。

【００４４】テキストデータ出力時には、テキスト伸長
部１０９は、テキスト圧縮時と同じコード変換辞書を用
いて、圧縮テキストの伸長処理を行う。すなわち、伸長
時には、テキストデータに付加されているコード変換辞
書の識別情報を判別し、圧縮時と同じコード変換辞書を
用いて伸長する。この場合、圧縮語判別部１０７は必要
ない。また、前記単語（文字データ列）を直接コード変
換辞書に登録する構成も可能で、この場合出現語登録辞
書１０４についても省略可能である。

【００４５】（４）上記（１）および（３）に示す方法
をを組合せ、（１）に示した圧縮率最適辞書を複数個所
有する構成も可能である。この場合、ある定まったテキ
スト容量にてコード変換辞書を入れ替える構成も可能で
あるし、対象とするテキストの種類（英文／日本文、テ
キストのジャンル等）によってコード変換辞書を入れ替
える構成も可能である。複数個の辞書は、（３）で示し
た通りコード変換辞書ファイル１１１あるいは圧縮テキ
ストファイル１０８に登録しておく。また、圧縮したテ
キストデータには圧縮変換を行ったコード変換辞書の識
別情報（シリアルナンバー等）を付加しておく。

【００４６】コード変換辞書１０５への文字列登録手段
として、上記テキスト解析部にて解析／抽出された文字
データ列をすべて登録するのではなく、圧縮度を考慮
し、登録する手法も可能である。入力されたテキストデ
ータより解析／抽出された単語（文字データ列）とその
出現頻度とは、全て出現語登録辞書１０４に登録されて
いる。上記単語の文字列長と出現頻度情報より、圧縮語
判別部１０７では各単語（文字データ列）の圧縮貢献度
を演算する。この演算結果を用い、あらかじめ定めた水
準以上の圧縮効果の得られる文字データ列のみコード変
換辞書に登録していく。この時、過去に登録されたテキ
ストデータについては、新たに登録された文字データ列
に関する圧縮コード変換が為されていないので、再圧縮
処理を行うこととする。登録テキストデータ再圧縮処理
は、文書テキストデータを入力する毎に行うことも可能
であり、ある一定のテキストデータ登録後に行うことも
可能であり、また全てのテキストデータ登録を終了した
時点で行うことも可能である。

【００４７】また、コード変換辞書１０５において、入
力されたテキストデータより解析／抽出された単語（文
字データ列）を全て登録する構成の代わりに、一部を単
語（文字データ列）抽出を利用した辞書登録型テキスト
圧縮構成とすることも可能である。このようなコード変
換辞書構成の場合、入力されたテキストデータより解析
／抽出された単語（文字データ列）全ては登録しない
で、特定の抽出単語のみを登録する。特定の抽出単語以
外の単語は、コード変換辞書との文字列照合を用い、コ
ード変換辞書に登録しない手法を取る。例えば、日本語
テキストデータを入力する場合、文書解析の簡略化／高
速化を計り、カタカナ語、英単語（英文字列）のみを抽
出しておき、文字列登録手段が、カタカナ語、英単語
（英文字列）のみをコード変換辞書に登録し、それ以外
は登録しないようにする。

【００４８】また、コード変換辞書の一部に、あらかじ
め定まった単語（文字データ列）を登録しておき、一部
をコード変換辞書との文字列照合を利用したテキスト圧
縮構成とすることも可能である。このようなコード変換
辞書構成の場合、入力されたテキストデータより解析／
抽出された単語（文字データ列）を全て登録せずに、コ
ード変換辞書に登録できる文字列を文字列テーブルとし
て予め有しておき、文字列登録手段は、入力された文書
情報の文字列情報が、文字列テーブルの文字列情報に一
致するか否かを判別し、一致する文字列情報のみをコー
ド変換辞書に登録することができる。一致しない文字列
は、コード変換辞書との文字列照合のみを用い、コード
変換辞書に登録しない手法を取る。例えば、日本語テキ
ストデータを入力する場合、カタカナ語、英単語（英文
字列）のみを文字列テーブルに格納しておき、文字列登
録手段が、文字列情報が文字列テーブルの文字列情報と
一致するか否かを判別し、一致するカタカナ語、英単語
（英文字列）のみをコード変換辞書に登録する。さら
に、この場合、コード変換辞書に日本語テキストデータ
の文字列情報を登録しておき、カタカナ語および英単語
（英文字列）のみを文字列テーブルを用意してもよい。

【００４９】カタカナおよび英単語（英文字列）の文字
列抽出／コード変換辞書への登録手法として、テキスト
解析辞書１０３との文字列マッチングを用いずに、文字
種類の変化する点（ひらがな／漢字等からカタカナ文字
列および英文字へ文字種類が変化する点、また、カタカ
ナ文字列および英文字からひらがな／漢字等へ文字種類
が変化する点、英単語ではスペースも文字種類の変化に
含む）を用い、この点を単語の区切りと判断し、カタカ
ナおよび英単語（英文字列）を抽出し、コード変換辞書
に登録することも可能である。本手法を用いる場合、上
記カタカナ語、英単語（英文字列）のみをコード変換辞
書に登録する手法として、文字種類の区切りを用いて抽
出した単語をコード変換辞書に順次登録する。この時、
コード変換辞書への登録するカタカナ語、英単語（英文
字列）を予め定める必要はなく、文字列テーブルは不要
となる。

【００５０】テキスト解析部１０２において、テキスト
解析辞書１０３との文字列マッチングのみを用いて単語
（文字コード列）を抽出する手法を用いるとき、解析／
抽出される文字データ列はすべてテキスト解析辞書１０
３に存在することを利用し、テキスト解析辞書１０３に
単語（文字コード列）出現頻度を登録していく手法も可
能である。この時、テキスト解析辞書１０３は、出現語
登録辞書１０４の機能も合わせ持つものとなり、出現語
登録辞書１０４は不必要となる。

【００５１】図２（ｂ）に、本発明によるテキストデー
タ読み出し時の機能ブロック図を示す。また、図４に本
発明によるテキストデータ読み出し時のフローチャート
（ＰＡＤ）を示す。

【００５２】まず、検索情報入力部１１２より目的のテ
キストデータについて検索情報を入力する（Ｓ４０
１）。検索情報としては、文書の識別子情報（ファイル
名、ファイル番号、ファイル容量、ファイルのインデッ
クス、これらの個々あるいは組合せ）を用いる手法、テ
キストデータ中のキーワードを指定し、これを検索する
手法などがある。また、検索情報の入力手法として、キ
ーボードを用いるものでも良いし、他の情報機器よりネ
ットワークもしくは各種インタフェースを介して読み込
むものでも良いし、スキャナ等画像入力装置を用い入力
した画像データをＯＣＲ等文字認識装置を用いて文字コ
ードへと変換後入力するものでも良い。つぎに、入力さ
れたテキストデータ検索情報に従って、テキスト検索部
１１３は、圧縮テキストファイル１０８に蓄積されたテ
キストデータの検索をし、目的とするテキストデータが
取り出される（Ｓ４０２）。取り出された圧縮テキスト
データは、テキスト伸長部１０９に転送される。テキス
ト伸長部１０９ではテキスト圧縮時に使用したものと同
じコード変換辞書１０５を用い、転送された圧縮テキス
トデータを元テキストデータへ伸長する（Ｓ４０３）。
伸長処理を施されたテキストデータは、テキスト出力部
１１０にて検索者（ユーザ）が目的とする形で出力され
る（Ｓ４０４）。出力手法として具体的には、ＣＲＴデ
ィスプレイに表示する構成、プリンタを用い紙面に印字
する構成、他の情報機器へネットワークもしくは各種イ
ンタフェースを介して転送する構成などがある。

【００５３】つぎに、上記圧縮語判別部１０７における
圧縮貢献度について図５を参照して説明する。図５に圧
縮語判別部１０７にて演算される圧縮貢献度の演算例を
示す。図５において、文字データ列と出現頻度とは、出
現語登録辞書１０４に対の形式で登録されている。この
例では、「文書」の出現頻度が３、「情報」の出現頻度
が５、「テキスト」が１、「データ」が３、「インフォ
メーション」が１、「圧縮」が４と各々登録されてい
る。この出現語登録辞書１０４の内容を用い、圧縮語判
別部１０７にて演算される圧縮貢献度を（Ａ）および
（Ｂ）の２例について示す。

【００５４】例（Ａ）は、文字データ列のデータ長（文
字列長さ）と出現頻度との単純な積で圧縮貢献度を演算
し、この積が大きい文字データ列ほど圧縮貢献度が高く
なるものである。例えば、「文書」は、データ長が２、
出現頻度が３であり、圧縮貢献度は６となる。「インフ
ォメーション」は、出現頻度は１であるが、データ長が
９であり、結果として圧縮貢献度は９となり、前記「文
書」より圧縮貢献度は大きくなる。

【００５５】これに対し、例（Ｂ）では、文字データ列
のデータ長（文字列長さ）と”出現頻度−１”との積を
求めることにより圧縮貢献度を演算する。この演算は、
コード変換辞書１０５の内容を圧縮テキストと共に圧縮
テキストファイル１０８に登録することを考慮したもの
である。コード変換辞書１０５は、原テキストの文字デ
ータコード列とそれに対応する圧縮コードを対にして蓄
積する。このコード変換辞書１０５のデータを圧縮テキ
ストデータと共に圧縮テキストファイル１０８へ登録す
る場合、コード変換辞書１０５に現テキストの文字デー
タコード列が登録されているので、圧縮テキストファイ
ル１０８には、圧縮コードに対応した原テキストの文字
データコード列の全てが１度は必ず（コード変換辞書１
０５の内容として）含まれることになる。よってこの場
合、１度目の圧縮コード変換は、ファイル容量（圧縮テ
キストデータ＋コード変換辞書データ）の削減にはつな
がらない。例えば、例（Ｂ）では「テキスト」「インフ
ォメーション」は出現頻度１であるので、圧縮データに
変換してもコード変換辞書データには原文字データ列が
含まれるので、ファイル容量の削減（圧縮）には貢献し
ないこととなる。「文書」はデータ長が２、出現頻度が
３であるので、圧縮貢献度は２×（３−１）で４と演算
される。

【００５６】さらに、圧縮語判別部１０７にて演算され
る圧縮貢献度は、出現語登録辞書１０４に、文字データ
列、出現頻度と共に登録することも可能である。

【００５７】以上のように、例（Ａ）および例（Ｂ）に
示すような圧縮貢献度を圧縮語判別部１０７が演算する
ことにより、より圧縮貢献度の大きい文字データ列を圧
縮することができる。

【００５８】つぎに、テキストデータの解析から登録ま
での動作を図６に示す具体例を用いて説明する。図６に
テキスト解析およびテキスト圧縮についての一実施例を
示す。図６（ａ）は、原文書テキストの一部を示して
いる。ここでは、「すなわち文書情報検索装置のブロッ
ク図は」なるテキストを考慮する。図６（ｂ）は、原文
書テキストを解析して単語ごとに区切って展開した結果
を示す。図６（ｃ）は、単語ごとに圧縮コードが割り当
てられた結果を示す。

【００５９】まず、入力されたテキストは、テキスト解
析部１０２にて各単語要素に分解される。解析手法とし
て形態素解析を用いる場合、前記テキストデータより
「すなわち」→接続詞、「文書」→名詞、「情報」→名
詞、「検索」→名詞、「装置」→名詞、「の」→助詞、
「ブロック」→名詞、「図」→名詞、「は」→助詞とし
て意味最小単位の単語（文字データ列）に分解される。
抽出された各単語（文字コード列）は、出現語登録辞書
１０４あるいはコード変換辞書１０５に登録される。ま
た、解析手法としてテキスト解析辞書１０３との文字列
マッチングを用いる一例を説明する。まず、前記テキス
トデータを入力する。テキスト解析部１０２では、入力
されたテキストデータとテキスト解析辞書１０３に登録
されている単語（文字コード列）とを前方より一文字ず
つ文字列照合を行う。文字列照合の結果、テキスト解析
辞書１０３に登録されている単語（文字コード列）とマ
ッチングした単語をテキストデータより抽出し、出現語
登録辞書１０４あるいはコード変換辞書１０５に登録す
る。本例では、「すなわち」「文書」「情報」「検索」
「装置」「の」「ブロック」「図」「は」の単語が、全
てテキスト解析辞書１０３に登録されていたものとす
る。もし、「ブロック」がテキスト解析辞書１０３に登
録されていない場合、「ブロック」は抽出されず「ブ」
「ロ」「ッ」「ク」の各文字コードに展開される。ま
た、入力されたテキストデータが、テキスト解析辞書１
０３に登録されている単語（文字コード列）と多重に照
合した場合、前方より照合を始めたものを優先とし、よ
り長い単語（文字コード列）を抽出するものとする。例
えば、本例で、「なわ」「すな」がテキスト解析辞書１
０３に登録されている場合「すなわち」と多重照合する
が、「すなわち」を優先し、これら「なわ」「すな」は
抽出しない。また、もし「書情報」なる単語が登録され
ていても、「文書」が優先するので、これを抽出しない
ものとする。多重照合に対する処理として、この手法以
外に出現位置に関与されず単語（文字コード列）の長い
ものを優先的に抽出し、圧縮率を改善する手法などが可
能である。

【００６０】つぎに、抽出された単語（文字コード列）
の圧縮コード変換をテキスト圧縮部１０６にて行う。原
文書テキストでは、１つの文字に対して１つのコードが
与えられている。例えば、テキストコードとして一般に
用いられるシフトＪＩＳコードでは、１つの文字に対し
１６ビットコードが１つずつ与えられている。先の例で
は、１６ビットコードが１９個必要となる。そこで、抽
出された単語（文字コード列）に新たに１６ビットの圧
縮コードを割り振ることにより、文書テキストの圧縮を
行う。本例では、図６（ｂ）の如く「すなわち」→(01A
B)、「文書」→(2153)、「ブロック」→(0A3B)等各単語
に１６ビットコードを割り当てるものとする。コード変
換辞書１０４には、上記原文書の単語コード（例えば
「ブロック」の文字コード）と変換語の圧縮文字コード
（例えば「0A3B」）とを対にして登録しておく。ただ
し、各文字のコード情報は、圧縮テキスト変換後もサポ
ートするものとする。上記実施例では、「の」「図」
「は」がこれにあたる。これら手法を用い、図６（ｂ）
テキストデータは、テキストデータ圧縮部１０３により
圧縮テキストデータ図６（ｃ）に変換され、テキストデ
ータファイル１０６にファイリングされる。上記実施例
では、圧縮変換結果として１６ビットコード９個のテキ
ストが得られ、圧縮率として５０％以上の圧縮効果が得
られている。上記圧縮手法を用いることにより、上記実
施例ではテキスト容量を約１／２に削減し、ディスク等
蓄積媒体からの読み出し時間を半分にすることが可能と
なる。

【００６１】図７に本発明が適応される装置のシステム
構成図についての一例を示す。

【００６２】図７において、７０１は、ＣＰＵ（中央演
算処理装置）であり、テキスト／イメージデータ、キー
ワードおよび検索条件式、文書識別子情報等に各種処理
を行う。７０２は、画像入力装置であり、テキスト入力
部１０１の１つとしてイメージデータを紙面等より取り
込む。７０３は、文字認識装置であり、取り込んだイメ
ージデータより文字成分のみ抽出／認識しテキストデー
タに変換を行う。７０４は、ネットワーク／ホストコン
ピュータ接続装置であり、テキスト入力部１０１の１つ
として、各種外部機器よりネットワークを介してテキス
ト／イメージデータを取り込む。入力装置として、画像
入力装置７０２と、文字認識装置７０３とを備えること
ができる。７０５は、文字列照合プロセッサであり、テ
キスト解析部１０２における文字列照合を行い、オート
マトンその他文字照合アルゴリズムを用い文字列照合動
作を高速に処理する。７０６は、テキスト解析辞書であ
り、テキストデータ入力時にテキストデータを解析し各
単語要素に分解する目的に利用する。７０７は、出現語
登録辞書であり、テキストデータより解析／抽出された
単語（文字データ列）とその出現頻度とを登録してお
く。７０８は、コード変換辞書であり、原文書の文字コ
ード列と圧縮変換後の圧縮コードを対にして蓄積する。
７０９は、コード変換辞書ファイルであり、コード変換
辞書７０８の内容を退避／保持する。７１０は、記憶装
置の圧縮テキストファイルであり、圧縮変換を行った圧
縮テキストデータを蓄積する。７１１は、キーボードな
どの入力手段であり、検索情報入力部１１２やテキスト
入力部１０１として、検索時にキーワードの入力を受付
け、あるいは、テキストデータの入力を受け付ける。７
１２は、ＣＲＴなどの出力手段であり、検索結果を表示
出力する。７１３は、ＣＲＴ制御回路であり、ＣＲＴ７
１２を制御する。７１４は、プリンタなどの出力手段で
あり、検索結果を紙面に打ち出す。７１５は、プリンタ
制御回路であり、プリンタ７１４を制御する。ＣＲＴ７
１２およびプリンタ７１４は、出力装置として検索結果
を出力することができる。

【００６３】図７において、まず、テキストデータ登録
時には、ネットワーク／ホストコンピュータ接続装置７
０４を介し、テキストデータがＣＰＵ７０１に入力され
る。あるいは、画像入力装置７０２より入力されたイメ
ージデータについて、文字認識装置７０３を用い認識／
変換されたテキストデータがＣＰＵ７０１に入力され
る。もしくは、キーボード７１１を用い、直接テキスト
データがＣＰＵ７０１に入力される。入力されたテキス
トデータは、ＣＰＵ７０１にて、解析され単語（文字デ
ータ列）が抽出される。単語の抽出手法としては、テキ
スト解析辞書７０６および文字列照合プロセッサ７０５
を用い、ＣＰＵ７０１にて形態素解析を行う手法でもよ
いし、あるいは、テキスト解析辞書７０６および文字列
照合プロセッサ７０５を用い、テキスト解析辞書７０６
に登録された単語（文字データ列）のみ抽出する手法で
もよい。抽出された単語（文字データ列）とその出現頻
度とは、出現語登録辞書７０７に登録され、ＣＰＵ７０
１にて前記単語（文字データ列）の出現頻度とデータ長
より圧縮貢献度が演算される。さらに、ＣＰＵ７０１に
て、圧縮語の登録アルゴリズムに従い、出現語登録辞書
７０７の単語（文字データ列）全て、あるいは、その一
部がコード変換辞書７０８に登録される。入力されたテ
キストデータは、文字列照合プロセッサ７０５にてコー
ド変換辞書７０８に登録されている単語との文字列照合
が行われ、この照合結果を用いＣＰＵ７０１にて圧縮処
理が行われる。圧縮されたテキストデータは圧縮テキス
トファイル７１０に蓄積される。

【００６４】つぎに、テキストデータ検索時には、キー
ボード７１１より、あるいは、ネットワーク／ホストコ
ンピュータよりネットワーク／ホストコンピュータ接続
装置７０４を介して、あるいは、画像入力装置７０２と
文字認識装置７０３を介して、まず目的のテキストデー
タについての検索情報がＣＰＵ７０１に入力される。つ
ぎに、入力されたテキストデータ検索情報に従って、Ｃ
ＰＵ７０１は、圧縮テキストファイル７１０に蓄積され
たテキストデータの検索を行い、目的とするテキストデ
ータを取り出す。圧縮テキストファイル７１０より取り
出された圧縮テキストデータは、ＣＰＵ７０１にてコー
ド変換辞書７０８に従い、圧縮コードを原テキストコー
ド列に展開され、伸長処理される。伸長／復元されたテ
キストデータは、ＣＲＴ制御回路７１３を介してＣＲＴ
７１２に表示される。あるいは、プリンタ制御回路７１
５を介してプリンタ７１４より紙面に印字され、あるい
は、ネットワーク／ホストコンピュータ接続装置７０４
を介して外部情報機器へ出力される。

【００６５】上記システム構成図において、文字列照合
に速度あるいは高度な機能が必要とされない場合、文字
列照合はＣＰＵ７０１が行い、文字列照合プロセッサ７
０５を削除することが可能である。また、文字認識に速
度あるいは高度な機能が必要とされない場合、文字認識
をＣＰＵ７０１が行い、文字認識装置７０３を削除する
ことも可能である。また、テキストデータ入力を画像入
力装置７０２および文字認識装置７０３より行う場合、
文字認識装置７０３にて辞書マッチングを用いることを
考慮し、テキスト解析辞書７０６を文字認識装置７０３
に組み込み文字認識処理にテキスト解析処理を含める構
成も可能である。

【００６６】本実施例によれば、文書テキスト情報登録
時において、テキストコードを圧縮処理し、テキストデ
ータファイル中に保存するので、原文テキストの情報を
落すこと無く膨大なテキストデータを削減することがで
きる。また、本実施例によれば、文書テキスト情報検索
時において、圧縮処理されたテキストデータを読みだす
ので、テキスト蓄積手段よりディスクリードを行うため
に必要となる処理時間を短縮できる。

【００６７】また、本実施例によれば、文字データ列を
１つのコードに置き換えることによりテキストコードを
圧縮する手法において、テキスト解析手法を用い入力さ
れた文書を単語／付属語等文字データ列に分解し、抽出
した文字データ列に圧縮コードを１対１に割り当てるこ
とにより、入力された文書に適応した圧縮コードを生成
することができる。さらに、本実施例によれば、圧縮コ
ードの領域（圧縮コードの個数）が制限されている場合
において、文字データ列の出現頻度とデータ長とを考慮
し、圧縮する文字データ列を決定することにより、最適
な圧縮率の得られるコード変換を構成することができ
る。特に、膨大な文書テキストを蓄積／検索する必要が
生じる使用法において、本方式の効果は顕著である。

【００６８】

【発明の効果】本発明によれば、テキストデータの蓄積
容量を削減し、効率的な圧縮コードが得られる文書情報
圧縮装置を提供することができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す構成図。

【図２】本発明の機能ブロック図。

【図３】テキストデータ登録時のフローチャート。

【図４】テキストデータ読み出し時のフローチャート。

【図５】圧縮貢献度の演算例。

【図６】テキスト解析及びテキスト圧縮の一実施例。

【図７】本発明の一実施例を示すシステム構成図。

【符号の説明】

１０１……テキスト入力部、１０２……テキスト解析
部、１０３……テキスト解析辞書、１０４……出現語登
録辞書、１０５……コード変換辞書、１０６……テキス
ト圧縮部、１０７……圧縮語判別部、１０８……圧縮テ
キストファイル、１０９……テキスト伸長部、１１０…
…テキスト出力部、１１１……コード変換辞書ファイ
ル、１１２……検索情報入力部、１１３……テキスト検
索部、１１４……データバス。

───────────────────────────────────────────────────── フロントページの続き (72)発明者藤縄雅章神奈川県小田原市国府津2880番地株式会社日立製作所小田原工場内

Claims

【特許請求の範囲】

【請求項１】文書情報を入力する入力部と、入力された
文書情報を文字列情報に区切るテキスト解析部と、文字
列情報と圧縮コードとの対を蓄積するコード変換辞書
と、コード変換辞書に登録されていない文字列情報を検
出し、登録されていない文字列情報をコード変換辞書に
登録して文字列情報を圧縮コードに対して割り当てる文
字列登録手段と、コード変換辞書を参照して文字列情報
を対応する圧縮コードに変換するテキスト圧縮部と、圧
縮された文字列情報の圧縮テキストを格納する圧縮テキ
スト格納手段とを有することを特徴とする文書情報圧縮
装置。
【請求項２】請求項１において、入力された文書情報の
文字列情報の出現頻度を示す出現頻度情報を記録する出
現語登録辞書と、前記文字列情報の出現頻度情報および
コード長を用いて各々の文字列情報に対する圧縮効果を
算出する圧縮語判別部とをさらに有し、前記圧縮語判別部は、文書情報の文字列情報の圧縮効果
から、文書情報の文字列情報に対し、最適な圧縮効果の
得られる文字列情報を決定し、前記文字列登録手段は、前記圧縮語判別部からの文字列
情報をコード変換辞書に登録することを特徴とする文書
情報圧縮装置。
【請求項３】請求項１において、前記文字列登録手段
は、前記コード変換辞書の圧縮コード登録領域が有限の
場合、文字列情報に順次圧縮コードを割り当てて、圧縮
コード登録領域がなくなったことを検知し、圧縮コード
の割り当てを終了し、前記テキスト圧縮部は、圧縮コードの割り当て終了後
は、既に前記コード変換辞書に登録されている文字列情
報を圧縮コードに変換し、登録されていない文字列情報
は、圧縮変換しないで圧縮テキスト格納手段に格納させ
ることを特徴とする文書情報圧縮装置。
【請求項４】請求項１において、前記文字列登録手段
は、前記コード変換辞書の圧縮コード登録領域が有限の
場合、文字列情報に順次圧縮コードを割り当てて、圧縮
コード登録領域がなくなったことを検知し、割り当てる
圧縮コード登録領域がなくなった時点で、前記コード変
換辞書中の内容と該コード変換辞書の識別情報とを蓄積
し、前記コード変換辞書の識別情報を圧縮テキストとと
もに前記圧縮テキスト格納手段に格納し、新たにコード
変換辞書を作成して文字列情報をコード変換辞書に登録
することを特徴とする文書情報圧縮装置。
【請求項５】請求項４において、圧縮テキストを伸長し
て出力するテキスト伸長部をさらに有し、前記テキスト
伸長部は、文書情報読み出し時に、テキスト圧縮時と同
じコード変換辞書を用いて圧縮テキストの伸長処理を行
うことを特徴とする文書情報圧縮装置。
【請求項６】請求項４において、コード変換辞書中の内
容と該コード変換辞書の識別情報との蓄積は、圧縮テキ
ストとともに前記圧縮テキスト格納手段に蓄積すること
を特徴とする文書情報圧縮装置。
【請求項７】請求項４において、複数のコード変換辞書
を蓄積するコード変換辞書ファイルをさらに有し、コード変換辞書中の内容と該コード変換辞書の識別情報
との蓄積は、該コード変換辞書ファイルに蓄積すること
を特徴とする文書情報圧縮装置。
【請求項８】請求項２において、前記文字列登録手段
は、前記コード変換辞書の圧縮コード登録領域が有限の
場合、文字列情報に順次圧縮コードを割り当て、圧縮コ
ード登録領域がなくなったことを検知し、前記圧縮語判別部は、割り当てる圧縮コード登録領域が
なくなった時点で、圧縮効果に従い、最適な圧縮効果の
得られる文字列情報を、圧縮効果の低い文字列情報と置
換して圧縮コードを割当てることを特徴とする文書情報
圧縮装置。
【請求項９】請求項８において、前記圧縮判別部は、圧
縮テキスト格納手段の前記圧縮テキストを読みだして圧
縮効果の低い文字列情報の圧縮コードを伸長し、圧縮テ
キスト格納手段に格納することを特徴とする文書情報圧
縮装置。
【請求項１０】請求項１において、予め特定の文字列情
報を格納した文字列テーブルをさらに有し、前記文字列登録手段は、前記コード変換辞書に登録され
ていない文字列情報が、文字列テーブルの文字列情報に
一致するか否かを判別し、一致する文字列情報をコード
変換辞書に登録することを特徴とする文書情報圧縮装
置。
【請求項１１】請求項１において、テキスト解析部は、
文書情報を文字列情報に区切るテキスト解析手法とし
て、形態素解析処理を用いることを特徴とする文書情報
圧縮装置。
【請求項１２】請求項１において、入力された文書情報
を文字列情報に区切るための文字列情報を予め蓄積して
おくテキスト解析辞書をさらに有し、前記テキスト解析部は、文書情報を文字列情報に区切る
テキスト解析手法として、前記テキスト解析辞書との文
字列マッチングをすることを特徴とする文書情報圧縮装
置。
【請求項１３】請求項１２において、前記テキスト解析
辞書との文字列マッチングにて多重照合が生じた場合
は、前記テキスト解析辞書に登録された最長の文字列情
報で区切ることを特徴とする文書情報圧縮装置。
【請求項１４】請求項２において、前記圧縮語判別部
は、文書情報の文字列情報の圧縮効果から、予め定めた
圧縮効果以上の圧縮効果が得られる文字列情報に対して
圧縮コードを割り当てることを特徴とする文書情報圧縮
装置。
【請求項１５】請求項１において、コード変換辞書を圧
縮テキストデータと共に圧縮テキスト格納手段に格納す
ることを特徴とする文書情報圧縮装置。
【請求項１６】複数の文書情報を入力して記録し、記録
された文書情報を検索して出力する文書情報検索システ
ムの文書情報登録方法において、入力された文書情報を単語に区切り、該単語が圧縮コー
ドを割り当てられた単語であるかないかを検出し、割り
当てられていない場合には、単語に圧縮コードを割り当
てて、該単語を割り当てられた圧縮コードに変換して圧
縮テキストを記録し、出力時には、圧縮コードに対応す
る単語を用いて圧縮テキストを伸長して出力することを
特徴とする文書情報登録方法。
【請求項１７】文書情報を入力する入力装置と、情報を
処理する中央演算処理部と、処理結果を出力する出力装
置と、文書情報を記憶する記憶装置とを有する情報処理
システムにおいて、文字列情報と圧縮コードとの対を蓄積するコード変換辞
書を有し、前記中央演算処理部は、前記入力装置で入力された文書
情報を文字列情報に区切り、該文字列情報が前記コード
変換辞書に蓄積されている文字列情報か否かを検出し、
蓄積されていない場合には、文字列情報に圧縮コードを
割り当てて、前記コード変換辞書に蓄積し、文字列情報
を割り当てられた圧縮コードに変換し、前記記憶装置に
圧縮した文書情報を記憶させることを特徴とする情報処
理システム。
【請求項１８】請求項１７において、前記入力装置は、
画像情報を入力する画像情報入力部と、前記画像情報か
ら文字情報を認識する文字認識部とを備えることを特徴
とする情報処理システム。
【請求項１９】請求項１７または１８において、文書情
報を検索するためのキー情報の入力を受け付けるキー入
力手段をさらに有することを特徴とする情報処理システ
ム。