JPH05324427A - 文書情報圧縮装置 - Google Patents

文書情報圧縮装置

Info

Publication number
JPH05324427A
JPH05324427A JP4135341A JP13534192A JPH05324427A JP H05324427 A JPH05324427 A JP H05324427A JP 4135341 A JP4135341 A JP 4135341A JP 13534192 A JP13534192 A JP 13534192A JP H05324427 A JPH05324427 A JP H05324427A
Authority
JP
Japan
Prior art keywords
information
compression
character string
text
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4135341A
Other languages
English (en)
Inventor
Hiroaki Iguchi
博彰 井口
Yasuo Kurosu
康雄 黒須
Masaaki Fujinawa
雅章 藤縄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4135341A priority Critical patent/JPH05324427A/ja
Priority to US08/068,658 priority patent/US5590317A/en
Publication of JPH05324427A publication Critical patent/JPH05324427A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 多量の文書情報の登録/検索を行う場合にお
いて、文書データの容量を削減する文書情報圧縮装置を
提供することにある。 【構成】 複数の文書情報を入力して記録し、記録され
た文書情報を検索して出力する文書情報検索システムの
文書情報登録方法において、入力された文書情報を単語
に区切り、該単語が圧縮コードを割り当てられた単語で
あるかないかを検出し、割り当てられていない場合に
は、単語に圧縮コードを割り当てて、該単語を割り当て
られた圧縮コードに変換して圧縮テキストを記録し、出
力時には、圧縮コードに対応する単語を用いて圧縮テキ
ストを伸長して出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報登録/蓄積/検索
システムに係り、特に、日本語/英語文書テキストやプ
ログラム言語等テキストデータ応用に好適な文書情報の
圧縮装置に関する。
【0002】
【従来の技術】近年、文献情報や特許情報などのデータ
ベースサービスが普及し、テキストデータを扱う情報文
野もますます大型化・汎用化する傾向にある。これに伴
い、大型システムのみならず汎用小型OA機器において
も、扱う文書情報は爆発的に増加する傾向にある。制限
された蓄積容量に更に多くの文書情報を登録することを
考慮するとき、あるいは、低速なデータ蓄積媒体への文
書の登録/検索/読み出しの高速化を考慮するときに、
テキストデータを圧縮した状態で蓄積媒体へ登録する手
法は有効な手段である。
【0003】従来、テキストデータ記述方式として、1
つの文字キャラクタに対して1つのコードを割り当てる
方式が用いられている。しかしながら、このような従来
の構成では、日本語/英語文書テキストデータやプログ
ラム言語等、同一の単語(文字データ列)が何度も入力
される場合でも、入力された単語(文字データ列)は、
単語(文字データ列)を構成する個々のキャラクタデー
タに分割され、蓄積媒体へ登録される。従って、テキス
トデータは冗長を多く含むものとなり、大きな蓄積容量
を必要とするという問題点を有している。
【0004】上記問題点を解決する従来の装置として、
特開昭62−140136号公報記載の装置が挙げられ
る。この従来技術は、同一の単語(文字データ列)が何
度も入力されることがあらかじめわかっている場合に
は、前記単語(文字データ列)に対して1つの圧縮コー
ドを割当てて変換し、その後、蓄積媒体に記憶すること
により、前記蓄積容量が従来よりも小さくなるようなデ
ータ記憶装置を提供することを目的とする。
【0005】
【発明が解決しようとする課題】上記従来技術によれ
ば、文書テキストデータを圧縮した状態で蓄積媒体に登
録することが可能となり、テキストデータの容量削減に
対し有効な手段となる。しかしながら、上記従来技術で
は、あらかじめ入力される文書の内容が明らかであり、
ある定まった同一の単語(文字データ列)が何度も入力
されるテキストデータのみに有効である。従って、該方
式では、未知のテキストデータを入力した場合、偶然圧
縮コードが割り当てられている単語(文字データ列)が
出現しない限り、テキストデータの圧縮を全く行わない
という問題点がある。
【0006】さらに、該方式では、新たに入力された未
知のテキストデータ中に繰り返し出現する単語(文字デ
ータ列)がある場合には、効果的な圧縮手段を講じるこ
とができない問題点がある。
【0007】本発明の目的は、上記課題を解決すべく、
テキストデータの蓄積容量を削減し、効率的な圧縮コー
ドが得られる文書情報圧縮装置を提供することにある。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、本発明による文書テキスト圧縮装置では圧縮コード
を割り当てる単語(文字データ列)の登録手法に着目す
る。
【0009】本発明は、文書情報を入力する入力部と、
入力された文書情報を文字列情報に区切るテキスト解析
部と、文字列情報と圧縮コードとの対を蓄積するコード
変換辞書と、コード変換辞書に登録されていない文字列
情報を検出し、登録されていない文字列情報をコード変
換辞書に登録して文字列情報を圧縮コードに対して割り
当てる文字列登録手段と、コード変換辞書を参照して文
字列情報を対応する圧縮コードに変換するテキスト圧縮
部と、圧縮された文字列情報の圧縮テキストを格納する
圧縮テキスト格納手段とを有する。
【0010】また、入力された文書情報の文字列情報の
出現頻度を示す出現頻度情報を記録する出現語登録辞書
と、前記文字列情報の出現頻度情報およびコード長を用
いて各々の文字列情報に対する圧縮効果を算出する圧縮
語判別部とをさらに有し、前記圧縮語判別部は、文書情
報の文字列情報の圧縮効果から、文書情報の文字列情報
に対し、最適な圧縮効果の得られる文字列情報を決定
し、前記文字列登録手段は、前記圧縮語判別部からの文
字列情報をコード変換辞書に登録することができる。
【0011】前記文字列登録手段は、前記コード変換辞
書の圧縮コード登録領域が有限の場合、文字列情報に順
次圧縮コードを割り当てて、圧縮コード登録領域がなく
なったことを検知し、圧縮コードの割り当てを終了し、
前記テキスト圧縮部は、圧縮コードの割り当て終了後
は、既に前記コード変換辞書に登録されている文字列情
報を圧縮コードに変換し、登録されていない文字列情報
は、圧縮変換しないで圧縮テキスト格納手段に格納させ
る。
【0012】もしくは、前記文字列登録手段は、前記コ
ード変換辞書の圧縮コード登録領域が有限の場合、文字
列情報に順次圧縮コードを割り当てて、圧縮コード登録
領域がなくなったことを検知し、割り当てる圧縮コード
登録領域がなくなった時点で、前記コード変換辞書中の
内容と該コード変換辞書の識別情報とを蓄積し、前記コ
ード変換辞書の識別情報を圧縮テキストとともに前記圧
縮テキスト格納手段に格納し、新たにコード変換辞書を
作成して文字列情報をコード変換辞書に登録するように
してもよい。さらに、圧縮テキストを伸長して出力する
テキスト伸長部を有し、前記テキスト伸長部は、文書情
報読み出し時に、テキスト圧縮時と同じコード変換辞書
を用いて圧縮テキストの伸長処理を行う。
【0013】上記複数のコード変換辞書の内容と該コー
ド変換辞書の識別情報とを圧縮テキストとともに前記圧
縮テキスト格納手段に格納することができる。
【0014】もしくは、複数のコード変換辞書を蓄積す
るコード変換辞書ファイルをさらに有し、コード変換辞
書中の内容と該コード変換辞書の識別情報との蓄積は、
該コード変換辞書ファイルに蓄積することもできる。
【0015】また、前記文字列登録手段は、前記コード
変換辞書の圧縮コード登録領域が有限の場合、文字列情
報に順次圧縮コードを割り当て、圧縮コード登録領域が
なくなったことを検知し、前記圧縮語判別部は、割り当
てる圧縮コード登録領域がなくなった時点で、圧縮効果
に従い、最適な圧縮効果の得られる文字列情報を、圧縮
効果の低い文字列情報と置換して圧縮コードを割当てる
こともできる。この場合、前記圧縮判別部は、圧縮テキ
スト格納手段の前記圧縮テキストを読みだして圧縮率の
低い文字列情報の圧縮コードを伸長し、圧縮テキスト格
納手段に格納する。
【0016】予め特定の文字列情報を格納した文字列テ
ーブルをさらに有し、前記文字列登録手段は、前記コー
ド変換辞書に登録されていない文字列情報が、文字列テ
ーブルの文字列情報に一致するか否かを判別し、一致す
る文字列情報をコード変換辞書に登録するようにしても
よい。
【0017】テキスト解析部は、文書情報を文字列情報
に区切るテキスト解析手法として、形態素解析処理を用
いることができる。
【0018】また、入力された文書情報を文字列情報に
区切るための文字列情報を予め蓄積しておくテキスト解
析辞書をさらに有し、前記テキスト解析部は、文書情報
を文字列情報に区切るテキスト解析手法として、前記テ
キスト解析辞書との文字列マッチングをするようにして
もよい。前記テキスト解析辞書が、入力された文書情報
の文字列情報の出現頻度を計数し、文字列情報の出現頻
度情報を記録する出現語登録辞書であってもよい。
【0019】前記テキスト解析辞書との文字列マッチン
グにて多重照合が生じた場合は、前記テキスト解析辞書
に登録された最長の文字列情報で区切ることができる。
【0020】前記圧縮語判別部は、文書情報の文字列情
報の圧縮効果から、予め定めた圧縮効果以上の圧縮効果
が得られる文字列情報に対して圧縮コードを割り当てる
ようにしてもよい。
【0021】さらに、コード変換辞書を圧縮テキストデ
ータと共に圧縮テキスト格納手段に格納することができ
る。
【0022】前記圧縮テキスト格納手段は、磁気ディス
ク装置や光ディスク装置を用いることができる。また、
コード変換辞書は、半導体メモリや磁気ディスク装置、
光ディスク装置に格納することができる。
【0023】また、文書情報を入力する入力装置と、情
報を処理する中央演算処理部と、処理結果を出力する出
力装置と、文書情報を記憶する記憶装置とを有する情報
処理システムにおいて、文字列情報と圧縮コードとの対
を蓄積するコード変換辞書を有し、前記中央演算処理部
は、前記入力装置で入力された文書情報を文字列情報に
区切り、該文字列情報が前記コード変換辞書に蓄積され
ている文字列情報か否かを検出し、蓄積されていない場
合には、文字列情報に圧縮コードを割り当てて、前記コ
ード変換辞書に蓄積し、文字列情報を割り当てられた圧
縮コードに変換し、前記記憶装置に圧縮した文書情報を
記憶させることができる。
【0024】前記入力装置は、画像情報を入力する画像
情報入力部と、前記画像情報から文字情報を認識する文
字認識部とを備えることができ、文書情報を検索するた
めのキー情報の入力を受け付けるキー入力手段をさらに
有してもよい。
【0025】
【作用】本発明では、文書テキストデータの蓄積にあた
り、文書テキストの意味最小単位は、文字ではなく単語
(名詞、動詞、接続詞、あるいは繰り返し出現する文字
データ列)であり、この単語の文字列情報を用いて文書
テキストの圧縮が可能である点、さらに、文字列情報の
出現頻度とデータ長により圧縮効率が変化する点に着目
し、これを利用する。
【0026】単語(文字列情報/文字コード列)に圧縮
コードを割り当てる具体的な文書データ圧縮手法につい
て以下に述べる。
【0027】まず、文書情報(テキストデータ)を入力
部より入力する。入力部としては、他の情報機器からイ
ンタフェースを介して読み込む手法、スキャナおよびO
CRを用い紙面情報を読み込む手法、キーボードなどが
ある。つぎに、テキスト解析部は、この文書情報を解析
し、文字列に区切って分解する。分解され抽出された単
語(文字コード列)は、その出現頻度と共に出現語登録
辞書に登録される。圧縮語判別部は、登録された単語
(文字コード列)の出現頻度およびコード長より各単語
(文字コード列)の圧縮に対する寄与の度合の圧縮効果
を演算する(単純なものとしては出現頻度とコード長の
積を圧縮貢献度として用いる)。文字列登録手段は、選
別された単語(文字コード列)に圧縮コードを割り当て
て、コード変換辞書に登録する。最後に、テキスト圧縮
部が、コード変換辞書に従い文書情報を圧縮コードに変
換し、圧縮テキスト格納手段に格納される。
【0028】さらに、テキストデータ読み出し時には、
文書の検索情報に従い、圧縮テキストを読み出し、圧縮
に用いたコード変換辞書に従い文書情報の伸長処理を行
うことにより、原文書情報に復元する。
【0029】かくして本発明によれば、上記単語(文字
データ列)/圧縮コード変換を利用したテキスト圧縮部
を用いることにより、原文書の情報を何ら削減すること
なく膨大なテキストデータを削減することが可能とな
る。内容の明らかでない未知の文書テキストデータに対
し、文書解析手法を用い、単語(文字データ列)を切り
出して圧縮コードを割り当てることにより、圧縮コード
を割り当てる単語(文字データ列)をあらかじめ登録し
ておかなくてもよい。このため、未知のテキストデータ
入力に対しても適切な圧縮コードを割り当てることがで
き、常に最適な圧縮効果を得る単語を圧縮することが可
能となる。
【0030】さらに、登録する単語(文字データ列)の
出現頻度と文字列長を演算し、圧縮コードを割り当てる
単語(文字データ列)を決定することにより、最適な効
率の得られる単語に対して圧縮コードを割り当てること
ができる。
【0031】
【実施例】以下、本発明の実施例について図面を用いて
説明する。
【0032】まず、図1に本発明が適応される装置の一
例としての文書データ圧縮装置の構成を示す。
【0033】図1において、101は、テキスト入力部
であり、ネットワークもしくは各種インタフェースを介
してテキストデータを取り込む。102は、テキスト解
析部であり、入力されたテキストデータを解析する。1
03は、テキスト解析辞書であり、テキストデータを解
析して各単語要素に分解する為に用いられ、予め単語が
蓄積されている辞書である。104は、出現語登録辞書
であり、解析された単語と出現頻度とを登録する。10
5は、コード変換辞書であり、コード圧縮/伸長時に用
いる圧縮コードと原テキストデータとデータ列を対応さ
せて蓄積する。出現語登録辞書104およびコード変換
辞書105への文字データ列の登録は、文字列登録手段
が行う。文字列登録手段の機能は、出現語登録辞書10
4やテキスト解析部102に備えることができる。10
6は、テキスト圧縮部であり、コード変換辞書105を
用い解析されたテキストデータをコード変換し、テキス
トの圧縮処理を行う。107は、圧縮語判別部であり、
出現語登録辞書104を用いて最適な圧縮率の得られる
データ列(単語)を判別する。108は、圧縮テキスト
格納手段の圧縮テキストファイルであり、圧縮された文
書テキストデータを登録する。109は、テキスト伸長
部であり、文書テキストデータ読み出し時にコード変換
辞書105を用い圧縮テキストの伸長処理を行う。11
0は、ディスプレイ/プリンタなどのテキスト出力部で
あり、その他各種インタフェースあるいはネットワーク
を介してテキストデータを出力する。111は、コード
変換辞書ファイルであり、複数のコード変換辞書の内容
を登録/蓄積しておく。112は、キーボードなどの検
索情報入力部であり、テキストデータ検索時にテキスト
検索情報を入力する。113は、テキスト検索部であ
り、入力された検索情報に従いテキストの検索/読み出
しを行う。114は、データバスであり、データバスを
介して相互にデータのやり取りを実行できる。
【0034】つぎに、図1に示す各部の動作を、テキス
トデータ登録時とテキストデータ読み出し時に分けて、
機能ブロック図およびフローチャート(Probrem-Anarys
is・Diagram、PAD)を用い詳説する。
【0035】図2(a)に、本発明によるテキストデー
タ圧縮登録方式の一実施例である機能ブロック図を示
す。また、図3に本発明によるテキストデータ圧縮登録
方式の一実施例であるフローチャート(PAD)を示
す。
【0036】まず、テキスト入力部101より文書情報
をテキストデータとして入力する(S302)。入力す
るテキストデータは、他の情報機器よりネットワークも
しくは各種インタフェースを介して読み込むものでも良
いし、スキャナ等画像入力装置を用い入力した画像デー
タをOCR等文字認識装置を用い文字コードへ変換した
ものでも良いし、キーボードを用いテキストデータを直
接入力するものでも良い。つぎに、入力されたテキスト
データの圧縮を行う前処理としてテキスト解析部102
にてテキストデータの解析を行う(S303)。テキス
ト解析部102での解析手法として、形態素解析を採用
し、テキストデータを自立語と接続詞等へ分解する。形
態素解析は、文書情報を解析し、それぞれ単語/述語/
接続詞等の文字列情報に区切る。さらに、予め単語が蓄
積されているテキスト解析辞書103を用い、各意味要
素(単語)のデータ列に分解しても良い。また、形態素
解析を用いる代わりに、テキストデータとテキスト解析
辞書103との文字列マッチングを行い、テキスト解析
辞書103に登録されている単語のみをテキストデータ
より抽出しても良い。この場合、文字列マッチングを行
った結果、多重照合が生じたときには、テキスト解析辞
書103に登録されている最長の単語で区切るようにし
てもよい。
【0037】上記解析/抽出された単語および付属語等
の文字データ列は、出現語登録辞書104に登録され
る。出現語登録辞書104には、これまで入力されたテ
キストデータより解析/抽出された単語および付属語等
文字データ列が登録され、合わせて文字データ列の出現
頻度が計数されて登録される。これは、まず、文字列登
録手段が、テキストデータより解析/抽出された文字デ
ータ列が、出現語登録辞書104に既に登録されている
か判定する(S304)。この時、文字データ列が辞書
に登録されていない場合、その文字データ列(単語)を
出現語登録辞書104に登録する(S306)。反対に
文字データ列が既に登録済みの場合、その文字データ列
の頻度情報に1を加える(S305)。
【0038】上記出現語登録辞書104に登録された文
字データ列は、文字列登録手段により、順次コード変換
辞書105にも登録される。コード変換辞書105で
は、テキストデータより解析/抽出された文字データ列
とその圧縮コードを対にして登録し、1つの文字データ
列に対し1つの圧縮コードを与える。コード変換辞書1
05には、あらかじめ圧縮コードのみを登録しておき、
文字列登録手段により、順次文字データ列を登録する。
【0039】さらに、テキスト圧縮部106では、前記
コード変換辞書105を用い、テキストデータの単語
(文字データ列)を順次圧縮コードに置き換えることに
よりテキストデータの圧縮を行い(S311)、圧縮さ
れたテキストデータは圧縮テキストファイル108に登
録される(S312)。
【0040】圧縮コード登録領域が無限に存在する場
合、コード登録領域を順次増加させる場合、もしくは、
圧縮コード登録領域が飽和状態にないとき、上記圧縮手
法は有効である。しかしながら、圧縮コード登録領域が
限られている場合、コード変換辞書105は飽和し、テ
キストデータより抽出された単語(文字データ列)は登
録不能となる。コード変換辞書105の登録領域が有限
である場合には、つぎに記述する4つの手法を用いるこ
とができる。
【0041】(1)テキストデータより解析/抽出され
た文字データ列に対し圧縮コードの割当てが可能な限り
コード変換辞書105に登録を行い、圧縮コード登録領
域が飽和した時点で、最適な圧縮率が得られるようにコ
ード変換辞書に登録した単語(文字データ列)を変更す
る(S307)。すなわち、入力されたテキストデータ
より解析/抽出された単語(文字データ列)とその出現
頻度とは、全て出現語登録辞書104に登録されてお
り、上記単語の文字列長と出現頻度情報より、圧縮語判
別部107は、各単語(文字データ列)の圧縮効果を演
算し、圧縮貢献度(コード変換辞書登録優先度)を判断
する。圧縮語判別部は、文書情報の全ての文字列情報の
圧縮効果から、文書情報の文字列情報に対し、最適な圧
縮率の得られる圧縮コードを適応的に決定し、前記文字
列登録手段は、前記圧縮語判別部の最適な圧縮コードと
文字列情報とを登録する。これにより、文字列登録手段
は、コード変換辞書105に登録した単語(文字データ
列)を最適な圧縮率の得られる単語に入れ替える(S3
08)。すなわち、圧縮コード登録領域が無くなった場
合には、より圧縮率が大きい単語に圧縮コードを割り当
てるようにし、既にコード変換辞書105に登録されて
いる圧縮率の小さい単語には圧縮コードを割り当てない
ように入れ替える。上記手法において、コード変換辞書
105の単語(文字データ列)を入れ替える場合、これ
まで圧縮され圧縮テキストファイル108に登録されて
いるテキストデータは、コード変換辞書105が変更さ
れるので原文書に伸長できなくなる。よって、コード変
換辞書105を変更する場合、これまで登録した圧縮テ
キストデータに対し、全て再圧縮処理を行うこととする
(S309)。S309における処理は、まず、圧縮テ
キストファイル108より圧縮テキストデータを取りだ
す。つぎに、テキスト伸長部109にて、コード変換辞
書105の登録単語(文字データ列)が変更されたもの
について、圧縮コードを原文書文字データ列に伸長す
る。つぎに、圧縮テキストファイル108より取り出し
一部伸長処理を施した、全ての圧縮テキストを再びテキ
スト圧縮部106にて圧縮処理する。この圧縮時には、
変更され最適化されたコード変換辞書105を用いる。
最後に、圧縮処理されたテキストデータを圧縮テキスト
ファイル108に登録する。もしくは、伸長処理の高速
化を計るために、出現語登録辞書104の登録単語(文
字データ列)にその単語が出現したファイル情報(ファ
イル名、ファイル番号、ファイルのインデックス等)を
付加しておき、単語が出現したファイルのみ伸長処理を
行うことも可能である。コード変換辞書105の変更処
理および登録テキストデータ再圧縮処理は、文書テキス
トデータを入力する毎に行うことができる。また、ある
一定のテキストデータ登録後に行うことも可能である。
また、全てのテキストデータ登録を終了した時点で、行
うことも可能である。これらは、文字列登録手段および
圧縮語判別部107に処理方法をあらかじめ定義してお
くか、もしくは、文字列登録手段は、コード変換辞書1
05の圧縮コード登録領域が飽和したかしないかを監視
し、圧縮コード登録領域が飽和したことを検知し、飽和
時には、どのように対応するかの選択指示を受け付けて
処理するようにしてもよい。
【0042】(2)テキストデータより解析/抽出され
た単語(文字データ列)に対し、圧縮コードの割当てが
可能な限りコード変換辞書105に登録を行い、圧縮コ
ードが飽和した時点でコード変換辞書105への登録を
終了する。すなわち、文字列登録手段は、コード変換辞
書105の圧縮コード登録領域が飽和したかしないかを
監視し、圧縮コード登録領域が飽和したことを検知し、
飽和時には、コード変換辞書105への新たな登録を終
了する。辞書が飽和した後は、入力されるテキストデー
タのうち、コード変換辞書105に登録された単語(文
字データ列)のみ圧縮コードに変換され、既に登録され
ていない単語は圧縮しないでそのまま格納する。この場
合、圧縮語判別部107は必要ない。また、前記単語
(文字データ列)を直接コード変換辞書に登録する構成
も可能で、この場合出現語登録辞書104についても省
略可能である。
【0043】(3)テキストデータより解析/抽出され
た単語(文字データ列)に対し、圧縮コードの割当てが
可能な限りコード変換辞書105に登録を行い、圧縮コ
ードが飽和した時点で、コード変換辞書をクリアし、新
たなコード変換辞書を作成し、単語(文字データ列)を
登録していく。すなわち、文字列登録手段は、コード変
換辞書105の圧縮コード登録領域が飽和したかしない
かを監視し、圧縮コード登録領域が飽和したことを検知
し、飽和時には、飽和したコード変換辞書を蓄積してお
き、新たにコード変換辞書を作成する。この場合、複数
個のコード変換辞書が生じる。飽和したコード変換辞書
は、圧縮テキストとともに圧縮テキストファイル108
ヘ登録するか、コード変換辞書ファイル111ヘ登録す
る。圧縮テキストファイル108へ登録されたテキスト
データには、どのコード変換辞書にて圧縮されたものか
明らかにする為にコード変換辞書の識別情報(例えば辞
書のシリアルナンバー)を加えておく。また、コード変
換辞書の識別情報を登録する際にも、該コード変換辞書
の識別情報を付加しておく。
【0044】テキストデータ出力時には、テキスト伸長
部109は、テキスト圧縮時と同じコード変換辞書を用
いて、圧縮テキストの伸長処理を行う。すなわち、伸長
時には、テキストデータに付加されているコード変換辞
書の識別情報を判別し、圧縮時と同じコード変換辞書を
用いて伸長する。この場合、圧縮語判別部107は必要
ない。また、前記単語(文字データ列)を直接コード変
換辞書に登録する構成も可能で、この場合出現語登録辞
書104についても省略可能である。
【0045】(4)上記(1)および(3)に示す方法
をを組合せ、(1)に示した圧縮率最適辞書を複数個所
有する構成も可能である。この場合、ある定まったテキ
スト容量にてコード変換辞書を入れ替える構成も可能で
あるし、対象とするテキストの種類(英文/日本文、テ
キストのジャンル等)によってコード変換辞書を入れ替
える構成も可能である。複数個の辞書は、(3)で示し
た通りコード変換辞書ファイル111あるいは圧縮テキ
ストファイル108に登録しておく。また、圧縮したテ
キストデータには圧縮変換を行ったコード変換辞書の識
別情報(シリアルナンバー等)を付加しておく。
【0046】コード変換辞書105への文字列登録手段
として、上記テキスト解析部にて解析/抽出された文字
データ列をすべて登録するのではなく、圧縮度を考慮
し、登録する手法も可能である。入力されたテキストデ
ータより解析/抽出された単語(文字データ列)とその
出現頻度とは、全て出現語登録辞書104に登録されて
いる。上記単語の文字列長と出現頻度情報より、圧縮語
判別部107では各単語(文字データ列)の圧縮貢献度
を演算する。この演算結果を用い、あらかじめ定めた水
準以上の圧縮効果の得られる文字データ列のみコード変
換辞書に登録していく。この時、過去に登録されたテキ
ストデータについては、新たに登録された文字データ列
に関する圧縮コード変換が為されていないので、再圧縮
処理を行うこととする。登録テキストデータ再圧縮処理
は、文書テキストデータを入力する毎に行うことも可能
であり、ある一定のテキストデータ登録後に行うことも
可能であり、また全てのテキストデータ登録を終了した
時点で行うことも可能である。
【0047】また、コード変換辞書105において、入
力されたテキストデータより解析/抽出された単語(文
字データ列)を全て登録する構成の代わりに、一部を単
語(文字データ列)抽出を利用した辞書登録型テキスト
圧縮構成とすることも可能である。このようなコード変
換辞書構成の場合、入力されたテキストデータより解析
/抽出された単語(文字データ列)全ては登録しない
で、特定の抽出単語のみを登録する。特定の抽出単語以
外の単語は、コード変換辞書との文字列照合を用い、コ
ード変換辞書に登録しない手法を取る。例えば、日本語
テキストデータを入力する場合、文書解析の簡略化/高
速化を計り、カタカナ語、英単語(英文字列)のみを抽
出しておき、文字列登録手段が、カタカナ語、英単語
(英文字列)のみをコード変換辞書に登録し、それ以外
は登録しないようにする。
【0048】また、コード変換辞書の一部に、あらかじ
め定まった単語(文字データ列)を登録しておき、一部
をコード変換辞書との文字列照合を利用したテキスト圧
縮構成とすることも可能である。このようなコード変換
辞書構成の場合、入力されたテキストデータより解析/
抽出された単語(文字データ列)を全て登録せずに、コ
ード変換辞書に登録できる文字列を文字列テーブルとし
て予め有しておき、文字列登録手段は、入力された文書
情報の文字列情報が、文字列テーブルの文字列情報に一
致するか否かを判別し、一致する文字列情報のみをコー
ド変換辞書に登録することができる。一致しない文字列
は、コード変換辞書との文字列照合のみを用い、コード
変換辞書に登録しない手法を取る。例えば、日本語テキ
ストデータを入力する場合、カタカナ語、英単語(英文
字列)のみを文字列テーブルに格納しておき、文字列登
録手段が、文字列情報が文字列テーブルの文字列情報と
一致するか否かを判別し、一致するカタカナ語、英単語
(英文字列)のみをコード変換辞書に登録する。さら
に、この場合、コード変換辞書に日本語テキストデータ
の文字列情報を登録しておき、カタカナ語および英単語
(英文字列)のみを文字列テーブルを用意してもよい。
【0049】カタカナおよび英単語(英文字列)の文字
列抽出/コード変換辞書への登録手法として、テキスト
解析辞書103との文字列マッチングを用いずに、文字
種類の変化する点(ひらがな/漢字等からカタカナ文字
列および英文字へ文字種類が変化する点、また、カタカ
ナ文字列および英文字からひらがな/漢字等へ文字種類
が変化する点、英単語ではスペースも文字種類の変化に
含む)を用い、この点を単語の区切りと判断し、カタカ
ナおよび英単語(英文字列)を抽出し、コード変換辞書
に登録することも可能である。本手法を用いる場合、上
記カタカナ語、英単語(英文字列)のみをコード変換辞
書に登録する手法として、文字種類の区切りを用いて抽
出した単語をコード変換辞書に順次登録する。この時、
コード変換辞書への登録するカタカナ語、英単語(英文
字列)を予め定める必要はなく、文字列テーブルは不要
となる。
【0050】テキスト解析部102において、テキスト
解析辞書103との文字列マッチングのみを用いて単語
(文字コード列)を抽出する手法を用いるとき、解析/
抽出される文字データ列はすべてテキスト解析辞書10
3に存在することを利用し、テキスト解析辞書103に
単語(文字コード列)出現頻度を登録していく手法も可
能である。この時、テキスト解析辞書103は、出現語
登録辞書104の機能も合わせ持つものとなり、出現語
登録辞書104は不必要となる。
【0051】図2(b)に、本発明によるテキストデー
タ読み出し時の機能ブロック図を示す。また、図4に本
発明によるテキストデータ読み出し時のフローチャート
(PAD)を示す。
【0052】まず、検索情報入力部112より目的のテ
キストデータについて検索情報を入力する(S40
1)。検索情報としては、文書の識別子情報(ファイル
名、ファイル番号、ファイル容量、ファイルのインデッ
クス、これらの個々あるいは組合せ)を用いる手法、テ
キストデータ中のキーワードを指定し、これを検索する
手法などがある。また、検索情報の入力手法として、キ
ーボードを用いるものでも良いし、他の情報機器よりネ
ットワークもしくは各種インタフェースを介して読み込
むものでも良いし、スキャナ等画像入力装置を用い入力
した画像データをOCR等文字認識装置を用いて文字コ
ードへと変換後入力するものでも良い。つぎに、入力さ
れたテキストデータ検索情報に従って、テキスト検索部
113は、圧縮テキストファイル108に蓄積されたテ
キストデータの検索をし、目的とするテキストデータが
取り出される(S402)。取り出された圧縮テキスト
データは、テキスト伸長部109に転送される。テキス
ト伸長部109ではテキスト圧縮時に使用したものと同
じコード変換辞書105を用い、転送された圧縮テキス
トデータを元テキストデータへ伸長する(S403)。
伸長処理を施されたテキストデータは、テキスト出力部
110にて検索者(ユーザ)が目的とする形で出力され
る(S404)。出力手法として具体的には、CRTデ
ィスプレイに表示する構成、プリンタを用い紙面に印字
する構成、他の情報機器へネットワークもしくは各種イ
ンタフェースを介して転送する構成などがある。
【0053】つぎに、上記圧縮語判別部107における
圧縮貢献度について図5を参照して説明する。図5に圧
縮語判別部107にて演算される圧縮貢献度の演算例を
示す。図5において、文字データ列と出現頻度とは、出
現語登録辞書104に対の形式で登録されている。この
例では、「文書」の出現頻度が3、「情報」の出現頻度
が5、「テキスト」が1、「データ」が3、「インフォ
メーション」が1、「圧縮」が4と各々登録されてい
る。この出現語登録辞書104の内容を用い、圧縮語判
別部107にて演算される圧縮貢献度を(A)および
(B)の2例について示す。
【0054】例(A)は、文字データ列のデータ長(文
字列長さ)と出現頻度との単純な積で圧縮貢献度を演算
し、この積が大きい文字データ列ほど圧縮貢献度が高く
なるものである。例えば、「文書」は、データ長が2、
出現頻度が3であり、圧縮貢献度は6となる。「インフ
ォメーション」は、出現頻度は1であるが、データ長が
9であり、結果として圧縮貢献度は9となり、前記「文
書」より圧縮貢献度は大きくなる。
【0055】これに対し、例(B)では、文字データ列
のデータ長(文字列長さ)と”出現頻度−1”との積を
求めることにより圧縮貢献度を演算する。この演算は、
コード変換辞書105の内容を圧縮テキストと共に圧縮
テキストファイル108に登録することを考慮したもの
である。コード変換辞書105は、原テキストの文字デ
ータコード列とそれに対応する圧縮コードを対にして蓄
積する。このコード変換辞書105のデータを圧縮テキ
ストデータと共に圧縮テキストファイル108へ登録す
る場合、コード変換辞書105に現テキストの文字デー
タコード列が登録されているので、圧縮テキストファイ
ル108には、圧縮コードに対応した原テキストの文字
データコード列の全てが1度は必ず(コード変換辞書1
05の内容として)含まれることになる。よってこの場
合、1度目の圧縮コード変換は、ファイル容量(圧縮テ
キストデータ+コード変換辞書データ)の削減にはつな
がらない。例えば、例(B)では「テキスト」「インフ
ォメーション」は出現頻度1であるので、圧縮データに
変換してもコード変換辞書データには原文字データ列が
含まれるので、ファイル容量の削減(圧縮)には貢献し
ないこととなる。「文書」はデータ長が2、出現頻度が
3であるので、圧縮貢献度は2×(3−1)で4と演算
される。
【0056】さらに、圧縮語判別部107にて演算され
る圧縮貢献度は、出現語登録辞書104に、文字データ
列、出現頻度と共に登録することも可能である。
【0057】以上のように、例(A)および例(B)に
示すような圧縮貢献度を圧縮語判別部107が演算する
ことにより、より圧縮貢献度の大きい文字データ列を圧
縮することができる。
【0058】つぎに、テキストデータの解析から登録ま
での動作を図6に示す具体例を用いて説明する。図6に
テキスト解析およびテキスト圧縮についての一実施例を
示す。 図6(a)は、原文書テキストの一部を示して
いる。ここでは、「すなわち文書情報検索装置のブロッ
ク図は」なるテキストを考慮する。図6(b)は、原文
書テキストを解析して単語ごとに区切って展開した結果
を示す。図6(c)は、単語ごとに圧縮コードが割り当
てられた結果を示す。
【0059】まず、入力されたテキストは、テキスト解
析部102にて各単語要素に分解される。解析手法とし
て形態素解析を用いる場合、前記テキストデータより
「すなわち」→接続詞、「文書」→名詞、「情報」→名
詞、「検索」→名詞、「装置」→名詞、「の」→助詞、
「ブロック」→名詞、「図」→名詞、「は」→助詞とし
て意味最小単位の単語(文字データ列)に分解される。
抽出された各単語(文字コード列)は、出現語登録辞書
104あるいはコード変換辞書105に登録される。ま
た、解析手法としてテキスト解析辞書103との文字列
マッチングを用いる一例を説明する。まず、前記テキス
トデータを入力する。テキスト解析部102では、入力
されたテキストデータとテキスト解析辞書103に登録
されている単語(文字コード列)とを前方より一文字ず
つ文字列照合を行う。文字列照合の結果、テキスト解析
辞書103に登録されている単語(文字コード列)とマ
ッチングした単語をテキストデータより抽出し、出現語
登録辞書104あるいはコード変換辞書105に登録す
る。本例では、「すなわち」「文書」「情報」「検索」
「装置」「の」「ブロック」「図」「は」の単語が、全
てテキスト解析辞書103に登録されていたものとす
る。もし、「ブロック」がテキスト解析辞書103に登
録されていない場合、「ブロック」は抽出されず「ブ」
「ロ」「ッ」「ク」の各文字コードに展開される。ま
た、入力されたテキストデータが、テキスト解析辞書1
03に登録されている単語(文字コード列)と多重に照
合した場合、前方より照合を始めたものを優先とし、よ
り長い単語(文字コード列)を抽出するものとする。例
えば、本例で、「なわ」「すな」がテキスト解析辞書1
03に登録されている場合「すなわち」と多重照合する
が、「すなわち」を優先し、これら「なわ」「すな」は
抽出しない。また、もし「書情報」なる単語が登録され
ていても、「文書」が優先するので、これを抽出しない
ものとする。多重照合に対する処理として、この手法以
外に出現位置に関与されず単語(文字コード列)の長い
ものを優先的に抽出し、圧縮率を改善する手法などが可
能である。
【0060】つぎに、抽出された単語(文字コード列)
の圧縮コード変換をテキスト圧縮部106にて行う。原
文書テキストでは、1つの文字に対して1つのコードが
与えられている。例えば、テキストコードとして一般に
用いられるシフトJISコードでは、1つの文字に対し
16ビットコードが1つずつ与えられている。先の例で
は、16ビットコードが19個必要となる。そこで、抽
出された単語(文字コード列)に新たに16ビットの圧
縮コードを割り振ることにより、文書テキストの圧縮を
行う。本例では、図6(b)の如く「すなわち」→(01A
B)、「文書」→(2153)、「ブロック」→(0A3B)等各単語
に16ビットコードを割り当てるものとする。コード変
換辞書104には、上記原文書の単語コード(例えば
「ブロック」の文字コード)と変換語の圧縮文字コード
(例えば「0A3B」)とを対にして登録しておく。ただ
し、各文字のコード情報は、圧縮テキスト変換後もサポ
ートするものとする。上記実施例では、「の」「図」
「は」がこれにあたる。これら手法を用い、図6(b)
テキストデータは、テキストデータ圧縮部103により
圧縮テキストデータ図6(c)に変換され、テキストデ
ータファイル106にファイリングされる。上記実施例
では、圧縮変換結果として16ビットコード9個のテキ
ストが得られ、圧縮率として50%以上の圧縮効果が得
られている。上記圧縮手法を用いることにより、上記実
施例ではテキスト容量を約1/2に削減し、ディスク等
蓄積媒体からの読み出し時間を半分にすることが可能と
なる。
【0061】図7に本発明が適応される装置のシステム
構成図についての一例を示す。
【0062】図7において、701は、CPU(中央演
算処理装置)であり、テキスト/イメージデータ、キー
ワードおよび検索条件式、文書識別子情報等に各種処理
を行う。702は、画像入力装置であり、テキスト入力
部101の1つとしてイメージデータを紙面等より取り
込む。703は、文字認識装置であり、取り込んだイメ
ージデータより文字成分のみ抽出/認識しテキストデー
タに変換を行う。704は、ネットワーク/ホストコン
ピュータ接続装置であり、テキスト入力部101の1つ
として、各種外部機器よりネットワークを介してテキス
ト/イメージデータを取り込む。入力装置として、画像
入力装置702と、文字認識装置703とを備えること
ができる。705は、文字列照合プロセッサであり、テ
キスト解析部102における文字列照合を行い、オート
マトンその他文字照合アルゴリズムを用い文字列照合動
作を高速に処理する。706は、テキスト解析辞書であ
り、テキストデータ入力時にテキストデータを解析し各
単語要素に分解する目的に利用する。707は、出現語
登録辞書であり、テキストデータより解析/抽出された
単語(文字データ列)とその出現頻度とを登録してお
く。708は、コード変換辞書であり、原文書の文字コ
ード列と圧縮変換後の圧縮コードを対にして蓄積する。
709は、コード変換辞書ファイルであり、コード変換
辞書708の内容を退避/保持する。710は、記憶装
置の圧縮テキストファイルであり、圧縮変換を行った圧
縮テキストデータを蓄積する。711は、キーボードな
どの入力手段であり、検索情報入力部112やテキスト
入力部101として、検索時にキーワードの入力を受付
け、あるいは、テキストデータの入力を受け付ける。7
12は、CRTなどの出力手段であり、検索結果を表示
出力する。713は、CRT制御回路であり、CRT7
12を制御する。714は、プリンタなどの出力手段で
あり、検索結果を紙面に打ち出す。715は、プリンタ
制御回路であり、プリンタ714を制御する。CRT7
12およびプリンタ714は、出力装置として検索結果
を出力することができる。
【0063】図7において、まず、テキストデータ登録
時には、ネットワーク/ホストコンピュータ接続装置7
04を介し、テキストデータがCPU701に入力され
る。あるいは、画像入力装置702より入力されたイメ
ージデータについて、文字認識装置703を用い認識/
変換されたテキストデータがCPU701に入力され
る。もしくは、キーボード711を用い、直接テキスト
データがCPU701に入力される。入力されたテキス
トデータは、CPU701にて、解析され単語(文字デ
ータ列)が抽出される。単語の抽出手法としては、テキ
スト解析辞書706および文字列照合プロセッサ705
を用い、CPU701にて形態素解析を行う手法でもよ
いし、あるいは、テキスト解析辞書706および文字列
照合プロセッサ705を用い、テキスト解析辞書706
に登録された単語(文字データ列)のみ抽出する手法で
もよい。抽出された単語(文字データ列)とその出現頻
度とは、出現語登録辞書707に登録され、CPU70
1にて前記単語(文字データ列)の出現頻度とデータ長
より圧縮貢献度が演算される。さらに、CPU701に
て、圧縮語の登録アルゴリズムに従い、出現語登録辞書
707の単語(文字データ列)全て、あるいは、その一
部がコード変換辞書708に登録される。入力されたテ
キストデータは、文字列照合プロセッサ705にてコー
ド変換辞書708に登録されている単語との文字列照合
が行われ、この照合結果を用いCPU701にて圧縮処
理が行われる。圧縮されたテキストデータは圧縮テキス
トファイル710に蓄積される。
【0064】つぎに、テキストデータ検索時には、キー
ボード711より、あるいは、ネットワーク/ホストコ
ンピュータよりネットワーク/ホストコンピュータ接続
装置704を介して、あるいは、画像入力装置702と
文字認識装置703を介して、まず目的のテキストデー
タについての検索情報がCPU701に入力される。つ
ぎに、入力されたテキストデータ検索情報に従って、C
PU701は、圧縮テキストファイル710に蓄積され
たテキストデータの検索を行い、目的とするテキストデ
ータを取り出す。圧縮テキストファイル710より取り
出された圧縮テキストデータは、CPU701にてコー
ド変換辞書708に従い、圧縮コードを原テキストコー
ド列に展開され、伸長処理される。伸長/復元されたテ
キストデータは、CRT制御回路713を介してCRT
712に表示される。あるいは、プリンタ制御回路71
5を介してプリンタ714より紙面に印字され、あるい
は、ネットワーク/ホストコンピュータ接続装置704
を介して外部情報機器へ出力される。
【0065】上記システム構成図において、文字列照合
に速度あるいは高度な機能が必要とされない場合、文字
列照合はCPU701が行い、文字列照合プロセッサ7
05を削除することが可能である。また、文字認識に速
度あるいは高度な機能が必要とされない場合、文字認識
をCPU701が行い、文字認識装置703を削除する
ことも可能である。また、テキストデータ入力を画像入
力装置702および文字認識装置703より行う場合、
文字認識装置703にて辞書マッチングを用いることを
考慮し、テキスト解析辞書706を文字認識装置703
に組み込み文字認識処理にテキスト解析処理を含める構
成も可能である。
【0066】本実施例によれば、文書テキスト情報登録
時において、テキストコードを圧縮処理し、テキストデ
ータファイル中に保存するので、原文テキストの情報を
落すこと無く膨大なテキストデータを削減することがで
きる。また、本実施例によれば、文書テキスト情報検索
時において、圧縮処理されたテキストデータを読みだす
ので、テキスト蓄積手段よりディスクリードを行うため
に必要となる処理時間を短縮できる。
【0067】また、本実施例によれば、文字データ列を
1つのコードに置き換えることによりテキストコードを
圧縮する手法において、テキスト解析手法を用い入力さ
れた文書を単語/付属語等文字データ列に分解し、抽出
した文字データ列に圧縮コードを1対1に割り当てるこ
とにより、入力された文書に適応した圧縮コードを生成
することができる。さらに、本実施例によれば、圧縮コ
ードの領域(圧縮コードの個数)が制限されている場合
において、文字データ列の出現頻度とデータ長とを考慮
し、圧縮する文字データ列を決定することにより、最適
な圧縮率の得られるコード変換を構成することができ
る。特に、膨大な文書テキストを蓄積/検索する必要が
生じる使用法において、本方式の効果は顕著である。
【0068】
【発明の効果】本発明によれば、テキストデータの蓄積
容量を削減し、効率的な圧縮コードが得られる文書情報
圧縮装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す構成図。
【図2】本発明の機能ブロック図。
【図3】テキストデータ登録時のフローチャート。
【図4】テキストデータ読み出し時のフローチャート。
【図5】圧縮貢献度の演算例。
【図6】テキスト解析及びテキスト圧縮の一実施例。
【図7】本発明の一実施例を示すシステム構成図。
【符号の説明】
101……テキスト入力部、102……テキスト解析
部、103……テキスト解析辞書、104……出現語登
録辞書、105……コード変換辞書、106……テキス
ト圧縮部、107……圧縮語判別部、108……圧縮テ
キストファイル、109……テキスト伸長部、110…
…テキスト出力部、111……コード変換辞書ファイ
ル、112……検索情報入力部、113……テキスト検
索部、114……データバス。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤縄 雅章 神奈川県小田原市国府津2880番地 株式会 社日立製作所小田原工場内

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】文書情報を入力する入力部と、入力された
    文書情報を文字列情報に区切るテキスト解析部と、文字
    列情報と圧縮コードとの対を蓄積するコード変換辞書
    と、コード変換辞書に登録されていない文字列情報を検
    出し、登録されていない文字列情報をコード変換辞書に
    登録して文字列情報を圧縮コードに対して割り当てる文
    字列登録手段と、コード変換辞書を参照して文字列情報
    を対応する圧縮コードに変換するテキスト圧縮部と、圧
    縮された文字列情報の圧縮テキストを格納する圧縮テキ
    スト格納手段とを有することを特徴とする文書情報圧縮
    装置。
  2. 【請求項2】請求項1において、入力された文書情報の
    文字列情報の出現頻度を示す出現頻度情報を記録する出
    現語登録辞書と、前記文字列情報の出現頻度情報および
    コード長を用いて各々の文字列情報に対する圧縮効果を
    算出する圧縮語判別部とをさらに有し、 前記圧縮語判別部は、文書情報の文字列情報の圧縮効果
    から、文書情報の文字列情報に対し、最適な圧縮効果の
    得られる文字列情報を決定し、 前記文字列登録手段は、前記圧縮語判別部からの文字列
    情報をコード変換辞書に登録することを特徴とする文書
    情報圧縮装置。
  3. 【請求項3】請求項1において、前記文字列登録手段
    は、前記コード変換辞書の圧縮コード登録領域が有限の
    場合、文字列情報に順次圧縮コードを割り当てて、圧縮
    コード登録領域がなくなったことを検知し、圧縮コード
    の割り当てを終了し、 前記テキスト圧縮部は、圧縮コードの割り当て終了後
    は、既に前記コード変換辞書に登録されている文字列情
    報を圧縮コードに変換し、登録されていない文字列情報
    は、圧縮変換しないで圧縮テキスト格納手段に格納させ
    ることを特徴とする文書情報圧縮装置。
  4. 【請求項4】請求項1において、前記文字列登録手段
    は、前記コード変換辞書の圧縮コード登録領域が有限の
    場合、文字列情報に順次圧縮コードを割り当てて、圧縮
    コード登録領域がなくなったことを検知し、割り当てる
    圧縮コード登録領域がなくなった時点で、前記コード変
    換辞書中の内容と該コード変換辞書の識別情報とを蓄積
    し、前記コード変換辞書の識別情報を圧縮テキストとと
    もに前記圧縮テキスト格納手段に格納し、新たにコード
    変換辞書を作成して文字列情報をコード変換辞書に登録
    することを特徴とする文書情報圧縮装置。
  5. 【請求項5】請求項4において、圧縮テキストを伸長し
    て出力するテキスト伸長部をさらに有し、前記テキスト
    伸長部は、文書情報読み出し時に、テキスト圧縮時と同
    じコード変換辞書を用いて圧縮テキストの伸長処理を行
    うことを特徴とする文書情報圧縮装置。
  6. 【請求項6】請求項4において、コード変換辞書中の内
    容と該コード変換辞書の識別情報との蓄積は、圧縮テキ
    ストとともに前記圧縮テキスト格納手段に蓄積すること
    を特徴とする文書情報圧縮装置。
  7. 【請求項7】請求項4において、複数のコード変換辞書
    を蓄積するコード変換辞書ファイルをさらに有し、 コード変換辞書中の内容と該コード変換辞書の識別情報
    との蓄積は、該コード変換辞書ファイルに蓄積すること
    を特徴とする文書情報圧縮装置。
  8. 【請求項8】請求項2において、前記文字列登録手段
    は、前記コード変換辞書の圧縮コード登録領域が有限の
    場合、文字列情報に順次圧縮コードを割り当て、圧縮コ
    ード登録領域がなくなったことを検知し、 前記圧縮語判別部は、割り当てる圧縮コード登録領域が
    なくなった時点で、圧縮効果に従い、最適な圧縮効果の
    得られる文字列情報を、圧縮効果の低い文字列情報と置
    換して圧縮コードを割当てることを特徴とする文書情報
    圧縮装置。
  9. 【請求項9】請求項8において、前記圧縮判別部は、圧
    縮テキスト格納手段の前記圧縮テキストを読みだして圧
    縮効果の低い文字列情報の圧縮コードを伸長し、圧縮テ
    キスト格納手段に格納することを特徴とする文書情報圧
    縮装置。
  10. 【請求項10】請求項1において、予め特定の文字列情
    報を格納した文字列テーブルをさらに有し、 前記文字列登録手段は、前記コード変換辞書に登録され
    ていない文字列情報が、文字列テーブルの文字列情報に
    一致するか否かを判別し、一致する文字列情報をコード
    変換辞書に登録することを特徴とする文書情報圧縮装
    置。
  11. 【請求項11】請求項1において、テキスト解析部は、
    文書情報を文字列情報に区切るテキスト解析手法とし
    て、形態素解析処理を用いることを特徴とする文書情報
    圧縮装置。
  12. 【請求項12】請求項1において、入力された文書情報
    を文字列情報に区切るための文字列情報を予め蓄積して
    おくテキスト解析辞書をさらに有し、 前記テキスト解析部は、文書情報を文字列情報に区切る
    テキスト解析手法として、前記テキスト解析辞書との文
    字列マッチングをすることを特徴とする文書情報圧縮装
    置。
  13. 【請求項13】請求項12において、前記テキスト解析
    辞書との文字列マッチングにて多重照合が生じた場合
    は、前記テキスト解析辞書に登録された最長の文字列情
    報で区切ることを特徴とする文書情報圧縮装置。
  14. 【請求項14】請求項2において、前記圧縮語判別部
    は、文書情報の文字列情報の圧縮効果から、予め定めた
    圧縮効果以上の圧縮効果が得られる文字列情報に対して
    圧縮コードを割り当てることを特徴とする文書情報圧縮
    装置。
  15. 【請求項15】請求項1において、コード変換辞書を圧
    縮テキストデータと共に圧縮テキスト格納手段に格納す
    ることを特徴とする文書情報圧縮装置。
  16. 【請求項16】複数の文書情報を入力して記録し、記録
    された文書情報を検索して出力する文書情報検索システ
    ムの文書情報登録方法において、 入力された文書情報を単語に区切り、該単語が圧縮コー
    ドを割り当てられた単語であるかないかを検出し、割り
    当てられていない場合には、単語に圧縮コードを割り当
    てて、該単語を割り当てられた圧縮コードに変換して圧
    縮テキストを記録し、出力時には、圧縮コードに対応す
    る単語を用いて圧縮テキストを伸長して出力することを
    特徴とする文書情報登録方法。
  17. 【請求項17】文書情報を入力する入力装置と、情報を
    処理する中央演算処理部と、処理結果を出力する出力装
    置と、文書情報を記憶する記憶装置とを有する情報処理
    システムにおいて、 文字列情報と圧縮コードとの対を蓄積するコード変換辞
    書を有し、 前記中央演算処理部は、前記入力装置で入力された文書
    情報を文字列情報に区切り、該文字列情報が前記コード
    変換辞書に蓄積されている文字列情報か否かを検出し、
    蓄積されていない場合には、文字列情報に圧縮コードを
    割り当てて、前記コード変換辞書に蓄積し、文字列情報
    を割り当てられた圧縮コードに変換し、前記記憶装置に
    圧縮した文書情報を記憶させることを特徴とする情報処
    理システム。
  18. 【請求項18】請求項17において、前記入力装置は、
    画像情報を入力する画像情報入力部と、前記画像情報か
    ら文字情報を認識する文字認識部とを備えることを特徴
    とする情報処理システム。
  19. 【請求項19】請求項17または18において、文書情
    報を検索するためのキー情報の入力を受け付けるキー入
    力手段をさらに有することを特徴とする情報処理システ
    ム。
JP4135341A 1992-05-27 1992-05-27 文書情報圧縮装置 Pending JPH05324427A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4135341A JPH05324427A (ja) 1992-05-27 1992-05-27 文書情報圧縮装置
US08/068,658 US5590317A (en) 1992-05-27 1993-05-27 Document information compression and retrieval system and document information registration and retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4135341A JPH05324427A (ja) 1992-05-27 1992-05-27 文書情報圧縮装置

Publications (1)

Publication Number Publication Date
JPH05324427A true JPH05324427A (ja) 1993-12-07

Family

ID=15149512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4135341A Pending JPH05324427A (ja) 1992-05-27 1992-05-27 文書情報圧縮装置

Country Status (1)

Country Link
JP (1) JPH05324427A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510251A (ja) * 2000-09-27 2004-04-02 アイゼル テクノロジーズ インコーポレイテッド 電子ドキュメントの構成可能な変換方法
JP2007034430A (ja) * 2005-07-22 2007-02-08 Fuji Xerox Co Ltd 翻訳装置、翻訳方法およびプログラム
JP2008084341A (ja) * 1999-06-21 2008-04-10 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
WO2010067897A1 (ja) * 2008-12-12 2010-06-17 日本電気株式会社 データ圧縮装置、データ圧縮方法、データ圧縮プログラム、および、圧縮データ通信システム
JP2014500536A (ja) * 2010-10-11 2014-01-09 イーストソフト コーポレーション クラウドシステム、クラウドシステムにおけるファイルの圧縮及び転送方法
WO2014147671A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム
JP2015032281A (ja) * 2013-08-07 2015-02-16 富士ゼロックス株式会社 文書管理装置及び文書管理プログラム
JP2016110587A (ja) * 2014-12-10 2016-06-20 富士通株式会社 圧縮プログラムおよび検索プログラム
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008084341A (ja) * 1999-06-21 2008-04-10 Fujitsu Ltd 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
JP2004510251A (ja) * 2000-09-27 2004-04-02 アイゼル テクノロジーズ インコーポレイテッド 電子ドキュメントの構成可能な変換方法
JP2007034430A (ja) * 2005-07-22 2007-02-08 Fuji Xerox Co Ltd 翻訳装置、翻訳方法およびプログラム
WO2010067897A1 (ja) * 2008-12-12 2010-06-17 日本電気株式会社 データ圧縮装置、データ圧縮方法、データ圧縮プログラム、および、圧縮データ通信システム
JP2014500536A (ja) * 2010-10-11 2014-01-09 イーストソフト コーポレーション クラウドシステム、クラウドシステムにおけるファイルの圧縮及び転送方法
US9509333B2 (en) 2013-03-22 2016-11-29 Fujitsu Limited Compression device, compression method, decompression device, decompression method, information processing system, and recording medium
WO2014147671A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム
JPWO2014147671A1 (ja) * 2013-03-22 2017-02-16 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム
JP2015032281A (ja) * 2013-08-07 2015-02-16 富士ゼロックス株式会社 文書管理装置及び文書管理プログラム
JP2016110587A (ja) * 2014-12-10 2016-06-20 富士通株式会社 圧縮プログラムおよび検索プログラム
US10311034B2 (en) 2014-12-10 2019-06-04 Fujitsu Limited Computer-readable recording medium
WO2017017738A1 (ja) * 2015-07-24 2017-02-02 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
JPWO2017017738A1 (ja) * 2015-07-24 2018-05-31 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
US10747946B2 (en) 2015-07-24 2020-08-18 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method

Similar Documents

Publication Publication Date Title
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
EP0510634B1 (en) Data base retrieval system
US5469354A (en) Document data processing method and apparatus for document retrieval
KR100721406B1 (ko) 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법
EP0293161B1 (en) Character processing system with spelling check function
JP2742115B2 (ja) 類似文書検索装置
EP0437615A1 (en) Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2833580B2 (ja) 全文インデックス作成装置および全文データベース検索装置
US20070239708A1 (en) Database Search Method Of Searching A Document Database For A Desired Document File
JPH05324427A (ja) 文書情報圧縮装置
JP3220865B2 (ja) フルテキストサーチ方法
JPH05324730A (ja) 文書情報検索装置
JP3303881B2 (ja) 文書検索方法および装置
KR102110523B1 (ko) 문서 분석 기반 주요 요소 추출 시스템 및 방법
US6470362B1 (en) Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
KR102520305B1 (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
CN1545665A (zh) 用于多分析器架构的预测串联算法
JP3489237B2 (ja) 文書検索方法
JPH07219957A (ja) 情報分類装置、情報検索装置及び情報収集装置
EP0501416B1 (en) Method and apparatus for registering text document data and for document retrieval
JP2560656B2 (ja) 文書ファイリングシステム
JPH06290021A (ja) ソースプログラム圧縮方法
JP3099683B2 (ja) 情報検索装置