JP3305191B2 - 文書管理装置及びデータ圧縮方法及びデータ復元方法 - Google Patents

文書管理装置及びデータ圧縮方法及びデータ復元方法

Info

Publication number
JP3305191B2
JP3305191B2 JP06357396A JP6357396A JP3305191B2 JP 3305191 B2 JP3305191 B2 JP 3305191B2 JP 06357396 A JP06357396 A JP 06357396A JP 6357396 A JP6357396 A JP 6357396A JP 3305191 B2 JP3305191 B2 JP 3305191B2
Authority
JP
Japan
Prior art keywords
data
character string
compressed
document
control character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06357396A
Other languages
English (en)
Other versions
JPH09261072A (ja
Inventor
君孝 村下
茂 吉田
佳之 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP06357396A priority Critical patent/JP3305191B2/ja
Priority to US08/787,537 priority patent/US5854597A/en
Priority to EP97300534A priority patent/EP0797158B1/en
Priority to DE69733443T priority patent/DE69733443T2/de
Priority to CNB971026440A priority patent/CN1168216C/zh
Publication of JPH09261072A publication Critical patent/JPH09261072A/ja
Application granted granted Critical
Publication of JP3305191B2 publication Critical patent/JP3305191B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書管理装置およ
びデータ圧縮方法およびデータ復元方法に関し、特に、
文書データを圧縮して管理する文書管理装置と、文書デ
ータなどを圧縮・復元する際に用いるデータ圧縮方法と
データ復元方法に関する。
【0002】
【従来の技術】近年、文字コード、ベクトル情報、画像
情報など様々な種類のデータがコンピュータで扱われる
ようになっている。また、扱われるデータ量も急激に増
大してきており、伝送時間を短縮するためや、記憶装置
を効率的に利用するために、データを圧縮することが行
われている。
【0003】たとえば、アーカイバと呼ばれるアプリケ
ーションでは、1つ以上のファイルから、1つの圧縮デ
ータファイルが作成される。アーカイバを用いて、使用
頻度の低いファイルや古いファイルなどを圧縮すること
によって、ファイル容量を削減することができる。そし
て、ファイルの内容を通信によって授受する際に、アー
カイバによって作成された圧縮データファイルを用いれ
ば、通信に要する時間が短縮され、通信コストも低減す
る。
【0004】また、ハードディスクやフロッピディスク
などのドライブを圧縮ドライブとして動作させることも
行われている。圧縮ドライブを有するシステムでは、ユ
ーザがファイルの書き込みを指示した場合、そのファイ
ルが自動的に圧縮されて圧縮ドライブ内に格納される。
そして、ユーザがファイルの読み出しを指示した場合に
は、圧縮ドライブ内のファイルが自動的に復元される。
【0005】なお、コンピュータシステムで扱われるデ
ータには、文字、機械語、画像、音声など様々なものが
あるので、上述のようなファイル圧縮の際には、各種の
データに適用可能な符号化方式であるユニバーサル符号
化方式が用いられている。具体的には、データ(文字)
の再現性を利用した辞書型符号化方式や、確率統計型符
号化方式に分類される算術符号化方式、Splay-Tree符号
化方式などが用いられている。
【0006】
【発明が解決しようとする課題】さて、圧縮されていな
いファイルに対しては、キーワード検索を行うことによ
り、その内容を確認することができる。たとえば、SG
ML(Standard Generalized Markup Language)形式によ
る文書データでは、文書データ中の特定の要素の前後
に、その要素の内容に応じたタグが使用されている。こ
のため、SGML形式の文書データでは、そのファイル
の中から目的とする情報に付けられているタグを検索
し、その後に記憶されている文字列を読み出してやれ
ば、必要な情報を得ることができる。
【0007】しかしながら、SGML形式の文書データ
を圧縮した場合、タグの検索が行えなくなってしまう。
このため、タイトルだけを確認したい場合にも、圧縮フ
ァイル全体を復元しなければならず、確認作業に時間が
かかっていた。
【0008】そこで、本発明の課題は、キーワード検索
が行える圧縮文書データを作成する文書管理装置を提供
することにある。また、本発明の他の課題は、キーワー
ド検索が行える圧縮データを作成するデータ圧縮方法
と、そのデータ圧縮方法によって作成された圧縮データ
を復元するデータ復元方法を提供することにある。
【0009】
【課題を解決するための手段】本発明の文書管理装置
は、幾つかの文書要素の前後に、それぞれ、その文書要
素の内容に応じた開始制御文字列と終了制御文字列が挿
入された文書データを対象とする。
【0010】本発明の第1の文書管理装置は、1個以上
の開始制御文字列と1個以上の終了制御文字列を記憶す
る制御文字列記憶手段と、入力された文字を符号化した
符号化データを出力する符号化手段と、入力文字列から
開始制御文字列及び終了制御文字列を検索する検索手段
と、検索手段によって開始制御文字列が検索されたとき
に、以降の入力文字列を符号化手段によって符号化した
符号化データを圧縮文書データの要素として出力する処
理を開始し、検索手段によって終了制御文字列が検索さ
れたときには、符号化手段による符号化を行わずに、以
降の入力文字列をそのまま圧縮文書データの要素として
出力する処理を開始する制御手段とを備える。
【0011】すなわち、第1の文書管理装置は、文書デ
ータに基づき、圧縮されていないデータと圧縮データと
が混在する圧縮文書データを作成する。従って、第1の
文書管理装置が作成する圧縮文書データは、復元しなく
とも、キーワード検索を行うことによってその内容を確
認できる。このため、第1の文書管理装置によれば、効
率的な文書データ管理が行えることになる。
【0012】なお、第1の文書管理装置によって作成さ
れた圧縮文書データは、1個以上の開始制御文字列と1
個以上の終了制御文字列を記憶する制御文字列記憶手段
と、入力された符号を複合した文字を出力する復号手段
と、復元を終えた文書データの末尾に開始制御文字列あ
るいは終了制御文字列が存在するか否かを判別する判別
手段と、この判別手段によって開始制御文字列の存在が
判別されたときに、以降の圧縮文書データを復号手段に
よって復号した文字を文書データの要素として出力する
処理を開始し、判別手段によって終了制御文字列が検索
されたときには、復号手段による復号を行わずに、以降
の圧縮文書データをそのまま文書データの要素として出
力する処理を開始する制御手段とを備える文書管理装置
によって復元される。
【0013】本発明の第1の文書管理装置では、符号化
手段として、動的モデル(例えば、ダイナミックハフマ
ン)を用いて文字に対応する符号を出力する手段を採用
するとともに、制御手段として、検索手段によって終了
制御文字列が検索されたときに、符号化手段が用いる動
的モデルを初期化する手段を採用することができる。こ
のように文書管理装置を構成した場合には、その内容の
一部だけを復元することができる圧縮文書データが作成
されることになる。
【0014】また、第1の文書管理装置では、制御手段
として、以降の入力文字列を非符号化データとして出力
する処理を開始する際に、検索手段によって検索された
終了制御文字列を圧縮文書データの要素として出力する
手段を採用することもできる。
【0015】このように文書管理装置を構成した場合に
は、文書データ内に存在していた開始制御文字列と終了
制御文字列で挟まれた文書要素が、そのまま記憶された
圧縮文書データが作成される。このため、この文書管理
装置によれば、圧縮文書データに対する、キーワード検
索がさらに容易に行えることになる。
【0016】本発明の第1の文書管理装置では、制御手
段として、検索手段によって終了制御文字列が検索され
たときには、符号化手段による符号化を行わずに、以降
の入力文字列を、入力文字と出力文字との対応関係が定
められた置換表を用いて置換し、置換結果を非符号化デ
ータとして出力する処理を開始する手段を採用すること
ができる。
【0017】このように文書管理装置を構成した場合、
そのまま読みとれるデータが含まれていない圧縮文書デ
ータが作成される。従って、この文書管理装置が作成し
た圧縮文書データを、インターネットを用いて転送した
としても、中間のマシンによってその内容が読みとられ
ることがない。このため、この文書管理装置によれば、
データ通信時の秘匿性を高めることができる。
【0018】なお、文字を置換して出力するよう装置を
構成する場合には、文書管理装置に、圧縮文書データに
対してある文字列の検索が指示された際に、その文字列
を置換表を用いて置換する置換手段と、この置換手段に
よって置換された文字列を用いた検索を実行する検索手
段とを付加することが望ましい。
【0019】本発明の第2の文書管理装置は、データを
表示するための表示手段と、1個以上の開始制御文字列
と1個以上の終了制御文字列を記憶する制御文字列記憶
手段と、圧縮すべき文書データ内の文字を順に読み出す
第1読出手段と、この第1読出手段によって読み出され
た文字を圧縮文書ファイルの要素として出力するととも
に、その文字をインデックスファイルの要素として出力
する第1出力手段と、第1読出手段によって制御文字列
記憶手段内のいずれかの開始制御文字列と同じ文字列が
読み出されたときに第1読出手段の動作を中止させる第
1制御手段と、この第1制御手段によって第1読出手段
の動作が中止されたときに、文書データ内の文字の読み
出しを開始する第2読出手段と、この第2読出手段によ
って読み出された文字に対応する符号を、圧縮文書デー
タの要素として出力する第2出力手段と、第2読出手段
によって制御文字列記憶手段内のいずれかの終了制御文
字列と同じ文字列が読み出されたときに、第2読出手段
の動作を中止させるとともに、第1読出手段の動作を再
開させる第2制御手段と、圧縮文書ファイルとインデッ
クスファイルを記憶する記憶手段と、所定の指示が与え
られた際に、記憶手段に記憶されたインデックスファイ
ル内の、開始制御文字列で区切られた各データをインデ
ックスとして表示手段に表示する表示制御手段と、この
表示制御手段によって表示されたインデックスの中から
1つのインデックスを指定する指定手段と、この指定手
段によって指定されたインデックスの圧縮文書ファイル
内での格納位置を特定する格納位置特定手段と、圧縮文
書ファイル内の、格納位置特定手段で特定された格納位
置以降のデータを制御文字列記憶手段に記憶されている
いずれかの終了制御文字列が復元されるまで復元する部
分復元手段とを備える。
【0020】すなわち、本発明の第2の文書管理装置
は、文書データに基づき、圧縮されていないデータ(第
1出力手段が出力するデータ)と圧縮データ(第2出力
手段が出力するデータ)とが混在する圧縮文書ファイル
を作成するとともに、第1出力手段が出力するデータか
らなるインデックスファイルを作成する。
【0021】記憶手段に記憶されたインデックスファイ
ルの内容は、表示制御手段によって、たとえば、CRT
などの表示手段に表示される。ユーザは、キーボードや
マウスといった入力装置から構成される指定手段を用い
て、表示手段に表示された複数のインデックスの中か
ら、1つのインデックスを指定する。また、格納位置特
定手段は、たとえば、指定されたインデックスを圧縮文
書ファイル内で検索することによって、そのインデック
スの格納位置を特定する。そして、部分復元手段は、圧
縮文書ファイル内の、その格納位置以降のデータを制御
文字列記憶手段に記憶されているいずれかの終了制御文
字列が復元されるまで復号する。
【0022】このように、第2の文書管理装置では、圧
縮文書ファイルの内容を一部分だけ復元する機能が設け
られているので、圧縮文書ファイル全体を復元しなくと
も、その内容を確認できる。このため、第2の文書管理
装置によれば、ハードディスク装置などによって構成さ
れる記憶手段の記憶容量を有効に利用しつつ、効率的な
文書データ処理が行えることになる。
【0023】この第2の文書管理装置に、第1出力手段
が出力を開始する度に、圧縮文書ファイルの要素として
それまでに出力されたデータの積算サイズを検出して記
憶する積算サイズ検出記憶手段を付加し、格納位置特定
手段として、積算サイズ検出記憶手段によって記憶され
ている積算サイズに基づき、インデックスの圧縮文書フ
ァイル内での格納位置を特定する手段を用いることもで
きる。
【0024】また、第2の文書管理装置では、部分復元
手段として、圧縮文書ファイル内の、格納位置特定手段
で特定された格納位置以前のデータを処理済のデータで
あると認識する復元不要データ認識手段と、圧縮文書フ
ァイル内の未処理のデータを1文字分ずつ順に読み出す
第1データ読出手段と、この第1データ読出手段によっ
て読み出されたデータを復号結果として出力する第1復
号手段と、この第1復号手段によって制御文字列記憶手
段内のいずれかの開始制御文字列と同じ文字列が出力さ
れたときに、第1データ読出手段の動作を中止させる第
1読出制御手段と、この第1読出制御手段によって第1
データ読出手段の動作が中止されたときに、圧縮文書フ
ァイル内の未処理のデータの読み出しを開始する第2デ
ータ読出手段と、この第2データ読出手段によって読み
出されたデータを復号した文字を出力する第2復号手段
と、この第2復号手段によって制御文字列記憶手段内の
いずれかの終了制御文字列と同じ文字列が出力されたと
きに、第2データ読出手段の動作を中止させる第2読出
制御手段と、この第2読出制御手段による制御が行われ
たときに、第2データ読出手段が読み出した文字列が特
定手段によって特定されたインデックスの末尾に含まれ
る開始制御文字列に対応する終了制御文字列でなかった
場合には、第1データ読出手段の動作を再開させる第3
読出制御手段とからなる手段を用いることができる。
【0025】このような構成の部分復元手段を用いた場
合には、指定手段で指定したインデックスに応じた範囲
のデータを復元させることができることになる。本発明
の第3の文書管理装置は、データを表示するための表示
手段と、1個以上の開始制御文字列と1個以上の終了制
御文字列を記憶する制御文字列記憶手段と、圧縮すべき
文書データ内の文字を順に読み出す第1読出手段と、こ
の第1読出手段によって読み出された文字を静的符号化
した符号を、圧縮文書ファイルの要素として出力すると
ともに、その文字をインデックスファイルの要素として
出力する第1出力手段と、第1読出手段によって制御文
字列記憶手段内のいずれかの開始制御文字列と同じ文字
列が読み出されたときに第1読出手段の動作を中止させ
る第1制御手段と、この第1制御手段によって第1読出
手段の動作が中止されたときに、文書データ内の文字の
読み出しを開始する第2読出手段と、この第2読出手段
によって読み出された文字を動的符号化した符号を、圧
縮文書ファイルの要素として出力する第2出力手段と、
第2読出手段によって制御文字列記憶手段内のいずれか
の終了制御文字列と同じ文字列が読み出されたときに、
第2読出手段の動作を中止させ、第2出力手段が動的符
号化に用いるモデルを初期化し、第1読出手段の動作を
再開させる第2制御手段と、第1出力手段が出力を開始
する度に、第1出力手段及び第2出力手段がそれまでに
圧縮文書ファイルの要素として出力したデータの積算サ
イズを検出し、記憶する積算サイズ検出記憶手段と、圧
縮文書ファイルとインデックスファイルとを記憶する記
憶手段と、所定の指示が与えられた際に、記憶手段に記
憶されているインデックスファイル内の、開始制御文字
列で区切られたデータをそれぞれインデックスとして表
示手段に表示する第1表示制御手段と、この表示制御手
段によって表示されたインデックスの中から1つのイン
デックスを指定する指定手段と、積算サイズ検出記憶手
段内に記憶されている積算サイズに基づき、指定手段に
よって指定されたインデックスの圧縮文書ファイル内で
の格納位置を特定し、圧縮文書ファイル内のそのインデ
ックス以前のデータを処理済のデータであると認識する
復号不要データ認識手段と、圧縮文書ファイル内の未処
理のデータを読み出す第1データ読出手段と、この第1
データ読出手段によって読み出されたデータを静的復号
した文字を出力する第1復号手段と、この第1復号手段
によって制御文字列記憶手段内のいずれかの開始制御文
字列と同じ文字列が復号されたときに、第1データ読出
手段の動作を中止させる第1復号制御手段と、この第1
復号制御手段によって第1データ読出手段の動作が中止
されたときに、圧縮文書ファイル内の未処理のデータの
読み出しを開始する第2データ読出手段と、この第2デ
ータ読出手段によって読み出されたデータを動的復号し
た文字を出力する第2復号手段と、この第2復号手段に
よって制御文字列記憶手段内のいずれかの終了制御文字
列と同じ文字列が復号されたときに、第2データ読出手
段の動作を中止させるとともに第2復号手段が動的復号
に用いるモデルを初期化する第2復号制御手段と、この
第2復号制御手段による制御が行われたときに、第2復
号手段によって復号された文字列が、指定手段によって
指定されたインデックスの末尾に含まれる開始制御文字
列に対応する終了制御文字列でなかった場合に、第1読
出手段の動作を再開させる第3復号制御手段とを備え
る。
【0026】すなわち、本発明の第3の文書管理装置で
は、文書データに基づき、静的符号化により圧縮された
データ(第1出力手段が出力するデータ)と動的符号化
により圧縮されたデータ(第2出力手段が出力するデー
タ)とが混在する圧縮文書ファイルが作成されるととも
に、第1出力手段が出力する圧縮文書データに対応する
非圧縮データからなるインデックスファイルが作成され
る。
【0027】記憶手段に記憶されたインデックスファイ
ルの内容は、表示制御手段によって、たとえば、CRT
などの表示手段に表示される。ユーザは、キーボードや
マウスといった入力装置から構成される指定手段を用い
て、表示手段に表示された複数のインデックスの中か
ら、1つのインデックスを指定する。
【0028】復号不要データ認識手段は、検出記憶手段
内の積算サイズに基づき、ユーザによって指定されたイ
ンデックスの圧縮文書ファイル内での格納位置を特定
し、そのインデックス以前のデータを処理済のデータで
あると認識する。そして、この復号不要データ認識手段
によって処理済であると認識されたデータ以降のデータ
に対して、ユーザによって指定されたインデックスの末
尾に含まれる開始制御文字列に対応する終了制御文字列
が復元されるまで、各部による処理が繰り返される。
【0029】このように、第3の文書管理装置では、2
種類の圧縮方法を用いて文書データを圧縮した圧縮文書
ファイルが作成されるので、圧縮文書ファイルのサイズ
が小さく、ハードディスク装置などによって構成される
記憶手段の記憶容量を有効に利用できることになる。ま
た、キーワード検索可能なインデックスファイルが作成
されるので、圧縮文書ファイルを復元しなくとも、その
内容を推定できる。また、圧縮文書ファイルの内容を一
部分だけ復元する機能が設けられているので、必要な部
分だけを復元することができる。このため、第3の文書
管理装置によれば、効率的な文書データ処理が行えるこ
とになる。
【0030】本発明のデータ圧縮方法は、幾つかのデー
タ要素の前後に、それぞれ、終了制御文字列と開始制御
文字列が挿入された原データを対象とする。本発明のデ
ータ圧縮方法は、原データから開始制御文字列及び終了
制御文字列を検索する検索ステップと、検索ステップに
おいて開始制御文字列が検索されたときに、以降の原デ
ータを符号化した符号化データを圧縮データの要素とし
て出力する処理を開始し、検索ステップにおいて終了制
御文字列が検索されたときには、符号化を行わずに、以
降の原データをそのまま圧縮データの要素として出力す
る処理を開始するデータ処理ステップとを備える。
【0031】このように、本発明のデータ圧縮方法で
は、圧縮されていないデータと圧縮データとが混在する
圧縮データ、すなわち、キーワード検索可能な圧縮デー
タが作成される。
【0032】このデータ圧縮方法によって作成された圧
縮データファイルは、以下に記すデータ復元方法によっ
て復元される。本発明のデータ復元方法は、復元を終え
たデータの末尾に開始制御文字列あるいは終了制御文字
列が存在するか否かを判別する判別ステップと、この判
別ステップにおいて開始制御文字列の存在が判別された
ときに、以降の圧縮データを復号した文字を復元結果と
して出力する処理を開始し、判別ステップにおいて終了
制御文字列が検索されたときには、以降の圧縮データを
そのまま復元結果として出力する処理を開始するデータ
処理ステップとを備える。
【0033】本発明のデータ圧縮方法では、データ処理
ステップとして、動的モデルを用いて符号化を行い、検
索ステップにおいて終了制御文字列が検索されたときに
は、その動的モデルを初期化するステップを用いること
ができる。
【0034】このデータ圧縮方法によって作成された圧
縮データを復元する際には、上述のデータ復元方法のデ
ータ処理ステップとして、動的モデルを用いて復号を行
い、検索ステップにおいて終了制御文字列が検索された
ときには、その動的モデルを初期化するステップを用い
る。
【0035】本発明のデータ圧縮方法では、データ処理
ステップとして、以降の原データを符号化した符号化デ
ータを圧縮データの要素として出力する処理を開始する
際に、検索ステップにおいて検索された終了制御文字列
を圧縮データの要素として出力するステップを採用する
こともできる。
【0036】このデータ圧縮方法によって作成された圧
縮データを復元する際には、本発明のデータ復元方法に
おけるデータ処理ステップとして、復号した文字を出力
する処理を開始する際に、最初に復号される終了制御文
字列を復元結果として取り扱わないステップを採用す
る。
【0037】また、本発明のデータ圧縮方法では、デー
タ処理ステップとして、検索ステップにおいて終了制御
文字列が検索されたときには、以降の原データを所定の
置換表を用いて置換したデータを圧縮データの要素とし
て出力する処理を開始するステップを用いることもでき
る。
【0038】このデータ圧縮方法によって作成された圧
縮データを復元する際には、上述のデータ復元方法のデ
ータ処理ステップとして、検索ステップにおいて終了制
御文字列が検索されたときには、以降の圧縮データを所
定の置換表を用いて置換したデータを復元結果として出
力する処理を開始するステップを採用する。
【0039】
【発明の実施の形態】以下、本発明を図面を用いて詳細
に説明する。まず、本発明の文書管理装置が対象とする
文書データの記述形式の概要を説明する。本発明の文書
管理装置は、文書を制御する文字と文書とが同一のデー
タ内に格納されている文書データを対象とする。ここで
は、SGML形式の文書データを対象とした場合を例
に、実施形態の文書管理装置を説明する。SGML形式
で記述された文書データのようなは、1986年にIS
Oが制定した文書形式の国際規格である。SGML形式
による文書データでは、文書データ中の特定の要素の前
後に、その要素の内容に応じたタグと呼ばれる制御文字
列が使用される。たとえば、文書のタイトルを表す要素
の前には、“<TITLE>”といった開始タグが使用
され、その要素の後には、“</TITLE>”といっ
た終了タグが使用される。
【0040】第1実施形態 第1実施形態の文書管理装置は、文書データをファイル
化する際に、圧縮データと非圧縮データが混在するファ
イル(以下、圧縮文書ファイルと表記する)を作成す
る。
【0041】図1に、本発明の第1実施形態による文書
管理装置の構成を示す。図示したように、第1実施形態
の文書管理装置は、記憶装置11と入力装置12と表示
装置13とデータ処理装置14とを備える。記憶装置1
1は、いわゆる、磁気ディスク記憶装置であり、圧縮文
書ファイルなどを記憶する。入力装置12は、キーボー
ド及びマウスとその周辺機器から構成されている。表示
装置13は、CRT(Cathod Ray Tube)とその周辺機器
からなり、記憶装置11内に記憶された圧縮文書ファイ
ルの復元結果などを表示するために用いられる。
【0042】データ処理装置14は、CPU(Central P
rocessing Unit)を中心として構成されており、文書デ
ータの編集機能を有する。また、データ処理装置14
は、入力装置11から与えられる指示に応じて、文書デ
ータから圧縮文書ファイルを作成する処理や、圧縮文書
ファイルを文書データに復元する処理を実行する。
【0043】以下、本文書管理装置(データ処理装置1
4)の動作を説明する。まず、図2に示した機能ブロッ
ク図を用いて、データ処理装置14による圧縮文書ファ
イルの作成動作を説明する。
【0044】図示したように、データ処理装置14は、
スイッチ107と、スイッチ107のS2端子側に設け
られた入力文字列保持部103と第1文字列保持部10
1と符号化開始文字列検索部105と、スイッチ107
のS1端子側に設けられた第2文字列保持部102と文
脈保持部104と符号化終了文字列検索部106と符号
保持部108と符号化部109と符号更新部110とか
らなる。
【0045】圧縮すべき文書データは、文字毎に、入力
端子130からスイッチ107に供給される。スイッチ
107は、入力された文字を、S1端子あるいはS2端
子のいずれか一方の端子から出力するスイッチである。
スイッチ107は、圧縮文書ファイルの作成開始時、S
2端子から文字を出力する。
【0046】まず、スイッチ107が、文字をS2端子
側に出力しているときの各部の動作を説明する。スイッ
チ107のS2端子から文字が出力されている場合、入
力文字列保持部103と第1文字列保持部101と符号
化開始文字列検索部105が機能する。S2端子からの
文字は、出力端子131から出力されて、圧縮文書ファ
イルの構成データとされるとともに、入力文字列保持部
103に入力される。入力文字列保持部103は、所定
値N1個の文字からなる文字列を保持する能力を有し、
S2端子から供給される文字で、保持する文字列の内容
を更新する。すなわち、入力文字列保持部103は、M
(<N1)個の文字からなる文字列を保持していた場合
に、S2端子から文字が供給された際には、その文字列
の末尾に供給された文字を追加する。また、N1個の文
字からなる文字列を保持していた場合に、S2端子から
文字が供給された際には、その文字列の先頭から1文字
を取り除き、その末尾にS2端子からの文字を追加す
る。
【0047】第1文字列保持部101は、終了タグから
選択された幾つかの符号化開始文字列(</SECTI
ON>、</SUBSECTION>等)を保持してい
る。なお、入力文字列保持部103が保持する文字列の
文字数の最大値N1は、この第1文字列保持部103内
の最長の符号化開始文字列の文字数となっている。
【0048】符号化開始文字列検索部105は、入力文
字列保持部103に新たな文字が入力される度に、入力
文字列保持部103内の文字列の末尾に、第1文字列保
持部101内に保持されているいずれかの符号化開始文
字列と一致する文字列が存在しているか否かを検索す
る。そして、いずれかの符号化開始文字列と一致する文
字列が存在していなかった場合、符号化開始文字列検索
部105は、何も行わず、次の文字の入力を待機する。
一方、符号化開始文字列と一致する文字列が存在してい
た場合、符号化開始文字列検索部105は、スイッチ1
07のデータの出力先をS2端子からS1端子に切り替
える。
【0049】たとえば、入力文字列保持部103内に
“****</SECTION”とい文字列が保持され
ているときに、S2端子から文字“>”が供給された場
合、入その文字列は“***</SECTION>”に
更新される。従って、符号化開始文字列検索部105
は、入力文字列保持部103内の文字列の末尾に符号化
開始文字列“</SECTION>”を見いだし、スイ
ッチ107対してデータの出力先の切換を指示すること
になる。出力端子131からは、この時点まで、非圧縮
データが出力されることになる。
【0050】次に、スイッチ107のS1端子から文字
が出力された場合の動作を説明する。この場合、第2文
字列保持部102と文脈保持部104と符号化終了文字
列検索部106と符号保持部108と符号化部109と
符号更新部110が機能する。
【0051】第2文字列保持部102と文脈保持部10
4と符号化終了文字列検索部106は、それぞれ、第1
文字列保持部101と入力文字列保持部103と符号化
開始文字列検索部105と類似の動作をする。
【0052】すなわち、第2文字列保持部102は、終
了タグから選択された幾つかの符号化終了文字列(<S
ECTION>、<SUBSECTION>等)を保持
する。文脈保持部104は、第2文字列保持部102が
保持する最長の符号化終了文字列と同じ長さの文字列を
保持する能力を有し、S1端子から供給される文字で、
内部に保持している文字列の内容を更新する。また、文
脈保持部104は、保持している文字列のうち、末尾側
の所定数の文字からなる文字列(文脈)を、符号保持部
108に供給する。
【0053】符号化終了文字列検索部106は、文脈保
持部104に新たな文字が入力される度に、文脈保持部
104内の文字列の末尾に、第2文字列保持部102内
に保持されているいずれかの符号化終了文字列と一致す
る文字列が存在しているか否かを判断する。そして、一
致する文字列が存在していなかった場合、符号化終了文
字列検索部106は、何も行わず、次の文字の入力を待
機する。一方、いずれかの符号化終了文字列と一致する
文字列が存在していた場合、符号化終了文字列検索部1
06は、スイッチ107のデータの出力先をS2端子か
らS1端子に切り替える。
【0054】符号保持部108、符号化部109、符号
更新部110は、S1端子からの順次供給される文字を
動的に符号化する。各部は、次のように動作する。符号
保持部108は、符号化に使用する符号表を文脈毎に保
持しており、文脈保持部104から通知される文脈に応
じた符号表を参照・更新対象とする。符号化部109
は、符号保持部108によって参照・更新対象とされた
符号表を用いて、S1端子から入力された文字に対応す
る符号を決定し、決定した符号(圧縮データ)を出力端
子131から出力する。この圧縮データの出力は、S2
端子側にスイッチ107が切り替えられるまでの間、続
けられる。符号更新部110は、文字の符号化が終わっ
た際に、その文字の出現頻度が増加したことが文字と符
号との対応関係に反映されるように、符号化に使用され
た符号表の内容を更新する。
【0055】以下、図3ないし図5を用いて、第1実施
形態の文書管理装置の圧縮文書ファイルの作成手順をさ
らに詳細に説明する。これらの図のうち、図3は、デー
タ処理装置14による圧縮文書ファイルの作成手順を示
した流れ図である。また、図4は、本装置の圧縮対象と
なる文書データの一例を示した図である。図5は、図4
に示した文書データに基づき、本文書管理装置によって
作成される圧縮文書ファイルの概要を示した図である。
なお、以下の説明では、符号化開始文字列として、“<
/SECTION>”と“</SUBSECTION
>”が、符号化終了文字列として、“<SECTION
>”と“<SUBSECTION>”が設定されている
ものとする。
【0056】圧縮文書ファイルの作成は、文書データを
構成する各文字をそのまま出力する非圧縮データ出力処
理ループと、各文字を圧縮して出力する圧縮データ出力
処理ループを交互に繰り返すことによって進められる。
図3に示したように、文書データの圧縮を指示された
際、データ処理装置14内では、非圧縮データ出力処理
ループ(ステップS101〜S103)が実行される。
【0057】非圧縮データ出力処理ループでは、まず、
文書データ内の1文字(対象文字)がそのまま(図2の
S2側から)出力され、圧縮文書ファイルに書き込まれ
る(ステップS101)。次いで、文書データを構成す
る全ての文字に対する処理が終了しているか否かが判断
される(ステップS102)。そして、全ての文字に対
する処理が終了していなかった場合(ステップS10
2;N)には、そのときまでに処理された文字列が、い
ずれかの符号化開始文字列と一致しているか否かが判断
される(ステップS103)。
【0058】処理された文字列が各符号化開始文字列と
一致していなかった場合(ステップS103;N)に
は、ステップS101からの処理が再度実行される。一
方、そのときまでに処理された文字列が、符号化開始文
字列の1つと一致していた場合(ステップS103;
Y)には、圧縮データ出力処理ループ(ステップS10
4〜S107)が開始される。
【0059】たとえば、図4に示した文書データに関す
る圧縮文書ファイルの作成を行った場合、最初に現れる
符号化開始文字列は、“</SECTION>”(2行
目)である。このため、文書データの先頭から2行目の
“</SECTION>”までの各文字は、そのまま出
力されて、圧縮文書ファイル内に記憶される。この結
果、圧縮文書ファイルの先頭には、図5に示したよう
に、文書データと同じ内容のデータが記憶されることに
なる。そして、“</SECTION>”の次の文字か
ら圧縮データ出力処理が開始される。
【0060】図3に戻って、圧縮文書ファイル作成処理
の説明を続ける。圧縮データ出力処理ループでは、S1
側で文書データから次の1文字が読み込まれ、その対象
文字に対応する符号が符号化部から出力される(ステッ
プS104)。このステップにおける符号出力は、対象
文字の文脈を参照した形で進められる。その後、符号化
に用いた文脈に関する符号表の内容が更新される(ステ
ップS105)。
【0061】次に、文書データを構成する全ての文字に
対する処理が終了しているか否かが判断され、終了して
いない場合(ステップS106;N)には、符号化を終
えた幾つかの文字からなる文字列が、いずれかの符号化
終了文字列と一致するか否かが判断される(ステップS
107)。
【0062】符号化を終えた幾つかの文字からなる文字
列が、全ての符号化終了文字列と一致していなかった場
合(ステップS107;N)には、ステップS104か
らの処理が再度実行される。一方、符号化を終えた幾つ
かの文字からなる文字列が、符号化終了文字列の1つと
一致していた場合(ステップS107;Y)には、非圧
縮データ出力処理ループ(ステップS101〜S10
3)が再度開始される。
【0063】たとえば、図4に示した文書データでは、
3行目以降に最初に現れる符号化終了文字列は、“<S
ECTION>”(4行目)である。このため、3行目
の始めから、4行目の“<SECTION>”までの各
文字は符号化されて出力される。その結果、この部分の
各文字は、図5の3行目に示したように、圧縮データと
して圧縮文書ファイル内に格納されることになる。そし
て、“<SECTION>”の次の文字からの文章
(2.特許請求の範囲</ECTION>…)に対し
て、再度、非圧縮データ出力処理ループ、圧縮データ出
力処理ループによる処理が繰り替えされ、結局、符号化
終了文字列と符号化開始文字列として指定しておいた制
御文字列で挟まれた部分だけが非圧縮であり、その他の
部分(<PARAGRAPH>、<TT>といった他の
制御文字列を含む)が圧縮された圧縮文書ファイルが作
成されていく。
【0064】この圧縮文書ファイル作成処理は、非圧縮
データ出力処理ループにおいて全データに関する処理が
終了した際(ステップS102;Y)、あるいは、圧縮
データ出力処理ループにおいて全データに関する処理が
終了した際(ステップS106;Y)に、完了する。
【0065】以下、図6に示した機能ブロック図を用い
て、第1実施形態の文書管理装置(データ処理装置1
4)による圧縮文書ファイルの復元動作を説明する。圧
縮文書ファイルを構成するデータは、入力端子230か
らスイッチ207に供給されている。スイッチ207
は、入力された文字を、S1端子あるいはS2端子のい
ずれか一方の端子から出力する。
【0066】以下、スイッチ207が、データをS2端
子側に供給しているときの各部の動作を説明する。な
お、圧縮文書ファイルの復元は、スイッチ207のS2
端子からデータが出力される状態で開始される。
【0067】スイッチ207のS2端子からデータが供
給されている場合、入力文字列保持部203と第1文字
列保持部201と復号開始文字列検索部205が機能す
る。スイッチ207のS2端子からのデータは、出力端
子231から、文書データ中の1文字として出力される
とともに、入力文字列保持部203に供給されている。
【0068】入力文字列保持部203は、最大N1文字
分の文字列を保持し、S2端子から供給される文字で、
内部に保持する文字列の内容を更新する。第1文字列保
持部201は、第1文字列保持部101が保持する符号
化開始文字列と同じ文字列(</SECTION>、<
/SUBSECTION>等)を復号開始文字列として
保持している。復号開始文字列検索部205は、入力文
字列保持部203に新たなデータ(文字)が入力される
度に、入力文字列保持部203内の文字列の末尾に、第
1文字列保持部201内に保持されているいずれかの復
号開始文字列と一致する文字列が存在しているか否かを
判断する。そして、復号開始文字列と一致する文字列が
存在していなかった場合、復号開始文字列検索部205
は、何も行わず、次のデータの入力を待機する。一方、
復号開始文字列の1つと一致する文字列が存在していた
場合、以降の文字列が圧縮されたものなので、複合処理
が必要となる。このため、復号開始文字列検索部205
は、スイッチ207のデータ出力先をS2からS1に切
り替える。
【0069】次に、スイッチ207のS1端子からデー
タ(符号)が出力されるときの動作を説明する。この場
合、符号保持部208と復号部209と符号更新部21
0と、第2文字列保持部202と文脈保持部204と符
号化終了文字列検索部206が機能を開始する。
【0070】符号保持部208、復号部209、符号更
新部210は、S1端子からの順次供給されるデータ
(符号)を適応的に復号する。各部は、次のように動作
する。符号保持部208は、復号に使用する符号表を文
脈毎に保持しており、後述する文脈保持部204から通
知される文脈に応じた符号表を参照・更新対象とする。
復号部209は、符号保持部208によって参照・更新
対象とされた符号表を用いてS1端子から入力される符
号を復号する。そして、復号結果である文字を、出力端
子231と文脈保持部204に供給する。符号更新部2
10は、復号部209による復号が行われた後に、復号
結果である文字の出現頻度が増加したことが文字と符号
との対応関係に反映されるように、復号に使用された符
号表の内容を更新する。
【0071】文脈保持部204は、N2文字分の文字列
を保持する能力を有し、復号部209から供給される文
字で、保持する文字列の内容を更新する。また、文脈保
持部204は、保持する文字列のうち、末尾側の所定数
の文字からなる文字列を文脈として符号保持部208に
供給する。第2文字列保持部202は、第2文字列保持
部102(図2)が保持する符号化終了文字列と同じ文
字列を、復号終了文字列として保持している。なお、N
2は、第2文字列保持部202内の最長の復号終了文字
列の文字数となっている。
【0072】復号終了文字列検索部206は、文脈保持
部204に新たな文字が入力される度に、文脈保持部2
04内の文字列の末尾に、第2文字列保持部202内に
保持されているいずれかの復号終了文字列と一致する文
字列が存在しているか否かを判断する。そして、復号終
了文字列と一致する文字列が存在していなかった場合、
復号終了文字列検索部206は、何も行わず、次の復号
結果の入力を待機する。一方、復号終了文字列と一致す
る文字列が存在していた場合、その後に続く文字列は、
圧縮されていない文字列であるので、復号終了文字列検
索部206は、スイッチ207のデータの出力先をS1
端子からS2端子に切り替える。
【0073】以下、図7と、圧縮文書ファイルの作成手
順の説明に用いた図4および図5を参照して、第1実施
形態の文書管理装置の圧縮文書ファイルの復元手順をさ
らに詳細に説明する。なお、図7は、データ処理装置1
4による圧縮文書ファイルの復元手順を示した流れ図で
ある。
【0074】図7に示したように、圧縮文書ファイルの
復元を最初に指示された際、データ処理装置14内で
は、非圧縮データ処理ループ(ステップS201〜S2
03)が実行される。非圧縮データ処理ループでは、ま
ず、圧縮文書ファイル内の最初の1文字分のデータがそ
のまま復元結果として出力される(ステップS20
1)。次いで、圧縮文書ファイル内の全てのデータに対
する処理が終了しているか否かが判断される(ステップ
S202)。そして、全てのデータに対する処理が終了
していなかった場合(ステップS202;N)には、出
力を終えた幾つかの文字からなる文字列が、いずれかの
復号開始文字列と一致しているか否かが判断される(ス
テップS203)。
【0075】出力を終えた幾つかの文字からなる文字列
が各復号開始文字列と一致していなかった場合(ステッ
プS203;N)には、ステップS201からの処理が
再度実行される。一方、出力を終えた幾つかの文字から
なる文字列が、復号開始文字列の1つと一致していた場
合(ステップS203;Y)には、圧縮データ処理ルー
プ(ステップS204〜S207)が開始される。
【0076】たとえば、図5に示した圧縮文書ファイル
が処理対象であった場合、非圧縮データ処理ループにお
いて最初に見い出される復号開始文字列は、“</SE
CTION>”(2行目)である。このため、“</S
ECTION>”までの各文字は、そのまま出力され、
図4の先頭2行のデータが生成される。そして、“</
SECTION>”の次のデータから圧縮データ処理ル
ープによる処理が開始されることになる。
【0077】図7に戻って、圧縮文書ファイルの復元処
理の説明を続ける。圧縮データ処理ループでは、圧縮文
書ファイルのデータ(符号)が必要量読み込まれ、その
符号の復号結果である文字が出力される(ステップS2
04)。なお、復号は、既に復号を終えた文字列(文
脈)を参照した形で行われる。そして、その後、復号に
用いた文脈に関する符号表の内容が更新される(ステッ
プS205)。
【0078】次に、圧縮文書ファイル内の全てのデータ
に対する処理が終了しているか否かが判断される(ステ
ップS206)。そして、全てのデータに対する処理が
終了していない場合(ステップS206;N)には、復
号を終えた幾つかの文字からなる文字列が、いずれかの
復号終了文字列と一致するか否かが判断される(ステッ
プS207)。
【0079】復号を終えた幾つかの文字からなる文字列
が各復号終了文字列と一致していなかった場合(ステッ
プS207;N)には、ステップS204からの処理が
再度実行される。一方、復号を終えた幾つかの文字から
なる文字列が復号終了文字列の1つと一致していた場合
(ステップS207;Y)には、非圧縮データ処理ルー
プ(ステップS201〜S203)が再度実行される。
【0080】たとえば、図5の3行目からの圧縮データ
を順次復号していくと、いずれ、“<SECTION
>”という文字列が復元されることになる。データ処理
装置14は、このように復号終了文字列の1つと一致す
る文字列が復元されたときに、圧縮データ処理ループを
抜けだし、非圧縮データ処理ループを開始する。
【0081】なお、データ処理装置14は、非圧縮デー
タ処理ループにおいて全データに関する処理が終了した
際(ステップS202;Y)、あるいは、圧縮データ処
理ループにおいて全データに関する処理が終了した際
(ステップS206;Y)に、圧縮文書ファイル復元処
理を終える。
【0082】以上詳細に説明したように、第1実施形態
の文書管理装置では、文書データに基づき、その内容の
一部がそのままの形で記憶された圧縮文書ファイルが作
成される。すなわち、キーワード検索が可能な圧縮文書
ファイルが作成される。このため、本文書管理装置で
は、圧縮文書ファイルを復元することなく、圧縮文書フ
ァイルの内容を推定(確認)することができる。
【0083】なお、第1実施形態の文書管理装置は、S
GML形式の文書データを対象とする装置として構成し
てあるが、本装置は、内部に記憶させておく制御文字列
を変更するだけで、他形式のデータ(文書データに限ら
ない)を対象とする装置になる。また、当然、制御文字
列ではなく制御文字を使用することも可能である。
【0084】さて、第1実施形態の文書管理装置が管理
する圧縮文書ファイルに対して、タグ単位での検索では
なく、タグの構成要素である“<”や“>”の検索を実
行した場合、圧縮データ内の符号が検索されてしまう場
合も考えられる。このような誤った検索が行われるのを
防ぐために、文書管理装置に、検索した文字の次に、非
文字コードが存在していた場合には、その文字を無視
し、さらに検索を続行する検索機能を持たせても良い。
また、この検索機構をさらに確実に動作させるために、
圧縮文書ファイルを構成する圧縮データ内に“0x3
c”(“<”のASCIIコード)、“0x3e”
(“>”のASCIIコード)が現れる場合、その後に
例えば“0x00”といったASCIIコードではない
特定のコードが挿入されるようにしておくこともでき
る。なお、このように文書管理装置を構成する場合に
は、圧縮文書ファイルの復元時に、その特定のコードが
取り除かれるようにする。
【0085】第2実施形態 第1実施形態の文書管理装置は、非圧縮データとして、
文書データ内のデータをそのまま使った圧縮文書ファイ
ルを作成する装置であった。これに対して、第2実施形
態の文書管理装置は、文書データ内のデータそのままで
はなく、そのデータを所定の規則に従って置換したデー
タを格納した圧縮文書ファイルを作成する。すなわち、
第2の書管理装置は、そのまま読みとれるデータが含ま
れていない圧縮文書データを作成する。第2実施形態の
文書管理装置の動作手順は、第1実施形態の文書管理装
置の動作手順と類似しているので、ここでは、動作内容
が異なる部分だけを説明することにする。
【0086】まず、図8および図9を用いて、第2実施
形態の文書管理装置による、圧縮文書ファイル作成手順
を説明する。なお、図8は、第2実施形態の文書管理装
置による圧縮文書ファイル作成手順を説明するための機
能ブロック図であり、図9は、圧縮文書ファイル作成手
順を示した流れ図である。
【0087】図8に示したように、第2実施形態の文書
管理装置では、スイッチ107のS2端子からのデータ
(非圧縮対象文字)は、置換部122に供給され、置換
部122の出力が圧縮文書ファイル内に格納される。
【0088】置換部122には、文字と置換後の文字を
対応づけた置換表を保持する置換表保持部123が接続
されている。置換部122は、その置換表においてS2
端子からの文字に対応づけられている文字を出力する。
【0089】すなわち、第2実施形態の文書管理装置で
は、図9に示したように、非圧縮データ出力処理ループ
(ステップS301〜S303)において、文字を出力
する際には、文書データ内の文字を置換して出力(ステ
ップS301)する。
【0090】この第2実施形態の文書管理装置によって
作成された圧縮文書ファイルには、そのまま読みとれる
データは存在しない。例えば、インターネットでは、複
数のマシン間でリレー式にファイル転送が行われるが、
この圧縮文書ファイル形態で文書データを転送すれば、
中間のマシンによってファイルの内容が読みとられるこ
とを防ぐことができる。
【0091】なお、第2実施形態の文書管理装置は、圧
縮文書ファイルのキーワード検索を指示した際、そのキ
ーワードを置換表を用いて置換したキーワードによる検
索が実行されるように構成されている。
【0092】次に、図10および図11を用いて、第2
実施形態の文書管理装置による、圧縮文書ファイルの復
元手順を説明する。図10は、第2実施形態の文書管理
装置の圧縮文書ファイル復元手順を説明するための機能
ブロック図であり、図11は、第2実施形態の文書管理
装置の圧縮文書ファイル復元手順を示した流れ図であ
る。
【0093】図10に示したように、第2実施形態の文
書管理装置では、スイッチ107のS2端子からのデー
タ(文字)は、逆置換部222に供給され、逆置換部2
22の出力が圧縮文書ファイルを復元した文書データに
加えられる。
【0094】逆置換部222には、置換表保持部123
内の置換表に対応する逆置換表を保持する逆置換表保持
部223が接続されている。逆置換部222は、その逆
置換表によって、S2端子からの文字に対応づけられて
いる文字を出力する。
【0095】すなわち、第2実施形態の文書管理装置で
は、図11に示したように、非圧縮データ出力処理ルー
プ(ステップS401〜S403)において、圧縮文書
ファイル内のデータ(文字)を逆置換した文字を出力
(ステップS401)する。
【0096】第3実施形態 第3実施形態の文書管理装置は、第1実施形態の文書管
理装置を基にして構成されている。ただし、第3実施形
態の文書管理装置では、非圧縮データと圧縮データが混
在する圧縮文書ファイルが作成される際には、非圧縮デ
ータだけからなるインデックスファイルも作成される。
また、圧縮文書ファイルの形態も第1実施形態の文書管
理装置で作成される圧縮文書ファイルとは異なったもの
となっている。さらに、第3実施形態の文書管理装置で
は、インデックスファイルを利用して復元を行う部分を
指定できるようになっている。
【0097】まず、図12を用いて、第3実施形態の文
書管理装置(データ処理装置)による圧縮文書ファイル
作成手順を説明する。文書データの圧縮を最初に指示さ
れた際、データ処理装置内では、非圧縮データ出力処理
ループ(ステップS501〜S503)が開始される。
非圧縮データ出力処理ループでは、まず、文書データ内
の1文字(対象文字)がそのまま出力され、圧縮文書フ
ァイルとインデックスファイルに書き込まれる(ステッ
プS501)。次いで、文書データを構成する全ての文
字に対する処理が終了しているか否かが判断される(ス
テップS502)。そして、処理すべき文字が残ってい
た場合(ステップS502;N)には、処理を終えた幾
つかの文字からなり、そのときに処理された文字を含む
文字列が、予め定められている符号化開始文字列の1つ
と一致している否かが判断される(ステップS50
3)。
【0098】処理を終えた文字列と一致する符号化開始
文字列がなかった場合(ステップS503;N)には、
ステップS501からの処理が再度実行される。一方、
符号化開始文字列の1つと一致する文字列が処理されて
いた場合(ステップS503;Y)には、圧縮データ出
力処理ループ(ステップS504〜S507)が開始さ
れる。
【0099】圧縮データ出力処理ループでは、文書デー
タから次の1文字が読み込まれ、その対象文字に対応す
る符号が出力される(ステップS504)。このステッ
プにおける符号出力は、対象文字の文脈を参照した形で
進められる。その後、符号化に用いた文脈に関する符号
表の内容が更新される(ステップS505)。
【0100】次に、文書データを構成する全ての文字に
対する処理が終了しているか否かが判断される(ステッ
プS506)。処理すべき文字が残っていた場合(ステ
ップS506;N)には、そのときに処理した文字を含
む処理済の文字列が、予め定められている符号化終了文
字列の1つと一致するか否かが判断される(ステップS
507)。そして、処理した文字列が各符号化終了文字
列と一致していなかった場合(ステップS507;N)
には、ステップS504からの処理が再度実行される。
【0101】一方、処理した文字列が符号化終了文字列
の1つと一致していた場合(ステップS507;Y)、
符号表の初期化が行われる(ステップS508)。その
後、ステップS507で検出した符号化終了文字列が、
圧縮文書ファイルとインデックスファイルに出力され
(ステップS509)、非圧縮データ出力処理ループ
(ステップS501〜S503)が再度開始される。
【0102】この圧縮文書ファイル作成処理は、非圧縮
データ出力処理ループにおいて全データに関する処理が
終了したことが検出された際(ステップS502;
Y)、あるいは、圧縮データ出力処理ループにおいて全
データに関する処理が終了したことが検出された際(ス
テップS506;Y)に、終了される。
【0103】以下、図4に示した文書データを対象とし
た場合を例に、第3実施形態の文書管理装置による圧縮
文書ファイル作成手順をさらに具体的に説明する。な
お、以下の説明では、符号化開始文字列として、“</
SECTION>”と“</SUBSECTION>”
が、符号化終了文字列として、“<SECTION>”
と“<SUBSECTION>”が設定されているもの
とする。
【0104】この場合、最初に現れる符号化開始文字列
は、“</SECTION>”(2行目)であるので、
文書データの先頭から2行目の“</SECTION
>”までの各文字は、非圧縮データ出力処理ループで処
理される。そして、“</SECTION>”の次の文
字から圧縮データ出力処理ループによる処理が開始され
ることになる。圧縮データ出力処理ループの開始後、最
初に現れる符号化終了文字列は、“<SECTION
>”(4行目)である。このため、3行目の始めから、
4行目の“<SECTION>”までの各文字は符号化
されて出力される。そして、“<SECTION>”内
の“>”の符号化が終わった際に、符号表の初期化が行
われるとともに、“<SECTION>”が圧縮文書フ
ァイルとインデックスファイルに書き込まれる。
【0105】このような一連の動作が、圧縮文書ファイ
ル内の各データに対して繰り返される結果、第3実施形
態の文書管理装置では、図13、図14にそれぞれ示し
たような圧縮文書ファイルとインデックスファイルが作
成されることになる。
【0106】すなわち、第3実施形態の文書管理装置が
作成する圧縮文書ファイルには、第1実施形態の文書管
理装置が作成する圧縮文書ファイル(図5)内の各非圧
縮データに、符号化終了文字列(開始タグ)を付加した
非圧縮データが記憶される。そして、インデックスファ
イルには、圧縮文書ファイル内の非圧縮データと同じデ
ータが記憶される。また、圧縮データ出力処理ループの
終了時に、符号表の初期化が行われているので、圧縮文
書ファイル内の各圧縮データは、単独で復元できるもの
となっている。
【0107】以下、圧縮文書ファイルの内容の指定した
範囲だけを復元させる処理であるインデックス対応領域
復元処理の詳細を説明する。図15に、インデックス対
応領域復元処理時の文書管理装置(データ処理装置)の
動作手順を示す。なお、この図に示した流れは、ユーザ
から、文書データの特定情報を含む所定の指示が与えら
れた場合に開始される。
【0108】図示したように、文書管理装置(データ処
理装置)は、ユーザから所定の指示を受けた場合、その
指示で指定された文書データに応じたインデックスファ
イルの内容を表示装置に表示する(ステップS60
1)。なお、このステップにおいて、データ処理装置
は、インデックスファイル内の、開始および終了タグで
挟まれたデータ(以下、インデックスと表記する)だけ
を表示装置に表示している。例えば、図14に示したイ
ンデックスファイルに対応する文書データが処理対象と
して指示されていた場合、表示装置には、図16に示し
たようなデータが表示される。
【0109】その後、データ処理装置は、ユーザの指示
入力を待機する状態に移行する(ステップS602)。
ステップS602において、データ処理装置は、画面上
で出力対象のインデックスを指定するための処理である
マウスのクリックが行われるのを待機しており、ユーザ
は、マウスを操作することによってデータ処理装置に対
して実行すべき処理を指示する。なお、このステップに
おいて、ユーザは、他のインデックスファイルの内容表
示を行わせるための指示や、インデックスファイルの内
容表示を終了させるための指示が入力できるのである
が、ここでは、いずれかのインデックス上にマウスカー
ソルが位置している状態で、マウスがクリックされた場
合の動作だけを説明することにする。
【0110】いずれかのインデックス上にマウスカーソ
ルが位置している状態で、マウスがクリックされた場合
(ステップS602;Y)、データ処理装置は、そのイ
ンデックスが選択されたことを認識し、インデックスフ
ァイルを参照することによって、選択されたインデック
スに対応するインデックスデータ(タグで挟まれたイン
デックス)を特定する(ステップS603)。
【0111】そして、データ処理装置は、特定したイン
デックスデータが、“TITLE”に関するものである
か否かを判断し、“TITLE”に関するものであった
場合(ステップS604;Y)には、対象となっている
文書データに対応する圧縮文書ファイルの内容を全て復
元する処理である全体復元処理を実行(ステップS60
5)し、復元結果を表示あるいはファイルとして記憶し
て、処理を終了する。
【0112】図17に、全体復元処理時のデータ処理装
置の動作手順を示す。なお、この処理は、圧縮文書ファ
イルを復元することが指示された際にも実行される。図
示したように、全体復元処理時、データ処理装置内で
は、非圧縮データ処理ループ(ステップS701〜S7
03)が実行される。非圧縮データ処理ループ実行時、
データ処理装置は、まず、圧縮文書ファイル内の最初の
1文字分のデータがそのまま復元結果として出力する
(ステップS701)。次いで、圧縮文書ファイル内の
全てのデータに対する処理が終了しているか否かを判断
する(ステップS702)。そして、処理すべきデータ
が残っていた場合(ステップS702;N)には、処理
した文字列(そのときに処理した文字を含む)が、いず
れかの復号開始文字列と一致しているか否かを判断する
(ステップS703)。
【0113】処理した文字列が各復号開始文字列と一致
していなかった場合(ステップS703;N)、データ
処理装置は、ステップS701からの処理を再度実行す
る。一方、処理した文字列が復号開始文字列の1つと一
致していた場合(ステップS703;Y)、データ処理
装置は、圧縮データ処理ループ(ステップS704〜S
707)を開始する。
【0114】圧縮データ処理ループにおいて、データ処
理装置は、まず、圧縮文書ファイルのデータ(符号)を
必要量読み込み、その符号の復号結果である文字を出力
する(ステップS704)。なお、このステップにおけ
る復号は、既に復号を終えた文字列(文脈)を参照した
形で行われる。そして、データ処理装置は、復号に用い
た文脈に関する符号表の内容を更新する(ステップS7
05)。
【0115】次に、データ処理装置は、圧縮文書ファイ
ル内の全てのデータに対する処理が終了しているか否か
を判断する(ステップS706)。そして、処理すべき
データが残っていた場合(ステップS706;N)に
は、復号を終えた文字列が、いずれかの復号終了文字列
と一致するか否かを判断する(ステップS707)。そ
して、いずれの復号終了文字列とも一致していなかった
場合(ステップS707;N)、データ処理装置は、ス
テップS704からの処理を開始する。一方、復号を終
えた文字列が、復号終了文字列の1つと一致していた場
合(ステップS707;Y)、データ処理装置は、全て
の文脈に関する符号表を初期化(ステップS708)す
る。次いで、データ処理装置は、圧縮文書ファイル内
の、次に処理すべきデータの先頭部分に存在している、
復号終了文字列を読み飛ばす(ステップS709)。す
なわち、圧縮文書ファイル作成時に付加した符号化終了
文字列を読み飛ばす。その後、データ処理装置は、非圧
縮データ処理ループ(ステップS701〜S703)を
開始する。
【0116】データ処理装置は、このような処理を、圧
縮文書ファイル内の全てのデータに対する行った(ステ
ップS706;Y)に、全体復元処理を終了する。図1
5に戻って、インデックス対応領域復元処理の説明を続
ける。
【0117】インデックスデータが、“TITLE”に
関するものでなかった場合(ステップS604;N)、
データ処理装置は、そのインデックスデータの先頭のタ
グを終了制御文字列として取得(記憶)する(ステップ
S606)。そして、圧縮文書ファイルの内容のうち、
選択されたインデックスに関係するデータだけを復元す
る処理である部分復元処理を実行(ステップS607)
し、処理を終了する。
【0118】図18に、部分復元処理時のデータ処理装
置の動作の流れを示す。部分復元処理の全体的な流れ
は、全体復元処理(図17)と同じであり、開始条件と
終了条件だけが異なっている。このため、ここでは、異
なる部分に関する説明だけを行うことにする。
【0119】全体復元処理では、圧縮文書ファイルの先
頭から復元処理が開始される。これに対して、部分復元
処理では、最初に、インデックスデータを基に復元開始
位置が特定される(ステップS800)。すなわち、圧
縮文書ファイルの中から、選択されたインデックスに応
じたインデックスデータが検索され、検索されたインデ
ックスデータの最初の文字が復元開始位置として特定さ
れる。
【0120】そして、その復元開始位置からのデータ
が、全体復元処理と同様の手順で処理されていく。ま
た、全体復元処理では、圧縮文書ファイル内の全てのデ
ータに関する処理が完了したときに、処理が終了され
る。これに対して、部分復元処理では、符号表の初期化
(ステップS808)後に、終了判定(ステップS80
9)が行われる。具体的には、データ処理装置は、ステ
ップS807で見い出した復号終了文字列が、装置内に
記憶されている終了制御文字列と一致しているか否かを
判断する。そして、一致していなかった場合(ステップ
S809;N)には、全体復元処理と同様に、次に処理
すべき部分に存在している復号終了文字列を読み飛ばし
て(ステップS810)、非圧縮データ処理ループを開
始する。
【0121】一方、復号終了文字列と終了制御文字列が
一致していた場合(ステップS809;Y)には、復元
結果から、終了制御文字列を取り除いて(ステップS8
11)、部分復元処理を終了する。
【0122】以下、図14の“2.特許請求の範囲”が
指定された場合を例に、インデックス対応領域復元処理
をさらに具体的に説明する。この場合、対応するインデ
ックスデータは、“<SECTION>2.特許請求の
範囲</SECTION>”であるので、終了制御文字
列として“<SECTION>”が特定される。そし
て、部分復元処理が開始され、まず、圧縮文書ファイル
内から“<SECTION>2.特許請求の範囲</S
ECTION>”が検索される。次いで、圧縮文書ファ
イル内の検索された文字列の最初の文字から復元が開始
され、“<SECTION>2.特許請求の範囲</S
ECTION>”が非圧縮データ処理ループによって処
理されることになる。その後に行われる最初の圧縮デー
タ処理ループでは、圧縮文書ファイル内に記憶された圧
縮データである復号終了文字列“<SUBSECTIO
N>”が復元される。しかし、その文字列は、終了制御
文字列“<SECTION>”と一致していないので、
データ処理装置は、圧縮文書ファイルの復元を続ける。
そして、次に圧縮データ処理ループを実行した際には、
“<SECTION>”が復元されるので、データ処理
装置は、その“<SECTION>”を復元結果から取
り除き、部分復元処理を終える。すなわち、“<SEC
TION>3.発明の詳細な説明</SECTION
>”の前の部分まで復元を行い、部分復元処理を終了す
る。
【0123】結局、インデックス対応領域復元処理で
は、図19に模式的に示したように、選択されたインデ
ックスに応じた領域(図中、罫線で囲んだ領域)内のデ
ータが復元される。すなわち、タイトルに関するインデ
ックスを選択した場合には、全ての内容が復元され、サ
ブセクションレベルのインデックスを選択した場合に
は、そのサブセクションレベルのデータだけが復元され
る。また、セクションレベルのインデックスを選択した
場合、そのセクションに関するデータ(サブセクション
レベルのデータを含む)が全て復元される。
【0124】このように、第3実施形態の文書管理装置
によれば、圧縮文書ファイルの一部分だけを復元するこ
とができる。以上説明したように、第3実施形態の文書
管理装置では、圧縮文書ファイル内の各非圧縮データ
に、符号化終了文字列(開始タグ)を含ませるために、
圧縮データの出力後に符号化終了文字列を付加するとい
った手順を採用している。しかし、処理すべき文字を何
文字がバッファリングしておき、開始タグの一部ではな
いことが確定した文字に対して符号化が行われるように
装置を構成することによって、圧縮文書ファイル内の各
非圧縮データに、開始タグを含ませることも可能であ
る。ただし、このように装置を構成した場合、圧縮文書
ファイル内の圧縮データに対しては、開始タグを検索し
つつ(予め圧縮データ、非圧縮データの境を定めてお
き)、復号を行うことになる。
【0125】第4実施形態 第4実施形態の文書管理装置は、第3実施形態の文書管
理装置と同じインデックスファイルを作成する。ただ
し、第4実施形態の文書管理装置は、静的符号化を用い
て圧縮された第1圧縮データと、動的符号化により圧縮
された第2圧縮データが混在する圧縮文書ファイルを作
成する。また、圧縮文書ファイルとインデックスファイ
ルを関係づけるファイルとして、対応領域管理ファイル
を作成する。
【0126】図20に、第4実施形態の文書管理装置
(データ処理装置)による圧縮文書ファイル作成手順を
示す。なお、第4実施形態の文書管理装置では、符号化
開始文字列として“</TITLE>”、“</SEC
TION>”、“</SUBSECTION>”が与え
られており、符号化終了文字列として、“<SECTI
ON>”、“<SUBSECTION>”が与えられて
いる。
【0127】文書データの圧縮を最初に指示された際、
データ処理装置内では、第1圧縮データ出力処理ループ
(ステップS901〜S903)が開始される。第1圧
縮データ出力処理ループ実行時、データ処理装置は、ま
ず、文書データ内の1文字(対象文字)をそのままイン
デックスファイルに出力するととともに、その対象文字
を、静的符号表を用いて符号化することによって得られ
た符号を、圧縮文書ファイル内に書き込む(ステップS
901)。なお、データ処理装置は、このステップにお
いて、圧縮文書ファイルに対して出力したデータサイズ
の積算も行う。
【0128】次いで、データ処理装置は、文書データを
構成する全ての文字に対する処理が終了しているか否か
を判断する(ステップS902)。そして、処理すべき
データ(文字)が残っていた場合(ステップS902;
N)には、処理した文字列が、予め定められている符号
化開始文字列の1つと一致している否かを判断する(ス
テップS903)。
【0129】処理した文字列が符号化開始文字列と一致
していなかった場合(ステップS903;N)、データ
処理装置は、ステップS901からの処理を再度実行す
る。一方、処理した文字列が、符号化開始文字列の1つ
と一致した場合(ステップS903;Y)、データ処理
装置は、第2圧縮データ出力処理ループ(ステップS9
04〜S907)を開始する。
【0130】第2圧縮データ出力処理ループ実行時、デ
ータ処理装置は、文書データから次の1文字を読み込
み、圧縮文書ファイル内に、その対象文字に対応する符
号を出力する(ステップS904)。なお、このステッ
プにおける符号出力は、対象文字の文脈を参照した形で
行われる。また、データ処理装置は、このステップにお
いて、圧縮文書ファイルに書き込んだデータサイズの積
算も行う。次いで、データ処理装置は、符号化に用いた
文脈に関する符号表の内容を更新する(ステップS90
5)。
【0131】次に、データ処理装置は、文書データを構
成する全ての文字に対する処理が終了しているか否かを
判断する(ステップS906)。そして、処理すべきデ
ータが残っていた場合(ステップS906;N)、デー
タ処理装置は、処理した文字列が、予め定められている
符号化終了文字列の1つと一致するか否かを判断する
(ステップS907)。そして、処理した文字列がいず
れの符号化終了文字列と一致していなかった場合(ステ
ップS907;N)、データ処理装置は、ステップS9
04からの処理を再度実行する。一方、処理した文字列
が、符号化終了文字列の1つと一致していた場合(ステ
ップS907;Y)、データ処理装置は、符号表の初期
化を行う(ステップS908)。
【0132】次いで、データ処理装置は、ステップS9
07で検出した符号化終了文字列をインデックスファイ
ルに出力するとともに、その文字列を静的符号化した符
号を圧縮文書ファイルに出力する(ステップS90
9)。また、データ処理装置は、格納した静的符号の、
圧縮文書ファイル内での格納位置情報(静的符号の先頭
ビットまでの圧縮文書ファイル内のデータサイズ)を、
対応関係管理ファイルに記憶する(ステップS91
0)。なお、データ処理装置は、それまで積算してきた
データサイズの積算結果を基に格納位置情報を定め、格
納位置情報を定めた後に、積算結果に、ステップS90
9で書き込んだ静的符号のデータサイズを積算する。
【0133】その後、データ処理装置は、第1圧縮デー
タ出力処理ループを再度実行する。そして、データ処理
装置は、第1圧縮データ出力処理ループにおいて全デー
タに関する処理が終了したことを検出した際(ステップ
S902;Y)、あるいは、第2圧縮データ出力処理ル
ープにおいて全データに関する処理が終了したことを検
出した際(ステップS906;Y)に、圧縮文書ファイ
ル作成処理を終了する。
【0134】すなわち、第4実施形態の文書管理装置で
は、図21に模式的に示したような、静的符号化による
第1圧縮データ(図中、下線を付した部分)と、動的符
号化による第2圧縮データが混在する圧縮文書ファイル
が作成される。そして、2番目以降の第1圧縮データの
先頭ビットの格納位置が記憶された対応関係管理ファイ
ルが作成される。
【0135】次に、第4実施形態の文書管理装置におけ
るインデックス対応領域復元処理を説明する。インデッ
クス対応領域復元処理の全体的な流れは、図15に示し
たものと同じであるので、説明は省略する。
【0136】図22に、第4実施形態の文書管理装置に
おける部分復元処理の流れを示す。この部分復元処理の
基本的な流れは、既に説明した第3実施形態の文書管理
装置による部分復元処理と同じものとなっている。この
ため、ここでは、動作内容が異なるステップだけを説明
することにする。
【0137】第3実施形態の文書管理装置では、インデ
ックスデータの格納位置を検索することによって、復元
開始位置が特定される。これに対して、第4実施形態の
文書管理装置では、対応関係管理ファイルを参照するこ
とによって、復元開始位置が特定(ステップS100
0)される。具体的には、データ処理装置は、まず、ユ
ーザによって指定されたインデックスデータがインデッ
クスファイル内の何番目のデータであるかを判別する。
例えば、M番目のデータであった場合、データ処理装置
は、対応関係管理ファイル内の、M−1番目の格納位置
情報を読み出す。そして、その格納位置情報によって定
められる位置を、復元開始位置と特定する。
【0138】その後、復元開始位置以降のデータに対し
て処理が行われていくことになるが、第4実施形態の文
書管理装置では、インデックスに関する処理時に、静的
符号表を用いた復号が行われる。
【0139】すなわち、復元開始位置の特定の直後に行
われるループでは、その最初に、圧縮文書ファイルから
必要量のデータを読み出し、そのデータを静的符号表を
用いて復号する処理が行われる(ステップS100
1)。また、ステップS1110では、復号終了文字列
に対応する符号が読み飛ばされる。
【0140】
【発明の効果】以上、詳細に説明したように、本発明の
文書管理装置によれば、キーワード検索が可能な形態で
文書データが圧縮されてファイル化される。このため、
本発明の文書管理装置によれば、ハードディスク装置な
どのファイルを記憶するための装置の記憶容量を有効に
活用しつつ、高速な文書データ処理が行えることにな
る。
【0141】また、本発明のデータ圧縮方法によれば、
キーワード検索が可能な形態でデータを圧縮することが
できる。そして、本発明のデータ復元方法によれば、本
発明のデータ圧縮方法によって圧縮されたデータを復元
できる。
【図面の簡単な説明】
【図1】本発明の第1実施形態の文書管理装置の構成を
示すブロック図である。
【図2】第1実施形態の文書管理装置による圧縮文書フ
ァイル作成手順を説明するための機能ブロック図であ
る。
【図3】第1実施形態の文書管理装置による圧縮文書フ
ァイル作成手順を示す流れ図である。
【図4】SGML形式で記述された文書データの一例を
示した図である。
【図5】図4に示した文書データから、第1実施形態の
文書管理装置によって作成される圧縮文書ファイルの概
要を示す図である。
【図6】本発明の第1実施形態の文書管理装置の復元動
作を説明するための機能ブロック図である。
【図7】本発明の第1実施形態の文書管理装置による圧
縮文書ファイル復元手順を示す流れ図である。
【図8】本発明の第2実施形態の文書管理装置による圧
縮文書ファイルの作成手順を説明するための機能ブロッ
ク図である。
【図9】本発明の第2実施形態の文書管理装置による圧
縮文書ファイルの作成手順を示す流れ図である。
【図10】本発明の第2実施形態の文書管理装置による
圧縮文書ファイルの復元手順を説明するための機能ブロ
ック図である。
【図11】本発明の第2実施形態の文書管理装置による
圧縮文書ファイルの復元手順を示す流れ図である。
【図12】本発明の第3実施形態の文書管理装置による
圧縮文書ファイルの作成手順を示す流れ図である。
【図13】第3実施形態の文書管理装置によって作成さ
れる圧縮文書ファイルの概要図である。
【図14】第3実施形態の文書管理装置によって作成さ
れるインデックスファイルの概要図である。
【図15】第3実施形態の文書管理装置におけるインデ
ックス対応領域復元処理の流れ図である。
【図16】第3実施形態の文書管理装置による圧縮文書
ファイルの作成手順を示す流れ図である。
【図17】第3実施形態の文書管理装置において実行さ
れる全体復元処理の流れ図である。
【図18】第3実施形態の文書管理装置において実行さ
れる部分復元処理の流れ図である。
【図19】インデックス対応領域復元処理において復元
される領域と、インデックスとの対応関係を示した説明
図である。
【図20】本発明の第4実施形態の文書管理装置による
圧縮文書ファイル作成手順を示す流れ図である。
【図21】第4実施形態の文書管理装置によって作成さ
れる圧縮文書ファイルの概要を示す図である。
【図22】第4実施形態の文書管理装置において実行さ
れる部分復元処理の流れ図である。
【符号の説明】
11 記憶装置 12 入力装置 13 表示装置 14 データ処理装置 101、201 第1文字列保持部 102、202 第2文字列保持部 103、203 入力文字列保持部 104、204 文脈保持部 105 符号化開始文字列検索部 106 符号化終了文字列検索部 107、207 スイッチ 108、208 符号保持部 109 符号化部 110、210 符号更新部 122 置換部 123 置換表保持部 130、230 入力端子 131、231 出力端子 205 復号開始文字列検索部 206 復号終了文字列検索部 209 復号部 222 逆置換部 223 逆置換表保持部
フロントページの続き (56)参考文献 特開 昭61−204741(JP,A) 特開 昭62−68325(JP,A) 特開 平5−128107(JP,A) 特開 平8−16576(JP,A) 特開 昭61−265668(JP,A) (58)調査した分野(Int.Cl.7,DB名) H03M 7/40

Claims (18)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字列に応じた圧縮文書デー
    タを作成する文書管理装置において、 1個以上の開始制御文字列と1個以上の終了制御文字列
    を記憶する制御文字列記憶手段と、 入力された文字を符号化した符号化データを出力する符
    号化手段と、 入力文字列から開始制御文字列及び終了制御文字列を検
    索する検索手段と、 前記検索手段によって前記開始制御文字列が検索された
    ときに、以降の入力文字列を前記符号化手段によって符
    号化した符号化データを圧縮文書データの要素として出
    力する処理を開始し、前記検索手段によって前記終了制
    御文字列が検索されたときには、前記符号化手段による
    符号化を行わずに、以降の入力文字列をそのまま圧縮文
    書データの要素として出力する処理を開始する制御手段
    とを備えることを特徴とする文書管理装置。
  2. 【請求項2】 入力された圧縮文書データを復元した文
    書データを出力する文書管理装置において、 1個以上の開始制御文字列と1個以上の終了制御文字列
    を記憶する制御文字列記憶手段と、 入力された符号を複合した文字を出力する復号手段と、 復元を終えた文書データの末尾に開始制御文字列あるい
    は終了制御文字列が存在するか否かを判別する判別手段
    と、 この判別手段によって開始制御文字列の存在が判別され
    たときに、以降の圧縮文書データを前記復号手段によっ
    て復号した文字を文書データの要素として出力する処理
    を開始し、前記判別手段によって終了制御文字列が検索
    されたときには、前記復号手段による復号を行わずに、
    以降の圧縮文書データをそのまま文書データの要素とし
    て出力する処理を開始する制御手段とを備えることを特
    徴とする文書管理装置。
  3. 【請求項3】 前記符号化手段は、動的モデルを用い
    て、前記文字に対応する符号を出力し、 前記制御手段は、前記検索手段によって前記終了制御文
    字列が検索されたときに、前記符号化手段が用いる動的
    モデルを初期化することを特徴とする請求項2記載の文
    書管理装置。
  4. 【請求項4】 前記制御手段は、以降の入力文字列を非
    符号化データとして出力する処理を開始する際に、前記
    検索手段によって検索された終了制御文字列を圧縮文書
    データの要素として出力することを特徴とする請求項2
    または請求項3に記載の文書管理装置。
  5. 【請求項5】 前記制御手段は、前記検索手段によって
    前記終了制御文字列が検索されたときには、前記符号化
    手段による符号化を行わずに、以降の入力文字列を、入
    力文字と出力文字との対応関係が定められた置換表を用
    いて置換し、置換結果を非符号化データとして出力する
    処理を開始することを特徴とする請求項2ないし請求項
    4のいずれかに記載の文書管理装置。
  6. 【請求項6】 さらに、圧縮文書データに対してある文
    字列の検索が指示された際に、その文字列を前記置換表
    を用いて置換する置換手段と、 この置換手段によって置換された文字列を用いた検索を
    実行する検索手段とを備えることを特徴とする請求項5
    記載の文書管理装置。
  7. 【請求項7】 幾つかの文書要素の前後に、それぞれ、
    その文書要素の内容に応じた開始制御文字列と終了制御
    文字列が挿入された文書データを対象とする文書管理装
    置であって、 データを表示するための表示手段と、 1個以上の開始制御文字列と1個以上の終了制御文字列
    を記憶する制御文字列記憶手段と、 圧縮すべき文書データ内の文字を順に読み出す第1読出
    手段と、 この第1読出手段によって読み出された文字をそのまま
    圧縮文書ファイルの要素として出力するとともに、その
    文字をインデックスファイルの要素として出力する第1
    出力手段と、 前記第1読出手段によって前記制御文字列記憶手段内の
    いずれかの開始制御文字列と同じ文字列が読み出された
    ときに前記第1読出手段の動作を中止させる第1制御手
    段と、 この第1制御手段によって前記第1読出手段の動作が中
    止されたときに、前記文書データ内の文字の読み出しを
    開始する第2読出手段と、 この第2読出手段によって読み出された文字に対応する
    符号を、圧縮文書データの要素として出力する第2出力
    手段と、 前記第2読出手段によって前記制御文字列記憶手段内の
    いずれかの終了制御文字列と同じ文字列が読み出された
    ときに、前記第2読出手段の動作を中止させるととも
    に、前記第1読出手段の動作を再開させる第2制御手段
    と、 前記圧縮文書ファイルと前記インデックスファイルを記
    憶する記憶手段と、 所定の指示が与えられた際に、前記記憶手段に記憶され
    たインデックスファイル内の、前記終了制御文字列で区
    切られた各データをインデックスとして前記表示手段に
    表示する表示制御手段と、 この表示制御手段によって表示されたインデックスの中
    から1つのインデックスを指定する指定手段と、 この指定手段によって指定されたインデックスの前記圧
    縮文書ファイル内での格納位置を特定する格納位置特定
    手段と、 前記圧縮文書ファイル内の、前記格納位置特定手段で特
    定された格納位置以降のデータを前記制御文字列記憶手
    段に記憶されているいずれかの終了制御文字列が復元さ
    れるまで復元する部分復元手段とを備えることを特徴と
    する文書管理装置。
  8. 【請求項8】 さらに、前記第1出力手段が出力を開始
    する度に、圧縮文書ファイルの要素としてそれまでに出
    力されたデータの積算サイズを検出して記憶する積算サ
    イズ検出記憶手段を備え、 前記格納位置特定手段は、前記積算サイズ検出記憶手段
    によって記憶されている積算サイズに基づき、前記イン
    デックスの圧縮文書ファイル内での格納位置を特定する
    ことを特徴とする請求項7記載の文書管理装置。
  9. 【請求項9】 前記部分復元手段は、 前記圧縮文書ファイル内の、前記格納位置特定手段で特
    定された格納位置以前のデータを処理済のデータである
    と認識する復元不要データ認識手段と、 圧縮文書ファイル内の未処理のデータを1文字分ずつ順
    に読み出す第1データ読出手段と、 この第1データ読出手段によって読み出されたデータを
    復号結果として出力する第1復号手段と、 この第1復号手段によって前記制御文字列記憶手段内の
    いずれかの開始制御文字列と同じ文字列が出力されたと
    きに、前記第1データ読出手段の動作を中止させる第1
    読出制御手段と、 この第1読出制御手段によって前記第1データ読出手段
    の動作が中止されたときに、前記圧縮文書ファイル内の
    未処理のデータの読み出しを開始する第2データ読出手
    段と、 この第2データ読出手段によって読み出されたデータを
    復号した文字を出力する第2復号手段と、 この第2復号手段によって前記制御文字列記憶手段内の
    いずれかの終了制御文字列と同じ文字列が出力されたと
    きに、前記第2データ読出手段の動作を中止させる第2
    読出制御手段と、 この第2読出制御手段による制御が行われたときに、前
    記第2データ読出手段が読み出した文字列が前記特定手
    段によって特定されたインデックスの末尾に含まれる開
    始制御文字列に対応する終了制御文字列でなかった場合
    には、前記第1データ読出手段の動作を再開させる第3
    読出制御手段とを備えることを特徴とする請求項7また
    は請求項8記載の文書管理装置。
  10. 【請求項10】 幾つかの文書要素の前後に、それぞ
    れ、その文書要素の内容に応じた開始制御文字列と終了
    制御文字列が挿入された文書データを対象とする文書管
    理装置であって、 データを表示するための表示手段と、 1個以上の開始制御文字列と1個以上の終了制御文字列
    を記憶する制御文字列記憶手段と、 圧縮すべき文書データ内の文字を順に読み出す第1読出
    手段と、 この第1読出手段によって読み出された文字を静的符号
    化した符号を、圧縮文書ファイルの要素として出力する
    とともに、その文字をインデックスファイルの要素とし
    て出力する第1出力手段と、 前記第1読出手段によって前記制御文字列記憶手段内の
    いずれかの開始制御文字列と同じ文字列が読み出された
    ときに前記第1読出手段の動作を中止させる第1制御手
    段と、 この第1制御手段によって前記第1読出手段の動作が中
    止されたときに、前記文書データ内の文字の読み出しを
    開始する第2読出手段と、 この第2読出手段によって読み出された文字を動的符号
    化した符号を、圧縮文書ファイルの要素として出力する
    第2出力手段と、 前記第2読出手段によって前記制御文字列記憶手段内の
    いずれかの終了制御文字列と同じ文字列が読み出された
    ときに、前記第2読出手段の動作を中止させ、前記第2
    出力手段が動的符号化に用いるモデルを初期化し、前記
    第1読出手段の動作を再開させる第2制御手段と、 前記第1出力手段が出力を開始する度に、前記第1出力
    手段及び第2出力手段がそれまでに圧縮文書ファイルの
    要素として出力したデータの積算サイズを検出し、記憶
    する積算サイズ検出記憶手段と、 前記圧縮文書ファイルと前記インデックスファイルとを
    記憶する記憶手段と、 所定の指示が与えられた際に、前記記憶手段に記憶され
    ているインデックスファイル内の、前記開始制御文字列
    で区切られたデータをそれぞれインデックスとして前記
    表示手段に表示する第1表示制御手段と、 この表示制御手段によって表示されたインデックスの中
    から1つのインデックスを指定する指定手段と、 前記積算サイズ検出記憶手段内に記憶されている積算サ
    イズに基づき、前記指定手段によって指定されたインデ
    ックスの前記圧縮文書ファイル内での格納位置を特定
    し、前記圧縮文書ファイル内のそのインデックス以前の
    データを処理済のデータであると認識する復号不要デー
    タ認識手段と、 圧縮文書ファイル内の未処理のデータを読み出す第1デ
    ータ読出手段と、 この第1データ読出手段によって読み出されたデータを
    静的復号した文字を出力する第1復号手段と、 この第1復号手段によって前記制御文字列記憶手段内の
    いずれかの開始制御文字列と同じ文字列が復号されたと
    きに、前記第1データ読出手段の動作を中止させる第1
    復号制御手段と、 この第1復号制御手段によって前記第1データ読出手段
    の動作が中止されたときに、前記圧縮文書ファイル内の
    未処理のデータの読み出しを開始する第2データ読出手
    段と、 この第2データ読出手段によって読み出されたデータを
    動的復号した文字を出力する第2復号手段と、 この第2復号手段によって前記制御文字列記憶手段内の
    いずれかの終了制御文字列と同じ文字列が復号されたと
    きに、前記第2データ読出手段の動作を中止させるとと
    もに前記第2復号手段が動的復号に用いるモデルを初期
    化する第2復号制御手段と、 この第2復号制御手段による制御が行われたときに、前
    記第2復号手段によって復号された文字列が、前記指定
    手段によって指定されたインデックスの末尾に含まれる
    開始制御文字列に対応する終了制御文字列でなかった場
    合に、前記第1読出手段の動作を再開させる第3復号制
    御手段と、を備えることを特徴とする文書管理装置。
  11. 【請求項11】 開始制御文字列と終了制御文字列が挿
    入された原データを圧縮するデータ圧縮方法であって、 前記原データから開始制御文字列及び終了制御文字列を
    検索する検索ステップと、 前記検索ステップにおいて前記開始制御文字列が検索さ
    れたときに、以降の原データを符号化した符号化データ
    を圧縮データの要素として出力する処理を開始し、前記
    検索ステップにおいて前記終了制御文字列が検索された
    ときには、符号化を行わずに、以降の原データをそのま
    ま圧縮データの要素として出力する処理を開始するデー
    タ処理ステップとを備えることを特徴とするデータ圧縮
    方法。
  12. 【請求項12】 前記データ処理ステップは、動的モデ
    ルを用いて符号化を行い、前記検索ステップにおいて前
    記終了制御文字列が検索されたときには、その動的モデ
    ルを初期化することを特徴とする請求項11記載のデー
    タ圧縮方法。
  13. 【請求項13】 前記データ処理ステップは、以降の原
    データを符号化した符号化データを圧縮データの要素と
    して出力する処理を開始する際に、前記検索ステップに
    おいて検索された前記終了制御文字列を圧縮データの要
    素として出力する請求項11または請求項12記載のデ
    ータ圧縮方法。
  14. 【請求項14】 前記データ処理ステップは、前記検索
    ステップにおいて前記終了制御文字列が検索されたとき
    には、以降の原データを所定の置換表を用いて置換した
    データを圧縮データの要素として出力する処理を開始す
    ることを特徴とする請求項11または請求項12記載の
    データ圧縮方法。
  15. 【請求項15】 開始制御文字列をその末尾に有するデ
    ータと、終了制御文字列をその末尾に有するデータを符
    号化したデータとが混在する圧縮データを復元するデー
    タ復元方法であって、 復元を終えたデータの末尾に開始制御文字列あるいは終
    了制御文字列が存在するか否かを判別する判別ステップ
    と、 この判別ステップにおいて開始制御文字列の存在が判別
    されたときに、以降の圧縮データを復号した文字を復元
    結果として出力する処理を開始し、前記判別ステップに
    おいて終了制御文字列が検索されたときには、以降の圧
    縮データをそのまま復元結果として出力する処理を開始
    するデータ処理ステップとを備えるデータ復元方法。
  16. 【請求項16】 前記データ処理ステップは、動的モデ
    ルを用いて復号を行い、前記検索ステップにおいて前記
    終了制御文字列が検索されたときには、その動的モデル
    を初期化することを特徴とする請求項15記載のデータ
    復元方法。
  17. 【請求項17】 前記データ処理ステップは、復号した
    文字を出力する処理を開始する際に、最初に復号される
    終了制御文字列を復元結果として取り扱わないことを特
    徴とする請求項15または請求項16記載のデータ復元
    方法。
  18. 【請求項18】 前記データ処理ステップは、前記検索
    ステップにおいて前記終了制御文字列が検索されたとき
    には、以降の圧縮データを所定の置換表を用いて置換し
    たデータを復元結果として出力する処理を開始すること
    を特徴とする請求項15または請求項16記載のデータ
    復元方法。
JP06357396A 1996-03-19 1996-03-19 文書管理装置及びデータ圧縮方法及びデータ復元方法 Expired - Fee Related JP3305191B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP06357396A JP3305191B2 (ja) 1996-03-19 1996-03-19 文書管理装置及びデータ圧縮方法及びデータ復元方法
US08/787,537 US5854597A (en) 1996-03-19 1997-01-22 Document managing apparatus, data compressing method, and data decompressing method
EP97300534A EP0797158B1 (en) 1996-03-19 1997-01-29 Document managing apparatus, data compressing method, and data decompressing method
DE69733443T DE69733443T2 (de) 1996-03-19 1997-01-29 Gerät zur Dokumentverwaltung, Verfahren zur Datenkomprimierung und Verfahren zur Datendekomprimierung
CNB971026440A CN1168216C (zh) 1996-03-19 1997-02-21 文档管理设备,数据压缩方法和数据解压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06357396A JP3305191B2 (ja) 1996-03-19 1996-03-19 文書管理装置及びデータ圧縮方法及びデータ復元方法

Publications (2)

Publication Number Publication Date
JPH09261072A JPH09261072A (ja) 1997-10-03
JP3305191B2 true JP3305191B2 (ja) 2002-07-22

Family

ID=13233139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06357396A Expired - Fee Related JP3305191B2 (ja) 1996-03-19 1996-03-19 文書管理装置及びデータ圧縮方法及びデータ復元方法

Country Status (5)

Country Link
US (1) US5854597A (ja)
EP (1) EP0797158B1 (ja)
JP (1) JP3305191B2 (ja)
CN (1) CN1168216C (ja)
DE (1) DE69733443T2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3859313B2 (ja) * 1997-08-05 2006-12-20 富士通株式会社 タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US6311223B1 (en) * 1997-11-03 2001-10-30 International Business Machines Corporation Effective transmission of documents in hypertext markup language (HTML)
US6105021A (en) * 1997-11-21 2000-08-15 International Business Machines Corporation Thorough search of document database containing compressed and noncompressed documents
EP0928070A3 (en) * 1997-12-29 2000-11-08 Phone.Com Inc. Compression of documents with markup language that preserves syntactical structure
US6275588B1 (en) 1998-11-12 2001-08-14 I-Data International A/S Apparatus and method for performing and controlling encryption/decryption for data to be transmitted on local area network
EP1171957A2 (en) * 1998-11-12 2002-01-16 I-Data International A/S Apparatus and method for performing and controlling encryption/decryption for data to be transmitted on local area network
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
GB9911099D0 (en) * 1999-05-13 1999-07-14 Euronet Uk Ltd Compression/decompression method
JP4776050B2 (ja) * 1999-07-13 2011-09-21 ソニー株式会社 配信コンテンツ生成方法、コンテンツ配信方法および装置、並びに、コード変換方法
US6665838B1 (en) 1999-07-30 2003-12-16 International Business Machines Corporation Web page thumbnails and user configured complementary information provided from a server
US6356908B1 (en) 1999-07-30 2002-03-12 International Business Machines Corporation Automatic web page thumbnail generation
US6405192B1 (en) 1999-07-30 2002-06-11 International Business Machines Corporation Navigation assistant-method and apparatus for providing user configured complementary information for data browsing in a viewer context
US20040102197A1 (en) * 1999-09-30 2004-05-27 Dietz Timothy Alan Dynamic web page construction based on determination of client device location
JP2001147934A (ja) * 1999-11-19 2001-05-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索可能な暗号化情報配送方法及び装置
JP3368883B2 (ja) * 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
US7844579B2 (en) 2000-03-09 2010-11-30 Pkware, Inc. System and method for manipulating and managing computer archive files
US8230482B2 (en) 2000-03-09 2012-07-24 Pkware, Inc. System and method for manipulating and managing computer archive files
US6879988B2 (en) 2000-03-09 2005-04-12 Pkware System and method for manipulating and managing computer archive files
US8959582B2 (en) 2000-03-09 2015-02-17 Pkware, Inc. System and method for manipulating and managing computer archive files
US20050015608A1 (en) 2003-07-16 2005-01-20 Pkware, Inc. Method for strongly encrypting .ZIP files
US20020035580A1 (en) * 2000-09-21 2002-03-21 Yoshinori Tanabe Computer readable medium containing HTML document generation program
US7054953B1 (en) * 2000-11-07 2006-05-30 Ui Evolution, Inc. Method and apparatus for sending and receiving a data structure in a constituting element occurrence frequency based compressed form
JP4774145B2 (ja) 2000-11-24 2011-09-14 富士通株式会社 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム
JP3894280B2 (ja) 2001-02-02 2007-03-14 インターナショナル・ビジネス・マシーンズ・コーポレーション Xmlデータの符号化方法、符号化されたxmlデータの復号化方法、xmlデータの符号化システム、符号化されたxmlデータの復号化システム、プログラムおよび記録媒体
US20020138526A1 (en) * 2001-03-20 2002-09-26 International Business Machines Corporation Javascript code optimizer
JP2007257369A (ja) * 2006-03-23 2007-10-04 Fujitsu Ltd 情報検索装置
US9362948B2 (en) * 2008-02-14 2016-06-07 Broadcom Corporation System, method, and computer program product for saving and restoring a compression/decompression state
KR101503829B1 (ko) * 2007-09-07 2015-03-18 삼성전자주식회사 데이터 압축 장치 및 방법
KR101454167B1 (ko) * 2007-09-07 2014-10-27 삼성전자주식회사 데이터 압축 및 복원 장치 및 방법
US9087070B2 (en) * 2013-01-31 2015-07-21 Yahoo! Inc. System and method for applying an efficient data compression scheme to URL parameters
JP6476618B2 (ja) * 2014-07-07 2019-03-06 富士通株式会社 伸長方法、伸長プログラムおよび伸長装置
CN105070035B (zh) * 2015-08-25 2018-05-04 无锡力芯微电子股份有限公司 红外遥控码流的实时压缩方法和装置
CN115630065B (zh) * 2022-10-18 2023-08-22 天津神舟通用数据技术有限公司 一种基于多压缩模式子分区表的存储和查询方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4500955A (en) * 1981-12-31 1985-02-19 International Business Machines Corporation Full word coding for information processing
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
US5140644A (en) * 1990-07-23 1992-08-18 Hitachi, Ltd. Character string retrieving system and method
JPH0554077A (ja) * 1991-08-29 1993-03-05 Nec Corp 単語辞書検索装置
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
JPH08106600A (ja) * 1994-10-03 1996-04-23 Sekisui Jushi Co Ltd 出合い頭事故防止システム

Also Published As

Publication number Publication date
CN1168029A (zh) 1997-12-17
JPH09261072A (ja) 1997-10-03
EP0797158A2 (en) 1997-09-24
CN1168216C (zh) 2004-09-22
DE69733443T2 (de) 2005-12-22
US5854597A (en) 1998-12-29
EP0797158A3 (en) 1999-01-13
EP0797158B1 (en) 2005-06-08
DE69733443D1 (de) 2005-07-14

Similar Documents

Publication Publication Date Title
JP3305191B2 (ja) 文書管理装置及びデータ圧縮方法及びデータ復元方法
US7856595B2 (en) Structured document compressing apparatus and method, record medium in which a structured document compressing program is stored, structured document decompressing apparatus and method, record medium in which a structured document decompressing program is stored, and structured document processing system
JP3859313B2 (ja) タグ文書の圧縮装置および復元装置,圧縮方法および復元方法,圧縮/復元装置および圧縮/復元方法並びに圧縮,復元もしくは圧縮/復元プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3277792B2 (ja) データ圧縮方法および装置
KR101247075B1 (ko) 마크업 언어 데이터의 인코딩
US7305541B2 (en) Compression of program instructions using advanced sequential correlation
KR100490240B1 (ko) 데이타압축장치,데이타복원장치,데이타압축방법,데이타복원방법및프로그램기록매체
US7970802B2 (en) Document data processing method apparatus, and system for sending encoded document data
JPH0668720B2 (ja) ある構造を有するドキユメントを別の構造を有するドキユメントに変換するための装置、方法及び構造
JPH08255155A (ja) 全文登録語検索装置および方法
JP2001067348A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
KR20000069633A (ko) 파일 처리 방법, 데이터 처리 장치 및 기억 매체
US20150248432A1 (en) Method and system
JPH10261969A (ja) データ圧縮方法および装置
JP2008084341A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
KR20100021817A (ko) 텍스트 데이터 압축 방법
JPH0546357A (ja) テキストデータの圧縮方法および復元方法
JPH0546358A (ja) テキストデータの圧縮方法
JPWO2005101210A1 (ja) データ解析装置およびデータ解析プログラム
JP5674974B2 (ja) 圧縮データ処理プログラム、圧縮データ編集プログラム
JPH0973408A (ja) データ処理装置およびデータ入出力処理方法
US20160210304A1 (en) Computer-readable recording medium, information processing apparatus, and conversion process method
JP4345438B2 (ja) 辞書データ圧縮装置、電子辞書装置及びプログラム
JPH10326273A (ja) データ圧縮装置及びデータ復元装置及びデータ圧縮方法及びデータ復元方法及びプログラム記録媒体
JP2005136617A (ja) 辞書データのデータ構造、辞書圧縮装置、電子辞書装置及びプログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020416

LAPS Cancellation because of no payment of annual fees