JP3305191B2

JP3305191B2 - 文書管理装置及びデータ圧縮方法及びデータ復元方法

Info

Publication number: JP3305191B2
Application number: JP06357396A
Authority: JP
Inventors: 君孝村下; 茂吉田; 佳之岡田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-03-19
Filing date: 1996-03-19
Publication date: 2002-07-22
Anticipated expiration: 2016-03-19
Also published as: CN1168029A; JPH09261072A; EP0797158A2; CN1168216C; DE69733443T2; US5854597A; EP0797158A3; EP0797158B1; DE69733443D1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書管理装置およ
びデータ圧縮方法およびデータ復元方法に関し、特に、
文書データを圧縮して管理する文書管理装置と、文書デ
ータなどを圧縮・復元する際に用いるデータ圧縮方法と
データ復元方法に関する。

【０００２】

【従来の技術】近年、文字コード、ベクトル情報、画像
情報など様々な種類のデータがコンピュータで扱われる
ようになっている。また、扱われるデータ量も急激に増
大してきており、伝送時間を短縮するためや、記憶装置
を効率的に利用するために、データを圧縮することが行
われている。

【０００３】たとえば、アーカイバと呼ばれるアプリケ
ーションでは、１つ以上のファイルから、１つの圧縮デ
ータファイルが作成される。アーカイバを用いて、使用
頻度の低いファイルや古いファイルなどを圧縮すること
によって、ファイル容量を削減することができる。そし
て、ファイルの内容を通信によって授受する際に、アー
カイバによって作成された圧縮データファイルを用いれ
ば、通信に要する時間が短縮され、通信コストも低減す
る。

【０００４】また、ハードディスクやフロッピディスク
などのドライブを圧縮ドライブとして動作させることも
行われている。圧縮ドライブを有するシステムでは、ユ
ーザがファイルの書き込みを指示した場合、そのファイ
ルが自動的に圧縮されて圧縮ドライブ内に格納される。
そして、ユーザがファイルの読み出しを指示した場合に
は、圧縮ドライブ内のファイルが自動的に復元される。

【０００５】なお、コンピュータシステムで扱われるデ
ータには、文字、機械語、画像、音声など様々なものが
あるので、上述のようなファイル圧縮の際には、各種の
データに適用可能な符号化方式であるユニバーサル符号
化方式が用いられている。具体的には、データ（文字）
の再現性を利用した辞書型符号化方式や、確率統計型符
号化方式に分類される算術符号化方式、Splay-Tree符号
化方式などが用いられている。

【０００６】

【発明が解決しようとする課題】さて、圧縮されていな
いファイルに対しては、キーワード検索を行うことによ
り、その内容を確認することができる。たとえば、ＳＧ
ＭＬ(Standard Generalized Markup Language)形式によ
る文書データでは、文書データ中の特定の要素の前後
に、その要素の内容に応じたタグが使用されている。こ
のため、ＳＧＭＬ形式の文書データでは、そのファイル
の中から目的とする情報に付けられているタグを検索
し、その後に記憶されている文字列を読み出してやれ
ば、必要な情報を得ることができる。

【０００７】しかしながら、ＳＧＭＬ形式の文書データ
を圧縮した場合、タグの検索が行えなくなってしまう。
このため、タイトルだけを確認したい場合にも、圧縮フ
ァイル全体を復元しなければならず、確認作業に時間が
かかっていた。

【０００８】そこで、本発明の課題は、キーワード検索
が行える圧縮文書データを作成する文書管理装置を提供
することにある。また、本発明の他の課題は、キーワー
ド検索が行える圧縮データを作成するデータ圧縮方法
と、そのデータ圧縮方法によって作成された圧縮データ
を復元するデータ復元方法を提供することにある。

【０００９】

【課題を解決するための手段】本発明の文書管理装置
は、幾つかの文書要素の前後に、それぞれ、その文書要
素の内容に応じた開始制御文字列と終了制御文字列が挿
入された文書データを対象とする。

【００１０】本発明の第１の文書管理装置は、１個以上
の開始制御文字列と１個以上の終了制御文字列を記憶す
る制御文字列記憶手段と、入力された文字を符号化した
符号化データを出力する符号化手段と、入力文字列から
開始制御文字列及び終了制御文字列を検索する検索手段
と、検索手段によって開始制御文字列が検索されたとき
に、以降の入力文字列を符号化手段によって符号化した
符号化データを圧縮文書データの要素として出力する処
理を開始し、検索手段によって終了制御文字列が検索さ
れたときには、符号化手段による符号化を行わずに、以
降の入力文字列をそのまま圧縮文書データの要素として
出力する処理を開始する制御手段とを備える。

【００１１】すなわち、第１の文書管理装置は、文書デ
ータに基づき、圧縮されていないデータと圧縮データと
が混在する圧縮文書データを作成する。従って、第１の
文書管理装置が作成する圧縮文書データは、復元しなく
とも、キーワード検索を行うことによってその内容を確
認できる。このため、第１の文書管理装置によれば、効
率的な文書データ管理が行えることになる。

【００１２】なお、第１の文書管理装置によって作成さ
れた圧縮文書データは、１個以上の開始制御文字列と１
個以上の終了制御文字列を記憶する制御文字列記憶手段
と、入力された符号を複合した文字を出力する復号手段
と、復元を終えた文書データの末尾に開始制御文字列あ
るいは終了制御文字列が存在するか否かを判別する判別
手段と、この判別手段によって開始制御文字列の存在が
判別されたときに、以降の圧縮文書データを復号手段に
よって復号した文字を文書データの要素として出力する
処理を開始し、判別手段によって終了制御文字列が検索
されたときには、復号手段による復号を行わずに、以降
の圧縮文書データをそのまま文書データの要素として出
力する処理を開始する制御手段とを備える文書管理装置
によって復元される。

【００１３】本発明の第１の文書管理装置では、符号化
手段として、動的モデル（例えば、ダイナミックハフマ
ン）を用いて文字に対応する符号を出力する手段を採用
するとともに、制御手段として、検索手段によって終了
制御文字列が検索されたときに、符号化手段が用いる動
的モデルを初期化する手段を採用することができる。こ
のように文書管理装置を構成した場合には、その内容の
一部だけを復元することができる圧縮文書データが作成
されることになる。

【００１４】また、第１の文書管理装置では、制御手段
として、以降の入力文字列を非符号化データとして出力
する処理を開始する際に、検索手段によって検索された
終了制御文字列を圧縮文書データの要素として出力する
手段を採用することもできる。

【００１５】このように文書管理装置を構成した場合に
は、文書データ内に存在していた開始制御文字列と終了
制御文字列で挟まれた文書要素が、そのまま記憶された
圧縮文書データが作成される。このため、この文書管理
装置によれば、圧縮文書データに対する、キーワード検
索がさらに容易に行えることになる。

【００１６】本発明の第１の文書管理装置では、制御手
段として、検索手段によって終了制御文字列が検索され
たときには、符号化手段による符号化を行わずに、以降
の入力文字列を、入力文字と出力文字との対応関係が定
められた置換表を用いて置換し、置換結果を非符号化デ
ータとして出力する処理を開始する手段を採用すること
ができる。

【００１７】このように文書管理装置を構成した場合、
そのまま読みとれるデータが含まれていない圧縮文書デ
ータが作成される。従って、この文書管理装置が作成し
た圧縮文書データを、インターネットを用いて転送した
としても、中間のマシンによってその内容が読みとられ
ることがない。このため、この文書管理装置によれば、
データ通信時の秘匿性を高めることができる。

【００１８】なお、文字を置換して出力するよう装置を
構成する場合には、文書管理装置に、圧縮文書データに
対してある文字列の検索が指示された際に、その文字列
を置換表を用いて置換する置換手段と、この置換手段に
よって置換された文字列を用いた検索を実行する検索手
段とを付加することが望ましい。

【００１９】本発明の第２の文書管理装置は、データを
表示するための表示手段と、１個以上の開始制御文字列
と１個以上の終了制御文字列を記憶する制御文字列記憶
手段と、圧縮すべき文書データ内の文字を順に読み出す
第１読出手段と、この第１読出手段によって読み出され
た文字を圧縮文書ファイルの要素として出力するととも
に、その文字をインデックスファイルの要素として出力
する第１出力手段と、第１読出手段によって制御文字列
記憶手段内のいずれかの開始制御文字列と同じ文字列が
読み出されたときに第１読出手段の動作を中止させる第
１制御手段と、この第１制御手段によって第１読出手段
の動作が中止されたときに、文書データ内の文字の読み
出しを開始する第２読出手段と、この第２読出手段によ
って読み出された文字に対応する符号を、圧縮文書デー
タの要素として出力する第２出力手段と、第２読出手段
によって制御文字列記憶手段内のいずれかの終了制御文
字列と同じ文字列が読み出されたときに、第２読出手段
の動作を中止させるとともに、第１読出手段の動作を再
開させる第２制御手段と、圧縮文書ファイルとインデッ
クスファイルを記憶する記憶手段と、所定の指示が与え
られた際に、記憶手段に記憶されたインデックスファイ
ル内の、開始制御文字列で区切られた各データをインデ
ックスとして表示手段に表示する表示制御手段と、この
表示制御手段によって表示されたインデックスの中から
１つのインデックスを指定する指定手段と、この指定手
段によって指定されたインデックスの圧縮文書ファイル
内での格納位置を特定する格納位置特定手段と、圧縮文
書ファイル内の、格納位置特定手段で特定された格納位
置以降のデータを制御文字列記憶手段に記憶されている
いずれかの終了制御文字列が復元されるまで復元する部
分復元手段とを備える。

【００２０】すなわち、本発明の第２の文書管理装置
は、文書データに基づき、圧縮されていないデータ（第
１出力手段が出力するデータ）と圧縮データ（第２出力
手段が出力するデータ）とが混在する圧縮文書ファイル
を作成するとともに、第１出力手段が出力するデータか
らなるインデックスファイルを作成する。

【００２１】記憶手段に記憶されたインデックスファイ
ルの内容は、表示制御手段によって、たとえば、ＣＲＴ
などの表示手段に表示される。ユーザは、キーボードや
マウスといった入力装置から構成される指定手段を用い
て、表示手段に表示された複数のインデックスの中か
ら、１つのインデックスを指定する。また、格納位置特
定手段は、たとえば、指定されたインデックスを圧縮文
書ファイル内で検索することによって、そのインデック
スの格納位置を特定する。そして、部分復元手段は、圧
縮文書ファイル内の、その格納位置以降のデータを制御
文字列記憶手段に記憶されているいずれかの終了制御文
字列が復元されるまで復号する。

【００２２】このように、第２の文書管理装置では、圧
縮文書ファイルの内容を一部分だけ復元する機能が設け
られているので、圧縮文書ファイル全体を復元しなくと
も、その内容を確認できる。このため、第２の文書管理
装置によれば、ハードディスク装置などによって構成さ
れる記憶手段の記憶容量を有効に利用しつつ、効率的な
文書データ処理が行えることになる。

【００２３】この第２の文書管理装置に、第１出力手段
が出力を開始する度に、圧縮文書ファイルの要素として
それまでに出力されたデータの積算サイズを検出して記
憶する積算サイズ検出記憶手段を付加し、格納位置特定
手段として、積算サイズ検出記憶手段によって記憶され
ている積算サイズに基づき、インデックスの圧縮文書フ
ァイル内での格納位置を特定する手段を用いることもで
きる。

【００２４】また、第２の文書管理装置では、部分復元
手段として、圧縮文書ファイル内の、格納位置特定手段
で特定された格納位置以前のデータを処理済のデータで
あると認識する復元不要データ認識手段と、圧縮文書フ
ァイル内の未処理のデータを１文字分ずつ順に読み出す
第１データ読出手段と、この第１データ読出手段によっ
て読み出されたデータを復号結果として出力する第１復
号手段と、この第１復号手段によって制御文字列記憶手
段内のいずれかの開始制御文字列と同じ文字列が出力さ
れたときに、第１データ読出手段の動作を中止させる第
１読出制御手段と、この第１読出制御手段によって第１
データ読出手段の動作が中止されたときに、圧縮文書フ
ァイル内の未処理のデータの読み出しを開始する第２デ
ータ読出手段と、この第２データ読出手段によって読み
出されたデータを復号した文字を出力する第２復号手段
と、この第２復号手段によって制御文字列記憶手段内の
いずれかの終了制御文字列と同じ文字列が出力されたと
きに、第２データ読出手段の動作を中止させる第２読出
制御手段と、この第２読出制御手段による制御が行われ
たときに、第２データ読出手段が読み出した文字列が特
定手段によって特定されたインデックスの末尾に含まれ
る開始制御文字列に対応する終了制御文字列でなかった
場合には、第１データ読出手段の動作を再開させる第３
読出制御手段とからなる手段を用いることができる。

【００２５】このような構成の部分復元手段を用いた場
合には、指定手段で指定したインデックスに応じた範囲
のデータを復元させることができることになる。本発明
の第３の文書管理装置は、データを表示するための表示
手段と、１個以上の開始制御文字列と１個以上の終了制
御文字列を記憶する制御文字列記憶手段と、圧縮すべき
文書データ内の文字を順に読み出す第１読出手段と、こ
の第１読出手段によって読み出された文字を静的符号化
した符号を、圧縮文書ファイルの要素として出力すると
ともに、その文字をインデックスファイルの要素として
出力する第１出力手段と、第１読出手段によって制御文
字列記憶手段内のいずれかの開始制御文字列と同じ文字
列が読み出されたときに第１読出手段の動作を中止させ
る第１制御手段と、この第１制御手段によって第１読出
手段の動作が中止されたときに、文書データ内の文字の
読み出しを開始する第２読出手段と、この第２読出手段
によって読み出された文字を動的符号化した符号を、圧
縮文書ファイルの要素として出力する第２出力手段と、
第２読出手段によって制御文字列記憶手段内のいずれか
の終了制御文字列と同じ文字列が読み出されたときに、
第２読出手段の動作を中止させ、第２出力手段が動的符
号化に用いるモデルを初期化し、第１読出手段の動作を
再開させる第２制御手段と、第１出力手段が出力を開始
する度に、第１出力手段及び第２出力手段がそれまでに
圧縮文書ファイルの要素として出力したデータの積算サ
イズを検出し、記憶する積算サイズ検出記憶手段と、圧
縮文書ファイルとインデックスファイルとを記憶する記
憶手段と、所定の指示が与えられた際に、記憶手段に記
憶されているインデックスファイル内の、開始制御文字
列で区切られたデータをそれぞれインデックスとして表
示手段に表示する第１表示制御手段と、この表示制御手
段によって表示されたインデックスの中から１つのイン
デックスを指定する指定手段と、積算サイズ検出記憶手
段内に記憶されている積算サイズに基づき、指定手段に
よって指定されたインデックスの圧縮文書ファイル内で
の格納位置を特定し、圧縮文書ファイル内のそのインデ
ックス以前のデータを処理済のデータであると認識する
復号不要データ認識手段と、圧縮文書ファイル内の未処
理のデータを読み出す第１データ読出手段と、この第１
データ読出手段によって読み出されたデータを静的復号
した文字を出力する第１復号手段と、この第１復号手段
によって制御文字列記憶手段内のいずれかの開始制御文
字列と同じ文字列が復号されたときに、第１データ読出
手段の動作を中止させる第１復号制御手段と、この第１
復号制御手段によって第１データ読出手段の動作が中止
されたときに、圧縮文書ファイル内の未処理のデータの
読み出しを開始する第２データ読出手段と、この第２デ
ータ読出手段によって読み出されたデータを動的復号し
た文字を出力する第２復号手段と、この第２復号手段に
よって制御文字列記憶手段内のいずれかの終了制御文字
列と同じ文字列が復号されたときに、第２データ読出手
段の動作を中止させるとともに第２復号手段が動的復号
に用いるモデルを初期化する第２復号制御手段と、この
第２復号制御手段による制御が行われたときに、第２復
号手段によって復号された文字列が、指定手段によって
指定されたインデックスの末尾に含まれる開始制御文字
列に対応する終了制御文字列でなかった場合に、第１読
出手段の動作を再開させる第３復号制御手段とを備え
る。

【００２６】すなわち、本発明の第３の文書管理装置で
は、文書データに基づき、静的符号化により圧縮された
データ（第１出力手段が出力するデータ）と動的符号化
により圧縮されたデータ（第２出力手段が出力するデー
タ）とが混在する圧縮文書ファイルが作成されるととも
に、第１出力手段が出力する圧縮文書データに対応する
非圧縮データからなるインデックスファイルが作成され
る。

【００２７】記憶手段に記憶されたインデックスファイ
ルの内容は、表示制御手段によって、たとえば、ＣＲＴ
などの表示手段に表示される。ユーザは、キーボードや
マウスといった入力装置から構成される指定手段を用い
て、表示手段に表示された複数のインデックスの中か
ら、１つのインデックスを指定する。

【００２８】復号不要データ認識手段は、検出記憶手段
内の積算サイズに基づき、ユーザによって指定されたイ
ンデックスの圧縮文書ファイル内での格納位置を特定
し、そのインデックス以前のデータを処理済のデータで
あると認識する。そして、この復号不要データ認識手段
によって処理済であると認識されたデータ以降のデータ
に対して、ユーザによって指定されたインデックスの末
尾に含まれる開始制御文字列に対応する終了制御文字列
が復元されるまで、各部による処理が繰り返される。

【００２９】このように、第３の文書管理装置では、２
種類の圧縮方法を用いて文書データを圧縮した圧縮文書
ファイルが作成されるので、圧縮文書ファイルのサイズ
が小さく、ハードディスク装置などによって構成される
記憶手段の記憶容量を有効に利用できることになる。ま
た、キーワード検索可能なインデックスファイルが作成
されるので、圧縮文書ファイルを復元しなくとも、その
内容を推定できる。また、圧縮文書ファイルの内容を一
部分だけ復元する機能が設けられているので、必要な部
分だけを復元することができる。このため、第３の文書
管理装置によれば、効率的な文書データ処理が行えるこ
とになる。

【００３０】本発明のデータ圧縮方法は、幾つかのデー
タ要素の前後に、それぞれ、終了制御文字列と開始制御
文字列が挿入された原データを対象とする。本発明のデ
ータ圧縮方法は、原データから開始制御文字列及び終了
制御文字列を検索する検索ステップと、検索ステップに
おいて開始制御文字列が検索されたときに、以降の原デ
ータを符号化した符号化データを圧縮データの要素とし
て出力する処理を開始し、検索ステップにおいて終了制
御文字列が検索されたときには、符号化を行わずに、以
降の原データをそのまま圧縮データの要素として出力す
る処理を開始するデータ処理ステップとを備える。

【００３１】このように、本発明のデータ圧縮方法で
は、圧縮されていないデータと圧縮データとが混在する
圧縮データ、すなわち、キーワード検索可能な圧縮デー
タが作成される。

【００３２】このデータ圧縮方法によって作成された圧
縮データファイルは、以下に記すデータ復元方法によっ
て復元される。本発明のデータ復元方法は、復元を終え
たデータの末尾に開始制御文字列あるいは終了制御文字
列が存在するか否かを判別する判別ステップと、この判
別ステップにおいて開始制御文字列の存在が判別された
ときに、以降の圧縮データを復号した文字を復元結果と
して出力する処理を開始し、判別ステップにおいて終了
制御文字列が検索されたときには、以降の圧縮データを
そのまま復元結果として出力する処理を開始するデータ
処理ステップとを備える。

【００３３】本発明のデータ圧縮方法では、データ処理
ステップとして、動的モデルを用いて符号化を行い、検
索ステップにおいて終了制御文字列が検索されたときに
は、その動的モデルを初期化するステップを用いること
ができる。

【００３４】このデータ圧縮方法によって作成された圧
縮データを復元する際には、上述のデータ復元方法のデ
ータ処理ステップとして、動的モデルを用いて復号を行
い、検索ステップにおいて終了制御文字列が検索された
ときには、その動的モデルを初期化するステップを用い
る。

【００３５】本発明のデータ圧縮方法では、データ処理
ステップとして、以降の原データを符号化した符号化デ
ータを圧縮データの要素として出力する処理を開始する
際に、検索ステップにおいて検索された終了制御文字列
を圧縮データの要素として出力するステップを採用する
こともできる。

【００３６】このデータ圧縮方法によって作成された圧
縮データを復元する際には、本発明のデータ復元方法に
おけるデータ処理ステップとして、復号した文字を出力
する処理を開始する際に、最初に復号される終了制御文
字列を復元結果として取り扱わないステップを採用す
る。

【００３７】また、本発明のデータ圧縮方法では、デー
タ処理ステップとして、検索ステップにおいて終了制御
文字列が検索されたときには、以降の原データを所定の
置換表を用いて置換したデータを圧縮データの要素とし
て出力する処理を開始するステップを用いることもでき
る。

【００３８】このデータ圧縮方法によって作成された圧
縮データを復元する際には、上述のデータ復元方法のデ
ータ処理ステップとして、検索ステップにおいて終了制
御文字列が検索されたときには、以降の圧縮データを所
定の置換表を用いて置換したデータを復元結果として出
力する処理を開始するステップを採用する。

【００３９】

【発明の実施の形態】以下、本発明を図面を用いて詳細
に説明する。まず、本発明の文書管理装置が対象とする
文書データの記述形式の概要を説明する。本発明の文書
管理装置は、文書を制御する文字と文書とが同一のデー
タ内に格納されている文書データを対象とする。ここで
は、ＳＧＭＬ形式の文書データを対象とした場合を例
に、実施形態の文書管理装置を説明する。ＳＧＭＬ形式
で記述された文書データのようなは、１９８６年にＩＳ
Ｏが制定した文書形式の国際規格である。ＳＧＭＬ形式
による文書データでは、文書データ中の特定の要素の前
後に、その要素の内容に応じたタグと呼ばれる制御文字
列が使用される。たとえば、文書のタイトルを表す要素
の前には、“＜ＴＩＴＬＥ＞”といった開始タグが使用
され、その要素の後には、“＜／ＴＩＴＬＥ＞”といっ
た終了タグが使用される。

【００４０】第１実施形態第１実施形態の文書管理装置は、文書データをファイル
化する際に、圧縮データと非圧縮データが混在するファ
イル（以下、圧縮文書ファイルと表記する）を作成す
る。

【００４１】図１に、本発明の第１実施形態による文書
管理装置の構成を示す。図示したように、第１実施形態
の文書管理装置は、記憶装置１１と入力装置１２と表示
装置１３とデータ処理装置１４とを備える。記憶装置１
１は、いわゆる、磁気ディスク記憶装置であり、圧縮文
書ファイルなどを記憶する。入力装置１２は、キーボー
ド及びマウスとその周辺機器から構成されている。表示
装置１３は、ＣＲＴ(Cathod Ray Tube)とその周辺機器
からなり、記憶装置１１内に記憶された圧縮文書ファイ
ルの復元結果などを表示するために用いられる。

【００４２】データ処理装置１４は、ＣＰＵ(Central P
rocessing Unit)を中心として構成されており、文書デ
ータの編集機能を有する。また、データ処理装置１４
は、入力装置１１から与えられる指示に応じて、文書デ
ータから圧縮文書ファイルを作成する処理や、圧縮文書
ファイルを文書データに復元する処理を実行する。

【００４３】以下、本文書管理装置（データ処理装置１
４）の動作を説明する。まず、図２に示した機能ブロッ
ク図を用いて、データ処理装置１４による圧縮文書ファ
イルの作成動作を説明する。

【００４４】図示したように、データ処理装置１４は、
スイッチ１０７と、スイッチ１０７のＳ２端子側に設け
られた入力文字列保持部１０３と第１文字列保持部１０
１と符号化開始文字列検索部１０５と、スイッチ１０７
のＳ１端子側に設けられた第２文字列保持部１０２と文
脈保持部１０４と符号化終了文字列検索部１０６と符号
保持部１０８と符号化部１０９と符号更新部１１０とか
らなる。

【００４５】圧縮すべき文書データは、文字毎に、入力
端子１３０からスイッチ１０７に供給される。スイッチ
１０７は、入力された文字を、Ｓ１端子あるいはＳ２端
子のいずれか一方の端子から出力するスイッチである。
スイッチ１０７は、圧縮文書ファイルの作成開始時、Ｓ
２端子から文字を出力する。

【００４６】まず、スイッチ１０７が、文字をＳ２端子
側に出力しているときの各部の動作を説明する。スイッ
チ１０７のＳ２端子から文字が出力されている場合、入
力文字列保持部１０３と第１文字列保持部１０１と符号
化開始文字列検索部１０５が機能する。Ｓ２端子からの
文字は、出力端子１３１から出力されて、圧縮文書ファ
イルの構成データとされるとともに、入力文字列保持部
１０３に入力される。入力文字列保持部１０３は、所定
値Ｎ１個の文字からなる文字列を保持する能力を有し、
Ｓ２端子から供給される文字で、保持する文字列の内容
を更新する。すなわち、入力文字列保持部１０３は、Ｍ
（＜Ｎ１）個の文字からなる文字列を保持していた場合
に、Ｓ２端子から文字が供給された際には、その文字列
の末尾に供給された文字を追加する。また、Ｎ１個の文
字からなる文字列を保持していた場合に、Ｓ２端子から
文字が供給された際には、その文字列の先頭から１文字
を取り除き、その末尾にＳ２端子からの文字を追加す
る。

【００４７】第１文字列保持部１０１は、終了タグから
選択された幾つかの符号化開始文字列（＜／ＳＥＣＴＩ
ＯＮ＞、＜／ＳＵＢＳＥＣＴＩＯＮ＞等）を保持してい
る。なお、入力文字列保持部１０３が保持する文字列の
文字数の最大値Ｎ１は、この第１文字列保持部１０３内
の最長の符号化開始文字列の文字数となっている。

【００４８】符号化開始文字列検索部１０５は、入力文
字列保持部１０３に新たな文字が入力される度に、入力
文字列保持部１０３内の文字列の末尾に、第１文字列保
持部１０１内に保持されているいずれかの符号化開始文
字列と一致する文字列が存在しているか否かを検索す
る。そして、いずれかの符号化開始文字列と一致する文
字列が存在していなかった場合、符号化開始文字列検索
部１０５は、何も行わず、次の文字の入力を待機する。
一方、符号化開始文字列と一致する文字列が存在してい
た場合、符号化開始文字列検索部１０５は、スイッチ１
０７のデータの出力先をＳ２端子からＳ１端子に切り替
える。

【００４９】たとえば、入力文字列保持部１０３内に
“＊＊＊＊＜／ＳＥＣＴＩＯＮ”とい文字列が保持され
ているときに、Ｓ２端子から文字“＞”が供給された場
合、入その文字列は“＊＊＊＜／ＳＥＣＴＩＯＮ＞”に
更新される。従って、符号化開始文字列検索部１０５
は、入力文字列保持部１０３内の文字列の末尾に符号化
開始文字列“＜／ＳＥＣＴＩＯＮ＞”を見いだし、スイ
ッチ１０７対してデータの出力先の切換を指示すること
になる。出力端子１３１からは、この時点まで、非圧縮
データが出力されることになる。

【００５０】次に、スイッチ１０７のＳ１端子から文字
が出力された場合の動作を説明する。この場合、第２文
字列保持部１０２と文脈保持部１０４と符号化終了文字
列検索部１０６と符号保持部１０８と符号化部１０９と
符号更新部１１０が機能する。

【００５１】第２文字列保持部１０２と文脈保持部１０
４と符号化終了文字列検索部１０６は、それぞれ、第１
文字列保持部１０１と入力文字列保持部１０３と符号化
開始文字列検索部１０５と類似の動作をする。

【００５２】すなわち、第２文字列保持部１０２は、終
了タグから選択された幾つかの符号化終了文字列（＜Ｓ
ＥＣＴＩＯＮ＞、＜ＳＵＢＳＥＣＴＩＯＮ＞等）を保持
する。文脈保持部１０４は、第２文字列保持部１０２が
保持する最長の符号化終了文字列と同じ長さの文字列を
保持する能力を有し、Ｓ１端子から供給される文字で、
内部に保持している文字列の内容を更新する。また、文
脈保持部１０４は、保持している文字列のうち、末尾側
の所定数の文字からなる文字列（文脈）を、符号保持部
１０８に供給する。

【００５３】符号化終了文字列検索部１０６は、文脈保
持部１０４に新たな文字が入力される度に、文脈保持部
１０４内の文字列の末尾に、第２文字列保持部１０２内
に保持されているいずれかの符号化終了文字列と一致す
る文字列が存在しているか否かを判断する。そして、一
致する文字列が存在していなかった場合、符号化終了文
字列検索部１０６は、何も行わず、次の文字の入力を待
機する。一方、いずれかの符号化終了文字列と一致する
文字列が存在していた場合、符号化終了文字列検索部１
０６は、スイッチ１０７のデータの出力先をＳ２端子か
らＳ１端子に切り替える。

【００５４】符号保持部１０８、符号化部１０９、符号
更新部１１０は、Ｓ１端子からの順次供給される文字を
動的に符号化する。各部は、次のように動作する。符号
保持部１０８は、符号化に使用する符号表を文脈毎に保
持しており、文脈保持部１０４から通知される文脈に応
じた符号表を参照・更新対象とする。符号化部１０９
は、符号保持部１０８によって参照・更新対象とされた
符号表を用いて、Ｓ１端子から入力された文字に対応す
る符号を決定し、決定した符号（圧縮データ）を出力端
子１３１から出力する。この圧縮データの出力は、Ｓ２
端子側にスイッチ１０７が切り替えられるまでの間、続
けられる。符号更新部１１０は、文字の符号化が終わっ
た際に、その文字の出現頻度が増加したことが文字と符
号との対応関係に反映されるように、符号化に使用され
た符号表の内容を更新する。

【００５５】以下、図３ないし図５を用いて、第１実施
形態の文書管理装置の圧縮文書ファイルの作成手順をさ
らに詳細に説明する。これらの図のうち、図３は、デー
タ処理装置１４による圧縮文書ファイルの作成手順を示
した流れ図である。また、図４は、本装置の圧縮対象と
なる文書データの一例を示した図である。図５は、図４
に示した文書データに基づき、本文書管理装置によって
作成される圧縮文書ファイルの概要を示した図である。
なお、以下の説明では、符号化開始文字列として、“＜
／ＳＥＣＴＩＯＮ＞”と“＜／ＳＵＢＳＥＣＴＩＯＮ
＞”が、符号化終了文字列として、“＜ＳＥＣＴＩＯＮ
＞”と“＜ＳＵＢＳＥＣＴＩＯＮ＞”が設定されている
ものとする。

【００５６】圧縮文書ファイルの作成は、文書データを
構成する各文字をそのまま出力する非圧縮データ出力処
理ループと、各文字を圧縮して出力する圧縮データ出力
処理ループを交互に繰り返すことによって進められる。
図３に示したように、文書データの圧縮を指示された
際、データ処理装置１４内では、非圧縮データ出力処理
ループ（ステップＳ１０１〜Ｓ１０３）が実行される。

【００５７】非圧縮データ出力処理ループでは、まず、
文書データ内の１文字（対象文字）がそのまま（図２の
Ｓ２側から）出力され、圧縮文書ファイルに書き込まれ
る（ステップＳ１０１）。次いで、文書データを構成す
る全ての文字に対する処理が終了しているか否かが判断
される（ステップＳ１０２）。そして、全ての文字に対
する処理が終了していなかった場合（ステップＳ１０
２；Ｎ）には、そのときまでに処理された文字列が、い
ずれかの符号化開始文字列と一致しているか否かが判断
される（ステップＳ１０３）。

【００５８】処理された文字列が各符号化開始文字列と
一致していなかった場合（ステップＳ１０３；Ｎ）に
は、ステップＳ１０１からの処理が再度実行される。一
方、そのときまでに処理された文字列が、符号化開始文
字列の１つと一致していた場合（ステップＳ１０３；
Ｙ）には、圧縮データ出力処理ループ（ステップＳ１０
４〜Ｓ１０７）が開始される。

【００５９】たとえば、図４に示した文書データに関す
る圧縮文書ファイルの作成を行った場合、最初に現れる
符号化開始文字列は、“＜／ＳＥＣＴＩＯＮ＞”（２行
目）である。このため、文書データの先頭から２行目の
“＜／ＳＥＣＴＩＯＮ＞”までの各文字は、そのまま出
力されて、圧縮文書ファイル内に記憶される。この結
果、圧縮文書ファイルの先頭には、図５に示したよう
に、文書データと同じ内容のデータが記憶されることに
なる。そして、“＜／ＳＥＣＴＩＯＮ＞”の次の文字か
ら圧縮データ出力処理が開始される。

【００６０】図３に戻って、圧縮文書ファイル作成処理
の説明を続ける。圧縮データ出力処理ループでは、Ｓ１
側で文書データから次の１文字が読み込まれ、その対象
文字に対応する符号が符号化部から出力される（ステッ
プＳ１０４）。このステップにおける符号出力は、対象
文字の文脈を参照した形で進められる。その後、符号化
に用いた文脈に関する符号表の内容が更新される（ステ
ップＳ１０５）。

【００６１】次に、文書データを構成する全ての文字に
対する処理が終了しているか否かが判断され、終了して
いない場合（ステップＳ１０６；Ｎ）には、符号化を終
えた幾つかの文字からなる文字列が、いずれかの符号化
終了文字列と一致するか否かが判断される（ステップＳ
１０７）。

【００６２】符号化を終えた幾つかの文字からなる文字
列が、全ての符号化終了文字列と一致していなかった場
合（ステップＳ１０７；Ｎ）には、ステップＳ１０４か
らの処理が再度実行される。一方、符号化を終えた幾つ
かの文字からなる文字列が、符号化終了文字列の１つと
一致していた場合（ステップＳ１０７；Ｙ）には、非圧
縮データ出力処理ループ（ステップＳ１０１〜Ｓ１０
３）が再度開始される。

【００６３】たとえば、図４に示した文書データでは、
３行目以降に最初に現れる符号化終了文字列は、“＜Ｓ
ＥＣＴＩＯＮ＞”（４行目）である。このため、３行目
の始めから、４行目の“＜ＳＥＣＴＩＯＮ＞”までの各
文字は符号化されて出力される。その結果、この部分の
各文字は、図５の３行目に示したように、圧縮データと
して圧縮文書ファイル内に格納されることになる。そし
て、“＜ＳＥＣＴＩＯＮ＞”の次の文字からの文章
（２．特許請求の範囲＜／ＥＣＴＩＯＮ＞…）に対し
て、再度、非圧縮データ出力処理ループ、圧縮データ出
力処理ループによる処理が繰り替えされ、結局、符号化
終了文字列と符号化開始文字列として指定しておいた制
御文字列で挟まれた部分だけが非圧縮であり、その他の
部分（＜ＰＡＲＡＧＲＡＰＨ＞、＜ＴＴ＞といった他の
制御文字列を含む）が圧縮された圧縮文書ファイルが作
成されていく。

【００６４】この圧縮文書ファイル作成処理は、非圧縮
データ出力処理ループにおいて全データに関する処理が
終了した際（ステップＳ１０２；Ｙ）、あるいは、圧縮
データ出力処理ループにおいて全データに関する処理が
終了した際（ステップＳ１０６；Ｙ）に、完了する。

【００６５】以下、図６に示した機能ブロック図を用い
て、第１実施形態の文書管理装置（データ処理装置１
４）による圧縮文書ファイルの復元動作を説明する。圧
縮文書ファイルを構成するデータは、入力端子２３０か
らスイッチ２０７に供給されている。スイッチ２０７
は、入力された文字を、Ｓ１端子あるいはＳ２端子のい
ずれか一方の端子から出力する。

【００６６】以下、スイッチ２０７が、データをＳ２端
子側に供給しているときの各部の動作を説明する。な
お、圧縮文書ファイルの復元は、スイッチ２０７のＳ２
端子からデータが出力される状態で開始される。

【００６７】スイッチ２０７のＳ２端子からデータが供
給されている場合、入力文字列保持部２０３と第１文字
列保持部２０１と復号開始文字列検索部２０５が機能す
る。スイッチ２０７のＳ２端子からのデータは、出力端
子２３１から、文書データ中の１文字として出力される
とともに、入力文字列保持部２０３に供給されている。

【００６８】入力文字列保持部２０３は、最大Ｎ１文字
分の文字列を保持し、Ｓ２端子から供給される文字で、
内部に保持する文字列の内容を更新する。第１文字列保
持部２０１は、第１文字列保持部１０１が保持する符号
化開始文字列と同じ文字列（＜／ＳＥＣＴＩＯＮ＞、＜
／ＳＵＢＳＥＣＴＩＯＮ＞等）を復号開始文字列として
保持している。復号開始文字列検索部２０５は、入力文
字列保持部２０３に新たなデータ（文字）が入力される
度に、入力文字列保持部２０３内の文字列の末尾に、第
１文字列保持部２０１内に保持されているいずれかの復
号開始文字列と一致する文字列が存在しているか否かを
判断する。そして、復号開始文字列と一致する文字列が
存在していなかった場合、復号開始文字列検索部２０５
は、何も行わず、次のデータの入力を待機する。一方、
復号開始文字列の１つと一致する文字列が存在していた
場合、以降の文字列が圧縮されたものなので、複合処理
が必要となる。このため、復号開始文字列検索部２０５
は、スイッチ２０７のデータ出力先をＳ２からＳ１に切
り替える。

【００６９】次に、スイッチ２０７のＳ１端子からデー
タ（符号）が出力されるときの動作を説明する。この場
合、符号保持部２０８と復号部２０９と符号更新部２１
０と、第２文字列保持部２０２と文脈保持部２０４と符
号化終了文字列検索部２０６が機能を開始する。

【００７０】符号保持部２０８、復号部２０９、符号更
新部２１０は、Ｓ１端子からの順次供給されるデータ
（符号）を適応的に復号する。各部は、次のように動作
する。符号保持部２０８は、復号に使用する符号表を文
脈毎に保持しており、後述する文脈保持部２０４から通
知される文脈に応じた符号表を参照・更新対象とする。
復号部２０９は、符号保持部２０８によって参照・更新
対象とされた符号表を用いてＳ１端子から入力される符
号を復号する。そして、復号結果である文字を、出力端
子２３１と文脈保持部２０４に供給する。符号更新部２
１０は、復号部２０９による復号が行われた後に、復号
結果である文字の出現頻度が増加したことが文字と符号
との対応関係に反映されるように、復号に使用された符
号表の内容を更新する。

【００７１】文脈保持部２０４は、Ｎ２文字分の文字列
を保持する能力を有し、復号部２０９から供給される文
字で、保持する文字列の内容を更新する。また、文脈保
持部２０４は、保持する文字列のうち、末尾側の所定数
の文字からなる文字列を文脈として符号保持部２０８に
供給する。第２文字列保持部２０２は、第２文字列保持
部１０２（図２）が保持する符号化終了文字列と同じ文
字列を、復号終了文字列として保持している。なお、Ｎ
２は、第２文字列保持部２０２内の最長の復号終了文字
列の文字数となっている。

【００７２】復号終了文字列検索部２０６は、文脈保持
部２０４に新たな文字が入力される度に、文脈保持部２
０４内の文字列の末尾に、第２文字列保持部２０２内に
保持されているいずれかの復号終了文字列と一致する文
字列が存在しているか否かを判断する。そして、復号終
了文字列と一致する文字列が存在していなかった場合、
復号終了文字列検索部２０６は、何も行わず、次の復号
結果の入力を待機する。一方、復号終了文字列と一致す
る文字列が存在していた場合、その後に続く文字列は、
圧縮されていない文字列であるので、復号終了文字列検
索部２０６は、スイッチ２０７のデータの出力先をＳ１
端子からＳ２端子に切り替える。

【００７３】以下、図７と、圧縮文書ファイルの作成手
順の説明に用いた図４および図５を参照して、第１実施
形態の文書管理装置の圧縮文書ファイルの復元手順をさ
らに詳細に説明する。なお、図７は、データ処理装置１
４による圧縮文書ファイルの復元手順を示した流れ図で
ある。

【００７４】図７に示したように、圧縮文書ファイルの
復元を最初に指示された際、データ処理装置１４内で
は、非圧縮データ処理ループ（ステップＳ２０１〜Ｓ２
０３）が実行される。非圧縮データ処理ループでは、ま
ず、圧縮文書ファイル内の最初の１文字分のデータがそ
のまま復元結果として出力される（ステップＳ２０
１）。次いで、圧縮文書ファイル内の全てのデータに対
する処理が終了しているか否かが判断される（ステップ
Ｓ２０２）。そして、全てのデータに対する処理が終了
していなかった場合（ステップＳ２０２；Ｎ）には、出
力を終えた幾つかの文字からなる文字列が、いずれかの
復号開始文字列と一致しているか否かが判断される（ス
テップＳ２０３）。

【００７５】出力を終えた幾つかの文字からなる文字列
が各復号開始文字列と一致していなかった場合（ステッ
プＳ２０３；Ｎ）には、ステップＳ２０１からの処理が
再度実行される。一方、出力を終えた幾つかの文字から
なる文字列が、復号開始文字列の１つと一致していた場
合（ステップＳ２０３；Ｙ）には、圧縮データ処理ルー
プ（ステップＳ２０４〜Ｓ２０７）が開始される。

【００７６】たとえば、図５に示した圧縮文書ファイル
が処理対象であった場合、非圧縮データ処理ループにお
いて最初に見い出される復号開始文字列は、“＜／ＳＥ
ＣＴＩＯＮ＞”（２行目）である。このため、“＜／Ｓ
ＥＣＴＩＯＮ＞”までの各文字は、そのまま出力され、
図４の先頭２行のデータが生成される。そして、“＜／
ＳＥＣＴＩＯＮ＞”の次のデータから圧縮データ処理ル
ープによる処理が開始されることになる。

【００７７】図７に戻って、圧縮文書ファイルの復元処
理の説明を続ける。圧縮データ処理ループでは、圧縮文
書ファイルのデータ（符号）が必要量読み込まれ、その
符号の復号結果である文字が出力される（ステップＳ２
０４）。なお、復号は、既に復号を終えた文字列（文
脈）を参照した形で行われる。そして、その後、復号に
用いた文脈に関する符号表の内容が更新される（ステッ
プＳ２０５）。

【００７８】次に、圧縮文書ファイル内の全てのデータ
に対する処理が終了しているか否かが判断される（ステ
ップＳ２０６）。そして、全てのデータに対する処理が
終了していない場合（ステップＳ２０６；Ｎ）には、復
号を終えた幾つかの文字からなる文字列が、いずれかの
復号終了文字列と一致するか否かが判断される（ステッ
プＳ２０７）。

【００７９】復号を終えた幾つかの文字からなる文字列
が各復号終了文字列と一致していなかった場合（ステッ
プＳ２０７；Ｎ）には、ステップＳ２０４からの処理が
再度実行される。一方、復号を終えた幾つかの文字から
なる文字列が復号終了文字列の１つと一致していた場合
（ステップＳ２０７；Ｙ）には、非圧縮データ処理ルー
プ（ステップＳ２０１〜Ｓ２０３）が再度実行される。

【００８０】たとえば、図５の３行目からの圧縮データ
を順次復号していくと、いずれ、“＜ＳＥＣＴＩＯＮ
＞”という文字列が復元されることになる。データ処理
装置１４は、このように復号終了文字列の１つと一致す
る文字列が復元されたときに、圧縮データ処理ループを
抜けだし、非圧縮データ処理ループを開始する。

【００８１】なお、データ処理装置１４は、非圧縮デー
タ処理ループにおいて全データに関する処理が終了した
際（ステップＳ２０２；Ｙ）、あるいは、圧縮データ処
理ループにおいて全データに関する処理が終了した際
（ステップＳ２０６；Ｙ）に、圧縮文書ファイル復元処
理を終える。

【００８２】以上詳細に説明したように、第１実施形態
の文書管理装置では、文書データに基づき、その内容の
一部がそのままの形で記憶された圧縮文書ファイルが作
成される。すなわち、キーワード検索が可能な圧縮文書
ファイルが作成される。このため、本文書管理装置で
は、圧縮文書ファイルを復元することなく、圧縮文書フ
ァイルの内容を推定（確認）することができる。

【００８３】なお、第１実施形態の文書管理装置は、Ｓ
ＧＭＬ形式の文書データを対象とする装置として構成し
てあるが、本装置は、内部に記憶させておく制御文字列
を変更するだけで、他形式のデータ（文書データに限ら
ない）を対象とする装置になる。また、当然、制御文字
列ではなく制御文字を使用することも可能である。

【００８４】さて、第１実施形態の文書管理装置が管理
する圧縮文書ファイルに対して、タグ単位での検索では
なく、タグの構成要素である“＜”や“＞”の検索を実
行した場合、圧縮データ内の符号が検索されてしまう場
合も考えられる。このような誤った検索が行われるのを
防ぐために、文書管理装置に、検索した文字の次に、非
文字コードが存在していた場合には、その文字を無視
し、さらに検索を続行する検索機能を持たせても良い。
また、この検索機構をさらに確実に動作させるために、
圧縮文書ファイルを構成する圧縮データ内に“０ｘ３
ｃ”（“＜”のＡＳＣＩＩコード）、“０ｘ３ｅ”
（“＞”のＡＳＣＩＩコード）が現れる場合、その後に
例えば“０ｘ００”といったＡＳＣＩＩコードではない
特定のコードが挿入されるようにしておくこともでき
る。なお、このように文書管理装置を構成する場合に
は、圧縮文書ファイルの復元時に、その特定のコードが
取り除かれるようにする。

【００８５】第２実施形態第１実施形態の文書管理装置は、非圧縮データとして、
文書データ内のデータをそのまま使った圧縮文書ファイ
ルを作成する装置であった。これに対して、第２実施形
態の文書管理装置は、文書データ内のデータそのままで
はなく、そのデータを所定の規則に従って置換したデー
タを格納した圧縮文書ファイルを作成する。すなわち、
第２の書管理装置は、そのまま読みとれるデータが含ま
れていない圧縮文書データを作成する。第２実施形態の
文書管理装置の動作手順は、第１実施形態の文書管理装
置の動作手順と類似しているので、ここでは、動作内容
が異なる部分だけを説明することにする。

【００８６】まず、図８および図９を用いて、第２実施
形態の文書管理装置による、圧縮文書ファイル作成手順
を説明する。なお、図８は、第２実施形態の文書管理装
置による圧縮文書ファイル作成手順を説明するための機
能ブロック図であり、図９は、圧縮文書ファイル作成手
順を示した流れ図である。

【００８７】図８に示したように、第２実施形態の文書
管理装置では、スイッチ１０７のＳ２端子からのデータ
（非圧縮対象文字）は、置換部１２２に供給され、置換
部１２２の出力が圧縮文書ファイル内に格納される。

【００８８】置換部１２２には、文字と置換後の文字を
対応づけた置換表を保持する置換表保持部１２３が接続
されている。置換部１２２は、その置換表においてＳ２
端子からの文字に対応づけられている文字を出力する。

【００８９】すなわち、第２実施形態の文書管理装置で
は、図９に示したように、非圧縮データ出力処理ループ
（ステップＳ３０１〜Ｓ３０３）において、文字を出力
する際には、文書データ内の文字を置換して出力（ステ
ップＳ３０１）する。

【００９０】この第２実施形態の文書管理装置によって
作成された圧縮文書ファイルには、そのまま読みとれる
データは存在しない。例えば、インターネットでは、複
数のマシン間でリレー式にファイル転送が行われるが、
この圧縮文書ファイル形態で文書データを転送すれば、
中間のマシンによってファイルの内容が読みとられるこ
とを防ぐことができる。

【００９１】なお、第２実施形態の文書管理装置は、圧
縮文書ファイルのキーワード検索を指示した際、そのキ
ーワードを置換表を用いて置換したキーワードによる検
索が実行されるように構成されている。

【００９２】次に、図１０および図１１を用いて、第２
実施形態の文書管理装置による、圧縮文書ファイルの復
元手順を説明する。図１０は、第２実施形態の文書管理
装置の圧縮文書ファイル復元手順を説明するための機能
ブロック図であり、図１１は、第２実施形態の文書管理
装置の圧縮文書ファイル復元手順を示した流れ図であ
る。

【００９３】図１０に示したように、第２実施形態の文
書管理装置では、スイッチ１０７のＳ２端子からのデー
タ（文字）は、逆置換部２２２に供給され、逆置換部２
２２の出力が圧縮文書ファイルを復元した文書データに
加えられる。

【００９４】逆置換部２２２には、置換表保持部１２３
内の置換表に対応する逆置換表を保持する逆置換表保持
部２２３が接続されている。逆置換部２２２は、その逆
置換表によって、Ｓ２端子からの文字に対応づけられて
いる文字を出力する。

【００９５】すなわち、第２実施形態の文書管理装置で
は、図１１に示したように、非圧縮データ出力処理ルー
プ（ステップＳ４０１〜Ｓ４０３）において、圧縮文書
ファイル内のデータ（文字）を逆置換した文字を出力
（ステップＳ４０１）する。

【００９６】第３実施形態第３実施形態の文書管理装置は、第１実施形態の文書管
理装置を基にして構成されている。ただし、第３実施形
態の文書管理装置では、非圧縮データと圧縮データが混
在する圧縮文書ファイルが作成される際には、非圧縮デ
ータだけからなるインデックスファイルも作成される。
また、圧縮文書ファイルの形態も第１実施形態の文書管
理装置で作成される圧縮文書ファイルとは異なったもの
となっている。さらに、第３実施形態の文書管理装置で
は、インデックスファイルを利用して復元を行う部分を
指定できるようになっている。

【００９７】まず、図１２を用いて、第３実施形態の文
書管理装置（データ処理装置）による圧縮文書ファイル
作成手順を説明する。文書データの圧縮を最初に指示さ
れた際、データ処理装置内では、非圧縮データ出力処理
ループ（ステップＳ５０１〜Ｓ５０３）が開始される。
非圧縮データ出力処理ループでは、まず、文書データ内
の１文字（対象文字）がそのまま出力され、圧縮文書フ
ァイルとインデックスファイルに書き込まれる（ステッ
プＳ５０１）。次いで、文書データを構成する全ての文
字に対する処理が終了しているか否かが判断される（ス
テップＳ５０２）。そして、処理すべき文字が残ってい
た場合（ステップＳ５０２；Ｎ）には、処理を終えた幾
つかの文字からなり、そのときに処理された文字を含む
文字列が、予め定められている符号化開始文字列の１つ
と一致している否かが判断される（ステップＳ５０
３）。

【００９８】処理を終えた文字列と一致する符号化開始
文字列がなかった場合（ステップＳ５０３；Ｎ）には、
ステップＳ５０１からの処理が再度実行される。一方、
符号化開始文字列の１つと一致する文字列が処理されて
いた場合（ステップＳ５０３；Ｙ）には、圧縮データ出
力処理ループ（ステップＳ５０４〜Ｓ５０７）が開始さ
れる。

【００９９】圧縮データ出力処理ループでは、文書デー
タから次の１文字が読み込まれ、その対象文字に対応す
る符号が出力される（ステップＳ５０４）。このステッ
プにおける符号出力は、対象文字の文脈を参照した形で
進められる。その後、符号化に用いた文脈に関する符号
表の内容が更新される（ステップＳ５０５）。

【０１００】次に、文書データを構成する全ての文字に
対する処理が終了しているか否かが判断される（ステッ
プＳ５０６）。処理すべき文字が残っていた場合（ステ
ップＳ５０６；Ｎ）には、そのときに処理した文字を含
む処理済の文字列が、予め定められている符号化終了文
字列の１つと一致するか否かが判断される（ステップＳ
５０７）。そして、処理した文字列が各符号化終了文字
列と一致していなかった場合（ステップＳ５０７；Ｎ）
には、ステップＳ５０４からの処理が再度実行される。

【０１０１】一方、処理した文字列が符号化終了文字列
の１つと一致していた場合（ステップＳ５０７；Ｙ）、
符号表の初期化が行われる（ステップＳ５０８）。その
後、ステップＳ５０７で検出した符号化終了文字列が、
圧縮文書ファイルとインデックスファイルに出力され
（ステップＳ５０９）、非圧縮データ出力処理ループ
（ステップＳ５０１〜Ｓ５０３）が再度開始される。

【０１０２】この圧縮文書ファイル作成処理は、非圧縮
データ出力処理ループにおいて全データに関する処理が
終了したことが検出された際（ステップＳ５０２；
Ｙ）、あるいは、圧縮データ出力処理ループにおいて全
データに関する処理が終了したことが検出された際（ス
テップＳ５０６；Ｙ）に、終了される。

【０１０３】以下、図４に示した文書データを対象とし
た場合を例に、第３実施形態の文書管理装置による圧縮
文書ファイル作成手順をさらに具体的に説明する。な
お、以下の説明では、符号化開始文字列として、“＜／
ＳＥＣＴＩＯＮ＞”と“＜／ＳＵＢＳＥＣＴＩＯＮ＞”
が、符号化終了文字列として、“＜ＳＥＣＴＩＯＮ＞”
と“＜ＳＵＢＳＥＣＴＩＯＮ＞”が設定されているもの
とする。

【０１０４】この場合、最初に現れる符号化開始文字列
は、“＜／ＳＥＣＴＩＯＮ＞”（２行目）であるので、
文書データの先頭から２行目の“＜／ＳＥＣＴＩＯＮ
＞”までの各文字は、非圧縮データ出力処理ループで処
理される。そして、“＜／ＳＥＣＴＩＯＮ＞”の次の文
字から圧縮データ出力処理ループによる処理が開始され
ることになる。圧縮データ出力処理ループの開始後、最
初に現れる符号化終了文字列は、“＜ＳＥＣＴＩＯＮ
＞”（４行目）である。このため、３行目の始めから、
４行目の“＜ＳＥＣＴＩＯＮ＞”までの各文字は符号化
されて出力される。そして、“＜ＳＥＣＴＩＯＮ＞”内
の“＞”の符号化が終わった際に、符号表の初期化が行
われるとともに、“＜ＳＥＣＴＩＯＮ＞”が圧縮文書フ
ァイルとインデックスファイルに書き込まれる。

【０１０５】このような一連の動作が、圧縮文書ファイ
ル内の各データに対して繰り返される結果、第３実施形
態の文書管理装置では、図１３、図１４にそれぞれ示し
たような圧縮文書ファイルとインデックスファイルが作
成されることになる。

【０１０６】すなわち、第３実施形態の文書管理装置が
作成する圧縮文書ファイルには、第１実施形態の文書管
理装置が作成する圧縮文書ファイル（図５）内の各非圧
縮データに、符号化終了文字列（開始タグ）を付加した
非圧縮データが記憶される。そして、インデックスファ
イルには、圧縮文書ファイル内の非圧縮データと同じデ
ータが記憶される。また、圧縮データ出力処理ループの
終了時に、符号表の初期化が行われているので、圧縮文
書ファイル内の各圧縮データは、単独で復元できるもの
となっている。

【０１０７】以下、圧縮文書ファイルの内容の指定した
範囲だけを復元させる処理であるインデックス対応領域
復元処理の詳細を説明する。図１５に、インデックス対
応領域復元処理時の文書管理装置（データ処理装置）の
動作手順を示す。なお、この図に示した流れは、ユーザ
から、文書データの特定情報を含む所定の指示が与えら
れた場合に開始される。

【０１０８】図示したように、文書管理装置（データ処
理装置）は、ユーザから所定の指示を受けた場合、その
指示で指定された文書データに応じたインデックスファ
イルの内容を表示装置に表示する（ステップＳ６０
１）。なお、このステップにおいて、データ処理装置
は、インデックスファイル内の、開始および終了タグで
挟まれたデータ（以下、インデックスと表記する）だけ
を表示装置に表示している。例えば、図１４に示したイ
ンデックスファイルに対応する文書データが処理対象と
して指示されていた場合、表示装置には、図１６に示し
たようなデータが表示される。

【０１０９】その後、データ処理装置は、ユーザの指示
入力を待機する状態に移行する（ステップＳ６０２）。
ステップＳ６０２において、データ処理装置は、画面上
で出力対象のインデックスを指定するための処理である
マウスのクリックが行われるのを待機しており、ユーザ
は、マウスを操作することによってデータ処理装置に対
して実行すべき処理を指示する。なお、このステップに
おいて、ユーザは、他のインデックスファイルの内容表
示を行わせるための指示や、インデックスファイルの内
容表示を終了させるための指示が入力できるのである
が、ここでは、いずれかのインデックス上にマウスカー
ソルが位置している状態で、マウスがクリックされた場
合の動作だけを説明することにする。

【０１１０】いずれかのインデックス上にマウスカーソ
ルが位置している状態で、マウスがクリックされた場合
（ステップＳ６０２；Ｙ）、データ処理装置は、そのイ
ンデックスが選択されたことを認識し、インデックスフ
ァイルを参照することによって、選択されたインデック
スに対応するインデックスデータ（タグで挟まれたイン
デックス）を特定する（ステップＳ６０３）。

【０１１１】そして、データ処理装置は、特定したイン
デックスデータが、“ＴＩＴＬＥ”に関するものである
か否かを判断し、“ＴＩＴＬＥ”に関するものであった
場合（ステップＳ６０４；Ｙ）には、対象となっている
文書データに対応する圧縮文書ファイルの内容を全て復
元する処理である全体復元処理を実行（ステップＳ６０
５）し、復元結果を表示あるいはファイルとして記憶し
て、処理を終了する。

【０１１２】図１７に、全体復元処理時のデータ処理装
置の動作手順を示す。なお、この処理は、圧縮文書ファ
イルを復元することが指示された際にも実行される。図
示したように、全体復元処理時、データ処理装置内で
は、非圧縮データ処理ループ（ステップＳ７０１〜Ｓ７
０３）が実行される。非圧縮データ処理ループ実行時、
データ処理装置は、まず、圧縮文書ファイル内の最初の
１文字分のデータがそのまま復元結果として出力する
（ステップＳ７０１）。次いで、圧縮文書ファイル内の
全てのデータに対する処理が終了しているか否かを判断
する（ステップＳ７０２）。そして、処理すべきデータ
が残っていた場合（ステップＳ７０２；Ｎ）には、処理
した文字列（そのときに処理した文字を含む）が、いず
れかの復号開始文字列と一致しているか否かを判断する
（ステップＳ７０３）。

【０１１３】処理した文字列が各復号開始文字列と一致
していなかった場合（ステップＳ７０３；Ｎ）、データ
処理装置は、ステップＳ７０１からの処理を再度実行す
る。一方、処理した文字列が復号開始文字列の１つと一
致していた場合（ステップＳ７０３；Ｙ）、データ処理
装置は、圧縮データ処理ループ（ステップＳ７０４〜Ｓ
７０７）を開始する。

【０１１４】圧縮データ処理ループにおいて、データ処
理装置は、まず、圧縮文書ファイルのデータ（符号）を
必要量読み込み、その符号の復号結果である文字を出力
する（ステップＳ７０４）。なお、このステップにおけ
る復号は、既に復号を終えた文字列（文脈）を参照した
形で行われる。そして、データ処理装置は、復号に用い
た文脈に関する符号表の内容を更新する（ステップＳ７
０５）。

【０１１５】次に、データ処理装置は、圧縮文書ファイ
ル内の全てのデータに対する処理が終了しているか否か
を判断する（ステップＳ７０６）。そして、処理すべき
データが残っていた場合（ステップＳ７０６；Ｎ）に
は、復号を終えた文字列が、いずれかの復号終了文字列
と一致するか否かを判断する（ステップＳ７０７）。そ
して、いずれの復号終了文字列とも一致していなかった
場合（ステップＳ７０７；Ｎ）、データ処理装置は、ス
テップＳ７０４からの処理を開始する。一方、復号を終
えた文字列が、復号終了文字列の１つと一致していた場
合（ステップＳ７０７；Ｙ）、データ処理装置は、全て
の文脈に関する符号表を初期化（ステップＳ７０８）す
る。次いで、データ処理装置は、圧縮文書ファイル内
の、次に処理すべきデータの先頭部分に存在している、
復号終了文字列を読み飛ばす（ステップＳ７０９）。す
なわち、圧縮文書ファイル作成時に付加した符号化終了
文字列を読み飛ばす。その後、データ処理装置は、非圧
縮データ処理ループ（ステップＳ７０１〜Ｓ７０３）を
開始する。

【０１１６】データ処理装置は、このような処理を、圧
縮文書ファイル内の全てのデータに対する行った（ステ
ップＳ７０６；Ｙ）に、全体復元処理を終了する。図１
５に戻って、インデックス対応領域復元処理の説明を続
ける。

【０１１７】インデックスデータが、“ＴＩＴＬＥ”に
関するものでなかった場合（ステップＳ６０４；Ｎ）、
データ処理装置は、そのインデックスデータの先頭のタ
グを終了制御文字列として取得（記憶）する（ステップ
Ｓ６０６）。そして、圧縮文書ファイルの内容のうち、
選択されたインデックスに関係するデータだけを復元す
る処理である部分復元処理を実行（ステップＳ６０７）
し、処理を終了する。

【０１１８】図１８に、部分復元処理時のデータ処理装
置の動作の流れを示す。部分復元処理の全体的な流れ
は、全体復元処理（図１７）と同じであり、開始条件と
終了条件だけが異なっている。このため、ここでは、異
なる部分に関する説明だけを行うことにする。

【０１１９】全体復元処理では、圧縮文書ファイルの先
頭から復元処理が開始される。これに対して、部分復元
処理では、最初に、インデックスデータを基に復元開始
位置が特定される（ステップＳ８００）。すなわち、圧
縮文書ファイルの中から、選択されたインデックスに応
じたインデックスデータが検索され、検索されたインデ
ックスデータの最初の文字が復元開始位置として特定さ
れる。

【０１２０】そして、その復元開始位置からのデータ
が、全体復元処理と同様の手順で処理されていく。ま
た、全体復元処理では、圧縮文書ファイル内の全てのデ
ータに関する処理が完了したときに、処理が終了され
る。これに対して、部分復元処理では、符号表の初期化
（ステップＳ８０８）後に、終了判定（ステップＳ８０
９）が行われる。具体的には、データ処理装置は、ステ
ップＳ８０７で見い出した復号終了文字列が、装置内に
記憶されている終了制御文字列と一致しているか否かを
判断する。そして、一致していなかった場合（ステップ
Ｓ８０９；Ｎ）には、全体復元処理と同様に、次に処理
すべき部分に存在している復号終了文字列を読み飛ばし
て（ステップＳ８１０）、非圧縮データ処理ループを開
始する。

【０１２１】一方、復号終了文字列と終了制御文字列が
一致していた場合（ステップＳ８０９；Ｙ）には、復元
結果から、終了制御文字列を取り除いて（ステップＳ８
１１）、部分復元処理を終了する。

【０１２２】以下、図１４の“２．特許請求の範囲”が
指定された場合を例に、インデックス対応領域復元処理
をさらに具体的に説明する。この場合、対応するインデ
ックスデータは、“＜ＳＥＣＴＩＯＮ＞２．特許請求の
範囲＜／ＳＥＣＴＩＯＮ＞”であるので、終了制御文字
列として“＜ＳＥＣＴＩＯＮ＞”が特定される。そし
て、部分復元処理が開始され、まず、圧縮文書ファイル
内から“＜ＳＥＣＴＩＯＮ＞２．特許請求の範囲＜／Ｓ
ＥＣＴＩＯＮ＞”が検索される。次いで、圧縮文書ファ
イル内の検索された文字列の最初の文字から復元が開始
され、“＜ＳＥＣＴＩＯＮ＞２．特許請求の範囲＜／Ｓ
ＥＣＴＩＯＮ＞”が非圧縮データ処理ループによって処
理されることになる。その後に行われる最初の圧縮デー
タ処理ループでは、圧縮文書ファイル内に記憶された圧
縮データである復号終了文字列“＜ＳＵＢＳＥＣＴＩＯ
Ｎ＞”が復元される。しかし、その文字列は、終了制御
文字列“＜ＳＥＣＴＩＯＮ＞”と一致していないので、
データ処理装置は、圧縮文書ファイルの復元を続ける。
そして、次に圧縮データ処理ループを実行した際には、
“＜ＳＥＣＴＩＯＮ＞”が復元されるので、データ処理
装置は、その“＜ＳＥＣＴＩＯＮ＞”を復元結果から取
り除き、部分復元処理を終える。すなわち、“＜ＳＥＣ
ＴＩＯＮ＞３．発明の詳細な説明＜／ＳＥＣＴＩＯＮ
＞”の前の部分まで復元を行い、部分復元処理を終了す
る。

【０１２３】結局、インデックス対応領域復元処理で
は、図１９に模式的に示したように、選択されたインデ
ックスに応じた領域（図中、罫線で囲んだ領域）内のデ
ータが復元される。すなわち、タイトルに関するインデ
ックスを選択した場合には、全ての内容が復元され、サ
ブセクションレベルのインデックスを選択した場合に
は、そのサブセクションレベルのデータだけが復元され
る。また、セクションレベルのインデックスを選択した
場合、そのセクションに関するデータ（サブセクション
レベルのデータを含む）が全て復元される。

【０１２４】このように、第３実施形態の文書管理装置
によれば、圧縮文書ファイルの一部分だけを復元するこ
とができる。以上説明したように、第３実施形態の文書
管理装置では、圧縮文書ファイル内の各非圧縮データ
に、符号化終了文字列（開始タグ）を含ませるために、
圧縮データの出力後に符号化終了文字列を付加するとい
った手順を採用している。しかし、処理すべき文字を何
文字がバッファリングしておき、開始タグの一部ではな
いことが確定した文字に対して符号化が行われるように
装置を構成することによって、圧縮文書ファイル内の各
非圧縮データに、開始タグを含ませることも可能であ
る。ただし、このように装置を構成した場合、圧縮文書
ファイル内の圧縮データに対しては、開始タグを検索し
つつ（予め圧縮データ、非圧縮データの境を定めてお
き）、復号を行うことになる。

【０１２５】第４実施形態第４実施形態の文書管理装置は、第３実施形態の文書管
理装置と同じインデックスファイルを作成する。ただ
し、第４実施形態の文書管理装置は、静的符号化を用い
て圧縮された第１圧縮データと、動的符号化により圧縮
された第２圧縮データが混在する圧縮文書ファイルを作
成する。また、圧縮文書ファイルとインデックスファイ
ルを関係づけるファイルとして、対応領域管理ファイル
を作成する。

【０１２６】図２０に、第４実施形態の文書管理装置
（データ処理装置）による圧縮文書ファイル作成手順を
示す。なお、第４実施形態の文書管理装置では、符号化
開始文字列として“＜／ＴＩＴＬＥ＞”、“＜／ＳＥＣ
ＴＩＯＮ＞”、“＜／ＳＵＢＳＥＣＴＩＯＮ＞”が与え
られており、符号化終了文字列として、“＜ＳＥＣＴＩ
ＯＮ＞”、“＜ＳＵＢＳＥＣＴＩＯＮ＞”が与えられて
いる。

【０１２７】文書データの圧縮を最初に指示された際、
データ処理装置内では、第１圧縮データ出力処理ループ
（ステップＳ９０１〜Ｓ９０３）が開始される。第１圧
縮データ出力処理ループ実行時、データ処理装置は、ま
ず、文書データ内の１文字（対象文字）をそのままイン
デックスファイルに出力するととともに、その対象文字
を、静的符号表を用いて符号化することによって得られ
た符号を、圧縮文書ファイル内に書き込む（ステップＳ
９０１）。なお、データ処理装置は、このステップにお
いて、圧縮文書ファイルに対して出力したデータサイズ
の積算も行う。

【０１２８】次いで、データ処理装置は、文書データを
構成する全ての文字に対する処理が終了しているか否か
を判断する（ステップＳ９０２）。そして、処理すべき
データ（文字）が残っていた場合（ステップＳ９０２；
Ｎ）には、処理した文字列が、予め定められている符号
化開始文字列の１つと一致している否かを判断する（ス
テップＳ９０３）。

【０１２９】処理した文字列が符号化開始文字列と一致
していなかった場合（ステップＳ９０３；Ｎ）、データ
処理装置は、ステップＳ９０１からの処理を再度実行す
る。一方、処理した文字列が、符号化開始文字列の１つ
と一致した場合（ステップＳ９０３；Ｙ）、データ処理
装置は、第２圧縮データ出力処理ループ（ステップＳ９
０４〜Ｓ９０７）を開始する。

【０１３０】第２圧縮データ出力処理ループ実行時、デ
ータ処理装置は、文書データから次の１文字を読み込
み、圧縮文書ファイル内に、その対象文字に対応する符
号を出力する（ステップＳ９０４）。なお、このステッ
プにおける符号出力は、対象文字の文脈を参照した形で
行われる。また、データ処理装置は、このステップにお
いて、圧縮文書ファイルに書き込んだデータサイズの積
算も行う。次いで、データ処理装置は、符号化に用いた
文脈に関する符号表の内容を更新する（ステップＳ９０
５）。

【０１３１】次に、データ処理装置は、文書データを構
成する全ての文字に対する処理が終了しているか否かを
判断する（ステップＳ９０６）。そして、処理すべきデ
ータが残っていた場合（ステップＳ９０６；Ｎ）、デー
タ処理装置は、処理した文字列が、予め定められている
符号化終了文字列の１つと一致するか否かを判断する
（ステップＳ９０７）。そして、処理した文字列がいず
れの符号化終了文字列と一致していなかった場合（ステ
ップＳ９０７；Ｎ）、データ処理装置は、ステップＳ９
０４からの処理を再度実行する。一方、処理した文字列
が、符号化終了文字列の１つと一致していた場合（ステ
ップＳ９０７；Ｙ）、データ処理装置は、符号表の初期
化を行う（ステップＳ９０８）。

【０１３２】次いで、データ処理装置は、ステップＳ９
０７で検出した符号化終了文字列をインデックスファイ
ルに出力するとともに、その文字列を静的符号化した符
号を圧縮文書ファイルに出力する（ステップＳ９０
９）。また、データ処理装置は、格納した静的符号の、
圧縮文書ファイル内での格納位置情報（静的符号の先頭
ビットまでの圧縮文書ファイル内のデータサイズ）を、
対応関係管理ファイルに記憶する（ステップＳ９１
０）。なお、データ処理装置は、それまで積算してきた
データサイズの積算結果を基に格納位置情報を定め、格
納位置情報を定めた後に、積算結果に、ステップＳ９０
９で書き込んだ静的符号のデータサイズを積算する。

【０１３３】その後、データ処理装置は、第１圧縮デー
タ出力処理ループを再度実行する。そして、データ処理
装置は、第１圧縮データ出力処理ループにおいて全デー
タに関する処理が終了したことを検出した際（ステップ
Ｓ９０２；Ｙ）、あるいは、第２圧縮データ出力処理ル
ープにおいて全データに関する処理が終了したことを検
出した際（ステップＳ９０６；Ｙ）に、圧縮文書ファイ
ル作成処理を終了する。

【０１３４】すなわち、第４実施形態の文書管理装置で
は、図２１に模式的に示したような、静的符号化による
第１圧縮データ（図中、下線を付した部分）と、動的符
号化による第２圧縮データが混在する圧縮文書ファイル
が作成される。そして、２番目以降の第１圧縮データの
先頭ビットの格納位置が記憶された対応関係管理ファイ
ルが作成される。

【０１３５】次に、第４実施形態の文書管理装置におけ
るインデックス対応領域復元処理を説明する。インデッ
クス対応領域復元処理の全体的な流れは、図１５に示し
たものと同じであるので、説明は省略する。

【０１３６】図２２に、第４実施形態の文書管理装置に
おける部分復元処理の流れを示す。この部分復元処理の
基本的な流れは、既に説明した第３実施形態の文書管理
装置による部分復元処理と同じものとなっている。この
ため、ここでは、動作内容が異なるステップだけを説明
することにする。

【０１３７】第３実施形態の文書管理装置では、インデ
ックスデータの格納位置を検索することによって、復元
開始位置が特定される。これに対して、第４実施形態の
文書管理装置では、対応関係管理ファイルを参照するこ
とによって、復元開始位置が特定（ステップＳ１００
０）される。具体的には、データ処理装置は、まず、ユ
ーザによって指定されたインデックスデータがインデッ
クスファイル内の何番目のデータであるかを判別する。
例えば、Ｍ番目のデータであった場合、データ処理装置
は、対応関係管理ファイル内の、Ｍ−１番目の格納位置
情報を読み出す。そして、その格納位置情報によって定
められる位置を、復元開始位置と特定する。

【０１３８】その後、復元開始位置以降のデータに対し
て処理が行われていくことになるが、第４実施形態の文
書管理装置では、インデックスに関する処理時に、静的
符号表を用いた復号が行われる。

【０１３９】すなわち、復元開始位置の特定の直後に行
われるループでは、その最初に、圧縮文書ファイルから
必要量のデータを読み出し、そのデータを静的符号表を
用いて復号する処理が行われる（ステップＳ１００
１）。また、ステップＳ１１１０では、復号終了文字列
に対応する符号が読み飛ばされる。

【０１４０】

【発明の効果】以上、詳細に説明したように、本発明の
文書管理装置によれば、キーワード検索が可能な形態で
文書データが圧縮されてファイル化される。このため、
本発明の文書管理装置によれば、ハードディスク装置な
どのファイルを記憶するための装置の記憶容量を有効に
活用しつつ、高速な文書データ処理が行えることにな
る。

【０１４１】また、本発明のデータ圧縮方法によれば、
キーワード検索が可能な形態でデータを圧縮することが
できる。そして、本発明のデータ復元方法によれば、本
発明のデータ圧縮方法によって圧縮されたデータを復元
できる。

【図面の簡単な説明】

【図１】本発明の第１実施形態の文書管理装置の構成を
示すブロック図である。

【図２】第１実施形態の文書管理装置による圧縮文書フ
ァイル作成手順を説明するための機能ブロック図であ
る。

【図３】第１実施形態の文書管理装置による圧縮文書フ
ァイル作成手順を示す流れ図である。

【図４】ＳＧＭＬ形式で記述された文書データの一例を
示した図である。

【図５】図４に示した文書データから、第１実施形態の
文書管理装置によって作成される圧縮文書ファイルの概
要を示す図である。

【図６】本発明の第１実施形態の文書管理装置の復元動
作を説明するための機能ブロック図である。

【図７】本発明の第１実施形態の文書管理装置による圧
縮文書ファイル復元手順を示す流れ図である。

【図８】本発明の第２実施形態の文書管理装置による圧
縮文書ファイルの作成手順を説明するための機能ブロッ
ク図である。

【図９】本発明の第２実施形態の文書管理装置による圧
縮文書ファイルの作成手順を示す流れ図である。

【図１０】本発明の第２実施形態の文書管理装置による
圧縮文書ファイルの復元手順を説明するための機能ブロ
ック図である。

【図１１】本発明の第２実施形態の文書管理装置による
圧縮文書ファイルの復元手順を示す流れ図である。

【図１２】本発明の第３実施形態の文書管理装置による
圧縮文書ファイルの作成手順を示す流れ図である。

【図１３】第３実施形態の文書管理装置によって作成さ
れる圧縮文書ファイルの概要図である。

【図１４】第３実施形態の文書管理装置によって作成さ
れるインデックスファイルの概要図である。

【図１５】第３実施形態の文書管理装置におけるインデ
ックス対応領域復元処理の流れ図である。

【図１６】第３実施形態の文書管理装置による圧縮文書
ファイルの作成手順を示す流れ図である。

【図１７】第３実施形態の文書管理装置において実行さ
れる全体復元処理の流れ図である。

【図１８】第３実施形態の文書管理装置において実行さ
れる部分復元処理の流れ図である。

【図１９】インデックス対応領域復元処理において復元
される領域と、インデックスとの対応関係を示した説明
図である。

【図２０】本発明の第４実施形態の文書管理装置による
圧縮文書ファイル作成手順を示す流れ図である。

【図２１】第４実施形態の文書管理装置によって作成さ
れる圧縮文書ファイルの概要を示す図である。

【図２２】第４実施形態の文書管理装置において実行さ
れる部分復元処理の流れ図である。

【符号の説明】

１１記憶装置１２入力装置１３表示装置１４データ処理装置１０１、２０１第１文字列保持部１０２、２０２第２文字列保持部１０３、２０３入力文字列保持部１０４、２０４文脈保持部１０５符号化開始文字列検索部１０６符号化終了文字列検索部１０７、２０７スイッチ１０８、２０８符号保持部１０９符号化部１１０、２１０符号更新部１２２置換部１２３置換表保持部１３０、２３０入力端子１３１、２３１出力端子２０５復号開始文字列検索部２０６復号終了文字列検索部２０９復号部２２２逆置換部２２３逆置換表保持部

フロントページの続き (56)参考文献特開昭61−204741（ＪＰ，Ａ) 特開昭62−68325（ＪＰ，Ａ) 特開平５−128107（ＪＰ，Ａ) 特開平８−16576（ＪＰ，Ａ) 特開昭61−265668（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) H03M 7/40

Claims

(57)【特許請求の範囲】

【請求項１】入力された文字列に応じた圧縮文書デー
タを作成する文書管理装置において、１個以上の開始制御文字列と１個以上の終了制御文字列
を記憶する制御文字列記憶手段と、入力された文字を符号化した符号化データを出力する符
号化手段と、入力文字列から開始制御文字列及び終了制御文字列を検
索する検索手段と、前記検索手段によって前記開始制御文字列が検索された
ときに、以降の入力文字列を前記符号化手段によって符
号化した符号化データを圧縮文書データの要素として出
力する処理を開始し、前記検索手段によって前記終了制
御文字列が検索されたときには、前記符号化手段による
符号化を行わずに、以降の入力文字列をそのまま圧縮文
書データの要素として出力する処理を開始する制御手段
とを備えることを特徴とする文書管理装置。
【請求項２】入力された圧縮文書データを復元した文
書データを出力する文書管理装置において、１個以上の開始制御文字列と１個以上の終了制御文字列
を記憶する制御文字列記憶手段と、入力された符号を複合した文字を出力する復号手段と、復元を終えた文書データの末尾に開始制御文字列あるい
は終了制御文字列が存在するか否かを判別する判別手段
と、この判別手段によって開始制御文字列の存在が判別され
たときに、以降の圧縮文書データを前記復号手段によっ
て復号した文字を文書データの要素として出力する処理
を開始し、前記判別手段によって終了制御文字列が検索
されたときには、前記復号手段による復号を行わずに、
以降の圧縮文書データをそのまま文書データの要素とし
て出力する処理を開始する制御手段とを備えることを特
徴とする文書管理装置。
【請求項３】前記符号化手段は、動的モデルを用い
て、前記文字に対応する符号を出力し、前記制御手段は、前記検索手段によって前記終了制御文
字列が検索されたときに、前記符号化手段が用いる動的
モデルを初期化することを特徴とする請求項２記載の文
書管理装置。
【請求項４】前記制御手段は、以降の入力文字列を非
符号化データとして出力する処理を開始する際に、前記
検索手段によって検索された終了制御文字列を圧縮文書
データの要素として出力することを特徴とする請求項２
または請求項３に記載の文書管理装置。
【請求項５】前記制御手段は、前記検索手段によって
前記終了制御文字列が検索されたときには、前記符号化
手段による符号化を行わずに、以降の入力文字列を、入
力文字と出力文字との対応関係が定められた置換表を用
いて置換し、置換結果を非符号化データとして出力する
処理を開始することを特徴とする請求項２ないし請求項
４のいずれかに記載の文書管理装置。
【請求項６】さらに、圧縮文書データに対してある文
字列の検索が指示された際に、その文字列を前記置換表
を用いて置換する置換手段と、この置換手段によって置換された文字列を用いた検索を
実行する検索手段とを備えることを特徴とする請求項５
記載の文書管理装置。
【請求項７】幾つかの文書要素の前後に、それぞれ、
その文書要素の内容に応じた開始制御文字列と終了制御
文字列が挿入された文書データを対象とする文書管理装
置であって、データを表示するための表示手段と、１個以上の開始制御文字列と１個以上の終了制御文字列
を記憶する制御文字列記憶手段と、圧縮すべき文書データ内の文字を順に読み出す第１読出
手段と、この第１読出手段によって読み出された文字をそのまま
圧縮文書ファイルの要素として出力するとともに、その
文字をインデックスファイルの要素として出力する第１
出力手段と、前記第１読出手段によって前記制御文字列記憶手段内の
いずれかの開始制御文字列と同じ文字列が読み出された
ときに前記第１読出手段の動作を中止させる第１制御手
段と、この第１制御手段によって前記第１読出手段の動作が中
止されたときに、前記文書データ内の文字の読み出しを
開始する第２読出手段と、この第２読出手段によって読み出された文字に対応する
符号を、圧縮文書データの要素として出力する第２出力
手段と、前記第２読出手段によって前記制御文字列記憶手段内の
いずれかの終了制御文字列と同じ文字列が読み出された
ときに、前記第２読出手段の動作を中止させるととも
に、前記第１読出手段の動作を再開させる第２制御手段
と、前記圧縮文書ファイルと前記インデックスファイルを記
憶する記憶手段と、所定の指示が与えられた際に、前記記憶手段に記憶され
たインデックスファイル内の、前記終了制御文字列で区
切られた各データをインデックスとして前記表示手段に
表示する表示制御手段と、この表示制御手段によって表示されたインデックスの中
から１つのインデックスを指定する指定手段と、この指定手段によって指定されたインデックスの前記圧
縮文書ファイル内での格納位置を特定する格納位置特定
手段と、前記圧縮文書ファイル内の、前記格納位置特定手段で特
定された格納位置以降のデータを前記制御文字列記憶手
段に記憶されているいずれかの終了制御文字列が復元さ
れるまで復元する部分復元手段とを備えることを特徴と
する文書管理装置。
【請求項８】さらに、前記第１出力手段が出力を開始
する度に、圧縮文書ファイルの要素としてそれまでに出
力されたデータの積算サイズを検出して記憶する積算サ
イズ検出記憶手段を備え、前記格納位置特定手段は、前記積算サイズ検出記憶手段
によって記憶されている積算サイズに基づき、前記イン
デックスの圧縮文書ファイル内での格納位置を特定する
ことを特徴とする請求項７記載の文書管理装置。
【請求項９】前記部分復元手段は、前記圧縮文書ファイル内の、前記格納位置特定手段で特
定された格納位置以前のデータを処理済のデータである
と認識する復元不要データ認識手段と、圧縮文書ファイル内の未処理のデータを１文字分ずつ順
に読み出す第１データ読出手段と、この第１データ読出手段によって読み出されたデータを
復号結果として出力する第１復号手段と、この第１復号手段によって前記制御文字列記憶手段内の
いずれかの開始制御文字列と同じ文字列が出力されたと
きに、前記第１データ読出手段の動作を中止させる第１
読出制御手段と、この第１読出制御手段によって前記第１データ読出手段
の動作が中止されたときに、前記圧縮文書ファイル内の
未処理のデータの読み出しを開始する第２データ読出手
段と、この第２データ読出手段によって読み出されたデータを
復号した文字を出力する第２復号手段と、この第２復号手段によって前記制御文字列記憶手段内の
いずれかの終了制御文字列と同じ文字列が出力されたと
きに、前記第２データ読出手段の動作を中止させる第２
読出制御手段と、この第２読出制御手段による制御が行われたときに、前
記第２データ読出手段が読み出した文字列が前記特定手
段によって特定されたインデックスの末尾に含まれる開
始制御文字列に対応する終了制御文字列でなかった場合
には、前記第１データ読出手段の動作を再開させる第３
読出制御手段とを備えることを特徴とする請求項７また
は請求項８記載の文書管理装置。
【請求項１０】幾つかの文書要素の前後に、それぞ
れ、その文書要素の内容に応じた開始制御文字列と終了
制御文字列が挿入された文書データを対象とする文書管
理装置であって、データを表示するための表示手段と、１個以上の開始制御文字列と１個以上の終了制御文字列
を記憶する制御文字列記憶手段と、圧縮すべき文書データ内の文字を順に読み出す第１読出
手段と、この第１読出手段によって読み出された文字を静的符号
化した符号を、圧縮文書ファイルの要素として出力する
とともに、その文字をインデックスファイルの要素とし
て出力する第１出力手段と、前記第１読出手段によって前記制御文字列記憶手段内の
いずれかの開始制御文字列と同じ文字列が読み出された
ときに前記第１読出手段の動作を中止させる第１制御手
段と、この第１制御手段によって前記第１読出手段の動作が中
止されたときに、前記文書データ内の文字の読み出しを
開始する第２読出手段と、この第２読出手段によって読み出された文字を動的符号
化した符号を、圧縮文書ファイルの要素として出力する
第２出力手段と、前記第２読出手段によって前記制御文字列記憶手段内の
いずれかの終了制御文字列と同じ文字列が読み出された
ときに、前記第２読出手段の動作を中止させ、前記第２
出力手段が動的符号化に用いるモデルを初期化し、前記
第１読出手段の動作を再開させる第２制御手段と、前記第１出力手段が出力を開始する度に、前記第１出力
手段及び第２出力手段がそれまでに圧縮文書ファイルの
要素として出力したデータの積算サイズを検出し、記憶
する積算サイズ検出記憶手段と、前記圧縮文書ファイルと前記インデックスファイルとを
記憶する記憶手段と、所定の指示が与えられた際に、前記記憶手段に記憶され
ているインデックスファイル内の、前記開始制御文字列
で区切られたデータをそれぞれインデックスとして前記
表示手段に表示する第１表示制御手段と、この表示制御手段によって表示されたインデックスの中
から１つのインデックスを指定する指定手段と、前記積算サイズ検出記憶手段内に記憶されている積算サ
イズに基づき、前記指定手段によって指定されたインデ
ックスの前記圧縮文書ファイル内での格納位置を特定
し、前記圧縮文書ファイル内のそのインデックス以前の
データを処理済のデータであると認識する復号不要デー
タ認識手段と、圧縮文書ファイル内の未処理のデータを読み出す第１デ
ータ読出手段と、この第１データ読出手段によって読み出されたデータを
静的復号した文字を出力する第１復号手段と、この第１復号手段によって前記制御文字列記憶手段内の
いずれかの開始制御文字列と同じ文字列が復号されたと
きに、前記第１データ読出手段の動作を中止させる第１
復号制御手段と、この第１復号制御手段によって前記第１データ読出手段
の動作が中止されたときに、前記圧縮文書ファイル内の
未処理のデータの読み出しを開始する第２データ読出手
段と、この第２データ読出手段によって読み出されたデータを
動的復号した文字を出力する第２復号手段と、この第２復号手段によって前記制御文字列記憶手段内の
いずれかの終了制御文字列と同じ文字列が復号されたと
きに、前記第２データ読出手段の動作を中止させるとと
もに前記第２復号手段が動的復号に用いるモデルを初期
化する第２復号制御手段と、この第２復号制御手段による制御が行われたときに、前
記第２復号手段によって復号された文字列が、前記指定
手段によって指定されたインデックスの末尾に含まれる
開始制御文字列に対応する終了制御文字列でなかった場
合に、前記第１読出手段の動作を再開させる第３復号制
御手段と、を備えることを特徴とする文書管理装置。
【請求項１１】開始制御文字列と終了制御文字列が挿
入された原データを圧縮するデータ圧縮方法であって、前記原データから開始制御文字列及び終了制御文字列を
検索する検索ステップと、前記検索ステップにおいて前記開始制御文字列が検索さ
れたときに、以降の原データを符号化した符号化データ
を圧縮データの要素として出力する処理を開始し、前記
検索ステップにおいて前記終了制御文字列が検索された
ときには、符号化を行わずに、以降の原データをそのま
ま圧縮データの要素として出力する処理を開始するデー
タ処理ステップとを備えることを特徴とするデータ圧縮
方法。
【請求項１２】前記データ処理ステップは、動的モデ
ルを用いて符号化を行い、前記検索ステップにおいて前
記終了制御文字列が検索されたときには、その動的モデ
ルを初期化することを特徴とする請求項１１記載のデー
タ圧縮方法。
【請求項１３】前記データ処理ステップは、以降の原
データを符号化した符号化データを圧縮データの要素と
して出力する処理を開始する際に、前記検索ステップに
おいて検索された前記終了制御文字列を圧縮データの要
素として出力する請求項１１または請求項１２記載のデ
ータ圧縮方法。
【請求項１４】前記データ処理ステップは、前記検索
ステップにおいて前記終了制御文字列が検索されたとき
には、以降の原データを所定の置換表を用いて置換した
データを圧縮データの要素として出力する処理を開始す
ることを特徴とする請求項１１または請求項１２記載の
データ圧縮方法。
【請求項１５】開始制御文字列をその末尾に有するデ
ータと、終了制御文字列をその末尾に有するデータを符
号化したデータとが混在する圧縮データを復元するデー
タ復元方法であって、復元を終えたデータの末尾に開始制御文字列あるいは終
了制御文字列が存在するか否かを判別する判別ステップ
と、この判別ステップにおいて開始制御文字列の存在が判別
されたときに、以降の圧縮データを復号した文字を復元
結果として出力する処理を開始し、前記判別ステップに
おいて終了制御文字列が検索されたときには、以降の圧
縮データをそのまま復元結果として出力する処理を開始
するデータ処理ステップとを備えるデータ復元方法。
【請求項１６】前記データ処理ステップは、動的モデ
ルを用いて復号を行い、前記検索ステップにおいて前記
終了制御文字列が検索されたときには、その動的モデル
を初期化することを特徴とする請求項１５記載のデータ
復元方法。
【請求項１７】前記データ処理ステップは、復号した
文字を出力する処理を開始する際に、最初に復号される
終了制御文字列を復元結果として取り扱わないことを特
徴とする請求項１５または請求項１６記載のデータ復元
方法。
【請求項１８】前記データ処理ステップは、前記検索
ステップにおいて前記終了制御文字列が検索されたとき
には、以降の圧縮データを所定の置換表を用いて置換し
たデータを復元結果として出力する処理を開始すること
を特徴とする請求項１５または請求項１６記載のデータ
復元方法。