JP2004178614A - 文書管理方法および文書管理装置 - Google Patents
文書管理方法および文書管理装置 Download PDFInfo
- Publication number
- JP2004178614A JP2004178614A JP2004010938A JP2004010938A JP2004178614A JP 2004178614 A JP2004178614 A JP 2004178614A JP 2004010938 A JP2004010938 A JP 2004010938A JP 2004010938 A JP2004010938 A JP 2004010938A JP 2004178614 A JP2004178614 A JP 2004178614A
- Authority
- JP
- Japan
- Prior art keywords
- character
- document
- search
- entry
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】特定のビットマップのビットを横方向に順時調べ、ビットが1の場合には、他のビットマップエントリの対応するビットを調べる。つまり、縦方向にビットを調べ、すべてのビットが1の場合は、ビットに対応する文書が検索結果の文書となるようにする。また、各文字エントリ中に出現するビット1の出現数を予めカウントしておき、前述のビットを調べる処理の時にビット出現数が小さい順に並び代え、同様の処理を行うことによって、さらに参照するデータ量を減らすことが可能となる。さらに、文字エントリの一部しか参照しない場合には、全ブロックをアクセスすることなしにブロックテーブルから直接該当するブロックを得られ、高速に検索することができる。
【選択図】図9
Description
(1)文字成分表の構成が固定的だった。
(2)検索文字列が長くなるのに応じて検索時間がかかる。
(3)単一の文字列しか検索条件として指定できない。そのため、複数の文字列を論理演算子(AND,OR)で組み合わせた条件を満たす文書を検索することができない。
(4)文字成分表のビットマップデータを格納するブロックの大きさ(ブロックサイズ)が固定的であるため、ブロックサイズを小さくすると検索速度が低下し、ブロックサイズを大きくすると登録速度が低下してしまう。
(5)複数の文書を一括して登録する機能がなく、多量の文書を登録するのに処理時間がかかる。
(6)文書のデータがシステム内にあるので、ユーザにとって参照するのに手間がかかったり、文書の登録,削除,更新などの処理が面倒である。
また、各文字エントリ中に出現するビット1の出現数を予めカウントしておき、前述のビットを調べる処理の時にビット出現数が小さい順に並び代え、同様の処理を行うことによって、さらに参照するデータ量を減らすことが可能となる。
さらに、文字エントリの一部しか参照しない場合には、全ブロックをアクセスすることなしにブロックテーブルから直接該当するブロックを得られ、高速に検索することができる。
このように従来技術では文字エントリのアクセスが多く、検索速度の低下を招いていたが、検索時の処理のアルゴリズム及びデータ構成を変えることによって検索速度が向上する。
図1は、本発明による文書管理装置の一実施例を説明するための構成図で、図中、1は登録文書、2は文書登録手段、3は検索条件、4は文書検索手段、5は該当文書、6は文字成分表エントリ指定、7は文字成分表、8は文書本文データ、9は文書データベースである。
ここで示した文字成分表では、各文字の出現のみを記録した構成である。これは、各文字のコードに関数を作用させ、算出される値をエントリとするものである(各文字の出現をそのまま記録する図2の方式は、関数としてf(x)=xとしたものである)。このような1文字から算出されるエントリを単一文字エントリと呼ぶ。
ここで示した文字成分表では、各文字と連続する2文字からそれぞれの文字コードの下位4ビットをビット連結して得られる値をエントリとしている。例えば、「ぐ」,「だ」,「ば」のJISコードは、各々 0x2430,0x2440,0x2450 であり、下位4ビットを連結して得られる8ビットを文字成分表のエントリとした場合、「ぐぐ」,「ぐだ」,「ぐば」…は全て同じ 0x00 のエントリにまとめられる。すなわち、連続する2文字のコードに関数を作用させ、算出される値をエントリとすることができる(前側の文字x,後側の文字yに対して、関数g(x,y)の値をエントリとする)。このような連続する2文字から算出されるエントリ(文字成分)を隣接文字エントリと呼ぶ。図3の文字成分表は、単一文字エントリと隣接文字エントリを組み合わせたものである。
(1)登録文書1を文書本文データ8に登録する。
(2)登録文書1の内容を文字成分表7に登録する。
文書本文から文字成分表エントリ指定6で規定されるエントリを抽出する。登録文書番号をi,抽出されたエントリ番号をjとした場合、すべてのjについて文字成分表の点(i,j)の値を“1”にする。
(1)文字成分表7を用いて検索文字列を含む可能性のある文書番号を求める。
(a)検索文字列から文字成分表エントリ指定6で規定されるエントリを抽出する。
(b)抽出された全てのエントリのビットマップ(図2の横一列)を文字成分表から抜きだし、ビットANDをとる。
(3)前記(1)で求まった文書番号の文書本文を文書本文データ8から読みだし、検索文字列が含まれているか調べ、含まれている文書集合を検索結果とする。
文書には様々な用途のものがあるため、異なる文書集合は異なる文書データベースに保存することが望まれる。その際、異なる文書集合は、文書の長さや文字の出現頻度なども違う。そこで、本発明の文書管理装置では、文書データベース9ごとに文字成分表エントリ指定6を異なったものを用いることができるため、効率的な文書管理を行える。
図5は、長い文字列をエントリとして持つ文字成分表を示す図である。
「システム」「パターン」などが文字列エントリである。文字列エントリは、文書における出現頻度の高い文字列を選出すれば良い。
検索時には、検索語「マンマシンシステム」からは、文字として「マ」「ン」「マ」「シ」「ン」、文字列として「システム」が抽出されるが、「システム」に含まれる「シ」および単一文字の重複を削除する。結局、「マ」「ン」「システム」の3つのエントリにアクセスするだけでよく、検索時間は大幅に短縮できる。
・先頭ブロックオフセットフィールド
・末尾ブロックオフセットフィールド
・次ブロックオフセットフィールド
・データフィールド
図6(a)は、文字成分表のためのファイル構成の一例を示す図である。なお、インデックスファイルを半導体メモリ上にロードしておくことは、高速化に有効である。
(1)書き出し用の一時ファイルを作成する。
(2)文字成分表を構成する全てのエントリのビットマップデータに対して、次の処理を行う。
(a)コンテナはそのまま一時ファイルに書き出す。
(b)コンテナにまとめ上げられる(M個の)バケットは、1個のコンテナとし、一時ファイルに書き出す。
(c)残りのコンテナにまとめ上げられない(M個未満の)バケットは、一時ファイルに書き出す。
(3)これまでのビットマップデータファイルを削除する。
(4)一時ファイルを新たなビットマップデータファイルとする。
網掛けによって各バケット/コンテナがどのエントリ(ここでは文字ごとにエントリを立てている)に対応しているかを示す。ここでは、コンテナはバケットの8倍の大きさとしている。例えば、「あ」は、融合処理前にバケット17個なので、融合処理後はコンテナ2個とバケット1個になる。「い」は、同様にしてバケット11個がコンテナ1個とバケット3個になる。「う」は、バケットが7個しかないので、コンテナには1個も生成されず、バケット7個のままである(ただし、この場合でもバケットがお互いに隣接する位置に配置されるため、アクセスが高速化され、検索速度が向上する)。
(1)書き出し用の一時ファイルを2つ作成する。1つを「コンテナ用一時ファイル」、もう1つを「バケット用一時ファイル」と呼ぶ。
(2)文字成分表を構成する全てのエントリのビットマップデータに対して、次の処理を行う。
(a)コンテナはそのままコンテナ用一時ファイルに書き出す。
(b)コンテナにまとめ上げられる(M個の)バケットは1個のコンテナとし、コンテナ用一時ファイルに書き出す。
(c)残りのコンテナにまとめ上げられない(M個未満の)バケットは、バケット用一時ファイルに書き出す。
(3)これまでのビットマップデータファイルを削除する。
(4)コンテナ用一時ファイルにバケット用一時ファイルを連結し、新たなビットマップデータファイルとする。
ブロック融合処理後にも文書は追加登録される。追加登録後のブロックタイプはバケットなので、追加登録文書数が増大すると、再び検索速度が低下してしまう。その場合、再びブロック融合処理手順Bによりブロック融合処理を行えばよい。しかし、ブロック融合処理手順Bでは、2つの一時ファイルの大きさの合計は、データファイルとほぼ等しくなってしまう。多量の文書が登録された場合、データファイルの大きさが膨大となるため、これは極めて望ましくない。次に示すブロック融合処理手順Cはこの点を改良し、一時ファイルの大きさの合計をデータファイルのバケット部分の大きさ程度で済むようにした。
(1)書き出し用の一時ファイルを2つ作成する。1つを「コンテナ用一時ファイル」、もう1つを「バケット用一時ファイル」と呼ぶ。
(2)文字成分表を構成する全てのエントリのビットマップデータに対して、次の処理を行う。
(a)コンテナは無視する。
(b)コンテナにまとめ上げられる(M個の)バケットは、1個のコンテナとし、コンテナ用一時ファイルに書き出す。
(c)残りのコンテナにまとめ上げられない(M個未満の)バケットは、バケット用一時ファイルに書き出す。
(3)ビットマップデータファイルのバケット部分を削除する。
(4)ビットマップデータファイルにコンテナ用一時ファイル、さらにバケット用一時ファイルを連結する。
以下の説明では、対象文書は1バイト文字コード(例えば、ASCII)及び2バイト文字コード(EUC:Extended UNIX(R) CODE)からなるテキストデータとする。しかし、対象とする文字コードはEUC以外にも容易に適用可能である。
以下、単一文字成分表、隣接文字成分表について説明する。
・隣接文字成分表
−同種隣接文字成分表:隣接する同種の文字のペアがどの文書に出現するか否かを示す表
*記号
*英数時
*ひらがな
*カタカナ
*ギリシャ文字、グラフィック文字など
*1バイト文字コード
*第一水準漢字
*第二水準漢字
−異種隣接文字成分表:隣接する異種の文字のペアがどの文書に出現するか否かを示す表
図12は、従来の検索方法を説明するための図である。
図12において、ビットの1は文字成分が出現することを示し、0は文字成分が出現しないことを意味する。従来の検索方法では検索文字列から文字種を判別して単一文字成分、隣接文字成分を登録時と同様に抽出し、各文字成分に対応する単一文字成分表及び隣接文字成分表から文字エントリのビットマップを抽出してAND演算を行う。したがって、対象となるすべての文字エントリのデータを参照することになる。
本実施例では、前述の文字エントリは二次記憶上で、図15に示すように、インデックスとブロックテーブルとブロックとから構成される。インデックスは各内部文字コードに対してブロックテーブルポインタとビット出現数(エントリ内に出現するビット1の数)のペアからなる。ブロックテーブルは先頭に次のブロックテーブルへのポインタを有し、ブロックポインタとブロック最終登録文書ID(ブロック内の最後に登録されている文書のID)からなる。したがって、内部文字コード「あ」に対応する全ブロックは、図15に示すように、ブロックテーブルから示されるブロックとなる。
・インデックスの「あ」に対応するブロックテーブルポインタからブロックテーブルを得る。
・ブロック最終登録文書IDから文書ID4000を含むブロック(ブロックポインタ5120)を得る。
・ブロック(5120)のデータが圧縮されている場合には伸長し、文書ID4000に該当するビットを得る。
このように、文字エントリの一部しか参照しない場合には、全ブロックをアクセスすることなしにブロックテーブルから直接該当するブロックを得られ、高速に検索することができる。
本実施例では、図16(b)のように、分散したブロックをページ単位にまとめ上げることで検索処理時にREADするページを減らし、処理を速くすることができる。図16に示す例では、まとめ上げ前には6ページ以上をREADしなければならなかったが、まとめ上げ後には3ページとなり、READの時間が半分以下になる。このようにブロックをページ単位にまとめ上げる処理をまとめ上げ処理と呼ぶ。
(1)前処理
(a)文字成分表をオープンする。
(b)まとめ上げ用文字成分表を作成しオープンする。
(c)残ブロックページをアロケートする。
(a)ページへのまとめ上げ処理
i.1ランレングスを読みページバッファに詰める。
ii.ページバッファにデータが満たされたらページバッファを書き出し、ページバッファをクリアする。
iii.ランレングスをすべて読み終るまで前記i.に戻る。
(b)ページにまとめ上げられなかったブロック(残ブロック)の書き出し処理
i.まとめ上げられなかったランレングスから再度1ランレングスを読み、残ブロックバッファに詰める。
ii.残ブロックバッファにデータが満たされたら残ブロックページに書き出す。
iii.残ブロックページの領域をすべて使い果たしたら新たに残ブロックページをアロケートする。
iv.ランレングスをすべて読み終るまで前記i.に戻る。
(a)書き出されていない残ブロックページを書き出す。
(b)文字成分表及びまとめ上げ文字成分表をクローズする。
こうすることによって、文字成分表を1回スキャンするだけまとめ上げ処理が可能となり、処理が高速であるだけでなく、処理時に必要な二次記憶の領域を最小限に抑えられる。
本実施例の検索処理では、検索文字列から抽出されるエントリ数が少なければ、文字成分表へのアクセスが少なくなり、検索が高速になる。文字成分表エントリ指定において、単一文字エントリと隣接文字エントリを定義した場合、検索文字列がn文字の時、n個の単一文字エントリとn−1個の隣接文字エントリが抽出されるので、トータルでは2n−1個のエントリが抽出され、検索が遅い。
・単一文字エントリ:以下の文字に関数f(x)を作用させる。
パ,タ,ー,ン,マ,ッ,チ
・隣接文字エントリ:以下の2文字に関数g(x,y)を作用させる。
パタ,ター,ーン,ンマ,マッ,ッチ
・単一文字エントリ:抽出しない。
・隣接文字エントリ:以下の2文字に関数g(x,y)を作用させる。
パタ,ター,ーン,ンマ,マッ,ッチ
なお、この方式が有効なのは、f(x)=x,g(x,y)=x+αyに限らない。
本実施例も、上述の検索処理と同様の効果を狙ったものであり、文字成分表エントリ定義がf(x)=x,g(x,y)=x+α(y mod β)(ここで、αは文字コードの取り得る最大値、βは適当な定数)のような場合を扱う。この時、検索文字列からg(X,Y)が抽出される時には、必ずf(X)は抽出される(例えば、g(パ,タ)が抽出される時は、必ずf(パ)も抽出される)。したがって、検索文字列を含む文書を特定する上で、末尾の1文字を除いては単一文字エントリは意味をなさない。そこで、検索文字列からは末尾の1文字から算出される単一文字エントリと、隣接文字エントリを抽出する。その結果、n文字の検索文字列から1個の単一文字エントリとn−1個の隣接文字エントリのトータルn個のエントリが抽出されるので、検索が高速化できる。
・単一文字エントリ:以下の文字に関数f(x)を作用させる。
チ
・隣接文字エントリ:以下の2文字に関数g(x,y)を作用させる。
パタ,ター,ーン,ンマ,マッ,ッチ
なお、この方式が有効なのは、f(x)=x,g(x,y)=x+α(y mod β)に限らない。
本実施例も上述の検索処理と同様の効果を狙ったものであり、文字成分表エントリ定義がf(x)=x,g(x,y)=y+α(x mod β)のような場合を扱う。この時、検索文字列からg(X,Y)が抽出される時には、必ずf(Y)は抽出される(例えば、g(パ,タ)が抽出される時は、必ずf(タ)も抽出される)。したがって、検索文字列を含む文書を特定する上で、先頭の1文字を除いては単一文字エントリは意味をなさない。そこで、検索文字列からは先頭の1文字から算出される単一文字エントリと、隣接文字エントリを抽出する。その結果、n文字の検索文字列から1個の単一文字エントリとn−1個の隣接文字エントリのトータルn個のエントリが抽出されるので、検索が高速化できる。
・単一文字エントリ:以下の文字に関数f(x)を作用させる。
パ
・隣接文字エントリ:以下の2文字に関数g(x,y)を作用させる。
パタ,ター,ーン,ンマ,マッ,ッチ
なお、この方式が有効なのは、f(x)=x,g(x,y)=y+α(x mod β)に限らない。
・単一文字エントリ:以下の文字に関数f(x)を作用させる。
マ,ッ,チ
・隣接文字エントリ:以下の2文字に関数g(x,y)を作用させる。
ンマ,マッ,ッチ
・文字列エントリ:
パターン
一方、本発明では、隣接文字エントリについては該当する文字列エントリに前後の文字を加えた文字列から抽出されるエントリを抽出しないことで、検索文字列から抽出エントリ数を削減し、検索を高速化する(単一文字エントリについては、これまで通り、該当する文字列エントリから抽出されるエントリを抽出しないこととする)。
・単一文字エントリ:以下の文字に関数f(x)を作用させる。
マ,ッ,チ
・隣接文字エントリ:以下の2文字に関数g(x,y)を作用させる。
マッ,ッチ
・文字列エントリ:
パターン
文書から文字成分を抽出し、文字成分表を生成するまでの過程は、図9〜図11に従って記述された実施例と同様に行われる。
これにより得られる文字成分表の構成は、図18に示されるようにインデックスとビットマップデータから成る。インデックス部は、文字成分とビットマップデータへのポインタの対応表である。ビットマップデータは文字成分表の文書中に文字成分が出現するか否かを示す0,1のデータである。大量の文書を登録する場合に、ビットマップデータは巨大になることから、メモリ上には置かず二次記憶に置く。
したがって、当該装置のシステム内部にオリジナルの文書データを持つ必要がなく、内部の二次記憶を無駄に利用しないだけではなく、該システムを介する煩わしさがなく、ユーザや他のアプリケーションによる登録文書の参照が可能となる。
したがって、オリジナル文書をユーザが普段利用するファイルシステム上に置く場合には、一つのディレクトリ階層に存在する文書をそのまま当該文書管理装置で管理するシステムとすることが可能となる。また、ディレクトリを指定することによって、そのディレクトリ中に含まれる文書および下位のディレクトリ中に含まれる全文書を自動的に登録することができるようにすることで、ディレクトリ上の全文書を一つ一つユーザが指定する必要があったところの従来のユーザの負担を軽減することになる。
ディレクトリを監視する方法としては、一定時間ごとに指定されたディレクトリの変化を調べる方法やOSなどの基本システムのファイル操作のシステムコールの処理を変更し、ファイル操作があった場合に文書管理システムに通知する方法などを採用し得る。
Claims (6)
- 大量の文書データを保持し、入力装置から入力された検索文字列を含む文書を検索し、出力装置により検索した文書を出力する文書管理方法であって、文書登録時に文書より各文字コード成分及び2文字以上の隣接文字からビット列成分を算出し、各文書がそれぞれの成分を含むか否かを示す単一文字成分表及び一つ以上の隣接文字成分表を生成し、該文字成分表の可変長の各文字成分のエントリを複数の固定長ブロックに分割して二次記憶に登録し、検索時には検索文字列から登録時と同様に単一文字成分及び2文字以上の隣接文字成分を抽出し、該隣接文字成分に対応する二次記憶上の固定長ブロックを統合し、各文字エントリを生成して文書を検索する文書管理方法において、仮に文字エントリで文字成分が出現するビットを1とし、出現しないビットを0とした場合に、検索時に複数の文字エントリのビットマップのAND処理を行う時に対象となる文字エントリを一つ適当に選択し、ビット列をスキャンして値が1である時だけ他のエントリの対応するビットを調べ、全てのエントリの対応するビットの値が1である文書を検索結果とすることにより、文字エントリのビットマップへのアクセスを最小限に全文検索を行うことを特徴とする文書管理方法。
- 文字エントリごとに該文字エントリに出現する1のビットの個数をあらかじめ二次記憶に記録しておき、検索時に複数の文字エントリのビットマップのAND処理を行う時に対象となる文字エントリのうち、該ビット出現数の最も少ない文字エントリを選択し、ビット列をスキャンして値が1である時だけビット出現数の少ない順に他の文字エントリの対応するビットを調べ、全ての文字エントリの対応するビットの値が1である文書を検索結果とすることにより、文字エントリのビットマップへのアクセスを最小限に抑え全文検索を行うことを特徴とする請求項1記載の文書管理方法。
- 文字エントリの一部へのアクセスの場合に、文字エントリの全ブロックを読み出す必要がないように、可変長の文字エントリのビットマップデータを複数の固定長のブロックに分割して二次記憶に格納し、各固定長のブロックを管理するブロックテーブルを二次記憶上に有し、該ブロックテーブルから任意の固定長ブロックをアクセスできるようにすることによって、必要のない二次記憶上のブロックへのアクセスを減らして全文検索を行うことを特徴とする請求項2記載の文書管理方法。
- 大量の文書データを保持し、入力装置から入力された検索文字列を含む文書を検索し、出力装置により検索した文書を出力する文書管理装置であって、文書登録時に文書より各文字コード成分及び2文字以上の隣接文字からビット列成分を算出し、各文書がそれぞれの成分を含むか否かを示す単一文字成分表及び一つ以上の隣接文字成分表を生成し、該文字成分表の可変長の各文字成分のエントリを複数の固定長ブロックに分割して二次記憶に登録する文書登録処理部と、検索時には検索文字列から登録時と同様に単一文字成分及び2文字以上の隣接文字成分を抽出する文字列入力処理部と、該隣接文字成分に対応する二次記憶上の固定長ブロックを統合し、各文字エントリを生成して文書を検索する文書検索処理部とを有する文書管理装置において、前記文書検索処理部は、仮に文字エントリで文字成分が出現するビットを1とし、出現しないビットを0とした場合に、検索時に複数の文字エントリのビットマップのAND処理を行う時に対象となる文字エントリを一つ適当に選択し、ビット列をスキャンして値が1である時だけ他のエントリの対応するビットを調べ、全てのエントリの対応するビットの値が1である文書を検索結果とすることにより、文字エントリのビットマップへのアクセスを最小限に全文検索を行うことを特徴とする文書管理装置。
- 前記文書検索処理部は、文字エントリごとに該文字エントリに出現する1のビットの個数をあらかじめ二次記憶に記録しておき、検索時に複数の文字エントリのビットマップのAND処理を行う時に対象となる文字エントリのうち、該ビット出現数の最も少ない文字エントリを選択し、ビット列をスキャンして値が1である時だけビット出現数の少ない順に他の文字エントリの対応するビットを調べ、全ての文字エントリの対応するビットの値が1である文書を検索結果とすることにより、文字エントリのビットマップへのアクセスを最小限に抑え全文検索を行うことを特徴とする請求項4記載の文書管理装置。
- 前記文書検索処理部は、文字エントリの一部へのアクセスの場合に、文字エントリの全ブロックを読み出す必要がないように、可変長の文字エントリのビットマップデータを複数の固定長のブロックに分割して二次記憶に格納し、各固定長のブロックを管理するブロックテーブルを二次記憶上に有し、該ブロックテーブルから任意の固定長ブロックをアクセスできるようにすることによって、必要のない二次記憶上のブロックへのアクセスを減らして全文検索を行うことを特徴とする請求項5記載の文書管理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004010938A JP3565840B2 (ja) | 1994-06-02 | 2004-01-19 | 文書管理方法および文書管理装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12138594 | 1994-06-02 | ||
JP24165894 | 1994-10-05 | ||
JP2004010938A JP3565840B2 (ja) | 1994-06-02 | 2004-01-19 | 文書管理方法および文書管理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12137095A Division JP3563823B2 (ja) | 1994-06-02 | 1995-05-19 | 文書管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004178614A true JP2004178614A (ja) | 2004-06-24 |
JP3565840B2 JP3565840B2 (ja) | 2004-09-15 |
Family
ID=32718610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004010938A Expired - Fee Related JP3565840B2 (ja) | 1994-06-02 | 2004-01-19 | 文書管理方法および文書管理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3565840B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006209399A (ja) * | 2005-01-27 | 2006-08-10 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
JP2008217122A (ja) * | 2007-02-28 | 2008-09-18 | Hitachi Ltd | 検索対象文書の逐次追加が可能な転置インデックス作成装置、作成方法 |
WO2011148511A1 (ja) * | 2010-05-28 | 2011-12-01 | 富士通株式会社 | 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法 |
JP2015062146A (ja) * | 2015-01-05 | 2015-04-02 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
JP2016149160A (ja) * | 2016-05-09 | 2016-08-18 | 富士通株式会社 | 情報生成方法、およびインデックス情報 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05174064A (ja) * | 1991-12-25 | 1993-07-13 | Hitachi Ltd | 文書検索方法及び装置 |
JPH06290217A (ja) * | 1993-03-31 | 1994-10-18 | Ricoh Co Ltd | 文書検索方式 |
JPH06309360A (ja) * | 1993-04-21 | 1994-11-04 | Hitachi Ltd | 否定論理条件の処理に適したフルテキストサーチ方法 |
-
2004
- 2004-01-19 JP JP2004010938A patent/JP3565840B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05174064A (ja) * | 1991-12-25 | 1993-07-13 | Hitachi Ltd | 文書検索方法及び装置 |
JPH06290217A (ja) * | 1993-03-31 | 1994-10-18 | Ricoh Co Ltd | 文書検索方式 |
JPH06309360A (ja) * | 1993-04-21 | 1994-11-04 | Hitachi Ltd | 否定論理条件の処理に適したフルテキストサーチ方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006209399A (ja) * | 2005-01-27 | 2006-08-10 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
JP4682627B2 (ja) * | 2005-01-27 | 2011-05-11 | 富士ゼロックス株式会社 | 文書検索装置および方法 |
JP2008217122A (ja) * | 2007-02-28 | 2008-09-18 | Hitachi Ltd | 検索対象文書の逐次追加が可能な転置インデックス作成装置、作成方法 |
WO2011148511A1 (ja) * | 2010-05-28 | 2011-12-01 | 富士通株式会社 | 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法 |
CN102918524A (zh) * | 2010-05-28 | 2013-02-06 | 富士通株式会社 | 信息生成程序、装置、方法以及信息检索程序、装置、方法 |
JP5741577B2 (ja) * | 2010-05-28 | 2015-07-01 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
CN102918524B (zh) * | 2010-05-28 | 2016-06-01 | 富士通株式会社 | 信息生成程序、装置、方法以及信息检索程序、装置、方法 |
US9501557B2 (en) | 2010-05-28 | 2016-11-22 | Fujitsu Limited | Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method |
JP2015062146A (ja) * | 2015-01-05 | 2015-04-02 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
JP2016149160A (ja) * | 2016-05-09 | 2016-08-18 | 富士通株式会社 | 情報生成方法、およびインデックス情報 |
Also Published As
Publication number | Publication date |
---|---|
JP3565840B2 (ja) | 2004-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5548751A (en) | Dynamic data storage system allowing variable size records and fields by using linked record segments | |
JP3771271B2 (ja) | コンパクト0完全木における順序付けられたキーの集まりの記憶と検索のための装置及び方法 | |
US5201048A (en) | High speed computer system for search and retrieval of data within text and record oriented files | |
US7783855B2 (en) | Keymap order compression | |
US4991087A (en) | Method of using signature subsets for indexing a textual database | |
US5717912A (en) | Method and apparatus for rapid full text index creation | |
EP0702310B1 (en) | Data retrieval system, data processing system, data retrieval method, and data processing method | |
US6678687B2 (en) | Method for creating an index and method for searching an index | |
US5488717A (en) | MTree data structure for storage, indexing and retrieval of information | |
JP3263963B2 (ja) | 文書検索方法及び装置 | |
US20020188614A1 (en) | Software-based methodology for the storage and retrieval of diverse information | |
US5913209A (en) | Full text index reference compression | |
US5566329A (en) | System and method for mutation of selected assignment operations on large data objects | |
JP3003915B2 (ja) | 単語辞書検索装置 | |
JP2888188B2 (ja) | 情報検索装置 | |
US5133066A (en) | Method for selecting multiple versions of data in a reduced record units text editing system | |
JP3518933B2 (ja) | 構造化文書検索方法 | |
JP3565840B2 (ja) | 文書管理方法および文書管理装置 | |
JP3563823B2 (ja) | 文書管理装置 | |
JP3859044B2 (ja) | インデクス作成方法および検索方法 | |
JP2007048318A (ja) | リレーショナルデータベースの処理方法およびリレーショナルデータベース処理装置 | |
JP2925042B2 (ja) | 情報リンク生成方法 | |
JP2675958B2 (ja) | 情報検索用計算機システム及びその記憶装置の動作方法 | |
JP3649472B2 (ja) | 情報検索装置 | |
Yu et al. | A linear-time scheme for version reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040608 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080618 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090618 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090618 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100618 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |