JP2001312517A - インデクス生成装置及び文書検索装置 - Google Patents

インデクス生成装置及び文書検索装置

Info

Publication number
JP2001312517A
JP2001312517A JP2000133437A JP2000133437A JP2001312517A JP 2001312517 A JP2001312517 A JP 2001312517A JP 2000133437 A JP2000133437 A JP 2000133437A JP 2000133437 A JP2000133437 A JP 2000133437A JP 2001312517 A JP2001312517 A JP 2001312517A
Authority
JP
Japan
Prior art keywords
document
index
data
character string
partial character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000133437A
Other languages
English (en)
Inventor
Shinichiro Tsudaka
新一郎 津高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000133437A priority Critical patent/JP2001312517A/ja
Publication of JP2001312517A publication Critical patent/JP2001312517A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書データベースのインデクスデータファイ
ルの容量を圧縮する。 【解決手段】 文書データベースに格納されている文書
から文字列を抽出し、その文字列に係る文書番号と、そ
の文書の各々における出現位置を求め、それら文書番号
又はそれら出現位置、若しくはその両方において、差分
データ化して記録しインデクスとする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書データベース
に格納される文書データを、ユーザ設定の検索条件によ
り検索する文書検索装置において、ユーザが入力する任
意の文字列を内部に含む文書を高速に検索するために予
めインデクスを作成するインデクス生成装置に関し、さ
らに当該インデクスを利用する文書検索装置に関する。
【0002】
【従来の技術】文書データベースに格納される文書デー
タに対し、様々な検索作業を行なう文書検索装置におい
ては、従来、予め文書データに関するインデクスを生成
するのが一般的である。ユーザが設定する任意の文字列
を含む文書を、効率よく高速にて捜し出すためである。
なお、インデクスは、文書データとは別のデータ構造体
を構成するものである。
【0003】上記のインデクスを生成する装置(インデ
クス生成装置)は、一般的に、以下のようにして、イン
デクスを形成する。 文書データベースに格納される文書データから、予め
想定されるあらゆる部分文字列を抽出する。 その抽出と同時に、その部分文字列の出現する文書の
識別符号(識別番号、識別子、等)、及びその文書内で
の出現位置(相対アドレス、オフセット、等)をも抽出
する。 上記の部分文字列と、上記の文書識別符号及び文
書内出現位置とを、組み合わせ、想定されるあらゆる部
分文字列に関して、記録する。
【0004】上記のインデクスを利用すれば、元データ
である文書データに直接アクセスすることなく、検索対
象の任意の部分文字列を含む文書及びその出現位置を、
高速にかつ効率よく判別することができる。
【0005】しかしながら、上記のインデクス生成装置
は、想定される全ての部分文字列に関して、出現する文
書の識別符号とその文書内部での出現位置とを、全て記
録するのだから、検索作業の大きな補助手段たり得ると
はいえ、インデクスそのものの全体情報量が膨大なもの
になりがちである。そして、その結果として、インデク
スであるデータ構造体を格納する各種メモリ容量が、莫
大になってしまう。
【0006】
【発明が解決しようとする課題】本発明は、上記の従来
からのインデクスが備える、高速かつ高効率の検索性を
保持しつつ、さらに、容量が大幅に削減されるインデク
スを生成する装置を提供することを目的とする。加え
て、当該インデクス生成装置及びインデクスを利用す
る、文書検索装置を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明は、上記の目的を
達成するためになされたものである。本発明に係る請求
項1記載のインデクス生成装置は、文書データベースに
格納されている複数又は1つの文書から、任意の文字列
を内部に含む文書を検索する際に用いるインデクス・デ
ータを生成する装置である。そのインデクス生成装置に
おいて、上記文書データベースに格納される文書から複
数の部分文字列を抽出する文字列抽出手段と、上記の抽
出された部分文字列の個々において、上記の抽出された
部分文字列が出現する文書の識別番号を抽出する出現文
書抽出手段と、上記の抽出された部分文字列の個々にお
いて、上記の出現文書抽出手段により抽出された1つ又
は複数の文書識別番号を数値配列とし、その数値配列を
差分値による表現形態に変換し、その差分値で表現され
る数値配列をバイナリ表記の可変長データとして記録し
てインデクスを構成する第1のデータとする、出現文書
差分記録手段と、上記の抽出された部分文字列が出現す
る各文書においてその文書における出現位置を上記の第
1のデータと関連させて記録してインデクスを構成する
第2のデータとする、出現位置記録手段とを備える。
【0008】本発明に係る請求項2記載のインデクス生
成装置は、文書データベースに格納されている複数又は
1つの文書から、任意の文字列を内部に含む文書を検索
する際に用いるインデクス・データを生成する装置であ
る。そのインデクス生成装置において、上記文書データ
ベースに格納される文書から複数の部分文字列を抽出す
る文字列抽出手段と、上記の抽出された部分文字列の個
々において、上記の抽出された部分文字列が出現する文
書の識別番号を記録してインデクスを構成する第1のデ
ータとする、出現文書記録手段と各文書において、上記
の抽出された部分文字列の個々につき、その出現位置を
抽出する出現位置抽出手段と、各文書において、上記の
抽出された部分文字列の個々につき、上記の出現位置抽
出手段により抽出された1つ又は複数の出現位置を数値
配列とし、その数値配列を差分値による表現形態に変換
し、その差分値で表現される数値配列をバイナリ表記の
可変長データとして上記の第1のデータと関連させて記
録してインデクスを構成する第2のデータとする、出現
位置差分記録手段とを備える。
【0009】本発明に係る請求項3記載のインデクス生
成装置は、文書データベースに格納されている複数又は
1つの文書から、任意の文字列を内部に含む文書を検索
する際に用いるインデクス・データを生成する装置であ
る。そのインデクス生成装置において、上記文書データ
ベースに格納される文書から複数の部分文字列を抽出す
る文字列抽出手段と、上記の抽出された部分文字列の個
々において、上記の抽出された部分文字列が出現する文
書の識別番号を抽出する出現文書抽出手段と、上記の抽
出された部分文字列の個々において、上記の出現文書抽
出手段により抽出された1つ又は複数の文書識別番号を
数値配列とし、その数値配列を差分値による表現形態に
変換し、その差分値で表現される数値配列をバイナリ表
記の可変長データとして記録してインデクスを構成する
第1のデータとする、出現文書差分記録手段と、各文書
において、上記の抽出された部分文字列の個々につき、
その出現位置を抽出する出現位置抽出手段と、各文書に
おいて、上記の抽出された部分文字列の個々につき、上
記の出現位置抽出手段により抽出された1つ又は複数の
出現位置を数値配列とし、その数値配列を差分値による
表現形態に変換し、その差分値で表現される数値配列を
バイナリ表記の可変長データとして上記の第1のデータ
と関連させて記録してインデクスを構成する第2のデー
タとする、出現位置差分記録手段とを備える。
【0010】本発明に係る請求項4記載の文書検索装置
は、請求項1乃至請求項3に記載のインデクス生成装置
を含む、文書検索装置である。
【0011】
【発明の実施の形態】以下において、図面を参照しつつ
本発明に係る好適な実施形態を説明する。
【0012】図1は、本発明に係るインデクス生成シス
テム(装置)及び文書検索システム(装置)として稼動
し得る、計算機システム2の1つの形態である。本発明
として動作する計算機は、構成や能力において特に限定
されない。図1の計算機システム2は、表示部4、入力
部6、本体部8を備える。さらに、図示していないが、
本体部8には、例えばCPUを備えるマザーボードなど
からなる処理部12と、ハードディスクなどからなるメ
モリ部10とが、含まれる。
【0013】実施の形態1.図2、図10、図11は、
本発明に係るインデクス生成システムの概略機能を示す
ブロック図である。これらの図のブロックにより表され
る機能は、主として処理部12及びメモリ部10にて実
現されるものである。
【0014】まず、図2に示される第1のインデクス生
成システム14は、(1)多数の文書データを記録する
文書データベース16と、(2)文書データベース16
に記録される文書から文字列を抽出する手段(以下、文
字列抽出手段という。)18と、(3)上記(2)にて
抽出された文字列が含まれる文書の識別番号を後述のイ
ンデクス20に記録する出現文書記録手段26と、
(4)文書各々に対して上記(2)の文字列の出現位置
を抽出する出現位置抽出手段22と、(5)上記(4)
にて抽出した出現位置を差分数値データとして下記のイ
ンデクス20に記録する出現位置差分記録手段24と、
(6)抽出された文字列に係る文書識別番号データと、
文書各々に対しての出現位置差分データとが、記録され
るインデクス20とを有する。
【0015】ここで、文書データベース16及びインデ
クス20は、メモリ部10に格納されるものであり、文
字列抽出手段18、出現文書記録手段26、出現位置抽
出手段22、出現位置差分記録手段24は、処理部12
を構成する。
【0016】図3は、図2に示した第1のインデクス生
成システム14を構成する出現位置差分記録手段24に
係る処理の概略内容を表すフロー図である。上記で述べ
たようにこの出現位置差分記録手段24は、出現位置抽
出手段22から文字列の出現位置を表す数値配列を受け
取り、処理を行う。
【0017】次に、図3フロー図の説明をする。
【0018】ステップS02;受け取った各々の文字列
に関する出現位置を表す数値配列において、その配列の
要素を昇順に並べ替える。
【0019】ステップS04;昇順に並べ替えられた数
値配列において、まず、最初の要素はそのままの値とす
る。続いて、K番目(K>2)の要素と(K−1)番目
の要素との差分を計算し、差分値を新たなK番目の要素
とする。即ち、数値配列を、差分値による表現に置き換
える。
【0020】ステップS06;差分値表現に置き換えら
れた数値配列は、次のステップS08にてバイナリ(2
進数)表記による可変長データの形態で記録される。よ
って、ステップS06で、差分値表現に置き換えられた
数値配列に対し、配列の各要素をバイナリ表記で記録す
るのに必要なビット数を計算する。配列の各要素に関
し、算出されたビット数と各要素データ(バイナリ表
記)とを合わせて、可変長のデータを構築する。
【0021】ステップS08;可変長データとなった文
字列に関する出現位置を表す数値配列を、インデクスと
して記録する。
【0022】以上が、出現位置差分記録手段24に係る
処理内容である。
【0023】例えば、出現位置差分記録手段24が、出
現位置抽出手段22から、ある特定の文字列の出現位置
を表す数値配列として、(1,20,300,500,
10000)なるデータを受け取ったとする。ステップ
S04により差分数値配列は、(1,19,280,2
00,9500)となる。これをバイナリ表記すると、
(1,10011,100011000,110010
00,10010100011100)となり、37ビ
ット(=1+5+9+8+14)の領域があれば上記数
値配列が記録され得る。
【0024】但し、可変長データにおいてはデータ長を
付加して記録する必要がある。数値配列の要素の最大数
値を、232とすると、32ビットまでのデータ長を取り
得るから、データ長を記録する領域として各要素につき
5ビットが必要である。 32=25 であるからである。これを考慮すると、 37+5×5=62 となり、62ビットあれば、データ長も含めた完全な上
記数値配列が記録される。
【0025】現在一般に利用される計算機においては、
1つの整数値を記録するときは、4バイト(32ビッ
ト)の領域が用いられる。この場合、上記データ(1,
20,300,500,10000)の記録のために
は、20バイト(160ビット)の領域が必要になる。
従って、上記例のように、差分データがあまり大きくな
らない数値配列においては、生成されるインデクスに必
要なメモリ領域は、大幅に圧縮可能となる。
【0026】≪文書データ例を利用しての、インデクス
生成システム及び文書検索システムの動作の説明≫続い
て、文章データベース16に格納される1つの文書デー
タを例示して、本発明に係る実施形態である第1のイン
デクス生成システム14の動作を説明する。併せて、そ
の第1のインデクス生成システム14により生成された
インデクス20を利用する文書検索システム40の動作
を説明する。
【0027】文書データベース16には、図5のような
文書(文書1)が格納されているものとする。
【0028】先ず、図2における文字列抽出手段18に
よって、図5の文書1から、図6のような文字列が抽出
される。文字列抽出手段18は、この抽出では連続する
2文字の文字列を抽出している。従って、生成されるイ
ンデクス20も2文字の文字列に関するものであるが、
上記文字数は勿論、2文字に限定されるものではない。
【0029】図6の各々の文字列に対し、それが出現す
る各々の文書について、出現位置抽出手段22は、出現
位置の数値配列を抽出する(図7)。図7に示されるよ
うに「出願」という文字列に対しては、(28,17,
8)という数値配列が抽出される。
【0030】そして、上記数値配列は、出現位置差分記
録手段24によりインデクスへの記録へと向けられるの
であるが、先ず、数値配列が昇順に並べ替えられて(図
3ステップS02)、図8の配列となる。「出願」とい
う文字列に着目すると、数値配列(8,17,28)
は、差分数値配列となって(図3ステップS04)
(8,9,11)となる。これが図3ステップS06に
てバイナリ表記されると、(1000,1001,10
11)となり、 ・差分数値自体を表すビット列10001001101
1と、 ・差分数値配列の各要素のデータ長を表すビット列00
1000010000100とを得る。 これら可変長データはインデクス20に記録される。
【0031】上記のビット列の記録に必要なビット数の
総和は、 4×3+5×3=27 となる。各配列の要素毎に32ビット(4バイト)ずつ
割り当てる場合に比べて、記録に要するビット数(総
和)が小さくなっている。
【0032】上記のように生成されたインデクス20に
対し、 ・「国内出願」という文字列を用いて文書検索を行なう
ときの文書検索システム40の動作を、図4において説
明する。ここで、文書データベース16及びインデクス
20は、メモリ部10に格納される。検索条件入力手段
42、文字列抽出手段18、インデクス照合手段44、
検索結果構築手段46、検索結果表示手段48は、メモ
リ部10を構成するものである。
【0033】まず、検索条件入力手段42がまず「国内
出願」という文字列を受け付ける。文字列抽出手段18
はここから2文字の連続する文字列を全て抽出し、図9
のような位置データを含む部分文字列データを得る。
【0034】インデクス照合手段44は、図9のデータ
をインデクス20と照合し文書中に「国内出願」という
文字列があるか否か検索する。検索条件として入力した
文字列から抽出される部分文字列(図9参照)全部に関
して、ある文書中に出現する相対的な位置と、検索条件
文字列中に出現する相対的な位置とが、一致すれば、そ
の文書中には存在することになる。図8の内容を有する
インデクス20では、26文字目から4文字において、
図9のデータ(文字列)と相対的位置が一致する。
【0035】インデクス照合手段44により得られる出
現位置(及び文書番号)と、文書データベース16中に
含まれる情報とを用いて、検索結果構築手段46が検索
結果テキストを形成する。このとき、文書データベース
16から引用される情報としては、例えば、 ・当該文書タイトル、 ・検索対象文字列の周辺の文字列 などである。これら情報を検索結果として併せて表示す
ることは、操作者が現実に閲覧を希望する文書を確定す
る一助になり得る。形成された検索結果テキストは検索
結果表示手段48により、表示部4で表示される。
【0036】≪実施の形態1.の効果について≫そもそ
も文書においては、文字列の偏在性や局所性が見て取れ
るのが、一般的である。例えば、図5に示される例は、
情報量の大きい文書の一部分であるが、その一部分にお
いても「出願」という単語(部分文字列)が数回(3
回)登場し然もその位置も極めて近い。従って、部分文
字列の出現位置に係るインデクスを差分を表す可変長デ
ータで表現すると、可変長データそのものが小さい値と
なり、従ってそのデータ長が短くなる傾向がうかがえ
る。
【0037】従って、インデクス20においては、従来
技術のインデクスよりも大きくその容量が圧縮され得
る。
【0038】実施の形態2.以上の実施の形態1.にお
いては、個々の文書内での出現位置に関して、差分を表
す可変長データによりインデクス20を構築している。
部分文字列に関するインデクス20においては、文書識
別番号もインデクスデータの一要素として必ず備えられ
ているのであるが、この文書識別番号については各文書
に付されている番号がそのままインデクスとして格納さ
れている。
【0039】実施の形態2.に係る第2のインデクス生
成システム14’においては、各文書に付されている文
書識別番号に関して差分を表す可変長データによりイン
デクスを構築する。実施の形態2.に係るインデクス生
成システム14’の概略機能を表すブロック図を、図1
0に示す。図10において、出現文書抽出手段28及び
出現文書差分記録手段30は出現文書インデクス生成に
関して、実施の形態1.の(図2の)出現位置抽出手段
22及び出現位置差分記録手段24と、同じ動作を行な
う。但し、個々の文書内での出現位置に関しては、各文
書に対して文字列抽出手段18が抽出する出現位置デー
タをそのまま、出現位置記録手段32がインデクス2
0’に格納する。
【0040】実施の形態2.におけるインデクス20’
においても、容量の圧縮化効果が得られる。例えば、日
刊の新聞に対して、発行日付を追って文書識別番号を付
するとする。すると、文書識別番号を軸として眺めてい
くと文字列の偏在性や局所性が見て取れるのは明白であ
る。つまり、ある事件に係る単語(文字列)は幅を持っ
たある時期に集中するからである。
【0041】実施の形態3.実施の形態3.に係る第3
のインデクス生成システム14”においては、各文書に
付されている文書識別番号、及び個々の文書内での出現
位置の両方に関して、差分を表す可変長データによりイ
ンデクス20”を構築する。図11において、実施の形
態3.に係るインデクス生成システム14’の概略機能
を表すブロック図を示す。
【0042】実施の形態3.におけるインデクス20”
においては、実施の形態1.における圧縮効果と実施の
形態2.における圧縮効果と両方得られるため、より大
きな容量圧縮となる。
【0043】
【発明の効果】本発明に係る請求項1記載のインデクス
生成装置により、インデクスデータを格納する媒体の容
量の圧縮化が実現できる。特に、文書識別番号を軸とし
て眺めて、文字列の偏在性や局所性が見て取れる文書群
においては顕著である。
【0044】本発明に係る請求項1記載のインデクス生
成装置により、従来技術のインデクスデータファイルよ
りも大きくその容量が圧縮されたインデクスデータファ
イルが得られる。
【0045】本発明に係る請求項3記載のインデクス生
成装置により、請求項1記載のインデクス生成装置によ
るインデクスデータ圧縮効果と、請求項2記載のインデ
クス生成装置によるインデクスデータ圧縮効果との、両
方が得られる。
【0046】本発明に係る請求項4記載の文書検索装置
を利用すると、媒体の容量を大幅に圧縮できる。しか
も、従来どおりの高速性が保証される。
【図面の簡単な説明】
【図1】 本発明に係る実施形態を稼動する計算機シス
テムの例の模式図である。
【図2】 本発明に係る第1のインデクス生成システム
の概略機能を示すブロック図である。
【図3】 出現位置差分記録手段にか係る処理内容を表
すフロー図である。
【図4】 本発明に係る文書検索装置の概略機能を示す
ブロック図である。
【図5】 文書データベースの例である。
【図6】 文字列抽出手段により抽出される文字列であ
る。
【図7】 出現位置抽出手段により抽出される出現位置
の数値配列である。
【図8】 並べ替えられた図7の数値配列である。
【図9】 入力データから作成される文字列の例であ
る。
【図10】 本発明に係る第1のインデクス生成システ
ムの概略機能を示すブロック図である。
【図11】 本発明に係る第1のインデクス生成システ
ムの概略機能を示すブロック図である。
【符号の説明】
2 計算機システム、 4 表示部、 6 入力部、
8 本体部、 10 メモリ部、 12 処理部、 1
4、14’、14” インデクス生成システム、16
文書データベース、 18 文字列抽出手段、 20、
20’20”インデクス、 22 出現位置抽出手段、
24 出現位置差分記録手段、 26 出現文書記録
手段、 28 出現文書抽出手段、 30 出現文書差
分記録手段、 32 出現位置記録手段、 40 文書
検索装置、 42 検索条件入力手段、 44 インデ
クス照合手段、 46 検索結果構築手段、 48 検
索結果表示手段。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書データベースに格納されている複数
    又は1つの文書から、任意の文字列を内部に含む文書を
    検索する際に用いるインデクス・データを生成する装置
    において、 上記文書データベースに格納される文書から複数の部分
    文字列を抽出する文字列抽出手段と、 上記の抽出された部分文字列の個々において、上記の抽
    出された部分文字列が出現する文書の識別番号を抽出す
    る出現文書抽出手段と、 上記の抽出された部分文字列の個々において、上記の出
    現文書抽出手段により抽出された1つ又は複数の文書識
    別番号を数値配列とし、その数値配列を差分値による表
    現形態に変換し、その差分値で表現される数値配列をバ
    イナリ表記の可変長データとして記録してインデクスを
    構成する第1のデータとする、出現文書差分記録手段
    と、 上記の抽出された部分文字列が出現する各文書において
    その文書における出現位置を上記の第1のデータと関連
    させて記録してインデクスを構成する第2のデータとす
    る、出現位置記録手段とを備える、インデクス生成装
    置。
  2. 【請求項2】 文書データベースに格納されている複数
    又は1つの文書から、任意の文字列を内部に含む文書を
    検索する際に用いるインデクス・データを生成する装置
    において、 上記文書データベースに格納される文書から複数の部分
    文字列を抽出する文字列抽出手段と、 上記の抽出された部分文字列の個々において、上記の抽
    出された部分文字列が出現する文書の識別番号を記録し
    てインデクスを構成する第1のデータとする、出現文書
    記録手段と各文書において、上記の抽出された部分文字
    列の個々につき、その出現位置を抽出する出現位置抽出
    手段と、 各文書において、上記の抽出された部分文字列の個々に
    つき、上記の出現位置抽出手段により抽出された1つ又
    は複数の出現位置を数値配列とし、その数値配列を差分
    値による表現形態に変換し、その差分値で表現される数
    値配列をバイナリ表記の可変長データとして上記の第1
    のデータと関連させて記録してインデクスを構成する第
    2のデータとする、出現位置差分記録手段とを備える、
    インデクス生成装置。
  3. 【請求項3】 文書データベースに格納されている複数
    又は1つの文書から、任意の文字列を内部に含む文書を
    検索する際に用いるインデクス・データを生成する装置
    において、 上記文書データベースに格納される文書から複数の部分
    文字列を抽出する文字列抽出手段と、 上記の抽出された部分文字列の個々において、上記の抽
    出された部分文字列が出現する文書の識別番号を抽出す
    る出現文書抽出手段と、 上記の抽出された部分文字列の個々において、上記の出
    現文書抽出手段により抽出された1つ又は複数の文書識
    別番号を数値配列とし、その数値配列を差分値による表
    現形態に変換し、その差分値で表現される数値配列をバ
    イナリ表記の可変長データとして記録してインデクスを
    構成する第1のデータとする、出現文書差分記録手段
    と、 各文書において、上記の抽出された部分文字列の個々に
    つき、その出現位置を抽出する出現位置抽出手段と、 各文書において、上記の抽出された部分文字列の個々に
    つき、上記の出現位置抽出手段により抽出された1つ又
    は複数の出現位置を数値配列とし、その数値配列を差分
    値による表現形態に変換し、その差分値で表現される数
    値配列をバイナリ表記の可変長データとして上記の第1
    のデータと関連させて記録してインデクスを構成する第
    2のデータとする、出現位置差分記録手段とを備える、
    インデクス生成装置。
  4. 【請求項4】 請求項1乃至請求項3に記載のインデク
    ス生成装置を含む、文書検索装置。
JP2000133437A 2000-05-02 2000-05-02 インデクス生成装置及び文書検索装置 Pending JP2001312517A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000133437A JP2001312517A (ja) 2000-05-02 2000-05-02 インデクス生成装置及び文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000133437A JP2001312517A (ja) 2000-05-02 2000-05-02 インデクス生成装置及び文書検索装置

Publications (1)

Publication Number Publication Date
JP2001312517A true JP2001312517A (ja) 2001-11-09

Family

ID=18641934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000133437A Pending JP2001312517A (ja) 2000-05-02 2000-05-02 インデクス生成装置及び文書検索装置

Country Status (1)

Country Link
JP (1) JP2001312517A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
JP2008140357A (ja) * 2006-11-08 2008-06-19 Hitachi Ltd 転置インデックス作成装置、作成方法、及び検索方法
JP2009301511A (ja) * 2008-06-17 2009-12-24 Ns Solutions Corp 索引情報作成装置、索引情報作成方法及びプログラム
US8321485B2 (en) 2006-11-08 2012-11-27 Hitachi, Ltd. Device and method for constructing inverted indexes

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031243A (ja) * 2004-07-14 2006-02-02 Ricoh Co Ltd データベースマネジメントシステム、データベース管理方法、プログラムおよび記録媒体
JP4646289B2 (ja) * 2004-07-14 2011-03-09 株式会社リコー データベースマネジメントシステム
JP2008140357A (ja) * 2006-11-08 2008-06-19 Hitachi Ltd 転置インデックス作成装置、作成方法、及び検索方法
US8321485B2 (en) 2006-11-08 2012-11-27 Hitachi, Ltd. Device and method for constructing inverted indexes
JP2009301511A (ja) * 2008-06-17 2009-12-24 Ns Solutions Corp 索引情報作成装置、索引情報作成方法及びプログラム

Similar Documents

Publication Publication Date Title
US7243110B2 (en) Searchable archive
EP0293161B1 (en) Character processing system with spelling check function
JP4261779B2 (ja) データ圧縮装置および方法
US20160162504A1 (en) Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product
EP1315103B1 (en) File search method and apparatus, and index file creation method and device
US6735600B1 (en) Editing protocol for flexible search engines
CN100535889C (zh) 文件处理方法和数据处理装置
CN108304384B (zh) 拆词方法及设备
JP3518933B2 (ja) 構造化文書検索方法
CN110825747B (zh) 一种信息存取方法、装置和介质
JP2001312517A (ja) インデクス生成装置及び文書検索装置
KR20080082985A (ko) 데이터 파일 조작 방법 및 장치
JP2001022766A (ja) 多次元データベースの高速処理方法および装置
JPH11306194A (ja) 文字列に対するハッシュ値の計算方法およびその方法を実現するプログラムを記録した機械可読な記録媒体
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
JP4081236B2 (ja) データベースの処理方法
JPH0991305A (ja) 情報処理方法及び装置
JP7377915B2 (ja) 個別データ検索サービスを提供する方法、コンピュータ装置、およびコンピュータプログラム
JPH09114854A (ja) 文書検索システム
JP3202341B2 (ja) データベースシステム
JP3279002B2 (ja) 情報管理装置
JP3896683B2 (ja) 使用者定義文字管理装置および記憶媒体
JP3325326B2 (ja) 電子ファイリング装置
JPH01286020A (ja) プログラム検索方式
JPH10143404A (ja) 情報記録媒体及びそのデータ記録方式