JP2503333B2

JP2503333B2 - 全文インデックス検索方法

Info

Publication number: JP2503333B2
Application number: JP3220836A
Authority: JP
Inventors: 裕子松野; 純時澤
Original assignee: Fujitsu Social Science Labs Ltd
Current assignee: Fujitsu Social Science Labs Ltd
Priority date: 1991-09-02
Filing date: 1991-09-02
Publication date: 1996-06-05
Anticipated expiration: 2011-06-05
Also published as: JPH0561910A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は電子化した文書を特定の
キーワードを用いないで任意の文字列で検索する全文イ
ンデックス検索方法に関する。

【０００２】文書を選択するための検索は，書名，作成
者名，日付や要旨等の一覧を表示して選択する方法と，
利用者が入力したキーワードで予め文書毎に抽出して登
録したキーワードで検索を行う方法がある。

【０００３】文書からキーワードを抽出する方法は従来
から行われているが，問題があるためより効率的な検索
方法の実現が望まれている。

【０００４】

【従来の技術】文書からキーワードを抽出する方法は従
来から広く用いられている。その場合，キーワードを抽
出する方法として管理者による手作業やプログラムによ
る自動抽出があるが，何れも完璧にキーワードを過不足
なく抽出するのは不可能である。また，キーワードを用
いずに任意の文字列が文書中に存在することを検索する
全文内容検索の方法もあるが，指定した文字列が文書中
に存在するか文書の全体を走査する必要がある。

【０００５】

【発明が解決しようとする課題】上記したキーワードを
用いる方法はキーワードを過不足なく適切に選択するこ
とが不可能であるという問題がある。また，キーワード
を用いずに図書館等に所蔵するような多数の文書につい
て任意の文字列が存在することを調べる全文検索は膨大
な時間がかかるという問題があった。

【０００６】本発明は多数の文書について任意の文字列
の存在を高速に検索することができる全文インテデック
ス検索方法を提供することを目的とする。

【０００７】

【課題を解決するための手段】図１は本発明の原理図，
図２は本発明のインデックス文字数が複数の場合の原理
図である。

【０００８】図１において，１は元文書ファイル，１ａ
は文書中の出現位置情報，１ｂは文字，２はハッシュ関
数発生手段，３は全文インデックス，３ａは全文インデ
ックスのハッシュ値（インデックス格納位置），３ｂは
ハッシュされた文字種，３ｃはハッシュ値に該当する文
字の出現位置情報（複数個ある場合はリンク情報を含
む），４は検索文字列，５は検索出力情報，６は検索結
果を表す。

【０００９】本発明は，１文書が通常，数十万字程度で
あるが出現する文字種は数千種であるから，この数千種
の文字がそれぞれ文書中の何文字目に出現するかという
出現位置を記録した全文インデックスを作成し，作成し
た全文インデックスを用いて検索したい任意の文字列を
構成する文字が文書中の何文字目に出現しているかわか
るのでそれぞれの文字が検索したい文字列の順番に文書
中に出現すれば検索したい文字列が文書中に存在するこ
とが識別できることを原理とする。

【００１０】

【作用】本発明では文書中の一定の文字数（１字を含む
１字以上）の文字列毎にその文字列が文書中に出現する
位置の全リストを，文字列の全種類毎に作成し，作成し
たリストの集合を全文インデックスと呼ぶ。

【００１１】図１は，一定の文字数が１字である場合の
例であるが，２字，３字の場合にも同様の原理で実現で
きる。元文書ファイル１が例として図に示すように「や
あ，ＸＸＹ社のみなさん・・」を先頭とする文章の場
合，その全ての文字１ｂをその文書中の出現位置情報
（元文書ファイル１の先頭から何番目に位置するかを表
す情報）１ａを付加して，先頭から順にハッシュ関数発
生手段２に供給する。ハッシュ関数発生手段２は予め関
数（ハッシュされる個数に対応する）が設定されてお
り，入力する各文字１ｂのコードについてハッシュ関数
を計算してハッシュ値を発生する。ハッシュ関数は各文
字がほぼ個別のハッシュ値となるような関数を採用する
場合（多数の値が発生）や，複数の文字が共通のハッシ
ュ値を取る可能性が高い関数を採用する場合等がある。
図１の例では各文字が異なるハッシュ値を取る例であ
る。

【００１２】全文インデックス３はハッシュ関数発生手
段２で発生する各ハッシュ値に対応する格納位置（アド
レス）３ａに，文字種３ｂ及びその文字の出現位置情報
３ｃを格納する。この出現位置情報３ｃは，同じハッシ
ュ関数値を持つ文字が後で発生した場合，前に発生した
文字の出現場所情報に対し，後続する文字の出現場所情
報の位置を表すリンク情報を付加することにより順次追
加される。

【００１３】元文書ファイル１の全ての文字について全
文インデックス３が作成されると，検索を行うことがで
きる。検索文字列は１字以上の文字列から構成され，図
１の例は「げんき」という検索文字列である。この検索
文字列４の各文字「げ」，「ん」，「き」はハッシュ関
数発生手段２に供給されると，それぞれのハッシュ値が
発生する。次に発生した各ハッシュ値を用いて全文イン
デックス３から各文字の全ての出現位置情報３ｃを取り
出す。

【００１４】取り出された各文字の出現位置情報３ｃを
含む検索出力情報５について，先頭文字（図の例では
「げ」）の出現位置情報（図の例では１６番目）に対し
て，後続の文字（図の例では「ん」，「き」）の出現位
置情報が連続した位置であるか否かを判定する。この結
果，連続した出現位置情報である場合（図の１６〜１８
と連続する場合），検索文字列４が当該検索対象の元文
書ファイル１の特定の位置に格納（文書中に記載）され
ているという検索結果６を発生する。検索文字列４の出
現位置情報が連続していない場合は，該当文字が含まれ
ていないという検索結果６を発生する。

【００１５】図２はインデックス文字数が複数の場合の
原理図であり，Ａ．とＢ．の何れの場合も文字数が
「３」の例である。図２のＡ．は，３文字毎の全文イン
デックス３を元文書ファイルを１文字ずつずらしながら
作成する場合の原理であり，同じ文字が重複して複数の
インデックスで使用される。この場合の検索文字列は，
３文字毎に区切り（図２の例では「おげんき」を３文字
毎に区切り「おげん」と「き」とする）検索を行う。３
文字に満たない文字列（図の「き」の例））は検索不可
能であり，全文インデックス上では３の倍数の文字列し
か決定できない。余った１字または２字は実際の文書上
（元文書ファイル１を読み出して表示）で確認する。

【００１６】図２のＢ．は上記Ａ．と異なり３文字を重
複せず全文インデックス３を作成する。この場合，検索
文字列を３文字毎に分割する際１文字ずつずらして分割
して，それぞれ検索する。分割する文字数と全文インデ
ックス３の大きさ，検索の手間が変化する。一般に分割
文字数を増やした場合に文字列の種類が増加するため，
ヒット率も増加するので高速化が可能である。但し，分
割文字数以下の文字列は検索不可能である。また，余っ
た１字または２字が一致するか否かは元文書ファイルの
部分を取り出して確認する。

【００１７】複数分割文字で重複の有無の差は，重複の
ある場合は無い場合より全文インデックスが大きい。し
かし重複の有る場合は，無い場合より検索文字列の分解
が単純で一度で検索が終了するのでより高速となる。

【００１８】

【実施例】図３は全文インデックスの作成の構成図，図
４は図３により作成したハッシュテーブルと出現位置情
報とで構成される全文インデックスの構成図である。

【００１９】図３において１は元文書ファイル，２はハ
ッシュ関数発生部（図１のハッシュ関数発生手段に対
応），３０は各ハッシュ値に対応して先頭の文字へのポ
インタが格納されたハッシュテーブル，３１はハッシュ
テーブル３０で示す各ハッシュ値に対応するポインタに
対応して設けられ，先頭の文字の位置レコードへのポイ
ントを含む先頭の登録レコードである。この先頭の登録
レコード３１には，該当ハッシュ値を持つ先頭（「あ」
が先頭で「か」は次，以下「さ」，「た」が後続する）
の文字情報と，その文字の出現位置情報とリンク情報と
で構成するレコードへのリンク情報（この例では最後の
位置レコード３１−１），及び同じハッシュ値を持つ別
の文字の登録レコード（文字情報とその文字の出現位置
情報へアクセスするためのリンク情報及び，同じハッシ
ュ値を持つ他の文字の先頭の登録レコードのポインタ）
とで構成される。

【００２０】３１−１〜３１−５は同じハッシュ値で同
じ文字の出現位置情報とリンク情報とで構成する位置レ
コードである。３２は同じハッシュ値を持つ別の文字
（この例では「か」）の先頭の登録レコード，３２−１
は別の文字（「か」）の出現位置情報を含む位置レコー
ドである。

【００２１】この例ではハッシュ数は「５」であり，
「あ」，「い」，「う」，「え」，「お」がそれぞれハ
ッシュ値０，１，２，３，４に対応し，「か」は「あ」
と同じハッシュ値０，「き」はハッシュ値１となるよう
なハッシュ関数とする。

【００２２】全文インデックスを作成する場合，元文書
ファイル１の先頭の文字からハッシュ関数発生部２でハ
ッシュ値を計算すると「０」が発生し，ハッシュテーブ
ル３０によりポインタａ００が得られる。ポインタａ０
０の指す登録レコードには，文字「あ」のコードと，出
現位置情報を格納する位置レコードのポインタが格納さ
れており，その位置レコードに今回登録する文字の出現
位置情報とリンク情報とを格納する。

【００２３】図３の状態は，元文書ファイル１の先頭の
文字から８番目（出現位置情報）の文字「あ」までをイ
ンデックス登録した状態を表す。この場合，「あ」とい
う文字が既に５回出現した後であり，先頭の「あ」（出
現位置０）は３１−５の位置レコード（ポインタａ０１
０）に格納され，その後の「あ」（出現位置２）は３１
−４の位置レコード（ポインタａ０１１）に格納され，
以下３１−３，３１−２，３１−１と順に格納され，最
後の「あ」の位置レコードはポインタａ０１４に格納さ
れ，先頭の登録レコード３１には，そのポインタａ０１
４が格納されている。

【００２４】図３において，次に第９番目の文字「か」
を取り出してハッシュ関数発生部２に入力すると，ハッ
シュ値「０」が発生する。ハッシュテーブル３０の０の
アドレスからは先頭のポインタａ００が得られ，その位
置の先頭の登録レコード３１には，「あ」が格納されて
いる。

【００２５】現在の登録対象の文字は「か」であるか
ら，別の同じハッシュ値を持つ登録レコードを見つける
ため，別の文字の先頭の登録レコードを表すポインタａ
０２０の登録レコード３２の内容を判別する。この場
合，文字情報は「か」であるから，今回の文字「か」と
一致するので，この登録レコード３２内のポインタａ０
２１を取り出して，対応する位置レコード３２−１に，
この文字「か」の出現位置情報９を格納する。

【００２６】このようにして，元文書ファイル１の全文
について各文字毎にインデックス化が実行される。図４
には図３の各情報を用いて作成されたハッシュテーブル
と出現位置情報を含む全文インデックスの構成が示され
ている。

【００２７】図４の各情報はメモリ上に構成され，その
先頭位置４０にハッシュ数５が格納され，次に各ハッシ
ュ値に対応して先頭の文字へのポインタがハッシュ値の
個数分格納されたハッシュテーブル４１が設けられ，次
にハッシュ値の０である先頭の文字（「あ」）の文字情
報４２，次に同じハッシュ値の次の文字へのポインタ
（「か」の位置）４３，次にこの文字（「あ」）の出現
文字数４４（５個）が格納され，その後にこの文字
（「あ」）の出現位置の情報４５が文書ファイルの出現
順に格納される。なお，これらの各情報は４バイトで表
現される。

【００２８】この出現位置の順番は上記図３で格納され
た位置と逆の順になっている。これは，インデックスを
作成する場合は，後続して発生する同じ文字の出現位置
を格納するのに，図３のように後から発生するものを先
頭に置いた方が効率的であるが，検索を行う場合は，検
索結果が発生順に並んでいる方が後々処理し易いためで
ある。

【００２９】また，同じハッシュ値を持つ別の文字
（「か」）に関する情報が，上記次の文字へのポインタ
４３により指示する位置を先頭にして，文字４６，同じ
ハッシュ数の次の文字へのポインタ４７，文字数４８，
出現位置の情報４９という順に格納される。この後，次
のハッシュ値（１）に対応する先頭の文字「い」に関す
る情報が格納され，以下同様に全ての文字について格納
される。

【００３０】図４のような全文インデックスに対して検
索を行う場合，検索したい文字列の各文字に対してそれ
ぞれハッシュ関数部でハッシュ値を求め，図４のハッシ
ュテーブルにより該当する各文字の出現位置情報を抽出
する。検索文字列の各出現位置情報の中で，前後が連続
する位置情報が含まれているか判断し，連続する位置情
報が含まれている場合該当する文字列が当該文書ファイ
ルに含まれているという検索結果が，その文字列の文書
ファイル中の出現位置情報と共に得られる。

【００３１】本発明による全文インデックス電子文書管
理システムの構成例を図５及び図６に示す。図５は全文
インデックス電子文書管理システムにおける全文インデ
ックス作成の処理説明図，図６は全文インデックス電子
文書管理システムにおける検索表示の処理説明図であ
る。

【００３２】図５，図６において，５０はファイルを含
む大容量記憶装置，５１は複数の文書ファイル，５２は
書名と書誌情報（作者，発行日（発表日），分類等）の
テーブル，５３は各文書毎の全文インデックス（ＩＤＸ
で表示），５４は書誌的事項の全文インデックスであ
り，全書誌書名についての全文インデックス（書誌書
名．ＩＤＸで表示）及び書誌著者についての全文インデ
ックス（書誌著者．ＩＤＸで表示）とから成る。５６は
ＣＰＵ及びメモリで構成する処理装置であり，インデッ
クス作成プログラム５７，インデックスを用いた検索を
行うプログラムで構成する検索エンジン５８，及びユー
ザインタフェースプログラム５９を備える。また，図６
の６０は検索を行うために使用するディスプレイ及びキ
ーボードやマウス等を含むモニタ装置である。

【００３３】図５において，初期状態では文書ファイル
５１及び書名と書誌情報のテーブル５２が各文書Ａ，Ｂ
・・に対応して用意されている。この中の文書ファイル
５１について各書名毎に処理装置５６のインデックス作
成プログラム５７を動作させることにより，上記の図３
及び図４に示す方法により各文書の全文インデックス５
３が作成される。更に，書名と書誌情報のテーブル５２
について，インデックス作成プログラム５７により，書
誌書名の全文インデックス５４及び書誌著者の全文イン
デックス５５が作成される。

【００３４】次に図６を用いて検索のための各動作〜
（図６中に示す）の順を追って以下に説明する。ユーザが検索の対象として全蔵書の文書か，書誌情報
の書名や著者名等を指定し，検索したい文字列を指定し
て検索開始を指示する。

【００３５】処理装置５６はこの指示により検索エン
ジン５８に検索を依頼する。検索エンジン５８は，文書の検索の場合，各書名の全
文インデックス５３に対して検索文字列が連続して出現
するか否かを判別することにより検索を行う。

【００３６】検索が成功すると（指定した文字列を含む
文書があると），その文字列を含む文書名（及び出現位
置情報）を保存しておく。また，書誌情報についての検
索の場合，指定された文字列が書誌名全文インデックス
５４及び書誌著者全文インデックス５５の何れかまたは
両方を用いて検索を行い，検索が成功すると同様に書名
や著者名等を保存する。

【００３７】検索が終了すると，検索結果の書名の一
覧（出現位置情報を含む）や検索された書誌的事項をユ
ーザインタフェースプログラム５９に返す。書名に対応する文書を読み込む。

【００３８】文書名と文書の内容の表示を行う。以上のように，本発明は文書の本文に対して全文インデ
ックスを作成した場合，その文書の任意の文字列の存在
を高速に検索できる。これを利用して数万冊の蔵書に対
してそれらの本文中の任意の文字列を持つ文書を高速か
つ漏れなく見つけることができる。

【００３９】また，例えば，書名や著者名のような書誌
情報に対し，全蔵書の書名を任意の区切り文字（例えば
タブ）をはさんで結合して，１文書を作成する。この文
書に対し全文インデックスを作成すれば，任意の文字列
を含む書名が極めて高速に見つけることができる。この
文書中でその文字列を見つけた場所を含む区切り文字で
囲まれた範囲が求める書名である。

【００４０】この場合，書名がキーとなり直ちに文書を
求めることが可能であるが，書名以外の書誌情報で行う
場合，例えば著者名に任意の文字列を含む著者の書名を
知りたい場合について説明する。

【００４１】まず，各蔵書の書名と著者名を任意の区切
り文字（例えは，タブ）をはさんで結合する。次に全蔵
書の結合された書名と著者名を別の任意の区切り文字
（例えば，改行コード）をはさんで全て結合する。１文
書の結合された全蔵書の書名と著者名の全文インデック
スを作成する。著者の名前の一部を覚えている場合にそ
の一部の文字列で検索を行う。

【００４２】文書中に発見された文字列の前がタブで後
ろが改行コードではさまれていたら，それは著者名であ
るので著者名の前の書名を得る。文書中に発見された文
字列の前が改行コードで後ろがタブの場合は，たまたま
書名の中にその文字列が存在した場合で検索結果からは
除外する。同様に書名や（文書のキー）と他の書誌情報
を全蔵書分結合して１文書を作成することにより，出版
者や発行年月日等の書誌情報に任意の文字列を含む蔵書
の検索が高速に行える。

【００４３】

【発明の効果】本発明によれば上記のように膨大な量の
文書に対して特定の文字列がどの文書に含まれているか
の処理を簡単な原理により高速に実現することができ，
図書館や，事業で使用する膨大な量の管理文書，ビジネ
スの書類等の各種の文書情報から任意の文字列を指定し
て検索を行うことが可能となる。また，検索を行う前に
作成される全文インデックスの作成を簡易な処理により
行うことが可能である。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】本発明のインデックス文字数が複数の場合の原
理図である。

【図３】全文インデックスの作成の構成図である。

【図４】ハッシュテーブルと出現位置情報とで構成され
る全文インデックスの構成図である。

【図５】全文インデックス電子文書管理システムにおけ
る全文インデックス作成の処理説明図である。

【図６】全文インデックス電子文書管理システムにおけ
る検索表示の処理説明図である。

【符号の説明】

１元文書ファイル１ａ文書中の出現位置情報１ｂ文字２ハッシュ関数発生手段３全文インデックス３ａ全文インデックスのハッシュ値（インデック
ス格納位置）３ｂハッシュされた文字種３ｃハッシュ値に該当する文字の出現位置情報４検索文字列５検索出力情報６検索結果

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平２−32468（ＪＰ，Ａ) 特開平２−36475（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】電子化文書の全文インデックス検索方法
において，電子化文書の各文字を１文字単位でハッシュ
関数発生手段に入力し，発生したハッシュ値に対応する
位置に文字と共に各文字の文書中の出現位置情報とを含
むインデックスを作成して電子化文書の全ての文字につ
いて全文インデックスを作成し，複数文字からなる検索
文字列を１文字単位で前記ハッシュ関数発生手段に入力
し，発生するハッシュ値を用いて，前記全文インデック
スに格納された対応する文字の出現位置情報を検出し，
検出された各文字の出現位置情報が相対的に検索文字列
の配置順に該当するか否かを判別することにより検索を
行うことを特徴とする全文インデックス検索方法。
【請求項２】電子化文書の全文インデックス検索方法
において，電子化文書の連続する一定の複数文字を単位
として，ハッシュ関数発生手段に入力し，発生したハッ
シュ値に対応する位置に前記複数文字列と共に各文字列
の文書中の出現位置情報を含むインデックスを格納して
電子化文書の全ての文字について全文インデックスを作
成し，複数文字からなる検索文字列を前記一定の複数文
字を単位として１または複数の文字列を作成し，それぞ
れハッシュ関数発生手段に入力し，発生するハッシュ値
を用いて，前記全文インデックスに格納された対応する
文字列の出現位置情報を検出し，検索文字列が１つの場
合は該当文字列の検出か否かを識別して検索を行い，検
索文字列が複数の場合は前記全文インデックスから各検
索文字列に対応する出現位置情報を検出し，検出された
各文字列の出現位置情報が各検索文字列の配置順に該当
するか否かを判別することにより検索を行うことを特徴
とする全文インデックス検索方法。