JPH1097542A

JPH1097542A - 全文検索装置及び全文検索方法

Info

Publication number: JPH1097542A
Application number: JP8247820A
Authority: JP
Inventors: Arata Michimukai; 新道向
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-09-19
Filing date: 1996-09-19
Publication date: 1998-04-14

Abstract

(57)【要約】【課題】インデックスの構造をテキストエディタで確
認できるようにすると共に、インデックスの追加が容易
で、かつ、高速な検索を可能にする全文検索装置を提供
する。【解決手段】インデックス作成部２は、検索対象デー
タ記憶部６に格納されている文書ファイル等のデータに
ついて、単語に分割されたキーワード、データの識別
子、データ内でのキーワードの出現頻度を計算し、キー
ワードごとに、キーワード：識別子，出現頻度識別
子，出現頻度というフォーマットの図形文字集合のみで
表現されるインデックスを作成する。インデックスソー
ト部３は、インデックスを文字コード順にソートして、
インデックス記憶部７へ記録する。検索部４は、入力装
置９から検索すべき文字列が入力されると、ソートされ
たインデックスを大小比較に基づいて探索することで、
検索文字列が含まれるデータを検索して出力装置１０に
出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、検索対象となる
データ内に含まれるすべての文字列を検索することので
きる全文検索装置及び全文検索方法に係り、詳しくは、
キーワード：検索対象データを識別するための識別子，
検索対象データ内での出現頻度というフォーマットの図
形文字集合のみで表現されたインデックスを作成し、そ
のインデックスを文字コード順にソートしておくこと
で、大小比較による高速検索を可能にした全文検索装置
及び全文検索方法に関するものである。

【０００２】

【従来の技術】インデックスの作成にハッシュ（ｈａｓ
ｈ）法を用いた検索装置及び検索方法は、特開平５−６
１９１０号公報、特開平８−１６１３５１号公報に記載
されている。

【０００３】石畑清著，”アルゴリズムとデータ構
造”，岩波講座ソフトウェア科学３，１９８９，６７〜
１３８頁には、２分探索法、多分木探索法、ハッシュ法
などについて記載されている。

【０００４】

【発明が解決しようとする課題】ハッシュ法を用いた検
索装置の場合、ハッシュ化を行うなどの目的のため、図
形文字集合以外のデータも含むバイナリデータでインデ
ックスを作成していた。このために、作成したインデッ
クスが、作成者の意図した通りに作成できていることを
確認するためには、特別なツールを使用しなければなら
ず、通常のテキストエディタで編集することができなか
った。

【０００５】また、ハッシュ化を行う場合、キーワード
は、インデックス内で一意に決まる必要があり、一つの
レコードが巨大化することがしばしばあった。このこと
は、一つのレコードを処理するためにメモリが一度にた
くさん必要となることを意味し、効率の悪いプログラム
となることがあった。

【０００６】さらに、ハッシュ法の制約として、ハッシ
ュ表の最大数に制限があり、また、ハッシュ表をすべて
使いきることも難しく、効率の悪いディスク使用状況と
なることがあった。

【０００７】さらに、ハッシュ化した場合、ハッシュす
るべきキーワードの数が多くなれば、ディスク利用効率
のため、ハッシュテーブルを随時更新していかねばなら
ず、処理に時間がかかった。

【０００８】一方、ハッシュ化しない検索装置の場合、
リレーショナルデータベースのように、特定の種類のデ
ータを抽出してインデックスをランダムに記録し、検索
条件をすべての記録されたデータについて検査すること
が行われている。しかし、２分探索法を使用して、キー
ワードとデータ識別子が隣接しているレコードを読み取
ることによって、高速な検索を行う方法は実現されてい
なかった。また、すべてのデータを単に一つのファイル
にまとめ、すべてのデータを順番に処理する方法では、
時間がかかり過ぎるという問題があった。

【０００９】２分探索法そのものは、辞書の探索などで
利用されているが、キーワードとデータ識別子から、デ
ータ名を再現することは行われていなかった。

【００１０】この発明はこのような課題を解決するため
なされたもので、インデックスの構造をテキストエディ
タで確認できるようにすると共に、インデックスの追加
が容易で、かつ、高速な検索を可能にする全文検索装置
及び全文検索方法を提供することを目的とする。

【００１１】

【課題を解決するための手段】前記課題を解決するため
この発明に係る全文検索装置は、検索対象となるデータ
について、単語に分割されたキーワード、検索対象とな
るデータの識別子、検索対象となるデータ内でのキーワ
ードの出現頻度を計算し、キーワードごとに、キーワー
ド：識別子，出現頻度識別子，出現頻度というフォー
マットの図形文字集合のみで表現されるインデックスを
作成するインデックス作成部と、このインデックス作成
部で作成されたインデックスを、キーワード部分が等し
いものが複数存在しても構わずに、文字コード順にソー
トするインデックスソート部と、このインデックスソー
ト部でソートされたインデックスを記憶するインデック
ス記憶部と、探索対象となるデータ内に含まれる任意の
文字列を指定すると、前記インデックス記憶部に記憶さ
れたインデックスを大小比較に基づいて探索すること
で、前記指定した文字列が含まれるデータを検索する検
索部とを備えたことを特徴とする。

【００１２】また、この発明に係る全文検索方法は、検
索対象となるデータについて、単語に分割されたキーワ
ード、検索対象となるデータの識別子、検索対象となる
データ内でのキーワードの出現頻度を計算し、キーワー
ドごとに、キーワード：識別子，出現頻度識別子，出
現頻度というフォーマットの図形文字集合のみで表現さ
れるインデックスを作成し、次いで、インデックスを、
キーワード部分が等しいものが複数存在しても構わず
に、文字コード順にソートして、ソートしたインデック
スを補助記憶装置に格納しておき、探索対象となるデー
タ内に含まれる任意の文字列が指定されると、補助記憶
装置に格納したインデックスを大小比較に基づいて探索
することで、指定され文字列が含まれるデータを検索し
て出力することを特徴とする。

【００１３】この発明に係る全文検索装置及び全文検索
方法は、キーワード：検索対象データを識別するための
識別子，検索対象データ内での出現頻度というフォーマ
ットの図形文字集合のみで表現されたインデックスを作
成しているので、インデックスの内容をテキストエディ
タで確認することができる。

【００１４】また、この発明に係る全文検索装置及び全
文検索方法は、キーワードを文字コード順にソートして
検索用のインデックスを生成するので、インデックスの
追加に際しても、マージソートを行うだけでよく、イン
デックスの追加が容易かつ高速にできる。さらに、キー
ワードを文字コード順にソートしているので、前方一致
検索も、隣接したレコードを順番に読み取ることで実現
できる。

【００１５】この発明に係る全文検索装置及び全文検索
方法は、図形文字集合のみで表現されるインデックスを
文字コード順にソートしているので、キーワードの検索
を大小比較を使う探索法によって高速に探索することが
できる。

【００１６】さらに、この発明に係る全文検索装置及び
全文検索方法は、インデックス検索によって、指定した
キーワードが含まれているデータの識別子（例えばファ
イル名のリスト）と、各データ（ファイル）に含まれて
いるキーワードの出現頻度を得ることができる。

【００１７】

【発明の実施の形態】以下、この発明の実施の形態を添
付図面に基づいて説明する。図１はこの発明に係る全文
検索装置のブロック構成図である。この発明に係る全文
検索装置１は、インデックス作成部２，インデックスソ
ート部３，検索部４を構成する電子計算機本体５と、検
索対象データ記憶部６並びにインデックス記憶部７を構
成する補助記憶装置８と、キーボード等の入力装置９
と、画像表示装置やプリンタ等の出力装置１０とからな
る。

【００１８】電子計算機本体５は、中央演算処理装置
（CPU:Central Processing Unit）と、主記憶装置と、
入出力インタフェース回路等を備える。補助記憶装置８
は、ハードディスク装置を用いて構成している。検索対
象データ記憶部６には、検索対象データとして複数の文
書ファイルが記憶されている。

【００１９】インデックス作成部２は、検索対象となる
データについて、単語に分割されたキーワードと、検索
対象となるデータの識別子と、検索対象となるデータ内
でのキーワードの出現頻度を計算し、キーワードごと
に、キーワード：識別子，出現頻度識別子，出現頻度
というフォーマットの図形文字集合のみで表現されるイ
ンデックスを作成する。

【００２０】図２はインデックス作成部並びにインデッ
クスソート部の動作を示すフローチャート、図３はイン
デックス作成部並びにインデックスソート部の動作を示
す説明図である。

【００２１】インデックス作成部２は、ステップＳ１
で、検索対象となるファイルを絶対パスで表現したファ
イル名を読み込む。ステップＳ２では、ステップＳ１で
読み取ったファイル名が、インデックス内でどのような
識別子で判別されるか決定する。ここでは検索対象とな
るファイルの識別子として一連番号を用いている。デー
タ識別子インデックスが既に存在している場合、インデ
ックス内で使用されていない識別子を得なければならな
いが、一連番号を付与する構成であれば、データ識別子
インデックスファイルの最後の番号を１インクリメント
することによって新たなデータ識別子インデックスを得
ることができる。

【００２２】ステップＳ３では、ステップＳ１で読み込
まれたファイル名のファイルについて、１行ずつ若しく
は予め設定した文章データ量ずつ読み取り、その行又は
所定の文書データ量内のテキストを単語に分割し、その
ファイル内での単語の出現頻度を計算し、単語とそれを
含むファイルのデータ識別子、そのファイル内での単語
の出現頻度をメインメモリ上で保持する作業を行う。も
ちろん、入力データの中から必要なデータを取捨選択し
てもかまわない。

【００２３】単語への分割は、自然言語辞書を用い、英
数字の場合は空白文字（タブ，空白記号など）で区切ら
れた文字列であると判断し、その他の場合は、辞書によ
って適切な読みや記号を認識することによって行う。

【００２４】分割された単語をキーワードと呼ぶ。キー
ワードの出現頻度は、個別の単語の出現回数を単純に足
していき、ファイルの読み込みが終了した時点で確定す
る。

【００２５】ステップＳ３の処理は一つのファイルにつ
いて行われるが、ステップＳ３の処理が終了すると、ス
テップＳ４で、処理の終了したファイルのデータ識別子
のファイル名を、データ識別子インデックスに記録す
る。

【００２６】ステップＳ５では、それまで計算してメイ
ンメモリ上で保持しておいたキーワード、ファイル識別
子、キーワードの出現頻度の記憶容量をチェックし、メ
インメモリ上で保持しておくことが困難であると判断さ
れる場合は、ステップＳ６で、メインメモリ上で保持し
ていたデータを、キーワードによってソートしてファイ
ルとしてハードディスク装置などの補助記憶装置８に記
録し、メインメモリ上のデータを削除する。

【００２７】このとき、補助記録装置８に記録されるデ
ータは、Ｗ１：ＦＤ１−１，ＷＣ１−１ＦＤ１−２，ＷＣ１−
２ＦＤ１−３，ＷＣ１−３というフォーマットになるように書き出される。これは
最終的なキーワードインデックスファイルのフォーマッ
トと同じである。

【００２８】ここで、Ｗ１はキーワード、ＦＤ１−１
ＦＤ１−２ＦＤ１−３はデータ識別子（ファイルの一
連番号）、ＷＣ１−１ＷＣ１−２ＷＣ１−３はＦＤ
１−１ＦＤ１−２ＦＤ１−３におけるＷ１の出現頻
度（各文書ファイルでのキーワードの出現頻度）であ
る。

【００２９】このフォーマットを用いることで、検索時
に補助記憶装置８からキーワードを読み取るときに、デ
ィスク状記録媒体に対して頻繁にシーク動作を繰り返す
必要がなくなり、高速に読み取ることが可能となる。ま
た、キーワードインデックスファイルは、図形文字集合
ですべて記述されるから、このファイルはテキストエデ
ィタなどのツールでその内容を容易に確認することがで
きる。

【００３０】ステップＳ６で記録されるファイルは、ス
テップＳ５での判断で作成されるたびに新規に作成さ
れ、追加して記録されることはない。

【００３１】以上のステップＳ１〜ステップＳ６までの
動作を、ステップＳ１で読み取られるすべてのファイル
について行う（ステップＳ７）。ステップＳ７で、すべ
てのファイルについて処理されたことが判断されると、
インデックスソート部３は、ステップＳ８でそれまでに
作成された単数又は複数のファイルを、マージソートの
手法を用いて単一のキーワードインデックスファイルと
する。もし既にキーワードインデックスファイルが存在
していた場合、元のキーワードインデックスファイルも
マージする。

【００３２】マージソートは、複数のファイルをそれぞ
れ最初から順番に１行ずつ読み取り、その１行ずつのキ
ーワードの文字コード順での大小関係を見て、正しい順
序（文字コード順）で記録していくから、メモリが少な
くても動作する。また、ハッシュ関数を計算しないか
ら、高速に動作する。

【００３３】こうして、図３に示すように、キーワード
インデックスファイル及びデータ識別子インデックスフ
ァイルが作成される。

【００３４】図４は検索部における２分探索法による検
索動作を示すフローチャートである。ステップＳ１１で
入力された検索式は、１つ以上の単語を論理演算子、又
は（）カッコと共に連結したものである。論理演算子
は、ＡＮＤＯＲＮＯＴのいずれかである。検索式内
では、大文字小文字は区別されない。論理演算子及
び（）カッコを除いたそれぞれの単語を検索語句と呼ぶ
ことにする。

【００３５】ステップＳ１２では、検索語句が抽出され
る。（）カッコとその他の単語が空白なしで連続してい
れば、分割される。また、キーワードインデックスファ
イル作成時に用いた単語分割機能を用いて、個々の単語
を分割するようにしてもよい。分割した場合、それぞ
れ”ＡＮＤ”で連結され、（）カッコでくくられる。

【００３６】ステップＳ１３では、ステップＳ１２まで
で得られた検索語句が正しいかを判別し、正しくなけれ
ば、全体の検索処理を直ちに中止する。論理演算子
や（）カッコが単語として抽出されたり、論理演算のな
い検索語句が互いに隣り合っていたりすることをエラー
として検出する。

【００３７】ステップＳ１３までに正しい単語が検索語
句として入力されていた場合、ステップＳ１４では、２
分探索法を用いてキーワードインデックスファイルを検
索し、検索語句で始まる行を得て、メインメモリ上に保
持する。この行は、複数の場合もあるし、全くないこと
もある。実際には、ステップＳ１４で検索された識別子
の数は、出力装置１０を構成する画像表示装置の画面上
に表示するよう構成しているので、途中で検索されたフ
ァイルが幾つあるのかをユーザは知ることができる。

【００３８】ステップＳ１５では、得られた検索結果
と、それまで得られた検索結果との間で論理演算が必要
かどうかを判断する。それまでに検索結果が得られてい
なければ、論理演算は行わない。論理演算が必要なら
ば、ステップＳ１６にて、ＡＮＤＯＲＮＯＴなどの論
理演算を行う。

【００３９】検索語句が処理されずに残されていれば、
再びステップＳ１３からの処理を繰り返す（ステップＳ
１７）。すべての検索語句について処理を終えたなら
ば、最新の論理演算結果がステップＳ１６までで得られ
ているので、ステップＳ１８で検索結果をユーザへ通知
する。検索結果は、ステップＳ１６まででデータ識別子
の形で得られているので、このデータ識別子をデータ識
別子インデックス内で検索し、ファイル名の形でユーザ
の使用している画面へ出力する。

【００４０】こうして、任意の文字列が含まれるファイ
ルをユーザは得ることができる。検索には２分検索法を
用いるため、キーワードインデックスのデータのほとん
どをメモリに読み込む必要がない。したがって、検索中
に必要なメモリは少なくてすむ。当然のことながら、す
べてのキーワードインデックスのデータをチェックする
わけではないから、高速な検索ができる。また、ユーザ
にデータを出力するまで、ファイルの名前そのものをメ
モリ上に保持せずに、データ識別子という形で保持して
いるため、検索動作中に使用するメモリ量を低減させる
ことができる。

【００４１】図５は２分探索動作を示すフローチャート
である。図５に示すフローチャートは、図４で示したス
テップＳ１４におけるインデックスファイルの２分探索
の動作の詳細を示したのである。

【００４２】ステップＳ２１では、検索語句（ＫＥ
Ｙ）、キーワードインデックスファイルの始点（ＭＩ
Ｎ）並びに終点（ＭＡＸ）が定義される。ステップＳ２
２では、（ＭＡＸ−ＭＩＮ）が１より大きいか否かが判
定される。（ＭＡＸ−ＭＩＮ）が１より大きい場合、ス
テップＳ２３で、中間位置ＭＩＤが、ＭＩＤ＝（ＭＡＸ
＋ＭＩＮ）／２の算術平均演算によって求められ、求め
た位置の行のデータが読み取られる。

【００４３】ステップＳ２４では、検索語句（ＫＥＹ）
の文字コードがＭＩＤ位置の行から読み取ったキーワー
ドの文字コードよりも大きいか否かが判定される。検索
語句（ＫＥＹ）の文字コードが中間位置ＭＩＤよりも大
きい場合は、ステップＳ２５で、検索対象とするファイ
ルの始点を中間位置ＭＩＤとする。これにより、検索範
囲を全ファイル範囲の後半に絞り込む。検索語句（ＫＥ
Ｙ）の文字コードが中間位置ＭＩＤよりも小さい場合
は、ステップＳ２６で、検索対象とするファイルの終点
を中間位置ＭＩＤとする。これにより、検索範囲を全フ
ァイル範囲の前半に絞り込む。

【００４４】この検索範囲を２分する処理（ステップＳ
２３〜Ｓ２６）は、ステップＳ２２で、（ＭＡＸ−ＭＩ
Ｎ）が１以下となるまで繰り返される。（ＭＡＸ−ＭＩ
Ｎ）が１以下になると、ステップＳ２７で、絞り込んだ
行位置ＭＩＮからその行位置のデータを読み込む。そし
て、ステップＳ２８で、その行は検索語句（ＫＥＹ）で
始まっているか否かをチェックする。検索語句（ＫＥ
Ｙ）で始まっている場合、ステップＳ２９で、その行に
書かれているファイル番号を検索結果集合に追加する。
検索語句（ＫＥＹ）で始まっていない場合は、２分探索
処理を終了して、図４に示したステップＳ１４へ復帰
（リターン）する。

【００４５】図６は２分探索法における検索動作を示す
説明図である。図６は、図４および図５に示した処理動
作を模式的に示したものである。キーワードが入力され
ると、２分検索法を用いてインデックスファイル内のキ
ーワードによる検索がなされ、検索結果に基づいてファ
イル名の復元がなされる。そして検索結果として、指定
したキーワードが含まれている文書ファイルの数量と各
文書ファイルのファイル名が表示される。

【００４６】以上のキーワードインデックスファイルの
作成方法及び検索方法は、２分探索法を基本にしたもの
であったが、多分木探索法を用いた検索にも容易に応用
できる。図７は多分木探索法のためのインデックス作成
処理を示すフローチャート、図８は多分木探索法のため
のインデックス作成動作を示す説明図、図９は多分木検
索法の動作を示すフローチャート、図１０は多分木検索
法における検索動作を示す説明図である。

【００４７】多分木探索法は、通常、木構造のデータを
探索するための手法であるが、ここでいう多分木探索法
は、キーワードインデックスファイルの複数の位置を読
み取りつつ検索を行う方法を示す。多分探索法とでも呼
びべきであるが、用語が混乱するので、多分木検索法と
いう言葉を用いることにする。

【００４８】多分木探索は、キーワードインデックスフ
ァイルの３以上の位置を読み取りながら、正確な位置を
順次探索する手法である。キーワードインデックスファ
イルが単一の場合でも多分割して調べていくことが可能
である。また、ファイル分割を行わずとも、ファイル内
の特定の位置を示すインデックスを別に作成しても、フ
ァイル分割するのと同様な効果を得ることが可能であ
る。多分木探索法の利点を示すために、ここではキーワ
ードインデックスファイル自体も分割する方法を示して
いる。

【００４９】図７に示したフローチャートにおいて、ス
テップＳ３１〜ステップＳ３８までの処理は、図２に示
したフローチャートのステップＳ１〜Ｓ８までの処理と
同じであり、図７に示すステップＳ３９の処理だけが異
なる。すなわち、最終的にマージソートを行うわけであ
るが、最初から順に一つ目のファイルに記録していく
が、一定の大きさ、又は、行の先頭文字の種類が異なっ
たときなどに、次のキーワードインデックスファイルを
書き出す、ということを行っていくのである。

【００５０】例えば、各行の先頭文字がアルファベット
であれば、「Ａ」というファイル名のキーワードインデ
ックスファイルに記録し、平仮名であれば「あ」という
ファイル名のものに記録する。もっと細かい範囲で分割
することも可能であるが、ここでは、アルファベット、
記号、仮名、漢字の４つに分割することとする。

【００５１】当然のことながら、それぞれのファイル内
では、すべての行はソート済みであるし、別々のファイ
ルの要素の大小関係の区間が重なることもない。データ
識別子インデックスについては、２分探索法を用いる場
合と同様、単一のファイルでよい。

【００５２】このようにして作成したキーワードインデ
ックスファイルを、図９に示す処理をサブルーチンとす
る多分木探索法で、高速に探索することができる。図９
に示したサブルーチンは、図５に示したサブルーチン
（ステップＳ２１〜Ｓ２９）を置き換えるものである。

【００５３】ステップＳ４１では、多分割されたキーワ
ードインデックスファイルの中で、入力されたキーワー
ドがどのファイルに含まれているかを、キーワードの先
頭文字に基づいて判断する。もし、文字の種類でキーワ
ードインデックスファイルを分割しない場合には、各フ
ァイルの最初の行を読み取るなどして、どのファイルに
入力されたキーワードが含まれているかを判断する。

【００５４】こうして選択されたファイル内を、ステッ
プＳ４２〜ステップＳ５１で示される手順を用いて検索
する。ここで、ｍは３以上の整数である。ｍがあまりに
大きいと検索の効率が悪くなるので注意を要する。ｍが
２の場合は、２分探索法と同じである。

【００５５】ファイル内のいくつかの位置を等間隔に読
み取り、それらのどの区間に、入力されたキーワードが
含まれるかを調べる。読み取る区間がｍ以下の要素で構
成されるなら、ｍを２として２分探索法に切り換えて処
理を進める。このように多地点を調べることは、２分探
索法を用いる場合に比べ、初期段階でかなり細かい区間
を特定できる利点がある。しかし、あまり細かく分割し
ようとすると、不要な区間を数多く読み取ることにな
り、効率が悪くなる。

【００５６】入力されたキーワードが発見できれば、ス
テップＳ５３，ステップＳ５４に示すように、入力され
たキーワードが含まれている範囲内で、データ識別子の
数を記録する。得られたデータ識別子の集合について、
あとは２分探索法と同様な処理を行って、検索回答とし
てユーザの使用している画面に表示させる。

【００５７】なお、この全文検索装置１は、例えばコン
ピュータネットワーク上でデータベースに対する全文検
索システムとして構築することもできる。

【００５８】

【発明の効果】以上説明したように、この発明に係る全
文検索装置及び全文検索方法は、キーワード：検索対象
データを識別するための識別子，検索対象データ内での
出現頻度というフォーマットの図形文字集合のみで表現
されたインデックスを作成しているので、インデックス
の内容をテキストエディタで確認することができる。

【００５９】また、この発明に係る全文検索装置及び全
文検索方法は、キーワードを文字コード順にソートして
検索用のインデックスを生成するので、インデックスの
追加に際しても、マージソートを行うだけでよく、イン
デックスの追加が容易かつ高速にできる。さらに、キー
ワードを文字コード順にソートしているので、前方一致
検索も、隣接したレコードを順番に読み取ることで実現
できる。

【００６０】この発明に係る全文検索装置及び全文検索
方法は、図形文字集合のみで表現されるインデックスを
文字コード順にソートしているので、キーワードの検索
を大小比較を使う探索法によって高速に探索することが
できる。

【００６１】さらに、この発明に係る全文検索装置及び
全文検索方法は、インデックス検索によって、指定した
キーワードが含まれているデータの識別子（例えばファ
イル名のリスト）と、各データ（ファイル）に含まれて
いるキーワードの出現頻度を得ることができる。

【００６２】したがって、この発明によれば、インデッ
クスの構造をテキストエディタで確認できるようにする
と共に、インデックスの追加が容易で、かつ、高速な検
索を可能にする全文検索装置及び全文検索方法を提供す
ることができる。

【図面の簡単な説明】

【図１】この発明に係る全文検索装置のブロック構成図
である。

【図２】インデックス作成部並びにインデックスソート
部の動作を示すフローチャートである。

【図３】インデックス作成部並びにインデックスソート
部の動作を示す説明図である。

【図４】検索部における２分探索法による検索動作を示
すフローチャートである。

【図５】２分探索動作を示すフローチャートである。

【図６】２分探索法における検索動作を示す説明図であ
る。

【図７】多分木探索法のためのインデックス作成処理を
示すフローチャートである。

【図８】多分木探索法のためのインデックス作成動作を
示す説明図である。

【図９】多分木検索法の動作を示すフローチャートであ
る。

【図１０】多分木検索法における検索動作を示す説明図
である。

【符号の説明】１全文検索装置、２インデックス作成部、３イン
デックスソート部、４検索部、５電子計算機本体、６
検索対象データ記憶部、７インデックス記憶部、８
補助記憶装置、９入力装置、１０出力装置

Claims

【特許請求の範囲】

【請求項１】中央演算処理装置、主記憶装置、補助記
憶装置、入力装置、出力装置によって構成される電子計
算機を用いて全文検索を行う全文検索装置において、検索対象となるデータについて、単語に分割されたキーワード、検索対象となるデータの識別子、検索対象となるデータ内でのキーワードの出現頻度を計
算し、キーワードごとに、キーワード：識別子，出現頻度識別子，出現頻度とい
うフォーマットの図形文字集合のみで表現されるインデ
ックスを作成するインデックス作成部と、前記インデックス作成部で作成されたインデックスを、
キーワード部分が等しいものが複数存在しても構わず
に、文字コード順にソートするインデックスソート部
と、前記インデックスソート部でソートされたインデックス
を記憶するインデックス記憶部と、前記探索対象となるデータ内に含まれる任意の文字列を
指定すると、前記インデックス記憶部に記憶されたイン
デックスを大小比較に基づいて探索することで、前記指
定した文字列が含まれるデータを検索する検索部とを備
えたことを特徴とする全文検索装置。
【請求項２】中央演算処理装置、主記憶装置、補助記
憶装置、入力装置、出力装置によって構成される電子計
算機を用いて全文検索を行う全文検索方法において検索
対象となるデータについて、単語に分割されたキーワード、検索対象となるデータの識別子、検索対象となるデータ内でのキーワードの出現頻度を計
算し、キーワードごとに、キーワード：識別子，出現頻度識別子，出現頻度とい
うフォーマットの図形文字集合のみで表現されるインデ
ックスを作成し、次いで、前記インデックスを、キーワード部分が等しい
ものが複数存在しても構わずに、文字コード順にソート
して、ソートしたインデックスを補助記憶装置に格納し
ておき、前記探索対象となるデータ内に含まれる任意の文字列が
指定されると、前記補助記憶装置に格納したインデック
スを大小比較に基づいて探索することで、前記指定され
文字列が含まれるデータを検索して出力することを特徴
とする全文検索方法。