JPH1097542A - 全文検索装置及び全文検索方法 - Google Patents

全文検索装置及び全文検索方法

Info

Publication number
JPH1097542A
JPH1097542A JP8247820A JP24782096A JPH1097542A JP H1097542 A JPH1097542 A JP H1097542A JP 8247820 A JP8247820 A JP 8247820A JP 24782096 A JP24782096 A JP 24782096A JP H1097542 A JPH1097542 A JP H1097542A
Authority
JP
Japan
Prior art keywords
index
data
keyword
search
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8247820A
Other languages
English (en)
Inventor
Arata Michimukai
新 道向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP8247820A priority Critical patent/JPH1097542A/ja
Publication of JPH1097542A publication Critical patent/JPH1097542A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 インデックスの構造をテキストエディタで確
認できるようにすると共に、インデックスの追加が容易
で、かつ、高速な検索を可能にする全文検索装置を提供
する。 【解決手段】 インデックス作成部2は、検索対象デー
タ記憶部6に格納されている文書ファイル等のデータに
ついて、単語に分割されたキーワード、データの識別
子、データ内でのキーワードの出現頻度を計算し、キー
ワードごとに、キーワード:識別子,出現頻度 識別
子,出現頻度というフォーマットの図形文字集合のみで
表現されるインデックスを作成する。インデックスソー
ト部3は、インデックスを文字コード順にソートして、
インデックス記憶部7へ記録する。検索部4は、入力装
置9から検索すべき文字列が入力されると、ソートされ
たインデックスを大小比較に基づいて探索することで、
検索文字列が含まれるデータを検索して出力装置10に
出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、検索対象となる
データ内に含まれるすべての文字列を検索することので
きる全文検索装置及び全文検索方法に係り、詳しくは、
キーワード:検索対象データを識別するための識別子,
検索対象データ内での出現頻度というフォーマットの図
形文字集合のみで表現されたインデックスを作成し、そ
のインデックスを文字コード順にソートしておくこと
で、大小比較による高速検索を可能にした全文検索装置
及び全文検索方法に関するものである。
【0002】
【従来の技術】インデックスの作成にハッシュ(has
h)法を用いた検索装置及び検索方法は、特開平5−6
1910号公報、特開平8−161351号公報に記載
されている。
【0003】石畑 清著,”アルゴリズムとデータ構
造”,岩波講座ソフトウェア科学3,1989,67〜
138頁には、2分探索法、多分木探索法、ハッシュ法
などについて記載されている。
【0004】
【発明が解決しようとする課題】ハッシュ法を用いた検
索装置の場合、ハッシュ化を行うなどの目的のため、図
形文字集合以外のデータも含むバイナリデータでインデ
ックスを作成していた。このために、作成したインデッ
クスが、作成者の意図した通りに作成できていることを
確認するためには、特別なツールを使用しなければなら
ず、通常のテキストエディタで編集することができなか
った。
【0005】また、ハッシュ化を行う場合、キーワード
は、インデックス内で一意に決まる必要があり、一つの
レコードが巨大化することがしばしばあった。このこと
は、一つのレコードを処理するためにメモリが一度にた
くさん必要となることを意味し、効率の悪いプログラム
となることがあった。
【0006】さらに、ハッシュ法の制約として、ハッシ
ュ表の最大数に制限があり、また、ハッシュ表をすべて
使いきることも難しく、効率の悪いディスク使用状況と
なることがあった。
【0007】さらに、ハッシュ化した場合、ハッシュす
るべきキーワードの数が多くなれば、ディスク利用効率
のため、ハッシュテーブルを随時更新していかねばなら
ず、処理に時間がかかった。
【0008】一方、ハッシュ化しない検索装置の場合、
リレーショナルデータベースのように、特定の種類のデ
ータを抽出してインデックスをランダムに記録し、検索
条件をすべての記録されたデータについて検査すること
が行われている。しかし、2分探索法を使用して、キー
ワードとデータ識別子が隣接しているレコードを読み取
ることによって、高速な検索を行う方法は実現されてい
なかった。また、すべてのデータを単に一つのファイル
にまとめ、すべてのデータを順番に処理する方法では、
時間がかかり過ぎるという問題があった。
【0009】2分探索法そのものは、辞書の探索などで
利用されているが、キーワードとデータ識別子から、デ
ータ名を再現することは行われていなかった。
【0010】この発明はこのような課題を解決するため
なされたもので、インデックスの構造をテキストエディ
タで確認できるようにすると共に、インデックスの追加
が容易で、かつ、高速な検索を可能にする全文検索装置
及び全文検索方法を提供することを目的とする。
【0011】
【課題を解決するための手段】前記課題を解決するため
この発明に係る全文検索装置は、検索対象となるデータ
について、単語に分割されたキーワード、検索対象とな
るデータの識別子、検索対象となるデータ内でのキーワ
ードの出現頻度を計算し、キーワードごとに、キーワー
ド:識別子,出現頻度 識別子,出現頻度というフォー
マットの図形文字集合のみで表現されるインデックスを
作成するインデックス作成部と、このインデックス作成
部で作成されたインデックスを、キーワード部分が等し
いものが複数存在しても構わずに、文字コード順にソー
トするインデックスソート部と、このインデックスソー
ト部でソートされたインデックスを記憶するインデック
ス記憶部と、探索対象となるデータ内に含まれる任意の
文字列を指定すると、前記インデックス記憶部に記憶さ
れたインデックスを大小比較に基づいて探索すること
で、前記指定した文字列が含まれるデータを検索する検
索部とを備えたことを特徴とする。
【0012】また、この発明に係る全文検索方法は、検
索対象となるデータについて、単語に分割されたキーワ
ード、検索対象となるデータの識別子、検索対象となる
データ内でのキーワードの出現頻度を計算し、キーワー
ドごとに、キーワード:識別子,出現頻度 識別子,出
現頻度というフォーマットの図形文字集合のみで表現さ
れるインデックスを作成し、次いで、インデックスを、
キーワード部分が等しいものが複数存在しても構わず
に、文字コード順にソートして、ソートしたインデック
スを補助記憶装置に格納しておき、探索対象となるデー
タ内に含まれる任意の文字列が指定されると、補助記憶
装置に格納したインデックスを大小比較に基づいて探索
することで、指定され文字列が含まれるデータを検索し
て出力することを特徴とする。
【0013】この発明に係る全文検索装置及び全文検索
方法は、キーワード:検索対象データを識別するための
識別子,検索対象データ内での出現頻度というフォーマ
ットの図形文字集合のみで表現されたインデックスを作
成しているので、インデックスの内容をテキストエディ
タで確認することができる。
【0014】また、この発明に係る全文検索装置及び全
文検索方法は、キーワードを文字コード順にソートして
検索用のインデックスを生成するので、インデックスの
追加に際しても、マージソートを行うだけでよく、イン
デックスの追加が容易かつ高速にできる。さらに、キー
ワードを文字コード順にソートしているので、前方一致
検索も、隣接したレコードを順番に読み取ることで実現
できる。
【0015】この発明に係る全文検索装置及び全文検索
方法は、図形文字集合のみで表現されるインデックスを
文字コード順にソートしているので、キーワードの検索
を大小比較を使う探索法によって高速に探索することが
できる。
【0016】さらに、この発明に係る全文検索装置及び
全文検索方法は、インデックス検索によって、指定した
キーワードが含まれているデータの識別子(例えばファ
イル名のリスト)と、各データ(ファイル)に含まれて
いるキーワードの出現頻度を得ることができる。
【0017】
【発明の実施の形態】以下、この発明の実施の形態を添
付図面に基づいて説明する。図1はこの発明に係る全文
検索装置のブロック構成図である。この発明に係る全文
検索装置1は、インデックス作成部2,インデックスソ
ート部3,検索部4を構成する電子計算機本体5と、検
索対象データ記憶部6並びにインデックス記憶部7を構
成する補助記憶装置8と、キーボード等の入力装置9
と、画像表示装置やプリンタ等の出力装置10とからな
る。
【0018】電子計算機本体5は、中央演算処理装置
(CPU:Central Processing Unit)と、主記憶装置と、
入出力インタフェース回路等を備える。補助記憶装置8
は、ハードディスク装置を用いて構成している。検索対
象データ記憶部6には、検索対象データとして複数の文
書ファイルが記憶されている。
【0019】インデックス作成部2は、検索対象となる
データについて、単語に分割されたキーワードと、検索
対象となるデータの識別子と、検索対象となるデータ内
でのキーワードの出現頻度を計算し、キーワードごと
に、キーワード:識別子,出現頻度 識別子,出現頻度
というフォーマットの図形文字集合のみで表現されるイ
ンデックスを作成する。
【0020】図2はインデックス作成部並びにインデッ
クスソート部の動作を示すフローチャート、図3はイン
デックス作成部並びにインデックスソート部の動作を示
す説明図である。
【0021】インデックス作成部2は、ステップS1
で、検索対象となるファイルを絶対パスで表現したファ
イル名を読み込む。ステップS2では、ステップS1で
読み取ったファイル名が、インデックス内でどのような
識別子で判別されるか決定する。ここでは検索対象とな
るファイルの識別子として一連番号を用いている。デー
タ識別子インデックスが既に存在している場合、インデ
ックス内で使用されていない識別子を得なければならな
いが、一連番号を付与する構成であれば、データ識別子
インデックスファイルの最後の番号を1インクリメント
することによって新たなデータ識別子インデックスを得
ることができる。
【0022】ステップS3では、ステップS1で読み込
まれたファイル名のファイルについて、1行ずつ若しく
は予め設定した文章データ量ずつ読み取り、その行又は
所定の文書データ量内のテキストを単語に分割し、その
ファイル内での単語の出現頻度を計算し、単語とそれを
含むファイルのデータ識別子、そのファイル内での単語
の出現頻度をメインメモリ上で保持する作業を行う。も
ちろん、入力データの中から必要なデータを取捨選択し
てもかまわない。
【0023】単語への分割は、自然言語辞書を用い、英
数字の場合は空白文字(タブ,空白記号など)で区切ら
れた文字列であると判断し、その他の場合は、辞書によ
って適切な読みや記号を認識することによって行う。
【0024】分割された単語をキーワードと呼ぶ。キー
ワードの出現頻度は、個別の単語の出現回数を単純に足
していき、ファイルの読み込みが終了した時点で確定す
る。
【0025】ステップS3の処理は一つのファイルにつ
いて行われるが、ステップS3の処理が終了すると、ス
テップS4で、処理の終了したファイルのデータ識別子
のファイル名を、データ識別子インデックスに記録す
る。
【0026】ステップS5では、それまで計算してメイ
ンメモリ上で保持しておいたキーワード、ファイル識別
子、キーワードの出現頻度の記憶容量をチェックし、メ
インメモリ上で保持しておくことが困難であると判断さ
れる場合は、ステップS6で、メインメモリ上で保持し
ていたデータを、キーワードによってソートしてファイ
ルとしてハードディスク装置などの補助記憶装置8に記
録し、メインメモリ上のデータを削除する。
【0027】このとき、補助記録装置8に記録されるデ
ータは、 W1:FD1−1,WC1−1 FD1−2,WC1−
2 FD1−3,WC1−3 というフォーマットになるように書き出される。これは
最終的なキーワードインデックスファイルのフォーマッ
トと同じである。
【0028】ここで、W1はキーワード、FD1−1
FD1−2 FD1−3はデータ識別子(ファイルの一
連番号)、WC1−1 WC1−2 WC1−3はFD
1−1 FD1−2 FD1−3におけるW1の出現頻
度(各文書ファイルでのキーワードの出現頻度)であ
る。
【0029】このフォーマットを用いることで、検索時
に補助記憶装置8からキーワードを読み取るときに、デ
ィスク状記録媒体に対して頻繁にシーク動作を繰り返す
必要がなくなり、高速に読み取ることが可能となる。ま
た、キーワードインデックスファイルは、図形文字集合
ですべて記述されるから、このファイルはテキストエデ
ィタなどのツールでその内容を容易に確認することがで
きる。
【0030】ステップS6で記録されるファイルは、ス
テップS5での判断で作成されるたびに新規に作成さ
れ、追加して記録されることはない。
【0031】以上のステップS1〜ステップS6までの
動作を、ステップS1で読み取られるすべてのファイル
について行う(ステップS7)。ステップS7で、すべ
てのファイルについて処理されたことが判断されると、
インデックスソート部3は、ステップS8でそれまでに
作成された単数又は複数のファイルを、マージソートの
手法を用いて単一のキーワードインデックスファイルと
する。もし既にキーワードインデックスファイルが存在
していた場合、元のキーワードインデックスファイルも
マージする。
【0032】マージソートは、複数のファイルをそれぞ
れ最初から順番に1行ずつ読み取り、その1行ずつのキ
ーワードの文字コード順での大小関係を見て、正しい順
序(文字コード順)で記録していくから、メモリが少な
くても動作する。また、ハッシュ関数を計算しないか
ら、高速に動作する。
【0033】こうして、図3に示すように、キーワード
インデックスファイル及びデータ識別子インデックスフ
ァイルが作成される。
【0034】図4は検索部における2分探索法による検
索動作を示すフローチャートである。ステップS11で
入力された検索式は、1つ以上の単語を論理演算子、又
は()カッコと共に連結したものである。論理演算子
は、AND OR NOTのいずれかである。検索式内
では、大文字小文字は区別されない。論理演算子及
び()カッコを除いたそれぞれの単語を検索語句と呼ぶ
ことにする。
【0035】ステップS12では、検索語句が抽出され
る。()カッコとその他の単語が空白なしで連続してい
れば、分割される。また、キーワードインデックスファ
イル作成時に用いた単語分割機能を用いて、個々の単語
を分割するようにしてもよい。分割した場合、それぞ
れ”AND”で連結され、()カッコでくくられる。
【0036】ステップS13では、ステップS12まで
で得られた検索語句が正しいかを判別し、正しくなけれ
ば、全体の検索処理を直ちに中止する。論理演算子
や()カッコが単語として抽出されたり、論理演算のな
い検索語句が互いに隣り合っていたりすることをエラー
として検出する。
【0037】ステップS13までに正しい単語が検索語
句として入力されていた場合、ステップS14では、2
分探索法を用いてキーワードインデックスファイルを検
索し、検索語句で始まる行を得て、メインメモリ上に保
持する。この行は、複数の場合もあるし、全くないこと
もある。実際には、ステップS14で検索された識別子
の数は、出力装置10を構成する画像表示装置の画面上
に表示するよう構成しているので、途中で検索されたフ
ァイルが幾つあるのかをユーザは知ることができる。
【0038】ステップS15では、得られた検索結果
と、それまで得られた検索結果との間で論理演算が必要
かどうかを判断する。それまでに検索結果が得られてい
なければ、論理演算は行わない。論理演算が必要なら
ば、ステップS16にて、ANDOR NOTなどの論
理演算を行う。
【0039】検索語句が処理されずに残されていれば、
再びステップS13からの処理を繰り返す(ステップS
17)。すべての検索語句について処理を終えたなら
ば、最新の論理演算結果がステップS16までで得られ
ているので、ステップS18で検索結果をユーザへ通知
する。検索結果は、ステップS16まででデータ識別子
の形で得られているので、このデータ識別子をデータ識
別子インデックス内で検索し、ファイル名の形でユーザ
の使用している画面へ出力する。
【0040】こうして、任意の文字列が含まれるファイ
ルをユーザは得ることができる。検索には2分検索法を
用いるため、キーワードインデックスのデータのほとん
どをメモリに読み込む必要がない。したがって、検索中
に必要なメモリは少なくてすむ。当然のことながら、す
べてのキーワードインデックスのデータをチェックする
わけではないから、高速な検索ができる。また、ユーザ
にデータを出力するまで、ファイルの名前そのものをメ
モリ上に保持せずに、データ識別子という形で保持して
いるため、検索動作中に使用するメモリ量を低減させる
ことができる。
【0041】図5は2分探索動作を示すフローチャート
である。図5に示すフローチャートは、図4で示したス
テップS14におけるインデックスファイルの2分探索
の動作の詳細を示したのである。
【0042】ステップS21では、検索語句(KE
Y)、キーワードインデックスファイルの始点(MI
N)並びに終点(MAX)が定義される。ステップS2
2では、(MAX−MIN)が1より大きいか否かが判
定される。(MAX−MIN)が1より大きい場合、ス
テップS23で、中間位置MIDが、MID=(MAX
+MIN)/2の算術平均演算によって求められ、求め
た位置の行のデータが読み取られる。
【0043】ステップS24では、検索語句(KEY)
の文字コードがMID位置の行から読み取ったキーワー
ドの文字コードよりも大きいか否かが判定される。検索
語句(KEY)の文字コードが中間位置MIDよりも大
きい場合は、ステップS25で、検索対象とするファイ
ルの始点を中間位置MIDとする。これにより、検索範
囲を全ファイル範囲の後半に絞り込む。検索語句(KE
Y)の文字コードが中間位置MIDよりも小さい場合
は、ステップS26で、検索対象とするファイルの終点
を中間位置MIDとする。これにより、検索範囲を全フ
ァイル範囲の前半に絞り込む。
【0044】この検索範囲を2分する処理(ステップS
23〜S26)は、ステップS22で、(MAX−MI
N)が1以下となるまで繰り返される。(MAX−MI
N)が1以下になると、ステップS27で、絞り込んだ
行位置MINからその行位置のデータを読み込む。そし
て、ステップS28で、その行は検索語句(KEY)で
始まっているか否かをチェックする。検索語句(KE
Y)で始まっている場合、ステップS29で、その行に
書かれているファイル番号を検索結果集合に追加する。
検索語句(KEY)で始まっていない場合は、2分探索
処理を終了して、図4に示したステップS14へ復帰
(リターン)する。
【0045】図6は2分探索法における検索動作を示す
説明図である。図6は、図4および図5に示した処理動
作を模式的に示したものである。キーワードが入力され
ると、2分検索法を用いてインデックスファイル内のキ
ーワードによる検索がなされ、検索結果に基づいてファ
イル名の復元がなされる。そして検索結果として、指定
したキーワードが含まれている文書ファイルの数量と各
文書ファイルのファイル名が表示される。
【0046】以上のキーワードインデックスファイルの
作成方法及び検索方法は、2分探索法を基本にしたもの
であったが、多分木探索法を用いた検索にも容易に応用
できる。図7は多分木探索法のためのインデックス作成
処理を示すフローチャート、図8は多分木探索法のため
のインデックス作成動作を示す説明図、図9は多分木検
索法の動作を示すフローチャート、図10は多分木検索
法における検索動作を示す説明図である。
【0047】多分木探索法は、通常、木構造のデータを
探索するための手法であるが、ここでいう多分木探索法
は、キーワードインデックスファイルの複数の位置を読
み取りつつ検索を行う方法を示す。多分探索法とでも呼
びべきであるが、用語が混乱するので、多分木検索法と
いう言葉を用いることにする。
【0048】多分木探索は、キーワードインデックスフ
ァイルの3以上の位置を読み取りながら、正確な位置を
順次探索する手法である。キーワードインデックスファ
イルが単一の場合でも多分割して調べていくことが可能
である。また、ファイル分割を行わずとも、ファイル内
の特定の位置を示すインデックスを別に作成しても、フ
ァイル分割するのと同様な効果を得ることが可能であ
る。多分木探索法の利点を示すために、ここではキーワ
ードインデックスファイル自体も分割する方法を示して
いる。
【0049】図7に示したフローチャートにおいて、ス
テップS31〜ステップS38までの処理は、図2に示
したフローチャートのステップS1〜S8までの処理と
同じであり、図7に示すステップS39の処理だけが異
なる。すなわち、最終的にマージソートを行うわけであ
るが、最初から順に一つ目のファイルに記録していく
が、一定の大きさ、又は、行の先頭文字の種類が異なっ
たときなどに、次のキーワードインデックスファイルを
書き出す、ということを行っていくのである。
【0050】例えば、各行の先頭文字がアルファベット
であれば、「A」というファイル名のキーワードインデ
ックスファイルに記録し、平仮名であれば「あ」という
ファイル名のものに記録する。もっと細かい範囲で分割
することも可能であるが、ここでは、アルファベット、
記号、仮名、漢字の4つに分割することとする。
【0051】当然のことながら、それぞれのファイル内
では、すべての行はソート済みであるし、別々のファイ
ルの要素の大小関係の区間が重なることもない。データ
識別子インデックスについては、2分探索法を用いる場
合と同様、単一のファイルでよい。
【0052】このようにして作成したキーワードインデ
ックスファイルを、図9に示す処理をサブルーチンとす
る多分木探索法で、高速に探索することができる。図9
に示したサブルーチンは、図5に示したサブルーチン
(ステップS21〜S29)を置き換えるものである。
【0053】ステップS41では、多分割されたキーワ
ードインデックスファイルの中で、入力されたキーワー
ドがどのファイルに含まれているかを、キーワードの先
頭文字に基づいて判断する。もし、文字の種類でキーワ
ードインデックスファイルを分割しない場合には、各フ
ァイルの最初の行を読み取るなどして、どのファイルに
入力されたキーワードが含まれているかを判断する。
【0054】こうして選択されたファイル内を、ステッ
プS42〜ステップS51で示される手順を用いて検索
する。ここで、mは3以上の整数である。mがあまりに
大きいと検索の効率が悪くなるので注意を要する。mが
2の場合は、2分探索法と同じである。
【0055】ファイル内のいくつかの位置を等間隔に読
み取り、それらのどの区間に、入力されたキーワードが
含まれるかを調べる。読み取る区間がm以下の要素で構
成されるなら、mを2として2分探索法に切り換えて処
理を進める。このように多地点を調べることは、2分探
索法を用いる場合に比べ、初期段階でかなり細かい区間
を特定できる利点がある。しかし、あまり細かく分割し
ようとすると、不要な区間を数多く読み取ることにな
り、効率が悪くなる。
【0056】入力されたキーワードが発見できれば、ス
テップS53,ステップS54に示すように、入力され
たキーワードが含まれている範囲内で、データ識別子の
数を記録する。得られたデータ識別子の集合について、
あとは2分探索法と同様な処理を行って、検索回答とし
てユーザの使用している画面に表示させる。
【0057】なお、この全文検索装置1は、例えばコン
ピュータネットワーク上でデータベースに対する全文検
索システムとして構築することもできる。
【0058】
【発明の効果】以上説明したように、この発明に係る全
文検索装置及び全文検索方法は、キーワード:検索対象
データを識別するための識別子,検索対象データ内での
出現頻度というフォーマットの図形文字集合のみで表現
されたインデックスを作成しているので、インデックス
の内容をテキストエディタで確認することができる。
【0059】また、この発明に係る全文検索装置及び全
文検索方法は、キーワードを文字コード順にソートして
検索用のインデックスを生成するので、インデックスの
追加に際しても、マージソートを行うだけでよく、イン
デックスの追加が容易かつ高速にできる。さらに、キー
ワードを文字コード順にソートしているので、前方一致
検索も、隣接したレコードを順番に読み取ることで実現
できる。
【0060】この発明に係る全文検索装置及び全文検索
方法は、図形文字集合のみで表現されるインデックスを
文字コード順にソートしているので、キーワードの検索
を大小比較を使う探索法によって高速に探索することが
できる。
【0061】さらに、この発明に係る全文検索装置及び
全文検索方法は、インデックス検索によって、指定した
キーワードが含まれているデータの識別子(例えばファ
イル名のリスト)と、各データ(ファイル)に含まれて
いるキーワードの出現頻度を得ることができる。
【0062】したがって、この発明によれば、インデッ
クスの構造をテキストエディタで確認できるようにする
と共に、インデックスの追加が容易で、かつ、高速な検
索を可能にする全文検索装置及び全文検索方法を提供す
ることができる。
【図面の簡単な説明】
【図1】この発明に係る全文検索装置のブロック構成図
である。
【図2】インデックス作成部並びにインデックスソート
部の動作を示すフローチャートである。
【図3】インデックス作成部並びにインデックスソート
部の動作を示す説明図である。
【図4】検索部における2分探索法による検索動作を示
すフローチャートである。
【図5】2分探索動作を示すフローチャートである。
【図6】2分探索法における検索動作を示す説明図であ
る。
【図7】多分木探索法のためのインデックス作成処理を
示すフローチャートである。
【図8】多分木探索法のためのインデックス作成動作を
示す説明図である。
【図9】多分木検索法の動作を示すフローチャートであ
る。
【図10】多分木検索法における検索動作を示す説明図
である。
【符号の説明】 1 全文検索装置、2 インデックス作成部、3 イン
デックスソート部、4検索部、5 電子計算機本体、6
検索対象データ記憶部、7 インデックス記憶部、8
補助記憶装置、9 入力装置、10 出力装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 中央演算処理装置、主記憶装置、補助記
    憶装置、入力装置、出力装置によって構成される電子計
    算機を用いて全文検索を行う全文検索装置において、 検索対象となるデータについて、 単語に分割されたキーワード、 検索対象となるデータの識別子、 検索対象となるデータ内でのキーワードの出現頻度を計
    算し、キーワードごとに、 キーワード:識別子,出現頻度 識別子,出現頻度とい
    うフォーマットの図形文字集合のみで表現されるインデ
    ックスを作成するインデックス作成部と、 前記インデックス作成部で作成されたインデックスを、
    キーワード部分が等しいものが複数存在しても構わず
    に、文字コード順にソートするインデックスソート部
    と、 前記インデックスソート部でソートされたインデックス
    を記憶するインデックス記憶部と、 前記探索対象となるデータ内に含まれる任意の文字列を
    指定すると、前記インデックス記憶部に記憶されたイン
    デックスを大小比較に基づいて探索することで、前記指
    定した文字列が含まれるデータを検索する検索部とを備
    えたことを特徴とする全文検索装置。
  2. 【請求項2】 中央演算処理装置、主記憶装置、補助記
    憶装置、入力装置、出力装置によって構成される電子計
    算機を用いて全文検索を行う全文検索方法において検索
    対象となるデータについて、 単語に分割されたキーワード、 検索対象となるデータの識別子、 検索対象となるデータ内でのキーワードの出現頻度を計
    算し、キーワードごとに、 キーワード:識別子,出現頻度 識別子,出現頻度とい
    うフォーマットの図形文字集合のみで表現されるインデ
    ックスを作成し、 次いで、前記インデックスを、キーワード部分が等しい
    ものが複数存在しても構わずに、文字コード順にソート
    して、ソートしたインデックスを補助記憶装置に格納し
    ておき、 前記探索対象となるデータ内に含まれる任意の文字列が
    指定されると、前記補助記憶装置に格納したインデック
    スを大小比較に基づいて探索することで、前記指定され
    文字列が含まれるデータを検索して出力することを特徴
    とする全文検索方法。
JP8247820A 1996-09-19 1996-09-19 全文検索装置及び全文検索方法 Withdrawn JPH1097542A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8247820A JPH1097542A (ja) 1996-09-19 1996-09-19 全文検索装置及び全文検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8247820A JPH1097542A (ja) 1996-09-19 1996-09-19 全文検索装置及び全文検索方法

Publications (1)

Publication Number Publication Date
JPH1097542A true JPH1097542A (ja) 1998-04-14

Family

ID=17169153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8247820A Withdrawn JPH1097542A (ja) 1996-09-19 1996-09-19 全文検索装置及び全文検索方法

Country Status (1)

Country Link
JP (1) JPH1097542A (ja)

Similar Documents

Publication Publication Date Title
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
EP0293161B1 (en) Character processing system with spelling check function
JPH11212980A (ja) インデクス作成方法および検索方法
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
CA2275391C (en) File processing method, data processing device, and storage medium
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
JPS63249267A (ja) 電子ファイリング装置の管理方法
JPH07210569A (ja) 情報検索方法および情報検索装置
JP3253657B2 (ja) 文書検索方法
JPH0561910A (ja) 全文インデツクス検索方法
JPH1097542A (ja) 全文検索装置及び全文検索方法
JPH0991305A (ja) 情報処理方法及び装置
JP3239845B2 (ja) 全文検索装置および方法
JP3279002B2 (ja) 情報管理装置
JPH09259132A (ja) 情報登録検索装置及びその方法
JPH10177582A (ja) 最長一致検索方法及び装置
JPH09212523A (ja) 全文検索方法
JPH06162096A (ja) レコード検索方法
JPH05158984A (ja) 文字列抽出装置
JPH1115845A (ja) 情報検索方法および装置と情報検索プログラムを格納した記録媒体
JPH09305619A (ja) 階層インデックス検索装置、及び文書検索方法
JP2001060197A (ja) リレーショナルデータベースにおける検索方法及びそのプログラムを記録した記録媒体
JPH1196184A (ja) 全文検索方法およびシステム
JP2002063202A (ja) 情報検索システムおよび方法
JPH03102565A (ja) 文書作成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031202