JPH05101102A - 検索装置 - Google Patents

検索装置

Info

Publication number
JPH05101102A
JPH05101102A JP3256215A JP25621591A JPH05101102A JP H05101102 A JPH05101102 A JP H05101102A JP 3256215 A JP3256215 A JP 3256215A JP 25621591 A JP25621591 A JP 25621591A JP H05101102 A JPH05101102 A JP H05101102A
Authority
JP
Japan
Prior art keywords
search
character
character string
data
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3256215A
Other languages
English (en)
Inventor
Katsumi Murai
克己 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3256215A priority Critical patent/JPH05101102A/ja
Publication of JPH05101102A publication Critical patent/JPH05101102A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 大量の文書データを蓄えた2次記憶装置から
検索用のインデックス情報を付与することなしに要求さ
れた文書データを引き出してくる全文検索方式に基づく
検索装置に関するもので、特に全文検索のプリサーチに
用いるファイルの容量を小容量化し検索の効率をよくす
る。 【構成】 要約ファイルとして、全文ファイルの文字並
びから記録場所を連想する表を作っておき、この表を用
いて絞り込んだ本文についてのみ検索を行う。検索語入
力時にやはり文字並びについて調べ、連想表と対応する
文字の一部をキーとして表の一部の検索を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、大量の文書データを蓄
えた2次記憶装置から検索用のインデックス情報を付与
することなしに要求された文書データを引き出してくる
全文検索方式を基本とした検索装置に関するものであ
る。
【0002】
【従来の技術】近年、ワードプロセッサーやパーソナル
コンピューターの普及により大量の文書データが仕事場
や家庭に於いて流通利用される状況になってきた。この
大量の文書データを整理して有効に利用していくため
に、大容量データベースと高速検索マシンが研究開発さ
れてきた。しかし、従来の検索マシンでは検索用にイン
デックス情報を付ける必要があり、データ量が増大する
につれてこのインデックス付け作業に大変な労力が必要
となってきた。これに対して、前記インデックス情報を
つける作業を必要としない方法として、前記インデック
ス情報なしにこの大量の文書データの中から的確かつ高
速に所望の文書データを探し出すことができる全文検索
方式に基づく検索装置が発表されている。例えば、19
70年スロトニック(Slotnick,D.L.)が提案したロジ
ック・パー・トラックディスクは、2次記憶装置の一種
であるディスクの各ヘッドに検索専用のプロセッサーを
付加し、検索条件を満足した情報だけをホストコンピュ
ーターに転送することにより検索の高速化を試みたもの
であり、具体的な装置としてトロント大学のRAP等が
実現している。一方、全文検索用テキストサーチマシン
(電子情報通信学会技術研究報告・データ工学89-38)
は、2次記憶装置の複数化、文字成分表と凝縮本文とい
う二種類の要約ファイルを用いた階層型プリサーチ方式
を用いることによって検索の高速化を試みている。
【0003】
【発明が解決しようとする課題】しかしながら前記ロジ
ック・パー・トラックディスクにおいては、全文検索を
行おうとすると2次記憶装置の一種であるディスク全体
を検索する必要があり、前記2次記憶装置に対するデー
タの入出力に必要な時間が多くなり、検索の高速化が難
しくなるという問題があった。また、前記全文検索用テ
キストサーチマシンでは、この2次記憶装置に対するデ
ータの入出力に必要な時間を少なくすることを目的とし
て2次記憶装置の複数化と全文を凝縮した要約ファイル
によるプリサーチ方式を用いているが、どうしても前記
要約ファイルが大きくなってしまうという欠点があっ
た。
【0004】本発明ではこれら従来の装置においては大
規模なハードウェアを必要とし、また検索速度的にも十
分でなかったのに対して、小さなハードウェアと効率的
なプリサーチ方式を採用することによって安価で高速な
検索ができる検索装置を提供することを目的とする。
【0005】
【課題を解決するための手段】上記問題点を解決するた
めに本発明の検索装置は、2次記憶装置に蓄えられた文
書データを読み出し、適当な文書量毎に識別名称を付与
し、かつその文書データの内容を調べ、すべての文字
(あるいは文字並び:Mは1文字以上)を先頭とし、引
き続く文字(あるいは文字並び:Nは1文字以上)がど
のようなものであるかを分析する。そしてこの時ある文
書量毎に長さMの文字を索引としMの長さの文字に引き
続く長さNの文字とこれらの文字並びが含まれている文
書の識別名称を表の内容として予め記述しておく。次に
検索要求者から出されたj個の検索文字列(例えば検索
単語)とそれらの検索論理式を受け付け、それら検索文
字列を調べてすべての文字(あるいは文字並び:Mは1
文字以上)を先頭とし、引き続く文字(あるいは文字並
び:Nは1文字以上)がどのようなものであるかを分析
し、文字Mを索引として先ほどの表を引き、表の内容が
一致するものの識別名称をki個入手する。する。そし
てj個の検索文字列の各文字並びがすべて含まれている
もの(AND)の識別名称を持つ文書を検索候補として
選び、2次記憶中の実際の記録場所を得て、バッファメ
モリ(データメモリ)に読み込む。そして文字列検索ハ
ードウェアに先ほどのj個の検索文字列をセットして、
実際に検索文字列の文字並びが検索候補とした文書に存
在するかどうかを確かめる。さらに与えられた論理式関
係を満足するかどうかをも確認した後、条件を満たした
検索対象本文あるいは検索対象本文に関係する情報を要
求者に提示することになる。
【0006】本発明は、基本的に先行技術である全文検
索用テキストサーチマシンと同様にプリサーチ方式を採
用したものであるが(上記では表と記述)、本発明にお
いてはすべて検索した場合は時間のかかってしまう全プ
リサーチファイルを検索の対象とせず、検索文字列の文
字並びの含まれる表の一部分のみを検索する。本文検索
を終了した時点ではじめて検索文字列のすべての文字並
びが存在するかどうかかチェックされる構成となってい
る。
【0007】
【作用】本発明によれば上記のように、2次記憶装置か
らデータメモリ回路に読み出された文書データが、文字
列検索回路によって検索され、ホストコンピューターか
らの要求を受け付けて前記2次記憶装置、データメモリ
回路、文字検索回路を制御する回路を装備して、予め記
録文書データの文字をエントリとする文字並びの表を作
っておき、この表を引いて検索文字列と同一の文字並び
があるかどうか調べ、もしあったなら対応する識別名称
(2次記憶の記録場所のエントリに対応)を得る。この
ようにすればホストコンピューターと2次記憶装置の間
の通信データ量が削減されて検索の高速化が可能とな
る。すなわち全文を凝縮したプリサーチファイルとして
の文字並びの表を用いることで、要約ファイルの記録の
容量を小さくでき効率の良い検索を行うことができる。
従って効果的な全文検索を行うことができる。
【0008】
【実施例】以下本発明の実施例を図面を用いて詳細に説
明する。
【0009】図1は本発明の検索装置の構成図である。
図1において、1は大量の文書データを蓄えておく2次
記憶装置であって文書データの本文ファイルと検索時に
使用する連想表ファイルを記録する光ディスクドライブ
であり、内部には2の光ディスク媒体と、3の誤り訂正
回路を装備している。また4は1の2次記憶装置と8の
ホストコンピュータの間におかれる処理回路である。5
は検索動作を行うデータパターン検出回路であり、6は
光ディスクドライブから読み出したデータを一時的に蓄
えておくデータメモリ回路であり、7はホストコンピュ
ーターからの検索要求に対して前記記録媒体やデータメ
モリ回路また文字列検索回路を制御するところの、マイ
クロコントローラ及びインターフェイスを含む制御回路
であり、8はユーザーからの検索要求の受け入れてユー
ザーへの検索結果の出力を行い前記2次記憶装置に検索
要求を送り前記2次記憶装置から検索結果を受け取る働
きをするホストコンピューターであり、9は前記ホスト
コンピューターから前記2次記憶装置に送られる検索要
求データの流れであり、10は前記2次記憶装置から前
記ホストコンピューターに送られる、連想表検索結果の
流れと最終的に表示される検索結果の流れである。
【0010】以上の様に構成された検索装置において、
図2及び図15を用いて検索動作について説明する。予
め文書データ本文は1の2次記憶装置に既に蓄えられて
おり、FAT(ファイルアロケーションテーブル)、デ
ィレクトリ等のファイル管理システム下にあるとする。
【0011】予め9のホストコンピュータにより文書デ
ータの内容は図2の手順に従って分析される。まずステ
ップ1でユーザーから8のホストコンピューターに文書
データの分析要求が出される。すなわちホストコンピュ
ータは識別名称として2次記憶媒体のファイル単位の物
理的配置の順に端から番号をふられた文書データファイ
ルをすべて読み出してホストコンピュータのメモリに転
送する(本実施例ではメモリ容量が大きく、すべてのフ
ァイルがホストコンピュータの主記憶に格納可能な場合
について述べている)次にステップ2において、読み出
したファイルに対し特定文字の順序で(例えば漢字コー
ドの亜から)検索していく。そしてステップ3におい
て、もし設定した文字が見つかったなら、ステップ4に
て見つかった文字の次の文字を獲得して、さらにステッ
プ5で文書ファイルに対応する識別名称を得る。これら
についてステップ6に示すように文書データのすべてに
ついて次々と分析していく。ステップ7では指定した文
字を索引として使用可能なようにファイル名(例えば
亜.Psf)を与えて次に引き続く文字と識別名称であるフ
ァイル単位の番号を記録していく。そしてもしすべての
漢字、片仮名、平仮名について(例え分析が終了したな
ら連想表は完成する。
【0012】次に図15にて検索の手順を説明する。ま
ずステップ1ではユーザーから入力された検索要求、す
なわちj個の検索語ならびに各検索語の論理式が8のホ
ストコンピュータに送られ、ステップ2では各検索語の
2文字組の要素に分解(例えば検索語が「松下電器」な
らば「松下」、「下電」、「電器」に分解)される。こ
の時メモリ上では索引の対象となりうる文字すべてにつ
いての2次記憶上の連想表の物理的な先頭セクタ番地と
最終セクタ番地、文書ファイル本文の先頭セクタ番地と
最終セクタ番地及びDOSのファイル管理部との対応テ
ーブル、後にでてくる識別名称等の情報を表形式にて持
っておく(これらに関する情報は12のファイル管理。
そして上記のメモリに先頭文字を参照して連想表の記録
セクタに関する物理的な位置情報を得た後、次にステッ
プ3で2文字組の先頭文字をファイル名、すなわち索引
とする(例えば松.psf、下.psf、電.psf)連想表の要素
を読み込む。次にステップ4にて連想表の要素でそれぞ
れ第2文字目の文字並び(例えば各々の松.psfでは
「下」、下.psfでは「電」、電.psfでは「器」)を検索
してその直後に書きこまれている識別名称、すなわちこ
の場合はファイル名に対応した番号を読み込む。当然の
ことながら「松下電器」は同一ファイルに存在するのだ
から各要素は同一の識別名称を持っているはずである。
【0013】さらにステップ5ではj個の検索語に対し
て検索語間の論理式(例えば「松下電器」&「家電メー
カ」ならばすべての検索語すべてが同一の識別名称を持
つ)をチェックする。次にステップ6では識別名称に対
応するファイルの物理的な記録位置情報をホストコンピ
ュータのファイル管理情報から読み取り、対象となるフ
ァイルだけを6のデータメモリに読み込み、5のデータ
パターン検出回路に検索語をセットして本当にその検索
語が存在するファイル(「松下電器」と「家電メーカ」
が両方存在するファイル、実際には先に出てきた識別名
称で管理)のみをチェックして8のホストコンピュータ
に送り、もし該当ファイルが存在したらKWIC(キー
ワードインコンテキスト)法に基づいて検索語を含む行
が結果としてユーザに表示される。
【0014】図3は2次記憶に書き込まれている内容で
あって、11はファイルシステム全体の記録内容の模式
図、12はのファイル管理部、15は文書ファイルであ
る本文ファイル群、13はファイルの物理的な位置(物
理的な位置は12のファイル管理部から読み取ることが
できる)から順に番号をふったものを識別名称として与
え、実際の物理的な記録位置と大きさ、さらにファイル
管理部へのエントリ情報等を表形式にて書き込んだ領域
である)また14は連想表であり、実際は各索引別にフ
ァイル形式で(例えば亜.pss等)記録されている。なお
ここでは分かりやすくするため数値で書かれているが、
実際にはバイナリ形式で記録する。
【0015】次に図4を用いて別の実施例を示す。図4
においては図3の実施例とは2次記憶の内容における連
想表の形が異なる。14'の連想表において各索引は2
0ビット(索引をファイル名で与えた時は3バイトで表
され、このうち最初の2バイトを文字列の最初の文字、
次の4ビットをアスキー文字1バイトの0からFで表
記)で表し、後半の4ビットで第2文字目を大分類して
いる。検索語が入力された時点で文字並びを調べて第1
文字目と第2文字目の文字コードの一部を取り出して大
分類を行う。連想表の各内容も第2文字目の残りの12
ビットをコード化して記述し(3/4と表している)次
の第3文字目の情報と、さらに識別名称の組を作って構
成している。平仮名や英文字等ではもともとの文字の持
つ情報量が小さいため、このようにエントリを1文字以
上にしたほうが良い。
【0016】次に図5を用いて別の実施例を示す。図5
においては図3及び図4の実施例とは2次記憶の内容に
おける連想表の形が異なる。14''の連想表において索
引は1文字であり、表の中身は次の文字1文字に加えさ
らに次の並びの文字を4ビットで文字を大分類したもの
とで表している。もし全角文字を12ビットで符号化す
れば第2番目の文字と第3番目の文字の4ビット(全1
2ビットの1/3)を大分類符号として計16ビットで
表すことができる。
【0017】次に図6を用いて別の実施例を示す。図6
においては図4及び図5の実施例とは2次記憶の内容に
おける連想表の形が異なるが両方の形式を合わせ持った
ものである。
【0018】次に図7を用いて別の実施例を示す。図7
においてはプリサーチを用いた検索手順を示している。
まずステップ1からステップ5までは図15で示した手
順と全く同一に処理を進める。ところが最新に登録され
た文献については、連想表が未作成であると考えられ
る。これは例えハードウェアを使用したとしても、ある
程度の時間がかかるのはやむを得ず、次回の登録まで実
質的な検索対象とすることができないという問題があっ
た。ステップ6では検索語自体は図15と全く同一に検
索回路に複数の検索単語をセットして論理式がORであ
ろうとなかろうと並列OR検索を行い、論理式にAND
条件を含む部分についてはOR検索語したのちに得た識
別名称が条件どおり存在しているかをチェックして同一
の識別処理を進めるが、検索対象範囲は検索時点で連想
表が出来ている範囲とし、その時点で絞り込んだ識別名
称をメモリに蓄えておくとと共に、ステップ7では検索
語は引き続いてまだ連想表が出来ていない文書ファイル
本文全てについて検索対象として、検索回路の設定をそ
のままにして引き続き検索処理を続行する。そしてステ
ップ8で同様にホストは得られた結果を表示する。連想
表は例えば週末帰宅前にバッチプログラムをセットして
おき、週単位で増加した新規登録文書のデータを連想表
に追加していくようにする。次に図8を用いて別の実施
例を説明する。図において16は2次記憶のセクタのつ
ながりを模式的に表したものであり、連想表の内容のう
ち一部をあらわしているところの17は「亜」という文
字を索引情報とする、また19は「阿」という文字を索
引情報とする表の周辺について物理的なセクターのイメ
ージを記述している。また18は無記録セクタである。
このように連想表の内容は各索引文字に対応するデータ
毎に連続的な領域に記録され、さらにこれらの間にはギ
ャップを設けている。もし文書ファイルが新規登録さ
れ、連想表の内容を追記する場合はホストコンピュータ
の主記憶上に展開された情報から最終セクタの位置を知
ってこれを読み取り変更して書き換えるだけで良く、ま
たもし最終セクタが満杯になったならファイル情報を変
更した後、無記録セクタの部分に書き込んでいく。当然
この無記録セクタの大きさは一定とすることもできる
し、文字の出現頻度に応じて変化させることもできる。
それでも追記すべき場所が満杯になってしまった場合に
は、リンクを張った旨を14の領域に書き込んでおき、
とりあえず別の領域にセクタを確保して書き込んでお
く。またさらに複数の索引文字の表の情報をあつめてそ
の間に大きなギャップを設けておきここをリンクの飛び
先としてもよい。次の実施例としては上記のリンクを張
って不連続となったセクタ記録内容をバッチプログラム
で修正してまた連続としておくようにもできる。次に図
9を用いて別の実施例を説明する。図においては5'の
検索回路及び7'の制御回路、6'のメモリ回路の別の形
を示している。ここでは本文の全文検索に用いたハード
ウェアを連想表の文字成分分析に使うように制御回路、
及び検索回路の形態を変えている。次の実施例としては
図9において特にバイナリ表形式の連想表の検索を行う
ため、固定の検索パターン長と比較対象としない領域の
データは固定長ジャンプして比較処理をしないようにデ
ータインターバルレジスタというレジスタにデータをセ
ットして6'のメモリに対して検索アドレスを発生す
る。次に図10を用いて別の実施例を説明する。図にお
いては2次記憶に書き込まれている内容の別の例であっ
て、14''''は連想表であり、実際は各索引別にファイ
ル形式で(例えば亜.pss等)記録されている。ここに
「*00」「*FF」と記してあるデータ内容は表の内容の
うちとくに識別名称を短いビット数(ここでは8ビッ
ト)で表現したいがために設けたものであって、「*」
は未定義文字を表している。そして識別情報を16ビッ
トで表して全部で文書ファイルの数を65536までと
した時の上位ビットの桁上がりがあった時にこの未定義
文字「*」で表すようにしている。当然のこのながらこ
の例では上位バイトの「01H」から「FEH」まで該当デー
タが存在せず「00H」と「FFH」にしか文字並びが存在し
なかったことを意味しているが、例えば桁上がりがあっ
た時はすべて記述する形式すなわち*01*02*03...
*FEHという形にもすることが可能である。また24ビ
ット形式で文書ファイル数を表してこの時の最上位バイ
トの桁上がりのための未定義文字を「#」として「*」
と共に用いることもできる。
【0019】次に図11を用いて別の実施例を示す。図
では連想表を作る手順を示している。ステップ1では検
索回路を用いる際に文書データをデータメモリに全角文
字になおして(例えば英文ならアスキーの大文字になお
して)転送する。この後ステップ2では索引となる16
ビット文字コードの検出を行う際に、全角文字として有
効な範囲の上位8ビットだけを設定ししかも検索は文字
単位に行うように設定する。この時およそ下位ビットに
含まれる約256文字が検索対象となる。ステップ3及
びステップ4では検索ハードを起動して文字検出を行っ
ている。次にステップ5では検索ハードで検出された上
位8ビットに加えて、下位8ビットのデータを制御回路
内のマイクロコントローラで読み取り、索引としての1
文字の確定を行う。またステップ6では文字並びとして
の次文字の獲得を同様にマイクロコントローラで行う。
次にステップ7では対応する識別名称すなわち文書ファ
イルに付与された番号を獲得する。ステップ8ではもし
すべての文書データについてこの処理が終了したかどう
か判定し、ステップ9では対象となる256文字の連想
表の内容をマイクロコントローラとホストコンピュータ
が2次記憶装置を制御して書き込む。ステップ10では
すべての対象となる全角文字が終了したかどうかのチェ
ックを行う。
【0020】次に図12を用いて別の実施例を説明す
る。この図は検索手順を示している。まずステップ1で
はユーザがホストコンピュータを使用してカナ漢字変換
プログラムを用いてj個の検索語を入力する。ステップ
2ではホストコンピュータから4の処理回路に対し、i
番目の検索語を送る。この時4の処理回路では検索語2
文字組文字要素の先頭文字を検索の索引としてk1から
ki-1までの想表検索を行う。これらのi番目の検索語
に関する処理データは4の処理回路(検索処理回路)を
介して2次記憶に発行されるが、4の処理回路はコマン
ドを受付た直後に完了信号をホストコンピュータに返
し、連想表の検索処理の結果がでるまで待たない。ステ
ップ2'では一つ前のi−1番目の検索語の連想表の検
索が終了しているかをチェックしそれも終了していたら
ホストコンピュータは次の検索語のカナ漢字変換を開始
する。i−1番目の検索語に関しては存在する可能性の
高い文書ファイルを候補文書として4の処理回路から受
け取り、該当候補文書としてホストコンピュータの画面
に表示する。次にステップ3、ステップ4、ステップ5
では4の処理回路内部においてi番目の検索語に関する
連想表の検索を行う。さらにステップ5'で全県錯誤の
入力が完了しているかのチェックを行ったのち、ステッ
プ6では候補文書の本文検索を行った後、ステップ7で
結果を表示する。
【0021】次に図13にて別の実施例を説明する。図
13では4の処理回路が1の2次記憶装置の中に組み込
まれた形となっている。検索処理は基本的にすべてこの
中の処理回路とホストコンピュータで行われ、効率的に
処理を行うことができる。
【0022】次に図14にて別の実施例を示す。図14
は図2と比較するとステップ5'とステップ5''の部分
が異なる。ステップ5'では調べた次文字と識別名称の
組のうち重複しているものをチェックする。そしてステ
ップ5''では重複するものを削除して記録する。このこ
とにより、連想表の容量を小さくすることができる。
【0023】別な実施例としては当然上記のこの削除し
た組の数をチェックしておき、各索引文字単位に次の文
字並び単位に何個削除したかのデータを取っておくこと
により2文字組の出現データを得ることができ、これを
ソーティング後に2次記憶装置の一部に書いておくこと
ができる。
【0024】また次に別の実施例では、連想表における
識別名称を例えば64KB以下とし、64KBとなるよ
うに複数の文献をまとめ、また64KBを越える分につ
いては、文の区切りを調べた上で64KB以下となるよ
うに分割しこれらの単位に識別名称を与える。この情報
は2次記憶の12の部分に書き込んだの後、主記憶に取
り込み、検索語間の論理式については本文検索時に元の
各文献単位毎にチェックを行う。
【0025】また別の実施例においては、検索語として
「塩化ビニール」という検索語を選んだ時、「塩化」
「化ビ」「ビニ」「ニー」「ール」の組み合わせ5つ全
部の論理積を取らずに例えば平仮名については3つまで
存在したら良いという条件でチェックし、また例えば片
仮名については、表記の揺らぎがあるためより条件を緩
くする、あるいは揺らぎを含めて本文検索を行う等の処
理ができる。またプリサーチ時に条件を緩くした状態で
の存在したところの候補検索語となりうる文字列の組み
合わせを一旦ユーザに表示して選択してもらい、最終的
な本文検索を行うようにすることもできる。
【0026】なお本実施例では、1台の2次記憶装置を
用いて説明したが、特にこれらは1台に限定されること
はなく、検索回路、処理回路も1台から複数台で用いる
ことができる。また最終的な表示もKWIC方式しか示
していないが、他の方式やあるいはまたユーザの指示に
よりヒット行にカーソルを持ってきたら文書ファイル生
データを表示する等の処理も可能である。また英語等の
外国語を対象とした場合についても同様にできることは
いうまでもない。
【0027】また候補となった文献の件数を画面に表示
して、条件を満足した文献数が適当な数になるようにユ
ーザーに次の検索語と論理式を選んでもらうこともでき
る。
【0028】また連想表の各索引に対応する内容を取り
込んだり転送している間に、次のトラックにシークする
等の高速化処理(プリフエッチ)ができるのも当然であ
る。
【0029】なお本発明は上記実施例に限定されるもの
ではなく、本発明の主旨に基づいて種々の変形が可能で
あり、これらを本発明の範囲から排除するものではな
い。
【0030】
【発明の効果】本発明によれば、次のような効果を得る
ことができる。
【0031】検索のプリサーチとして作成する連想表は
特許文書を対象とし、2文字組で1文字を索引文字とし
て使用した場合で本文の約1/5、新聞で1/3程度で
あった。このようにする比較的小さなプリサーチファイ
ルを用いながらもプリサーチファイル全部を検索対象と
しないため非常に高速にしかも効率良く全文検索でき
る。
【図面の簡単な説明】
【図1】本発明の一実施例における検索装置の構成図
【図2】同検索装置における手順を示すフローチャート
【図3】同検索装置におけるファイルの構成図
【図4】同検索装置におけるファイルの構成図
【図5】同検索装置におけるファイルの構成図
【図6】同検索装置におけるファイルの構成図
【図7】同検索装置における検索手順を示すフローチャ
ート
【図8】同検索装置における2次記憶装置内連想表の記
録状態の説明図
【図9】本発明の一実施例における検索処理回路の構成
【図10】同検索装置におけるファイルの構成図
【図11】同検索装置における連想表作成手順を示すフ
ローチャート
【図12】同検索装置における検索手順を示すフローチ
ャート
【図13】本発明の一実施例における検索装置の構成図
【図14】同検索装置における連想表作成手順を示すフ
ローチャート
【図15】同検索装置における検索手順を示すフローチ
ャート
【符号の説明】
1 2次記録装置 2 記録媒体(例えば光ディスク) 3 誤り訂正回路 4 処理回路 5 文字列検索回路 6 データメモリ回路 7 制御回路 8 ホストコンピューター 9 検索要求 10 検索結果 11 ファイルシステム全体の記録内容の模式図 12 ファイル管理領域 13 情報記録領域 14 連想表領域 15 本文ファイル領域

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】(a)2次記憶装置と、(b)データメモリ回路
    と、(c)データパターン検出回路と、(d)検索要求を外部
    より受け付けて前記2次記憶装置、前記データメモリ回
    路、前記データパターン検出回路とを制御する制御回路
    とを具備し、(e)前記2次記憶装置の記録媒体に検索対
    象となる文書データを区別して蓄える手段と、(f)前記
    の文書データの区別された領域毎に、前記2次記録装置
    の記録媒体上の記録場所情報と、前記記録場所情報に対
    応した識別名称とを与える手段と、(g)前記識別名称か
    ら前記記録場所情報を得る手段と、(h)前記の文書デー
    タを調べて文字の長さM(M≧1)の任意に設定した特
    定文字列が存在するかどうか検索してもし一致箇所が見
    つかった場合には、一致発生箇所の前か後ろの文字の長
    さN(N≧1)の文字列と前記の識別名称とを得て、前
    記の文字の長さMの任意に設定した特定文字列の種類を
    索引情報として、前記の識別名称と、前記の一致発生箇
    所の前か後ろの文字の長さNの文字列からなる文字列情
    報との1対組の情報を得て表として予め順次記録してお
    く手段と、(i)要求者から出されたj個(j≧1)の検
    索文字列と要求者から出された各々の検索文字列間の検
    索文字列論理式を検索条件として設定する手段と、(j)
    j個の前記検索文字列のうちの一つの検索文字列中に存
    在するところの文字の長さMの検索文字列部分文字列、
    および文字の長さNの検索文字列部分文字列前後文字列
    の組を、ki組(ki≧1)だけ得て、前記検索文字列部
    分文字列を索引として前記検索文字列部分文字列前後文
    字列を前記の表の中から捜し、対応する検索文字列iの
    部分要素に対応する識別名称を順次ki個だけ得る手段
    と、(k)前記の手段「(j)」によりki組の数だけ繰り返
    して得た検索文字列i(i=1...j)jの部分要素
    に対応する識別名称群の中から、ki組のグループにす
    べて存在(AND)するところの検索文字列iに対応す
    る識別名称を検索候補として選び出す手段と、(l)検索
    要求のあった時点で前記の検索候補である検索文字列i
    に対応する識別名称から前記「(g)」の手段により記録
    場所情報を得て、前記2次記憶装置中の前記文書データ
    中から絞り込んだ検索対象本文を前記データメモリに読
    み取る手段とからなり、前記の表を参照して絞り込んだ
    検索対象本文を前記データメモリに読み、前記のデータ
    パターン検出回路を適用して、前記のj個の検索文字列
    が存在してかつ要求装置から出された前記の検索文字列
    論理式を満たすかどうかをチェックした後、条件を満た
    した検索対象本文あるいは検索対象本文に関係する情報
    を要求者に提示することを特徴とする検索装置。
  2. 【請求項2】(a)2次記憶装置と、(b)データメモリ回路
    と、(c)データパターン検出回路と、(d)検索要求を外部
    より受け付けて前記2次記憶装置、前記データメモリ回
    路、前記データパターン検出回路とを制御する制御回路
    とを具備し、(e)前記2次記憶装置の記録媒体に検索対
    象となる文書データをファイル単位あるいは任意の量単
    位に区別して蓄える手段と、(f)前記の文書データの区
    別された単位毎に、前記2次記録装置の記録媒体上の記
    録場所情報と、前記記録場所情報に対応した識別名称と
    を与える手段と、(g)前記識別名称を参照して前記記録
    場所情報を得る手段と、(h)任意の1文字を予めグルー
    プ分けして文字グループと、グループ内で符号化するグ
    ループ内文字符号を得る手段と、(i)前記の文書データ
    を調べて文字の長さM(M≧1)の任意に設定した特定
    文字列とこの前か後ろの任意に設定した1文字の特定の
    前記文字グループが存在するかどうか検索し、もし一致
    箇所が見つかった場合には、前記特定の文字グループの
    グループ内文字記号と、前記の1文字の前か後ろの文字
    の長さN(N≧0)の文字列と一致箇所の前記の識別名
    称とを得て、前記の文字の長さMの任意に設定した特定
    文字列と、その前か後ろの1文字の任意に設定した特定
    の前記文字グループの種類を索引情報として、前記の識
    別名称と、前記特定の文字グループのグループ内文字符
    号および前記の1文字の前か後ろの文字の長さNの文字
    列とからなる文字列情報とを得て、一対組の情報の表と
    して予め順次記録しておく手段と、(j)要求者から出さ
    れたj個(j≧1)の検索文字列と要求者から出された
    各々の検索文字列間の検索文字列論理式を検索条件とし
    て設定する手段と、(k)j個の前記検索文字列のうちの
    1検索文字列中に存在するところの文字の長さMの検索
    文字列部分文字列、およびその前か後の1文字の特定の
    検索文字列文字グループと文字グループ内文字符号、お
    よび1文字の前記特定の検索文字列文字の前か後ろの文
    字の長さNの検索文字列部分文字列前後文字列の組を、
    ki組(ki≧1)だけ得て、前記検索文字列部分文字列
    および前記検索文字列文字グループを索引として前記検
    索文字列文字グループ内符号と文字の長さNの前記検索
    文字列部分文字列前後文字列を前記の表の中から捜し
    て、対応する検索文字列iの部分要素に対応する識別名
    称を順次ki個だけ得る手段と、(l)前記の手段「(k)」
    によりki組の数だけ繰り返して得た検索文字列iの部
    分要素に対応する識別名称群の中から、ki組のグルー
    プにすべて存在(AND)するところの検索文字列iに
    対応する識別名称を検索候補として選び出す手段と、
    (m)検索要求のあった時点で前記の検索候補である検索
    文字列iに対応する識別名称から前記「(g)」の手段に
    より記録場所情報を得て、前記2次記憶装置中の前記文
    書データ中から絞り込んだ検索対象本文を前記データメ
    モリに読み取る手段とからなり、前記の表を参照して絞
    り込んだ検索対象本文を前記データメモリに読み、前記
    のデータパターン検出回路を適用して、前記のj個の検
    索文字列が存在してかつ要求装置から出された前記の検
    索文字列論理式を満たすかどうかをチェックした後、条
    件を満たした検索対象本文あるいは検索対象本文に関係
    する情報を要求者に提示することを特徴とする検索装
    置。
  3. 【請求項3】(a)2次記憶装置と、(b)データメモリ回路
    と、(c)データパターン検出回路と、(d)検索要求を外部
    より受け付けて前記2次記憶装置、前記データメモリ回
    路、前記データパターン検出回路とを制御する制御回路
    とを具備し、(e)前記2次記憶装置の記録媒体に検索対
    象となる文書データを区別して蓄える手段と、(f)前記
    の文書データの区別された領域毎に、前記2次記録装置
    の記録媒体上の記録場所情報と、前記記録場所情報に対
    応した識別名称とを与える手段と、(g)前記識別名称か
    ら前記記録場所情報を得る手段と、(h)1文字を予めグ
    ループ分けして文字グループを得る手段と、(i)前記の
    文書データを調べて文字の長さM(M≧1)の任意に設
    定した特定文字列が存在するかどうか検索してもし一致
    箇所が見つかった場合には、一致発生箇所の前か後ろの
    文字の長さN(N≧1)の文字列と、前記の長さNの文
    字列の前か後ろの1文字の属する前記文字グループと、
    前記の識別名称とを得て、前記の文字の長さMの任意に
    設定した特定文字列の種類を索引情報として、前記の識
    別名称と、前記の一致発生箇所の前か後ろの文字の長さ
    Nの文字列および前記の文字グループとからなる文字列
    情報とを得て、1対組の情報の表として予め順次記録し
    ておく手段と、(j)要求者から出されたj個(j≧1)
    の検索文字列と要求者から出された各々の検索文字列間
    の検索文字列論理式を検索条件として設定する手段と、
    (k)前記j個の検索文字列のうちの一つの検索文字列中
    に存在するところの前記の文字の長さMの検索文字列部
    分文字列、および前記の文字の長さNの検索文字列部分
    文字列前後文字列、および前記の長さNの文字列の前か
    後ろの1文字の属する前記文字グループとの組を、ki
    組(ki≧1)だけ得て、長さMの前記検索文字列部分
    文字列を索引として、長さNの前記検索文字列部分文字
    列前後文字列および前記の長さNの文字列の前か後ろの
    1文字の属する前記文字グループの、一対組の情報を前
    記の表の中から捜し、対応する検索文字列iの部分要素
    に対応する識別名称を順次ki個だけ得る手段と、(k)前
    記の手段「(j)」によりki組の数だけ繰り返して得た検
    索文字列iの部分要素に対応する識別名称群の中から、
    ki組のグループにすべて存在(AND)するところの
    検索文字列iに対応する識別名称を検索候補として選び
    出す手段と、(l)検索要求のあった時点で前記の検索候
    補である検索文字列iに対応する識別名称から「(g)」
    の手段により前記記録場所情報を得て、前記2次記憶装
    置中の前記文書データ中から絞り込んだ検索対象本文を
    前記データメモリに読み取る手段とからなり、前記の表
    を参照して絞り込んだ検索対象本文を前記データメモリ
    に読み、前記のデータパターン検出回路を適用して、前
    記のj個の検索文字列が存在してかつ要求装置から出さ
    れた前記の検索文字列論理式を満たすかどうかをチェッ
    クした後、条件を満たした検索対象本文あるいは検索対
    象本文に関係する情報を要求者に提示することを特徴と
    する検索装置。
  4. 【請求項4】一対組の情報の表には、索引情報として、
    文字の長さMの任意に設定した特定文字列と、前記特定
    文字列の前か後ろの1文字の任意に設定した特定の第1
    の文字グループの種類を用い、内容としては前記の1文
    字の特定の第1の文字グループのグループ内文字符号、
    および前記の1文字の特定の第1の文字グループの前か
    後ろの文字の長さNの文字列と、前記長さNの文字列の
    前か後ろの前記とは別の1文字の属する第2の文字グル
    ープとからなる文字列情報とを得てこれらを文字情報と
    して、該当する文書データの識別名称と共に一対組の情
    報として順次書き込み、またj個の前記検索文字列のう
    ちの1検索文字列中に存在するところの文字の長さMの
    検索文字列部分文字列、およびその前か後の1文字の特
    定の検索文字列の第1の文字グループと文字グループ内
    文字符号、および1文字の前記特定の検索文字列文字の
    前か後ろの文字の長さNの検索文字列部分文字列前後文
    字列と、前記長さNの文字列の前か後ろの前記とは別の
    1文字の属する第2の文字グループとからなる文字列情
    報とを、ki組(ki≧1)だけ得て、前記検索文字列部
    分文字列および前記検索文字列文字グループを索引とし
    て、前記検索文字列の第1の文字グループ内符号と、文
    字の長さN(N≧0)の前記検索文字列部分文字列前後
    文字列と前記の第2の文字グループとを前記の表の中か
    ら捜して、対応する検索文字列iの部分要素に対応する
    識別名称を順次ki個だけ得る手段を有する請求項2ま
    たは請求項3記載の検索装置。
  5. 【請求項5】(a)2次記憶装置と、(b)データメモリ回路
    と、(c)データパターン検出回路と、(d)検索要求を外部
    より受け付けて前記2次記憶装置、前記データメモリ回
    路、前記データパターン検出回路とを制御する制御回路
    とを具備し、(e)前記2次記憶装置の記録媒体に検索対
    象となる文書データを区別して蓄える手段と、(f)前記
    の文書データの区別された領域毎に、前記2次記録装置
    の記録媒体上の記録場所情報と、前記記録場所情報に対
    応した識別名称とを与える手段と、(g)前記識別名称か
    ら前記記録場所情報を得る手段と、(h)前記の文書デー
    タをある時点で調べて文字あるいは文字の並びを索引と
    して各文字並びが前記2次記憶装置のどこに書かれてい
    るかの対応関係を表として予め順次記録しておく手段
    と、(i)要求者から出されたj個(j≧1)の検索文字
    列と要求者から出された各々の検索文字列間の検索文字
    列論理式を検索条件として設定する手段と、(j)j個の
    前記検索文字列のうちの一つの検索文字列中に存在する
    ところの文字あるいは文字の並びを索引として前記の表
    の中から捜し、検索文字列i(i=1..j)の文字の
    並びに対応する識別名称を順次ki個だけ得る手段と、
    (k)前記のki個の検索文字列iの文字の並びに対応する
    識別名称群の中から、ki組のグループにすべて存在
    (AND)するところの検索文字列iに対応する識別名
    称を検索候補として選び出す手段と、(l)検索要求のあ
    った時点で前記の検索候補である検索文字列iに対応す
    る識別名称から前記「(g)」の手段により記録場所情報
    を得て、前記2次記憶装置中の前記文書データ中から絞
    り込んだ検索対象本文を前記データメモリに読み取る手
    段と、(m)検索要求のあった時点で、以前に前記表を作
    成した時点以降に新たに追加された文書データについ
    て、未だ前記の表が得られていない場合は、前記の新た
    に追加された前記文書データをもすべて検索対象として
    前記「(l)」に引き続き前記データメモリに読み取る手
    段と、(n)要求により前記の新たに追加された文書デー
    タについて、未だ前記の表が得られていない前記の新た
    に追加された文書データを調べて文字の並びが前記2次
    記憶装置のどこに書かれているかの対応関係を表として
    順次追加記録していく手段からなり、検索要求のあった
    時には前記の表を参照して絞り込んだ検索対象本文を前
    記データメモリに読むとともに、前記の未だ前記の表が
    得られていない前記の新たに追加された文書データをも
    前記データメモリに読み込み、前記のデータパターン検
    出回路を適用して、前記のj個の検索文字列が存在して
    かつ要求装置から出された前記の検索文字列論理式を満
    たすかどうかをチェックした後、条件を満たした検索対
    象本文あるいは検索対象本文に関係する情報を要求者に
    提示することを特徴とする検索装置。
  6. 【請求項6】(a)2次記憶装置と、(b)データメモリ回路
    と、(c)データパターン検出回路と、(d)検索要求を外部
    より受け付けて前記2次記憶装置、前記データメモリ回
    路、前記データパターン検出回路とを制御する制御回路
    とを具備し、(e)前記2次記憶装置の記録媒体に検索対
    象となる文書データを区別して蓄える手段と、(f)前記
    の文書データの区別された領域毎に、前記2次記録装置
    の記録媒体上の記録場所情報と、前記記録場所情報に対
    応した識別名称とを与える手段と、(g)前記識別名称か
    ら前記記録場所情報を得る手段と、(h)前記の文書デー
    タを要求のあったある時点で調べて文字あるいは文字の
    並びを索引として各文字並びが前記2次記憶装置のどこ
    に書かれているかの対応関係を表として予め順次記録し
    ておき、かつ前記表の記録形式は前記表を形成する各々
    の文字あるいは文字並びの索引毎に前記2次記憶装置の
    連続したセクタに記録し、かつ前記各々の文字あるいは
    文字並びの索引毎に引かれる表データの間には予測され
    る増加分数、あるいは一定数の無記録セクタを挿入して
    おくか、あるいはまた前記各々の文字あるいは文字並び
    の索引毎に引かれる表データを複数集めた領域毎の間に
    は予測される増加分数、あるいは一定数の無記録セクタ
    を挿入しておく手段と、(i)要求者から出されたj個
    (j≧1)の検索文字列と要求者から出された各々の検
    索文字列間の検索文字列論理式を検索条件として設定す
    る手段と、(j)j個の前記検索文字列のうちの一つの検
    索文字列中に存在するところの文字あるいは文字の並び
    を索引として前記の表の中から捜し、検索文字列i(i
    =1..j)の文字の並びに対応する識別名称を順次k
    i個だけ得る手段と、(k)前記のki個の検索文字列iの
    文字の並びに対応する識別名称群の中から、ki組のグ
    ループにすべて存在(AND)するところの検索文字列
    iに対応する識別名称を検索候補として選び出す手段
    と、(l)検索要求のあった時点で前記の検索候補である
    検索文字列iに対応する識別名称から前記「(g)」の手
    段により記録場所情報を得て、前記2次記憶装置中の前
    記文書データ中から絞り込んだ検索対象本文を前記デー
    タメモリに読み取る手段と、(m)文書データが新たに追
    加された時、要求により前記追加文書データを調べて文
    字あるいは文字の並びを索引として各文字並びが前記2
    次記憶装置のどこに書かれているかの対応関係を表デー
    タから得て、過去に作成した文字並びの表の格納されて
    いる前記2次記憶装置の最終セクタを読みだして追加記
    録して表を形成し、もし前記セクタに書き込む余地がな
    くなった場合は前記の無記録セクタに書き込むか、さら
    にそれでも書き込む余地がなくなった場合には新たに最
    終セクタとして別の場所に無記録セクタを確保して記録
    しておくとともにその旨を識別情報として記録しておく
    手段とからなり、前記の表を参照して絞り込んだ検索対
    象本文を前記データメモリに読み、前記のデータパター
    ン検出回路を適用して、前記のj個の検索文字列が存在
    してかつ要求装置から出された前記の検索文字列論理式
    を満たすかどうかをチェックした後、条件を満たした検
    索対象本文あるいは検索対象本文に関係する情報を要求
    者に提示することを特徴とする検索装置。
  7. 【請求項7】 セクタに追加して書き込む余地がなくな
    った場合は新たに別のセクタに記録しておくとともにそ
    の旨を識別情報として記録しておいて得た前記の最終セ
    クタを、要求に従って表データの文字あるいは文字並び
    の索引毎に連続するように、また前記各々の文字あるい
    は文字並びの索引毎に引かれる表データの間には予測さ
    れる増加分数、あるいは一定数の無記録セクタを挿入し
    ておくか、あるいはまた前記各々の文字あるいは文字並
    びの索引毎に引かれる表データを複数集めた領域毎の間
    には予測される増加分数、あるいは一定数の無記録セク
    タを挿入しておくように再配置する処理手順を設けて実
    行することを特徴とする請求項6記載の検索装置。
  8. 【請求項8】(a)2次記憶装置と、(b)データメモリ回路
    と、(c)データパターン検出回路と、(d)検索要求を外部
    より受け付けて前記2次記憶装置、前記データメモリ回
    路、前記データパターン検出回路とを制御する制御回路
    とを具備し、(e)前記2次記憶装置の記録媒体に検索対
    象となる文書データを区別して蓄える手段と、(f)前記
    の文書データの区別された領域毎に、前記2次記録装置
    の記録媒体上の記録場所情報と、前記記録場所情報に対
    応した識別名称とを与える手段と、(g)前記識別名称か
    ら前記記録場所情報を得る手段と、(h)前記の文書デー
    タを要求のあったある時点で前記データパターン検出回
    路を適用して記録内容を調べて文字あるいは文字の並び
    が2次記憶装置のどこに書かれているかの対応関係を表
    として予め順次記録しておく手段と、(i)要求者から出
    されたj個(j≧1)の検索文字列と要求者から出され
    た各々の検索文字列間の検索文字列論理式を検索条件と
    して設定する手段と、(j)j個の前記検索文字列のうち
    の一つの検索文字列中に存在するところの文字あるいは
    文字の並びを索引として前記の表の中から捜し、検索文
    字列i(i=1..j)の文字の並びに対応する識別名
    称を順次ki個だけ得る手段と、(k)前記のki個の検索
    文字列iの文字の並びに対応する識別名称群の中から、
    ki組のグループにすべて存在(AND)するところの
    検索文字列iに対応する識別名称を検索候補として選び
    出す手段と、(l)検索要求のあった時点で前記の検索候
    補である検索文字列iに対応する識別名称から前記
    「(g)」の手段により記録場所情報を得て、前記2次記
    憶装置中の前記文書データ中から絞り込んだ検索対象本
    文を前記データメモリに読み取る手段とからなり、検索
    要求のあった時には前記の表を参照して絞り込んだ検索
    対象本文を前記データメモリに読み込み、前記のデータ
    パターン検出回路を適用して、前記のj個の検索文字列
    が存在してかつ要求装置から出された前記の検索文字列
    論理式を満たすかどうかをチェックした後、条件を満た
    した検索対象本文あるいは検索対象本文に関係する情報
    を要求者に提示することを特徴とする検索装置。
  9. 【請求項9】 データパターン検出回路は前記データメ
    モリのデータに対して読みだしアドレスを与えて指定さ
    れた固定ビット数毎に一致検出処理を行い、かつ前記ア
    ドレス提示はデータに対して連続的ではなく指定された
    ビット数離れたデータに対してのみ一致検出処理を行う
    ことを特徴とする請求項8記載の検索装置。
  10. 【請求項10】(a)2次記憶装置と、(b)データメモリ回
    路と、(c)データパターン検出回路と、(d)検索要求を外
    部より受け付けて前記2次記憶装置、前記データメモリ
    回路、前記データパターン検出回路とを制御する制御回
    路とを具備し、(e)前記2次記憶装置の記録媒体に検索
    対象となる文書データを区別して蓄える手段と、(f)前
    記の文書データの区別された領域毎に、前記2次記録装
    置の記録媒体上の記録場所情報と、前記記録場所情報に
    対応した識別名称とを与える手段と、(g)前記識別名称
    から前記記録場所情報を得る手段と、(h)前記の文書デ
    ータを調べて文字あるいは文字の並びを索引とし、表の
    内容としては周辺の各文字あるいは文字並びを第1の固
    定ビットあるいはバイト数幅で表して、また各識別名称
    を第2の固定ビットあるいはバイト数幅で表して得た組
    を用意し、かつ記録場所情報位置は昇順あるいは降順で
    表して、前記記録場所情報を数値で表した場合の最大値
    の桁数より小さい下位の桁数で表記すると共に、前記下
    位桁が桁上がりする場合には、前記の第1の固定ビット
    あるいはバイト数と同じ長さの定義されていない未定義
    記号と、第2の固定ビットあるいはバイト数と同じ長さ
    の前記記録場所情報の上位桁か疑似データを与えるとこ
    ろの前記の表を作成して、予め順次記録しておく手段
    と、(i)要求者から出されたj個(j≧1)の検索文字
    列と要求者から出された各々の検索文字列間の検索文字
    列論理式を検索条件として設定する手段と、(j)j個の
    前記検索文字列のうちの一つの検索文字列中に存在する
    ところの文字あるいは文字の並びを索引として前記の表
    の中から捜し、検索文字列i(i=1..j)の文字の
    並びに対応する識別名称を順次ki個だけ得る手段と、
    (k)前記のki個の検索文字列iの文字の並びに対応する
    識別名称群の中から、ki組のグループにすべて存在
    (AND)するところの検索文字列iに対応する識別名
    称を検索候補として選び出す手段と、(l)検索要求のあ
    った時点で前記の検索候補である検索文字列iに対応す
    る識別名称から前記「(g)」の手段により記録場所情報
    を得て、前記2次記憶装置中の前記文書データ中から絞
    り込んだ検索対象本文を前記データメモリに読み取る手
    段とからなり、前記の表を参照し、前記表の索引から引
    用された内容を昇順あるいは降順に走査して絞り込んだ
    検索対象本文を前記データメモリに読み、前記のデータ
    パターン検出回路を適用して、前記のj個の検索文字列
    が存在してかつ要求装置から出された前記の検索文字列
    論理式を満たすかどうかをチェックした後、条件を満た
    した検索対象本文あるいは検索対象本文に関係する情報
    を要求者に提示することを特徴とする検索装置。
  11. 【請求項11】(a)2次記憶装置と、(b)データメモリ回
    路と、(c)データパターン検出回路と、(d)検索要求を外
    部より受け付けて前記2次記憶装置、前記データメモリ
    回路、前記データパターン検出回路とを制御する制御回
    路とを具備し、(e)前記2次記憶装置の記録媒体に検索
    対象となる文書データを区別して蓄える手段と、(f)前
    記の文書データの区別された領域毎に、前記2次記録装
    置の記録媒体上の記録場所情報と、前記記録場所情報に
    対応した識別名称とを与える手段と、(g)前記識別名称
    から前記記録場所情報を得る手段と、(h)要求を外部よ
    り受け付けて前記の文書データの文字をある特定の予め
    定めたビットあるいはバイト単位に正規化して前記デー
    タメモリ回路に供給する手段と、(i)前記の文書データ
    を前記2次記憶から複数回読み出して前記データメモリ
    に送り、前記読み出しのうちの各一回では前記のデータ
    パターン検出回路が前記データメモリを走査して、予め
    設定した文字群が含まれる文字の部分パターンをテンプ
    レートとして与え、前記文字部分パターン検出の後に前
    記データメモリの前記検出箇所周辺のデータを読みだし
    詳細に調べて前記の該当文字群の個々の文字の特定を行
    い、さらに文字並びを含む詳細情報を前記の特性された
    文字群の個々に対応させたメモリ領域に仕分けして格納
    する手段と、(j)前記2次前記のデータパターン検出回
    路は前記データメモリの文書データに対してアドレスを
    前記の予め定めたビットあるいはバイト単位に提示して
    読みだし、かつ前記の予め定めたビットあるいはバイト
    数よりは少ない文字部分パターン毎にデータを一致比較
    するように前記データパターン比較回路を設定し、前記
    のデータメモリの走査する際に前記データパターン検出
    回路が設定した前記文字部分パターンのテンプレートと
    の一致を検出したら、前記の「(i)」の手段に基づいて
    仕分けされた詳細情報から前記の文字部分パターンのテ
    ンプレートを文字の一部とする文字群あるいは文字並び
    群の個々を特定して索引とし、前記の特定された個々の
    文字あるいは文字並び近傍の文字情報と前記識別情報を
    表の内容として予め順次記録しておく手段と、(k)要求
    者から出されたj個(j≧1)の検索文字列と要求者か
    ら出された各々の検索文字列間の検索文字列論理式を検
    索条件として設定する手段と、(l)j個の前記検索文字
    列のうちの一つの検索文字列中に存在するところの文字
    あるいは文字の並びを索引として前記の表の中から捜
    し、検索文字列i(i=1..j)の文字の並びに対応
    する識別名称を順次ki個だけ得る手段と、(m)前記のk
    i個の検索文字列iの文字の並びに対応する識別名称群
    の中から、ki組のグループにすべて存在(AND)す
    るところの検索文字列iに対応する識別名称を検索候補
    として選び出す手段と、(n)検索要求のあった時点で前
    記の検索候補である検索文字列iに対応する識別名称か
    ら前記「(g)」の手段により記録場所情報を得て、前記
    2次記憶装置中の前記文書データ中から絞り込んだ検索
    対象本文を前記データメモリに読み取る手段とからな
    り、検索要求のあった時に、前記の表を参照して絞り込
    んだ検索対象本文を前記データメモリに読み込み、前記
    のデータパターン検出回路を適用して、前記のj個の検
    索文字列が存在してかつ要求装置から出された前記の検
    索文字列論理式を満たすかどうかをチェックした後、条
    件を満たした検索対象本文あるいは検索対象本文に関係
    する情報を要求者に提示することを特徴とする検索装
    置。
  12. 【請求項12】(a)2次記憶装置と、(b)データメモリ回
    路と、(c)データパターン検出回路と、(d)検索要求を外
    部より受け付けて前記2次記憶装置、前記データメモリ
    回路、前記データパターン検出回路とを制御する制御回
    路とを具備し、(e)前記2次記憶装置の記録媒体に検索
    対象となる文書データを区別して蓄える手段と、(f)前
    記の文書データの区別された領域毎に、前記2次記録装
    置の記録媒体上の記録場所情報と、前記記録場所情報に
    対応した識別名称とを与える手段と、(g)前記識別名称
    から前記記録場所情報を得る手段と、(h)前記の文書デ
    ータを調べて文字の並びが前記2次記憶装置のどこに書
    かれているかの対応関係を表として予め順次記録してお
    く手段と、(i)要求者から出されたj個(j≧1)の検
    索文字列と要求者から出された各々の検索文字列間の検
    索文字列論理式を検索条件として設定する手段と、(j)
    j個の前記検索文字列のうちの一つの検索文字列中に存
    在するところの文字あるいは文字の並びを索引として前
    記の表の中から捜し、検索文字列i(i=1..j)の
    文字の並びに対応する識別名称を順次ki個だけ得る手
    段と、(k)前記のki個の検索文字列iの文字の並びに対
    応する識別名称群の中から、ki組のグループにすべて
    存在(AND)するところの検索文字列iに対応する識
    別名称を検索候補として選び出す手段と、(l)要求者か
    ら出された1つの検索文字列を要求ホスト装置を経由し
    て受け取った時点で、前記の索引表の中から索引捜した
    結果が出るまで前記要求ホスト装置を待たせる状態にせ
    ず、即座に要求を受け付けて終了し、前記要求ホスト装
    置が他の作業をしている間に前記の表の中から対応する
    前記識別名称を得て、結果を前記要求ホストに送らずに
    蓄えておき、もし前記要求ホストから結果が既に出てい
    るかの問い合わせがあれば回答し、結果が出ていれば前
    記要求ホストに結果を転送する手段と、(m)要求者が前
    記j個の検索文字列の第i番目を前記要求ホストに入力
    している間にi−1番目の既に受け取った検索文字列に
    ついて前記「(l)」の手段によって前記の識別名称を求
    める手段と、(n)検索文字列を要求者から前記要求ホス
    トを経由して受け取り、前記要求ホストで前記各々の検
    索文字列間の検索文字列論理式が満たされているかをチ
    ェックして前記識別名称および前記記録場所情報を得る
    か、あるいはまた前記要求ホストから前記各々の検索文
    字列間の検索文字列論理式を受け取って検索条件を満た
    した前記識別名称、あるいはさらに前記記録場所情報を
    得て、最終の検索文字列を前記要求ホストから受け取っ
    た時点で、前記2次記憶装置中の前記文書データ中から
    絞り込んだ検索対象本文を前記データメモリに読み取る
    手段と、(o)前記の表を参照して絞り込んだ検索対象本
    文を前記データメモリに読み、前記のデータパターン検
    出回路を適用して、前記のj個の検索文字列が存在して
    かつ要求装置から出された前記の検索文字列論理式を満
    たすかどうかをチェックした後、条件を満たした検索対
    象本文あるいは検索対象本文に関係する情報を要求者に
    提示することを特徴とする検索装置。
  13. 【請求項13】 2次記憶装置内に、データメモリ回路
    と、前記データメモリ回路をアクセス可能なデータパタ
    ーン検出回路とを内蔵し、検索要求のあった時点で前記
    のデータパターン検出回路を適用して、前記のデータメ
    モリに読み込まれた前記のj個の検索文字列が存在して
    いるかだけをチェックして要求装置に条件を満たした検
    索対象本文あるいは検索対象本文に関係する情報を要求
    装置に送るか、あるいはまた前記のj個の検索文字列が
    存在してかつ要求装置から出された前記の検索文字列論
    理式を満たすかどうかをチェックした後、条件を満たし
    た検索対象本文あるいは検索対象本文に関係する情報を
    要求装置に送ったのち要求者に提示することを特徴とす
    る請求項1、2、3、5、6、8、10、11、または
    12記載の検索装置。
  14. 【請求項14】 文字あるいは文字の並びを索引として
    周辺の各文字並びが2次記憶装置のどこに書かれている
    かの対応関係を表として予め順次記録しておく際に、2
    次記憶内の文書データの区別された領域内に重複して存
    在していないかを調べる手段を設け、重複分については
    表データとして記載しないことを特徴とする請求項1、
    2、3、5、6、8、10、11、12、または13記
    載の検索装置。
  15. 【請求項15】 文字あるいは文字の並びを索引として
    周辺の各文字並びが2次記憶装置のどこに書かれている
    かの対応関係を表として予め順次記録しておく際に、2
    次記憶内の文書データの区別された領域内に重複して存
    在していないかを調べる手段を設け、重複分については
    表データとして記載しないと共に、各文字重複数を前記
    の2次記憶装置の文書データの区別された領域を指定さ
    れただけ集計し、前記の表の索引であるところの文字あ
    るいは文字の並びから引かれる周辺の各文字並びに対応
    した頻度数を記録する手段を設けた請求項14記載の検
    索装置。
  16. 【請求項16】 独立の名称を持つ文献が予め定められ
    た範囲の文字数以下ならば複数件まとめて前記とは別の
    識別名称を与えて、また独立の名称を持つ文献が予め定
    められた範囲の文字数以上ならば複数件に分割して前記
    とは別の識別名称を与えて、前記の識別名称を有する文
    書データを2次記憶装置の区別された領域として、識別
    名称と対応させて前記2次記憶装置の記録媒体上の記録
    場所情報を得る手段と、前記各々の識別名称から前記の
    もとの文献の独立の名称を知りまた前記文献の前記2次
    記憶装置内の記録場所情報を得る手段とを設けて、検索
    要求のあった時には表を参照して絞り込んだ検索対象本
    文をデータメモリに読むとともに、前記のもとの文献の
    前記2次記憶装置内の記録場所情報を得て、前記のデー
    タパターン検出回路を適用して、前記のj個の検索文字
    列が存在してかつ要求装置から出された前記の検索文字
    列論理式を満たすかどうかを前記のもとの文献単位にチ
    ェックした後、条件を満たした検索対象本文あるいは検
    索対象本文に関係する情報を要求者に提示することを特
    徴とする請求項1、2、3、5、6、8、10、11、
    12、13、14、または15記載の検索装置。
  17. 【請求項17】 ki個の検索文字列i(i=1..
    j)の文字の並びに対応する識別名称群の中から、ki
    組のグループに少なくとも予め定めた数あるいは割合だ
    けすべて存在するところの検索文字列iに対応する識別
    名称を検索候補として選び出す手段を備え、検索要求の
    あった時に、前記の表を参照して絞り込んだ検索対象本
    文を前記データメモリに読み込み、前記のデータパター
    ン検出回路を適用して、前記のj個の検索文字列に曖昧
    さを許して存在してかつ要求装置から出された前記の検
    索文字列論理式を満たすかどうかをチェックした後、条
    件を満たした検索対象本文あるいは検索対象本文に関係
    する情報を要求者に提示することを特徴とする請求項
    1、2、3、5、6、8、10、11、12、13、1
    4、15、または16記載の検索装置。
JP3256215A 1991-10-03 1991-10-03 検索装置 Pending JPH05101102A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3256215A JPH05101102A (ja) 1991-10-03 1991-10-03 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3256215A JPH05101102A (ja) 1991-10-03 1991-10-03 検索装置

Publications (1)

Publication Number Publication Date
JPH05101102A true JPH05101102A (ja) 1993-04-23

Family

ID=17289533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3256215A Pending JPH05101102A (ja) 1991-10-03 1991-10-03 検索装置

Country Status (1)

Country Link
JP (1) JPH05101102A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622248B1 (en) 1998-06-25 2003-09-16 Sharp Kabushiki Kaisha File data retrieving device and recording medium containing computer program for controlling the same
US6742163B1 (en) 1997-01-31 2004-05-25 Kabushiki Kaisha Toshiba Displaying multiple document abstracts in a single hyperlinked abstract, and their modified source documents
JP2010511925A (ja) * 2006-11-13 2010-04-15 エクセジー・インコーポレイテツド コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US8880501B2 (en) 2006-11-13 2014-11-04 Ip Reservoir, Llc Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US9176775B2 (en) 2003-05-23 2015-11-03 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US9547680B2 (en) 2005-03-03 2017-01-17 Washington University Method and apparatus for performing similarity searching
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
US10846624B2 (en) 2016-12-22 2020-11-24 Ip Reservoir, Llc Method and apparatus for hardware-accelerated machine learning

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6742163B1 (en) 1997-01-31 2004-05-25 Kabushiki Kaisha Toshiba Displaying multiple document abstracts in a single hyperlinked abstract, and their modified source documents
US7065708B2 (en) 1997-01-31 2006-06-20 Kabushiki Kaisha Toshiba Displaying multiple ranked document abstracts in a single hyperlinked abstract, and their modified source documents
US6622248B1 (en) 1998-06-25 2003-09-16 Sharp Kabushiki Kaisha File data retrieving device and recording medium containing computer program for controlling the same
US9176775B2 (en) 2003-05-23 2015-11-03 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10929152B2 (en) 2003-05-23 2021-02-23 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10719334B2 (en) 2003-05-23 2020-07-21 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US9898312B2 (en) 2003-05-23 2018-02-20 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US11275594B2 (en) 2003-05-23 2022-03-15 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10346181B2 (en) 2003-05-23 2019-07-09 Ip Reservoir, Llc Intelligent data storage and processing using FPGA devices
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
US10957423B2 (en) 2005-03-03 2021-03-23 Washington University Method and apparatus for performing similarity searching
US10580518B2 (en) 2005-03-03 2020-03-03 Washington University Method and apparatus for performing similarity searching
US9547680B2 (en) 2005-03-03 2017-01-17 Washington University Method and apparatus for performing similarity searching
US10191974B2 (en) 2006-11-13 2019-01-29 Ip Reservoir, Llc Method and system for high performance integration, processing and searching of structured and unstructured data
US9396222B2 (en) 2006-11-13 2016-07-19 Ip Reservoir, Llc Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8880501B2 (en) 2006-11-13 2014-11-04 Ip Reservoir, Llc Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
JP2010511925A (ja) * 2006-11-13 2010-04-15 エクセジー・インコーポレイテツド コプロセッサを使った構造化データおよび非構造化データの高性能の統合、処理および探索の方法およびシステム
US11449538B2 (en) 2006-11-13 2022-09-20 Ip Reservoir, Llc Method and system for high performance integration, processing and searching of structured and unstructured data
US10846624B2 (en) 2016-12-22 2020-11-24 Ip Reservoir, Llc Method and apparatus for hardware-accelerated machine learning
US11416778B2 (en) 2016-12-22 2022-08-16 Ip Reservoir, Llc Method and apparatus for hardware-accelerated machine learning

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
US5544049A (en) Method for performing a search of a plurality of documents for similarity to a plurality of query words
US5805911A (en) Word prediction system
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
US5995962A (en) Sort system for merging database entries
JP3160201B2 (ja) 情報検索方法、情報検索装置
JPH05101102A (ja) 検索装置
JPH1027183A (ja) データ登録方法および装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JPH064584A (ja) 文章検索装置
JP3141428B2 (ja) 数値検索装置およびその方法
JP3859044B2 (ja) インデクス作成方法および検索方法
JPH07146880A (ja) 文書検索装置及び方法
JPH06348757A (ja) 文書検索装置および方法
JPH07287716A (ja) 辞書検索装置
JP3079844B2 (ja) 全文データベースシステム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JP3288063B2 (ja) 可変長データの格納および参照システム
JP2682448B2 (ja) 索引検索方式
JP2961888B2 (ja) 用語辞書による文書検索システム
US7840583B2 (en) Search device and recording medium
JP2001067368A (ja) 多言語文書処理装置、多言語文書処理方法及び記録媒体
JPWO2009050797A1 (ja) 検索装置および検索方法
JPH0991297A (ja) 文字列検索方法及び装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体