JPH02205970A - データ記憶及び検索方法及びスキャナ - Google Patents

データ記憶及び検索方法及びスキャナ

Info

Publication number
JPH02205970A
JPH02205970A JP1011752A JP1175289A JPH02205970A JP H02205970 A JPH02205970 A JP H02205970A JP 1011752 A JP1011752 A JP 1011752A JP 1175289 A JP1175289 A JP 1175289A JP H02205970 A JPH02205970 A JP H02205970A
Authority
JP
Japan
Prior art keywords
signature
word
data storage
word signature
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1011752A
Other languages
English (en)
Inventor
J Barkovski Forbes
フォーブス・ジェイ・バーコブスキ
Sinclair Krebs Mark
マーク・シンクレア・クレブス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP1011752A priority Critical patent/JPH02205970A/ja
Publication of JPH02205970A publication Critical patent/JPH02205970A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はデータ検索システムに関し、特に細分化された
シグナチャーファイルを用いてデータベースにデータを
蓄積し又はデータベース上のデータを検索する方法及び
このシステムを使用するスキャナに関する。
〔従来の技術〕
一般に数程のデータ蓄積検索システムが知られている。
近来、データベースが大型化し、その使用頻度が上昇す
るに及んで、データを正確にしかも最少の時間で蓄積し
たシ検索したシする方法が益々重要視されて来ている。
更に又、大規模な変更を必要としないデータ追加の方法
も重要でるる。
従来のデータベースに於いては情報は周到に用意された
索引形態として高度に組織化され、たとえばディスク等
の蓄積媒体に格納されている。今。
仮にある特定の一部のデータを検索しようとすると、従
来のシステムはこのデータの所在を突き止めるのにこの
索引情報を用いるが、この要求されるデータは大量の同
類のデータの山に埋もれている場合が多い。索引情報は
余分のファイルを必要とし、これに蓄えられる。索引を
作るには様々な方法がある。シグナチャーファイルを用
いる事はその一つの方法であわ、逆見出しファイルを用
いるのがもう一つの方法である。後者の方法は度々用い
られるものであり、検索時間が少なくて隣むが、次に述
べる如く二つの重大な欠点を持っている。
(1)  逆見出しファイルは非常に大きく、テキスト
ファイルの20%から100%の大きさに相当する。
(11)  データベースへの新情報の追加に際しては
逆見出しファイルを変更する必要があり、この変更に要
する時間が大変長くなる。何故ならば高度に組織化され
たファイルの性格上、ファイルの大部分を変更する必袈
があるからである。
シグナチャーブアイルの場合は迅速な変更が可能であり
、アクセスタイムが大変遅くなるという理由から索引形
式は適用されない。アクセスタイムが遅くなるのは、全
てのシグナチャーファイルを走査する為であり、ディス
クからの転送所賛時間が大変長くかかるからである。本
発明ではシグナチャーファイルを用するものであるが、
逆見出しファイルのスピードに対抗し得る工夫がなされ
ている。つま)、全てのファイルを走査する代わりに、
サブセットのみを走査する。これにより、アクセスタイ
ムを著しく短少する事が可能となり、システムを注意深
く設計すれば、変更時間もかな′シ低く保つ事が出来る
〔発明が解決しようとする課題〕
勿論、全てのデータベースを走査して(索引ファイルを
使用せずに)データを検索する事は可能であるが、それ
には大変長時間を要し、従って問題にならない程高価に
なる。
データ蓄積装置として光ディスクが用いられる場合、5
A在の開発段階では光ディスクの特定領域には一度しか
情報を書き込むことができないのでデータ更新に問題が
ある。したがって、新情報は、通常現在の情報の隣に書
き込むのが望ましいも°のとされるが、その場所がスペ
ースとして残されていないので不可能である。故に、逆
見出しファイルのような索引形態では、この様な蓄積媒
体のデータの非消去性の為に変更する事は、通常出来な
い。新しいファイルを別途にディスクの新しい領域に作
成すれば変更可能であるが、これはディスクスペースの
無駄が大きく非能率的である。
シグナチャーファイルを用いる場合、データベースに追
刀口される情報に対応してシグナチャーファイルに追記
が施される。したがりて、ファイル七のものの量は増大
するが現存するシグナチャーファイルには変更が加えら
れないから、光ディスクを用いたシステムに於いても大
変有効である。
多くの場合、検索システムは使用者が予めキーワードと
してクイジー中に明記した一つ以上のワードを含む一つ
以上の文書を検索することによって、この使用者クイリ
ーに対して応答する。これを達成する為、データベース
中の要求される情報の所在を指示する検索機能が用いら
れる。これらのキーワードを含む文書の所在位置を求め
る為に文書識別記号リストを作成゛する事により、クイ
ソ一応答用ソフトウェアに関連して作用するこの索引機
能はクイリーの要求を満たすべく最終的な文書リストを
決定する。
データベース中のデータの所在を突き止める為にシグナ
チャーファイルを用いる事は、既存の技術である。シグ
ナチャーファイルとは、即ちデータベ−ス中の情報の凝
縮されたものでろる。これは、データベース中の文書の
各々の明確なワードをワードシグナチャーによって表わ
す事によって達成される。ある特定のクイリーキーワー
ドがシステムに提示されると、システムはそれに対応し
たデータベース中のワードに関連したワードシグナチャ
ーを引き出す。この棟のシステムは、このようにして連
続走査の方法を用いる事により、全てのシグナチャーフ
ァイルを捜索し、そのキーワードを含んだデータベース
中の全ての文書を捜し出す事が出来る。こ゛れは即ち、
シグナチャーファイルの何れかのワードシグナチャーが
、それら自身が誘導されたキーワードを含む文書の文書
識別記号によって可能となる。従って、走査グロセスの
進行期間中に、シグナチャーファイル中のワードシグナ
チャーがクイリ・−キーワードから誘導されたワードシ
ダナチャーと一致した時、システムはそのクイリーと関
連した文書の識別を保持しておく為、ワードシグナチャ
ーに付属した文書識別記号を取得する。これらのシステ
ムは、もし各々のクイリーキーワードごとに全てのシグ
ナチャーファイルを捜索するのであれば、やはり長時間
を要する事になる。
光ディスクは、データベースを格納するには最も経済的
な手段である。しかしながら元ディスクのシークタイム
は、磁気ハードディスクに較べて通常4倍から30倍も
長い。逆見出しファイル方式を用いてデータベースが捜
索された場合、システムはおそらく数回に渡って索引構
造を探索する事になり、毎回の探索各にディスクシーク
、即ちディスクアームの動きを必要とする。より高価な
磁気ハードディスクを用いれば、時間的要求は満たされ
るであろうが、光ディスクを使用する場合には極端に望
ましくないものとなる。
本発明の目的は以上の事柄を考慮してなされた〔課題を
解決するための手段〕 本発明は、シグナチャーファイルの捜索が一回のみで十
分であり、且つ特定のクイリーキーワードに対する応答
としての捜索が単にシグナチャーファイルの一部のみで
済ませ得ることを特徴としている。
〔作用〕
本発明によれば、データ処理手段と、メモリ手段と、デ
ータレコードを含むデータ記憶手段を有するコンピュー
タシステムに於いて、これを運用してデータベース上に
情報を記憶し又データベース上で情報を検索するコンピ
ュータシステムの動作方法は次の通ジである。
(1)データ記憶装置にデータベースを記憶する工程。
(2ン複数個のサブセットに分割されるシグナチャーフ
ァイルをデータベース用に作成する工程と、ファイル作
成中に特定のサブセットに対応したワードシグナチャー
をマツピングする工程と、上記シグナチャーファイルサ
ブセットを上記データ記憶装置に記憶する工程。
(3)  ワードシグナチャーを走査する工程及び特定
のサブセットへワードシグナチャーを蓄積するために使
用された同じマツピング情報を用いる事により上記デー
タベースからクイリーキーワードに応じて対応するデー
タを検索する工程。
スキャナは、データベース上に情報を記憶すると共に検
索する為にコンピュータシステムの使用を提供する。コ
ンピュータシステムは、データ処理手段と2メモリ手段
と、データ記憶手段を有する。これらはデータベース用
として文vfr識別記号とともにワードシグナチャーフ
ァイルを作成する手段と、スキャナを用いてクイリーキ
ーワードに応じてデータベースからワードシグナチャー
、文書識別記号及びそれに対応したデータを検索する手
段とを有している。スキャナは入力部、出力部、制御部
、アドレスラインを有したメモリ及びFIFOバッファ
を有する。入力部は上記データ記憶手段からの情報を受
けるために接続されている。制御部は上記情報を調べて
上記メモリのアドレスラインに全てのワードシグナチャ
ーを送る。メモリは制御部へのクイリーキーワード用の
ワードシグナチャーと入力部に現れたある特定のワード
シグナチャーとが一致するか否かを決定し得る情報を提
供する。もし一致すると、制御部はそのワードシグナチ
ャーをFIFOバッファに送り、且つ一致の発生を記憶
する。制御部は更に一致したワードシグナチャーの次に
位置する文書識別記号をFIFOバッファに送る。制御
部はこの後、順次データ記憶手段等から受は取る次のワ
ードシグナチャーを処理してゆく。もし一致が認められ
なければ、制御部はそのワードシグナチャーを無視して
データ記憶手段から受は取る次のワードシグナチャーを
処理する。従って、制御部は実質的に複数個のクイリー
キーワードを平行して処理する事ができる。
〔実施例〕
以下図面を参照して1本発明の詳細な説明する。
第1図により1本発明に従りたデータ記憶及び検索シス
テムを用いれば、多数の使用者が同時に夫々異なったク
イリーキーワードを用いて夫々異なりたデータの捜索を
可能にするため設計されるという事が判る。更に本シス
テムは、複数の光デイスクユニットを有して夫々のユニ
ットにデータベースが蓄えられると共にデータを検索す
ることができる。
本発明のこの実施例に於いて、スキャナモジュールは同
時に4096個のワードシグナチャーの捜索が可能であ
る。データベースのシグナチャーファイルに於いて一度
クイリーキーワードのワードシグナチャーが検出される
と、それに対応したキーワードを含む全ての文書の識別
記号が候補文書リストとして収集される。もし望ましい
ものであれば、特定の文書がクイリーの要求を満たすか
否かを判定するこのリストを処理するためにソフトウェ
アを作成する事も可能である。使用者に必要な文書の所
在を知らせたら、必要に応じて実際の文書を調べる為に
検査すれば良い。
データ処理手段は、グロセッサゲードに関連して作動す
るハードウェアとしてのスキャナモジエールと、小屋の
シャーシに納まりた各種の入出力モジエールを有する。
このユニットは、キーワード検出に適切であシ使用者の
ワークステーションと全体のテキスト及びシグナチャー
ファイルの全てを保持するために使用されるデータ記憶
手段(元ディスク又は磁気ディスク)の両者と連絡して
いる。ワークステージiンコンビエータは、クイリー受
入れ及びクイリー分析、そして走査用コンビエータとの
連絡に関する全ての処理を行う。
走査用コンビエータは在来型のシリアルライン例えばR
8−232リンク又はET北RNET (商標)等の高
帯域幅機能を通してワークステーションと連絡する。
シグナチャーファイルは、データベースかう作成されデ
ータ記憶装置又は光ディスクに記憶される。シグナチャ
ーファイルは、一連の整数を有しく固定長のピット列)
、各々の整数はデータベースの主テキストに含まれた重
要なワードの実際のワードシグナチャーを表わしている
。特定の文書のシグナチャーファイルが作成される時に
は、次の三つのステップをもりてなされる。
1)共通ワードは停止ワードのリストを用いて除去され
る。
2)上記文書の明確な残りのワードごとに論理ワードシ
グナチャーが計算される。これは単にmピット長の整数
値にワード(文字列)をマツプするハッシ機能でありて
もよい。ここでmは引から32までの整数とする。好ま
しくは、各論理ワードシグナチャーは二つの要素を有す
るために発生され、nビットの物理ワードシグナチャー
がサブセット指にフィールドに連鎖状に迷がれる多数の
サブセットから一つを選択する。この場合、nは8から
20までの数である。
3)重複ワードシグナチャーはハッシ機能を用いて計算
する事により防止される。
もし文書ワードとそれに対応した論理ワードシグナチャ
ーとが一対一のマツピングでしみ込ませるような方法で
割当てられると、このステップは省略される。
停止ワードとは、一般にクィリーの要求が満たされたと
きに文書の違いを見分けるのに寄与しないワードの事で
ある。これらは通常接続詞とが冠詞等である。例えば共
通ワードとしては、“a””the”when”whe
re″henceforth”等である・停止ワードの
リストはシステムの記憶領域に覚えさせてあり、システ
ムは自動的にこれらの停止ワードを見過ごしてワードシ
グナチャーの作成を行わない。
作成されfc%々のシグナチャーファイルサブセットは
、対応するテキスト文書と同じ順序に現れる一連の文簀
シグナチャーグルーグである。各々の文書シダナチャー
グループは、それに対応したテキスト文書のワードから
誘導された一連のワードシグナチャーから成りている。
一つの文書に拘わるシダナチャーグループの最後に記入
されるものは、その文書を代表する認識記号の表示であ
る。
使用者のクイリーに解答が与えられる為には、先ず使用
者のクイリーがち発せられたクイリーキーワードが論理
ワードシグナチャーに変換され、次の物理レベルのワー
ドシグナチャーとの一致を見る為にシグナチャーファイ
ルが走査される。一致がとれると、それに対応したテキ
スト文書の所在を定める事が出来るのでシダナチャーグ
ループの最後に記述された文書記号が抽出される。
ハッシ機能を使って論理ワードシグナチャーを作成する
事は可能である。この方法は、非常に少量の記憶容量で
早く作成する事が出来る。しかしながら、以下に述べる
如き欠点を伴う。すなわち、特定のワードシグナチャー
のハッシエンコーディングでは必ずしも一対一のマツピ
ングが保証されず、従りて異なったワードが同じ論理ワ
ードシグナチャーとマツプする事があり得る。従りて走
査実行中にこの複数のマツプは、使用者には全く必要と
しない無関係の文書を検索してしまう結果を招く事があ
る。とれは事前に検知する事が可能であり、使用者に渡
る前にン7トウエアを組んで検査し、修正しておく事が
可能である。ワードシグナチャーが十分長ければ、この
様な間違いは減少する事が出来る。シグナチャーファイ
ルは、ハッシ機能を用いる事により数ビットから成る整
数値に各々のワードをマツプし、文書にポインターを誘
導する為の文書識別記号を作成する事により生成される
ワードシグナチャーは、通常それが表わしている個々の
テキストワードより遥かに短い。更に共通ワード及び重
複シダナチャーは取り除かれているので、シグナチャー
ファイルはそれ自身が誘導された元のデータベースより
かなシ短くなっている。通常、シグナチャーファイルの
長さはデータベースの5%から30%の長さである。も
しシグナチャーファイルが文書のスタートの概要前に置
かれる抜粋用として関連語や同義語等を作成する用意を
持っている場合、シグナチャーファイルは多少大きくな
る。もしデータベースに追加文書が添付される場合は、
シグナチャーファイルも同様に文書シダナチャーグルー
プの形式で追加ワードシグナチャーを添付する必要があ
る。このようにシグナチャーファイルが簡単に最新の状
態に更新できる事は、シグナチャーファイル使用の確固
たる利点とされる。
シグナチャーファイルの走査は全体のデータベースの走
査に較べて遥かに速いが、シグナチャーファイルの走査
も場合によってはかなりの時間を要し、データ記憶装置
に元ディスクが用いられる時は特に長時間を要する。た
とえば、データベースのサイズが700メがバイトある
時、シグナチャーファイルは約35メがバイトの大きさ
になる。
光ディスクからデータ処理手段へのデータストリームは
、通常毎秒1メガバイト位であるからシグナチャーファ
イルの何れの走査には少なくとも35秒を璧する。
更新の簡易さの利点を維持しながら光ディスクの走査時
間を最短にする為、シグナチャーファイルは無理のない
程度の数のサブセット(例えば256個のサブセット)
に分割される。シグナチャーファイル作成時、ワードシ
グナチャーは特定のサブセットにマツプされ、クイリー
キーワードに応答してワードシグナチャーをサブセット
が走査される時その同じマツピング情報が用いられる。
種々のワードシグナチャーの形式が可能である。
以下に述べる形式は一つの例と見なされる・15ビット
の物理ワードシグナチ“ヤーがステアリングピットとし
て最上位ピットでディスク上に2つのカンセキエティブ
バイトとして記憶され、このステアリングピットの一つ
の設定値は、相補的な設定値がこの16ピツトワードが
文書の識別記号を与えることをする一方、この16ビッ
トのワーPが物理ワードシグナチャーを含むことを意味
している。もしディスクが256のサブセットに分割さ
れている場合は、ハツシングによって生成された論理ワ
ードシグナチャーの実質長は23ビットとなり、従って
物理ワードシグナチャーが単に15ピツトしかないにも
拘わらず間違いを大変低く保つ事が出来る。
クイリーキーワードに応じて走査時間は全体のシグナチ
ャーファイルのほんの一部を走査するためにだけ必要な
もので、かなりの減少となる。細分化されていないシグ
ナチャーファイルに較ベシグナチャーファイルの細分化
は、ファイルによるスペースの総使用量の増加につなが
る。何故ならば、ある文書の全てのワードシグナチャー
グループは、多数のサブセットに分散された為にこの全
てのワードシグナチャーの一部を有する全てのサブセッ
トに文書識別記号を必要とするからである。
いま、各々2バイトからなるワードシグナチャーが2バ
イトの文書−インクにより従われると、この最悪の場合
、ワードシグナチャーは4バイトを占める事になる。シ
グナチャーファイルが細分化されていない場合、このフ
ァイルへの一単位の情報は文蓄番号を除外しても通常2
4ビット、3バイトのシダナチャーとなる。従って、多
数のサブセットに分割されたシグナチャーファイルの総
量は、細分化されていないシグナチャーファイルの総量
の三分の一以下の増加に止まる。
もし700メがバイトのデータベースが70メがバイト
の大減非細分化シグナチャーファイルを有しているとす
れば、先の例に当てはめると細分化後のシグナチャーフ
ァイルは33チ増しの993メガバイトとなる。この細
分化されたファイルが256サブセツトに分散されると
各サブセットは約0.36メがバイトの容量となる。毎
秒1メがバイトの転送速度では、平均的サブセットは0
.36秒で転送されることができる。
シダナチャーサブセットは、走査中にディスクのヘッド
の移動が必要でなければ最も効率良く走査させる事が出
来る。こうする為には、新情報の゛追加に伴って増加し
てもサブセット情報ディスクの相隣接するセクタ内に納
められていなければならない。これはカンセキュティブ
サブセット間に空スペースを設ける事で達成される。と
の空スペースはデータベースが段々増大するにつれて詰
まって来る。データ記憶手段がディスクの場合、データ
処理手段はディスクから一つ以上のサブセットを取シ出
すためにスキャナと共同して使用される。スキャナは予
め決められた物理ワードシグナチャーを捜索する。
どのサブセットに特定のワードシグナチャーを持たせる
かについては、システムがサブセットの増大が均一にな
る様に調整している。実際に、データベースの初期の大
きさがかなシ大きい場合。
サブセットがほぼ同じ大きさになる様にデータベースの
初期シグナチャーファイルをシステムに入れる事ができ
る。
これには二つの技術がある。
(1)サブセットの選択は、ハッシ機能を施す事により
作成することができる。この無作為選択は、ワード− データベースに何れか新しい賀が加えられた時に何れか
のサブセットにほぼ同一の選択機会を与えるのに寄与し
ている。しかしながら(既に使用された)同じキーワー
ドを必要とする新情報の追加は、いくつかのワードが繰
シ返し多用される場合は、特定のサブセットが他よシ早
く成長する事がある。
(2)  より優れた手段はキーワード辞書を用いる事
である。この方法は、データベースのテキストの二回走
査を必要とする。−回目の走査で、システムは各々のキ
ーワードを含む文書数を記憶しながらデータベース中の
全ての別個のキーワードのリストを作成する。この文書
の数は各キーワードにつき一つのサブセット内のワード
シグナチャーグループの総記憶容量の推定に役立つ。キ
ーワードは次に文書の数の小さい方から大きい方へと記
憶される。すると、シダナチャーサブセットの長さがほ
ぼ等しくなるように各キーワードのワードシグナチャー
にサブセットを割当てればよい。この割当ては、キーワ
ード辞書に書き取りておくのでデータベースの二回目の
走査の時、システムはこのサブセットの割当てを物理ワ
ードシグナチャーに連絡させる事により論理シダナチャ
ーを組立てる。論理ワードシグナチャーと相応するキー
ワードの関連性をキーワード辞書に納める時、それらの
論理ワードシグナチャー内のサブセット識別フィールド
の値は、全てのサブセットの長さが同じになるように選
ばれる。物理ワードシグナチャ−は、論理ワードシグナ
チャーと相応するキーワード間に一対一の対応がとれる
様に選択される。
あるキーワードに対する物理ワードシグナチャーは、−
度システムがどのキーワードがどの特定のサブセッNC
結びついているかを知ったならば。
唯−無二的に定義する事ができる。これは、そのサブセ
ットに割当てられた個別のキーワードに連続整数で番号
をつける事により達成される。これらの番号が、物理ワ
ードシグナチャーとなる。
アプリケージ冒ンの如何によって、システムは使用者に
対して異なった応答をする。特定のクイリーキーワード
がシステムに供給されると、システムはそのクイリーキ
ーワードの物理ワードシグナチャーに一致する物理ワー
ドシグナチャーを含んだサブセットのみを捜索する。サ
ブセットは、そのクイリーキーワードを含んだデータベ
ースの全ての文書の文書識別記号を含む。文書識別記号
を用いる事により、全てのデータベースを走iすること
なくデータベースから文書を検索することができる。
、シグナチャーファイルのサブセットをソフトウェアで
走査する一方、データ処理手段や中央処理装置等のリソ
ーズを、クイリーレセプシ目ン、クイリー解析、使用者
のインタラクション及び入出力動作の管理等のリアルタ
イム機能に充当するのが、より効果的である。ソフトウ
ェアの代わりに、走査にはハードウェアモジエール(即
ちスキャナ)を用いる事も可能でsb、このハードウェ
アは予め決められた物理ワードシグナチャーを捜索する
光ディスクからのデータストリームの発出を走査スル。
スキャナモジェールハ、5C8I (スモールコンピュ
ータシステムインターフェイス)プロトコール等のディ
スク転送プロトコールを受取るように設計されており、
光ディスクとデータ処理装置のディスクインターフェイ
ス間の転送を「聴取」する装置として本質的に作動する
物理ワードシグナチャーに用いられるビット数は、シス
テムの要求に依存するある幅の範囲で可能な値をとる。
nピットの物理ワードシグナチャーは、RAMに於いて
2のn乗のロケーションのアドレスとして用いられ、こ
の場合、nは8から20の整数値の範囲である。各ロケ
ーションは1ビットを有し、スキャナはクイリーに対し
RAMがそのワードシグナチャーは無関係であると指定
した場合にそのワードシグナチャーを無視するように制
御されている。そうでない場合は、その物理ワードシグ
ナチャーをFIFOに入れる。RAMのピットロケージ
1ンに相補数ビュトの値が納められている時は、 RA
Mはシグナチャーファイルを格納しているディスクの転
送速度と同じ処理速度で所要のワードシグナチャーを将
来の参考として選別する。
次に述べる実施例では、物理ワードシグナチャーには1
5ビットの長さが用いられている。15ピツトの物理ワ
ードシグナチャーは、中央処理装&(以下CPUと記す
)で動作しているソフトウェアによって前もって定義さ
れた内容を保持する32KX]に相当するRAMのアド
レスに用いられる。
もしアクセスされたピットロケージ田ンに、この物理ワ
ードシグナチャーが特定のクイリーによって追求されて
いない事を指示する2進数の値が含まれている時は、こ
の物理ワードシグナチャーは無視される。もしアクセス
されたピットロケージ曹ンに、上記相補数の値が含まれ
ていると、その物理ワードシグナチャーと以下の文書識
別記号は、CPUによって将来の参考用としてファース
トインファーストアウト(FIFO)バッファに入力さ
れる。
高速RAMを使用する事により、シグナチャーファイル
を保持しているディスクの転送速度に見合った処理速度
で所要なワードシグナチャーを選別する事が可能になる
。特定の物理ワードシグナチャーが無視されると、シス
テムは次の物理ワードシグナチャーを調べる。論理ワー
ドシグナチャーで用いられる好ましい゛ビット数をmビ
ット数をmビット長とすると、mは8から32までの範
囲にある。
シグナチャーファイルによって利用されるカスクスペー
スを最小にする為、文書識別記号の表示値に平均して必
要なスペースを最少にする必要がある。これを達成する
一つの方法は、シグナチャ−ファイル作成時に文書番号
を三つのフィールドから成る一つの値として取り扱う事
でアり、その三つのフィールドは上位フィールドのラベ
ルをH5中位フィールドのラベルをM、そして低位フィ
ールドのラベルをLとして次の様に表される。
しかしながら、文書番号は必ずしも連続通し番号とは限
らないが、特定のサブセット以内では番号の増加する方
向で現れる。従って、H又はMフィールドは、低位フィ
ールドが最後の表示値以後にゼロの値を通過した時のみ
次の文書識別記号の表示値に加えられる。走査動作時に
、Hフィールドは常にその発生時にFIFOに入力され
る。Mフィールドが上記ストリームに現れた時、これは
MREGレジスタと称されるレジスタに将来使用するた
め与えられる。各文書のワードシグナチャーのグループ
は、Lフィールドを含む単独のバイトによって終わらせ
ることができる。Mフィールドは、その前の時点でのL
フィールドの値に対応していた値より増加した時のみ、
Lフィールドの前の位置に挿入される。文書識別記号の
表示値はFIFOに入力されるべき時、最後に現れ九M
フィールドの値(先にMREGに与えられた値)と組み
合わされる。
PIF’Oの出力を処理しているソフトウェアは、スト
リームに最後に現れたHフィールドと一組のM、Lフィ
ールドを組み合わせる。このようにして、文書への関連
づけは平均して一文誉当たり1バイトよシやや大きい程
度の小さなスペース負担で処理され得る。文書識別記号
の表示値が「Lフィールド」のみあるいは「M及びLフ
ィールド」のみから成るとしても実際の文−11:識別
記号は三つのフィールド全てを有する。
表1は、シグナチャーファイルサブセットにおけるバイ
ト及びワードのエンコーディングの例を表わす。表1で
は、LSSA及びH85Aは、夫々シダナチャーセクタ
アドレスの低位及び高位であり、それはワードシグナチ
ャーストリームのソースの確認用として各セクタの始め
に埋め込まれている。
責  l もりと−船釣にいえば、シグナチャーファイルの作成時
に各サブセットを作る為に一連のグループが生成される
。各グループは一連の物理ワードシグナチャーを持ち、
文書識別記号の表示値で終わらせられる。実際の文書識
別記号は高、中、低位のフィールドを持つ。あるサブセ
ット内の最初のグループの文書識別記号の表示値は、事
実、高、中、低位のフィールドを持つ。次のグループか
ら、文書識別記号の表示値は必ず低位のフィールドを保
有するが、その直前のグループで用いられた9文書識別
記号との相異に対応すべく、必要に応じて中位又は高位
のフィールドを持つことになる。文書識別記号は数の増
加する方向に設定されている。
従って、特定のグループ用のある文書識別記号の表示値
が低位のフィールドのみを有するとしても。
実際のそのグループ用の文書識別記号は高、中。
低位のフィールドを有する事になる。これは一つの変形
として、もしスペースを倹約しなくても良い場合は全て
の文書識別記号の表示値は実際三つのフィールドを持つ
事が出来る。
データ記憶手段からのデータストリームをスキャナを用
いて走査する事によりデータ記憶領域から情報を検索す
る場合、スキャナは高位フィールドを有する全ての文書
識別記号をFIFOに納める。
スキャナは将来必要になる時の為に、データストリーム
で最後に遭遇した中位のフィールドをレジスタに貯えて
おく。クイリーキーワードの物理ワードシグナチャーと
特定のグループに於ける物理ワードシグナチャーの間に
一致がとれた事をRAMが指示した時のみ、最後に遭遇
した中位のフィールドがその特定のグループを終わらせ
る低位のフィールドと共にFIFOに挿入される。
尚、本発明は、上述した実施例に限られるものではなく
1本発明の要旨を変えない範囲において、多くの変型が
容易に考察されることは勿論である。
〔発明の効果〕
以上のように、本発明によれば、シグナチャーファイル
の捜索が一回のみで十分であり、且つ特定のクイリーキ
ーワードに対する応答としての捜索が、単にシグナチャ
ーファイルの一部のみで済ませ得ることができる。
【図面の簡単な説明】
第1図は、本発明のデータ記憶及び検索方法及びスキャ
ナの概略を示すブロック構成図、第2図はデータ記憶及
び検索用のデータ処理手段を示すブロック図である。 図面の浄書(内容に変更なし) 出願人代理人  弁理士 鈴 江 武 彦第2図 手 続 補 正 書 (方式) 、事件の表示 特願平1−011752号 、発明の名称 データ記憶及び検索方法及びスキャナ 、補正をする者 事件との関係  特許出願人 氏名 フォーブス・ジェイ・パーコブスキ(ほか1名) 4、代理人 住所 東京都千代田区霞が関3丁目7番2号平成1年4
月25日 、補正の対象 図面(第2図)

Claims (14)

    【特許請求の範囲】
  1. (1)(a)データ記憶装置にデータベースを記憶する
    工程と、 (b)サブセットに分割されるシグナチャーファイルを
    上記データベース用に作成する工程、上記ファイルの作
    成時に特定のサブセットにワードシグナチャーをマッピ
    ングする工程、及び上記データ記憶手段の上記シグナチ
    ャーファイルを記憶する工程と、 (c)ワードシグナチャーを走査する工程、及び特定の
    サブセットに上記ワードシグナチャーを記憶するために
    使用された同じマッピング情報を使用することによるク
    イリーキーワードに応じた上記データベースから対応デ
    ータを検索する工程と を具備し、上記データベースの情報を記憶すると共に検
    索するもので、データ処理手段と、メモリ手段と、デー
    タレコードを格納することが可能なデータ記憶手段を有
    するコンピュータシステムを動作することを特徴とする
    データ記憶及び検索方法。
  2. (2)一つのクイリーキーワードに対する応答としてワ
    ードシグナチャーとの一致をとる場合、上記クイリーキ
    ーワード用の物理ワードシグナチャーを含むサブセット
    のみを走査するシステムを有する工程を更に具備するこ
    とを特徴とする特許請求の範囲第1項記載のデータ記憶
    及び検索方法。
  3. (3)特定の文書に対応するシグナチャーファイル作成
    に当たって上記文書の全ての共通ワードを無視する工程
    と、上記文書で残ったワードの各々に対応した論理ワー
    ドシグナチャーを計算する工程と、論理ワードシグナチ
    ャーがハッシ値として計算された場合は上記文書中の何
    れか重複した論理ワードシグナチャーを除去する工程を
    更に具備することを特徴とする特許請求の範囲第2項記
    載のデータ記憶及び検索方法。
  4. (4)上記シグナチャーファイルの作成に当たって上記
    シグナチャーファイルを多数のサブセットに分割する工
    程と、各論理ワードシグナチャーが二つの成分から構成
    されるように生成する工程と、同一のサブセット指定フ
    ィールドを有する全ての論理ワードシグナチャーを同じ
    サブセットにマッピングする工程と、上記論理ワードシ
    グナチャーのサブセット指定フィールドに連結している
    物理ワードシグナチャーの成分のサブセット部分の記憶
    において結果的に生じる工程とを更に含むことを特徴と
    する特許請求の範囲第3項記載のデータ記憶及び検索方
    法。
  5. (5)上記サブセットの作成に当たって特定の物理ワー
    ドシグナチャー若しくは物理ワードシグナチャーのグル
    ープが誘導された元となる上記文書に文書識別記号を与
    え、上記同一の文書から誘導された上記物理ワードシグ
    ナチャー若しくは物理ワードシグナチャーのグループに
    加える工程を更に具備することを特徴とする特許請求の
    範囲第4項記載のデータ記憶及び検索方法。
  6. (6)複数のビットから成る整数値のワードをマップす
    るハッシ機能を形成することによって上記シグナチャー
    ファイルを作成する工程と、文書識別記号の表示値を作
    成する工程とを更に具備することを特徴とする特許請求
    の範囲第5項記載のデータ記憶及び検索方法。
  7. (7)上記論理ワードシグナチャーはmビット長から成
    るもので上記mは8乃至32までの範囲であり、且つ多
    数のサブセットから一つを選択するサブセット指定フィ
    ールドに連絡されるnビットの物理ワードシグナチャー
    を有して上記nは8乃至20の範囲であることを特徴と
    する特許請求の範囲第6項記載のデータ記憶及び検索方
    法。
  8. (8)上記サブセットは大きさが増大された上記データ
    ベースとして上記サブセットの大きさの増大を許容する
    ために連続するサブセット間に任意のスペースを有する
    ように上記データ記憶装置に配置され、その終端に付加
    的な情報を追加することによって上記データベースの大
    きさと、一つ以上のサブセットの終端で付加的なワード
    シグナチャーグループを追加することによって上記シグ
    ナチャーファイルの大きさとを増大する工程を更に具備
    することを特徴とする特許請求の範囲第1項記載のデー
    タ記憶及び検索方法。
  9. (9)上記論理ワードシグナチャーはその対応キーワー
    ドに関連されるべくものであり、上記論理ワードシグナ
    チャーと上記対応キーワードとの関係はキーワード辞書
    で保持されるものであり、全てのサブセットの長さを等
    しく維持するように上記サブセット指定フィールドを選
    択すると共に上記論理ワードシグナチャーと上記対応キ
    ーワード間のマッピングが一対一になるように上記物理
    ワードシグナチャーを選択する工程とを更に含むことを
    特徴とする特許請求の範囲第8項記載のデータ記憶及び
    検索方法。
  10. (10)上記データ記憶装置はディスクであり、予め明
    記された物理ワードシグナチャーを求めて上記ディスク
    から読出されるデータストリームを走査するスキャナに
    関連した上記データ処理手段を使用する一つ以上のサブ
    セットを取出す工程を更に具備することを特徴とする特
    許請求の範囲第3項記載のデータ記憶及び検索方法。
  11. (11)上記各nビットの物理ワードシグナチャーはR
    AMに於ける2のn乗に相当するロケーションのアドレ
    スとして使用されるもので上記nは8乃至20の範囲の
    整数であり、各ロケーションは1ビットとを保有し、上
    記スキャナは上記アドレスされたRAMのビットが上記
    クイリーに対し無関係なワードシグナチャーを指示した
    ときは物理ワードシグナチャーを無視し、いかなる物理
    ワードシグナチャーでもFIFOに将来参考用として納
    めるように制御し、上記アドレスされたRAMビットロ
    ケーションが相補的な値を有するときは上記スキャナは
    求めんとする物理ワードシグナチャーを取出すことを特
    徴とする特許請求の範囲第10項記載のデータ記憶及び
    検索方法。
  12. (12)上記シグナチャーファイルの作成時に各サブセ
    ットを作成するのに一連のグループを生成する工程を含
    み、各グループは一連の物理ワードシグナチャーを有し
    、各グループは文書識別記号の表示値により終結され、
    各文書識別記号の表示値は高、中及び低位フィールドを
    有し、上記サブセットの第1のグループの上記文書識別
    記号の表示値は実際に高、中及び低位フィールドを有し
    てそれ以後のグループからの文書識別記号の表示値は常
    に低位フィールドを有するが、中位フィード若しくは高
    位フィールドに関しては直前のグループに表示された上
    記文書識別記号からこれらのフィールドの変化を反映す
    るのに必要なとき中位フィールド若しくは高位フィール
    ドのみのフィールドが低位フィールドに加えて使用され
    、上記文書識別記号は数の増加する方向に配列されるこ
    とを特徴とする特許請求の範囲第11項記載のデータ記
    憶及び検索方法。
  13. (13)上記データ記憶手段からの情報を検索する場合
    、上記データ記憶手段からデータストリームを走査する
    ためにスキャナを使用する工程と、文書識別記号の全て
    の表示値を押下するスキャナは上記FIFOに送込む高
    位フィールドを有し、上記スキャナは将来の参考のため
    にレジスタに上記データストリームの最後に遭遇した中
    位のフィールドを与え、上記最後に遭遇した中位のフィ
    ールドは上記クイリーキーワードから誘導された上記物
    理ワードシグナチャーとその特定のグループ内の物理ワ
    ードシグナチャー間の一致を上記RAMが指示した場合
    のみ特定のグループを終結される上記低位フィールドと
    に送込まれることを特徴とす特許請求の範囲第12項記
    載のデータ記憶及び検索方法。
  14. (14)データベースに於ける情報を記憶すると共に検
    索するためにコンピュータシステムの使用のためのもの
    であって、上記コンピュータシステムはデータ記憶装置
    の上記データを記憶するための手段と共に、データ処理
    手段と、メモリ手段と、データ記憶手段と、上記データ
    ベース用の文書識別記号と共にワードシグナチャーファ
    イルを作成する手段と、ワードシグナチャー、文書識別
    記号及びスキャナを使用してクイリーキーワードに応じ
    たデータベースから対応データを検索する手段とを有し
    、入力部と、出力部と、制御部と、アドレスライン及び
    FIFOバッファから成るメモリとを具備し、上記入力
    部は上記データ記憶手段から情報を受取り、上記制御部
    は上記情報を調べて上記メモリの上記アドレスラインに
    全てのワードシグナチャーを送り、上記メモリは上記入
    力部で特定のワードシグナチャーが上記クイリーキーワ
    ード用のワードシグナチャーと一致するか否かを決定す
    るために上記制御部に情報を提供し、一致が生じた場合
    は、 (a)上記制御部は上記ワードシグナチャーを上記FI
    FOバッファに送り、一致が生じたことを記憶しており
    、この一致したワードシグナチャーの次に位置する文書
    識別記号を上記FIFOバッファに送り、その後上記デ
    ータ記憶手段から受取った次のワードシグナチャーを処
    理するように進行し、 一致が生じない場合は、 (b)上記制御部は上記ワードシグナチャーを無視して
    その後上記データ記憶手段から受取った次のワードシグ
    ナチャーを処理するように進行し、 上記制御部は実質的には数個のクイリーキーワードを並
    行に処理することが可能なことを特徴とするスキャナ。
JP1011752A 1989-01-20 1989-01-20 データ記憶及び検索方法及びスキャナ Pending JPH02205970A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1011752A JPH02205970A (ja) 1989-01-20 1989-01-20 データ記憶及び検索方法及びスキャナ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1011752A JPH02205970A (ja) 1989-01-20 1989-01-20 データ記憶及び検索方法及びスキャナ

Publications (1)

Publication Number Publication Date
JPH02205970A true JPH02205970A (ja) 1990-08-15

Family

ID=11786734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1011752A Pending JPH02205970A (ja) 1989-01-20 1989-01-20 データ記憶及び検索方法及びスキャナ

Country Status (1)

Country Link
JP (1) JPH02205970A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349925B2 (en) 2004-01-22 2008-03-25 International Business Machines Corporation Shared scans utilizing query monitor during query execution to improve buffer cache utilization across multi-stream query environments

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349925B2 (en) 2004-01-22 2008-03-25 International Business Machines Corporation Shared scans utilizing query monitor during query execution to improve buffer cache utilization across multi-stream query environments

Similar Documents

Publication Publication Date Title
EP0304302A2 (en) Data retrieval system
US6493709B1 (en) Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
Aoe An efficient digital search algorithm by using a double-array structure
JP2770855B2 (ja) ディジタル式情報記憶検索方法及びその装置
US6240409B1 (en) Method and apparatus for detecting and summarizing document similarity within large document sets
US4241402A (en) Finite state automaton with multiple state types
US6658437B1 (en) System and method for data space allocation using optimized bit representation
US4959785A (en) Character processing system with spelling check function that utilizes condensed word storage and indexed retrieval
US4748439A (en) Memory apparatus and method for retrieving sequences of symbols including variable elements
US6122626A (en) Sparse index search method
EP0084626A1 (en) High speed search system
CN86105459A (zh) 输入处理系统
EP0464467A2 (en) Data processing by image manipulation
EP0160672A1 (en) Method and apparatus for data compression
JPH09245043A (ja) 情報検索装置
US7734571B2 (en) Method for processing sensor data within a particle stream by a KStore
JPH0869476A (ja) 検索システム
JPH02205970A (ja) データ記憶及び検索方法及びスキャナ
JPH05101102A (ja) 検索装置
US20210224240A1 (en) Augmentation to the succinct trie for multi-segment keys
JPH056398A (ja) 文書登録装置及び文書検索装置
EP0567668A1 (en) A computer system for retrieval of information
JPH0991305A (ja) 情報処理方法及び装置
US7676330B1 (en) Method for processing a particle using a sensor structure
JPH08314975A (ja) 情報検索装置