JPH02205970A

JPH02205970A - データ記憶及び検索方法及びスキャナ

Info

Publication number: JPH02205970A
Application number: JP1011752A
Authority: JP
Inventors: J Barkovski Forbes; フォーブス・ジェイ・バーコブスキ; Sinclair Krebs Mark; マーク・シンクレア・クレブス
Original assignee: Individual
Current assignee: Individual
Priority date: 1989-01-20
Filing date: 1989-01-20
Publication date: 1990-08-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明はデータ検索システムに関し、特に細分化された
シグナチャーファイルを用いてデータベースにデータを
蓄積し又はデータベース上のデータを検索する方法及び
このシステムを使用するスキャナに関する。

〔従来の技術〕

一般に数程のデータ蓄積検索システムが知られている。

近来、データベースが大型化し、その使用頻度が上昇す
るに及んで、データを正確にしかも最少の時間で蓄積し
たシ検索したシする方法が益々重要視されて来ている。

更に又、大規模な変更を必要としないデータ追加の方法
も重要でるる。

従来のデータベースに於いては情報は周到に用意された
索引形態として高度に組織化され、たとえばディスク等
の蓄積媒体に格納されている。今。

仮にある特定の一部のデータを検索しようとすると、従
来のシステムはこのデータの所在を突き止めるのにこの
索引情報を用いるが、この要求されるデータは大量の同
類のデータの山に埋もれている場合が多い。索引情報は
余分のファイルを必要とし、これに蓄えられる。索引を
作るには様々な方法がある。シグナチャーファイルを用
いる事はその一つの方法であわ、逆見出しファイルを用
いるのがもう一つの方法である。後者の方法は度々用い
られるものであり、検索時間が少なくて隣むが、次に述
べる如く二つの重大な欠点を持っている。

（１）　　逆見出しファイルは非常に大きく、テキスト
ファイルの２０％から１００％の大きさに相当する。

（１１）　　データベースへの新情報の追加に際しては
逆見出しファイルを変更する必要があり、この変更に要
する時間が大変長くなる。何故ならば高度に組織化され
たファイルの性格上、ファイルの大部分を変更する必袈
があるからである。

シグナチャーブアイルの場合は迅速な変更が可能であり
、アクセスタイムが大変遅くなるという理由から索引形
式は適用されない。アクセスタイムが遅くなるのは、全
てのシグナチャーファイルを走査する為であり、ディス
クからの転送所賛時間が大変長くかかるからである。本
発明ではシグナチャーファイルを用するものであるが、
逆見出しファイルのスピードに対抗し得る工夫がなされ
ている。つま）、全てのファイルを走査する代わりに、
サブセットのみを走査する。これにより、アクセスタイ
ムを著しく短少する事が可能となり、システムを注意深
く設計すれば、変更時間もかな′シ低く保つ事が出来る
。

〔発明が解決しようとする課題〕

勿論、全てのデータベースを走査して（索引ファイルを
使用せずに）データを検索する事は可能であるが、それ
には大変長時間を要し、従って問題にならない程高価に
なる。

データ蓄積装置として光ディスクが用いられる場合、５
Ａ在の開発段階では光ディスクの特定領域には一度しか
情報を書き込むことができないのでデータ更新に問題が
ある。したがって、新情報は、通常現在の情報の隣に書
き込むのが望ましいも°のとされるが、その場所がスペ
ースとして残されていないので不可能である。故に、逆
見出しファイルのような索引形態では、この様な蓄積媒
体のデータの非消去性の為に変更する事は、通常出来な
い。新しいファイルを別途にディスクの新しい領域に作
成すれば変更可能であるが、これはディスクスペースの
無駄が大きく非能率的である。

シグナチャーファイルを用いる場合、データベースに追
刀口される情報に対応してシグナチャーファイルに追記
が施される。したがりて、ファイル七のものの量は増大
するが現存するシグナチャーファイルには変更が加えら
れないから、光ディスクを用いたシステムに於いても大
変有効である。

多くの場合、検索システムは使用者が予めキーワードと
してクイジー中に明記した一つ以上のワードを含む一つ
以上の文書を検索することによって、この使用者クイリ
ーに対して応答する。これを達成する為、データベース
中の要求される情報の所在を指示する検索機能が用いら
れる。これらのキーワードを含む文書の所在位置を求め
る為に文書識別記号リストを作成゛する事により、クイ
ソ一応答用ソフトウェアに関連して作用するこの索引機
能はクイリーの要求を満たすべく最終的な文書リストを
決定する。

データベース中のデータの所在を突き止める為にシグナ
チャーファイルを用いる事は、既存の技術である。シグ
ナチャーファイルとは、即ちデータベ−ス中の情報の凝
縮されたものでろる。これは、データベース中の文書の
各々の明確なワードをワードシグナチャーによって表わ
す事によって達成される。ある特定のクイリーキーワー
ドがシステムに提示されると、システムはそれに対応し
たデータベース中のワードに関連したワードシグナチャ
ーを引き出す。この棟のシステムは、このようにして連
続走査の方法を用いる事により、全てのシグナチャーフ
ァイルを捜索し、そのキーワードを含んだデータベース
中の全ての文書を捜し出す事が出来る。こ゛れは即ち、
シグナチャーファイルの何れかのワードシグナチャーが
、それら自身が誘導されたキーワードを含む文書の文書
識別記号によって可能となる。従って、走査グロセスの
進行期間中に、シグナチャーファイル中のワードシグナ
チャーがクイリ・−キーワードから誘導されたワードシ
ダナチャーと一致した時、システムはそのクイリーと関
連した文書の識別を保持しておく為、ワードシグナチャ
ーに付属した文書識別記号を取得する。これらのシステ
ムは、もし各々のクイリーキーワードごとに全てのシグ
ナチャーファイルを捜索するのであれば、やはり長時間
を要する事になる。

光ディスクは、データベースを格納するには最も経済的
な手段である。しかしながら元ディスクのシークタイム
は、磁気ハードディスクに較べて通常４倍から３０倍も
長い。逆見出しファイル方式を用いてデータベースが捜
索された場合、システムはおそらく数回に渡って索引構
造を探索する事になり、毎回の探索各にディスクシーク
、即ちディスクアームの動きを必要とする。より高価な
磁気ハードディスクを用いれば、時間的要求は満たされ
るであろうが、光ディスクを使用する場合には極端に望
ましくないものとなる。

本発明の目的は以上の事柄を考慮してなされた〔課題を
解決するための手段〕本発明は、シグナチャーファイルの捜索が一回のみで十
分であり、且つ特定のクイリーキーワードに対する応答
としての捜索が単にシグナチャーファイルの一部のみで
済ませ得ることを特徴としている。

〔作用〕

本発明によれば、データ処理手段と、メモリ手段と、デ
ータレコードを含むデータ記憶手段を有するコンピュー
タシステムに於いて、これを運用してデータベース上に
情報を記憶し又データベース上で情報を検索するコンピ
ュータシステムの動作方法は次の通ジである。

（１）データ記憶装置にデータベースを記憶する工程。

（２ン複数個のサブセットに分割されるシグナチャーフ
ァイルをデータベース用に作成する工程と、ファイル作
成中に特定のサブセットに対応したワードシグナチャー
をマツピングする工程と、上記シグナチャーファイルサ
ブセットを上記データ記憶装置に記憶する工程。

（３）　　ワードシグナチャーを走査する工程及び特定
のサブセットへワードシグナチャーを蓄積するために使
用された同じマツピング情報を用いる事により上記デー
タベースからクイリーキーワードに応じて対応するデー
タを検索する工程。

スキャナは、データベース上に情報を記憶すると共に検
索する為にコンピュータシステムの使用を提供する。コ
ンピュータシステムは、データ処理手段と２メモリ手段
と、データ記憶手段を有する。これらはデータベース用
として文ｖｆｒ識別記号とともにワードシグナチャーフ
ァイルを作成する手段と、スキャナを用いてクイリーキ
ーワードに応じてデータベースからワードシグナチャー
、文書識別記号及びそれに対応したデータを検索する手
段とを有している。スキャナは入力部、出力部、制御部
、アドレスラインを有したメモリ及びＦＩＦＯバッファ
を有する。入力部は上記データ記憶手段からの情報を受
けるために接続されている。制御部は上記情報を調べて
上記メモリのアドレスラインに全てのワードシグナチャ
ーを送る。メモリは制御部へのクイリーキーワード用の
ワードシグナチャーと入力部に現れたある特定のワード
シグナチャーとが一致するか否かを決定し得る情報を提
供する。もし一致すると、制御部はそのワードシグナチ
ャーをＦＩＦＯバッファに送り、且つ一致の発生を記憶
する。制御部は更に一致したワードシグナチャーの次に
位置する文書識別記号をＦＩＦＯバッファに送る。制御
部はこの後、順次データ記憶手段等から受は取る次のワ
ードシグナチャーを処理してゆく。もし一致が認められ
なければ、制御部はそのワードシグナチャーを無視して
データ記憶手段から受は取る次のワードシグナチャーを
処理する。従って、制御部は実質的に複数個のクイリー
キーワードを平行して処理する事ができる。

〔実施例〕

以下図面を参照して１本発明の詳細な説明する。

第１図により１本発明に従りたデータ記憶及び検索シス
テムを用いれば、多数の使用者が同時に夫々異なったク
イリーキーワードを用いて夫々異なりたデータの捜索を
可能にするため設計されるという事が判る。更に本シス
テムは、複数の光デイスクユニットを有して夫々のユニ
ットにデータベースが蓄えられると共にデータを検索す
ることができる。

本発明のこの実施例に於いて、スキャナモジュールは同
時に４０９６個のワードシグナチャーの捜索が可能であ
る。データベースのシグナチャーファイルに於いて一度
クイリーキーワードのワードシグナチャーが検出される
と、それに対応したキーワードを含む全ての文書の識別
記号が候補文書リストとして収集される。もし望ましい
ものであれば、特定の文書がクイリーの要求を満たすか
否かを判定するこのリストを処理するためにソフトウェ
アを作成する事も可能である。使用者に必要な文書の所
在を知らせたら、必要に応じて実際の文書を調べる為に
検査すれば良い。

データ処理手段は、グロセッサゲードに関連して作動す
るハードウェアとしてのスキャナモジエールと、小屋の
シャーシに納まりた各種の入出力モジエールを有する。

このユニットは、キーワード検出に適切であシ使用者の
ワークステーションと全体のテキスト及びシグナチャー
ファイルの全てを保持するために使用されるデータ記憶
手段（元ディスク又は磁気ディスク）の両者と連絡して
いる。ワークステージｉンコンビエータは、クイリー受
入れ及びクイリー分析、そして走査用コンビエータとの
連絡に関する全ての処理を行う。

走査用コンビエータは在来型のシリアルライン例えばＲ
８−２３２リンク又はＥＴ北ＲＮＥＴ　（商標）等の高
帯域幅機能を通してワークステーションと連絡する。

シグナチャーファイルは、データベースかう作成されデ
ータ記憶装置又は光ディスクに記憶される。シグナチャ
ーファイルは、一連の整数を有しく固定長のピット列）
、各々の整数はデータベースの主テキストに含まれた重
要なワードの実際のワードシグナチャーを表わしている
。特定の文書のシグナチャーファイルが作成される時に
は、次の三つのステップをもりてなされる。

１）共通ワードは停止ワードのリストを用いて除去され
る。

２）上記文書の明確な残りのワードごとに論理ワードシ
グナチャーが計算される。これは単にｍピット長の整数
値にワード（文字列）をマツプするハッシ機能でありて
もよい。ここでｍは引から３２までの整数とする。好ま
しくは、各論理ワードシグナチャーは二つの要素を有す
るために発生され、ｎビットの物理ワードシグナチャー
がサブセット指にフィールドに連鎖状に迷がれる多数の
サブセットから一つを選択する。この場合、ｎは８から
２０までの数である。

３）重複ワードシグナチャーはハッシ機能を用いて計算
する事により防止される。

もし文書ワードとそれに対応した論理ワードシグナチャ
ーとが一対一のマツピングでしみ込ませるような方法で
割当てられると、このステップは省略される。

停止ワードとは、一般にクィリーの要求が満たされたと
きに文書の違いを見分けるのに寄与しないワードの事で
ある。これらは通常接続詞とが冠詞等である。例えば共
通ワードとしては、“ａ””ｔｈｅ”ｗｈｅｎ”ｗｈｅ
ｒｅ″ｈｅｎｃｅｆｏｒｔｈ”等である・停止ワードの
リストはシステムの記憶領域に覚えさせてあり、システ
ムは自動的にこれらの停止ワードを見過ごしてワードシ
グナチャーの作成を行わない。

作成されｆｃ％々のシグナチャーファイルサブセットは
、対応するテキスト文書と同じ順序に現れる一連の文簀
シグナチャーグルーグである。各々の文書シダナチャー
グループは、それに対応したテキスト文書のワードから
誘導された一連のワードシグナチャーから成りている。

一つの文書に拘わるシダナチャーグループの最後に記入
されるものは、その文書を代表する認識記号の表示であ
る。

使用者のクイリーに解答が与えられる為には、先ず使用
者のクイリーがち発せられたクイリーキーワードが論理
ワードシグナチャーに変換され、次の物理レベルのワー
ドシグナチャーとの一致を見る為にシグナチャーファイ
ルが走査される。一致がとれると、それに対応したテキ
スト文書の所在を定める事が出来るのでシダナチャーグ
ループの最後に記述された文書記号が抽出される。

ハッシ機能を使って論理ワードシグナチャーを作成する
事は可能である。この方法は、非常に少量の記憶容量で
早く作成する事が出来る。しかしながら、以下に述べる
如き欠点を伴う。すなわち、特定のワードシグナチャー
のハッシエンコーディングでは必ずしも一対一のマツピ
ングが保証されず、従りて異なったワードが同じ論理ワ
ードシグナチャーとマツプする事があり得る。従りて走
査実行中にこの複数のマツプは、使用者には全く必要と
しない無関係の文書を検索してしまう結果を招く事があ
る。とれは事前に検知する事が可能であり、使用者に渡
る前にン７トウエアを組んで検査し、修正しておく事が
可能である。ワードシグナチャーが十分長ければ、この
様な間違いは減少する事が出来る。シグナチャーファイ
ルは、ハッシ機能を用いる事により数ビットから成る整
数値に各々のワードをマツプし、文書にポインターを誘
導する為の文書識別記号を作成する事により生成される
。

ワードシグナチャーは、通常それが表わしている個々の
テキストワードより遥かに短い。更に共通ワード及び重
複シダナチャーは取り除かれているので、シグナチャー
ファイルはそれ自身が誘導された元のデータベースより
かなシ短くなっている。通常、シグナチャーファイルの
長さはデータベースの５％から３０％の長さである。も
しシグナチャーファイルが文書のスタートの概要前に置
かれる抜粋用として関連語や同義語等を作成する用意を
持っている場合、シグナチャーファイルは多少大きくな
る。もしデータベースに追加文書が添付される場合は、
シグナチャーファイルも同様に文書シダナチャーグルー
プの形式で追加ワードシグナチャーを添付する必要があ
る。このようにシグナチャーファイルが簡単に最新の状
態に更新できる事は、シグナチャーファイル使用の確固
たる利点とされる。

シグナチャーファイルの走査は全体のデータベースの走
査に較べて遥かに速いが、シグナチャーファイルの走査
も場合によってはかなりの時間を要し、データ記憶装置
に元ディスクが用いられる時は特に長時間を要する。た
とえば、データベースのサイズが７００メがバイトある
時、シグナチャーファイルは約３５メがバイトの大きさ
になる。

光ディスクからデータ処理手段へのデータストリームは
、通常毎秒１メガバイト位であるからシグナチャーファ
イルの何れの走査には少なくとも３５秒を璧する。

更新の簡易さの利点を維持しながら光ディスクの走査時
間を最短にする為、シグナチャーファイルは無理のない
程度の数のサブセット（例えば２５６個のサブセット）
に分割される。シグナチャーファイル作成時、ワードシ
グナチャーは特定のサブセットにマツプされ、クイリー
キーワードに応答してワードシグナチャーをサブセット
が走査される時その同じマツピング情報が用いられる。

種々のワードシグナチャーの形式が可能である。

以下に述べる形式は一つの例と見なされる・１５ビット
の物理ワードシグナチ“ヤーがステアリングピットとし
て最上位ピットでディスク上に２つのカンセキエティブ
バイトとして記憶され、このステアリングピットの一つ
の設定値は、相補的な設定値がこの１６ピツトワードが
文書の識別記号を与えることをする一方、この１６ビッ
トのワーＰが物理ワードシグナチャーを含むことを意味
している。もしディスクが２５６のサブセットに分割さ
れている場合は、ハツシングによって生成された論理ワ
ードシグナチャーの実質長は２３ビットとなり、従って
物理ワードシグナチャーが単に１５ピツトしかないにも
拘わらず間違いを大変低く保つ事が出来る。

クイリーキーワードに応じて走査時間は全体のシグナチ
ャーファイルのほんの一部を走査するためにだけ必要な
もので、かなりの減少となる。細分化されていないシグ
ナチャーファイルに較ベシグナチャーファイルの細分化
は、ファイルによるスペースの総使用量の増加につなが
る。何故ならば、ある文書の全てのワードシグナチャー
グループは、多数のサブセットに分散された為にこの全
てのワードシグナチャーの一部を有する全てのサブセッ
トに文書識別記号を必要とするからである。

いま、各々２バイトからなるワードシグナチャーが２バ
イトの文書−インクにより従われると、この最悪の場合
、ワードシグナチャーは４バイトを占める事になる。シ
グナチャーファイルが細分化されていない場合、このフ
ァイルへの一単位の情報は文蓄番号を除外しても通常２
４ビット、３バイトのシダナチャーとなる。従って、多
数のサブセットに分割されたシグナチャーファイルの総
量は、細分化されていないシグナチャーファイルの総量
の三分の一以下の増加に止まる。

もし７００メがバイトのデータベースが７０メがバイト
の大減非細分化シグナチャーファイルを有しているとす
れば、先の例に当てはめると細分化後のシグナチャーフ
ァイルは３３チ増しの９９３メガバイトとなる。この細
分化されたファイルが２５６サブセツトに分散されると
各サブセットは約０．３６メがバイトの容量となる。毎
秒１メがバイトの転送速度では、平均的サブセットは０
．３６秒で転送されることができる。

シダナチャーサブセットは、走査中にディスクのヘッド
の移動が必要でなければ最も効率良く走査させる事が出
来る。こうする為には、新情報の゛追加に伴って増加し
てもサブセット情報ディスクの相隣接するセクタ内に納
められていなければならない。これはカンセキュティブ
サブセット間に空スペースを設ける事で達成される。と
の空スペースはデータベースが段々増大するにつれて詰
まって来る。データ記憶手段がディスクの場合、データ
処理手段はディスクから一つ以上のサブセットを取シ出
すためにスキャナと共同して使用される。スキャナは予
め決められた物理ワードシグナチャーを捜索する。

どのサブセットに特定のワードシグナチャーを持たせる
かについては、システムがサブセットの増大が均一にな
る様に調整している。実際に、データベースの初期の大
きさがかなシ大きい場合。

サブセットがほぼ同じ大きさになる様にデータベースの
初期シグナチャーファイルをシステムに入れる事ができ
る。

これには二つの技術がある。

（１）サブセットの選択は、ハッシ機能を施す事により
作成することができる。この無作為選択は、ワード− データベースに何れか新しい賀が加えられた時に何れか
のサブセットにほぼ同一の選択機会を与えるのに寄与し
ている。しかしながら（既に使用された）同じキーワー
ドを必要とする新情報の追加は、いくつかのワードが繰
シ返し多用される場合は、特定のサブセットが他よシ早
く成長する事がある。

（２）　　より優れた手段はキーワード辞書を用いる事
である。この方法は、データベースのテキストの二回走
査を必要とする。−回目の走査で、システムは各々のキ
ーワードを含む文書数を記憶しながらデータベース中の
全ての別個のキーワードのリストを作成する。この文書
の数は各キーワードにつき一つのサブセット内のワード
シグナチャーグループの総記憶容量の推定に役立つ。キ
ーワードは次に文書の数の小さい方から大きい方へと記
憶される。すると、シダナチャーサブセットの長さがほ
ぼ等しくなるように各キーワードのワードシグナチャー
にサブセットを割当てればよい。この割当ては、キーワ
ード辞書に書き取りておくのでデータベースの二回目の
走査の時、システムはこのサブセットの割当てを物理ワ
ードシグナチャーに連絡させる事により論理シダナチャ
ーを組立てる。論理ワードシグナチャーと相応するキー
ワードの関連性をキーワード辞書に納める時、それらの
論理ワードシグナチャー内のサブセット識別フィールド
の値は、全てのサブセットの長さが同じになるように選
ばれる。物理ワードシグナチャ−は、論理ワードシグナ
チャーと相応するキーワード間に一対一の対応がとれる
様に選択される。

あるキーワードに対する物理ワードシグナチャーは、−
度システムがどのキーワードがどの特定のサブセッＮＣ
結びついているかを知ったならば。

唯−無二的に定義する事ができる。これは、そのサブセ
ットに割当てられた個別のキーワードに連続整数で番号
をつける事により達成される。これらの番号が、物理ワ
ードシグナチャーとなる。

アプリケージ冒ンの如何によって、システムは使用者に
対して異なった応答をする。特定のクイリーキーワード
がシステムに供給されると、システムはそのクイリーキ
ーワードの物理ワードシグナチャーに一致する物理ワー
ドシグナチャーを含んだサブセットのみを捜索する。サ
ブセットは、そのクイリーキーワードを含んだデータベ
ースの全ての文書の文書識別記号を含む。文書識別記号
を用いる事により、全てのデータベースを走ｉすること
なくデータベースから文書を検索することができる。

、シグナチャーファイルのサブセットをソフトウェアで
走査する一方、データ処理手段や中央処理装置等のリソ
ーズを、クイリーレセプシ目ン、クイリー解析、使用者
のインタラクション及び入出力動作の管理等のリアルタ
イム機能に充当するのが、より効果的である。ソフトウ
ェアの代わりに、走査にはハードウェアモジエール（即
ちスキャナ）を用いる事も可能でｓｂ、このハードウェ
アは予め決められた物理ワードシグナチャーを捜索する
光ディスクからのデータストリームの発出を走査スル。

スキャナモジェールハ、５Ｃ８Ｉ　（スモールコンピュ
ータシステムインターフェイス）プロトコール等のディ
スク転送プロトコールを受取るように設計されており、
光ディスクとデータ処理装置のディスクインターフェイ
ス間の転送を「聴取」する装置として本質的に作動する
。

物理ワードシグナチャーに用いられるビット数は、シス
テムの要求に依存するある幅の範囲で可能な値をとる。

ｎピットの物理ワードシグナチャーは、ＲＡＭに於いて
２のｎ乗のロケーションのアドレスとして用いられ、こ
の場合、ｎは８から２０の整数値の範囲である。各ロケ
ーションは１ビットを有し、スキャナはクイリーに対し
ＲＡＭがそのワードシグナチャーは無関係であると指定
した場合にそのワードシグナチャーを無視するように制
御されている。そうでない場合は、その物理ワードシグ
ナチャーをＦＩＦＯに入れる。ＲＡＭのピットロケージ
１ンに相補数ビュトの値が納められている時は、　ＲＡ
Ｍはシグナチャーファイルを格納しているディスクの転
送速度と同じ処理速度で所要のワードシグナチャーを将
来の参考として選別する。

次に述べる実施例では、物理ワードシグナチャーには１
５ビットの長さが用いられている。１５ピツトの物理ワ
ードシグナチャーは、中央処理装＆（以下ＣＰＵと記す
）で動作しているソフトウェアによって前もって定義さ
れた内容を保持する３２ＫＸ］に相当するＲＡＭのアド
レスに用いられる。

もしアクセスされたピットロケージ田ンに、この物理ワ
ードシグナチャーが特定のクイリーによって追求されて
いない事を指示する２進数の値が含まれている時は、こ
の物理ワードシグナチャーは無視される。もしアクセス
されたピットロケージ曹ンに、上記相補数の値が含まれ
ていると、その物理ワードシグナチャーと以下の文書識
別記号は、ＣＰＵによって将来の参考用としてファース
トインファーストアウト（ＦＩＦＯ）バッファに入力さ
れる。

高速ＲＡＭを使用する事により、シグナチャーファイル
を保持しているディスクの転送速度に見合った処理速度
で所要なワードシグナチャーを選別する事が可能になる
。特定の物理ワードシグナチャーが無視されると、シス
テムは次の物理ワードシグナチャーを調べる。論理ワー
ドシグナチャーで用いられる好ましい゛ビット数をｍビ
ット数をｍビット長とすると、ｍは８から３２までの範
囲にある。

シグナチャーファイルによって利用されるカスクスペー
スを最小にする為、文書識別記号の表示値に平均して必
要なスペースを最少にする必要がある。これを達成する
一つの方法は、シグナチャ−ファイル作成時に文書番号
を三つのフィールドから成る一つの値として取り扱う事
でアり、その三つのフィールドは上位フィールドのラベ
ルをＨ５中位フィールドのラベルをＭ、そして低位フィ
ールドのラベルをＬとして次の様に表される。

しかしながら、文書番号は必ずしも連続通し番号とは限
らないが、特定のサブセット以内では番号の増加する方
向で現れる。従って、Ｈ又はＭフィールドは、低位フィ
ールドが最後の表示値以後にゼロの値を通過した時のみ
次の文書識別記号の表示値に加えられる。走査動作時に
、Ｈフィールドは常にその発生時にＦＩＦＯに入力され
る。Ｍフィールドが上記ストリームに現れた時、これは
ＭＲＥＧレジスタと称されるレジスタに将来使用するた
め与えられる。各文書のワードシグナチャーのグループ
は、Ｌフィールドを含む単独のバイトによって終わらせ
ることができる。Ｍフィールドは、その前の時点でのＬ
フィールドの値に対応していた値より増加した時のみ、
Ｌフィールドの前の位置に挿入される。文書識別記号の
表示値はＦＩＦＯに入力されるべき時、最後に現れ九Ｍ
フィールドの値（先にＭＲＥＧに与えられた値）と組み
合わされる。

ＰＩＦ’Ｏの出力を処理しているソフトウェアは、スト
リームに最後に現れたＨフィールドと一組のＭ、Ｌフィ
ールドを組み合わせる。このようにして、文書への関連
づけは平均して一文誉当たり１バイトよシやや大きい程
度の小さなスペース負担で処理され得る。文書識別記号
の表示値が「Ｌフィールド」のみあるいは「Ｍ及びＬフ
ィールド」のみから成るとしても実際の文−１１：識別
記号は三つのフィールド全てを有する。

表１は、シグナチャーファイルサブセットにおけるバイ
ト及びワードのエンコーディングの例を表わす。表１で
は、ＬＳＳＡ及びＨ８５Ａは、夫々シダナチャーセクタ
アドレスの低位及び高位であり、それはワードシグナチ
ャーストリームのソースの確認用として各セクタの始め
に埋め込まれている。

責　　ｌもりと−船釣にいえば、シグナチャーファイルの作成時
に各サブセットを作る為に一連のグループが生成される
。各グループは一連の物理ワードシグナチャーを持ち、
文書識別記号の表示値で終わらせられる。実際の文書識
別記号は高、中、低位のフィールドを持つ。あるサブセ
ット内の最初のグループの文書識別記号の表示値は、事
実、高、中、低位のフィールドを持つ。次のグループか
ら、文書識別記号の表示値は必ず低位のフィールドを保
有するが、その直前のグループで用いられた９文書識別
記号との相異に対応すべく、必要に応じて中位又は高位
のフィールドを持つことになる。文書識別記号は数の増
加する方向に設定されている。

従って、特定のグループ用のある文書識別記号の表示値
が低位のフィールドのみを有するとしても。

実際のそのグループ用の文書識別記号は高、中。

低位のフィールドを有する事になる。これは一つの変形
として、もしスペースを倹約しなくても良い場合は全て
の文書識別記号の表示値は実際三つのフィールドを持つ
事が出来る。

データ記憶手段からのデータストリームをスキャナを用
いて走査する事によりデータ記憶領域から情報を検索す
る場合、スキャナは高位フィールドを有する全ての文書
識別記号をＦＩＦＯに納める。

スキャナは将来必要になる時の為に、データストリーム
で最後に遭遇した中位のフィールドをレジスタに貯えて
おく。クイリーキーワードの物理ワードシグナチャーと
特定のグループに於ける物理ワードシグナチャーの間に
一致がとれた事をＲＡＭが指示した時のみ、最後に遭遇
した中位のフィールドがその特定のグループを終わらせ
る低位のフィールドと共にＦＩＦＯに挿入される。

尚、本発明は、上述した実施例に限られるものではなく
１本発明の要旨を変えない範囲において、多くの変型が
容易に考察されることは勿論である。

〔発明の効果〕

以上のように、本発明によれば、シグナチャーファイル
の捜索が一回のみで十分であり、且つ特定のクイリーキ
ーワードに対する応答としての捜索が、単にシグナチャ
ーファイルの一部のみで済ませ得ることができる。

【図面の簡単な説明】

第１図は、本発明のデータ記憶及び検索方法及びスキャ
ナの概略を示すブロック構成図、第２図はデータ記憶及
び検索用のデータ処理手段を示すブロック図である。図面の浄書（内容に変更なし）出願人代理人　　弁理士　鈴　江　武　彦第２図手続補正書（方式）、事件の表示特願平１−０１１７５２号、発明の名称データ記憶及び検索方法及びスキャナ、補正をする者事件との関係　　特許出願人氏名　フォーブス・ジェイ・パーコブスキ（ほか１名）４、代理人住所　東京都千代田区霞が関３丁目７番２号平成１年４
月２５日、補正の対象図面（第２図）

Claims

【特許請求の範囲】

（１）（ａ）データ記憶装置にデータベースを記憶する
工程と、（ｂ）サブセットに分割されるシグナチャーファイルを
上記データベース用に作成する工程、上記ファイルの作
成時に特定のサブセットにワードシグナチャーをマッピ
ングする工程、及び上記データ記憶手段の上記シグナチ
ャーファイルを記憶する工程と、（ｃ）ワードシグナチャーを走査する工程、及び特定の
サブセットに上記ワードシグナチャーを記憶するために
使用された同じマッピング情報を使用することによるク
イリーキーワードに応じた上記データベースから対応デ
ータを検索する工程とを具備し、上記データベースの情報を記憶すると共に検
索するもので、データ処理手段と、メモリ手段と、デー
タレコードを格納することが可能なデータ記憶手段を有
するコンピュータシステムを動作することを特徴とする
データ記憶及び検索方法。
（２）一つのクイリーキーワードに対する応答としてワ
ードシグナチャーとの一致をとる場合、上記クイリーキ
ーワード用の物理ワードシグナチャーを含むサブセット
のみを走査するシステムを有する工程を更に具備するこ
とを特徴とする特許請求の範囲第１項記載のデータ記憶
及び検索方法。
（３）特定の文書に対応するシグナチャーファイル作成
に当たって上記文書の全ての共通ワードを無視する工程
と、上記文書で残ったワードの各々に対応した論理ワー
ドシグナチャーを計算する工程と、論理ワードシグナチ
ャーがハッシ値として計算された場合は上記文書中の何
れか重複した論理ワードシグナチャーを除去する工程を
更に具備することを特徴とする特許請求の範囲第２項記
載のデータ記憶及び検索方法。
（４）上記シグナチャーファイルの作成に当たって上記
シグナチャーファイルを多数のサブセットに分割する工
程と、各論理ワードシグナチャーが二つの成分から構成
されるように生成する工程と、同一のサブセット指定フ
ィールドを有する全ての論理ワードシグナチャーを同じ
サブセットにマッピングする工程と、上記論理ワードシ
グナチャーのサブセット指定フィールドに連結している
物理ワードシグナチャーの成分のサブセット部分の記憶
において結果的に生じる工程とを更に含むことを特徴と
する特許請求の範囲第３項記載のデータ記憶及び検索方
法。
（５）上記サブセットの作成に当たって特定の物理ワー
ドシグナチャー若しくは物理ワードシグナチャーのグル
ープが誘導された元となる上記文書に文書識別記号を与
え、上記同一の文書から誘導された上記物理ワードシグ
ナチャー若しくは物理ワードシグナチャーのグループに
加える工程を更に具備することを特徴とする特許請求の
範囲第４項記載のデータ記憶及び検索方法。
（６）複数のビットから成る整数値のワードをマップす
るハッシ機能を形成することによって上記シグナチャー
ファイルを作成する工程と、文書識別記号の表示値を作
成する工程とを更に具備することを特徴とする特許請求
の範囲第５項記載のデータ記憶及び検索方法。
（７）上記論理ワードシグナチャーはｍビット長から成
るもので上記ｍは８乃至３２までの範囲であり、且つ多
数のサブセットから一つを選択するサブセット指定フィ
ールドに連絡されるｎビットの物理ワードシグナチャー
を有して上記ｎは８乃至２０の範囲であることを特徴と
する特許請求の範囲第６項記載のデータ記憶及び検索方
法。
（８）上記サブセットは大きさが増大された上記データ
ベースとして上記サブセットの大きさの増大を許容する
ために連続するサブセット間に任意のスペースを有する
ように上記データ記憶装置に配置され、その終端に付加
的な情報を追加することによって上記データベースの大
きさと、一つ以上のサブセットの終端で付加的なワード
シグナチャーグループを追加することによって上記シグ
ナチャーファイルの大きさとを増大する工程を更に具備
することを特徴とする特許請求の範囲第１項記載のデー
タ記憶及び検索方法。
（９）上記論理ワードシグナチャーはその対応キーワー
ドに関連されるべくものであり、上記論理ワードシグナ
チャーと上記対応キーワードとの関係はキーワード辞書
で保持されるものであり、全てのサブセットの長さを等
しく維持するように上記サブセット指定フィールドを選
択すると共に上記論理ワードシグナチャーと上記対応キ
ーワード間のマッピングが一対一になるように上記物理
ワードシグナチャーを選択する工程とを更に含むことを
特徴とする特許請求の範囲第８項記載のデータ記憶及び
検索方法。
（１０）上記データ記憶装置はディスクであり、予め明
記された物理ワードシグナチャーを求めて上記ディスク
から読出されるデータストリームを走査するスキャナに
関連した上記データ処理手段を使用する一つ以上のサブ
セットを取出す工程を更に具備することを特徴とする特
許請求の範囲第３項記載のデータ記憶及び検索方法。
（１１）上記各ｎビットの物理ワードシグナチャーはＲ
ＡＭに於ける２のｎ乗に相当するロケーションのアドレ
スとして使用されるもので上記ｎは８乃至２０の範囲の
整数であり、各ロケーションは１ビットとを保有し、上
記スキャナは上記アドレスされたＲＡＭのビットが上記
クイリーに対し無関係なワードシグナチャーを指示した
ときは物理ワードシグナチャーを無視し、いかなる物理
ワードシグナチャーでもＦＩＦＯに将来参考用として納
めるように制御し、上記アドレスされたＲＡＭビットロ
ケーションが相補的な値を有するときは上記スキャナは
求めんとする物理ワードシグナチャーを取出すことを特
徴とする特許請求の範囲第１０項記載のデータ記憶及び
検索方法。
（１２）上記シグナチャーファイルの作成時に各サブセ
ットを作成するのに一連のグループを生成する工程を含
み、各グループは一連の物理ワードシグナチャーを有し
、各グループは文書識別記号の表示値により終結され、
各文書識別記号の表示値は高、中及び低位フィールドを
有し、上記サブセットの第１のグループの上記文書識別
記号の表示値は実際に高、中及び低位フィールドを有し
てそれ以後のグループからの文書識別記号の表示値は常
に低位フィールドを有するが、中位フィード若しくは高
位フィールドに関しては直前のグループに表示された上
記文書識別記号からこれらのフィールドの変化を反映す
るのに必要なとき中位フィールド若しくは高位フィール
ドのみのフィールドが低位フィールドに加えて使用され
、上記文書識別記号は数の増加する方向に配列されるこ
とを特徴とする特許請求の範囲第１１項記載のデータ記
憶及び検索方法。
（１３）上記データ記憶手段からの情報を検索する場合
、上記データ記憶手段からデータストリームを走査する
ためにスキャナを使用する工程と、文書識別記号の全て
の表示値を押下するスキャナは上記ＦＩＦＯに送込む高
位フィールドを有し、上記スキャナは将来の参考のため
にレジスタに上記データストリームの最後に遭遇した中
位のフィールドを与え、上記最後に遭遇した中位のフィ
ールドは上記クイリーキーワードから誘導された上記物
理ワードシグナチャーとその特定のグループ内の物理ワ
ードシグナチャー間の一致を上記ＲＡＭが指示した場合
のみ特定のグループを終結される上記低位フィールドと
に送込まれることを特徴とす特許請求の範囲第１２項記
載のデータ記憶及び検索方法。
（１４）データベースに於ける情報を記憶すると共に検
索するためにコンピュータシステムの使用のためのもの
であって、上記コンピュータシステムはデータ記憶装置
の上記データを記憶するための手段と共に、データ処理
手段と、メモリ手段と、データ記憶手段と、上記データ
ベース用の文書識別記号と共にワードシグナチャーファ
イルを作成する手段と、ワードシグナチャー、文書識別
記号及びスキャナを使用してクイリーキーワードに応じ
たデータベースから対応データを検索する手段とを有し
、入力部と、出力部と、制御部と、アドレスライン及び
ＦＩＦＯバッファから成るメモリとを具備し、上記入力
部は上記データ記憶手段から情報を受取り、上記制御部
は上記情報を調べて上記メモリの上記アドレスラインに
全てのワードシグナチャーを送り、上記メモリは上記入
力部で特定のワードシグナチャーが上記クイリーキーワ
ード用のワードシグナチャーと一致するか否かを決定す
るために上記制御部に情報を提供し、一致が生じた場合
は、（ａ）上記制御部は上記ワードシグナチャーを上記ＦＩ
ＦＯバッファに送り、一致が生じたことを記憶しており
、この一致したワードシグナチャーの次に位置する文書
識別記号を上記ＦＩＦＯバッファに送り、その後上記デ
ータ記憶手段から受取った次のワードシグナチャーを処
理するように進行し、一致が生じない場合は、（ｂ）上記制御部は上記ワードシグナチャーを無視して
その後上記データ記憶手段から受取った次のワードシグ
ナチャーを処理するように進行し、上記制御部は実質的には数個のクイリーキーワードを並
行に処理することが可能なことを特徴とするスキャナ。