JP2849788B2

JP2849788B2 - データベース・キーワード・インデクシング方法

Info

Publication number: JP2849788B2
Application number: JP4316576A
Authority: JP
Inventors: ビクター・エイ・ベリー; アルセン・ハンセンス; エバン・ビー・ロス; アーロン・ジー・デイズリーハリソン
Original assignee: Northern Telecom Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1991-11-05
Filing date: 1992-10-31
Publication date: 1999-01-27
Anticipated expiration: 2014-01-27
Also published as: US5375235A; JPH05242149A; CA2082014C; GB2261306B; FR2683346A1; GB9221213D0; FR2683346B1; CA2082014A1; GB2261306A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は大容量データベース内に
貯えられたデータのインデクシング方法及び読出し方法
に関する。

【０００２】

【従来の技術】グラフィックス及びテキストのような技
術文書を含む多くのデータベースの物理的サイズはプリ
ントページを含むことがますます扱いにくくなってい
る。多くの電子システムの技術的な説明は、例えば、多
数のプリント情報のバインダの含むかもしれない。製本
されたプリントページの物理的サイズを除いて、バイン
ダのプリントページ内に含まれるタームまたはフレーズ
を検索することは難しい。最近では、紙の上よりむしろ
電子記憶媒体の上にデータベースを含むことがより実際
である。典型的には、端末ディスプレイ装置において、
電子の記憶装置の範囲内に含まれた情報へのアクセスを
行う。

【０００３】現在、テキストのようなバルク媒体記憶に
使用される記憶装置の共通なタイプはコンパクトディス
ク・リードオンリーメモリ（ＣＤ−ＲＯＭ）である。電
子記憶媒体の他のタイプは、ハードディスクドライブ、
磁気テープドライブおよびフロッピディスクドライブ等
がある。ＣＤ−ＲＯＭディスクは、ほとんど破壊されな
い安価なディスク上に何百メガバイトもの情報を保持し
かつ便利であるので、データ記憶媒体として選択され
る。不幸にも、標準的な市販のドライブを使用すること
によってＣＤ−ＲＯＭディスクから読み出す情報速度は
制限され、典型的には、それはハードドライブより非常
に遅い。平均して、情報の単位は、およそ１．５秒でＣ
Ｄ−ＲＯＭディスクから読み出すことができ、連続した
シーケンシャル保管情報を読み出すシーケンシャル読出
動作はおよそ０．１秒かかる。もし情報が読み出され、
そのディスクに関する情報の位置が未知の場合は、全て
のディスクが検索されなければならない。６５０メガバ
イトのＣＤ−ＲＯＭディスクのすべてを検索するには、
６０分より長い間がかかる。

【０００４】ＣＤ−ＲＯＭおよび他の大容量の記憶媒体
から情報を読み出す時間を少なくする種々の方式がよく
知られている。そのような方式では、辞書の形式でドキ
ュメント内にキーワードのアルファベット順に並んだイ
ンデックスがしばしば供給され、ポインタはキーワード
が発見される文書中の位置に置かれる。データベース内
のデータを検索する方式は、検索されるデータのタイプ
に特有である。たとえば、特許データベースは、データ
ベースの内の特別のフィールドに関するインデックス構
成を有する。これらのフィールドは、譲受人、特許権
者、発明者、その他を含む。そのような方法でデータを
構成することは、好ましい及びタイムリな検索結果を生
じる。しかしながら、検索インデックスは、特別仕様で
あり、そして検索されたデータタイプについての情報
は、ある時間より前に知られていなければならない。イ
ンデックスフィールドがストアされたどのテキスト・デ
ータベース・データ上でも使用できるデータを構成する
一般的方法を持つことは好ましいことである。情報記憶
及び検索ための１つの構成が、Ｄｉｓｓｌｙ等によって
米国特許４，２７６，５９７に示される。Ｄｉｓｓｌｙ
は、基本データファイル中のレコード群から所望の所定
の識別特性を有するレコードを運ぶ特定の情報を識別す
るための方法及び装置を記述する。バイナリ符号化され
た要素の配列を含んだ特別の読出しファイルは、基本デ
ータファイルの情報内容から作られ維持される。

【０００５】

【発明が解決しようとする課題】しかしながら、ある構
成は他よりも良く、またある構成は特別の媒体に最も適
しているが、ほとんどのインデックス構成は、どれも全
体として高価である。キーワード及びインデックステー
ブルの辞書は、ＣＤ−ＲＯＭ上にしばしばドキュメント
自身と同じ程度の非常に多くの記憶空間を取る。大きい
辞書及びデータベース・インデックスを有することによ
って、辞書及びデータベースがスキャンされる検索プロ
セスは遅くなる。したがって、インデックスはできる限
り小さくなるように保たれ、そして関連情報はできる限
り近くに一緒に保たれなければならない。

【０００６】本発明の目的は、データ記憶媒体からデー
タにアクセスする時間要求条件を改善することにある。

【０００７】本発明の他の目的は、データ記憶媒体の上
にストアされたデータに対して改善されたインデックス
構成を提供することにある。

【０００８】

【課題を解決するための手段】本発明は情報記録媒体上
に記録されたデータベース中で検索を行うためのキーワ
ードをインデックスするデータベース・キーワード・イ
ンデクシング方法を提供する。このキーワードはそのデ
ータベース内で発生する頻度に従って分類される。その
分類はインデックスの特別のタイプに対応し、検索テー
ブルによって供給されたインデックスはその記録媒体の
上にストアされる。本発明よれば、キーワードによって
検索し、読出しできる形で表示または印刷するためのデ
ータベース中に複数の情報ページを設け、検索に使用さ
れるキーワード辞書を設け、各キーワードはそれと関連
する単一のＩＤ番号およびワードタイプ番号を有し、そ
のワードタイプ番号の値はデータベース内のキーワード
の発生頻度およびポインタの発生頻度に依存し、少なく
とも１つのワードタイプを発生データにマッピングする
ための発生テーブルを設け、各々がデータベース中の各
情報ページに対応し、キーワードＩＤ番号をデータベー
ス中の対応ページ上の物理位置にマッピングする複数の
ページマップを設け、それによって、情報ページ中の特
定のキーワードの位置は、発生ポインタ、発生テーブル
およびページマップの１つによって決定される。

【０００９】本発明ではさらに、キーワード辞書は、第
１および第２のレベルを含み、第１のレベルはキーワー
ドおよび対応のブロックインディケータを有し、第２の
レベルは各ブロックインディケータ毎にそれに対応する
キーワードのグループを有するように構成される。

【００１０】本発明ではさらに、キーワードのグループ
は、アルファベット順に並べられるように構成される。

【００１１】本発明ではさらに、前記のワードタイプの
番号は、第１〜第３のワードタイプの番号を含み、その
第１のワードタイプの番号は、発生頻度が最小であるキ
ーワードの集合に対応し、第１のワードタイプの番号に
対する発生ポインタは、ページマップ番号とそのページ
マップに対するワードデータの番号を含むページマップ
位置からなり、その第２のワードタイプの番号は、発生
頻度は第２に最小であるキーワードの第２の集合に対応
し、第２のワードタイプの番号に対する発生ポインタ
は、発生テーブルの行を含み、その第３のワードタイプ
の番号は、発生頻度は最大であるキーワードの第３の集
合に対応し、第３のワードタイプの番号に対する発生ポ
インタは、発生情報を含まず、それによって、複数のペ
ージマップは、そのキーワードに対してシーケンシャル
に検索される。

【００１２】

【作用】本発明は、データベースを解析し、単一のＩＤ
番号を各単一のキーワードに割当て、その中で、少なく
とも最も頻繁に使用されるキーワードが数字の最も小さ
いＩＤ番号に割り当てられ、キーワードおよびそのデー
タベース間で少くとも１つのインデックスレベルを供給
する対応の割り当てＩＤ番号を含む記録媒体上に各キー
ワードをアルファベット順にストアし、その記録媒体上
にテーブルをストアし、そのテーブルは各ＩＤ番号をデ
ータベース内で対応のキーワードにマッピングし、その
記録媒体の部分にデータベースをストアする。

【００１３】

【実施例】図１は本発明に従ってデータ構造に分割され
たＣＤ−ＲＯＭディスクの図である。図１において、１
０はＣＤ−ＲＯＭディスク、１２は辞書、１４は発生テ
ーブル、１６はページマップ、１８はデータファイルで
ある。図１において、ＣＤ−ＲＯＭディスク１０はデー
タ構造に区画される。データ構造は、ストアされそして
参照されるように意図された一以上のテーブル、インデ
ックスまたはそのデータベースの形式を有する。データ
構造は、ＣＤ−ＲＯＭディスク１０上にストアされ、そ
してバイナリタイプで符号化される。参照・ソフトウェ
ア・プログラムを実行すべく適切にプログラムされたマ
イクロプロセッサタイプの検索エンジン（図示されてい
ない）は、市販のＣＤ−ＲＯＭディスクドライブ（図示
されていない）と結合され、そしてディスク１０上にス
トアされた情報をアクセスし、復号化する。一般に、連
続データまたは位置的に近いデータデータブロックとし
てリードまたはスキャンされる関連情報を供給すること
が望ましい。

【００１４】ディスク１０の周囲に隣接する外部区画に
ある辞書１２は、何百万ものバイト情報を含む。ただ
し、辞書１２は必ずしも周囲に位置する必要はない。し
かしながら、情報をリードするときディスク１０の表面
上でできるだけ短い距離を動くＣＯ−ＲＯＭディスクド
ライブのムービングヘッドがゆっくり動くためには、で
きる限り周辺近くに関連情報を有することがよい。

【００１５】辞書本発明によれば、ＣＤ−ＲＯＭディスクが使用されると
き、そのディスクの大部分は、プリント又は視覚タイプ
のファイル内の複数ページを含むドキュメントのデータ
ベースをストアするために専用される。しかしながら、
ＣＤ−ＲＯＭディスクの部分は、さらにディスク上にス
トアされたデータベース・ドキュメントを管理し検索す
るために使用されるインデックス及びテーブル形式の他
のデータ構造に割り当てられる。管理及び検索に関する
これらのデータ構造は、そのデータベースのユーザに透
明である。ユーザがＣＤ−ＲＯＭディスク上のワードま
たはフレーズを読み出したいとき、検索命令が入力さ
れ、そのワードがドキュメント中にあるならば端末上に
現れる。ユーザは、辞書１２、発生テーブル１４または
ページマップ１６についての何等の知識も理解も持つ必
要性はない。詳細に記述されるこれらのデータ構造は、
データの迅速な検索ためのメカニズムを供給する。

【００１６】図２、図３及び図４の中で示されたテーブ
ルは、ＣＤ−ＲＯＭディスク１０上に書込まれたバイナ
リタイプのテーブルを示す。なお、バイナリ・テーブル
は、ユーザが読むための形式ではない。図２は、図１の
データ構造の一つを示すテーブルである。図３は、図１
及び図２中で示されたデータ構造の相互関係を示すイン
デックステーブルの図である。図４は、本発明に従った
ページマップ及びページテーブルの図である。図２及び
３の中で示されるようにバイナリ・テーブルの表現はそ
の技術に熟練した人であればその場所のデータ構造及び
メカニズムを理解することができる。

【００１７】ＣＤ−ＲＯＭディスク１０を使用するに先
立ち、ディスク１０上に置かれるべきデータベース・ド
キュメントは解析され、すべての単一ワード辞書１２は
コンパイルされる。各単一ワードは、単一ＩＤ番号が割
り当てられ、そして各ＩＤ番号は、制御バイトによって
処理される。その制御バイトの機能は、２つ折れになっ
ている。もしそのタイプが「ｔｈｅ、ａｎｄ、ｉｆ、ｂ
ｕｔ及びｔｈｅｎ」のようなストップワードとして指定
される場合は、５ビットフィールドが、次に続くワード
のタイプを識別し、８ビット制御バイトの３ビットフィ
ールドは、制御バイトに続くストップワード数を特定す
る。マスタプロセスの後で、ページマップ１６はデータ
ベース・ドキュメント内のページの直接マッピングに対
応して組立られる。ストップワードは、図４中で示され
た”Ｘ”を有する制御バイトで置き換えられ、それによ
ってその発生が示される。ページマップ１６は、圧縮タ
イプのページ上のキーワードの位置マッピングである。

【００１８】２層構造の辞書１２は、その中で何千もの
単一ワードを有する。このように、ワードを特別に検索
する前に一般の検索を実行するために、第１層検索が実
行される。図２及び図３において、第１層は、主キーワ
ード・インデックス１２ａに対応する。第２層は、複数
のキーワード・インデックス・ブロック１２ｂに対応す
る。辞書１２を２つの層構造に区分することによって、
辞書１２内で検索されなければならないワード数を最小
にする。主キーワード・インデックス１２ａ中にワード
の初期ストリングを位置づけることは、一般にどこでワ
ードが見つけられるかを示す。主キーワード・インデッ
クス１２ａ中ですべてのキーと検索タームとを比較する
ことによって、そのワードがすこしでも存在するなら
ば、そのワードが発見されるキーワード・インデックス
・ブロック１２ｂが位置づけられる。主キーワード・イ
ンデックス１２ａは、アルファベット順に並べられたワ
ードのキーまたは起動ブロックを含むテーブルである。
各起動ブロックは、キーワード・インデックス・ブロッ
ク１２ｂへのポインタである。

【００１９】例えば、キーワード「ａｐｐｅｎｄ、ａｐ
ｐｌｅ、ａｓｙｍｍｅｔｒｙ、ａｘｅ」は、テキスト・
ストリング「ａｐｐｅ」によってすべて表され、行１を
示す”１”のような主キーワード・インデックス中の行
に対応する数を有する。アルファベット順のシーケンシ
ャル・ワードの次のブロックには、「ａｘｉｏｍ、ａｘ
ｉｓ、ｂａｔｍｏｂｉｌｅ、ｂｕｓｔ」が存在する。主
キーワード・インデックス１２ａの第２行は行フィール
ド中に数２を有するストリング「ａｘｉｏ」によって示
されたワードの最もあいまいでないタイプを持つ。「ａ
ｘｉｏｍ、ａｘｉｓ、ｂａｔｍｏｂｉｌｅ、ｂｕｓｔ」
の検索が、図２中で示されるキーワード・インデックス
・ブロックのブロック２に制限される。キーワード・イ
ンデックス・ブロック１２ｂ中のブロックのエントリー
数は変化し、そして与えられた例は単なる一例である。
主キーワード・インデックスは、できる限り小さくなる
ように保たれ、すべての時間ではないにしろ、ほとん
ど、検索エンジンに結合された高速メモリ（図示されて
いない）中に残らなければならない。

【００２０】キーワード・インデックス１２ａによって
指示されたインデックス・ブロック１２ｂは、辞書１２
内のＣＤ−ＲＯＭディスク１０の部分の上で使用され
る。これらのブロックは、検索されるテキスト・ストリ
ングについての特定情報を含む。例えば、もし、主キー
ワード・インデックス１２ａへのバイナリ一般検索を実
行することによって検索されたワードがブロック２中に
存在すると決定されたならば、他のブロックをアルファ
ベット順に範囲から除去し、キーワード・インデックス
・ブロックのブロック２が走査され、検索されたキーワ
ード、例えば、「ｂａｔｍｏｂｉｌｅ」は位置づけされ
る。ブロック２にストアされた情報の他のフィールドが
そのドキュメント内のワード「ｂａｔｍｏｂｉｌｅ」を
位置づけるために一般に使用される。キーワード・イン
デックス・ブロック１２ｂのブロック内にストアされた
情報は、全てのワード、ＩＤ番号、ワードのタイプ、発
生情報または発生テーブル１４情報である。ワードタイ
プおよび発生情報は後に記述される。

【００２１】キーワード・インデックス・ブロック１２
ｂはアルファベット順に配列され、キーワードＩＤ番号
は特別な基準によるワードまたはテキスト・ストリング
に割当てられる。しかしながら、これに対する１つの例
外は、統計学的にもっとも頻繁に使用される２５６のワ
ードは出現頻度に基づいて０と２５５の間で変化するＩ
Ｄ番号が割り当てられることである。もっとも頻繁に使
用されるワードは、もっとも小さいＩＤ番号０が割り当
てられる。次のもっとも頻繁に使用されるワードはＩＤ
番号１が割り当てられ、同様にＩＤ番号２５５まで割り
当てられる。このように、０から２５５までの２５６の
ＩＤ番号は、データベース内の発生の頻度に従って逆の
重み付けがされる。０と２５５間の番号を有しもっとも
頻繁に使用されるワードにタグを付けることによって、
それらの番号の各発生はページマップ１６上のバイト・
データ記憶装置内で識別される。０から２５５の全ての
ＩＤ番号が割り当てられた後に、キーワード・インデッ
クスブロック１２ｂはアルファベット順に並べられ、Ｉ
Ｄ番号が割り当てられなかったドキュメント中のすべて
の残りのキーワードは、２５６の値及びそれ以上の値を
有する単一の識別（ＩＤ）番号にマッピングされる。タ
ームドキュメントは、大容量のファイル又は典型的には
多くのページを有する何百もの小さいファイルから構成
される。

【００２２】発生テーブル発生テーブル１４は、ページマップ１６上のキーワード
のページ番号及び位置を含むフィールドを有するＣＤ−
ＲＯＭディスク１０の部分上にストアされたインデック
スである。ページマップ１６は人間が読める形式によっ
てドキュメントのページで表現される。キーワードタイ
プのテキスト・ストリングは、ページマップ１６には現
れない。キーワードは、それぞれのＩＤ番号で置き換え
られる。人間が読める形式はワードがリードされる順序
に関係し、人間によってリードされ識別されるものとし
てはページマップ１６に関係しない。

【００２３】辞書１２は、単一のストリングまたはキー
ワードを単一のＩＤ番号にマッピングする。しかしなが
ら、ＩＤ番号は、ドキュメント内でキーワードを位置づ
けるために、ドキュメント内で１つの位置または複数の
位置にマッピングされなければならない。このマッピン
グは、ほとんどの場合発生テーブル１４およびページマ
ップ１６を介して実行される。検索ワード、または検索
ワードのストリングが、特別のページマップ１６上に位
置づけられるとき、ビューア・ソフトウェアを実行する
検索エンジンは、ディスプレイ端末上のページを表示す
るために、その現在のページ及びドキュメント内の絶対
ワード位置を使用する。

【００２４】ワードタイプ単一ワードのキーワードは、データファイル１８のデー
タベースまたはドキュメント内で一度だけ発生し、タイ
プ１のキーワードと呼ばれる。タイプ１のキーワードは
一度だけ発生するので、情報はそのドキュメント内でキ
ーワードの位置を完全に記述することを要求されない。
たとえば、タイプ１のワードは、特別の位置で特別のペ
ージ上に一度だけ位置づけられる。一方、タイプ４のワ
ードは、複数の位置で複数のページに発生する。したが
って、タイプ１のワードは、キーワード・インデックス
・ブロック１２ｂの中で指定された発生情報を持ち、発
生テーブル１４は、これらのキーワードを検索するため
には使用されない。それ故、これらのタイプ１のワード
は、必要なインデックスレベルが非常に少ないので、よ
り速く位置づけられる。タイプ２のワードは、データベ
ース内でそのページの１０％未満で発生するワードであ
り、タイプ３のワードはそのページの２５％未満で発生
し、そしてタイプ４のワードはそのページの２５％以上
で発生する。

【００２５】タイプ２及びタイプ３のワードは複数発生
し、複数の位置を有するので、より多くのスペースが、
これらのクラスのワードを記述するために要求される。
というのは、タイプ３のワードの発生数はタイプ２のワ
ードの発生数より非常に大きいので、発生テーブル１４
はタイプ３のワードが位置づけられるページマップ１６
のページブロックのみを指定する。ページブロックの大
きさは１６ページである。ページ番号およびワードの位
置は双方とも発生テーブル１４の中でタイプ２のワード
に対して指定される。タイプ４のワードは、ドキュメン
ト内で多く発生するので、検索エンジンはページマップ
１６を直接スキャンしなければならない。与えられたペ
ージ上でタイプ４のワードを発見する可能性は、２５％
より大きい。タイプ２、３及び４に割当てられた割合
は、単なる一例であり、変化する可能性もある。

【００２６】他の利益は、使用タイプまたはワードクラ
スから明白である。たとえば、検索者がフレーズ「私の
ａｐｐｌｅはｂａｔｍｏｂｉｌｅにある」を検索したい
場合は、ページマップに現れるフレーズは、「Ｘ、２１
３、Ｘ、６９０２１」（”Ｘ”は制御バイトであり、ス
トップワードを示している）の形式である。もしそのａ
ｐｐｌｅ（タイプ４のワード）が最初に検索されるなら
ば、ページマップテーブルの各ページはａｐｐｌｅが検
索されるまでスキャンされるであろう。したがって、フ
レーズが検索されるとき、タイプｘのワードはタイプｙ
のワードの前に検索され、そこでは、ｘ＜ｙである。上
述の例において、ｂａｔｍｏｂｉｌｅはタイプ１のワー
ドであるので、最初に位置され、そしてタイプ１のワー
ドは、一般に、タイプ４のワードよりも非常に速く位置
づけられる。ｂａｔｍｏｂｉｌｅが特別のページマップ
の上に位置づけられた後で、そのページマップはその検
索ストリング「２１３、Ｘ６９０２１」がそのページ
の上にあるかどうかを決定するためにスキャンされる。
検索ストリングが発見されない場合は、ｂａｔｍｏｂｉ
ｌｅが位置づけられる他のページマップは検索ストリン
グが発見されるまでスキャンされる。

【００２７】

【発明の効果】以上説明したように、本発明によれば、
データベース内でワードの発生数に基づいてクラスまた
はタイプをキーワードに割当てること、及び各クラスに
関連したインデックスの１つ以上のレベルを有すること
によって、比較的に高速で、従来のほとんどのインデッ
クスよりも記憶スペースが少なくて済む検索方法及びデ
ータベース検索インデックス構造を提供できる。

【図面の簡単な説明】

【図１】本発明のデータ構造に区画されたＣＤ−ＲＯＭ
ディスクを示す図である。

【図２】図１のデータ構造の一つを示すテーブルであ
る。

【図３】図１及び図２中で示されたデータ構造の相互関
係を示すインデックステーブルを示す図である。

【図４】本発明のページマップ及びページテーブルの図
である。

【符号の説明】

１０ＣＤ−ＲＯＭディスク１２辞書１２ａ主キーワードインデックス１２ｂキーワード・インデックス・ブロック１４発生テーブル１６ページマップ１８データファイル

───────────────────────────────────────────────────── フロントページの続き (73)特許権者 390023157 ＴＨＥＷＯＲＬＤＴＲＡＤＥＣＥＮＴＲＥＯＦＭＯＮＴＲＥＡＬ，ＭＯＮＴＲＥＡＬ，ＱＵＥＢＥＣＨ２Ｙ３Ｙ４，ＣＡＮＡＤＡ (72)発明者アルセン・ハンセンスアメリカ合衆国，マサチューセッツ州 01757，ミルフォード，パーチェイスストリート 276 (72)発明者エバン・ビー・ロスアメリカ合衆国，マサチューセッツ州 02154，ウォルサム，アービングストリート 102 (72)発明者アーロン・ジー・デイズリーハリソンアメリカ合衆国，マサチューセッツ州 01701，フラミンガム，スワンソンロード 36 (56)参考文献特開平２−141821（ＪＰ，Ａ) 特開昭60−262255（ＪＰ，Ａ) 特開平２−299038（ＪＰ，Ａ) 特開平２−54347（ＪＰ，Ａ) 特開昭62−40530（ＪＰ，Ａ) 特開平３−229366（ＪＰ，Ａ) ”ＡＤＡＰＴＩＶＥＡＣＣＥＳＳＰＬＡＮＦＯＲＳＥＬＥＣＴＱＵＥＲＩＥＳＷＩＴＨＭＵＬＴＩＰＬＥＰＲＥＤＩＣＡＴＥＳ”，ＩＢＭＴｅｃｈｎｉｃａｌＤｉｓｃｌｏｓｕｒｅＢｕｌｌｅｔｉｏｎ，Ｖｏｌ．32, Ｎｏ．８Ｂ，Ｊａｎｕａｒｙ 1990，ｐ６−10 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】情報記録媒体上に記録されたデータベー
ス中で検索を行うためのキーワードをインデックスする
データベース・キーワード・インデクシング方法におい
て：キーワードによって検索し、読出しできる形で表
示または印刷するためのデータベース中に複数の情報ペ
ージを設け、検索に使用されるキーワード辞書を設け、各キーワード
はそれと関連する単一のＩＤ番号およびワードタイプ番
号を有し、そのワードタイプ番号の値はデータベース内
のキーワードの発生頻度およびポインタの発生頻度に依
存し、少なくとも１つのワードタイプを発生データにマッピン
グするための発生テーブルを設け、各々がデータベース中の各情報ページに対応し、キーワ
ードＩＤ番号をデータベース中の対応ページ上の物理位
置にマッピングする複数のページマップを設け、それによって、情報ページ中の特定のキーワードの位置
は、発生ポインタ、発生テーブルおよびページマップの
１つによって決定されることを特徴とするデータベース
・キーワード・インデクシング方法。
【請求項２】請求項１記載の方法において：キーワ
ード辞書は、第１および第２のレベルを含み、第１のレベルはキーワードおよび対応のブロックインデ
ィケータを有し、第２のレベルは各ブロックインディケータ毎にそれに対
応するキーワードのグループを有することを特徴とする
データベース・キーワード・インデクシング方法。
【請求項３】請求項２記載の方法において：前記の
キーワードのグループは、アルファベット順に並べられ
ることを特徴とするデータベース・キーワード・インデ
クシング方法。
【請求項４】請求項１記載の方法において：前記のワードタイプの番号は、第１のワードタイプの番
号を含み、その第１のワードタイプの番号は、発生頻度が最小であ
るキーワードの集合に対応し、第１のワードタイプの番
号に対する発生ポインタは、ページマップ番号とそのペ
ージマップに対するワードデータの番号を含むページマ
ップ位置からなることを特徴とするデータベース・キー
ワード・インデクシング方法。
【請求項５】請求項４記載の方法において：さらにワ
ードタイプの番号として、第２のワードタイプの番号を
含み、その第２のワードタイプの番号は、発生頻度は第２に最
小であるキーワードの第２の集合に対応し、第２のワー
ドタイプの番号に対する発生ポインタは、発生テーブル
の行を含むことを特徴とするデータベース・キーワード
・インデクシング方法。
【請求項６】請求項５記載の方法において：さらにワ
ードタイプの番号として、第３のワードタイプの番号を
含み、その第３のワードタイプの番号は、発生頻度は最大であ
るキーワードの第３の集合に対応し、第３のワードタイ
プの番号に対する発生ポインタは、発生情報を含まず、
それによって、複数のページマップは、そのキーワード
に対してシーケンシャルに検索されることを特徴とする
データベース・キーワード・インデクシング方法。