JP2849788B2 - データベース・キーワード・インデクシング方法 - Google Patents

データベース・キーワード・インデクシング方法

Info

Publication number
JP2849788B2
JP2849788B2 JP4316576A JP31657692A JP2849788B2 JP 2849788 B2 JP2849788 B2 JP 2849788B2 JP 4316576 A JP4316576 A JP 4316576A JP 31657692 A JP31657692 A JP 31657692A JP 2849788 B2 JP2849788 B2 JP 2849788B2
Authority
JP
Japan
Prior art keywords
keyword
database
word type
occurrence
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4316576A
Other languages
English (en)
Other versions
JPH05242149A (ja
Inventor
ビクター・エイ・ベリー
アルセン・ハンセンス
エバン・ビー・ロス
アーロン・ジー・デイズリーハリソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Northern Telecom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northern Telecom Ltd filed Critical Northern Telecom Ltd
Publication of JPH05242149A publication Critical patent/JPH05242149A/ja
Application granted granted Critical
Publication of JP2849788B2 publication Critical patent/JP2849788B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/327Table of contents
    • G11B27/329Table of contents on a disc [VTOC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/21Disc-shaped record carriers characterised in that the disc is of read-only, rewritable, or recordable type
    • G11B2220/213Read-only discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • G11B2220/25Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
    • G11B2220/2537Optical discs
    • G11B2220/2545CDs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は大容量データベース内に
貯えられたデータのインデクシング方法及び読出し方法
に関する。
【0002】
【従来の技術】グラフィックス及びテキストのような技
術文書を含む多くのデータベースの物理的サイズはプリ
ントページを含むことがますます扱いにくくなってい
る。多くの電子システムの技術的な説明は、例えば、多
数のプリント情報のバインダの含むかもしれない。製本
されたプリントページの物理的サイズを除いて、バイン
ダのプリントページ内に含まれるタームまたはフレーズ
を検索することは難しい。最近では、紙の上よりむしろ
電子記憶媒体の上にデータベースを含むことがより実際
である。典型的には、端末ディスプレイ装置において、
電子の記憶装置の範囲内に含まれた情報へのアクセスを
行う。
【0003】現在、テキストのようなバルク媒体記憶に
使用される記憶装置の共通なタイプはコンパクトディス
ク・リードオンリーメモリ(CD−ROM)である。電
子記憶媒体の他のタイプは、ハードディスクドライブ、
磁気テープドライブおよびフロッピディスクドライブ等
がある。CD−ROMディスクは、ほとんど破壊されな
い安価なディスク上に何百メガバイトもの情報を保持し
かつ便利であるので、データ記憶媒体として選択され
る。不幸にも、標準的な市販のドライブを使用すること
によってCD−ROMディスクから読み出す情報速度は
制限され、典型的には、それはハードドライブより非常
に遅い。平均して、情報の単位は、およそ1.5秒でC
D−ROMディスクから読み出すことができ、連続した
シーケンシャル保管情報を読み出すシーケンシャル読出
動作はおよそ0.1秒かかる。もし情報が読み出され、
そのディスクに関する情報の位置が未知の場合は、全て
のディスクが検索されなければならない。650メガバ
イトのCD−ROMディスクのすべてを検索するには、
60分より長い間がかかる。
【0004】CD−ROMおよび他の大容量の記憶媒体
から情報を読み出す時間を少なくする種々の方式がよく
知られている。そのような方式では、辞書の形式でドキ
ュメント内にキーワードのアルファベット順に並んだイ
ンデックスがしばしば供給され、ポインタはキーワード
が発見される文書中の位置に置かれる。データベース内
のデータを検索する方式は、検索されるデータのタイプ
に特有である。たとえば、特許データベースは、データ
ベースの内の特別のフィールドに関するインデックス構
成を有する。これらのフィールドは、譲受人、特許権
者、発明者、その他を含む。そのような方法でデータを
構成することは、好ましい及びタイムリな検索結果を生
じる。しかしながら、検索インデックスは、特別仕様で
あり、そして検索されたデータタイプについての情報
は、ある時間より前に知られていなければならない。イ
ンデックスフィールドがストアされたどのテキスト・デ
ータベース・データ上でも使用できるデータを構成する
一般的方法を持つことは好ましいことである。情報記憶
及び検索ための1つの構成が、Dissly等によって
米国特許4,276,597に示される。Dissly
は、基本データファイル中のレコード群から所望の所定
の識別特性を有するレコードを運ぶ特定の情報を識別す
るための方法及び装置を記述する。バイナリ符号化され
た要素の配列を含んだ特別の読出しファイルは、基本デ
ータファイルの情報内容から作られ維持される。
【0005】
【発明が解決しようとする課題】しかしながら、ある構
成は他よりも良く、またある構成は特別の媒体に最も適
しているが、ほとんどのインデックス構成は、どれも全
体として高価である。キーワード及びインデックステー
ブルの辞書は、CD−ROM上にしばしばドキュメント
自身と同じ程度の非常に多くの記憶空間を取る。大きい
辞書及びデータベース・インデックスを有することによ
って、辞書及びデータベースがスキャンされる検索プロ
セスは遅くなる。したがって、インデックスはできる限
り小さくなるように保たれ、そして関連情報はできる限
り近くに一緒に保たれなければならない。
【0006】本発明の目的は、データ記憶媒体からデー
タにアクセスする時間要求条件を改善することにある。
【0007】本発明の他の目的は、データ記憶媒体の上
にストアされたデータに対して改善されたインデックス
構成を提供することにある。
【0008】
【課題を解決するための手段】本発明は情報記録媒体上
に記録されたデータベース中で検索を行うためのキーワ
ードをインデックスするデータベース・キーワード・イ
ンデクシング方法を提供する。このキーワードはそのデ
ータベース内で発生する頻度に従って分類される。その
分類はインデックスの特別のタイプに対応し、検索テー
ブルによって供給されたインデックスはその記録媒体の
上にストアされる。本発明よれば、キーワードによって
検索し、読出しできる形で表示または印刷するためのデ
ータベース中に複数の情報ページを設け、検索に使用さ
れるキーワード辞書を設け、各キーワードはそれと関連
する単一のID番号およびワードタイプ番号を有し、そ
のワードタイプ番号の値はデータベース内のキーワード
の発生頻度およびポインタの発生頻度に依存し、少なく
とも1つのワードタイプを発生データにマッピングする
ための発生テーブルを設け、各々がデータベース中の各
情報ページに対応し、キーワードID番号をデータベー
ス中の対応ページ上の物理位置にマッピングする複数の
ページマップを設け、それによって、情報ページ中の特
定のキーワードの位置は、発生ポインタ、発生テーブル
およびページマップの1つによって決定される。
【0009】本発明ではさらに、キーワード辞書は、第
1および第2のレベルを含み、第1のレベルはキーワー
ドおよび対応のブロックインディケータを有し、第2の
レベルは各ブロックインディケータ毎にそれに対応する
キーワードのグループを有するように構成される。
【0010】本発明ではさらに、キーワードのグループ
は、アルファベット順に並べられるように構成される。
【0011】本発明ではさらに、前記のワードタイプの
番号は、第1〜第3のワードタイプの番号を含み、その
第1のワードタイプの番号は、発生頻度が最小であるキ
ーワードの集合に対応し、第1のワードタイプの番号に
対する発生ポインタは、ページマップ番号とそのページ
マップに対するワードデータの番号を含むページマップ
位置からなり、その第2のワードタイプの番号は、発生
頻度は第2に最小であるキーワードの第2の集合に対応
し、第2のワードタイプの番号に対する発生ポインタ
は、発生テーブルの行を含み、その第3のワードタイプ
の番号は、発生頻度は最大であるキーワードの第3の集
合に対応し、第3のワードタイプの番号に対する発生ポ
インタは、発生情報を含まず、それによって、複数のペ
ージマップは、そのキーワードに対してシーケンシャル
に検索される。
【0012】
【作用】本発明は、データベースを解析し、単一のID
番号を各単一のキーワードに割当て、その中で、少なく
とも最も頻繁に使用されるキーワードが数字の最も小さ
いID番号に割り当てられ、キーワードおよびそのデー
タベース間で少くとも1つのインデックスレベルを供給
する対応の割り当てID番号を含む記録媒体上に各キー
ワードをアルファベット順にストアし、その記録媒体上
にテーブルをストアし、そのテーブルは各ID番号をデ
ータベース内で対応のキーワードにマッピングし、その
記録媒体の部分にデータベースをストアする。
【0013】
【実施例】図1は本発明に従ってデータ構造に分割され
たCD−ROMディスクの図である。図1において、1
0はCD−ROMディスク、12は辞書、14は発生テ
ーブル、16はページマップ、18はデータファイルで
ある。図1において、CD−ROMディスク10はデー
タ構造に区画される。データ構造は、ストアされそして
参照されるように意図された一以上のテーブル、インデ
ックスまたはそのデータベースの形式を有する。データ
構造は、CD−ROMディスク10上にストアされ、そ
してバイナリタイプで符号化される。参照・ソフトウェ
ア・プログラムを実行すべく適切にプログラムされたマ
イクロプロセッサタイプの検索エンジン(図示されてい
ない)は、市販のCD−ROMディスクドライブ(図示
されていない)と結合され、そしてディスク10上にス
トアされた情報をアクセスし、復号化する。一般に、連
続データまたは位置的に近いデータデータブロックとし
てリードまたはスキャンされる関連情報を供給すること
が望ましい。
【0014】ディスク10の周囲に隣接する外部区画に
ある辞書12は、何百万ものバイト情報を含む。ただ
し、辞書12は必ずしも周囲に位置する必要はない。し
かしながら、情報をリードするときディスク10の表面
上でできるだけ短い距離を動くCO−ROMディスクド
ライブのムービングヘッドがゆっくり動くためには、で
きる限り周辺近くに関連情報を有することがよい。
【0015】辞書 本発明によれば、CD−ROMディスクが使用されると
き、そのディスクの大部分は、プリント又は視覚タイプ
のファイル内の複数ページを含むドキュメントのデータ
ベースをストアするために専用される。しかしながら、
CD−ROMディスクの部分は、さらにディスク上にス
トアされたデータベース・ドキュメントを管理し検索す
るために使用されるインデックス及びテーブル形式の他
のデータ構造に割り当てられる。管理及び検索に関する
これらのデータ構造は、そのデータベースのユーザに透
明である。ユーザがCD−ROMディスク上のワードま
たはフレーズを読み出したいとき、検索命令が入力さ
れ、そのワードがドキュメント中にあるならば端末上に
現れる。ユーザは、辞書12、発生テーブル14または
ページマップ16についての何等の知識も理解も持つ必
要性はない。詳細に記述されるこれらのデータ構造は、
データの迅速な検索ためのメカニズムを供給する。
【0016】図2、図3及び図4の中で示されたテーブ
ルは、CD−ROMディスク10上に書込まれたバイナ
リタイプのテーブルを示す。なお、バイナリ・テーブル
は、ユーザが読むための形式ではない。図2は、図1の
データ構造の一つを示すテーブルである。図3は、図1
及び図2中で示されたデータ構造の相互関係を示すイン
デックステーブルの図である。図4は、本発明に従った
ページマップ及びページテーブルの図である。図2及び
3の中で示されるようにバイナリ・テーブルの表現はそ
の技術に熟練した人であればその場所のデータ構造及び
メカニズムを理解することができる。
【0017】CD−ROMディスク10を使用するに先
立ち、ディスク10上に置かれるべきデータベース・ド
キュメントは解析され、すべての単一ワード辞書12は
コンパイルされる。各単一ワードは、単一ID番号が割
り当てられ、そして各ID番号は、制御バイトによって
処理される。その制御バイトの機能は、2つ折れになっ
ている。もしそのタイプが「the、and、if、b
ut及びthen」のようなストップワードとして指定
される場合は、5ビットフィールドが、次に続くワード
のタイプを識別し、8ビット制御バイトの3ビットフィ
ールドは、制御バイトに続くストップワード数を特定す
る。マスタプロセスの後で、ページマップ16はデータ
ベース・ドキュメント内のページの直接マッピングに対
応して組立られる。ストップワードは、図4中で示され
た”X”を有する制御バイトで置き換えられ、それによ
ってその発生が示される。ページマップ16は、圧縮タ
イプのページ上のキーワードの位置マッピングである。
【0018】2層構造の辞書12は、その中で何千もの
単一ワードを有する。このように、ワードを特別に検索
する前に一般の検索を実行するために、第1層検索が実
行される。図2及び図3において、第1層は、主キーワ
ード・インデックス12aに対応する。第2層は、複数
のキーワード・インデックス・ブロック12bに対応す
る。辞書12を2つの層構造に区分することによって、
辞書12内で検索されなければならないワード数を最小
にする。主キーワード・インデックス12a中にワード
の初期ストリングを位置づけることは、一般にどこでワ
ードが見つけられるかを示す。主キーワード・インデッ
クス12a中ですべてのキー検索タームを比較する
ことによって、そのワードがすこしでも存在するなら
ば、そのワードが発見されるキーワード・インデックス
・ブロック12bが位置づけられる。主キーワード・イ
ンデックス12aは、アルファベット順に並べられたワ
ードのキーまたは起動ブロックを含むテーブルである。
各起動ブロックは、キーワード・インデックス・ブロッ
ク12bへのポインタである。
【0019】例えば、キーワード「append、ap
ple、asymmetry、axe」は、テキスト・
ストリング「appe」によってすべて表され、1を
示す”1”のような主キーワード・インデックス中の
に対応する数を有する。アルファベット順のシーケンシ
ャル・ワードの次のブロックには、「axiom、ax
is、batmobile、bust」が存在する。主
キーワード・インデックス12aの第2行フィール
ド中に数2を有するストリング「axio」によって示
されたワードの最もあいまいでないタイプを持つ。「a
xiom、axis、batmobile、bust」
の検索が、図2中で示されるキーワード・インデックス
・ブロックのブロック2に制限される。キーワード・イ
ンデックス・ブロック12b中のブロックのエントリー
数は変化し、そして与えられた例は単なる一例である。
主キーワード・インデックスは、できる限り小さくなる
ように保たれ、すべての時間ではないにしろ、ほとん
ど、検索エンジンに結合された高速メモリ(図示されて
いない)中に残らなければならない。
【0020】キーワード・インデックス12aによって
指示されたインデックス・ブロック12bは、辞書12
内のCD−ROMディスク10の部分の上で使用され
る。これらのブロックは、検索されるテキスト・ストリ
ングについての特定情報を含む。例えば、もし、主キー
ワード・インデックス12aへのバイナリ一般検索を実
行することによって検索されたワードがブロック2中に
存在すると決定されたならば、他のブロックをアルファ
ベット順に範囲から除去し、キーワード・インデックス
・ブロックのブロック2が走査され、検索されたキーワ
ード、例えば、「batmobile」は位置づけされ
る。ブロック2にストアされた情報の他のフィールドが
そのドキュメント内のワード「batmobile」を
位置づけるために一般に使用される。キーワード・イン
デックス・ブロック12bのブロック内にストアされた
情報は、全てのワード、ID番号、ワードのタイプ、発
生情報または発生テーブル14情報である。ワードタイ
プおよび発生情報は後に記述される。
【0021】キーワード・インデックス・ブロック12
bはアルファベット順に配列され、キーワードID番号
は特別な基準によるワードまたはテキスト・ストリング
に割当てられる。しかしながら、これに対する1つの例
外は、統計学的にもっとも頻繁に使用される256のワ
ードは出現頻度に基づいて0と255の間で変化するI
D番号が割り当てられることである。もっとも頻繁に使
用されるワードは、もっとも小さいID番号0が割り当
てられる。次のもっとも頻繁に使用されるワードはID
番号1が割り当てられ、同様にID番号255まで割り
当てられる。このように、0から255までの256の
ID番号は、データベース内の発生の頻度に従って逆の
重み付けがされる。0と255間の番号を有しもっとも
頻繁に使用されるワードにタグを付けることによって、
それらの番号の各発生はページマップ16上のバイト・
データ記憶装置内で識別される。0から255の全ての
ID番号が割り当てられた後に、キーワード・インデッ
クスブロック12bはアルファベット順に並べられ、I
D番号が割り当てられなかったドキュメント中のすべて
の残りのキーワードは、256の値及びそれ以上の値を
有する単一の識別(ID)番号にマッピングされる。タ
ームドキュメントは、大容量のファイル又は典型的には
多くのページを有する何百もの小さいファイルから構成
される。
【0022】発生テーブル 発生テーブル14は、ページマップ16上のキーワード
のページ番号及び位置を含むフィールドを有するCD−
ROMディスク10の部分上にストアされたインデック
スである。ページマップ16は人間が読める形式によっ
てドキュメントのページで表現される。キーワードタイ
プのテキスト・ストリングは、ページマップ16には現
れない。キーワードは、それぞれのID番号で置き換え
られる。人間が読める形式はワードがリードされる順序
に関係し、人間によってリードされ識別されるものとし
てはページマップ16に関係しない。
【0023】辞書12は、単一のストリングまたはキー
ワードを単一のID番号にマッピングする。しかしなが
ら、ID番号は、ドキュメント内でキーワードを位置づ
けるために、ドキュメント内で1つの位置または複数の
位置にマッピングされなければならない。このマッピン
グは、ほとんどの場合発生テーブル14およびページマ
ップ16を介して実行される。検索ワード、または検索
ワードのストリングが、特別のページマップ16上に位
置づけられるとき、ビューア・ソフトウェアを実行する
検索エンジンは、ディスプレイ端末上のページを表示す
るために、その現在のページ及びドキュメント内の絶対
ワード位置を使用する。
【0024】ワードタイプ 単一ワードのキーワードは、データファイル18のデー
タベースまたはドキュメント内で一度だけ発生し、タイ
プ1のキーワードと呼ばれる。タイプ1のキーワード
一度だけ発生するので、情報はそのドキュメント内でキ
ーワードの位置を完全に記述することを要求されない。
たとえば、タイプ1のワードは、特別の位置で特別のペ
ージ上に一度だけ位置づけられる。一方、タイプ4のワ
ードは、複数の位置で複数のページに発生する。したが
って、タイプ1のワードは、キーワード・インデックス
・ブロック12bの中で指定された発生情報を持ち、発
生テーブル14は、これらのキーワードを検索するため
には使用されない。それ故、これらのタイプ1のワード
は、必要なインデックスレベルが非常に少ないので、よ
り速く位置づけられる。タイプ2のワードは、データベ
ース内でそのページの10%未満で発生するワードであ
り、タイプ3のワードはそのページの25%未満で発生
し、そしてタイプ4のワードはそのページの25%以上
で発生する。
【0025】タイプ2及びタイプ3のワードは複数発生
し、複数の位置を有するので、より多くのスペースが、
これらのクラスのワードを記述するために要求される。
というのは、タイプ3のワードの発生数はタイプ2のワ
ードの発生数より非常に大きいので、発生テーブル14
はタイプ3のワードが位置づけられるページマップ16
のページブロックのみを指定する。ページブロックの大
きさは16ページである。ページ番号およびワードの位
置は双方とも発生テーブル14の中でタイプ2のワード
に対して指定される。タイプ4のワードは、ドキュメン
ト内で多く発生するので、検索エンジンはページマップ
16を直接スキャンしなければならない。与えられたペ
ージ上でタイプ4のワードを発見する可能性は、25%
より大きい。タイプ2、3及び4に割当てられた割合
は、単なる一例であり、変化する可能性もある。
【0026】他の利益は、使用タイプまたはワードクラ
スから明白である。たとえば、検索者がフレーズ「私の
appleはbatmobileにある」を検索したい
場合は、ページマップに現れるフレーズは、「X、21
3、X、69021」(”X”は制御バイトであり、ス
トップワードを示している)の形式である。もしそのa
pple(タイプ4のワード)が最初に検索されるなら
ば、ページマップテーブルの各ページはappleが検
索されるまでスキャンされるであろう。したがって、フ
レーズが検索されるとき、タイプxのワードはタイプy
のワードの前に検索され、そこでは、x<yである。上
述の例において、batmobileはタイプ1のワー
ドであるので、最初に位置され、そしてタイプ1のワー
ドは、一般に、タイプ4のワードよりも非常に速く位置
づけられる。batmobileが特別のページマップ
の上に位置づけられた後で、そのページマップはその検
索ストリング「213、X 69021」がそのページ
の上にあるかどうかを決定するためにスキャンされる。
検索ストリングが発見されない場合は、batmobi
leが位置づけられる他のページマップは検索ストリン
グが発見されるまでスキャンされる。
【0027】
【発明の効果】以上説明したように、本発明によれば、
データベース内でワードの発生数に基づいてクラスまた
はタイプをキーワードに割当てること、及び各クラスに
関連したインデックスの1つ以上のレベルを有すること
によって、比較的に高速で、従来のほとんどのインデッ
クスよりも記憶スペースが少なくて済む検索方法及びデ
ータベース検索インデックス構造を提供できる。
【図面の簡単な説明】
【図1】本発明のデータ構造に区画されたCD−ROM
ディスクを示す図である。
【図2】図1のデータ構造の一つを示すテーブルであ
る。
【図3】図1及び図2中で示されたデータ構造の相互関
係を示すインデックステーブルを示す図である。
【図4】本発明のページマップ及びページテーブルの図
である。
【符号の説明】
10 CD−ROMディスク 12 辞書 12a 主キーワードインデックス 12b キーワード・インデックス・ブロック 14 発生テーブル 16 ページマップ 18 データファイル
───────────────────────────────────────────────────── フロントページの続き (73)特許権者 390023157 THE WORLD TRADE CE NTRE OF MONTREAL,M ONTREAL,QUEBEC H2Y 3Y4,CANADA (72)発明者 アルセン・ハンセンス アメリカ合衆国,マサチューセッツ州 01757,ミルフォード,パーチェイス ストリート 276 (72)発明者 エバン・ビー・ロス アメリカ合衆国,マサチューセッツ州 02154,ウォルサム,アービング スト リート 102 (72)発明者 アーロン・ジー・デイズリーハリソン アメリカ合衆国,マサチューセッツ州 01701,フラミンガム,スワンソン ロ ード 36 (56)参考文献 特開 平2−141821(JP,A) 特開 昭60−262255(JP,A) 特開 平2−299038(JP,A) 特開 平2−54347(JP,A) 特開 昭62−40530(JP,A) 特開 平3−229366(JP,A) ”ADAPTIVE ACCESS PLAN FOR SELECT QU ERIES WITH MULTIPL EPREDICATES”,IBM T echnical Disclosur e Bulletion,Vol.32, No.8B,January 1990,p 6−10 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 情報記録媒体上に記録されたデータベー
    ス中で検索を行うためのキーワードをインデックスする
    データベース・キーワード・インデクシング方法におい
    て: キーワードによって検索し、読出しできる形で表
    示または印刷するためのデータベース中に複数の情報ペ
    ージを設け、 検索に使用されるキーワード辞書を設け、各キーワード
    はそれと関連する単一のID番号およびワードタイプ番
    号を有し、そのワードタイプ番号の値はデータベース内
    のキーワードの発生頻度およびポインタの発生頻度に依
    存し、 少なくとも1つのワードタイプを発生データにマッピン
    グするための発生テーブルを設け、 各々がデータベース中の各情報ページに対応し、キーワ
    ードID番号をデータベース中の対応ページ上の物理位
    置にマッピングする複数のページマップを設け、 それによって、情報ページ中の特定のキーワードの位置
    は、発生ポインタ、発生テーブルおよびページマップの
    1つによって決定されることを特徴とするデータベース
    ・キーワード・インデクシング方法。
  2. 【請求項2】 請求項1記載の方法において: キーワ
    ード辞書は、第1および第2のレベルを含み、 第1のレベルはキーワードおよび対応のブロックインデ
    ィケータを有し、 第2のレベルは各ブロックインディケータ毎にそれに対
    応するキーワードのグループを有することを特徴とする
    データベース・キーワード・インデクシング方法。
  3. 【請求項3】 請求項2記載の方法において: 前記の
    キーワードのグループは、アルファベット順に並べられ
    ることを特徴とするデータベース・キーワード・インデ
    クシング方法。
  4. 【請求項4】 請求項1記載の方法において: 前記のワードタイプの番号は、第1のワードタイプの番
    号を含み、 その第1のワードタイプの番号は、発生頻度が最小であ
    るキーワードの集合に対応し、第1のワードタイプの番
    号に対する発生ポインタは、ページマップ番号とそのペ
    ージマップに対するワードデータの番号を含むページマ
    ップ位置からなることを特徴とするデータベース・キー
    ワード・インデクシング方法。
  5. 【請求項5】 請求項4記載の方法において:さらにワ
    ードタイプの番号として、第2のワードタイプの番号を
    含み、 その第2のワードタイプの番号は、発生頻度は第2に最
    小であるキーワードの第2の集合に対応し、第2のワー
    ドタイプの番号に対する発生ポインタは、発生テーブル
    の行を含むことを特徴とするデータベース・キーワード
    ・インデクシング方法。
  6. 【請求項6】 請求項5記載の方法において:さらにワ
    ードタイプの番号として、第3のワードタイプの番号を
    含み、 その第3のワードタイプの番号は、発生頻度は最大であ
    るキーワードの第3の集合に対応し、第3のワードタイ
    プの番号に対する発生ポインタは、発生情報を含まず、
    それによって、複数のページマップは、そのキーワード
    に対してシーケンシャルに検索されることを特徴とする
    データベース・キーワード・インデクシング方法。
JP4316576A 1991-11-05 1992-10-31 データベース・キーワード・インデクシング方法 Expired - Lifetime JP2849788B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US788081 1991-11-05
US07/788,081 US5375235A (en) 1991-11-05 1991-11-05 Method of indexing keywords for searching in a database recorded on an information recording medium

Publications (2)

Publication Number Publication Date
JPH05242149A JPH05242149A (ja) 1993-09-21
JP2849788B2 true JP2849788B2 (ja) 1999-01-27

Family

ID=25143402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4316576A Expired - Lifetime JP2849788B2 (ja) 1991-11-05 1992-10-31 データベース・キーワード・インデクシング方法

Country Status (5)

Country Link
US (1) US5375235A (ja)
JP (1) JP2849788B2 (ja)
CA (1) CA2082014C (ja)
FR (1) FR2683346A1 (ja)
GB (1) GB2261306B (ja)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640552A (en) * 1990-05-29 1997-06-17 Franklin Electronic Publishers, Incorporated Method and apparatus for providing multi-level searching in an electronic book
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5649183A (en) * 1992-12-08 1997-07-15 Microsoft Corporation Method for compressing full text indexes with document identifiers and location offsets
US5701459A (en) * 1993-01-13 1997-12-23 Novell, Inc. Method and apparatus for rapid full text index creation
US5369704A (en) 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
US7631343B1 (en) 1993-03-24 2009-12-08 Endgate LLC Down-line transcription system using automatic tracking and revenue collection
US6055531A (en) * 1993-03-24 2000-04-25 Engate Incorporated Down-line transcription system having context sensitive searching capability
US7249026B1 (en) 1993-03-24 2007-07-24 Engate Llc Attorney terminal having outline preparation capabilities for managing trial proceedings
GB9311580D0 (en) * 1993-06-04 1993-07-21 Phonelink Data Limited Data retrieval system
JP2781345B2 (ja) * 1993-09-20 1998-07-30 松下電器産業株式会社 情報再生装置
US5557484A (en) * 1994-10-11 1996-09-17 Storage Technology Corporation Differentiation of media types via leader block characteristics which include a plurality of leader block retrieval members
JP3573501B2 (ja) * 1994-10-11 2004-10-06 富士通株式会社 索引作成装置
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
JP3545824B2 (ja) * 1995-02-21 2004-07-21 富士通株式会社 データ検索装置
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US5794221A (en) 1995-07-07 1998-08-11 Egendorf; Andrew Internet billing method
US5634053A (en) * 1995-08-29 1997-05-27 Hughes Aircraft Company Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases
US5907842A (en) * 1995-12-20 1999-05-25 Intel Corporation Method of sorting numbers to obtain maxima/minima values with ordering
US5802524A (en) * 1996-07-29 1998-09-01 International Business Machines Corporation Method and product for integrating an object-based search engine with a parametrically archived database
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
US5913209A (en) * 1996-09-20 1999-06-15 Novell, Inc. Full text index reference compression
US6144968A (en) * 1997-03-04 2000-11-07 Zellweger; Paul Method and apparatus for menu access to information objects indexed by hierarchically-coded keywords
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6278990B1 (en) 1997-07-25 2001-08-21 Claritech Corporation Sort system for text retrieval
US6556713B2 (en) * 1997-07-31 2003-04-29 Canon Kabushiki Kaisha Image processing apparatus and method and storage medium
US6070157A (en) * 1997-09-23 2000-05-30 At&T Corporation Method for providing more informative results in response to a search of electronic documents
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6243501B1 (en) 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
US6178416B1 (en) * 1998-06-15 2001-01-23 James U. Parker Method and apparatus for knowledgebase searching
US6216123B1 (en) 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6584458B1 (en) * 1999-02-19 2003-06-24 Novell, Inc. Method and apparatuses for creating a full text index accommodating child words
US7797730B2 (en) 1999-06-24 2010-09-14 Engate Llc Downline transcription system using automatic tracking and revenue collection
AU7339700A (en) * 1999-11-16 2001-05-30 Searchcraft Corporation Method for searching from a plurality of data sources
CN1174332C (zh) * 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US7007066B1 (en) * 2000-05-04 2006-02-28 Bellsouth Intellectual Property Corp. Method and apparatus for configuring electronic mail according to a user-selected type
US7752275B2 (en) * 2000-05-04 2010-07-06 At&T Intellectual Property I, L.P. Method and apparatus for configuring electronic mail for delivery of electronic services
US7016937B1 (en) * 2000-05-04 2006-03-21 Bellsouth Intellectual Property Corporation Method and apparatus for generating reminders to transmit electronic mail attachments by parsing e-mail message text
AU2001259949B2 (en) * 2000-05-24 2006-05-25 Web Wombat Pty Ltd Indexing and searching ideographic characters on a networked system of computers
AUPQ773000A0 (en) * 2000-05-24 2000-06-15 Web Wombat Pty Ltd Indexing and searching ideographic characters on the internet
US7233942B2 (en) * 2000-10-10 2007-06-19 Truelocal Inc. Method and apparatus for providing geographically authenticated electronic documents
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US6938046B2 (en) * 2001-03-02 2005-08-30 Dow Jones Reuters Business Interactive, Llp Polyarchical data indexing and automatically generated hierarchical data indexing paths
JP3907161B2 (ja) * 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
US6942413B2 (en) * 2001-10-17 2005-09-13 Bradley P. Lane Disc management system
US6985908B2 (en) * 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US20040143644A1 (en) * 2003-01-21 2004-07-22 Nec Laboratories America, Inc. Meta-search engine architecture
US20050149507A1 (en) * 2003-02-05 2005-07-07 Nye Timothy G. Systems and methods for identifying an internet resource address
US8243636B2 (en) 2003-05-06 2012-08-14 Apple Inc. Messaging system and service
US7660784B1 (en) 2003-05-30 2010-02-09 Aol Llc Geographically resolving a keyword query
US7613687B2 (en) * 2003-05-30 2009-11-03 Truelocal Inc. Systems and methods for enhancing web-based searching
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US20050165750A1 (en) * 2004-01-20 2005-07-28 Microsoft Corporation Infrequent word index for document indexes
US7293016B1 (en) * 2004-01-22 2007-11-06 Microsoft Corporation Index partitioning based on document relevance for document indexes
US7310635B2 (en) * 2004-05-17 2007-12-18 Knowitall, Llc. Record management and retrieval computer program and method
EP1835455A1 (en) * 2005-01-05 2007-09-19 Musicstrands, S.A.U. System and method for recommending multimedia elements
US7693887B2 (en) * 2005-02-01 2010-04-06 Strands, Inc. Dynamic identification of a new set of media items responsive to an input mediaset
EP1849099B1 (en) 2005-02-03 2014-05-07 Apple Inc. Recommender system for identifying a new set of media items responsive to an input set of media items and knowledge base metrics
WO2006084269A2 (en) 2005-02-04 2006-08-10 Musicstrands, Inc. System for browsing through a music catalog using correlation metrics of a knowledge base of mediasets
US7840570B2 (en) * 2005-04-22 2010-11-23 Strands, Inc. System and method for acquiring and adding data on the playing of elements or multimedia files
US7877387B2 (en) 2005-09-30 2011-01-25 Strands, Inc. Systems and methods for promotional media item selection and promotional program unit generation
US20090070267A9 (en) * 2005-09-30 2009-03-12 Musicstrands, Inc. User programmed media delivery service
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
WO2007075622A2 (en) 2005-12-19 2007-07-05 Strands, Inc. User-to-user recommender
US20070162546A1 (en) * 2005-12-22 2007-07-12 Musicstrands, Inc. Sharing tags among individual user media libraries
US7814099B2 (en) * 2006-01-31 2010-10-12 Louis S. Wang Method for ranking and sorting electronic documents in a search result list based on relevance
US20070244880A1 (en) * 2006-02-03 2007-10-18 Francisco Martin Mediaset generation system
BRPI0621315A2 (pt) * 2006-02-10 2011-12-06 Strands Inc entretenimento interativo dinámico
JP5075132B2 (ja) * 2006-02-10 2012-11-14 アップル インコーポレイテッド モバイルメディアプレーヤファイルに優先度を付けるためのシステムおよび方法
WO2007103923A2 (en) 2006-03-06 2007-09-13 La La Media, Inc Article trading process
US7783589B2 (en) * 2006-08-04 2010-08-24 Apple Inc. Inverted index processing
EP2080118A2 (en) * 2006-10-20 2009-07-22 Strands, Inc. Personal music recommendation mapping
US8671000B2 (en) 2007-04-24 2014-03-11 Apple Inc. Method and arrangement for providing content to multimedia devices
US20080277314A1 (en) * 2007-05-08 2008-11-13 Halsey Richard B Olefin production utilizing whole crude oil/condensate feedstock and hydrotreating
US7720860B2 (en) * 2007-06-08 2010-05-18 Apple Inc. Query result iteration
US20080306949A1 (en) * 2007-06-08 2008-12-11 John Martin Hoernkvist Inverted index processing
US20110113052A1 (en) * 2007-06-08 2011-05-12 Hoernkvist John Query result iteration for multiple queries
US20090113002A1 (en) * 2007-10-30 2009-04-30 At&T Bls Intellectual Property, Inc. Electronic Message Attachment Options
EP2288986A4 (en) * 2008-04-28 2013-01-09 Strands Inc SYSTEMS FOR DISTRIBUTING PERSONALIZED RECOMMENDATIONS OF FINANCIAL PRODUCTS BASED ON USER DATA
WO2009151814A1 (en) * 2008-04-30 2009-12-17 Strands, Inc. Scaleable system and method for distributed prediction markets
WO2009146437A1 (en) * 2008-05-31 2009-12-03 Strands, Inc. Adaptive recommender technology
US20090299945A1 (en) * 2008-06-03 2009-12-03 Strands, Inc. Profile modeling for sharing individual user preferences
US8145654B2 (en) 2008-06-20 2012-03-27 Lexisnexis Group Systems and methods for document searching
US8966394B2 (en) 2008-09-08 2015-02-24 Apple Inc. System and method for playlist generation based on similarity data
US8332406B2 (en) 2008-10-02 2012-12-11 Apple Inc. Real-time visualization of user consumption of media items
US20100169328A1 (en) * 2008-12-31 2010-07-01 Strands, Inc. Systems and methods for making recommendations using model-based collaborative filtering with user communities and items collections
US20110060738A1 (en) 2009-09-08 2011-03-10 Apple Inc. Media item clustering based on similarity data
US8396882B2 (en) 2010-08-26 2013-03-12 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating issue libraries within a document corpus
US8396889B2 (en) 2010-08-26 2013-03-12 Lexisnexis, A Division Of Reed Elsevier Inc. Methods for semantics-based citation-pairing information
CN103023747B (zh) * 2011-09-26 2015-07-15 网秦无限(北京)科技有限公司 基于消息内容的信息推荐方法和系统
US8983905B2 (en) 2011-10-03 2015-03-17 Apple Inc. Merging playlists from multiple sources
US9336305B2 (en) 2013-05-09 2016-05-10 Lexis Nexis, A Division Of Reed Elsevier Inc. Systems and methods for generating issue networks
US10936653B2 (en) 2017-06-02 2021-03-02 Apple Inc. Automatically predicting relevant contexts for media items
CN110489971A (zh) * 2018-05-15 2019-11-22 微软技术许可有限责任公司 安全的数据集管理

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3670310A (en) * 1970-09-16 1972-06-13 Infodata Systems Inc Method for information storage and retrieval
US4276597A (en) * 1974-01-17 1981-06-30 Volt Delta Resources, Inc. Method and apparatus for information storage and retrieval
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPS5820072B2 (ja) * 1981-04-08 1983-04-21 工業技術院長 情報検索装置
US4429385A (en) * 1981-12-31 1984-01-31 American Newspaper Publishers Association Method and apparatus for digital serial scanning with hierarchical and relational access
US4554631A (en) * 1983-07-13 1985-11-19 At&T Bell Laboratories Keyword search automatic limiting method
US4817036A (en) * 1985-03-15 1989-03-28 Brigham Young University Computer system and method for data base indexing and information retrieval
US5062074A (en) * 1986-12-04 1991-10-29 Tnet, Inc. Information retrieval system and method
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"ADAPTIVE ACCESS PLAN FOR SELECT QUERIES WITH MULTIPLEPREDICATES",IBM Technical Disclosure Bulletion,Vol.32,No.8B,January 1990,p6−10

Also Published As

Publication number Publication date
US5375235A (en) 1994-12-20
JPH05242149A (ja) 1993-09-21
CA2082014C (en) 1999-02-02
GB2261306B (en) 1995-03-22
FR2683346A1 (fr) 1993-05-07
GB9221213D0 (en) 1992-11-25
FR2683346B1 (ja) 1994-12-16
CA2082014A1 (en) 1993-05-06
GB2261306A (en) 1993-05-12

Similar Documents

Publication Publication Date Title
JP2849788B2 (ja) データベース・キーワード・インデクシング方法
US6658437B1 (en) System and method for data space allocation using optimized bit representation
JP2770855B2 (ja) ディジタル式情報記憶検索方法及びその装置
US5727197A (en) Method and apparatus for segmenting a database
US5732402A (en) System and method for data space management using buddy system space allocation
US6330567B1 (en) Searching system for searching files stored in a hard disk of a personal computer
KR100880531B1 (ko) 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체
EP0487331B1 (en) Directory management system
JPH06505816A (ja) 情報検索システム及び方法
CN101256809B (zh) 形成包括关于多个信息存储介质的信息的盘库的再现设备
JP2501430B2 (ja) デイジタル式情報記憶検索装及び方法
EP0583108B1 (en) Entity-relation database
KR910014928A (ko) 데이터디스크와 데이터디스크상에 기록된 데이터검색방법
JPH06301732A (ja) 文書検索処理方法
US7720805B1 (en) Sequential unload processing of IMS databases
CN117290390B (zh) 一种基于特殊索引内存映射在大数据检索上的方法
JP3260706B2 (ja) パーソナルコンピュータのハードディスクに記憶されたファイルを検索する検索システム
JPS6064387A (ja) 情報表示方法
JP2605624B2 (ja) 光ディスク装置のファイルアロケート方式
JP3145727B2 (ja) データの検索装置
JPS61103242A (ja) 高速検索方式
JPS62177642A (ja) 追記型フアイル装置のフアイル管理方式
JPS60225938A (ja) 情報検索方式
JPH0258167A (ja) 光デイスクフアイル装置
Paijmans et al. A new approach to automated museum documentation