JP2849788B2 - データベース・キーワード・インデクシング方法 - Google Patents
データベース・キーワード・インデクシング方法Info
- Publication number
- JP2849788B2 JP2849788B2 JP4316576A JP31657692A JP2849788B2 JP 2849788 B2 JP2849788 B2 JP 2849788B2 JP 4316576 A JP4316576 A JP 4316576A JP 31657692 A JP31657692 A JP 31657692A JP 2849788 B2 JP2849788 B2 JP 2849788B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- database
- word type
- occurrence
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 3
- 239000011230 binding agent Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
- G11B27/32—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
- G11B27/327—Table of contents
- G11B27/329—Table of contents on a disc [VTOC]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/21—Disc-shaped record carriers characterised in that the disc is of read-only, rewritable, or recordable type
- G11B2220/213—Read-only discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B2220/00—Record carriers by type
- G11B2220/20—Disc-shaped record carriers
- G11B2220/25—Disc-shaped record carriers characterised in that the disc is based on a specific recording technology
- G11B2220/2537—Optical discs
- G11B2220/2545—CDs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【産業上の利用分野】本発明は大容量データベース内に
貯えられたデータのインデクシング方法及び読出し方法
に関する。
貯えられたデータのインデクシング方法及び読出し方法
に関する。
【0002】
【従来の技術】グラフィックス及びテキストのような技
術文書を含む多くのデータベースの物理的サイズはプリ
ントページを含むことがますます扱いにくくなってい
る。多くの電子システムの技術的な説明は、例えば、多
数のプリント情報のバインダの含むかもしれない。製本
されたプリントページの物理的サイズを除いて、バイン
ダのプリントページ内に含まれるタームまたはフレーズ
を検索することは難しい。最近では、紙の上よりむしろ
電子記憶媒体の上にデータベースを含むことがより実際
である。典型的には、端末ディスプレイ装置において、
電子の記憶装置の範囲内に含まれた情報へのアクセスを
行う。
術文書を含む多くのデータベースの物理的サイズはプリ
ントページを含むことがますます扱いにくくなってい
る。多くの電子システムの技術的な説明は、例えば、多
数のプリント情報のバインダの含むかもしれない。製本
されたプリントページの物理的サイズを除いて、バイン
ダのプリントページ内に含まれるタームまたはフレーズ
を検索することは難しい。最近では、紙の上よりむしろ
電子記憶媒体の上にデータベースを含むことがより実際
である。典型的には、端末ディスプレイ装置において、
電子の記憶装置の範囲内に含まれた情報へのアクセスを
行う。
【0003】現在、テキストのようなバルク媒体記憶に
使用される記憶装置の共通なタイプはコンパクトディス
ク・リードオンリーメモリ(CD−ROM)である。電
子記憶媒体の他のタイプは、ハードディスクドライブ、
磁気テープドライブおよびフロッピディスクドライブ等
がある。CD−ROMディスクは、ほとんど破壊されな
い安価なディスク上に何百メガバイトもの情報を保持し
かつ便利であるので、データ記憶媒体として選択され
る。不幸にも、標準的な市販のドライブを使用すること
によってCD−ROMディスクから読み出す情報速度は
制限され、典型的には、それはハードドライブより非常
に遅い。平均して、情報の単位は、およそ1.5秒でC
D−ROMディスクから読み出すことができ、連続した
シーケンシャル保管情報を読み出すシーケンシャル読出
動作はおよそ0.1秒かかる。もし情報が読み出され、
そのディスクに関する情報の位置が未知の場合は、全て
のディスクが検索されなければならない。650メガバ
イトのCD−ROMディスクのすべてを検索するには、
60分より長い間がかかる。
使用される記憶装置の共通なタイプはコンパクトディス
ク・リードオンリーメモリ(CD−ROM)である。電
子記憶媒体の他のタイプは、ハードディスクドライブ、
磁気テープドライブおよびフロッピディスクドライブ等
がある。CD−ROMディスクは、ほとんど破壊されな
い安価なディスク上に何百メガバイトもの情報を保持し
かつ便利であるので、データ記憶媒体として選択され
る。不幸にも、標準的な市販のドライブを使用すること
によってCD−ROMディスクから読み出す情報速度は
制限され、典型的には、それはハードドライブより非常
に遅い。平均して、情報の単位は、およそ1.5秒でC
D−ROMディスクから読み出すことができ、連続した
シーケンシャル保管情報を読み出すシーケンシャル読出
動作はおよそ0.1秒かかる。もし情報が読み出され、
そのディスクに関する情報の位置が未知の場合は、全て
のディスクが検索されなければならない。650メガバ
イトのCD−ROMディスクのすべてを検索するには、
60分より長い間がかかる。
【0004】CD−ROMおよび他の大容量の記憶媒体
から情報を読み出す時間を少なくする種々の方式がよく
知られている。そのような方式では、辞書の形式でドキ
ュメント内にキーワードのアルファベット順に並んだイ
ンデックスがしばしば供給され、ポインタはキーワード
が発見される文書中の位置に置かれる。データベース内
のデータを検索する方式は、検索されるデータのタイプ
に特有である。たとえば、特許データベースは、データ
ベースの内の特別のフィールドに関するインデックス構
成を有する。これらのフィールドは、譲受人、特許権
者、発明者、その他を含む。そのような方法でデータを
構成することは、好ましい及びタイムリな検索結果を生
じる。しかしながら、検索インデックスは、特別仕様で
あり、そして検索されたデータタイプについての情報
は、ある時間より前に知られていなければならない。イ
ンデックスフィールドがストアされたどのテキスト・デ
ータベース・データ上でも使用できるデータを構成する
一般的方法を持つことは好ましいことである。情報記憶
及び検索ための1つの構成が、Dissly等によって
米国特許4,276,597に示される。Dissly
は、基本データファイル中のレコード群から所望の所定
の識別特性を有するレコードを運ぶ特定の情報を識別す
るための方法及び装置を記述する。バイナリ符号化され
た要素の配列を含んだ特別の読出しファイルは、基本デ
ータファイルの情報内容から作られ維持される。
から情報を読み出す時間を少なくする種々の方式がよく
知られている。そのような方式では、辞書の形式でドキ
ュメント内にキーワードのアルファベット順に並んだイ
ンデックスがしばしば供給され、ポインタはキーワード
が発見される文書中の位置に置かれる。データベース内
のデータを検索する方式は、検索されるデータのタイプ
に特有である。たとえば、特許データベースは、データ
ベースの内の特別のフィールドに関するインデックス構
成を有する。これらのフィールドは、譲受人、特許権
者、発明者、その他を含む。そのような方法でデータを
構成することは、好ましい及びタイムリな検索結果を生
じる。しかしながら、検索インデックスは、特別仕様で
あり、そして検索されたデータタイプについての情報
は、ある時間より前に知られていなければならない。イ
ンデックスフィールドがストアされたどのテキスト・デ
ータベース・データ上でも使用できるデータを構成する
一般的方法を持つことは好ましいことである。情報記憶
及び検索ための1つの構成が、Dissly等によって
米国特許4,276,597に示される。Dissly
は、基本データファイル中のレコード群から所望の所定
の識別特性を有するレコードを運ぶ特定の情報を識別す
るための方法及び装置を記述する。バイナリ符号化され
た要素の配列を含んだ特別の読出しファイルは、基本デ
ータファイルの情報内容から作られ維持される。
【0005】
【発明が解決しようとする課題】しかしながら、ある構
成は他よりも良く、またある構成は特別の媒体に最も適
しているが、ほとんどのインデックス構成は、どれも全
体として高価である。キーワード及びインデックステー
ブルの辞書は、CD−ROM上にしばしばドキュメント
自身と同じ程度の非常に多くの記憶空間を取る。大きい
辞書及びデータベース・インデックスを有することによ
って、辞書及びデータベースがスキャンされる検索プロ
セスは遅くなる。したがって、インデックスはできる限
り小さくなるように保たれ、そして関連情報はできる限
り近くに一緒に保たれなければならない。
成は他よりも良く、またある構成は特別の媒体に最も適
しているが、ほとんどのインデックス構成は、どれも全
体として高価である。キーワード及びインデックステー
ブルの辞書は、CD−ROM上にしばしばドキュメント
自身と同じ程度の非常に多くの記憶空間を取る。大きい
辞書及びデータベース・インデックスを有することによ
って、辞書及びデータベースがスキャンされる検索プロ
セスは遅くなる。したがって、インデックスはできる限
り小さくなるように保たれ、そして関連情報はできる限
り近くに一緒に保たれなければならない。
【0006】本発明の目的は、データ記憶媒体からデー
タにアクセスする時間要求条件を改善することにある。
タにアクセスする時間要求条件を改善することにある。
【0007】本発明の他の目的は、データ記憶媒体の上
にストアされたデータに対して改善されたインデックス
構成を提供することにある。
にストアされたデータに対して改善されたインデックス
構成を提供することにある。
【0008】
【課題を解決するための手段】本発明は情報記録媒体上
に記録されたデータベース中で検索を行うためのキーワ
ードをインデックスするデータベース・キーワード・イ
ンデクシング方法を提供する。このキーワードはそのデ
ータベース内で発生する頻度に従って分類される。その
分類はインデックスの特別のタイプに対応し、検索テー
ブルによって供給されたインデックスはその記録媒体の
上にストアされる。本発明よれば、キーワードによって
検索し、読出しできる形で表示または印刷するためのデ
ータベース中に複数の情報ページを設け、検索に使用さ
れるキーワード辞書を設け、各キーワードはそれと関連
する単一のID番号およびワードタイプ番号を有し、そ
のワードタイプ番号の値はデータベース内のキーワード
の発生頻度およびポインタの発生頻度に依存し、少なく
とも1つのワードタイプを発生データにマッピングする
ための発生テーブルを設け、各々がデータベース中の各
情報ページに対応し、キーワードID番号をデータベー
ス中の対応ページ上の物理位置にマッピングする複数の
ページマップを設け、それによって、情報ページ中の特
定のキーワードの位置は、発生ポインタ、発生テーブル
およびページマップの1つによって決定される。
に記録されたデータベース中で検索を行うためのキーワ
ードをインデックスするデータベース・キーワード・イ
ンデクシング方法を提供する。このキーワードはそのデ
ータベース内で発生する頻度に従って分類される。その
分類はインデックスの特別のタイプに対応し、検索テー
ブルによって供給されたインデックスはその記録媒体の
上にストアされる。本発明よれば、キーワードによって
検索し、読出しできる形で表示または印刷するためのデ
ータベース中に複数の情報ページを設け、検索に使用さ
れるキーワード辞書を設け、各キーワードはそれと関連
する単一のID番号およびワードタイプ番号を有し、そ
のワードタイプ番号の値はデータベース内のキーワード
の発生頻度およびポインタの発生頻度に依存し、少なく
とも1つのワードタイプを発生データにマッピングする
ための発生テーブルを設け、各々がデータベース中の各
情報ページに対応し、キーワードID番号をデータベー
ス中の対応ページ上の物理位置にマッピングする複数の
ページマップを設け、それによって、情報ページ中の特
定のキーワードの位置は、発生ポインタ、発生テーブル
およびページマップの1つによって決定される。
【0009】本発明ではさらに、キーワード辞書は、第
1および第2のレベルを含み、第1のレベルはキーワー
ドおよび対応のブロックインディケータを有し、第2の
レベルは各ブロックインディケータ毎にそれに対応する
キーワードのグループを有するように構成される。
1および第2のレベルを含み、第1のレベルはキーワー
ドおよび対応のブロックインディケータを有し、第2の
レベルは各ブロックインディケータ毎にそれに対応する
キーワードのグループを有するように構成される。
【0010】本発明ではさらに、キーワードのグループ
は、アルファベット順に並べられるように構成される。
は、アルファベット順に並べられるように構成される。
【0011】本発明ではさらに、前記のワードタイプの
番号は、第1〜第3のワードタイプの番号を含み、その
第1のワードタイプの番号は、発生頻度が最小であるキ
ーワードの集合に対応し、第1のワードタイプの番号に
対する発生ポインタは、ページマップ番号とそのページ
マップに対するワードデータの番号を含むページマップ
位置からなり、その第2のワードタイプの番号は、発生
頻度は第2に最小であるキーワードの第2の集合に対応
し、第2のワードタイプの番号に対する発生ポインタ
は、発生テーブルの行を含み、その第3のワードタイプ
の番号は、発生頻度は最大であるキーワードの第3の集
合に対応し、第3のワードタイプの番号に対する発生ポ
インタは、発生情報を含まず、それによって、複数のペ
ージマップは、そのキーワードに対してシーケンシャル
に検索される。
番号は、第1〜第3のワードタイプの番号を含み、その
第1のワードタイプの番号は、発生頻度が最小であるキ
ーワードの集合に対応し、第1のワードタイプの番号に
対する発生ポインタは、ページマップ番号とそのページ
マップに対するワードデータの番号を含むページマップ
位置からなり、その第2のワードタイプの番号は、発生
頻度は第2に最小であるキーワードの第2の集合に対応
し、第2のワードタイプの番号に対する発生ポインタ
は、発生テーブルの行を含み、その第3のワードタイプ
の番号は、発生頻度は最大であるキーワードの第3の集
合に対応し、第3のワードタイプの番号に対する発生ポ
インタは、発生情報を含まず、それによって、複数のペ
ージマップは、そのキーワードに対してシーケンシャル
に検索される。
【0012】
【作用】本発明は、データベースを解析し、単一のID
番号を各単一のキーワードに割当て、その中で、少なく
とも最も頻繁に使用されるキーワードが数字の最も小さ
いID番号に割り当てられ、キーワードおよびそのデー
タベース間で少くとも1つのインデックスレベルを供給
する対応の割り当てID番号を含む記録媒体上に各キー
ワードをアルファベット順にストアし、その記録媒体上
にテーブルをストアし、そのテーブルは各ID番号をデ
ータベース内で対応のキーワードにマッピングし、その
記録媒体の部分にデータベースをストアする。
番号を各単一のキーワードに割当て、その中で、少なく
とも最も頻繁に使用されるキーワードが数字の最も小さ
いID番号に割り当てられ、キーワードおよびそのデー
タベース間で少くとも1つのインデックスレベルを供給
する対応の割り当てID番号を含む記録媒体上に各キー
ワードをアルファベット順にストアし、その記録媒体上
にテーブルをストアし、そのテーブルは各ID番号をデ
ータベース内で対応のキーワードにマッピングし、その
記録媒体の部分にデータベースをストアする。
【0013】
【実施例】図1は本発明に従ってデータ構造に分割され
たCD−ROMディスクの図である。図1において、1
0はCD−ROMディスク、12は辞書、14は発生テ
ーブル、16はページマップ、18はデータファイルで
ある。図1において、CD−ROMディスク10はデー
タ構造に区画される。データ構造は、ストアされそして
参照されるように意図された一以上のテーブル、インデ
ックスまたはそのデータベースの形式を有する。データ
構造は、CD−ROMディスク10上にストアされ、そ
してバイナリタイプで符号化される。参照・ソフトウェ
ア・プログラムを実行すべく適切にプログラムされたマ
イクロプロセッサタイプの検索エンジン(図示されてい
ない)は、市販のCD−ROMディスクドライブ(図示
されていない)と結合され、そしてディスク10上にス
トアされた情報をアクセスし、復号化する。一般に、連
続データまたは位置的に近いデータデータブロックとし
てリードまたはスキャンされる関連情報を供給すること
が望ましい。
たCD−ROMディスクの図である。図1において、1
0はCD−ROMディスク、12は辞書、14は発生テ
ーブル、16はページマップ、18はデータファイルで
ある。図1において、CD−ROMディスク10はデー
タ構造に区画される。データ構造は、ストアされそして
参照されるように意図された一以上のテーブル、インデ
ックスまたはそのデータベースの形式を有する。データ
構造は、CD−ROMディスク10上にストアされ、そ
してバイナリタイプで符号化される。参照・ソフトウェ
ア・プログラムを実行すべく適切にプログラムされたマ
イクロプロセッサタイプの検索エンジン(図示されてい
ない)は、市販のCD−ROMディスクドライブ(図示
されていない)と結合され、そしてディスク10上にス
トアされた情報をアクセスし、復号化する。一般に、連
続データまたは位置的に近いデータデータブロックとし
てリードまたはスキャンされる関連情報を供給すること
が望ましい。
【0014】ディスク10の周囲に隣接する外部区画に
ある辞書12は、何百万ものバイト情報を含む。ただ
し、辞書12は必ずしも周囲に位置する必要はない。し
かしながら、情報をリードするときディスク10の表面
上でできるだけ短い距離を動くCO−ROMディスクド
ライブのムービングヘッドがゆっくり動くためには、で
きる限り周辺近くに関連情報を有することがよい。
ある辞書12は、何百万ものバイト情報を含む。ただ
し、辞書12は必ずしも周囲に位置する必要はない。し
かしながら、情報をリードするときディスク10の表面
上でできるだけ短い距離を動くCO−ROMディスクド
ライブのムービングヘッドがゆっくり動くためには、で
きる限り周辺近くに関連情報を有することがよい。
【0015】辞書 本発明によれば、CD−ROMディスクが使用されると
き、そのディスクの大部分は、プリント又は視覚タイプ
のファイル内の複数ページを含むドキュメントのデータ
ベースをストアするために専用される。しかしながら、
CD−ROMディスクの部分は、さらにディスク上にス
トアされたデータベース・ドキュメントを管理し検索す
るために使用されるインデックス及びテーブル形式の他
のデータ構造に割り当てられる。管理及び検索に関する
これらのデータ構造は、そのデータベースのユーザに透
明である。ユーザがCD−ROMディスク上のワードま
たはフレーズを読み出したいとき、検索命令が入力さ
れ、そのワードがドキュメント中にあるならば端末上に
現れる。ユーザは、辞書12、発生テーブル14または
ページマップ16についての何等の知識も理解も持つ必
要性はない。詳細に記述されるこれらのデータ構造は、
データの迅速な検索ためのメカニズムを供給する。
き、そのディスクの大部分は、プリント又は視覚タイプ
のファイル内の複数ページを含むドキュメントのデータ
ベースをストアするために専用される。しかしながら、
CD−ROMディスクの部分は、さらにディスク上にス
トアされたデータベース・ドキュメントを管理し検索す
るために使用されるインデックス及びテーブル形式の他
のデータ構造に割り当てられる。管理及び検索に関する
これらのデータ構造は、そのデータベースのユーザに透
明である。ユーザがCD−ROMディスク上のワードま
たはフレーズを読み出したいとき、検索命令が入力さ
れ、そのワードがドキュメント中にあるならば端末上に
現れる。ユーザは、辞書12、発生テーブル14または
ページマップ16についての何等の知識も理解も持つ必
要性はない。詳細に記述されるこれらのデータ構造は、
データの迅速な検索ためのメカニズムを供給する。
【0016】図2、図3及び図4の中で示されたテーブ
ルは、CD−ROMディスク10上に書込まれたバイナ
リタイプのテーブルを示す。なお、バイナリ・テーブル
は、ユーザが読むための形式ではない。図2は、図1の
データ構造の一つを示すテーブルである。図3は、図1
及び図2中で示されたデータ構造の相互関係を示すイン
デックステーブルの図である。図4は、本発明に従った
ページマップ及びページテーブルの図である。図2及び
3の中で示されるようにバイナリ・テーブルの表現はそ
の技術に熟練した人であればその場所のデータ構造及び
メカニズムを理解することができる。
ルは、CD−ROMディスク10上に書込まれたバイナ
リタイプのテーブルを示す。なお、バイナリ・テーブル
は、ユーザが読むための形式ではない。図2は、図1の
データ構造の一つを示すテーブルである。図3は、図1
及び図2中で示されたデータ構造の相互関係を示すイン
デックステーブルの図である。図4は、本発明に従った
ページマップ及びページテーブルの図である。図2及び
3の中で示されるようにバイナリ・テーブルの表現はそ
の技術に熟練した人であればその場所のデータ構造及び
メカニズムを理解することができる。
【0017】CD−ROMディスク10を使用するに先
立ち、ディスク10上に置かれるべきデータベース・ド
キュメントは解析され、すべての単一ワード辞書12は
コンパイルされる。各単一ワードは、単一ID番号が割
り当てられ、そして各ID番号は、制御バイトによって
処理される。その制御バイトの機能は、2つ折れになっ
ている。もしそのタイプが「the、and、if、b
ut及びthen」のようなストップワードとして指定
される場合は、5ビットフィールドが、次に続くワード
のタイプを識別し、8ビット制御バイトの3ビットフィ
ールドは、制御バイトに続くストップワード数を特定す
る。マスタプロセスの後で、ページマップ16はデータ
ベース・ドキュメント内のページの直接マッピングに対
応して組立られる。ストップワードは、図4中で示され
た”X”を有する制御バイトで置き換えられ、それによ
ってその発生が示される。ページマップ16は、圧縮タ
イプのページ上のキーワードの位置マッピングである。
立ち、ディスク10上に置かれるべきデータベース・ド
キュメントは解析され、すべての単一ワード辞書12は
コンパイルされる。各単一ワードは、単一ID番号が割
り当てられ、そして各ID番号は、制御バイトによって
処理される。その制御バイトの機能は、2つ折れになっ
ている。もしそのタイプが「the、and、if、b
ut及びthen」のようなストップワードとして指定
される場合は、5ビットフィールドが、次に続くワード
のタイプを識別し、8ビット制御バイトの3ビットフィ
ールドは、制御バイトに続くストップワード数を特定す
る。マスタプロセスの後で、ページマップ16はデータ
ベース・ドキュメント内のページの直接マッピングに対
応して組立られる。ストップワードは、図4中で示され
た”X”を有する制御バイトで置き換えられ、それによ
ってその発生が示される。ページマップ16は、圧縮タ
イプのページ上のキーワードの位置マッピングである。
【0018】2層構造の辞書12は、その中で何千もの
単一ワードを有する。このように、ワードを特別に検索
する前に一般の検索を実行するために、第1層検索が実
行される。図2及び図3において、第1層は、主キーワ
ード・インデックス12aに対応する。第2層は、複数
のキーワード・インデックス・ブロック12bに対応す
る。辞書12を2つの層構造に区分することによって、
辞書12内で検索されなければならないワード数を最小
にする。主キーワード・インデックス12a中にワード
の初期ストリングを位置づけることは、一般にどこでワ
ードが見つけられるかを示す。主キーワード・インデッ
クス12a中ですべてのキーと検索タームとを比較する
ことによって、そのワードがすこしでも存在するなら
ば、そのワードが発見されるキーワード・インデックス
・ブロック12bが位置づけられる。主キーワード・イ
ンデックス12aは、アルファベット順に並べられたワ
ードのキーまたは起動ブロックを含むテーブルである。
各起動ブロックは、キーワード・インデックス・ブロッ
ク12bへのポインタである。
単一ワードを有する。このように、ワードを特別に検索
する前に一般の検索を実行するために、第1層検索が実
行される。図2及び図3において、第1層は、主キーワ
ード・インデックス12aに対応する。第2層は、複数
のキーワード・インデックス・ブロック12bに対応す
る。辞書12を2つの層構造に区分することによって、
辞書12内で検索されなければならないワード数を最小
にする。主キーワード・インデックス12a中にワード
の初期ストリングを位置づけることは、一般にどこでワ
ードが見つけられるかを示す。主キーワード・インデッ
クス12a中ですべてのキーと検索タームとを比較する
ことによって、そのワードがすこしでも存在するなら
ば、そのワードが発見されるキーワード・インデックス
・ブロック12bが位置づけられる。主キーワード・イ
ンデックス12aは、アルファベット順に並べられたワ
ードのキーまたは起動ブロックを含むテーブルである。
各起動ブロックは、キーワード・インデックス・ブロッ
ク12bへのポインタである。
【0019】例えば、キーワード「append、ap
ple、asymmetry、axe」は、テキスト・
ストリング「appe」によってすべて表され、行1を
示す”1”のような主キーワード・インデックス中の行
に対応する数を有する。アルファベット順のシーケンシ
ャル・ワードの次のブロックには、「axiom、ax
is、batmobile、bust」が存在する。主
キーワード・インデックス12aの第2行は行フィール
ド中に数2を有するストリング「axio」によって示
されたワードの最もあいまいでないタイプを持つ。「a
xiom、axis、batmobile、bust」
の検索が、図2中で示されるキーワード・インデックス
・ブロックのブロック2に制限される。キーワード・イ
ンデックス・ブロック12b中のブロックのエントリー
数は変化し、そして与えられた例は単なる一例である。
主キーワード・インデックスは、できる限り小さくなる
ように保たれ、すべての時間ではないにしろ、ほとん
ど、検索エンジンに結合された高速メモリ(図示されて
いない)中に残らなければならない。
ple、asymmetry、axe」は、テキスト・
ストリング「appe」によってすべて表され、行1を
示す”1”のような主キーワード・インデックス中の行
に対応する数を有する。アルファベット順のシーケンシ
ャル・ワードの次のブロックには、「axiom、ax
is、batmobile、bust」が存在する。主
キーワード・インデックス12aの第2行は行フィール
ド中に数2を有するストリング「axio」によって示
されたワードの最もあいまいでないタイプを持つ。「a
xiom、axis、batmobile、bust」
の検索が、図2中で示されるキーワード・インデックス
・ブロックのブロック2に制限される。キーワード・イ
ンデックス・ブロック12b中のブロックのエントリー
数は変化し、そして与えられた例は単なる一例である。
主キーワード・インデックスは、できる限り小さくなる
ように保たれ、すべての時間ではないにしろ、ほとん
ど、検索エンジンに結合された高速メモリ(図示されて
いない)中に残らなければならない。
【0020】キーワード・インデックス12aによって
指示されたインデックス・ブロック12bは、辞書12
内のCD−ROMディスク10の部分の上で使用され
る。これらのブロックは、検索されるテキスト・ストリ
ングについての特定情報を含む。例えば、もし、主キー
ワード・インデックス12aへのバイナリ一般検索を実
行することによって検索されたワードがブロック2中に
存在すると決定されたならば、他のブロックをアルファ
ベット順に範囲から除去し、キーワード・インデックス
・ブロックのブロック2が走査され、検索されたキーワ
ード、例えば、「batmobile」は位置づけされ
る。ブロック2にストアされた情報の他のフィールドが
そのドキュメント内のワード「batmobile」を
位置づけるために一般に使用される。キーワード・イン
デックス・ブロック12bのブロック内にストアされた
情報は、全てのワード、ID番号、ワードのタイプ、発
生情報または発生テーブル14情報である。ワードタイ
プおよび発生情報は後に記述される。
指示されたインデックス・ブロック12bは、辞書12
内のCD−ROMディスク10の部分の上で使用され
る。これらのブロックは、検索されるテキスト・ストリ
ングについての特定情報を含む。例えば、もし、主キー
ワード・インデックス12aへのバイナリ一般検索を実
行することによって検索されたワードがブロック2中に
存在すると決定されたならば、他のブロックをアルファ
ベット順に範囲から除去し、キーワード・インデックス
・ブロックのブロック2が走査され、検索されたキーワ
ード、例えば、「batmobile」は位置づけされ
る。ブロック2にストアされた情報の他のフィールドが
そのドキュメント内のワード「batmobile」を
位置づけるために一般に使用される。キーワード・イン
デックス・ブロック12bのブロック内にストアされた
情報は、全てのワード、ID番号、ワードのタイプ、発
生情報または発生テーブル14情報である。ワードタイ
プおよび発生情報は後に記述される。
【0021】キーワード・インデックス・ブロック12
bはアルファベット順に配列され、キーワードID番号
は特別な基準によるワードまたはテキスト・ストリング
に割当てられる。しかしながら、これに対する1つの例
外は、統計学的にもっとも頻繁に使用される256のワ
ードは出現頻度に基づいて0と255の間で変化するI
D番号が割り当てられることである。もっとも頻繁に使
用されるワードは、もっとも小さいID番号0が割り当
てられる。次のもっとも頻繁に使用されるワードはID
番号1が割り当てられ、同様にID番号255まで割り
当てられる。このように、0から255までの256の
ID番号は、データベース内の発生の頻度に従って逆の
重み付けがされる。0と255間の番号を有しもっとも
頻繁に使用されるワードにタグを付けることによって、
それらの番号の各発生はページマップ16上のバイト・
データ記憶装置内で識別される。0から255の全ての
ID番号が割り当てられた後に、キーワード・インデッ
クスブロック12bはアルファベット順に並べられ、I
D番号が割り当てられなかったドキュメント中のすべて
の残りのキーワードは、256の値及びそれ以上の値を
有する単一の識別(ID)番号にマッピングされる。タ
ームドキュメントは、大容量のファイル又は典型的には
多くのページを有する何百もの小さいファイルから構成
される。
bはアルファベット順に配列され、キーワードID番号
は特別な基準によるワードまたはテキスト・ストリング
に割当てられる。しかしながら、これに対する1つの例
外は、統計学的にもっとも頻繁に使用される256のワ
ードは出現頻度に基づいて0と255の間で変化するI
D番号が割り当てられることである。もっとも頻繁に使
用されるワードは、もっとも小さいID番号0が割り当
てられる。次のもっとも頻繁に使用されるワードはID
番号1が割り当てられ、同様にID番号255まで割り
当てられる。このように、0から255までの256の
ID番号は、データベース内の発生の頻度に従って逆の
重み付けがされる。0と255間の番号を有しもっとも
頻繁に使用されるワードにタグを付けることによって、
それらの番号の各発生はページマップ16上のバイト・
データ記憶装置内で識別される。0から255の全ての
ID番号が割り当てられた後に、キーワード・インデッ
クスブロック12bはアルファベット順に並べられ、I
D番号が割り当てられなかったドキュメント中のすべて
の残りのキーワードは、256の値及びそれ以上の値を
有する単一の識別(ID)番号にマッピングされる。タ
ームドキュメントは、大容量のファイル又は典型的には
多くのページを有する何百もの小さいファイルから構成
される。
【0022】発生テーブル 発生テーブル14は、ページマップ16上のキーワード
のページ番号及び位置を含むフィールドを有するCD−
ROMディスク10の部分上にストアされたインデック
スである。ページマップ16は人間が読める形式によっ
てドキュメントのページで表現される。キーワードタイ
プのテキスト・ストリングは、ページマップ16には現
れない。キーワードは、それぞれのID番号で置き換え
られる。人間が読める形式はワードがリードされる順序
に関係し、人間によってリードされ識別されるものとし
てはページマップ16に関係しない。
のページ番号及び位置を含むフィールドを有するCD−
ROMディスク10の部分上にストアされたインデック
スである。ページマップ16は人間が読める形式によっ
てドキュメントのページで表現される。キーワードタイ
プのテキスト・ストリングは、ページマップ16には現
れない。キーワードは、それぞれのID番号で置き換え
られる。人間が読める形式はワードがリードされる順序
に関係し、人間によってリードされ識別されるものとし
てはページマップ16に関係しない。
【0023】辞書12は、単一のストリングまたはキー
ワードを単一のID番号にマッピングする。しかしなが
ら、ID番号は、ドキュメント内でキーワードを位置づ
けるために、ドキュメント内で1つの位置または複数の
位置にマッピングされなければならない。このマッピン
グは、ほとんどの場合発生テーブル14およびページマ
ップ16を介して実行される。検索ワード、または検索
ワードのストリングが、特別のページマップ16上に位
置づけられるとき、ビューア・ソフトウェアを実行する
検索エンジンは、ディスプレイ端末上のページを表示す
るために、その現在のページ及びドキュメント内の絶対
ワード位置を使用する。
ワードを単一のID番号にマッピングする。しかしなが
ら、ID番号は、ドキュメント内でキーワードを位置づ
けるために、ドキュメント内で1つの位置または複数の
位置にマッピングされなければならない。このマッピン
グは、ほとんどの場合発生テーブル14およびページマ
ップ16を介して実行される。検索ワード、または検索
ワードのストリングが、特別のページマップ16上に位
置づけられるとき、ビューア・ソフトウェアを実行する
検索エンジンは、ディスプレイ端末上のページを表示す
るために、その現在のページ及びドキュメント内の絶対
ワード位置を使用する。
【0024】ワードタイプ 単一ワードのキーワードは、データファイル18のデー
タベースまたはドキュメント内で一度だけ発生し、タイ
プ1のキーワードと呼ばれる。タイプ1のキーワードは
一度だけ発生するので、情報はそのドキュメント内でキ
ーワードの位置を完全に記述することを要求されない。
たとえば、タイプ1のワードは、特別の位置で特別のペ
ージ上に一度だけ位置づけられる。一方、タイプ4のワ
ードは、複数の位置で複数のページに発生する。したが
って、タイプ1のワードは、キーワード・インデックス
・ブロック12bの中で指定された発生情報を持ち、発
生テーブル14は、これらのキーワードを検索するため
には使用されない。それ故、これらのタイプ1のワード
は、必要なインデックスレベルが非常に少ないので、よ
り速く位置づけられる。タイプ2のワードは、データベ
ース内でそのページの10%未満で発生するワードであ
り、タイプ3のワードはそのページの25%未満で発生
し、そしてタイプ4のワードはそのページの25%以上
で発生する。
タベースまたはドキュメント内で一度だけ発生し、タイ
プ1のキーワードと呼ばれる。タイプ1のキーワードは
一度だけ発生するので、情報はそのドキュメント内でキ
ーワードの位置を完全に記述することを要求されない。
たとえば、タイプ1のワードは、特別の位置で特別のペ
ージ上に一度だけ位置づけられる。一方、タイプ4のワ
ードは、複数の位置で複数のページに発生する。したが
って、タイプ1のワードは、キーワード・インデックス
・ブロック12bの中で指定された発生情報を持ち、発
生テーブル14は、これらのキーワードを検索するため
には使用されない。それ故、これらのタイプ1のワード
は、必要なインデックスレベルが非常に少ないので、よ
り速く位置づけられる。タイプ2のワードは、データベ
ース内でそのページの10%未満で発生するワードであ
り、タイプ3のワードはそのページの25%未満で発生
し、そしてタイプ4のワードはそのページの25%以上
で発生する。
【0025】タイプ2及びタイプ3のワードは複数発生
し、複数の位置を有するので、より多くのスペースが、
これらのクラスのワードを記述するために要求される。
というのは、タイプ3のワードの発生数はタイプ2のワ
ードの発生数より非常に大きいので、発生テーブル14
はタイプ3のワードが位置づけられるページマップ16
のページブロックのみを指定する。ページブロックの大
きさは16ページである。ページ番号およびワードの位
置は双方とも発生テーブル14の中でタイプ2のワード
に対して指定される。タイプ4のワードは、ドキュメン
ト内で多く発生するので、検索エンジンはページマップ
16を直接スキャンしなければならない。与えられたペ
ージ上でタイプ4のワードを発見する可能性は、25%
より大きい。タイプ2、3及び4に割当てられた割合
は、単なる一例であり、変化する可能性もある。
し、複数の位置を有するので、より多くのスペースが、
これらのクラスのワードを記述するために要求される。
というのは、タイプ3のワードの発生数はタイプ2のワ
ードの発生数より非常に大きいので、発生テーブル14
はタイプ3のワードが位置づけられるページマップ16
のページブロックのみを指定する。ページブロックの大
きさは16ページである。ページ番号およびワードの位
置は双方とも発生テーブル14の中でタイプ2のワード
に対して指定される。タイプ4のワードは、ドキュメン
ト内で多く発生するので、検索エンジンはページマップ
16を直接スキャンしなければならない。与えられたペ
ージ上でタイプ4のワードを発見する可能性は、25%
より大きい。タイプ2、3及び4に割当てられた割合
は、単なる一例であり、変化する可能性もある。
【0026】他の利益は、使用タイプまたはワードクラ
スから明白である。たとえば、検索者がフレーズ「私の
appleはbatmobileにある」を検索したい
場合は、ページマップに現れるフレーズは、「X、21
3、X、69021」(”X”は制御バイトであり、ス
トップワードを示している)の形式である。もしそのa
pple(タイプ4のワード)が最初に検索されるなら
ば、ページマップテーブルの各ページはappleが検
索されるまでスキャンされるであろう。したがって、フ
レーズが検索されるとき、タイプxのワードはタイプy
のワードの前に検索され、そこでは、x<yである。上
述の例において、batmobileはタイプ1のワー
ドであるので、最初に位置され、そしてタイプ1のワー
ドは、一般に、タイプ4のワードよりも非常に速く位置
づけられる。batmobileが特別のページマップ
の上に位置づけられた後で、そのページマップはその検
索ストリング「213、X 69021」がそのページ
の上にあるかどうかを決定するためにスキャンされる。
検索ストリングが発見されない場合は、batmobi
leが位置づけられる他のページマップは検索ストリン
グが発見されるまでスキャンされる。
スから明白である。たとえば、検索者がフレーズ「私の
appleはbatmobileにある」を検索したい
場合は、ページマップに現れるフレーズは、「X、21
3、X、69021」(”X”は制御バイトであり、ス
トップワードを示している)の形式である。もしそのa
pple(タイプ4のワード)が最初に検索されるなら
ば、ページマップテーブルの各ページはappleが検
索されるまでスキャンされるであろう。したがって、フ
レーズが検索されるとき、タイプxのワードはタイプy
のワードの前に検索され、そこでは、x<yである。上
述の例において、batmobileはタイプ1のワー
ドであるので、最初に位置され、そしてタイプ1のワー
ドは、一般に、タイプ4のワードよりも非常に速く位置
づけられる。batmobileが特別のページマップ
の上に位置づけられた後で、そのページマップはその検
索ストリング「213、X 69021」がそのページ
の上にあるかどうかを決定するためにスキャンされる。
検索ストリングが発見されない場合は、batmobi
leが位置づけられる他のページマップは検索ストリン
グが発見されるまでスキャンされる。
【0027】
【発明の効果】以上説明したように、本発明によれば、
データベース内でワードの発生数に基づいてクラスまた
はタイプをキーワードに割当てること、及び各クラスに
関連したインデックスの1つ以上のレベルを有すること
によって、比較的に高速で、従来のほとんどのインデッ
クスよりも記憶スペースが少なくて済む検索方法及びデ
ータベース検索インデックス構造を提供できる。
データベース内でワードの発生数に基づいてクラスまた
はタイプをキーワードに割当てること、及び各クラスに
関連したインデックスの1つ以上のレベルを有すること
によって、比較的に高速で、従来のほとんどのインデッ
クスよりも記憶スペースが少なくて済む検索方法及びデ
ータベース検索インデックス構造を提供できる。
【図面の簡単な説明】
【図1】本発明のデータ構造に区画されたCD−ROM
ディスクを示す図である。
ディスクを示す図である。
【図2】図1のデータ構造の一つを示すテーブルであ
る。
る。
【図3】図1及び図2中で示されたデータ構造の相互関
係を示すインデックステーブルを示す図である。
係を示すインデックステーブルを示す図である。
【図4】本発明のページマップ及びページテーブルの図
である。
である。
10 CD−ROMディスク 12 辞書 12a 主キーワードインデックス 12b キーワード・インデックス・ブロック 14 発生テーブル 16 ページマップ 18 データファイル
───────────────────────────────────────────────────── フロントページの続き (73)特許権者 390023157 THE WORLD TRADE CE NTRE OF MONTREAL,M ONTREAL,QUEBEC H2Y 3Y4,CANADA (72)発明者 アルセン・ハンセンス アメリカ合衆国,マサチューセッツ州 01757,ミルフォード,パーチェイス ストリート 276 (72)発明者 エバン・ビー・ロス アメリカ合衆国,マサチューセッツ州 02154,ウォルサム,アービング スト リート 102 (72)発明者 アーロン・ジー・デイズリーハリソン アメリカ合衆国,マサチューセッツ州 01701,フラミンガム,スワンソン ロ ード 36 (56)参考文献 特開 平2−141821(JP,A) 特開 昭60−262255(JP,A) 特開 平2−299038(JP,A) 特開 平2−54347(JP,A) 特開 昭62−40530(JP,A) 特開 平3−229366(JP,A) ”ADAPTIVE ACCESS PLAN FOR SELECT QU ERIES WITH MULTIPL EPREDICATES”,IBM T echnical Disclosur e Bulletion,Vol.32, No.8B,January 1990,p 6−10 (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 JICSTファイル(JOIS)
Claims (6)
- 【請求項1】 情報記録媒体上に記録されたデータベー
ス中で検索を行うためのキーワードをインデックスする
データベース・キーワード・インデクシング方法におい
て: キーワードによって検索し、読出しできる形で表
示または印刷するためのデータベース中に複数の情報ペ
ージを設け、 検索に使用されるキーワード辞書を設け、各キーワード
はそれと関連する単一のID番号およびワードタイプ番
号を有し、そのワードタイプ番号の値はデータベース内
のキーワードの発生頻度およびポインタの発生頻度に依
存し、 少なくとも1つのワードタイプを発生データにマッピン
グするための発生テーブルを設け、 各々がデータベース中の各情報ページに対応し、キーワ
ードID番号をデータベース中の対応ページ上の物理位
置にマッピングする複数のページマップを設け、 それによって、情報ページ中の特定のキーワードの位置
は、発生ポインタ、発生テーブルおよびページマップの
1つによって決定されることを特徴とするデータベース
・キーワード・インデクシング方法。 - 【請求項2】 請求項1記載の方法において: キーワ
ード辞書は、第1および第2のレベルを含み、 第1のレベルはキーワードおよび対応のブロックインデ
ィケータを有し、 第2のレベルは各ブロックインディケータ毎にそれに対
応するキーワードのグループを有することを特徴とする
データベース・キーワード・インデクシング方法。 - 【請求項3】 請求項2記載の方法において: 前記の
キーワードのグループは、アルファベット順に並べられ
ることを特徴とするデータベース・キーワード・インデ
クシング方法。 - 【請求項4】 請求項1記載の方法において: 前記のワードタイプの番号は、第1のワードタイプの番
号を含み、 その第1のワードタイプの番号は、発生頻度が最小であ
るキーワードの集合に対応し、第1のワードタイプの番
号に対する発生ポインタは、ページマップ番号とそのペ
ージマップに対するワードデータの番号を含むページマ
ップ位置からなることを特徴とするデータベース・キー
ワード・インデクシング方法。 - 【請求項5】 請求項4記載の方法において:さらにワ
ードタイプの番号として、第2のワードタイプの番号を
含み、 その第2のワードタイプの番号は、発生頻度は第2に最
小であるキーワードの第2の集合に対応し、第2のワー
ドタイプの番号に対する発生ポインタは、発生テーブル
の行を含むことを特徴とするデータベース・キーワード
・インデクシング方法。 - 【請求項6】 請求項5記載の方法において:さらにワ
ードタイプの番号として、第3のワードタイプの番号を
含み、 その第3のワードタイプの番号は、発生頻度は最大であ
るキーワードの第3の集合に対応し、第3のワードタイ
プの番号に対する発生ポインタは、発生情報を含まず、
それによって、複数のページマップは、そのキーワード
に対してシーケンシャルに検索されることを特徴とする
データベース・キーワード・インデクシング方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US788081 | 1991-11-05 | ||
US07/788,081 US5375235A (en) | 1991-11-05 | 1991-11-05 | Method of indexing keywords for searching in a database recorded on an information recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05242149A JPH05242149A (ja) | 1993-09-21 |
JP2849788B2 true JP2849788B2 (ja) | 1999-01-27 |
Family
ID=25143402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4316576A Expired - Lifetime JP2849788B2 (ja) | 1991-11-05 | 1992-10-31 | データベース・キーワード・インデクシング方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5375235A (ja) |
JP (1) | JP2849788B2 (ja) |
CA (1) | CA2082014C (ja) |
FR (1) | FR2683346A1 (ja) |
GB (1) | GB2261306B (ja) |
Families Citing this family (100)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5640552A (en) * | 1990-05-29 | 1997-06-17 | Franklin Electronic Publishers, Incorporated | Method and apparatus for providing multi-level searching in an electronic book |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5649183A (en) * | 1992-12-08 | 1997-07-15 | Microsoft Corporation | Method for compressing full text indexes with document identifiers and location offsets |
US5701459A (en) * | 1993-01-13 | 1997-12-23 | Novell, Inc. | Method and apparatus for rapid full text index creation |
US5369704A (en) | 1993-03-24 | 1994-11-29 | Engate Incorporated | Down-line transcription system for manipulating real-time testimony |
US7631343B1 (en) | 1993-03-24 | 2009-12-08 | Endgate LLC | Down-line transcription system using automatic tracking and revenue collection |
US6055531A (en) * | 1993-03-24 | 2000-04-25 | Engate Incorporated | Down-line transcription system having context sensitive searching capability |
US7249026B1 (en) | 1993-03-24 | 2007-07-24 | Engate Llc | Attorney terminal having outline preparation capabilities for managing trial proceedings |
GB9311580D0 (en) * | 1993-06-04 | 1993-07-21 | Phonelink Data Limited | Data retrieval system |
JP2781345B2 (ja) * | 1993-09-20 | 1998-07-30 | 松下電器産業株式会社 | 情報再生装置 |
US5557484A (en) * | 1994-10-11 | 1996-09-17 | Storage Technology Corporation | Differentiation of media types via leader block characteristics which include a plurality of leader block retrieval members |
JP3573501B2 (ja) * | 1994-10-11 | 2004-10-06 | 富士通株式会社 | 索引作成装置 |
JP3282937B2 (ja) * | 1995-01-12 | 2002-05-20 | 日本アイ・ビー・エム株式会社 | 情報検索方法及びシステム |
JP3545824B2 (ja) * | 1995-02-21 | 2004-07-21 | 富士通株式会社 | データ検索装置 |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
US5794221A (en) | 1995-07-07 | 1998-08-11 | Egendorf; Andrew | Internet billing method |
US5634053A (en) * | 1995-08-29 | 1997-05-27 | Hughes Aircraft Company | Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases |
US5907842A (en) * | 1995-12-20 | 1999-05-25 | Intel Corporation | Method of sorting numbers to obtain maxima/minima values with ordering |
US5802524A (en) * | 1996-07-29 | 1998-09-01 | International Business Machines Corporation | Method and product for integrating an object-based search engine with a parametrically archived database |
US5813002A (en) * | 1996-07-31 | 1998-09-22 | International Business Machines Corporation | Method and system for linearly detecting data deviations in a large database |
US5913209A (en) * | 1996-09-20 | 1999-06-15 | Novell, Inc. | Full text index reference compression |
US6144968A (en) * | 1997-03-04 | 2000-11-07 | Zellweger; Paul | Method and apparatus for menu access to information objects indexed by hierarchically-coded keywords |
JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6278990B1 (en) | 1997-07-25 | 2001-08-21 | Claritech Corporation | Sort system for text retrieval |
US6556713B2 (en) * | 1997-07-31 | 2003-04-29 | Canon Kabushiki Kaisha | Image processing apparatus and method and storage medium |
US6070157A (en) * | 1997-09-23 | 2000-05-30 | At&T Corporation | Method for providing more informative results in response to a search of electronic documents |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6269188B1 (en) | 1998-03-12 | 2001-07-31 | Canon Kabushiki Kaisha | Word grouping accuracy value generation |
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
US6243501B1 (en) | 1998-05-20 | 2001-06-05 | Canon Kabushiki Kaisha | Adaptive recognition of documents using layout attributes |
US6178416B1 (en) * | 1998-06-15 | 2001-01-23 | James U. Parker | Method and apparatus for knowledgebase searching |
US6216123B1 (en) | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US6584458B1 (en) * | 1999-02-19 | 2003-06-24 | Novell, Inc. | Method and apparatuses for creating a full text index accommodating child words |
US7797730B2 (en) | 1999-06-24 | 2010-09-14 | Engate Llc | Downline transcription system using automatic tracking and revenue collection |
AU7339700A (en) * | 1999-11-16 | 2001-05-30 | Searchcraft Corporation | Method for searching from a plurality of data sources |
CN1174332C (zh) * | 2000-03-10 | 2004-11-03 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
US6654744B2 (en) | 2000-04-17 | 2003-11-25 | Fujitsu Limited | Method and apparatus for categorizing information, and a computer product |
US7007066B1 (en) * | 2000-05-04 | 2006-02-28 | Bellsouth Intellectual Property Corp. | Method and apparatus for configuring electronic mail according to a user-selected type |
US7752275B2 (en) * | 2000-05-04 | 2010-07-06 | At&T Intellectual Property I, L.P. | Method and apparatus for configuring electronic mail for delivery of electronic services |
US7016937B1 (en) * | 2000-05-04 | 2006-03-21 | Bellsouth Intellectual Property Corporation | Method and apparatus for generating reminders to transmit electronic mail attachments by parsing e-mail message text |
AU2001259949B2 (en) * | 2000-05-24 | 2006-05-25 | Web Wombat Pty Ltd | Indexing and searching ideographic characters on a networked system of computers |
AUPQ773000A0 (en) * | 2000-05-24 | 2000-06-15 | Web Wombat Pty Ltd | Indexing and searching ideographic characters on the internet |
US7233942B2 (en) * | 2000-10-10 | 2007-06-19 | Truelocal Inc. | Method and apparatus for providing geographically authenticated electronic documents |
US7685224B2 (en) * | 2001-01-11 | 2010-03-23 | Truelocal Inc. | Method for providing an attribute bounded network of computers |
US6938046B2 (en) * | 2001-03-02 | 2005-08-30 | Dow Jones Reuters Business Interactive, Llp | Polyarchical data indexing and automatically generated hierarchical data indexing paths |
JP3907161B2 (ja) * | 2001-06-29 | 2007-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワード検索方法、キーワード検索端末、コンピュータプログラム |
US6942413B2 (en) * | 2001-10-17 | 2005-09-13 | Bradley P. Lane | Disc management system |
US6985908B2 (en) * | 2001-11-01 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Text classification apparatus |
US20030221163A1 (en) * | 2002-02-22 | 2003-11-27 | Nec Laboratories America, Inc. | Using web structure for classifying and describing web pages |
US20040143644A1 (en) * | 2003-01-21 | 2004-07-22 | Nec Laboratories America, Inc. | Meta-search engine architecture |
US20050149507A1 (en) * | 2003-02-05 | 2005-07-07 | Nye Timothy G. | Systems and methods for identifying an internet resource address |
US8243636B2 (en) | 2003-05-06 | 2012-08-14 | Apple Inc. | Messaging system and service |
US7660784B1 (en) | 2003-05-30 | 2010-02-09 | Aol Llc | Geographically resolving a keyword query |
US7613687B2 (en) * | 2003-05-30 | 2009-11-03 | Truelocal Inc. | Systems and methods for enhancing web-based searching |
US7403939B1 (en) | 2003-05-30 | 2008-07-22 | Aol Llc | Resolving queries based on automatic determination of requestor geographic location |
US20050165750A1 (en) * | 2004-01-20 | 2005-07-28 | Microsoft Corporation | Infrequent word index for document indexes |
US7293016B1 (en) * | 2004-01-22 | 2007-11-06 | Microsoft Corporation | Index partitioning based on document relevance for document indexes |
US7310635B2 (en) * | 2004-05-17 | 2007-12-18 | Knowitall, Llc. | Record management and retrieval computer program and method |
EP1835455A1 (en) * | 2005-01-05 | 2007-09-19 | Musicstrands, S.A.U. | System and method for recommending multimedia elements |
US7693887B2 (en) * | 2005-02-01 | 2010-04-06 | Strands, Inc. | Dynamic identification of a new set of media items responsive to an input mediaset |
EP1849099B1 (en) | 2005-02-03 | 2014-05-07 | Apple Inc. | Recommender system for identifying a new set of media items responsive to an input set of media items and knowledge base metrics |
WO2006084269A2 (en) | 2005-02-04 | 2006-08-10 | Musicstrands, Inc. | System for browsing through a music catalog using correlation metrics of a knowledge base of mediasets |
US7840570B2 (en) * | 2005-04-22 | 2010-11-23 | Strands, Inc. | System and method for acquiring and adding data on the playing of elements or multimedia files |
US7877387B2 (en) | 2005-09-30 | 2011-01-25 | Strands, Inc. | Systems and methods for promotional media item selection and promotional program unit generation |
US20090070267A9 (en) * | 2005-09-30 | 2009-03-12 | Musicstrands, Inc. | User programmed media delivery service |
JP4172801B2 (ja) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
WO2007075622A2 (en) | 2005-12-19 | 2007-07-05 | Strands, Inc. | User-to-user recommender |
US20070162546A1 (en) * | 2005-12-22 | 2007-07-12 | Musicstrands, Inc. | Sharing tags among individual user media libraries |
US7814099B2 (en) * | 2006-01-31 | 2010-10-12 | Louis S. Wang | Method for ranking and sorting electronic documents in a search result list based on relevance |
US20070244880A1 (en) * | 2006-02-03 | 2007-10-18 | Francisco Martin | Mediaset generation system |
BRPI0621315A2 (pt) * | 2006-02-10 | 2011-12-06 | Strands Inc | entretenimento interativo dinámico |
JP5075132B2 (ja) * | 2006-02-10 | 2012-11-14 | アップル インコーポレイテッド | モバイルメディアプレーヤファイルに優先度を付けるためのシステムおよび方法 |
WO2007103923A2 (en) | 2006-03-06 | 2007-09-13 | La La Media, Inc | Article trading process |
US7783589B2 (en) * | 2006-08-04 | 2010-08-24 | Apple Inc. | Inverted index processing |
EP2080118A2 (en) * | 2006-10-20 | 2009-07-22 | Strands, Inc. | Personal music recommendation mapping |
US8671000B2 (en) | 2007-04-24 | 2014-03-11 | Apple Inc. | Method and arrangement for providing content to multimedia devices |
US20080277314A1 (en) * | 2007-05-08 | 2008-11-13 | Halsey Richard B | Olefin production utilizing whole crude oil/condensate feedstock and hydrotreating |
US7720860B2 (en) * | 2007-06-08 | 2010-05-18 | Apple Inc. | Query result iteration |
US20080306949A1 (en) * | 2007-06-08 | 2008-12-11 | John Martin Hoernkvist | Inverted index processing |
US20110113052A1 (en) * | 2007-06-08 | 2011-05-12 | Hoernkvist John | Query result iteration for multiple queries |
US20090113002A1 (en) * | 2007-10-30 | 2009-04-30 | At&T Bls Intellectual Property, Inc. | Electronic Message Attachment Options |
EP2288986A4 (en) * | 2008-04-28 | 2013-01-09 | Strands Inc | SYSTEMS FOR DISTRIBUTING PERSONALIZED RECOMMENDATIONS OF FINANCIAL PRODUCTS BASED ON USER DATA |
WO2009151814A1 (en) * | 2008-04-30 | 2009-12-17 | Strands, Inc. | Scaleable system and method for distributed prediction markets |
WO2009146437A1 (en) * | 2008-05-31 | 2009-12-03 | Strands, Inc. | Adaptive recommender technology |
US20090299945A1 (en) * | 2008-06-03 | 2009-12-03 | Strands, Inc. | Profile modeling for sharing individual user preferences |
US8145654B2 (en) | 2008-06-20 | 2012-03-27 | Lexisnexis Group | Systems and methods for document searching |
US8966394B2 (en) | 2008-09-08 | 2015-02-24 | Apple Inc. | System and method for playlist generation based on similarity data |
US8332406B2 (en) | 2008-10-02 | 2012-12-11 | Apple Inc. | Real-time visualization of user consumption of media items |
US20100169328A1 (en) * | 2008-12-31 | 2010-07-01 | Strands, Inc. | Systems and methods for making recommendations using model-based collaborative filtering with user communities and items collections |
US20110060738A1 (en) | 2009-09-08 | 2011-03-10 | Apple Inc. | Media item clustering based on similarity data |
US8396882B2 (en) | 2010-08-26 | 2013-03-12 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating issue libraries within a document corpus |
US8396889B2 (en) | 2010-08-26 | 2013-03-12 | Lexisnexis, A Division Of Reed Elsevier Inc. | Methods for semantics-based citation-pairing information |
CN103023747B (zh) * | 2011-09-26 | 2015-07-15 | 网秦无限(北京)科技有限公司 | 基于消息内容的信息推荐方法和系统 |
US8983905B2 (en) | 2011-10-03 | 2015-03-17 | Apple Inc. | Merging playlists from multiple sources |
US9336305B2 (en) | 2013-05-09 | 2016-05-10 | Lexis Nexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating issue networks |
US10936653B2 (en) | 2017-06-02 | 2021-03-02 | Apple Inc. | Automatically predicting relevant contexts for media items |
CN110489971A (zh) * | 2018-05-15 | 2019-11-22 | 微软技术许可有限责任公司 | 安全的数据集管理 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3670310A (en) * | 1970-09-16 | 1972-06-13 | Infodata Systems Inc | Method for information storage and retrieval |
US4276597A (en) * | 1974-01-17 | 1981-06-30 | Volt Delta Resources, Inc. | Method and apparatus for information storage and retrieval |
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
JPS5820072B2 (ja) * | 1981-04-08 | 1983-04-21 | 工業技術院長 | 情報検索装置 |
US4429385A (en) * | 1981-12-31 | 1984-01-31 | American Newspaper Publishers Association | Method and apparatus for digital serial scanning with hierarchical and relational access |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4817036A (en) * | 1985-03-15 | 1989-03-28 | Brigham Young University | Computer system and method for data base indexing and information retrieval |
US5062074A (en) * | 1986-12-04 | 1991-10-29 | Tnet, Inc. | Information retrieval system and method |
US4972349A (en) * | 1986-12-04 | 1990-11-20 | Kleinberger Paul J | Information retrieval system and method |
JPH021057A (ja) * | 1988-01-20 | 1990-01-05 | Ricoh Co Ltd | 文書検索装置 |
-
1991
- 1991-11-05 US US07/788,081 patent/US5375235A/en not_active Expired - Lifetime
-
1992
- 1992-10-08 GB GB9221213A patent/GB2261306B/en not_active Expired - Fee Related
- 1992-10-28 FR FR9212845A patent/FR2683346A1/fr active Granted
- 1992-10-31 JP JP4316576A patent/JP2849788B2/ja not_active Expired - Lifetime
- 1992-11-03 CA CA002082014A patent/CA2082014C/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
"ADAPTIVE ACCESS PLAN FOR SELECT QUERIES WITH MULTIPLEPREDICATES",IBM Technical Disclosure Bulletion,Vol.32,No.8B,January 1990,p6−10 |
Also Published As
Publication number | Publication date |
---|---|
US5375235A (en) | 1994-12-20 |
JPH05242149A (ja) | 1993-09-21 |
CA2082014C (en) | 1999-02-02 |
GB2261306B (en) | 1995-03-22 |
FR2683346A1 (fr) | 1993-05-07 |
GB9221213D0 (en) | 1992-11-25 |
FR2683346B1 (ja) | 1994-12-16 |
CA2082014A1 (en) | 1993-05-06 |
GB2261306A (en) | 1993-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2849788B2 (ja) | データベース・キーワード・インデクシング方法 | |
US6658437B1 (en) | System and method for data space allocation using optimized bit representation | |
JP2770855B2 (ja) | ディジタル式情報記憶検索方法及びその装置 | |
US5727197A (en) | Method and apparatus for segmenting a database | |
US5732402A (en) | System and method for data space management using buddy system space allocation | |
US6330567B1 (en) | Searching system for searching files stored in a hard disk of a personal computer | |
KR100880531B1 (ko) | 단일 데이터 검색을 위한 파일 생성 방법 및 단일 데이터파일의 검색방법 그리고 단일 파일 검색을 위한 rat파일이 저장된 기록매체 | |
EP0487331B1 (en) | Directory management system | |
JPH06505816A (ja) | 情報検索システム及び方法 | |
CN101256809B (zh) | 形成包括关于多个信息存储介质的信息的盘库的再现设备 | |
JP2501430B2 (ja) | デイジタル式情報記憶検索装及び方法 | |
EP0583108B1 (en) | Entity-relation database | |
KR910014928A (ko) | 데이터디스크와 데이터디스크상에 기록된 데이터검색방법 | |
JPH06301732A (ja) | 文書検索処理方法 | |
US7720805B1 (en) | Sequential unload processing of IMS databases | |
CN117290390B (zh) | 一种基于特殊索引内存映射在大数据检索上的方法 | |
JP3260706B2 (ja) | パーソナルコンピュータのハードディスクに記憶されたファイルを検索する検索システム | |
JPS6064387A (ja) | 情報表示方法 | |
JP2605624B2 (ja) | 光ディスク装置のファイルアロケート方式 | |
JP3145727B2 (ja) | データの検索装置 | |
JPS61103242A (ja) | 高速検索方式 | |
JPS62177642A (ja) | 追記型フアイル装置のフアイル管理方式 | |
JPS60225938A (ja) | 情報検索方式 | |
JPH0258167A (ja) | 光デイスクフアイル装置 | |
Paijmans et al. | A new approach to automated museum documentation |