JPH11110413A - データベース検索結果を生成するための方法および装置 - Google Patents

データベース検索結果を生成するための方法および装置

Info

Publication number
JPH11110413A
JPH11110413A JP10125510A JP12551098A JPH11110413A JP H11110413 A JPH11110413 A JP H11110413A JP 10125510 A JP10125510 A JP 10125510A JP 12551098 A JP12551098 A JP 12551098A JP H11110413 A JPH11110413 A JP H11110413A
Authority
JP
Japan
Prior art keywords
database
data base
encoded bit
computer
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10125510A
Other languages
English (en)
Inventor
L Horowitz Michael
エル.ホロビッツ マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KURARITEC CORP
Original Assignee
KURARITEC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KURARITEC CORP filed Critical KURARITEC CORP
Publication of JPH11110413A publication Critical patent/JPH11110413A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 データベース(以下、DBという)に対して
キーワードテストやフィールドタイプテストの結果を効
率的に結合することによってDB内のデータレコードを
分析すること。 【解決手段】 検索結果の作成は、反転されたDBの下
位ドキュメントリストを符号化されたビット列で表すこ
とによって達成される。符号化されたビット列は、DB
内の語とその語の下位ドキュメント内の出現との間の対
応関係を記憶するスペース効率のよい方法である。それ
らのビット列の論理的組み合わせは、複数のビット列の
交わり、結合および反転の少なくとも1つを特定するこ
とによって得られる。DB検索のためのキーワードは、
反転されたDBの語を選択することによって特定され得
るので、ビット列の論理的組み合わせは、そのDB全体
に亘って検索結果を表す。検索結果を生成する方法に適
したこの技術は、コンピュータが極めて効率的にビット
列を組み合わせるため、計算上効率的である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ化さ
れた情報の探索および検索システムの分野に関し、特に
データベースの検索結果を比較するための方法および装
置に関する。
【0002】
【従来の技術】情報は、ますますデータのデジタルビッ
トとして表され、そして電子的なデータベースの中に格
納されている。これらのデータベースは、しばしば終わ
りのない種々の対象を表すデータフィールドを含む極め
て多くのレコードを含む。いくつかのデータベースに
は、例えば過去150年の間のアメリカ合衆国における
各法廷によって公表された司法見解の全てのテキストが
入っている。別のデータベースは、膨大な数の個人につ
いて列挙された情報(例えば名前、住所、電話番号な
ど)の入ったデータフィールドで満たされているかもし
れない。より多くの情報がこれらのデータベースに記憶
されるほど、これらのデータの編集物も大きくなる。
【0003】電子的な記憶装置に関する多くの利点のう
ちの一つは、ユーザーにとって特に重要であるかもしれ
ない個別のデータレコード(例えばドキュメント)を検
索するために、与えられた如何なるデータベースでも検
索され得るということである。この検索を行う方法の1
つは、もしあるならばあるキーワードを含んでいるかを
単純に決定することである。この決定は、キーワードを
データベース内の各レコードと比較して、キーワードが
あるか否かを査定することによって達成される。
【0004】加えて、データーベースユーザーは、種々
のキーワードの組み合わせ(例えば、「猫」および
「犬」など)を含むデータレコードを探すことができ
る。この操作は、ブール検索として知られ、データベー
スの検索をより正確に定義することと単純化することの
一方または両方をしようとしてキーワードを組み合わせ
るために、(数ある中で)接続詞「アンド」「オア」そ
して「ノット」を用いる。例えば、ユーザーが接続詞
「アンド」でキーワードの「猫」と「犬」を結合し、そ
して検索照会「猫アンド犬」を入力すると、「猫」とい
う語と「犬」という語の両方を含むレコードのみが探し
出される。
【0005】
【発明が解決しようとする課題】しかしながら、このブ
ール検索における問題は、通常コンピュータがキーワー
ド検索結果に対応する一組のドキュメントの論理的な組
合わせを行うための実質的なメモリ空間と計算時間を使
用する、ということである。それゆえメモリ空間と計算
時間を効率的なものとする所定の要素でもって論理的な
組合わせを行うシステムを作ることが望ましい。
【0006】本発明の目的は、データベース内のデータ
レコードを分析することにある。
【0007】本発明の他の目的は、データベースに対し
て要素テストの結果を効率的に表すことによってデータ
ベース内のデータレコードを分析することである。
【0008】また本発明の他の目的は、データベースに
対して要素テストの結果を効率的に組み合わせることに
よってデータベース内のデータレコードを分析すること
である。
【0009】さらに本発明の他の目的は、データベース
に対してキーワードテストの結果を効率的に表すことに
よってデータベース内のデータレコードを分析すること
である。
【0010】さらに本発明の他の目的は、データベース
に対してキーワードテストの結果を効率的に組み合わせ
ることによってデータベース内のデータレコードを分析
することである。
【0011】また本発明の他の目的は、データベースに
対してフィールドタイプテストの結果を効率的に表すこ
とによってデータベース内のデータレコードを分析する
ことである。
【0012】さらにまた本発明の他の目的は、データベ
ースに対してフィールドタイプテストの結果を効率的に
組み合わせることによってデータベース内のデータレコ
ードを分析することである。
【0013】
【課題を解決するための手段】本発明は、データベース
を分析するための方法と装置を提供する。この分析は、
反転されたデータベースの下位ドキュメントリストを符
号化されたビット列で表すことによって達成される。符
号化されたビット列は、データベース内の語とその語の
下位ドキュメント内の出現との間の対応関係を記憶する
スペース効率のよい方法である。それらのビット列の論
理的組み合わせは、複数のビット列の交わり、結合およ
び反転の少なくとも1つを特定することによって得られ
る。データベース検索のためのキーワードは、反転され
たデータベースの語を選択することによって特定され得
るので、ビット列の論理的組み合わせは、そのデータベ
ース全体に亘って検索結果を表す。
【0014】検索結果を生成するためのこの技術は、コ
ンピュータが極めて効率的にビット列を組み合わせるた
め、計算上効率的である。本発明の検索要素はキーワー
ドに限られない。また検索要素は、フィールドのタイプ
(例えば日付けまたは整数のフィールド)または他の抜
粋された事柄を含むことができる。これらの特徴および
利点、並びに本発明の他の特徴および利点は、以下の説
明、図および特許請求の範囲の記述によってより理解さ
れるであろう。
【0015】
【発明の実施の形態】以下、本発明に係るデータベース
検索結果を生成するための方法および装置の実施の形態
を図面を参照して詳細に説明する。なお同様の要素につ
いては同じ符号を付している。
【0016】図1は、データベースを検索するためのコ
ンピュータシステムの一例を表している。コンピュータ
20は、中央処理装置(CPU)30とメインメモリ4
0を備えている。コンピュータ20は、表示装置5、キ
ーボード7およびマウス9を含む入出力(以下I/Oと
する)システム10に接続されている。コンピュータ2
0は、ディスク記憶装置50に記憶されたデータベース
を検索するためにディスク記憶装置50およびI/Oシ
ステム10と相互に作用する。それらの検索の結果は、
ユーザーに提示されるか、またはデータベース内の情報
をさらに処理するためにコンピュータ20によって使わ
れる。
【0017】本発明によれば、ディスク記憶装置50内
に記憶されたデータベースは反転される。一般に反転さ
れたデータベースは、データベースの全ての語とそれら
の語に関連したテキストの領域のリストである。図2
は、データベースを反転するためのコンピュータシステ
ムの処理の一例を示している。ステップ132でコンピ
ュータ20は、ディスク記憶装置50内のデータベース
からドキュメントを選択する。ステップ134では、そ
のドキュメントは下位ドキュメントに分割される。
【0018】この処理において、例えばコンピュータ2
0は、ドキュメント内の段落の境界を検出し、通常ドキ
ュメント内の段落に対応する下位ドキュメントを作成す
る。長い段落は多数の下位ドキュメントでできていてい
もよいし、幾つかの短い段落が単一の下位ドキュメント
に含まれていてもよい。下位ドキュメントは全て、おお
よそ同じ長さを有する。さらにそれぞれの下位ドキュメ
ントは、データベース内の場所を識別する数の識別子を
割り当てられる。
【0019】それから図2のステップ136およびステ
ップ138でそれぞれ、下位ドキュメントがコンピュー
タ20によって選択され、解析される。一般に下位ドキ
ュメントを解析することは、下位ドキュメント内の語を
リストにすることを含む。本発明のこの実施の形態にお
いては、解析処理は、文の一続きの語に言語構造が割り
当てられ、そして下位ドキュメントの意味のある語また
は名詞句をリストに載せることによって達成される。こ
の解析処理は、当該技術分野における種々の公知技術、
例えば語彙目録や形態構造の解析手段や自然言語文法構
造を使用することによって実施され得る。
【0020】下位ドキュメントが解析されると、ステッ
プ140で下位ドキュメントの語(名詞句を含む)と、
その語を含む下位ドキュメントの対応する識別子とを関
連付ける語リストが作成される。データベースの各ドキ
ュメントに対する全ての下位ドキュメントは、このよう
に処理され、そして語および下位ドキュメントのリスト
は最新の情報含むように更新される。最後に下位データ
ベースの全てのドキュメントがステップ132−140
に従って処理される。このデータベースを反転処理した
結果生じるものは、データベースの全ての語(本例では
名詞を含む)とその語を含む下位ドキュメントの識別子
を特定する語リストである。
【0021】本発明のこの実施の形態では、反転された
データベース内の語と関係のある下位ドキュメントの各
リストは、ランレングス符号変換として知られている技
術によって表され、記憶される。この手法は、二値ビッ
ト列が通常同じ値(すなわち「1」および「0」)のビ
ットのくり返された組から成ることを認識し、後のアプ
リケーションのために符号変換され得る。この技術を用
いて、何百万という文字に及ぶ長い2値ビット列は、著
しくより小さなビット列に効率的に圧縮される。
【0022】特にある語が出現するデータベースの下位
ドキュメントのリストは、「1」および「0」からなる
一連のビット列によって表される。各下位ドキュメント
は、このビット列内のあるビット位置によって表され
る。このビット列で「1」があると、その位置は、ある
語を含むデータベース内の特定の下位ドキュメントを示
す。このビット列で「0」があると、その位置は、ある
語がその特定の下位ドキュメント内に含まれていないこ
とを示す。
【0023】特定の語が出現するドキュメントに関連し
た下位ドキュメントの一例は、「1111111111
00000000000000000000111
1.」であってもよい。このビット列によれば、ある特
定の語は、最初の10個の下位ドキュメント内に現れ、
次の20個の下位ドキュメント内には現れず、そして次
の4個の下位ドキュメント内に現れる。そして一連のビ
ット列は、各ビットがデータベース内の下位ドキュメン
トを表しており、そのデータベース全体の中で特定の語
の出現を表すためにつなぎ合わされる。
【0024】全部のデータベースに対してビット列が生
成されると、このビット列は、一つのコードに圧縮され
る。例えば上述した下位ドキュメントに対するコードは
「{X1 ,X2 ,X3 }」であるかもしれない。ここで
X1 は連続した「1111111111」を表し、X2
は連続した「0000000000000000000
0」を表し、X3 は連続した「1111」を表す。この
場合、それぞれの圧縮されたコード(すなわちX1 、X
2 、X3 など)を計算するために用いられる変数は、各
ランにおいて「1」の数に続く「0」の数を表すことに
よって得られる。
【0025】この表記法によれば例えば{25,3,1
28,14}というコードは、「1」が連続して25個
続き、その後に「0」が連続して3個続き、その後に
「1」が連続して128個続き、その後に「0」が連続
して14個続くことを表す。あるいは与えられたビット
列の「1」および「0」の各ランは、そのランの極性を
「1」または「0」のどちらであるかを特定する第1の
指標と、そのラン中に含まれるビットの全数を特定する
第2の指標を用いて符号化されてもよい。これに関し
て、各変数(すなわちX1 ,X2 ,X3 ,等)は2数の
明示であり、例えば{1,25;0,3;1,128;
0,14}のように、その2数のうち1番目の数が二値
の値であり、2番目の数がそれら二値の各値に対するラ
ンの長さである。
【0026】各語と関係付けられた下位ドキュメントリ
ストがランレングス符号変換で表示されてなる反転デー
タベースは、ディスク記憶装置50に記憶され、検索を
行うためにコンピュータ20によって処理作される。図
3は、検索処理の一例を示すフローチャートである。最
初にステップ10で、コンピュータ20は、検索対象と
なる反転データベースを(ディスク記憶装置50に記憶
されているかもしれない幾つかの反転データベースの中
から)選択する。
【0027】その選択は、通常コンピュータ20にユー
ザーが入力することによってなされる。あるいはその選
択は、予め定められた選択基準に基づいてコンピュータ
20によってなされてもよい。ステップ10でデータベ
ースが選択されると、ステップ20で検索照会が作られ
てコンピュータ20に送られる。この検索照会は、ユー
ザーがキーボード上でその検索照会をタイプしたり、ド
キュメントから抽出されたテキストを強調することによ
るような従前通りの種々の方法で作られる。コンピュー
タ20は、その検索照会をブール論理演算子によって接
続されてなる一連のキーワードに解析する。
【0028】検索照会が解析されるとステップ30で、
コンピュータ20は、その検索照会の中の各語に対して
圧縮されたビット列を検索する。またこのステップでコ
ンピュータ20は、検索照会キーワードの論理的組み合
わせを、圧縮されたビット列に対する結合、交わりおよ
び反転の処理の組合わせに変える。例えば検索照会が語
Aと語Bの排他的オアを要求する(すなわち語Aまたは
語Bを有するが、語Aおよび語Bの両方を有してはいな
いドキュメントを検索する)場合、この検索結果を生成
するために組み合わされるセット演算子は、[Aと[Bの
反転]との交わり]と[Bと[Aの反転]との交わり]との結
合である。結合、交わりおよび反転のセット演算子は、
如何なるブール論理演算をも生成するために組み合わさ
れ得る。結果として如何なる検索要求でも、データベー
ス内の語の生起を表す符号化されたビット列上でこれら
のセット演算子を組み合わせることによって実行され得
る。
【0029】図4は、結合および交わりについて、圧縮
されたビット列の組み合わせを示している。検索照会語
A32および検索照会語B34に対する個別のビット列
は、実線が「1」を表し、空白が「0」を表すことによ
って示されている。AとBの交わり36および結合38
において陰で表されている領域は「1」を表している。
図3には示されていないが、反転の演算子は、単純にビ
ット列の各ビットの両極性を変えることによって達成さ
れる。
【0030】図5は、ランレングス符号変換(以下、R
LEとする)されたビット列によって表わされたセット
の結合を評価するための処理の一例を示している。最初
にステップ42で、第1のRLEと第2のRLEとの重
なる範囲が決定される。ステップ42の範囲に加えて、
ステップ44では、その第1または第2の重なっている
RLEの最小から得られる範囲が加えられるとともに、
その第1または第2の重なっているRLEの最大から得
られる範囲が加えられる。最後にステップ46で、何れ
のRLEも他のRLEと重ならない範囲が加えられる。
【0031】図6は、RLEの交わりを評価するための
処理の一例を示している。ステップ52で、重なってい
るRLEが決定される。ステップ54で、第1または第
2のRLEの最大の始まりから第1または第2のRLE
の最小の終わりまで範囲が生成される。図3〜図5に示
すRLEビット列の組み合わせは、当然如何なる数(2
または3以上)のRLEビット列についてもなされ得
る。このことは、データベースが多くの要素に対してビ
ット列を決定するために前もって処理され得るため、重
要である。前もって処理された要素の如何なる組み合わ
せに対しても検索結果が要求される場合、RLEビット
列は組み合わされることができ、そして要素の組合わせ
に対して検索結果が迅速に生成される。
【0032】図2〜図6に示すように反転され、符号化
されたデータベースに対してコンピュータを動作させる
処理は、大きなデータベース上で検索結果を生成するの
に有効である。これは、一般的にセットを操作するため
の4つの主要な演算子があるからである。それらの演算
子は、結合、交わり、反転およびそのセット中のある要
素の存在を調べることである。ランレングス符号変換を
用いることによって、コンピュータは結合、交わりおよ
び反転の演算を効率的に行い得る。
【0033】データベース上のある要素に対して存在を
調べるセット演算は、検索照会に応答する際には、行わ
れる必要はない。その理由は、データベースが反転され
て符号化された時にそのステップは効率的になされてい
るからである。結果として本発明の処理は、迅速かつ効
率的にデータベースの検索照会に対する結果を生成す
る。
【0034】本発明の処理は、キーワードの論理的な組
み合わせについて検索結果を生成するのに有用であるだ
けでなく、データベース内のどのような要素の論理的な
組み合わせについても効率的に検索結果を生成するのに
有用である。特にこれらの要素は、フィールドのタイプ
または単語の組み合わせであってもよい。これは、語と
その語と関連づけられたビット列がタイプ別に分類され
得るからである。例えば、全ての日付けは、日フィール
ドのビット列によって組み合わされ、表示され得る。
【0035】またその検索要素は、例えば名前、場所ま
たは関係(例えばある部門の仕入れ係)のような他の抽
出された事柄を含んでいてもよい。またデータベースレ
コードは、文、文字、非テキスト物(例えばアイコン、
図柄、音の表現)、他のタイプのフィールドまたは何ら
かの種類のビットの連続が存在するか否かを評価され得
る。これらの要素と関係付けられたRLEビット列の組
合わせ、およびそれゆえ検索結果は、本発明のこの実施
の形態によって効率的に生成される。
【0036】以上、本発明について好ましい具体例を挙
げて詳細に説明し図示したが、他の変更がなされてもよ
い。上述した説明を読む際に、当該技術分野の当業者
が、本発明の趣旨から逸脱することなく外観または細部
における変更を如何にしてなすかは、明らかである。
【0037】
【発明の効果】以上、説明したとおり、本発明に係るデ
ータベース検索結果を生成するための方法および装置に
よれば、データベース内のデータレコードを分析するこ
とができるという効果を奏する。また、データベースに
対して要素テストの結果を効率的に表すことによってデ
ータベース内のデータレコードを分析することができる
という効果を奏する。また、データベースに対して要素
テストの結果を効率的に組み合わせることによってデー
タベース内のデータレコードを分析することができると
いう効果を奏する。さらに、データベースに対してキー
ワードテストの結果を効率的に表すことによってデータ
ベース内のデータレコードを分析することができるとい
う効果を奏する。
【0038】また、データベースに対してキーワードテ
ストの結果を効率的に組み合わせることによってデータ
ベース内のデータレコードを分析することである。ま
た、データベースに対してフィールドタイプテストの結
果を効率的に表すことによってデータベース内のデータ
レコードを分析することができるという効果を奏する。
さらに、データベースに対してフィールドタイプテスト
の結果を効率的に組み合わせることによってデータベー
ス内のデータレコードを分析することができるという効
果を奏する。
【図面の簡単な説明】
【図1】本発明に従ってデータベースを検索するための
コンピュータシステムのブロック図である。
【図2】データベースを反転する処理を示すフローチャ
ートである。
【図3】本発明に従ってデータベースを検索する処理を
示すフローチャートである。
【図4】ビット列の組合わせを説明する説明である。
【図5】本発明に従ってビット列の結合の生成処理を示
すフローチャートである。
【図6】本発明に従ってビット列の交わりの生成処理を
示すフローチャートである。
【符号の説明】
5 表示装置 7 キーボード 9 マウス 10 入/出力装置 20 コンピュータ 30 中央処理装置 40 メインメモリ 50 ディスク記憶装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 データベースから複数の下位ドキュメン
    トを作成するステップと、 前記各下位ドキュメント内の複数の語の生起を符号化さ
    れたビット列によって表すステップと、 複数の前記ビット列を組み合わせるステップとを含み、 前記組み合わせは前記データベースから得られる検索結
    果を表すことを特徴とするデータベース検索結果を生成
    するための方法。
  2. 【請求項2】 第1の符号化されたビット列と第2の符
    号化されたビット列との間の関係を示す比較リストを生
    成するステップを更に含むことを特徴とする請求項1に
    記載のデータベース検索結果を生成するための方法。
  3. 【請求項3】 前記比較リストは、前記第1の符号化さ
    れたビット列と前記第2の符号化されたビット列との間
    の交わりを示すことを特徴とする請求項2に記載のデー
    タベース検索結果を生成するための方法。
  4. 【請求項4】 前記比較リストは、前記第1の符号化さ
    れたビット列と前記第2の符号化されたビット列との間
    の結合を示すことを特徴とする請求項2に記載のデータ
    ベース検索結果を生成するための方法。
  5. 【請求項5】 ディスク記憶装置に連結されたコンピュ
    ータを具備し、前記ディスク記憶装置はデータベースを
    記憶しており、前記コンピュータは、前記データベース
    から複数の下位ドキュメントを作成し、 前記コンピュータは、前記各下位ドキュメント内の複数
    の語の生起を符号化されたビット列によって表し、 前記コンピュータは、複数の前記符号化されたビット列
    の組み合わせを行い、前記組み合わせは前記データベー
    スから得られる検索結果を表していることを特徴とする
    データベース検索結果を生成するための装置。
  6. 【請求項6】 さらに、前記処理装置は、第1の符号化
    されたビット列と第2の符号化されたビット列との間の
    関係を示す比較リストを生成することを特徴とする請求
    項5に記載のデータベース検索結果を生成するための装
    置。
  7. 【請求項7】 前記比較リストは、前記第1の符号化さ
    れたビット列と前記第2の符号化されたビット列との間
    の交わりを示すことを特徴とする請求項5に記載のデー
    タベース検索結果を生成するための装置。
  8. 【請求項8】 前記比較リストは、前記第1の符号化さ
    れたビット列と前記第2の符号化されたビット列との間
    の結合を示すことを特徴とする請求項5に記載のデータ
    ベース検索結果を生成するための装置。
JP10125510A 1997-07-25 1998-05-08 データベース検索結果を生成するための方法および装置 Pending JPH11110413A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/900,562 US5893094A (en) 1997-07-25 1997-07-25 Method and apparatus using run length encoding to evaluate a database
US08/900562 1997-07-25

Publications (1)

Publication Number Publication Date
JPH11110413A true JPH11110413A (ja) 1999-04-23

Family

ID=25412722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10125510A Pending JPH11110413A (ja) 1997-07-25 1998-05-08 データベース検索結果を生成するための方法および装置

Country Status (2)

Country Link
US (3) US5893094A (ja)
JP (1) JPH11110413A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055983A (ja) * 2000-08-14 2002-02-20 Max Management:Kk データ検索システム及び方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6862602B2 (en) 1997-03-07 2005-03-01 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file
US5897637A (en) * 1997-03-07 1999-04-27 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file
US5893094A (en) * 1997-07-25 1999-04-06 Claritech Corporation Method and apparatus using run length encoding to evaluate a database
US6195542B1 (en) * 1998-07-31 2001-02-27 Avaya Technology Corp. Identification by a central computer of a wireless telephone functioning as a transaction device
US10002167B2 (en) * 2000-02-25 2018-06-19 Vilox Technologies, Llc Search-on-the-fly/sort-on-the-fly by a search engine directed to a plurality of disparate data sources
US7356604B1 (en) * 2000-04-18 2008-04-08 Claritech Corporation Method and apparatus for comparing scores in a vector space retrieval process
US7210100B2 (en) * 2000-09-27 2007-04-24 Eizel Technologies, Inc. Configurable transformation of electronic documents
US7613810B2 (en) * 2000-09-27 2009-11-03 Nokia Inc. Segmenting electronic documents for use on a device of limited capability
DE10048478C2 (de) * 2000-09-29 2003-05-28 Siemens Ag Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US7565605B2 (en) * 2001-05-08 2009-07-21 Nokia, Inc. Reorganizing content of an electronic document
AU2002318380A1 (en) * 2001-06-21 2003-01-08 Isc, Inc. Database indexing method and apparatus
US20030093565A1 (en) * 2001-07-03 2003-05-15 Berger Adam L. System and method for converting an attachment in an e-mail for delivery to a device of limited rendering capability
US7194450B2 (en) * 2003-12-19 2007-03-20 Xerox Corporation Systems and methods for indexing each level of the inner structure of a string over a language having a vocabulary and a grammar
JP2005258964A (ja) * 2004-03-12 2005-09-22 Nec Corp データ処理システム、データ処理方法及びデータ処理プログラム
US20060106760A1 (en) * 2004-10-29 2006-05-18 Netzer Moriya Method and apparatus of inter-document data retrieval
US7499917B2 (en) * 2005-01-28 2009-03-03 International Business Machines Corporation Processing cross-table non-Boolean term conditions in database queries
US7467155B2 (en) * 2005-07-12 2008-12-16 Sand Technology Systems International, Inc. Method and apparatus for representation of unstructured data
US8600997B2 (en) * 2005-09-30 2013-12-03 International Business Machines Corporation Method and framework to support indexing and searching taxonomies in large scale full text indexes
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US8463759B2 (en) * 2007-09-24 2013-06-11 Ca, Inc. Method and system for compressing data
CN106156000B (zh) * 2015-04-28 2020-03-17 腾讯科技(深圳)有限公司 基于求交算法的搜索方法及搜索系统
CN105224624A (zh) * 2015-09-22 2016-01-06 广州神马移动信息科技有限公司 一种实现倒排链快速归并的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161357A (ja) * 1994-06-02 1996-06-21 Ricoh Co Ltd 文書管理装置
JPH08329112A (ja) * 1995-06-06 1996-12-13 Fujitsu Ltd フリーテキスト検索システム
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3995254A (en) * 1975-07-16 1976-11-30 International Business Machines Corporation Digital reference matrix for word verification
US4606002A (en) * 1983-05-02 1986-08-12 Wang Laboratories, Inc. B-tree structured data base using sparse array bit maps to store inverted lists
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
US5036457A (en) * 1987-09-24 1991-07-30 Nucleus International Corporation Bit string compressor with boolean operation processing capability
US5146221A (en) * 1989-01-13 1992-09-08 Stac, Inc. Data compression apparatus and method
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
JPH0314075A (ja) * 1989-06-13 1991-01-22 Ricoh Co Ltd 文書検索装置
US5469354A (en) * 1989-06-14 1995-11-21 Hitachi, Ltd. Document data processing method and apparatus for document retrieval
US5191524A (en) * 1989-09-08 1993-03-02 Pincus Steven M Approximate entropy
DE69131941T2 (de) * 1990-10-05 2000-06-08 Microsoft Corp System und verfahren für informationsauffindung
IT1244938B (it) * 1991-03-06 1994-09-13 Ezio Lefons Sistema di interrogazione dei dati nelle basi e banche di dati.
US5249262A (en) * 1991-05-03 1993-09-28 Intelligent Query Engines Component intersection data base filter
US5537586A (en) * 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
CA2125300C (en) * 1994-05-11 1999-10-12 Douglas J. Ballantyne Method and apparatus for the electronic distribution of medical information and patient services
US5546575A (en) * 1994-05-23 1996-08-13 Basil E. Potter & Associates, Inc. Encoding method for compressing a tabular database by selecting effective compression routines for each field and structure of partitions of equal sized records
KR0148153B1 (ko) * 1994-05-31 1998-09-15 김광호 비트스터핑 제거장치
ATE210856T1 (de) * 1994-06-06 2001-12-15 Nokia Networks Oy Verfahren zum daten speichern und daten wiederfinden und eine speicheranordnung
US5619199A (en) * 1995-05-04 1997-04-08 International Business Machines Corporation Order preserving run length encoding with compression codeword extraction for comparisons
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
US5893094A (en) * 1997-07-25 1999-04-06 Claritech Corporation Method and apparatus using run length encoding to evaluate a database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161357A (ja) * 1994-06-02 1996-06-21 Ricoh Co Ltd 文書管理装置
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH08329112A (ja) * 1995-06-06 1996-12-13 Fujitsu Ltd フリーテキスト検索システム
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055983A (ja) * 2000-08-14 2002-02-20 Max Management:Kk データ検索システム及び方法

Also Published As

Publication number Publication date
US6446066B1 (en) 2002-09-03
US5893094A (en) 1999-04-06
US6112204A (en) 2000-08-29

Similar Documents

Publication Publication Date Title
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
US6523030B1 (en) Sort system for merging database entries
US8805861B2 (en) Methods and systems to train models to extract and integrate information from data sources
US20040215612A1 (en) Semi-boolean arrangement, method, and system for specifying and selecting data objects to be retrieved from a collection
JPH11102374A (ja) データベースの文書表示方法およびその装置
JP2000315216A (ja) 自然言語検索方法および装置
US7024405B2 (en) Method and apparatus for improved internet searching
JP3023943B2 (ja) 文書検索装置
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
JP2000010986A (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2957875B2 (ja) 文書情報検索装置及び文書検索結果表示方法
JP3612914B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JPH0844771A (ja) 情報検索装置
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP3856388B2 (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
WO2001024053A2 (en) System and method for automatic context creation for electronic documents
JPH02116972A (ja) プログラムデータベースの検索方式
JP2006163723A (ja) ドキュメント検索方法
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法
JPH09305619A (ja) 階層インデックス検索装置、及び文書検索方法
JP4889964B2 (ja) 規則文章作成装置
JPH11265385A (ja) 情報検索装置及び方法及び情報検索プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080527

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081021