JPH11102377A - データベースからドキュメントを検索する方法および装置 - Google Patents
データベースからドキュメントを検索する方法および装置Info
- Publication number
- JPH11102377A JPH11102377A JP10110883A JP11088398A JPH11102377A JP H11102377 A JPH11102377 A JP H11102377A JP 10110883 A JP10110883 A JP 10110883A JP 11088398 A JP11088398 A JP 11088398A JP H11102377 A JPH11102377 A JP H11102377A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- document
- sub
- database
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ータのデータベースから情報を検索する方法を提供する
こと。 【解決手段】 本方法は、データベースから抽出された
ドキュメントを下位ドキュメントに分解し、それからそ
のデータベースを反転する。またデータベースからドキ
ュメントを検索するための検索照会も語に分解される。
反転されたデータベースから抽出された下位ドキュメン
トと検索照会から抽出された語は、しかる後、検索照会
における語と下位ドキュメントとの間の量的な関係を示
す点数を計算するために使用される。その結果生じる下
位ドキュメントのリストとその点数は、その後、山形状
に系統立てられる。しかる後、最高順位の下位ドキュメ
ントがコンピュータによって選択され、そしてこの下位
ドキュメントに関するテキストが表示される。それと同
時に下位ドキュメントの採点リストの残りは、再び山状
に系統立てられる。
Description
テムの分野に関する。特に本発明は、データベースから
効率よくドキュメントを検索するためのシステムに関す
る。
速に増大している。全ての必要な情報の90%以上の情
報が、アクセス可能なデータベース内に存在するドキュ
メントの中から入手できると見積もられている。データ
ベース内の情報が有効に利用されるためには、ユーザは
特定の検索照会に関係のある特定のドキュメントの所在
を見つけることができなければならない。
ドキュメントを返すために非効率的な技術を用いてい
る。一般に既存の技術は、ユーザの検索照会に結びつく
関連ドキュメントを非常によく逃してしまう。例えば多
くのシステムは、ブール論理に基づく検索照会実行技術
を採用しており、その技術では、キーワードが論理演算
子的またはそれに類似した演算子によって一緒に組み合
わされる。そのようなブールシステムは、単にドキュメ
ントのリストを返すだけであり、各ドキュメントはキー
ワードの組合わせの一つを含んでいるに過ぎない。
ントが検索照会にどの程度類似しているかを表す量的な
尺度がない。類似性の量的な尺度は、データベースから
ドキュメントを検索する際に極めて有用である。その理
由は、ドキュメントが量的な尺度によって評価され得る
からである。ブール式検索の欠点に対して、ベクトル空
間式の検索システムが開発されている。
検索照会に関する点数がデータベース内の各ドキュメン
トに対して計算される。一般に検索照会「Q」およびド
キュメント「D」は、T個の語からなる直交空間に亘っ
て検索照会とドキュメントとの共通の特徴および共通で
ない特徴を計算することによって比較され得る。そのよ
うな比較においては、例えば類似性の点数は以下の式よ
り計算され得る。ここでQi は検索参照における語であ
り、Dj はドキュメントにおける語を表している。
トと検索照会との類似性の量的な点数は有用である。そ
の理由は、同一の検索照会に対して種々のドキュメント
の得点をお互いに比較することができるからである。し
かしながら点数を計算する式の検討から明らかなよう
に、この計算式はドキュメント当たりの語数の変化によ
って著しく影響される。データベース内のドキュメント
の長さは通常広範囲(例えば1頁未満から数百ページま
で)に亘っており、長さで標準化して点数をつける必要
がある。点数付けを標準化する一つの方法は、個々のド
キュメントをおおよそ同じ長さの下位ドキュメントに分
割することである。それから下位ドキュメントに基づい
て点数付けを計算する。それから下位ドキュメント同士
の間で点数が分析される。この方法では、単なる語数の
相違は、類似性の分析を著しく歪曲しない。
するには種々の方法がある。単純な方法は、各下位ドキ
ュメントの語数を丁度同じにすることである。別の方法
は、各下位ドキュメント内の文の数を同じにすることで
ある。これら何れの技術も、ドキュメントの長さが異な
ることに起因する問題を解決する助けとなる。しかしな
がらこれらの技術は何れも、下位ドキュメントを作成す
る際にそのドキュメントのテキストの内容を無視してい
る。比較可能な長さの下位ドキュメントを作るとともに
下位ドキュメントの内容も考慮した下位ドキュメントを
作成する技術は、ドキュメント内の段落に対応して下位
ドキュメントを作ることである。
づくテキストの類似性の点数を計算した結果、下位ドキ
ュメントの識別子およびドキュメントの識別子と点数と
を結び付けた大きなリストが生成される。このリストに
記載されている下位ドキュメントの数は、データベース
内のドキュメントの数よりも著しく多い。その理由は、
各ドキュメントに対して多くの下位ドキュメントが生じ
る場合があるからである。
数に関して分類されていない。類似性の点数を計算する
理由は、典型的に(点数によって)順位付けされた下位
ドキュメントのリストを扱うためである。従って何らか
の別の分析が開示される前に、このリスト全体を点数に
よって分類しなければならない。その分類処理は通常非
効率的であり、また時間を浪費する。その理由は、下位
ドキュメントの数をNとすると、完全な分類を行うには
NlogN回の処理が必要となるからである。
メントを分析することにある。
のあるデータベースからドキュメントまたはその一部を
検索することである。
のドキュメントまたはその一部のすべてを完全に分類す
ることなく最も関係のあるドキュメントまたはその一部
を検索することである。
から最も関係のあるドキュメントまたはその一部を検索
する際のコンピュータの処理時間を低減することであ
る。
ースから最も関係のあるドキュメントまたはその一部を
検索する際にコンピュータに要求される分類処理の回数
を低減することである。
システムを動作させてコンピュータのデータベースから
情報を検索する方法である。本方法は、データベースか
ら抽出されたドキュメントを下位ドキュメントに分解
し、それからそのデータベースを反転する。またデータ
ベースからドキュメントを検索するための検索照会も語
に分解される。反転されたデータベースから抽出された
下位ドキュメントと検索照会から抽出された語は、しか
る後、検索照会における語と下位ドキュメントとの間の
量的な関係を示す点数を計算するために使用される。
とその点数は、その後、山形状に系統立てられる。しか
る後、最高順位の下位ドキュメントがコンピュータによ
って選択され、そしてこの下位ドキュメントに関するテ
キストが表示される。それと同時に下位ドキュメントの
採点リストの残りは、再び山状に系統立てられる。
スからドキュメントを検索する方法および装置の実施の
形態を図面を参照して詳細に説明する。
ために使用されるコンピュータシステムのブロック図で
ある。コンピュータ20は、中央処理装置(CPU)3
0およびメインメモリ40を備えている。コンピュータ
20は入/出力(以下、I/Oとする)装置10および
ディスク記憶装置50に接続されている。I/O装置1
0は、表示装置5、キーボード7およびマウス9を備え
ている。一般にディスク記憶装置50は、コンピュータ
システムを動作させるプログラムを記憶しているととも
に、データベースに関するドキュメントを記憶してい
る。コンピュータ20は、I/O装置10およびディス
ク記憶装置50と相互に作用し合う。コンピュータ20
は、ディスク記憶装置から読み出された検索プログラム
を実行する。
に、最も検索照会に関係のあるデータベース内に格納さ
れたドキュメントのテキストまたはその一部を検索させ
る一連の命令を含んでいる。その検索用の照会は、種々
の方法で生成されてコンピュータに送られる。その検索
照会は、キーボード7のキーを叩いてなされてもよい
し、またはマウス9もしくはキーボード7を操作するこ
とによって予め決められてなるリストから選択されても
よい。またコンピュータ20を動作させるプログラムが
自動的に検索照会を生成してもよい。
して、ディスク記憶装置50内のデータベースからドキ
ュメントを検索し、それらドキュメントまたはドキュメ
ントの一部を分析してその検索照会に対する関係を決め
る。その分析処理中、コンピュータ20は、ディスク記
憶装置50と相互に作用し合い、各ドキュメントに対し
て一連の下位ドキュメントを生成し、そして各下位ドキ
ュメントに対する点数を計算する。
利用して最も関係のある下位ドキュメントおよびそれら
下位ドキュメントが結び付けられたドキュメントの一方
または両方に関係のあるテキストを検索し、そのテキス
トをI/O装置10に送る。またコンピュータ20は、
選択された下位ドキュメントをさらに、選択された下位
ドキュメントをコンピュータ20によって検索された別
のテキストに関係付けるように処理することによって、
下位ドキュメントリストの中の最も関係のある下位ドキ
ュメントを利用することができる。
ータシステムの通常の動作を示すフローチャートであ
る。ステップS100では、図1に示すコンピュータ2
0に入力される検索照会が生成される。上述したように
この検索照会は種々の方法で生成され得る。一旦検索照
会が生成されると、その検索照会は図2のステップS1
10に示すように一続きの後に分析される。その分析処
理は、テキストから語のリストを作成する従前通りの技
術である。その処理は、テキストから各語を単に並べる
というような単純な処理であってもよい。
テキストが名詞句で抽出されるというようなより複雑な
処理を用いてもよい。この処理においては、文の一続き
の語に言語構造が割り当てられる。それらの語は、名詞
句を含んでいて意味を有しており、リストに載せられ
る。この処理は、当該技術分野における種々の公知技
術、例えば語彙目録や形態構造の解析手段や自然言語文
法構造を使用することによって実施され得る。図3は、
名詞句とみなされたテキストのリストの一例である。図
3のリストから明らかなように、例えば「T」の付けら
れた句は名詞句であり、「V」の付けられた語は動詞で
あり、「X」の付けられた語は量であり、「A」の付け
られた語は副詞である。
て、ステップS120ではデータベースが選択される。
データベースの選択は検索照会に依存しない。データベ
ースの選択は、通常ユーザがコンピュータシステムに入
力することによりなされる。しかしながら別の例では、
この選択もまた、選択基準が検索照会に関係付けられて
なるデータベースの予め決められたリストに基づいて自
動的に処理されるようになっていてもよい。
スは、(そのデータベースがもともと図2に示す処理の
実施より先に構築されている場合には)予め反転処理が
なされている。一般に反転されたデータベースは、その
データベースの全ての語およびそれらの語に関するテキ
ストの領域からなるリストとなっている。図4は、デー
タベースを反転する処理を示す。ステップS132で
は、そのデータベースからドキュメントが選択される。
ステップS134では、そのドキュメントは下位ドキュ
メントに分割される。この処理において、例えば各下位
ドキュメントは通常そのドキュメントの段落に相当す
る。長い段落は複数の下位ドキュメントに分かれていて
もよいし、幾つかの短い段落が一つの下位ドキュメント
に含まれていてもよい。全ての下位ドキュメントがおお
よそ同じ長さになっている。
では、それぞれ下位ドキュメントが選択され、解析され
る。本例では、解析処理は、図2に示すステップS11
0における検索照会に対して用いたのと同じ名詞句解析
処理である。一端下位ドキュメントが解析されると、ス
テップS140で下位ドキュメントの名詞句および名詞
句のあった下位ドキュメントを含む語のリストが生成さ
れる。各ドキュメントに対する全下位ドキュメントがこ
のようにして処理され、語リストおよび下位ドキュメン
トが更新される。最後にデータベースの全ドキュメント
がステップS132〜ステップS140に従って処理さ
れる。この反転処理の結果は、データベースの全ての語
(特に本例では名詞句)およびそれに関する下位ドキュ
メントを特定する語リストである。
が選択され、且つ検索照会が解析されると、ステップS
145においてその下位ドキュメントは採点される。図
5は、その採点処理を示す図である。図5のステップS
310では、反転されたデータベースの語リストが、検
索照会語に関係のある全ての下位ドキュメントを特定す
るために検索される。
ステップS320では、特定の検索照会語と下位ドキュ
メントに対して部分的な類似性の点数が計算される。そ
の計算処理は、各検索照会および下位ドキュメントに対
して繰り返される。ステップS330では、各下位ドキ
ュメントに対する部分的な点数が合計、すなわち換言す
れば結合される。結果として全下位ドキュメントが全検
索照会語に対して採点されると、各下位ドキュメントが
蓄えた点数を有する下位ドキュメントの得点リストが作
成される。
キュメントの採点リストには、点数に関して分類されて
いない極めて多くの下位ドキュメントが含まれている。
従来の処理は、最高順位の下位ドキュメントを得るため
に下位ドキュメントの採点リストを完全に分類する。そ
のような分類を行うには、コンピュータ20によってN
logN回の比較処理を行う必要がある(Nは下位ドキ
ュメントの数を表しており、極めて大きい)。
めに実質的な時間とコンピュータリソースが必要とな
る。またこの完全な分類処理を行っている間、コンピュ
ータ20は下位ドキュメントの採点リストを処理するこ
とができず、そのため検索結果に全くアクセスすること
ができない。加えて最終的な分類済みの下位ドキュメン
トの採点リストにおける大多数の下位ドキュメントは、
それらの点数が低すぎて重要でないため使用されない。
従って下位ドキュメントの採点リストを完全に分類する
従来の方法は、非効率的であり、また殆どの処理に対し
て必要でない。
メントの採点リストに対して従前通りの分類を行うより
はむしろ、本発明は、下位ドキュメントの採点リストに
対して改善されたヒープ分類を行う。ヒープ分類は、最
初に一つの山が生成され、それから最高得点のドキュメ
ントが最後の分類順位をなすためにその山の頂上から降
ろされて選択される処理である。図6は、ヒープ分類処
理に対する一般的なアルゴリズムを示す。改善されたヒ
ープ分類を行うことによって、(点数によって)最も関
係のある下位ドキュメントが必要な時にのみ特定され
る。結果としてコンピュータは完全な分類処理の全体を
行わず、完全な分類が終了するまで検索処理の有意義な
結果を処理するのを待たなくて済む。
0では下位ドキュメントの採点リストが山形状に変換さ
れる。これは、図6に示すステップS152においてヒ
ープ分類処理をl=(N/2)+1およびr=Nに初期
化することによってなされる。ここでNは下位ドキュメ
ントの採点リスト内の下位ドキュメントの数である。そ
れから図6に示す処理(ステップS154、ステップS
156)が、l=1またはR<Nとなるまで続けられ
る。
される下位ドキュメントの採点リストにおける最高得点
の大きさ)がa(1)に格納され、a[i] の子がa
[2i]およびa[2i+1]であり、また1<i/2
<i<Nに対してa[i/2]>a[i]なる大きさで
ある場合に、N個の下位ドキュメントの点数は山形状に
なる。下位ドキュメントの採点リストが山形状になる場
合、1<i<Nに対してa[1]=max(a[i])
となる。すなわち最高得点は山の最初の位置(a
[1])となる。
ドキュメントを即座に選択するために点数によって順位
付けられるとともに、最も関係のある下位ドキュメント
が山の頂上に有るので、図2のステップS160の処理
は、一旦山形状が生成されるとコンピュータ20によっ
てさらに処理を行うために単にこの下位ドキュメントを
選択するだけである。コンピュータ20は、この最高順
位の下位ドキュメントに関連したテキストを表示する
か、点数付けされた下位ドキュメントを何らかのさらな
る検索処理において使用することができる。
の採点リストをさらに分類するのを待たずに山形状が生
成された後即座に最高順位の下位ドキュメントが選択さ
れる。コンピュータ20が最高順位の下位ドキュメント
を表示するか、またはさらに処理している間、コンピュ
ータ20はまた下位ドキュメントの採点リスト内に残っ
ている下位ドキュメントをバックグラウンドで処理して
いる。
Nである限り図6に示す処理を続けることによって、残
りの下位ドキュメントを再び山形状にする(すなわち最
高値の下位ドキュメントが取り除かれた後に残っている
下位ドキュメントを山形状に組み立て直す)。結果とし
てつぎの最高順位の下位ドキュメントがコンピュータ2
0によって探されると、その下位ドキュメントはステッ
プS160により単にその山の頂上から降ろされて選択
され、そして残りの下位ドキュメントが再び山形状に形
成される。
を分類する場合に必要なNlogN回の比較処理のおお
よそ半分の回数で済む。これは、山形状を構築すれば最
高順位の下位ドキュメントを特定するのに十分であり、
山形状を構築するだけなら全部のヒープ分類を行う比較
処理のおおよそ半分で済むからである。さらには検索処
理は上部のM個の得点の下位ドキュメントを選択しよう
としているだけであり、ヒープ分類処理はその全分類処
理のおおよそ半分よりも多くは行われない。なおM<<
Nである。コンピュータ20によって実行される処理は
極めて少ないので、検索処理がより高速になる。またヒ
ープ分類は関係のない下位ドキュメントを分類せずに済
むため、効率的である。従って改善されたヒープ分類処
理は、データベースからドキュメントを分類する処理を
改善するのに有用である。
を特に詳細に説明するとともに図示したが、上述した説
明または図においては本発明の趣旨または範囲から逸脱
することなく形態または記述について変更がなされても
よいことは、当該技術分野の当業者によって理解される
であろう。
ータベースからドキュメントを検索する方法および装置
は、データベース内のドキュメントを分析することがで
きるという効果を奏する。また、検索照会に最も関係の
あるデータベースからドキュメントまたはその一部を検
索することができるという効果を奏する。また、データ
ベース内のドキュメントまたはその一部のすべてを完全
に分類することなく最も関係のあるドキュメントまたは
その一部を検索することができるという効果を奏する。
さらに、データベースから最も関係のあるドキュメント
またはその一部を検索する際のコンピュータの処理時間
を低減することができるという効果を奏する。さらにま
た、データベースから最も関係のあるドキュメントまた
はその一部を検索する際にコンピュータに要求される分
類処理の回数を低減することができるという効果を奏す
る。
を検索するのに使用されるコンピュータシステムの概略
図である。
ステムを動作させてデータベースからドキュメントを検
索する処理を示すフローチャートである。
を示す図である。
反転する処理を示すフローチャートである。
トを採点する処理を示すフローチャートである。
Claims (10)
- 【請求項1】 データベース内に格納された複数のドキ
ュメントから複数の下位ドキュメントを生成するステッ
プと、 下位ドキュメントを採点するステップと、 最高順位の下位ドキュメントを特定するために下位ドキ
ュメントの点数を分類するステップと、 前記最高順位の下位ドキュメントを特定した後、前記最
高順位の下位ドキュメントに対応するドキュメントから
抽出されたテキストを表示するステップと、 を含むことを特徴とするデータベースからドキュメント
を検索する方法。 - 【請求項2】 前記テキスト表示は、前記複数の下位ド
キュメントの完全な分類よりも優先して起こることを特
徴とする請求項1に記載のデータベースからドキュメン
トを検索する方法。 - 【請求項3】 前記分類処理は、改善されたヒープ分類
処理であることを特徴とする請求項2に記載のデータベ
ースからドキュメントを検索する方法。 - 【請求項4】 複数のドキュメントから抽出されたテキ
ストを表示するステップをさらに含み、前記ドキュメン
トの表示は、前記分類処理によって生成された前記下位
ドキュメントの順位に対応していることを特徴とする請
求項2に記載のデータベースからドキュメントを検索す
る方法。 - 【請求項5】 前記複数のドキュメントから抽出された
テキストの前記表示は、前記複数の下位ドキュメントの
完全な分類よりも優先して起こることを特徴とする請求
項4に記載のデータベースからドキュメントを検索する
方法。 - 【請求項6】 ディスク記憶装置および表示装置に連結
されたコンピュータを具備し、前記ディスク記憶装置は
少なくとも一つのファイル内にデータベースを記憶して
おり、 前記コンピュータは、データベースファイル内に格納さ
れた複数のドキュメントから複数の下位ドキュメントを
生成するために前記データベースファイルからデータを
検索し、 前記コンピュータは、前記下位ドキュメントを採点し、 前記コンピュータは、最高順位の下位ドキュメントを特
定するために前記下位ドキュメントの点数を分類し、 前記コンピュータは、前記最高順位の下位ドキュメント
を特定した後、前記最高順位の下位ドキュメントに対応
するドキュメントから抽出されたテキストを前記表示装
置に表示することを特徴とするデータベースからドキュ
メントを検索する装置。 - 【請求項7】 前記テキスト表示は、前記複数の下位
ドキュメントの完全な分類よりも優先して起こることを
特徴とする請求項6に記載のデータベースからドキュメ
ントを検索する装置。 - 【請求項8】 前記分類処理は、改善されたヒープ分類
処理であることを特徴とする請求項7に記載のデータベ
ースからドキュメントを検索する装置。 - 【請求項9】 前記コンピュータは、複数のドキュメン
トから抽出されたテキストを表示し、また前記ドキュメ
ントの表示は、前記分類処理によって生成された前記下
位ドキュメントの順位に対応していることを特徴とする
請求項7に記載のデータベースからドキュメントを検索
する装置。 - 【請求項10】 前記複数のドキュメントから抽出され
たテキストの前記表示は、前記複数の下位ドキュメント
の完全な分類よりも優先して起こることを特徴とする請
求項9に記載のデータベースからドキュメントを検索す
る装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/900548 | 1997-07-25 | ||
US08/900,548 US6278990B1 (en) | 1997-07-25 | 1997-07-25 | Sort system for text retrieval |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11102377A true JPH11102377A (ja) | 1999-04-13 |
Family
ID=25412696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10110883A Pending JPH11102377A (ja) | 1997-07-25 | 1998-04-21 | データベースからドキュメントを検索する方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6278990B1 (ja) |
JP (1) | JPH11102377A (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4304746B2 (ja) * | 1999-01-06 | 2009-07-29 | ソニー株式会社 | ファイルの置き換え方法及び装置 |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
US8271316B2 (en) * | 1999-12-17 | 2012-09-18 | Buzzmetrics Ltd | Consumer to business data capturing system |
US7356604B1 (en) * | 2000-04-18 | 2008-04-08 | Claritech Corporation | Method and apparatus for comparing scores in a vector space retrieval process |
US7197470B1 (en) * | 2000-10-11 | 2007-03-27 | Buzzmetrics, Ltd. | System and method for collection analysis of electronic discussion methods |
US7185065B1 (en) * | 2000-10-11 | 2007-02-27 | Buzzmetrics Ltd | System and method for scoring electronic messages |
US7233940B2 (en) * | 2000-11-06 | 2007-06-19 | Answers Corporation | System for processing at least partially structured data |
US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
WO2003060771A1 (en) * | 2002-01-14 | 2003-07-24 | Jerzy Lewak | Identifier vocabulary data access method and system |
US7725414B2 (en) | 2004-03-16 | 2010-05-25 | Buzzmetrics, Ltd An Israel Corporation | Method for developing a classifier for classifying communications |
WO2006039566A2 (en) | 2004-09-30 | 2006-04-13 | Intelliseek, Inc. | Topical sentiments in electronically stored communications |
US9158855B2 (en) | 2005-06-16 | 2015-10-13 | Buzzmetrics, Ltd | Extracting structured data from weblogs |
US20070100779A1 (en) | 2005-08-05 | 2007-05-03 | Ori Levy | Method and system for extracting web data |
US7565349B2 (en) * | 2005-11-10 | 2009-07-21 | International Business Machines Corporation | Method for computing frequency distribution for many fields in one pass in parallel |
US7660783B2 (en) * | 2006-09-27 | 2010-02-09 | Buzzmetrics, Inc. | System and method of ad-hoc analysis of data |
US8347326B2 (en) | 2007-12-18 | 2013-01-01 | The Nielsen Company (US) | Identifying key media events and modeling causal relationships between key events and reported feelings |
US8874727B2 (en) | 2010-05-31 | 2014-10-28 | The Nielsen Company (Us), Llc | Methods, apparatus, and articles of manufacture to rank users in an online social network |
WO2019171126A1 (en) * | 2018-03-06 | 2019-09-12 | Pratik Sharma | Document ranking service based on search terms |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4531186A (en) | 1983-01-21 | 1985-07-23 | International Business Machines Corporation | User friendly data base access |
JPS61220027A (ja) | 1985-03-27 | 1986-09-30 | Hitachi Ltd | 文書ファイリングシステム及び情報記憶検索システム |
US5206949A (en) | 1986-09-19 | 1993-04-27 | Nancy P. Cochran | Database search and record retrieval system which continuously displays category names during scrolling and selection of individually displayed search terms |
US5043872A (en) | 1988-07-15 | 1991-08-27 | International Business Machines Corporation | Access path optimization using degrees of clustering |
US5099426A (en) | 1989-01-19 | 1992-03-24 | International Business Machines Corporation | Method for use of morphological information to cross reference keywords used for information retrieval |
EP0437615B1 (en) | 1989-06-14 | 1998-10-21 | Hitachi, Ltd. | Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus |
US5202840A (en) * | 1990-12-19 | 1993-04-13 | Vlsi Technology, Inc. | Method for partitioning of connected circuit components before placement in one or more integrated circuits |
US5369577A (en) | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
US5375235A (en) | 1991-11-05 | 1994-12-20 | Northern Telecom Limited | Method of indexing keywords for searching in a database recorded on an information recording medium |
US5511213A (en) | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
JPH06231180A (ja) | 1993-02-02 | 1994-08-19 | A T R Shichokaku Kiko Kenkyusho:Kk | 検索データの評価支援方式 |
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
JP3352786B2 (ja) * | 1993-11-01 | 2002-12-03 | 三菱電機株式会社 | プロセッサ回路 |
US5576954A (en) | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5465353A (en) | 1994-04-01 | 1995-11-07 | Ricoh Company, Ltd. | Image matching and retrieval by multi-access redundant hashing |
US5724567A (en) * | 1994-04-25 | 1998-03-03 | Apple Computer, Inc. | System for directing relevance-ranked data objects to computer users |
US5715443A (en) * | 1994-07-25 | 1998-02-03 | Apple Computer, Inc. | Method and apparatus for searching for information in a data processing system and for providing scheduled search reports in a summary format |
US5623652A (en) * | 1994-07-25 | 1997-04-22 | Apple Computer, Inc. | Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network |
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5787001A (en) * | 1995-07-20 | 1998-07-28 | Ibm Corporation | Method for using sorting techniques in a type-safe way |
JP3020849B2 (ja) * | 1995-09-28 | 2000-03-15 | シャープ株式会社 | データ検索装置 |
US5787420A (en) * | 1995-12-14 | 1998-07-28 | Xerox Corporation | Method of ordering document clusters without requiring knowledge of user interests |
US5745894A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for generating and searching a range-based index of word-locations |
US5907840A (en) * | 1997-07-25 | 1999-05-25 | Claritech Corporation | Overlapping subdocuments in a vector space search process |
US5995962A (en) * | 1997-07-25 | 1999-11-30 | Claritech Corporation | Sort system for merging database entries |
US5926808A (en) * | 1997-07-25 | 1999-07-20 | Claritech Corporation | Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network |
US5953728A (en) * | 1997-07-25 | 1999-09-14 | Claritech Corporation | System for modifying a database using a transaction log |
-
1997
- 1997-07-25 US US08/900,548 patent/US6278990B1/en not_active Expired - Fee Related
-
1998
- 1998-04-21 JP JP10110883A patent/JPH11102377A/ja active Pending
-
2001
- 2001-08-21 US US09/933,937 patent/US6505198B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6278990B1 (en) | 2001-08-21 |
US20020059346A1 (en) | 2002-05-16 |
US6505198B2 (en) | 2003-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3170400B2 (ja) | 意味パターン認識による文字列検索方法及びその装置 | |
US6523030B1 (en) | Sort system for merging database entries | |
US5907840A (en) | Overlapping subdocuments in a vector space search process | |
US6055528A (en) | Method for cross-linguistic document retrieval | |
US8090724B1 (en) | Document analysis and multi-word term detector | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JPWO2003012679A1 (ja) | データ処理方法、データ処理システムおよびプログラム | |
JPH11102376A (ja) | 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
US20050065920A1 (en) | System and method for similarity searching based on synonym groups | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JPWO2003034279A1 (ja) | 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
JPH0844771A (ja) | 情報検索装置 | |
US6473755B2 (en) | Overlapping subdocuments in a vector space search process | |
JP4569179B2 (ja) | ドキュメント検索装置 | |
JP7428250B2 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH06348757A (ja) | 文書検索装置および方法 | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP4525224B2 (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 | |
JP2019211884A (ja) | 情報検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080430 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080724 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080729 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081104 |