JP2001117946A - 連想型テキスト探索及び検索システム - Google Patents

連想型テキスト探索及び検索システム

Info

Publication number
JP2001117946A
JP2001117946A JP2000254299A JP2000254299A JP2001117946A JP 2001117946 A JP2001117946 A JP 2001117946A JP 2000254299 A JP2000254299 A JP 2000254299A JP 2000254299 A JP2000254299 A JP 2000254299A JP 2001117946 A JP2001117946 A JP 2001117946A
Authority
JP
Japan
Prior art keywords
search
text
document
documents
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000254299A
Other languages
English (en)
Inventor
John Holt
ジョン ホルト
David James Miller
ディヴィッド ジェームズ ミラー
X Allen Lu
アレン エックス ルー
Ray Daley
レイ デイリー
Minh Doan
ミン ドウン
Richard G Graham
リチャード ジー グレイアム
Catherine Leininger
キャサリーン レイニンガー
Darin W Mcbeath
ダーリン ダブリュー マックビース
Thomas Pease
トーマス ピーズ
Steven M Sever
スティーヴン エム セーヴァー
Dale Waddell
デイル ワッデル
Franz Weckesser
フランツ ウェックサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reed Elsevier Inc
Original Assignee
Reed Elsevier Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reed Elsevier Inc filed Critical Reed Elsevier Inc
Publication of JP2001117946A publication Critical patent/JP2001117946A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 本発明は、ランキングの数式を用いて各文書
をランクする連想型テキスト探索及び検索システムを提
供する。 【解決手段】 システムは、複数のテキスト文書に対す
る記憶装置46〜49、フロントエンド・プロセッサ5
6〜58及び文書記憶装置46〜49に結合された、少
なくとも一つのプロセッサ42〜44を含む。他のプロ
セッサ32〜35は、ユーザによって供給された探索要
求に従ってテキスト文書を探索しかつ探索要求の少なく
とも一つの項を包含している所定数の検索された文書を
フロントエンド・プロセッサ56〜58に供給する。検
索された文書は、フロントエンド・プロセッサ56〜5
8に供給されない文書よりも高いランクを有する。ラン
クは、探索項の各々のテキスト文書のそれぞれにおける
頻度の二乗に従って変化する数式を用いて計算される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト文書を探
索しかつ検索する分野に関し、特に、特定の項及び語句
を有している文書を検索するために複数のテキスト文書
を探索すべく一つ以上のコンピュータを用いる分野に関
する。
【0002】
【従来の技術】テキスト文書の大きなコレクションは、
特定のキーワードまたは語句に対して探索できることが
知られている。ユーザは、単一の語または語句または
“AND”または“OR”のようなブール接続子で接続
された複数の語または語句を供給することができる。し
かしながら、多くの場合、ユーザは、過大な数の探索を
実行することなくユーザが望む文書の正確な分類を検索
するために十分な複雑さの探索を実行するためにかなり
高度化されていなければならない。
【0003】ジェラード・サルトン(Gerard Salton) に
より1960年代に開発された情報探索に対する技術であ
る、連想型検索は、ブール探索の欠点のあるものをアド
レス指定する。“Automatic Text Processing ”(ジェ
ラード・サルトンによって著作されかつAddison Wesle
y, New York, New York, によって1988年に出版され
た)は、連想型検索的探索の説明を供給する。連想型検
索に用いられる基本フォーミュラは、探索要求内の各項
に対する項重みの計算すること、文書内で発生する探索
要求項に対する重みの総和に基づきコレクションの文書
を採点することを包含する。二つの基本重み付けファク
タは、項頻度tf及び逆文書頻度idfとして知られて
いる。
【0004】項頻度は、項が所与の文書内で発生する頻
度として画定される。従って、項頻度は、コレクション
内の各文書に対して計算されなければならない。
【0005】逆文書頻度は、項を包含するコレクション
全体の文書の数の逆数として画定される。従って、N文
書のコレクション内のdf文書が所与の項を包含するな
らば、idfは、1/dfである。idfは、それをl
og(N/df)に設定することによって文書の数に関
して正規化されうる。idfは、各探索要求項に対して
計算されるが、コレクションに対しては、一定でありか
つ文書によって変化しない。所与の文書に対する得点
は、文書に包含される各探索要求項に対するtfとid
fの積を加算することによって計算される。
【0006】
【発明が解決しようとする課題】しかしながら、大きな
データベースの文書を探索及び検索するための大きなス
ケールの商用に対してそれを非実用的または非実際的に
するサルトンによって示されたような連想型検索の多く
の態様が存在する。更に、連想型検索の分野でなされた
研究開発のほとんどは、ヒューマン・インタラクション
及びフィードバックに関連している態様を適格にアドレ
スすることに失敗した。従って、既存システムの欠点を
克服する連想型テキスト探索及び検索システムを供給す
ることが望ましい。
【0007】
【課題を解決するための手段】本発明の上記課題は、連
想型テキスト探索及び検索システムであって、ユーザに
前記システムに情報を供給しかつ該システムから情報を
受け取らせるべくネットワークに接続された一つ以上の
ユーザ端末装置を有している該ネットワークと相互作用
する前置処理手段と、複数のテキスト文書を記憶する記
憶手段と、前記ユーザによって供給される複数の探索項
を用いて前記テキスト文書の探索を実行し、少なくとも
一つの前記探索項を含んでいる前記テキスト文書のそれ
ぞれに対して得点を計算し、それらの得点に基づいて前
記テキスト文書をランク付けし、前記文書のランクに基
づいて前記テキスト文書のサブセットである所定数の前
記検索された文書を前記前置処理手段に供給する、前記
前置処理手段及び前記記憶手段に結合されたプロセッサ
手段とを備え、前記検索された文書は、前記前置処理手
段に供給されない前記テキスト文書よりも高いランクを
有し、前記得点は、前記探索項の各々の前記テキスト文
書のそれぞれにおける頻度の二乗に従って変化する数式
を用いて計算されることを特徴とする連想型テキスト探
索及び検索システムによって達成される。
【0008】本発明の連想型テキスト探索及び検索シス
テムでは、前記数式は、前記探索項のそれぞれの逆文書
頻度に従っても変化するように構成してもよい。本発明
の連想型テキスト探索及び検索システムでは、前記プロ
セッサ手段は、前記前置処理手段に結合された少なくと
も一つのセッションアドミニストレータ(SA)コンピ
ュータと、前記SAコンピュータ及び前記文書記憶装置
に結合された少なくとも一つの探索及び検索(SR)コ
ンピュータとを更に備え、前記SRコンピュータは、前
記文書記憶装置上の前記探索を実行しかつ前記検索され
た文書を前記SAコンピュータに戻し、前記SAコンピ
ュータは、探索項及び探索オプションを入力することを
ユーザにプロンプトし、前記探索要求をSRコンピュー
タに供給し、かつ前記ユーザに前記SRコンピュータに
よって前記SAコンピュータに戻された前記検索された
文書を見させるように構成してもよい。本発明の連想型
テキスト探索及び検索システムでは、前記探索要求は、
一つ以上のSRコンピュータに前記SAコンピュータに
よって供給され、前記SRコンピュータは、前記探索中
に見付けられたテキスト文書に対する文書ランクを計算
しかつ前記文書ランクを前記SAコンピュータに戻し、
前記SAコンピュータは、その得点に従って前記文書の
前記得点及びランクを併合しかつ最高の総合ランクを有
している前記テキスト文書のサブセットを戻すことを前
記SRコンピュータに要求するように構成してもよい。
本発明の連想型テキスト探索及び検索システムでは、各
語を同義語及び形態素変形の両方に相関する複数の語に
対するエントリを有しているシソーラスを更に備えて構
成してもよい。本発明の連想型テキスト探索及び検索シ
ステムでは、前記ユーザに前記探索された文書のそれぞ
れに存在しなければならない強制項を入力させる手段を
更に備え、前記プロセッサ手段は、もしあれば、該強制
項を含んでいる文書に対してだけ得点を計算するように
構成してもよい。本発明の連想型テキスト探索及び検索
システムでは、前記記憶手段は、文書コレクションを記
憶し、前記複数のテキスト文書は、前記文書コレクショ
ンに含まれており、及び前記文書コレクションは、文書
コレクションに対して頻繁に用いられる項のリストも含
んでおり、前記頻繁に用いられる項のリストは、前記文
書コレクションにおける項の発生の頻度及び該文書コレ
クションの特性の一つ以上に基づいており、前記連想型
テキスト探索及び検索システムは、前記テキスト文書内
の可能な探索項の位置を示す、前記テキスト文書に対応
付けられた索引と、前記索引に雑音項を含まないことに
よって前記探索に対して考慮されることから雑音項を除
外する手段と、前記探索に対して考慮されることから頻
繁に用いられる項を除外する手段とを更に備え、前記頻
繁に用いられる項は、前記索引に含まれかつ頻繁に用い
られる項のリストに維持され、前記頻繁に用いられる項
は、前記探索に対する前記リストの項を用いないことに
よって該探索から除外されるように構成してもよい。
【0009】本発明の連想型テキスト探索及び検索シス
テムでは、各語を同義語及び形態素変形の両方に相関す
る複数の語に対するエントリを有しているシソーラスを
更に備えて構成してもよい。本発明の連想型テキスト探
索及び検索システムでは、前記ユーザに前記探索された
文書のそれぞれに存在しなければならない強制項を入力
させる手段を更に備えて構成してもよい。本発明の連想
型テキスト探索及び検索システムでは、前記記憶手段
は、文書コレクションを記憶し、前記複数のテキスト文
書は、前記文書コレクションに含まれており、及び前記
文書コレクションは、文書コレクションに対して頻繁に
用いられる項のリストも含んでおり、前記頻繁に用いら
れる項のリストは、前記文書コレクションにおける項の
発生の頻度及び該文書コレクションの特性の一つ以上に
基づいており、前記連想型テキスト探索及び検索システ
ムは、前記テキスト文書内の可能な探索項の位置を示
す、前記テキスト文書に関連した索引と、前記索引に雑
音項を含まないことによって前記探索に対して考慮され
ることから雑音項を除外する手段と、前記探索に対して
考慮されることから頻繁に用いられる項を除外する手段
とを更に備え、前記頻繁に用いられる項は、前記索引に
含まれかつ頻繁に用いられる項のリストに維持され、前
記頻繁に用いられる項は、前記探索に対する前記リスト
の項を用いないことによって該探索から除外されるよう
に構成してもよい。本発明の連想型テキスト探索及び検
索システムでは、どの探索項がその検索された文書に存
在するかを各検索された文書に対して示している画面を
ユーザに供給する手段を更に備えて構成してもよい。本
発明の連想型テキスト探索及び検索システムでは、前記
探索項のそれぞれに対する項重要度を表している画面を
前記ユーザに供給する手段を更に備え、前記項重要度
は、前記探索項の逆文書頻度に従って変化するように構
成してもよい。本発明の連想型テキスト探索及び検索シ
ステムでは、前記項重要度は、log(maxdfi/
dfi)に従って変化し、ここでlogは、底が2であ
り、dfiは、探索項iを含む前記検索された文書の計
数であり、maxdfiは、前記探索項のどれかが表れ
るような前記検索された文書の最大数であるように構成
してもよい。本発明の連想型テキスト探索及び検索シス
テムでは、前記記憶手段は、少なくとも一つの文書コレ
クションを記憶し、前記複数のテキスト文書は、前記文
書コレクションに含まれており、及び前記文書コレクシ
ョンは、前記文書が表されうる方法を示している所定の
情報も含んでおり、前記連想型テキスト探索及び検索シ
ステムは、前記ユーザに前記補助的文書情報に含まれた
前記所定の情報に基づいて前記検索された文書を表わす
ための多くの可能な順序の一つを選択させる手段を更に
備えて構成してもよい。本発明の連想型テキスト探索及
び検索システムでは、前記プロセッサ手段は、前記前置
処理手段に結合された少なくとも一つのセッションアド
ミニストレータ(SA)コンピュータと、前記SAコン
ピュータ及び前記文書記憶装置に結合された少なくとも
一つの探索及び検索(SR)コンピュータとを備え、前
記SRコンピュータは、前記文書記憶装置上の前記探索
を実行しかつ前記検索された文書を前記SAコンピュー
タに戻し、前記SAコンピュータは、探索項及び探索オ
プションを入力することをユーザにプロンプトし、前記
探索要求をSRコンピュータに供給し、かつ前記ユーザ
に前記SRコンピュータによって前記SAコンピュータ
に戻された前記検索された文書を見させるように構成し
てもよい。本発明の連想型テキスト探索及び検索システ
ムでは、前記探索要求は、一つ以上のSRコンピュータ
に前記SAコンピュータによって供給され、前記SRコ
ンピュータは、前記探索中に見付けられたテキスト文書
に対する文書ランクを計算しかつ前記文書ランクを前記
SAコンピュータに戻し、前記SAコンピュータは、前
記ランクを併合しかつ最高の総合ランクを有している前
記テキスト文書のサブセットを戻すことを前記SRコン
ピュータに要求するように構成してもよい。
【0010】また、本発明の上記課題は、連想型テキス
ト探索及び検索システムであって、ユーザに前記システ
ムに情報を供給しかつ該システムから情報を受け取らせ
るべくネットワークに接続された一つ以上のユーザ端末
装置を有している該ネットワークと相互作用する前置処
理手段と、複数のテキスト文書を記憶する記憶手段と、
前記ユーザによって供給される複数の探索項を用いて前
記テキスト文書の探索を実行し、少なくとも一つの前記
探索項を含んでいる前記テキスト文書のそれぞれに対し
て得点を計算し、それらの得点に基づいて前記テキスト
文書をランク付けし、前記文書のランクに基づいて前記
テキスト文書のサブセットである所定数の前記検索され
た文書を前記前置処理手段に供給する、前記前置処理手
段及び前記記憶手段に結合されたプロセッサ手段とを備
え、前記検索された文書は、前記前置処理手段に供給さ
れない前記テキスト文書よりも高いランクを有し、前記
ランクは、前記探索項の各々の前記テキスト文書のそれ
ぞれにおける頻度の二乗に従いかつ前記探索項のそれぞ
れの逆文書頻度に従って変化する数式を用いて算出さ
れ、前記数式は、
【0011】
【数4】 であり、ここで、ntは、探索項の総数を表し、ut
は、前記テキスト文書の特定のもので発生する固有の探
索項の数を表し、tfiは、探索項iが前記テキスト文
書で発生する回数を表し、ocは、最大数の探索項を含
んでいるフローティング・テキスト・ウィンドウにおけ
る探索項の発生の百分率を表しかつ該ウィンドウにおけ
る探索項の発生の計数を前記文書における探索項の発生
の総数で割ってその結果を100で掛けることによって
計算され、dfiは、項iを含む前記テキスト文書の計
数であり、maxdfiは、前記探索項、及び全ての対
数が底2であるような前記テキスト文書の最大数である
ことを特徴とする連想型テキスト探索及び検索システム
によって達成される。本発明の連想型テキスト探索及び
検索システムでは、前記プロセッサ手段は、前記前置処
理手段に結合された少なくとも一つのセッションアドミ
ニストレータ(SA)コンピュータと、前記SAコンピ
ュータ及び前記文書記憶装置に結合された少なくとも一
つの探索及び検索(SR)コンピュータとを備え、前記
SRコンピュータは、前記文書記憶装置上の前記探索を
実行しかつ前記検索された文書を前記SAコンピュータ
に戻し、前記SAコンピュータは、探索項及び探索オプ
ションを入力することをユーザにプロンプトし、前記探
索要求をSRコンピュータに供給し、かつ前記ユーザに
前記SRコンピュータによって前記SAコンピュータに
戻された前記検索された文書を見させるように構成して
もよい。本発明の連想型テキスト探索及び検索システム
では、前記探索要求は、一つ以上のSRコンピュータに
前記SAコンピュータによって供給され、前記SRコン
ピュータは、前記探索中に見付けられたテキスト文書に
対する文書ランクを計算しかつ前記文書ランクを前記S
Aコンピュータに戻し、前記SAコンピュータは、前記
ランクを併合しかつ最高の総合ランクを有している前記
テキスト文書のサブセットを戻すことを前記SRコンピ
ュータに要求するように構成してもよい。
【0012】更に、本発明の上記課題は、連想型テキス
ト探索及び検索システムであって、ユーザに前記システ
ムに情報を供給しかつ該システムから情報を受け取らせ
るべくネットワークに接続された一つ以上のユーザ端末
装置を有している該ネットワークと相互作用する前置処
理手段と、前記ユーザに前記検索された文書のそれぞれ
に存在しなければならない強制項を入力させる手段と、
複数のテキスト文書を記憶する記憶手段と、前記ユーザ
によって供給される複数の探索項を用いて前記テキスト
文書の探索を実行し、もしあれば、前記強制探索項、及
び少なくとも一つの前記探索項を含んでいる前記テキス
ト文書のそれぞれに対する得点を計算し、それらの得点
に基づいて前記テキスト文書をランキングし、前記文書
のランクに基づいて前記テキスト文書のサブセットであ
る所定数の検索された文書を前記前置処理手段に供給す
る、前記前置処理手段及び前記記憶手段に結合されたプ
ロセッサ手段とを備え、前記検索された文書は、前記前
置処理手段に供給されない前記テキスト文書よりも高い
ランクを有し、前記得点は、前記探索項の各々の前記テ
キスト文書のそれぞれにおける頻度の二乗に従って変化
する数式を用いて算出されることを特徴とする連想型テ
キスト探索及び検索システムによって達成される。本発
明の上記課題は、連想型テキスト探索及び検索システム
であって、ユーザに前記システムに情報を供給しかつ該
システムから情報を受け取らせるべくネットワークに接
続された一つ以上のユーザ端末装置を有している該ネッ
トワークと相互作用する前置処理手段と、前記ユーザに
前記検索された文書のそれぞれに存在しなければならな
い強制項を入力させる手段と、複数のテキスト文書を記
憶する記憶手段と、前記ユーザによって供給される複数
の探索項を用いて前記テキスト文書の探索を実行し、も
しあれば、前記強制探索項、及び少なくとも一つの前記
探索項を含んでいる前記テキスト文書のそれぞれに対す
る得点を計算し、それらの得点に基づいて前記テキスト
文書をランキングし、前記文書のランクに基づいて前記
テキスト文書のサブセットである所定数の検索された文
書を前記前置処理手段に供給し、前記検索された文書
は、前記前置処理手段に供給されない前記テキスト文書
よりも高いランクを有し、前記得点は、前記探索項の各
々の前記テキスト文書のそれぞれにおける頻度の二乗に
従って変化する数式を用いて算出される、前記前置処理
手段及び前記記憶手段に結合されたプロセッサ手段と、
前記テキスト文書内の可能な探索項の位置を示す、前記
テキスト文書に関連した索引と、前記索引に雑音項を含
まないことによって前記探索に対して考慮されることか
ら雑音項を除外する手段と、前記探索に対して考慮され
ることから頻繁に用いられる項を除外する手段とを備
え、前記頻繁に用いられる項は、前記索引に含まれかつ
前記探索に対する前記リストの項を用いないことによっ
て該探索から除外されることを特徴とする連想型テキス
ト探索及び検索システムによって達成される。
【0013】また、本発明の上記課題は、連想型テキス
ト探索及び検索システムであって、ユーザに前記システ
ムに情報を供給しかつ該システムから情報を受け取らせ
るべくネットワークに接続された一つ以上のユーザ端末
装置を有している該ネットワークと相互作用する前置処
理手段と、前記ユーザに前記検索された文書のそれぞれ
に存在しなければならない強制項を入力させる手段と、
複数のテキスト文書を記憶する記憶手段と、前記ユーザ
によって供給される複数の探索項を用いて前記テキスト
文書の探索を実行し、もしあれば、前記強制探索項、及
び少なくとも一つの前記探索項を含んでいる前記テキス
ト文書のそれぞれに対する得点を計算し、それらの得点
に基づいて前記テキスト文書をランキングし、前記文書
のランクに基づいて前記テキスト文書のサブセットであ
る所定数の検索された文書を前記前置処理手段に供給
し、前記検索された文書は、前記前置処理手段に供給さ
れない前記テキスト文書よりも高いランクを有し、前記
得点は、前記探索項の各々の前記テキスト文書のそれぞ
れにおける頻度の二乗に従って変化する数式を用いて算
出され、周波数の二乗に従って変化する数式を用いて算
出される、前記前置処理手段及び前記記憶手段に結合さ
れたプロセッサ手段と、どの探索項がどの検索された文
書に存在するかを各該検索された文書に対して示してい
る画面をユーザに供給する手段とを備えていることを特
徴とする連想型テキスト探索及び検索システムによって
達成される。
【0014】本発明の連想型テキスト探索及び検索シス
テムでは、どの探索項がどの検索された文書に存在する
かを示している前記画面において、前記探索項は、重要
な順番にリストされるように構成してもよい。本発明の
連想型テキスト探索及び検索システムでは、前記画面
は、探索項の全てをリストしている列と検索された文書
番号に対応している番号をリストしている行とを含み、
前記画面は、特定の文書に対応している列及び特定の項
に対応している行に記号を配置することによってどの項
がどの文書に存在したかを示すように構成してもよい。
本発明の連想型テキスト探索及び検索システムでは、前
記探索項は、重要な順番にリストされるように構成して
もよい。更に、本発明の上記課題は、連想型テキスト探
索及び検索システムであって、ユーザに前記システムに
情報を供給しかつ該システムから情報を受け取らせるべ
くネットワークに接続された一つ以上のユーザ端末装置
を有している該ネットワークと相互作用する前置処理手
段と、複数のテキスト文書を記憶する記憶手段と、前記
ユーザによって供給される複数の探索項を用いて前記テ
キスト文書の探索を実行し、もしあれば、前記強制探索
項、及び少なくとも一つの前記探索項を含んでいる前記
テキスト文書のそれぞれに対する得点を計算し、それら
の得点に基づいて前記テキスト文書をランキングし、前
記文書のランクに基づいて前記テキスト文書のサブセッ
トである所定数の検索された文書を前記前置処理手段に
供給し、前記検索された文書は、前記前置処理手段に供
給されない前記テキスト文書よりも高いランクを有す
る、プロセッサ手段と、前記探索項のそれぞれに対する
項重要度を表している画面を前記ユーザに供給する手段
とを備え、前記項重要度は、前記探索項の逆文書頻度に
従って変化し、前記項重要度は、log(maxdfi
/dfi)に従って変化し、ここでlogは、底が2で
あり、dfiは、探索項iを含む前記検索された文書の
計数であり、maxdfiは、前記探索項のどれかが表
れるような前記検索された文書の最大数であることを特
徴とする連想型テキスト探索及び検索システムによって
達成される。
【0015】本発明の上記課題は、連想型テキスト探索
及び検索システムであって、ユーザに前記システムに情
報を供給しかつ該システムから情報を受け取らせるべく
ネットワークに接続された一つ以上のユーザ端末装置を
有している該ネットワークと相互作用する前置処理手段
と、複数のテキスト文書と、文書コレクションにおいて
どのように文書を表わすことができるかを示している所
定の情報とを含んでいる少なくとも一つの文書コレクシ
ョンを記憶する手段と、前記ユーザによって供給される
複数の探索項を用いて前記テキスト文書の探索を実行
し、もしあれば、前記強制探索項、及び少なくとも一つ
の前記探索項を含んでいる前記テキスト文書のそれぞれ
に対する得点を計算し、それらの得点に基づいて前記テ
キスト文書をランキングし、前記文書のランクに基づい
て前記テキスト文書のサブセットである所定数の検索さ
れた文書を前記前置処理手段に供給し、前記検索された
文書は、前記前置処理手段に供給されない前記テキスト
文書よりも高いランクを有し、前記得点は、前記探索項
の各々の前記テキスト文書のそれぞれにおける頻度の二
乗に従って変化する数式を用いて算出される、前記前置
処理手段及び前記記憶手段に結合されたプロセッサ手段
と、前記文書コレクションに含まれた前記所定の情報に
基づいて前記ユーザに前記検索された文書を表わす多く
の可能な順序の一つを選択させる手段とを備えているこ
とを特徴とする連想型テキスト探索及び検索システムに
よって達成される。
【0016】更に、本発明の上記課題は、連想型テキス
ト探索及び検索システムであって、ユーザに前記システ
ムに情報を供給しかつ該システムから情報を受け取るこ
とを許容すべくネットワークに接続された一つ以上のユ
ーザ端末装置を有している前置処理手段と、前記システ
ムへの入力を供給すべくユーザをプロンプトし、前記ユ
ーザによって供給された入力に基づいて探索要求を形成
し、かつ検索された文書をユーザに供給するソフトウェ
アプログラムを含んでいる、前記前置処理手段に接続さ
れた、セッションアドミニストレーション(SA)コン
ピュータと、複数のテキスト文書を記憶する記憶装置を
有し、かつ前記ユーザによって供給された複数の探索項
を用いて前記テキスト文書の探索を実行し、前記探索項
の少なくとも一つを含んでいる前記テキスト文書のそれ
ぞれに対して得点を計算し、それらの得点に基づいて前
記テキスト文書をランキングし、前記文書のランクに基
づいて前記所定数の検索された文書を前記SAコンピュ
ータに供給するソフトウェアプログラムを有している、
前記SAコンピュータに結合された、探索及び検索(S
R)コンピュータとを備え、前記検索された文書は、前
記SAコンピュータに供給されなかった前記テキスト文
書よりも高いランクを有し、前記得点は、前記探索項の
各々の前記テキスト文書のそれぞれにおける頻度の二乗
に従って変化する数式を用いて計算されることを特徴と
する連想型テキスト探索及び検索システムによって達成
される。
【0017】本発明の連想型テキスト探索及び検索シス
テムでは、前記数式は、前記探索項の各々の逆文書頻度
に従っても変化するように構成してもよい。本発明の連
想型テキスト探索及び検索システムでは、各語を同義語
及び形態素変形の両方に相関する複数の語に対するエン
トリを有しているシソーラスを更に備えて構成してもよ
い。また、本発明の上記課題は、連想型テキスト探索及
び検索システムであって、ユーザに前記システムに情報
を供給しかつ該システムから情報を受け取ることを許容
すべくネットワークに接続された一つ以上のユーザ端末
装置を有している前置処理手段と、前記システムへの入
力を供給すべくユーザをプロンプトし、前記ユーザによ
って供給された入力に基づいて探索要求を形成し、かつ
検索された文書をユーザに供給するソフトウェアプログ
ラムを含んでいる、前記前置処理手段に接続された、セ
ッションアドミニストレーション(SA)コンピュータ
と、複数のテキスト文書を記憶する記憶装置を有し、か
つ前記ユーザによって供給された複数の探索項を用いて
前記テキスト文書の探索を実行し、前記探索項の少なく
とも一つを含んでいる前記テキスト文書のそれぞれに対
して得点を計算し、それらの得点に基づいて前記テキス
ト文書をランキングし、前記文書のランクに基づいて前
記所定数の検索された文書を前記SAコンピュータに供
給するソフトウェアプログラムを有している、前記SA
コンピュータに結合された、探索及び検索(SR)コン
ピュータとを備え、前記検索された文書は、前記SAコ
ンピュータに供給されなかった前記テキスト文書よりも
高いランクを有し、前記ランクは、前記探索項の各々の
前記テキスト文書のそれぞれにおける頻度の二乗に従い
かつ前記探索項のそれぞれの逆文書頻度に従って変化す
る数式を用いて算出され、前記数式は、
【0018】
【数5】 であり、ここで、ntは、探索項の総数を表し、ut
は、前記テキスト文書の特定のもので発生する固有の探
索項の数を表し、tfiは、探索項iが前記テキスト文
書で発生する回数を表し、ocは、最大数の探索項を含
んでいるフローティング・テキスト・ウィンドウにおけ
る探索項の発生の百分率を表しかつ該ウィンドウにおけ
る探索項の発生の計数を前記文書における探索項の発生
の総数で割ってその結果を100で掛けることによって
計算され、dfiは、項iを含む前記テキスト文書の計
数であり、maxdfiは、前記探索項、及び全ての対
数が底2であるような前記テキスト文書の最大数である
ことを特徴とする連想型テキスト探索及び検索システム
によって達成される。本発明の連想型テキスト探索及び
検索システムでは、語句を検出するために用いられるテ
ーブルを更に備え、前記テーブルは、語句の一部であり
うる各語に対して、語がある語句において占有しうる位
置を示す、エントリを含んでいるように構成してもよ
い。本発明の連想型テキスト探索及び検索システムで
は、各語を同義語及び形態素変形の両方に相関する複数
の語に対するエントリを有しているシソーラスを更に備
えて構成してもよい。本発明の上記課題は、連想型テキ
スト探索及び検索システムを動作する方法であって、ユ
ーザにより供給された複数の探索項を用いてテキスト文
書の探索を実行し、前記探索項の各々の前記テキスト文
書のそれぞれにおける頻度の二乗に従って変化する数式
を用いて少なくとも一つの前記探索項を含んでいる前記
テキスト文書のそれぞれに対して得点を計算し、それら
の得点に基づいて前記テキスト文書をランキングし、前
記文書の前記ランクに基づいて前記テキスト文書のサブ
セットである所定数の検索された文書をユーザに供給す
る段階を具備し、前記検索された文書は、供給されなか
ったテキスト文書よりも高いランクを有することを特徴
とする連想型テキスト探索及び検索システムを動作する
方法によって達成される。本発明の連想型テキスト探索
及び検索システムを動作する方法では、前記数式は、前
記探索項の各々の逆文書頻度に従っても変化するように
構成してもよい。本発明の連想型テキスト探索及び検索
システムを動作する方法では、各語を同義語及び形態素
変形の両方に相関する複数の語に対するエントリを有し
ているシソーラスを使用する段階を更に具備するように
構成してもよい。本発明の連想型テキスト探索及び検索
システムを動作する方法では、前記探索策を実行する段
階の前に、前記ユーザに前記検索された文書のそれぞれ
に存在しなければならない強制項を入力させる段階を更
に具備するように構成してもよい。また、本発明の上記
課題は、連想型テキスト探索及び検索システムを動作す
る方法であって、ユーザにより供給された複数の探索項
を用いてテキスト文書の探索を実行し、かつ前記テキス
ト文書のサブセットでありかつ前記探索項の少なくとも
一つを含む所定数の検索された文書をユーザに供給する
段階を具備し、前記検索された文書は、供給されなかっ
たテキスト文書よりも高いランクを有し、前記ランク
は、前記探索項の各々の前記テキスト文書のそれぞれに
おける頻度の二乗に従いかつ前記探索項のそれぞれの逆
文書頻度に従って変化する数式を用いて算出され、前記
数式は、
【0019】
【数6】 であり、ここで、ntは、探索項の総数を表し、ut
は、前記テキスト文書の特定のもので発生する固有の探
索項の数を表し、tfiは、探索項iが前記テキスト文
書で発生する回数を表し、ocは、最大数の探索項を含
んでいるフローティング・テキスト・ウィンドウにおけ
る探索項の発生の百分率を表しかつ該ウィンドウにおけ
る探索項の発生の計数を前記文書における探索項の発生
の総数で割ってその結果を100で掛けることによって
計算され、dfiは、項iを含む前記テキスト文書の計
数であり、maxdfiは、前記探索項、及び全ての対
数が底2であるような前記テキスト文書の最大数である
ことを特徴とする連想型テキスト探索及び検索システム
を動作する方法によって達成される。
【0020】更に、本発明の上記課題は、連想型テキス
ト探索及び検索システムを動作する方法であって、ユー
ザにより供給された複数の探索項を用いてテキスト文書
の探索を実行し、前記ユーザに前記検索された文書のそ
れぞれに存在しなければならない強制項を入力させ、前
記探索項の各々の前記テキスト文書のそれぞれにおける
頻度の二乗に従って変化する数式を用いて、もしあれ
ば、前記強制項、及び少なくとも一つの前記探索項を含
んでいる前記テキスト文書のそれぞれに対して得点を計
算し、それらの得点に基づいて前記テキスト文書をラン
キングし、前記文書のランクに基づいて前記テキスト文
書のサブセットである所定数の検索された文書をユーザ
に供給する段階を具備し、前記検索された文書は、前記
ユーザに供給されなかったテキスト文書よりも高いラン
クを有することを特徴とする連想型テキスト探索及び検
索システムを動作する方法によって達成される。本発明
の連想型テキスト探索及び検索システムを動作する方法
では、前記計算する段階において、前記探索項の一部で
ない前記強制項は、前記得点を計算することに用いない
ように構成してもよい。
【0021】また、本発明の上記課題は、連想型テキス
ト探索及び検索システムを動作する方法であって、ユー
ザにより供給された複数の探索項を用いて文書コレクシ
ョンに含まれるテキスト文書の探索を実行し、前記テキ
スト文書に対応付けられた索引を用いて該テキスト文書
内の可能な探索項の位置を示し、前記索引に雑音項を含
まないことによって前記探索に対して考慮されることか
ら雑音項を除外し、頻繁に用いられる項のリストにおけ
る前記文書コレクション及び前記索引に含まれる頻繁に
用いられる項を前記探索に対して考慮されることから除
外し、前記頻繁に用いられる項のリストは、前記文書コ
レクションにおける項の発生の頻度及び前記文書コレク
ションの特性の一つ以上に基づいて、動的であり、該頻
繁に用いられる項は、前記探索に対する前記リストの項
を用いないことによって該探索から除外され、前記探索
項の各々の前記テキスト文書のそれぞれにおける頻度の
二乗に従って変化する数式を用いて、前記除外段階にお
いて除外された頻繁に用いられる項及び雑音項を除いて
少なくとも一つの前記探索項を含んでいる前記テキスト
文書のそれぞれに対して得点を計算し、それらの得点に
基づいて前記テキスト文書をランキングし、前記文書の
ランクに基づいて前記テキスト文書のサブセットである
所定数の検索された文書をユーザに供給する段階を具備
することを特徴とする連想型テキスト探索及び検索シス
テムを動作する方法によって達成される。
【0022】更に、本発明の上記課題は、連想型テキス
ト探索及び検索システムを動作する方法であって、ユー
ザにより供給された複数の探索項を用いてテキスト文書
の探索を実行し、前記探索項の各々の前記テキスト文書
のそれぞれにおける頻度の二乗に従って変化する数式を
用いて、少なくとも一つの前記探索項を含んでいる前記
テキスト文書のそれぞれに対して得点を計算し、それら
の得点に基づいて前記テキスト文書をランキングし、前
記文書のランクに基づいて前記テキスト文書のサブセッ
トである所定数の検索された文書をユーザに供給し、ど
の探索項がどの検索された文書に存在するかを各検索さ
れた文書に対して示す段階を具備することを特徴とする
連想型テキスト探索及び検索システムを動作する方法に
よって達成される。
【0023】本発明の連想型テキスト探索及び検索シス
テムを動作する方法では、前記検索された文書内の前記
探索項の各々の前記存在は、眼で判読可能な形で表示さ
れるように構成してもよい。本発明の上記課題は、連想
型テキスト探索及び検索システムを動作する方法であっ
て、ユーザにより供給された複数の探索項を用いてテキ
スト文書の探索を実行し、頻繁に用いられる項及び雑音
項を除いて少なくとも一つの前記探索項を含んでいる前
記テキスト文書のそれぞれに対して得点を計算し、それ
らの得点に基づいて前記テキスト文書をランキングし、
前記文書のランクに基づいて前記テキスト文書のサブセ
ットである所定数の検索された文書をユーザに供給し、
前記探索項の各々に対する項重要度を眼で判読可能な形
で表示する段階を具備し、前記項重要度は、log(m
axdfi/dfi)に従って変化し、ここでlog
は、底が2であり、dfiは、探索項iを含む前記検索
された文書の計数であり、maxdfiは、前記探索項
のどれかが表れるような前記検索された文書の最大数で
あることを特徴とする連想型テキスト探索及び検索シス
テムを動作する方法によって達成される。
【0024】更に、本発明の上記課題は、連想型テキス
ト探索及び検索システムを動作する方法であって、ユー
ザにより供給された複数の探索項を用いて文書コレクシ
ョンに含まれたテキスト文書の探索を実行し、前記探索
項の各々の前記テキスト文書のそれぞれにおける頻度の
二乗に従って変化する数式を用いて、少なくとも一つの
前記探索項を含んでいる前記テキスト文書のそれぞれに
対して得点を計算し、それらの得点に基づいて前記テキ
スト文書をランキングし、前記文書のランクに基づいて
前記テキスト文書のサブセットである所定数の検索され
た文書をユーザに供給し、前記ユーザに前記文書コレク
ションの前記文書が表されうる方法を示している前記文
書コレクションに含まれる所定の情報に基づいて前記検
索された文書を表わすための多くの可能の順序の一つを
選択させる段階を具備することを特徴とする連想型テキ
スト探索及び検索システムを動作する方法によって達成
される。
【0025】また、本発明の上記課題は、連想型テキス
ト探索及び検索システムであって、ユーザに前記システ
ムに情報を供給しかつ該システムから情報を受け取らせ
るべくネットワークに接続された一つ以上のユーザ端末
装置を有している該ネットワークと相互作用する前置処
理手段と、複数のテキスト文書を記憶する記憶手段と、
前記ユーザによって供給される複数の探索項を用いて前
記テキスト文書の探索を実行し、少なくとも一つの前記
探索項を含んでいる前記テキスト文書のそれぞれに対す
る得点を計算し、それらの得点に基づいて前記テキスト
文書をランキングし、前記文書のランクに基づいて前記
テキスト文書のサブセットである所定数の検索された文
書を前記前置処理手段に供給し、前記検索された文書
は、前記前置処理手段に供給されない前記テキスト文書
よりも高いランクを有し、前記得点は、前記探索項の各
々の前記テキスト文書のそれぞれにおける頻度の二乗に
従って変化する数式を用いて計算される、前記前置処理
手段及び前記記憶手段に結合されたプロセッサ手段と、
前記探索項のそれぞれに対する項重要度を示している画
面をユーザに供給する手段とを備え、前記項重要度は、
前記探索項の逆文書頻度に従って変化することを特徴と
する連想型テキスト探索及び検索システムによって達成
される。
【0026】また、本発明の上記課題は、連想型テキス
ト探索及び検索システムを動作する方法であって、ユー
ザにより供給された複数の探索項を用いてテキスト文書
の探索を実行し、前記探索項の各々の前記テキスト文書
のそれぞれにおける頻度の二乗に従って変化する数式を
用いて、前記除外段階において除外された頻繁に用いら
れる項及び雑音項を除いて少なくとも一つの前記探索項
を含んでいる前記テキスト文書のそれぞれに対して得点
を計算し、それらの得点に基づいて前記テキスト文書を
ランキングし、前記文書のランクに基づいて前記テキス
ト文書のサブセットである所定数の検索された文書をユ
ーザに供給し、前記探索項の各々に対する項重要度を示
す段階を具備し、前記項重要度は、前記探索項の逆文書
頻度に従って変化することを特徴とする連想型テキスト
探索及び検索システムを動作する方法によって達成され
る。
【0027】
【発明の実施の形態】本発明によれば、ユーザは、少な
くとも一つの供給された探索項を包含している文書を検
索するために文書データベースを探索しかつ文書の探索
項のそれぞれの項の頻度の二乗に比例して、より詳細に
は、頻度の二乗の対数に比例して(対数の定義に基づけ
ば、頻度の対数に比例して)、変化するランキングの数
式(ranking formula) を用いて各文書をランク(配列)
する連想型テキスト探索及び検索システムに一つ以上の
探索項を包含している探索記述を供給する。ランキング
の式は、各探索項の逆文書頻度によっても変化しうる。
数式は、文書のコレクションにおける文書の数を推定す
るために最大項頻度を用いることもでき、それゆえに、
文書の大きさ及びコレクションの文書の数を決定するた
めに必要な処理の量を低減する。ユーザは、探索にそれ
らの項を包含する文書を戻すことだけをもたらす強制項
(mandatory terms)を供給しうる。
【0028】システムは、語(words) の同義語及び形態
素変形の両方を供給するためにシソーラスを採り入れる
ことができる。探索記述における語句は、語句における
語の可能な位置を示しているビットマップを有するテー
ブルを用いて検出されかつ語句における語に関連したI
Dに対応しているノードを有しているトリーを用いるこ
とによって、ノードは、語が語句に現れうる順番に従っ
て接続される。システムは、文書に対する索引に供給さ
れていない、雑音語と、探索では用いられないが索引に
供給されている、頻繁に用いられる項との間を区別する
ことによって探索を最適化する。
【0029】システムは、探索項及び強制項の最大数及
び多様性を包含するテキストのウィンドウを表示するこ
とを含んでいる、探索によって検索される文書に対する
表示オプションを供給しうる。また、システムは、どの
探索項がどの検索された文書にあるのかを表している画
面を表示しうるしかつ、各項の文書頻度の逆数に従って
変化する、各項の重要度を表わす画面を表示しうる。文
書は、ランクに従ってまたは逆入力順のような、所定の
省略時の方法に従って分類されうる。
【0030】システムは、複数の相互接続されたプロセ
ッサ及び適切なデータを含みうるので、あるプロセッサ
のあるものは、探索を実行し、他のプロセッサは、探索
データを併合しかつユーザと対話する。
【0031】
【実施例】以下、図面を参照して、本発明の連想型テキ
スト探索及び検索システムの実施例を説明する。図1
は、本発明の連想型テキスト探索及び検索システムの一
実施例の構成を示す概略図である。図1を参照すると、
本実施例の文書探索及び検索システム30は、ユーザに
特定のキーワードまたは語句に対する複数の文書のサブ
セットを探索させかつ、探索要求に対応する文書を、ユ
ーザが見るべく、検索する。システム30は、複数のセ
ッション・アドミニストレータ(SA)コンピュータ4
2〜44に高速相互接続38を介して接続された複数の
探索及び検索(SR)コンピュータ32〜35を備えて
いる。SR32〜35の各々は、それぞれが複数の文書
に対するテキスト、それの索引、及び他の補助的データ
を包含している、一つ以上の文書コレクション46〜4
9に接続される。一つ以上のSRが単一文書コレクショ
ンへのアクセスを供給しうる。また、単一のSRが一つ
以上の文書コレクションへのアクセスを供給しうる。S
R32〜35は、カリフォルニア州サンタクララの日立
データシステムによって製造されるモデルEX100の
ような、当業者に知られた種々の市販されたコンピュー
タを用いて実施されうる。
【0032】SA42〜44の各々は、語句及びシソー
ラス辞書52〜54を表しているデータへのアクセスを
供給する。SA42〜44は、カリフォルニア州サニー
ヴェールのアムダール・コーポレーション(Amdahl Corp
oration)によって製造されるモデル5990及び599
5のような、種々の市販されたコンピュータを用いても
実施されうる。SRとSAの間の相互接続38は、ミネ
ソタ州ミネアポリスのネットワーク・システム・コーポ
レーションによって製造されるモデル7200−DXの
ような、当業者に知られた、多数の双方向高速コンピュ
ータ・データ相互接続のいずれかでありうる。
【0033】SA42〜44の各々は、複数のフロント
エンド・プロセッサの一つに接続される。フロントエン
ド・プロセッサ56〜58は、X.25ネットワーク、
長距離電話回線、及びスプリントネット(SprintNet) の
ような、ディジタル・データをアクセスするための一つ
以上の一般的に利用可能なネットワーク62にシステム
30の接続を供給する。ネットワーク62に接続される
のは、ユーザにシステム30へのアクセスを供給する複
数の端末装置64〜66である。端末装置64〜66
は、データ入力及び出力を単に処理しかつ表示するダン
プ端末装置でありうるか、またはIBMまたはIBM互
換性パーソナル・コンピュータのような、種々の容易に
利用できる独立型コンピュータの一つでありうる。フロ
ントエンド・プロセッサ56〜58は、カリフォルニア
州サニーヴェールのアムダール・コーポレーションによ
って製造されるモデル4745及び4705のような、
種々の汎用デバイスによって実施されうる。図1に示し
た構成部分の数は、説明の目的のためだけであり、ここ
に記載したシステム30は、あらゆる数のSA、SR、
フロントエンド・プロセッサ等を有しうるということに
注目してほしい。また、ここに記載した処理の分散は、
変更されうるし、事実、本発明の精神及び範疇から逸脱
することなく単一コンピュータ上で実行されうる。
【0034】端末装置64〜66の一つを介してシステ
ム30へのアクセスを望んでいるユーザは、フロントエ
ンド・プロセッサ56〜58の一つへの、当業者に知ら
れた手段により、接続を確立するためにネットワーク6
2を用いるであろう。フロントエンド・プロセッサ56
〜58は、端末装置64〜66による表示に対する出力
データを供給することによってかつユーザによって入力
された端末装置キーボード入力を処理することによっ
て、ユーザ端末装置64〜66との通信を操作または処
理する。フロントエンド・プロセッサ56〜58によっ
て出力されるデータは、テキスト及び画面指令を含む。
フロントエンド・プロセッサ56〜58は、画面をクリ
ーニングすること及びカーソル挿入点を移動すること等
のような画面機能性(画面相関性)を端末装置64〜6
6に供給する、一般によく知られたVT100指令のよ
うな、画面制御指令を支持する。フロントエンド・プロ
セッサ56〜58は、適切な指令を供給することによっ
て他の知られた型の端末装置及び/又は独立型コンピュ
ータを処理しうる。
【0035】フロントエンド・プロセッサ56〜58の
各々は、それに接続されたSA42〜44の特定のもの
と、当業者に知られた手段により、双方向に通信する。
一つ以上のフロントエンド・プロセッサがSA42〜4
4の一つ以上と通信しうるように、当業者に知られた方
法で、システムを構成することも可能である。フロント
エンド・プロセッサ56〜58は、データフロー・パタ
ーンに応じてSA42〜44を“負荷平衡”すべく構成
されうる。負荷平衡の概念は、当業者に知られている。
【0036】SA42〜44の各々は、端末装置64〜
66の一つでユーザによって入力された探索要求を処理
しかつ探索を実行しかつSA42〜44へ、文書のテキ
ストを含んでいる、結果を戻す一つ以上のSR32〜3
5に探索要求情報を渡す、以下に詳細に説明する、アプ
リケーション・プログラムを包含する。SA42〜44
は、端末装置64〜66を介して探索結果に対応してい
るテキスト文書をユーザに供給する。特定のユーザ・セ
ッションに対して(例えば、端末装置64〜66の一つ
を介してシステムをアクセスしている単一のユーザ)、
SA42〜44の単一ものは、フロントエンド・プロセ
ッサ56〜58の適切なものを通してユーザと対話す
る。
【0037】図2を参照すると、物理文書コレクション
46〜49のそれぞれに記憶されたデータ70は、文書
テキスト72、索引74、及び補助的文書情報76を備
えている。データ70は、コンピュータ・ハードディス
ク記憶装置の一つ以上のファイルに装填されうる。デー
タ70の文書テキスト72部分は、複数の文書に対する
(ASCIIまたはEBCDIC文字データのような)
テキストを表している文字データを備えている。文書テ
キスト72の一部である文書のそれぞれは、個別にアク
セスされうる。索引74は、それらの項の文書における
位置と一緒に文書テキスト72の文書の全てに存在する
項(語及び語句)のリストを包含する。以下に詳述す
る、補助的文書情報76は、文書に関連するデータ、文
書のソース等のような、文書についての他の情報を包含
する。
【0038】図3を参照すると、文書コレクションに対
する索引74は、特定の項(項1〜項n)を複数の位置
(位置A〜位置I)に関係付ける複数のエントリを備え
ている。図3の左側部分に示すテーブルは、項1がポイ
ンタP1及びP2に関係付けられ、項2がポインタP3
及びP4に関係付けられ、項nがポインタPr及びPs
に関係付けられるように各項を一対のポインタに関係付
ける。図3の右側部分は、物理文書コレクションにおけ
る項の全てに対する位置の全てのリストを表わす。各項
に関連するポインタは、物理コレクションの文書のテキ
ストの項を項の位置と相関させるためにリストにおける
最初及び最後の位置を指す。例えば、図3は、リストに
おいて(P1により指された)位置A〜(P2により指
された)位置Cに位置決めされている項1を示す。位置
Aに対するエントリと位置Cに対するエントリの間のリ
ストにおける位置の全ては、文書コレクションの項1に
対して個別の位置を示す。語“of”のような、あまりに
も一般的で文書探索においてあまり価値がない語及び語
句は、“雑音語(noise words) ”と考えられかつ索引に
含まれない。各物理文書コレクションに対する雑音語の
リストは、補助的文書情報76と共に記憶される。
【0039】SR32〜34は、検索74をアクセスす
ることによって特定項に対する物理コレクションにおけ
る文書を探索する。探索要求の項は、探索要求の項を包
含する文書テキスト72において指定文書を見付けるた
めに索引74の項と一致される。複数項は、単数化され
かつそれらの単数形に記憶される。探索要求のために実
行依頼された項も単数化される。単数化は、この技術分
野において既知であり、ここで参考文献として示すProg
ram, Vol. 1, no. 3, pp.130-137, July 1980に記載さ
れている。
【0040】ユーザは、システム30の文書の全てを一
般に探索しないが、それよりも、探索を実行する前に探
索されるべき文書のサブセットを選択する。論理文書コ
レクションと考えられる、サブセットは、特定分類また
は一つ以上の共通の属性または特質を有している文書の
グループに対応する。例えば、米国連邦最高裁判所の書
面による意見の全ては、論理コレクションでありうる。
以下に詳述するように、論理コレクションは、物理コレ
クションに対応しうるし、物理コレクションのサブセッ
トでありうるし、複数の物理コレクションからなりうる
し、または複数の物理コレクションのサブセットからな
りうる。
【0041】図4を参照すると、米国の連邦最高裁判所
の書面による意見の論理文書コレクション80は、4つ
の物理コレクション82〜85を備えている:1700
〜1900の意見、1901〜1960の意見、196
1〜1992の意見、及び1993の意見。上述したよ
うに、物理コレクション82〜85のそれぞれは、テキ
スト・セクション及び索引を備えている。ユーザが全て
の米国連邦最高裁判所の事件を探索するならば、ユーザ
と対話している特定のSAは、どの物理文書コレクショ
ンが選択した論理文書コレクションに対応するかを決定
するために参照テーブルを用いる。参照テーブルは、論
理文書コレクションを物理文書コレクションに相関させ
る。次に、SAは、適切な物理文書コレクションで探索
を実行しかつ結果を戻すために適切なSRに指令を送
る。
【0042】図5を参照すると、論理文書コレクション
90は、税金問題を扱う米国連邦最高裁判所の書面の意
見を表わす。論理文書コレクション90は、単一の位置
においてそれ自体で物理的に存在しない。それよりも、
論理文書コレクション90は、物理コレクション82〜
85の複数のサブセット92〜95を備えている。サブ
セット92は、物理コレクション82に包含される米国
連邦最高裁判所の書面の意見における税金問題事件に対
応する。同様に、サブセット93〜95は、税金問題を
扱う物理コレクション83〜85の部分をそれぞれ表わ
す。
【0043】ユーザが探索するために論理コレクション
90を選択するならば、ユーザと対話しているSAは、
上述したように、探索のために物理コレクション82〜
85を決定し、また、論理コレクションの一部である文
書だけが検索されることを確実にするフィルタを構築す
るためにSRに指示を供給する。フィルタは、どの文書
が探索されるべきでありかつどの文書が無視されるべき
かをSRに示す文書のリストまたはビットマップであ
る。SRは、論理コレクションの一部である文書に対応
する結果を戻すだけのためにフィルタを用いる。フィル
タは、テーブルを用いてSRによってまたは補助的文書
情報76を検査することによって構築されうる。論理コ
レクション90に対して、フィルタは、物理コレクショ
ン82〜85のサブセット92〜95に対応している文
書を戻すだけを探索にもたらす。
【0044】図6を参照すると、ユーザ画面100は、
探索要求の入力を示している。画面100は、ユーザ端
末装置に表示される。画面100上のプロンプト102
は、探索記述をエントリすることをユーザに指示する。
ユーザは、画面100の領域104の中に端末装置キー
ボードで探索記述をタイプする。記述は、語句を供給す
べく語のグループのまわりに引用符を含みうる。引用符
は、語句の語を個別に探索することよりも語句が単一項
として探索されるべきであることを示す。語の個別の場
合は、探索と一致しない。ユーザは、探索記述の入力を
終了したことを示すために端末装置で<エンター>キー
を押す。
【0045】SA42〜44は、記述の各語に対してユ
ーザによって選択された論理コレクションを個別に探索
すべくSRを指示することによって探索記述を処理する
(例外もあるが、後述する)。雑音項でない探索記述の
項のそれぞれは、SRによって個別に探索される。少な
くとも一つの項を包含している文書は、探索と一致す
る。次に、各一致した文書は、後で詳述するように、得
点されかつ見せるべくユーザのために検索される。
【0046】図7を参照すると、探索記述を入力しかつ
<エンター>を押しているユーザに応じて画面110が
供給される。画面は、探索記述112a及び複数のオプ
ション114〜118を含む。第1のオプション114
は、入力/編集(Enter/Edit)強制項をユーザに許容す
る。第2のオプション115は、入力/編集制限をユー
ザに許容する。第3のオプション116は、シソーラス
を用いることをユーザに許容する。第4のオプション1
17は、探索記述を編集することをユーザに許容する。
第5のオプション118は、検索された文書の数を変え
ることをユーザに許容する。オプション114〜118
が画面上に表される順序は、設計上の選択でありかつオ
プションは、本発明の精神及び範疇から逸脱することな
くあらゆる順序であらわされうるということに注目すべ
きである。。
【0047】オプション114〜118は、探索要求に
よって検索された文書の特性を変更することをユーザに
許容する。ユーザは、探索を実行すべくシステムに指示
する前に探索を変更すべく反復的にオプションを選択し
うる。第1、第2、及び第3のオプション114〜11
6は、以下に詳述する。第4のオプション117は、探
索記述112aのテキストを変更することをユーザに許
容する。第5のオプション118は、探索によって戻さ
れた文書の数を設定することをユーザに許容する。探索
によって戻された文書の数は、探索を実行した後にユー
ザが見ることができる文書の最大数を決定する。戻され
た文書は、最も高い評価(highest ratings) を有するも
のであり、例えば、25の設定は、ユーザに25の最も
高く評価された文書を戻す。文書評価は、以下に詳述さ
れる。探索要求事項を満足する文書の数が第5のオプシ
ョン118により設定された数よりも少ないならば探索
は、第5のオプション118を用いて設定された戻り文
書の数(ゼロ文書を含む)よりも少ない数の文書を戻し
うることが可能であるということに注目すべきである。
【0048】図8を参照すると、ユーザが強制項を入力
するために第1のオプション114を選択した後の画面
110を示す。強制項は、探索で戻されるべき文書に対
して文書の中になければならない項である。一つ以上の
強制項を入力しないならば、探索は、探索記述の少なく
とも一つの項を包含する文書を戻す。探索で戻された全
ての文書が特定項の少なくとも一つの発生を包含するこ
とをユーザが望むならば、ユーザは、第1のオプション
114を選択しかつ端末装置キーボードで強制項を入力
する。図8に示した画面110では、ユーザは、項“T
QM”及び“使用可能性テスト”が強制項であることを
ライン122で示している。従って、探索によって戻さ
れた全ての文書は、両方の項“TQM”及び“使用可能
性テスト”を包含することが保証されている。強制項
は、上述した、論理文書コレクションを構築するために
用いたフィルタと同様なフィルタを用いて実施される。
【0049】強制項が探索記述の一部であることは、必
要ない。ユーザは、探索記述の一部でない強制項を供給
しうる。探索記述の一部でない強制項は、文書ランクに
用いられないが(以下に詳述する)以下に説明する他の
機能に対して用いられる。
【0050】図9を参照すると、制限を入力するために
第2のオプション115を選択しているユーザに応じて
画面130が供給されている。画面130は、ユーザに
よって選択されうる複数の制限132〜136を示す。
制限は、探索によって戻された文書上の制約である。例
えば、第1の制限132は、によって戻される文書の日
付が特定の日付の以前または以後であることを示す日付
制限である。画面130に対して示された制限は、特定
の型の論理コレクション(書面裁判意見)に対するもの
であるということに注目すべきである。他の型の論理コ
レクション及び他の型の文書に対しては、選択すべきユ
ーザに対して他の型の制限を供給することが適切であり
うる。
【0051】図10を参照すると、制限が入力された後
の画面110が示されている。画面110上のライン1
42は、この例では、探索で戻された文書が第6巡回裁
判所からの書面意見でありかつ全ての文書が10/1/
92以後の日付を有することを示す。SAは、(上述し
たように)フィルタを構築すべくSRに指示するために
制限を用いる。フィルタは、制限によって課せられた要
求事項に一致している文書だけが探索によって戻される
ことを確実にする。
【0052】図11を参照すると、強制項に対するライ
ン122及び制限に対するライン142の両方が画面1
10が示されており、それゆえにユーザが探索のための
制限及び強制項の両方を入力しうることを示している。
この場合には、SAは、強制項及び制限の両方に対する
フィルタを構築すべくSRに指示するということに注目
すべきである。
【0053】図12を参照すると、図7に示した画面1
10から第3のオプション116(シソーラス)を選択
しているユーザに応じて画面150が供給される。探索
記述からの項152は、画面150上に掲載される。ユ
ーザは、探索記述からの項152を見て同等項が望まし
い項番号154を選択する。
【0054】図13を参照すると、ユーザが同等項が望
ましい探索記述の項を選択したの後で画面160がユー
ザに供給される。画面160の部分162は、探索記述
からの項を示す。画面160の別の部分164は、項の
形態素変形を示す。語の形態素変形は、同じ語の異なる
形である。例えば、“condition ”、“conditione
r”、“conditioning”、及び“conditioned ”は、全
て互いに形態素変形である。画面160の他の部分16
6は、探索記述からの項に対する同義語を示す。ユーザ
は、画面160から形態素変形及び同義語のあらゆる数
及び組合せを選択しうる。シソーラス機能は、上述し
た、図1(構成部分52〜54)に示したように記憶さ
れる同義語及び形態素変形の両方を包含する参照テーブ
ルを用いることによって実施される。
【0055】図14を参照すると、強制項ライン12
2、制限ライン142及び探索記述112bのある項に
対する同等物(括弧で示す)を包含する探索記述112
bを有する画面110が示されている。同等物は、ユー
ザが第3(シソーラス)オプション116を選択しかつ
探索記述112bの特定項に対して選択した同等物項を
供給した後にユーザによって供給される。
【0056】図15を参照すると、探索の終了後に画面
170が供給される。強制項ライン122及び制限ライ
ン142は、画面170の一部であるということに注目
すべきである。項ライン172は、項重要度の順に掲載
された探索記述の項を示す。項重要度は、以下に詳述す
る。項ライン172は、二つの項173“FIRST ”及び
“CASE”で後続された星印(asterisk)を包含するという
ことにも注目すべきである。星印は、構造する項が“頻
繁に用いられる項”であるということを示す。頻繁に用
いられる項であると考えられるあらゆる項は、所望の文
書を位置決めすることにおけるそれらの値が最小である
と考えられるので探索に対する更なる処理から取り除か
れる。
【0057】画面170により示された探索に対して、
二つの項173“FIRST”及び“CASE”は、頻繁に用い
られる項と考えられるので探索されない。図3に関して
示した、補助的データ76は、各物理文書コレクション
に対して頻繁に用いられる項のテーブルを包含する。ど
の項がテーブルに行くかという決定は、物理コレクショ
ンにおける項の発生の頻度及び項の意味と文書コレクシ
ョンの性質の間の関係を含んでいるが、それらに限定さ
れない、当業者に既知の種々の機能ファクタに基づく。
雑音語は、物理文書コレクションに対する索引に掲載さ
れてもいないので、この機構は、上述した“雑音語”と
は異なるということに注目すべきである。頻繁に用いら
れる項は、索引に掲載される。更に、雑音語は、探索記
述から完全に取り除かれかつ探索の終了後には画面上に
見られない。また、頻繁に用いられる項が後であるなら
ば、それが語句の一部であればそれは取り除かれないと
いうことも注目すべきである。語句は、以下により詳細
に説明する。
【0058】画面170は、複数のビュー・オプション
174〜177も包含する。オプション174〜177
が画面上に表されている順序は、設計上の選択でありか
つオプションは、本発明の精神及び範疇から逸脱するこ
となくあらゆる順序で表されうるということに注目すべ
きである。また、検索された文書を引用するためのオプ
ションのような、プロンプト174〜177の一つによ
って示されていない他のビューイング・オプションは、
オプションを実行するための適切な命令をタイプするこ
とによってユーザに利用可能でありうる。第1のオプシ
ョン174は、文書の“SuperKWIC ”ウィンドウを見る
ことをユーザに許容する。第2のオプション175は、
ユーザに文書における探索項の位置を示す画面を供給す
る。第3のオプション176は、なぜある一定の文書が
選択されたかをユーザに示す画面を持ち出す(brings u
p) 。第4のオプション177は、検索された文書が表
される順序を変更するための機会をユーザに供給する。
デフォルトにより、検索された文書は、ランクされた順
序で表される(文書ランクは、以下に詳述する)。
【0059】第4のオプション177を選択することに
よって、ユーザは、書面裁判所意見の場合において年代
順及び/最も高い裁判所から最も低い裁判所までのよう
な、異なる順序で文書が表されるということを供給しう
る。各物理文書コレクションは、補助的情報データ76
において、それと関連した、文書が表されうる方法を示
している所定の情報を有する。所定の情報は、当業者に
既知の種々の機能ファクタに基づきかつ特定文書コレク
ションの性質に従って変化する。
【0060】“SuperKWIC ”ウィンドウは、ユーザが、
強制項と探索項の多様性及び発生に基づいて文書のほと
んどの表示部分を見ることができるテキスト・ウィンド
ウである。テキスト・ウィンドウは、例えば、15ライ
ンのような、特定の長さを有している文書の可視連続部
分である。各テキスト・ウィンドウに対して、superkwi
c 得点が計算されかつ最高得点を有しているウィンドウ
がSuperKWIC ウィンドウになる。ウィンドウの得点は、
次のように計算される: ウィンドウの各探索項及び/
又は強制項に対して、得点は、1が加算される。(上述
したように、強制項は、探索記述の項である必要はない
ということに注目すべきである)。異なる探索項及び/
又は強制項によって先行されるウィンドウの各探索項及
び/又は強制項に対して、得点は、2が加算される。異
なる探索項及び/又は強制項によってそれ自体が先行さ
れる異なる探索項及び/又は強制項によって先行される
ウィンドウの各探索項及び/又は強制項に対して、得点
は再び2が加算される。
【0061】図16を参照すると、画面180は、図1
5に示した第3の(why) オプション176を選択するこ
との結果を示している。画面180の第1のカラム18
2は、探索記述の項を掲載する。項は、項重要度の順序
で掲載される(以下に詳述する)。第2のカラム184
は、カラム182からの各項を包含する検索された(探
索に対して戻された)文書の数を示す。カラム186
は、カラム182に掲載された各項を包含する検査され
た文書の総数を示す。カラム188は、カラム182に
掲載された項のそれぞれの項重要度を示す。項重要度の
計算は、以下に詳述する。
【0062】カラム182に掲載された項は、項重要度
の順序で掲載されている。カラム182のトップは、強
制項(この場合には、項“DEFAMATION”)である。カラ
ム188に示されるように、強制項に続いては、重要度
の降順の項である。リストの底部は、上述したように、
探索の部分でない、頻繁に用いられる項である。カラム
182の頻繁に用いられる項“A”は、カラム184、
186、188において“−−”を示すことに注目すべ
きである。
【0063】図17を参照すると、図15に示された第
2のオプション(where) 175を選択しているユーザに
応じて画面190が供給されている。画面は、探索項の
全てを掲載するカラム192を包含する。行194は、
検索された文書数(この例では、第1から第25番目の
文書)を掲載する。探索によって戻される各文書に対し
ては、画面190は、特定の文書に対応しているカラム
及び特定の項に対応している行に星印を配置することに
よってどの項がどの文書に存在したかを示す。特定の行
及びカラムの組合せにおける星印の欠如は、特定のカラ
ムに対応している文書が特定の行に対応している項を包
含しないということを示す。
【0064】図18を参照すると、フローチャート20
0は、ソフトウェアの高レベル・フローを示している。
第1のステップ202では、ユーザが探索記述を入力す
る。第1のステップ202に続いては、語句を決定する
ための第2のステップ203である。第2のステップ2
03では、探索記述における語句が検出される。語句
は、語句“product liability ”(製造物責任)のよう
な、個別でよりもグループとして探索されたときにもっ
とも意味がある語のグループである。語句を形成する個
々の語上よりも検出された語句上でのみ後続の探索が実
行される。語句検出は、以下に詳述する。
【0065】ステップ203の後は、ユーザが上述した
ような探索オプション(例えば、一つ以上の制限、強制
項等)を供給したか否かという決定がなされるテスト
(検査)ステップ204である。ユーザが探索オプショ
ンを供給しなかったならば、制御は、ステップ204か
らユーザが探索が実行されるということを要求したか否
かという決定がなされる別のテストステップ205に渡
る。ここに説明した本発明の実施例に対して、ユーザ
は、探索オプションを供給することなく<エンター>キ
ーを押すことによって探索を実行するための所望を示
す。ユーザが探索が実施されるということを要求しなか
ったならば、制御は、ステップ205からステップ20
4に戻る。
【0066】ユーザがステップ204で探索オプション
を供給したならば、制御は、ステップ204から上述し
たように、ユーザ・オプション選択が処理されるステッ
プ207に渡る。ステップ207に続いては、ユーザに
よって入力されたオプションが探索記述の変更であるか
または強制項の最初のエントリでないかを決定するため
にテストがなされるテストステップ208である。そう
であるならば、制御は、更なるユーザ入力を処理するた
めにステップ208からステップ204に戻る。さもな
ければ、制御は、ステップ204で追加入力を処理する
前にユーザによって入力されたあらゆる追加語句を検出
するためにステップ208からステップ203に戻る。
ユーザが自動語句検出を回避するためにそれらオプショ
ンを選択しうるので、語句は、記述を編集した後または
強制項(最初の場合を除く)を入力した後は検出されな
い。
【0067】ステップ205でユーザが探索を実行する
ことの所望を示したならば、制御は、ステップ205か
ら探索が実行されるステップ210へ渡る。探索手順
は、以下に詳述する。ステップ210に続くのは、上述
したように、探索結果が表示されるステップ212であ
る。
【0068】図19を参照すると、語句を検出するため
にテーブル220が用いられる。テーブル220は、語
句の一部でありうる各語222に対するエントリ、関連
語エントリ222の語句における可能な位置を示してい
るビットマップ223、及び各語を表わすべく固有の任
意の番号を割り当てることによって語のそれぞれに対す
る表現を圧縮するために用いられるID224を包含す
る。テーブル220は、語エントリ222によって索引
される。
【0069】各語に対するビットマップ・エントリ22
3は、語句においてどの位置に語が現れうるかを示す。
各ビットマップ・エントリ223は、1バイト(8ビッ
ト)長である。ビットマップ・エントリ223の特定ビ
ット位置での1の値は、ビットマップ223に関連する
語222が語句の対応する位置に現れうることを示す。
逆に、特定位置のゼロの値は、語222が語句の同じ位
置に現れえないことを示す。例えば、語222に対する
ビットマップ・エントリ223が、第1、第3、及び第
6番目のビット位置に1ビットを包含しかつ他の位置の
全てにゼロビットを包含しているならば、関連語222
は、語が語句の第1、第3、または第6番目の語である
ならば語句の一部でありうる。
【0070】図20を参照すると、トリー構造230の
図は、ルート・ノード232、複数のレベル1・ノード
234〜236、複数のレベル2・ノード237〜23
9、複数のレベル3・ノード240〜242、及び複数
のレベル8・ノード243〜245を示す。レベル3と
レベル8の間のブレーク(区切り)は、トリー構造23
0の一部であるが図20には示されていない複数のレベ
ル4、レベル5、レベル6及びレベル7・ノードを表わ
す。ノードのそれぞれは、図19のテーブル220から
のID224の一つに対応する。
【0071】レベル1・ノード234〜236のそれぞ
れは、語句の最初(第1番目)の語を表わす。レベル2
・ノード237〜239のそれぞれは、語句の第2番目
の語を表わす。一般に、レベルN・ノードのそれぞれ
は、語句のN番目の語を表わす。ノード間の接続は、語
句の後続する語のトラヴァーザル(横断)を表わす。タ
ーミナル・ノードは、語句の最後の語を表わす。ここに
示した実施例では、全てのレベル8のノードは、ターミ
ナル・ノードであり、それゆえに、(上述した)ビット
マップ・エントリに1バイトだけの長さであることを許
容するということに注目すべきである。記憶空間を節約
するために、トリー構造230は、実際の語を用いるよ
りも図19に示すID224を用いて記憶される。
【0072】図21を参照すると、ユーザ供給探索記述
からの語の後続グループは、語句に対して試験されう
る。最初に、語Aは、それに対するビットマップ・エン
トリを得るために図19のテーブル220における語A
を参照することによってまず検査される。語Aに対する
ビットマップ・エントリが語Aが(最初のビット位置に
ゼロを有することによって)語句の最初の語でありえな
いということを示すならば、語Aは、語句の一部ではな
いと考えられる。さもなければ、語Aに対応しているI
Dエントリは、語Aに対応しているトリー構造230に
おけるレベル1・ノードを位置決めするために用いられ
る。
【0073】次に、語Bが試験される。語Aが語句の一
部でないならば、語Bは、語Aが試験されたと同じ方法
で試験される。さもなければ、語Bは、語Bが語句の第
2の語でありうるかをみるために対応しているビットマ
ップ・エントリをまずチェックすることによって試験さ
れる。それでないならば、語Aは、語句の一部でないと
考えられて語Bが語Aの先の試験と同じ方法で試験され
る。他方、語Bが語句の第2番目の語でありうるなら
ば、語Aに対応しているレベル1・ノードは、それが語
Bに対応しているレベル2・ノードに接続するかをみる
ために試験される。そうでないならば、語Aは、語句の
一部でないと考えられかつ語Bは、語Aが先に試験され
た方法で試験される。さもなければ、語A及び語Bは、
語句における最初の二語であると考えられて語Cで処理
が続けられる。
【0074】語Cが語句の一部でないことが分かったな
ら、語句は、語Aの後に語Bが続いて構成されており語
Cが新しい語句の最初の語であるかをテストすることに
よって処理が継続する。さもなければ、語Cが語A及び
語Bで始まる語句の第3番目の語であることがわかった
ならば、語Dが語句の第4番目の語であるかをテストす
ることによって処理が継続する。各完全な語句が検出さ
れたならば、検出された語句の後の語は、検出された語
句の後の語が新しい語句の最初の語でありうるかを決定
すべく試験される。
【0075】図2及び図3に関連して上述したように、
物理文書コレクションに対する索引は、単一項として記
憶された語句を包含しうる。単一項として記憶されない
語句に対して、語句の語を個別に探索することが可能で
ある。例えば、語句“personal injury ”は、項“pers
onal”に対する探索を項“injury”に対する探索と併合
して文書のそれぞれにおける一つの位置で項“persona
l”が項“injury”に先行するところを決定することに
よって探索されうる。
【0076】図22を参照すると、フローチャート26
0は、探索処理を示している。フローチャート260の
左側に示されたステップは、SAによって実行されるス
テップを表わし、フローチャート260の右側に示され
たステップは、実際の探索及び検索を実行する一つ以上
のSRによって実行されるステップを表わす。左側のス
テップを右側のステップと接続している点線は、SAに
よって実行されるステップとSRによって実行されるス
テップの間の時間的関係を示している。フローチャート
260は、SAとSR間のデータフローを示さない。
【0077】処理は、SAがSRへのフィルタに対する
探索項及び指示を供給する第1のステップ262で開始
する。上述したように、SAは、適切な物理コレクショ
ンを決定しかつ適切なフィルタを構築すべく指示を供給
することによって、ユーザにより選択された、文書の論
理コレクションを形成するということに注目すべきであ
る。他のフィルタ指示は、強制項または制限を入力して
いるユーザに応じて供給されうる。
【0078】ステップ262に続いては、探索の一部で
あるSRのそれぞれが上述したような選択された論理コ
レクションを備えている物理コレクションの索引をアク
セスすることにより低いレベルの探索を実行するステッ
プ263である。ステップ263に続いては、SAは、
ステップ264でSRから文書計数を受け取る。文書計
数は、項のそれぞれを包含する文書の数である。従っ
て、探索されている総数Nの項があるならば、Nの文書
計数値が存在する。また、ステップ263では、SR
が、更なる考慮から取り除かれる(上述した)あらゆる
頻繁に用いられる項に対するインディケータを戻す。
【0079】ステップ264に続いては、各探索項に対
して、SAがdfi及びmaxdfiを計算する、ステ
ップ265である。量dfiは、項iを包含する文書の
数を表わす。量maxdfiは、探索の項が現れる文書
の最大数を表わす。従って、あらゆる探索に対して、m
axdfiに対する単一値だけが存在する。ユーザの論
理文書コレクションが異なるSRで複数の物理コレクシ
ョンを備えうるので、SAは、dfi及びmaxdfi
を計算するということに注目すべきである。単一のSR
は、他のSRによって供給される文書計数を知ることな
しにdfi及びmaxdfiを計算することができな
い。
【0080】ステップ265に続いては、探索項と一致
する単一文書を包含しないSRが更なる考慮から取り除
かれる最適化ステップ266である。即ち、ユーザが選
択した論理コレクションを備えている物理文書コレクシ
ョンの一部である、SRは、SRが関連文書を包含しな
いならば、更なる処理から取り除かれる。
【0081】ステップ266に続いては、ステップ26
4でSAによって計算された、dfi及びmaxdfi
がSRに供給される、ステップ267である。ステップ
267に続いては、SRのそれぞれが探索ステップ26
3で位置決めされた各文書のランクを計算するステップ
268である。各文書のランクは、次に総和式によって
決定される:
【0082】
【数7】 ここで、ntは、探索項の総数、utは、ランクされて
いる文書で発生するそれらの項の数(各個別の項は、一
度だけ計数される)、及びtfiは、項iがランクされ
ている文書で発生する回数である。数量ocは、最大数
の探索項を包含しているテキスト・ウィンドウをフロー
トしている文書における探索項の発生の百分率(percent
age)を表わし、文書における探索項の発生総数でウィン
ドウにおける探索項の発生数を割って次に100で上記
結果を掛けることによって計算される。数量dfi及び
maxdfiは、上述した。全てのlogは、2を底と
する。数量(tfi+1)は、二乗され、それゆえに最
も大きい項頻度を有している文書の利益になるようにラ
ンクを重み付けるということに注目すべきである。
【0083】ステップ268では、SRのそれぞれは、
最高位に配置されたN文書に対するランクをSAに戻
す。ここでNは、ユーザが探索で戻されることを要求し
た文書の数である。検索された文書の数は、上記で詳述
した方法でユーザによって設定される。
【0084】ステップ268に続いては、SAは、SR
によって戻された文書ランクの全てがランクによって併
合されかつ分類されるステップ269を実行する。ここ
でNがユーザによって要求された文書の数である、最高
位Nランクを有している文書以外の全ては、更なる考慮
から取り除かれる。次にSAは、適切なSRから残存し
ている文書を要求する。例えば、ユーザが25の文書を
要求しかつ論理文書コレクションが3つのSRにまたが
るならば、3つのSRのそれぞれは、25の文書ランク
を戻す。SAは、それぞれ3つのセットの25の文書ラ
ンクを併合し、ランクによりそれらを分類し、そして最
高位の25の文書以外の全てを考慮から取り除く。SA
は、適切なSRが最高位にランクされた文書を戻すこと
要求する。
【0085】ステップ269に続いては、SRが検索し
かつステップ269でSAによって要求された最高位に
ランクされた文書をSAに戻す、SRによって実行され
る、ステップ270である。
【0086】ステップ270に続いては、項のそれぞれ
に対する項重要度が計算される、SAによって実行され
る、ステップ271である。図16のカラム188に関
連して上述した、項重要度は、項重要度の値が1から1
00までの範囲にあるように正規化された、log2
(maxdfi/dfi)に等しい。
【0087】ステップ271に続いては、上記で詳述し
たように、文書が表示されるステップ272である。
【図面の簡単な説明】
【図1】 本発明による文書探索システムの概略図であ
る。
【図2】 物理文書コレクションに記憶されたデータを
示す図である。
【図3】 物理文書コレクションに対する索引に記憶さ
れたデータを示す図である。
【図4】 複数の物理文書コレクションを備えた論理的
文書コレクションを示す図である。
【図5】 複数の物理文書コレクションのサブセットを
備えた論理的文書コレクションを示す図である。
【図6】 探索記述の入力を示している画面の図であ
る。
【図7】 探索オプションの入力を示している画面の図
である。
【図8】 強制項の入力を示している画面の図である。
【図9】 制限の入力を示している画面の図である。
【図10】 制限の表示を示している画面の図である。
【図11】 強制項及び制限の両方の入力を示している
画面の図である。
【図12】 シソーラス機能を示している画面の図であ
る。
【図13】 シソーラス機能を用いて項の同義語及び/
又は形態素変形の選択を示している画面の図である。
【図14】 強制項、制限、及びシソーラス入力を示し
ている画面の図である。
【図15】 探索の後で検索された文書を見るオプショ
ンを示している画面の図である。
【図16】 “why ”機能を示している画面の図であ
る。
【図17】 “where ”機能を示している画面の図であ
る。
【図18】 本発明によるシステムの総括的動作を示し
ているフローチャートである。
【図19】 語句を検出するために用いられるテーブル
を示す図である。
【図20】 語句を検出するために用いられるトリー・
データ構造を示す図である。
【図21】 探索記述からの複数の連続語を示す図であ
る。
【図22】 探索アルゴリズムの動作を示すフローチャ
ートである。
【符号の説明】
30 連想型テキスト探索及び検索システム 32〜35 プロセッサ 42〜44 プロセッサ 46〜49 記憶装置 52〜54 シソーラス辞書 56〜58 フロントエンド・プロセッサ 62 ネットワーク 64〜66 端末装置
フロントページの続き (72)発明者 ミラー ディヴィッド ジェームズ アメリカ合衆国 オハイオ州 45370 ス プリング ヴァリー ウッドブラッフ レ ーン 2689 (72)発明者 ルー アレン エックス アメリカ合衆国 オハイオ州 45066 ス プリングボロ ブルックサイド ドライヴ 320 (72)発明者 デイリー レイ アメリカ合衆国 オハイオ州 45449 デ イトン コッテージ ポイント ウェイ 3464 (72)発明者 ドウン ミン アメリカ合衆国 オハイオ州 45424 デ イトン ブロンズ リーフ コート 4141 (72)発明者 グレイアム リチャード ジー アメリカ合衆国 オハイオ州 45430 ビ ーヴァークリーク ケンダートン トレイ ル 222 (72)発明者 レイニンガー キャサリーン アメリカ合衆国 オハイオ州 45440 デ イトン ファーンウッド ドライヴ 40 (72)発明者 マックビース ダーリン ダブリュー アメリカ合衆国 オハイオ州 45342 マ イアミスバーグ フォレストエッジ レー ン 10214 (72)発明者 ピーズ トーマス アメリカ合衆国 オハイオ州 45040 メ イソン アントニー レーン 750 (72)発明者 セーヴァー スティーヴン エム アメリカ合衆国 オハイオ州 45419 ケ ッタリング オーク パーク アベニュー 2724 (72)発明者 ワッデル デイル アメリカ合衆国 オハイオ州 45430 デ イトン グリーンストーン コート 2648 (72)発明者 ウェックサー フランツ アメリカ合衆国 オハイオ州 45459 デ イトン ビーゼル アベニュー 67

Claims (47)

    【特許請求の範囲】
  1. 【請求項1】 連想型テキスト探索及び検索システムで
    あって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、少なくとも一つの前記
    探索項を含んでいる前記テキスト文書のそれぞれに対し
    て得点を計算し、それらの得点に基づいて前記テキスト
    文書をランク付けし、前記文書のランクに基づいて前記
    テキスト文書のサブセットである所定数の前記検索され
    た文書を前記前置処理手段に供給する、前記前置処理手
    段及び前記記憶手段に結合されたプロセッサ手段とを備
    え、 前記検索された文書は、前記前置処理手段に供給されな
    い前記テキスト文書よりも高いランクを有し、前記得点
    は、前記探索項の各々の前記テキスト文書のそれぞれに
    おける頻度の二乗に従って変化する数式を用いて計算さ
    れることを特徴とする連想型テキスト探索及び検索シス
    テム。
  2. 【請求項2】 前記数式は、前記探索項のそれぞれの逆
    文書頻度に従っても変化することを特徴とする請求項2
    に記載の連想型テキスト探索及び検索システム。
  3. 【請求項3】 前記プロセッサ手段は、前記前置処理手
    段に結合された少なくとも一つのセッションアドミニス
    トレータ(SA)コンピュータと、 前記SAコンピュータ及び前記文書記憶装置に結合され
    た少なくとも一つの探索及び検索(SR)コンピュータ
    とを更に備え、 前記SRコンピュータは、前記文書記憶装置上の前記探
    索を実行しかつ前記検索された文書を前記SAコンピュ
    ータに戻し、前記SAコンピュータは、探索項及び探索
    オプションを入力することをユーザにプロンプトし、前
    記探索要求をSRコンピュータに供給し、かつ前記ユー
    ザに前記SRコンピュータによって前記SAコンピュー
    タに戻された前記検索された文書を見させることを特徴
    とする請求項1に記載の連想型テキスト探索及び検索シ
    ステム。
  4. 【請求項4】 前記探索要求は、一つ以上のSRコンピ
    ュータに前記SAコンピュータによって供給され、前記
    SRコンピュータは、前記探索中に見付けられたテキス
    ト文書に対する文書ランクを計算しかつ前記文書ランク
    を前記SAコンピュータに戻し、前記SAコンピュータ
    は、その得点に従って前記文書の前記得点及びランクを
    併合しかつ最高の総合ランクを有している前記テキスト
    文書のサブセットを戻すことを前記SRコンピュータに
    要求することを特徴とする請求項3に記載の連想型テキ
    スト探索及び検索システム。
  5. 【請求項5】 各語を同義語及び形態素変形の両方に相
    関する複数の語に対するエントリを有しているシソーラ
    スを更に備えていることを特徴とする請求項1に記載の
    連想型テキスト探索及び検索システム。
  6. 【請求項6】 前記ユーザに前記探索された文書のそれ
    ぞれに存在しなければならない強制項を入力させる手段
    を更に備え、前記プロセッサ手段は、もしあれば、該強
    制項を含んでいる文書に対してだけ得点を計算すること
    を特徴とする請求項1に記載の連想型テキスト探索及び
    検索システム。
  7. 【請求項7】 前記記憶手段は、文書コレクションを記
    憶し、前記複数のテキスト文書は、前記文書コレクショ
    ンに含まれており、及び前記文書コレクションは、文書
    コレクションに対して頻繁に用いられる項のリストも含
    んでおり、前記頻繁に用いられる項のリストは、前記文
    書コレクションにおける項の発生の頻度及び該文書コレ
    クションの特性の一つ以上に基づいており、前記連想型
    テキスト探索及び検索システムは、 前記テキスト文書内の可能な探索項の位置を示す、前記
    テキスト文書に対応付けられた索引と、 前記索引に雑音項を含まないことによって前記探索に対
    して考慮されることから雑音項を除外する手段と、 前記探索に対して考慮されることから頻繁に用いられる
    項を除外する手段とを更に備え、 前記頻繁に用いられる項は、前記索引に含まれかつ頻繁
    に用いられる項のリストに維持され、前記頻繁に用いら
    れる項は、前記探索に対する前記リストの項を用いない
    ことによって該探索から除外されることを特徴とする請
    求項1に記載の連想型テキスト探索及び検索システム。
  8. 【請求項8】 各語を同義語及び形態素変形の両方に相
    関する複数の語に対するエントリを有しているシソーラ
    スを更に備えていることを特徴とする請求項1に記載の
    連想型テキスト探索及び検索システム。
  9. 【請求項9】 前記ユーザに前記探索された文書のそれ
    ぞれに存在しなければならない強制項を入力させる手段
    を更に備えることを特徴とする請求項8に記載の連想型
    テキスト探索及び検索システム。
  10. 【請求項10】 前記記憶手段は、文書コレクションを
    記憶し、前記複数のテキスト文書は、前記文書コレクシ
    ョンに含まれており、及び前記文書コレクションは、文
    書コレクションに対して頻繁に用いられる項のリストも
    含んでおり、前記頻繁に用いられる項のリストは、前記
    文書コレクションにおける項の発生の頻度及び該文書コ
    レクションの特性の一つ以上に基づいており、前記連想
    型テキスト探索及び検索システムは、 前記テキスト文書内の可能な探索項の位置を示す、前記
    テキスト文書に関連した索引と、 前記索引に雑音項を含まないことによって前記探索に対
    して考慮されることから雑音項を除外する手段と、 前記探索に対して考慮されることから頻繁に用いられる
    項を除外する手段とを更に備え、前記頻繁に用いられる
    項は、前記索引に含まれかつ頻繁に用いられる項のリス
    トに維持され、前記頻繁に用いられる項は、前記探索に
    対する前記リストの項を用いないことによって該探索か
    ら除外されることを特徴とする請求項9に記載の連想型
    テキスト探索及び検索システム。
  11. 【請求項11】 どの探索項がその検索された文書に存
    在するかを各検索された文書に対して示している画面を
    ユーザに供給する手段を更に備えていることを特徴とす
    る請求項10に記載の連想型テキスト探索及び検索シス
    テム。
  12. 【請求項12】 前記探索項のそれぞれに対する項重要
    度を表している画面を前記ユーザに供給する手段を更に
    備え、前記項重要度は、前記探索項の逆文書頻度に従っ
    て変化することを特徴とする請求項11に記載の連想型
    テキスト探索及び検索システム。
  13. 【請求項13】 前記項重要度は、log(maxdf
    i/dfi)に従って変化し、ここでlogは、底が2
    であり、dfiは、探索項iを含む前記検索された文書
    の計数であり、maxdfiは、前記探索項のどれかが
    表れるような前記検索された文書の最大数であることを
    特徴とする請求項12に記載の連想型テキスト探索及び
    検索システム。
  14. 【請求項14】 前記記憶手段は、少なくとも一つの文
    書コレクションを記憶し、前記複数のテキスト文書は、
    前記文書コレクションに含まれており、及び前記文書コ
    レクションは、前記文書が表されうる方法を示している
    所定の情報も含んでおり、前記連想型テキスト探索及び
    検索システムは、 前記ユーザに前記補助的文書情報に含まれた前記所定の
    情報に基づいて前記検索された文書を表わすための多く
    の可能な順序の一つを選択させる手段を更に備えている
    ことを特徴とする請求項13に記載の連想型テキスト探
    索及び検索システム。
  15. 【請求項15】 前記プロセッサ手段は、 前記前置処理手段に結合された少なくとも一つのセッシ
    ョンアドミニストレータ(SA)コンピュータと、 前記SAコンピュータ及び前記文書記憶装置に結合され
    た少なくとも一つの探索及び検索(SR)コンピュータ
    とを備え、 前記SRコンピュータは、前記文書記憶装置上の前記探
    索を実行しかつ前記検索された文書を前記SAコンピュ
    ータに戻し、前記SAコンピュータは、探索項及び探索
    オプションを入力することをユーザにプロンプトし、前
    記探索要求をSRコンピュータに供給し、かつ前記ユー
    ザに前記SRコンピュータによって前記SAコンピュー
    タに戻された前記検索された文書を見させることを特徴
    とする請求項14に記載の連想型テキスト探索及び検索
    システム。
  16. 【請求項16】 前記探索要求は、一つ以上のSRコン
    ピュータに前記SAコンピュータによって供給され、前
    記SRコンピュータは、前記探索中に見付けられたテキ
    スト文書に対する文書ランクを計算しかつ前記文書ラン
    クを前記SAコンピュータに戻し、前記SAコンピュー
    タは、前記ランクを併合しかつ最高の総合ランクを有し
    ている前記テキスト文書のサブセットを戻すことを前記
    SRコンピュータに要求することを特徴とする請求項1
    5に記載の連想型テキスト探索及び検索システム。
  17. 【請求項17】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、少なくとも一つの前記
    探索項を含んでいる前記テキスト文書のそれぞれに対し
    て得点を計算し、それらの得点に基づいて前記テキスト
    文書をランク付けし、前記文書のランクに基づいて前記
    テキスト文書のサブセットである所定数の前記検索され
    た文書を前記前置処理手段に供給する、前記前置処理手
    段及び前記記憶手段に結合されたプロセッサ手段とを備
    え、前記検索された文書は、前記前置処理手段に供給さ
    れない前記テキスト文書よりも高いランクを有し、前記
    ランクは、前記探索項の各々の前記テキスト文書のそれ
    ぞれにおける頻度の二乗に従いかつ前記探索項のそれぞ
    れの逆文書頻度に従って変化する数式を用いて算出さ
    れ、前記数式は、 【数1】 であり、ここで、ntは、探索項の総数を表し、ut
    は、前記テキスト文書の特定のもので発生する固有の探
    索項の数を表し、tfiは、探索項iが前記テキスト文
    書で発生する回数を表し、ocは、最大数の探索項を含
    んでいるフローティング・テキスト・ウィンドウにおけ
    る探索項の発生の百分率を表しかつ該ウィンドウにおけ
    る探索項の発生の計数を前記文書における探索項の発生
    の総数で割ってその結果を100で掛けることによって
    計算され、dfiは、項iを含む前記テキスト文書の計
    数であり、maxdfiは、前記探索項、及び全ての対
    数が底2であるような前記テキスト文書の最大数である
    ことを特徴とする連想型テキスト探索及び検索システ
    ム。
  18. 【請求項18】 前記プロセッサ手段は、 前記前置処理手段に結合された少なくとも一つのセッシ
    ョンアドミニストレータ(SA)コンピュータと、 前記SAコンピュータ及び前記文書記憶装置に結合され
    た少なくとも一つの探索及び検索(SR)コンピュータ
    とを備え、 前記SRコンピュータは、前記文書記憶装置上の前記探
    索を実行しかつ前記検索された文書を前記SAコンピュ
    ータに戻し、前記SAコンピュータは、探索項及び探索
    オプションを入力することをユーザにプロンプトし、前
    記探索要求をSRコンピュータに供給し、かつ前記ユー
    ザに前記SRコンピュータによって前記SAコンピュー
    タに戻された前記検索された文書を見させることを特徴
    とする請求項17に記載の連想型テキスト探索及び検索
    システム。
  19. 【請求項19】 前記探索要求は、一つ以上のSRコン
    ピュータに前記SAコンピュータによって供給され、前
    記SRコンピュータは、前記探索中に見付けられたテキ
    スト文書に対する文書ランクを計算しかつ前記文書ラン
    クを前記SAコンピュータに戻し、前記SAコンピュー
    タは、前記ランクを併合しかつ最高の総合ランクを有し
    ている前記テキスト文書のサブセットを戻すことを前記
    SRコンピュータに要求することを特徴とする請求項1
    8に記載の連想型テキスト探索及び検索システム。
  20. 【請求項20】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 前記ユーザに前記検索された文書のそれぞれに存在しな
    ければならない強制項を入力させる手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、もしあれば、前記強制
    探索項、及び少なくとも一つの前記探索項を含んでいる
    前記テキスト文書のそれぞれに対する得点を計算し、そ
    れらの得点に基づいて前記テキスト文書をランキング
    し、前記文書のランクに基づいて前記テキスト文書のサ
    ブセットである所定数の検索された文書を前記前置処理
    手段に供給する、前記前置処理手段及び前記記憶手段に
    結合されたプロセッサ手段とを備え、前記検索された文
    書は、前記前置処理手段に供給されない前記テキスト文
    書よりも高いランクを有し、前記得点は、前記探索項の
    各々の前記テキスト文書のそれぞれにおける頻度の二乗
    に従って変化する数式を用いて算出されることを特徴と
    する連想型テキスト探索及び検索システム。
  21. 【請求項21】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 前記ユーザに前記検索された文書のそれぞれに存在しな
    ければならない強制項を入力させる手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、もしあれば、前記強制
    探索項、及び少なくとも一つの前記探索項を含んでいる
    前記テキスト文書のそれぞれに対する得点を計算し、そ
    れらの得点に基づいて前記テキスト文書をランキング
    し、前記文書のランクに基づいて前記テキスト文書のサ
    ブセットである所定数の検索された文書を前記前置処理
    手段に供給し、前記検索された文書は、前記前置処理手
    段に供給されない前記テキスト文書よりも高いランクを
    有し、前記得点は、前記探索項の各々の前記テキスト文
    書のそれぞれにおける頻度の二乗に従って変化する数式
    を用いて算出される、前記前置処理手段及び前記記憶手
    段に結合されたプロセッサ手段と、 前記テキスト文書内の可能な探索項の位置を示す、前記
    テキスト文書に関連した索引と、 前記索引に雑音項を含まないことによって前記探索に対
    して考慮されることから雑音項を除外する手段と、 前記探索に対して考慮されることから頻繁に用いられる
    項を除外する手段とを備え、前記頻繁に用いられる項
    は、前記索引に含まれかつ前記探索に対する前記リスト
    の項を用いないことによって該探索から除外されること
    を特徴とする連想型テキスト探索及び検索システム。
  22. 【請求項22】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 前記ユーザに前記検索された文書のそれぞれに存在しな
    ければならない強制項を入力させる手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、もしあれば、前記強制
    探索項、及び少なくとも一つの前記探索項を含んでいる
    前記テキスト文書のそれぞれに対する得点を計算し、そ
    れらの得点に基づいて前記テキスト文書をランキング
    し、前記文書のランクに基づいて前記テキスト文書のサ
    ブセットである所定数の検索された文書を前記前置処理
    手段に供給し、前記検索された文書は、前記前置処理手
    段に供給されない前記テキスト文書よりも高いランクを
    有し、前記得点は、前記探索項の各々の前記テキスト文
    書のそれぞれにおける頻度の二乗に従って変化する数式
    を用いて算出され、周波数の二乗に従って変化する数式
    を用いて算出される、前記前置処理手段及び前記記憶手
    段に結合されたプロセッサ手段と、 どの探索項がどの検索された文書に存在するかを各該検
    索された文書に対して示している画面をユーザに供給す
    る手段とを備えていることを特徴とする連想型テキスト
    探索及び検索システム。
  23. 【請求項23】 どの探索項がどの検索された文書に存
    在するかを示している前記画面において、前記探索項
    は、重要な順番にリストされることを特徴とする請求項
    22に記載の連想型テキスト探索及び検索システム。
  24. 【請求項24】 前記画面は、探索項の全てをリストし
    ている列と検索された文書番号に対応している番号をリ
    ストしている行とを含み、前記画面は、特定の文書に対
    応している列及び特定の項に対応している行に記号を配
    置することによってどの項がどの文書に存在したかを示
    すことを特徴とする請求項22に記載の連想型テキスト
    探索及び検索システム。
  25. 【請求項25】 前記探索項は、重要な順番にリストさ
    れることを特徴とする請求項24に記載の連想型テキス
    ト探索及び検索システム。
  26. 【請求項26】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、もしあれば、前記強制
    探索項、及び少なくとも一つの前記探索項を含んでいる
    前記テキスト文書のそれぞれに対する得点を計算し、そ
    れらの得点に基づいて前記テキスト文書をランキング
    し、前記文書のランクに基づいて前記テキスト文書のサ
    ブセットである所定数の検索された文書を前記前置処理
    手段に供給し、前記検索された文書は、前記前置処理手
    段に供給されない前記テキスト文書よりも高いランクを
    有する、プロセッサ手段と、 前記探索項のそれぞれに対する項重要度を表している画
    面を前記ユーザに供給する手段とを備え、前記項重要度
    は、前記探索項の逆文書頻度に従って変化し、前記項重
    要度は、log(maxdfi/dfi)に従って変化
    し、ここでlogは、底が2であり、dfiは、探索項
    iを含む前記検索された文書の計数であり、maxdf
    iは、前記探索項のどれかが表れるような前記検索され
    た文書の最大数であることを特徴とする連想型テキスト
    探索及び検索システム。
  27. 【請求項27】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 複数のテキスト文書と、文書コレクションにおいてどの
    ように文書を表わすことができるかを示している所定の
    情報とを含んでいる少なくとも一つの文書コレクション
    を記憶する手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、もしあれば、前記強制
    探索項、及び少なくとも一つの前記探索項を含んでいる
    前記テキスト文書のそれぞれに対する得点を計算し、そ
    れらの得点に基づいて前記テキスト文書をランキング
    し、前記文書のランクに基づいて前記テキスト文書のサ
    ブセットである所定数の検索された文書を前記前置処理
    手段に供給し、前記検索された文書は、前記前置処理手
    段に供給されない前記テキスト文書よりも高いランクを
    有し、前記得点は、前記探索項の各々の前記テキスト文
    書のそれぞれにおける頻度の二乗に従って変化する数式
    を用いて算出される、前記前置処理手段及び前記記憶手
    段に結合されたプロセッサ手段と、 前記文書コレクションに含まれた前記所定の情報に基づ
    いて前記ユーザに前記検索された文書を表わす多くの可
    能な順序の一つを選択させる手段とを備えていることを
    特徴とする連想型テキスト探索及び検索システム。
  28. 【請求項28】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取ることを許容すべくネットワークに接続
    された一つ以上のユーザ端末装置を有している前置処理
    手段と、 前記システムへの入力を供給すべくユーザをプロンプト
    し、前記ユーザによって供給された入力に基づいて探索
    要求を形成し、かつ検索された文書をユーザに供給する
    ソフトウェアプログラムを含んでいる、前記前置処理手
    段に接続された、セッションアドミニストレーション
    (SA)コンピュータと、 複数のテキスト文書を記憶する記憶装置を有し、かつ前
    記ユーザによって供給された複数の探索項を用いて前記
    テキスト文書の探索を実行し、前記探索項の少なくとも
    一つを含んでいる前記テキスト文書のそれぞれに対して
    得点を計算し、それらの得点に基づいて前記テキスト文
    書をランキングし、前記文書のランクに基づいて前記所
    定数の検索された文書を前記SAコンピュータに供給す
    るソフトウェアプログラムを有している、前記SAコン
    ピュータに結合された、探索及び検索(SR)コンピュ
    ータとを備え、 前記検索された文書は、前記SAコンピュータに供給さ
    れなかった前記テキスト文書よりも高いランクを有し、
    前記得点は、前記探索項の各々の前記テキスト文書のそ
    れぞれにおける頻度の二乗に従って変化する数式を用い
    て計算されることを特徴とする連想型テキスト探索及び
    検索システム。
  29. 【請求項29】 前記数式は、前記探索項の各々の逆文
    書頻度に従っても変化することを特徴とする請求項28
    に記載の連想型テキスト探索及び検索システム。
  30. 【請求項30】 各語を同義語及び形態素変形の両方に
    相関する複数の語に対するエントリを有しているシソー
    ラスを更に備えていることを特徴とする請求項28に記
    載の連想型テキスト探索及び検索システム。
  31. 【請求項31】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取ることを許容すべくネットワークに接続
    された一つ以上のユーザ端末装置を有している前置処理
    手段と、 前記システムへの入力を供給すべくユーザをプロンプト
    し、前記ユーザによって供給された入力に基づいて探索
    要求を形成し、かつ検索された文書をユーザに供給する
    ソフトウェアプログラムを含んでいる、前記前置処理手
    段に接続された、セッションアドミニストレーション
    (SA)コンピュータと、 複数のテキスト文書を記憶する記憶装置を有し、かつ前
    記ユーザによって供給された複数の探索項を用いて前記
    テキスト文書の探索を実行し、前記探索項の少なくとも
    一つを含んでいる前記テキスト文書のそれぞれに対して
    得点を計算し、それらの得点に基づいて前記テキスト文
    書をランキングし、前記文書のランクに基づいて前記所
    定数の検索された文書を前記SAコンピュータに供給す
    るソフトウェアプログラムを有している、前記SAコン
    ピュータに結合された、探索及び検索(SR)コンピュ
    ータとを備え、 前記検索された文書は、前記SAコンピュータに供給さ
    れなかった前記テキスト文書よりも高いランクを有し、
    前記ランクは、前記探索項の各々の前記テキスト文書の
    それぞれにおける頻度の二乗に従いかつ前記探索項のそ
    れぞれの逆文書頻度に従って変化する数式を用いて算出
    され、前記数式は、 【数2】 であり、ここで、ntは、探索項の総数を表し、ut
    は、前記テキスト文書の特定のもので発生する固有の探
    索項の数を表し、tfiは、探索項iが前記テキスト文
    書で発生する回数を表し、ocは、最大数の探索項を含
    んでいるフローティング・テキスト・ウィンドウにおけ
    る探索項の発生の百分率を表しかつ該ウィンドウにおけ
    る探索項の発生の計数を前記文書における探索項の発生
    の総数で割ってその結果を100で掛けることによって
    計算され、dfiは、項iを含む前記テキスト文書の計
    数であり、maxdfiは、前記探索項、及び全ての対
    数が底2であるような前記テキスト文書の最大数である
    ことを特徴とする連想型テキスト探索及び検索システ
    ム。
  32. 【請求項32】 語句を検出するために用いられるテー
    ブルを更に備え、前記テーブルは、語句の一部でありう
    る各語に対して、語がある語句において占有しうる位置
    を示す、エントリを含んでいることを特徴とする請求項
    31に記載の連想型テキスト探索及び検索システム。
  33. 【請求項33】 各語を同義語及び形態素変形の両方に
    相関する複数の語に対するエントリを有しているシソー
    ラスを更に備えていることを特徴とする請求項31に記
    載の連想型テキスト探索及び検索システム。
  34. 【請求項34】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いてテキスト
    文書の探索を実行し、 前記探索項の各々の前記テキスト文書のそれぞれにおけ
    る頻度の二乗に従って変化する数式を用いて少なくとも
    一つの前記探索項を含んでいる前記テキスト文書のそれ
    ぞれに対して得点を計算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書の前記ランクに基づいて前記テキスト文書のサ
    ブセットである所定数の検索された文書をユーザに供給
    する段階を具備し、 前記検索された文書は、供給されなかったテキスト文書
    よりも高いランクを有することを特徴とする連想型テキ
    スト探索及び検索システムを動作する方法。
  35. 【請求項35】 前記数式は、前記探索項の各々の逆文
    書頻度に従っても変化することを特徴とする請求項34
    に記載の方法。
  36. 【請求項36】 各語を同義語及び形態素変形の両方に
    相関する複数の語に対するエントリを有しているシソー
    ラスを使用する段階を更に具備することを特徴とする請
    求項34に記載の連想型テキスト探索及び検索システム
    を動作する方法。
  37. 【請求項37】 前記探索策を実行する段階の前に、前
    記ユーザに前記検索された文書のそれぞれに存在しなけ
    ればならない強制項を入力させる段階を更に具備するこ
    とを特徴とする請求項34に記載の連想型テキスト探索
    及び検索システムを動作する方法。
  38. 【請求項38】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いてテキスト
    文書の探索を実行し、かつ前記テキスト文書のサブセッ
    トでありかつ前記探索項の少なくとも一つを含む所定数
    の検索された文書をユーザに供給する段階を具備し、前
    記検索された文書は、供給されなかったテキスト文書よ
    りも高いランクを有し、前記ランクは、前記探索項の各
    々の前記テキスト文書のそれぞれにおける頻度の二乗に
    従いかつ前記探索項のそれぞれの逆文書頻度に従って変
    化する数式を用いて算出され、前記数式は、 【数3】 であり、ここで、ntは、探索項の総数を表し、ut
    は、前記テキスト文書の特定のもので発生する固有の探
    索項の数を表し、tfiは、探索項iが前記テキスト文
    書で発生する回数を表し、ocは、最大数の探索項を含
    んでいるフローティング・テキスト・ウィンドウにおけ
    る探索項の発生の百分率を表しかつ該ウィンドウにおけ
    る探索項の発生の計数を前記文書における探索項の発生
    の総数で割ってその結果を100で掛けることによって
    計算され、dfiは、項iを含む前記テキスト文書の計
    数であり、maxdfiは、前記探索項、及び全ての対
    数が底2であるような前記テキスト文書の最大数である
    ことを特徴とする連想型テキスト探索及び検索システム
    を動作する方法。
  39. 【請求項39】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いてテキスト
    文書の探索を実行し、 前記ユーザに前記検索された文書のそれぞれに存在しな
    ければならない強制項を入力させ、 前記探索項の各々の前記テキスト文書のそれぞれにおけ
    る頻度の二乗に従って変化する数式を用いて、もしあれ
    ば、前記強制項、及び少なくとも一つの前記探索項を含
    んでいる前記テキスト文書のそれぞれに対して得点を計
    算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書のランクに基づいて前記テキスト文書のサブセ
    ットである所定数の検索された文書をユーザに供給する
    段階を具備し、 前記検索された文書は、前記ユーザに供給されなかった
    テキスト文書よりも高いランクを有することを特徴とす
    る連想型テキスト探索及び検索システムを動作する方
    法。
  40. 【請求項40】 前記計算する段階において、前記探索
    項の一部でない前記強制項は、前記得点を計算すること
    に用いないことを特徴とする請求項34に記載の連想型
    テキスト探索及び検索システムを動作する方法。
  41. 【請求項41】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いて文書コレ
    クションに含まれるテキスト文書の探索を実行し、 前記テキスト文書に対応付けられた索引を用いて該テキ
    スト文書内の可能な探索項の位置を示し、 前記索引に雑音項を含まないことによって前記探索に対
    して考慮されることから雑音項を除外し、 頻繁に用いられる項のリストにおける前記文書コレクシ
    ョン及び前記索引に含まれる頻繁に用いられる項を前記
    探索に対して考慮されることから除外し、前記頻繁に用
    いられる項のリストは、前記文書コレクションにおける
    項の発生の頻度及び前記文書コレクションの特性の一つ
    以上に基づいて、動的であり、該頻繁に用いられる項
    は、前記探索に対する前記リストの項を用いないことに
    よって該探索から除外され、 前記探索項の各々の前記テキスト文書のそれぞれにおけ
    る頻度の二乗に従って変化する数式を用いて、前記除外
    段階において除外された頻繁に用いられる項及び雑音項
    を除いて少なくとも一つの前記探索項を含んでいる前記
    テキスト文書のそれぞれに対して得点を計算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書のランクに基づいて前記テキスト文書のサブセ
    ットである所定数の検索された文書をユーザに供給する
    段階を具備することを特徴とする連想型テキスト探索及
    び検索システムを動作する方法。
  42. 【請求項42】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いてテキスト
    文書の探索を実行し、 前記探索項の各々の前記テキスト文書のそれぞれにおけ
    る頻度の二乗に従って変化する数式を用いて、少なくと
    も一つの前記探索項を含んでいる前記テキスト文書のそ
    れぞれに対して得点を計算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書のランクに基づいて前記テキスト文書のサブセ
    ットである所定数の検索された文書をユーザに供給し、 どの探索項がどの検索された文書に存在するかを各検索
    された文書に対して示す段階を具備することを特徴とす
    る連想型テキスト探索及び検索システムを動作する方
    法。
  43. 【請求項43】 前記検索された文書内の前記探索項の
    各々の前記存在は、眼で判読可能な形で表示されること
    を特徴とする請求項42に記載の連想型テキスト探索及
    び検索システムを動作する方法。
  44. 【請求項44】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いてテキスト
    文書の探索を実行し、 頻繁に用いられる項及び雑音項を除いて少なくとも一つ
    の前記探索項を含んでいる前記テキスト文書のそれぞれ
    に対して得点を計算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書のランクに基づいて前記テキスト文書のサブセ
    ットである所定数の検索された文書をユーザに供給し、 前記探索項の各々に対する項重要度を眼で判読可能な形
    で表示する段階を具備し、前記項重要度は、log(m
    axdfi/dfi)に従って変化し、ここでlog
    は、底が2であり、dfiは、探索項iを含む前記検索
    された文書の計数であり、maxdfiは、前記探索項
    のどれかが表れるような前記検索された文書の最大数で
    あることを特徴とする連想型テキスト探索及び検索シス
    テムを動作する方法。
  45. 【請求項45】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いて文書コレ
    クションに含まれたテキスト文書の探索を実行し、 前記探索項の各々の前記テキスト文書のそれぞれにおけ
    る頻度の二乗に従って変化する数式を用いて、少なくと
    も一つの前記探索項を含んでいる前記テキスト文書のそ
    れぞれに対して得点を計算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書のランクに基づいて前記テキスト文書のサブセ
    ットである所定数の検索された文書をユーザに供給し、 前記ユーザに前記文書コレクションの前記文書が表され
    うる方法を示している前記文書コレクションに含まれる
    所定の情報に基づいて前記検索された文書を表わすため
    の多くの可能の順序の一つを選択させる段階を具備する
    ことを特徴とする連想型テキスト探索及び検索システム
    を動作する方法。
  46. 【請求項46】 連想型テキスト探索及び検索システム
    であって、 ユーザに前記システムに情報を供給しかつ該システムか
    ら情報を受け取らせるべくネットワークに接続された一
    つ以上のユーザ端末装置を有している該ネットワークと
    相互作用する前置処理手段と、 複数のテキスト文書を記憶する記憶手段と、 前記ユーザによって供給される複数の探索項を用いて前
    記テキスト文書の探索を実行し、少なくとも一つの前記
    探索項を含んでいる前記テキスト文書のそれぞれに対す
    る得点を計算し、それらの得点に基づいて前記テキスト
    文書をランキングし、前記文書のランクに基づいて前記
    テキスト文書のサブセットである所定数の検索された文
    書を前記前置処理手段に供給し、前記検索された文書
    は、前記前置処理手段に供給されない前記テキスト文書
    よりも高いランクを有し、前記得点は、前記探索項の各
    々の前記テキスト文書のそれぞれにおける頻度の二乗に
    従って変化する数式を用いて計算される、前記前置処理
    手段及び前記記憶手段に結合されたプロセッサ手段と、 前記探索項のそれぞれに対する項重要度を示している画
    面をユーザに供給する手段とを備え、前記項重要度は、
    前記探索項の逆文書頻度に従って変化することを特徴と
    する連想型テキスト探索及び検索システム。
  47. 【請求項47】 連想型テキスト探索及び検索システム
    を動作する方法であって、 ユーザにより供給された複数の探索項を用いてテキスト
    文書の探索を実行し、 前記探索項の各々の前記テキスト文書のそれぞれにおけ
    る頻度の二乗に従って変化する数式を用いて、前記除外
    段階において除外された頻繁に用いられる項及び雑音項
    を除いて少なくとも一つの前記探索項を含んでいる前記
    テキスト文書のそれぞれに対して得点を計算し、 それらの得点に基づいて前記テキスト文書をランキング
    し、 前記文書のランクに基づいて前記テキスト文書のサブセ
    ットである所定数の検索された文書をユーザに供給し、 前記探索項の各々に対する項重要度を示す段階を具備
    し、前記項重要度は、前記探索項の逆文書頻度に従って
    変化することを特徴とする連想型テキスト探索及び検索
    システムを動作する方法。
JP2000254299A 1993-11-22 2000-08-24 連想型テキスト探索及び検索システム Pending JP2001117946A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/155,304 US5692176A (en) 1993-11-22 1993-11-22 Associative text search and retrieval system
US08/155,304 1993-11-22

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP7515137A Division JPH10508960A (ja) 1993-11-22 1994-11-22 連想型テキスト探索及び検索システム

Publications (1)

Publication Number Publication Date
JP2001117946A true JP2001117946A (ja) 2001-04-27

Family

ID=22554883

Family Applications (2)

Application Number Title Priority Date Filing Date
JP7515137A Pending JPH10508960A (ja) 1993-11-22 1994-11-22 連想型テキスト探索及び検索システム
JP2000254299A Pending JP2001117946A (ja) 1993-11-22 2000-08-24 連想型テキスト探索及び検索システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP7515137A Pending JPH10508960A (ja) 1993-11-22 1994-11-22 連想型テキスト探索及び検索システム

Country Status (10)

Country Link
US (3) US5692176A (ja)
EP (1) EP0730765B1 (ja)
JP (2) JPH10508960A (ja)
AT (1) ATE250244T1 (ja)
CA (1) CA2170251C (ja)
DE (1) DE69433165T2 (ja)
DK (1) DK0730765T3 (ja)
ES (1) ES2204938T3 (ja)
PT (1) PT730765E (ja)
WO (1) WO1995014973A1 (ja)

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339767B1 (en) 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6901392B1 (en) 1995-09-04 2005-05-31 Matsushita Electric Industrial Co., Ltd. Information filtering method and apparatus for preferentially taking out information having a high necessity
US6076082A (en) * 1995-09-04 2000-06-13 Matsushita Electric Industrial Co., Ltd. Information filtering method and apparatus for preferentially taking out information having a high necessity
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5745894A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating and searching a range-based index of word-locations
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5956740A (en) * 1996-10-23 1999-09-21 Iti, Inc. Document searching system for multilingual documents
US6041331A (en) * 1997-04-01 2000-03-21 Manning And Napier Information Services, Llc Automatic extraction and graphic visualization system and method
US6185550B1 (en) * 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6098066A (en) * 1997-06-13 2000-08-01 Sun Microsystems, Inc. Method and apparatus for searching for documents stored within a document directory hierarchy
US5926808A (en) * 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US5999925A (en) * 1997-07-25 1999-12-07 Claritech Corporation Information retrieval based on use of sub-documents
US6556713B2 (en) * 1997-07-31 2003-04-29 Canon Kabushiki Kaisha Image processing apparatus and method and storage medium
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
JP3177593B2 (ja) * 1997-09-18 2001-06-18 株式会社ジャストシステム 語句の絞込検索方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6163782A (en) 1997-11-19 2000-12-19 At&T Corp. Efficient and effective distributed information management
US6172685B1 (en) * 1997-11-24 2001-01-09 Intel Corporation Method and apparatus for increasing the amount and utility of displayed information
US6128634A (en) * 1998-01-06 2000-10-03 Fuji Xerox Co., Ltd. Method and apparatus for facilitating skimming of text
GB2333871A (en) * 1998-01-29 1999-08-04 Sharp Kk Ranking of text units
US6457028B1 (en) * 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
US8543372B1 (en) 1998-05-18 2013-09-24 Dennis S. Fernandez System design rights management
US6490579B1 (en) 1998-07-16 2002-12-03 Perot Systems Corporation Search engine system and method utilizing context of heterogeneous information resources
US6275820B1 (en) 1998-07-16 2001-08-14 Perot Systems Corporation System and method for integrating search results from heterogeneous information resources
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6892183B1 (en) * 1998-12-21 2005-05-10 Ncr Corporation Method and apparatus for generating an item menu for use during operation of a self-service checkout terminal
US6564200B1 (en) 1999-01-19 2003-05-13 International Business Machines Corporation Apparatus for cross referencing routines and method therefor
US7966328B2 (en) 1999-03-02 2011-06-21 Rose Blush Software Llc Patent-related tools and methodology for use in research and development projects
US7716060B2 (en) 1999-03-02 2010-05-11 Germeraad Paul B Patent-related tools and methodology for use in the merger and acquisition process
US7072888B1 (en) * 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
KR20010004404A (ko) * 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
WO2001001289A1 (en) * 1999-06-30 2001-01-04 Invention Machine Corporation, Inc. Semantic processor and method with knowledge analysis of and extraction from natural language documents
US6598047B1 (en) 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
US6772149B1 (en) 1999-09-23 2004-08-03 Lexis-Nexis Group System and method for identifying facts and legal discussion in court case law documents
US7711738B1 (en) * 1999-11-15 2010-05-04 West Services, Inc. Method, system and computer-readable medium for accessing and retrieving court records, items and documents
JP2001222525A (ja) * 1999-11-30 2001-08-17 Canon Inc 文書管理装置、文書管理システム、文書管理方法及び記憶媒体
US6845369B1 (en) * 2000-01-14 2005-01-18 Relevant Software Inc. System, apparatus and method for using and managing digital information
US7099859B2 (en) * 2000-01-20 2006-08-29 International Business Machines Corporation System and method for integrating off-line ratings of businesses with search engines
US6952806B1 (en) * 2000-01-21 2005-10-04 Xerox Corporation Medium containing information gathered from material including a source and interface for graphically displaying the information
US20010049677A1 (en) * 2000-03-30 2001-12-06 Iqbal Talib Methods and systems for enabling efficient retrieval of documents from a document archive
US7428500B1 (en) 2000-03-30 2008-09-23 Amazon. Com, Inc. Automatically identifying similar purchasing opportunities
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US8832852B2 (en) * 2000-08-28 2014-09-09 Contentguard Holdings, Inc. Method and apparatus for dynamic protection of static and dynamic content
DE10048479A1 (de) 2000-09-29 2002-04-25 Siemens Ag Verfahren zum Zugriff auf eine Speichereinheit, in der Vermerkfolgen gespeichert sind, zugehörige Speichereinheit und zugehöriges Programm
US20020059240A1 (en) * 2000-10-25 2002-05-16 Edave, Inc. System for presenting consumer data
US6978419B1 (en) * 2000-11-15 2005-12-20 Justsystem Corporation Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments
US7069518B2 (en) 2000-12-21 2006-06-27 Xerox Corporation Indexing methods, systems, and computer program products for virtual three-dimensional books
US7015910B2 (en) 2000-12-21 2006-03-21 Xerox Corporation Methods, systems, and computer program products for the display and operation of virtual three-dimensional books
US6924822B2 (en) * 2000-12-21 2005-08-02 Xerox Corporation Magnification methods, systems, and computer program products for virtual three-dimensional books
US7139982B2 (en) * 2000-12-21 2006-11-21 Xerox Corporation Navigation methods, systems, and computer program products for virtual three-dimensional books
US7240291B2 (en) * 2000-12-21 2007-07-03 Xerox Corporation Methods, systems, and computer program products for display of information relating to a virtual three-dimensional book
US7099872B2 (en) * 2001-02-05 2006-08-29 Employon Nj, Llc Method for providing access to online employment information
US6741981B2 (en) 2001-03-02 2004-05-25 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System, method and apparatus for conducting a phrase search
US6823333B2 (en) 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US6697793B2 (en) 2001-03-02 2004-02-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for generating phrases from a database
US6721728B2 (en) 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US7464072B1 (en) 2001-06-18 2008-12-09 Siebel Systems, Inc. Method, apparatus, and system for searching based on search visibility rules
US7146409B1 (en) * 2001-07-24 2006-12-05 Brightplanet Corporation System and method for efficient control and capture of dynamic database content
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US6963869B2 (en) * 2002-01-07 2005-11-08 Hewlett-Packard Development Company, L.P. System and method for search, index, parsing document database including subject document having nested fields associated start and end meta words where each meta word identify location and nesting level
US20040205660A1 (en) * 2002-04-23 2004-10-14 Joe Acton System and method for generating and displaying attribute-enhanced documents
JP2004094916A (ja) * 2002-07-08 2004-03-25 Cannac:Kk 問題解決支援システム、問題解決支援方法、及びプログラム
US7743061B2 (en) * 2002-11-12 2010-06-22 Proximate Technologies, Llc Document search method with interactively employed distance graphics display
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
JP2004280661A (ja) * 2003-03-18 2004-10-07 Fujitsu Ltd 検索方法及びプログラム
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US20040193557A1 (en) * 2003-03-25 2004-09-30 Olsen Jesse Dale Systems and methods for reducing ambiguity of communications
US7313573B2 (en) * 2003-09-17 2007-12-25 International Business Machines Corporation Diagnosis of equipment failures using an integrated approach of case based reasoning and reliability analysis
US9288000B2 (en) 2003-12-17 2016-03-15 International Business Machines Corporation Monitoring a communication and retrieving information relevant to the communication
US20050210042A1 (en) * 2004-03-22 2005-09-22 Goedken James F Methods and apparatus to search and analyze prior art
US7536382B2 (en) 2004-03-31 2009-05-19 Google Inc. Query rewriting with entity detection
US7246117B2 (en) * 2004-03-31 2007-07-17 Sap Ag Algorithm for fast disk based text mining
US7996419B2 (en) * 2004-03-31 2011-08-09 Google Inc. Query rewriting with entity detection
US7836408B1 (en) * 2004-04-14 2010-11-16 Apple Inc. Methods and apparatus for displaying relative emphasis in a file
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7421441B1 (en) * 2005-09-20 2008-09-02 Yahoo! Inc. Systems and methods for presenting information based on publisher-selected labels
US7409402B1 (en) * 2005-09-20 2008-08-05 Yahoo! Inc. Systems and methods for presenting advertising content based on publisher-selected labels
US7603349B1 (en) 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US7856441B1 (en) 2005-01-10 2010-12-21 Yahoo! Inc. Search systems and methods using enhanced contextual queries
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
US7958115B2 (en) * 2004-07-29 2011-06-07 Yahoo! Inc. Search systems and methods using in-line contextual queries
US8972856B2 (en) * 2004-07-29 2015-03-03 Yahoo! Inc. Document modification by a client-side application
EP1782291A4 (en) 2004-08-23 2009-08-26 Lexisnexis A Division Of Reed SYSTEM AND METHODS FOR LEGAL REFERENCE
JP4814239B2 (ja) 2004-08-23 2011-11-16 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 指標的判例識別システム及び方法
US7853574B2 (en) * 2004-08-26 2010-12-14 International Business Machines Corporation Method of generating a context-inferenced search query and of sorting a result of the query
JP4639734B2 (ja) * 2004-09-30 2011-02-23 富士ゼロックス株式会社 スライドコンテンツ処理装置およびプログラム
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7496750B2 (en) * 2004-12-07 2009-02-24 Cisco Technology, Inc. Performing security functions on a message payload in a network element
US7895193B2 (en) * 2005-09-30 2011-02-22 Microsoft Corporation Arbitration of specialized content using search results
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
DE102006001840B4 (de) * 2006-01-13 2007-10-11 Universität Konstanz Verfahren zum computergestützten Bearbeiten von Quelldatenelementen, System und Computerprogrammprodukt
US7747598B2 (en) * 2006-01-27 2010-06-29 Google Inc. Geographic coding for location search queries
US8725729B2 (en) 2006-04-03 2014-05-13 Steven G. Lisa System, methods and applications for embedded internet searching and result display
WO2007149623A2 (en) * 2006-04-25 2007-12-27 Infovell, Inc. Full text query and search systems and method of use
JP4761460B2 (ja) * 2006-05-01 2011-08-31 コニカミノルタビジネステクノロジーズ株式会社 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム
US20070260595A1 (en) * 2006-05-02 2007-11-08 Microsoft Corporation Fuzzy string matching using tree data structure
US8568236B2 (en) * 2006-07-28 2013-10-29 Yahoo! Inc. Fantasy sports agent
US8403756B2 (en) * 2006-07-28 2013-03-26 Yahoo! Inc. Fantasy sports alert generator
US20080102911A1 (en) * 2006-10-27 2008-05-01 Yahoo! Inc. Integration of personalized fantasy data with general sports content
US7792883B2 (en) * 2006-12-11 2010-09-07 Google Inc. Viewport-relative scoring for location search queries
US20080153589A1 (en) * 2006-12-22 2008-06-26 Yahoo! Inc. Rotisserie fantasy league visualization tools
US8671354B2 (en) * 2006-12-22 2014-03-11 Yahoo! Inc. Player streaks and game data visualization
US7908260B1 (en) 2006-12-29 2011-03-15 BrightPlanet Corporation II, Inc. Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems
US20080183691A1 (en) * 2007-01-30 2008-07-31 International Business Machines Corporation Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
JP5033724B2 (ja) * 2007-07-12 2012-09-26 株式会社沖データ 文書検索装置及び画像形成装置、文書検索システム
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8874545B2 (en) * 2007-10-19 2014-10-28 Oracle International Corporation Data source-independent search system architecture
US20090144266A1 (en) * 2007-12-04 2009-06-04 Eclipsys Corporation Search method for entries in a database
US9706345B2 (en) 2008-01-04 2017-07-11 Excalibur Ip, Llc Interest mapping system
US20090228811A1 (en) * 2008-03-10 2009-09-10 Randy Adams Systems and methods for processing a plurality of documents
US20090228817A1 (en) * 2008-03-10 2009-09-10 Randy Adams Systems and methods for displaying a search result
US7974974B2 (en) * 2008-03-20 2011-07-05 Microsoft Corporation Techniques to perform relative ranking for search results
US8306987B2 (en) * 2008-04-03 2012-11-06 Ofer Ber System and method for matching search requests and relevant data
US7987195B1 (en) 2008-04-08 2011-07-26 Google Inc. Dynamic determination of location-identifying search phrases
US8051080B2 (en) * 2008-04-16 2011-11-01 Yahoo! Inc. Contextual ranking of keywords using click data
US8463774B1 (en) 2008-07-15 2013-06-11 Google Inc. Universal scores for location search queries
US7853459B2 (en) * 2008-08-14 2010-12-14 Qtc Management, Inc. Automated processing of electronic medical data for insurance and disability determinations
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US9348913B2 (en) * 2009-09-09 2016-05-24 Yahoo! Inc. Selecting sporting events based on event status
US20110191333A1 (en) * 2010-01-29 2011-08-04 Oracle International Corporation Subsequent Search Results
US8271435B2 (en) * 2010-01-29 2012-09-18 Oracle International Corporation Predictive categorization
US10156954B2 (en) * 2010-01-29 2018-12-18 Oracle International Corporation Collapsible search results
US9009135B2 (en) * 2010-01-29 2015-04-14 Oracle International Corporation Method and apparatus for satisfying a search request using multiple search engines
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US10956475B2 (en) 2010-04-06 2021-03-23 Imagescan, Inc. Visual presentation of search results
US8326861B1 (en) * 2010-06-23 2012-12-04 Google Inc. Personalized term importance evaluation in queries
US9582575B2 (en) 2010-07-09 2017-02-28 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for linking items to a matter
US9779168B2 (en) 2010-10-04 2017-10-03 Excalibur Ip, Llc Contextual quick-picks
US20120095997A1 (en) * 2010-10-18 2012-04-19 Microsoft Corporation Providing contextual hints associated with a user session
US9245056B2 (en) * 2011-02-23 2016-01-26 Novell, Inc. Structured relevance—a mechanism to reveal why data is related
US9251289B2 (en) * 2011-09-09 2016-02-02 Microsoft Technology Licensing, Llc Matching target strings to known strings
US11010432B2 (en) 2011-10-24 2021-05-18 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US9772999B2 (en) 2011-10-24 2017-09-26 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US10467273B2 (en) 2011-10-24 2019-11-05 Image Scan, Inc. Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within
JP5743938B2 (ja) * 2012-03-26 2015-07-01 株式会社日立製作所 連想検索システム、連想検索サーバ及びプログラム
US9461897B1 (en) 2012-07-31 2016-10-04 United Services Automobile Association (Usaa) Monitoring and analysis of social network traffic
US9569535B2 (en) * 2012-09-24 2017-02-14 Rainmaker Digital Llc Systems and methods for keyword research and content analysis
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
CN103177122B (zh) * 2013-04-15 2017-04-26 天津理工大学 一种基于同义词的个人桌面文件搜索方法
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
WO2017131753A1 (en) * 2016-01-29 2017-08-03 Entit Software Llc Text search of database with one-pass indexing including filtering
US10224026B2 (en) * 2016-03-15 2019-03-05 Sony Corporation Electronic device, system, method and computer program
US10540439B2 (en) * 2016-04-15 2020-01-21 Marca Research & Development International, Llc Systems and methods for identifying evidentiary information
US11645295B2 (en) 2019-03-26 2023-05-09 Imagescan, Inc. Pattern search box

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US4241402A (en) * 1978-10-12 1980-12-23 Operating Systems, Inc. Finite state automaton with multiple state types
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
US4384329A (en) * 1980-12-19 1983-05-17 International Business Machines Corporation Retrieval of related linked linguistic expressions including synonyms and antonyms
US4464650A (en) * 1981-08-10 1984-08-07 Sperry Corporation Apparatus and method for compressing data signals and restoring the compressed data signals
US4471459A (en) * 1981-09-30 1984-09-11 System Development Corp. Digital data processing method and means for word classification by pattern analysis
US4499553A (en) * 1981-09-30 1985-02-12 Dickinson Robert V Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words
US4688195A (en) * 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
US4554631A (en) * 1983-07-13 1985-11-19 At&T Bell Laboratories Keyword search automatic limiting method
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
JPS61223941A (ja) * 1985-03-29 1986-10-04 Kagaku Joho Kyokai 化学構造の検索方法
US4760528A (en) * 1985-09-18 1988-07-26 Levin Leonid D Method for entering text using abbreviated word forms
US4787035A (en) * 1985-10-17 1988-11-22 Westinghouse Electric Corp. Meta-interpreter
US4819156A (en) * 1986-06-13 1989-04-04 International Business Machines Corporation Database index journaling for enhanced recovery
US5123103A (en) * 1986-10-17 1992-06-16 Hitachi, Ltd. Method and system of retrieving program specification and linking the specification by concept to retrieval request for reusing program parts
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
US4918588A (en) * 1986-12-31 1990-04-17 Wang Laboratories, Inc. Office automation system with integrated image management
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages
JPS6410300A (en) * 1987-07-03 1989-01-13 Hitachi Ltd User's interface system for searching
US4974191A (en) * 1987-07-31 1990-11-27 Syntellect Software Inc. Adaptive natural language computer interface system
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
GB8719572D0 (en) * 1987-08-19 1987-09-23 Krebs M S Sigscan text retrieval system
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5005127A (en) * 1987-10-26 1991-04-02 Sharp Kabushiki Kaisha System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules
US4852003A (en) * 1987-11-18 1989-07-25 International Business Machines Corporation Method for removing enclitic endings from verbs in romance languages
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
JPH02159674A (ja) * 1988-12-13 1990-06-19 Matsushita Electric Ind Co Ltd 意味解析装置と構文解析装置
EP0380239A3 (en) * 1989-01-18 1992-04-15 Lotus Development Corporation Search and retrieval system
US4991094A (en) * 1989-04-26 1991-02-05 International Business Machines Corporation Method for language-independent text tokenization using a character categorization
US5241671C1 (en) * 1989-10-26 2002-07-02 Encyclopaedia Britannica Educa Multimedia search system using a plurality of entry path means which indicate interrelatedness of information
US5117349A (en) * 1990-03-27 1992-05-26 Sun Microsystems, Inc. User extensible, language sensitive database system
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system

Also Published As

Publication number Publication date
ATE250244T1 (de) 2003-10-15
CA2170251A1 (en) 1995-06-01
DK0730765T3 (da) 2003-10-20
US5761497A (en) 1998-06-02
US5771378A (en) 1998-06-23
WO1995014973A1 (en) 1995-06-01
CA2170251C (en) 2004-02-24
DE69433165T2 (de) 2006-02-16
ES2204938T3 (es) 2004-05-01
EP0730765A1 (en) 1996-09-11
PT730765E (pt) 2004-02-27
JPH10508960A (ja) 1998-09-02
US5692176A (en) 1997-11-25
EP0730765B1 (en) 2003-09-17
EP0730765A4 (en) 1997-09-17
DE69433165D1 (de) 2003-10-23

Similar Documents

Publication Publication Date Title
JP2001117946A (ja) 連想型テキスト探索及び検索システム
US5926811A (en) Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US7571157B2 (en) Filtering search results
US5848409A (en) System, method and computer program product for maintaining group hits tables and document index tables for the purpose of searching through individual documents and groups of documents
US6327589B1 (en) Method for searching a file having a format unsupported by a search engine
US7987189B2 (en) Content data indexing and result ranking
US6286000B1 (en) Light weight document matcher
US5983222A (en) Method and apparatus for computing association rules for data mining in large database
US20020138479A1 (en) Adaptive search engine query
US20130173599A1 (en) Query disambigution
US20070244863A1 (en) Systems and methods for performing searches within vertical domains
US20100293162A1 (en) Automated Keyword Generation Method for Searching a Database
WO2002048921A1 (en) Method and apparatus for searching a database and providing relevance feedback
EP2842060A1 (en) Recommending keywords
JP4942727B2 (ja) テキスト要約装置、その方法およびプログラム
CA2602900A1 (en) Multi-fielded web browser-based searching of data stored in database
US20070244862A1 (en) Systems and methods for ranking vertical domains
EP2011036A2 (en) Data product search using related concepts
JP2001084255A (ja) 文書検索装置および方法
JP2009533767A (ja) 垂直ドメイン内で検索を実行するシステム及び方法
JPH064584A (ja) 文章検索装置
JP2000227922A (ja) 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体
JPH11154164A (ja) 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
JP2580508B2 (ja) メニュー選択装置