JP2002521767A - 確率を利用した情報検索装置 - Google Patents

確率を利用した情報検索装置

Info

Publication number
JP2002521767A
JP2002521767A JP2000562844A JP2000562844A JP2002521767A JP 2002521767 A JP2002521767 A JP 2002521767A JP 2000562844 A JP2000562844 A JP 2000562844A JP 2000562844 A JP2000562844 A JP 2000562844A JP 2002521767 A JP2002521767 A JP 2002521767A
Authority
JP
Japan
Prior art keywords
query
information item
document
word
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000562844A
Other languages
English (en)
Inventor
エム.シュウォーツ リチャード
アール.エイチ.ミラー デイビッド
アール.リーク ティモシー
Original Assignee
ジーティーイー サービス コーポレイション
ジェニュイティー インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジーティーイー サービス コーポレイション, ジェニュイティー インコーポレイテッド filed Critical ジーティーイー サービス コーポレイション
Publication of JP2002521767A publication Critical patent/JP2002521767A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Abstract

(57)【要約】 本発明の方法及び装置は確率を利用した情報検索を実施する改良された情報処理を提供する。情報検索を実施する際に、情報検索システムは、文献が照会(質問)とは独立して関連があることの可能性を示す事前確率(410)と、特定の文献が関連あることを前提として照会が特定の文献により発生された可能性を示す確率(414)との両者を利用する。これらの確率を利用することにより、従来のその場限りの方法によるよりも正確に文献を検索する(416)情報検索システムが提供される。

Description

【発明の詳細な説明】
【0001】 発明の属する技術分野 本発明はデータ処理装置に関し、より詳しくは改良された情報検索装置に関す
る。
【0002】 従来の技術 情報検索装置は利用者が大量の文献から興味のある特定の文献を特定すること
を可能するために発達してきた。情報検索装置はデジタルライブラリ中の記事、
放送データベース中の新しい話題、或いはインターネットウエブの特定サイトを
見つけるのに有用である。 このような装置を使用するには、利用者は関心のある分野の数種の語または句
を含む特定の照会(質問)を特定することで、装置は照会を満足する文献を検索
する。 その場限りの(adhoc)方法は照会に使用した語と一致する同一の語を含
む文献を検索抽出することである。一つの従来技術では、各一致する語にその場
限りの(一時的な)重みを割り当てる。この重みは文章中に生じる語の数のその
場限りの関数を、その語が現れる異なった文献の数の対数で割ることにより計算
される。
【0003】 本発明が解決しようとする課題 このその場限りの関数はこの装置を使用して検索の試行を行う実験的な方法か
ら導かれ、次いで重み計算を修正して、性能を改善する。従来の検索方法はその
場限りの方法を使用するので、精度が損なわれる。
【0004】 課題を解決するための手段 本発明による方法及び装置は、確率を使用して情報検索する改良された方法及
び装置を提供する。情報検索を実行する際には、この改良された情報検索装置は
、文献が今回の照会とは独立した関連のものである確率と、文献が関連性を有す
るならば照会が特定の文献(検索に使用されるであろうもの)により生成される
確率の両者を利用する。これらの確率を使用することにより改良された情報検索
装置は従来のその都度的な方法によるよりも、確度の高い方法で文献の検索を行
う。
【0005】 本発明の方法の方法に従うと、情報項目を有するデータ処理装置における方法
が提供される。この方法は、利用者から照会語を含んだ照会を受け取り、情報項
目の少なくとも一つが照会語と関連を有する可能性を決定し、そして、少なくと
も一つの項目が照会語に関係を有することを表示する。 本発明により装置に従うと、文献を有する第2蓄積装置と、照会エンジンを有
するメモリと、照会エンジンを運転するように構成されたプロセッサとを有する
データ処理装置が提供される。照会エンジンは文献の関連した1つを表す照会語
を持つ照会を受け取り、文献中のどれが関連した文献かを決定するための式を利
用するように構成されている。式は、照会語をいかにして関連文献に対する必要
性を表すように発生するかというモデルに基づいている。
【0006】 発明の実施の形態 本発明の方法及び装置は従来に比して精度を向上するために確率を使用する改
善された情報検索装置を提供する。 具体的に説明すると、本発明の情報検索装置は照会を受け取り、多数の文献の
各々が照会に関連しているかどうかを決定し、最も関連を有することが決定され
た文献のリストを返す。本発明の方法及び装置は従来のその場限りの方法を使用
せず、適正な数学的な基礎を有する方法を使用する。その結果、改良された情報
検索装置は従来のその場限りの装置よりも高い精度を有する。
【0007】 本発明の方法及び装置は、照会を統計的なパターン認識問題として文献に関連
づけ、照会に関連して全ての文献を見い出す。そのようにして、改善された情報
検索装置は、各文献が与えられた場合に照会に関連している事後確率を誘導し、
次いで事後確率、すなわちP(文献は関連有り|照会)がある閾値の上にある全
ての文献を選択し、或いはそれらをこの確率に従ってランク付けする。ベイスの
公式を使用した事後確率の再計算により、次の式が誘導される。
【数1】 P(DはR|Q)=P(DはR)*P(Q|DはR)/P(Q) ここに、用語P(DはR)とは、文献が(照会とは独立に)関連があるという
事前確率を表し、これは与えられた文献が他の文献よりも関連があり得ることを
反映している。たとえば、多くの検索から得られる実験データに基づいて、特定
のソースからの文献は他のソースからの文献よりも関連があると決定できる。ま
た、文献の長さは直接それが関連性を有すること(すなわちより多い語を持つ文
献は、利用者が関心を持つ情報を含んでいる可能性がより大きい)を表す。事前
確率の代わりに、バイアス(すなわち任意の正の値)を本発明の方法及び装置に
おいて使用して、改善された情報検索装置の精度を最適化しても良い。 用語P(Q|DはR)とは、文献が関連ある場合に、照会が特定の文献により
発生される確率の生成モデルを表す。この生成モデルは隠れマルコフモデルを使
用するすることにより照会を生成する方法を模擬している。この点は後で詳述す
る。 用語P(Q)は、どんな文献からも独立して照会を受け取る確率を表す。この
確率は全ての文献に共通なので、この用語は除去でき、式は次のように再表現で
きる。
【数2】 P(DはR|QαP(DはR)*P(Q|DはR) 従って、改善された情報検索装置は、照会がある場合に文献が関連している確
率の評価に基づいて文献を検索する。
【0008】 情報検索装置を改善するため、本発明の検索装置及び方法は、隠れマルコフモ
デルを使用する。隠れマルコフモデルは音声認識等の各種の方法を模擬するため
に使用される構造体である。このモデルはそれぞれが関連した確率分布を有する
多数の状態からなる。プロセスは各種の観察に基づいて状態間を遷移することに
より、隠れマルコフモデルにより模擬される。図1Aは、照会を発生するときに
利用者が使用する方法を模擬する改善された情報検索装置により使用される隠れ
マルコフモデルである。この方法によると、利用者は照会発生のプロセスを3つ
のソース(状態102,104,106で表されている)の1つからの語を選択
することにより開始し、次いでこれらソースからの他の語を選択するループに戻
る。このプロセスは照会が完結するまで続く。
【0009】 本発明の方法及び装置によれば、利用者は3つの目的で語を使用した可能性が
ある。第1は一般語であり、彼が関心のある特定の文献に向けられていない場合
である。たとえば、語は次の文の一部であり得る。「私は〜に関連した文献がほ
しい」。第2は、語を1以上の文献から導いた場合である。第3は、語を利用者
が関心のある特定のトピックスまたは主題を示すために選択した場合である。照
会発生のこの理解のもとに、隠れマルコフモデルは3つの状態102,104,
106を有する。状態102は一般語の組から導かれたことを反映し、状態10
4は1以上の文献から照会語が導かれたことを反映し、状態106は照会語が利
用者が関心のあるトピックスから選択されたことを反映している。
【0010】 図1Bは隠れマルコフモデルの一般語状態102のより詳細な図形である。一
般語状態102は隠れマルコフモデル120として表示されている。このモデル
は、照会中に挿入し得るが利用者がほしい文献の種類を表わさない1組の語を表
す多数の状態122−126を含む。さらに、各状態122−126は一般言語
中に生起する語の関連した確率(すなわち、全ての文献中の全ての語のランダム
抽出中で、この語の現れる頻度)を有する。本発明の方法及び装置は英語に関連
して説明されるが、当業者には他の言語でも同様に動作することがわかろう。
【0011】 図1Cは隠れマルコフモデル100の文献語状態104のより詳細な図形であ
る。隠れマルコフモデル140は各々がひとつの文献中の1以上の語を表す多数
の状態142−146を含んでいる。すなわち、状態は語の句全体を表すことが
でき、各文献に対しては1つの隠れマルコフモデル140がある。各状態142
−146は文献からの1以上の語を含むだけでなく、その各種変形及び同義語を
含む。それに加えて、各状態142−146は文献に現れる1または複数の照会
語「q」の各形態または同義語に対する確率P(q|d)を含む。これは
文献中に現れる語の頻度に基づく。
【0012】 図1Dは図1Aの隠れマルコフモデル100におけるトピックス状態106の
より詳細な図形である。トピックス106は各文献に対して隠れマルコフモデル
160を含む。隠れマルコフモデル160は特定の文献が検討しているトピック
スを反映した多数の状態162−166を含んでいる。各状態は特定のトピック
スを表すために使用される特定の照会語に対する確率を含む。
【0013】 この理論モデルに基づいて、本発明は後に述べるようにこのモデルから誘導さ
れる各種の確率式を利用する。このプロセスを実施する際に、システムトレーナ
ーによるオフライン処理と、照会エンジンによるランタイム処理が行われる。オ
フライン処理の一部として、システムトレーナーは、文献により反映されるトピ
ックスのリストを発生し又各トピックスに向けられる文献のリストを発生するこ
とにより、トピックスの識別及び分類を行う。システムトレーナーはまた、ラン
タイム処理に使用される各種の統計を生成することによりシステムトレーニング
を行う。照会エンジンは照会を受け取り、誘導された確率式を使用して文献が照
会に関連がある可能性に基づいて文献のランク付けを行う。
【0014】 改良された情報検索装置は又、性能をさらに向上するために関連性のフィード
バックを行う。関連性のフィードバックは情報検索装置が利用者ではなくてある
文献から受け取った語を使用することにより照会に関連があり得る文献を識別す
ることを可能にする。関連性のフィードバックを行うに際して、情報検索装置は
利用者から受け取った照会を使用して関連性のある文献のランク付けしたリスト
を発生し、次いで元の照会により戻された多数の関連のある文献に共通に見い出
される語により元の照会を補充することにより、追加の照会を作る。このように
して、文献は検索され、それらが利用者の照会語のあるもの或いは全部を含んで
いなくても元の照会に関連のありそうなことを決定する。関連性のフィードバッ
クは後で説明する。
【0015】 本発明は以下に照会に関係があると考えられる文献を検索する場合に関して説
明されるが、当業者はこの技術が大量の情報項目から特定の情報項目を検索する
ために使用できることが分かるであろう。このような情報項目にはウエブサイト
、記事、その他の情報源がある。
【0016】 実施例 図2は本発明を実施するのに適したデータ処理装置200を示す。データ処理
装置200はメモリ202、二次蓄積装置204、ビデオディスプレイ206,
中央制御装置(CPU)208、及び入力装置210を有する。メモリ202は
システムトレーナー212及び照会エンジン214を含む。二次蓄積装置204
は検索される文献216、ランタイムで使用される各種統計を含むデータベース
218、及び照会に関連があると決定された或る文献216への照会のマッピン
グを含むトレーニングデータ220を有する。例えば一つのマッピングは、照会
「クリントン大統領」及び「文献1」「文献5」「文献12」を含む。なぜなら
これらの文献はクリントン大統領について論じているからである。このトレーニ
ングデータは照会を発し、次いでどの文献が各照会に関連があるかを決定する利
用者により手動で作られる。
【0017】 データ処理装置200は各種の要素に関連して記載したが、データ処理装置2
00は追加の又は異なった要素を含んでもよいことは当業者に明らかであろう。
また本発明の各種のデータがメモリに記憶されるものとして説明されているが、
データはハードディスク、フロッピー(登録商標)ディスク、ネットワークから の搬送波、RAM、ROM等の他のコンピュータが読みうる形態のメディアに記 憶することもできる。さらに、文献216を遠隔装置上に置いてもよい。
【0018】 図3A、3Bは本発明に従ってシステムトレーナーにより実行される段階の流
れ図である。システムトレーナーはまずトピックスの分類トレーニングを行う(
段階302)。この段階ではシステムトレーナーは、各文献を、その文献中で論
じられていると信じられるトピックスのリスト並びにその文献がトピックスを論
じている可能性を示す確率P(t|d)に関連づけるというトピックスの分類を
行う。これに加えて、システムトレーナーは文献216を調べて、それらの文献
が論じている全てのトピックスを識別し、特定のトピックスに関連している特定
の語の確率である各トピックスのP(q|t)を発生する。この段階の結果は
全ての文献のリスト、それらの文献が議論している複数のトピックス、及びデー
タベースに記憶されているその文献がこのトピックスを論じている確率、を含む
行列T(d,i)である。行列の一例は次の通りである。
【0019】
【表1】
【0020】 この段階ではトピックスの識別及び分類を行う任意の方法が実施可能であり、そ
の一例は例えば1998年1月9日に出願の米国特許第09/005960号に
記載がある。
【0021】 トピックスの識別及び分類を終わると、システムトレーナーは次に前段階で生
成した行列を反転することにより逆行列T(i,d)を作り、これをデータベー
スに蓄える(段階304)。例えばこの行列の一部は次のようになる。
【0022】
【表2】
【0023】 次に、システムトレーナーは辞書を編集する(段階306)。この段階ではシス
テムトレーナーは全ての文献中の語を調べて、全ての文献中の全ての語のリスト
(辞書)を生成し、停止語を外し、周知の方法を使用して各語の語幹を切り出す
ことにより語幹を抽出する。停止語を外す際には、システムトレーナーは文献を
示すためには使用されない全ての語例えば「an」「the」のような冠詞を外
す。別法として、各停止語はトークン(記号)と置き換えてもよい。語の語幹を
抽出する際には、システムトレーナーは語幹を識別する。例えば[work]は
「work」、「working」、「worked」の語幹である。辞書を編
集した後、システムトレーナーは各文献に現れる各語の回数を決定する(段階3
08)。この段階では、システムトレーナーは、各文献中の各語幹の生起回数の
計数である行列C(d,w)を決定し、データベースに記憶する。例えばそのエ
ントリーの一部は次の通りである。
【0024】
【表3】 システムトレーナーは次に各文献の長さL(D)を決定し(段階310)、全
ての文献における語数を計数する(段階312)。次いで、システムトレーナー
は行列C(d,w)を反転して、行列C(w,d)を生成する(段階314)。
例えばこの行列のエントリーは次の通りである。
【0025】
【表4】
【0026】 行列を反転した後、システムトレーナーは文献が文献の各種の特徴の機能として
関連があることの事前確率を見積もる(図3Bの段階316)。この事前確率は
P(dはR|特徴(d))で表される。この段階でシステムトレーナーは、文献
の長さや手段のような属性を使用することにより文献が全ての照会に関連がある
可能性の事前確率を見積もる。この処理は照会及びこれらの照会に関連があると
考えられる文献を含む、手動及び実験により得られたエントリーを含むトレーニ
ングデータを使用して実行される。この段階で、システムトレーナーは全ての文
献を情報源に基づいて群分けする。例えば、1つのグループはthe Wall Street
Journalの記事であり、他のグループはthe New York Timesからの記事である。
情報源により全ての文献の群分けの後、システムトレーナーは全ての文献を長さ
により分割する。例えば1つのグループは100語以下であり、他は100語よ
り多い。次に各グループに対して、システムトレーナーはそのグループ内の文献
が、トレーニングデータ中の照会の一部として返された平均回数を決定する。こ
の数は次にそのグループ内の全文件数で除され、こうして得られる確率は次にグ
ループ内の各文献の事前確率として割り当てられる。得られる確率は次いで特徴
の各種の組み合わせ(例えばNew York Timesであって長さが100語未満)に対
する確率を得るために乗算することができる。ここでは情報源と長さについ記述
したが、この技術は文献の他の特徴、例えば文献の年数、文献中の語の平均長さ
等に対しても使用できる。次に、システムトレーナーは照会語が語の各種の特徴
に基づいて関連があることの確率を見積もる(段階318)。使用される語の各
種の特徴には語の機能(例えば名詞、動詞等)、或いは語が大文字かどうか等が
含まれる。語の機能を識別し、それが大文字かどうかを識別することは周知の技
術により実施される。この段階を実施する際に、システムトレーナーは形及び大
文字等の考慮すべき特徴を決定し、次いで各組合わせに対する記憶場所(ビン)
を割り当てる。こうして、ビンは大文字の名詞、小文字の名詞、大文字の動詞等
に対して生成される。次いで、システムトレーナーは一度に一つづつの照会語に
ついて、全てのトレーニングデータを調べる。照会中の各照会語に対して、シス
テムトレーナーはどのビンに照会語を関連づけるかどうかを決定し、また、どの
関連文献(即ち、照会の一部として戻される文献)中にそれが収容されているか
を決定し、適当なビンに分数(分率)を蓄える。ここに分数の分子はその語が見
い出される関連のある文献の数を表し、分母は関連のある文献の全数を表す。各
照会がこのようにして処理された後、ビン中の全ての分数の分子は合算され、ビ
ン中の全ての分母は合算され、それらは除算されて確率P(qはdにある|dは
関連あり、特徴(q))がビン中の各語に割り当てられる。
【0027】 形、大文字及び語の他の特徴に加えて、語の他の特徴も又この確率に影響を及
ぼし得る。例えば、この語の含んでいる全ての文献の分数(文献頻度)を使用す
ることができる。これに加えて、文献中の語の位置を使用することができる。こ
の場合に、もしも語が見出し中に又は抄録中に現れるとした場合に、関連のある
文献の数を計数するとき、計数値はその計数値に所定数(例えば5)を乗じるこ
とにより増やしてもよく、これはこの文献がこの語に関連があるより大きい可能
性があることを示す。
【0028】 照会語が語の特徴に基づいて関連があるとの確率を見積もった後に、システム
トレーナーは、段階320−326が示すように関連性のフィードバックを行う
ための各種の処理を実施する。これを実行する際に、システムトレーナーはトレ
ーニングデータに含まれる照会の実行を行う(段階320)。この段階で、シス
テムトレーナーは実際には照会エンジンを呼び出して、以下に説明するようにト
レーニングデータ中の各照会に対するランク付けを発生する。例えば、もしもト
レーニングデータが「クリントン大統領」なる照会を有するならば、この照会は
照会エンジンにより実行される。次にシステムトレーナーは新規な照会を発生す
る(段階322)。この段階では、照会エンジンはトレーニングデータ中に見い
出される各照会に対して最も関連の深い文献の所定数(例えば5)を返している
。システムトレーナーはトレーニングデータから受け取った元の照会(例えば「
クリントン大統領」)及び所定数の文献中に共通に見い出される全ての語を含む
ことにより、新規な照会を発生する。例えば、システムトレーナーは元の照会と
、5文献中の3文献、5文献中の4文献及び5文献中5文献に共通に見い出され
た全ての語の全体を含む新たな照会を発生することができる。
【0029】 新規な照会を生成した後、システムトレーナーはこの新規照会を、元の照会に
関連した文献に関連づける(段階324)。即ち、システムトレーナーは新規な
照会と元の照会に関連した文献を含むトレーニングデータ中のデータエントリー
を作る。次いでシステムトレーナーは語が語の特徴に基づいて関連を有する確率
を再見積もりする(段階326)。この段階でシステムトレーナーは段階318
に関して上に説明したと同じ処理を実行する。但し追加のビンを作り、そこに語
の頻度を含ませる(例えば、5文献中の3文献、5文献中の4文献及び5文献中
5文献に見い出されたと言った)点で異なる。確率を再見積した後に、処理は終
了する。まとめると、改良された情報検索装置は、文献が照会(質問)に関連を
有している場合に、また照会語の特徴(例えば語の形)、その語が利用者の元の
照会中にあったか、この照会語が現れる元の検索文献はどれほど多かったか(例
えば5中3)、及びこの語を含む全ての文献からのその文献の分率(分数)が与
えられた場合に、特定の照会語がどれだけ多く文献中に現れる可能性があるかを
見積もる。 この表現は次の通りである。
【数3】 P(照会語は文献中にある|dはRであり、特徴は[q]である)-df[q] ここにdf[q]は照会語の文献の頻度であり、文献語の語に対する状態104へ
の移行確率として使用される。
【0030】 図4は本発明により照会エンジンにより実行される段階の流れ図である。照会
エンジンにより実行される第1段階は、照会を受け取ることである(段階402
)。照会は任意数の語を含む。照会を受け取った後に、照会エンジンはC(w,
d)行列中の各照会語を照会する(段階404)。この段階では、照会エンジン
は各文献の表示とその語が各文献中に生じる回数を受け取る。例えば、語「クリ
ントン」が照会の一部に使用されたとすると、返される情報は文献1が2度の生
起回数を有することを表すことができる。各照会語を照会した後、照会エンジン
は各照会語に対する各文献の得点を計算する(段階406)。この段階で、照会
エンジンは次の式を利用する。
【数4】 q得点(q,d)=Log(a*C(q,d)/L(d)+b*Σp(q|Ti)*p(Ti|d) +(1-a-b)*C(q)/N) ここでa=P(qはdである|dは関連あり、特徴は(q))である。関連性の
フィードバックに関する確率はこの時点では行われない。それらは以下に述べる
ように第2パスの期間に行われる。bはトピックス状態に対する重みであり、a
と同様な方法で、関連のある文献中には見い出されない照会語が、その文献のト
ピックス状態では見い出されるであろうという確率として評価できる。こうして
、項b*Σp(q|T)*p(T|d)は語が文献中には見い出されない可
能性を反映するが、しかしなお、関連のある文献中で議論された1以上のトピッ
クスには関連があることを示す。また、項(1−a−b)*C(q)/N)は照
会語「q」が文献の任意のものに存在する確率を反映している。
【0031】 次に、照会エンジンは各照会語に対する得点を加算して総合得点である得点(
d)を得る(段階408)。得点の加算の後に、照会エンジンは、文献の特徴が
与えられたときに文献が関連性をあらわす事前確率を計算に入れる。この段階は
次の式を用いて実施される。
【数5】 最終得点(d)=得点(d)+Log(P(dは関連あり|特徴(d)) 事前確率を算入した後、照会エンジンは各文献を最終得点によりランク付けす
る(段階412)。この段階では、照会エンジンは単に利用者に最高得点を有す
る所定数の文献を表示するのみである。
【0032】 ランク付けが生成されたが、照会エンジンは段階414,416に示すように
第2パスを実行して関連性のフィードバックを行い、最高得点の文献中に見い出
される追加の語を使用することにより照会語に関連がありそうな文献を識別する
。関連性のフィードバックを行うときには、照会エンジンは段階412で返され
た文献中に見い出される語に基づく新規な照会を発生する(段階414)。例え
ば上位5つの文献が返される例では、照会エンジンは多数の文献に共通に見い出
される語に基づいて新規な照会を発生する。この例では、照会エンジンは元の照
会並びに5文献中3文献、5文献中4文献、及び5文献中5文献に共通に見い出
される全ての語を含む新たな照会を発生する。別法として、利用者は帰された文
献中の最も関連性の高いもの(例えば10文献中の5文献)を選択し、これらの
5文献から新規な照会を作成することにより関連性のフィードバックを監視する
ことができる。新規な照会を作った後、照会エンジンは新規な照会に基づいて文
献を検索する(段階416)。この段階では、照会エンジンは新規な照会を用い
て段階404−412を繰り返し、文献の新たなランク付けリストを生成する。
ランク付けの際に照会エンジンは段階406の関連性のフィードバックに関係し
た確率を利用する。
【図面の簡単な説明】
【図1A】 照会を発生するための方法を反映した隠れマルコフモデルを表す。
【図1B】 図1Aの隠れマルコフモデル中の一般語状態のより詳細な図形を示す。
【図1C】 図1Aの隠れマルコフモデル中の文献語のより詳細な図形を示す。
【図1D】 図1Aの隠れマルコフモデル中のトピックス状態のより詳細な図形を示す。
【図2】 本発明の方法及び装置を実施するのに適したデータ処理装置を示す。
【図3A】 図2のシステムトレーナーにより実施される段階を示すフローチャートである
【図3B】 図2のシステムトレーナーにより実施される段階を示すフローチャートである
【図4】 図2の照会エンジンにより実行される段階のフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,GM,HR,HU,ID,IL,IN,IS ,JP,KE,KG,KP,KR,KZ,LC,LK, LR,LS,LT,LU,LV,MD,MG,MK,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,SL,TJ,TM, TR,TT,UA,UG,UZ,VN,YU,ZA,Z W (72)発明者 リチャード エム.シュウォーツ アメリカ合衆国 01776−2728 マサチュ ーセッツ、サドバリー、ピークハム ロー ド 200 (72)発明者 デイビッド アール.エイチ.ミラー アメリカ合衆国 02139 マサチューセッ ツ、ケンブリッジ、ブロードウェイ 395、 アパートメント アール3イー (72)発明者 ティモシー アール.リーク アメリカ合衆国 02140 マサチューセッ ツ、ケンブリッジ、フェアフィールド ス トリート 21 Fターム(参考) 5B075 ND03 ND20 NK35 NR12 PQ02 PR04 QP03

Claims (64)

    【特許請求の範囲】
  1. 【請求項1】 利用者からの照会語を含む照会を受け取る段階、 照会語が与えられた場合に、少なくとも一つの情報事項が関連を有することの
    事後確率を決定する段階、そして 利用者に、少なくとも一つの情報項目は照会語に関連があることを表示する段
    階を含む、情報事項を有するデータ処理方法。
  2. 【請求項2】 前記情報事項は文献であり、前記決定する段階は、 照会語が与えられた場合に、各文献が関連性を有する可能性を決定するもので
    あり、前記表示する段階は、さらに決定された可能性に基づいて各文献のランク
    付けを行うものである、請求項1のデータ処理方法。
  3. 【請求項3】 前記決定する段階は、前記決定を前記少なくとも1つの情報
    項目が照会語とは独立に関連があることの事前確率に基づかせる段階を含む請求
    項1のデータ処理方法。
  4. 【請求項4】 前記事前確率に基づかせる段階は、前記少なくとも一つの情
    報項目の特徴に基づいて事前確率を決定する段階を含む請求項3のデータ処理方
    法。
  5. 【請求項5】 前記事前確率に基づかせる段階は、前記少なくとも一つの情
    報項目の情報源に基づいて事前確率を決定する段階を含む請求項3のデータ処理
    方法。
  6. 【請求項6】 前記事前確率に基づかせる段階は、前記少なくとも一つの情
    報項目の長さに基づいて事前確率を決定する段階を含む請求項3のデータ処理方
    法。
  7. 【請求項7】 前記事前確率に基づかせる段階は、前記少なくとも一つの情
    報項目の情報の年数に基づいて事前確率を決定する段階を含む請求項3のデータ
    処理方法。
  8. 【請求項8】 前記事前確率に基づかせる段階は、前記少なくとも一つの情
    報項目中の語の平均長さに基づいて事前確率を決定する段階を含む請求項3のデ
    ータ処理方法。
  9. 【請求項9】 前記事後確率を決定する段階は、前記少なくとも一つの情報
    項目が関連有りと決定されている場合に、前記決定を前記照会語の可能性に基づ
    かせるものである請求項1のデータ処理方法。
  10. 【請求項10】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語の
    特徴が与えられている場合に、前記照会語の可能性を決定するものである請求項
    9のデータ処理方法。
  11. 【請求項11】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語の
    形が与えられている場合に、前記照会語の可能性を決定するものである請求項9
    のデータ処理方法。
  12. 【請求項12】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語の
    大文字化が与えられている場合に、前記照会語の可能性を決定するものである請
    求項9のデータ処理方法。
  13. 【請求項13】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語が
    前記少なくとも一つの情報項目以外の情報項目中に現れる頻度が与えられている
    場合に、前記照会語の可能性を決定するものである請求項9のデータ処理方法。
  14. 【請求項14】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語が
    前記少なくとも一つの情報項目内に位置する個所が与えられている場合に、前記
    照会語の可能性を決定するものである請求項9のデータ処理方法。
  15. 【請求項15】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語が
    前記少なくとも一つの情報項目内に現れる頻度が与えられている場合に、前記照
    会語の可能性を決定するものである請求項9のデータ処理方法。
  16. 【請求項16】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合に、隠れマルコフモ
    デルを使用して照会語の可能性を模擬するものである請求項9のデータ処理方法
  17. 【請求項17】 隠れマルコフモデルは一般語に対する状態を有し、さらに
    、照会語が、前記一般語を使用することにより前記少なくとも一つの情報項目が
    関連を有するかどうかの決定に関連のない1組の語から生成された可能性を見積
    もるものである、請求項16のデータ処理方法。
  18. 【請求項18】 隠れマルコフモデルは文献語の状態を有し、前記隠れマル
    コフモデルを使用する段階は、前記少なくとも一つの情報項目が前記文献語の状
    態を使用することにより前記照会語を発生した可能性を見積もるものである請求
    項16のデータ処理方法。
  19. 【請求項19】 隠れマルコフモデルは文献語の状態を有し、前記隠れマル
    コフモデルを使用する段階は、前記少なくとも一つの情報項目が前記文献語の状
    態を使用することにより前記照会語の形を発生した可能性を見積もるものである
    請求項16のデータ処理方法。
  20. 【請求項20】 隠れマルコフモデルは文献語の状態を有し、前記隠れマル
    コフモデルを使用する段階は、前記少なくとも一つの情報項目が前記文献語の状
    態を使用することにより前記照会語の同義語を発生した可能性を見積もるもので
    ある請求項16のデータ処理方法。
  21. 【請求項21】 隠れマルコフモデルはトピックスの状態を有し、前記隠れ
    マルコフモデルを使用する段階は、前記照会語が、前記トピックス語の状態を使
    用することにより前記情報項目のトピックスに関連を有する可能性を見積もるも
    のである請求項16のデータ処理方法。
  22. 【請求項22】 前記照会を受け取る段階は、照会語の列を含む照会を受け
    取るものであり、前記表示する段階は、前記照会語の列が与えられている場合に
    、前記情報事項が関連を有する前記決定された可能性を利用者に表示することを
    含む、請求項1のデータ処理方法。
  23. 【請求項23】 前記決定する段階は、照会語が与えられ且つ少なくとも1
    つの他の照会語が前記少なくとも1つの情報事項以外の情報事項から得られてい
    る場合に、前記少なくとも一つの情報項目が関連を有する可能性を決定すること
    を含む請求項1のデータ処理方法。
  24. 【請求項24】 前記決定する段階は、複数の前記情報事項から得られた語
    が前記少なくとも一つの情報項目に見い出される可能性を見積もることを含む請
    求項1のデータ処理方法。
  25. 【請求項25】 前記決定する段階は、前記照会語が与えられており且つ複
    数の他の照会語が複数の前記情報事項に共通に見い出される場合に、前記少なく
    とも一つの情報項目が関連性を有する可能性を見積もることを含む請求項1のデ
    ータ処理方法。
  26. 【請求項26】 文書を有する2次記憶装置と、複数文献中の関連のある一
    つの文献を表す照会語を有する照会を受け取り且つ前記複数文献中のどれが関連
    するかを式に基づいて決定するメモリと、前記照会エンジンを動作させる処理装
    置とを含み、前記式は、前記関連のある文献に対する必要性を表現するために前
    記照会語を発生する仕方のモデルに基づくものである、データ処理装置。
  27. 【請求項27】 前記モデルは隠れマルコフモデルである請求項26のデー
    タ処理装置。
  28. 【請求項28】 前記隠れマルコフモデルは、照会語が前記関連文献の表示
    には無関係な一群の語から選択されることを表す状態を有する請求項27のデー
    タ処理装置。
  29. 【請求項29】 前記隠れマルコフモデルは、照会語が前記関連文献から選
    択されることを表す状態を有する請求項27のデータ処理装置。
  30. 【請求項30】 前記文献はトピックスに関連しており、前記隠れマルコフ
    モデルはこれらの関連したトピックスの一つを示すように選択されていることを
    表す状態を有する請求項27のデータ処理装置。
  31. 【請求項31】 文献語を有する複数の文献を有している、情報を検索する
    ためにコンピュータを使用する検索方法であって、 文献に関連したトピックスを識別し、識別されたどのトピックスが各文献に関
    連しているかを決定し、 各文献に対して、各関連したトピックスが前記文献に関連を有するかの可能性
    を示す第1の確率を決定し、 各文献中の各文献語に対して、前記文献語が前記文献に関連したトピックスの
    各々に関連性を有するかの可能性に対する第2の確率を決定し、 トレーニング語を有するトレーニング照会を示すトレーニングデータと前記文
    献中のどれが各トレーニング照会に関連性を有するかの表示とを受け取り、 前記各文献の特徴を使用して、前記文献の各々が全てのトレーニング照会に関
    連のある可能性を表す第3の確率を見積もり、 各トレーニング照会に対して、該トレーニング照会中の各トレーニング語が、
    前記トレーニング語の特性に基づいて前記トレーニング照会に関連ありと決定さ
    れている各文献に関連を有する可能性を表す第4の確率を見積もり、 利用者から照会語を有する利用者照会を受け取り、 各照会語及び各文献に対して、照会語がある文献の割合に基づいて第5の確率
    を決定し、そして 前記第1、第2、第3、第4及び第5の確率を使用して前記文献のうちのどの
    文献が利用者の照会に関連するかを決定する段階を含む、検索方法。
  32. 【請求項32】 第3の確率を見積もる段階は、各文献の源を使用すること
    により第3の確率を見積もるものである請求項31の検索方法。
  33. 【請求項33】 第3の確率を見積もる段階は、各文献の長さを使用するこ
    とにより第3の確率を見積もるものである請求項31の検索方法。
  34. 【請求項34】 第3の確率を見積もる段階は、各文献の平均の語長を使用
    することにより第3の確率を見積もるものである請求項31の検索方法。
  35. 【請求項35】 第3の確率を見積もる段階は、各文献の年数を使用するこ
    とにより第3の確率を見積もるものである請求項31の検索方法。
  36. 【請求項36】 第4の確率を見積もる段階は、前記トレーニング語の機能
    に基づいて第4の確率を見積もるものである請求項31の検索方法。
  37. 【請求項37】 第4の確率を見積もる段階は、前記トレーニング語の大文
    字化に基づいて第4の確率を見積もるものである請求項31の検索方法。
  38. 【請求項38】 第4の確率を見積もる段階は、前記トレーニング語の場所
    に基づいて第4の確率を見積もるものである請求項31の検索方法。
  39. 【請求項39】 第4の確率を見積もる段階は、前記トレーニング語が各ト
    レーニング文献に現れる回数に基づいて第4の確率を見積もるものである請求項
    31の検索方法。
  40. 【請求項40】 情報項目を有するデータ処理装置を制御する命令を含んで
    いるコンピュータ読み取り可能な媒体において、該媒体は、照会語を含む照会を
    利用者から受け取り、 前記照会語が与えられた場合に前記情報項目の少なくとも1つが関連性あるこ
    との事後確率を決定し、そして 前記利用者に前記少なくともひとつの情報項目が前記照会語に関連がある可能
    性を示す段階を記憶したものであるコンピュータ読み取り可能な媒体。
  41. 【請求項41】 前記情報事項は文献であり、前記決定する段階は、照会語
    が与えられた場合に各文献が関連性を有する可能性を決定するものであり、前記
    表示する段階は、さらに決定された可能性に基づいて各文献のランク付けを行う
    段階である請求項40のコンピュータ読み取り可能な媒体。
  42. 【請求項42】 前記決定する段階は、前記決定を前記少なくとも1つの情
    報項目が照会語とは独立に関連があることの事前確率に基づかせる段階である請
    求項40のコンピュータ読み取り可能な媒体。
  43. 【請求項43】 前記事前確率に基づかせる段階は、前記少なくとも一つの
    情報項目の特徴に基づいて事前確率を決定する段階である請求項42のコンピュ
    ータ読み取り可能な媒体。
  44. 【請求項44】 前記事前確率に基づかせる段階は、前記少なくとも一つの
    情報項目の情報源に基づいて事前確率を決定する段階である請求項42のコンピ
    ュータ読み取り可能な媒体。
  45. 【請求項45】 前記事前確率に基づかせる段階は、前記少なくとも一つの
    情報項目の長さに基づいて事前確率を決定する段階である請求項42のコンピュ
    ータ読み取り可能な媒体。
  46. 【請求項46】 前記事前確率に基づかせる段階は、前記少なくとも一つの
    情報項目の情報の年数に基づいて事前確率を決定する段階である請求項42のコ
    ンピュータ読み取り可能な媒体。
  47. 【請求項47】 前記事前確率に基づかせる段階は、前記少なくとも一つの
    情報項目中の語の平均長さに基づいて事前確率を決定する段階である請求項42
    のコンピュータ読み取り可能な媒体。
  48. 【請求項48】 前記事後確率を決定する段階は、前記少なくとも一つの情
    報項目が関連有りと決定されている場合に、前記決定を前記照会語の可能性に基
    づかせるものである請求項40のコンピュータ読み取り可能な媒体。
  49. 【請求項49】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語の
    特徴が与えられている場合に、前記照会語の可能性を決定するものである請求項
    48のコンピュータ読み取り可能な媒体。
  50. 【請求項50】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語の
    形が与えられている場合に、前記照会語の可能性を決定するものである請求項4
    8のコンピュータ読み取り可能な媒体。
  51. 【請求項51】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語の
    大文字化が与えられている場合に、前記照会語の可能性を決定するものである請
    求項48のコンピュータ読み取り可能な媒体。
  52. 【請求項52】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語が
    前記少なくとも一つの情報項目以外の情報項目中に現れる頻度が与えられている
    場合に、前記照会語の可能性を決定するものである請求項48のコンピュータ読
    み取り可能な媒体。
  53. 【請求項53】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語が
    前記少なくとも一つの情報項目内に位置する個所が与えられている場合に、前記
    照会語の可能性を決定するものである請求項48のコンピュータ読み取り可能な
    媒体。
  54. 【請求項54】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合であって、照会語が
    前記少なくとも一つの情報項目内に現れる頻度が与えられている場合に、前記照
    会語の可能性を決定するものである請求項48のコンピュータ読み取り可能な媒
    体。
  55. 【請求項55】 前記決定を前記照会語の可能性に基づかせる段階は、前記
    少なくとも一つの情報項目が関連有りと決定されている場合に、隠れマルコフモ
    デルを使用して照会語の可能性を模擬するものである請求項48のコンピュータ
    読み取り可能な媒体。
  56. 【請求項56】 隠れマルコフモデルは一般語に対する状態を有し、さらに
    、照会語が、前記一般語を使用することにより前記少なくとも一つの情報項目が
    関連を有するかどうかの決定に関連のない1組の語から生成された可能性を見積
    もるものである、請求項55のコンピュータ読み取り可能な媒体。
  57. 【請求項57】 隠れマルコフモデルは文献語の状態を有し、前記隠れマル
    コフモデルを使用する段階は、前記少なくとも一つの情報項目が前記文献語の状
    態を使用することにより前記照会語を発生した可能性を見積もるものである請求
    項55のコンピュータ読み取り可能な媒体。
  58. 【請求項58】 隠れマルコフモデルは文献語の状態を有し、前記隠れマル
    コフモデルを使用する段階は、前記少なくとも一つの情報項目が前記文献語の状
    態を使用することにより前記照会語の形を発生した可能性を見積もるものである
    請求項55のコンピュータ読み取り可能な媒体。
  59. 【請求項59】 隠れマルコフモデルは文献語の状態を有し、前記隠れマル
    コフモデルを使用する段階は、前記少なくとも一つの情報項目が前記文献語の状
    態を使用することにより前記照会語の同義語を発生した可能性を見積もるもので
    ある請求項55のコンピュータ読み取り可能な媒体。
  60. 【請求項60】 隠れマルコフモデルはトピックスの状態を有し、前記隠れ
    マルコフモデルを使用する段階は、前記照会語が、前記トピックス語の状態を使
    用することにより前記情報項目のトピックスに関連を有する可能性を見積もるも
    のである請求項55のコンピュータ読み取り可能な媒体。
  61. 【請求項61】 前記照会を受け取る段階は、照会語の列を含む照会を受け
    取るものであり、前記表示する段階は、前記照会語の列が与えられている場合に
    、前記情報事項が関連を有する前記決定された可能性を利用者に表示する段階を
    含む、請求項40のコンピュータ読み取り可能な媒体。
  62. 【請求項62】 前記決定する段階は、照会語が与えられ且つ少なくとも1
    つの他の照会語が前記少なくとも1つの情報事項以外の情報事項から得られてい
    る場合に、前記少なくとも一つの情報項目が関連を有する可能性を決定すること
    を含む請求項40のコンピュータ読み取り可能な媒体。
  63. 【請求項63】 前記決定する段階は、複数の前記情報事項から得られた語
    が前記少なくとも一つの情報項目に見い出される可能性を見積もることを含む請
    求項40のコンピュータ読み取り可能な媒体。
  64. 【請求項64】 前記決定する段階は、前記照会語が与えられており且つ複
    数の他の照会語が複数の前記情報事項に共通に見い出される場合に、前記少なく
    とも一つの情報項目が関連性を有する可能性を見積もることを含む請求項40の
    コンピュータ読み取り可能な媒体。
JP2000562844A 1998-07-31 1999-07-28 確率を利用した情報検索装置 Withdrawn JP2002521767A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/127,685 1998-07-31
US09/127,685 US6405188B1 (en) 1998-07-31 1998-07-31 Information retrieval system
PCT/US1999/016983 WO2000007122A1 (en) 1998-07-31 1999-07-28 An improved information retrieval system utilizing probabilities

Publications (1)

Publication Number Publication Date
JP2002521767A true JP2002521767A (ja) 2002-07-16

Family

ID=22431396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000562844A Withdrawn JP2002521767A (ja) 1998-07-31 1999-07-28 確率を利用した情報検索装置

Country Status (5)

Country Link
US (2) US6405188B1 (ja)
EP (1) EP1131746A4 (ja)
JP (1) JP2002521767A (ja)
AU (1) AU5234399A (ja)
WO (1) WO2000007122A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6981217B1 (en) * 1998-12-08 2005-12-27 Inceptor, Inc. System and method of obfuscating data
AU4328000A (en) 1999-03-31 2000-10-16 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6701309B1 (en) * 2000-04-21 2004-03-02 Lycos, Inc. Method and system for collecting related queries
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US6861676B2 (en) * 2001-10-26 2005-03-01 Industrial Technology Research Institute Fabricating process for forming flexible substrate
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US7167871B2 (en) * 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP3997412B2 (ja) * 2002-11-13 2007-10-24 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US7231379B2 (en) 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US20040260677A1 (en) * 2003-06-17 2004-12-23 Radhika Malpani Search query categorization for business listings search
GB2406402A (en) * 2003-09-24 2005-03-30 Queen Mary & Westfield College Ranking records in a probabilistic relational database
US7231399B1 (en) * 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US9009153B2 (en) * 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US20050228778A1 (en) * 2004-04-05 2005-10-13 International Business Machines Corporation System and method for retrieving documents based on mixture models
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US11468128B1 (en) * 2006-10-20 2022-10-11 Richard Paiz Search engine optimizer
CN100462961C (zh) * 2004-11-09 2009-02-18 国际商业机器公司 组织多个文档的方法以及显示多个文档的设备
US8131736B1 (en) * 2005-03-01 2012-03-06 Google Inc. System and method for navigating documents
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8751240B2 (en) * 2005-05-13 2014-06-10 At&T Intellectual Property Ii, L.P. Apparatus and method for forming search engine queries based on spoken utterances
KR20080031262A (ko) * 2005-06-06 2008-04-08 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 관계 네트워크
US7627564B2 (en) * 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7788263B2 (en) * 2005-08-10 2010-08-31 Microsoft Corporation Probabilistic retrospective event detection
JP2007072646A (ja) * 2005-09-06 2007-03-22 Internatl Business Mach Corp <Ibm> 検索装置、検索方法およびプログラム
US8572088B2 (en) * 2005-10-21 2013-10-29 Microsoft Corporation Automated rich presentation of a semantic topic
US7693818B2 (en) * 2005-11-15 2010-04-06 Microsoft Corporation UserRank: ranking linked nodes leveraging user logs
US7681147B2 (en) * 2005-12-13 2010-03-16 Yahoo! Inc. System for determining probable meanings of inputted words
US7644373B2 (en) * 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) * 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US7809704B2 (en) * 2006-06-15 2010-10-05 Microsoft Corporation Combining spectral and probabilistic clustering
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
US7707208B2 (en) * 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US9110975B1 (en) * 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US9507858B1 (en) * 2007-02-28 2016-11-29 Google Inc. Selectively merging clusters of conceptually related words in a generative model for text
US8086624B1 (en) * 2007-04-17 2011-12-27 Google Inc. Determining proximity to topics of advertisements
US8229942B1 (en) 2007-04-17 2012-07-24 Google Inc. Identifying negative keywords associated with advertisements
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US8595778B2 (en) * 2008-11-12 2013-11-26 Level 3 Communications, Llc User authentication in a content delivery network
US8103650B1 (en) * 2009-06-29 2012-01-24 Adchemy, Inc. Generating targeted paid search campaigns
US8321398B2 (en) * 2009-07-01 2012-11-27 Thomson Reuters (Markets) Llc Method and system for determining relevance of terms in text documents
US8478749B2 (en) * 2009-07-20 2013-07-02 Lexisnexis, A Division Of Reed Elsevier Inc. Method and apparatus for determining relevant search results using a matrix framework
US20110072047A1 (en) * 2009-09-21 2011-03-24 Microsoft Corporation Interest Learning from an Image Collection for Advertising
WO2011053325A1 (en) * 2009-10-31 2011-05-05 Hewlett-Packard Development Company, L.P. Determining probability that an object belongs to a topic using sample items selected from object and probability distribution profile of the topic
US8732405B2 (en) * 2009-12-10 2014-05-20 General Motors Llc Method of reducing response time for delivery of vehicle telematics services
US8818980B2 (en) * 2010-01-12 2014-08-26 Intouchlevel Corporation Connection engine
US11379473B1 (en) 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
US11423018B1 (en) 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US8903798B2 (en) 2010-05-28 2014-12-02 Microsoft Corporation Real-time annotation and enrichment of captured video
US9703782B2 (en) 2010-05-28 2017-07-11 Microsoft Technology Licensing, Llc Associating media with metadata of near-duplicates
EA201001550A1 (ru) * 2010-10-25 2012-02-28 Висконти Груп Менеджмент Лтд. Способ преобразования текстов, способ поиска, способ автоматизированного перевода и способ автоматизированного озвучивания текстов
US8559682B2 (en) 2010-11-09 2013-10-15 Microsoft Corporation Building a person profile database
US9678992B2 (en) * 2011-05-18 2017-06-13 Microsoft Technology Licensing, Llc Text to image translation
US9600576B2 (en) 2013-08-01 2017-03-21 International Business Machines Corporation Estimating data topics of computers using external text content and usage information of the users
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
US10102277B2 (en) * 2014-05-15 2018-10-16 Sentient Technologies (Barbados) Limited Bayesian visual interactive search
US20150331908A1 (en) 2014-05-15 2015-11-19 Genetic Finance (Barbados) Limited Visual interactive search
US10606883B2 (en) 2014-05-15 2020-03-31 Evolv Technology Solutions, Inc. Selection of initial document collection for visual interactive search
WO2017212459A1 (en) 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US10755144B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
US10755142B2 (en) 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
US5748852A (en) * 1994-09-16 1998-05-05 Lockheed Martin Corporation Fuzzy-logic classification system
US5822731A (en) * 1995-09-15 1998-10-13 Infonautics Corporation Adjusting a hidden Markov model tagger for sentence fragments
US5704017A (en) * 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5696964A (en) * 1996-04-16 1997-12-09 Nec Research Institute, Inc. Multimedia database retrieval system which maintains a posterior probability distribution that each item in the database is a target of a search
US6021403A (en) * 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US5855011A (en) * 1996-09-13 1998-12-29 Tatsuoka; Curtis M. Method for classifying test subjects in knowledge and functionality states
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US5950189A (en) * 1997-01-02 1999-09-07 At&T Corp Retrieval system and method
US5930803A (en) * 1997-04-30 1999-07-27 Silicon Graphics, Inc. Method, system, and computer program product for visualizing an evidence classifier
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6460049B1 (en) * 1998-12-22 2002-10-01 Silicon Graphics, Inc. Method system and computer program product for visualizing an evidence classifier

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム

Also Published As

Publication number Publication date
US7162468B2 (en) 2007-01-09
EP1131746A4 (en) 2001-10-31
AU5234399A (en) 2000-02-21
WO2000007122A1 (en) 2000-02-10
WO2000007122A9 (en) 2000-07-13
US6405188B1 (en) 2002-06-11
US20020138478A1 (en) 2002-09-26
EP1131746A1 (en) 2001-09-12

Similar Documents

Publication Publication Date Title
JP2002521767A (ja) 確率を利用した情報検索装置
CN108491462B (zh) 一种基于word2vec的语义查询扩展方法及装置
US8380714B2 (en) Method, computer system, and computer program for searching document data using search keyword
US6654740B2 (en) Probabilistic information retrieval based on differential latent semantic space
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
EP1801714B1 (en) Generation of descriptions for classes and clusters of documents
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
Litvak et al. DegExt—A language-independent graph-based keyphrase extractor
US20060167930A1 (en) Self-organized concept search and data storage method
JP2001524717A (ja) 情報管理及び検索
WO2000075811A2 (en) Method and system for text mining using multidimensional subspaces
Lam et al. Using contextual analysis for news event detection
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
CN107239554B (zh) 一种基于匹配度检索英文文本的方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008117351A (ja) 検索システム
Li et al. Complex query recognition based on dynamic learning mechanism
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
JP4888677B2 (ja) 文書検索システム
JPH09319767A (ja) 類義語辞書登録方法
JP2002183194A (ja) 検索式生成装置およびその方法
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
Vechtomova et al. Approaches to High Accuracy Retrieval: Phrase-Based Search Experiments in the HARD Track.

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061003