JP3719415B2 - 情報検索方法、情報検索システム、およびプログラム - Google Patents

情報検索方法、情報検索システム、およびプログラム Download PDF

Info

Publication number
JP3719415B2
JP3719415B2 JP2002007403A JP2002007403A JP3719415B2 JP 3719415 B2 JP3719415 B2 JP 3719415B2 JP 2002007403 A JP2002007403 A JP 2002007403A JP 2002007403 A JP2002007403 A JP 2002007403A JP 3719415 B2 JP3719415 B2 JP 3719415B2
Authority
JP
Japan
Prior art keywords
question
answer
phrase
information
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002007403A
Other languages
English (en)
Other versions
JP2002297651A (ja
Inventor
アジクタイン ヤブジェニー
ロバート ローレンス ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2002297651A publication Critical patent/JP2002297651A/ja
Application granted granted Critical
Publication of JP3719415B2 publication Critical patent/JP3719415B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、利用者の質問に対する回答を大量に蓄えられたデータ(情報)から検索する方法およびシステムに関し、特に、検索処理に自然言語処理を利用する情報検索方法および情報検索システムに関する。さらには、本発明はそのような情報検索を実現するプログラムに関する。
【0002】
【従来の技術】
インターネットの普及に伴い、利用者はインターネットを介して種々の情報(ニュース、論文、書物、特許など)を取得できるようになった。インターネット上に公開されている情報の取得には、通常、Web上の検索エンジンが利用される。利用者は、所望の情報を得るために必要な質問を検索エンジンに提出し、検索エンジンが検索した複数の情報(複数のドキュメント)を閲覧することで、目的の情報を取得する。
【0003】
最近では、検索処理に自然言語処理技術が導入され、毎日、かなりの数の自然言語質問(たとえば、「What is a hard disk」)がWeb上の検索エンジンに提出されるようになってきており、ますます多くのWeb上の検索サービスが自然言語質問を具体的に目標とするようになってきている。たとえば、あるサービスは、プレコンパイルされた情報、メタサーチング、および他の独占的な方法のデータベースを使用しているが、他のサービスはヒューマンエキスパートとの相互作用を容易にしている。
【0004】
多くのWeb検索エンジンは、一般に、自然言語質問をターム(例えば、検索対象となる文書の内容を特徴付ける単語)の集まりとして取り扱い、このタームの集まりからなる本来の問い合わせと類似しているドキュメントを検索する。しかし、最良の回答のドキュメントは、本来の問い合わせからのわずかなタームしか含んでおらず、検索エンジンによって低い順位が付けられる。この問い合わせは、検索エンジンがそれを質問として認識することで、より正確に回答することができる。
【0005】
多くの場合、自然言語質問(たとえば、「How do I tie shoelaces?」)を、そのままの形で検索エンジンに提出することは不十分である。ほとんどの検索エンジンは、上記の如く、そのような問い合わせをタームの集合として取り扱い、本来の問い合わせに類似している文献を検索する。しかしながら、最良の回答のドキュメントは、本来の問い合わせの中に存在する1つあるいは2つのタームしか含んでいない。そのため、そのような有用なドキュメントは、検索エンジンにより低い順位が付けられ、最初の結果のページしか見ない典型的なユーザーは、決してそれを調べることはない。
【0006】
質問「What is a hard disk?」を例に、最良の回答を得るための問い合わせを以下に簡単に説明する。
【0007】
この問い合わせに対する最良の回答のドキュメントは、汎用目的の検索エンジンにより返される可能性のあるディスク記憶装置製造業者の会社Webサイトではなく、むしろハードディスクの定義あるいは説明のあるハードウェアのチュートリアルあるいは用語解説ページである。したがって、「ハードディスク:データを蓄積するために使用され、対応する読み取り/書き込みヘッドおよび電子回路を有し、中央の軸の周りを回転する1つ以上の硬くて曲がらない磁気ディスク・・・」のような回答を含む応答が望ましい。このハードディスクの定義は、本来の質問を{「hard disk」NEAR「used to」}(ここで、「NEAR」は演算子であり、この場合は、「hard disk」と「used to」のフレーズを共に含むページの検索で、両フレーズが近い位置にある順に表示することを意味する。)という問い合わせ(検索条件)に変換することによって検索することができる。このように、「used to」というフレーズを要求することにより、大部分の検索エンジンは、上位に順位付けられたドキュメントの1つとしてこの回答を検索することができる。
【0008】
多くのシステムは、ドキュメントから回答を取り出すことを目標としている。たとえば、あるシステムは、情報検索システムが返したドキュメントを処理して回答を取り出す。質問は、回答に対応する実体のタイプを識別する1組の既知の「質問タイプ」の1つに分類される。ドキュメントは実体を識別するためにタグを付けられ、与えられた質問の正しいタイプの実体を取り囲んでいる節が、1組の発見的方法を使用して順位付けられる。また、他のシステムは、最良の節を返すという目的で、標準の情報検索システムの結果を再順位付けし、後処理する。質問の回答のために統計的および言語的な知識を結合し、検索されたドキュメントを後処理するために高度な言語フィルタを使用し、質問に回答するために最も有望な節を取り出す、というシステムもある。
【0009】
上述のシステムは、標準のTF−IDFターム重み付けスキームの変形を用いて、本来の質問に類似しているドキュメントあるいは節を検索する一般的な方法を使用している。ここで、TF−IDFとは、検索語があるドキュメント中にどれだけ多く出現しているかという出現頻度を示すTF値(Term Frequency)と、その検索語の出現するドキュメント数を示すIDF値(Inverse Document Frequency)の二つを使用して、検索語に対するテキストの重要度を計算する手法をいう。ヒューリスティック(発見的方法)や手作りの規則的な表現を使用して、最も有望な節が、返されたドキュメントから選択される。この方法は、質問に類似しているドキュメントが初めに検索されるので最適なものではない。しかし、利用者は、実際は回答を含んでいるドキュメントを探しており、このドキュメントには、本来の質問をするために使用されたわずかなタームしか含まれていない。これは、Web検索エンジンでよくあるように、ドキュメントの検索が高価であるか、あるいは、一定数のドキュメントに限定されている場合に特に重要である。
【0010】
また、上位に順位付けされたドキュメントにおけるタームの関連性に基づいて問い合わせを自動的に拡大する方法もある。その1つに、本来の問い合わせに対して上位に順位付けされたドキュメントにおける、タームを持つ問い合わせにおけるタームの同時出現に基づいて、問い合わせを自動的に拡大する方法がある。一般に、自動的な問い合わせ拡大システムは、元の問い合わせに応じて情報システムにより返された上位に順位付けされたドキュメントの初期の組を使用して、問い合わせ毎の原則で実行時間で問い合わせを拡大する。
【0011】
【発明が解決しようとする課題】
しかしながら、上述のように質問「What is a hard disk?」を{「hard disk」NEAR「used to」}というような最適な問い合わせに変換することを自動的に学習して情報検索に適用する技術は、これまでに確立されていない。
【0012】
また、各検索エンジンでは、主となる検索対象の情報(蓄積された情報)が異なるため、同じ問い合わせであっても異なる情報(ドキュメント)を返す場合がある。このため、質問を問い合わせへ変換する場合に、変換された問い合わせが目標となる検索エンジンに対して最適なものとなるようにする必要がある。しかし、そのような問い合わせの最適化についても、確立した技術はこれまでに提供されていない。
【0013】
さらに、上記のように、各検索エンジンは同じ問い合わせであっても異なる情報(ドキュメント)を返す場合があるので、各検索エンジンが返す情報(ドキュメント)をそのまま利用者に提供すると、最良の回答を上位に順位付けした形で利用者に提供することができなくなる。このため、各検索エンジンが返す情報(ドキュメント)を、何等かの形で、最良の回答が上位に順位付されるようにする必要もあった。
【0014】
本発明の第1の目的は、利用者が提示した質問の最適な問い合わせへの変換を自動的に学習することのできる情報検索方法およびシステム、さらにはそのようなシステムを実現するプログラムを提供することにある。
【0015】
本発明の第2の目的は、利用者が提示した質問の最適な問い合わせへの変換を、各検索エンジン毎に最適化することのできる、情報検索方法およびシステム、さらにはそのようなシステムを実現するプログラムを提供することにある。
【0016】
本発明の第3の目的は、各検索エンジンから返された情報(ドキュメント)を、最良の回答が上位に順位付された形で利用者に提供することのできる、情報検索方法およびシステム、さらにはそのようなシステムを実現するプログラムを提供することにある。
【0017】
【課題を解決するための手段】
本発明の情報検索方法は、利用者が提示した質問を有効な問い合わせに変換して外部検索エンジンに供給し、該外部検索エンジンが、予め蓄積された情報から前記有効な問い合わせに該当する情報を検索する情報検索方法において、
前記質問と前記外部検索エンジンが前記予め蓄積された情報から検索した前記質問に対する回答との対からなる予め作成した学習データに基づいて、前記質問を有効な問い合わせに変換するための、コンピュータが行う学習過程として、
前記学習データ中の質問群について、質問中に出現するフレーズの出現頻度を調べ、該出現頻度に基づいて質問フレーズを生成し、
前記質問フレーズ毎に、前記学習データ中の該質問フレーズに対応する質問の回答中に出現する品詞情報が付与された単語に基づいて複数の変換候補を生成し、
前記変換候補のそれぞれについて、当該変換候補の前記学習データ中の回答における出現頻度に応じた重みを付け、
前記変換候補のそれぞれを、前記重みに基づいて順位付けする過程を含むことを特徴とする。
【0018】
上記の情報検索方法によれば、利用者が提示した質問およびそれに対する回答から学習データが形成される。この学習データ中の質問について、質問フレーズが生成される。さらに、生成された質問フレーズについて、学習データ中の回答から複数の変換候補が生成される。そして、各変換候補に対して、学習データ中の回答における出現頻度の度合に応じた重みが付けられ、該重みに基づいて順位付けがなされる。
【0019】
上記の質問−質問フレーズ−変換候補−順位付けの一連の処理により得られた変換規則にしたがって、利用者が提出する質問が最適な問い合わせに変換される。最適な問い合わせには、順位付けがなされた変換候補のうちの上位の変換候補が使用される。この変換規則は、利用者が質問を提出する度にその内容が更新される。このようにして、利用者が提示した質問の最適な問い合わせへの変換が自動的に学習される。
【0020】
上記本発明の情報検索方法において、
前記学習データ中に含まれる質問および回答の対について、該質問を構成する文字列のうちの前記質問フレーズを除く単語と、前記複数の変換候補のそれぞれとの組み合せからなる複数の検索条件を作成し、
検索条件のそれぞれについて、前記外部検索エンジンから検索結果として複数のドキュメントを取得し、
前記ドキュメントのそれぞれについて、当該ドキュメントを複数のサブドキュメントに分割し、
前記サブドキュメントのそれぞれと前記質問および回答のにおける回答との類似性に基づいて前記変換候補の順位付けを更新する過程をさらに含んでいてもよい。
【0021】
上記の情報検索方法によれば、検索エンジンによる実際の検索結果に基づいて変換候補の評価が行われる。そして、この評価結果に基づいて最終変換候補が得られる。この最終変換候補を用いて問い合わせを生成すれば、生成された問い合わせは、検索エンジンに最適なものとなる。
【0024】
本発明の情報検索システムは、利用者が提示した質問を有効な問い合わせに変換して外部検索エンジンに供給し、該外部検索エンジンが、予め蓄積された情報から前記有効な問い合わせに該当する情報を検索する情報検索システムにおいて、
前記質問と前記外部検索エンジンが前記予め蓄積された情報から検索した前記質問に対する回答との対からなる予め作成した学習データ中の質問群について、質問中に出現するフレーズの出現頻度を調べ、該出現頻度に基づいて質問フレーズを生成する質問フレーズ生成手段と、
前記質問フレーズ生成手段が生成した質問フレーズ毎に、前記学習データ中の該質問フレーズに対応する質問の回答中に出現する品詞情報が付与された単語に基づいて複数の変換候補を生成するとともに、該変換候補のそれぞれについて、当該変換候補の前記学習データ中の回答における出現頻度に応じた重みを付け、前記変換候補のそれぞれを、前記重みに基づいて順位付けする変換候補生成手段とを有することを特徴とする。
【0025】
上記の情報検索システムにおいても、上述した情報検索方法と同様の作用を奏する。
【0026】
上記情報検索システムにおいて、
前記学習データ中に含まれる質問および回答の対について、該質問を構成する文字列のうちの前記質問フレーズを除く単語と、前記複数の変換候補のそれぞれとの組み合せからなる複数の検索条件を作成する変換評価手段をさらに有し、
前記変換評価手段が、前記検索条件のそれぞれについて、前記外部検索エンジンから検索結果として複数のドキュメントを取得するとともに、該ドキュメントのそれぞれについて、当該ドキュメントを複数のサブドキュメントに分割し、該サブドキュメントのそれぞれと前記質問および回答のにおける回答との類似性に基づいて前記変換候補の順位付けを更新するように構成してもよい。
【0027】
上記の情報検索システムにおいても、上述した情報検索方法と同様の作用を奏する。
【0030】
本発明のプログラムは、利用者が提示した質問を有効な問い合わせに変換して外部検索エンジンに供給し、該外部検索エンジンが、予め蓄積された情報から前記有効な問い合わせに該当する情報を検索する情報検索システムにおいて用いられるプログラムであって、
前記質問と前記外部検索エンジンが前記予め蓄積された情報から検索した前記質問に対する回答との対からなる予め作成した学習データに基づいて、前記質問を有効な問い合わせに変換するための、コンピュータが行う学習過程として、
前記学習データ中の質問群について、質問中に出現するフレーズの出現頻度を調べ、該出現頻度に基づいて質問フレーズを生成し、
前記質問フレーズ毎に、前記学習データ中の該質問フレーズに対応する質問の回答中に出現する品詞情報が付与された単語に基づいて複数の変換候補を生成し、
前記変換候補のそれぞれについて、当該変換候補の前記学習データ中の回答における出現頻度に応じた重みを付け、
前記変換候補のそれぞれを、前記重みに基づいて順位付けする学習処理をコンピュータに実行させることを特徴とする。
【0031】
上記のプログラムにおいても、上述した情報検索方法と同様の作用を奏する。
【0034】
上記プログラムにおいて、
記学習データ中に含まれる質問および回答の対について、該質問を構成する文字列のうちの前記質問フレーズを除く単語と、前記複数の変換候補のそれぞれとの組み合せからなる複数の検索条件を作成し、
記検索条件のそれぞれについて、前記外部検索エンジンから検索結果として複数のドキュメントを取得し、
前記ドキュメントのそれぞれについて、当該ドキュメントを複数のサブドキュメントに分割し、
前記サブドキュメントのそれぞれと前記質問および回答のにおける回答との類似性に基づいて前記変換候補の順位付けを更新する処理をさらに含んでいてもよい。
【0035】
上記のプログラムにおいても、上述した情報検索方法と同様の作用を奏する。
【0036】
【発明の実施の形態】
次に、本発明の実施形態について図面を参照して説明する。
【0037】
本発明の情報検索方法は、利用者から与えられた質問(question)、具体的には自然言語質問を定式化し直すことを学習することから始まり、この変換を適用することにより実行時間で問い合わせ(query)を評価することを特徴とするもので、具体的には、以下に説明するような、質問を有効な問い合わせに変換する学習工程と、実行時間で問い合わせ評価する工程とを含む。
【0038】
(1)質問を有効な問い合わせに変換する学習
この学習では、自然言語質問を、その質問に対する回答(answer)を含むドキュメントに出現すると予想されるタームあるいはフレーズを含む有効な問い合わせに変換する。
【0039】
(1.1)質問フレーズの選択
学習過程1の第1段階10において、各カテゴリーにおける質問が類似の目標を有する、異なるカテゴリーの質問を識別する1組のフレーズを生成する。たとえば、質問「What is a hard disk?」は、ハードディスクの定義あるいは解説を利用者が探していることを意味する。この質問の目標は、ハードディスクの定義あるいは解説に関するドキュメントを取得することにあり、それは質問フレーズ「What is a」から推測できる。
【0040】
この段階の入力は、学習データを構成するのに必要な質問群である。これらの質問と、それらに対応する回答(各検索エンジンからの回答)によって学習データが構成され、この学習データを用いて可能性のある質問フレーズ、すなわち利用者が入力した質問に対して良好な回答を得られるような質問フレーズが生成される。具体的には、可能性のある質問フレーズは、学習データの質問群について、長さが「最小Qトークン(minQtokens)」から「最大Qトークン(maxQtokens)」の単語(word)のすべてのn−グラム(フレーズ)の頻度を計算することにより生成され、すべてのn−グラムは質問の始めに置かれる。ここで、n−グラムとは、データ中に隣接して表れるn個の文字あるいは単語の組の出現頻度の統計をいう。本実施例では、少なくとも「最小Qフレーズカウント(minQphraseCount)」回を生じるすべてのn−グラムを使用する。
【0041】
この段階の出力は、質問をそれぞれの質問型(question type)に速く分類するために使用可能なひと組の質問フレーズである。後に説明する学習コレクション内の質問から自動的に生成される質問フレーズの一例を図2に示す。図2の例には、質問フレーズとして「what is」、「what are」、「where is」などが示されている。
【0042】
この質問フレーズ選択方法は、あまりに具体的すぎて広く適用することができない多くのフレーズを発生することができる。本実施例において、学習は図3に示す規則的な表現に一致するフレーズに限定される。例えば、「what (is / are / were / does / do / did / should / can) \ s」のような規則的な表現によりフレーズが限定される。この規則的な表現は、ごく一般に使用されている質問に一致しており、本発明が最も有用なフレーズに資源(リソース)を集中することを可能にする。特徴選択技術、品詞タグ付け、および他の自然言語処理技術が、生成された質問フレーズのフィルタリングを微調整するために使用できる。
【0043】
質問のカテゴリーを識別するために別の方法を使用できるが、本n−グラム法は、多数の利点を有する。例えば、本n−グラム法は、計算的に比較的に低価格で実行でき、多数のトレーニングの組の処理を可能にする。また、本n−グラム法は、分野に依存せず、軽微な修正のみで多くの言語に対して機能を発揮する。さらに、本n−グラム法は、後述するような実行時間で質問を評価する場合、フレーズ・マッチングを使用する質問の分類は、問い合わせの総合的処理時間において無視できるオーバーヘッドで組み込むことが可能である。
【0044】
(1.2)変換候補の生成およびフィルタリング
学習アルゴリズムの第2段階20(図1参照)において、質問を再定式化するために有用な候補タームおよび候補フレーズを生成する。本実施例においては、次の段階(検索エンジンの有効性のために、変換候補を評価する。図1の段階(3)。)の計算に関する必要条件を削減するために、フィルタリング処理が施される。変換候補は、先の学習段階10からの各質問フレーズに対して生成される。各質問フレーズQP毎に変換候補を生成するための手順は、複数の段階、すなわち、初期の変換候補フレーズを生成することと、最小同時出現度数(minimum co-occurrence count)によりこれらのフレーズをフィルタリングすることと、および残りのフレーズに重み付けを行い更にフィルタリングすることとから成る。各段階を、以下に詳細に説明する。
【0045】
学習過程のこの段階では、上記学習データにおける<質問、回答>対のコレクションを使用する。このようなコレクションの一例を図4に示す。図4の例では、質問フレーズ「what is a」に対して、「the term」、「component」、「ans」、「a computer」、「telephone」、「collection of」、「stands for」、「unit」という複数の変換候補が設定されている。これらの変換候補は、学習データにおける回答から生成される。本学習過程の段階では、テキスト内の各単語に対して句構造品詞(たとえば、名詞、動詞)を割り当てる品詞タガー(part-of-speech tagger)でタグ付けされたコレクションに対して行う。ブリルの品詞タガーは自然言語処理コミュニティで広く使用されており、容易に利用できるので、ブリルの品詞タガーを使用することが望ましい。
【0046】
質問の接頭辞がQPに一致する学習コレクション(学習データ)中の各<質問、回答>対(通常、学習コレクション中には、1つの質問フレーズに関して複数の<質問、回答>対が存在する。)に対して、それら回答における単語のすべてから、考えられる可能性のある回答フレーズ(変換候補)を生成する。具体的には、長さが最小Aトークンから最大Aトークンまでの単語のn−グラムが使用され、回答テキストの最初の最大長(maxLen)バイトにおけるすべての単語境界で行われる。図4に示した例は、この段階の後に生成された回答フレーズ35の一例である。これらのフレーズ35は、電子回路あるいはコンピュータの分野にひどく偏っているが、これは、例示した学習コレクションのドキュメントの大部分が術語に関連するトピックスであったためである。これらのフレーズがそのまま変換に使用された場合、問い合わせの意図するトピックを変えるという問題が発生することが予想される。本発明が学習しようとする変換は、検索されたドキュメントの組の正確度を改善し、さらに本来の問い合わせのトピックを維持するものである。したがって、一般的な質問(たとえば、「What is a rainbow?」)に対して、直感的に、良い変換ではないはずの「telephone」のようなフレーズは取り除かれる。
【0047】
上記の問題は、名詞を含んでいる初期の変換候補フレーズを取り除くことにより解決される。問い合わせの大部分において、名詞は内容語、すなわち問い合わせのトピックを表す単語である。たとえば、問い合わせ「what is a rainbow」において、単語「rainbow」は名詞であり、内容語である。同様に、単語「telephone」は名詞である。したがって、最初の変換候補フレーズは、生成された回答フレーズが名詞を含むかどうかを調べることによってフィルタリングされ、名詞を含む場合にはそのフレーズは廃棄される。このフィルタリングを実現するために本発明では品詞情報を使用する。はじめに説明したように、品詞情報はコレクション全体に対して1回計算される。
【0048】
結果として生ずるn−グラムのうち、最も高い出現頻度の上位Kフレーズ(topKphrases)が保持される。タームの重み付けの情報検索技術が、これらの変換候補を順位付けるために適用される。初めのタームの重み(term weight)は、望ましくは、「少ない関連情報の関連ウエイトについて」(ロバートソンおよびウォーカー、SIGIR 97、1997)に記載されているターム重み付け方式を適用することにより、各変換候補フレーズtiに割り当てられる。
【0049】
これらのタームの重みは、OkapiBM25ドキュメント順位付け方式(document ranking formula)で使用されている(「TREC7におけるOkapi」ロバートソン他、TREC-7 Proceedings、1998)。多くの情報検索システムは、ドキュメントの間の類似性を計算するために、ベクトル空間モデルを使用する。このモデルでは、類似性は、各ドキュメントを表すベクトルの間の点の乗積として計算される。各ベクトルの要素は、ドキュメントの各ターム毎に、タームの重みおよびタームの出現頻度の組み合わせとして計算される。BM25メトリックは類似の考えを使用する。BM25の本来の定義では、ドキュメントの各タームtiは、特定の問い合わせトピックに関して、ロバートソン/スパークジョーンズのターム重みwi (1)(「検索タームの関連重み付け」、ロバートソンおよびジョーンズ、 Journal of the American Society for Information Science、27:129−146F、1976)が割り当てられ、次式として計算される。
【0050】
【数3】
Figure 0003719415
【0051】
ここで、rはtiを含む関連ドキュメントの数であり、Nはコレクションのドキュメントの数であり、Rは関連ドキュメントの数であり、nはtiを含むドキュメントの数である。この重みは、多くの関連ドキュメントとわずかな非関連ドキュメントにおいて出現する傾向があるタームに対して高くなるように設計され、学習データの関連情報の潜在的な疎(sparseness)の原因となるため平滑化され正規化される。
【0052】
BM25の本来の定義では、タームの重みwi (1)は、各問い合わせトピックに特有である。本発明は、2つの修正を組み込むことにより、変換候補を重み付けするタスクにこのメトリックを適用する。第1に、問い合わせトピックは質問型として解釈される。この解釈では、関連ドキュメントは、質問フレーズ(質問型)に対応する学習コレクションにおける回答の1つである。したがって、タームの重みwi (1)は、特有の質問型に関する変換候補triの選択性の推定値である。第2に、ターム重み付けがフレーズに拡張される。同じ整合性のある重み付け方式がフレーズに適用され、それらは単一の単語タームとして同じ方法で扱われる。この重みは、変換候補triが関連ドキュメントの数としてQPに一致する質問の回答において出現する<質問、回答>対の度数を計算し、変換候補triが非関連として回答において出現する残りの<質問、回答>対の数を考慮し、また、数式1を適用することによって、各変換候補tri毎に計算される。
【0053】
次に、ターム選択重み(term selection weight)wtriが、自動問い合わせ拡張のためにタームを選択するコンテキストにおいて、「問い合わせ拡大のためのターム選択について」(ロバートソン、Journal of Documentation、vol.46、p.359−64、1990)に記載されているように、各変換候補tri毎に、次式として計算される。
【0054】
【数4】
wtri=qtfi・wi (1) (2)
ここで、qtfiはQPとtriとの同時出現頻度であり、wi (1)はQPに関して計算されたtriの関連性にもとづくタームの重みである。このターム順位付け法は、雑音を取り除く目的で、同時出現の統計と関連重みの両方を利用している。wi (1)は高い識別力を持つタームおよびフレーズに高い重みを割り当てるが、qtfiは質問型と関連する回答においてフレーズが何度出現するかの程度である。この段階の出力の一例を図5に示す。図5において、たとえば、フレーズ「named after」51は質問フレーズ「what is a」52に対する良い識別器であるが、最終的に高く順位付けされるフレーズほど頻繁には出現しない。識別と出現頻度の間、あるいは期待精度と再現度の間のこのトレードオフは、特定の優先度に応じて変更してもよい。
【0055】
最後に、変換候補は、変換フレーズにおける単語の数にしたがってバケットに分類され、最大バケット(maxBucket)変換まで、wtriの最高値がバケットから保存される。一般に、長いフレーズは検索エンジンによって異なるように処理されることが望まれ、本段階は、変換候補の組におけるこのような長く、もしかすると高い精度の変換を含むように実行されるが、本来、高出現頻度の短い変換は他の方法で選択することができる。図6に、フレーズ63の一例を、各変換候補バケットからの最も高い選択重み65と共に示す。図6の例では、変換長(Transform Length)「3」〜「1」について、それぞれ変換候補triおよびwtriが示されている。変換長「3」には、変換候補として「is used to」、「according to the」、「to use a」があり、それぞれのターム選択重みは「32.89」、「23.49」、「21.43」である。変換長「2」には、変換候補として「is a」、「of a」、「refers to」があり、それぞれのターム選択重みは「298.89」、「94.34」、「81.3」である。変換長「1」には、変換候補として「usually」、「used」、「refers」があり、それぞれのターム選択重みは「128.23」、「110.39」、「80.1」である。
【0056】
(1.3)検索エンジンを使用する重み付けおよび再順位付け変換
学習の第3段階および最終段階において、各変換候補triの性能(performance)は、異なる情報検索システム上で評価される。図7に、単一の質問フレーズおよび検索エンジンに対して1組の変換候補を順位付けるための望ましいアルゴリズムを示す。この処理は、関心のあるすべての質問フレーズおよび検索エンジンについて繰り返される。
【0057】
アルゴリズムの段階(1)71において、学習例として使用される1組の<質問、回答>対を検索する。これは、回答の長さの増加の順位でコレクション内のすべての<質問、回答>対を分類し、QPから始まる質問を含む最初の<質問、回答>対の「numExamples」までを使用することによって行われる。本実施例は短い回答を有する質問に対してより正確な評価を得られることを仮定としているので、この分類段階が行われる。
【0058】
<質問、回答>対の各例および前段階の処理で生成された変換候補の組に対して、各変換候補triが1度に1つずつ質問に適用される(図7の72)。質問「Question = [QP C]」を考える。ここで、QPは質問フレーズであり、Cは質問における残りのタームである。候補変換triを使用すると、QPは除去され、質問は「Query = (C AND tri)」と書き換えられる。たとえば、質問フレーズ「what is a」に対して変換候補「refers to」を考えることができ、<質問、回答>対として<”what is a lisp machine (lispm)”,”A Lisp Machine (lispm) is a computer optimized for running Lisp programs, ...”>を考えることができる。この変換を質問に適用すると、書き換えられた問い合わせとして「Query = "[(lisp machine lispm) AND ("refers to")]"」が得られる。適切な問い合わせ構文が、各検索エンジンに対して使用される。さらに、変換は、それが各検索エンジンによってフレーズとして処理されるように符号化される。
【0059】
問い合わせインタフェイスの構文は、各検索エンジンに対して変化する。たとえば、AltaVistaでは、AND演算子の代わりにNEAR演算子を使用することができる。AltaVistaに提出される実際の問い合わせは、「[(lisp machine lispm) NEAR ("refers to")]」となる。Googleは、明示的なOR演算子のない状態における、暗示的なAND意味を持つ問い合わせにおいて提示されたすべてのタームを取り扱う。Googleは、ドキュメントの順位付けに問い合わせタームの近接を組み入れており、ストップワード・リストに出現するいくつかの単語を廃棄する。
【0060】
他の実施例としては、質問を書き換えるための他の可能性、たとえば、整合ページの中の問い合わせの一部を要求する、あるいは必要としないこと、および、複数の変換を単一の問い合わせに結合すること、を組み込むものもある。
【0061】
図7の段階(3)73において、書き換えられた問い合わせ「Query」は、検索エンジンSEに提出される。SEにより返された上位の結果の多くても10が検索される。返されたドキュメントDのそれぞれは、段階(4a)74a、(4b)74b、および(4c)74cで解析される。段階(4a)74aでは、Dのサブドキュメントが生成される。段階(4b)74bでは、回答に最も類似しているDの中のサブドキュメントが見出される。段階(4c)74cでは、変換候補triのスコアと度数が、回答に関するDの類似性にもとづいて更新される。以下に段階(4a)〜(4c)における処理をさらに詳細に説明する。
【0062】
段階(4a)74aにおいて、サブドキュメントが、より正確な類似性の度合を計算するためにドキュメントから生成される。本来の回答Aと、変換された問い合わせを使用して検索されたドキュメントの1つであるドキュメントDを考える。回答が局所化される、すなわち、キー情報/フレーズの組は互いにごく接近して出現する(ただし、長さが「subDocLen」のサブドキュメントの範囲内)と仮定する。回答がサブドキュメントの1つの中に完全に存在しない可能性を最小にするために、サブドキュメントは、「subDocLen/2」ワードだけオーバーラップする。換言すれば、与えられた問い合わせQ、ドキュメントD、および「subDocLen = N」が与えられた場合、Dは、それぞれ連続した位置0、N/2、N、3N/2、...n/2、n、3N/2から始まるオーバーラップしているサブドキュメントD1、D2、D3、D4、...に分割される。
【0063】
段階(4b)において、ドキュメントDのスコアは回答について計算される。「docScore(Answer, D)」は、Dの中のサブドキュメントDiのそれぞれの類似性の最高値として定義される。より正式には、「docScore(Answer, D) = Max(BM25phrase (Answer, Di))」である。ここで、BM25phraseは、数式1のように計算されたフレーズ重みを組み込むために修正されたBM25メトリックの拡張である。
【0064】
本来のBM25メトリックは、前述のように関連重みwi (1)およびトピック頻度を使用し、次式により定義される。
【0065】
【数5】
Figure 0003719415
【0066】
ここで、k1=1.2、k3=1000、K=k1((1−b)+b・dl/avdl)、b=0.5であり、dlはトークン内のドキュメント長であり、avdlはトークン内の平均ドキュメント長であり、また、wi (1)およびqtfiは前述のように関連重みおよび問い合わせトピック頻度である。TREC評価(k2=0)で使用されていたメトリックの単純化されたバージョンが、この例では使用された。
【0067】
BM25phraseメトリックにおいて、加算(数式3)における「ターム」はフレーズを含み、前述の説明のように学習データ全体に対して学習された重みを有する。タームあるいはフレーズtの重みは、次式のように計算される。
【0068】
【数6】
Figure 0003719415
【0069】
偶然に出くわしたタームが学習コレクションに存在しないかもしれないので、この多段階の割り当て処理が使用される。非常に多くのサンプル(TREC Web Track 「ウェブ検索評価の結果と難問」(ホーキング他、第8回国際ワールド・ワイド・ウェブ会議(WWW8)、1999)で使用されたページのコレクションから得られた百万ウェブ・ページ)から導出されたIDF(Inverse Document Frequency(逆ドキュメント頻度)の略。これは、希なタームに対して高く、ありふれたタームに対して低い。)重みが使用された。最後のフォールバック問題は、学習データに存在しないフレーズを処理するためのものである。直感的に、フォールバックの場合は、複数の単語フレーズ(multi-word phrases)の重み出現(weight occurrence)を高くなるように調整した、t内のすべてのタームが同時に出現する確率に逆比例するフレーズtの重みを割り当てる。
【0070】
変換候補を順位付けする総合的な目標は、多くの関連ドキュメント(本来の回答に類似する)とわずかな非関連ドキュメントを返す傾向がある変換に高い重みを付けることである。段階(5)75において、変換triの重みWTiは、本来の学習回答と変換された問い合わせに応じて返されたドキュメントの間の平均類似性として計算される。
【0071】
【数7】
Figure 0003719415
【0072】
ここで、合計は、サンプルの組の中のすべての<質問、回答>対にわたって計算される。
【0073】
学習のこの最終段階の結果は、QPに一致する質問に対する検索エンジンSEからの回答を検索する有効性に関して自動的に順位付けされた1組の変換である。「QP = "what is a"」に関して高く順位付けされた変換の2つのサンプルで、AltaVista検索エンジン82について最適化された第1の実例と、Google検索エンジン83について最適された第2の実例を図8に示す。
【0074】
(2)実行時間問い合わせの再定式化
ひとたび最良の変換の組が質問フレーズ毎に自動的に学習されると、それらは変換規則として蓄積される。次に、本発明は、その変換を適用することにより、実行時間で問い合わせを評価する。これに関する望ましい処理を図9に示す。
【0075】
段階(la)91aにおいて、長い(より明確な)フレーズを優先し、既知の質問フレーズとマッチングすることにより質問を再定式化できるかを決定する。例えば、「what is the」は、「what is」より優先される。段階(1b)91bにおいて、対応する変換の組が検索される。上位の「numTransforms」変換のみが、使用される。
【0076】
段階(2)92において、各変換が元の質問を書き換えるために使用され、1度に1変換ずつ、新しい問い合わせが生じる。
【0077】
段階(3)93において、変換された問い合わせは検索エンジンに提出され、最初の結果のページが検索される。
【0078】
段階(4a)94a、(4b)94b、および(4c)94cにおいて、返されたドキュメントが解析され、変換された問い合わせに関するドキュメントの類似性にもとづいてスコアが付けられる。ドキュメントにスコアを付ける過程は、セクション(1.3)で説明したものと同じである。段階(4c)94cにおいて、もしドキュメントが多くの変換の適用により検索された場合は、ドキュメントの最終スコアは、個々のドキュメントのスコアのそれぞれの最大値である。
【0079】
段階(5)95において、返されたドキュメントは、それらの最終ドキュメントスコアに関して順位付けられ、段階(6)96において、上位に順位付けられた「topKdocs」ドキュメントが最終結果として返される。
【0080】
他の実施形態として、ドキュメントから最良の1節を抽出するために既存の方法を利用すること、複数の変換が単一の問い合わせに結合できること、与えられた質問型に対して最も良く能力を発揮する検索エンジンに質問を送ることができること、複数の検索エンジンが同時に使用できること、質問からの内容語を含むフレーズ変換が学習できることなどを適用してもよい。
【0081】
変換過程は、動的にすることも可能である。たとえば、高い精度を期待できる変換を最初に提出することができる。受け取った応答にもとづいて、システムが、精度の低い変換を試みる、あるいは元の問い合わせにフォールバックすることが可能である。
【0082】
(情報検索システム)
次に、以上説明した本発明の情報検索方法が適用される情報検索システムの構成について説明する。
【0083】
図10は、本発明の一実施形態である情報検索システムの概略構成を示すブロック図である。この情報検索システムは、複数の検索エンジンを介した情報検索が可能なコンピュータシステムであって、その構成は大きく分けて、質問変換学習部100と、再定式化部200とからなる。
【0084】
質問変換学習部100は、上述の「(1)質問を有効な問い合わせに変換する学習」で説明した各処理を行う部分であって、その構成は、質問フレーズ生成部111、変換候補生成部112、変換候補評価部113からなる。質問フレーズ生成部111が、上述の「(1.1)質問フレーズの選択」で説明した各処理を実行し、変換候補生成部112が上述の「(1.2)変換候補の生成およびフィルタリング」で説明した各処理を実行し、変換候補評価部113が上述の「(1.3)検索エンジンを使用する重み付けおよび再順位付け変換」で説明した各処理を実行する。
【0085】
再定式化部200は、上述の「(2)実行時間問い合わせの再定式化」で説明した各処理を実行する部分である。再定式化部200は、具体的には、所定の変換規則に従って、分類された質問型を識別する質問フレーズに対応する変換候補の組を取得し、該変換候補の組を用いて質問を問い合わせに書き換える部分であって、書き換えられた問い合わせを複数の検索エンジンに提出する処理部と、その問い合わせに応じて複数の検索エンジンが返したドキュメントをそれぞれ分析し、その問い合わせに関するドキュメントの類似性に基づいて各ドキュメントにスコアを付ける処理部と、それらドキュメントのそれぞれを、そのスコアに基づいて順位付けする処理部と、利用者が提示した質問に対する回答として、その順位付けがなされたドキュメントのうちの上位のドキュメントを提供する処理部とを含む。
【0086】
(プログラム)
上記の情報検索システムにおける各構成部における処理動作は、不図示の記憶装置(半導体記憶装置、CD−ROMやDVDなどの記録媒体を含む)に予め記憶されたプログラムをコンピュータが読み出して実行することによって行われる。記憶装置には、上述の「(1.1)質問フレーズの選択」、「(1.2)変換候補の生成およびフィルタリング」、「(1.3)検索エンジンを使用する重み付けおよび再順位付け変換」および「(2)実行時間問い合わせの再定式化」でそれぞれ説明した各処理に関するプログラムが記憶されている。
【0087】
以上説明したように、本発明の情報検索方法およびシステムは、質問に対する回答を情報検索システムから検索する能力を改善する問い合わせ変換を学習する方法を包含する。また、本方法およびシステムは、質問を異なる質問型に分類することと、質問/回答対の学習組から問い合わせ変換候補を生成することと、および目標情報検索エンジン上の変換候補を評価することを含んでいる。自然言語質問を処理するこの技術は、広範囲の情報検索システムに適用することができる。
【0088】
上記の説明の一部は特定の商業的に利用できる検索エンジンに言及しているが、本発明は、これに限定されるものではなく、他の検索エンジンおよびこれに類似の検索システム(蓄積情報を検索するシステムなど)にも同様に適用することができる。したがって、本方法およびシステムは、多くの実用的なアプリケーションを有することは、容易に理解される。
【0089】
【発明の効果】
以上説明したように、本発明によれば、複数の問い合わせ変換を自動的に学習することで、例えば、質問「What is a hard disk?」を{「hard disk」NEAR「used to」}というような最適な問い合わせに変換することができるので、利用者に対して、常に、最良の回答を含む情報(ドキュメント)を提供することができる。
【0090】
また、本発明によれば、変換された問い合わせは、目標とする検索エンジンに対して最適化されるので、目標とする検索エンジンからは、最良の回答を含む情報(ドキュメント)が返される。したがって、利用者に対して、最良の回答を含む情報(ドキュメント)を安定して提供することができる。
【0091】
さらに、本発明によれば、各検索エンジンが返す情報(ドキュメント)を、最良の回答が上位に順位付けされた形で利用者に提供される。したがって、利用者は、最良の回答を含む情報(ドキュメント)を容易に見出すことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の情報検索方法の手順の概要を示す説明図である。
【図2】評価のために使用される質問型フレーズを示す図である。
【図3】フィルタリングのために使用される正規表現の例を示す図である。
【図4】質問/回答対の例を示す図である。
【図5】質問フレーズに対応する各変換候補とそれら変換候補の頻度度数、ターム重み、およびターム選択重みの一例を示す図である。
【図6】バケットに分類された変換候補の一例を示す図である。
【図7】1組の変換候補を順位付けるアルゴリズムの一例を示す図である。
【図8】質問フレーズ「what is a」についての変換を、AltaVistaおよびGoogleに対して自動的に最適化した一例を示す図である。
【図9】実行時間で質問を評価するためのアルゴリズムの一例を示す図である。
【図10】本発明の一実施形態の情報検索システムの概略構成を示すブロック図である。
【符号の説明】
1 学習過程
10、20 段階
35 回答フレーズ
51、63 フレーズ
52 質問フレーズ
65 選択重み
82、83 検索エンジン
91a、91b、92、93、94a〜94c、95、96 段階
100 質問変換学習部
111 質問フレーズ生成部
112 変換候補生成部
113 変換候補評価部
200 再定式化部

Claims (9)

  1. 利用者が提示した質問を有効な問い合わせに変換して外部検索エンジンに供給し、該外部検索エンジンが、予め蓄積された情報から前記有効な問い合わせに該当する情報を検索する情報検索方法において、
    前記質問と前記外部検索エンジンが前記予め蓄積された情報から検索した前記質問に対する回答との対からなる予め作成した学習データに基づいて、前記質問を有効な問い合わせに変換するための、コンピュータが行う学習過程として、
    前記学習データ中の質問群について、質問中に出現するフレーズの出現頻度を調べ、該出現頻度に基づいて質問フレーズを生成し、
    前記質問フレーズ毎に、前記学習データ中の該質問フレーズに対応する質問の回答中に出現する品詞情報が付与された単語に基づいて複数の変換候補を生成し、
    前記変換候補のそれぞれについて、当該変換候補の前記学習データ中の回答における出現頻度に応じた重みを付け、
    前記変換候補のそれぞれを、前記重みに基づいて順位付けする過程を含む情報検索方法。
  2. 前記学習過程は、前記重み付けに先だって、前記変換候補のうち、単語が名詞である変換候補を削除する過程をさらに含む、請求項1に記載の情報検索方法。
  3. 前記学習過程は、
    前記学習データ中に含まれる質問および回答の対について、該質問を構成する文字列のうちの前記質問フレーズを除く単語と、前記複数の変換候補のそれぞれとの組み合せからなる複数の検索条件を作成し、
    前記検索条件のそれぞれについて、前記外部検索エンジンから検索結果として複数のドキュメントを取得し、
    前記ドキュメントのそれぞれについて、当該ドキュメントを複数のサブドキュメントに分割し、
    前記サブドキュメントのそれぞれと前記質問および回答の対における回答との類似性に基づいて前記変換候補の順位付けを更新する過程をさらに含む、請求項1または2に記載の情報検索方法。
  4. 利用者が提示した質問を有効な問い合わせに変換して外部検索エンジンに供給し、該外部検索エンジンが、予め蓄積された情報から前記有効な問い合わせに該当する情報を検索する情報検索システムにおいて、
    前記質問と前記外部検索エンジンが前記予め蓄積された情報から検索した前記質問に対する回答との対からなる予め作成した学習データ中の質問群について、質問中に出現するフレーズの出現頻度を調べ、該出現頻度に基づいて質問フレーズを生成する質問フレーズ生成手段と、
    前記質問フレーズ生成手段が生成した質問フレーズ毎に、前記学習データ中の該質問フレーズに対応する質問の回答中に出現する品詞情報が付与された単語に基づいて複数の変換候補を生成するとともに、該変換候補のそれぞれについて、当該変換候補の前記学習データ中の回答における出現頻度に応じた重みを付け、前記変換候補のそれぞれを、前記重みに基づいて順位付けする変換候補生成手段とを有する情報検索システム。
  5. 前記変換候補生成手段は、前記重み付けに先だって、前記変換候補のうち、単語が名詞である変換候補を削除する、請求項4に記載の情報検索システム。
  6. 前記学習データ中に含まれる質問および回答の対について、該質問を構成する文字列のうちの前記質問フレーズを除く単語と、前記複数の変換候補のそれぞれとの組み合せからなる複数の検索条件を作成する変換評価手段をさらに有し、
    前記変換評価手段が、前記検索条件のそれぞれについて、前記外部検索エンジンから検索結果として複数のドキュメントを取得するとともに、該ドキュメントのそれぞれについて、当該ドキュメントを複数のサブドキュメントに分割し、該サブドキュメントのそれぞれと前記質問および回答の対における回答との類似性に基づいて前記変換候補の順位付けを更新する、請求項4または5に記載の情報検索システム。
  7. 利用者が提示した質問を有効な問い合わせに変換して外部検索エンジンに供給し、該外部検索エンジンが、予め蓄積された情報から前記有効な問い合わせに該当する情報を検索する情報検索システムにおいて用いられるプログラムであって、
    前記質問と前記外部検索エンジンが前記予め蓄積された情報から検索した前記質問に対する回答との対からなる予め作成した学習データに基づいて、前記質問を有効な問い合わせに変換するための、コンピュータが行う学習過程として、
    前記学習データ中の質問群について、質問中に出現するフレーズの出現頻度を調べ、該出現頻度に基づいて質問フレーズを生成し、
    前記質問フレーズ毎に、前記学習データ中の該質問フレーズに対応する質問の回答中に出現する品詞情報が付与された単語に基づいて複数の変換候補を生成し、
    前記変換候補のそれぞれについて、当該変換候補の前記学習データ中の回答における出現頻度に応じた重みを付け、
    前記変換候補のそれぞれを、前記重みに基づいて順位付けする学習処理をコンピュータに実行させるプログラム。
  8. 前記学習処理は、前記重み付けに先だって、前記変換候補のうち、単語が名詞である変換候補を削除する処理をさらに含む、請求項7に記載のプログラム。
  9. 前記学習処理は、
    前記学習データ中に含まれる質問および回答の対について、該質問を構成する文字列のうちの前記質問フレーズを除く単語と、前記複数の変換候補のそれぞれとの組み合せからなる複数の検索条件を作成し、
    前記検索条件のそれぞれについて、前記外部検索エンジンから検索結果として複数のドキュメントを取得し、
    前記ドキュメントのそれぞれについて、当該ドキュメントを複数のサブドキュメントに分割し、
    前記サブドキュメントのそれぞれと前記質問および回答の対における回答との類似性に基づいて前記変換候補の順位付けを更新する処理をさらに含む、請求項7または8に記載のプログラム。
JP2002007403A 2001-03-30 2002-01-16 情報検索方法、情報検索システム、およびプログラム Expired - Fee Related JP3719415B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/823052 2001-03-30
US09/823,052 US7269545B2 (en) 2001-03-30 2001-03-30 Method for retrieving answers from an information retrieval system

Publications (2)

Publication Number Publication Date
JP2002297651A JP2002297651A (ja) 2002-10-11
JP3719415B2 true JP3719415B2 (ja) 2005-11-24

Family

ID=25237668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002007403A Expired - Fee Related JP3719415B2 (ja) 2001-03-30 2002-01-16 情報検索方法、情報検索システム、およびプログラム

Country Status (2)

Country Link
US (1) US7269545B2 (ja)
JP (1) JP3719415B2 (ja)

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP2004118740A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
JP3882048B2 (ja) * 2003-10-17 2007-02-14 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7536382B2 (en) 2004-03-31 2009-05-19 Google Inc. Query rewriting with entity detection
US7996419B2 (en) 2004-03-31 2011-08-09 Google Inc. Query rewriting with entity detection
US7840547B1 (en) 2004-03-31 2010-11-23 Google Inc. Methods and systems for efficient query rewriting
US20060047637A1 (en) * 2004-09-02 2006-03-02 Microsoft Corporation System and method for managing information by answering a predetermined number of predefined questions
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4650072B2 (ja) * 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7529736B2 (en) * 2005-05-06 2009-05-05 Microsoft Corporation Performant relevance improvements in search query results
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
US7707204B2 (en) * 2005-12-13 2010-04-27 Microsoft Corporation Factoid-based searching
US8612229B2 (en) 2005-12-15 2013-12-17 Nuance Communications, Inc. Method and system for conveying an example in a natural language understanding application
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
WO2007099812A1 (ja) * 2006-03-01 2007-09-07 Nec Corporation 質問回答装置、質問回答方法および質問回答用プログラム
EP2024863B1 (en) 2006-05-07 2018-01-10 Varcode Ltd. A system and method for improved quality management in a product logistic chain
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US20080133365A1 (en) * 2006-11-21 2008-06-05 Benjamin Sprecher Targeted Marketing System
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
JP2010526386A (ja) 2007-05-06 2010-07-29 バーコード リミティド バーコード標識を利用する品質管理のシステムと方法
US8005842B1 (en) 2007-05-18 2011-08-23 Google Inc. Inferring attributes from search queries
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8024327B2 (en) * 2007-06-26 2011-09-20 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US9063975B2 (en) * 2013-03-15 2015-06-23 International Business Machines Corporation Results of question and answer systems
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
KR100930455B1 (ko) * 2007-09-06 2009-12-08 엔에이치엔(주) 쿼리별 검색 컬렉션 생성 방법 및 시스템
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
WO2009063465A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
JP5203979B2 (ja) * 2008-02-06 2013-06-05 株式会社東芝 自動分析装置
US10482114B2 (en) * 2008-03-27 2019-11-19 Oath Inc. System and method for maintenance of questions and answers through collaborative and community editing
US8219385B2 (en) * 2008-04-08 2012-07-10 Incentive Targeting, Inc. Computer-implemented method and system for conducting a search of electronically stored information
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US8112269B2 (en) * 2008-08-25 2012-02-07 Microsoft Corporation Determining utility of a question
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US8019753B2 (en) * 2008-09-11 2011-09-13 Intuit Inc. Method and system for generating a dynamic help document
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
US8631007B1 (en) * 2008-12-09 2014-01-14 Google Inc. Disambiguating keywords and other query terms used to select sponsored content
US8805877B2 (en) * 2009-02-11 2014-08-12 International Business Machines Corporation User-guided regular expression learning
US8983969B2 (en) * 2009-07-16 2015-03-17 International Business Machines Corporation Dynamically compiling a list of solution documents for information technology queries
US20110106895A1 (en) * 2009-10-30 2011-05-05 Google Inc. Social search engine
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US11122009B2 (en) 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US8311792B1 (en) * 2009-12-23 2012-11-13 Intuit Inc. System and method for ranking a posting
CA2787390A1 (en) 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
US9098808B1 (en) 2010-04-22 2015-08-04 Google Inc. Social search engine
US8429098B1 (en) 2010-04-30 2013-04-23 Global Eprocure Classification confidence estimating tool
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
EP2622428A4 (en) * 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US20130086024A1 (en) * 2011-09-29 2013-04-04 Microsoft Corporation Query Reformulation Using Post-Execution Results Analysis
CN105956137B (zh) * 2011-11-15 2019-10-01 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US20140067816A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Surfacing entity attributes with search results
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
US9280908B2 (en) 2013-03-15 2016-03-08 International Business Machines Corporation Results of question and answer systems
US9342796B1 (en) * 2013-09-16 2016-05-17 Amazon Technologies, Inc. Learning-based data decontextualization
US10002177B1 (en) 2013-09-16 2018-06-19 Amazon Technologies, Inc. Crowdsourced analysis of decontextualized data
US9984127B2 (en) 2014-01-09 2018-05-29 International Business Machines Corporation Using typestyles to prioritize and rank search results
US9378273B2 (en) 2014-03-13 2016-06-28 International Business Machines Corporation System and method for question answering by reformulating word problems
JP5963328B2 (ja) 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
US9846738B2 (en) 2014-12-05 2017-12-19 International Business Machines Corporation Dynamic filter optimization in deep question answering systems
US20170154107A1 (en) * 2014-12-11 2017-06-01 Hewlett Packard Enterprise Development Lp Determining term scores based on a modified inverse domain frequency
US10475043B2 (en) 2015-01-28 2019-11-12 Intuit Inc. Method and system for pro-active detection and correction of low quality questions in a question and answer based customer support system
US10366107B2 (en) 2015-02-06 2019-07-30 International Business Machines Corporation Categorizing questions in a question answering system
US10795921B2 (en) * 2015-03-27 2020-10-06 International Business Machines Corporation Determining answers to questions using a hierarchy of question and answer pairs
US10083213B1 (en) * 2015-04-27 2018-09-25 Intuit Inc. Method and system for routing a question based on analysis of the question content and predicted user satisfaction with answer content before the answer content is generated
US10755294B1 (en) 2015-04-28 2020-08-25 Intuit Inc. Method and system for increasing use of mobile devices to provide answer content in a question and answer based customer support system
US10134050B1 (en) 2015-04-29 2018-11-20 Intuit Inc. Method and system for facilitating the production of answer content from a mobile device for a question and answer based customer support system
WO2016185474A1 (en) 2015-05-18 2016-11-24 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10447777B1 (en) 2015-06-30 2019-10-15 Intuit Inc. Method and system for providing a dynamically updated expertise and context based peer-to-peer customer support system within a software application
WO2017006326A1 (en) 2015-07-07 2017-01-12 Varcode Ltd. Electronic quality indicator
US10147037B1 (en) 2015-07-28 2018-12-04 Intuit Inc. Method and system for determining a level of popularity of submission content, prior to publicizing the submission content with a question and answer support system
US10475044B1 (en) 2015-07-29 2019-11-12 Intuit Inc. Method and system for question prioritization based on analysis of the question content and predicted asker engagement before answer content is generated
US10268956B2 (en) 2015-07-31 2019-04-23 Intuit Inc. Method and system for applying probabilistic topic models to content in a tax environment to improve user satisfaction with a question and answer customer support system
JP6544131B2 (ja) * 2015-08-14 2019-07-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10394804B1 (en) 2015-10-08 2019-08-27 Intuit Inc. Method and system for increasing internet traffic to a question and answer customer support system
US10242093B2 (en) 2015-10-29 2019-03-26 Intuit Inc. Method and system for performing a probabilistic topic analysis of search queries for a customer support system
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
JP6649582B2 (ja) * 2016-02-23 2020-02-19 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
US10599699B1 (en) 2016-04-08 2020-03-24 Intuit, Inc. Processing unstructured voice of customer feedback for improving content rankings in customer support systems
US11200510B2 (en) 2016-07-12 2021-12-14 International Business Machines Corporation Text classifier training
US9940323B2 (en) * 2016-07-12 2018-04-10 International Business Machines Corporation Text classifier operation
US10162734B1 (en) 2016-07-20 2018-12-25 Intuit Inc. Method and system for crowdsourcing software quality testing and error detection in a tax return preparation system
US10460398B1 (en) 2016-07-27 2019-10-29 Intuit Inc. Method and system for crowdsourcing the detection of usability issues in a tax return preparation system
US10467541B2 (en) 2016-07-27 2019-11-05 Intuit Inc. Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model
US10445332B2 (en) 2016-09-28 2019-10-15 Intuit Inc. Method and system for providing domain-specific incremental search results with a customer self-service system for a financial management system
US10572954B2 (en) 2016-10-14 2020-02-25 Intuit Inc. Method and system for searching for and navigating to user content and other user experience pages in a financial management system with a customer self-service system for the financial management system
US10733677B2 (en) 2016-10-18 2020-08-04 Intuit Inc. Method and system for providing domain-specific and dynamic type ahead suggestions for search query terms with a customer self-service system for a tax return preparation system
US10552843B1 (en) 2016-12-05 2020-02-04 Intuit Inc. Method and system for improving search results by recency boosting customer support content for a customer self-help system associated with one or more financial management systems
US10748157B1 (en) 2017-01-12 2020-08-18 Intuit Inc. Method and system for determining levels of search sophistication for users of a customer self-help system to personalize a content search user experience provided to the users and to increase a likelihood of user satisfaction with the search experience
US20180203856A1 (en) * 2017-01-17 2018-07-19 International Business Machines Corporation Enhancing performance of structured lookups using set operations
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
US10922367B2 (en) 2017-07-14 2021-02-16 Intuit Inc. Method and system for providing real time search preview personalization in data management systems
CN110020096B (zh) * 2017-07-24 2021-09-07 北京国双科技有限公司 基于查询的分类器训练方法和装置
US10387572B2 (en) * 2017-09-15 2019-08-20 International Business Machines Corporation Training data update
US11093951B1 (en) 2017-09-25 2021-08-17 Intuit Inc. System and method for responding to search queries using customer self-help systems associated with a plurality of data management systems
US11436642B1 (en) 2018-01-29 2022-09-06 Intuit Inc. Method and system for generating real-time personalized advertisements in data management self-help systems
US10839454B2 (en) 2018-03-13 2020-11-17 Bank Of America Corporation System and platform for execution of consolidated resource-based action
US11269665B1 (en) 2018-03-28 2022-03-08 Intuit Inc. Method and system for user experience personalization in data management systems using machine learning
JP7169125B2 (ja) * 2018-08-29 2022-11-10 株式会社日立製作所 質問回答システム、質問回答処理方法、及び質問回答統合システム
CN109858028B (zh) * 2019-01-30 2022-11-18 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109977292B (zh) * 2019-03-21 2022-12-27 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质
US11531818B2 (en) * 2019-11-15 2022-12-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
US20240273309A1 (en) * 2023-02-15 2024-08-15 Casetext, Inc. Text generation interface system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
JPH0793364A (ja) * 1993-09-24 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 文形式変換装置
JPH0944523A (ja) * 1995-07-27 1997-02-14 Fuji Xerox Co Ltd 関連語提示装置
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
US6028601A (en) * 1997-04-01 2000-02-22 Apple Computer, Inc. FAQ link creation between user's questions and answers
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6070133A (en) * 1997-07-21 2000-05-30 Battelle Memorial Institute Information retrieval system utilizing wavelet transform
US6999959B1 (en) * 1997-10-10 2006-02-14 Nec Laboratories America, Inc. Meta search engine
JP3495912B2 (ja) * 1998-05-25 2004-02-09 シャープ株式会社 学習機能付き検索装置
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6374241B1 (en) * 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7831688B2 (en) * 2000-06-06 2010-11-09 Adobe Systems Incorporated Method and system for providing electronic user assistance
US20020026435A1 (en) * 2000-08-26 2002-02-28 Wyss Felix Immanuel Knowledge-base system and method
US6678679B1 (en) * 2000-10-10 2004-01-13 Science Applications International Corporation Method and system for facilitating the refinement of data queries

Also Published As

Publication number Publication date
US7269545B2 (en) 2007-09-11
US20020169595A1 (en) 2002-11-14
JP2002297651A (ja) 2002-10-11

Similar Documents

Publication Publication Date Title
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
Agichtein et al. Learning search engine specific query transformations for question answering
US7676452B2 (en) Method and apparatus for search optimization based on generation of context focused queries
JP5243167B2 (ja) 情報検索システム
KR100666064B1 (ko) 인터랙티브 검색 쿼리 개선 시스템 및 방법
US12007939B1 (en) Method and apparatus for determining search result demographics
US6282538B1 (en) Method and apparatus for generating query responses in a computer-based document retrieval system
JP3726742B2 (ja) 文書の一般テキストサマリを作成する方法およびシステム
US5642502A (en) Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
Turney Extraction of keyphrases from text: evaluation of four algorithms
US20040117352A1 (en) System for answering natural language questions
Agichtein et al. Learning to find answers to questions on the web
US7099870B2 (en) Personalized web page
WO2006108069A2 (en) Searching through content which is accessible through web-based forms
JP2004534324A (ja) 索引付きの拡張可能な対話的文書検索システム
JP2001511564A (ja) 全体の精度を高めるためにサーチ結果の自然言語処理を用いる情報検索システムのための装置および方法
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2011118689A (ja) 検索方法及びシステム
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003150624A (ja) 情報抽出装置および情報抽出方法
Husain Critical concepts and techniques for information retrieval system
JP2004078446A (ja) キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
Zheng et al. An improved focused crawler based on text keyword extraction

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050830

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130916

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees