JP2007515721A - ドキュメント拡張方法 - Google Patents

ドキュメント拡張方法 Download PDF

Info

Publication number
JP2007515721A
JP2007515721A JP2006544437A JP2006544437A JP2007515721A JP 2007515721 A JP2007515721 A JP 2007515721A JP 2006544437 A JP2006544437 A JP 2006544437A JP 2006544437 A JP2006544437 A JP 2006544437A JP 2007515721 A JP2007515721 A JP 2007515721A
Authority
JP
Japan
Prior art keywords
query
document
index
user
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006544437A
Other languages
English (en)
Inventor
アミタイ、エイナット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007515721A publication Critical patent/JP2007515721A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 検索効率を改善するために、索引拡張の機能をもった検索システムを構築すること。
【解決手段】 検索システムは、ドキュメントの索引内容を検索する検索エンジンと、少なくとも幾つかのユーザ・クエリを用いて索引を拡張するための索引拡張機能部とを含む。索引は、索引付けされるべきドキュメント中と、前記ドキュメントを見出すために用いられたユーザ・クエリ中とに見出される用語の一覧表、及び、少なくとも、それら用語がドキュメント中及びユーザ・クエリ中にどれほど頻繁に出現するかを含んだ一覧表を含むことができる。
【選択図】図2

Description

本発明は、一般に、検索エンジン及び索引方法に関する。
検索エンジンは既知である。それらは、あらゆるデータベース及びあらゆる索引の一部である。典型的には、データベースは、一つのビジネスからの情報を、定型の記録として保管する。索引は、多くの場所で見出されるデータを項目別に並べたものである。例えば、Google.com及びAltavistaは、ウェッブの索引を作成するために、ワールドワイドウェッブのページを定期的に索引付けしている。
Google.comは、ページ上の言語、及び、そのページを指すハイパーリンク(他者によって構成された)上の言語の両方で見るように、それらの検索エンジンを拡張した。ハイパーリンク上に現れるテキスト(通常は青色で強調される)は、“アンカーテキスト”として知られており、索引中のページと共に保管される。
ここで参照する図1は、簡略化した索引の小部分を示す。索引付けされたドキュメント又はページ中に見出される各用語は、最初の列2にリストされる。各用語に付随するのは、その用語の出現総数(列4)及びドキュメント中の出現箇所(タイトル中(列6)、アンカーテキスト中(列8)又はテキスト中(列10))。列4,6,8又は10の各セル中に、ドキュメント番号及び出現数がリストされる。例えば、以下は、用語Aの出現総数としてリストされる。
(doc#1,5000),(doc#4,6),(doc#67,90),(doc#1220,9)...
従って、用語Aは、ドキュメント1中には5000回、ドキュメント4中には6回、ドキュメント67中には90回、及びドキュメント1220中には9回、見出されることになる。ドキュメント1内の5000回のすべてはアンカーテキスト中(列8)に出現し、一方、ドキュメント4の6回は2箇所に、すなわち、テキスト中に4回及びタイトル中に2回、見出される。
幾つかの索引は、各用語がドキュメント中のどこに出現するかをリストしている。従って、項目は(doc#、ドキュメント番号内の文字)の形式でリストされる。これは元のドキュメントの構造を維持し、索引中に追加の列を形成する。索引はまた、用語がテキスト中にどのように現れたか(例えば、太字、強調形、テキストの色、テキストの大きさ、など)に関する入念な参照を含むことができる。そのような参照の各々は、索引中にそれ自体のカウントをもつことができる。
多くの人々が気付いているように、物事を“ウェッブ”上に見出すことは容易であり得るが、しかし、これは、ユーザが検索するために用いる正しい用語を知っているときにだけである。正しい用語は、ウェッブページの設計者によって用いられたものである。このことは、特異的でない事項の発見を難しくする。例えば、あるユーザが5歳の少年のための音楽玩具を買うためにAmazon.comに行ったが、希望の商品を見出すまでには多くの検索を要した。単に“5歳の少年のための音楽玩具”とタイプすると、若年の少年のための及び彼らに関する、さまざまな物の一覧表が示されたが、適切な玩具は示されなかった。一覧表に含まれるのは、しかし、“私たちの楽器店を訪問してください”である。選択すると、子供用音楽玩具の集団が示された。それらのいずれも不満足であったので、選択“他の楽器”を押した。この選択は、希望の商品である“行進する楽団のキット”を含んでいたのでより有用であった。
もう一つの例においては、あるユーザが“IR”(information retrieval、情報検索)の本を探していた。彼は、Google上で“IR book”を検索した。これは、本の一覧表を出したが、それらのいずれもフルネームがModern Information Retrieval(最新の情報検索)である最新の本ではなかった。“modern information retrieval”というタイピングによってだけ最新のIR本が検索できた。
本発明の第1の態様は、ドキュメントの索引内容を検索するための検索エンジンと、少なくとも幾つかのユーザ・クエリを用いて索引を拡張するための索引拡張機能部と、を有する検索システムを提供する。索引は、索引付けされるべきドキュメント中と、少なくとも、該ドキュメントを見出すために用いられたユーザ・クエリ中とに見出される用語の一覧表、及び、少なくともそれらの用語がどのくらいの頻度で前記ドキュメント及びユーザ・クエリ中に出現するかの一覧表を含むことができる。
本発明の第2の態様は、少なくとも幾つかのユーザ・クエリを用いてドキュメントの索引を拡張する方法を提供する。この方法は、データ処理装置による実行のためのプログラム・コード命令を有するコンピュータ・プログラムによって実施することができる。
本発明の第3の態様は、索引付けされるべきドキュメント中と、少なくとも、該ドキュメントを見出すために用いられたユーザ・クエリ中とに見出される用語の一覧表、及び、それらの用語がどのくらいの頻度で前記ドキュメント及びユーザ・クエリ中に出現するかの一覧表を含む索引を提供する。
本発明の第4の態様は、ユーザ・クエリ中に見出される用語の一覧表と、該用語が検索するために用いられたドキュメントの一覧表と、を含むクエリ索引を提供する。
本発明のさらなる態様は、ユーザ・クエリを送出する検索クライアントと、ドキュメントの索引内容を検索するための検索エンジンと、を有する検索システムであって、該索引が、少なくとも元のテキストと、該元のテキストに関する何かを記述する少なくとも一つのクエリとを指示するシステムを提供する。
本発明の主題は、特に本明細書の結論部分において詳しく示され、明確に権利主張される。本発明は、しかし、組織化と動作方法に関しては、目的、特徴、及びそれの利点と共に、以下の例示的な実施形態の詳細な説明と添付の図面を参照することによって、最もよく理解されるであろう。
説明を簡潔かつ明瞭にするために、図中に示された要素は、必ずしも一定の尺度では描かれていない。例えば、幾つかの要素の大きさは、明瞭さのために他の要素に比べて誇張されていることがある。さらに、適当と考えられるところでは、相当する又は類似の要素を示すために、参照数字が図の間で繰り返されることになる。
以下の詳細な説明において、本発明の完全な理解を与えるために、多くの特定の細部が記述される。しかし、本発明はこれらの特定の細部なしに実践し得ることを、当業者は理解するであろう。その他の例としては、本発明を不明瞭にしないために、周知の方法、手順及び部品は、詳細には説明されていない。
出願人は、どのようにユーザが彼らの検索している項目を調べるかに関するユーザのクエリ中に、かなりな量の情報があることを認識した。本発明の好ましい実施形態に従って、クエリの語を索引中の情報に連結することができ、それにより項目を説明し得る道筋が増加する。
背景技術における例に関して、“行進するバンドの玩具”のページは、索引中で関連付けられた“5歳の少年のための音楽玩具”なる語を有し、そして、Modern Information Retrievalという本はそれと関連付けられた“IR Book”を有し、その結果、それらの用語を用いる可能性のある他の検索者は、これらの商品を彼らの最初の検索の結果の一部として見出すであろう。
次に、本発明に従って構築され機能する検索システム10を示す図2を参照する。検索システム10は、検索クライアント12、検索エンジン14及び索引拡張機能部16を有する。
検索クライアント12及び検索エンジン14は、多数のドキュメント20の索引18に作用する、従来技術において既知の、任意の検索クライアント及び検索エンジンとすることができる。知られているように、検索クライアント12は検索要求を検索エンジンに送り、次にはそのエンジンが検索結果を、検索要求に合致したドキュメント20のランク付けられた一覧表の形式で、与えることができる。検索クライアント12は、次に一覧表からドキュメントを選択するか、又は別の検索を要求することができる。
索引付けされたドキュメントは、単一のページ、全ウェッブ・サイト、必ずしも1個人によって構成されたものではいないか、又は同じドメインの下に保管されているものではない一連のリンクされた複数のページ、或いは、それを示すページの部分のすべてをもつ単一のページ(即ち、該ページを指示しているリンク上に現われるアンカーテキスト、又は、該アンカーテキストの周辺のテキストであって、指示されたページを参照しているとみなされるものさえも含む)とすることができる。それら参照の各々もまた、索引中に記載することができる(例えば、ある用語が何回アンカーテキストとして現れるか)。
どんな索引も同様であるが、索引18は、各用語に関するさまざまな情報、例えばドキュメント内の位置、機能(例えば、タイトル中に、サブタイトル中に、本文として、アンカーテキストとして、現れる)、強調されたかどうか(大文字使用、太字、イタリック、色、など)、出現頻度、出現の間隔など、を格納することができる。
本発明の好ましい実施形態によれば、索引拡張機能部16は、検索エンジン14に提示されたユーザ・クエリに基づいて、用語及び/又は他の詳細を、索引18に、又はドキュメント20のどれにでも加えることができる。索引拡張機能部16は、以下に図3を参照して論じられるように、或いは他の任意の方法で、用語をドキュメントそれ自体に(メタデータとして)又は索引18中のそれらの表現に加えることができる。
例えば、ここで簡単に参照される図3は、図1の例示的な部分的索引の例示的な拡張バージョンを示しており、そこでは、新しい情報は保留状態でマークされている。拡張された索引は、従来技術のバージョンと同じ列2,4,6,8、10を有することができる。それに加えて、拡張索引はクエリ情報を保管する列9を有する。タイトル、アンカー及びテキストの列6,8及び10の中の情報は変わっていない。変わるのは、出現総数の列4の中の情報である。
例えば、ドキュメント1はユーザ・クエリからの2000が加えられているので、今や用語Aの7000回の出現をもつことになる。以前には用語Aだけをもっていたドキュメント67は、今や用語Bの9000回の出現をもつことになるが、それらは全て、クエリ列9にリストされているので、クエリ中のものである。複合語のクエリは、完全な句として保管されるか、又は近接情報がドキュメント・テキスト又はそれに関連付けられたアンカーテキストに対するのと同様の様態で、保管される。
検索エンジン14が拡張索引18を検索するとき、その検索エンジンは、拡張された情報を用いて、索引付けされたドキュメントに関連付けられた新しいクエリ用語に基づいて、種々の検索結果を出力することができる。その結果、もし誰かが、背景の項において論じたように、“5歳児のための玩具”に関する拡張索引を検索すれば、検索エンジン14はMarching Band Setへのリンクを返すことができる。同様に、もし誰かが“IR book”に関する拡張索引を検索すれば、検索エンジン14は、最新刊を含む全ての本へのリンクを返すことができる。
索引拡張機能部16は、ユーザ・クエリ・プロセッサ30、クエリ・ランカー32、及び索引拡張機能部34を含むことができる。ユーザ・クエリ・プロセッサ30は、検索エンジン14によって作られた、ユーザ・クエリ及び結果のログファイルを解析することができる。幾つかの検索エンジンはまた、ユーザの最終選択をログ記録し、ユーザ・クエリ・プロセッサ30は、これらを同様に解析することができる。
ユーザ・クエリ・プロセッサ30は、ユーザ・クエリをドキュメント・クエリ索引40に加えることができ、その索引40は、各クエリをプロセッサ30によって生成されたドキュメント20に関連付けることができる。このプロセッサはまた、マルチ検索セッション中の全クエリを生成された全てのドキュメントに、又は、各クエリのトップにランクされた結果だけに、関連付けることができる。或いは、もしシステムが、検索の結果どのドキュメントをユーザが追跡したかを示すことができれば、次にプロセッサ30はクエリを、表示された又はクリックされたドキュメントだけに関連付けることができる。セッションは、あらかじめ定められた時間内の、又はログインの間の、といった任意の仕方で定義することができる。
さらなる実施形態においては、もしユーザがクエリの結果を用いずに、クエリの間の情報をブラウズした場合には、クエリ・プロセッサ30は、クエリをブラウズされたドキュメントに関連付けることもできる。このことは、ブラウズされたドキュメントが元の索引中に見出されるときにだけ可能であり、クエリをそれらに加えるために利用できる。
検索セッションの最後に選択されたドキュメントは、通常は望ましい項目であるので、該ドキュメントには特別な重みを与えることができる。このドキュメントは、検索のクエリのそれぞれに、又は、最初の検索用語は普通はユーザの自然言語の用語であるので、初期検索用語に、関連付けることができる。或いは又はさらに、ユーザの最初のクエリに関するタイミングによって、異なるクエリに異なる重みを割り当てることもできる。
クエリの用語は、元のドキュメントの言語に関らずに、どんな言語であってもよいことが認識されるであろう。例えば、もし何かに関するユーザ・クエリがドイツ語であって、なにも検索できず、次に英語に移って何かを検索できたとすると、そのドイツ語の言葉も、英語のドキュメントに関連付けて加えることができる。
代替的実施形態においては、選択されたドキュメントがユーザの初期クエリに対する回答であるとき、選択されたドキュメント及び初期検索用語だけを保管することができる。或いはさらに、どの検索用語がユーザの最終選択に関連するかを示すようにユーザに要求するようにしてもよい。
ユーザ・クエリ・プロセッサ30は、検索エンジン14と連動して機能することができ、それゆえ、検索の要求と結果、及び選択を、リアルタイムで又は半リアルタイムで受け取ることができる。或いは、図2に示されるように、ユーザ・クエリ・プロセッサ30は、検索エンジン14によって生成されたログファイル42に作用することができる。
ドキュメント・クエリの索引40は、任意の適切な様式に組織化することができる。一つの例示的な様式は、索引付けされたドキュメント20ごとに一つのクエリ・ドキュメント44を有するものであり、その場合、各クエリ・ドキュメント44が、クエリ、及び特定のクエリが何回ログファイル42中に用いられたかをリストすることができる。リアルタイム又は半リアルタイムの動作に関して、クエリの回数は頻繁に更新される。同様に、多数のログファイル42が調査されるときも、クエリの頻度が更新される。
もう一つの実施形態においては、ここで簡単に参照される図4に示されるように、クエリ索引40は、ドキュメント索引18と同じ用語をリストすることができ、かつ、ドキュメントに関連付けられたクエリ中における用語の出現頻度をリストすることもできる。
適当な時点で、ドキュメント索引18を拡張することが望ましい。クエリ・ランカー32は、どのクエリをドキュメント索引18に加えるかを決めるために、クエリ索引40を調査することができる。任意の適切な実践的方法を用いることができる。直接的な実践的方法は、全てのクエリを加え、それらにそれらの使用頻度による重み付けをすることである。他の実践的方法は、相当な使用頻度をもつものだけを選択するプロセスを含むことができる。さらに他の実践的方法は、任意の古くなったクエリを削除するステップを含むことができる。この最後の実践的方法は、ユーザ・クエリ・プロセッサ30が、索引40中の各クエリに関連付けられたタイム・スタンプを保管することを必要とするものである。もう一つの実践的方法として、どの用語が完全に恒久的にドキュメント20に関連付けられるに十分に“熟成”したか、を決定するプロセスを含むことができる。もう一つの実践的方法は、用語に対して、索引18中に‘not sure about’として現れるように重みを割り当て、次に、この重みを検索エンジン14によって実行されるランキング計算のために用語に付与するものである。
索引拡張機能部34は、索引を調査してその中の情報を変えることができる、という点において、既知の索引更新プログラムに類似している。拡張機能部34はクエリ・ランカー32によって生成されたランク付けされたクエリを取り込むことができ、それらを索引18中の関連ドキュメント20に関連付けることができる。索引拡張機能部34は、クエリの列9のように又は他の適切な様式で、クエリを、関連するアンカーテキスト22に、関連するドキュメント20に、付加的なテキスト・セクション24に、加えることができる。適切な場合には、索引拡張機能部34はまた、以前に加えられたクエリのタイム・スタンプを調査して、共通クエリに関する任意のタイム・スタンプを更新し、タイム・スタンプが‘古い’任意のクエリを削除することができるが、ここで‘古い’は適切な定義のいずれであってもよい。
索引拡張機能部34は、クエリを加えることによって、及び、既存クエリの使用頻度及びタイム・スタンプを更新することによって、各ドキュメント20に関連付けられた全体のクエリのリストを更新することができる。索引拡張機能部34は、任意の適切な実践的方法に従って、クエリをランク付けすることができる。一つの実践的方法は使用頻度である。もう一つは、上で論じられたタイム・スタンプによる方法でもよい。
ひとたび索引拡張機能部が作業を完了すれば、検索エンジン14は新しいクエリを用いて拡張された索引18を検索することができる。
ここに、本発明のいくつかの特徴が示され、説明されてきたが、多くの修正、代替、変更、及び均等技術が当業者に思い浮かぶであろう。従って、添付の特許請求の範囲は、それら全ての修正及び変更を、本発明の真の精神に含まれるものとして含むこと、を意図するものと理解されるべきである。
簡略化された従来技術の索引の小部分を示す。 本発明に従って構築され機能する検索システムのブロック図を示す。 図2のシステムによって作成された、簡略化され拡張された索引の小部分を示す。 図2のシステムにおいて有用な、簡略化されたクエリ索引を示す。

Claims (19)

  1. ドキュメントの索引内容を検索するための検索エンジンと、前記索引を少なくとも幾つかのユーザ・クエリを用いて拡張するための索引拡張機能部とを含む検索システム。
  2. 前記索引拡張機能部が、クエリを前記検索エンジンによって検索されたドキュメントに関連付けるためのクエリ・プロセッサを含む、請求項1に記載のシステム。
  3. 前記クエリ・プロセッサが、前記検索されたドキュメントのどれを前記クエリに関連付けるかを決定する手段と、どのクエリを前記された検索ドキュメントに関連付けるかを決定する手段を含む、請求項2に記載のシステム。
  4. 前記関連付けられるクエリが、セッション中で用いられたクエリの一部からなる、請求項3に記載のシステム。
  5. 前記関連付けられるクエリが、セッションの最初のクエリからなる、請求項3に記載のシステム。
  6. 決定され検索された前記ドキュメントが、前記ユーザによって選択されたドキュメントを含む、請求項3に記載のシステム。
  7. 決定され検索された前記ドキュメントが、クエリの結果として前記ユーザによりブラウズされたドキュメントを含む、請求項3に記載のシステム。
  8. 前記決定され検索された前記ドキュメントが、クエリから生成された上位ランクのドキュメントを含む、請求項3に記載のシステム。
  9. 前記ユーザ・クエリが、選択されたドキュメントの言語とは異なる言語によるものである、請求項2に記載のシステム。
  10. 前記索引拡張機能部が、ドキュメントに関連付けられたクエリをランク付けするためのクエリ・ランカーを含む、請求項1に記載のシステム。
  11. 前記クエリ・ランカーが、使用頻度によって前記クエリをランク付けする手段を含む、請求項10に記載のシステム。
  12. 前記クエリ・ランカーが、使用時間によって前記クエリをランク付けする手段を含む、請求項10に記載のシステム。
  13. 前記索引拡張機能部が、前記ランク付けされたクエリの少なくとも幾つかを用いて、前記索引を拡張するための索引更新プログラムを含む、請求項10に記載のシステム。
  14. 前記索引更新プログラムが、低位にランクされたクエリを除外する手段を有する、請求項13に記載のシステム。
  15. ユーザ・クエリを送出する検索クライアントと、ドキュメントの索引内容を検索する検索エンジンとを含む検索システムであって、前記索引が、少なくとも元のテキストと、少なくとも前記元のテキストについて何かを記述するクエリとを指示する、システム。
  16. 前記索引が、索引付けされるべきドキュメント中と、少なくとも、前記ドキュメントを見出すために用いられたユーザ・クエリ中とに見出される用語の一覧表、及び、少なくとも、前記ドキュメント及びユーザ・クエリ中にそれら用語が出現する頻度を含んだ一覧表を含む、請求項15に記載のシステム。
  17. 前記ユーザ・クエリが、選択されたドキュメントを見出すためのセッション中で用いられたクエリの一部からなる、請求項16に記載のシステム。
  18. 少なくとも幾つかのユーザ・クエリを用いてドキュメントの索引を拡張する方法であって、検索エンジンによって検索されたドキュメントのどれをクエリに関連付けるかを決定するステップと、どのクエリを前記検索されたドキュメントに関連付けるかを決定するステップとを含む、方法。
  19. 少なくとも幾つかのユーザ・クエリを用いてドキュメントの索引を拡張するためのプログラムであって、該プログラムが、検索エンジンによって検索されたドキュメントのどれをクエリに関連付けるかを決定するステップと、どのクエリを前記検索されたドキュメントに関連付けるかを決定するステップをコンピュータに実行させるプログラム。
JP2006544437A 2003-12-22 2004-12-15 ドキュメント拡張方法 Pending JP2007515721A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/743,158 US20050138007A1 (en) 2003-12-22 2003-12-22 Document enhancement method
PCT/EP2004/053494 WO2005062204A1 (en) 2003-12-22 2004-12-15 Enhancing a search index based on the relevance of results to a user query

Publications (1)

Publication Number Publication Date
JP2007515721A true JP2007515721A (ja) 2007-06-14

Family

ID=34678584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006544437A Pending JP2007515721A (ja) 2003-12-22 2004-12-15 ドキュメント拡張方法

Country Status (5)

Country Link
US (1) US20050138007A1 (ja)
EP (1) EP1700242A1 (ja)
JP (1) JP2007515721A (ja)
CN (1) CN1898667A (ja)
WO (1) WO2005062204A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189215A (ja) * 2016-07-05 2016-11-04 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502773B1 (en) * 2003-12-31 2009-03-10 Microsoft Corporation System and method facilitating page indexing employing reference information
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8352449B1 (en) 2006-03-29 2013-01-08 Amazon Technologies, Inc. Reader device content indexing
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US7865817B2 (en) 2006-12-29 2011-01-04 Amazon Technologies, Inc. Invariant referencing in digital works
US7751807B2 (en) 2007-02-12 2010-07-06 Oomble, Inc. Method and system for a hosted mobile management service architecture
US8024400B2 (en) 2007-09-26 2011-09-20 Oomble, Inc. Method and system for transferring content from the web to mobile devices
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7716224B2 (en) * 2007-03-29 2010-05-11 Amazon Technologies, Inc. Search and indexing on a user device
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US8990215B1 (en) 2007-05-21 2015-03-24 Amazon Technologies, Inc. Obtaining and verifying search indices
US8423889B1 (en) 2008-06-05 2013-04-16 Amazon Technologies, Inc. Device specific presentation control for electronic book reader devices
CN101685444B (zh) * 2008-09-27 2012-05-30 国际商业机器公司 用于实现元数据搜索的系统和方法
US9087032B1 (en) 2009-01-26 2015-07-21 Amazon Technologies, Inc. Aggregation of highlights
US8378979B2 (en) 2009-01-27 2013-02-19 Amazon Technologies, Inc. Electronic device with haptic feedback
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US8692763B1 (en) 2009-09-28 2014-04-08 John T. Kim Last screen rendering for electronic book reader
CN101840420B (zh) * 2010-04-02 2011-12-28 清华大学 搜索辅助系统与搜索辅助方法
CN101807213B (zh) * 2010-05-11 2011-08-31 天津大学 一种网页的垂直搜索方法
US9495322B1 (en) 2010-09-21 2016-11-15 Amazon Technologies, Inc. Cover display
US20130086083A1 (en) * 2011-09-30 2013-04-04 Microsoft Corporation Transferring ranking signals from equivalent pages
US9158741B1 (en) 2011-10-28 2015-10-13 Amazon Technologies, Inc. Indicators for navigating digital works
US8965899B1 (en) * 2011-12-30 2015-02-24 Emc Corporation Progressive indexing for improved ad-hoc query performance
US11238076B2 (en) 2020-04-19 2022-02-01 International Business Machines Corporation Document enrichment with conversation texts, for enhanced information retrieval
CN112783918A (zh) * 2021-03-15 2021-05-11 北京百度网讯科技有限公司 搜索方法、搜索装置、电子设备、存储介质和程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507794A (ja) * 1998-03-16 2002-03-12 エヌビーシーアイ・ニュ−ジーランド・エルエルシー 改良されたサーチエンジン

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5685003A (en) * 1992-12-23 1997-11-04 Microsoft Corporation Method and system for automatically indexing data in a document using a fresh index table
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6182068B1 (en) * 1997-08-01 2001-01-30 Ask Jeeves, Inc. Personalized search methods
US6078916A (en) * 1997-08-01 2000-06-20 Culliss; Gary Method for organizing information
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6701307B2 (en) * 1998-10-28 2004-03-02 Microsoft Corporation Method and apparatus of expanding web searching capabilities
US6338056B1 (en) * 1998-12-14 2002-01-08 International Business Machines Corporation Relational database extender that supports user-defined index types and user-defined search
US6389412B1 (en) * 1998-12-31 2002-05-14 Intel Corporation Method and system for constructing integrated metadata
US6321228B1 (en) * 1999-08-31 2001-11-20 Powercast Media, Inc. Internet search system for retrieving selected results from a previous search
US6999957B1 (en) * 2000-01-11 2006-02-14 The Relegence Corporation System and method for real-time searching
US6571239B1 (en) * 2000-01-31 2003-05-27 International Business Machines Corporation Modifying a key-word listing based on user response
AU2001251736A1 (en) * 2000-03-27 2001-10-08 Documentum, Inc Method and apparatus for generating metadata for a document
US6658406B1 (en) * 2000-03-29 2003-12-02 Microsoft Corporation Method for selecting terms from vocabularies in a category-based system
US6665655B1 (en) * 2000-04-14 2003-12-16 Rightnow Technologies, Inc. Implicit rating of retrieved information in an information search system
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7171349B1 (en) * 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US6785688B2 (en) * 2000-11-21 2004-08-31 America Online, Inc. Internet streaming media workflow architecture
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US7007074B2 (en) * 2001-09-10 2006-02-28 Yahoo! Inc. Targeted advertisements using time-dependent key search terms
US7031009B2 (en) * 2001-12-26 2006-04-18 Xerox Corporation Use of e-mail for capture of document metadata
CA2369912C (en) * 2002-01-31 2012-02-07 Comtext Systems Inc. Computerized information search and indexing method, software and device
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US7324990B2 (en) * 2002-02-07 2008-01-29 The Relegence Corporation Real time relevancy determination system and a method for calculating relevancy of real time information
US20040098378A1 (en) * 2002-11-19 2004-05-20 Gur Kimchi Distributed client server index update system and method
CN1292371C (zh) * 2003-04-11 2006-12-27 国际商业机器公司 倒排索引存储方法、倒排索引机制以及在线更新的方法
US7308464B2 (en) * 2003-07-23 2007-12-11 America Online, Inc. Method and system for rule based indexing of multiple data structures
US7254580B1 (en) * 2003-07-31 2007-08-07 Google Inc. System and method for selectively searching partitions of a database

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507794A (ja) * 1998-03-16 2002-03-12 エヌビーシーアイ・ニュ−ジーランド・エルエルシー 改良されたサーチエンジン

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189215A (ja) * 2016-07-05 2016-11-04 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Also Published As

Publication number Publication date
CN1898667A (zh) 2007-01-17
WO2005062204A1 (en) 2005-07-07
EP1700242A1 (en) 2006-09-13
US20050138007A1 (en) 2005-06-23

Similar Documents

Publication Publication Date Title
JP2007515721A (ja) ドキュメント拡張方法
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
JP5296147B2 (ja) 地理的関連性に従う文書のインデックス付け
JP4638439B2 (ja) ウェブ検索の個人化
JP4991289B2 (ja) 予め定義されたサーチ問合せからサーチ結果へのアクセスを与えるurlで補足されるサーチエンジン
US10423668B2 (en) System, method, and user interface for organization and searching information
US7020679B2 (en) Two-level internet search service system
US7840547B1 (en) Methods and systems for efficient query rewriting
US20070192293A1 (en) Method for presenting search results
US20060248078A1 (en) Search engine with suggestion tool and method of using same
CN107092615A (zh) 来自文档的查询建议
AU2005202020A1 (en) Method and system for indexing and searching databases
WO2006124287A2 (en) Importance ranking for a hierarchical collection of objects
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP2009516252A (ja) テキストの表現を取得する方法
JP2004078446A (ja) キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
JP3898016B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
Wheeldon et al. DbSurfer: A search and navigation tool for relational databases
US8745035B1 (en) Multistage pipeline for feeding joined tables to a search system
Brinkley et al. Information retrieval from the Internet: an evaluation of the tools
Jacsó Clustering search results. Part I: web‐wide search engines
KR20050004274A (ko) 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스작성방법 및, 기억매체
AU2004269436A1 (en) Method, device and software for querying and presenting search results
Colahan Guitar Music in Collections: A New Web-based Index Is Launched
Chen et al. Real-time adaptive feature and document learning for Web search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071015

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101124