JP4912384B2 - 文書検索装置、文書検索方法、および文書検索プログラム - Google Patents

文書検索装置、文書検索方法、および文書検索プログラム Download PDF

Info

Publication number
JP4912384B2
JP4912384B2 JP2008297847A JP2008297847A JP4912384B2 JP 4912384 B2 JP4912384 B2 JP 4912384B2 JP 2008297847 A JP2008297847 A JP 2008297847A JP 2008297847 A JP2008297847 A JP 2008297847A JP 4912384 B2 JP4912384 B2 JP 4912384B2
Authority
JP
Japan
Prior art keywords
query
search
search result
extended
information storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008297847A
Other languages
English (en)
Other versions
JP2010123036A (ja
Inventor
眞哉 村田
浩之 戸田
由美子 松浦
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008297847A priority Critical patent/JP4912384B2/ja
Publication of JP2010123036A publication Critical patent/JP2010123036A/ja
Application granted granted Critical
Publication of JP4912384B2 publication Critical patent/JP4912384B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書群中からクエリに該当する電子文書を検索する技術に関する。
インターネットなどで接続されたクライアント端末から検索語(クエリ)を受信して検索結果を返信する検索エンジンの運営サーバには、時々刻々、検索のログが保存される。このログには、投入されたクエリの情報や、検索結果に対するユーザのクリックの情報などが保存される。
このような検索エンジンのログを利用した文書検索システムが非特許文献1に提案されている。この文書検索システムは、検索エンジンのログのうち、特にクリックに関する情報(クリックログ)を利用して検索結果の精度向上を行うものである。
すなわち、この文書検索システムでは、クリックログを解析することにより、多くの検索結果中からクリックが集中しているサイト(アクセス集中サイト)を的確に判別している。このアクセス集中サイトのタイトルとスニペット(概要文)には有用な情報(キーワード)が含まれていると考えられ、この情報でクエリを拡張し、各クエリの情報要求に沿った高精度な検索を実現するものである。
"Improving Mobile Web−IR Using Access Concentration Sites in Search Results."Masaya Murata,et al.Proc.of WISE2008,pp 221−234,2008.
非特許文献1の文書検索システムでは、クリックログを解析し、検索結果中においてアクセスが集中しているサイトを的確に判別することで、そこから有用な情報(キーワード)を抽出する。そしてこのキーワード群を基にクエリを拡張し、検索を行う。これは、通常1語か2語であるクエリの少ない単語数を、その情報要求を的確に表現する他のキーワード群で補い、ユーザの検索を補助するものである。
一方、各検索結果が満たすことのできる情報要求の表現については、それらの内容、すなわち文書の作成者が記した本文のみが利用され、ユーザがその検索結果を実際に見て、それが要求通りか否かをどのように判断したのかに関する情報は考慮されていない。このような文書を利用するユーザ側からの情報を基に各検索結果を拡張することで、検索エンジンに対してクエリを発行したユーザが持つ情報要求(クエリの情報要求)と各検索結果が満たすことができる情報要求レベルでのマッチングが可能となる。
そこで本発明は、このような問題に鑑み、クエリの情報要求と、検索システムに登録されている各文書が満たすことができる情報要求とを考慮した検索の実現を解決課題としている。
本発明は、前記課題を解決するため、検索エンジンのログを利用してクエリおよび検索結果を拡張することによりそれぞれの満たす情報要求の表現を行い、これらの間の関係性を基に検索結果のランキングを行うことで、高精度の検索を実現している。
具体的には、請求項1記載の発明は、ユーザ端末から検索指示されたクエリを含む電子文書を検索するときに検索エンジンの検索ログを利用する文書検索装置であって、前記検索ログに含まれたクエリに応じた検索結果のタイトルおよび概要文から拡張語を生成し、該拡張語を前記クエリの拡張情報として保存するクエリ情報保存手段と前記検索ログからクリックされた検索結果の検索時のクエリを判別し、該クエリに関連する拡張語を前記クエリ情報保存手段から求め、検索結果がクリックされたときに投入されたクエリの拡張語群を検索結果の拡張情報として保存する検索結果情報保存手段と、ユーザ端末から検索指示されたクエリについて、クエリの拡張語を前記クエリ情報保存手段から取得し、ユーザ端末に送る照合処理手段と、前記検索指示されたクエリを前記拡張語で拡張した拡張クエリの検索で得られた検索結果に対して、前記検索結果情報保存手段に保存された拡張語群を付与して検索結果を拡張し、拡張された検索結果を前記拡張クエリとの類似度により並び替え、この並び替えた結果をリスト化した最終検索結果を前記ユーザ端末に送る検索結果処理手段と、を備えることを特徴としている。
請求項記載の発明は、ユーザ端末から検索指示されたクエリを含む電子文書を検索するときに検索エンジンの検索ログを利用する文書検索方法であって、前記検索ログに含まれたクエリに応じた検索結果のタイトルおよび概要文から拡張語を生成し、該拡張語をクエリ情報保存手段に前記クエリの拡張情報として保存するクエリ情報保存ステップと、検索結果情報保存手段が、前記検索ログからクリックされた検索結果の検索時のクエリを判別し、該クエリに関連する拡張語を前記クエリ情報保存手段から求め、検索結果がクリックされたときに投入されたクエリの拡張語群を検索結果の拡張情報として保存する検索結果情報保存ステップと、照合処理手段が、ユーザ端末から検索指示されたクエリについてクエリの拡張語を前記クエリ情報保存手段から取得し、ユーザ端末に送る照合処理ステップと、検索結果処理手段が、前記検索指示されたクエリを前記拡張語で拡張した拡張クエリの検索で得られた検索結果に対して、前記検索結果情報保存手段に保存された拡張語群を付与して検索結果を拡張し、拡張された検索結果を前記拡張クエリとの類似度により並び替え、この並び替えた結果をリスト化した最終検索結果を前記ユーザ端末に送る検索結果処理ステップと、を有することを特徴としている。
請求項記載の発明は、文書検索プログラムであって、請求項記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴としている。
請求項1〜記載の発明によれば、検索エンジンのログを利用してクエリおよび検索結果を拡張し、これらの関係性に基づいて検索結果をランキングすることで、検索の精度が向上する。
本発明は、検索エンジンのログ(クリックログ)を利用することで、クエリ拡張によるクエリの情報要求の表現、検索結果の拡張による検索結果の満たす情報要求の表現を行い、これらの間の関係性を基に検索結果のランキングを行っている。
すなわち、多くのユーザが有用だと判断し、アクセスが集中しているサイトのタイトルとスニペットを拡張語の取得源とみなすことにより、クエリに対する高い適合性を持った拡張語を抽出する。この拡張語を用いたクエリ拡張により、クエリの情報要求を表現する。
また、クリックログを解析することで、検索結果がクリック(閲覧)されたときに投入されたクエリを判別し、この判別したクエリの拡張語で検索結果を拡張することにより、この検索結果が満たすことができる情報要求を表現する。
そして、それぞれ拡張されたクエリと検索結果同士をキーワードベースで比較することで、クエリと検索結果が潜在的に持つ情報要求に沿った高精度な検索を可能としている。以下、図面に基づき本発明の実施形態に係る文書検索装置1を説明する。
図1は、本発明の実施形態に係る文書検索装置1の構成例を示している。この文書検索装置1は、インターネット経由で複数のユーザ端末13とネットワーク接続されている。このユーザ端末13をもってユーザはクエリを送信し文書検索を行う。
前記文書検索装置1は、主に2つの処理部、すなわちユーザから投入されたクエリに対する検索結果を取得する検索エンジン100と、前記検索エンジン100の取得した検索結果を適切なランキングに並べ替え(re−ranking)、前記ユーザ端末13へ返信する支援処理部125とで構成されている。
前記検索エンジン100は、「World Wide Web(WWW)」もしくは「Mobile Web(MW)」101から各サイトのデータを随時ダウンロードし、そのインデックスをインデックスDB102に格納する。そして、前記ユーザ端末13からの検索指示に従って前記インデックスDB102を検索し、検索結果を取得する。
前記支援処理部125は、前記検索エンジン100の検索結果を適切なランキングに並べ替えて前記ユーザ端末13へ返信する。この支援処理部125は、図1に示すように、ログDB110,解析処理部111,クエリ情報要求生成部114,検索結果情報要求生成部115,検索結果情報要求DB116,クエリ情報要求DB117,照合処理部119,ランキング処理部123として機能している。
ここで、前記ログDB110には、ユーザの検索ログに含まれたクエリと、該クエリの検索結果から実際にユーザがクリックして閲覧した電子文書のURLとを対応付けたクリックログが格納されている。
前記解析処理部111は、前記クリックログを解析して、使用頻度が上位のクエリ(以下、頻度上位クエリとする)112を求める。そして、該頻度上位クエリ112を前記検索エンジン100に送信し、各クエリに対する検索結果集合113を取得する。この取得した検索結果集合113を前記各情報要求生成部114.115に送信する。
前記クエリ情報要求生成部114は、前記クリックログを用いて前記検索結果集合113の解析を行い、クエリの情報要求を生成して前記クエリ情報要求DB117へ格納する。
ここでは、クエリの情報要求は、前記各頻度上位クエリ112に対する拡張語の集合として求められる。すなわち、前記クエリ情報要求DB117には、前記各頻度上位クエリ112と、該各クエリに対する拡張語の集合とが対応して格納される。
前記検索結果情報要求生成部115は、前記クリックログを用いて前記検索結果集合113の解析を行い、検索結果の情報要求を生成して前記検索結果情報要求DB116へ格納する。
ここでは、前記検索結果集合113からユーザの閲覧した文書のURLを含む検索結果を探索し、該検索結果の検索時のクエリを判別する。そして、この判別したクエリに対する拡張語の集合を該検索結果の情報要求として求める。すなわち、前記検索結果情報要求DB116には、検索結果の電子文書のURLと、該電子文書がクリックされたときに投入されたクエリの拡張語の集合とが対応して格納される。
ここまでの前記両DB116.117の生成処理は、図2に示すように、前記ユーザ端末13と未接続のオフライン状態で実施される。この生成処理後に前記ユーザ端末13と接続され、オンライン状態の処理が実施される。
前記ユーザ端末13は、ネットワークに接続可能なブラウザなどのユーザインタフェース130を備えていればよい。例えば、パーソナルコンピュータ(PC)や携帯電話などが該当する。前記ユーザインタフェース130には、ユーザがクエリを入力するクエリ入力画面131、および検索結果を表示する検索結果表示画面132が表示される。
ここでは、ユーザは前記クエリ入力画面131にてクエリ118を投入する。投入されたクエリ118は前記照合処理部119へ送信される。前記照合処理部119は、前記クエリ118を受信すると、対応する情報要求120を前記クエリ情報要求DB117から取得する。この取得したクエリの情報要求120を前記ユーザ端末13へ返信し、クエリ入力画面131へ表示させる。そして、該クエリの情報要求120と前記クエリ118とを組み合わせた拡張クエリ121が、前記クエリ入力画面131から前記検索エンジン100に送信される。
前記検索エンジン100は、受信した拡張クエリ121をもって前記インデックスDB102を検索し、検索結果122を取得する。そして、取得した検索結果122を前記ランキング処理部123へ送信する。
前記ランキング処理部123は、前記検索結果122に応じた情報要求を前記検索結果情報要求DB116から取得し、該情報要求を用いて前記検索結果122を拡張する。そして、拡張した検索結果122を前記拡張クエリ121との関係性に基づいて並べ替え、ランク付けされた最終検索結果124を生成する。そして、生成した最終検索結果124を前記ユーザ端末13へ返信して検索結果表示画面132に表示させ、ユーザに提示する。
ユーザは、前記検索結果表示画面132に表示された最終検索結果124をクリックして任意の電子文書を閲覧する。クエリ118の投入から最終検索結果124のクリックまでの操作情報は、検索ログ記録部133で随時取得され、該取得情報は前記ログDB110へ蓄積される。ここまでの処理フローを図3に示す。
前記文書検索装置1の各機能ブロック100.102.110.111.114〜117.119.123の機能は、コンピュータのハードウェアとソフトウェアの協働で実現されている。また、前記文書検索装置1は、コンピュータの通常の構成要素、例えば図示省略の処理データなどを一時記憶する書き換え可能なメモリ(RAM)と、前記ユーザ端末13とのネットワーク接続に使用する通信デバイスと、ハードディスクドライブ装置などの保存部などを備え、前記各DB102.110.116.117は前記ハードディスクドライブ装置上に構築されている。以下、前記文書検索装置1の動作例を説明する。
<動作例>
前記文書検索装置1が実行する一連の処理は、主にオフラインで行われる情報要求生成フェーズと、オンラインで行われる検索実行フェーズから構成されている。以下、両フェーズの処理について、図4〜8に基づき説明する。
(1)情報要求生成フェーズ
情報要求生成フェーズでは、クリックログを解析して、クエリの情報要求および該クエリの検索結果が満たす情報要求を生成する。この情報要求生成フェーズは通常、前記ユーザ端末13と接続されないオフライン状態で、ユーザからの検索要求を受け付ける前に行われる。
図4.5は、情報要求生成フェーズの処理フローを示している。まず、前記解析処理部111は、前記ログDB110に格納されたクリックログに含まれるクエリを使用頻度順に並べ、頻度上位クエリ112を得る。そして、該頻度上位クエリ112を前記検索エンジン100に送信し、それぞれのクエリの上位K件の検索結果集合113を得る。ここでは、前記頻度上位クエリ112の任意のクエリqに対する検索結果集合113を例に説明する。
前記検索結果集合113は、前記検索エンジン100から前記クエリ情報要求生成部114および前記検索結果情報要求生成部115にそれぞれ送信され、クエリの情報要求、および検索結果が満たすことができる情報要求の算出が開始される。
<クエリの情報要求>
前記クエリ情報要求生成部114は、前記クエリqに対する検索結果集合113の各検索結果sri(search result)(i=1,…,k)において、そのタイトルとスニペットを形態素解析して内容語(キーワード)tを抽出し、このキーワード集合をベクトルV(sri)で表現する。
このベクトルV(sri)には、キーワードtのtf(t)・idf(t)に基づく重みが含まれている。tf(t)は、その検索結果sriのタイトルとスニペットにおけるキーワードtの出現頻度(Term Frequency)、idfはあるドキュメント集合におけるキーワードtの出現頻度(Inverse Document Frequency)である。
このベクトルV(sri)を、検索結果sriに対するアクセス集中度合ACD(sri)(Access Concentration Degree)で加重平均する。その結果得られるベクトルを、クエリqの情報要求ベクトルVIN(q)(Information Need Vector)とする。具体的には、クエリqの情報要求ベクトルVIN(q)は以下の式(1)で与えられる。この式(1)は、プログラムなどに定義されていればよい。
Figure 0004912384
このように算出されたクエリqの情報要求ベクトルVIN(q)は、クエリqの拡張語の集合を表現するベクトルであり、前記クエリ情報要求DB117へ格納される。なお、アクセス集中度合ACD(sri)は、例えば非特許文献1の手法により求めることができる。また、ここでは処理を簡単にするため、クリックログを解析することで得られる文書の絶対的クリック回数C(sri)をアクセス集中度合ACD(sri)に置き換えてもよい。
<検索結果の情報要求>
前記検索結果情報要求生成部115は、前記クリックログを解析することで、前記検索結果集合113のある検索結果srがクリックされたときに投入されたクエリの集合qj(j=1,…,m)を求める。また、該集合の各クエリから検索結果srに対するアクセス集中度合ACD(sr,qj)を求める。
次に、クエリqjをもって前記クエリ情報要求DB117を検索し、該クエリqjに対応する情報要求ベクトルVIN(qj)を取得する。そして、この情報要求ベクトルVIN(qj)を前記アクセス集中度合ACD(sr,qj)で加重平均して得られるベクトルを、検索結果srが満たすことができる(できた)情報要求ベクトルVIN(sr)とみなす。この情報要求ベクトルVIN(sr)は、以下の式(2)で与えられる。この式(2)もプログラムなどに定義されていればよい。
Figure 0004912384
このように算出された検索結果の情報要求ベクトルVIN(sr)は、検索結果srがクリックされたときに投入されたクエリの拡張語集合を表現するベクトルであり、前記検索結果情報要求DB116へ格納される。なお、処理を簡単にするため、クリックログを解析することで得られる文書の絶対的クリック回数C(sr,qj)をアクセス集中度合ACD(sr,qj)に置き換えてもよい。また、クリックログを解析することで得られるクエリqjの全投入回数TIN(qj)(Total Input Number)で絶対的クリック回数C(sr,qj)を正規化した値で置き換えてもよい。
ここで、前記クエリqjをもって前記クエリ情報要求DB117を検索した際、該クエリqjに対応する情報要求ベクトルVIN(qj)が存在しない場合もある。そのような場合、前記検索結果情報要求生成部115は、このクエリqjを前記解析処理部111へ送信し、前述したクエリの情報要求の生成処理と同様の手順で、該クエリqjに対応する情報要求ベクトルVIN(qj)の算出を行えばよい。この算出した情報要求ベクトルVIN(qj)を前記クエリ情報要求DB117へ格納し、これを用いて前記式(2)により検索結果srの情報要求ベクトルVIN(sr)を算出すればよい。以上の情報要求生成フェーズにおけるデータ例を図6に示す。
(2)検索実行フェーズ
検索実行フェーズでは、情報要求生成フェーズで生成したクエリおよび検索結果の情報要求を用いて、ユーザの投入したクエリを拡張するとともに、該拡張クエリに対する検索結果も拡張する。そして、拡張されたクエリと検索結果との間の関係性に基づき検索結果を並べ替え、最終検索結果を生成している。この検索実行フェーズは、前記ユーザ端末13と接続されたオンライン状態で行われる。
図7は、検索実行フェーズの処理フローを示している。まず、前記照合処理部119は、ユーザが前記クエリ入力画面131をもって投入したクエリ118を受信する。
前記照合処理部119は、前記クエリ情報要求DB117から前記クエリ118に対応する情報要求ベクトルVIN(q)を取得し、これをクエリの情報要求120として前記ユーザ端末13へ返信しクエリ入力画面131へ表示させる。このクエリの情報要求120によって、前記クエリ118が拡張される。
すなわち、前記クエリ118と前記クエリの情報要求120との組み合わせが、拡張クエリ121として前記クエリ入力画面131から前記検索エンジン100へ送信される。前記検索エンジン100は、受信した拡張クエリ121を用いて検索を行い、取得した検索結果122を前記ランキング処理部123へ送信する。
ここで、通常の検索結果は、ランク付けされた検索結果のタイトルの一部、本文の一部(スニペット)、およびURLが返されるが、ここではランク付けされた検索結果のタイトルの全文、全本文、およびURLが返される。この時点でのランク付けは、従来の全文検索アルゴリズムに沿って行われる。
前記ランキング処理部123は、前記検索結果122の各検索結果srに対応する情報要求ベクトルVIN(sr)を前記検索結果情報要求DB116から取得する。そして、取得した情報要求ベクトルVIN(sr)で表現される拡張語群を各検索結果srのタイトルと本文に付与する。これにより、検索結果122の拡張が行われる。
そして、このように拡張された検索結果122を、拡張クエリ121とのキーワードベースでの類似度を考慮に入れて並べ替える(re−ranking)。そして、この並べ替えた結果をリスト化した最終検索結果124を前記ユーザ端末13へ返信し、検索結果表示画面132へ表示させてユーザへ提示する。ユーザは、提示された前記最終検索結果124から任意の電子文書をクリックして閲覧する。
なお、検索実行フェーズにおけるユーザのクエリの投入から最終検索結果のクリックまでの行動情報は、前記検索ログ記録部133で常に監視・取得される。この行動情報は、前記文書検索装置1へ送信され、新たなクリックログとして前記ログDB110に蓄積される。これにより、ユーザの行動情報が以降の情報要求生成フェーズに随時反映され、時々刻々と変化するユーザの情報要求を適切に把握することが可能となる。なお、この検索ログ記録部133は、前記文書検索装置1内に実装されていてもよい。ここまでの検索実行フェーズにおけるデータ例を図8に示す。
<発明の効果>
以上のように、文書検索システムに本発明の前記文書検索装置1を配置し、検索結果の精度評価を行った実験の結果を表1に示す。
Figure 0004912384
精度評価の指標は「Precision@X」と呼ばれるものを使用している。これは、クエリに対して正解であるサイトが検索結果の上位X件に多く入るほど高い数値を出す指標である。
なお、本発明との比較対象の手法は、(1)BM25,(2)クリック回数の多いサイトで検索結果を並べ替える方法(Re−ranking by Click Number,RCN),(3)クリック回数に基づくクエリ拡張法(Query Expansion method using Click number,QEC)の3種類としている。
(1)のBM25は、クエリ−サイト間のキーワードマッチングベースのランキングとして幅広く用いられている手法である。(2)のRCNは、単純に検索結果をそのクリック回数順で並べ替える手法である。(3)のQECは、クリック回数の多い検索結果のタイトルとスニペットからキーワードを抽出し、抽出したキーワードでクエリ拡張を行い、その拡張されたクエリとサイト間の類似度を基にランキングを行う手法である。
表1中の「*」,「**」は、それぞれウィルコクソンの符号付順位和検定において、本発明の手法と各比較手法との統計的有意差が5%,1%であった結果である。太文字になっている手法と数値が「Precision@X」に対する最大値である。
表1に示すように、本発明の手法は全ての検索結果ランク@Xにおいて最大の精度を達成しており、特に検索結果の上位ランク1≦X≦20の領域における精度を著しく向上させている。
なお、本発明は、コンピュータを前記文書検索装置1の各機能ブロック100.102.110.111.114〜117.119.123として機能させる文書検索プログラムとしても提供することができる。このプログラムは、各機能ブロック100.102.110.111.114〜117.119.123の全ての機能を実現させるものでもよく、あるいは一部の機能を実現させるものであってもよい。
このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。
本発明の実施形態に係る文書検索装置の構成図。 同 情報要求生成フェーズの概略図。 同 検索実行フェーズの概略図。 同 情報要求生成フェーズ前半の処理フロー図。 同 情報要求生成フェーズ後半の処理フロー図。 同 情報要求生成フェーズのデータ例。 同 検索実行フェーズの処理フロー図。 同 検索実行フェーズのデータ例。
符号の説明
1…文書検索装置
13…ユーザ端末
100…検索エンジン
101…World Wide WebもしくはMobile Web
102…インデックスDB
110…ログDB
111…解析処理部
112…頻度上位クエリ
113…検索結果集合
114…クエリ情報要求生成部
115…検索結果情報要求生成部
116…検索結果情報要求DB
117…クエリ情報要求DB
118…クエリ
119…照合処理部
120…クエリの情報要求
121…クエリとクエリの情報要求(拡張クエリ)
122…検索結果
123…ランキング処理部(検索結果処理手段)
124…最終検索結果
125…支援処理部
130…ユーザインタフェース
131…クエリ入力画面
132…検索結果表示画面
133…検索ログ記録部

Claims (3)

  1. ユーザ端末から検索指示されたクエリを含む電子文書を検索するときに検索エンジンの検索ログを利用する文書検索装置であって、
    前記検索ログに含まれたクエリに応じた検索結果のタイトルおよび概要文から拡張語を生成し、該拡張語を前記クエリの拡張情報として保存するクエリ情報保存手段と
    前記検索ログからクリックされた検索結果の検索時のクエリを判別し、該クエリに関連する拡張語を前記クエリ情報保存手段から求め、検索結果がクリックされたときに投入されたクエリの拡張語群を検索結果の拡張情報として保存する検索結果情報保存手段と、
    ユーザ端末から検索指示されたクエリについて、クエリの拡張語を前記クエリ情報保存手段から取得し、ユーザ端末に送る照合処理手段と、
    前記検索指示されたクエリを前記拡張語で拡張した拡張クエリの検索で得られた検索結果に対して、前記検索結果情報保存手段に保存された拡張語群を付与して検索結果を拡張し、拡張された検索結果を前記拡張クエリとの類似度により並び替え、この並び替えた結果をリスト化した最終検索結果を前記ユーザ端末に送る検索結果処理手段と、
    を備えることを特徴とする文書検索装置。
  2. ユーザ端末から検索指示されたクエリを含む電子文書を検索するときに検索エンジンの検索ログを利用する文書検索方法であって、
    前記検索ログに含まれたクエリに応じた検索結果のタイトルおよび概要文から拡張語を生成し、該拡張語をクエリ情報保存手段に前記クエリの拡張情報として保存するクエリ情報保存ステップと
    検索結果情報保存手段が、前記検索ログからクリックされた検索結果の検索時のクエリを判別し、該クエリに関連する拡張語を前記クエリ情報保存手段から求め、検索結果がクリックされたときに投入されたクエリの拡張語群を検索結果の拡張情報として保存する検索結果情報保存ステップと、
    照合処理手段が、ユーザ端末から検索指示されたクエリについてクエリの拡張語を前記クエリ情報保存手段から取得し、ユーザ端末に送る照合処理ステップと、
    検索結果処理手段が、前記検索指示されたクエリを前記拡張語で拡張した拡張クエリの検索で得られた検索結果に対して、前記検索結果情報保存手段に保存された拡張語群を付与して検索結果を拡張し、拡張された検索結果を前記拡張クエリとの類似度により並び替え、この並び替えた結果をリスト化した最終検索結果を前記ユーザ端末に送る検索結果処理ステップと、
    を有することを特徴とする文書検索方法。
  3. 請求項記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴とする文書検索プログラム。
JP2008297847A 2008-11-21 2008-11-21 文書検索装置、文書検索方法、および文書検索プログラム Active JP4912384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297847A JP4912384B2 (ja) 2008-11-21 2008-11-21 文書検索装置、文書検索方法、および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297847A JP4912384B2 (ja) 2008-11-21 2008-11-21 文書検索装置、文書検索方法、および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2010123036A JP2010123036A (ja) 2010-06-03
JP4912384B2 true JP4912384B2 (ja) 2012-04-11

Family

ID=42324309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297847A Active JP4912384B2 (ja) 2008-11-21 2008-11-21 文書検索装置、文書検索方法、および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP4912384B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419755B (zh) 2010-09-28 2013-04-24 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置
JP5043209B2 (ja) * 2011-03-04 2012-10-10 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
CN102207962B (zh) * 2011-05-25 2013-03-13 盛乐信息技术(上海)有限公司 一种动态搜索引擎及方法
TW201435627A (zh) * 2013-03-12 2014-09-16 Hon Hai Prec Ind Co Ltd 搜索優化系統及方法
JP6160018B1 (ja) * 2016-08-26 2017-07-12 ヤフー株式会社 情報解析装置、情報解析方法、および情報解析プログラム

Also Published As

Publication number Publication date
JP2010123036A (ja) 2010-06-03

Similar Documents

Publication Publication Date Title
US9652537B2 (en) Identifying terms associated with queries
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US8332393B2 (en) Search session with refinement
US7668887B2 (en) Method, system and software product for locating documents of interest
EP2395443A2 (en) Query rewriting with entity detection
US9251249B2 (en) Entity summarization and comparison
US20090313220A1 (en) Expansion of Search Result Information
US20120131008A1 (en) Indentifying referring expressions for concepts
KR20110050478A (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
KR20080024208A (ko) 검색 결과를 제공하기 위한 시스템 및 방법
CN102737021B (zh) 搜索引擎及其实现方法
US20110208715A1 (en) Automatically mining intents of a group of queries
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
KR100869545B1 (ko) 검색 히스토리를 생성하는 되풀이 검색시스템
JP2000331020A (ja) 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
Macdonald et al. The influence of the document ranking in expert search
JP5416552B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP5450135B2 (ja) 関連度辞書を用いた検索モデリングシステムおよび方法

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120117

R150 Certificate of patent or registration of utility model

Ref document number: 4912384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350