JP2010055164A - 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 - Google Patents

文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 Download PDF

Info

Publication number
JP2010055164A
JP2010055164A JP2008216556A JP2008216556A JP2010055164A JP 2010055164 A JP2010055164 A JP 2010055164A JP 2008216556 A JP2008216556 A JP 2008216556A JP 2008216556 A JP2008216556 A JP 2008216556A JP 2010055164 A JP2010055164 A JP 2010055164A
Authority
JP
Japan
Prior art keywords
site
search
query
unit
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008216556A
Other languages
English (en)
Other versions
JP4759600B2 (ja
Inventor
Shinya Murata
眞哉 村田
Hiroyuki Toda
浩之 戸田
Yumiko Matsuura
由美子 松浦
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008216556A priority Critical patent/JP4759600B2/ja
Publication of JP2010055164A publication Critical patent/JP2010055164A/ja
Application granted granted Critical
Publication of JP4759600B2 publication Critical patent/JP4759600B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 クリックログの解析によりアクセスの集中するサイトを的確に特定し、少ない拡張語数で大幅な検索精度向上を可能にするクエリ拡張を実現する。
【解決手段】 文章検索装置1の解析部A123および解析部B124は、入力されたクエリを用いてサイトがクリックされた履歴であるクリックログDB126を解析する。解析結果統合部122は、前記両解析部123.124の解析結果からアクセスが集中しているサイトを特定する。情報抽出部128は、アクセスが集中しているサイトのタイトルと概要文とを抽出する。拡張語選択部120は、抽出したタイトルと概要文から検索に用いる拡張語を選択する。検索実行部140は、前記拡張語と前記クエリとを用いて検索を行い、検索結果を出力する。
【選択図】 図1

Description

本発明は、入力されたクエリ及び該クエリに関連する拡張語を用いてサイトの文章を検索する技術に関する。
文章検索システムのランキングの精度向上を図るため、有望な手法の一つに「クエリ拡張」と呼ばれるものがある。これは、クエリ(検索語)に対して「何らかの関連ある」語(以下、拡張語と呼ぶ)を自動で取得し、選択し、付与することでより良い検索結果を導き出そうとする手法である。
これに関連する文献として、非特許文献1では拡張語の取得先データとしてクリックログを、選択基準としてクエリとの共起確率を用いている。このクリックログは、クエリに対する検索結果中においてウェブの閲覧者が実際に選択したサイト(clicked document)のURLの集合である。クエリに適する拡張語というのは時々刻々変化すると考えるのが自然であり、非特許文献1ではクリックログを用いてこれに対処している。
"Probabilistic Query Expansion Using Query Logs".Hang Cui,et al.(2002) S.E.Robertson,"On term selection for query expansion",Journal of Documentation,46,pages 359−364,1990.
非特許文献1では、クリックログを解析して得られる単純なクリック回数(絶対的クリック回数)を用いて閲覧者が選択したサイト(clicked document)のURLを判別し、そのタイトルと概要文(スニペット)内に含まれるキーワードとクエリとの共起確率を計算している。そして、この尺度が高いキーワードから順に拡張語として選択し、クエリ拡張を実行している。
しかしながら、この絶対的クリック回数には、検索結果中の上位ランクにあるサイト程よくクリックされるという傾向が含まれており、この値が高いサイトが閲覧者に数多く選択され、クエリに適合していると判断されたとは必ずしも言えない。また、非特許文献1では、拡張語数が40〜60個でランキングの精度が最大になっており、これでは計算コストがかかってしまう。
そこで本発明は、このような問題に鑑み、クリックログを解析することでアクセスの集中するサイトを的確に特定し、少ない拡張語数で大幅な検索精度の向上を可能にするクエリ拡張を実現することを解決課題としている。
本発明は、前記課題を解決するために創作された技術的思想であって、多くの閲覧者が有用だと判断したアクセスの集中するサイトのタイトルと概要文(スニペット)を拡張語の取得源とみなすことにより、クエリに対する高い適合性を持った拡張語の取得を可能にしている。
具体的には、請求項1記載の発明は、入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索装置であって、前記クエリに対するクリックログを解析して、アクセスの集中するサイトを特定するクリックログ解析手段と、前記アクセスの集中するサイトのタイトルと概要文とを解析して、前記拡張語を取得する拡張語取得手段とを備えることを特徴としている。
また、請求項2記載の発明は、前記クリックログ解析手段が、前記クリックログに存在する複数サイト間の相対的クリック回数を解析してサイトのアクセス集中度合を求める第1解析手段と、前記クリックログに存在するサイトのクリック回数の生起確率を解析してアクセスの集中するサイトの候補を求める第2解析手段と、前記両解析手段の解析結果を統合してアクセスの集中するサイトを特定する解析結果統合手段とを有することを特徴としている。
また、請求項3記載の発明は、前記拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求める手段と、前記拡張語の候補群の各語に対して順序付けを行う手段と、前記順序付けられた各語の順位に基づいて拡張語を選択する手段とを有することを特徴としている。
また、請求項4記載の発明は、前記クエリと前記拡張語とを用いてサイトを検索し、検索結果を出力する検索実行手段と、前記検索実行手段の検索結果に対する利用者のクリック情報を前記クリックログに反映させるクリックログフィードバック処理手段とをさらに備えることを特徴としている。
また、請求項5記載の発明は、入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索方法であって、クリックログ解析手段が、前記クエリに対するクリックログを解析してアクセスの集中するサイトを特定する第1ステップと、拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して前記拡張語を取得する第2ステップとを有することを特徴としている。
また、請求項6記載の発明は、前記第1ステップが、前記クリックログに存在する複数サイト間の相対的クリック回数を解析してサイトのアクセス集中度合を求めるステップと、前記クリックログに存在するサイトのクリック回数の生起確率を解析してアクセスの集中するサイトの候補を求めるステップと、前記両ステップの解析結果を統合してアクセスの集中するサイトを特定するステップとを有することを特徴としている。
また、請求項7記載の発明は、前記第2ステップが、前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求めるステップと、前記拡張語の各候補に対して順序付けを行うステップと、前記順序付けられた各候補の順位に基づいて拡張語を選択するステップとを有することを特徴としている。
また、請求項8記載の発明は、検索実行手段が、前記クエリと前記拡張語とを用いてサイトを検索し検索結果を出力するステップと、クリックログフィードバック処理手段が、前記ステップの検索結果に対する利用者のクリック情報を前記クリックログに反映させるステップとをさらに有することを特徴としている。
また、請求項9記載の発明は、文章検索プログラムであり、請求項5〜8のいずれか1項に記載の文章検索方法の各ステップをコンピュータに実行させることを特徴としている。
また、請求項10記載の発明は、コンピュータの読み取り可能な記録媒体であり、請求項9記載の文章検索プログラムを記録したことを特徴としている。
請求項1〜10記載の発明によれば、アクセスの集中するサイトのタイトルと概要文(スニペット)から拡張語が取得されることから、クエリに対する高い適合性を持った拡張語が取得可能になる。これにより、拡張語の数を低減でき、計算コストを抑えつつ高精度の検索結果を得ることができる。
特に、請求項2.6記載の発明によれば、二つの独立した尺度の解析結果を組み合わせていることから、アクセスの集中するサイトを的確に特定することができる。
また、請求項4.8記載の発明によれば、検索結果に対する利用者の判断(クリック)をクリックログへ随時反映させることができる。
図1は、本発明の実施形態に係る文章検索装置1を示している。ここでは前記文章検索装置1がコンピュータにより構成された例を説明するが、文章検索装置はこれに限定されるものではなく、例えば文章検索の処理ロジックを実装したIC(Integrated Circuit)チップを備えた計算機などでもよく、また携帯電話などのモバイル端末などでもよい。
前記文章検索装置1は、図1に示すように、主な4つの機能ブロック、即ちクエリ入力画面101および結果表示画面102を表示する表示部100と、入力されたクエリ及び該クエリに関連する拡張語とを用いて検索式を生成する検索式生成部110と、入力されたクエリに対する拡張語を取得する拡張語選択部120と、前記検索式を実行する検索実行部140とを備えている。
前記各機能ブロック100.110.120.140の機能は、前記文章検索装置1の制御部(CPU:Central Processor Unit)が文章検索プログラムを読み込んで実現されている。また、前記文章検索装置1は、コンピュータの通常の構成要素、例えば図示省略のキーボードやマウスなどの入力部と、処理データなどを一時記憶する書き換え可能なメモリ(RAM)と、ネットワーク接続に使用する通信デバイスと、ハードディスクドライブ装置などの記憶部と、ディスプレイなどの表示部とを備えている。以下、前記各機能ブロック100.110.120.140について図1に基づき詳細に説明する。
<表示部100>
前記表示部100には、利用者がクエリ(検索語)を入力するクエリ入力画面101および前記検索実行部140から得た検索結果を表示する結果表示画面102がブラウザを介して表示される。ここでは、利用者は前記クエリ入力画面101にて前記キーボードなどを用いてクエリを入力する。
<検索式生成部110>
前記検索式生成部110は、前記クエリ入力画面101において入力された前記クエリを受信し、受信したクエリおよび該クエリに対する拡張語の要求を前記拡張語選択部120へ送信する。また、前記拡張語選択部120から拡張語を受信すると、この拡張語を用いて初期のクエリに対する検索結果を並び替える処理を行う検索式を生成し、これを前記検索実行部140へ送信する。この検索式を用いて、入力されたクエリに対する初回の検索結果のランキングを、前記拡張語を用いてより精度の高いランキングに並び替えている。
<拡張語選択部120>
前記拡張語選択部120は、命令部121、解析結果統合部122、解析部A123、解析部B124、解析部C125、情報抽出部128、照合部129、検索結果取得部130、機能語抽出・名詞句生成部133、拡張語の重み・順序付け部134、クリックログフィードバック処理部150と、3つのDB(データベース)、即ちクリックログDB126、クリック確率DB127、インデックスDB132と、検索エンジン131とを有している。このうち前記各DB126.127.132は、前記ハードディスクドライブ装置上に構築されている。
前記拡張語選択部120は、前記検索式生成部110から前記クエリと拡張語の要求を受信すると、前記命令部121に前記クエリを送信する。
前記命令部121は、前記拡張語選択部120から前記クエリを受信すると、受信したクエリとクリックログの解析要求とを前記解析結果統合部122へ送信する。
前記解析結果統合部122は、前記命令部121から前記クエリとクリックログの解析要求を受信すると、これらを前記解析部A123および前記解析部B124へ送信する。
前記解析部A123および前記解析部B124は、前記解析結果統合部122から前記クエリとクリックログの解析要求を受信すると、前記クリックログDB126から前記クエリに対応するクリックログを読み出す。前記クリックログDB126には、クエリに対する検索結果中において、閲覧者が実際に選択したサイト(clicked document)のURLがクリック回数に基づきランク付けされ、これがクリックログとして格納されている。このクリックログDB126は、図外のサーバからインターネット経由で予め取得したクリックログのデータを用いて構築される。
前記解析部A123は、読み出したクリックログをサイト毎のアクセス集中度合に着目して解析し、解析結果を前記解析結果統合部122へ返信する。
前記解析部B124はさらに、前記クリック確率DB127に保存されているランク毎のサイトのクリック確率を読み出し、前記両DB126.127から読み出したクリックログとクリック確率とを解析して、解析結果を前記解析結果統合部122へ返信する。なお、前記クリック確率DB127も、前記クリックログDB126と同様に前記サーバ上の前記クリックログのデータを用いて構築される。
前記解析結果統合部122は、前記解析部A123および前記解析部B124から各解析結果を受信すると、それらを統合してアクセス集中サイト(Access Concentration Sites:以下、ACSと略す)を特定し、そのURLを前記命令部121に返信する。アクセス集中サイト(ACS)の詳細については後述する。
前記命令部121は、前記解析結果統合部122からアクセス集中サイト(ACS)のURLを受信すると、このURLを前記情報抽出部128へ送信する。
前記情報抽出部128は、前記命令部121から前記クエリとアクセス集中サイト(ACS)のURLを受信すると、これらを前記照合部129へ送信する。
前記照合部129は、前記情報抽出部128から前記クエリとアクセス集中サイト(ACS)のURLを受信すると、前記クエリを前記検索結果取得部130へ送信する。
前記検索結果取得部130は、前記照合部129から前記クエリを受信すると、このクエリを前記検索エンジン131へ投入する。
前記検索エンジン131は、前記検索結果取得部130もしくは前記検索実行部140から検索結果の要求を受信すると、前記インデックスDB132を検索した検索結果を返信する。
前記インデックスDB132には、「World Wide Web」もしくは「Mobile Web」のサイトが各々インデックス加工されて保存されている。この前記インデックスDB132は、予め図外のサーバからインターネット経由で取得したデータを用いて構築される。ここでは、前記検索エンジン131が前記インデックスDB132を備えているものとする。
前記検索結果取得部130は、前記検索エンジン131から前記クエリに対する検索結果を受信すると、該検索結果を前記照合部129へ返信する。
前記照合部129は、前記検索結果取得部130から前記クエリに対する検索結果を受信すると、該検索結果のURLと前記情報抽出部128から受信したアクセス集中サイト(ACS)のURLとを照合し、該検索結果のURLからアクセス集中サイト(ACS)を識別する。そして、識別したアクセス集中サイト(ACS)の情報(URL、タイトルなど)を前記情報抽出部128へ返信する。
前記情報抽出部128は、前記照合部129からアクセス集中サイト(ACS)の情報(URL、タイトルなど)を受信すると、この情報からタイトルとスニペット(Titles and Snippets)を抽出し、これらを前記機能語抽出・名詞句生成部133へ送信する。
前記機能語抽出・名詞句生成部133は、前記情報抽出部128からアクセス集中サイト(ACS)のタイトルとスニペットを受信すると、これらを形態素解析し、機能語の抽出もしくは名詞句を生成する。そして、これらを後のクエリ拡張で用いる拡張語の候補群とし、前記拡張語の重み・順序付け部134へ送信する。
前記拡張語の重み・順序付け部134は、前記機能語抽出・名詞句生成部133から拡張語の候補群を受信すると、非特許文献2の「Robertson Selection Value(RSV)」に基づいて各拡張語の候補群の重み付け、順序付けを行い、この結果を前記拡張語選択部120へ送信する。
前記拡張語選択部120は、前記拡張語の重み・順序付け部134から拡張語の候補群を受信すると、この候補群から実際に使用する拡張語を選択し、これらを前記検索式生成部110へ返信する。
前記解析部C125は、前記クリックログDB126から全てのクリックログを読み出して各ランクのサイトに対するクリック確率を算出し、この算出結果を用いて前記クリック確率DB127を更新する。この更新処理は予め設定された一定時間毎に実行される。
前記クリックログフィードバック処理部150は、前記結果表示画面102に表示された検索結果に対して利用者がクリックしたサイトの情報(クリック情報)を記録し、これを基に新たなクリックログを生成して前記クリックログDB126へ随時フィードバックさせる。
<検索実行部140>
前記検索実行部140は、前記検索式生成部110から検索式を受信すると、これを前記検索エンジン131へ投入し、対応する検索結果を受信する。そして、この検索結果を前記結果表示画面102へ表示する。
<動作例>
前記文章検索装置1は、利用者から入力されたクエリを基にクリックログを解析して拡張語を取得し、この拡張語を用いてクエリ拡張をすることによりさらに精度の高い検索結果を得ている。この一連の処理は主に4つのフェーズ、即ちクエリ入力フェーズ、クリックログ解析フェーズ、拡張語取得フェーズ、検索実行フェーズから構成されている。以下、この各フェーズの詳細な処理内容について、図2〜7に基づき説明する。
(1)クエリ入力フェーズ
図2は、クエリ入力フェーズの処理フローを示している。まず、利用者は前記クエリ入力画面101においてクエリを入力する。入力されたクエリは、前記検索式生成部110へ送信される。前記検索式生成部110は、前記拡張語選択部120へ前記クエリとともに拡張語の抽出・選択要求を送信する。
(2)クリックログ解析フェーズ
クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析する。この目的は、クリックログ中のサイトにおいてアクセスの集中するサイトを特定することにある。なぜなら閲覧者は、検索結果中のサイトを選択する(クリックする)際、そのサイトのタイトルとスニペット(概要文)を見て判断すると考えられ、アクセスの集中するサイトのタイトルとスニペットには、閲覧者が有用だと判断したキーワードがあると期待できるからである。そして、このキーワードでクエリ拡張をすることにより、大幅な検索の精度向上が望めると考えられる。ここではそのようなサイトをアクセス集中サイト(ACS)とし、そのタイトルとスニペット(Titles and Snippets)をTSと呼ぶ。クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析することにより、アクセス集中サイト(ACS)の特定を行っている。
図3は、クリックログ解析フェーズの処理フローを示している。前記命令部121は、前記拡張語選択部120から前記クエリを受信すると(図2の記号Aから続く)、受信した前記クエリとそれに対するクリックログの解析要求を前記解析結果統合部122へ送信する。前記解析結果統合部122は、この要求を受けると、前記解析部A123と前記解析部B124へ前記クエリを送信し、解析フェーズが開始される。
前記解析部A123は、アクセス集中サイト(ACS)を特定するための指標となるアクセス集中度合(ACD)を算出する。具体的には、前記解析部A123は、前記クリックログDB126から前記クエリに対するクリックログを読み出す。そして、読み出したクリックログのあるランクに存在するサイトと、その両隣のランクに存在するサイトのクリック回数に着目し、その相対的クリック回数を式(1)および式(2)により算出する。この式(1)および式(2)は、前記文章検索装置1のプログラムに定義されているものとする。
Figure 2010055164
Figure 2010055164
ここで、c(q,r)はクエリqに対するクリックログ中でランクrとなったサイトのクリック回数を示し、c(q,r−1)、c(q,r+1)は、ランクrの左隣のランクr−1、右隣のランクr+1となったサイトのクリック回数を示す。
また、slopeLおよびslopeRは、クリックログをあるクエリqに対して解析し、ランクとクリック回数に基づいて曲線を描いたときのランクr−1およびランクr+1に対するそれぞれの傾きに対応する。この曲線の例を図4に示す。
図4において、横軸はサイトのランク、縦軸はクリック回数を示している。ここで、特定クエリ曲線はクリックログをあるクエリに対して解析して描いた曲線、平均クエリ曲線はクリックログを全てのクエリに対して解析し、そのクエリの個数で平均して描いた曲線を表す。
このとき、特定クエリ曲線の傾きが急になる、即ち特定クエリ曲線が強いピークを描いているランクにあるサイトをアクセスの集中するサイトと想定し、これをアクセス集中サイト(ACS)の候補とみなす。この曲線の傾きの程度を、式(3)でアクセス集中度合ACD(q,r)として定義する。この式(3)は、前記文章検索装置1のプログラムに定義されているものとする。
Figure 2010055164
ここでθL(r)、θR(r)は傾きslopeL、slopeRに対する角度を示しており、アクセス集中度合ACD(q,r)はこの角度により特徴付けられる。前記解析部A123は、アクセス集中度合ACD(q,r)をサイト毎に算出し、解析結果として前記解析結果統合部122へ返信する。
前記解析部B124は、アクセス集中サイト(ACS)を特定するための別の指標として、クリックログ中のサイトのクリック回数が明らかに多いかどうかを統計的に判断する。即ち、あるランクrに存在するサイトのクリック回数が、そのランクrが期待するクリック回数(平均クリック回数)を大きく上回っていれば、そのサイトは偶然でなく閲覧者に意図的に選択されたといえる。
具体的には、前記解析部B124は、前記解析結果統合部122から前記クエリqとクリックログの解析要求を受けると、前記クリックログDB126から前記クエリqに対するクリックログを読み出す。また、これと同時に、前記クリック確率DB127を参照してランクrに存在するサイトのクリック確率P(r)を読み出す。そして、あるランクrに存在するサイトのクリック回数の分布は二項分布に従うと仮定し、実際のクリック回数c(q,r)が、そのランクが期待するクリック回数(平均クリック回数)を大きく上回っているかどうかを、式(4)により生起確率p(q,r)として算出する。この式(4)は、前記文章検索装置1のプログラムに定義されているものとする。
Figure 2010055164
ここで、n(q,r)はランクrのサイトを全閲覧者が見た総回数であり、この単位回数が「試行」にあたる。この総回数n(q,r)は、このランクrにあるサイトのクリック回数c(q,r)と通り越した回数nc(q,r)の和で表される。通り越した回数とは、ランクrより低いランクのサイトがクリックされた回数を示している。もし同一の閲覧者が、ランクrとランクr以下のサイトを連続でクリックした場合などは、閲覧者IDなどで識別して1回とカウントする。
ここでは、ランクrに存在するサイトがクリックされるか否かを二項分布が表現する「1回あたりの試行」とみなし、そのサイトのクリック回数が起こる生起確率p(q,r)が極端に少ない場合に、そのクリック回数は明らかに多いとみなす。
例えば、図5に示すグラフにおいて、横軸はクリック回数、縦軸はその生起確率であり、ランクrのサイトのクリック確率P(r)=32%、試行回数n(q,r)=100の場合のクリック回数の二項分布を示している。つまり、ランクrとなったサイトのクリック確率が100回の試行を行って32%となるとき、期待されるクリック回数の分布は図5のグラフのような二項分布に従うと仮定する。
このとき、実際にランクrとなったサイトが獲得したクリック回数c(q,r)が、グラフの右側2.5%領域(以下、領域Sとする)に含まれる場合、そのサイトは明らかに多くクリックされたと考え、このサイトをアクセス集中サイト(ACS)の候補とみなす。そして、前記解析部B124は、このようにして求めたアクセス集中サイト(ACS)の候補群を解析結果として前記解析結果統合部122へ返信する。
なお、図5において領域Sの閾値である右側2.5%は、一般にその前後において有意な差が現れるとされる閾値であるが、この値は設定などに合わせて適宜変更することができる。
前記解析結果統合部122は、前記解析部A123および前記解析部B124からそれぞれの解析結果を受信すると、これらを基にアクセス集中サイト(ACS)を特定する。即ち、クリック回数の生起確率が二項分布の右側2.5%に入っており、かつそのアクセス集中度合ACD(q,r)が高いサイトの上位K件をアクセス集中サイト(ACS)とみなし、そのURLを取得する。そして、このURLを前記命令部121へ返信する。
このとき、いずれのサイトもクリック回数の生起確率が領域Sに入らない場合は、アクセス集中度合ACD(q,r)の降順でサイトを順序付け、その上位K件をアクセス集中サイト(ACS)とみなす。この上位件数Kの値は、設定に合わせて適宜変更することができる。
前記解析部C125は、前記クリックログDB126から全クリックログを読み出し、各ランクのサイトに対するクリック確率P(r)を算出する。そして、この算出結果を用いて前記クリック確率DB127を更新する。この更新処理は予め設定された一定時間ごとに行われる。
(3)拡張語取得フェーズ
拡張語取得フェーズでは、クリックログ解析フェーズで特定したアクセス集中サイト(ACS)のタイトルと概要文(スニペット)から、クエリ拡張を行うための拡張語を取得する。これは、アクセスの集中するサイトのタイトルとスニペットには閲覧者が有用だと判断したキーワードがあり、このキーワードでクエリ拡張をすることで大幅な検索の精度向上が期待できるためである。
図6は、拡張語取得フェーズの処理フローを示している。前記情報抽出部128が前記命令部121からアクセス集中サイト(ACS)のURLと前記クエリを受信した後に(図3の記号Bから続く)、拡張語取得フェーズが開始される。
前記情報抽出部128は、受信したアクセス集中サイト(ACS)のURLと前記クエリを前記照合部129へ送信する。前記照合部129は、前記クエリを前記検索結果取得部130へ送信し、続いて前記検索結果取得部130はこのクエリを前記検索エンジン131へ投入する。
前記検索エンジン131は、このクエリを用いて前記インデックスDB132に対して検索を実行し、URLと検索結果件数Nを取得して、これらを前記検索結果取得部130へ返信する。これらを受信した前記検索結果取得部130は、検索結果(URLと検索結果件数N)を前記照合部129へ返信する。
前記照合部129は、前記検索結果取得部130から受信した検索結果のURLと、前記情報抽出部128から受信したアクセス集中サイト(ACS)のURLとを照合して、アクセス集中サイト(ACS)を識別する。そして、識別したアクセス集中サイト(ACS)の情報(URL、タイトル、スニペットなど)と前記検索結果件数Nとを前記情報抽出部128へ返信する。
前記情報抽出部128は、受信したアクセス集中サイト(ACS)の前記情報からタイトルとスニペットを抽出し、前記検索結果件数Nとともに前記機能語抽出・名詞句生成部133へ送信する。
前記機能語抽出・名詞句生成部133は、受信したタイトルとスニペットを形態素に分解し、機能語の取得および名詞句の生成を行う。そして、この機能語および名詞句を後に行うクエリ拡張に用いる拡張語の候補群として、前記検索結果件数Nとともに前記拡張語の重み・順序付け部134へ送信する。
前記拡張語の重み・順序付け部134は、受信した各拡張語の候補iと、各拡張語の候補iをタイトルとスニペットに含むアクセス集中サイト(ACS)の個数an(i)、前記検索結果件数N、アクセス集中サイト(ACS)の全個数Kを用いて、非特許文献2の「Robertson Selection Value(RSV)」の式(5)および式(6)を用いて拡張語の重み、順序付けを行う。この式(5)および式(6)は、前記文章検索装置1のプログラムに定義されているものとする。
Figure 2010055164
Figure 2010055164
ここで、n(i)は検索結果件数N中、拡張語の候補iをタイトルとスニペットに含むサイト数である。前記拡張語の重み・順序付け部134は、このように順序付けられた拡張語の候補群を前記拡張語選択部120へ送信する。
前記拡張語選択部120は、受信した拡張語の候補群のうち上位T件を実際にクエリ拡張で使用する拡張語として採用し、採用した拡張語群を前記検索式生成部110へ返信する。この上位件数Tの値は、設定に合わせて適宜変更することができる。
(4)検索実行フェーズ
検索実行フェーズでは、拡張語取得フェーズで取得した拡張語を用いて検索式を生成し、この検索式による検索を実行するとともに、検索結果に対する利用者の判断(クリック)をクリックログに反映させる。
図7は、検索実行フェーズの処理フローを示している。前記検索式生成部110は、前記拡張語選択部120から拡張語群を受信すると(図6の記号Cから続く)、この拡張語群を用いてクエリ拡張を実行する検索式を生成し、これを前記検索実行部140へ送信する。
前記検索実行部140は、受信した検索式を前記検索エンジン131へ投入する。前記検索エンジン131はこの検索式を用いて、前記インデックスDB132に格納されたサイトのタイトルとボディ(本文)それぞれに対して検索を行う。
この検索式では、まず利用者が入力した初期クエリに対する検索結果の集合(ランク付けされたサイト群)を決定し、次にこのサイト群に対して前記拡張語を用いて採点を行い、この点数に基づいてより精度の高いランキングに並べ替える方法が定義されている。
具体的には、初期クエリに対する検索結果の各サイトの要素である文章に対して、「拡張語の重みrsv(i)×各文章における拡張語のtf・idf」を算出して採点を行い、この点数でサイト群を並べ替える。ここで「tf・idf」は、ある単語が一つの文書にどのくらい出現するかなどの尺度により求められる単語の重みを表す。そして、このように並べ替えた結果を前記結果表示画面102へ表示する。したがって、利用者は、最初に入力したクエリに対し、より高い精度で並べられたランキングを検索結果として確認することができる。
この検索結果に対し利用者は、サイトを選択する判断(クリック)を行う。このクリック情報(利用者がクリックしたサイトの情報)は前記クリックログフィードバック処理部150へ送信される。前記クリックログフィードバック処理部150は、このクリック情報から新たなクリックログを生成し、これを用いて前記クリックログDB126を随時更新する。
以上のように、本実施形態に係る文章検索装置1によれば、アクセス集中サイト(ACS)を特定する際、二つの独立した尺度であるアクセス集中度合ACDおよびクリック回数の生起確率を組み合わせて特定していることから、アクセス集中サイト(ACS)の的確な判別が可能となる。
また、アクセス集中サイト(ACS)のタイトルとスニペットから抽出されるキーワードを用いてクエリ拡張を行うことから、少ない拡張語数(1〜5語)で検索の大幅な精度向上を実現することができる。
さらに、拡張語の取得の際に利用するクリックログDBは、利用者からのフィードバックの自動処理により随時更新されることから、クエリに対して時々刻々と変化する時代背景に沿った拡張語を適切に抽出することが可能となる。
<他例>
前記クリックログDB126と前記インデックスDB132とは、必ずしも前記文章検索装置1に実装される必要はなく、例えば前記文章検索装置1にネットワークを介して接続された図外のサーバ内に実装した態様であってもよい。この場合に、前記両DB126.132への接続は前記通信デバイスを介して行われる。
即ちクリックログ解析フェーズでは、前記解析部A123および前記解析部B124が、前記通信デバイスを介して前記クリックログDB126に接続して、前記クエリに対応するクリックログを取得する。取得したクリックログのデータは前記メモリ(RAM)に一時記憶され、前記両解析部123.124は前述の手法によりこのデータを解析する。
また、前記解析部C125は、同様に前記通信デバイスを介して前記クリックログDB126へ接続し、全てのクリックログを取得する。そして、取得したクリックログからクリック確率を算出し、前記クリック確率DB127を更新する。
拡張語取得フェーズおよび検索実行フェーズでは、前記検索エンジン131が前記通信デバイスを介して前記インデックスDB132へ接続し、検索を行う。また、前記クリックログフィードバック処理部150は、同様に前記通信デバイスを介して前記クリックログDB126へ接続し、前記クリックログDB126を随時更新する。
なお、本発明は、コンピュータを前記文章検索装置1の各機能ブロック100.110.120.140として機能させる文章検索プログラムとしても提供することができる。このプログラムは、各機能ブロック100.110.120.140の全ての処理をコンピュータに実行させるものでもよく、あるいはその一部の処理を実行させるものであってもよい。
このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。この記録媒体から読み出されたプログラムコードが、本実施形態の各機能ブロックとしてコンピュータを機能させるので、該記録媒体も本発明を構成する。
本発明の実施形態に係る文章検索装置の構成図。 同 クエリ入力フェーズの処理フロー図。 同 クリックログ解析フェーズの処理フロー図。 同 アクセス集中度合ACDを示すグラフ。 同 クリック回数の二項分布を示すグラフ。 同 拡張語取得フェーズの処理フロー図。 同 検索実行フェーズの処理フロー図。
符号の説明
1…文章検索装置
100…表示部
101…クエリ入力画面
102…結果表示画面
110…検索式生成部
120…拡張語選択部
121…命令部
122…解析結果統合部
123…解析部A(第1解析手段)
124…解析部B(第2解析手段)
125…解析部C
126…クリックログDB
127…クリック確率DB
128…情報抽出部
129…照合部
130…検索結果取得部
131…検索エンジン
132…インデックスDB
133…機能語抽出・名詞句生成部
134…拡張語の重み・順序付け部
140…検索実行部
150…クリックログフィードバック処理部

Claims (10)

  1. 入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索装置であって、
    前記クエリに対するクリックログを解析して、アクセスの集中するサイトを特定するクリックログ解析手段と、
    前記アクセスの集中するサイトのタイトルと概要文とを解析して、前記拡張語を取得する拡張語取得手段と、
    を備えることを特徴とする文章検索装置。
  2. 前記クリックログ解析手段は、
    前記クリックログに存在する複数サイト間の相対的クリック回数を解析してサイトのアクセス集中度合を求める第1解析手段と、
    前記クリックログに存在するサイトのクリック回数の生起確率を解析してアクセスの集中するサイトの候補を求める第2解析手段と、
    前記両解析手段の解析結果を統合してアクセスの集中するサイトを特定する解析結果統合手段とを有する
    ことを特徴とする請求項1記載の文章検索装置。
  3. 前記拡張語取得手段は、
    前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求める手段と、
    前記拡張語の各候補に対して順序付けを行う手段と、
    前記順序付けられた各候補の順位に基づいて拡張語を選択する手段とを有する
    ことを特徴とする請求項1または2のいずれか1項に記載の文章検索装置。
  4. 前記クエリと前記拡張語とを用いてサイトを検索し、検索結果を出力する検索実行手段と、
    前記検索実行手段の検索結果に対する利用者のクリック情報を前記クリックログに反映させるクリックログフィードバック処理手段とをさらに備える
    ことを特徴とする請求項1〜3のいずれか1項に記載の文章検索装置。
  5. 入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索方法であって、
    クリックログ解析手段が、前記クエリに対するクリックログを解析してアクセスの集中するサイトを特定する第1ステップと、
    拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して前記拡張語を取得する第2ステップと、
    を有することを特徴とする文章検索方法。
  6. 前記第1ステップは、
    前記クリックログに存在する複数サイト間の相対的クリック回数を解析してサイトのアクセス集中度合を求めるステップと、
    前記クリックログに存在するサイトのクリック回数の生起確率を解析してアクセスの集中するサイトの候補を求めるステップと、
    前記両ステップの解析結果を統合してアクセスの集中するサイトを特定するステップとを有する
    ことを特徴とする請求項5記載の文章検索方法。
  7. 前記第2ステップは、
    前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求めるステップと、
    前記拡張語の各候補に対して順序付けを行うステップと、
    前記順序付けられた各候補の順位に基づいて拡張語を選択するステップとを有する
    ことを特徴とする請求項5または6のいずれか1項に記載の文章検索方法。
  8. 検索実行手段が、前記クエリと前記拡張語とを用いてサイトを検索し検索結果を出力するステップと、
    クリックログフィードバック処理手段が、前記ステップの検索結果に対する利用者のクリック情報を前記クリックログに反映させるステップとをさらに有する
    ことを特徴とする請求項5〜7のいずれか1項に記載の文章検索方法。
  9. 請求項5〜8のいずれか1項に記載の文章検索方法の各ステップをコンピュータに実行させることを特徴とする文章検索プログラム。
  10. 請求項9記載の文章検索プログラムを記録したことを特徴とするコンピュータの読み取り可能な記録媒体。
JP2008216556A 2008-08-26 2008-08-26 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 Active JP4759600B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008216556A JP4759600B2 (ja) 2008-08-26 2008-08-26 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216556A JP4759600B2 (ja) 2008-08-26 2008-08-26 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2010055164A true JP2010055164A (ja) 2010-03-11
JP4759600B2 JP4759600B2 (ja) 2011-08-31

Family

ID=42071050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216556A Active JP4759600B2 (ja) 2008-08-26 2008-08-26 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4759600B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209999A (ja) * 2010-03-30 2011-10-20 Yahoo Japan Corp 情報処理装置、データ抽出方法及びプログラム
JP2011221754A (ja) * 2010-04-08 2011-11-04 Yahoo Japan Corp 検索結果更新システム、サーバ及び方法
WO2012121011A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体
JP2017508214A (ja) * 2014-03-21 2017-03-23 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索推奨の提供

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209999A (ja) * 2010-03-30 2011-10-20 Yahoo Japan Corp 情報処理装置、データ抽出方法及びプログラム
JP2011221754A (ja) * 2010-04-08 2011-11-04 Yahoo Japan Corp 検索結果更新システム、サーバ及び方法
WO2012121011A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体
JP2012185666A (ja) * 2011-03-04 2012-09-27 Rakuten Inc 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
KR101243457B1 (ko) 2011-03-04 2013-03-13 라쿠텐 인코포레이티드 집합 확장 처리 장치, 집합 확장 처리 방법, 및 비일시적인 기록 매체
CN102971733A (zh) * 2011-03-04 2013-03-13 乐天株式会社 集合扩展处理装置、集合扩展处理方法、程序、及非暂时性记录媒体
US9268821B2 (en) 2011-03-04 2016-02-23 Rakuten, Inc. Device and method for term set expansion based on semantic similarity
JP2017508214A (ja) * 2014-03-21 2017-03-23 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索推奨の提供

Also Published As

Publication number Publication date
JP4759600B2 (ja) 2011-08-31

Similar Documents

Publication Publication Date Title
US7849104B2 (en) Searching heterogeneous interrelated entities
JP4638439B2 (ja) ウェブ検索の個人化
US7890521B1 (en) Document-based synonym generation
US8019758B2 (en) Generation of a blended classification model
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
KR20140128443A (ko) 관련 엔티티들
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
US8234584B2 (en) Computer system, information collection support device, and method for supporting information collection
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
KR20100132376A (ko) 스니펫 제공 장치 및 방법
JP2009122807A (ja) 連想検索システム
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
KR101178208B1 (ko) 키워드 추출 장치 및 방법
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
JP2013054606A (ja) 文書検索装置及び方法及びプログラム
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
JP2009080806A (ja) Webページにリンクを挿入する方法
JP2004054882A (ja) 類義語検索装置、方法、プログラム及び記憶媒体
JP2011100191A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110531

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110606

R150 Certificate of patent or registration of utility model

Ref document number: 4759600

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350