JP5290041B2 - 情報検索装置及び情報検索方法 - Google Patents

情報検索装置及び情報検索方法 Download PDF

Info

Publication number
JP5290041B2
JP5290041B2 JP2009108222A JP2009108222A JP5290041B2 JP 5290041 B2 JP5290041 B2 JP 5290041B2 JP 2009108222 A JP2009108222 A JP 2009108222A JP 2009108222 A JP2009108222 A JP 2009108222A JP 5290041 B2 JP5290041 B2 JP 5290041B2
Authority
JP
Japan
Prior art keywords
search
user
information
url
attribute distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009108222A
Other languages
English (en)
Other versions
JP2009301540A (ja
Inventor
純 佐々木
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009108222A priority Critical patent/JP5290041B2/ja
Publication of JP2009301540A publication Critical patent/JP2009301540A/ja
Application granted granted Critical
Publication of JP5290041B2 publication Critical patent/JP5290041B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、検索クエリに対応する検索結果をユーザに提供する情報検索装置及び情報検索方法に関する。
現在インターネットには膨大な情報が蓄積されており、ユーザは検索などの手法で所望の情報を情報提供装置に要求することで、情報にアクセスしている。従来の検索エンジンなどの情報提供装置は、ユーザが入力する検索クエリ情報と、格納している文書群のキーワード分布などの文書情報との関係を用いて、条件に合致する情報を提供するものが一般的であった。従来のキーワードによる検索手法としては特許文献1などがある。
特開2002−149683号公報
しかしながら、検索クエリと文書のキーワード分布により合致度を算出する方法では、ユーザが意図していない意味で検索クエリのキーワードが使われている場合においても、その出現頻度が大きければ検索結果の上位としてランキングされてしまうという問題がある。
例えば、商品名やwebサイト名、TV番組名、ソフトウェア名、店舗名などの固有名詞の中には、一般的な名詞がつけられる場合があり、ユーザがこうした固有名詞に関する情報を入手したくて検索クエリとして入力した場合でも、従来の検索エンジンでは、同じ言葉が一般的な名詞の意味で使われているWebページであっても、検索結果として上位に表示されてしまい、検索ユーザの意図と異なる検索結果が提供されてしまうことがある。
このように、従来の検索手法では、検索クエリとして入力される言葉が複数の意味を持ち、検索クエリを入力するユーザの多くが特定の意味に関する情報を入手しようとしている場合において、高い精度で検索結果を提示する方法が課題となっている。
そこで本発明は、より多くのユーザにとって精度の高い検索結果を提供可能な情報検索装置及び情報検索方法を提供することを目的とする。
上記課題を解決するために、本発明の情報検索装置は、予め収集したユーザ属性情報を格納したユーザ属性情報格納手段と、ユーザ毎のネットワークあるいは検索結果の文書へのアクセス履歴を蓄積するアクセス履歴蓄積手段と、ユーザ属性情報格納手段に格納されたユーザ属性情報と、アクセス履歴蓄積手段に蓄積されたアクセス履歴と、に基づいて、アクセスしたユーザに関するURL毎のユーザ属性分布としてのURL属性分布を生成するURL属性分布生成手段と、ユーザ毎の検索履歴を蓄積する検索履歴蓄積手段と、ユーザ属性情報格納手段に格納されたユーザ属性情報と、検索履歴蓄積手段に蓄積されたユーザ毎の検索履歴と、に基づいて、検索クエリ毎に入力したユーザ属性分布としての検索クエリ属性分布を生成する検索クエリ属性分布生成手段と、URL属性分布と、検索クエリ属性分布と、の類似度を基に、ユーザに提示する検索結果を生成する検索結果生成手段と、を備えることを特徴としている。
これにより、検索クエリを入力しているユーザ群の属性の特徴と適合度の高いURLを検索結果として提示することが可能となる。URLにアクセスする手法は、ポータルサイトからのリンククリック、ブログや掲示板からのリンククリック、URLの直接入力、検索エンジンの検索結果からのリンククリックなど多岐に渡る。こうした様々な方法によってURLにアクセスするユーザの属性に偏りがある場合、そのURLにアクセスする一手段である検索エンジンを利用する際に入力される検索クエリの属性分布にも同様の偏りが存在する可能性が高い。そこで、URLに対応するページの記述内容の適合度だけでなく、属性分布の類似度を考慮することで、検索クエリが複数の意味を持つような場合においても、より多くのユーザが意図している意味と関連度の高いURLを上位にランキングした、精度の高い検索結果が提示できるという効果がある。
また、本発明の情報検索装置においては、URL属性分布生成手段は、アクセスした日時毎に分離して抽出したアクセス履歴に基づいて、URL属性分布を生成し、検索クエリ属性分布生成手段は、検索した日時毎に分離して抽出したユーザ毎の検索履歴に基づいて検索クエリ属性分布を生成することが好適である。これにより、時系列のアクセス情報、及び検索情報を含めて属性分布を生成することで、時系列によって同一の検索クエリでユーザが入手したい情報の傾向が異なる場合にも、時間帯、曜日等に応じてユーザの入手したい情報を高い精度で反映した検索結果の提示ができるとういう効果がある。
また、本発明の情報検索装置においては、アクセス履歴蓄積手段は、検索エンジンの検索結果一覧からURLへアクセスした場合の履歴のみを蓄積し、これに基づいてURL属性分布を生成することとしても良い。これにより、ユーザのネットワークへのアクセス履歴が利用できない場合においても、検索エンジンを提供している事業者であれば、本発明の情報検索装置を提供可能であるという効果がある。また、URL属性分布を生成するにあたり、対象となる履歴の数が小さくなるため、アクセス履歴蓄積手段において必要となるストレージの容量が少なくなり、さらに、URL属性分布の生成に要する処理時間を短縮することができるという効果がある。また、検索エンジンの検索結果一覧からURLへのアクセスのみを利用することで、他のURLやスパムメールからのリンク等による、ユーザの意図と無関係なアクセスを除去することが可能となる。検索行為は確実にユーザの意図により行われるものであり、検索結果へのアクセスも、文書のタイトルや要約分を閲覧した上でユーザの判断でクリックされるため、より高い精度でユーザ意図を反映したURL属性分布を生成することが可能となり、より高い精度の検索結果をユーザに提示することができるという効果がある。
上記課題を解決するために本発明の情報検索方法は、情報を提供する情報検索装置により実行される情報検索方法であって、予め収集したユーザ属性情報を格納するユーザ属性情報格納ステップと、ユーザ毎のネットワークあるいは検索結果の文書へのアクセス履歴を蓄積するアクセス履歴蓄積ステップと、ユーザ属性情報格納ステップにおいて格納されたユーザ属性情報と、アクセス履歴蓄積ステップにおいて蓄積されたアクセス履歴と、に基づいて、アクセスしたユーザに関するURL毎のユーザ属性分布としてのURL属性分布を生成するURL属性分布生成ステップと、ユーザ毎の検索履歴を蓄積する検索履歴蓄積ステップと、格納されたユーザ属性情報と、蓄積されたユーザ毎の検索履歴と、に基づいて、検索クエリ毎に入力したユーザ属性分布としての検索クエリ属性分布を生成する検索クエリ属性分布生成ステップと、URL属性分布と、検索クエリ属性分布と、の類似度を基に、ユーザに提示する検索結果を生成する検索結果生成ステップと、を備えたことを特徴とする。
これにより、検索クエリを入力しているユーザ群の属性の特徴と適合度の高いURLを検索結果として提示することが可能となる。URLにアクセスする手法は、ポータルサイトからのリンククリック、ブログや掲示板からのリンククリック、URLの直接入力、検索エンジンの検索結果からのリンククリックなど多岐に渡る。こうした様々な方法によってURLにアクセスするユーザの属性に偏りがある場合、そのURLにアクセスする一手段である検索エンジンを利用する際に入力される検索クエリの属性分布にも同様の偏りが存在する可能性が高い。そこで、URLに対応するページの記述内容の適合度だけでなく、属性分布の類似度を考慮することで、検索クエリが複数の意味を持つような場合においても、より多くのユーザが意図している意味と関連度の高いURLを上位にランキングした、精度の高い検索結果が提示できるという効果がある。
本発明によれば、より多くのユーザにとって精度の高い検索結果を提供可能な情報検索装置及び情報検索方法を提供することが可能となる。
本発明の実施形態に係る情報検索システムの構成を示す図である。 情報検索システムにおいて取得されて用いられる、ユーザのアクセス先の情報の履歴を示すアクセス履歴情報を示す図である。 情報検索システムにおいて取得されて用いられる、ユーザの検索要求の履歴を示す検索履歴情報を示す図である。 情報検索システムにおいて取得されて用いられる、ユーザの属性を示すユーザ属性情報を示す図である。 情報検索システムにおいて生成されて用いられる、URLの属性分布を示す図である。 情報検索システムにおいて生成されて用いられる、検索クエリの属性分布を示す図である。 本発明の実施形態に係る情報検索システムで実行される処理(情報検索方法)を示すフローチャートである。 実施形態の変形例に係る情報検索システムの構成を示す図である。
以下、図面と共に本発明に係る情報検索システム及び情報検索方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る情報検索システムの構成を示す。情報検索システムは、クライアント携帯端末100に対して情報を提供するシステムである。クライアント携帯端末100へ提供される情報は、具体的にはクライアント携帯端末100から送信される検索クエリに対する検索結果の情報である。情報検索は、上記のようにクライアント携帯端末100からの要求に応じて行われる。図1に示すように情報検索システムは、クライアント携帯端末100への情報提供のための主要機能を有する情報検索サーバ140を含んで構成される。また、情報検索システムは、アクセス履歴収集システム101と、検索エンジン102とを含んでいてもよい。情報検索サーバ140、アクセス履歴収集システム101及び検索エンジン102は、互いに接続されており、情報を送受信することができる。
クライアント携帯端末100は、ユーザにより用いられる端末装置であり、ネットワークNへのアクセス機能を有している。具体的には、ネットワークNは、例えば、移動体通信網であり、クライアント携帯端末100は、携帯電話機等の移動通信端末である。クライアント携帯端末100は、所定の方法でネットワークN上の情報にアクセスする。具体的には、クライアント携帯端末100は、URL(Uniform Resource Locator)を含むHTTP(Hyper Text Transfer Protocol)リクエストをネットワークNに送信することで、URLに対応するWebサーバにアクセスしてコンテンツ(情報)を受信する。
クライアント携帯端末100は、ネットワークNを介して情報検索システムを構成する各装置(情報検索サーバ140、アクセス履歴収集システム101及び検索エンジン102)との間で情報の送受信を行うことができる。また、クライアント携帯端末100は、検索クエリを含む検索要求を情報検索システムに送信することによって、当該検索クエリに応じた検索結果の情報を受信する。クライアント携帯端末100は、受信した検索結果の情報を表示出力等して、ユーザへの情報の提示を行う。
アクセス履歴収集システム101は、ネットワーク上に設けられており、ユーザのアクセス先の情報の履歴を示すアクセス履歴情報を取得する手段であるシステムである。即ち、アクセス履歴収集システム101は、ユーザ毎のアクセス履歴情報を取得するアクセス履歴蓄積手段の一機能としてもよい。アクセス履歴収集システム101は、どのクライアント携帯端末100がどのコンテンツ(情報)にいつアクセスしたかという情報を取得する。具体的には、アクセス履歴収集システム101は、図2のテーブルに示すように、クライアント携帯端末100を特定する情報であるユーザID、クライアント携帯端末100により送信されたHTTPリクエストに含まれるURL、及びクライアント携帯端末100がHTTPリクエストを送信した時刻(タイムスタンプ)の各情報を対応付けて取得する。ここで、クライアント携帯端末100がHTTPリクエストを送信した時刻は、ユーザがコンテンツにアクセスした時刻を示している。
各情報の取得方法としては、例えば、アクセス履歴収集システム101がクライアント携帯端末100のプロキシサーバとして機能しており、クライアント携帯端末100から、ユーザIDを含むHTTPリクエストを受信して解析することにより行われる。また、例えば、クライアント携帯端末100から各情報を受信する等の他の方法により各情報を取得してもよい。アクセス履歴収集システム101は、取得したアクセス履歴情報を情報検索サーバ140に送信する。また、アクセス履歴収集システム101がプロキシサーバである場合等には、クライアント携帯端末100から受信したHTTPリクエストを対応するURLのWebサーバに転送する。
検索エンジン102は、クライアント携帯端末100から検索クエリを含む検索要求を受信して、当該検索クエリを用いて検索を行う装置である。ここで検索クエリは、例えば、検索に用いられるキーワードに相当する。また、検索エンジン102による検索の対象は、通常の検索エンジンと同様に、例えば、インターネット上のWebサーバのコンテンツである。
検索エンジン102は、検索結果として、検索クエリに適合したURLの一覧、及びその適合度合ScoreMの一覧を取得(算出)する。適合度合ScoreMは、検索クエリに対して、どの程度、Webページが適合しているかを示す指標値である。検索エンジン102は、取得した情報を情報検索サーバ140に送信する。なお、検索エンジン102における検索自体は、既存の方法に従って行われる。
また、検索エンジン102はユーザから検索クエリを受信した際に、どのユーザが、どのような検索クエリを入力したかという検索履歴情報を情報検索サーバ140に送信する。具体的には、図3のテーブルに示すように、クライアント携帯端末100を特定する情報であるユーザID、クライアント携帯端末100により送信された検索クエリ、及びクライアント携帯端末100が検索クエリを送信した時刻(タイムスタンプ)の各情報を対応付けて取得する。
引き続いて、情報検索システムにおける、クライアント携帯端末100への情報提供のための主要機能を有する情報検索サーバ140の機能について説明する。図1に示すように、情報検索サーバ140は、機能的な構成ブロックとして、URL属性分布生成ブロック110と、検索クエリ属性分布生成ブロック120と、検索結果生成ブロック130とを備えて構成されている。
URL属性分布生成ブロック110は、ユーザのアクセス履歴情報に基づいて、URL毎にアクセスユーザの属性を集計し、URL属性分布を生成する。図1に示すように、URL属性分布生成ブロック110は、更に詳細な機能的な構成要素として、アクセス履歴蓄積部111と、ユーザ属性情報格納部114と、URL属性分布生成部112と、URL属性分布格納部113とを備えて構成される。
アクセス履歴蓄積部111は、アクセス履歴収集システム101から送信されるアクセス履歴情報を受信して、一定期間にわたり蓄積するアクセス履歴蓄積手段である。アクセス情報の蓄積は、例えば、図2に示すテーブルに各情報を格納することにより行われる。アクセス履歴蓄積部111にアクセス履歴情報が蓄積される上記の一定期間については、予め定められている。
ユーザ属性情報格納部114は、ユーザの属性を示す属性情報を格納する属性情報格納手段である。ユーザ属性情報格納部114は、各属性情報をユーザIDに対応付けて格納する。ユーザ属性情報格納部114に格納される属性情報は、例えば、年齢、性別及び住所等である。ユーザ属性情報格納部114に格納される属性情報は、クライアント携帯端末100からユーザIDに対応付けられる形式で通知する、あるいは通信サービスの利用を開始する際にユーザが申告した情報を用いることで予め登録される。属性情報として年齢と性別を利用する場合は、図4のテーブルに示すように、ユーザIDと年齢と性別を対応付けて属性情報が格納される。
URL属性分布生成部112は、URL毎にアクセスしたユーザの属性を集計し、URL属性分布を生成する手段である。URL属性分布生成部112はアクセス履歴蓄積部111と、ユーザ属性情報格納部114を参照し、ユーザIDをキーとして組み合わせることで、個々のURLにアクセスした人数、あるいはアクセスした回数を属性別にカウントし、URL属性分布を生成する。ここで属性別とは、性別と年齢の組み合わせをそのまま利用してもよいし、男性10歳代、女性10歳代のように一定の年齢の範囲毎に集約した属性を利用してもよい。URL属性分布Aは分類する属性の種類nを次元とし、属性毎のアクセス人数、あるいはアクセス回数を要素とするベクトル形式で表現され、A={a1,a2,a3,…,an}と表される。
URL属性分布生成部112によるURL属性分布の生成は、アクセス履歴蓄積部111にアクセス履歴情報が蓄積される毎に蓄積が行われたURLについて行われてもよいし、一定時間間隔毎に全URLについて行われてもよい。
また、URL属性分布生成部112は、アクセスの曜日帯、あるいは時間帯毎にURL属性分布を生成しても良い。この場合、URL属性分布生成部112はアクセス履歴蓄積部111が保持するタイムスタンプから、ユーザがコンテンツにアクセスした時刻としてのHTTPリクエストを送信した時刻を得て、当該時刻から、アクセスした曜日毎、又は時間帯毎に属性分布を生成する。時間帯は、例えば、1時間毎、2時間毎、又は朝(4時から12時)昼(12時から20時)夜(20時から翌日4時)等、予め決めることができる。
URL属性分布生成部112は、生成したURL属性分布を、URL属性分布格納部113に出力する。
URL属性分布格納部113は、URL属性分布生成部112により生成されたURL毎の属性分布を格納するURL属性分布格納手段である。URL属性分布の格納は、例えば、図5のテーブルに示すようにURLと属性分布とを対応付けて格納することにより行われる。URL属性分布生成部112から既に属性分布を格納しているURLに対応するURL属性分布が入力された場合は、入力されたURL属性分布で格納する情報を更新する。
検索クエリ属性分布生成ブロック120は、ユーザが入力した検索履歴情報に基づいて、検索クエリ毎に入力ユーザの属性を集計し、検索クエリ属性分布を生成する。図1に示すように、検索クエリ属性分布生成ブロック120は、更に詳細な機能的な構成要素として、検索履歴蓄積部121と、ユーザ属性情報格納部114と、検索クエリ属性分布生成部122と、検索クエリ属性分布格納部123とを備えて構成される。ここで、ユーザ属性情報格納部114はURL属性分布生成ブロック110と共用で用いられる。
検索履歴蓄積部121は、検索エンジン102から送信される検索履歴情報を受信して、一定期間にわたり蓄積する検索履歴蓄積手段である。検索情報の蓄積は、例えば、図3に示すテーブルに各情報を格納することにより行われる。検索履歴蓄積部121に検索履歴情報が蓄積される上記の一定期間については、予め定められている。
検索クエリ属性分布生成部122は、検索クエリ毎に入力したユーザの属性を集計し、検索クエリ属性分布を生成する手段である。検索クエリ属性分布生成部122は検索履歴蓄積部121と、ユーザ属性情報格納部114を参照し、ユーザIDをキーとして組み合わせることで、個々の検索クエリを入力した人数、あるいは入力した回数を属性別にカウントし、検索クエリ属性分布を生成する。ここで属性別とは、URL属性分布で利用した属性分類と同様のものを利用する。検索クエリ属性分布Bは分類する属性の種類nを次元とし、属性毎の入力人数、あるいは入力回数を要素とするベクトル形式で表現され、B={b1,b2,b3,…,bn}と表される。
検索クエリ属性分布生成部122による検索クエリ属性分布の生成は、検索履歴蓄積部121に検索履歴情報が蓄積される毎に蓄積が行われた検索クエリについて行われてもよいし、一定時間間隔毎に全検索クエリについて行われてもよい。
また、検索クエリ属性分布生成部122は、アクセスの曜日帯、あるいは時間帯毎に検索クエリ属性分布を生成しても良い。この場合、検索クエリ属性分布生成部122は検索履歴蓄積部121が保持するタイムスタンプから、検索クエリを送信した時刻を得て、当該時刻から、曜日毎、又は時間帯毎に属性分布を生成する。時間帯は、例えば、1時間毎、2時間毎、又は朝(4時から12時)昼(12時から20時)夜(20時から翌日4時)等、予め決めることができる。
検索クエリ属性分布生成部122は、生成した検索クエリ属性分布を、検索クエリ属性分布格納部123に出力する。
検索クエリ属性分布格納部123は、検索クエリ属性分布生成部122により生成された検索クエリ毎の属性分布を格納する検索クエリ属性分布格納手段である。検索クエリ属性分布の格納は、例えば、図6のテーブルに示すように検索クエリと属性分布とを対応付けて格納することにより行われる。検索クエリ属性分布生成部122から既に属性分布を格納している検索クエリに対応する検索クエリ属性分布が入力された場合は、入力された検索クエリ属性分布で格納する情報を更新する。
検索結果生成ブロック130は、URL属性分布と検索クエリ属性分布に基づいて、ユーザに提供する検索結果を生成して提供を行う。検索結果生成ブロック130は、更に詳細な機能的な構成要素として、一次検索結果取得部131と、検索クエリとURLの属性分布属性分布類似度算出部132と、スコア再計算部133と、最終検索結果生成部134とを備えて構成される。
一次検索結果取得部131は、検索エンジン102から送信される検索結果として、検索クエリ、検索クエリに適合したURL、及びその適合度合ScoreMの一覧を受信する手段である。一次検索結果取得部131は、取得した情報を、検索クエリとURLの属性分布属性分布類似度算出部132に出力する。
検索クエリとURLの属性分布属性分布類似度算出部132は、一次検索結果取得部131から入力される、検索クエリとURLに対して、それぞれの属性分布の類似度を計算する手段である。属性分布の類似度は、例えば、検索クエリ属性分布のベクトル表現B={b1,b2,b3,…,bn}と、URL属性分布のベクトル表現A={a1,a2,a3,…,an}のコサイン距離cosθにより算出する。cosθは両ベクトルの内積(A・B)を両ベクトルの絶対値の積(|A|・|B|)で割った値であり、次式で算出される。
Figure 0005290041
cosθは0〜1の値をとり、両ベクトルの属性分布が類似していれば1に近くなり、属性分布が乖離していれば0に近くなる。すなわち、検索クエリを入力しているユーザの属性分布がURLにアクセスしているユーザの属性分布に近いほど大きい値となる。cosθは、検索結果として取得した全てのURLに対して計算する。検索クエリとURLの属性分布属性分布類似度算出部132は、検索クエリ、各URLのScoreM、及びcosθをスコア再計算部133に出力する。
スコア再計算部133は、検索クエリとURLの属性分布属性分布類似度算出部132から入力される検索結果URLに対して、属性分布類似度を考慮したScoreLを計算する手段である。ScoreLは検索クエリとURLの適合度ScoreMと、検索クエリとURLの属性分布類似度であるcosθを合成することで算出する。スコア再計算部133は、ScoreLを、例えば予めスコア再計算部133に記憶された以下の式により算出する。
ScoreL=(1−α)*ScoreM+α*cosθ…(2)
ここで、αは(0<α<1)を満たす値であり、検索クエリとURLの属性分布の類似度を検索結果に反映させたい度合いに応じて予め設定されて、スコア再計算部133に記憶されている。なお、検索エンジン102からの出力に、ScoreMが含まれない場合は、cosθをScoreLとしてもよい。スコア再計算部133は、各URLを示す情報と、URLに対応するScoreLとを最終検索結果生成部134に出力する。
最終検索結果生成部134は、スコア再計算部133から入力された情報を基にクライアント携帯端末100に送信する情報を生成して送信する検索結果提供手段の一機能である。最終検索結果生成部134は、入力されたURLを、ScoreLの値が大きいものからソートして、最終検索結果として生成して、クライアント携帯端末100に送信して、ユーザに提示する。以上が、本実施形態に係る情報検索サーバ140の機能構成である。
引き続いて、図7のフローチャートを用いて、本実施形態に係る情報検索システムにより実行される処理(情報検索方法)について説明する。
情報検索システムでは、まず、クライアント携帯端末100からユーザIDに対応付けられる形式で通知する、あるいは通信サービスの利用を開始する際にユーザが申告した情報を用いることで、ユーザの属性情報がユーザ属性情報格納部114に登録される(S11)。
続いて、情報検索サーバ140のアクセス履歴蓄積部111、及び検索履歴蓄積部121によって、クライアント携帯端末100のアクセス履歴情報、検索履歴が一定期間取得されて蓄積される(S12)。アクセス履歴情報の蓄積は、具体的には、以下のように行われる。クライアント携帯端末100からのアクセス要求であるHTTPリクエストが、アクセス履歴収集システム101により受信される。それに基づいて、アクセス履歴収集システム101によってアクセス履歴情報が生成される。生成されたアクセス履歴情報が、アクセス履歴収集システム101から情報検索サーバ140に送信されて、アクセス履歴蓄積部111によって受信される。
検索履歴情報の蓄積は、具体的には、以下のように行われる。クライアント携帯端末100からの検索要求が、検索エンジン102により受信される。検索エンジン102は、検索要求に含まれる検索クエリを、ユーザID、タイムスタンプと共に、情報検索サーバ140に送信し、検索履歴蓄積部121が受信する。
続いて、URL属性分布生成部112、及び検索クエリ属性分布生成部122によって、URL属性分布、及び検索クエリ属性分布URLが生成される(S13)。URL属性分布の生成は、具体的には以下のように行われる。URL属性分布生成部112は、アクセス履歴蓄積部111、及びユーザ属性情報格納部114に格納された、アクセス履歴情報、及びユーザ属性情報を参照し、ユーザIDをキーとして集計し、各URLのアクセス人数、あるいはアクセス回数を属性毎に算出する。検索クエリ属性分布の生成は、具体的には以下のように行われる。検索クエリ属性分布生成部122は、検索履歴蓄積部121、及びユーザ属性情報格納部114に格納された、検索履歴情報、及びユーザ属性情報を参照し、ユーザIDをキーとして集計し、各検索クエリの入力人数、あるいは入力回数を属性毎に算出する。
また、URL属性分布生成部112は、アクセスの曜日帯、あるいは時間帯毎にURL属性分布を生成しても良い。この場合、URL属性分布生成部112はアクセス履歴蓄積部111が保持するタイムスタンプから、ユーザがコンテンツにアクセスした時刻としてのHTTPリクエストを送信した時刻を得て、当該時刻から、アクセスした曜日毎、又は時間帯毎に属性分布を生成する。時間帯は、例えば、1時間毎、2時間毎、又は朝(4時から12時)昼(12時から20時)夜(20時から翌日4時)等、予め決めることができる。
また、検索クエリ属性分布生成部122は、アクセスの曜日帯、あるいは時間帯毎に検索クエリ属性分布を生成しても良い。この場合、検索クエリ属性分布生成部122は検索履歴蓄積部121が保持するタイムスタンプから、検索クエリを送信した時刻を得て、当該時刻から、曜日毎、又は時間帯毎に属性分布を生成する。
以上が、URL及び、検索クエリの属性分布を生成するまでの処理である。
その後、クライアント携帯端末100から検索クエリを含む検索要求が検索エンジン102に送信(S14)されると以降の処理が行われる。検索エンジン102によって当該検索要求に係る検索が行われて、検索クエリ、及び検索結果を示す情報が検索エンジン102から情報検索サーバ140に送信される。情報検索サーバ140では、一次検索結果取得部131により検索クエリ、及び検索結果を示す情報が受信されて取得される(S15)。
続いて、検索クエリとURLの属性分布類似度算出部132によって、取得された検索クエリと、検索結果であるURL群の属性分布類似度が算出される(S16)。属性分布類似度は、検索クエリ属性分布格納部123、及びURL属性分布格納部113から、検索クエリの属性分布、及びURLの属性分布を取得し、上述した方法によりコサイン距離cosθを算出することで計算される。
続いて、スコア再計算部133によって、属性分布の類似度を考慮したURL検索スコアScoreLが計算される(S17)。ScoreLは一次検索結果のスコアであるScoreMと、属性分布類似度cosθを用いて上述した方法で計算される。
続いて、最終検索結果生成部134によって、ScoreLの大きい順に検索結果のURLがソートされた、最終検索結果を示す情報が生成され、ネットワークNを介して、クライアント携帯端末100に送信される(S18)。
クライアント携帯端末100では、最終検索結果を示す情報が受信されて、表示等の出力がなされる。以上が、本実施形態に係る情報検索システムにより実行される処理である。
上述した本実施形態に係る情報検索システムでは、ユーザの各アクセス先であるWebページURLのユーザ属性分布の偏り、及び検索クエリを入力するユーザの属性分布の偏りが抽出され、両者の属性分布の類似度が生成される。この類似度に基づいて検索結果のURLのスコアが算出されて、このスコアに基づいてURLが並び替えられてユーザに検索結果として提供される。
上記のように本実施形態に係る情報検索システムでは、検索クエリとWebページの一致度合いだけでなく、検索クエリ、及びWebページのURLの属性分布の類似度にも基づいて、ユーザに検索結果情報が提供される。URLの属性分布に偏りがある場合、そのURLを参照するために検索エンジンに入力される検索クエリも同様の偏りを持つ可能性が高い。従って、本実施形態に係る情報検索システムによれば、検索クエリの属性分布を考慮することで、ユーザが参照したいURLをより高い精度で検出して、検索結果として提示することが可能となる。
上記のように本実施形態に係る情報検索システムでは、URL属性分布生成部112及び検索クエリ属性分布生成部122は、時系列のアクセス情報、及び検索情報を含めて属性分布を生成することで、時系列によって同一の検索クエリでユーザが入手したい情報の傾向が異なる場合にも、時間帯、曜日等に応じてユーザの入手したい情報を高い精度で反映した検索結果の提示ができるとういう作用・効果がある。
検索クエリが複数の意味を持ち、その内のひとつが例えば番組名や、店舗名であり、番組の放送時間前後や、店舗の営業時刻など、対応する情報にアクセスされる時間に偏りがある場合、こうした時間に検索した場合に、他の意味に対応する情報に比べ、当該情報が優先的に検索結果の上位に表示され、多くのユーザにとって求めている情報と合致する確率が高くなる。
上述した実施形態では、提供される情報であるURLを並べ替えてユーザに提供していたが、例えば、並べ替えでなく、スコアが高い情報のみをユーザに提供する等のユーザに提供される情報を判断することとしてもよい。
また、上述した実施形態のURL属性分布の生成、及び検索クエリの生成において、ユーザが情報にアクセスした時刻、または、ユーザが検索クエリを送信した時刻を示す情報に基づいて、時間帯や曜日に応じたURL属性分布、及び検索クエリ属性分布を生成することとしてもよい。この場合、任意の粒度に時間、曜日を分割し、分割したそれぞれの時間、あるいは曜日毎に、アクセスあるいは検索を実行したユーザの属性分布を生成し、URL属性分布格納部、及び検索クエリ属性分布格納部に格納する。検索結果は、検索が行われた時間と対応するこれらの属性分布に基づいて、前述の方法でScoreLを算出し、検索結果を提示する。
この構成によれば、時系列によって同一の検索クエリでユーザが入手したい情報の傾向が異なる場合にも、時間帯、曜日等に応じてユーザの入手したい情報を高い精度で反映した検索結果の提示ができる。
続いて、図8を用いて、本実施形態の変形例について説明する。
上述した実施形態では、アクセス履歴蓄積部111において、ユーザ毎のネットワークへのアクセス履歴を蓄積していたが、検索エンジン102の検索結果一覧からURLへアクセスした場合の履歴(ユーザ毎の検索結果の文書へのアクセス履歴)のみを蓄積し、これに基づいてURL属性分布を生成することとしても良い。検索結果一覧からのURLの取得は、例えば検索結果一覧に含まれるURLを、アクセス履歴収集システム101を経由するリダイレクト方式として記述することで行われる。ここでアクセス履歴収集システム101の機能は検索エンジン102の機能として含んでも良い。収集されたアクセス履歴は、上述の実施形態と同様に集計処理が行われ、以後も同様のステップにより動作する。
図8に、変形例における情報検索システムの構成を示す。この図で示したように、アクセス履歴収集システム101は、検索エンジン102からユーザ毎の検索結果の文書へのアクセス履歴のみを受け取る。アクセス履歴収集システム101は、当該ユーザ毎の検索結果の文書へのアクセス履歴のみをアクセス履歴とする以外は、上述した実施形態と同様の機能を備える。
図8においては、アクセス履歴収集システム101は、検索エンジン102とは別に記載されているが、上述の通り、アクセス履歴収集システム101が備える機能は、図8に示す検索エンジン102の中に含めてもよい。
続いて、本変形例の作用及び効果について説明する。
この構成によれば、ユーザのネットワークへのアクセス履歴が利用できない場合においても、検索エンジンを提供している事業者であれば、本発明の情報検索装置を提供可能となる。また、URL属性分布を生成するにあたり、対象となる履歴の数が小さくなるため、アクセス履歴蓄積手段において必要となるストレージの容量が少なくなり、さらに、URL属性分布の生成に要する処理時間を短縮することができるという効果・作用がある。また、検索エンジンの検索結果一覧からURLへのアクセスのみを利用することで、他のURLやスパムメールからのリンク等による、ユーザの意図と無関係なアクセスを除去することが可能となる。検索行為は確実にユーザの意図により行われるものであり、検索結果へのアクセスも、文書のタイトルや要約分を閲覧した上でユーザの判断でクリックされるため、より高い精度でユーザ意図を反映したURL属性分布を生成することが可能となり、より高い精度の検索結果をユーザに提示することができるという効果・作用がある。
100…クライアント携帯端末、101…アクセス履歴収集システム、102…検索エンジン、110…URL属性分布生成ブロック、111…アクセス履歴蓄積部、112…URL属性分布生成部、113…URL属性分布格納部、114…ユーザ属性情報格納部、120…検索クエリ属性分布生成ブロック、121…検索履歴蓄積部、122…検索クエリ属性分布生成部、123…検索クエリ属性分布格納部、130…検索結果生成ブロック、131…一次検索結果取得部、132…検索クエリとURLの属性分布類似度算出部、133…スコア再計算部、134…最終検索結果生成部、140…情報検索サーバ。

Claims (4)

  1. 予め収集したユーザ属性情報を格納したユーザ属性情報格納手段と、
    ユーザ毎のネットワークあるいは検索結果の文書へのアクセス履歴を蓄積するアクセス履歴蓄積手段と、
    前記ユーザ属性情報格納手段に格納されたユーザ属性情報と、前記アクセス履歴蓄積手段に蓄積されたアクセス履歴と、に基づいて、アクセスしたユーザに関するURL毎のユーザ属性分布としてのURL属性分布を生成するURL属性分布生成手段と、
    ユーザ毎の検索履歴を蓄積する検索履歴蓄積手段と、
    前記ユーザ属性情報格納手段に格納されたユーザ属性情報と、前記検索履歴蓄積手段に蓄積されたユーザ毎の検索履歴と、に基づいて、検索クエリ毎に入力したユーザ属性分布としての検索クエリ属性分布を生成する検索クエリ属性分布生成手段と、
    前記URL属性分布と、前記検索クエリ属性分布と、の類似度を基に、前記ユーザに提示する検索結果を生成する検索結果生成手段と、
    を備えることを特徴とする情報検索装置。
  2. 前記URL属性分布生成手段は、アクセスした日時毎に分離して抽出した前記アクセス履歴に基づいて、前記URL属性分布を生成し、
    前記検索クエリ属性分布生成手段は、検索した日時毎に分離して抽出した前記ユーザ毎の検索履歴に基づいて前記検索クエリ属性分布を生成する、
    ことを特徴とする請求項1に記載の情報検索装置。
  3. 前記アクセス履歴蓄積手段は、ユーザ毎の検索結果の文書へのアクセス履歴のみを蓄積し、
    前記URL属性分布生成手段は、前記ユーザ属性情報と、前記蓄積されたユーザ毎の検索結果の文書へのアクセス履歴と、に基づいて、前記URL属性分布を生成する、
    ことを特徴とする請求項1又は2に記載の情報検索装置。
  4. 情報を提供する情報検索装置により実行される情報検索方法であって、
    予め収集したユーザ属性情報を格納するユーザ属性情報格納ステップと、
    ユーザ毎のネットワークあるいは検索結果の文書へのアクセス履歴を蓄積するアクセス履歴蓄積ステップと、
    前記ユーザ属性情報格納ステップにおいて格納されたユーザ属性情報と、前記アクセス履歴蓄積ステップにおいて蓄積されたアクセス履歴と、に基づいて、アクセスしたユーザに関するURL毎のユーザ属性分布としてのURL属性分布を生成するURL属性分布生成ステップと、
    ユーザ毎の検索履歴を蓄積する検索履歴蓄積ステップと、
    前記格納されたユーザ属性情報と、前記蓄積されたユーザ毎の検索履歴と、に基づいて、検索クエリ毎に入力したユーザ属性分布としての検索クエリ属性分布を生成する検索クエリ属性分布生成ステップと、
    前記URL属性分布と、前記検索クエリ属性分布と、の類似度を基に、ユーザに提示する検索結果を生成する検索結果生成ステップと、
    を備えることを特徴とする情報検索方法。

JP2009108222A 2008-05-16 2009-04-27 情報検索装置及び情報検索方法 Expired - Fee Related JP5290041B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009108222A JP5290041B2 (ja) 2008-05-16 2009-04-27 情報検索装置及び情報検索方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008130060 2008-05-16
JP2008130060 2008-05-16
JP2009108222A JP5290041B2 (ja) 2008-05-16 2009-04-27 情報検索装置及び情報検索方法

Publications (2)

Publication Number Publication Date
JP2009301540A JP2009301540A (ja) 2009-12-24
JP5290041B2 true JP5290041B2 (ja) 2013-09-18

Family

ID=41548328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009108222A Expired - Fee Related JP5290041B2 (ja) 2008-05-16 2009-04-27 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP5290041B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5753729B2 (ja) * 2011-05-10 2015-07-22 株式会社インタラクティブソリューションズ コンテンツ作成システム
JP5797232B2 (ja) * 2013-06-19 2015-10-21 ヤフー株式会社 情報処理装置、クエリ制御方法およびクエリ制御プログラム
CN106156127B (zh) 2015-04-08 2020-06-16 深圳市腾讯计算机系统有限公司 选择数据内容向终端推送的方法及装置
JP6830752B2 (ja) * 2015-08-13 2021-02-17 カルチュア・コンビニエンス・クラブ株式会社 装置、方法、および、プログラム
JP6155354B2 (ja) * 2016-03-11 2017-06-28 デジタル・アドバタイジング・コンソーシアム株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236405A (ja) * 2000-02-24 2001-08-31 Sumisho Computer Systems Corp 販売促進支援装置および方法、記録媒体
JP2003173352A (ja) * 2001-12-05 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
WO2006064573A1 (ja) * 2004-12-17 2006-06-22 Mars Flag Corporation Web情報提供装置及びその方法、プログラム
JP5013701B2 (ja) * 2005-10-26 2012-08-29 ヤフー株式会社 検索装置及び検索方法
JP4962945B2 (ja) * 2006-09-15 2012-06-27 ヤフー株式会社 ブックマーク・タグ設定装置

Also Published As

Publication number Publication date
JP2009301540A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
US11954157B2 (en) Method of and system for conducting personalized federated search and presentation of results therefrom
US11765246B2 (en) Topical activity monitor and identity collector system
US8484343B2 (en) Online ranking metric
US8090713B2 (en) Methods and systems for improving a search ranking using population information
US8510377B2 (en) Methods and systems for exploring a corpus of content
CN107066529B (zh) 联合团体搜索
US8886643B2 (en) Presenting social search results
US20090216741A1 (en) Prioritizing media assets for publication
US8930384B2 (en) Topical activity monitor system and method
US20080172370A1 (en) Providing virtual really simple syndication (rss) feeds
US20050027670A1 (en) Ranking search results using conversion data
US9092529B1 (en) Social search endorsements
JP2004206517A (ja) ホットキーワード提示方法及びホットサイト提示方法
US20150169752A1 (en) Providing time series information with search results
US20120295633A1 (en) Using user&#39;s social connection and information in web searching
JP5290041B2 (ja) 情報検索装置及び情報検索方法
US10127322B2 (en) Efficient retrieval of fresh internet content
JP5165422B2 (ja) 情報提供システム及び情報提供方法
CN101661490A (zh) 搜索引擎、其客户端及搜索网页的方法
US20060007477A1 (en) Storage medium storing computer program for presenting document registrant, document registrant presenting method, and document management apparatus
US9128993B2 (en) Presenting secondary music search result links
JP2012014518A (ja) コンテンツ間類似度算出装置及びコンテンツ間類似度算出方法
JP4934154B2 (ja) コンテンツ提供装置
JP2008262520A (ja) インターネット情報検索システム及びその方法
JP2011065570A (ja) 情報検索システム及び情報検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130605

R150 Certificate of patent or registration of utility model

Ref document number: 5290041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees