JP4962980B2 - クリックログを用いた検索結果分類装置及び方法 - Google Patents

クリックログを用いた検索結果分類装置及び方法 Download PDF

Info

Publication number
JP4962980B2
JP4962980B2 JP2008314981A JP2008314981A JP4962980B2 JP 4962980 B2 JP4962980 B2 JP 4962980B2 JP 2008314981 A JP2008314981 A JP 2008314981A JP 2008314981 A JP2008314981 A JP 2008314981A JP 4962980 B2 JP4962980 B2 JP 4962980B2
Authority
JP
Japan
Prior art keywords
query
search result
url
character string
user terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008314981A
Other languages
English (en)
Other versions
JP2010140200A (ja
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008314981A priority Critical patent/JP4962980B2/ja
Publication of JP2010140200A publication Critical patent/JP2010140200A/ja
Application granted granted Critical
Publication of JP4962980B2 publication Critical patent/JP4962980B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クリックログを用いた検索ファセットの作成方法及び利用方法に関する。
従来、クエリログを利用したキーワードとサイトの関連度を求める方法が提案されている(例えば、特許文献1)。特許文献1の方法では、ユーザにより検索キーワードを用いた検索が行われると、サーバは、検索エンジンが求めた検索結果から独自の検索結果ページを生成し、ユーザの端末に表示させる。そして、この検索結果ページに表示されたリンク先をユーザがクリックすると、検索を行った際のセッションID、クリックされたリンク先のURL等のクエリーログをクエリーログ・データベースに格納する。そして、このデータベースを用いて、検索時のキーワードごとに、検索結果ページからユーザが実際にクリックしたURLのクリック数を集計する。このようにすることで、特許文献1の方法では、キーワードごとにクリック数が集計されたURL集合の中から、所定のキーワード・リストにマッチするURLを抽出することができる。これにより、例えば、抽出されたキーワードとURL集合を用いてサイトの収集や検証に役立てることができる。
特開2008−181186号公報
しかしながら、特許文献1の方法では、キーワードごとにクリック数が集計されたURL集合の中から、所定のキーワード・リストにマッチするURLを抽出することができるにとどまり、クエリーログ、すなわち、クリックログに含まれるクエリ同士の関連性を利用して、検索結果を分類することができない。
本発明は、クリックログに含まれるクエリ同士の関連性を利用して、検索結果を分類する検索結果分類装置又は方法を提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) Webページを検索して検索結果を分類して表示する検索結果分類装置であって、ユーザ端末から受信されたクエリと、前記ユーザ端末に表示され、かつ、当該クエリに対応する検索結果のうち、前記ユーザ端末の操作により選択された検索結果に応じたURLとを対応付けてクリックログとして記憶する記憶手段と、前記クリックログより、第1クエリと、当該第1クエリに対応したURLと、当該第1クエリに対応したURLと同一のURLに対応し、かつ、当該第1クエリの文字列と該文字列に対して付加された文字列から構成される第2クエリとを抽出して記憶するクエリ関連情報抽出手段と、ユーザ端末から受信されたクエリが前記第1クエリと一致した場合には、前記第1クエリの検索結果を、前記付加された文字列に基づいて分類して表示する検索結果分類手段と、を備える検索結果分類装置。
(1)記載の検索結果分類装置によれば、記憶手段により、ユーザ端末から受信されたクエリと、ユーザ端末に表示され、かつ、当該クエリに対応する検索結果のうち、ユーザ端末の操作により選択された検索結果に応じたURLとを対応付けてクリックログとして記憶する。そして、クエリ関連情報抽出手段により、クリックログより、第1クエリと、当該第1クエリに対応したURLと、当該第1クエリに対応したURLと同一のURLに対応し、かつ、当該第1クエリの文字列と該文字列に対して付加された文字列から構成される第2クエリとを抽出して記憶する。そして、検索結果分類手段により、ユーザ端末から受信されたクエリが第1クエリと一致した場合には、第1クエリの検索結果を、付加された文字列に基づいて分類して表示する。
このようにすることで、クリックログに含まれる第1クエリに付加された文字列、すなわち、第1クエリに関連づけられた第2クエリの一部の文字列に基づいて、検索結果を分類することができる。すなわち、クリックログに含まれるクエリ同士の関連性を利用して、検索結果を分類することができる。
(2) 前記クエリ関連情報抽出手段は、定期的に実行されることを特徴とする(1)記載の検索結果分類装置。
(2)記載の検索結果分類装置によれば、クエリ関連情報抽出手段による処理が定期的に実行される。このため、定期的に第1クエリと、当該第1クエリに対応したURLと、当該第1クエリに応じたURLと同一のURLに対応し、かつ、当該第1クエリに対して文字列が付加された第2クエリとを抽出して記憶できるので、常に新しい情報を利用することができる。
(3) 前記検索結果分類装置は、第1クエリに類似したクエリを含むクエリについて、第1クエリに類似した部分を第1クエリの文字列と置き換えるクエリ置換手段を更に備えることを特徴とする(1)又は(2)に記載の検索結果分類装置。
(3)記載の検索結果分類装置によれば、クエリ置換手段により、第1クエリに類似したクエリを含むクエリについて、第1クエリに類似した部分を第1クエリの文字列と置き換える。このようにすることで、第1クエリに類似するクエリを利用して第1クエリ及び第2クエリを抽出できる。
(4) 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果を、前記第2クエリに対応するURLに基づいた表示順で表示することを特徴とする(1)から(3)のいずれかに記載の検索結果分類装置。
(4)記載の検索結果分類装置によれば、検索結果分類手段により、第1クエリに付加された文字列に基づいて分類された検索結果を、第2クエリに対応するURLに基づいた表示順で表示する。このため、例えば、第1クエリに付加された文字列ごとに分類を行ったものにおいて、同一のURLを含むものがある場合には、これらの結果を隣接させて表示させることができる。このようにすることで、ユーザ端末のユーザは、隣接させて表示されたURLが複数の第1クエリに付加された文字列に関連付けられていることを容易に確認できる。
(5) 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果を、前記第2クエリに対応するURLがクリックされた頻度の高い順に表示することを特徴とする(1)から(3)のいずれかに記載の検索結果分類装置。
(5)記載の検索結果分類装置によれば、検索結果分類手段により、第1クエリに付加された文字列に基づいて分類された検索結果を、第2クエリに対応するURLがクリックされた頻度の高い順に表示する。このため、分類された検索結果のうち、クリック頻度の高いURLを含んだものがユーザ端末のユーザの目につきやすい位置に表示される。そして、クリック頻度の高いWebページは一般的に、クエリに関する情報量を多く含む傾向があることから、ユーザ端末のユーザは、当該クリック頻度の高いWebページにアクセスする可能性が高くなり、この結果、所望の情報を取得する可能性が高くなる。
(6) 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果を、前記第2クエリに対応するURLの本来の検索結果の表示順序に基づいて表示することを特徴とする(1)から(3)のいずれかに記載の検索結果分類装置。
(6)記載の検索結果分類装置によれば、検索結果分類手段により、第1クエリに付加された文字列に基づいて分類された検索結果を、第2クエリに対応するURLの本来の検索結果の表示順序に基づいて表示する。このため、分類された検索結果のうち、検索結果における検索順位の高いURLを含むものを上位に表示させることができる。
(7) 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果において、当該検索結果に対応するURLが、クエリを入力したユーザ端末から過去にアクセスされている場合には、当該検索結果に対応するURLを強調して表示することを特徴とする(1)から(3)のいずれかに記載の検索結果分類装置。
(7)記載の検索結果分類装置によれば、検索結果分類手段により、第1クエリに付加された文字列に基づいて分類された検索結果において、当該検索結果に対応するURLが、クエリを入力したユーザ端末から過去にアクセスされている場合には、当該検索結果に対応するURLを強調して表示する。このため、ユーザは、過去にクリックしてアクセスしたWebページの確認を行いやすくなる。
(8) Webページを検索して検索結果を分類して表示する検索結果分類方法であって、ユーザの操作によりユーザ端末から受信されたクエリと、前記ユーザ端末に表示され、かつ、当該クエリに対応する検索結果のうち、前記ユーザ端末の操作により選択された検索結果に応じたURLとを対応付けてクリックログとして記憶するステップと、前記クリックログより、第1クエリと、当該第1クエリに対応したURLと、当該第1クエリに対応したURLと同一のURLに対応し、かつ、当該第1クエリの文字列と該文字列に対して付加された文字列から構成される第2クエリとを抽出して記憶するステップと、ユーザ端末から受信されたクエリが前記第1クエリと一致した場合には、前記第1クエリの検索結果を、前記付加された文字列に基づいて分類して表示するステップと、を備える検索結果分類方法。
このような方法によれば、当該方法を実施することにより、(1)と同様の効果が期待できる。
本発明によれば、クリックログに含まれるクエリ同士の関連性を利用して、検索結果を分類する検索結果分類装置又は方法を提供することができる。
以下、本発明の実施形態について図を参照しながら説明する。
図1は、本実施形態に係るシステムの全体構成、及びその中核となる検索結果分類サーバ10の機能ブロックを示す図である。
本システムの全体構成としては、検索サービスを行う検索結果分類サーバ10が、複数のユーザ端末20とインターネット21を介して接続され、更に検索サーバ30が通信ネットワーク33を介して接続される。通信ネットワーク33は、任意の通信ネットワークであってよく、LAN(Local Area Network)、WAN(Wide Area Network)、又は、インターネットであってもよい。ユーザは、PC(Personal Computer)、PDA(Personal Digital Assistants)、携帯電話等のユーザ端末20から、検索結果分類サーバ10にアクセスして、検索キーワードを用いて、インターネット上で求める情報が存在するWebサイトを検索する。本実施形態では、検索キーワードを、クエリ(照会)と呼び、ユーザの検索行為をクエリ要求と呼ぶ。通常、ユーザ端末20においてクエリ要求がなされると、検索サーバ30に対してクエリが直接送信されるが、本実施形態では、ユーザ端末20と検索サーバ30との間に検索結果分類サーバ10を接続する。検索サーバ30は、クエリ受付部31でクエリを受信し、種々の公知の検索エンジン32を用いて検索処理を行う。そして、検索エンジン32より、検索結果として、クエリにマッチする(と判断された)WebページのURLのリストが得られると、この検索結果を検索結果分類サーバ10に対して送信する。そして、検索結果分類サーバ10により、検索結果に所定の加工を行った後、ユーザ端末20に対して送信する。
検索結果分類サーバ10は、制御部10aと、記憶部10bとを備える。そして、制御部10aは、検索結果生成部11と、クリックログ抽出部12と、クエリ関連情報抽出部13とを備える。また記憶部10bは、クリックログ(以下、データベースをDBという)14と、クエリ関連DB15とを備える。
更に、検索結果生成部11は、大きく分けて2つの機能を有する。1つは、リダイレクタを生成するための機能であり、リダイレクタ生成部111で実現される。もう1つは、検索結果をファセットラベル(後述参照)ごとに分類するための機能であり、クエリマッチング部112と検索結果分類部113とで実現される。
なお、本実施形態では、判り易いように、検索結果分類サーバ10と検索サーバ30は、別個のサーバであるとして説明したが、必ずしもこの構成に限定される必要はなく、検索サーバ30に、検索結果分類サーバ10の機能を含ませてもよい。
検索結果生成部11は、検索結果ページを生成する。すなわち、検索結果生成部11は、ユーザ端末20よりクエリを受信すると、セッションIDとともに当該クエリを検索サーバ30に転送して、検索サーバ30よりクエリ対応するセッションIDを含んだ検索結果を受信する。このとき、受信したクエリのセッションIDを記憶しておく。そして、受信した検索結果を用いて、独自の検索結果ページを生成するとともに、記憶しておいたセッションIDに基づいて、送信するユーザ端末20を特定し、ユーザ端末20に対して当該検索結果ページを送信する。通常、検索結果ページには、検索結果として、クエリにマッチする(と判断された)Webページへのリンクが含まれる。これに対して、本実施形態では、後述するクエリマッチング部112と検索結果分類部113とにより、検索結果としてのWebページへのリンクをファセットラベル(後述参照)ごとに分類して、検索結果ページを作成する。更に、ファセットラベルごとに分類した検索結果ページについて、後述するリダイレクタ生成部111により、WebページへのリンクのURLをリダイレクタのURLに置き換える。このようにして、ファセットラベルごとに分類され、かつ、リダイレクタのURLに置き換えられた検索結果ページを生成する。そして、この検索結果ページをユーザ端末20に送信する。
クリックログ抽出部12は、ユーザのクリックログを抽出して、クリックログDB14(後述の図3参照)に記憶する。すなわち、ユーザ端末20のユーザが本実施例における検索結果ページに掲載されたWebページへのリンクをクリックするたびに、クリックログ抽出部12により、ユーザのクリックログをクリックログDB14に記憶する。クリックログには、セッションID、ユーザ端末20のIPアドレス、検索結果ページにおいてユーザがクリックしたWebページへのリンクのURL、当該Webページへのリンクをクリックした際のアクセス日時、当該Webページのページランク、及びクエリといった情報が含まれる。クリックログDB14に蓄積された多数のユーザのクリックログは、クエリ関連情報抽出部13により適時抽出作業が行われる。なお、このような各種データベースは、検索結果分類サーバ10の記憶部10bとして構成されてもよいが、検索結果分類サーバ10の外部に接続するように構成されてもよい。
クエリ関連情報抽出部13は、クリックログDB14に記憶されたクリックログよりクエリに関連する情報を抽出する。具体的には、第1の抽出作業として、クエリと当該クエリに応じたURLとを抽出する。第1の抽出作業で抽出されるクエリを、第1クエリ又はトピックと呼ぶ。続いて、第2の抽出作業として、第1クエリとURLが同一であって、第1クエリの文字列と当該文字列に対して付加された文字列とから構成されるクエリと、当該クエリに応じたページランク、セッションIDを抽出する。第2の抽出作業で抽出されるクエリを第2クエリ又はファセットと呼ぶ。また、第2クエリに含まれる、第1クエリの文字列の前後に付加された文字列をファセットラベルと呼ぶ。第2の抽出作業が行われると、第1クエリ、URL、第2クエリ、及びページランクが同一であって、セッションID、アクセス日時が異なるデータが抽出されることとなる。続いて、このデータに対して、異なるセッションIDの数と、異なるアクセス日時の数を集計する。そうすると、第1クエリ、URL、第2クエリ、及びページランクのデータに対する異なるセッションIDの数(セッション頻度)と、異なるアクセス日時の数(クリック頻度)が算出される。上述の一連の作業により、第1クエリ、URL、第2クエリ、ページランク、セッション頻度、クリック頻度が抽出されるので、このデータをクエリ関連DB15(後述の図4参照)に記憶する。ここで、第1クエリ、URL、及び第2クエリをまとめて、関連クエリ3つ組と呼ぶ。
また、クエリ関連情報抽出部13における処理は、定期的に実行される。当該処理の間隔は、例えば、1日ごと、1週間ごと、又は1ヶ月ごとといったように適宜実行するようにしてよい。このようにすることで、定期的にクリックログからクエリに関連する情報を抽出できるので、常に新しい情報を利用することができる。
なお、第2クエリは、空白を含んでいてもよい。例えば、第1クエリの文字列が「ABC」であるとき、第2クエリが「ABC レンタカー」となる場合がある。また、この場合におけるファセットラベルは、空白が含まれずに「レンタカー」となる。
また、本実施形態では、関連クエリ3つ組を第1クエリ、URL、及び第2クエリで構成することとしたが、これに限らない。例えば、検索結果分類サーバ10に対して、関連するクエリをグループ化するクエリ・クラスタリング技術に基づいて、クエリを置き換えるクエリ置換部を設けることとしてもよい。そして、第1クエリに類似したクエリを含むクエリについて、第1クエリに類似した部分を第1クエリの文字列と置き換えるようにし、クエリ関連情報抽出部13により、置き換えたクエリから関連クエリ3つ組を抽出するようにしてもよい。例えば、第1クエリ「ABC」に類似したクエリを含むクエリとして「エービーシー」、「エービーシーレンタカー」があるとする。そして、クエリ置換部により、「エービーシー」を「ABC」に置き換える。そうすると、「エービーシー」、「エービーシーレンタカー」といったクエリを、「ABC」における第1クエリ、第2クエリの関係とすることができる。このようにすることで、同一グループにおいて類似するクエリを利用して第1クエリ及び第2クエリを抽出でき、この結果、類似するクエリを利用して関連クエリ3つ組を作成できる。
図2は、本実施形態に係るクリックログを集計するための1つの方法である、リダイレクタ生成部111により生成されるリダイレクタの概念を示す図である。図2を用いて、リダイレクタ生成部111の機能及びクリックログの抽出について説明する。
リダイレクタ生成部111は、後述の検索結果分類部113により生成された検索結果ページ、すなわち、検索結果ページ41を受け取ると、検索結果ページ41に掲載された各Webページへのリンク先をリダイレクタのURLに置き換える。リダイレクタのURLには、クリックログを構成する情報と、Webページのリンク先のアドレスとが含まれている。また、リダイレクタのURLが指定するアドレスは、検索結果分類サーバ10のアドレスである。検索結果生成部11は、このリダイレクタのURLを含んだ検索結果ページ41を、ユーザ端末20に送信する。
そして、ユーザが受信した検索結果ページ41から、所望のWebページに対するリンク(例えば、ページAリンク)をクリックすると、ユーザ端末20は直接所望のWebページにアクセスせず、リダイレクタのURLのアクセス先である検索結果分類サーバ10にアクセスする。すなわち、検索結果分類サーバ10に対して、リダイレクタのURLを送信する。そして、検索結果分類サーバ10が、ユーザ端末20よりリダイレクタのURLを受信すると、クリックログ抽出部12は、リダイレクタのURLに含まれているクリックログを構成する情報を収集してクリックログDB14に記憶するとともに、ユーザ端末20に対してリダイレクタのURLに含まれている所望のWebページ(リンク先ページ43)のURLを転送先URLとしてユーザ端末20に送信する。すなわち、リダイレクタという概念を用いることにより、ユーザ端末20は、検索結果分類サーバ10にアクセスして、所望するWebページのURLである転送先URLを受信し、更に受信した転送先URLにアクセスすることで、所望するWebページの情報を取得することとなる。そうすることにより、検索結果分類サーバ10は、リダイレクタのURLに含まれている、クリックログを構成する情報を抽出することができる。
このように、リダイレクタ生成部111により生成されたリダイレクタのURLを用いることによって、検索結果分類サーバ10は、IPアドレスで識別されるユーザ毎、セッションIDで識別されるセッションごとにクリックログを容易に集めることができる。
図1に戻り、クエリマッチング部112は、検索サーバ30からユーザのクエリに対する検索結果を受信すると、クエリ関連DB15に記憶されている第1クエリを参照して、ユーザのクエリと一致する第1クエリと、当該第1クエリに対応するURLと、第2クエリ、すなわち、関連クエリ3つ組を抽出する。また、関連クエリ3つ組の抽出と同時に、ページランク、セッション頻度、クリック頻度も併せて抽出する。この抽出処理は検索結果が複数のWebページのURLを含む場合には、検索結果におけるそれぞれのWebページのURLに対して実行される。このため、検索結果におけるそれぞれのURLにおいて、複数の関連クエリ3つ組が抽出されうる。
検索結果分類部113は、クエリマッチング部112により検索結果におけるそれぞれのURLにおいて抽出した関連クエリ3つ組を用いて、検索結果としてのWebページの分類を行う。具体的には、クエリマッチング部112により、検索結果におけるそれぞれのWebページのURLに基づいて抽出した関連クエリ3つ組のうち、ページランクが最も高い関連クエリ3つ組と、クリック頻度が最も高い関連クエリ3つ組を抽出する。そうすると、検索結果におけるそれぞれのWebページのURLに応じた関連クエリ3つ組は、多くても2つの関連クエリ3つ組(ページランクが最も高い関連クエリ3つ組及びクリック頻度が最も高い関連クエリ3つ組)からなる。そして、この抽出結果を、関連クエリ3つ組の第2クエリに含まれる第1クエリの文字列の前後に付加された文字列、すなわち、ファセットラベルごとに分類を行い、検索結果ページを作成する。そうすると、検索結果ページにおけるWebページは、ファセットラベルに分類されることとなる。このようにして、分類された検索結果ページをリダイレクタ生成部111に受け渡し、リダイレクタ生成部111においてリダイレクタのURLが付与された検索結果ページがユーザ端末20に送信される。このため、検索結果をファセットラベルという分類軸に基づいて整理することができる。したがって、ファセットラベルごとに整理され、ユーザにとってわかりやすい検索結果ページをユーザ端末20に表示させることができる。
なお、本実施例では、ファセットラベルごとに分類を行い、検索結果ページを作成することとしたが、更に、ファセットラベルごとに分類を行ったものにおいて、同一のURLを含むファセットラベルがある場合には、当該ファセットラベルに分類された結果を隣接させて表示させることとしてもよい。このようにすることで、同一のURLを含むファセットラベルが隣接されるので、ユーザ端末20のユーザは、このURLが複数のファセットラベルに関連付けられていることを容易に確認できる。
また、ファセットラベルの表示をクリック頻度の高い順序で表示させてもよい。すなわち、本実施形態では、関連クエリ3つ組と、クリック頻度とが関連付けられているので、関連クエリ3つ組を構成する第2クエリの一部であるファセットラベルと、クリック頻度も関連付けられており、ファセットラベルの表示をクリック頻度の高い順序で表示させることができる。クリック頻度の高いWebページは一般的に、クエリに関する情報量を多く含む傾向がある。そして、クリック頻度の高いファセットラベル順に表示され、クリック頻度の高いWebページがユーザ端末20のユーザの目につきやすい位置に表示されるので、ユーザ端末20のユーザは、当該クリック頻度の高いWebページにアクセスする可能性が高くなり、この結果、所望の情報を取得できる可能性が高くなる。
また、ファセットラベルの表示を本来の検索結果の順に表示させてもよい。例えば、それぞれのファセットラベルに含まれるURLの検索結果の順位の総和に基づいて、総和の小さいファセットラベル順に表示させるようにしてもよい。このようにすることで、検索結果における検索順位の高いURLを含むファセットラベルを上位に表示させることができる。
また、過去にユーザ端末20のユーザがクリックしてアクセスしたWebページのURLに対応する検索結果における、それぞれのWebページのURLを含むファセットラベルを、優先的又は強調して表示させてもよい。すなわち、クエリの受信時にユーザ端末20のIPアドレスを取得する。そして、検索結果におけるそれぞれのWebページのURLについて、クリックログDB14に記憶されているURLと同一のクリックログを抽出し、更に、抽出したクリックログにおいて、ユーザ端末20のIPアドレスと同一のIPアドレスを含むクリックログを抽出する。そうすると、ユーザ端末20のユーザが過去にクリックしてアクセスしたWebページのURLを抽出できるので、このURLに対応した、検索結果におけるそれぞれのWebページのURLを優先的又は強調して表示させる。このようにすることで、過去にユーザ端末20のユーザがクリックしたWebページのURLを優先的又は強調して表示させることができる。したがって、ユーザは、過去にクリックしてアクセスしたWebページの確認を行いやすくなる。なお、過去にユーザ端末20のユーザがクリックしたWebページのURLを抽出するときに、IPアドレスを用いずに、クッキーといった他の方法を用いてもよい。
図3は、本実施形態に係るクリックログDB14を示す図である。クリックログDB14には、クリックログの収集元のユーザ端末20のIPアドレスを示す「IPアドレス」フィールドと、クリックログを収集した日時、すなわち、ユーザ端末20のユーザが検索結果ページに掲載されたWebページへのリンクをクリックした日時を示す「アクセス日時」フィールドと、クリックログを収集したときのセッションIDを示す「セッションID」フィールドと、クリックされた検索結果ページに掲載されたWebページのページランクを示す「ランク」フィールドと、ユーザ端末20から送信されたクエリを示す「クエリ」フィールドと、クリックされた検索結果ページに掲載されたWebページのURLを示す「URL」フィールドとが含まれている。クリックログDB14には、クリックログ抽出部12により抽出されたクリックログが記憶される。また、クリックログDB14は、クエリ関連情報抽出部13によりクエリに関連する情報を抽出するときに参照される。
図4は、本実施形態に係るクエリ関連DB15を示す図である。クエリ関連DB15には、第1クエリを示す「第1クエリ」フィールドと、第1クエリに応じたURL、すなわち、第1クエリにより検索を行ったときの検索結果ページに掲載されたWebページのURLを示す「URL」フィールドと、第2クエリを示す「第2クエリ」フィールドと、第1クエリにより検索を行ったときの検索結果ページに掲載されたWebページのページランクを示す「ランク」フィールドと、セッション頻度を示す「セッション頻度」フィールドと、クリック頻度を示す「クリック頻度」フィールドとが含まれている。クエリ関連DB15は、クエリ関連情報抽出部13によりクエリに関連する情報を抽出するときにデータが記憶される。また、クエリマッチング部112により、関連クエリ3つ組を抽出するときに参照される。
[クリックログが記憶されるまでの処理フロー]
図5は、本実施形態に係るクリックログがクリックログDB14に記憶されるまでの処理の流れを示すフローチャートである。
ステップS110では、ユーザ端末20は、検索結果分類サーバ10に対してクエリを送信する。
ステップS120では、制御部10a(検索結果生成部11)は、ステップS110にてユーザ端末20より送信されたクエリを受信する。
ステップS130では、制御部10a(検索結果生成部11)は、ステップS120にて受信したクエリに基づいて検索結果ページを生成する。検索結果ページにおける検索結果としてのWebページのURLは、ファセットラベルごとに分類され、リダイレクタが設定されている。検索結果ページの生成については、図7で詳細に説明する。
ステップS140では、制御部10a(検索結果生成部11)は、ステップS130にて生成した検索結果ページをユーザ端末20に送信する。
ステップS150では、ユーザ端末20は、ステップS140にて検索結果分類サーバ10より送信された検索結果ページを受信する。
ステップS160では、ユーザ端末20は、検索結果ページのリダイレクタのURLを検索結果分類サーバ10に送信する。具体的には、ユーザがユーザ端末20の操作部を用いて、検索結果ページにおいてユーザが所望するWebページのリンクをクリックすると、ユーザ端末20は、当該WebページのリダイレクタのURLを検索結果分類サーバ10に送信する。
ステップS170では、制御部10a(クリックログ抽出部12)は、ステップS160にてユーザ端末20より送信されたリダイレクタのURLを受信する。
ステップS180では、制御部10a(クリックログ抽出部12)は、ステップS180にて受信したリダイレクタのURLより、クリックログを抽出してクリックログDB14に記憶する。
ステップS190では、制御部10a(クリックログ抽出部12)は、ユーザ端末20に対して転送先URL、すなわち、リダイレクタのURLに含まれているユーザが所望するWebページ(リンク先ページ43)のURLを送信する。
ステップS200では、ユーザ端末20は、ステップS190にて検索結果分類サーバ10より送信された転送先URLを受信する。
ステップS210では、ユーザ端末20は、転送先URLにアクセスする。
[クエリ関連情報抽出部13における処理フロー]
図6は、本実施形態に係る制御部10aのクエリ関連情報抽出部13における処理の流れを示すフローチャートである。なお、クエリ関連情報抽出部13における処理は、定期的に実行される処理であり、図5に示すフローチャートの処理とは独立して適宜実行されるものである。
ステップS310では、制御部10a(クエリ関連情報抽出部13)は、クリックログDB14より第1クエリ及び第1クエリに応じたURLを抽出する。
ステップS320では、制御部10a(クエリ関連情報抽出部13)は、ステップS310にて抽出した第1クエリに対応した第2クエリ、ページランク、セッションIDを抽出する。この抽出により、第1クエリ、URL、第2クエリ、及びページランクが同一であって、セッションID、アクセス日時が異なるデータが抽出されることとなる。
ステップS330では、制御部10a(クエリ関連情報抽出部13)は、ステップS320にて抽出された第1クエリ、URL、第2クエリ、及びページランクが同一であって、セッションID、アクセス日時が異なるデータに対して、異なるセッションIDの数と、異なるアクセス日時の数を集計する。この集計により、関連クエリ3つ組ごとのページランク、セッション頻度、クリック頻度が算出される。
ステップS340では、制御部10a(クエリ関連情報抽出部13)は、ステップS340にて抽出された関連クエリ3つ組ごとのページランク、セッション頻度、クリック頻度をクエリ関連DB15に記憶する。
[検索結果生成部11における処理フロー]
図7は、本実施形態に係る制御部10aの検索結果生成部11における検索結果ページの生成の処理の流れを示すフローチャートである。
ステップS410では、制御部10a(検索結果生成部11)は、ユーザ端末20よりクエリを受信したクエリを検索サーバ30に転送して、検索サーバ30より、クエリに応じた検索結果を取得する。
ステップS420では、制御部10a(クエリマッチング部112)は、ステップS410で取得した検索結果について、当該検索結果におけるWebページのURLに対して、同一のURLを持つ関連クエリ3つ組をクエリ関連DB15より抽出する。
ステップS430では、制御部10a(検索結果分類部113)は、クエリマッチング部112によりそれぞれの検索結果のURLにおいて抽出した関連クエリ3つ組を用いて、ファセットラベルによる検索結果の分類を行う。具体的には、クエリマッチング部112により、検索結果におけるそれぞれのWebページのURLに基づいて抽出した関連クエリ3つ組のうち、ページランクが最も高い関連クエリ3つ組と、クリック頻度が最も高い関連クエリ3つ組とを抽出し、この抽出結果を、ファセットラベルごとに分類し、検索結果ページを作成する。
ステップS440では、制御部10a(リダイレクタ生成部111)は、ステップS430にて、ファセットラベルにより分類が行われた検索結果ページについて、検索結果ページに掲載された各Webページへのリンク先をリダイレクタのURLに置き換える。この処理が終了すると、検索結果ページの生成の処理を終了する。
[検索結果分類サーバ10のハードウェア構成]
図8は、本実施形態に係る検索結果分類サーバ10のハードウェア構成を示す図である。本発明が実施される検索結果分類サーバ10は標準的なものでよく、以下に構成の一例を示す。
検索結果分類サーバ10は、制御部10aを構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU2012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、操作部27を構成するキーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078はまとめて記憶部10bと呼ぶ。
制御部10aは、検索結果分類サーバ10を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F1040は、検索結果分類サーバ10が、インターネット21及び通信ネットワーク33を介してユーザ端末20、検索サーバ30等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS1060は、検索結果分類サーバ10の起動時にCPU1010が実行するブートプログラムや、検索結果分類サーバ10のハードウェアに依存するプログラム等を記録する。
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部10bを接続することができる。
入力装置1100は、検索結果分類サーバ10の管理者による入力の受け付けを行うものである。
ハードディスク1074は、本ハードウェアを検索結果分類サーバ10として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するDBを記憶する。なお、検索結果分類サーバ10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、検索結果分類サーバ10は、上述のように、制御部10a、記憶部10b等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
また、検索結果分類サーバ10は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、インターネット21及び通信ネットワーク33を介して各ハードウェアを接続してもよい。例えば、各機能ごとに別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
[表示例]
図9は、本実施形態に係るユーザ端末20にファセットラベルごとに分類された検索結果ページ201が表示されたときの表示例を示す図である。以下に図4及び図7を参照してクエリを受信してから、ファセットラベルごとに分類されて表示されるまでの処理を具体的に説明する。なお、リダイレクタを検索結果ページ201に付与する処理の説明は省略する。
最初に、検索結果生成部11がユーザ端末20よりクエリを受信する(ステップS410)。ここでは、受信するクエリが「ABC」であることとする。続いて、検索結果生成部11は、受信したクエリを検索サーバ30に転送して、検索サーバ30より、クエリに応じた検索結果を取得する(ステップS420)。検索結果として、図9に示される2011〜2014の4つが抽出されることとする。
続いて、クエリマッチング部112により、取得した検索結果におけるWebページのURLに対して、同一のURLを持つ関連クエリ3つ組をクエリ関連DB15より抽出する(ステップS430)。クエリ関連DB15には、図4に示されるデータが格納されていることとすると、URL「http://www.***.abc.com」と同一のURLを持つ3つのデータが抽出される。
続いて、検索結果分類部113は、クエリマッチング部112によりそれぞれの検索結果のURLにおいて抽出した関連クエリ3つ組を用いて、ファセットラベルによる検索結果の分類を行う。具体的には、クエリマッチング部112により、検索結果におけるそれぞれのWebページのURLに基づいて抽出した関連クエリ3つ組のうち、ページランクが最も高い関連クエリ3つ組と、クリック頻度が最も高い関連クエリ3つ組を抽出し、この抽出結果を、ファセットラベルごとに分類を行い、検索結果ページ201を作成する。図4を参照すると、URL「http://www.***.abc.com」と同一のURLを持つ3つのデータのうち、ページランクが最も高い関連クエリ3つ組として、第2クエリが「ABC レンタカー」であるものが抽出される。また、クリック頻度が最も高い関連クエリ3つ組として、第2クエリが「ABC 株価」であるものが抽出される。そして、抽出されたそれぞれの関連クエリ3つ組のファセットラベルは「レンタカー」と、「株価」であるので、URL「http://www.***.abc.com」の検索結果を「レンタカー」と「株価」とに分類された検索結果ページ201が作成される。そうすると、図9に示されるように、「レンタカー」に分類された検索結果2015と、「株価」に分類された検索結果2016とが表示される。
このように、関連クエリ3つ組といった、クリックログに含まれるクエリ同士の関連性を利用して、検索結果を分類することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本実施形態に係るシステムの全体構成、及びその中核となる検索結果分類サーバ10の機能ブロックを示す図である。 本実施形態に係るクリックログを集計するための1つの方法である、リダイレクタ生成部111により生成されるリダイレクタの概念を示す図である。 本実施形態に係るクリックログDB14を示す図である。 本実施形態に係るクエリ関連DB15を示す図である。 本実施形態に係るクリックログがクリックログDB14に記憶されるまでの処理の流れを示すフローチャートである。 本実施形態に係る制御部10aのクエリ関連情報抽出部13における処理の流れを示すフローチャートである。 本実施形態に係る制御部10aの検索結果生成部11における処理の流れを示すフローチャートである。 本実施形態に係る検索結果分類サーバ10のハードウェア構成を示す図である。 本実施形態に係るユーザ端末20に検索結果ページ201がファセットラベルごとに分類されて表示されたときの表示例を示す図である。
符号の説明
10 検索結果分類サーバ
11 検索結果生成部
12 クリックログ抽出部
13 クエリ関連情報抽出部
14 クリックログDB
15 クエリ関連DB
20 ユーザ端末
21 インターネット
30 検索サーバ
31 クエリ受付部
32 検索エンジン
33 通信ネットワーク
111 リダイレクタ生成部
112 クエリマッチング部
113 検索結果分類部

Claims (8)

  1. Webページを検索して検索結果を分類して表示する検索結果分類装置であって、
    ユーザ端末から受信されたクエリと、前記ユーザ端末に表示され、かつ、当該クエリに対応する検索結果のうち、前記ユーザ端末の操作により選択された検索結果に応じたURLとを対応付けてクリックログとして記憶する記憶手段と、
    前記クリックログより、第1クエリと、当該第1クエリに対応したURLと、当該第1クエリに対応したURLと同一のURLに対応し、かつ、当該第1クエリの文字列と該文字列に対して付加された文字列から構成される第2クエリとを抽出して記憶するクエリ関連情報抽出手段と、
    ユーザ端末から受信されたクエリが前記第1クエリと一致した場合には、前記第1クエリの検索結果を、前記付加された文字列に基づいて分類して表示する検索結果分類手段と、を備える検索結果分類装置。
  2. 前記クエリ関連情報抽出手段は、定期的に実行されることを特徴とする請求項1記載の検索結果分類装置。
  3. 前記検索結果分類装置は、第1クエリに類似したクエリを含むクエリについて、第1クエリに類似した部分を第1クエリの文字列と置き換えるクエリ置換手段を更に備えることを特徴とする請求項1又は2に記載の検索結果分類装置。
  4. 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果を、前記第2クエリに対応するURLに基づいた表示順で表示することを特徴とする請求項1から3のいずれかに記載の検索結果分類装置。
  5. 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果を、前記第2クエリに対応するURLがクリックされた頻度の高い順に表示することを特徴とする請求項1から3のいずれかに記載の検索結果分類装置。
  6. 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果を、前記第2クエリに対応するURLの本来の検索結果の表示順序に基づいて表示することを特徴とする請求項1から3のいずれかに記載の検索結果分類装置。
  7. 前記検索結果分類手段は、前記付加された文字列に基づいて分類された検索結果において、当該検索結果に対応するURLが、クエリを入力したユーザ端末から過去にアクセスされている場合には、当該検索結果に対応するURLを強調して表示することを特徴とする請求項1から3のいずれかに記載の検索結果分類装置。
  8. Webページを検索して検索結果を分類して表示する検索結果分類方法であって、
    ユーザの操作によりユーザ端末から受信されたクエリと、前記ユーザ端末に表示され、かつ、当該クエリに対応する検索結果のうち、前記ユーザ端末の操作により選択された検索結果に応じたURLとを対応付けてクリックログとして記憶するステップと、
    前記クリックログより、第1クエリと、当該第1クエリに対応したURLと、当該第1クエリに対応したURLと同一のURLに対応し、かつ、当該第1クエリの文字列と該文字列に対して付加された文字列から構成される第2クエリとを抽出して記憶するステップと、
    ユーザ端末から受信されたクエリが前記第1クエリと一致した場合には、前記第1クエリの検索結果を、前記付加された文字列に基づいて分類して表示するステップと、を備える検索結果分類方法。
JP2008314981A 2008-12-10 2008-12-10 クリックログを用いた検索結果分類装置及び方法 Active JP4962980B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008314981A JP4962980B2 (ja) 2008-12-10 2008-12-10 クリックログを用いた検索結果分類装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008314981A JP4962980B2 (ja) 2008-12-10 2008-12-10 クリックログを用いた検索結果分類装置及び方法

Publications (2)

Publication Number Publication Date
JP2010140200A JP2010140200A (ja) 2010-06-24
JP4962980B2 true JP4962980B2 (ja) 2012-06-27

Family

ID=42350301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008314981A Active JP4962980B2 (ja) 2008-12-10 2008-12-10 クリックログを用いた検索結果分類装置及び方法

Country Status (1)

Country Link
JP (1) JP4962980B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5421960B2 (ja) * 2011-07-29 2014-02-19 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
JP5384597B2 (ja) * 2011-10-21 2014-01-08 ヤフー株式会社 リッチスニペット生成更新装置及び方法
JP5156123B1 (ja) * 2011-12-28 2013-03-06 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び記録媒体
CN103699619A (zh) * 2013-12-18 2014-04-02 北京百度网讯科技有限公司 一种用于提供搜索结果的方法及装置
US9646055B2 (en) * 2014-04-03 2017-05-09 Facebook, Inc. Blending search results on online social networks
JP6037540B1 (ja) * 2015-02-27 2016-12-07 楽天株式会社 検索システム、検索方法およびプログラム
JP6422927B2 (ja) * 2016-11-02 2018-11-14 株式会社ぐるなび 情報提供方法、情報提供プログラム、及び情報提供装置
JP6749984B2 (ja) * 2018-10-17 2020-09-02 株式会社ぐるなび 情報提供方法、情報提供プログラム、及び情報提供装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
JP4870011B2 (ja) * 2007-03-30 2012-02-08 楽天株式会社 情報検索システム、情報検索装置、履歴共有方法及び履歴共有処理プログラム

Also Published As

Publication number Publication date
JP2010140200A (ja) 2010-06-24

Similar Documents

Publication Publication Date Title
JP4962980B2 (ja) クリックログを用いた検索結果分類装置及び方法
US8260774B1 (en) Personalization search engine
US9390144B2 (en) Objective and subjective ranking of comments
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
US6636853B1 (en) Method and apparatus for representing and navigating search results
AU2009277143B2 (en) Federated community search
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
KR20160124079A (ko) 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법
JP2004206517A (ja) ホットキーワード提示方法及びホットサイト提示方法
CA2713932C (en) Automated boolean expression generation for computerized search and indexing
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
US11392589B2 (en) Multi-vertical entity-based search system
JP2009151811A (ja) ホットサイト提示システム
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
CN107025261B (zh) 主题网络语料库
JP5814089B2 (ja) 情報表示制御装置、情報表示制御方法、及びプログラム
JP5220659B2 (ja) 検索装置及び方法
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
US20060149606A1 (en) System and method for agent assisted information retrieval
US8626753B1 (en) Personalization search engine
JP2009015589A (ja) 関連文書提示システム及びプログラム
JP2004078689A (ja) 検索システム及び検索プログラム並びに検索方法
JP5138576B2 (ja) ファセットクエリを利用した検索ナビゲーション装置及び方法
US20160140229A1 (en) Method and system for organizing, searching, finding, and filtering internet content based on content relevancy through data categorization live and in real time, without time delay

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120319

R150 Certificate of patent or registration of utility model

Ref document number: 4962980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250