JP5084796B2 - 関連性判定装置、関連性判定方法およびプログラム - Google Patents

関連性判定装置、関連性判定方法およびプログラム Download PDF

Info

Publication number
JP5084796B2
JP5084796B2 JP2009173478A JP2009173478A JP5084796B2 JP 5084796 B2 JP5084796 B2 JP 5084796B2 JP 2009173478 A JP2009173478 A JP 2009173478A JP 2009173478 A JP2009173478 A JP 2009173478A JP 5084796 B2 JP5084796 B2 JP 5084796B2
Authority
JP
Japan
Prior art keywords
query
url
relevance
node
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009173478A
Other languages
English (en)
Other versions
JP2011028509A (ja
Inventor
圭吾 町永
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009173478A priority Critical patent/JP5084796B2/ja
Publication of JP2011028509A publication Critical patent/JP2011028509A/ja
Application granted granted Critical
Publication of JP5084796B2 publication Critical patent/JP5084796B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、クエリまたはURLの関連性を判定する装置、方法およびプログラムに関する。
従来、Web検索エンジンは、クエリとして複数のキーワードを同時に受け付ける。例えば、クエリに「橋本 地図」と入力すれば橋本駅周辺の地図、「橋本 画像」と入力すれば、橋本さんの画像が検索結果の上位に現れる。ここで、第2の検索キーワード(例えば、「地図」や「画像」等)は、検索要求の対象を主題的に絞り込むのではなく、検索対象を、データベースの範囲またはサービスの種類として指定して絞り込むことを意図している。以下、第1の検索キーワード(「橋本」)はトピック語と呼び、第2の検索キーワード(「地図」や「画像」等)はファセット語と呼ぶ。
また、検索結果の中からクリック(選択)されるURLは、例えば、ファセット語が「画像」であれば画像を豊富に用意しているサイト、「レシピ」であれば著名なグルメ情報サイトであることが多い。このようにサイト(URL)とクエリとが共通に持つ検索意図に関わる属性は、クエリ側で明示的にファセット語として示されることがある。ところが、この検索意図に関わる属性は、ファセット語としては示されず暗黙的に期待されることも多い。例えば、画像を豊富にそろえたサイトが頻繁にクリックされるクエリは、暗黙に「画像」ファセットが期待されていると考えられる。
このようなファセットの手がかりを取得し、検索意図を把握するために、クエリやURLの関連性を判定し、この関連性の度合いを示すスコアを付与することが望まれている。
ここで、例えばURLのスコアについては、Webページをノード、リンク関係をエッジとしたWebグラフ上で、重要度の伝播を用いてページ重要性のランキングを計算する手法が知られている。また、このランキングを計算する際に、Webページの階層構造(URLのディレクトリ構造)を考慮する方法が提案されている(例えば、特許文献1参照)。
特許文献1の方法では、Webグラフ中のリンクをホストレベルで集約することによってリンク密度を高くして、ランク付けの偏向が抑制されることが期待できる。しかしながら、デイレクトリ構造をWebグラフに当てはめる特許文献1の方法では、各Webページの重要度を算出する際に、ディレクトリ構造において実際にリンクされている階層の深さが表現されず、リンクの強弱差が現れない。さらに、リンクの数に基づいて重要度を判定しているため、どのページからリンクされているかは考慮されず、リンク数が多いページからリンクされていることが重要になり、ディレクトリの構造を十分に反映して結果を得ることができなかった。したがって、ある属性に関する関連性の度合いを示すスコアを求める方法としては十分な効果は期待できない。
また、例えば、Web検索のクリック・スルーデータに対して、特定の意味のクエリ集合(シードクエリ)を用い、グラフによるスコアの伝播を行って関連クエリを抽出する方法が提案されている(例えば、非特許文献1参照)。ここで、クリック・スルーデータは、検索ユーザが検索結果のリンク(URL)をクリックしたときに記録される、クエリ、クリックURL、タイム・スタンプ、検索順位、ブラウザ識別子等からなるログである。
特開2006−127529号公報
Li,X., Wang,Y. and Acero,A.: Learning query intent from regularized click graphs, Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, ACM New York, NY, USA, pp.339−346(2008)
しかしながら、非特許文献1の方法は、クエリからURLを経由し、再びクエリに至るまでのステップに対して正規化を行っており、この正規化の計算量が大きく処理全体の負担になっていた。また、正規化は経由してきたURLによらず、クエリからURLを経由して到達したクエリのスコアの和で正規化するので、クリック総数が大きいURLに影響されやすかった。
また、URLとクエリとは強い関連があるが、このため非常に狭い範囲での関連性しか得られない場合がある。したがって、属性の推定において有効な関連度を算出することは難しかった。
本発明は、クリック・スルーデータの分析において、クエリまたはURLの関連性の算出精度を向上させることができる関連性判定装置、関連性判定方法およびプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) Web検索におけるクエリと、当該クエリに基づく検索結果の中から選択されたURLと、を互いに対応付けて取得する取得手段と、
前記取得手段により取得されたURLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解、および/または前記取得手段により取得されたクエリを当該クエリに含まれるキーワードに分解する分解手段と、
前記取得手段により互いに対応付けて取得されたURLおよびクエリについて、当該URLまたは当該URLが前記分解手段により分解された各ディレクトリ階層と、当該クエリまたは当該クエリが前記分解手段により分解された各キーワードと、をそれぞれノードとして互いをエッジで結んだ2部グラフを生成する生成手段と、
同一の属性を持つクエリおよび/またはURLを含んだシード集合を受け付ける受付手段と、
前記生成手段により生成された2部グラフにおいて、各エッジによるノード間の前記属性に関するスコアの伝播に基づいて、前記受付手段により受け付けたシード集合と各ノードとの関連度を示す関連性スコアを、各ノードについて算出する算出手段と、を備える関連性判定装置。
このような構成によれば、当該関連性判定装置は、Web検索におけるクエリと、当該クエリに基づく検索結果の中から選択されたURLと、を互いに対応付けて取得し、取得されたURLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解、および/または取得されたクエリを当該クエリに含まれるキーワードに分解し、互いに対応付けて取得されたURLおよびクエリについて、当該URLまたは当該URLが分解された各ディレクトリ階層と、当該クエリまたは当該クエリが分解された各キーワードと、をそれぞれノードとして互いをエッジで結んだ2部グラフを生成する。そして、当該関連性判定装置は、同一の属性を持つクエリおよび/またはURLを含んだシード集合を受け付け、生成された2部グラフにおいて、各エッジによるノード間の属性に関するスコアの伝播に基づいて、シード集合と各ノードとの関連度を示す関連性スコアを、各ノードについて算出する。
このことにより、当該関連性判定装置は、クリック・スルーデータにおけるクエリとURLとを結んで生成した2部グラフを用いて、与えられたシード集合と各ノード(クエリまたはURL)との関連度を示す関連性スコアを算出することができる。さらに、当該関連性判定装置は、URLを各ディレクトリ階層に、またクエリをキーワードに分解した上でグラフを生成するので、元のクエリおよびURLを結んだグラフに比べてグラフを密にすることができる。その結果、ノード間の関連性の強弱に応じて伝播するスコアに差が出るようにできるため、関連性の算出精度を向上させることができる。
(2) Web検索におけるクエリの入力を受け付けた場合に、当該クエリに関する前記属性または前記関連性スコアに基づいて新たなクエリを推薦する推薦手段をさらに備える(1)に記載の関連性判定装置。
このような構成によれば、当該関連性判定装置は、ユーザからWeb検索におけるクエリの入力を受け付けた場合に、このクエリと同じ属性を持つ新たなクエリをユーザに推薦し、検索を行うユーザの利便性を向上することができる。特に、関連性スコアが高く有用なクエリを推薦することによって、ユーザの所望する検索結果に辿り着く可能性が高まる。
(3) Web検索におけるクエリの入力を受け付けた場合に、当該クエリまたは当該クエリに基づく検索結果のURLに関する前記関連性スコアに基づいて、新たな検索結果としてのURLを出力する検索手段をさらに備える(1)または(2)に記載の関連性判定装置。
このような構成によれば、当該関連性判定装置は、ユーザからWeb検索におけるクエリの入力を受け付けた場合に、このクエリが持つ属性について関連性が高いURLを検索結果として出力することができる。したがって、当該関連性判定装置は、検索を行うユーザに対して、関連性スコアが高く有用なURLを提示するので、ユーザが効率的に所望の検索結果に辿り着く可能性が高まる。
(4) Web検索におけるクエリと、当該クエリに基づく検索結果の中から選択されたURLと、を互いに対応付けて取得する取得ステップと、
前記取得ステップにより取得されたURLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解、および/または前記取得ステップにより取得されたクエリを当該クエリに含まれるキーワードに分解する分解ステップと、
前記取得ステップにより互いに対応付けて取得されたURLおよびクエリについて、当該URLまたは当該URLが前記分解ステップにより分解された各ディレクトリ階層と、当該クエリまたは当該クエリが前記分解ステップにより分解された各キーワードと、をそれぞれノードとして互いをエッジで結んだ2部グラフを生成する生成ステップと、
同一の属性を持つクエリおよび/またはURLを含んだシード集合を受け付ける受付ステップと、
前記生成ステップにより生成された2部グラフにおいて、各エッジによるノード間の前記属性に関するスコアの伝播に基づいて、前記受付ステップにより受け付けたシード集合と各ノードとの関連度を示す関連性スコアを、各ノードについて算出する算出ステップと、をコンピュータが実行する関連性判定方法。
このような構成によれば、当該関連性判定方法を実行することにより、(1)と同様の効果が期待できる。
(5) (4)に記載の関連性判定方法をコンピュータに実行させるプログラム。
このような構成によれば、当該プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
本発明によれば、クリック・スルーデータの分析において、クエリまたはURLの関連性の算出精度を向上させることができる。
本発明の実施形態に係る管理サーバの機能構成と、システムの全体構成を示す図である。 URLノード方式により生成されるグラフの一例を示す図である。 ドメインノード方式により生成されるグラフの一例を示す図である。 本発明実施形態に係る階層ノード方式により生成されるグラフの一例を示す図である。 本発明の実施形態に係る関連性判定方法の処理手順を示すフローチャートである。 本発明の実験例に用いたクリック・スルーデータの概要を示す図である。 本発明の実験例に用いたシードクエリの例を示す図である。 本発明の実験例において関連性スコアが上位となったクエリを示す図である。 本発明の実施形態と比較手法とによる実験結果を比較した図である。 本発明の実施形態に係る階層ノード方式、URLノード方式およびドメインノード方式による実験結果を比較した図である。 本発明の実験例において出力件数を変化させた場合のカバー率の変化を示した図である。 本発明の実施形態に係る変形例を示した図である。
以下、本発明の実施形態の一例について図を参照しながら説明する。
[システム全体構成]
図1は、本実施形態に係る管理サーバ10(関連性判定装置)の機能構成と、管理サーバ10を含んだシステムの全体構成を示す図である。
管理サーバ10、検索サーバ20、コンテンツサーバ30、および端末装置40は、ネットワークを介して接続されている。端末装置40のユーザは、検索サーバ20にアクセスし、所定の検索エンジンに対して、所望のWebページに辿り着くためのクエリ(検索キーワード)を入力することにより、検索結果を取得する。ユーザは、この検索結果として一覧表示されたURLの中から1つをクリック(選択)し、コンテンツサーバ30にて管理されるサイトにアクセスしてWebページを閲覧する。
管理サーバ10は、検索サーバ20の検索エンジンに入力されたクエリに対して、ユーザが検索結果に基づいてクリック(選択)したURL等の履歴データ(クリック・スルーデータ)を蓄積する。そして、管理サーバ10は、蓄積されたクリック・スルーデータを用いて、クエリとURLとをエッジで結んだ2部グラフを生成する。さらに、管理サーバ10は、ある特定の意味のクエリ集合(シードクエリ)や、特定のトピックに関連したURL集合(シードURL)を、シード集合として取得し、このシード集合に対する関連度を示す関連性スコアを、各ノードについて算出する。
なお、本実施形態では、管理サーバ10は単一のサーバとして説明するが、これには限られず、後述の各種機能は、適宜、複数のサーバに分散されてもよい。
管理サーバ10の制御部100は、クリック・スルーデータ取得部11(取得手段)と、ノード分解部12(分解手段)と、グラフ生成部13(生成手段)と、シード集合取得部14(受付手段)と、関連性スコア算出部15(算出手段)と、結果出力部16(推薦手段、検索手段)と、を備える。また、管理サーバ10の記憶部200は、ログ蓄積部17と、グラフ記憶部18と、スコア記憶部19(記憶手段)と、を備える。
クリック・スルーデータ取得部11は、ログ蓄積部17から、過去の検索処理の履歴であるクリック・スルーデータを取得する。具体的には、クリック・スルーデータは、Web検索におけるクエリと、このクエリに基づく検索結果であるURLの一覧の中から実際にクリック(選択)されたURLと、を互いに対応付けたものである。
ノード分解部12は、クリック・スルーデータ取得部11により取得されたクリック・スルーデータにおいて、URLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解、またはクエリをこのクエリに含まれるキーワードに分解する。また、ノード分解部12は、URLとクエリの双方を分解してもよい。
グラフ生成部13は、URLまたはこのURLがノード分解部12により分解された各ディレクトリ階層と、クエリまたはこのクエリがノード分解部12により分解された各キーワードと、をそれぞれノードとし、互いをエッジで結んだ2部グラフ(クリックグラフ)を生成する。グラフ生成部13は、生成したグラフを示すデータをグラフ記憶部18に記憶する。
本実施形態では、まず、URLのみを分解してグラフを生成する方法について以下で説明する。以下、本実施形態による方法を階層ノード方式と呼び、比較のため、URLノード方式(図2)と、ドメインノード方式(図3)と、を挙げる。
図2は、URLノード方式により生成されるグラフの一例を示す図である。この例では、あるドメイン(http:/www.mofa.go.jp)配下のURLと、これらのURLに辿り着いたクエリとがエッジで結ばれている。このグラフでは、関連性があるべき「イギリス」、「ウクライナ」、「アメリカ」は全くリンクしていない。すなわち、URLノード方式では、ノード間の関連性を判定するにはグラフ構造が疎のため精度が期待できない。
図3は、ドメインノード方式により生成されるグラフの一例を示す図である。この例では、URLノード方式(図2)と同じドメイン(http:/www.mofa.go.jp)と、このドメイン配下のいずれかのURLに辿り着いたクエリとがエッジで結ばれている。このグラフでは、「イギリス」、「ウクライナ」、「アメリカ」の間にリンクを作ることができたが、「ビザ」、「パスポート」、「外務省」等、意味の遠いクエリも同じ強さの関連性になってしまう。
図4は、本実施形態に係る階層ノード方式により生成されるグラフの一例を示す図である。この例では、クリックされたURL(例えば、「http:/www.mofa.go.jp/mofaj/toko/passport/」)の各ディレクトリ階層(例えば、「http:/www.mofa.go.jp」、「http:/www.mofa.go.jp/mofaj/」、「http:/www.mofa.go.jp/mofaj/toko/」)に一様に関連しているとみなし、各ディレクトリ階層それぞれとクエリとをエッジで結ぶ。
このように、階層ノード方式により生成されたグラフは、エッジを密にできるため、クエリ間の関連が強いものと弱いもので伝播するスコアに差が生じ、共通するURLのディレクトリ階層の深さを関連度に反映させることができる。これにより、例えば、「イギリス」と「ウクライナ」間は、「イギリス」と「ビザ」間より高い関連度を持つ。
なお、本実施形態では、クエリがURLの各ディレクトリ階層に一様の重みで関連しているとしてエッジを設けたが、これには限られず、回想の深さに応じて重み付けを行ってもよい。
シード集合取得部14は、同一の属性(例えば、ファセット語)を持つクエリまたはURL、あるいは双方を含んだシード集合を受け付ける。シード集合取得部14は、管理サーバ10の管理者等からシード集合を受け付けてもよいが、これには限られない。例えば、所定のカテゴリが予め設けられている場合には、このカテゴリに含まれているURLを取得してシードURLとしてもよい。また、あるファセット(例えば、「画像」)に関することなら、「XXX 画像」のようなクエリをログ蓄積部17のクリック・スルーデータから取得してシードクエリとしてもよい。
本実施形態では、まず、クエリの集合(シードクエリ)を受け付ける場合について以下で説明する。
関連性スコア算出部15は、グラフ生成部13により生成されたグラフにおいて、クエリ集合により示された属性に関するスコアが各エッジによりノード間で伝播することに基づいて、シード集合取得部14により受け付けたシード集合と各ノードとの関連度を示す関連性スコアを、各ノードについて算出する。
具体的には、関連性スコア算出部15は、図4に示すように、シードクエリとして取得した特定の意味のクエリの集合と、他のクエリまたはURLとの関連性スコアを算出する。これにより、制御部100は、例えば同一のファセットを持つクエリ等、ある属性に関して関連性の高いクエリやURLを抽出することができる。
なお、スコアの伝播とは、あるノードが持っているスコア(変数値)を隣り合っているノードのスコアへ足し合わせることをいう。例えば、ある属性のスコアが「1.0」のノードが他の2つのノードと隣り合っている場合に、これら2つのノードのスコアに「0.5」ずつ加算する。この伝播が繰り返されて、スコアがノード毎の値に収束すると、各ノードがスコアによりランク付けされる。
ここで、関連性スコア算出部15による関連性スコアの算出方法について説明する。本実施形態では、2部グラフにおけるbiased−PageRank(登録商標)の手法を用いる。
URLの集合をU、クエリの集合をQとし、これらの和集合V=(U∪Q)をノードとする。クエリに対してユーザがクリックしたURLの記録から得られるクエリとURLの関係Eをエッジとする。このノードとエッジを用い、クリックグラフをグラフ(V,E)で表す。このグラフは成分Ai,jをクリック頻度とする隣接行列A∈N|V|×|V|で表すことができる。クエリに対してクリックされたURLはクエリと相互にエッジを持っていることとする。この隣接行列をそれぞれのノードに対して出次数で重みを正規化し、遷移行列Bを得た。
Figure 0005084796
なお、ノード間で相互にエッジを持っていることとしたのでAは対称行列だが、ノードごとに出次数が異なるためBは対称行列ではない。また、ページ間のハイパーリンク構造をモデル化したPageRank(登録商標)とは異なり、遷移先がなく除数が0になる場合はないので、これを考慮する必要はない。
このようなグラフに対して、特定の意味を持つクエリの集合として、シードクエリSを想定し、これに対応するベクトルsを作る。sは、
Figure 0005084796
を要素とする長さ|V|のベクトルである。ただしVは行に対応するクエリまたはURLとする。
このシードクエリのベクトルsに対し、各々のクエリの関連度を求めるため、
Figure 0005084796
によるm(k)の収束値mを求めた。これは確率(1−α)で出エッジのいずれかをクリック頻度の比に応じてランダムに移動し、確率αでシードとして与えたクエリ集合のいずれかにテレポートするランダムウォークを表すbiased−PageRank(登録商標)とほぼ等価である。
ここで、通常のPageRank(登録商標)は、確率αで全くランダムにテレポートするランダムウォークを表しており、特定の意味付けを持たない重要度を表す。一方、biased−PageRank(登録商標)は確率αで特定のノード集合のうち1つにランダムにテレポートするランダムウォークを表しているため、そのノード集合との関連度が考慮される。また、リンクを多く集めているノードがそうでないノードに比べ高いスコアを持つので、重要度も反映している。
関連性スコア算出部15では、mをSに対する関連性スコアとして、スコアの降順でクエリを列挙し、シードクエリを除外したものを処理結果とする。関連性スコア算出部15は、処理結果として、算出した関連性スコアを、スコア記憶部19に記憶する。
結果出力部16は、スコア記憶部19に記憶された関連性スコアを、要求に応じて読み出し、表示装置等を介して出力する。
また、結果出力部16は、Web検索におけるクエリの入力を受け付けた場合に、このクエリに関してスコア記憶部19に記憶されている属性または関連性スコアに基づいて、新たなクエリを推薦することもできる。
このことにより、管理サーバ10は、ユーザからWeb検索におけるクエリの入力を受け付けた場合に、このクエリと同じ属性を持つ新たなクエリをユーザに推薦し、検索を行うユーザの利便性を向上することができる。特に、関連性スコアが高く有用なクエリを推薦することによって、ユーザの所望する検索結果に辿り着く可能性が高まる。
さらに、結果出力部16は、Web検索におけるクエリの入力を受け付けた場合に、このクエリまたはクエリに基づく検索結果のURLに関してスコア記憶部19に記憶されている関連性スコアに基づいて、新たな検索結果としてのURLを出力することもできる。
このことにより、管理サーバ10は、ユーザからWeb検索におけるクエリの入力を受け付けた場合に、このクエリが持つ属性について関連性が高いURLを検索結果として出力することができる。したがって、当該関連性判定装置は、検索を行うユーザに対して、関連性スコアが高く有用なURLを提示するので、ユーザが効率的に所望の検索結果に辿り着く可能性が高まる。
本実施形態は、コンピュータおよびその周辺装置に適用される。本実施形態における各部は、コンピュータおよびその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成される。
上記ハードウェアには、制御部100としてのCPUの他、記憶部200、通信部、表示部および入力部が含まれる。記憶部200としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)、および光ディスク(CD、DVD等)ドライブが挙げられる。通信部としては、例えば、各種有線および無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボードおよびポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部200により記憶され、制御部100により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布することも可能である。
[処理フロー]
図5は、本実施形態に係る管理サーバ10の制御部100が実行する関連性判定方法の処理手順を示すフローチャートである。
ステップS1では、制御部100(クリック・スルーデータ取得部11)は、記憶部200(ログ蓄積部17)から、クリック・スルーデータを取得する。
ステップS2では、制御部100(ノード分解部12)は、ステップS1で取得したクリック・スルーデータのうち、URLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解してノードを生成する。
ステップS3では、制御部100(グラフ生成部13)は、ステップS2で分解されたURLと、クエリとを互いにエッジで結んだ2部グラフを生成する。
ステップS4では、制御部100(シード集合取得部14)は、関連性を判定するための属性として、特定の意味のクエリの集合であるシードクエリを取得する。
ステップS5では、制御部100(関連性スコア算出部15)は、前述のbiased−PageRank(登録商標)の手法を用いて、ステップS4で取得したシードクエリとの関連度を示す関連性スコアを、各ノードに対して算出する。
[実験例]
以下、図6〜図11において、本実施形態により関連性スコアを算出した実験例を、他の手法と比較して説明する。
図6は、実験例に用いたクリック・スルーデータの概要を示す図である。検索サービスにおける1日分のログから、クリック頻度の高いクエリとURLの組合せ100万件(1M.set)、および10万件(100K.set)を抽出した。
図6中の「シード・評価データ」は、1M.setでは、「中古」、「株式」、「予約」、「レシピ」、「画像」、「ファッション」、「ダウンロード」の7種類のファセット語に対して、これらの語を空白で分割された最後の要素に持つクエリ(例えば、「野菜嫌い レシピ」等)の数である。100K.setでは同様に、「レシピ」、「画像」について収集したクエリの数である。
図7は、関連性スコアを算出するために入力したシードクエリの例を示す図である。図7では、「レシピ」、「ファッション」に関するシードクエリを例示している。本実験では、シードクエリとして、ファセット語が付いているものと、ファセット語を削除したものの両方を用いた。例えば、「野菜嫌い」であれば、「野菜嫌い レシピ」と「野菜嫌い」の両方のクエリに対してシードとしての値を付与する。このようにしたとき、片方のみを用いるより良い結果が得られた。
なお、本実験では、擬似的な正解としての評価データに対しては、ファセット語を除いたもののみを用い、ファセット語が付属した語は無視した。
また、前述(式3)のパラメータαは、「0.25」に設定した。
図8は、「レシピ」に関するシードクエリを与えたとき、関連性スコアが上位となったクエリを示す図である。このように、属性「レシピ」に対して「ビシソワーズ」や「梅ジュース」等、関連のあるクエリが取得できた。
次に、本実施形態による関連性の判定精度を、他の手法と比較する。
比較対象として、前述の非特許文献1の方法(比較手法)を説明する。この方法は、本実施形態と同様にグラフによるスコアの伝播を行っているが、クエリからURLを経由し、再びクエリに至るまでのステップに対し、正規化を行っている点が大きく異なる。
Figure 0005084796
ここで、Aは、前述の隣接行列であり、Dは正規化の行列、B´B´はクエリ間の遷移行列である。
図9は、比較手法と本実施形態(提案手法)とによる実験結果を比較した図である。比較手法は処理時間が長いため、図6の100K.setを用いて比較実験を行った。条件を揃えるため、各手法で関連性スコアが高いものから800件を出力結果とし、正解データ(評価用データ)のうち各手法による出力結果に含まれる割合(カバー率)にて比較した。
この結果、2つのファセット語に対するカバー率のマクロ平均は、図9のように提案手法(61.85%)が比較手法(54.06%)に対して14.4%改善した。
図10は、前述のURLノード方式(図2)、ドメインノード方式(図3)、および本実施形態の階層ノード方式による実験結果を比較した図である。各方式において、関連性スコアが高いものから800件を出力結果とし、図9と同様にカバー率にて比較した。
この結果、7つのファセット語に対するカバー率のマクロ平均は、本実施形態の階層ノード方式が最も高く(42.27%)、URLノード方式(35.63%)およびドメインノード方式(38.84%)との差は統計的に有意であった。
また、図11は、図10の各方式において、出力件数を変化させた場合のカバー率の変化を示した図である。このように、100件、200件、400件、800件、1600件のいずれの場合でも、本実施形態の階層ノード方式が最も高いカバー率となった。
以上のように、本実施形態によれば、管理サーバ10は、クリック・スルーデータにおけるクエリとURLとを結んで生成した2部グラフを用いて、与えられたシードクエリと各ノード(クエリまたはURL)との関連度を示す関連性スコアを算出することができる。さらに、管理サーバ10は、URLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解した上でグラフを生成するので、元のクエリおよびURLを結んだグラフに比べてグラフを密にすることができる。その結果、ノード間の関連性の強弱に応じて伝播するスコアに差が出るようにできるため、関連性の算出精度を向上させることができる。
[変形例]
以上、本発明の実施形態の一例を説明したが、ノード分解部12またはシード集合取得部14は次のように変形することができる。
ノード分解部12において、URLを分解すると共に、またはURLを分解する代わりに、クエリを分解してもよい(図12参照)。例えば、ノード分解部12は、「富士山 画像」というクエリに対して、このクエリを分解した「富士山」および「画像」というノードを生成する。このことにより、グラフにおけるエッジを密にする効果があり、関連性スコアの算出精度を向上させることができる。
また、シード集合取得部14は、シードクエリと共に、またはシードクエリの変わりに、特定のトピックに関連したURLの集合であるシードURLを所得することとしてもよい(図12参照)。
ここで、シードクエリを与えた場合は、関連性スコア算出部15により、シードクエリと各ノード(クエリまたはURL)との関連性スコアが算出される。一方、シードURLを与えた場合は、関連性スコア算出部15により、シードURLと各ノード(クエリまたはURL)との関連性スコアが算出される。さらに、シードクエリおよびシードURLを与えた場合は、シード集合(シードクエリとシードURLの和集合)と各ノード(クエリまたはURL)との関連性スコアが算出される。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
10 管理サーバ
11 クリック・スルーデータ取得部
12 ノード分解部
13 グラフ生成部
14 シード集合取得部
15 関連性スコア算出部
16 結果出力部
17 ログ蓄積部
18 グラフ記憶部
19 スコア記憶部
100 制御部
200 記憶部

Claims (4)

  1. Web検索におけるクエリと、当該クエリに基づく検索結果の中から選択されたURLと、を互いに対応付けて取得する取得手段と、
    前記取得手段により取得されたURLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解、および/または前記取得手段により取得されたクエリを当該クエリに含まれるキーワードに分解する分解手段と、
    前記取得手段により互いに対応付けて取得されたURLおよびクエリについて、当該URLまたは当該URLが前記分解手段により分解された各ディレクトリ階層と、当該クエリまたは当該クエリが前記分解手段により分解された各キーワードと、をそれぞれノードとして互いをエッジで結んだ2部グラフを生成する生成手段と、
    同一の属性を持つクエリおよび/またはURLを含んだシード集合を受け付ける受付手段と、
    前記生成手段により生成された2部グラフにおいて、各エッジによるノード間の前記属性に関するスコアの伝播に基づいて、前記受付手段により受け付けたシード集合と各ノードとの関連度を示す関連性スコアを、各ノードについて算出する算出手段と、
    Web検索におけるクエリの入力を受け付けた場合に、当該クエリと同じ属性を持つ新たなクエリであり、更に関連性スコアが高いクエリをユーザに推薦する推薦手段
    を備える関連性判定装置。
  2. Web検索におけるクエリの入力を受け付けた場合に、当該クエリまたは当該クエリに基づく検索結果のURLに関する前記関連性スコアに基づいて、新たな検索結果としてのURLを出力する検索手段をさらに備える請求項1に記載の関連性判定装置。
  3. Web検索におけるクエリと、当該クエリに基づく検索結果の中から選択されたURLと、を互いに対応付けて取得する取得ステップと、
    前記取得ステップにより取得されたURLの記載に含まれるディレクトリ構成を各ディレクトリ階層に分解、および/または前記取得ステップにより取得されたクエリを当該クエリに含まれるキーワードに分解する分解ステップと、
    前記取得ステップにより互いに対応付けて取得されたURLおよびクエリについて、当該URLまたは当該URLが前記分解ステップにより分解された各ディレクトリ階層と、当該クエリまたは当該クエリが前記分解ステップにより分解された各キーワードと、をそれぞれノードとして互いをエッジで結んだ2部グラフを生成する生成ステップと、
    同一の属性を持つクエリおよび/またはURLを含んだシード集合を受け付ける受付ステップと、
    前記生成ステップにより生成された2部グラフにおいて、各エッジによるノード間の前記属性に関するスコアの伝播に基づいて、前記受付ステップにより受け付けたシード集合と各ノードとの関連度を示す関連性スコアを、各ノードについて算出する算出ステップと、
    Web検索におけるクエリの入力を受け付けた場合に、当該クエリと同じ属性を持つ新たなクエリであり、更に関連性スコアが高いクエリをユーザに推薦する推薦ステップ
    をコンピュータが実行する関連性判定方法。
  4. 請求項に記載の関連性判定方法をコンピュータに実行させるプログラム。
JP2009173478A 2009-07-24 2009-07-24 関連性判定装置、関連性判定方法およびプログラム Active JP5084796B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173478A JP5084796B2 (ja) 2009-07-24 2009-07-24 関連性判定装置、関連性判定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009173478A JP5084796B2 (ja) 2009-07-24 2009-07-24 関連性判定装置、関連性判定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011028509A JP2011028509A (ja) 2011-02-10
JP5084796B2 true JP5084796B2 (ja) 2012-11-28

Family

ID=43637188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009173478A Active JP5084796B2 (ja) 2009-07-24 2009-07-24 関連性判定装置、関連性判定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5084796B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5670867B2 (ja) * 2011-11-21 2015-02-18 日本電信電話株式会社 クエリの場所推定方法及び装置及びプログラム
JP5985722B1 (ja) * 2015-08-18 2016-09-06 エヌ・ティ・ティ レゾナント株式会社 情報処理システム、情報処理方法、およびプログラム
US20170293696A1 (en) * 2016-04-11 2017-10-12 Google Inc. Related entity discovery
JP7088644B2 (ja) * 2017-09-15 2022-06-21 ヤフー株式会社 提供装置、提供方法及び提供プログラム
US10460359B1 (en) * 2019-03-28 2019-10-29 Coupang, Corp. Computer-implemented method for arranging hyperlinks on a graphical user-interface

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4477931B2 (ja) * 2004-04-21 2010-06-09 日本電信電話株式会社 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体
US7779001B2 (en) * 2004-10-29 2010-08-17 Microsoft Corporation Web page ranking with hierarchical considerations

Also Published As

Publication number Publication date
JP2011028509A (ja) 2011-02-10

Similar Documents

Publication Publication Date Title
US8150846B2 (en) Content searching and configuration of search results
JP4950444B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
US8626768B2 (en) Automated discovery aggregation and organization of subject area discussions
US9576029B2 (en) Trust propagation through both explicit and implicit social networks
JP5436665B2 (ja) 同時選択画像の分類
CN102171689B (zh) 用于提供搜索结果的方法、系统
US9390173B2 (en) Method and apparatus for scoring electronic documents
US7779001B2 (en) Web page ranking with hierarchical considerations
US20110060716A1 (en) Systems and methods for improving web site user experience
US20110060717A1 (en) Systems and methods for improving web site user experience
US20140136567A1 (en) Topic relevant abbreviations
US20080140641A1 (en) Knowledge and interests based search term ranking for search results validation
US20130007124A1 (en) System and method for performing a semantic operation on a digital social network
US20100241647A1 (en) Context-Aware Query Recommendations
US20100306166A1 (en) Automatic fact validation
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
JP4820147B2 (ja) 属性評価プログラム、属性評価システムおよび属性評価方法
JP5519406B2 (ja) サーバ装置、ジャンルスコア算出方法およびプログラム
KR20150027841A (ko) 온라인 소셜 네트워크에 대한 개인 맞춤형 구조화된 검색 질의
Zhong et al. Combining content and quality indicators in ranking ambiguous query results on Flickr
Jayanthi et al. Segregating unique service object from multi-web sources for effective visualization
Lieberam-Schmidt et al. Web Structure
Kırmemiş Alkan Utility based and user defined scoring based mining of sequential patterns
Zhang et al. On web communities mining and analysis

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120904

R150 Certificate of patent or registration of utility model

Ref document number: 5084796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350