JP5670867B2 - Query location estimation method, apparatus, and program - Google Patents
Query location estimation method, apparatus, and program Download PDFInfo
- Publication number
- JP5670867B2 JP5670867B2 JP2011254229A JP2011254229A JP5670867B2 JP 5670867 B2 JP5670867 B2 JP 5670867B2 JP 2011254229 A JP2011254229 A JP 2011254229A JP 2011254229 A JP2011254229 A JP 2011254229A JP 5670867 B2 JP5670867 B2 JP 5670867B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- location
- url
- transition probability
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、検索サービスにおけるクエリのクリックログを用いたクエリの場所推定方法及び装置及びプログラムに係り、特に、一部のクエリや一部のURLに場所情報が付与されている場合に、場所情報が付与されていないクエリ、URLの場所を推定しながら、クエリの場所推定に関する信頼度を算出し、クエリのクリック分布に基づいたグラフ分析に適用するためのクエリの場所推定方法及び装置及びプログラムに関する。 The present invention relates to a query location estimation method, apparatus, and program using a click log of a query in a search service, and in particular, location information when location information is given to some queries and some URLs. The present invention relates to a query location estimation method, apparatus, and program for calculating a reliability related to query location estimation while estimating the location of a query to which a URL is not attached, URL, and applying the result to graph analysis based on the click distribution of the query .
近年、検索サービスにおけるユーザの検索状況を示すログファイルを分析し、検索サービスの向上に利用する試みが行われている。ここで、一般に検索ログには図1に示すような項目の情報が含まれている。 In recent years, an attempt has been made to analyze a log file indicating a user's search status in a search service and use it to improve the search service. Here, in general, the search log includes information on items as shown in FIG.
1.日付
2.ユーザID
3.クエリ名
4.クリックURL
5.ランキング順位
図1の日付の項目は、ユーザがURLをクリックした日付である。ユーザIDは、検索クエリを用いて検索したユーザのIDである。クエリ名は、ユーザが検索に利用したクエリ名である。クリックURLはユーザがクリックした検索結果のURLである。ランキング順位はユーザがクリックしたURLの検索ランキング順位である。
1.
3. Query name Click URL
5. Ranking Order The date item in FIG. 1 is the date when the user clicked the URL. The user ID is an ID of a user who has searched using a search query. The query name is a query name used by the user for the search. The click URL is the URL of the search result clicked by the user. The ranking order is the search ranking order of the URL clicked by the user.
これらのログは、ユーザの検索行動の効率化に利用されている。その利用情報の一つにクエリ推薦がある。このクエリ推薦では、ユーザが投入したクエリとクリックしたURLが対になった図2のような二部グラフを用いて推薦している。図2の左側はユーザが投入したクエリ名であり、右側は検索結果からユーザがクリックしたURLを表している。また、ユーザがクエリを投入して実際にクリックしたURLをエッジで連結している。この二部グラフを解析し、結びつきの強いクエリを推薦クエリとして用いている。 These logs are used to improve the efficiency of user search behavior. One of the usage information is query recommendation. In this query recommendation, recommendation is made using a bipartite graph as shown in FIG. 2 in which a query entered by a user and a clicked URL are paired. The left side of FIG. 2 shows the name of the query input by the user, and the right side shows the URL clicked by the user from the search result. In addition, URLs that users clicked on after entering a query are linked at the edge. This bipartite graph is analyzed, and a strongly connected query is used as a recommendation query.
ここで、検索ログを用いたクエリ推薦の代表的な技術として、クエリとURLの関連性を二部グラフを用いてクエリとURL間の関連性を算出する技術がある(例えば、非特許文献1参照)。この技術では、クエリとURLの関連性を二部グラフを用いて、クエリとURL間の関連性を算出している。 Here, as a typical technique for query recommendation using a search log, there is a technique for calculating the relation between a query and a URL using a bipartite graph of the relation between the query and the URL (for example, Non-Patent Document 1). reference). In this technology, the relationship between a query and a URL is calculated using a bipartite graph.
これらログファイルを用いて、ユーザが欲しいページを見つけやすいクエリを推薦する技術が存在する(例えば、非特許文献1参照)。この技術では、クエリとURLの関連性を二部グラフを用いて、クエリとURL間の関連性を算出する際に、同じ検索意図のクエリが同じURL群にアクセスしている性質を利用し、同じ検索意図のクエリをクラスタリングしている。クラスタリングしたクエリにおいて、関連度の高いクエリを代表クエリとしている。ユーザにクエリを推薦する場合は、ユーザが利用しようとするクエリに対し、そのクエリが属するクラスタリング内のクエリ群から関連度の高いクエリを推薦する。この技術により、ユーザはより検索精度の高いクエリで検索を行うことができる。 There is a technique for recommending a query that makes it easy for a user to find a desired page using these log files (see, for example, Non-Patent Document 1). In this technology, when calculating the relationship between a query and URL using a bipartite graph of the relationship between a query and a URL, the same search intention query accesses the same URL group. Clustering queries with the same search intention. In the clustered query, a query having a high degree of relevance is used as a representative query. When recommending a query to a user, a query having a high degree of relevance is recommended from a group of queries in the clustering to which the query belongs to a query that the user intends to use. With this technology, the user can perform a search with a query with higher search accuracy.
しかしながら、クエリが関係する場所(例えば、クエリ「渋谷 デパート」は渋谷に関するクエリ)を特定することを目的とし、従来手法を用いてクエリに関連度の高い他のクエリが関連する場所を利用する場合、場所とは関係のないクエリの結びつきが問題になることがある。 However, if the query is related to the location (for example, the query “Shibuya Department Store” is a query related to Shibuya), the location of other queries related to the query is used using the conventional method. , Query ties unrelated to location can be a problem.
例えば、横浜のデパートでアクセサリを販売しており、渋谷のデパートではアクセサリを販売していない場合に、図3に示すようなクリックグラフが存在するものとする。このとき、クエリ「デパート アクセサリ」では横浜でアクセサリを販売しているため、横浜のデパートに関連するURL2, URL3をクリックしている。しかし、従来手法を用いてクエリ間の関連度を算出し、クエリ「デパート アクセサリ」とクエリ「渋谷 デパート」の関連度が大きい場合、渋谷ではアクセサリを販売していないためクエリ「デパート アクセサリ」が渋谷でも利用できると判断される。 For example, when an accessory is sold at a department store in Yokohama and no accessory is sold at a department store in Shibuya, a click graph as shown in FIG. 3 exists. At this time, since the query “department accessory” sells accessories in Yokohama, URL2 and URL3 related to the department store in Yokohama are clicked. However, if the relevance between the queries is calculated using the conventional method and the relevance between the query “Department Accessories” and the query “Shibuya Department Store” is large, the accessories “Shibuya” are not sold in Shibuya. However, it is judged that it can be used.
他の例として、図4のようにクエリ「デパート アクセサリ」がクエリ「渋谷 デパート」とクエリ「横浜 デパート」との関連度が小さい場合は、クエリ「デパート アクセサリ」は利用できる場所が特定できない。しかし、クエリ「デパート アクセサリ」でクリックしているURL2、URL3はともに横浜のデパートに関係するURLのため、クエリ「デパート アクセサリ」は横浜で利用できるクエリと考えるのが妥当である。 As another example, when the query “department accessory” has a low degree of association between the query “Shibuya department store” and the query “Yokohama department store” as shown in FIG. However, since both URL2 and URL3 clicked in the query “department accessory” are URLs related to the department store in Yokohama, it is reasonable to consider the query “department accessory” as a query that can be used in Yokohama.
このように、クエリ間の関連度を用いてクエリが利用できる場所を特定するには、従来手法のみでは適用できないという問題がある。 As described above, there is a problem that it is not possible to apply a conventional method alone to specify a place where a query can be used by using the degree of association between queries.
本発明は、上記の点に鑑みなされたもので、クエリ間の関連度とクエリとクリック関係にあるURL群の場所に対する関連度を用いて、クエリが利用できる場所を推定することが可能なクエリの場所推定方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and it is possible to estimate a place where a query can be used by using a degree of association between queries and a degree of association with a location of a URL group in a click relationship with the query. An object of the present invention is to provide a method, an apparatus, and a program for estimating the location of a computer.
上記の課題を解決するため、本発明(請求項1)は、検索サービスにおいて、ユーザの投入したクエリと該クエリに対する検索結果においてクリックしたURLから構成される検索ログを記録する検索ログ記憶手段と、該検索ログから対象とするクエリに関連するクエリ群とURL群を抽出する検索ログ抽出手段と、該クエリとクリックされたURLから構成される二部グラフを作成し、二部グラフを用いてクエリ間、URL間の関連度を算出する関連度算出手段と、を有する装置におけるクエリの場所推定方法であって、
前記関連度算出手段が、前記二部グラフにおいてクエリとURLを結ぶエッジの重みをクリック回数を基にクエリ間遷移確率算出ルールに基づいてクエリ間の遷移確率を算出するクエリ間遷移確率算出ステップと、
前記関連度算出手段が、URL間遷移確率算出ルールに基づいてURL間の遷移確率を算出するURL間遷移確率算出ステップと、
場所情報算出手段が、前記クエリ間の遷移確率に基づいてクエリの場所推定値を算出する第1の場所情報算出ステップと、
前記場所情報算出手段が、前記URL間の遷移確率に基づいてURLの場所推定値を算出する第2の場所情報算出ステップと、
場所判定手段が、前記クエリの場所推定値と前記URLの場所推定値を用いてクエリの場所を判定する場所判定ステップと、を有する。
In order to solve the above problems, the present invention (Claim 1) provides a search log storage means for recording a search log composed of a query input by a user and a URL clicked in a search result for the query in a search service. A search log extracting means for extracting a query group and a URL group related to the target query from the search log, and creating a bipartite graph composed of the query and the clicked URL, and using the bipartite graph A query level estimation method in a device having a relevance calculation means for calculating relevance between queries and URLs,
The inter-query transition probability calculation step in which the relevance calculation means calculates the transition probability between queries based on the inter-query transition probability calculation rule based on the number of clicks of the edge weight connecting the query and URL in the bipartite graph; ,
The relevance calculation means calculates a transition probability between URLs based on a transition probability calculation rule between URLs, and calculates a transition probability between URLs,
A first location information calculation step in which the location information calculation means calculates a location estimate of the query based on the transition probability between the queries;
A second location information calculating step in which the location information calculating means calculates a URL location estimate based on the transition probability between the URLs;
The location determination means includes a location determination step of determining the location of the query using the location estimate of the query and the location estimate of the URL.
また、本発明(請求項2)は、前記クエリ間遷移確率算出ステップにおいて、
クエリの投入回数とURLへのクリック回数に基づいてエッジの重みを算出し、該クエリから該URLへの遷移確率に基づいてクエリ間を結ぶURLを介した遷移確率を算出する前記クエリ間遷移確率算出ルールを用いる。
In the present invention (Claim 2), in the inter-query transition probability calculating step,
The inter-query transition probability that calculates the edge weight based on the number of queries input and the number of clicks on the URL, and calculates the transition probability via the URL connecting the queries based on the transition probability from the query to the URL Use calculation rules.
また、本発明(請求項3)は、前記URL間遷移確率算出ステップにおいて、
クエリの投入回数とURLへのクリック回数に基づいてエッジの重みを算出し、URLからクエリへの遷移確率に基づいてURL間を結ぶクエリを介した遷移確率を算出する前記URL間遷移確率算出ルールを用いる。
Further, according to the present invention (Claim 3), in the inter-URL transition probability calculating step,
Calculating the weight of an edge based on the number of clicks to a query put number and URL, the URL among transition probability calculation for calculating a transition probability via a query connecting the UR L based on the transition probability from URL to query Use rules.
また、本発明(請求項4)は、前記第1の場所情報算出ステップにおいて、
前記クエリ間の遷移確率を用いて他のクエリのもつ場所情報を当該クエリの場所ベクトルへ配分し、
前記第2の場所情報算出ステップにおいて、
前記URL間の遷移確率を用いて他のURLのもつ場所情報を当該URLの場所ベクトルへ配分し、
前記場所判定ステップにおいて、
前記クエリの場所ベクトルの要素を確率として用い、クエリの場所信頼度として確率エントロピーを算出し、
前記クエリとクリック関係にあるURLの場所ベクトルの総和の各ベクトル要素を確率として用い、URLの場所信頼度として確率エントロピーを算出し、
前記クエリの場所信頼度と前記URLの場所信頼度を乗じたものをクエリの場所を判定する値としてもち、該値が閾値以上であればクエリの場所ベクトルの要素の中で最も大きい値の要素に対応する場所をクエリの場所とする。
Moreover, this invention (Claim 4) is the first location information calculation step ,
The location information with the other queries using the transition probabilities between before Symbol query allocate to the location vector of the query,
In the second location information calculation step ,
The location information with the other URL using the transition probabilities between before Symbol URL allocated to the location vector of the URL,
In the location determination step,
Probability entropy is calculated as the location reliability of the query using elements of the location vector of the query as probabilities,
Probability entropy is calculated as the URL location reliability using each vector element of the sum of the URL location vectors in a click relationship with the query as a probability,
Has multiplied by a location reliability of the URL and location reliability of the query to the location of the query as determined value, the largest value among the elements of the query location vector if said value is equal to or greater than the threshold The location corresponding to the element is the query location.
従来の技術では、クエリ間の関連度によるクエリの場所的な繋がりを特定する目的において、クエリとURLのクリック関係を2部グラフにして関連度を算出する場合、クリック関係の特徴によって場所的な繋がりがないクエリとの関連度が高い可能性がある。これに対し、本発明によれば、クエリ間の関連度による場所信頼度とクエリとクリック関係にあるURL群の場所信頼度を用いることにより、クエリ間の場所信頼度が小さい場合でもURL群の場所信頼度を用いて場所を推定でき、また、URL群の場所信頼度が小さい場合でも、クエリ間の場所信頼度を用いて場所を推定できる。 In the conventional technology, for the purpose of specifying the locational connection of queries based on the relevance between queries, when the relevance is calculated using a bipartite graph of the click relationship between the query and the URL, the locality depends on the characteristics of the click relationship. There is a possibility that the relevance to the query that is not connected is high. On the other hand, according to the present invention, by using the location reliability based on the relevance between the queries and the location reliability of the URL group in the click relationship with the query, even if the location reliability between the queries is small, The location can be estimated using the location reliability, and the location can be estimated using the location reliability between queries even when the location reliability of the URL group is small.
以下図面と共に、本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図5は、本発明の一実施の形態におけるクエリの場所推定装置の構成を示す。 FIG. 5 shows a configuration of a query location estimation apparatus according to an embodiment of the present invention.
同図に示す装置は、クエリ入力部1、検索ログ抽出部2、クエリ間遷移確率算出部3、URL間遷移確率算出部4、場所情報算出部5、場所判定部6、検索ログ記憶部7、場所キーワード記憶部8、場所URL記憶部9から構成される。
The apparatus shown in FIG. 1 includes a
上記の検索ログ記憶部7、場所キーワード記憶部8、場所URL記憶部9は、ハードディスク等の記憶媒体に設けられる。
The search
検索ログ記憶部7は、図6に示すように、日付、ユーザID、クエリ名、クリックURLからなる検索ログを格納する。
As shown in FIG. 6, the search
以下に、上記の構成の装置の処理を検索ログ抽出処理とクエリ場所推定処理に分けて説明する。 Hereinafter, the processing of the apparatus having the above-described configuration will be described separately for search log extraction processing and query location estimation processing.
<検索ログ抽出処理>
クエリ入力部1にクエリq1が入力されると、検索ログ抽出部2にq1を出力する。検索ログ抽出部2は、クエリq1を取得すると、検索ログ記憶部7にアクセスし、クエリq1に関連するログを抽出する。
<Search log extraction process>
When a query q1 is input to the
検索ログを抽出する方法について、図7のフローチャートを用いて説明する。 A method for extracting the search log will be described with reference to the flowchart of FIG.
図7は、本発明の一実施の形態における検索ログ抽出処理のフローチャートである。 FIG. 7 is a flowchart of search log extraction processing according to an embodiment of the present invention.
ステップ101) 検索ログ抽出部2は、はじめに、N_maxの値を設定する。本実施の形態では、N_max=2とし、N=0とする。
Step 101) The search
ステップ102) 検索ログ抽出部2は、N=N+1とし、クエリ入力部1から取得したクエリq1を持つクリックURLを検索ログ記憶部7から検索する。ここでは、図6の1行目と3行目を検索してURL1,URL2を抽出する。
Step 102) The search
ステップ103) 検索ログ抽出部2は、検索ログ記憶部7からURL1,URL2をクリックURLにもつクエリを抽出する。具体的には、図6の検索ログからURL1をクリックURLにもつクエリとしてq2を抽出し、URL2をクリックURLにもつクエリとしてq3を抽出する。
Step 103) The search
ステップ104) NがN_max以下である場合は、N=N+1としてステップ102に移行し、ステップ103で抽出したクエリ(q2、q3)のクリックURLを抽出する。NがN_maxと同値となったら当該処理を終了する。本例ではN=2となった時点で検索ログを出力する。
Step 104) If N is less than or equal to N_max, the process proceeds to Step 102 with N = N + 1, and the click URL of the query (q2, q3) extracted in
検索ログ抽出部2は、上記の処理で抽出した検索ログをクエリq1に関連する検索ログとし、クエリ間遷移確率算出部3とURL間遷移確率算出部4に出力する。
The search
<クエリ場所推定処理>
クエリ間遷移確率算出部3とURL間遷移確率算出部4は、検索ログ抽出部2から検索ログを取得すると、クエリとURLの二部グラフを作成し、それぞれクエリ間の遷移確率とURL間の遷移確率を算出する。
<Query location estimation processing>
When the inter-query transition probability calculation unit 3 and the inter-URL transition probability calculation unit 4 obtain the search log from the search
以下にクエリ間の遷移確率、URL間の遷移確率を用いてクエリの場所を判定する方法を説明する。 A method for determining the location of a query using the transition probability between queries and the transition probability between URLs will be described below.
図8は、本発明の一実施の形態におけるクエリの場所推定処理のフローチャートである。 FIG. 8 is a flowchart of query location estimation processing according to an embodiment of the present invention.
ステップ201) クエリ間遷移確率算出部3は、検索ログ記憶部7から検索ログを読み出し、検索ログの各クエリに対し、クエリとクリック関係にあるURLi(i=1,2,…,n)を抽出する。
Step 201) The inter-query transition probability calculation unit 3 reads the search log from the search
ステップ202) クエリ間遷移確率算出部3は、クエリとURLによる二部グラフを作成する。二部グラフとは、検索ログにおけるクエリとクリック関係にあるURLをエッジで結んだものであり、クエリ同士、URL同士ではエッジを結ばないグラフである。ここでは、検索ログが図6のように与えられると、図9のような二部グラフを作成する。 Step 202) The inter-query transition probability calculation unit 3 creates a bipartite graph by a query and a URL. A bipartite graph is a graph in which URLs that have a click relationship with a query in a search log are connected by an edge, and an edge is not connected between queries and URLs. Here, when the search log is given as shown in FIG. 6, a bipartite graph as shown in FIG. 9 is created.
ステップ203) クエリ間遷移確率算出部3は、ステップ201で抽出したクエリの検索ログ内のクリック回数を基に、以下の式(1)でクエリURLkへのクリック確率を算出する。 Step 203) Based on the number of clicks in the search log of the query extracted in Step 201, the inter-query transition probability calculation unit 3 calculates the click probability to the query URL k by the following equation (1).
図10に算出例を示す。上記の式において、URLkとクリック関係にある全てのクエリqi(i=1,2,…,n)に対して、URLkへのクリック確率を算出する。 FIG. 10 shows a calculation example. In the above formula, all the query q i (i = 1,2, ... , n) in the URL k and clicks relationship to, to calculate the click probability to URL k.
次に、クエリqiとクエリqjの遷移確率pijを以下の式(2)を用いて算出する。 Next, the transition probability p ij between the query q i and the query q j is calculated using the following equation (2).
ステップ204) URL間遷移確率算出部4において、ステップ201で抽出したクエリの検索ログ内のクリック回数を基に下記の式(3)でクエリqkへのクリック確率を算出する。 Step 204) The URL transition probability calculation unit 4 calculates the click probability to the query q k by the following equation (3) based on the number of clicks in the query search log extracted in Step 201.
図12に算出例を示す。上記の式(3)において、qkとクリック関係にある全てのURLi(i=1,2,…,n)に対して、qkへのクリック確率を算出する。 FIG. 12 shows a calculation example. In the above formula (3), all URL i (i = 1,2, ... , n) in the clicking relationship and q k with respect to calculate the click probability to q k.
次に、URLiとURLjの遷移確率pijを下記の式(4)を用いて算出する。 Next, the transition probability p ij between URL i and URL j is calculated using the following equation (4).
ステップ205) 場所情報算出部5は、ステップ203、ステップ204で算出されたクエリ間、URL間の遷移確率をクエリ間遷移確率算出部3、URL間遷移確率算出部4から取得し、それらに含まれている各クエリ、各URLに場所情報を付与する。
Step 205) The location
まず、はじめに、場所情報算出部5は、各クエリの表記(「渋谷 デパート」など)に該当する場所情報を場所キーワード記憶部8内から取り出す。ここで、場所キーワード記憶部8には図14に示すように、地名としての「渋谷」のキーワードに対して場所情報の「渋谷区」や、施設名「日本スカイツリー」のキーワードに対して「台東区」の場所情報が入っている。例えば、図11のクエリ「渋谷 デパート」には、クエリ内の「渋谷」に該当する「渋谷区」の場所情報を得る。ここで、クエリの表記において、場所キーワード記憶部8に該当するキーワードが存在しない場合、場所情報を付与できない場合もある。
First, the location
次に、場所情報算出部5は、各URLに該当する場所情報を場所URL記憶部9から取り出す。ここで、場所URL記憶部9には、図15に示すようなURLに対する場所情報が格納されており、本実施の形態では、図15に示すようなURLに対する情報が格納されているものとして説明する。ここで、場所URL記憶部9内に存在しないURLには場所情報が付与できない。
Next, the location
ステップ206) 場所情報算出部5は、各クエリに対し、場所ベクトルを算出する。この場所ベクトルの次元は場所キーワード記憶部8、場所URL記憶部9に含まれる全ての場所情報(「渋谷区」など)で構成される。例えば、クエリ「渋谷 デパート」は渋谷区の場所情報が付加されているため、図16のようなベクトルとなる。このクエリqiの場所ベクトルを下記の方法で算出する。
Step 206) The location
1)クエリqiに場所情報が付加されている時:場所情報に該当するベクトルの要素を1.0とし、それ以外の要素を0とする。 1) When location information is added to the query q i : Vector elements corresponding to the location information are set to 1.0, and other elements are set to 0.
2)クエリqiに場所情報が付加されていない時:ステップ203で算出したクエリ間の遷移確率を基に、下記の式(5)でクエリqiのベクトルを算出する。
2) When no location information is added to the query q i : Based on the transition probability between queries calculated in
ステップ207) 場所情報算出部5は、各URLに対し場所ベクトルを算出する。この場所ベクトルの次元は、場所キーワード記憶部8、場所URL記憶部9に含まれる全ての場所情報(「渋谷区」など)で構成される。例えば、図16のURL1は場所情報として「台東区」が該当するため、図17のようなベクトルとなる。URLiの場所ベクトルは下記の方法で算出する。
Step 207) The location
1)URLiに場所情報が付加されている時:場所情報に該当するベクトルの要素を1.0とし、それ以外の要素を0とする。 1) When location information is added to URL i : The element of the vector corresponding to the location information is set to 1.0, and the other elements are set to 0.
2)URLiに場所情報が付加されていない時:ステップ204で算出したURL間の遷移確率を基に、下記の式(6)でURLiのベクトルを算出する。
2) When no location information is added to URL i : Based on the transition probability between URLs calculated in
ステップ208) 場所判定部6は、クエリの場所を特定するため、クエリの場所ベクトルから算出する信頼度と、クエリとクリック関係にあるURLの場所ベクトルから算出される信頼度を算出する。 Step 208) In order to specify the location of the query, the location determination unit 6 calculates the reliability calculated from the location vector of the query and the reliability calculated from the location vector of the URL having a click relationship with the query.
クエリqiの場所ベクトルから算出する信頼度q_trust(qi)は下記の式(7)で算出する。 The reliability q_trust (q i ) calculated from the place vector of the query q i is calculated by the following equation (7).
クエリとクリック関係にあるURLの場所ベクトルから算出する信頼度URL_trust(qi)は下記の式(8)で算出する。 The reliability URL_trust (q i ) calculated from the location vector of the URL having a click relationship with the query is calculated by the following equation (8).
この2つの信頼度を基に、クエリqiの場所推定値を下記の式(9)で算出する。 Based on these two reliability levels, the location estimate of the query q i is calculated by the following equation (9).
クエリの場所推定値=q_trust(q i)×URL_trust(q i) (9)
上記の式(9)のクエリqiの場所推定値が設定した閾値以上であればクエリqiの場所を特定できたものと判断する。このとき、q_trust(qi)とURL_trust(qi)の値の大きさを比較し、下記の方法でクエリqiの場所を付与する。
Query location estimate = q_trust (q i ) x URL_trust (q i ) (9)
If the estimated place value of the query q i in the above formula (9) is equal to or larger than the set threshold value, it is determined that the place of the query q i can be specified. At this time, the magnitudes of the values of q_trust (q i ) and URL_trust (q i ) are compared, and the location of the query q i is given by the following method.
1)q_trust(qi)の値が大きい場合:q_vector(qi)の要素において、最も値の大きい要素に該当する場所をクエリqiの場所とする。 1) When the value of q_trust (q i ) is large: Among the elements of q_vector (q i ), the place corresponding to the element with the largest value is set as the place of query q i .
2)URL_trust(q i)の値が大きい場合:ΣURL_vector(URLi)の要素において、最も値の大きい要素に該当する場所をクエリqiの場所とする。 2) When the value of URL_trust (q i ) is large: Among the elements of ΣURL_vector (URL i ), the place corresponding to the element with the largest value is set as the place of query q i .
なお、本発明を実施する上で、クエリとURLに場所情報が付与してある必要があるが、一部のクエリ、URLに場所情報が付与されている場合でも、クエリ、URLの場所を推定できる。 In order to implement the present invention, it is necessary to add location information to the query and URL, but even if location information is assigned to some queries and URLs, the location of the query and URL is estimated. it can.
なお、上記の図5に示すクエリの場所推定装置の各構成要素の各機能をプログラムとして構築し、場所推定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 In addition, each function of each component of the query location estimation device shown in FIG. 5 is constructed as a program, installed in a computer used as the location estimation device, executed, or distributed via a network. Is possible.
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
1 クエリ入力部
2 検索ログ抽出部
3 クエリ間遷移確率算出部
4 URL間遷移確率算出部
5 場所情報算出部
6 場所判定部
7 検索ログ記憶部
8 場所キーワード記憶部
9 場所URL記憶部
1
Claims (9)
前記関連度算出手段が、前記二部グラフにおいてクエリとURLを結ぶエッジの重みをクリック回数を基にクエリ間遷移確率算出ルールに基づいてクエリ間の遷移確率を算出するクエリ間遷移確率算出ステップと、
前記関連度算出手段が、URL間遷移確率算出ルールに基づいてURL間の遷移確率を算出するURL間遷移確率算出ステップと、
場所情報算出手段が、前記クエリ間の遷移確率に基づいてクエリの場所推定値を算出する第1の場所情報算出ステップと、
前記場所情報算出手段が、前記URL間の遷移確率に基づいてURLの場所推定値を算出する第2の場所情報算出ステップと、
場所判定手段が、前記クエリの場所推定値と前記URLの場所推定値を用いてクエリの場所を判定する場所判定ステップと、
を有することを特徴とするクエリの場所推定方法。 In a search service, search log storage means for recording a search log composed of a query input by a user and a URL clicked on a search result for the query, and a query group and a URL group related to a target query from the search log Search log extracting means for extracting the query, a bipartite graph composed of the query and the clicked URL, and using the bipartite graph, a relevance calculation means for calculating the relevance between the URLs between the queries, A method for estimating a location of a query in a device having
The inter-query transition probability calculation step in which the relevance calculation means calculates the transition probability between queries based on the inter-query transition probability calculation rule based on the number of clicks of the edge weight connecting the query and URL in the bipartite graph; ,
The relevance calculation means calculates a transition probability between URLs based on a transition probability calculation rule between URLs, and calculates a transition probability between URLs,
A first location information calculation step in which the location information calculation means calculates a location estimate of the query based on the transition probability between the queries;
A second location information calculating step in which the location information calculating means calculates a URL location estimate based on the transition probability between the URLs;
A location determination step for determining a location of the query using the location estimate of the query and the location estimate of the URL;
A method for estimating a location of a query, comprising:
クエリの投入回数とURLへのクリック回数に基づいてエッジの重みを算出し、該クエリから該URLへの遷移確率に基づいてクエリ間を結ぶURLを介した遷移確率を算出する前記クエリ間遷移確率算出ルールを用いる
請求項1記載のクエリの場所推定方法。 In the inter-query transition probability calculating step,
The inter-query transition probability that calculates the edge weight based on the number of queries input and the number of clicks on the URL, and calculates the transition probability via the URL connecting the queries based on the transition probability from the query to the URL The query location estimation method according to claim 1, wherein a calculation rule is used.
クエリの投入回数とURLへのクリック回数に基づいてエッジの重みを算出し、URLからクエリへの遷移確率に基づいてURL間を結ぶクエリを介した遷移確率を算出する前記URL間遷移確率算出ルールを用いる
請求項1記載のクエリの場所推定方法。 In the URL transition probability calculation step,
Calculating the weight of an edge based on the number of clicks to a query put number and URL, the URL among transition probability calculation for calculating a transition probability via a query connecting the UR L based on the transition probability from URL to query The query location estimation method according to claim 1, wherein a rule is used.
前記クエリ間の遷移確率を用いて他のクエリのもつ場所情報を当該クエリの場所ベクトルへ配分し、
前記第2の場所情報算出ステップにおいて、
前記URL間の遷移確率を用いて他のURLのもつ場所情報を当該URLの場所ベクトルへ配分し、
前記場所判定ステップにおいて、
前記クエリの場所ベクトルの要素を確率として用い、クエリの場所信頼度として確率エントロピーを算出し、
前記クエリとクリック関係にあるURLの場所ベクトルの総和の各ベクトル要素を確率として用い、URLの場所信頼度として確率エントロピーを算出し、
前記クエリの場所信頼度と前記URLの場所信頼度を乗じたものをクエリの場所を判定する値としてもち、該値が閾値以上であればクエリの場所ベクトルの要素の中で最も大きい値の要素に対応する場所をクエリの場所とする
請求項1記載のクエリの場所推定方法。 In the first location information calculation step ,
The location information with the other queries using the transition probabilities between before Symbol query allocate to the location vector of the query,
In the second location information calculation step ,
The location information with the other URL using the transition probabilities between before Symbol URL allocated to the location vector of the URL,
In the location determination step,
Probability entropy is calculated as the location reliability of the query using elements of the location vector of the query as probabilities,
Probability entropy is calculated as the URL location reliability using each vector element of the sum of the URL location vectors in a click relationship with the query as a probability,
Has multiplied by a location reliability of the URL and location reliability of the query to the location of the query as determined value, the largest value among the elements of the query location vector if said value is equal to or greater than the threshold The query location estimation method according to claim 1, wherein a location corresponding to an element is a query location.
ユーザの投入したクエリと該クエリに対する検索結果においてクリックしたURLから構成される検索ログを記録する検索ログ記憶手段と、
前記検索ログから対象とするクエリに関連するクエリ群とURL群を抽出する検索ログ抽出手段と、
前記クエリとクリックされたURLから構成される二部グラフを作成し、二部グラフを用いてクエリ間、URL間の関連度を算出する関連度算出手段と、を有する装置において、
前記関連度算出手段は、
前記二部グラフにおいてクエリとURLを結ぶエッジの重みをクリック回数に基づいてクエリ間遷移確率算出ルールに基づいてクエリ間の遷移確率を算出するクエリ間遷移確率算出手段と、
URL間遷移確率算出ルールに基づいてURL間の遷移確率を算出するURL間遷移確率算出手段を有し、
前記クエリ間の遷移確率に基づいてクエリの場所推定値を算出する第1の場所情報算出手段と、
前記URL間の遷移確率に基づいてURLの場所推定値を算出する第2の場所情報算出手段と、
前記クエリの場所推定値と前記URLの場所推定値を用いてクエリの場所を判定する場所判定手段と、
を更に有することを特徴とするクエリの場所推定装置。 A query location estimation device for estimating a query location in a search service,
A search log storage means for recording a search log composed of a query input by a user and a URL clicked in a search result for the query;
Search log extraction means for extracting a query group and a URL group related to the target query from the search log;
In a device having a relevance calculation unit that creates a bipartite graph composed of the query and the clicked URL, and uses the bipartite graph to calculate the relevance between the queries and the URL,
The relevance calculation means includes:
An inter-query transition probability calculating means for calculating a transition probability between queries based on an inter-query transition probability calculation rule based on the number of clicks of the edge weight connecting the query and URL in the bipartite graph;
It has a URL transition probability calculation means for calculating a transition probability between URLs based on a URL transition probability calculation rule,
First location information calculation means for calculating a location estimate of a query based on a transition probability between the queries;
Second location information calculating means for calculating a URL location estimate based on the transition probability between the URLs;
A location determination means for determining the location of the query using the location estimate of the query and the location estimate of the URL;
The query location estimation apparatus further comprising:
クエリの投入回数とURLへのクリック回数に基づいてエッジの重みを算出し、該クエリから該URLへの遷移確率に基づいてクエリ間を結ぶURLを介した遷移確率を算出する前記クエリ間遷移確率算出ルールを用いる
請求項5記載のクエリの場所推定装置。 The inter-query transition probability calculating means includes:
The inter-query transition probability that calculates the edge weight based on the number of queries input and the number of clicks on the URL, and calculates the transition probability via the URL connecting the queries based on the transition probability from the query to the URL 6. The query location estimation apparatus according to claim 5, wherein a calculation rule is used.
クエリの投入回数とURLへのクリック回数に基づいてエッジの重みを算出し、URLからクエリへの遷移確率に基づいてURL間を結ぶクエリを介した遷移確率を算出する前記URL間遷移確率算出ルールを用いる
請求項5記載のクエリの場所推定装置。 The URL transition probability calculating means is:
Calculating the weight of an edge based on the number of clicks to a query put number and URL, the URL among transition probability calculation for calculating a transition probability via a query connecting the UR L based on the transition probability from URL to query 6. The query location estimation apparatus according to claim 5, wherein a rule is used.
前記クエリ間の遷移確率を用いて他のクエリのもつ場所情報を当該クエリの場所ベクトルへ配分する手段を含み、
前記第2の場所情報算出手段は、
前記URL間の遷移確率を用いて他のURLのもつ場所情報を当該URLの場所ベクトルへ配分する手段を含み、
前記場所判定手段は、
前記クエリの場所ベクトルの要素を確率として用い、クエリの場所信頼度として確率エントロピーを算出する手段と、
前記クエリとクリック関係にあるURLの場所ベクトルの総和の各ベクトル要素を確率として用い、URLの場所信頼度として確率エントロピーを算出する手段と、
前記クエリの場所信頼度と前記URLの場所信頼度を乗じたものをクエリの場所を判定する値としてもち、該値が閾値以上であればクエリの場所ベクトルの要素の中で最も大きい値の要素に対応する場所をクエリの場所とする手段と、
を含む請求項5記載のクエリの場所推定装置。 The first location information calculation means includes :
The location information with the other queries using the transition probabilities between before Symbol query includes means for allocating to the location vector of the query,
The second location information calculation means includes :
The location information with the other URL using the transition probabilities between before Symbol URL includes means for allocating to the location vector of the URL,
The place determination means includes
Means for calculating a probability entropy as a location reliability of a query using an element of the location vector of the query as a probability;
Means for calculating probability entropy as the URL location reliability using each vector element of the sum of the URL location vectors in a click relationship with the query as a probability;
Has multiplied by a location reliability of the URL and location reliability of the query to the location of the query as determined value, the largest value among the elements of the query location vector if said value is equal to or greater than the threshold Means to make the location corresponding to the element the location of the query,
The query location estimating apparatus according to claim 5, comprising:
請求項5乃至8のいずれか1項に記載のクエリの場所推定装置の各手段として機能させるクエリの場所推定プログラム。 Computer
A query location estimation program that functions as each means of the query location estimation apparatus according to claim 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011254229A JP5670867B2 (en) | 2011-11-21 | 2011-11-21 | Query location estimation method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011254229A JP5670867B2 (en) | 2011-11-21 | 2011-11-21 | Query location estimation method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109583A JP2013109583A (en) | 2013-06-06 |
JP5670867B2 true JP5670867B2 (en) | 2015-02-18 |
Family
ID=48706270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011254229A Expired - Fee Related JP5670867B2 (en) | 2011-11-21 | 2011-11-21 | Query location estimation method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5670867B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7023920B2 (en) * | 2019-12-17 | 2022-02-22 | ヤフー株式会社 | Information processing equipment, information processing methods, and information processing programs |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8407214B2 (en) * | 2008-06-25 | 2013-03-26 | Microsoft Corp. | Constructing a classifier for classifying queries |
JP5084796B2 (en) * | 2009-07-24 | 2012-11-28 | ヤフー株式会社 | Relevance determination device, relevance determination method, and program |
-
2011
- 2011-11-21 JP JP2011254229A patent/JP5670867B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013109583A (en) | 2013-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI524193B (en) | Computer-readable media and computer-implemented method for semantic table of contents for search results | |
Fujiwara et al. | Efficient ad-hoc search for personalized pagerank | |
US8631002B2 (en) | Web-relevance based query classification | |
US10108699B2 (en) | Adaptive query suggestion | |
Gollapalli et al. | Ranking authors in digital libraries | |
US20110302156A1 (en) | Re-ranking search results based on lexical and ontological concepts | |
EP2548140A2 (en) | Indexing and searching employing virtual documents | |
JP5952711B2 (en) | Prediction server, program and method for predicting future number of comments in prediction target content | |
JP6079270B2 (en) | Information provision device | |
JP5367632B2 (en) | Knowledge amount estimation apparatus and program | |
CN104615723A (en) | Determining method and device of search term weight value | |
US9465875B2 (en) | Searching based on an identifier of a searcher | |
JP4750628B2 (en) | Information ranking method and apparatus, program, and computer-readable recording medium | |
JP4824070B2 (en) | Search processing apparatus, search processing method and program for selecting seed of crawler for specialized search using click log | |
JP5670867B2 (en) | Query location estimation method, apparatus, and program | |
Cetintas et al. | Learning from past queries for resource selection | |
KR20120020558A (en) | Folksonomy-based personalized web search method and system for performing the method | |
Shinde et al. | A survey of various web page ranking algorithms | |
Lee et al. | Geographically-sensitive link analysis | |
Joshi et al. | An overview study of personalized web search | |
JP5903370B2 (en) | Information search apparatus, information search method, and program | |
JP5589009B2 (en) | RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM | |
JP5378272B2 (en) | Query feature value calculation method, apparatus, and program | |
JP5650606B2 (en) | Keyword extraction apparatus, method, and program | |
Mutalikdesai et al. | Co-citations as citation endorsements and co-links as link endorsements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5670867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |