JP5378272B2 - Query feature value calculation method, apparatus, and program - Google Patents
Query feature value calculation method, apparatus, and program Download PDFInfo
- Publication number
- JP5378272B2 JP5378272B2 JP2010054833A JP2010054833A JP5378272B2 JP 5378272 B2 JP5378272 B2 JP 5378272B2 JP 2010054833 A JP2010054833 A JP 2010054833A JP 2010054833 A JP2010054833 A JP 2010054833A JP 5378272 B2 JP5378272 B2 JP 5378272B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- url
- click
- feature amount
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、クエリ特徴量算出方法及び装置及びプログラムに係り、特に、ユーザへの検索クエリを推薦する場合に、推薦されるクエリによる検索効率の向上を目的とし、検索クエリのクリック分布の偏りに着目した欲しいページの見つかるクエリの特徴量を算出するためのクエリ特徴量算出方法及び装置及びプログラムに関する。 The present invention relates to a query feature amount calculation method, apparatus, and program, and more particularly, in recommending a search query to a user, for the purpose of improving search efficiency by a recommended query, and to bias a click distribution of a search query. The present invention relates to a query feature value calculation method, apparatus, and program for calculating a feature value of a query in which a desired page of interest is found.
近年、検索サービスにおけるユーザの検索状況を示すログファイルを分析し、検索サービスの向上に利用する試みが行われている。ここで、図7に、検索クエリログの例を示す。一般に、ログファイルには同図に示すような項目(日付、ユーザID、クエリ名、クリックURL、ランキング順位)の情報が含まれている。 In recent years, an attempt has been made to analyze a log file indicating a user's search status in a search service and use it to improve the search service. Here, FIG. 7 shows an example of a search query log. In general, the log file includes information on items (date, user ID, query name, click URL, ranking order) as shown in FIG.
図7の「日付」の項目は、ユーザがURLをクリックした日付である。「ユーザID」は、検索クエリを用いて検索したユーザのIDである。「クエリ名」は、ユーザが検索に利用したクエリ名である。「クリックURL」は、ユーザがクリックした検索結果のURLである。「URLランキング順位」は、ユーザがクリックしたURLの検索ランキング順位である。 The item “Date” in FIG. 7 is the date when the user clicked the URL. “User ID” is the ID of the user who searched using the search query. “Query name” is a query name used by the user for the search. “Click URL” is the URL of the search result clicked by the user. “URL ranking order” is the search ranking order of the URL clicked by the user.
これらのログは、ユーザが検索した結果のURLに対しての優劣判断であり、検索結果の精度を計るのに利用される。また、クエリとURLの結びつきを解析することで、同じ検索意図のクエリをクラスタリングしたり、クエリの重要度などの算出にも用いられる。 These logs are the superiority or inferiority judgment with respect to the URL of the search result by the user, and are used to measure the accuracy of the search result. In addition, by analyzing the connection between a query and a URL, it can be used to cluster queries with the same search intention or to calculate the importance of the query.
これらログファイルを用いて、ユーザが欲しいページを見つけやすいクエリを推薦する技術が存在する(例えば、非特許文献1参照)。この技術では、クエリとURLの関連性を二部グラフを用いて、クエリとURL間の関連性を算出ている。ここで、同じ検索意図のクエリが同じURL群にアクセスしている性質を利用し、同じ検索意図のクエリをクラスタリングしている。クラスタリングしたクエリにおいて、関連度の高いクエリを代表クエリとしている。ユーザにクエリを推薦する場合は、ユーザが利用しようとするクエリに対し、そのクエリが属するクラスタリング内のクエリ群から関連度の高いクエリを推薦する。この技術により、ユーザはより検索精度の高いクエリで検索が行える。 There is a technique for recommending a query that makes it easy for a user to find a desired page using these log files (see, for example, Non-Patent Document 1). In this technology, the relationship between a query and a URL is calculated using a bipartite graph of the relationship between the query and the URL. Here, the same search intention queries are clustered using the property that the same search intention queries access the same URL group. In the clustered query, a query having a high degree of relevance is used as a representative query. When recommending a query to a user, a query having a high degree of relevance is recommended from a group of queries in the clustering to which the query belongs to a query that the user intends to use. With this technology, the user can perform a search with a query with higher search accuracy.
前述の従来技術では、利用頻度の高いクエリがユーザに推薦される傾向がある。そのため、欲しいページが見つかっていないようなクエリが多くのユーザに利用されている場合、そのクエリがユーザに推薦されることにより、ユーザの検索効率が低下する問題がある。 In the above-described conventional technology, a frequently used query tends to be recommended to the user. Therefore, when a query in which a desired page is not found is used by many users, there is a problem that the search efficiency of the user is lowered by recommending the query to the user.
本発明は、上記の点に鑑みなされたもので、他のユーザが欲しいページが見つかっているクエリをユーザに推薦することが可能なクエリ特徴量算出方法及び装置及びプログラムを提供すること目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a query feature amount calculation method, apparatus, and program capable of recommending to a user a query in which a page desired by another user is found. .
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、検索サービスの検索クエリの特徴量を算出するクエリ特徴量算出方法であって、
検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段と、
URLに対する情報を格納したURL情報記憶手段と、
ユーザへのクエリ推薦のためのクエリ特徴量を算出するクエリ特徴量算出手段を有する装置において、
クエリ特徴量算出手段は、
検索クエリが入力されると、該クエリと同一のクエリを含むクリックログを検索クエリログ記憶手段から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するクリック特徴量算出ステップ(ステップ1)と、
URL情報記憶手段のURLに関するページランク値に、URL特定性算出ルールを適用してクエリに対するURL特徴量を算出するURL特徴量算出ステップ(ステップ2)と、
クリック特徴量とURL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出ステップ(ステップ3)と、を行う。
The present invention (Claim 1) is a query feature amount calculation method for calculating a feature amount of a search query of a search service,
A search query log storage means for storing a click log for a search query of a search service;
URL information storage means for storing information on the URL;
In an apparatus having query feature value calculation means for calculating a query feature value for query recommendation to a user,
The query feature quantity calculation means
When a search query is input, a click log including the same query as the query is searched from the search query log storage unit, and the query is calculated based on a click feature amount calculation rule using a click distribution for URLs in the click log. click feature quantity click feature amount calculation step of calculating (step 1),
PageRank value about the URL of the URL information storage unit, and URL feature amount calculation step of calculating the URL feature amount to the query by applying a URL specificity calculation rule (Step 2),
A query feature amount calculating step (step 3) is performed in which the query feature amount is calculated using the click feature amount and the URL feature amount.
また、本発明(請求項2)は、請求項1のクエリ特徴量算出方法において、同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出するクリック特徴量算出ルールを用いる。
Further, according to the present invention (Claim 2), in the query feature amount calculation method according to
また、本発明(請求項3)は、請求項1のクエリ特徴量算出方法において、同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出するURL特定性算出ルールを用いる。
Further, according to the present invention (Claim 3), in the query feature value calculation method according to
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項4)は、検索サービスの検索クエリの特徴量を算出するクエリ特徴量算出装置であって、
検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段5と、
URLに対する情報を格納したURL情報記憶手段6と、
入力されたクエリと同一のクエリを含むクリックログを検索クエリログ記憶手段5から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するクリック特徴量算出手段2と、
URL情報記憶手段6のURLに関するページランク値に、URL特定性算出ルールを適用してクエリに対するURL特徴量を算出するURL特徴量算出手段3と、
クリック特徴量とURL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出手段1と、を有する。
The present invention (Claim 4) is a query feature amount calculation device for calculating a feature amount of a search query of a search service,
Search query log storage means 5 storing a click log for a search query of a search service;
URL information storage means 6 for storing information on the URL;
A click log including the same query as the input query is searched from the search query
PageRank value about the URL of the URL information storage means 6, the URL
And a query feature
また、本発明(請求項5)は、請求項4のクリック特徴量算出ルールを、
同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出するものとする。
Further, the present invention (Claim 5) defines the click feature amount calculation rule of Claim 4 as follows:
For a click log that includes the same query, it is calculated by multiplying the numerical value obtained by calculating the entropy of the URL included in the click log and the average value of the search ranking rank of the URL included in the click log.
また、本発明(請求項6)は、請求項4のURL特定性算出ルールは、
同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出するものとする。
Further, according to the present invention (Claim 6), the URL specificity calculation rule of Claim 4 is:
All URLs in the click log that contain the same query using the value obtained by dividing the page rank value of each URL by the sum of the page rank values of the unique URLs for the page rank value of the URLs contained in the click log that contains the same query The entropy for the target is calculated.
本発明(請求項7)は、請求項4乃至6のいずれか1項に記載のクエリ特徴量算出装置を構成する各手段としてコンピュータを機能させるためのクエリ特徴量算出プログラムである。 The present invention (Claim 7) is a query feature quantity calculation program for causing a computer to function as each means constituting the query feature quantity calculation apparatus according to any one of claims 4 to 6.
従来技術において推薦されるクエリの特徴がユーザの利用率の高いクエリであるのに対し、上記のように本発明では、クエリの特徴量として、検索クエリログのクリック分布の偏り大きさをエントロピーとして算出する。さらに、検索結果のURL群にユーザの欲しいURLが含まれているかを特徴量として表すため、URL群のページランク値に対するエントロピーを算出し、それら2つのエントロピーを組み合わせた値でクエリの特徴量を算出する。これにより、ユーザにとって良い検索結果が得られる可能性の高いクエリを推薦することができる。 While the query feature recommended in the prior art is a query with a high user usage rate, as described above, in the present invention, the bias distribution of the click distribution of the search query log is calculated as entropy as the query feature amount. To do. Furthermore, in order to express whether the URL that the user wants is included in the URL group of the search result as a feature amount, the entropy for the page rank value of the URL group is calculated, and the query feature amount is calculated by combining these two entropies. calculate. Thereby, it is possible to recommend a query that is highly likely to obtain a good search result for the user.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
本発明では、クエリの特徴量として、検索クエリログのクリック分布の偏り大きさをエントロピーとして算出する。さらに、検索結果のURL群にユーザの欲しいURLが含まれているかを特徴量として表すため、URL群のページランク値に対するエントロピーを算出し、それら2つのエントロピーを組み合わせた値でクエリの特徴量を算出する。 In the present invention, the bias distribution of the click distribution of the search query log is calculated as entropy as the query feature amount. Furthermore, in order to express whether the URL that the user wants is included in the URL group of the search result as a feature amount, the entropy for the page rank value of the URL group is calculated, and the query feature amount is calculated by combining these two entropies. calculate.
図3は、本発明の一実施の形態におけるクエリ特徴量算出装置の構成を示す。 FIG. 3 shows a configuration of the query feature quantity calculation apparatus according to the embodiment of the present invention.
クエリ特徴量算出装置は、クエリ特徴量算出部1、クリックエントロピー算出部2、ページランクエントロピー算出部3、クエリ抽出部4、検索クエリログ記憶部5、URL情報記憶部6から構成される。
The query feature quantity calculation device includes a query feature
クエリ特徴量算出部1は、クエリが入力されると、クリックエントロピー算出部2とページランクエントロピー算出部3に対して計算要求としてクエリ名を送信し、クリックエントロピー算出部2からクリックエントロピーを受け取り、ページエントロピー算出部3からページランクエントロピーを取得して、クエリ特徴量を算出する。
When the query is input, the query feature
クリックエントロピー算出部2は、クエリ特徴量算出部1からクエリ名を取得すると、クエリ抽出部4に対して当該クエリ名に対する検索クエリログの収集命令を送信する。
When the click
クエリ抽出部4は、クリックエントロピー算出部2から取得した検索クエリログの収集命令に基づいて、検索クエリログ記憶部5からクエリ名に対応する検索クエリログを抽出し、クリックエントロピー算出部3に返却する。また、ページランクエントロピー算出部3から取得したクエリに基づいて検索クエリログ記憶部5からクリックURLを抽出し、当該URLに基づいてURL情報記憶部6を検索してURLに関するページランク値を抽出し、ページランクエントロピー算出部5に返却する。
The query extraction unit 4 extracts the search query log corresponding to the query name from the search query
クリックエントロピー算出部2は、クエリ抽出部4からクエリ名に関する検索クエリログを取得すると、所定のルールに基づいてクリックエントロピーを算出し、クエリ特徴量算出部1に返却する。
When the click
ページエントロピー算出部3は、クエリ特徴量算出部1からクエリ名を取得すると、クエリ抽出部4に対してクエリ名を送信し、クエリ名に対応する検索クエリログとURLに関するページランク値を取得し、所定のルールに基づいてページランク値によりページランクエントロピーを算出し、クエリ特徴量算出部1に送信する。
When the page
検索クエリログ記憶部5は、前述の図7と同様の項目のデータが格納されている。
The search query
URL情報記憶部6は、URL、ページランク値、タイトルの各項目のデータが格納されている。
The URL
次に、上記の構成における動作を説明する。 Next, the operation in the above configuration will be described.
図4は、本発明の一実施の形態におけるクエリ特徴量計算のフローチャートである。 FIG. 4 is a flowchart of query feature value calculation according to an embodiment of the present invention.
ステップ101) クエリ特徴量算出部1は、クエリが入力されると、当該クエリ名をクリックエントロピー算出部2に送る。次に、クリックエントロピー算出部2は、当該クエリ名をクエリ抽出部4に送り、クエリ抽出部4は、当該クエリ名で検索クエリログ記憶部5を検索し、クリックログをクリックエントロピー算出部2に返却する。
Step 101) When a query is input, the query feature
ステップ102) クリックエントロピー算出部2は、取得したクリックログに対し、URL毎の出現回数を算出する。
Step 102) The click
ステップ103) クリックエントロピー算出部2は、以下の式(クリック特徴量算出ルール)でクリックエントロピーを算出する。
Step 103) The click
ここで、P(u)は、クエリを含む同一クエリのログ内のURLの出現回数であり、
P(u)=URLuの総数/クエリq
のログ内での総URL出現回数で算出される。また、平均ランキング順位は、クエリqのログ内でのURLランキング順位の平均順位である。
Here, P (u) is the number of occurrences of the URL in the log of the same query including the query,
P (u) = total number of URLu / query q
It is calculated by the total number of URL appearances in the log. The average ranking is the average ranking of URL rankings in the query q log.
ClickEntropy(q)=平均ランキング順位×(−1.0×Σ(P(u)×log(P(u)))
求められたクリックエントロピーをクエリログと共にクエリ特徴量算出部1に返却する。
ClickEntropy (q) = Average ranking rank x (-1.0 x Σ (P (u) x log (P (u)))
The obtained click entropy is returned to the query feature
ステップ104) クエリ特徴量算出部1は、クリックログ内に含まれる各URLページのランク値(ランキング順位)を抽出する。また、クエリをページランクエントロピー算出部3に送信する。ページランクエントロピー算出部3は、クエリをクエリ抽出部4に送信する。クエリ抽出部4は、クエリに基づいて検索クエリログ記憶部5からクエリに対応するクリックURLを抽出し、次に、当該クリックURLに基づいてURL情報記憶部6から各URLのページランク値を抽出してページランクエントロピー算出部3に送信する。
Step 104) The query feature
ページランクエントロピー算出部3は、URLに関するページランク値を受信すると、下記の式(URL特定性算出ルール)でページランクエントロピーを算出する。ここでPagerank(u)は、クエリを含む同一クエリのログ内のユニークURL(URLu)に対するページランク値の存在割合であり、Pagerank(u)=URLuのページランク値/ユニークURLの総ページランク値で算出される。
When the page rank
PagerankEntropy(q)=−1.0×Σ{Pagerank(u)×log(Pagerank(u))}
算出されたページランクエントロピーをクエリ特徴量算出部1に送信する。
PagerankEntropy (q) = − 1.0 × Σ {Pagerank (u) × log (Pagerank (u))}
The calculated page rank entropy is transmitted to the query feature
ステップ105) ステップ103,104で算出されたエントロピーに対し、クエリ特徴量算出部1は、下記に示す式で、クリックエントロピーとページランクエントロピーを乗じた値をクエリの特徴量とする。
Step 105) With respect to the entropy calculated in
クエリqの特徴量=ClickEntropy(q)×PagerankEntropy
上記のQueryEntropy(q)が小さいほど、クエリqを使ったユーザが満足できるURLが得られていることを示しており、PagerankEntropy(q)が小さいほど、クエリqに対する検索結果に特定し易いページ(企業ホームページや目的とする明確なパージ)が含まれており欲しいページが見つかっていることを示している。
Query q feature = ClickEntropy (q) x PagerankEntropy
The smaller QueryEntropy (q) above, the more satisfying the URL is obtained for the user who used the query q. The smaller the PagerankEntropy (q), the easier it is to specify the search result for the query q ( This indicates that the desired page has been found, including a corporate website and a clear purge of interest.
以下に、上記の具体例を示す。 The above specific examples are shown below.
以下では、検索クエリログ記憶部5内に図5に示すような複数の検索クエリログが格納されているものとし、また、URL情報記憶部6には、複数のURLに対するURL名、検索クエリログに含まれるURLのページランク値、及び、タイトルが格納されているものとする。
In the following, it is assumed that a plurality of search query logs as shown in FIG. 5 are stored in the search query
以下、上記の図4のフローチャートに沿って説明する。 Hereinafter, description will be made along the flowchart of FIG.
ステップ101) クエリ特徴量算出部1にクエリが入力されると、クエリ特徴量算出部1は、クリックエントロピー算出部2に計算要求としてクエリ名を送信する。ここでは、クエリ名として「misuho」が入力されたものとする。
Step 101) When a query is input to the query feature
クリックエントロピー算出部2は、クエリ特徴量算出部1からクエリである「misuho」を受信すると、クエリ抽出部4へ検索クエリログの収集命令を送信する。
When the click
クエリ抽出部4は、クリックエントロピー算出部1からクエリを受信すると、検索クエリログ記憶部5からクエリ名に「misuho」を持つ検索クエリログを抽出する。ここでは、図5に示す検索クエリログ記憶部5から5つのクリックログが抽出される。そして、抽出した検索クエリログをクリックエントロピー算出部2へ送信する。
When the query extraction unit 4 receives a query from the click
ステップ102) クリックエントロピー算出部2は、クエリ抽出部4から「misuho」に関する検索クエリログを受信すると、URLランキング順位(1,4,10,3,7)を抽出し、下記の式でクリックエントロピーを算出する。
Step 102) Upon receiving the search query log related to “misuho” from the query extraction unit 4, the click
ClickEntropy(q)=平均ランキング順位×(−1.0×Σ(P(u)×log(P(u)))
=(1+4+10+3+7)/5×(−1.0))×
(1/5×log1/5+1/5×log1/5+
1/5×log1/5+1/5×log1/5+1/5×log1/5)
=25/5×(−1.0)×(0.2×(−0.698)+0.2×(−0.698)+
0.2×(−0.698)+0.2×(−0.698)+
0.2×(−0.698))
=5×(−1.0)×(−0.698)
=3.494
上記で算出したクリックエントロピーの値をクエリ特徴量算出部1に送信する。
ClickEntropy (q) = Average ranking rank x (-1.0 x Σ (P (u) x log (P (u)))
= (1 + 4 + 10 + 3 + 7) / 5 × (−1.0)) ×
(1/5 × log1 / 5 + 1/5 × log1 / 5 +
(1/5 × log1 / 5 + 1/5 × log1 / 5 + 1/5 × log1 / 5)
= 25/5 × (−1.0) × (0.2 × (−0.698) + 0.2 × (−0.698) +
0.2 × (−0.698) + 0.2 × (−0.698) +
0.2 × (−0.698))
= 5 × (−1.0) × (−0.698)
= 3.494
The click entropy value calculated above is transmitted to the query feature
ステップ103) ページランクエントロピー算出部3は、クエリ特徴量算出部1からクエリ名「misuho」を受信すると、クエリ抽出部4にクエリ名「misuho」を送信する。
Step 103) Upon receiving the query name “misuho” from the query feature
クエリ抽出部4は、ページランクエントロピー算出部3からクエリ名「misuho」を受信すると、検索クエリログ記憶部5からクエリ名「misuho」を持つ検索クエリログを抽出する。本例では、図5に示す検索ログ記憶部5から5つのクリックログが抽出される。
When the query extraction unit 4 receives the query name “misuho” from the page rank
次に、抽出したクリックログ内に含まれる5つのURLに対し、URL情報記憶部6から5つのURLに関するページランク値を抽出し、ページランクエントロピー算出部3へ送信する。
Next, for the five URLs included in the extracted click log, page rank values relating to the five URLs are extracted from the URL
ステップ104) ページランクエントロピー算出部3は、クエリ抽出部4からURLに関するページランク値を受信すると、下記の式でページランクエントロピーを算出する。ここで、5つのURLに対するページランク値の総和は 0.4 + 0.3 + 0.3 + 0.2 + 0.1 = 1.3を利用する。
Step 104) When the page rank
PagerankEntropy(q) =−1.0 × Σ{Pagerank(u) × log(Pagerank(u))}
= −1.0 × (0.4/1.3 ×(−0.512) + 0.3/1.3×(−0.637) +
0.3/1.3 ×(−0.637) + 0.2/1.3 ×(−0.813) +
0.1/1.3 ×(−1.114)
= −1.0×((−0.158) + (−0.147) + (−0.147) + (−0.125) +
(‐0.086))
= 0.663
上記で算出したページランクエントロピー値をクエリ特徴量算出部1に送信する。
PagerankEntropy (q) = -1.0 × Σ {Pagerank (u) × log (Pagerank (u))}
= −1.0 × (0.4 / 1.3 × (−0.512) + 0.3 / 1.3 × (−0.637) +
0.3 / 1.3 × (−0.637) + 0.2 / 1.3 × (−0.813) +
0.1 / 1.3 × (−1.114)
= −1.0 × ((− 0.158) + (−0.147) + (−0.147) + (−0.125) +
(‐0.086))
= 0.663
The page rank entropy value calculated above is transmitted to the query feature
ステップ105) クエリ特徴量算出部1は、クリックエントロピー算出部2とページランクエントロピー算出部3から、それぞれクリックエントロピー値とページランクエントロピー値を受信すると、下記の式を用いてクエリ名「misuho」のクエリ特徴量を算出する。
Step 105) When the query feature
クエリ特徴量(misuho) = 3.494 × 0.663
= 2.317
次に、クエリ特徴量算出部1にクエリ名として「みすほ銀行」が入力された場合は、上記と同様に計算し、下記のクエリ特徴量が得られる。
Query feature (misuho) = 3.494 × 0.663
= 2.317
Next, when “Misho Bank” is input as a query name to the query feature
ClickEntropy(q) =平均ランキング順位 × (−1.0 × Σ(P(u)×log(P(u))))
= (1 + 1 + 2 + 1 + 1 + 2)/6 ×(−1.0) × (4/6 ×(−0.176) +
2/6 ×(−0.477))
= 1.33 × (−1.0) × ((−0.117) + (−0.159))
= 1.33 × 0.276
= 0.367
PagerankEntropy(q) = −1.0 × Σ{Pagerank(u) × log(Pagerank(u))}
= −1.0 ×(0.9/1.2 × (−0.125) + 0.3/1.2 × (−0.602))
= −1.0 × ((−0.094) + (−0.150))
= −1.0 × 0.244
= 0.244
クエリ特徴量(みすほ銀行) = 0.367 × 0.244
= 0.090
上記のクエリ特徴から、クエリ名「misuho」よりも「みすほ銀行」の値が小さいため(エントロピーであるため)、クエリ名「みすほ銀行」が推薦されやすくなる。
ClickEntropy (q) = Average ranking × (−1.0 × Σ (P (u) × log (P (u))))
= (1 + 1 + 2 + 1 + 1 + 2) / 6 × (−1.0) × (4/6 × (−0.176) +
2/6 x (-0.477))
= 1.33 × (−1.0) × ((−0.117) + (−0.159))
= 1.33 × 0.276
= 0.367
PagerankEntropy (q) = −1.0 × Σ {Pagerank (u) × log (Pagerank (u))}
= −1.0 × (0.9 / 1.2 × (−0.125) + 0.3 / 1.2 × (−0.602))
= −1.0 × ((−0.094) + (−0.150))
= -1.0 x 0.244
= 0.244
Query feature (Misho Bank) = 0.367 × 0.244
= 0.090
From the above query characteristics, since the value of “Misuho Bank” is smaller than the query name “misuho” (because it is entropy), the query name “Misuho Bank” is likely to be recommended.
上記の図3に示すクエリ特徴量算出装置の構成要素の各動作をプログラムとして構築し、クエリ特徴量算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 Each operation of the constituent elements of the query feature quantity calculation device shown in FIG. 3 described above is constructed as a program, installed in a computer used as the query feature quantity calculation device, executed, or distributed via a network. Is possible.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
1 クエリ特徴量算出手段、クエリ特徴量算出部
2 クリック特徴量算出手段、クリックエントロピー算出部
3 URL特徴量算出手段、ページランクエントロピー算出部
4 クエリ抽出部
5 検索クエリログ記憶手段、検索クエリログ記憶部
6 URL情報記憶手段、URL情報記憶部
DESCRIPTION OF
Claims (7)
前記検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段と、
URLに対する情報を格納したURL情報記憶手段と、
ユーザへのクエリ推薦のためのクエリ特徴量を算出するクエリ特徴量算出手段を有する装置において、
前記クエリ特徴量算出手段は、
検索クエリが入力されると、該クエリと同一のクエリを含むクリックログを前記検索クエリログ記憶手段から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するクリック特徴量算出ステップと、
前記URL情報記憶手段の前記URLに関するページランク値に、URL特定性算出ルールを適用して前記クエリに対するURL特徴量を算出するURL特徴量算出ステップと、
前記クリック特徴量と前記URL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出ステップと、
を行うことを特徴とするクエリ特徴量算出方法。 A query feature amount calculation method for calculating a feature amount of a search query of a search service,
Search query log storage means for storing a click log for the search query of the search service;
URL information storage means for storing information on the URL;
In an apparatus having query feature value calculation means for calculating a query feature value for query recommendation to a user,
The query feature amount calculating means includes:
When a search query is input, a click log including the same query as the query is searched from the search query log storage unit, and a click distribution for a URL in the click log is used to calculate the click feature amount rule. and click feature amount calculation step of calculating the click feature amount of the query,
PageRank value related to the URL of the URL information storage unit, and URL feature amount calculating step of applying a URL specificity calculating rule calculates the URL feature amount with respect to the query,
A query feature amount calculating step of calculating a query feature amount using the click feature amount and the URL feature amount;
A query feature amount calculation method characterized by:
同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出する
請求項1記載のクエリ特徴量算出方法。 The content of the click feature amount calculation rule is as follows:
The query feature according to claim 1, wherein a click log including the same query is calculated by multiplying a numerical value obtained by calculating an entropy of a URL included in the click log and an average value of search rankings of URLs included in the click log. Quantity calculation method.
同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出する
請求項1記載のクエリ特徴量算出方法。 The contents of the URL specificity calculation rule are as follows:
All URLs in the click log that contain the same query using the value obtained by dividing the page rank value of each URL by the sum of the page rank values of the unique URLs for the page rank value of the URLs contained in the click log that contains the same query The query feature amount calculation method according to claim 1, wherein entropy for the target is calculated.
前記検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段と、
URLに対する情報を格納したURL情報記憶手段と、
入力されたクエリと同一のクエリを含むクリックログを前記検索クエリログ記憶手段から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するクリック特徴量算出手段と、
前記URL情報記憶手段の前記URLに関するページランク値に、URL特定性算出ルールを適用して前記クエリに対するURL特徴量を算出するURL特徴量算出手段と、
前記クリック特徴量と前記URL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出手段と、
を有することを特徴とするクエリ特徴量算出装置。 A query feature amount calculation device for calculating a feature amount of a search query of a search service,
Search query log storage means for storing a click log for the search query of the search service;
URL information storage means for storing information on the URL;
A click log including the same query as the input query is searched from the search query log storage means, and the click feature amount of the query is calculated based on the click feature amount calculation rule using the click distribution for the URL in the click log. and click feature quantity calculating means for calculating,
PageRank value related to the URL of the URL information storage unit, and URL feature quantity calculating means for calculating the URL feature amount with respect to the query by applying a URL specificity calculation rule,
Query feature value calculating means for calculating a query feature value using the click feature value and the URL feature value;
A query feature quantity calculation device characterized by comprising:
同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出する
請求項4記載のクエリ特徴量算出装置。 The click feature amount calculation rule is:
The query feature according to claim 4, wherein the click log including the same query is calculated by multiplying the numerical value obtained by calculating the entropy of the URL included in the click log and the average value of the search ranking rank of the URL included in the click log. Quantity calculation device.
同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出する
請求項4記載のクエリ特徴量算出装置。 The URL specificity calculation rule is:
All URLs in the click log that contain the same query using the value obtained by dividing the page rank value of each URL by the sum of the page rank values of the unique URLs for the page rank value of the URLs contained in the click log that contains the same query The query feature amount calculation apparatus according to claim 4, wherein entropy is calculated for the target.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010054833A JP5378272B2 (en) | 2010-03-11 | 2010-03-11 | Query feature value calculation method, apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010054833A JP5378272B2 (en) | 2010-03-11 | 2010-03-11 | Query feature value calculation method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011191805A JP2011191805A (en) | 2011-09-29 |
JP5378272B2 true JP5378272B2 (en) | 2013-12-25 |
Family
ID=44796693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010054833A Expired - Fee Related JP5378272B2 (en) | 2010-03-11 | 2010-03-11 | Query feature value calculation method, apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5378272B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5787717B2 (en) * | 2011-10-24 | 2015-09-30 | ニフティ株式会社 | Information processing apparatus, program, and information search system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4839295B2 (en) * | 2007-11-02 | 2011-12-21 | ヤフー株式会社 | Query extraction method, query extraction device, and query extraction program |
JP4848388B2 (en) * | 2008-04-09 | 2011-12-28 | ヤフー株式会社 | How to calculate a score for a search query |
JP4922240B2 (en) * | 2008-06-04 | 2012-04-25 | ヤフー株式会社 | Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval |
-
2010
- 2010-03-11 JP JP2010054833A patent/JP5378272B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011191805A (en) | 2011-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10289700B2 (en) | Method for dynamically matching images with content items based on keywords in response to search queries | |
JP5340751B2 (en) | Document processing apparatus and document processing method | |
US8775442B2 (en) | Semantic search using a single-source semantic model | |
JP5727512B2 (en) | Cluster and present search suggestions | |
KR100923505B1 (en) | Ranking system based on user's attention and the method thereof | |
US9116992B2 (en) | Providing time series information with search results | |
JP5494454B2 (en) | Search result generation method, search result generation program, and search system | |
JP2012069171A (en) | Web page ranking with hierarchical consideration | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US20090187516A1 (en) | Search summary result evaluation model methods and systems | |
JP6056592B2 (en) | Information recommendation device, recommendation information determination method, recommendation information determination program, and information recommendation program | |
US20170255653A1 (en) | Method for categorizing images to be associated with content items based on keywords of search queries | |
JP2011154467A (en) | Retrieval result ranking method and system | |
CN105426550A (en) | Collaborative filtering tag recommendation method and system based on user quality model | |
KR20110122719A (en) | Systems and methods for a search engine results page research assistant | |
JP5548900B2 (en) | Web page recommendation method using multiple attributes | |
JP4750628B2 (en) | Information ranking method and apparatus, program, and computer-readable recording medium | |
JP2011154466A (en) | Retrieval result ranking method and system | |
JP5378272B2 (en) | Query feature value calculation method, apparatus, and program | |
Hsu et al. | Efficient and effective prediction of social tags to enhance web search | |
JP2010123036A (en) | Document retrieval device, document retrieval method and document retrieval program | |
JP2010218475A (en) | Blog analysis method and device | |
JP5416552B2 (en) | Ranking function generation device, ranking function generation method, ranking function generation program | |
KR101180371B1 (en) | Folksonomy-based personalized web search method and system for performing the method | |
JP5286007B2 (en) | Document search device, document search method, and document search program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130611 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5378272 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |