JP5378272B2 - Query feature value calculation method, apparatus, and program - Google Patents

Query feature value calculation method, apparatus, and program Download PDF

Info

Publication number
JP5378272B2
JP5378272B2 JP2010054833A JP2010054833A JP5378272B2 JP 5378272 B2 JP5378272 B2 JP 5378272B2 JP 2010054833 A JP2010054833 A JP 2010054833A JP 2010054833 A JP2010054833 A JP 2010054833A JP 5378272 B2 JP5378272 B2 JP 5378272B2
Authority
JP
Japan
Prior art keywords
query
url
click
feature amount
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010054833A
Other languages
Japanese (ja)
Other versions
JP2011191805A (en
Inventor
伸二 宮原
俊介 小長井
良彦 数原
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010054833A priority Critical patent/JP5378272B2/en
Publication of JP2011191805A publication Critical patent/JP2011191805A/en
Application granted granted Critical
Publication of JP5378272B2 publication Critical patent/JP5378272B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、クエリ特徴量算出方法及び装置及びプログラムに係り、特に、ユーザへの検索クエリを推薦する場合に、推薦されるクエリによる検索効率の向上を目的とし、検索クエリのクリック分布の偏りに着目した欲しいページの見つかるクエリの特徴量を算出するためのクエリ特徴量算出方法及び装置及びプログラムに関する。   The present invention relates to a query feature amount calculation method, apparatus, and program, and more particularly, in recommending a search query to a user, for the purpose of improving search efficiency by a recommended query, and to bias a click distribution of a search query. The present invention relates to a query feature value calculation method, apparatus, and program for calculating a feature value of a query in which a desired page of interest is found.

近年、検索サービスにおけるユーザの検索状況を示すログファイルを分析し、検索サービスの向上に利用する試みが行われている。ここで、図7に、検索クエリログの例を示す。一般に、ログファイルには同図に示すような項目(日付、ユーザID、クエリ名、クリックURL、ランキング順位)の情報が含まれている。   In recent years, an attempt has been made to analyze a log file indicating a user's search status in a search service and use it to improve the search service. Here, FIG. 7 shows an example of a search query log. In general, the log file includes information on items (date, user ID, query name, click URL, ranking order) as shown in FIG.

図7の「日付」の項目は、ユーザがURLをクリックした日付である。「ユーザID」は、検索クエリを用いて検索したユーザのIDである。「クエリ名」は、ユーザが検索に利用したクエリ名である。「クリックURL」は、ユーザがクリックした検索結果のURLである。「URLランキング順位」は、ユーザがクリックしたURLの検索ランキング順位である。   The item “Date” in FIG. 7 is the date when the user clicked the URL. “User ID” is the ID of the user who searched using the search query. “Query name” is a query name used by the user for the search. “Click URL” is the URL of the search result clicked by the user. “URL ranking order” is the search ranking order of the URL clicked by the user.

これらのログは、ユーザが検索した結果のURLに対しての優劣判断であり、検索結果の精度を計るのに利用される。また、クエリとURLの結びつきを解析することで、同じ検索意図のクエリをクラスタリングしたり、クエリの重要度などの算出にも用いられる。   These logs are the superiority or inferiority judgment with respect to the URL of the search result by the user, and are used to measure the accuracy of the search result. In addition, by analyzing the connection between a query and a URL, it can be used to cluster queries with the same search intention or to calculate the importance of the query.

これらログファイルを用いて、ユーザが欲しいページを見つけやすいクエリを推薦する技術が存在する(例えば、非特許文献1参照)。この技術では、クエリとURLの関連性を二部グラフを用いて、クエリとURL間の関連性を算出ている。ここで、同じ検索意図のクエリが同じURL群にアクセスしている性質を利用し、同じ検索意図のクエリをクラスタリングしている。クラスタリングしたクエリにおいて、関連度の高いクエリを代表クエリとしている。ユーザにクエリを推薦する場合は、ユーザが利用しようとするクエリに対し、そのクエリが属するクラスタリング内のクエリ群から関連度の高いクエリを推薦する。この技術により、ユーザはより検索精度の高いクエリで検索が行える。   There is a technique for recommending a query that makes it easy for a user to find a desired page using these log files (see, for example, Non-Patent Document 1). In this technology, the relationship between a query and a URL is calculated using a bipartite graph of the relationship between the query and the URL. Here, the same search intention queries are clustered using the property that the same search intention queries access the same URL group. In the clustered query, a query having a high degree of relevance is used as a representative query. When recommending a query to a user, a query having a high degree of relevance is recommended from a group of queries in the clustering to which the query belongs to a query that the user intends to use. With this technology, the user can perform a search with a query with higher search accuracy.

Hongbo Deng, Irwin King, Michael R. Lyu: Entropy-biased Models for Query Representation on the Click Graph, ACM SIGIR, pages 339-346, 2009Hongbo Deng, Irwin King, Michael R. Lyu: Entropy-biased Models for Query Representation on the Click Graph, ACM SIGIR, pages 339-346, 2009

前述の従来技術では、利用頻度の高いクエリがユーザに推薦される傾向がある。そのため、欲しいページが見つかっていないようなクエリが多くのユーザに利用されている場合、そのクエリがユーザに推薦されることにより、ユーザの検索効率が低下する問題がある。   In the above-described conventional technology, a frequently used query tends to be recommended to the user. Therefore, when a query in which a desired page is not found is used by many users, there is a problem that the search efficiency of the user is lowered by recommending the query to the user.

本発明は、上記の点に鑑みなされたもので、他のユーザが欲しいページが見つかっているクエリをユーザに推薦することが可能なクエリ特徴量算出方法及び装置及びプログラムを提供すること目的とする。   The present invention has been made in view of the above points, and an object of the present invention is to provide a query feature amount calculation method, apparatus, and program capable of recommending to a user a query in which a page desired by another user is found. .

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、検索サービスの検索クエリの特徴量を算出するクエリ特徴量算出方法であって、
検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段と、
URLに対する情報を格納したURL情報記憶手段と、
ユーザへのクエリ推薦のためのクエリ特徴量を算出するクエリ特徴量算出手段を有する装置において、
クエリ特徴量算出手段は、
検索クエリが入力されると、該クエリと同一のクエリを含むクリックログを検索クエリログ記憶手段から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するリック特徴量算出ステップ(ステップ1)と、
URL情報記憶手段のURLに関するページランク値に、URL特定性算出ルールを適用してクエリに対するURL特徴量を算出するURL特徴量算出ステップ(ステップ2)と、
クリック特徴量とURL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出ステップ(ステップ3)と、を行う。
The present invention (Claim 1) is a query feature amount calculation method for calculating a feature amount of a search query of a search service,
A search query log storage means for storing a click log for a search query of a search service;
URL information storage means for storing information on the URL;
In an apparatus having query feature value calculation means for calculating a query feature value for query recommendation to a user,
The query feature quantity calculation means
When a search query is input, a click log including the same query as the query is searched from the search query log storage unit, and the query is calculated based on a click feature amount calculation rule using a click distribution for URLs in the click log. click feature quantity click feature amount calculation step of calculating (step 1),
PageRank value about the URL of the URL information storage unit, and URL feature amount calculation step of calculating the URL feature amount to the query by applying a URL specificity calculation rule (Step 2),
A query feature amount calculating step (step 3) is performed in which the query feature amount is calculated using the click feature amount and the URL feature amount.

また、本発明(請求項2)は、請求項1のクエリ特徴量算出方法において、同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出するクリック特徴量算出ルールを用いる。   Further, according to the present invention (Claim 2), in the query feature amount calculation method according to Claim 1, for a click log including the same query, a numerical value obtained by calculating the entropy of the URL included in the click log, and the click log A click feature amount calculation rule is used that is calculated by multiplying the average value of the search ranking rank of the included URL.

また、本発明(請求項3)は、請求項1のクエリ特徴量算出方法において、同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出するURL特定性算出ルールを用いる。   Further, according to the present invention (Claim 3), in the query feature value calculation method according to Claim 1, the page rank value of each URL is changed to the page rank value of the URL included in the click log including the same query. A URL specificity calculation rule that calculates entropy for all URLs in the click log including the same query using a value divided by the sum of rank values is used.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項4)は、検索サービスの検索クエリの特徴量を算出するクエリ特徴量算出装置であって、
検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段5と、
URLに対する情報を格納したURL情報記憶手段6と、
入力されたクエリと同一のクエリを含むクリックログを検索クエリログ記憶手段5から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するリック特徴量算出手段2と、
URL情報記憶手段6のURLに関するページランク値に、URL特定性算出ルールを適用してクエリに対するURL特徴量を算出するURL特徴量算出手段3と、
クリック特徴量とURL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出手段1と、を有する。
The present invention (Claim 4) is a query feature amount calculation device for calculating a feature amount of a search query of a search service,
Search query log storage means 5 storing a click log for a search query of a search service;
URL information storage means 6 for storing information on the URL;
A click log including the same query as the input query is searched from the search query log storage unit 5, and the click feature amount of the query is calculated based on the click feature amount calculation rule using the click distribution with respect to the URL in the click log. and click feature calculating unit 2 for calculating,
PageRank value about the URL of the URL information storage means 6, the URL feature calculating unit 3 for calculating the URL feature amount to the query by applying a URL specificity calculation rule,
And a query feature amount calculation unit 1 that calculates a query feature amount using a click feature amount and a URL feature amount.

また、本発明(請求項5)は、請求項4のクリック特徴量算出ルールを、
同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出するものとする。
Further, the present invention (Claim 5) defines the click feature amount calculation rule of Claim 4 as follows:
For a click log that includes the same query, it is calculated by multiplying the numerical value obtained by calculating the entropy of the URL included in the click log and the average value of the search ranking rank of the URL included in the click log.

また、本発明(請求項6)は、請求項4のURL特定性算出ルールは、
同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出するものとする。
Further, according to the present invention (Claim 6), the URL specificity calculation rule of Claim 4 is:
All URLs in the click log that contain the same query using the value obtained by dividing the page rank value of each URL by the sum of the page rank values of the unique URLs for the page rank value of the URLs contained in the click log that contains the same query The entropy for the target is calculated.

本発明(請求項7)は、請求項4乃至6のいずれか1項に記載のクエリ特徴量算出装置を構成する各手段としてコンピュータを機能させるためのクエリ特徴量算出プログラムである。   The present invention (Claim 7) is a query feature quantity calculation program for causing a computer to function as each means constituting the query feature quantity calculation apparatus according to any one of claims 4 to 6.

従来技術において推薦されるクエリの特徴がユーザの利用率の高いクエリであるのに対し、上記のように本発明では、クエリの特徴量として、検索クエリログのクリック分布の偏り大きさをエントロピーとして算出する。さらに、検索結果のURL群にユーザの欲しいURLが含まれているかを特徴量として表すため、URL群のページランク値に対するエントロピーを算出し、それら2つのエントロピーを組み合わせた値でクエリの特徴量を算出する。これにより、ユーザにとって良い検索結果が得られる可能性の高いクエリを推薦することができる。   While the query feature recommended in the prior art is a query with a high user usage rate, as described above, in the present invention, the bias distribution of the click distribution of the search query log is calculated as entropy as the query feature amount. To do. Furthermore, in order to express whether the URL that the user wants is included in the URL group of the search result as a feature amount, the entropy for the page rank value of the URL group is calculated, and the query feature amount is calculated by combining these two entropies. calculate. Thereby, it is possible to recommend a query that is highly likely to obtain a good search result for the user.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態におけるクエリ特徴量算出装置の構成図である。It is a block diagram of the query feature-value calculation apparatus in one embodiment of this invention. 本発明の一実施の形態におけるクエリ特徴量計算のフローチャートである。It is a flowchart of the query feature-value calculation in one embodiment of this invention. 本発明の一実施の形態における検索クエリログ記憶部のデータ例である。It is an example of data of the search query log memory | storage part in one embodiment of this invention. 本発明の一実施の形態におけるURL情報記憶部のデータ例である。It is a data example of the URL information storage part in one embodiment of this invention. 検索クエリログの例である。It is an example of a search query log.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

本発明では、クエリの特徴量として、検索クエリログのクリック分布の偏り大きさをエントロピーとして算出する。さらに、検索結果のURL群にユーザの欲しいURLが含まれているかを特徴量として表すため、URL群のページランク値に対するエントロピーを算出し、それら2つのエントロピーを組み合わせた値でクエリの特徴量を算出する。   In the present invention, the bias distribution of the click distribution of the search query log is calculated as entropy as the query feature amount. Furthermore, in order to express whether the URL that the user wants is included in the URL group of the search result as a feature amount, the entropy for the page rank value of the URL group is calculated, and the query feature amount is calculated by combining these two entropies. calculate.

図3は、本発明の一実施の形態におけるクエリ特徴量算出装置の構成を示す。   FIG. 3 shows a configuration of the query feature quantity calculation apparatus according to the embodiment of the present invention.

クエリ特徴量算出装置は、クエリ特徴量算出部1、クリックエントロピー算出部2、ページランクエントロピー算出部3、クエリ抽出部4、検索クエリログ記憶部5、URL情報記憶部6から構成される。   The query feature quantity calculation device includes a query feature quantity calculation unit 1, a click entropy calculation unit 2, a page rank entropy calculation unit 3, a query extraction unit 4, a search query log storage unit 5, and a URL information storage unit 6.

クエリ特徴量算出部1は、クエリが入力されると、クリックエントロピー算出部2とページランクエントロピー算出部3に対して計算要求としてクエリ名を送信し、クリックエントロピー算出部2からクリックエントロピーを受け取り、ページエントロピー算出部3からページランクエントロピーを取得して、クエリ特徴量を算出する。   When the query is input, the query feature quantity calculation unit 1 transmits a query name as a calculation request to the click entropy calculation unit 2 and the page rank entropy calculation unit 3, receives the click entropy from the click entropy calculation unit 2, The page rank entropy is acquired from the page entropy calculation unit 3 and the query feature amount is calculated.

クリックエントロピー算出部2は、クエリ特徴量算出部1からクエリ名を取得すると、クエリ抽出部4に対して当該クエリ名に対する検索クエリログの収集命令を送信する。   When the click entropy calculation unit 2 acquires the query name from the query feature amount calculation unit 1, the click entropy calculation unit 2 transmits a search query log collection command for the query name to the query extraction unit 4.

クエリ抽出部4は、クリックエントロピー算出部2から取得した検索クエリログの収集命令に基づいて、検索クエリログ記憶部5からクエリ名に対応する検索クエリログを抽出し、クリックエントロピー算出部3に返却する。また、ページランクエントロピー算出部3から取得したクエリに基づいて検索クエリログ記憶部5からクリックURLを抽出し、当該URLに基づいてURL情報記憶部6を検索してURLに関するページランク値を抽出し、ページランクエントロピー算出部5に返却する。   The query extraction unit 4 extracts the search query log corresponding to the query name from the search query log storage unit 5 based on the search query log collection command acquired from the click entropy calculation unit 2 and returns it to the click entropy calculation unit 3. In addition, the click URL is extracted from the search query log storage unit 5 based on the query acquired from the page rank entropy calculation unit 3, the URL information storage unit 6 is searched based on the URL, and the page rank value related to the URL is extracted, Return to page rank entropy calculation unit 5.

クリックエントロピー算出部2は、クエリ抽出部4からクエリ名に関する検索クエリログを取得すると、所定のルールに基づいてクリックエントロピーを算出し、クエリ特徴量算出部1に返却する。   When the click entropy calculation unit 2 acquires the search query log related to the query name from the query extraction unit 4, the click entropy calculation unit 2 calculates the click entropy based on a predetermined rule and returns it to the query feature amount calculation unit 1.

ページエントロピー算出部3は、クエリ特徴量算出部1からクエリ名を取得すると、クエリ抽出部4に対してクエリ名を送信し、クエリ名に対応する検索クエリログとURLに関するページランク値を取得し、所定のルールに基づいてページランク値によりページランクエントロピーを算出し、クエリ特徴量算出部1に送信する。   When the page entropy calculation unit 3 acquires the query name from the query feature quantity calculation unit 1, the page entropy calculation unit 3 transmits the query name to the query extraction unit 4, acquires a search query log corresponding to the query name and a page rank value related to the URL, The page rank entropy is calculated based on the page rank value based on a predetermined rule, and transmitted to the query feature quantity calculation unit 1.

検索クエリログ記憶部5は、前述の図7と同様の項目のデータが格納されている。   The search query log storage unit 5 stores data of items similar to those in FIG.

URL情報記憶部6は、URL、ページランク値、タイトルの各項目のデータが格納されている。   The URL information storage unit 6 stores data of items of URL, page rank value, and title.

次に、上記の構成における動作を説明する。   Next, the operation in the above configuration will be described.

図4は、本発明の一実施の形態におけるクエリ特徴量計算のフローチャートである。   FIG. 4 is a flowchart of query feature value calculation according to an embodiment of the present invention.

ステップ101) クエリ特徴量算出部1は、クエリが入力されると、当該クエリ名をクリックエントロピー算出部2に送る。次に、クリックエントロピー算出部2は、当該クエリ名をクエリ抽出部4に送り、クエリ抽出部4は、当該クエリ名で検索クエリログ記憶部5を検索し、クリックログをクリックエントロピー算出部2に返却する。   Step 101) When a query is input, the query feature quantity calculation unit 1 sends the query name to the click entropy calculation unit 2. Next, the click entropy calculation unit 2 sends the query name to the query extraction unit 4, and the query extraction unit 4 searches the search query log storage unit 5 with the query name and returns the click log to the click entropy calculation unit 2. To do.

ステップ102) クリックエントロピー算出部2は、取得したクリックログに対し、URL毎の出現回数を算出する。   Step 102) The click entropy calculation unit 2 calculates the number of appearances for each URL for the acquired click log.

ステップ103) クリックエントロピー算出部2は、以下の式(クリック特徴量算出ルール)でクリックエントロピーを算出する。   Step 103) The click entropy calculation unit 2 calculates the click entropy by the following formula (click feature amount calculation rule).

ここで、P(u)は、クエリを含む同一クエリのログ内のURLの出現回数であり、
P(u)=URLuの総数/クエリq
のログ内での総URL出現回数で算出される。また、平均ランキング順位は、クエリqのログ内でのURLランキング順位の平均順位である。
Here, P (u) is the number of occurrences of the URL in the log of the same query including the query,
P (u) = total number of URLu / query q
It is calculated by the total number of URL appearances in the log. The average ranking is the average ranking of URL rankings in the query q log.

ClickEntropy(q)=平均ランキング順位×(−1.0×Σ(P(u)×log(P(u)))
求められたクリックエントロピーをクエリログと共にクエリ特徴量算出部1に返却する。
ClickEntropy (q) = Average ranking rank x (-1.0 x Σ (P (u) x log (P (u)))
The obtained click entropy is returned to the query feature quantity calculation unit 1 together with the query log.

ステップ104) クエリ特徴量算出部1は、クリックログ内に含まれる各URLページのランク値(ランキング順位)を抽出する。また、クエリをページランクエントロピー算出部3に送信する。ページランクエントロピー算出部3は、クエリをクエリ抽出部4に送信する。クエリ抽出部4は、クエリに基づいて検索クエリログ記憶部5からクエリに対応するクリックURLを抽出し、次に、当該クリックURLに基づいてURL情報記憶部6から各URLのページランク値を抽出してページランクエントロピー算出部3に送信する。   Step 104) The query feature quantity calculation unit 1 extracts the rank value (ranking rank) of each URL page included in the click log. The query is transmitted to the page rank entropy calculation unit 3. The page rank entropy calculation unit 3 transmits the query to the query extraction unit 4. The query extraction unit 4 extracts the click URL corresponding to the query from the search query log storage unit 5 based on the query, and then extracts the page rank value of each URL from the URL information storage unit 6 based on the click URL. To the page rank entropy calculation unit 3.

ページランクエントロピー算出部3は、URLに関するページランク値を受信すると、下記の式(URL特定性算出ルール)でページランクエントロピーを算出する。ここでPagerank(u)は、クエリを含む同一クエリのログ内のユニークURL(URLu)に対するページランク値の存在割合であり、Pagerank(u)=URLuのページランク値/ユニークURLの総ページランク値で算出される。   When the page rank entropy calculation unit 3 receives the page rank value related to the URL, the page rank entropy calculation unit 3 calculates the page rank entropy by the following formula (URL specificity calculation rule). Here, Pagerank (u) is the ratio of the page rank value to the unique URL (URLu) in the log of the same query including the query. Pagerank (u) = Page rank value of URLu / Total page rank value of unique URL Is calculated by

PagerankEntropy(q)=−1.0×Σ{Pagerank(u)×log(Pagerank(u))}
算出されたページランクエントロピーをクエリ特徴量算出部1に送信する。
PagerankEntropy (q) = − 1.0 × Σ {Pagerank (u) × log (Pagerank (u))}
The calculated page rank entropy is transmitted to the query feature quantity calculation unit 1.

ステップ105) ステップ103,104で算出されたエントロピーに対し、クエリ特徴量算出部1は、下記に示す式で、クリックエントロピーとページランクエントロピーを乗じた値をクエリの特徴量とする。   Step 105) With respect to the entropy calculated in Steps 103 and 104, the query feature quantity calculation unit 1 uses a value obtained by multiplying the click entropy and the page rank entropy by the following formula as a query feature quantity.

クエリqの特徴量=ClickEntropy(q)×PagerankEntropy
上記のQueryEntropy(q)が小さいほど、クエリqを使ったユーザが満足できるURLが得られていることを示しており、PagerankEntropy(q)が小さいほど、クエリqに対する検索結果に特定し易いページ(企業ホームページや目的とする明確なパージ)が含まれており欲しいページが見つかっていることを示している。
Query q feature = ClickEntropy (q) x PagerankEntropy
The smaller QueryEntropy (q) above, the more satisfying the URL is obtained for the user who used the query q. The smaller the PagerankEntropy (q), the easier it is to specify the search result for the query q ( This indicates that the desired page has been found, including a corporate website and a clear purge of interest.

以下に、上記の具体例を示す。   The above specific examples are shown below.

以下では、検索クエリログ記憶部5内に図5に示すような複数の検索クエリログが格納されているものとし、また、URL情報記憶部6には、複数のURLに対するURL名、検索クエリログに含まれるURLのページランク値、及び、タイトルが格納されているものとする。   In the following, it is assumed that a plurality of search query logs as shown in FIG. 5 are stored in the search query log storage unit 5, and the URL information storage unit 6 includes URL names and search query logs for a plurality of URLs. It is assumed that the page rank value and title of the URL are stored.

以下、上記の図4のフローチャートに沿って説明する。   Hereinafter, description will be made along the flowchart of FIG.

ステップ101) クエリ特徴量算出部1にクエリが入力されると、クエリ特徴量算出部1は、クリックエントロピー算出部2に計算要求としてクエリ名を送信する。ここでは、クエリ名として「misuho」が入力されたものとする。   Step 101) When a query is input to the query feature quantity calculation unit 1, the query feature quantity calculation unit 1 transmits a query name as a calculation request to the click entropy calculation unit 2. Here, it is assumed that “misuho” is input as the query name.

クリックエントロピー算出部2は、クエリ特徴量算出部1からクエリである「misuho」を受信すると、クエリ抽出部4へ検索クエリログの収集命令を送信する。   When the click entropy calculation unit 2 receives “misuho” as a query from the query feature amount calculation unit 1, the click entropy calculation unit 2 transmits a search query log collection command to the query extraction unit 4.

クエリ抽出部4は、クリックエントロピー算出部1からクエリを受信すると、検索クエリログ記憶部5からクエリ名に「misuho」を持つ検索クエリログを抽出する。ここでは、図5に示す検索クエリログ記憶部5から5つのクリックログが抽出される。そして、抽出した検索クエリログをクリックエントロピー算出部2へ送信する。   When the query extraction unit 4 receives a query from the click entropy calculation unit 1, the query extraction unit 4 extracts a search query log having “misuho” as a query name from the search query log storage unit 5. Here, five click logs are extracted from the search query log storage unit 5 shown in FIG. Then, the extracted search query log is transmitted to the click entropy calculation unit 2.

ステップ102) クリックエントロピー算出部2は、クエリ抽出部4から「misuho」に関する検索クエリログを受信すると、URLランキング順位(1,4,10,3,7)を抽出し、下記の式でクリックエントロピーを算出する。   Step 102) Upon receiving the search query log related to “misuho” from the query extraction unit 4, the click entropy calculation unit 2 extracts the URL ranking (1, 4, 10, 3, 7), and calculates the click entropy by the following formula. calculate.

ClickEntropy(q)=平均ランキング順位×(−1.0×Σ(P(u)×log(P(u)))
=(1+4+10+3+7)/5×(−1.0))×
(1/5×log1/5+1/5×log1/5+
1/5×log1/5+1/5×log1/5+1/5×log1/5)
=25/5×(−1.0)×(0.2×(−0.698)+0.2×(−0.698)+
0.2×(−0.698)+0.2×(−0.698)+
0.2×(−0.698))
=5×(−1.0)×(−0.698)
=3.494
上記で算出したクリックエントロピーの値をクエリ特徴量算出部1に送信する。
ClickEntropy (q) = Average ranking rank x (-1.0 x Σ (P (u) x log (P (u)))
= (1 + 4 + 10 + 3 + 7) / 5 × (−1.0)) ×
(1/5 × log1 / 5 + 1/5 × log1 / 5 +
(1/5 × log1 / 5 + 1/5 × log1 / 5 + 1/5 × log1 / 5)
= 25/5 × (−1.0) × (0.2 × (−0.698) + 0.2 × (−0.698) +
0.2 × (−0.698) + 0.2 × (−0.698) +
0.2 × (−0.698))
= 5 × (−1.0) × (−0.698)
= 3.494
The click entropy value calculated above is transmitted to the query feature quantity calculation unit 1.

ステップ103) ページランクエントロピー算出部3は、クエリ特徴量算出部1からクエリ名「misuho」を受信すると、クエリ抽出部4にクエリ名「misuho」を送信する。   Step 103) Upon receiving the query name “misuho” from the query feature quantity calculation unit 1, the page rank entropy calculation unit 3 transmits the query name “misuho” to the query extraction unit 4.

クエリ抽出部4は、ページランクエントロピー算出部3からクエリ名「misuho」を受信すると、検索クエリログ記憶部5からクエリ名「misuho」を持つ検索クエリログを抽出する。本例では、図5に示す検索ログ記憶部5から5つのクリックログが抽出される。   When the query extraction unit 4 receives the query name “misuho” from the page rank entropy calculation unit 3, the query extraction unit 4 extracts a search query log having the query name “misuho” from the search query log storage unit 5. In this example, five click logs are extracted from the search log storage unit 5 shown in FIG.

次に、抽出したクリックログ内に含まれる5つのURLに対し、URL情報記憶部6から5つのURLに関するページランク値を抽出し、ページランクエントロピー算出部3へ送信する。   Next, for the five URLs included in the extracted click log, page rank values relating to the five URLs are extracted from the URL information storage unit 6 and transmitted to the page rank entropy calculation unit 3.

ステップ104) ページランクエントロピー算出部3は、クエリ抽出部4からURLに関するページランク値を受信すると、下記の式でページランクエントロピーを算出する。ここで、5つのURLに対するページランク値の総和は 0.4 + 0.3 + 0.3 + 0.2 + 0.1 = 1.3を利用する。   Step 104) When the page rank entropy calculation unit 3 receives the page rank value related to the URL from the query extraction unit 4, the page rank entropy calculation unit 3 calculates the page rank entropy by the following formula. Here, the sum of the page rank values for the five URLs is 0.4 + 0.3 + 0.3 + 0.2 + 0.1 = 1.3.

PagerankEntropy(q) =−1.0 × Σ{Pagerank(u) × log(Pagerank(u))}
= −1.0 × (0.4/1.3 ×(−0.512) + 0.3/1.3×(−0.637) +
0.3/1.3 ×(−0.637) + 0.2/1.3 ×(−0.813) +
0.1/1.3 ×(−1.114)
= −1.0×((−0.158) + (−0.147) + (−0.147) + (−0.125) +
(‐0.086))
= 0.663
上記で算出したページランクエントロピー値をクエリ特徴量算出部1に送信する。
PagerankEntropy (q) = -1.0 × Σ {Pagerank (u) × log (Pagerank (u))}
= −1.0 × (0.4 / 1.3 × (−0.512) + 0.3 / 1.3 × (−0.637) +
0.3 / 1.3 × (−0.637) + 0.2 / 1.3 × (−0.813) +
0.1 / 1.3 × (−1.114)
= −1.0 × ((− 0.158) + (−0.147) + (−0.147) + (−0.125) +
(‐0.086))
= 0.663
The page rank entropy value calculated above is transmitted to the query feature quantity calculation unit 1.

ステップ105) クエリ特徴量算出部1は、クリックエントロピー算出部2とページランクエントロピー算出部3から、それぞれクリックエントロピー値とページランクエントロピー値を受信すると、下記の式を用いてクエリ名「misuho」のクエリ特徴量を算出する。   Step 105) When the query feature quantity calculation unit 1 receives the click entropy value and the page rank entropy value from the click entropy calculation unit 2 and the page rank entropy calculation unit 3, respectively, the query feature amount calculation unit 1 uses the following formula to change the query name “misuho”. A query feature amount is calculated.

クエリ特徴量(misuho) = 3.494 × 0.663
= 2.317
次に、クエリ特徴量算出部1にクエリ名として「みすほ銀行」が入力された場合は、上記と同様に計算し、下記のクエリ特徴量が得られる。
Query feature (misuho) = 3.494 × 0.663
= 2.317
Next, when “Misho Bank” is input as a query name to the query feature quantity calculation unit 1, the same query calculation quantity as described above is obtained.

ClickEntropy(q) =平均ランキング順位 × (−1.0 × Σ(P(u)×log(P(u))))
= (1 + 1 + 2 + 1 + 1 + 2)/6 ×(−1.0) × (4/6 ×(−0.176) +
2/6 ×(−0.477))
= 1.33 × (−1.0) × ((−0.117) + (−0.159))
= 1.33 × 0.276
= 0.367
PagerankEntropy(q) = −1.0 × Σ{Pagerank(u) × log(Pagerank(u))}
= −1.0 ×(0.9/1.2 × (−0.125) + 0.3/1.2 × (−0.602))
= −1.0 × ((−0.094) + (−0.150))
= −1.0 × 0.244
= 0.244
クエリ特徴量(みすほ銀行) = 0.367 × 0.244
= 0.090
上記のクエリ特徴から、クエリ名「misuho」よりも「みすほ銀行」の値が小さいため(エントロピーであるため)、クエリ名「みすほ銀行」が推薦されやすくなる。
ClickEntropy (q) = Average ranking × (−1.0 × Σ (P (u) × log (P (u))))
= (1 + 1 + 2 + 1 + 1 + 2) / 6 × (−1.0) × (4/6 × (−0.176) +
2/6 x (-0.477))
= 1.33 × (−1.0) × ((−0.117) + (−0.159))
= 1.33 × 0.276
= 0.367
PagerankEntropy (q) = −1.0 × Σ {Pagerank (u) × log (Pagerank (u))}
= −1.0 × (0.9 / 1.2 × (−0.125) + 0.3 / 1.2 × (−0.602))
= −1.0 × ((−0.094) + (−0.150))
= -1.0 x 0.244
= 0.244
Query feature (Misho Bank) = 0.367 × 0.244
= 0.090
From the above query characteristics, since the value of “Misuho Bank” is smaller than the query name “misuho” (because it is entropy), the query name “Misuho Bank” is likely to be recommended.

上記の図3に示すクエリ特徴量算出装置の構成要素の各動作をプログラムとして構築し、クエリ特徴量算出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   Each operation of the constituent elements of the query feature quantity calculation device shown in FIG. 3 described above is constructed as a program, installed in a computer used as the query feature quantity calculation device, executed, or distributed via a network. Is possible.

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

1 クエリ特徴量算出手段、クエリ特徴量算出部
2 クリック特徴量算出手段、クリックエントロピー算出部
3 URL特徴量算出手段、ページランクエントロピー算出部
4 クエリ抽出部
5 検索クエリログ記憶手段、検索クエリログ記憶部
6 URL情報記憶手段、URL情報記憶部
DESCRIPTION OF SYMBOLS 1 Query feature-value calculation means, Query feature-value calculation part 2 Click feature-value calculation means, Click entropy calculation part 3 URL feature-value calculation means, Page rank entropy calculation part 4 Query extraction part 5 Search query log storage means, Search query log storage part 6 URL information storage means, URL information storage unit

Claims (7)

検索サービスの検索クエリの特徴量を算出するクエリ特徴量算出方法であって、
前記検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段と、
URLに対する情報を格納したURL情報記憶手段と、
ユーザへのクエリ推薦のためのクエリ特徴量を算出するクエリ特徴量算出手段を有する装置において、
前記クエリ特徴量算出手段は、
検索クエリが入力されると、該クエリと同一のクエリを含むクリックログを前記検索クエリログ記憶手段から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するリック特徴量算出ステップと、
前記URL情報記憶手段の前記URLに関するページランク値に、URL特定性算出ルールを適用して前記クエリに対するURL特徴量を算出するURL特徴量算出ステップと、
前記クリック特徴量と前記URL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出ステップと、
を行うことを特徴とするクエリ特徴量算出方法。
A query feature amount calculation method for calculating a feature amount of a search query of a search service,
Search query log storage means for storing a click log for the search query of the search service;
URL information storage means for storing information on the URL;
In an apparatus having query feature value calculation means for calculating a query feature value for query recommendation to a user,
The query feature amount calculating means includes:
When a search query is input, a click log including the same query as the query is searched from the search query log storage unit, and a click distribution for a URL in the click log is used to calculate the click feature amount rule. and click feature amount calculation step of calculating the click feature amount of the query,
PageRank value related to the URL of the URL information storage unit, and URL feature amount calculating step of applying a URL specificity calculating rule calculates the URL feature amount with respect to the query,
A query feature amount calculating step of calculating a query feature amount using the click feature amount and the URL feature amount;
A query feature amount calculation method characterized by:
前記クリック特徴量算出ルールの内容は、
同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出する
請求項1記載のクエリ特徴量算出方法。
The content of the click feature amount calculation rule is as follows:
The query feature according to claim 1, wherein a click log including the same query is calculated by multiplying a numerical value obtained by calculating an entropy of a URL included in the click log and an average value of search rankings of URLs included in the click log. Quantity calculation method.
前記URL特定性算出ルールの内容は、
同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出する
請求項1記載のクエリ特徴量算出方法。
The contents of the URL specificity calculation rule are as follows:
All URLs in the click log that contain the same query using the value obtained by dividing the page rank value of each URL by the sum of the page rank values of the unique URLs for the page rank value of the URLs contained in the click log that contains the same query The query feature amount calculation method according to claim 1, wherein entropy for the target is calculated.
検索サービスの検索クエリの特徴量を算出するクエリ特徴量算出装置であって、
前記検索サービスの検索クエリに対するクリックログを格納した検索クエリログ記憶手段と、
URLに対する情報を格納したURL情報記憶手段と、
入力されたクエリと同一のクエリを含むクリックログを前記検索クエリログ記憶手段から検索し、該クリックログ内のURLに対するクリック分布を用いてクリック特徴量算出ルールに基づいて、該クエリのクリック特徴量を算出するリック特徴量算出手段と、
前記URL情報記憶手段の前記URLに関するページランク値に、URL特定性算出ルールを適用して前記クエリに対するURL特徴量を算出するURL特徴量算出手段と、
前記クリック特徴量と前記URL特徴量を用いてクエリ特徴量を算出するクエリ特徴量算出手段と、
を有することを特徴とするクエリ特徴量算出装置。
A query feature amount calculation device for calculating a feature amount of a search query of a search service,
Search query log storage means for storing a click log for the search query of the search service;
URL information storage means for storing information on the URL;
A click log including the same query as the input query is searched from the search query log storage means, and the click feature amount of the query is calculated based on the click feature amount calculation rule using the click distribution for the URL in the click log. and click feature quantity calculating means for calculating,
PageRank value related to the URL of the URL information storage unit, and URL feature quantity calculating means for calculating the URL feature amount with respect to the query by applying a URL specificity calculation rule,
Query feature value calculating means for calculating a query feature value using the click feature value and the URL feature value;
A query feature quantity calculation device characterized by comprising:
前記クリック特徴量算出ルールは、
同一クエリを含むクリックログに対し、クリックログ内に含まれるURLのエントロピーを算出した数値と、クリックログ内に含まれるURLの検索ランキング順位の平均値を乗じて算出する
請求項4記載のクエリ特徴量算出装置。
The click feature amount calculation rule is:
The query feature according to claim 4, wherein the click log including the same query is calculated by multiplying the numerical value obtained by calculating the entropy of the URL included in the click log and the average value of the search ranking rank of the URL included in the click log. Quantity calculation device.
前記URL特定性算出ルールは、
同一クエリを含むクリックログに含まれるURLのページランク値に対し、各URLのページランク値をユニークURLのページランク値の総和で割った値を用いて、同一クエリを含むクリックログ内の全URLを対象としたエントロピーを算出する
請求項4記載のクエリ特徴量算出装置。
The URL specificity calculation rule is:
All URLs in the click log that contain the same query using the value obtained by dividing the page rank value of each URL by the sum of the page rank values of the unique URLs for the page rank value of the URLs contained in the click log that contains the same query The query feature amount calculation apparatus according to claim 4, wherein entropy is calculated for the target.
請求項4乃至6のいずれか1項に記載のクエリ特徴量算出装置を構成する各手段としてコンピュータを機能させるためのクエリ特徴量算出プログラム。   A query feature value calculation program for causing a computer to function as each means constituting the query feature value calculation device according to any one of claims 4 to 6.
JP2010054833A 2010-03-11 2010-03-11 Query feature value calculation method, apparatus, and program Expired - Fee Related JP5378272B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010054833A JP5378272B2 (en) 2010-03-11 2010-03-11 Query feature value calculation method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010054833A JP5378272B2 (en) 2010-03-11 2010-03-11 Query feature value calculation method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2011191805A JP2011191805A (en) 2011-09-29
JP5378272B2 true JP5378272B2 (en) 2013-12-25

Family

ID=44796693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010054833A Expired - Fee Related JP5378272B2 (en) 2010-03-11 2010-03-11 Query feature value calculation method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP5378272B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5787717B2 (en) * 2011-10-24 2015-09-30 ニフティ株式会社 Information processing apparatus, program, and information search system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4839295B2 (en) * 2007-11-02 2011-12-21 ヤフー株式会社 Query extraction method, query extraction device, and query extraction program
JP4848388B2 (en) * 2008-04-09 2011-12-28 ヤフー株式会社 How to calculate a score for a search query
JP4922240B2 (en) * 2008-06-04 2012-04-25 ヤフー株式会社 Retrieval processing apparatus, method, and program for selectively applying pseudo feedback processing in web retrieval

Also Published As

Publication number Publication date
JP2011191805A (en) 2011-09-29

Similar Documents

Publication Publication Date Title
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
JP5340751B2 (en) Document processing apparatus and document processing method
US8775442B2 (en) Semantic search using a single-source semantic model
JP5727512B2 (en) Cluster and present search suggestions
KR100923505B1 (en) Ranking system based on user's attention and the method thereof
US9116992B2 (en) Providing time series information with search results
JP5494454B2 (en) Search result generation method, search result generation program, and search system
JP2012069171A (en) Web page ranking with hierarchical consideration
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20090187516A1 (en) Search summary result evaluation model methods and systems
JP6056592B2 (en) Information recommendation device, recommendation information determination method, recommendation information determination program, and information recommendation program
US20170255653A1 (en) Method for categorizing images to be associated with content items based on keywords of search queries
JP2011154467A (en) Retrieval result ranking method and system
CN105426550A (en) Collaborative filtering tag recommendation method and system based on user quality model
KR20110122719A (en) Systems and methods for a search engine results page research assistant
JP5548900B2 (en) Web page recommendation method using multiple attributes
JP4750628B2 (en) Information ranking method and apparatus, program, and computer-readable recording medium
JP2011154466A (en) Retrieval result ranking method and system
JP5378272B2 (en) Query feature value calculation method, apparatus, and program
Hsu et al. Efficient and effective prediction of social tags to enhance web search
JP2010123036A (en) Document retrieval device, document retrieval method and document retrieval program
JP2010218475A (en) Blog analysis method and device
JP5416552B2 (en) Ranking function generation device, ranking function generation method, ranking function generation program
KR101180371B1 (en) Folksonomy-based personalized web search method and system for performing the method
JP5286007B2 (en) Document search device, document search method, and document search program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130925

R150 Certificate of patent or registration of utility model

Ref document number: 5378272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees