JP2013156876A - Recommendation query extraction device, method, and program - Google Patents

Recommendation query extraction device, method, and program Download PDF

Info

Publication number
JP2013156876A
JP2013156876A JP2012017571A JP2012017571A JP2013156876A JP 2013156876 A JP2013156876 A JP 2013156876A JP 2012017571 A JP2012017571 A JP 2012017571A JP 2012017571 A JP2012017571 A JP 2012017571A JP 2013156876 A JP2013156876 A JP 2013156876A
Authority
JP
Japan
Prior art keywords
query
bipartite graph
url
queries
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012017571A
Other languages
Japanese (ja)
Other versions
JP5589009B2 (en
Inventor
Ryota Imai
良太 今井
Shinji Miyahara
伸二 宮原
Yoshimasa Koike
義昌 小池
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012017571A priority Critical patent/JP5589009B2/en
Publication of JP2013156876A publication Critical patent/JP2013156876A/en
Application granted granted Critical
Publication of JP5589009B2 publication Critical patent/JP5589009B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable a replacement type query recommendation, even though a clock log has a small storage capacity, and preferentially display candidates having a high probability to be selected.SOLUTION: The recommendation query extraction device according to the present invention acquires a query input from a user and generates a bipartite graph from a URL and a query obtained by retrieving click log storage menas (queries and URLs). At that time, when the input query is not present in the click log storage means, the recommendation query extraction device acquires a URL corresponding to the query via a search engine and adds it to the bipartite graph along with a lower limit (n-1) number of queries included in the bipartite graph. The recommendation query extraction device calculates respective scores of the queries included in the bipartite graph, selects a predetermined number of queries in order of upper scores, and outputs them.

Description

本発明は、推薦クエリ抽出装置及び方法及びプログラムに係り、特に、ユーザが意図した検索結果を得られる可能性が高いクエリを提示するための推薦クエリ抽出装置及び方法及びプログラムに関する。   The present invention relates to a recommended query extracting apparatus, method, and program, and more particularly, to a recommended query extracting apparatus, method, and program for presenting a query that is highly likely to obtain a search result intended by a user.

ユーザが入力するクエリは、ユーザの意図した検索結果を得るために適切であるとは限らないが、推薦されたクエリを選択することで、ユーザは容易に入力するクエリを変更し、検索を再試行することができる。例えば、[コーヒー豆の種類]に関する文書を検索するために『豆の種類』というクエリを入力したユーザに対して、『コーヒー豆 種類』や『豆 ブランド』というクエリを推薦する動作が可能である。   The query entered by the user may not be appropriate for obtaining the search result intended by the user, but by selecting a recommended query, the user can easily change the entered query and restart the search. Can try. For example, it is possible to recommend a query of “coffee bean type” or “bean brand” to a user who has entered a query of “bean type” in order to search for documents related to [type of coffee beans]. .

以下に、クエリを推薦するための従来技術を説明するが、最初に、本明細書における用語について説明する。   Hereinafter, a conventional technique for recommending a query will be described. First, terms used in this specification will be described.

『クエリ』とは、文書を検索するためにユーザがシステムに入力する文字列をいう。検索する文書はクエリに含まれるキーワードを含む文書であり、クエリが複数のキーワードを含む場合はそれらのキーワードを同時に含む文書を指す。例えば、コーヒー豆の種類に関する文書を検索するために『コーヒー豆 種類』というクエリを入力すると、『コーヒー豆』と『種類』の両方のキーワードを含む文書を検索することができる。   A “query” refers to a character string that a user enters into the system to search for a document. A document to be searched is a document including a keyword included in a query, and when the query includes a plurality of keywords, it indicates a document including the keywords simultaneously. For example, if a query “coffee bean type” is entered in order to search for documents related to coffee bean types, documents including both the keywords “coffee bean” and “type” can be searched.

『クリックログ』とは、ハードディスク等の記憶手段に保持されている、過去の複数のユーザがシステムに入力したクエリと、そのクエリに対してシステムが出力した検索結果の中からユーザが選択したURLを指す。例えば、あるユーザAがクエリaを入力してURL1を選択し、別のユーザBがクエリbを入力してURL2を選択した場合、クリックログには、
{クエリa,URL1}
{クエリb,URL2}
が保持される。
"Click log" refers to a query that is stored in a storage means such as a hard disk, entered by the user in the past, and a URL selected by the user from the search results output by the system for that query. Point to. For example, when a user A inputs a query a to select URL 1 and another user B inputs a query b to select URL 2,
{Query a, URL1}
{Query b, URL2}
Is retained.

『スコア』とは、あるクエリをユーザに推薦したときにユーザがそのクエリを選択する可能性を表す指標を指す。例えば、『豆の種類』という入力クエリに対して『豆知識』というクエリが0.9のスコアをもち、「コーヒー豆の種類」というクエリが1.5のスコアをもつとき、スコアを考慮することで後者を優先して推薦することができる。   “Score” refers to an index indicating the possibility that the user will select a query when a query is recommended to the user. For example, if the query “bean knowledge” has a score of 0.9 and the query “coffee bean type” has a score of 1.5 for the input query “bean type”, the latter is calculated by taking the score into account. Priority can be recommended.

クエリを推薦するための従来の第1の技術として、過去の複数のユーザがシステムに入力したクエリと当該クエリに対してシステムが出力した検索結果の中からユーザが選択したURLからなるクリックログに、入力クエリが含まれる場合に2部グラフを構築し、推薦候補となるクエリを生成する技術がある(例えば、非特許文献1参照)。ここで、2部グラフとは、グラフ理論において、頂点集合を二つの部分集合に分割して各集合内の頂点同士の間には辺がないようにできるグラフのことである。当該技術のクエリ抽出装置の構成を図1に示す。同図に示す装置は、ユーザから入力されたクエリを取得するクエリ入力部1、入力されたクエリを用いて2部グラフを構築する2部グラフ構築部2、クリックログが格納されたクリックログ記憶部5、装置内の各構成要素で用いられるパラメータを保持するパラメータ記憶部4、2部グラフに含まれるそれぞれのクエリについてスコアを計算するスコア計算部7、スコアに基づいてパラメータ記憶部4のパラメータで指定されている個数分のクエリを抽出する推薦クエリ出力部8から構成される。   As a first conventional technique for recommending a query, a click log consisting of a query entered by a plurality of past users and a URL selected by the user from the search results output by the system for that query There is a technique for constructing a bipartite graph when an input query is included and generating a query as a recommendation candidate (see, for example, Non-Patent Document 1). Here, the bipartite graph is a graph that can divide a vertex set into two subsets so that there are no edges between vertices in each set in graph theory. FIG. 1 shows the configuration of the query extraction apparatus of the technology. The apparatus shown in FIG. 1 includes a query input unit 1 that acquires a query input by a user, a bipartite graph construction unit 2 that constructs a bipartite graph using the input query, and a click log storage in which a click log is stored. Unit 5, parameter storage unit 4 that holds parameters used by each component in the apparatus, score calculation unit 7 that calculates a score for each query included in the bipartite graph, parameters of the parameter storage unit 4 based on the scores The recommended query output unit 8 extracts the number of queries specified in.

上記のパラメータ記憶部4は、図2に示すように、パラメータとして、以下の内容を保持する。   As shown in FIG. 2, the parameter storage unit 4 holds the following contents as parameters.

n:2部グラフに含まれるべきクエリの数の下限;
m:スコア計算における反復回数;
k:推薦するクエリの数;
上記の2部グラフ構築部2の動作を図3に示す。
n: Lower limit on the number of queries to be included in the bipartite graph;
m: number of iterations in score calculation;
k: number of recommended queries;
The operation of the bipartite graph construction unit 2 is shown in FIG.

まず、2部グラフ構築部2は、クエリ入力部1からクエリqを受け取り、qのみを含む2部グラフGを作成する(ステップ1)。次に、クリックログ記憶部5にqが存在するかを判定し(ステップ2)、存在する場合は(ステップ3、Yes)、qを起点として、クエリとURLのアクセス関係に基づいて、n−1個のクエリと当該クエリからアクセスされたURLを2部グラフGに追加する(ステップ4)。   First, the bipartite graph construction unit 2 receives the query q from the query input unit 1 and creates a bipartite graph G including only q (step 1). Next, it is determined whether or not q exists in the click log storage unit 5 (step 2), and if it exists (step 3, Yes), n− is determined based on the access relation between the query and the URL, starting from q. One query and the URL accessed from the query are added to the bipartite graph G (step 4).

また、従来の第2の技術として、クリックログに入力クエリが含まれていなくとも、検索エンジンによって検索されたURLを用いることにより、候補を推薦する技術がある(例えば、非特許文献2参照)。   Further, as a second conventional technique, there is a technique for recommending candidates by using a URL searched by a search engine even if an input query is not included in the click log (see, for example, Non-Patent Document 2). .

また、従来の第3の技術として、各クエリに対する検索結果の類似性を用いてクエリ同士の類似性を推定し、入力クエリに類似しているクエリをユーザに推薦する技術がある(例えば、非特許文献3参照)。   Further, as a third conventional technique, there is a technique for estimating the similarity between queries using the similarity of search results for each query and recommending a query similar to an input query to a user (for example, non-search (See Patent Document 3).

Qiaozhu Mei, Dengyong Zhou, Kenneth Church: Query suggestion using hitting time, In Proceedings of CIKM '08, pages 469 - 478, ACM, 2008.Qiaozhu Mei, Dengyong Zhou, Kenneth Church: Query suggestion using hitting time, In Proceedings of CIKM '08, pages 469-478, ACM, 2008. US 2005/0055341 A1: System and method for providing search query refinements, Paul Haahr et al.US 2005/0055341 A1: System and method for providing search query refinements, Paul Haahr et al. 特開2001-202390号公報Japanese Patent Laid-Open No. 2001-202390

しかしながら、上記従来の第1の技術は、クリックログに含まれるクエリに対して、検索エンジンの性能に依存しない置き換え型のクエリ推薦が可能であるが、推薦する候補を生成するためにはクリックログが必要であり、クリックログに入力クエリが含まれないと推薦候補を生成できないため、十分な容量のクリックログが必要になるという問題がある。   However, the first conventional technique described above can perform a replacement type query recommendation that does not depend on the performance of the search engine for the query included in the click log, but in order to generate a recommended candidate, the click log There is a problem that a recommendation log cannot be generated unless an input query is included in the click log, and a click log having a sufficient capacity is required.

また、上記従来の第2の技術は、クリックログに含まれないクエリに対するクエリ推薦が可能であるが、検索エンジンによって検索されたURLを必要とするため、検索エンジンの性能がクエリ推薦の結果に大きく影響し、選択される可能性の高い候補を推薦できない場合がある。   The second conventional technique can recommend a query for a query that is not included in the click log. However, since the URL searched by the search engine is required, the performance of the search engine is a result of the query recommendation. Cannot recommend candidates that have a large impact and are likely to be selected.

また、上記従来の第3の技術は、クエリに対する検索結果の類似性に基づくクエリ推薦が可能であるが、人間が判断した結果(本発明におけるクリックログに相当する)を用いないため、検索結果がクエリ推薦の結果に大きく影響し、選択される可能性の高い候補を推薦できない場合がある。   In addition, the third conventional technique described above can perform query recommendation based on the similarity of search results to a query, but does not use a result determined by a human (corresponding to a click log in the present invention). May greatly affect the result of query recommendation and may not recommend candidates that are likely to be selected.

本発明は、上記の点に鑑みなされたもので、クリックログの記憶容量が小さくても置き換え型クエリ推薦を可能とし、また、選択される可能性の高い候補を優先させて表示することが可能な推薦クエリ抽出装置及び方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and allows replacement type query recommendation even when the storage capacity of the click log is small, and can prioritize candidates that are likely to be selected. It is an object of the present invention to provide a recommended query extraction device, method, and program.

上記の課題を解決するため、本発明(請求項1)は、ユーザから入力されたクエリに基づいてクリックログからユーザが意図した検索結果を得られる可能性が高いクエリを提示するための推薦クエリ抽出装置であって、
ユーザから入力されたクエリを取得するクエリ入力手段と、
過去に入力されたクエリと該クエリによってアクセスされたURLの組からなるクリックログが格納されたクリックログ記憶手段と、
前記入力されたクエリに基づいて前記クリックログ記憶手段を検索することにより得られたURLと該クエリから2部グラフを生成する2部グラフ構築手段と、
前記2部グラフに含まれるクエリについてそれぞれのスコアを計算するスコア算出手段と、
前記スコアの上位から順に所定の数のクエリを選択し、出力する推薦クエリ出力手段と、
を有し、
前記2部グラフ構築手段は、
前記入力されたクエリが前記クリックログ記憶手段に存在しない場合は、検索エンジンを介して、該クエリに対応するURLを取得し、前記2部グラフに追加するURL検索手段を含むことを特徴とする。
In order to solve the above problems, the present invention (Claim 1) provides a recommended query for presenting a query that is highly likely to obtain a search result intended by the user from the click log based on the query input by the user. An extraction device,
Query input means for obtaining a query input by a user;
A click log storage means for storing a click log comprising a set of a query inputted in the past and a URL accessed by the query;
A bipartite graph construction means for generating a bipartite graph from the URL obtained by searching the click log storage means based on the inputted query, and the query;
Score calculating means for calculating respective scores for the queries included in the bipartite graph;
A recommended query output means for selecting and outputting a predetermined number of queries in order from the top of the score;
Have
The bipartite graph construction means includes:
When the input query does not exist in the click log storage unit, the URL includes a URL search unit that acquires a URL corresponding to the query via a search engine and adds the URL to the bipartite graph. .

また、本発明(請求項2)は、前記URL検索手段において、
前記検索エンジンを介して取得したURLを記憶手段に格納し、1番目のURLを起点として、所定の2部グラフに含まれるべきクエリの下限値n−1個のクエリ、及び該n−1個のクエリからアクセスされたURLを前記2部グラフに追加する手段を含む。
The present invention (Claim 2) provides the URL search means,
The URL acquired through the search engine is stored in the storage means, and the lower limit value n−1 queries to be included in a predetermined bipartite graph starting from the first URL, and the n−1 Means for adding to the bipartite graph the URL accessed from the query.

また、本発明(請求項3)は、前記2部グラフ構築手段において、
前記2部グラフに含まれるクエリの数を所定の推薦するクエリの数kで除した前記2部グラフの評価値を求め、該評価値が所定の評価値の下限値よりも大きい2部グラフを出力する手段を含む。
The present invention (Claim 3) provides the bipartite graph construction means,
An evaluation value of the bipartite graph obtained by dividing the number of queries included in the bipartite graph by a predetermined number k of recommended queries is obtained, and a bipartite graph in which the evaluation value is larger than a lower limit value of the predetermined evaluation value is obtained. Means for outputting.

本発明によれば、クリックログに含まれない入力クエリに対して、当該クエリの一部または全部を置き換えたクエリを推薦する置き換え型のクエリ推薦が可能となるため、クリックログの記憶容量が小さくても置き換え型クエリ推薦が可能となる。   According to the present invention, for an input query that is not included in the click log, a replacement-type query recommendation that recommends a query in which a part or all of the query is replaced is possible, so the storage capacity of the click log is small. However, replacement query recommendation is possible.

また、入力クエリがクリックログに含まれるときには、検索エンジンの性能に依存せず、人間が判断した結果のみを用いて推薦するクエリのスコアを算出することが可能であるため、選択される可能性の高い候補を先に表示することが可能となる。   In addition, when the input query is included in the click log, the score of the query to recommend can be calculated using only the result determined by humans without depending on the performance of the search engine. Can be displayed first.

第1の従来技術のクエリ抽出装置の構成図である。1 is a configuration diagram of a first conventional query extraction device. FIG. 第1の従来技術のパラメータ記憶部のパラメータを示す図である。FIG. 5 is a diagram showing parameters in a parameter storage unit of the first conventional technique. 第1の従来技術の2部グラフ構築部のフローチャートである。It is a flowchart of the bipartite graph construction part of the 1st prior art. 本発明の一実施の形態におけるクエリ抽出装置の構成図である。It is a block diagram of the query extraction apparatus in one embodiment of this invention. 本発明の一実施の形態におけるパラメータ記憶部の例である。It is an example of the parameter memory | storage part in one embodiment of this invention. 本発明の一実施の形態におけるクリックログ記憶部の格納例である。It is a storage example of the click log memory | storage part in one embodiment of this invention. 本発明の一実施の形態における2部グラフ構築部のフローチャートである。It is a flowchart of the bipartite graph construction part in one embodiment of this invention.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図4は、本発明の一実施の形態におけるクエリ抽出装置の構成を示す。   FIG. 4 shows the configuration of the query extraction apparatus in an embodiment of the present invention.

同図に示すクエリ抽出装置は、クエリ入力部1、2部グラフ構築部20、検索エンジン30、パラメータ記憶部40、クリックログ記憶部5、インデックス記憶部60、スコア計算部7、推薦クエリ出力部8から構成される。   The query extraction device shown in FIG. 1 includes a query input unit 1, a bipartite graph construction unit 20, a search engine 30, a parameter storage unit 40, a click log storage unit 5, an index storage unit 60, a score calculation unit 7, and a recommended query output unit. 8 is composed.

クエリ入力部1、クリックログ記憶部5、スコア計算部7、推薦クエリ出力部8は、従来の第1の技術と同様である。   The query input unit 1, the click log storage unit 5, the score calculation unit 7, and the recommended query output unit 8 are the same as those in the first conventional technique.

クエリ入力部1は、ユーザが入力したクエリを受け取る。   The query input unit 1 receives a query input by a user.

2部グラフ構築部20は、入力されたクエリを受け取り、当該クエリに基づいてクリックログ記憶部5を検索することにより得られたURLと該クエリから2部グラフを生成し、クリックログ記憶部5に入力されたクエリが存在しない場合には、検索エンジン30を用いてURLを取得して2部グラフを構築する。処理の詳細について後述する。   The bipartite graph construction unit 20 receives the input query, generates a bipartite graph from the URL obtained by searching the click log storage unit 5 based on the query and the query, and the click log storage unit 5 If there is no query input to the URL, a URL is obtained using the search engine 30 and a bipartite graph is constructed. Details of the processing will be described later.

パラメータ記憶部40は、図5に示すように、2部グラフに含まれるべきクエリの数の下限n、2部グラフの評価値の下限u、スコアの計算における反復回数m、推薦するクエリの数kを格納する。これらのパラメータは、実装する際の計算機資源や利用目的に応じて事前に決定し、クエリ入力部1にクエリが入力される前にパラメータ記憶部40に格納しておく。   As shown in FIG. 5, the parameter storage unit 40 includes a lower limit n of the number of queries to be included in the bipartite graph, a lower limit u of the evaluation value of the bipartite graph, the number m of iterations in the score calculation, and the number of recommended queries. Store k. These parameters are determined in advance according to the computer resources and the purpose of use at the time of mounting, and are stored in the parameter storage unit 40 before the query is input to the query input unit 1.

インデックス記憶部60は、文書の検索においてクエリと文書の照合を効率的に行うために、検索対象となる多くの文書の見出し情報を保持し、検索エンジン30により参照される。見出し情報の作成と更新は、クエリ推薦とは無関係に行われるものであり、予め構築されているものとする。当該見出し情報の作成及び更新の処理については、例えば、文献1"B. Brin, L. Page: The anatomy of a large-scale hypertextual Web search engine, 1998"に記載の方法により実現することが可能である。なお、見出し情報の作成・更新については、本発明の範囲外であるため詳細な説明は省略する。   The index storage unit 60 holds heading information of many documents to be searched and is referred to by the search engine 30 in order to efficiently collate the query with the document in the document search. It is assumed that the creation and update of the heading information is performed regardless of the query recommendation and is constructed in advance. The creation and update processing of the header information can be realized, for example, by the method described in Document 1 “B. Brin, L. Page: The anatomy of a large-scale hypertextual Web search engine, 1998”. is there. Note that the creation / update of heading information is outside the scope of the present invention, and thus detailed description thereof is omitted.

クリックログ記憶部5は、過去の複数のユーザが文書を検索するために入力したクエリと、そのクエリに対して得られた検索結果の中からユーザが選択したURLを保持する。例えば、過去のあるユーザAがクエリaを入力してURL1を選択し、次にユーザBがクエリbを入力してURL2を選択した場合、クリックログ記憶部5には図6のように、クエリaとURL1,クエリbとURL2のペアが保持される。   The click log storage unit 5 holds a query input by a plurality of past users to search for a document and a URL selected by the user from the search results obtained for the query. For example, when a user A in the past inputs a query a and selects URL1, and then user B inputs a query b and selects URL2, the click log storage unit 5 stores the query as shown in FIG. A pair of a and URL1 and a query b and URL2 are held.

検索エンジン30は、インデックス記憶部60を用いて、クエリqに含まれるキーワードを含む文書を検索し、それらの文書のURLのリストを検索結果として出力する。例えば、上記の文献1のFigure4.に示される方法により実現可能である。   The search engine 30 uses the index storage unit 60 to search for documents including keywords included in the query q, and outputs a list of URLs of those documents as a search result. For example, it can be realized by the method shown in FIG.

スコア計算部7は、2部グラフgに含まれるクエリq以外のクエリについて、それぞれのスコアを計算する。本発明では、2部グラフ構築部20から出力される2部グラフは、所定の値以上の評価値を有するものである。具体的には、文献2"Qiaozhu Mei, Dengyong Zhou, Kenneth Church: Query suggestion using hitting time, In Proceedings of CIKM '08, pages 469-478, ACM, 2008."の技術を用いることにより実現できる。   The score calculation unit 7 calculates each score for queries other than the query q included in the bipartite graph g. In the present invention, the bipartite graph output from the bipartite graph construction unit 20 has an evaluation value equal to or greater than a predetermined value. Specifically, it can be realized by using the technique of document 2 “Qiaozhu Mei, Dengyong Zhou, Kenneth Church: Query suggestion using hitting time, In Proceedings of CIKM '08, pages 469-478, ACM, 2008.”.

推薦クエリ出力部8は、スコア計算部7で求められたスコアをもとにしてk個(2部グラフに含まれるべきクエリの数の下限値)のクエリを選び出し、推薦クエリとして出力する。具体的には、スコアが付与されたクエリの集合Qをスコアの順に並び替え、ユーザが選択する可能性の高い順にk個のクエリを選び出し、推薦クエリとして出力する。具体的には文献2の技術を用いることにより実現可能である。   The recommended query output unit 8 selects k queries (the lower limit value of the number of queries to be included in the bipartite graph) based on the score obtained by the score calculation unit 7 and outputs them as recommended queries. Specifically, the set Q of the queries to which scores are assigned is rearranged in the order of the scores, k queries are selected in descending order of possibility of being selected by the user, and are output as recommended queries. Specifically, it can be realized by using the technique of Document 2.

次に、上記の2部グラフ構築部20の処理について詳述する。   Next, the processing of the bipartite graph construction unit 20 will be described in detail.

図7は、本発明の一実施の形態における2部グラフ構築部のフローチャートである。   FIG. 7 is a flowchart of the bipartite graph construction unit in one embodiment of the present invention.

ステップ100) 2部グラフ構築部20は、クエリ入力部1からクエリqを取得し、qのみを含む2部グラフGを作成する。   Step 100) The bipartite graph construction unit 20 acquires the query q from the query input unit 1, and creates a bipartite graph G including only q.

ステップ110) クエリqに基づいてクリックログ記憶部5を参照し、当該クエリqが存在するかを判定する。   Step 110) Referring to the click log storage unit 5 based on the query q, it is determined whether or not the query q exists.

ステップ120) クエリqが存在する場合はステップ130に移行し、存在しない場合はステップ140に移行する。   Step 120) If the query q exists, the process proceeds to step 130, and if not, the process proceeds to step 140.

ステップ130) クエリqを起点として、クエリとURLのアクセス関係を元に、n−1個のクエリとそれらからアクセスされたURLをメモリ(図示せず)上の2部グラフGに追加し、当該処理を終了する。   Step 130) Starting from the query q, based on the access relation between the query and the URL, add n−1 queries and the URL accessed from the query to the bipartite graph G on the memory (not shown), The process ends.

ステップ140) クエリqがクリックログ記憶部5に格納されていない場合は、検索エンジン30を介して、クエリqに対応するURLを受け取り、URLのカウンタをi=1とする。なお、取得したURLはメモリ(図示せず)に格納しておくものとする。   Step 140) If the query q is not stored in the click log storage unit 5, the URL corresponding to the query q is received via the search engine 30, and the URL counter is set to i = 1. The acquired URL is stored in a memory (not shown).

ステップ150) i番目のURLを起点として、クエリとURLのアクセス関係に基づいて、検索エンジン30による検索結果のi番目のURLをアクセス関係の起点として、n−1個のクエリと当該クエリからアクセスされたURLをクリックログ記憶部5から取り出し、2部グラフGに追加する。なお、nはパラメータ記憶部40に格納されている2部グラフに含まれるべきクエリの数の下限である。   Step 150) Starting from the i-th URL, based on the access relation between the query and the URL, the i-th URL of the search result by the search engine 30 is used as the starting point of the access relation, and the n-1 queries and the query are accessed. The clicked URL is extracted from the click log storage unit 5 and added to the bipartite graph G. Note that n is the lower limit of the number of queries to be included in the bipartite graph stored in the parameter storage unit 40.

ステップ160) 2部グラフGの評価値を算出する。評価値は、
評価値=|Q|/k
ただし、|Q|は2部グラフGに含まれるクエリの数であり、kはパラメータ記憶部40に格納されているパラメータで指定された推薦するクエリの数である。
Step 160) The evaluation value of the bipartite graph G is calculated. Evaluation value is
Evaluation value = | Q | / k
However, | Q | is the number of queries included in the bipartite graph G, and k is the number of recommended queries specified by the parameters stored in the parameter storage unit 40.

ステップ170) ステップ160で求められた評価値がパラメータ記憶部40に格納されているグラフGの評価値の下限u以上であるかを判定し、u以上である場合は当該処理を終了し、uより小さい値である場合はステップ180に移行する。   Step 170) It is determined whether or not the evaluation value obtained in Step 160 is equal to or higher than the lower limit u of the evaluation value of the graph G stored in the parameter storage unit 40. If the value is smaller, the process proceeds to step 180.

ステップ180) カウンタをi=i+1としてステップ150に戻る。   Step 180) Set the counter to i = i + 1 and return to Step 150.

本発明では、入力クエリがクリックログ記憶部5に存在しなくとも、上記のステップ110〜130において、入力クエリに関連するURLのリストを、検索エンジン30を介して取得することで2部グラフを構築することができる。クリックログは、入力クエリに対する検索結果から人間がURLを選択することで生成されるので、ステップ140で取得するURLは入力クエリに対するクリックログの候補と考えることができ、したがって、クリックログの代替とすることができる。これにより、クエリ抽出装置が探索できるクリックログの容量が小さく(例えば、期間が直前の1ヶ月間のみ)、入力クエリがクリックログに存在しない可能性が高い場合でも2部グラフを構築できる。2部グラフを構築できれば、スコア計算部7の処理を従来技術と同様に行うことでクエリ推薦が可能となる。   In the present invention, even if the input query does not exist in the click log storage unit 5, a bipartite graph can be obtained by acquiring a list of URLs related to the input query through the search engine 30 in the above steps 110 to 130. Can be built. Since the click log is generated when a human selects a URL from the search result for the input query, the URL obtained in step 140 can be considered as a click log candidate for the input query. can do. As a result, the bipartite graph can be constructed even when the click log capacity that can be searched by the query extraction device is small (for example, only during the previous month) and there is a high possibility that the input query does not exist in the click log. If a bipartite graph can be constructed, query recommendation can be performed by performing the processing of the score calculation unit 7 in the same manner as in the prior art.

一方、クリックログ記憶部5にクエリが存在する場合には、当該クリックログのみに基づいてグラフを構築するため、人間の判断を反映することができ、選択される可能性が高いクエリを推薦することができる。   On the other hand, when a query exists in the click log storage unit 5, a graph is constructed based only on the click log, so that a query that can reflect human judgment and is highly likely to be selected is recommended. be able to.

さらに、評価値を算出し、所定の値以上の2部グラフをスコア計算部7に出力することにより、選択される可能性の高い候補を優先させて出力することが可能となる。   Furthermore, by calculating an evaluation value and outputting a bipartite graph of a predetermined value or more to the score calculation unit 7, it is possible to prioritize and output candidates that are likely to be selected.

上記の、図4に示すクエリ入力部1、2部グラフ構築部20、スコア計算部7、推薦クエリ出力部8の動作をプログラムとして構築し、クエリ抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   The operations of the query input unit 1, the bipartite graph construction unit 20, the score calculation unit 7, and the recommended query output unit 8 shown in FIG. 4 are constructed as a program, and installed and executed on a computer used as a query extraction device. Or can be distributed via a network.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

1 クエリ入力部
2,20 2部グラフ構築部
4,40 パラメータ記憶部
5 クリックログ記憶部
7 スコア計算部
8 推薦クエリ出力部
30 検索エンジン
60 インデックス記憶部
DESCRIPTION OF SYMBOLS 1 Query input part 2,20 2 parts Graph construction part 4,40 Parameter storage part 5 Click log storage part 7 Score calculation part 8 Recommended query output part 30 Search engine 60 Index storage part

Claims (7)

ユーザから入力されたクエリに基づいてクリックログからユーザが意図した検索結果を得られる可能性が高いクエリを提示するための推薦クエリ抽出装置であって、
ユーザから入力されたクエリを取得するクエリ入力手段と、
過去に入力されたクエリと該クエリによってアクセスされたURLの組からなるクリックログが格納されたクリックログ記憶手段と、
前記入力されたクエリに基づいて前記クリックログ記憶手段を検索することにより得られたURLと該クエリから2部グラフを生成する2部グラフ構築手段と
前記2部グラフに含まれるクエリについてそれぞれのスコアを計算するスコア算出手段と、
前記スコアの上位から順に所定の数のクエリを選択し、出力する推薦クエリ出力手段と、
を有し、
前記2部グラフ構築手段は、
前記入力されたクエリが前記クリックログ記憶手段に存在しない場合は、検索エンジンを介して、該クエリに対応するURLを取得し、前記2部グラフに追加するURL検索手段を含む
ことを特徴とする推薦クエリ抽出装置。
A recommended query extraction device for presenting a query that is highly likely to obtain a search result intended by a user from a click log based on a query input by the user,
Query input means for obtaining a query input by a user;
A click log storage means for storing a click log comprising a set of a query inputted in the past and a URL accessed by the query;
URL obtained by searching the click log storage means based on the input query, bipartite graph construction means for generating a bipartite graph from the query, and respective scores for the queries included in the bipartite graph A score calculating means for calculating
A recommended query output means for selecting and outputting a predetermined number of queries in order from the top of the score;
Have
The bipartite graph construction means includes:
When the input query does not exist in the click log storage unit, the URL includes a URL search unit that acquires a URL corresponding to the query via a search engine and adds the URL to the bipartite graph. Recommended query extraction device.
前記URL検索手段は、
前記検索エンジンを介して取得したURLを記憶手段に格納し、1番目のURLを起点として、所定の2部グラフに含まれるべきクエリの下限値n−1個のクエリ及び該n−1個のクエリからアクセスされたURLを前記2部グラフに追加する手段を含む
請求項1記載の推薦クエリ抽出装置。
The URL search means
The URL acquired through the search engine is stored in the storage means, and the lower limit value n−1 queries and the n−1 number of queries to be included in a predetermined bipartite graph starting from the first URL The recommended query extraction device according to claim 1, further comprising means for adding a URL accessed from a query to the bipartite graph.
前記2部グラフ構築手段は、
前記2部グラフに含まれるクエリの数を所定の推薦するクエリの数kで除した前記2部グラフの評価値を求め、該評価値が所定の評価値の下限値よりも大きい2部グラフを出力する手段を含む
請求項1記載の推薦クエリ抽出装置。
The bipartite graph construction means includes:
An evaluation value of the bipartite graph obtained by dividing the number of queries included in the bipartite graph by a predetermined number k of recommended queries is obtained, and a bipartite graph in which the evaluation value is larger than a lower limit value of the predetermined evaluation value is obtained. The recommended query extraction device according to claim 1, further comprising means for outputting.
ユーザから入力されたクエリに基づいてクリックログからユーザが意図した検索結果を得られる可能性が高いクエリを提示するための推薦クエリ抽出方法であって、
ユーザから入力されたクエリを取得するクエリ入力手段と、
過去に入力されたクエリと該クエリによってアクセスされたURLの組からなるクリックログが格納されたクリックログ記憶手段と、
前記入力されたクエリに基づいて前記クリックログ記憶手段を検索することにより得られたURLと該クエリから2部グラフを生成する2部グラフ構築手段と、
前記2部グラフに含まれるクエリについてそれぞれのスコアを計算するスコア算出手段と、
前記スコアの上位から順に所定の数のクエリを選択し、出力する推薦クエリ出力手段と、
を有する装置において、
前記2部グラフ構築手段が、前記入力されたクエリが前記クリックログ記憶手段に存在しない場合は、検索エンジンを介して、該クエリに対応するURLを取得し、前記2部グラフに追加するURL検索ステップを行う
ことを特徴とする推薦クエリ抽出方法。
A recommended query extraction method for presenting a query that is highly likely to obtain a search result intended by a user from a click log based on a query input by the user,
Query input means for obtaining a query input by a user;
A click log storage means for storing a click log comprising a set of a query inputted in the past and a URL accessed by the query;
A bipartite graph construction means for generating a bipartite graph from the URL obtained by searching the click log storage means based on the inputted query, and the query;
Score calculating means for calculating respective scores for the queries included in the bipartite graph;
A recommended query output means for selecting and outputting a predetermined number of queries in order from the top of the score;
In a device having
If the input query does not exist in the click log storage unit, the bipartite graph construction unit obtains a URL corresponding to the query via a search engine and adds it to the bipartite graph A recommended query extraction method comprising performing steps.
前記URL検索ステップにおいて、
前記検索エンジンを介して取得したURLを記憶手段に格納し、1番目のURLを起点として、所定の2部グラフに含まれるべきクエリの下限値n−1個のクエリ及び該n−1個のクエリからアクセスされたURLを前記2部グラフに追加する
請求項4記載の推薦クエリ抽出方法。
In the URL search step,
The URL acquired through the search engine is stored in the storage means, and the lower limit value n−1 queries and the n−1 number of queries to be included in a predetermined bipartite graph starting from the first URL The recommended query extraction method according to claim 4, wherein a URL accessed from a query is added to the bipartite graph.
前記2部グラフ構築手段が、前記2部グラフに含まれるクエリの数を所定の推薦するクエリの数kで除した前記2部グラフの評価値を求め、該評価値が所定の評価値の下限値よりも大きい2部グラフを出力するステップを更に行う
請求項4記載の推薦クエリ抽出方法。
The bipartite graph construction means obtains an evaluation value of the bipartite graph obtained by dividing the number of queries included in the bipartite graph by a predetermined number k of recommended queries, and the evaluation value is a lower limit of the predetermined evaluation value. The recommended query extraction method according to claim 4, further comprising a step of outputting a bipartite graph larger than the value.
コンピュータを、
請求項1乃至3のいずれか1項に記載の推薦クエリ抽出装置の各手段として機能させるための推薦クエリ抽出プログラム。
Computer
A recommended query extraction program for functioning as each means of the recommended query extraction device according to claim 1.
JP2012017571A 2012-01-31 2012-01-31 RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM Expired - Fee Related JP5589009B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012017571A JP5589009B2 (en) 2012-01-31 2012-01-31 RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012017571A JP5589009B2 (en) 2012-01-31 2012-01-31 RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2013156876A true JP2013156876A (en) 2013-08-15
JP5589009B2 JP5589009B2 (en) 2014-09-10

Family

ID=49051982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012017571A Expired - Fee Related JP5589009B2 (en) 2012-01-31 2012-01-31 RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP5589009B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015095025A (en) * 2013-11-11 2015-05-18 株式会社 ミックウェア Search expression generation device, search expression generation method, and program
CN116738035A (en) * 2023-02-02 2023-09-12 量子数科科技有限公司 Recommendation rearrangement method based on window sliding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176746A (en) * 2007-01-22 2008-07-31 Yafoo Japan Corp Method and server for recommending information relating to web page of reference source to web page based on history information of page moving operation
JP2009252070A (en) * 2008-04-09 2009-10-29 Yahoo Japan Corp Method for calculating score for search query
US20100185649A1 (en) * 2009-01-15 2010-07-22 Microsoft Corporation Substantially similar queries
US20100306229A1 (en) * 2009-06-01 2010-12-02 Aol Inc. Systems and Methods for Improved Web Searching

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176746A (en) * 2007-01-22 2008-07-31 Yafoo Japan Corp Method and server for recommending information relating to web page of reference source to web page based on history information of page moving operation
JP2009252070A (en) * 2008-04-09 2009-10-29 Yahoo Japan Corp Method for calculating score for search query
US20100185649A1 (en) * 2009-01-15 2010-07-22 Microsoft Corporation Substantially similar queries
US20100306229A1 (en) * 2009-06-01 2010-12-02 Aol Inc. Systems and Methods for Improved Web Searching

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG201000594002; 今井 良太: 'Web検索サービスにおける多義的なクエリ推薦手法' 日本データベース学会論文誌 Vol.9 No.1, 20100625, p.7-11, 日本データベース学会 *
CSNG201001003001; 宮原 伸二: 'レアクエリを対象とした非クリック分析によるクエリ推薦方式の提案' 情報処理学会研究報告 平成22年度(4) [CD-ROM] , 20101215, p.1-6, 一般社団法人情報処理学会 *
JPN6014030541; 今井 良太: 'Web検索サービスにおける多義的なクエリ推薦手法' 日本データベース学会論文誌 Vol.9 No.1, 20100625, p.7-11, 日本データベース学会 *
JPN6014030542; 宮原 伸二: 'レアクエリを対象とした非クリック分析によるクエリ推薦方式の提案' 情報処理学会研究報告 平成22年度(4) [CD-ROM] , 20101215, p.1-6, 一般社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015095025A (en) * 2013-11-11 2015-05-18 株式会社 ミックウェア Search expression generation device, search expression generation method, and program
CN116738035A (en) * 2023-02-02 2023-09-12 量子数科科技有限公司 Recommendation rearrangement method based on window sliding
CN116738035B (en) * 2023-02-02 2024-05-28 量子数科科技有限公司 Recommendation rearrangement method based on window sliding

Also Published As

Publication number Publication date
JP5589009B2 (en) 2014-09-10

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
TWI524193B (en) Computer-readable media and computer-implemented method for semantic table of contents for search results
US10180967B2 (en) Performing application searches
US8880548B2 (en) Dynamic search interaction
CN110209827B (en) Search method, search device, computer-readable storage medium, and computer device
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
JP5616444B2 (en) Method and system for document indexing and data querying
JP6966158B2 (en) Methods, devices and programs for processing search data
WO2008106667A1 (en) Searching heterogeneous interrelated entities
CN102855309B (en) A kind of information recommendation method based on user behavior association analysis and device
JP2017157192A (en) Method of matching between image and content item based on key word
US10248732B2 (en) Identifying related entities
CN106095738B (en) Recommending form fragments
JP6363682B2 (en) Method for selecting an image that matches content based on the metadata of the image and content
CN107463592B (en) Method, device and data processing system for matching a content item with an image
WO2014114137A1 (en) Method and apparatus for recommending keywords
JP6185379B2 (en) RECOMMENDATION DEVICE AND RECOMMENDATION METHOD
JP6533876B2 (en) Product information display system, product information display method, and program
CN106599299A (en) Determining method and device of website key words
JP4750628B2 (en) Information ranking method and apparatus, program, and computer-readable recording medium
CN103984754A (en) Search system and search method
KR101140724B1 (en) Method and system of configuring user profile based on a concept network and personalized query expansion system using the same
JP5589009B2 (en) RECOMMENDED QUERY EXTRACTION DEVICE, METHOD, AND PROGRAM
JP2011100208A (en) Action estimation device, action estimation method, and action estimation program
JP2012104051A (en) Document index creating device

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140722

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140728

R150 Certificate of patent or registration of utility model

Ref document number: 5589009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees