JP5250009B2 - Suggestion query extraction apparatus and method, and program - Google Patents

Suggestion query extraction apparatus and method, and program Download PDF

Info

Publication number
JP5250009B2
JP5250009B2 JP2010222789A JP2010222789A JP5250009B2 JP 5250009 B2 JP5250009 B2 JP 5250009B2 JP 2010222789 A JP2010222789 A JP 2010222789A JP 2010222789 A JP2010222789 A JP 2010222789A JP 5250009 B2 JP5250009 B2 JP 5250009B2
Authority
JP
Japan
Prior art keywords
query
instance
normalized
suggestion
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010222789A
Other languages
Japanese (ja)
Other versions
JP2012079029A (en
Inventor
慶 内海
敏紀 佐藤
敏之 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010222789A priority Critical patent/JP5250009B2/en
Publication of JP2012079029A publication Critical patent/JP2012079029A/en
Application granted granted Critical
Publication of JP5250009B2 publication Critical patent/JP5250009B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、サジェスチョンクエリ抽出装置及び方法、並びにプログラムに関する。   The present invention relates to a suggestion query extraction apparatus and method, and a program.

従来のWebページ検索では、ユーザによりクエリが入力されると、Webページ上の検索エンジンによって、複数のURL(Uniform Resource Locator)を含む検索結果がユーザに提示される。   In a conventional Web page search, when a query is input by a user, a search result including a plurality of URLs (Uniform Resource Locators) is presented to the user by a search engine on the Web page.

さらに、近年のWebページ検索では、検索結果の提示のみならず、入力されたクエリと関連するクエリが、代替クエリの候補として示唆される。このようなWebページ検索において代替クエリの候補として示唆されるクエリは、「サジェスチョンクエリ」と呼ばれている。   Furthermore, in recent Web page searches, not only the presentation of search results but also queries related to the input query are suggested as alternative query candidates. A query suggested as a candidate for an alternative query in such a Web page search is called a “suggestion query”.

一般的には、サジェスチョンクエリとして、クエリと構成要素(単語ならば語形)が類似するクエリが提示される。例えば、ユーザが、クエリとして「ホテル」と入力すべきところを誤って「ホデル」と入力してしまった場合、サジェスチョンクエリとして一般的に「ホテル」がユーザに提示される。このようなスペルミスを修正するものもサジェスチョンクエリの一種として捉えることができる。   In general, as a suggestion query, a query similar to a query and a constituent element (a word form if a word) is presented. For example, when the user erroneously inputs “hodel” where “hotel” should be input as a query, “hotel” is generally presented to the user as a suggestion query. Those that correct such spelling mistakes can also be considered as a kind of suggestion query.

さらに、クエリと構成要素は非類似であるが、当該クエリと意味が類似するクエリ、例えばクエリが単語ならばいわゆる同義語や類義語についても、サジェスチョンクエリとして提示できれば、ユーザにとって便宜である。例えば上述の例でいえば、さらに「旅館」や「宿屋」といった「ホテル」の類義語についても、サジェスチョンクエリとして提示できれば、ユーザにとって便宜である。   Furthermore, although the query and the constituent elements are dissimilar, it is convenient for the user if a query similar in meaning to the query, for example, a so-called synonym or synonym if the query is a word can be presented as a suggestion query. For example, in the above example, it is convenient for the user if the synonym of “hotel” such as “inn” or “inn” can also be presented as a suggestion query.

このようなクエリと意味が類似するクエリ(同義語や類義語等)をサジェスチョンクエリとして適切に抽出すべく、本発明者らは、検索クリックスルーログを用いたラベル伝播手法による意味カテゴリの獲得に関する技術を既に提案している(非特許文献1参照)。   In order to appropriately extract a query (synonym, synonym, etc.) having a similar meaning to such a query as a suggestion query, the present inventors have developed a technique related to acquisition of a semantic category by a label propagation method using a search click-through log. Has already been proposed (see Non-Patent Document 1).

ここで、検索クリックスルーとは、ユーザが、クエリを入力した際に、検索エンジンが返す検索結果により示されるスニペット(当該クエリにヒットしたWebページのタイトル、当該クエリにヒットしたWebページのURL、当該クエリを含むWebページの一部の断片等で構成されるリスト)をみて、当該Webページの一をクリック(選択)することをいう。   Here, the search click-through is a snippet (the title of the web page that hits the query, the URL of the web page that hits the query, and the snippet indicated by the search result returned by the search engine when the user inputs the query) This means that the user clicks (selects) one of the Web pages by looking at a list including a part of the Web page including the query.

このような検索クリックスルーは、ユーザの意図を直接表していると考えられる。即ち、2以上のクエリの構成要素(語形等)が非類似であっても、同一のWebページに到達するものは、同じ意図で入力されたクエリである可能性が高いもの同士であると考えられる。特に、同一のWebページに到達する2以上のクエリは、同義語であることが多いと考えられる。従って、クエリと、クリック(選択)されたWebページのURL(クリック先URL)とを関連付けて記憶した検索クリックスルーログを用いることによって、ユーザにより入力されたクエリに対して、意味が類似するクエリ(同義語や類義語等)をサジェスチョンクエリとして適切に抽出することが可能になる。   Such a search click-through is considered to represent the user's intention directly. In other words, even if two or more query components (word forms, etc.) are dissimilar, those that reach the same Web page are likely to be queries entered with the same intention. It is done. In particular, it is considered that two or more queries that reach the same Web page are often synonyms. Therefore, by using a search click-through log in which a query and a URL (click destination URL) of a Web page clicked (selected) are stored in association with each other, a query having a similar meaning to a query input by a user (Synonyms, synonyms, etc.) can be appropriately extracted as a suggestion query.

小町守、牧本信平、内海慶、颯々野学、“Webページ検索ログを用いたラベル伝播による意味カテゴリ獲得”、研究報告音声言語情報処理(SLP)、第2009−SLP−76巻、第9号、1乃至6ページ、2009年5月4日Mamoru Komachi, Shinpei Makimoto, Kei Utsumi, Manabu Sasano, “Semantic Category Acquisition by Label Propagation Using Web Page Search Log”, Research Report Spoken Language Information Processing (SLP), 2009-SLP-76, 9 No. 1-6 pages, May 4, 2009

しかしながら、検索クリックスルーログの中には、非常に多くのクエリと共起してしまうクリック先URL、即ちいわゆるジェネリックパターンが存在する。このため、意味の類似度が本来低いクエリ同士が、ジェネリックパターンを介して、意味の類似度が本来よりも高いと評価される、といった現象が生ずる。   However, in the search click-through log, there is a click destination URL that co-occurs with a large number of queries, that is, a so-called generic pattern. For this reason, a phenomenon occurs in which queries having a low semantic similarity are evaluated to have higher semantic similarity than the original through a generic pattern.

このような現象が生ずると、いわゆる意味ドリフトが発生して、サジェスチョンクエリの抽出の精度が悪化する。この点、非特許文献1によれば、ラベル伝播手法において、インスタンススコアベクトルは、シードのラベルとグラフ構造どちらを重視するかというパラメータα∈(0,1)を持ち、パラメータαが0に近づけばシードのラベルに偏った結果となり、パラメータαが1に近づけばラベルなしデータから作成されるグラフ構造を考慮した結果となる、とされている。このパラメータαを調整することにより、ある程度は意味ドリフトの発生を抑制することが可能である。しかしながら、あるクエリがジェネリックパターンを含むごく少数のクリック先URLのみと共起するような場合には、パラメータαを調整したとしても意味ドリフトの発生を抑制することはできない。   When such a phenomenon occurs, so-called semantic drift occurs, and the accuracy of extracting a suggestion query deteriorates. In this regard, according to Non-Patent Document 1, in the label propagation method, the instance score vector has a parameter α∈ (0, 1) indicating whether the seed label or the graph structure is important, and the parameter α is close to 0. If the parameter α is close to 1, the result is that the graph structure created from unlabeled data is taken into consideration. By adjusting this parameter α, it is possible to suppress the occurrence of semantic drift to some extent. However, when a query co-occurs with only a few click destination URLs including a generic pattern, the occurrence of semantic drift cannot be suppressed even if the parameter α is adjusted.

そこで、本発明は、インスタンススコアベクトルのパラメータαの調整によることなくジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制することによって、サジェスチョンクエリの抽出の精度を向上させる、サジェスチョンクエリ抽出装置及び方法、並びにプログラムを提供することを目的とする。   Therefore, the present invention provides a suggestion query extraction apparatus and method for improving the precision of suggestion query extraction by suppressing semantic drift caused by the presence of a generic pattern without adjusting the parameter α of the instance score vector. It aims at providing a program.

本発明では、具体的には以下のようなものを提供する。   Specifically, the present invention provides the following.

(1) クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計手段と、
前記頻度集計手段により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成手段と、
前記インスタンスパターン行列生成手段により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算手段と、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算手段により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信手段と、
を備え、
前記インスタンスパターン行列演算手段は、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算手段と、
前記正規化自己相互情報量演算手段により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除手段と、
を有するサジェスチョンクエリ抽出装置。
(1) For an input query input as a new query from a user terminal based on a click destination URL indicating a click destination of a search result for a query and a click-through log including a plurality of history information associated with the query A suggestion query extraction device that extracts suggestion queries with similar meanings,
Referring to the click-through log, for each of the queries, frequency counting means for counting the number of the click destination URLs associated with each other as a co-occurrence frequency;
Based on the co-occurrence frequencies tabulated by the frequency tabulating unit, an instance pattern matrix generating unit that generates an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern;
Based on the instance pattern matrix generated by the instance pattern matrix generation means, a normalized Laplacian matrix calculation means for calculating a normalized Laplacian matrix indicating the association between the query as the instance and the co-occurrence query as a kernel;
A query when the input query is used as a seed according to a label propagation method using the normalized Laplacian matrix computed by the normalized Laplacian matrix computing unit as a kernel in response to receiving the input query from the user terminal A related query extraction unit that calculates a similarity score between meanings of each other and extracts a query having a high similarity score as a related query with priority.
Out of the related queries extracted by the related query extraction means, extracts the suggestion query for the input query according to the ranking based on the similarity score, and sends a suggestion query transmission means to the user terminal;
With
The instance pattern matrix calculation means includes:
For each element of the instance pattern matrix, normalized self-mutual information calculation means for calculating normalized self-mutual information;
Among the normalized self-mutual information amounts calculated for each element by the normalized self-mutual information amount calculation means, a threshold is set to 0, and elements having a negative normalized self-mutual information amount are fixed to a predetermined value. An edge deleting means for deleting an edge connecting an instance and a pattern in the element by replacing with a value ;
A suggestion query extraction device.

本発明のこのような構成によれば、正規化ラプラシアン行列は、検索クリックスルーログに基づくインスタンスパターン行列を用いて作成される。このインスタンスパターン行列の各要素として、正規化自己相互情報量が採用されるため、いわゆるジェネリックパターンによる影響を抑制し、ラベル伝播手法におけるラベルの伝播の強度が適切に決定される。従って、このような正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して本来よりも類似度が高いと評価される、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を高めることが可能になる。   According to such a configuration of the present invention, the normalized Laplacian matrix is created using an instance pattern matrix based on the search click-through log. Since normalized self mutual information is adopted as each element of this instance pattern matrix, the influence of so-called generic patterns is suppressed, and the intensity of label propagation in the label propagation technique is appropriately determined. Therefore, by applying a label propagation method that uses such a normalized Laplacian matrix as a kernel, queries that are inherently low in similarity in meaning are evaluated as having higher similarity than in the original through a generic pattern. The occurrence frequency of the phenomenon can be suppressed. As a result, semantic drift is suppressed, and the accuracy of extracting related queries, that is, the accuracy of extracting suggestion queries can be improved.

(2) 前記クエリを複数含む言語資源DBに基づいて、尤度算出言語モデルを作成する尤度算出言語モデル作成手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記尤度算出言語モデル作成手段により作成された尤度算出言語モデルに基づいて、尤度を、クエリらしさを示す尤度スコアとして演算する尤度スコア演算手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記類似度に加えてさらに、前記尤度スコア演算手段により演算された前記尤度スコアに基づいて、リランキングするリランキング手段と、
をさらに備え、
前記サジェスチョンクエリ送信手段は、前記リランキング手段によるリランキングの結果に従って、前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する、
(1)に記載のサジェスチョンクエリ抽出装置。
(2) a likelihood calculating language model creating means for creating a likelihood calculating language model based on a language resource DB including a plurality of the queries;
Likelihood for calculating the likelihood of the related query extracted by the related query extracting means as a likelihood score indicating the likelihood of query based on the likelihood calculating language model created by the likelihood calculating language model creating means. Degree score calculation means,
Reranking means for reranking the related query extracted by the related query extracting means based on the likelihood score calculated by the likelihood score calculating means in addition to the similarity;
Further comprising
The suggestion query transmission means extracts the suggestion query according to the result of reranking by the reranking means, and transmits it to the user terminal.
The suggestion query extraction device according to (1).

本発明のこのような構成によれば、尤度スコアに基づいてリランキングされた結果が用いられて、サジェスチョンクエリが抽出されるので、サジェスチョンクエリの抽出の精度がさらに向上する。   According to such a configuration of the present invention, the result of reranking based on the likelihood score is used to extract the suggestion query, so that the accuracy of the suggestion query extraction is further improved.

なお、尤度スコアの演算に際して、言語資源DB及び尤度算出言語モデルとしては、文字や単語の分布に基づいてどのような文字或いは単語がクエリとして生成され易いかが演算可能なものであれば足り、様々なものが採用可能である。具体的には、文字ベースの言語資源DBに基づく文字Ngram言語モデル、単語ベースの言語資源DBに基づくwordNgram言語モデル等、様々なものを採用することができる。
また、尤度は、文字或いは単語の出現頻度等の確率分布を用いて表現することができるが、運用上は浮動小数点演算におけるアンダーフローを防ぐ観点から、自然対数尤度が好適に採用される。
In calculating the likelihood score, the language resource DB and the likelihood calculating language model need only be able to calculate what character or word is likely to be generated as a query based on the distribution of characters and words. Various things can be adopted. Specifically, various types such as a character Ngram language model based on a character-based language resource DB and a word Ngram language model based on a word-based language resource DB can be adopted.
The likelihood can be expressed using a probability distribution such as the appearance frequency of characters or words. However, from the viewpoint of preventing underflow in floating-point arithmetic, natural log likelihood is preferably employed for operation. .

さらに、本発明では、(1)に係る装置に対応する方法及びプログラムを提供する。これにより、(1)と同様の効果が期待できる。   Furthermore, the present invention provides a method and a program corresponding to the apparatus according to (1). Thereby, the same effect as (1) can be expected.

本発明によれば、ジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制することによって、サジェスチョンクエリの抽出の精度を向上させることができる。   According to the present invention, it is possible to improve the accuracy of extracting a suggestion query by suppressing a semantic drift caused by the presence of a generic pattern.

本発明に係るサジェスチョンクエリ抽出装置を含む情報処理システムの一実施の形態の機能的構成を示す機能ブロック図である。It is a functional block diagram which shows the functional structure of one Embodiment of the information processing system containing the suggestion query extraction apparatus which concerns on this invention. 図1のサジェスチョンクエリ抽出装置の関連クエリ抽出部に採用されているラベル伝播手法を説明する図である。It is a figure explaining the label propagation method employ | adopted as the related query extraction part of the suggestion query extraction apparatus of FIG. 正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を説明する図である。It is a figure explaining the label propagation method which uses a normalized Laplacian matrix as a kernel. 図1のサジェスチョンクエリ抽出装置のうち、正規化ラプラシアン行列をカーネルとして生成するための準備部の機能的構成の詳細を示す機能ブロック図である。FIG. 2 is a functional block diagram showing details of a functional configuration of a preparation unit for generating a normalized Laplacian matrix as a kernel in the suggestion query extraction device of FIG. 1. 図1のサジェスチョンクエリ抽出装置が実行するサジェスチョンクエリ抽出処理を例示するすフローチャートである。It is a flowchart which illustrates the suggestion query extraction process which the suggestion query extraction apparatus of FIG. 1 performs. 図5のサジェスチョンクエリ抽出処理のうち正規化ラプラシアン行列作成処理を例示するすフローチャートである。6 is a flowchart illustrating a normalized Laplacian matrix creation process in the suggestion query extraction process of FIG. 5.

以下、本発明の実施形態について説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。   Hereinafter, embodiments of the present invention will be described. This is merely an example, and the technical scope of the present invention is not limited to this.

本実施形態は、コンピュータ及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備える、ハードウェア及び該ハードウェアを制御するソフトウェアによって構成される。   This embodiment is applied to a computer and its peripheral devices. Each unit in the present embodiment is configured by hardware and software that controls the hardware provided in the computer and its peripheral devices.

上記ハードウェアには、制御部としてのCPU(Central Processing Unit)の他、記憶部、通信装置、表示装置及び入力装置が含まれる。記憶部としては、例えば、メモリ(RAM:Random Access Memory、ROM:Read Only Memory等)、ハードディスクドライブ(HDD:Hard Disk Drive)及び光ディスク(CD:Compact Disk、DVD:Digital Versatile Disk等)ドライブが挙げられる。通信装置としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示装置としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。   The hardware includes a storage unit, a communication device, a display device, and an input device in addition to a CPU (Central Processing Unit) as a control unit. Examples of the storage unit include a memory (RAM: Random Access Memory, ROM: Read Only Memory, etc.), a hard disk drive (HDD: Hard Disk Drive), and an optical disk (CD: Compact Disc, DVD: Digital Versatile Drive, etc.). It is done. Examples of the communication device include various wired and wireless interface devices. Examples of the display device include various displays such as a liquid crystal display and a plasma display. Examples of the input device include a keyboard and a pointing device (mouse, tracking ball, etc.).

上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布されることも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布されることも可能である。   The software includes a computer program and data for controlling the hardware. The computer program and data are stored in the storage unit, and are appropriately executed and referenced by the control unit. The computer program and data can be distributed via a communication line, or can be recorded on a computer-readable medium such as a CD-ROM and distributed.

図1は、本発明に係るサジェスチョンクエリ抽出装置を含む情報処理システムの一実施の形態の機能的構成を示す機能ブロック図である。   FIG. 1 is a functional block diagram showing a functional configuration of an embodiment of an information processing system including a suggestion query extraction device according to the present invention.

情報処理システムは、サジェスチョンクエリ抽出装置11と、ユーザ端末12とが相互に接続されることによって構成されている。   The information processing system is configured by connecting a suggestion query extraction device 11 and a user terminal 12 to each other.

なお、サジェスチョンクエリ抽出装置11とユーザ端末12との接続の形態は特に限定されないが、本実施形態では図示せぬインターネットを介してサジェスチョンクエリ抽出装置11とユーザ端末12とが接続されているものとする。また、ユーザ端末12は、実際には複数台存在し得るが、ここでは説明の便宜上1台であるものとする。   In addition, although the connection form of the suggestion query extraction device 11 and the user terminal 12 is not particularly limited, in the present embodiment, the suggestion query extraction device 11 and the user terminal 12 are connected via the Internet (not shown). To do. Further, although there may actually be a plurality of user terminals 12, here, it is assumed that there is one user terminal 12 for convenience of explanation.

サジェスチョンクエリ抽出装置11は、主処理部21と、準備部22,23とを備えている。   The suggestion query extraction device 11 includes a main processing unit 21 and preparation units 22 and 23.

主処理部21は、ユーザ端末12から入力されるクエリ(以下、「入力クエリ」と呼ぶ)に基づいて、サジェスチョンクエリを抽出して、ユーザ端末12に送信する。このため、主処理部21は、関連クエリ抽出部31と、尤度スコア演算部32と、クエリリストリランキング部33と、サジェスチョンクエリ送信部34とを備えている。   The main processing unit 21 extracts a suggestion query based on a query input from the user terminal 12 (hereinafter referred to as “input query”), and transmits it to the user terminal 12. Therefore, the main processing unit 21 includes a related query extraction unit 31, a likelihood score calculation unit 32, a query list reranking unit 33, and a suggestion query transmission unit 34.

関連クエリ抽出部31は、入力クエリと関連する1以上のクエリ(以下、「関連クエリ」と呼ぶ)を抽出してリスト化する。このような1以上の関連クエリを含むリストを、以下、「関連クエリリスト」と呼ぶ。   The related query extraction unit 31 extracts and lists one or more queries related to the input query (hereinafter referred to as “related queries”). Such a list including one or more related queries is hereinafter referred to as a “related query list”.

関連クエリ抽出部31による関連クエリの抽出手法として、本実施形態では、正規化ラプラシンアン行列をカーネルとして用いるラベル伝播手法に従って、入力クエリをシードとした場合におけるクエリ同士の意味の類似度を演算し、当該類似度に基づいて関連クエリを抽出する、といった手法が採用されている。なお、正規化ラプラシア行列やラベル伝播手法の詳細については後述する。   As a related query extraction method by the related query extraction unit 31, in this embodiment, according to a label propagation method using a normalized Laplacian matrix as a kernel, the similarity between the queries when the input query is used as a seed is calculated, A technique of extracting a related query based on the similarity is employed. Details of the normalized Laplacian matrix and the label propagation method will be described later.

この場合、関連クエリ抽出部31は、意味の類似度に基づいて、1以上の関連クエリの各々に対する順位付け(ランキング)を行うこともできる。ここで、意味の類似度の高低を示す値を以下「類似度スコア」と呼ぶものとすると、1以上の関連クエリの各々は、類似度スコアが付加された上で、ランキング順にソートされてリスト化される。このようにして、類似度スコア付の関連クエリリストが生成されて、関連クエリリスト保持部35に保持される。   In this case, the related query extraction unit 31 can also rank (rank) each of one or more related queries based on the semantic similarity. Here, if a value indicating the level of similarity in meaning is hereinafter referred to as a “similarity score”, each of the one or more related queries is added with a similarity score and sorted in order of ranking. It becomes. In this way, a related query list with a similarity score is generated and held in the related query list holding unit 35.

尤度スコア演算部32は、関連クエリリストに含まれる1以上の関連クエリの各々について、文字Ngram言語モデルに基づいて、自然対数尤度を、クエリらしさを示す尤度スコアとして演算する。なお、文字Ngram言語モデル等の詳細については後述する。   The likelihood score calculation unit 32 calculates, for each of one or more related queries included in the related query list, a natural log likelihood as a likelihood score indicating the likelihood of query based on the character Ngram language model. Details of the character Ngram language model will be described later.

尤度スコア演算部32により演算された各尤度スコアは、各関連クエリと対応付けられて、関連クエリリストに付加される。即ち、尤度スコア及び類似度スコア付きの関連クエリリストが作成され、関連クエリリスト保持部35に保持される。   Each likelihood score calculated by the likelihood score calculation unit 32 is associated with each related query and added to the related query list. That is, a related query list with a likelihood score and a similarity score is created and held in the related query list holding unit 35.

クエリリストリランキング部33は、関連クエリリストに含まれる1以上の関連クエリの各々について、類似度スコアと尤度スコアの対数の和をそれぞれ演算し、各演算結果に基づいて、1以上の関連クエリのリランキング(再順位付け)を行う。そして、尤度スコア及び類似度スコア付きの関連クエリリストにおいて、1以上の関連クエリの各々が、リランキング順に再ソートされる。   The query list reranking unit 33 calculates the sum of the logarithm of the similarity score and the likelihood score for each of one or more related queries included in the related query list, and based on each calculation result, the one or more related queries Perform query re-ranking (re-ranking). Then, in the related query list with the likelihood score and the similarity score, each of the one or more related queries is re-sorted in the reranking order.

サジェスチョンクエリ送信部34は、リランキング後の再ソートされた関連クエリリストから、高順位の関連クエリを優先的にサジェスチョンクエリとして抽出して、ユーザ端末12に送信する。   The suggestion query transmission unit 34 preferentially extracts a high-order related query as a suggestion query from the re-sorted related query list after the reranking, and transmits it to the user terminal 12.

関連クエリリスト保持部35は、上述の如く、類似度スコア付きの関連クエリリストや、尤度スコア及び類似度スコア付きの関連クエリリストを保持する。なお、類似度スコア付きの関連クエリリストと、尤度スコア及び類似度スコア付きの関連クエリリストとは、別々のリストとして保持してもよいが、1つのリストとして保持してもよい。ここで、1つのリストとして保持するとは、類似度スコア付きの関連クエリリストに対して、尤度スコアを格納する項目を関連クエリ毎に追加することによって、尤度スコア及び類似度スコア付きの関連クエリリストとして保持することを意味する。   As described above, the related query list holding unit 35 holds a related query list with a similarity score and a related query list with a likelihood score and a similarity score. The related query list with similarity score and the related query list with likelihood score and similarity score may be held as separate lists, but may be held as one list. Here, holding as one list means that a related item with likelihood score and similarity score is added to the related query list with similarity score by adding an item for storing the likelihood score for each related query. It means to keep as a query list.

以上、サジェスチョンクエリ抽出装置11の主処理部21の機能的構成の概略について説明した。さらに以下、図2及び図3を参照して、主処理部21のうち、特に関連クエリ抽出部31の詳細について説明する。   The outline of the functional configuration of the main processing unit 21 of the suggestion query extraction device 11 has been described above. Furthermore, with reference to FIG.2 and FIG.3, the detail of the related query extraction part 31 especially among the main process parts 21 is demonstrated below.

図2は、関連クエリ抽出部31に採用されているラベル伝播手法を説明する図であって、シードクエリが旅行に関するものである場合におけるラベルの伝播の様子を示す図である。   FIG. 2 is a diagram for explaining a label propagation method employed in the related query extraction unit 31, and is a diagram illustrating a state of label propagation when the seed query relates to travel.

図2において、左側の丸印によって示されるノードは、クエリ(図2の例では単語のみ)を示している。右側の丸印によって示されるノードは、左側のクエリと共起するパターンを示している。このように、図2に示すグラフは、左側のノードがクエリとなっており、右側のノードがそのクエリと共起するパターンとなっている2部グラフである。当該グラフにおいて、左右のノードを結ぶ線の強さ(図中、太い直線が最も強く、以下、線が細くなるほど、さらに、点線の線部の長さが短くなる程弱くなっていく)が、当該左右のノード間の共起の度合を示している。なお、左右のノードを結ぶ線は、「エッジ」とも呼ばれている。また、各ノードの濃さ(図中丸印内の色の濃さ)が、シードクエリとの関連の強さを表わしている。   In FIG. 2, a node indicated by a circle on the left side indicates a query (only a word in the example of FIG. 2). A node indicated by a circle on the right side indicates a pattern that co-occurs with the query on the left side. As described above, the graph shown in FIG. 2 is a bipartite graph in which the left node is a query and the right node is a pattern that co-occurs with the query. In the graph, the strength of the line connecting the left and right nodes (the thick straight line is the strongest in the figure, and the smaller the line, the weaker the shorter the length of the dotted line portion), It shows the degree of co-occurrence between the left and right nodes. The line connecting the left and right nodes is also called “edge”. Further, the darkness of each node (the darkness of the color in the circle in the figure) represents the strength of the relationship with the seed query.

ここで、パターンとして示されるURL(実際には、「http://・・・」といったURL)は、クリック先URLを意味している。即ち、本実施形態では、シードクエリとの関連の強さの演算に関する学習を高精度に行うべく、パターンとして、従来用いられていたクエリログのみならず、検索クリックスルーログも採用されている。   Here, a URL shown as a pattern (actually, a URL such as “http: // ...”) means a click destination URL. That is, in the present embodiment, not only a query log conventionally used but also a search click-through log is employed as a pattern in order to perform highly accurate learning regarding the calculation of the strength related to the seed query.

図2において、左上のノードが、シードクエリとしての単語(以下、「シード単語」と呼ぶ)「航空会社A」であり、所定のラベルが付されているものとする。この場合、シード単語「航空会社A」に付されたラベルが、当該シード単語「航空会社A」と共起の度合いが強いパターン「URL:中部発」に伝搬する。ここで、パターン「URL:中部発」とは、飛行機の発着場所が日本国の中部空港であるという内容を含むWebページがクリック先URLであることを示すものとする。このようなパターン「URL:中部発」は、シードクエリとの関連が強いとして、シード単語「航空会社A」に付されていたラベルが伝播される。   In FIG. 2, it is assumed that the upper left node is a word as a seed query (hereinafter referred to as “seed word”) “airline company A” and is given a predetermined label. In this case, the label attached to the seed word “airline A” is propagated to the pattern “URL: Chubu” which has a high degree of co-occurrence with the seed word “airline A”. Here, the pattern “URL: Chubu departure” indicates that a Web page including the content that the plane departure / arrival place is the Chubu airport in Japan is the click destination URL. Such a pattern “URL: Chubu” has a strong relationship with the seed query, and the label attached to the seed word “airline A” is propagated.

一方、パターン「URL:ツアー」は、歌手Bがコマーシャルの出演者として起用された所定のツアーを紹介するWebページがクリック先URLであることを示すものとする。この場合、パターン「URL:ツアー」は、単語「歌手B」というシードクエリとは異なるクエリとも共起するため、比較的中立なパターンである。   On the other hand, the pattern “URL: tour” indicates that a Web page introducing a predetermined tour in which singer B is appointed as a commercial performer is a click-to URL. In this case, the pattern “URL: tour” is a relatively neutral pattern because it co-occurs with a query different from the seed query of the word “singer B”.

単語「旅行会社C」は、パターン「URL:中部発」及びパターン「URL:ツアー」をシード単語「航空会社A」と共有しているため、当該シード単語「航空会社A」に付されていたラベルが伝播される。このようにしてラベルが伝播された単語「旅行会社C」は、シードクエリとの関連が強い単語として分類されることになる。   Since the word “travel company C” shares the pattern “URL: Chubu departure” and the pattern “URL: tour” with the seed word “airline A”, it was attached to the seed word “airline A”. The label is propagated. The word “travel agency C” to which the label has been propagated in this way is classified as a word that is strongly related to the seed query.

このように、ラベル伝播手法とは、シードとして与えるノードに付されたラベルを、隣接ノードに順次伝播していく手法をいう。ラベル伝播手法では、最適なラベルは、ラベル伝播のプロセスが収束した状態におけるラベルとして与えられる。   As described above, the label propagation method refers to a method of sequentially propagating labels attached to nodes given as seeds to adjacent nodes. In the label propagation method, the optimum label is given as a label in a state where the label propagation process has converged.

本実施形態では、このようなラベル伝播手法として、正規化ラプラシアン行列をカーネルとして用いる手法が採用されている。そこで、以下、図3を参照して、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法について説明する。   In this embodiment, as such a label propagation method, a method using a normalized Laplacian matrix as a kernel is employed. Therefore, a label propagation method using a normalized Laplacian matrix as a kernel will be described below with reference to FIG.

図3は、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を説明する図である。   FIG. 3 is a diagram for explaining a label propagation method using a normalized Laplacian matrix as a kernel.

図3に示すように、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法では、入力として、シードインスタンスベクトルF(0)と、インスタンス類似度行列Aとが与えられる。また、学習におけるtステップ目(tは1以上の整数値)の出力としては、インスタンススコアベクトルF(t)が得られる。   As shown in FIG. 3, in the label propagation method using a normalized Laplacian matrix as a kernel, a seed instance vector F (0) and an instance similarity matrix A are given as inputs. Further, an instance score vector F (t) is obtained as an output at the t-th step in learning (t is an integer value of 1 or more).

ここで、あらゆるインスタンスの集合をχと表わすものとする。インスタンスとは、図2における左側のノード、即ちクエリ(単語等)を意味する。あるシードクエリとの関連の強さについて学習する場合、例えば図2の例ではシードクエリが関係する旅行との関連の強さについて学習する場合、tステップ目に出力されるインスタンススコアベクトルF(t)は、集合χの要素数|χ|を次元数とするベクトルとして表わされる。インスタンススコアベクトルF(t)のi番目(iは、1乃至|χ|の範囲内の整数値)の次元の要素値としては、集合χのインスタンスxが、どの程度シードクエリと関連があるのか(図2の例では、どの程度旅行との関連があるのか)を示すスコアが採用される。即ち、集合χのインスタンスxの当該シードクエリとの関連の度合を示すスコアが、インスタンススコアベクトルF(t)のi番目の次元の要素値になる。 Here, a set of all instances is represented as χ. An instance means a node on the left side in FIG. 2, that is, a query (word or the like). When learning about the strength of association with a certain seed query, for example, when learning about the strength of association with a trip related to a seed query in the example of FIG. 2, the instance score vector F (t ) Is represented as a vector whose number of dimensions is the number of elements | χ | As an element value of the i-th dimension (i is an integer value in a range of 1 to | χ |) of the instance score vector F (t), how much the instance x i of the set χ is related to the seed query. (In the example of FIG. 2, a score indicating how related to travel is) is adopted. That is, the score indicating the association degree between the seed query instance x i of the set χ becomes the element values of the i-th dimension instance score vector F (t).

従って、あるシードクエリとの関連の強さについて学習する場合において、入力として与えられるシードインスタンスベクトルF(0)とは、次のような要素値を有するベクトルとなる。即ち、シードインスタンスベクトルF(0)においては、シードとして与えられるインスタンス(図1の関連クエリ抽出部31にとっては入力クエリ)の集合に、インスタンスxが含まれる場合、i番目の次元の要素値が「1」となり、それ以外の次元の要素値が「0」となる。 Therefore, when learning about the strength of association with a certain seed query, the seed instance vector F (0) given as an input is a vector having the following element values. That is, in the seed instance vector F (0), when the instance x i is included in the set of instances given as seeds (input query for the related query extraction unit 31 in FIG. 1), the element value of the i-th dimension Becomes “1”, and element values of other dimensions become “0”.

また、入力として与えられるインスタンス類似度行列Aは、インスタンスパターン行列Wを用いて、次の式(1)により演算される。

Figure 0005250009
・・・(1)
インスタンスパターン行列Wとは、例えば、インスタンスxとパターンpの関連性を示す値(従来は単純な共起回数であり、本実施形態では後述する正規化自己相互情報量)をi行j列の要素値として有する行列をいう。ここで、従来においては、インスタンスパターン行列Wは、次の式(2)によって正規化された上で、式(1)に代入されていた。
Figure 0005250009
・・・(2)
ここで、行列D(N)は、次の式(3)によって定まる行列Nの次数対角行列をいう。
Figure 0005250009
・・・(3) An instance similarity matrix A given as an input is calculated by the following equation (1) using the instance pattern matrix W.
Figure 0005250009
... (1)
The instance pattern matrix W is, for example, a value indicating the relationship between the instance x i and the pattern p j (previously a simple number of co-occurrence, normalized self-mutual information amount described later in the present embodiment) i row j A matrix having column element values. Here, conventionally, the instance pattern matrix W is normalized by the following equation (2) and then substituted into the equation (1).
Figure 0005250009
... (2)
Here, the matrix D (N) is an order diagonal matrix of the matrix N determined by the following equation (3).
Figure 0005250009
... (3)

あるシードクエリとの関連の強さについて学習をする場合、シードインスタンスベクトルF(0)及びインスタンス類似度行列Aが入力として与えられて、図3の手順に従った処理が実行されることで、インスタンスベクトルF(t)が出力される。   When learning about the strength of association with a certain seed query, a seed instance vector F (0) and an instance similarity matrix A are given as inputs, and processing according to the procedure of FIG. An instance vector F (t) is output.

即ち、図3の手順のステップS1に示すように、次の式(4)に示す正規化ラプラシアン行列Lが作成される。

Figure 0005250009
・・・(4)
なお、本実施形態では、後述するように、正規化ラプラシアン行列Lは、図1の正規化ラプラシアン行列作成部42によって作成されて、正規化ラプラシアン行列保持部43に保持される。 That is, as shown in step S1 of the procedure in FIG. 3, a normalized Laplacian matrix L shown in the following equation (4) is created.
Figure 0005250009
... (4)
In the present embodiment, as will be described later, the normalized Laplacian matrix L is created by the normalized Laplacian matrix creation unit 42 in FIG. 1 and held in the normalized Laplacian matrix holding unit 43.

次に、図3の手順のステップS2に示すように、tステップの演算結果を用いるt+1ステップのインスタンスベクトルF(t+1)を式(5)の演算により求めるといった処理が、tが1ずつインクリメントされる毎に繰り返し実行される。そして、収束された段階における式(5)の演算結果が、t=t+1としてインクリメントされた後、インスタンスベクトルF(t)として出力される。

Figure 0005250009
・・・(5) Next, as shown in step S2 of the procedure of FIG. 3, the process of obtaining the instance vector F (t + 1) of the t + 1 step using the calculation result of the t step by the calculation of the equation (5) is incremented by one. It is executed repeatedly every time. Then, the calculation result of Expression (5) at the converged stage is incremented as t = t + 1, and then output as an instance vector F (t).
Figure 0005250009
... (5)

このようにして出力されたインスタンスベクトルF(t)は、シードとして与えられたインスタンスに対して、意味の類似度順にインスタンス(クエリ)が整列したベクトルになっている。   The instance vector F (t) output in this way is a vector in which instances (queries) are arranged in order of similarity of meaning with respect to the instance given as a seed.

従って、関連クエリ抽出部31(図1)は、ユーザ端末12から供給された入力クエリをシードとして、上述のステップS1及びS2の処理を実行してインスタンスベクトルF(t)を演算することで、関連クエリを抽出することができる。即ち、関連クエリ抽出部31は、当該インスタンスベクトルF(t)に基づいて、入力クエリに対する意味の類似度が上位1乃至K番目(Kは1以上の整数値)のインスタンス、即ち、1乃至K次元の各要素に対応するインスタンスを、K個の関連クエリとしてそれぞれ抽出することができる。   Therefore, the related query extraction unit 31 (FIG. 1) uses the input query supplied from the user terminal 12 as a seed, executes the above-described steps S1 and S2, and calculates the instance vector F (t). Related queries can be extracted. That is, the related query extraction unit 31 is based on the instance vector F (t), and has the highest first to Kth (S is an integer value of 1 or more) meaning similarity to the input query, that is, 1 to K. Instances corresponding to each element of the dimension can be extracted as K related queries.

この場合、インスタンスベクトルF(t)の1乃至K次元の各要素値が、K個の関連クエリの各々に対して付加される類似度スコアとして採用される。即ち、上述のステップS2における式(5)の繰り返し演算とは、各インスタンス(各クエリ)について、類似度スコアに基づくランキング(順位付け)を行い、ランキングの結果順にソートすることと等価である。従って、関連クエリ抽出部31は、インスタンスベクトルF(t)の1乃至K次元の各要素を抽出することによって、類似度スコア付きの関連クエリリストを作成することができる。   In this case, the 1 to K-dimensional element values of the instance vector F (t) are employed as similarity scores added to each of the K related queries. That is, the repetitive calculation of Expression (5) in step S2 described above is equivalent to performing ranking (ranking) based on the similarity score for each instance (each query) and sorting in order of the ranking results. Therefore, the related query extraction unit 31 can create a related query list with a similarity score by extracting each element of 1 to K dimensions of the instance vector F (t).

なお、式(5)において、パラメータαは、シードのラベルとグラフ構造とのうち何れを重視するラベル伝播手法であるのかを示すパラメータであって、0乃至1の範囲内で可変する。即ち、パラメータαが0に近付くほど、シードのラベルに偏った結果となり、αが1に近付くほど、ラベルなしデータ(インスタンス)から作成されるグラフ構造を考慮した結果となる。   In the equation (5), the parameter α is a parameter indicating which one of the label labeling method and the label propagation method attaches importance to the graph structure, and is variable within a range of 0 to 1. That is, the closer the parameter α is to 0, the more biased the seed label is, and the closer α is to 1, the result is a result of considering a graph structure created from unlabeled data (instances).

また、2つのシードクエリとの関連の強さについて学習する場合には、シードとして与えられるインスタンスの各々に対して「1」または「−1」の値が与えられることによって、シードインスタンスベクトルF(0)が作成される。そして、最終的なスコアyの符号の正負によって、インスタンスxのラベルが決定される。さらに、3以上のn個のシードクエリとの関連の強さについて学習する場合には、シードとしてはベクトルではなくn次元の行列が作成されて、ラベル付けが行われる。 Further, when learning about the strength of association with two seed queries, a value of “1” or “−1” is given to each instance given as a seed, so that a seed instance vector F ( 0) is created. Then, the label of the instance x i is determined by the sign of the final score y i . Furthermore, when learning about the strength of association with three or more n seed queries, an n-dimensional matrix is created as a seed, not a vector, and labeling is performed.

次に、図4を参照して、このようなラベル伝播手法においてカーネルとして用いられる正規化ラプラシアン行列の作成手法について説明する。   Next, a method for creating a normalized Laplacian matrix used as a kernel in such a label propagation method will be described with reference to FIG.

図4は、図1のサジェスチョンクエリ抽出装置11のうち、正規化ラプラシアン行列をカーネルとして生成するための準備部22の機能的構成の詳細を示す機能ブロック図である。   FIG. 4 is a functional block diagram showing details of the functional configuration of the preparation unit 22 for generating a normalized Laplacian matrix as a kernel in the suggestion query extraction device 11 of FIG.

準備部22は、クリックスルーログDB41と、正規化ラプラシアン行列作成部42と、正規化ラプラシアン行列保持部43とを備えている。   The preparation unit 22 includes a click-through log DB 41, a normalized Laplacian matrix creation unit 42, and a normalized Laplacian matrix storage unit 43.

クリックスルーログDB41は、検索クリックスルーログを記憶している。即ち、クリックスルーログDB41は、クエリに対する検索結果のクリック先示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数記憶している。   The click-through log DB 41 stores a search click-through log. That is, the click-through log DB 41 stores a plurality of click destination URLs indicating click destinations of search results for the query and history information associated with the query.

正規化ラプラシアン行列作成部42は、共起頻度集計部61と、インスタンスパターン行列生成部62と、正規化ラプラシアン行列演算部63とを備えている。   The normalized Laplacian matrix creation unit 42 includes a co-occurrence frequency counting unit 61, an instance pattern matrix generation unit 62, and a normalized Laplacian matrix calculation unit 63.

共起頻度集計部61は、検索クリックスルーログをクリックスルーログDB41から参照して、各々のクエリについて、関連付けられたクリック先URLの数を集計する。ここで、共起頻度集計部61により集計されたクリック先URLの数は、上述の集合χにおけるインスタンスxとしてのクエリと、パターンpとしてのクリック先URLの共起回数wijに相当する。そこで、共起頻度集計部61により集計されたクリック先URLの数を、以下、「共起頻度」と呼ぶ。 The co-occurrence frequency totaling unit 61 refers to the search click-through log from the click-through log DB 41 and totals the number of click destination URLs associated with each query. Here, the number of clicks destination URL that has been aggregated by the co-occurrence frequency totaling unit 61 and queries the instance x i in χ set above, corresponds to the co-occurrence number w ij of clicks destination URL as a pattern p j . Therefore, the number of click destination URLs counted by the co-occurrence frequency counting unit 61 is hereinafter referred to as “co-occurrence frequency”.

インスタンスパターン行列生成部62は、共起頻度集計部61により集計された共起頻度に基づいて、インスタンス(クエリ)とパターン(クリック先URL)の関連を示すインスタンスパターン行列を演算する。   The instance pattern matrix generation unit 62 calculates an instance pattern matrix indicating the association between the instance (query) and the pattern (click destination URL) based on the co-occurrence frequencies counted by the co-occurrence frequency counting unit 61.

正規化ラプラシアン行列演算部63は、当該インスタンスパターン行列を用いて、上述した式(4)を演算することで、正規化ラプラシアン行列を演算する。   The normalized Laplacian matrix computing unit 63 computes the normalized Laplacian matrix by computing the above-described equation (4) using the instance pattern matrix.

正規化ラプラシアン行列保持部43は、正規化ラプラシアン行列作成部42により作成された正規化ラプラシアン行列を、カーネルとして保持する。   The normalized Laplacian matrix holding unit 43 holds the normalized Laplacian matrix created by the normalized Laplacian matrix creating unit 42 as a kernel.

なお、正規化ラプラシアン行列に必要なインスタンス類似度行列Aは、上述の如く式(1)に従って演算されるが、非常に大規模な行列であるため、記憶容量が非常に大きくなる場合がある。このような場合には、正規化ラプラシアン行列保持部43が、インスタンスパターン行列W及びその転置行列Wのみを保持し、正規化ラプラシアン行列演算部63が、式(1)を毎回演算することによって、記憶容量を削減することができる。インスタンス類似度行列Aが密行列であるのに対して、インスタンスパターン行列Wは疎行列であるからである。 Note that the instance similarity matrix A necessary for the normalized Laplacian matrix is calculated according to the equation (1) as described above. However, since it is a very large matrix, the storage capacity may be very large. In such a case, the normalized Laplacian matrix holding unit 43 holds only instances pattern matrix W and its transposed matrix W T, normalized Laplacian matrix calculator 63, by calculating the equation (1) each time , Storage capacity can be reduced. This is because the instance similarity matrix A is a dense matrix, whereas the instance pattern matrix W is a sparse matrix.

さらに、以下、正規化ラプラシアン行列をカーネルとして作成するために必要なインスタンスパターン行列について説明する。   Further, an instance pattern matrix necessary for creating a normalized Laplacian matrix as a kernel will be described below.

[背景技術]の欄でも上述したように、クリック先URLの中には、非常に多くのクエリと共起してしまうジェネリックパターンが存在する。このため、意味の類似度が低いクエリ同士がジェネリックパターンを介して本来よりも類似度が高いと評価されてしまう、といった現象が従来生じていた。   As described above in the [Background Art] field, there is a generic pattern that co-occurs with a large number of queries in the click destination URL. For this reason, there has conventionally been a phenomenon in which queries having low semantic similarity are evaluated as having higher similarity than the original via a generic pattern.

換言すると、ラベル伝播手法においては、伝播元のインスタンス(クエリ)から、それと共通するパターン(クリック先URL)を持つ伝播先のインスタンスに対してラベルが伝搬される。この場合、伝播の強さは、伝播先のインスタンスからの伝播の広がりが考慮される。このため、従来のラベル伝播手法には、次のような第1の特徴及び第2の特徴が存在した。即ち、第1の特徴とは、伝播先のインスタンスが大量のパターンを持っているような場合には伝播が弱くなる、といった特徴である。また、第2の特徴とは、伝播先のインスタンスが少量のパターンしか持たない場合には強く伝搬する、といった特徴である。第2の特徴が顕著に表れた例としては、伝播先のインスタンスが、1つのパターンしか持たず、伝播元のインスタンスとそのパターンのみで繋がっている場合である。このような場合には、伝播先のインスタンスが、1つのジェネリックパターンのみを持つような場合であっても、強く伝搬されてしまうことになる。強く伝搬されるということは、たとえジェネリックパターン1つのみで繋がる伝播元と伝播先のインスタンス同士であっても、即ち意味の類似度が本来低いインスタンス同士であっても、意味の類似度が本来より高いと評価されてしまうことを意味する。   In other words, in the label propagation method, a label is propagated from a propagation source instance (query) to a propagation destination instance having a common pattern (click destination URL). In this case, the spread of propagation from the propagation destination instance is considered as the propagation strength. For this reason, the conventional label propagation method has the following first and second features. That is, the first feature is a feature that propagation becomes weak when a propagation destination instance has a large number of patterns. Further, the second feature is a feature that the propagation is strong when the propagation destination instance has only a small amount of pattern. An example in which the second feature appears prominently is a case where the propagation destination instance has only one pattern and is connected to the propagation source instance only by the pattern. In such a case, even if the propagation destination instance has only one generic pattern, it is strongly propagated. Strongly propagated means that even if the propagation source and destination instances are connected by only one generic pattern, that is, the semantic similarity is inherent even if the semantic similarity is low. It means that it will be evaluated as higher.

ここで、従来のラベル伝播手法の第2の特徴、即ち、伝播先のインスタンスが少量のパターンしか持たない場合には強く伝搬するという特徴は、インスタンスパターン行列Wの正規化処理に起因して生ずる。   Here, the second feature of the conventional label propagation method, that is, the feature of strong propagation when the propagation destination instance has only a small amount of patterns, is caused by the normalization processing of the instance pattern matrix W. .

即ち、従来においては、上述した式(2)に示すように、次数対角行列の逆行列D−1(W)が、インスタンスパターン行列Wの左側に掛けられることで、当該インスタンスパターン行列Wが正規化されていた。具体的には、インスタンスパターン行列Wの各行は、各インスタンス(各クエリ)に対応しており、所定行の各要素値は、対応するインスタンスと各パターン(クリック先URL)との共起回数(クリックされた回数)に基づく値である。このような各インスタンスに対応する各行において、各要素値の総和がそれぞれ「1」になるように正規化されていた。 That is, in the related art, as shown in the above equation (2), the inverse matrix D −1 (W) of the order diagonal matrix is multiplied by the left side of the instance pattern matrix W, so that the instance pattern matrix W becomes It was normalized. Specifically, each row of the instance pattern matrix W corresponds to each instance (each query), and each element value of a predetermined row indicates the number of times of co-occurrence between the corresponding instance and each pattern (click destination URL) ( The number of clicks). In each row corresponding to each instance, the sum of the element values is normalized so as to be “1”.

このため、従来においては、多くのパターンと共起するインスタンスに対応する行については、各要素値は小さくなっていた。また、共起するパターンの分布に偏りがあるインスタンスに対応する行については、偏って共起するパターンに対応する要素値が大きくなっていた。   For this reason, conventionally, each element value is small for a row corresponding to an instance co-occurring with many patterns. In addition, for a row corresponding to an instance in which the distribution of co-occurring patterns is biased, the element value corresponding to the pattern that co-occurs is large.

一方で、従来においては、共起するパターンが少数のインスタンスに対応する行については、各要素値は大きくなっていた。極端な例を挙げると、共起するパターンが1つしか存在しない場合には、当該パターンに対応する要素値は必ず「1」になっていた。このように要素値が必ず「1」になることは、当該パターンがジェネリックパターンであったとしても何ら変わらない。   On the other hand, conventionally, each element value is large for a row in which co-occurring patterns correspond to a small number of instances. As an extreme example, when there is only one co-occurring pattern, the element value corresponding to the pattern is always “1”. The fact that the element value is always “1” does not change even if the pattern is a generic pattern.

このように、式(2)によって正規化された従来のインスタンスパターン行列Wは、ジェネリックパターン以外に共起するパターンをほとんど持たないインスタンスに対応する行であって、当該ジェネリックパターンに対応する要素値が「1」に近くなっている行を有している。従来、このような式(2)によって正規化されたインスタンスパターン行列Wからラプラシアン行列Lが作成され、当該ラプラシアン行列Lを用いるラベル伝播手法に従って学習が行われていた。その結果、ジェネリックパターン以外に共起するパターン(クリック先URL)をほとんど持たないインスタンス(クエリ)が、シードとして与えられたインスタンス(シードのクエリ)との意味の類似度が高くなってしまう傾向にあった。即ち、ジェネリックパターン以外に共起するパターンをほとんど持たないインスタンスと、シードとして与えられたインスタンスとは、意味の類似度が本来低いクエリ同士に該当する。このような意味の類似度が本来低いクエリ同士が、ジェネリックパターンを介して、意味の類似度が本来よりも高いと評価されてしまう、といった現象が生じてしまう傾向にあった。   As described above, the conventional instance pattern matrix W normalized by the expression (2) is a row corresponding to an instance having almost no co-occurring pattern other than the generic pattern, and an element value corresponding to the generic pattern. Has rows that are close to "1". Conventionally, a Laplacian matrix L is created from the instance pattern matrix W normalized by the equation (2), and learning is performed according to a label propagation method using the Laplacian matrix L. As a result, an instance (query) that has almost no co-occurring pattern (click-to URL) other than the generic pattern tends to have a high degree of semantic similarity with the instance (seed query) given as a seed. there were. That is, an instance that has almost no co-occurrence pattern other than the generic pattern and an instance given as a seed correspond to queries that originally have low similarity in meaning. There is a tendency that such queries that are originally low in similarity in meaning are evaluated as having higher similarity in meaning through the generic pattern.

そこで、このような現象が生ずることを抑制すべく、図4に示すように、本実施形態のインスタンスパターン行列生成部62は、正規化自己相互情報量演算部71と、エッジカット部72とを備えている。   Therefore, in order to suppress the occurrence of such a phenomenon, as shown in FIG. 4, the instance pattern matrix generation unit 62 of the present embodiment includes a normalized self-mutual information calculation unit 71 and an edge cut unit 72. I have.

正規化自己相互情報量演算部71は、インスタンスパターン行列Wの各要素値として、正規化自己相互情報量(NPMI:Normalized Pointwise Mutual Information)を演算する。以下、この正規化自己相互情報量について説明する。   The normalized self-mutual information amount calculation unit 71 calculates a normalized self-mutual information amount (NPMI: Normalized Pointe Mutual Information) as each element value of the instance pattern matrix W. Hereinafter, this normalized self-mutual information amount will be described.

正規化される前の自己相互情報量(PMI:Pointwise Mutual Information)は、次の式(6)により示される。

Figure 0005250009
・・・(6)
式(6)において、i(x,p)が、インスタンスxとパターンpとの自己相互情報量を示している。即ち、式(6)の右辺において、インスタンスxとパターンpとが互いに独立であると仮定して求めた確率分布がp(x)p(p)であり、実際に観測された確率分布がp(x,p)である。式(6)の右辺に示すように、これらの2つの確率分布の情報量の差が自己相互情報量i(x,p)として求められる。 The self mutual information (PMI: Pointwise Mutual Information) before normalization is expressed by the following equation (6).
Figure 0005250009
... (6)
In Expression (6), i (x, p) represents the self-mutual information amount between the instance x and the pattern p. That is, on the right side of equation (6), the probability distribution obtained on the assumption that the instance x and the pattern p are independent from each other is p (x) p (p), and the actually observed probability distribution is p (X, p). As shown on the right side of Equation (6), the difference between the information amounts of these two probability distributions is obtained as the self-mutual information amount i (x, p).

ここで、自己相互情報量i(x,p)の値として取り得る範囲は[−∞乃至+∞]であり、2つの確率分布が一致する際には自己相互情報量i(x,p)は0になる。従って、自己相互情報量i(x,p)をそのままインスタンスパターン行列Wの各要素値として採用すると、従来の共起回数を要素値としていた場合に「0」となっていた要素値が、全て「−∞」となってしまい、演算が不可能になってしまう。そこで、本実施形態では、次の式(7)に示すように、自己相互情報量i(x,p)が正規化され、その結果得られる正規化自己相互情報量in(x,p)が、原則、インスタンスパターン行列Wの各要素値として採用される。

Figure 0005250009
・・・(7) Here, the range that can be taken as the value of the self-mutual information amount i (x, p) is [−∞ to + ∞], and when the two probability distributions match, the self-mutual information amount i (x, p). Becomes 0. Accordingly, when the self mutual information i (x, p) is directly adopted as each element value of the instance pattern matrix W, all the element values that are “0” when the conventional co-occurrence number is used as the element value are all It becomes “−∞”, and the calculation becomes impossible. Therefore, in the present embodiment, as shown in the following equation (7), the self-mutual information amount i (x, p) is normalized, and the resulting normalized self-mutual information amount in (x, p) is obtained. In principle, it is adopted as each element value of the instance pattern matrix W.
Figure 0005250009
... (7)

式(7)に示すように、正規化自己相互情報量in(x,p)は、自己相互情報量i(x,p)が(−lnp(x,p))で除算されることによって正規化されたものであり、その値が取り得る範囲は[−1乃至+1]となる。確率分布p(x,p)が0のとき、正規化自己相互情報量in(x,p)は−1になる。また、確率分布p(x),p(p)が相互に独立の場合には、正規化自己相互情報量in(x,p)は0になる。そして、インスタンスxとパターンpとが互いに共起する場合には、正規化自己相互情報量in(x,p)は1になる。   As shown in the equation (7), the normalized self-mutual information in (x, p) is normalized by dividing the self-mutual information i (x, p) by (−lnp (x, p)). The range that the value can take is [−1 to +1]. When the probability distribution p (x, p) is 0, the normalized self-mutual information amount in (x, p) is -1. Further, when the probability distributions p (x) and p (p) are independent from each other, the normalized self-mutual information amount in (x, p) is zero. When the instance x and the pattern p co-occur with each other, the normalized self mutual information amount in (x, p) is 1.

本実施形態では、図4のインスタンスパターン行列生成部62の正規化自己相互情報量演算部71が、式(7)に従って、インスタンスパターン行列Wの各要素毎に、正規化自己相互情報量in(x,p)を演算する。   In the present embodiment, the normalized self-mutual information amount calculating unit 71 of the instance pattern matrix generating unit 62 in FIG. 4 performs the normalized self-mutual information amount in () for each element of the instance pattern matrix W according to Expression (7). x, p) is calculated.

しかしながら、インスタンスパターン行列Wの各要素値として何れも、式(7)の正規化自己相互情報量in(x,p)を採用すると、半正定値性が崩れるために、正規化ラプラシアン行列を用いたラベル伝播手法の適用が不可能になる。そこで、本実施形態では、次の式(8)に従って、インスタンスパターン行列Wの各要素値w(x,p)が演算される。

Figure 0005250009
・・・(8)
式(8)において、右辺の[α]thは、閾値th以下の場合、入力値αを削除し(入力値αを入力としてはみずに、出力せず)、閾値thを超えている場合、入力値αをそのまま出力する関数を意味している。ここで、閾値thは、半正定値性を満足させるために0以上の値である必要がある。 However, when the normalized self-mutual information amount in (x, p) of the equation (7) is adopted as each element value of the instance pattern matrix W, the semi-definite property is lost, and therefore the normalized Laplacian matrix is used. The applied label propagation method becomes impossible. Therefore, in the present embodiment, each element value w (x, p) of the instance pattern matrix W is calculated according to the following equation (8).
Figure 0005250009
... (8)
In Expression (8), when [α] th on the right side is equal to or less than the threshold th, the input value α is deleted (the input value α is not regarded as an input and is not output), and when the threshold th is exceeded, This means a function that outputs the input value α as it is. Here, the threshold th needs to be a value equal to or greater than 0 in order to satisfy the semi-definite property.

例えば閾値thが0の場合には、式(8)の右辺は、正規化自己相互情報量in(x,p)が負の値であるときには、当該負の値はみないということを意味している。即ち、正規化自己相互情報量in(x,p)が負の値であるということは、インスタンスxとパターンpとの間に負の相関があるということであり、この組み合わせは発生しにくいことを表しているため、みないということである。   For example, when the threshold th is 0, the right side of Equation (8) means that when the normalized self-mutual information amount in (x, p) is a negative value, the negative value is not seen. ing. That is, the fact that the normalized self-mutual information amount in (x, p) is a negative value means that there is a negative correlation between the instance x and the pattern p, and this combination is unlikely to occur. It means that it is not seen.

ラベル伝播手法の観点で換言すると、正規化自己相互情報量in(x,p)が負の値であるということは、インスタンスxとパターンpとはエッジが張られにくいことを意味している。即ち、図2の例でいうと、インスタンスxを示す左側のノードと、パターンpを示す右側のノードとを結ぶ線(エッジ)の強さが弱いということを意味している。ここで、正規化自己相互情報量in(x,p)を用いる意義は、ラベルを伝搬させる強さが適切に決定される点にある。従って、エッジの張り方は直接観測したデータから決定されるため、負の値の正規化自己相互情報量in(x,p)を削除しても、即ちエッジを削除しても、ラベルの伝搬の強さを適切にするという点で特に問題とならない。また、正規化自己相互情報量in(x,p)が0となる要素については、インスタンスxとパターンpとは互いに独立であると判断できるので、エッジを削除しても、ラベルの伝搬の強さを適切にするという点で特に問題とならない。   In other words, from the viewpoint of the label propagation method, the fact that the normalized self-mutual information amount in (x, p) is a negative value means that the instance x and the pattern p are not easily edged. That is, in the example of FIG. 2, it means that the strength of the line (edge) connecting the left node indicating the instance x and the right node indicating the pattern p is weak. Here, the significance of using the normalized self-mutual information amount in (x, p) is that the strength for propagating the label is appropriately determined. Therefore, since how to stretch the edge is determined from directly observed data, even if the negative normalized self-mutual information amount in (x, p) is deleted, that is, the edge is deleted, the propagation of the label is performed. There is no particular problem in terms of appropriate strength. In addition, for an element whose normalized self-mutual information amount in (x, p) is 0, it can be determined that the instance x and the pattern p are independent from each other. There is no particular problem in terms of making it appropriate.

本実施形態では、図4のインスタンスパターン行列生成部62のエッジカット部72が、このような式(8)を演算することによって、正規化自己相互情報量in(x,p)の値が閾値th以下の要素におけるエッジを削除する。即ち、インスタンスパターン行列Wの各要素のうち、正規化自己相互情報量in(x,p)の値が閾値thを超える要素については、正規化自己相互情報量in(x,p)の値がそのまま要素値として採用される。これに対して、正規化自己相互情報量in(x,p)の値が閾値th以下の要素については、正規化自己相互情報量in(x,p)の値は要素値として採用されず、例えば所定の固定値が採用される。   In the present embodiment, the edge cut unit 72 of the instance pattern matrix generation unit 62 in FIG. 4 calculates such a formula (8), so that the value of the normalized self-mutual information amount in (x, p) is a threshold value. Edges in elements below th are deleted. That is, among the elements of the instance pattern matrix W, the value of the normalized self-mutual information in (x, p) is the value of the element whose normalized self-mutual information in (x, p) exceeds the threshold th. It is adopted as an element value as it is. On the other hand, the value of the normalized self-mutual information in (x, p) is not adopted as the element value for the element whose normalized self-mutual information in (x, p) is less than or equal to the threshold th. For example, a predetermined fixed value is adopted.

なお、上述したように、エッジを削除する基準となる閾値thは、半正定値性を満足させる必要があるため、負値は採用できないが、0を採用する必要は特になく、1以下の任意の正値を採用することができる。   As described above, the threshold th serving as a reference for deleting an edge needs to satisfy the semi-definite value, and thus a negative value cannot be adopted, but it is not particularly necessary to adopt 0, and an arbitrary value of 1 or less The positive value of can be adopted.

このように、本実施形態では、上述した正規化自己相互情報量演算部71及びエッジカット部72を含むインスタンスパターン行列生成部62が、式(7)及び式(8)に従ってインスタンスパターン行列Wを演算して、正規化ラプラシアン行列演算部63に供給する。当該インスタンスパターン行列Wの各要素は、原則として(閾値thを超えているものは)、正規化自己相互情報量が採用されているため、ラベル伝播手法におけるラベルの伝播の強度を適切に決定することができる。   As described above, in the present embodiment, the instance pattern matrix generation unit 62 including the normalized self-mutual information calculation unit 71 and the edge cut unit 72 described above generates the instance pattern matrix W according to the equations (7) and (8). The calculated value is supplied to the normalized Laplacian matrix calculation unit 63. In principle, each element of the instance pattern matrix W employs a normalized self-mutual information amount (those that exceed the threshold th), and therefore appropriately determines the label propagation strength in the label propagation method. be able to.

正規化ラプラシアン行列演算部63は、当該インスタンスパターン行列Wを用いて上述した式(1)を演算することによって、インスタンス類似度行列Aを演算する。そして、正規化ラプラシアン行列演算部63は、このインスタンス類似度行列Aを用いて式(4)を演算することで、正規化ラプラシアン行列Lを演算し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。   The normalized Laplacian matrix calculation unit 63 calculates the instance similarity matrix A by calculating the above-described equation (1) using the instance pattern matrix W. Then, the normalized Laplacian matrix calculation unit 63 calculates the normalized Laplacian matrix L by calculating Equation (4) using this instance similarity matrix A, and holds it in the normalized Laplacian matrix holding unit 43 as a kernel. Let

以上説明したように、本実施形態の正規化ラプラシアン行列作成部42により作成された正規化ラプラシアン行列Lをカーネルとして用いて、ラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して意味の類似度が本来よりも高いと評価されてしまう、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を高めることが可能になる。   As described above, by applying the label propagation method using the normalized Laplacian matrix L created by the normalized Laplacian matrix creation unit 42 of the present embodiment as a kernel, The occurrence frequency of the phenomenon that the similarity of meaning is evaluated to be higher than the original through the generic pattern can be suppressed. As a result, semantic drift is suppressed, and the accuracy of extracting related queries, that is, the accuracy of extracting suggestion queries can be improved.

以上、図1のサジェスチョンクエリ抽出装置11のうち、正規化ラプラシアン行列Lをカーネルとして作成する準備部22について説明した。
次に、図1のサジェスチョンクエリ抽出装置11のうち、尤度算出言語モデルを作成する準備部23について説明する。
The preparation unit 22 that creates the normalized Laplacian matrix L as a kernel in the suggestion query extraction device 11 of FIG. 1 has been described above.
Next, the preparation unit 23 that creates a likelihood calculation language model in the suggestion query extraction device 11 of FIG. 1 will be described.

準備部23は、言語資源DB51と、尤度算出言語モデル作成部52と、尤度算出言語モデル保持部53と、を備えている。なお、言語資源DB51、尤度算出言語モデル作成部52及び尤度算出言語モデル保持部53としては、具体的には、文字や単語の分布に基づいてどのような文字或いは単語がクエリとして生成され易いかが演算可能なものであれば足り、様々なものが採用可能である。例えば、文字ベースの言語資源DBに基づく文字Ngram言語モデル、単語ベースの言語資源DBに基づくwordNgram言語モデル等、様々なものを採用することができる。以下、これらの一例を取り上げて説明を続ける。   The preparation unit 23 includes a language resource DB 51, a likelihood calculation language model creation unit 52, and a likelihood calculation language model holding unit 53. As the language resource DB 51, the likelihood calculation language model creation unit 52, and the likelihood calculation language model holding unit 53, specifically, any character or word is generated as a query based on the distribution of characters and words. Anything can be used as long as it is easy to calculate, and various things can be adopted. For example, various things such as a character Ngram language model based on a character-based language resource DB and a word Ngram language model based on a word-based language resource DB can be adopted. In the following, the explanation will be continued by taking these examples.

言語資源DB51は、これまでにクエリとして用いられた多数のクエリのログ、即ちいわゆるクエリログを記憶している。   The language resource DB 51 stores a large number of query logs that have been used as queries, that is, so-called query logs.

尤度算出言語モデル作成部52は、言語資源DB51に記憶されたクエリログに基づいて、尤度算出言語モデルを作成する。即ち、尤度算出言語モデル作成部52は、クエリとしての文字或いは単語wを、w={x[1],x[2],・・・,x[n]}という文字或いは単語の並びと把握して、自然対数尤度を演算することによって、尤度算出言語モデルを作成する。   The likelihood calculation language model creation unit 52 creates a likelihood calculation language model based on the query log stored in the language resource DB 51. That is, the likelihood calculation language model creation unit 52 converts a character or word w as a query into a sequence of characters or words w = {x [1], x [2],..., X [n]}. A likelihood calculation language model is created by grasping and calculating the natural log likelihood.

より具体的には、例えば、尤度算出言語モデル作成部52は、
lnP(w)
=ΣlnP(x[i]|{x[i−N+1],...,x[i−1]})
=Σ{ln(freq({x[i−N+1],...,x[i]}))−ln(freq({x[i−N+1],...,x[i−1]}))}
の式に従って、自然対数尤度を計算する。
なお、この実施形態では自然対数尤度を計算しているが、あくまで一例であって、クエリらしさを表現可能な様々なものが採用可能である。
More specifically, for example, the likelihood calculating language model creating unit 52
lnP (w)
= ΣlnP (x [i] | {x [i−N + 1],..., X [i−1]})
= Σ {ln (freq ({x [i−N + 1],..., X [i]})) − ln (freq ({x [i−N + 1],..., X [i−1]}) ))}
The natural log likelihood is calculated according to the following formula.
In this embodiment, the natural log likelihood is calculated. However, this is merely an example, and various things that can express query quality can be used.

尤度算出言語モデル保持部53は、尤度算出言語モデル作成部52により作成された文字Ngram言語モデルを保持する。   The likelihood calculating language model holding unit 53 holds the character Ngram language model created by the likelihood calculating language model creating unit 52.

以上、図1を参照して、本発明に係るサジェスチョンクエリ提供システムの一実施の形態の機能的構成について説明した。
次に、このようなサジェスチョンクエリ提供処理システムのうち、サジェスチョンクエリ抽出装置11が実行する一連の処理(以下、「サジェスチョンクエリ抽出処理」と称する)の流れについて説明する。
The functional configuration of the embodiment of the suggestion query providing system according to the present invention has been described above with reference to FIG.
Next, a flow of a series of processes (hereinafter referred to as “suggestion query extraction process”) executed by the suggestion query extraction device 11 in such a suggestion query provision processing system will be described.

図5は、サジェスチョンクエリ抽出処理を例示するすフローチャートである。   FIG. 5 is a flowchart illustrating a suggestion query extraction process.

ステップS11において、図1の正規化ラプラシアン行列作成部42は、正規化ラプラシアン行列保持部43を参照して、正規化ラプラシアン行列が作成済であるか否かを判定する。   In step S11, the normalized Laplacian matrix creation unit 42 in FIG. 1 refers to the normalized Laplacian matrix holding unit 43 and determines whether or not a normalized Laplacian matrix has been created.

正規化ラプラシアン行列が作成済みの場合、ステップS11においてYESであると判定されて、処理はステップS13に進む。なお、ステップS13以降の処理については後述する。   When the normalized Laplacian matrix has been created, it is determined as YES in Step S11, and the process proceeds to Step S13. In addition, the process after step S13 is mentioned later.

これに対して、正規化ラプラシアン行列が未作成の場合、ステップS11においてNOであると判定されて、処理はステップS12に進む。
ステップS12において、正規化ラプラシアン行列作成部42は、正規化ラプラシアン行列を作成し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。なお、このようなステップS12の処理を、以下、「正規化ラプラシアン行列作成処理」と呼ぶ。正規化ラプラシアン行列作成処理の詳細については、図6を参照して後述する。
ステップS12の正規化ラプラシアン行列作成処理が実行されると、処理はステップS13に進む。
On the other hand, if the normalized Laplacian matrix has not been created, it is determined as NO in step S11, and the process proceeds to step S12.
In step S12, the normalized Laplacian matrix creation unit 42 creates a normalized Laplacian matrix and causes the normalized Laplacian matrix holding unit 43 to hold it as a kernel. Such processing in step S12 is hereinafter referred to as “normalized Laplacian matrix creation processing”. Details of the normalized Laplacian matrix creation process will be described later with reference to FIG.
When the normalized Laplacian matrix creation process in step S12 is executed, the process proceeds to step S13.

ステップS13において、尤度算出言語モデル作成部52は、尤度算出言語モデル保持部53を参照して、尤度算出言語モデルが作成済であるか否かを判定する。   In step S13, the likelihood calculation language model creation unit 52 refers to the likelihood calculation language model holding unit 53 and determines whether or not a likelihood calculation language model has been created.

尤度算出言語モデルが作成済みの場合、ステップS13においてYESであると判定されて、処理はステップS15に進む。なお、ステップS15以降の処理については後述する。   When the likelihood calculation language model has been created, it is determined as YES in Step S13, and the process proceeds to Step S15. The processing after step S15 will be described later.

これに対して、尤度算出言語モデルが未作成の場合、ステップS13においてNOであると判定されて、処理はステップS14に進む。
ステップS14において、尤度算出言語モデル作成部52は、尤度算出言語モデルを作成し、尤度算出言語モデル保持部53に保持させる。これにより、処理はステップS15に進む。
On the other hand, when the likelihood calculation language model has not been created, it is determined as NO in Step S13, and the process proceeds to Step S14.
In step S <b> 14, the likelihood calculation language model creation unit 52 creates a likelihood calculation language model and causes the likelihood calculation language model holding unit 53 to hold it. Thereby, a process progresses to step S15.

ステップS15において、関連クエリ抽出部31は、ユーザ端末12から入力クエリが供給されたか否かを判定する。
ユーザ端末12から入力クエリが供給されてこない場合、ステップS15においてNOであると判定されて、処理はステップS15に再度戻される。即ち、ユーザ端末12から入力クエリが供給されてくるまでの間、ステップS15の判定処理が繰り返し実行されることで、サジェスチョンクエリ抽出処理が待機状態になる。
その後、ユーザ端末12から入力クエリが供給されてくると、ステップS15においてYESであると判定されて、処理はステップS16に進む。
In step S <b> 15, the related query extraction unit 31 determines whether an input query is supplied from the user terminal 12.
When the input query is not supplied from the user terminal 12, it is determined as NO in Step S15, and the process returns to Step S15 again. That is, until the input query is supplied from the user terminal 12, the determination process in step S15 is repeatedly executed, so that the suggestion query extraction process enters a standby state.
Thereafter, when an input query is supplied from the user terminal 12, it is determined as YES in Step S15, and the process proceeds to Step S16.

ステップS16において、関連クエリ抽出部31は、類似度スコア付きの関連クエリリストを作成する。即ち、関連クエリ抽出部31は、ステップS12の処理で作成された正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算する。そして、関連クエリ抽出部31は、類似度スコアが高いクエリを優先して、当該類似度スコア付きの関連クエリとして抽出し、これらを類似度スコアに基づくランキング順にソートすることによって、類似度スコア付き関連クエリリストを作成する。   In step S16, the related query extraction unit 31 creates a related query list with a similarity score. That is, the related query extraction unit 31 calculates the similarity score of the meanings of the queries when the input query is used as a seed according to the label propagation method using the normalized Laplacian matrix created in the process of step S12 as the kernel. And the related query extraction part 31 gives priority to a query with a high similarity score, extracts as a related query with the said similarity score, sorts these by the ranking order based on a similarity score, and attaches a similarity score Create a related query list.

ステップS17において、尤度スコア演算部32は、ステップS16の処理で作成された関連クエリリストに含まれる1以上の関連クエリの各々について、尤度スコアを演算し、関連クエリリストに付加する。即ち、尤度スコア演算部32は、ステップS14の処理で作成された文字Ngram言語モデルに基づいて、自然対数尤度を、クエリらしさを示す尤度スコアとして演算する。そして、尤度スコア演算部32は、尤度スコア及び類似度スコア付きの関連クエリリストを作成する。   In step S17, the likelihood score calculation unit 32 calculates a likelihood score for each of the one or more related queries included in the related query list created in the process of step S16, and adds the likelihood score to the related query list. That is, the likelihood score calculation unit 32 calculates the natural log likelihood as a likelihood score indicating the likelihood of a query based on the character Ngram language model created in the process of step S14. Then, the likelihood score calculation unit 32 creates a related query list with a likelihood score and a similarity score.

ステップS18において、クエリリストリランキング部33は、関連クエリリストに含まれる1以上の関連クエリの各々について、類似度スコアと尤度スコアの対数の和をそれぞれ演算し、各演算結果に基づいて、1以上の関連クエリのリランキング(再順位付け)を行う。その結果、尤度スコア及び類似度スコア付きの関連クエリリストにおいて、1以上の関連クエリの各々が、リランキング順に再ソートされる。   In step S18, the query list reranking unit 33 calculates the sum of the logarithm of the similarity score and the likelihood score for each of one or more related queries included in the related query list, and based on each calculation result, Rerank (rerank) one or more related queries. As a result, in the related query list with the likelihood score and the similarity score, each of the one or more related queries is rearranged in the reranking order.

ステップS19において、サジェスチョンクエリ送信部34は、リランキング後の再ソートされた関連クエリリストから、リランキングの結果高順位となっている幾つかの関連クエリを優先して、サジェスチョンクエリとして抽出して、ユーザ端末12に送信する。これにより、サジェスチョンクエリ抽出処理は終了となる。   In step S <b> 19, the suggestion query transmission unit 34 extracts, as priority queries, some related queries that are ranked higher as a result of reranking from the re-sorted related query list after reranking. To the user terminal 12. This completes the suggestion query extraction process.

なお、ステップS15乃至S19の処理は、正規化ラプラシアン行列及び尤度算出言語モデルが作成済みの状態であれば実行可能である。従って、ステップS15の処理の開始タイミングは、ステップS11乃至S14の処理の終了後であれば足りる。即ち、ステップS11乃至S14の処理の終了後、時間的に連続して即座に、ステップS15の処理が開始される必要は特になく、時間的に離間して、ステップS15の処理が開始されてもよい。   Note that the processing in steps S15 to S19 can be executed as long as the normalized Laplacian matrix and the likelihood calculation language model have been created. Therefore, the start timing of the process of step S15 is sufficient if it is after the end of the processes of steps S11 to S14. That is, it is not particularly necessary to immediately start the process of step S15 after the process of steps S11 to S14, and even if the process of step S15 is started after being separated in time. Good.

換言すると、図1のサジェスチョンクエリ抽出装置に11において、主処理部21、準備部22、及び、準備部23の各々は、相互に独立かつ並行して処理を実行することができる。従って、例えば準備部22は、サジェスチョンクエリ抽出処理とは独立して、正規化ラプラシアン行列保持部43に保持されている正規化ラプラシアン行列を適宜更新しても構わない。同様に、例えば準備部23は、サジェスチョンクエリ抽出処理とは独立して、尤度算出言語モデル保持部53に保持されている尤度算出言語モデルを適宜更新しても構わない。   In other words, in the suggestion query extraction apparatus 11 of FIG. 1, each of the main processing unit 21, the preparation unit 22, and the preparation unit 23 can execute processing independently and in parallel with each other. Therefore, for example, the preparation unit 22 may appropriately update the normalized Laplacian matrix held in the normalized Laplacian matrix holding unit 43 independently of the suggestion query extraction process. Similarly, for example, the preparation unit 23 may appropriately update the likelihood calculation language model held in the likelihood calculation language model holding unit 53 independently of the suggestion query extraction process.

次に、図5のサジェスチョンクエリ抽出処理のうち、ステップS12の正規化ラプラシアン行列作成処理の流れについて説明する。   Next, the flow of the normalized Laplacian matrix creation process of step S12 in the suggestion query extraction process of FIG. 5 will be described.

図6は、正規化ラプラシアン行列作成処理を例示するすフローチャートである。   FIG. 6 is a flowchart illustrating the normalized Laplacian matrix creation process.

ステップS31において、図4の正規化ラプラシアン行列作成部42の共起頻度集計部61は、検索クリックスルーログに基づいて、共起頻度を集計する。即ち、共起頻度集計部61は、検索クリックスルーログをクリックスルーログDB41から参照して、各々のクエリについて、関連付けられたクリック先URL(検索クリックスロー)の数を、共起頻度として集計する。   In step S31, the co-occurrence frequency totaling unit 61 of the normalized Laplacian matrix creation unit 42 in FIG. 4 totals the co-occurrence frequencies based on the search click-through log. That is, the co-occurrence frequency totaling unit 61 refers to the search click-through log from the click-through log DB 41 and totals the number of click destination URLs (search click throws) associated with each query as the co-occurrence frequency. .

ステップS32において、インスタンスパターン行列生成部62は、ステップS31の処理で集計された共起頻度に基づいて、インスタンスパターン行列Wを生成する。   In step S32, the instance pattern matrix generation unit 62 generates an instance pattern matrix W based on the co-occurrence frequencies tabulated in the process of step S31.

具体的には、インスタンスパターン行列生成部62の正規化自己相互情報量演算部71は、インスタンスパターン行列Wの各要素毎に、上述した式(7)に従って、正規化自己相互情報量in(x,p)をそれぞれ演算する。次に、エッジカット部72は、上述した式(8)に従って、インスタンスパターン行列Wの各要素毎に演算された正規化自己相互情報量in(x,p)のうち、閾値th(例えばth=0)以下の要素を削除する。これにより、削除された要素におけるインスタンスxとパターンpとのエッジが削除される。このようにして、インスタンスパターン行列Wが演算されると、処理はステップS33に進む。   Specifically, the normalized self-mutual information amount calculation unit 71 of the instance pattern matrix generation unit 62 performs the normalized self-mutual information amount in (x) for each element of the instance pattern matrix W according to the equation (7) described above. , P). Next, the edge cut unit 72 uses the threshold th (for example, th = for example) among the normalized self-mutual information amount in (x, p) calculated for each element of the instance pattern matrix W according to the equation (8) described above. 0) Delete the following elements. Thereby, the edge of the instance x and the pattern p in the deleted element is deleted. When the instance pattern matrix W is thus calculated, the process proceeds to step S33.

ステップS33において、正規化ラプラシアン行列演算部63は、ステップS32の処理で演算されたインスタンスパターン行列Wを式(1)に代入して、インスタンス類似度行列Aを演算し、そのインスタンス類似度行列Aを式(4)に代入して、正規化ラプラシアン行列Lを演算する。   In step S33, the normalized Laplacian matrix calculation unit 63 calculates the instance similarity matrix A by substituting the instance pattern matrix W calculated in the process of step S32 into the equation (1), and the instance similarity matrix A Is substituted into Equation (4) to calculate the normalized Laplacian matrix L.

演算された正規化ラプラシアン行列Lは、正規化ラプラシアン行列保持部43に保持される。これにより、正規化ラプラシアン行列作成処理は終了する。即ち、図5のステップS12の処理が終了し、処理はステップS13に進む。   The calculated normalized Laplacian matrix L is held in the normalized Laplacian matrix holding unit 43. Thus, the normalized Laplacian matrix creation process ends. That is, the process of step S12 in FIG. 5 ends, and the process proceeds to step S13.

このように、正規化ラプラシアン行列Lは、正規化ラプラシアン行列作成処理により、検索クリックスルーログに基づくインスタンスパターン行列Wを用いて作成される。このインスタンスパターン行列Wの各要素は、原則として、正規化自己相互情報量が採用されるため、ラベル伝播手法におけるラベルの伝播の強度が適切に決定される。   In this way, the normalized Laplacian matrix L is created using the instance pattern matrix W based on the search click-through log by the normalized Laplacian matrix creation process. For each element of the instance pattern matrix W, a normalized self-mutual information amount is adopted in principle, so that the intensity of label propagation in the label propagation method is appropriately determined.

従って、このような正規化ラプラシアン行列Lをカーネルとして用いるラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して類似度が本来よりも高いと評価される、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を向上させることが可能になる。   Therefore, by applying a label propagation method using such a normalized Laplacian matrix L as a kernel, it is evaluated that the queries having originally low semantic similarity are higher than the original through the generic pattern. The occurrence frequency of such a phenomenon can be suppressed. As a result, semantic drift is suppressed, and the accuracy of extracting related queries, that is, the accuracy of extracting suggestion queries can be improved.

なお、上述したように、図1のサジェスチョンクエリ抽出装置に11において、主処理部21、準備部22、及び、準備部23の各々は、相互に独立かつ並行して処理を実行することができる。従って、図5の正規化ラプラシアン行列作成処理は、サジェスチョンクエリ抽出処理内のステップS12の処理としてのみならず、サジェスチョンクエリ抽出処理とは独立した処理として、実行可能である。例えば、正規化ラプラシアン行列保持部43に保持されている正規化ラプラシアン行列Lを更新する場合にも、正規化ラプラシアン行列作成処理を実行することが可能である。   As described above, in the suggestion query extraction device 11 of FIG. 1, each of the main processing unit 21, the preparation unit 22, and the preparation unit 23 can execute processing independently and in parallel with each other. . Therefore, the normalized Laplacian matrix creation process of FIG. 5 can be executed not only as the process of step S12 in the suggestion query extraction process but also as a process independent of the suggestion query extraction process. For example, even when the normalized Laplacian matrix L held in the normalized Laplacian matrix holding unit 43 is updated, the normalized Laplacian matrix creation process can be executed.

以上、本発明の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれる。   As mentioned above, although demonstrated using embodiment of this invention, the technical scope of this invention is not limited to the range as described in the said embodiment. Various modifications or improvements can be added to the above embodiment. Embodiments to which such changes or improvements are added are also included in the technical scope of the present invention.

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。   In the present specification, the step of describing the program recorded on the recording medium is not limited to the processing performed in time series along the order, but is not necessarily performed in time series, either in parallel or individually. The process to be executed is also included.

また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。   Further, in the present specification, the system represents the entire apparatus including a plurality of apparatuses and processing units.

11 サジェスチョンクエリ抽出装置
12 ユーザ端末
21 主処理部
22 準備部
23 準備部
31 関連クエリ抽出部
32 尤度スコア演算部
33 クエリリストリランキング部
34 サジェスチョンクエリ送信部
41 クリックスルーログDB
42 正規化ラプラシアン行列作成部
43 正規化ラプラシアン行列保持部
51 言語資源DB
52 尤度算出言語モデル作成部
53 尤度算出言語モデル保持部
61 共起頻度集計部
62 インスタンスパターン行列生成部
63 正規化ラプラシアン行列演算部
71 正規化自己相互情報量演算部
72 エッジカット部
DESCRIPTION OF SYMBOLS 11 Suggestion query extraction device 12 User terminal 21 Main processing part 22 Preparation part 23 Preparation part 31 Related query extraction part 32 Likelihood score calculation part 33 Query list reranking part 34 Suggestion query transmission part 41 Click through log DB
42 Normalized Laplacian Matrix Generation Unit 43 Normalized Laplacian Matrix Holding Unit 51 Language Resource DB
52 Likelihood calculation language model creation unit 53 Likelihood calculation language model holding unit 61 Co-occurrence frequency counting unit 62 Instance pattern matrix generation unit 63 Normalized Laplacian matrix calculation unit 71 Normalized self-mutual information calculation unit 72 Edge cut unit

Claims (4)

クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計手段と、
前記頻度集計手段により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成手段と、
前記インスタンスパターン行列生成手段により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算手段と、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算手段により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信手段と、
を備え、
前記インスタンスパターン行列演算手段は、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算手段と、
前記正規化自己相互情報量演算手段により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除手段と、
を有するサジェスチョンクエリ抽出装置。
Meaning for an input query input as a new query from the user terminal based on a click destination URL indicating a click destination of a search result for the query and a click through log including a plurality of history information associated with the query. A suggestion query extraction device that extracts similar suggestion queries of
Referring to the click-through log, for each of the queries, frequency counting means for counting the number of the click destination URLs associated with each other as a co-occurrence frequency;
Based on the co-occurrence frequencies tabulated by the frequency tabulating unit, an instance pattern matrix generating unit that generates an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern;
Based on the instance pattern matrix generated by the instance pattern matrix generation means, a normalized Laplacian matrix calculation means for calculating a normalized Laplacian matrix indicating the association between the query as the instance and the co-occurrence query as a kernel;
A query when the input query is used as a seed according to a label propagation method using the normalized Laplacian matrix computed by the normalized Laplacian matrix computing unit as a kernel in response to receiving the input query from the user terminal A related query extraction unit that calculates a similarity score between meanings of each other and extracts a query having a high similarity score as a related query with priority.
Out of the related queries extracted by the related query extraction means, extracts the suggestion query for the input query according to the ranking based on the similarity score, and sends a suggestion query transmission means to the user terminal;
With
The instance pattern matrix calculation means includes:
For each element of the instance pattern matrix, normalized self-mutual information calculation means for calculating normalized self-mutual information;
Among the normalized self-mutual information amounts calculated for each element by the normalized self-mutual information amount calculation means, a threshold is set to 0, and elements having a negative normalized self-mutual information amount are fixed to a predetermined value. An edge deleting means for deleting an edge connecting an instance and a pattern in the element by replacing with a value ;
A suggestion query extraction device.
前記クエリを複数含む言語資源DBに基づいて、尤度算出言語モデルを作成する尤度算出言語モデル作成手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記尤度算出言語モデル作成手段により作成された尤度算出言語モデルに基づいて、尤度を、クエリらしさを示す尤度スコアとして演算する尤度スコア演算手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記類似度に加えてさらに、前記尤度スコア演算手段により演算された前記尤度スコアに基づいて、リランキングするリランキング手段と、
をさらに備え、
前記サジェスチョンクエリ送信手段は、前記リランキング手段によるリランキングの結果に従って、前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する、
請求項1に記載のサジェスチョンクエリ抽出装置。
A likelihood calculating language model creating means for creating a likelihood calculating language model based on a language resource DB including a plurality of the queries;
Likelihood for calculating the likelihood of the related query extracted by the related query extracting means as a likelihood score indicating the likelihood of query based on the likelihood calculating language model created by the likelihood calculating language model creating means. Degree score calculation means,
Reranking means for reranking the related query extracted by the related query extracting means based on the likelihood score calculated by the likelihood score calculating means in addition to the similarity;
Further comprising
The suggestion query transmission means extracts the suggestion query according to the result of reranking by the reranking means, and transmits it to the user terminal.
The suggestion query extraction device according to claim 1.
クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置が実行するサジェスチョンクエリ抽出方法であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計ステップと、
前記頻度集計ステップの処理により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成ステップと、
前記インスタンスパターン行列生成ステップの処理により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算ステップと、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算ステップの処理により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出ステップと、
前記関連クエリ抽出ステップの処理により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信ステップと、
を含み、
前記インスタンスパターン行列演算ステップは、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算ステップと、
前記正規化自己相互情報量演算ステップの処理により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除ステップと、
を含むサジェスチョンクエリ抽出方法。
Meaning for an input query input as a new query from the user terminal based on a click destination URL indicating a click destination of a search result for the query and a click through log including a plurality of history information associated with the query. A suggestion query extraction method executed by a suggestion query extraction device that extracts similar suggestion queries of
Referring to the click-through log, for each of the queries, a frequency counting step of counting the number of the associated click destination URLs as a co-occurrence frequency;
An instance pattern matrix generation step for generating an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern, based on the co-occurrence frequencies tabulated by the processing of the frequency tabulation step;
Based on the instance pattern matrix generated by the process of the instance pattern matrix generation step, a normalized Laplacian matrix calculation step for calculating a normalized Laplacian matrix indicating the relationship between the query as the instance and the co-occurrence query as a kernel; ,
When the input query is seeded according to a label propagation method using the normalized Laplacian matrix calculated by the processing of the normalized Laplacian matrix as a kernel in response to receiving the input query from the user terminal A related query extraction step of calculating a similarity score of meanings between the queries and preferentially extracting a query having a high similarity score as a related query;
A suggestion query transmission step of extracting the suggestion query for the input query from the related queries extracted by the processing of the related query extraction step according to the ranking based on the similarity score, and transmitting the extraction query to the user terminal; ,
Including
The instance pattern matrix calculation step includes:
For each element of the instance pattern matrix, a normalized self-mutual information amount calculating step for calculating a normalized self-mutual information amount;
Among the normalized self-mutual information amounts calculated for each element by the processing of the normalized self-mutual information amount processing step, a threshold is set to 0, and elements having negative normalized self-mutual information amount are predetermined. An edge deletion step of deleting an edge connecting the instance and the pattern in the element by replacing with a fixed value of
Suggestion query extraction method including
クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置を制御するコンピュータに、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計ステップと、
前記頻度集計ステップの処理により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成ステップと、
前記インスタンスパターン行列生成ステップの処理により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算ステップと、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算ステップの処理により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出ステップと、
前記関連クエリ抽出ステップの処理により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する制御を実行するサジェスチョンクエリ送信制御ステップと、
を含み、
前記インスタンスパターン行列演算ステップは、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算ステップと、
前記正規化自己相互情報量演算ステップの処理により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除ステップと、
を含む制御処理を実行させるプログラム。
Meaning for an input query input as a new query from the user terminal based on a click destination URL indicating a click destination of a search result for the query and a click through log including a plurality of history information associated with the query. A computer that controls a suggestion query extraction device that extracts similar suggestion queries of
Referring to the click-through log, for each of the queries, a frequency counting step of counting the number of the associated click destination URLs as a co-occurrence frequency;
An instance pattern matrix generation step for generating an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern, based on the co-occurrence frequencies tabulated by the processing of the frequency tabulation step;
Based on the instance pattern matrix generated by the process of the instance pattern matrix generation step, a normalized Laplacian matrix calculation step for calculating a normalized Laplacian matrix indicating the relationship between the query as the instance and the co-occurrence query as a kernel; ,
When the input query is seeded according to a label propagation method using the normalized Laplacian matrix calculated by the processing of the normalized Laplacian matrix as a kernel in response to receiving the input query from the user terminal A related query extraction step of calculating a similarity score of meanings between the queries and preferentially extracting a query having a high similarity score as a related query;
A suggestion for executing control to extract the suggestion query for the input query from the related queries extracted by the processing of the related query extraction step according to the ranking based on the similarity score, and to transmit the suggestion query to the user terminal A query transmission control step;
Including
The instance pattern matrix calculation step includes:
For each element of the instance pattern matrix, a normalized self-mutual information amount calculating step for calculating a normalized self-mutual information amount;
Among the normalized self-mutual information amounts calculated for each element by the processing of the normalized self-mutual information amount processing step, a threshold is set to 0, and elements having negative normalized self-mutual information amount are predetermined. An edge deletion step of deleting an edge connecting the instance and the pattern in the element by replacing with a fixed value of
A program that executes control processing including
JP2010222789A 2010-09-30 2010-09-30 Suggestion query extraction apparatus and method, and program Active JP5250009B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010222789A JP5250009B2 (en) 2010-09-30 2010-09-30 Suggestion query extraction apparatus and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010222789A JP5250009B2 (en) 2010-09-30 2010-09-30 Suggestion query extraction apparatus and method, and program

Publications (2)

Publication Number Publication Date
JP2012079029A JP2012079029A (en) 2012-04-19
JP5250009B2 true JP5250009B2 (en) 2013-07-31

Family

ID=46239219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010222789A Active JP5250009B2 (en) 2010-09-30 2010-09-30 Suggestion query extraction apparatus and method, and program

Country Status (1)

Country Link
JP (1) JP5250009B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5918714B2 (en) * 2013-03-25 2016-05-18 東京瓦斯株式会社 Literature retrieval device, literature retrieval method, program, and literature retrieval system
JP5777663B2 (en) * 2013-06-19 2015-09-09 ヤフー株式会社 Search support device and search support program
US9400834B2 (en) * 2013-12-06 2016-07-26 Palo Alto Research Center Incorporated Efficient detection of information of interest using mode-based graph clustering
JP6196200B2 (en) * 2014-09-19 2017-09-13 ヤフー株式会社 Label extraction apparatus, label extraction method and program
US20170293696A1 (en) * 2016-04-11 2017-10-12 Google Inc. Related entity discovery
CN109885180B (en) 2019-02-21 2022-12-06 北京百度网讯科技有限公司 Error correction method and apparatus, computer readable medium

Also Published As

Publication number Publication date
JP2012079029A (en) 2012-04-19

Similar Documents

Publication Publication Date Title
CN109815308B (en) Method and device for determining intention recognition model and method and device for searching intention recognition
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN103678576B (en) The text retrieval system analyzed based on dynamic semantics
KR101721338B1 (en) Search engine and implementation method thereof
US9009146B1 (en) Ranking search results based on similar queries
US7783644B1 (en) Query-independent entity importance in books
KR101443475B1 (en) Search suggestion clustering and presentation
US8260664B2 (en) Semantic advertising selection from lateral concepts and topics
US7937395B2 (en) Systems and methods of displaying and re-using document chunks in a document development application
US8145632B2 (en) Systems and methods of identifying chunks within multiple documents
US20100205198A1 (en) Search query disambiguation
US20090287676A1 (en) Search results with word or phrase index
US10108699B2 (en) Adaptive query suggestion
US20130268526A1 (en) Discovery engine
US20110119262A1 (en) Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document
JP5710581B2 (en) Question answering apparatus, method, and program
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20110282858A1 (en) Hierarchical Content Classification Into Deep Taxonomies
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
US10528662B2 (en) Automated discovery using textual analysis
US8812504B2 (en) Keyword presentation apparatus and method
JP5250009B2 (en) Suggestion query extraction apparatus and method, and program
US20110184946A1 (en) Applying synonyms to unify text search with faceted browsing classification
US20130297621A1 (en) Decomposable ranking for efficient precomputing
Nikas et al. Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120807

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130220

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5250009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350