JP5250009B2 - Suggestion query extraction apparatus and method, and program - Google Patents
Suggestion query extraction apparatus and method, and program Download PDFInfo
- Publication number
- JP5250009B2 JP5250009B2 JP2010222789A JP2010222789A JP5250009B2 JP 5250009 B2 JP5250009 B2 JP 5250009B2 JP 2010222789 A JP2010222789 A JP 2010222789A JP 2010222789 A JP2010222789 A JP 2010222789A JP 5250009 B2 JP5250009 B2 JP 5250009B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- instance
- normalized
- suggestion
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 85
- 238000000605 extraction Methods 0.000 title claims description 69
- 239000011159 matrix material Substances 0.000 claims description 176
- 238000004364 calculation method Methods 0.000 claims description 62
- 230000008569 process Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 16
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims 2
- 230000037430 deletion Effects 0.000 claims 2
- 238000002360 preparation method Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000644 propagated effect Effects 0.000 description 7
- 230000010365 information processing Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- JCJIZBQZPSZIBI-UHFFFAOYSA-N 2-[2,6-di(propan-2-yl)phenyl]benzo[de]isoquinoline-1,3-dione Chemical compound CC(C)C1=CC=CC(C(C)C)=C1N(C1=O)C(=O)C2=C3C1=CC=CC3=CC=C2 JCJIZBQZPSZIBI-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、サジェスチョンクエリ抽出装置及び方法、並びにプログラムに関する。 The present invention relates to a suggestion query extraction apparatus and method, and a program.
従来のWebページ検索では、ユーザによりクエリが入力されると、Webページ上の検索エンジンによって、複数のURL(Uniform Resource Locator)を含む検索結果がユーザに提示される。 In a conventional Web page search, when a query is input by a user, a search result including a plurality of URLs (Uniform Resource Locators) is presented to the user by a search engine on the Web page.
さらに、近年のWebページ検索では、検索結果の提示のみならず、入力されたクエリと関連するクエリが、代替クエリの候補として示唆される。このようなWebページ検索において代替クエリの候補として示唆されるクエリは、「サジェスチョンクエリ」と呼ばれている。 Furthermore, in recent Web page searches, not only the presentation of search results but also queries related to the input query are suggested as alternative query candidates. A query suggested as a candidate for an alternative query in such a Web page search is called a “suggestion query”.
一般的には、サジェスチョンクエリとして、クエリと構成要素(単語ならば語形)が類似するクエリが提示される。例えば、ユーザが、クエリとして「ホテル」と入力すべきところを誤って「ホデル」と入力してしまった場合、サジェスチョンクエリとして一般的に「ホテル」がユーザに提示される。このようなスペルミスを修正するものもサジェスチョンクエリの一種として捉えることができる。 In general, as a suggestion query, a query similar to a query and a constituent element (a word form if a word) is presented. For example, when the user erroneously inputs “hodel” where “hotel” should be input as a query, “hotel” is generally presented to the user as a suggestion query. Those that correct such spelling mistakes can also be considered as a kind of suggestion query.
さらに、クエリと構成要素は非類似であるが、当該クエリと意味が類似するクエリ、例えばクエリが単語ならばいわゆる同義語や類義語についても、サジェスチョンクエリとして提示できれば、ユーザにとって便宜である。例えば上述の例でいえば、さらに「旅館」や「宿屋」といった「ホテル」の類義語についても、サジェスチョンクエリとして提示できれば、ユーザにとって便宜である。 Furthermore, although the query and the constituent elements are dissimilar, it is convenient for the user if a query similar in meaning to the query, for example, a so-called synonym or synonym if the query is a word can be presented as a suggestion query. For example, in the above example, it is convenient for the user if the synonym of “hotel” such as “inn” or “inn” can also be presented as a suggestion query.
このようなクエリと意味が類似するクエリ(同義語や類義語等)をサジェスチョンクエリとして適切に抽出すべく、本発明者らは、検索クリックスルーログを用いたラベル伝播手法による意味カテゴリの獲得に関する技術を既に提案している(非特許文献1参照)。 In order to appropriately extract a query (synonym, synonym, etc.) having a similar meaning to such a query as a suggestion query, the present inventors have developed a technique related to acquisition of a semantic category by a label propagation method using a search click-through log. Has already been proposed (see Non-Patent Document 1).
ここで、検索クリックスルーとは、ユーザが、クエリを入力した際に、検索エンジンが返す検索結果により示されるスニペット(当該クエリにヒットしたWebページのタイトル、当該クエリにヒットしたWebページのURL、当該クエリを含むWebページの一部の断片等で構成されるリスト)をみて、当該Webページの一をクリック(選択)することをいう。 Here, the search click-through is a snippet (the title of the web page that hits the query, the URL of the web page that hits the query, and the snippet indicated by the search result returned by the search engine when the user inputs the query) This means that the user clicks (selects) one of the Web pages by looking at a list including a part of the Web page including the query.
このような検索クリックスルーは、ユーザの意図を直接表していると考えられる。即ち、2以上のクエリの構成要素(語形等)が非類似であっても、同一のWebページに到達するものは、同じ意図で入力されたクエリである可能性が高いもの同士であると考えられる。特に、同一のWebページに到達する2以上のクエリは、同義語であることが多いと考えられる。従って、クエリと、クリック(選択)されたWebページのURL(クリック先URL)とを関連付けて記憶した検索クリックスルーログを用いることによって、ユーザにより入力されたクエリに対して、意味が類似するクエリ(同義語や類義語等)をサジェスチョンクエリとして適切に抽出することが可能になる。 Such a search click-through is considered to represent the user's intention directly. In other words, even if two or more query components (word forms, etc.) are dissimilar, those that reach the same Web page are likely to be queries entered with the same intention. It is done. In particular, it is considered that two or more queries that reach the same Web page are often synonyms. Therefore, by using a search click-through log in which a query and a URL (click destination URL) of a Web page clicked (selected) are stored in association with each other, a query having a similar meaning to a query input by a user (Synonyms, synonyms, etc.) can be appropriately extracted as a suggestion query.
しかしながら、検索クリックスルーログの中には、非常に多くのクエリと共起してしまうクリック先URL、即ちいわゆるジェネリックパターンが存在する。このため、意味の類似度が本来低いクエリ同士が、ジェネリックパターンを介して、意味の類似度が本来よりも高いと評価される、といった現象が生ずる。 However, in the search click-through log, there is a click destination URL that co-occurs with a large number of queries, that is, a so-called generic pattern. For this reason, a phenomenon occurs in which queries having a low semantic similarity are evaluated to have higher semantic similarity than the original through a generic pattern.
このような現象が生ずると、いわゆる意味ドリフトが発生して、サジェスチョンクエリの抽出の精度が悪化する。この点、非特許文献1によれば、ラベル伝播手法において、インスタンススコアベクトルは、シードのラベルとグラフ構造どちらを重視するかというパラメータα∈(0,1)を持ち、パラメータαが0に近づけばシードのラベルに偏った結果となり、パラメータαが1に近づけばラベルなしデータから作成されるグラフ構造を考慮した結果となる、とされている。このパラメータαを調整することにより、ある程度は意味ドリフトの発生を抑制することが可能である。しかしながら、あるクエリがジェネリックパターンを含むごく少数のクリック先URLのみと共起するような場合には、パラメータαを調整したとしても意味ドリフトの発生を抑制することはできない。 When such a phenomenon occurs, so-called semantic drift occurs, and the accuracy of extracting a suggestion query deteriorates. In this regard, according to Non-Patent Document 1, in the label propagation method, the instance score vector has a parameter α∈ (0, 1) indicating whether the seed label or the graph structure is important, and the parameter α is close to 0. If the parameter α is close to 1, the result is that the graph structure created from unlabeled data is taken into consideration. By adjusting this parameter α, it is possible to suppress the occurrence of semantic drift to some extent. However, when a query co-occurs with only a few click destination URLs including a generic pattern, the occurrence of semantic drift cannot be suppressed even if the parameter α is adjusted.
そこで、本発明は、インスタンススコアベクトルのパラメータαの調整によることなくジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制することによって、サジェスチョンクエリの抽出の精度を向上させる、サジェスチョンクエリ抽出装置及び方法、並びにプログラムを提供することを目的とする。 Therefore, the present invention provides a suggestion query extraction apparatus and method for improving the precision of suggestion query extraction by suppressing semantic drift caused by the presence of a generic pattern without adjusting the parameter α of the instance score vector. It aims at providing a program.
本発明では、具体的には以下のようなものを提供する。 Specifically, the present invention provides the following.
(1) クエリに対する検索結果のクリック先を示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数含むクリックスルーログに基づいて、ユーザ端末から新たなクエリとして入力される入力クエリに対して、意味の類似するサジェスチョンクエリを抽出するサジェスチョンクエリ抽出装置であって、
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計手段と、
前記頻度集計手段により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成手段と、
前記インスタンスパターン行列生成手段により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算手段と、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算手段により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信手段と、
を備え、
前記インスタンスパターン行列演算手段は、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算手段と、
前記正規化自己相互情報量演算手段により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除手段と、
を有するサジェスチョンクエリ抽出装置。
(1) For an input query input as a new query from a user terminal based on a click destination URL indicating a click destination of a search result for a query and a click-through log including a plurality of history information associated with the query A suggestion query extraction device that extracts suggestion queries with similar meanings,
Referring to the click-through log, for each of the queries, frequency counting means for counting the number of the click destination URLs associated with each other as a co-occurrence frequency;
Based on the co-occurrence frequencies tabulated by the frequency tabulating unit, an instance pattern matrix generating unit that generates an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern;
Based on the instance pattern matrix generated by the instance pattern matrix generation means, a normalized Laplacian matrix calculation means for calculating a normalized Laplacian matrix indicating the association between the query as the instance and the co-occurrence query as a kernel;
A query when the input query is used as a seed according to a label propagation method using the normalized Laplacian matrix computed by the normalized Laplacian matrix computing unit as a kernel in response to receiving the input query from the user terminal A related query extraction unit that calculates a similarity score between meanings of each other and extracts a query having a high similarity score as a related query with priority.
Out of the related queries extracted by the related query extraction means, extracts the suggestion query for the input query according to the ranking based on the similarity score, and sends a suggestion query transmission means to the user terminal;
With
The instance pattern matrix calculation means includes:
For each element of the instance pattern matrix, normalized self-mutual information calculation means for calculating normalized self-mutual information;
Among the normalized self-mutual information amounts calculated for each element by the normalized self-mutual information amount calculation means, a threshold is set to 0, and elements having a negative normalized self-mutual information amount are fixed to a predetermined value. An edge deleting means for deleting an edge connecting an instance and a pattern in the element by replacing with a value ;
A suggestion query extraction device.
本発明のこのような構成によれば、正規化ラプラシアン行列は、検索クリックスルーログに基づくインスタンスパターン行列を用いて作成される。このインスタンスパターン行列の各要素として、正規化自己相互情報量が採用されるため、いわゆるジェネリックパターンによる影響を抑制し、ラベル伝播手法におけるラベルの伝播の強度が適切に決定される。従って、このような正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して本来よりも類似度が高いと評価される、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を高めることが可能になる。 According to such a configuration of the present invention, the normalized Laplacian matrix is created using an instance pattern matrix based on the search click-through log. Since normalized self mutual information is adopted as each element of this instance pattern matrix, the influence of so-called generic patterns is suppressed, and the intensity of label propagation in the label propagation technique is appropriately determined. Therefore, by applying a label propagation method that uses such a normalized Laplacian matrix as a kernel, queries that are inherently low in similarity in meaning are evaluated as having higher similarity than in the original through a generic pattern. The occurrence frequency of the phenomenon can be suppressed. As a result, semantic drift is suppressed, and the accuracy of extracting related queries, that is, the accuracy of extracting suggestion queries can be improved.
(2) 前記クエリを複数含む言語資源DBに基づいて、尤度算出言語モデルを作成する尤度算出言語モデル作成手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記尤度算出言語モデル作成手段により作成された尤度算出言語モデルに基づいて、尤度を、クエリらしさを示す尤度スコアとして演算する尤度スコア演算手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記類似度に加えてさらに、前記尤度スコア演算手段により演算された前記尤度スコアに基づいて、リランキングするリランキング手段と、
をさらに備え、
前記サジェスチョンクエリ送信手段は、前記リランキング手段によるリランキングの結果に従って、前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する、
(1)に記載のサジェスチョンクエリ抽出装置。
(2) a likelihood calculating language model creating means for creating a likelihood calculating language model based on a language resource DB including a plurality of the queries;
Likelihood for calculating the likelihood of the related query extracted by the related query extracting means as a likelihood score indicating the likelihood of query based on the likelihood calculating language model created by the likelihood calculating language model creating means. Degree score calculation means,
Reranking means for reranking the related query extracted by the related query extracting means based on the likelihood score calculated by the likelihood score calculating means in addition to the similarity;
Further comprising
The suggestion query transmission means extracts the suggestion query according to the result of reranking by the reranking means, and transmits it to the user terminal.
The suggestion query extraction device according to (1).
本発明のこのような構成によれば、尤度スコアに基づいてリランキングされた結果が用いられて、サジェスチョンクエリが抽出されるので、サジェスチョンクエリの抽出の精度がさらに向上する。 According to such a configuration of the present invention, the result of reranking based on the likelihood score is used to extract the suggestion query, so that the accuracy of the suggestion query extraction is further improved.
なお、尤度スコアの演算に際して、言語資源DB及び尤度算出言語モデルとしては、文字や単語の分布に基づいてどのような文字或いは単語がクエリとして生成され易いかが演算可能なものであれば足り、様々なものが採用可能である。具体的には、文字ベースの言語資源DBに基づく文字Ngram言語モデル、単語ベースの言語資源DBに基づくwordNgram言語モデル等、様々なものを採用することができる。
また、尤度は、文字或いは単語の出現頻度等の確率分布を用いて表現することができるが、運用上は浮動小数点演算におけるアンダーフローを防ぐ観点から、自然対数尤度が好適に採用される。
In calculating the likelihood score, the language resource DB and the likelihood calculating language model need only be able to calculate what character or word is likely to be generated as a query based on the distribution of characters and words. Various things can be adopted. Specifically, various types such as a character Ngram language model based on a character-based language resource DB and a word Ngram language model based on a word-based language resource DB can be adopted.
The likelihood can be expressed using a probability distribution such as the appearance frequency of characters or words. However, from the viewpoint of preventing underflow in floating-point arithmetic, natural log likelihood is preferably employed for operation. .
さらに、本発明では、(1)に係る装置に対応する方法及びプログラムを提供する。これにより、(1)と同様の効果が期待できる。 Furthermore, the present invention provides a method and a program corresponding to the apparatus according to (1). Thereby, the same effect as (1) can be expected.
本発明によれば、ジェネリックパターンの存在に起因して生ずる意味ドリフトを抑制することによって、サジェスチョンクエリの抽出の精度を向上させることができる。 According to the present invention, it is possible to improve the accuracy of extracting a suggestion query by suppressing a semantic drift caused by the presence of a generic pattern.
以下、本発明の実施形態について説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。 Hereinafter, embodiments of the present invention will be described. This is merely an example, and the technical scope of the present invention is not limited to this.
本実施形態は、コンピュータ及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備える、ハードウェア及び該ハードウェアを制御するソフトウェアによって構成される。 This embodiment is applied to a computer and its peripheral devices. Each unit in the present embodiment is configured by hardware and software that controls the hardware provided in the computer and its peripheral devices.
上記ハードウェアには、制御部としてのCPU(Central Processing Unit)の他、記憶部、通信装置、表示装置及び入力装置が含まれる。記憶部としては、例えば、メモリ(RAM:Random Access Memory、ROM:Read Only Memory等)、ハードディスクドライブ(HDD:Hard Disk Drive)及び光ディスク(CD:Compact Disk、DVD:Digital Versatile Disk等)ドライブが挙げられる。通信装置としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示装置としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力装置としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。 The hardware includes a storage unit, a communication device, a display device, and an input device in addition to a CPU (Central Processing Unit) as a control unit. Examples of the storage unit include a memory (RAM: Random Access Memory, ROM: Read Only Memory, etc.), a hard disk drive (HDD: Hard Disk Drive), and an optical disk (CD: Compact Disc, DVD: Digital Versatile Drive, etc.). It is done. Examples of the communication device include various wired and wireless interface devices. Examples of the display device include various displays such as a liquid crystal display and a plasma display. Examples of the input device include a keyboard and a pointing device (mouse, tracking ball, etc.).
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信回線を介して配布されることも可能であり、CD−ROM等のコンピュータ可読媒体に記録して配布されることも可能である。 The software includes a computer program and data for controlling the hardware. The computer program and data are stored in the storage unit, and are appropriately executed and referenced by the control unit. The computer program and data can be distributed via a communication line, or can be recorded on a computer-readable medium such as a CD-ROM and distributed.
図1は、本発明に係るサジェスチョンクエリ抽出装置を含む情報処理システムの一実施の形態の機能的構成を示す機能ブロック図である。 FIG. 1 is a functional block diagram showing a functional configuration of an embodiment of an information processing system including a suggestion query extraction device according to the present invention.
情報処理システムは、サジェスチョンクエリ抽出装置11と、ユーザ端末12とが相互に接続されることによって構成されている。
The information processing system is configured by connecting a suggestion query extraction device 11 and a
なお、サジェスチョンクエリ抽出装置11とユーザ端末12との接続の形態は特に限定されないが、本実施形態では図示せぬインターネットを介してサジェスチョンクエリ抽出装置11とユーザ端末12とが接続されているものとする。また、ユーザ端末12は、実際には複数台存在し得るが、ここでは説明の便宜上1台であるものとする。
In addition, although the connection form of the suggestion query extraction device 11 and the
サジェスチョンクエリ抽出装置11は、主処理部21と、準備部22,23とを備えている。
The suggestion query extraction device 11 includes a
主処理部21は、ユーザ端末12から入力されるクエリ(以下、「入力クエリ」と呼ぶ)に基づいて、サジェスチョンクエリを抽出して、ユーザ端末12に送信する。このため、主処理部21は、関連クエリ抽出部31と、尤度スコア演算部32と、クエリリストリランキング部33と、サジェスチョンクエリ送信部34とを備えている。
The
関連クエリ抽出部31は、入力クエリと関連する1以上のクエリ(以下、「関連クエリ」と呼ぶ)を抽出してリスト化する。このような1以上の関連クエリを含むリストを、以下、「関連クエリリスト」と呼ぶ。
The related
関連クエリ抽出部31による関連クエリの抽出手法として、本実施形態では、正規化ラプラシンアン行列をカーネルとして用いるラベル伝播手法に従って、入力クエリをシードとした場合におけるクエリ同士の意味の類似度を演算し、当該類似度に基づいて関連クエリを抽出する、といった手法が採用されている。なお、正規化ラプラシア行列やラベル伝播手法の詳細については後述する。
As a related query extraction method by the related
この場合、関連クエリ抽出部31は、意味の類似度に基づいて、1以上の関連クエリの各々に対する順位付け(ランキング)を行うこともできる。ここで、意味の類似度の高低を示す値を以下「類似度スコア」と呼ぶものとすると、1以上の関連クエリの各々は、類似度スコアが付加された上で、ランキング順にソートされてリスト化される。このようにして、類似度スコア付の関連クエリリストが生成されて、関連クエリリスト保持部35に保持される。
In this case, the related
尤度スコア演算部32は、関連クエリリストに含まれる1以上の関連クエリの各々について、文字Ngram言語モデルに基づいて、自然対数尤度を、クエリらしさを示す尤度スコアとして演算する。なお、文字Ngram言語モデル等の詳細については後述する。
The likelihood
尤度スコア演算部32により演算された各尤度スコアは、各関連クエリと対応付けられて、関連クエリリストに付加される。即ち、尤度スコア及び類似度スコア付きの関連クエリリストが作成され、関連クエリリスト保持部35に保持される。
Each likelihood score calculated by the likelihood
クエリリストリランキング部33は、関連クエリリストに含まれる1以上の関連クエリの各々について、類似度スコアと尤度スコアの対数の和をそれぞれ演算し、各演算結果に基づいて、1以上の関連クエリのリランキング(再順位付け)を行う。そして、尤度スコア及び類似度スコア付きの関連クエリリストにおいて、1以上の関連クエリの各々が、リランキング順に再ソートされる。
The query
サジェスチョンクエリ送信部34は、リランキング後の再ソートされた関連クエリリストから、高順位の関連クエリを優先的にサジェスチョンクエリとして抽出して、ユーザ端末12に送信する。
The suggestion
関連クエリリスト保持部35は、上述の如く、類似度スコア付きの関連クエリリストや、尤度スコア及び類似度スコア付きの関連クエリリストを保持する。なお、類似度スコア付きの関連クエリリストと、尤度スコア及び類似度スコア付きの関連クエリリストとは、別々のリストとして保持してもよいが、1つのリストとして保持してもよい。ここで、1つのリストとして保持するとは、類似度スコア付きの関連クエリリストに対して、尤度スコアを格納する項目を関連クエリ毎に追加することによって、尤度スコア及び類似度スコア付きの関連クエリリストとして保持することを意味する。
As described above, the related query
以上、サジェスチョンクエリ抽出装置11の主処理部21の機能的構成の概略について説明した。さらに以下、図2及び図3を参照して、主処理部21のうち、特に関連クエリ抽出部31の詳細について説明する。
The outline of the functional configuration of the
図2は、関連クエリ抽出部31に採用されているラベル伝播手法を説明する図であって、シードクエリが旅行に関するものである場合におけるラベルの伝播の様子を示す図である。
FIG. 2 is a diagram for explaining a label propagation method employed in the related
図2において、左側の丸印によって示されるノードは、クエリ(図2の例では単語のみ)を示している。右側の丸印によって示されるノードは、左側のクエリと共起するパターンを示している。このように、図2に示すグラフは、左側のノードがクエリとなっており、右側のノードがそのクエリと共起するパターンとなっている2部グラフである。当該グラフにおいて、左右のノードを結ぶ線の強さ(図中、太い直線が最も強く、以下、線が細くなるほど、さらに、点線の線部の長さが短くなる程弱くなっていく)が、当該左右のノード間の共起の度合を示している。なお、左右のノードを結ぶ線は、「エッジ」とも呼ばれている。また、各ノードの濃さ(図中丸印内の色の濃さ)が、シードクエリとの関連の強さを表わしている。 In FIG. 2, a node indicated by a circle on the left side indicates a query (only a word in the example of FIG. 2). A node indicated by a circle on the right side indicates a pattern that co-occurs with the query on the left side. As described above, the graph shown in FIG. 2 is a bipartite graph in which the left node is a query and the right node is a pattern that co-occurs with the query. In the graph, the strength of the line connecting the left and right nodes (the thick straight line is the strongest in the figure, and the smaller the line, the weaker the shorter the length of the dotted line portion), It shows the degree of co-occurrence between the left and right nodes. The line connecting the left and right nodes is also called “edge”. Further, the darkness of each node (the darkness of the color in the circle in the figure) represents the strength of the relationship with the seed query.
ここで、パターンとして示されるURL(実際には、「http://・・・」といったURL)は、クリック先URLを意味している。即ち、本実施形態では、シードクエリとの関連の強さの演算に関する学習を高精度に行うべく、パターンとして、従来用いられていたクエリログのみならず、検索クリックスルーログも採用されている。 Here, a URL shown as a pattern (actually, a URL such as “http: // ...”) means a click destination URL. That is, in the present embodiment, not only a query log conventionally used but also a search click-through log is employed as a pattern in order to perform highly accurate learning regarding the calculation of the strength related to the seed query.
図2において、左上のノードが、シードクエリとしての単語(以下、「シード単語」と呼ぶ)「航空会社A」であり、所定のラベルが付されているものとする。この場合、シード単語「航空会社A」に付されたラベルが、当該シード単語「航空会社A」と共起の度合いが強いパターン「URL:中部発」に伝搬する。ここで、パターン「URL:中部発」とは、飛行機の発着場所が日本国の中部空港であるという内容を含むWebページがクリック先URLであることを示すものとする。このようなパターン「URL:中部発」は、シードクエリとの関連が強いとして、シード単語「航空会社A」に付されていたラベルが伝播される。 In FIG. 2, it is assumed that the upper left node is a word as a seed query (hereinafter referred to as “seed word”) “airline company A” and is given a predetermined label. In this case, the label attached to the seed word “airline A” is propagated to the pattern “URL: Chubu” which has a high degree of co-occurrence with the seed word “airline A”. Here, the pattern “URL: Chubu departure” indicates that a Web page including the content that the plane departure / arrival place is the Chubu airport in Japan is the click destination URL. Such a pattern “URL: Chubu” has a strong relationship with the seed query, and the label attached to the seed word “airline A” is propagated.
一方、パターン「URL:ツアー」は、歌手Bがコマーシャルの出演者として起用された所定のツアーを紹介するWebページがクリック先URLであることを示すものとする。この場合、パターン「URL:ツアー」は、単語「歌手B」というシードクエリとは異なるクエリとも共起するため、比較的中立なパターンである。 On the other hand, the pattern “URL: tour” indicates that a Web page introducing a predetermined tour in which singer B is appointed as a commercial performer is a click-to URL. In this case, the pattern “URL: tour” is a relatively neutral pattern because it co-occurs with a query different from the seed query of the word “singer B”.
単語「旅行会社C」は、パターン「URL:中部発」及びパターン「URL:ツアー」をシード単語「航空会社A」と共有しているため、当該シード単語「航空会社A」に付されていたラベルが伝播される。このようにしてラベルが伝播された単語「旅行会社C」は、シードクエリとの関連が強い単語として分類されることになる。 Since the word “travel company C” shares the pattern “URL: Chubu departure” and the pattern “URL: tour” with the seed word “airline A”, it was attached to the seed word “airline A”. The label is propagated. The word “travel agency C” to which the label has been propagated in this way is classified as a word that is strongly related to the seed query.
このように、ラベル伝播手法とは、シードとして与えるノードに付されたラベルを、隣接ノードに順次伝播していく手法をいう。ラベル伝播手法では、最適なラベルは、ラベル伝播のプロセスが収束した状態におけるラベルとして与えられる。 As described above, the label propagation method refers to a method of sequentially propagating labels attached to nodes given as seeds to adjacent nodes. In the label propagation method, the optimum label is given as a label in a state where the label propagation process has converged.
本実施形態では、このようなラベル伝播手法として、正規化ラプラシアン行列をカーネルとして用いる手法が採用されている。そこで、以下、図3を参照して、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法について説明する。 In this embodiment, as such a label propagation method, a method using a normalized Laplacian matrix as a kernel is employed. Therefore, a label propagation method using a normalized Laplacian matrix as a kernel will be described below with reference to FIG.
図3は、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法を説明する図である。 FIG. 3 is a diagram for explaining a label propagation method using a normalized Laplacian matrix as a kernel.
図3に示すように、正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法では、入力として、シードインスタンスベクトルF(0)と、インスタンス類似度行列Aとが与えられる。また、学習におけるtステップ目(tは1以上の整数値)の出力としては、インスタンススコアベクトルF(t)が得られる。 As shown in FIG. 3, in the label propagation method using a normalized Laplacian matrix as a kernel, a seed instance vector F (0) and an instance similarity matrix A are given as inputs. Further, an instance score vector F (t) is obtained as an output at the t-th step in learning (t is an integer value of 1 or more).
ここで、あらゆるインスタンスの集合をχと表わすものとする。インスタンスとは、図2における左側のノード、即ちクエリ(単語等)を意味する。あるシードクエリとの関連の強さについて学習する場合、例えば図2の例ではシードクエリが関係する旅行との関連の強さについて学習する場合、tステップ目に出力されるインスタンススコアベクトルF(t)は、集合χの要素数|χ|を次元数とするベクトルとして表わされる。インスタンススコアベクトルF(t)のi番目(iは、1乃至|χ|の範囲内の整数値)の次元の要素値としては、集合χのインスタンスxiが、どの程度シードクエリと関連があるのか(図2の例では、どの程度旅行との関連があるのか)を示すスコアが採用される。即ち、集合χのインスタンスxiの当該シードクエリとの関連の度合を示すスコアが、インスタンススコアベクトルF(t)のi番目の次元の要素値になる。 Here, a set of all instances is represented as χ. An instance means a node on the left side in FIG. 2, that is, a query (word or the like). When learning about the strength of association with a certain seed query, for example, when learning about the strength of association with a trip related to a seed query in the example of FIG. 2, the instance score vector F (t ) Is represented as a vector whose number of dimensions is the number of elements | χ | As an element value of the i-th dimension (i is an integer value in a range of 1 to | χ |) of the instance score vector F (t), how much the instance x i of the set χ is related to the seed query. (In the example of FIG. 2, a score indicating how related to travel is) is adopted. That is, the score indicating the association degree between the seed query instance x i of the set χ becomes the element values of the i-th dimension instance score vector F (t).
従って、あるシードクエリとの関連の強さについて学習する場合において、入力として与えられるシードインスタンスベクトルF(0)とは、次のような要素値を有するベクトルとなる。即ち、シードインスタンスベクトルF(0)においては、シードとして与えられるインスタンス(図1の関連クエリ抽出部31にとっては入力クエリ)の集合に、インスタンスxiが含まれる場合、i番目の次元の要素値が「1」となり、それ以外の次元の要素値が「0」となる。
Therefore, when learning about the strength of association with a certain seed query, the seed instance vector F (0) given as an input is a vector having the following element values. That is, in the seed instance vector F (0), when the instance x i is included in the set of instances given as seeds (input query for the related
また、入力として与えられるインスタンス類似度行列Aは、インスタンスパターン行列Wを用いて、次の式(1)により演算される。
インスタンスパターン行列Wとは、例えば、インスタンスxiとパターンpjの関連性を示す値(従来は単純な共起回数であり、本実施形態では後述する正規化自己相互情報量)をi行j列の要素値として有する行列をいう。ここで、従来においては、インスタンスパターン行列Wは、次の式(2)によって正規化された上で、式(1)に代入されていた。
ここで、行列D(N)は、次の式(3)によって定まる行列Nの次数対角行列をいう。
The instance pattern matrix W is, for example, a value indicating the relationship between the instance x i and the pattern p j (previously a simple number of co-occurrence, normalized self-mutual information amount described later in the present embodiment) i row j A matrix having column element values. Here, conventionally, the instance pattern matrix W is normalized by the following equation (2) and then substituted into the equation (1).
Here, the matrix D (N) is an order diagonal matrix of the matrix N determined by the following equation (3).
あるシードクエリとの関連の強さについて学習をする場合、シードインスタンスベクトルF(0)及びインスタンス類似度行列Aが入力として与えられて、図3の手順に従った処理が実行されることで、インスタンスベクトルF(t)が出力される。 When learning about the strength of association with a certain seed query, a seed instance vector F (0) and an instance similarity matrix A are given as inputs, and processing according to the procedure of FIG. An instance vector F (t) is output.
即ち、図3の手順のステップS1に示すように、次の式(4)に示す正規化ラプラシアン行列Lが作成される。
なお、本実施形態では、後述するように、正規化ラプラシアン行列Lは、図1の正規化ラプラシアン行列作成部42によって作成されて、正規化ラプラシアン行列保持部43に保持される。
That is, as shown in step S1 of the procedure in FIG. 3, a normalized Laplacian matrix L shown in the following equation (4) is created.
In the present embodiment, as will be described later, the normalized Laplacian matrix L is created by the normalized Laplacian
次に、図3の手順のステップS2に示すように、tステップの演算結果を用いるt+1ステップのインスタンスベクトルF(t+1)を式(5)の演算により求めるといった処理が、tが1ずつインクリメントされる毎に繰り返し実行される。そして、収束された段階における式(5)の演算結果が、t=t+1としてインクリメントされた後、インスタンスベクトルF(t)として出力される。
このようにして出力されたインスタンスベクトルF(t)は、シードとして与えられたインスタンスに対して、意味の類似度順にインスタンス(クエリ)が整列したベクトルになっている。 The instance vector F (t) output in this way is a vector in which instances (queries) are arranged in order of similarity of meaning with respect to the instance given as a seed.
従って、関連クエリ抽出部31(図1)は、ユーザ端末12から供給された入力クエリをシードとして、上述のステップS1及びS2の処理を実行してインスタンスベクトルF(t)を演算することで、関連クエリを抽出することができる。即ち、関連クエリ抽出部31は、当該インスタンスベクトルF(t)に基づいて、入力クエリに対する意味の類似度が上位1乃至K番目(Kは1以上の整数値)のインスタンス、即ち、1乃至K次元の各要素に対応するインスタンスを、K個の関連クエリとしてそれぞれ抽出することができる。
Therefore, the related query extraction unit 31 (FIG. 1) uses the input query supplied from the
この場合、インスタンスベクトルF(t)の1乃至K次元の各要素値が、K個の関連クエリの各々に対して付加される類似度スコアとして採用される。即ち、上述のステップS2における式(5)の繰り返し演算とは、各インスタンス(各クエリ)について、類似度スコアに基づくランキング(順位付け)を行い、ランキングの結果順にソートすることと等価である。従って、関連クエリ抽出部31は、インスタンスベクトルF(t)の1乃至K次元の各要素を抽出することによって、類似度スコア付きの関連クエリリストを作成することができる。
In this case, the 1 to K-dimensional element values of the instance vector F (t) are employed as similarity scores added to each of the K related queries. That is, the repetitive calculation of Expression (5) in step S2 described above is equivalent to performing ranking (ranking) based on the similarity score for each instance (each query) and sorting in order of the ranking results. Therefore, the related
なお、式(5)において、パラメータαは、シードのラベルとグラフ構造とのうち何れを重視するラベル伝播手法であるのかを示すパラメータであって、0乃至1の範囲内で可変する。即ち、パラメータαが0に近付くほど、シードのラベルに偏った結果となり、αが1に近付くほど、ラベルなしデータ(インスタンス)から作成されるグラフ構造を考慮した結果となる。 In the equation (5), the parameter α is a parameter indicating which one of the label labeling method and the label propagation method attaches importance to the graph structure, and is variable within a range of 0 to 1. That is, the closer the parameter α is to 0, the more biased the seed label is, and the closer α is to 1, the result is a result of considering a graph structure created from unlabeled data (instances).
また、2つのシードクエリとの関連の強さについて学習する場合には、シードとして与えられるインスタンスの各々に対して「1」または「−1」の値が与えられることによって、シードインスタンスベクトルF(0)が作成される。そして、最終的なスコアyiの符号の正負によって、インスタンスxiのラベルが決定される。さらに、3以上のn個のシードクエリとの関連の強さについて学習する場合には、シードとしてはベクトルではなくn次元の行列が作成されて、ラベル付けが行われる。 Further, when learning about the strength of association with two seed queries, a value of “1” or “−1” is given to each instance given as a seed, so that a seed instance vector F ( 0) is created. Then, the label of the instance x i is determined by the sign of the final score y i . Furthermore, when learning about the strength of association with three or more n seed queries, an n-dimensional matrix is created as a seed, not a vector, and labeling is performed.
次に、図4を参照して、このようなラベル伝播手法においてカーネルとして用いられる正規化ラプラシアン行列の作成手法について説明する。 Next, a method for creating a normalized Laplacian matrix used as a kernel in such a label propagation method will be described with reference to FIG.
図4は、図1のサジェスチョンクエリ抽出装置11のうち、正規化ラプラシアン行列をカーネルとして生成するための準備部22の機能的構成の詳細を示す機能ブロック図である。
FIG. 4 is a functional block diagram showing details of the functional configuration of the
準備部22は、クリックスルーログDB41と、正規化ラプラシアン行列作成部42と、正規化ラプラシアン行列保持部43とを備えている。
The
クリックスルーログDB41は、検索クリックスルーログを記憶している。即ち、クリックスルーログDB41は、クエリに対する検索結果のクリック先示すクリック先URLと、当該クエリとが関連付けられた履歴情報を複数記憶している。
The click-through
正規化ラプラシアン行列作成部42は、共起頻度集計部61と、インスタンスパターン行列生成部62と、正規化ラプラシアン行列演算部63とを備えている。
The normalized Laplacian
共起頻度集計部61は、検索クリックスルーログをクリックスルーログDB41から参照して、各々のクエリについて、関連付けられたクリック先URLの数を集計する。ここで、共起頻度集計部61により集計されたクリック先URLの数は、上述の集合χにおけるインスタンスxiとしてのクエリと、パターンpjとしてのクリック先URLの共起回数wijに相当する。そこで、共起頻度集計部61により集計されたクリック先URLの数を、以下、「共起頻度」と呼ぶ。
The co-occurrence frequency totaling unit 61 refers to the search click-through log from the click-through
インスタンスパターン行列生成部62は、共起頻度集計部61により集計された共起頻度に基づいて、インスタンス(クエリ)とパターン(クリック先URL)の関連を示すインスタンスパターン行列を演算する。
The instance pattern
正規化ラプラシアン行列演算部63は、当該インスタンスパターン行列を用いて、上述した式(4)を演算することで、正規化ラプラシアン行列を演算する。
The normalized Laplacian
正規化ラプラシアン行列保持部43は、正規化ラプラシアン行列作成部42により作成された正規化ラプラシアン行列を、カーネルとして保持する。
The normalized Laplacian
なお、正規化ラプラシアン行列に必要なインスタンス類似度行列Aは、上述の如く式(1)に従って演算されるが、非常に大規模な行列であるため、記憶容量が非常に大きくなる場合がある。このような場合には、正規化ラプラシアン行列保持部43が、インスタンスパターン行列W及びその転置行列WTのみを保持し、正規化ラプラシアン行列演算部63が、式(1)を毎回演算することによって、記憶容量を削減することができる。インスタンス類似度行列Aが密行列であるのに対して、インスタンスパターン行列Wは疎行列であるからである。
Note that the instance similarity matrix A necessary for the normalized Laplacian matrix is calculated according to the equation (1) as described above. However, since it is a very large matrix, the storage capacity may be very large. In such a case, the normalized Laplacian
さらに、以下、正規化ラプラシアン行列をカーネルとして作成するために必要なインスタンスパターン行列について説明する。 Further, an instance pattern matrix necessary for creating a normalized Laplacian matrix as a kernel will be described below.
[背景技術]の欄でも上述したように、クリック先URLの中には、非常に多くのクエリと共起してしまうジェネリックパターンが存在する。このため、意味の類似度が低いクエリ同士がジェネリックパターンを介して本来よりも類似度が高いと評価されてしまう、といった現象が従来生じていた。 As described above in the [Background Art] field, there is a generic pattern that co-occurs with a large number of queries in the click destination URL. For this reason, there has conventionally been a phenomenon in which queries having low semantic similarity are evaluated as having higher similarity than the original via a generic pattern.
換言すると、ラベル伝播手法においては、伝播元のインスタンス(クエリ)から、それと共通するパターン(クリック先URL)を持つ伝播先のインスタンスに対してラベルが伝搬される。この場合、伝播の強さは、伝播先のインスタンスからの伝播の広がりが考慮される。このため、従来のラベル伝播手法には、次のような第1の特徴及び第2の特徴が存在した。即ち、第1の特徴とは、伝播先のインスタンスが大量のパターンを持っているような場合には伝播が弱くなる、といった特徴である。また、第2の特徴とは、伝播先のインスタンスが少量のパターンしか持たない場合には強く伝搬する、といった特徴である。第2の特徴が顕著に表れた例としては、伝播先のインスタンスが、1つのパターンしか持たず、伝播元のインスタンスとそのパターンのみで繋がっている場合である。このような場合には、伝播先のインスタンスが、1つのジェネリックパターンのみを持つような場合であっても、強く伝搬されてしまうことになる。強く伝搬されるということは、たとえジェネリックパターン1つのみで繋がる伝播元と伝播先のインスタンス同士であっても、即ち意味の類似度が本来低いインスタンス同士であっても、意味の類似度が本来より高いと評価されてしまうことを意味する。 In other words, in the label propagation method, a label is propagated from a propagation source instance (query) to a propagation destination instance having a common pattern (click destination URL). In this case, the spread of propagation from the propagation destination instance is considered as the propagation strength. For this reason, the conventional label propagation method has the following first and second features. That is, the first feature is a feature that propagation becomes weak when a propagation destination instance has a large number of patterns. Further, the second feature is a feature that the propagation is strong when the propagation destination instance has only a small amount of pattern. An example in which the second feature appears prominently is a case where the propagation destination instance has only one pattern and is connected to the propagation source instance only by the pattern. In such a case, even if the propagation destination instance has only one generic pattern, it is strongly propagated. Strongly propagated means that even if the propagation source and destination instances are connected by only one generic pattern, that is, the semantic similarity is inherent even if the semantic similarity is low. It means that it will be evaluated as higher.
ここで、従来のラベル伝播手法の第2の特徴、即ち、伝播先のインスタンスが少量のパターンしか持たない場合には強く伝搬するという特徴は、インスタンスパターン行列Wの正規化処理に起因して生ずる。 Here, the second feature of the conventional label propagation method, that is, the feature of strong propagation when the propagation destination instance has only a small amount of patterns, is caused by the normalization processing of the instance pattern matrix W. .
即ち、従来においては、上述した式(2)に示すように、次数対角行列の逆行列D−1(W)が、インスタンスパターン行列Wの左側に掛けられることで、当該インスタンスパターン行列Wが正規化されていた。具体的には、インスタンスパターン行列Wの各行は、各インスタンス(各クエリ)に対応しており、所定行の各要素値は、対応するインスタンスと各パターン(クリック先URL)との共起回数(クリックされた回数)に基づく値である。このような各インスタンスに対応する各行において、各要素値の総和がそれぞれ「1」になるように正規化されていた。 That is, in the related art, as shown in the above equation (2), the inverse matrix D −1 (W) of the order diagonal matrix is multiplied by the left side of the instance pattern matrix W, so that the instance pattern matrix W becomes It was normalized. Specifically, each row of the instance pattern matrix W corresponds to each instance (each query), and each element value of a predetermined row indicates the number of times of co-occurrence between the corresponding instance and each pattern (click destination URL) ( The number of clicks). In each row corresponding to each instance, the sum of the element values is normalized so as to be “1”.
このため、従来においては、多くのパターンと共起するインスタンスに対応する行については、各要素値は小さくなっていた。また、共起するパターンの分布に偏りがあるインスタンスに対応する行については、偏って共起するパターンに対応する要素値が大きくなっていた。 For this reason, conventionally, each element value is small for a row corresponding to an instance co-occurring with many patterns. In addition, for a row corresponding to an instance in which the distribution of co-occurring patterns is biased, the element value corresponding to the pattern that co-occurs is large.
一方で、従来においては、共起するパターンが少数のインスタンスに対応する行については、各要素値は大きくなっていた。極端な例を挙げると、共起するパターンが1つしか存在しない場合には、当該パターンに対応する要素値は必ず「1」になっていた。このように要素値が必ず「1」になることは、当該パターンがジェネリックパターンであったとしても何ら変わらない。 On the other hand, conventionally, each element value is large for a row in which co-occurring patterns correspond to a small number of instances. As an extreme example, when there is only one co-occurring pattern, the element value corresponding to the pattern is always “1”. The fact that the element value is always “1” does not change even if the pattern is a generic pattern.
このように、式(2)によって正規化された従来のインスタンスパターン行列Wは、ジェネリックパターン以外に共起するパターンをほとんど持たないインスタンスに対応する行であって、当該ジェネリックパターンに対応する要素値が「1」に近くなっている行を有している。従来、このような式(2)によって正規化されたインスタンスパターン行列Wからラプラシアン行列Lが作成され、当該ラプラシアン行列Lを用いるラベル伝播手法に従って学習が行われていた。その結果、ジェネリックパターン以外に共起するパターン(クリック先URL)をほとんど持たないインスタンス(クエリ)が、シードとして与えられたインスタンス(シードのクエリ)との意味の類似度が高くなってしまう傾向にあった。即ち、ジェネリックパターン以外に共起するパターンをほとんど持たないインスタンスと、シードとして与えられたインスタンスとは、意味の類似度が本来低いクエリ同士に該当する。このような意味の類似度が本来低いクエリ同士が、ジェネリックパターンを介して、意味の類似度が本来よりも高いと評価されてしまう、といった現象が生じてしまう傾向にあった。 As described above, the conventional instance pattern matrix W normalized by the expression (2) is a row corresponding to an instance having almost no co-occurring pattern other than the generic pattern, and an element value corresponding to the generic pattern. Has rows that are close to "1". Conventionally, a Laplacian matrix L is created from the instance pattern matrix W normalized by the equation (2), and learning is performed according to a label propagation method using the Laplacian matrix L. As a result, an instance (query) that has almost no co-occurring pattern (click-to URL) other than the generic pattern tends to have a high degree of semantic similarity with the instance (seed query) given as a seed. there were. That is, an instance that has almost no co-occurrence pattern other than the generic pattern and an instance given as a seed correspond to queries that originally have low similarity in meaning. There is a tendency that such queries that are originally low in similarity in meaning are evaluated as having higher similarity in meaning through the generic pattern.
そこで、このような現象が生ずることを抑制すべく、図4に示すように、本実施形態のインスタンスパターン行列生成部62は、正規化自己相互情報量演算部71と、エッジカット部72とを備えている。
Therefore, in order to suppress the occurrence of such a phenomenon, as shown in FIG. 4, the instance pattern
正規化自己相互情報量演算部71は、インスタンスパターン行列Wの各要素値として、正規化自己相互情報量(NPMI:Normalized Pointwise Mutual Information)を演算する。以下、この正規化自己相互情報量について説明する。
The normalized self-mutual information
正規化される前の自己相互情報量(PMI:Pointwise Mutual Information)は、次の式(6)により示される。
式(6)において、i(x,p)が、インスタンスxとパターンpとの自己相互情報量を示している。即ち、式(6)の右辺において、インスタンスxとパターンpとが互いに独立であると仮定して求めた確率分布がp(x)p(p)であり、実際に観測された確率分布がp(x,p)である。式(6)の右辺に示すように、これらの2つの確率分布の情報量の差が自己相互情報量i(x,p)として求められる。
The self mutual information (PMI: Pointwise Mutual Information) before normalization is expressed by the following equation (6).
In Expression (6), i (x, p) represents the self-mutual information amount between the instance x and the pattern p. That is, on the right side of equation (6), the probability distribution obtained on the assumption that the instance x and the pattern p are independent from each other is p (x) p (p), and the actually observed probability distribution is p (X, p). As shown on the right side of Equation (6), the difference between the information amounts of these two probability distributions is obtained as the self-mutual information amount i (x, p).
ここで、自己相互情報量i(x,p)の値として取り得る範囲は[−∞乃至+∞]であり、2つの確率分布が一致する際には自己相互情報量i(x,p)は0になる。従って、自己相互情報量i(x,p)をそのままインスタンスパターン行列Wの各要素値として採用すると、従来の共起回数を要素値としていた場合に「0」となっていた要素値が、全て「−∞」となってしまい、演算が不可能になってしまう。そこで、本実施形態では、次の式(7)に示すように、自己相互情報量i(x,p)が正規化され、その結果得られる正規化自己相互情報量in(x,p)が、原則、インスタンスパターン行列Wの各要素値として採用される。
式(7)に示すように、正規化自己相互情報量in(x,p)は、自己相互情報量i(x,p)が(−lnp(x,p))で除算されることによって正規化されたものであり、その値が取り得る範囲は[−1乃至+1]となる。確率分布p(x,p)が0のとき、正規化自己相互情報量in(x,p)は−1になる。また、確率分布p(x),p(p)が相互に独立の場合には、正規化自己相互情報量in(x,p)は0になる。そして、インスタンスxとパターンpとが互いに共起する場合には、正規化自己相互情報量in(x,p)は1になる。 As shown in the equation (7), the normalized self-mutual information in (x, p) is normalized by dividing the self-mutual information i (x, p) by (−lnp (x, p)). The range that the value can take is [−1 to +1]. When the probability distribution p (x, p) is 0, the normalized self-mutual information amount in (x, p) is -1. Further, when the probability distributions p (x) and p (p) are independent from each other, the normalized self-mutual information amount in (x, p) is zero. When the instance x and the pattern p co-occur with each other, the normalized self mutual information amount in (x, p) is 1.
本実施形態では、図4のインスタンスパターン行列生成部62の正規化自己相互情報量演算部71が、式(7)に従って、インスタンスパターン行列Wの各要素毎に、正規化自己相互情報量in(x,p)を演算する。
In the present embodiment, the normalized self-mutual information
しかしながら、インスタンスパターン行列Wの各要素値として何れも、式(7)の正規化自己相互情報量in(x,p)を採用すると、半正定値性が崩れるために、正規化ラプラシアン行列を用いたラベル伝播手法の適用が不可能になる。そこで、本実施形態では、次の式(8)に従って、インスタンスパターン行列Wの各要素値w(x,p)が演算される。
式(8)において、右辺の[α]thは、閾値th以下の場合、入力値αを削除し(入力値αを入力としてはみずに、出力せず)、閾値thを超えている場合、入力値αをそのまま出力する関数を意味している。ここで、閾値thは、半正定値性を満足させるために0以上の値である必要がある。
However, when the normalized self-mutual information amount in (x, p) of the equation (7) is adopted as each element value of the instance pattern matrix W, the semi-definite property is lost, and therefore the normalized Laplacian matrix is used. The applied label propagation method becomes impossible. Therefore, in the present embodiment, each element value w (x, p) of the instance pattern matrix W is calculated according to the following equation (8).
In Expression (8), when [α] th on the right side is equal to or less than the threshold th, the input value α is deleted (the input value α is not regarded as an input and is not output), and when the threshold th is exceeded, This means a function that outputs the input value α as it is. Here, the threshold th needs to be a value equal to or greater than 0 in order to satisfy the semi-definite property.
例えば閾値thが0の場合には、式(8)の右辺は、正規化自己相互情報量in(x,p)が負の値であるときには、当該負の値はみないということを意味している。即ち、正規化自己相互情報量in(x,p)が負の値であるということは、インスタンスxとパターンpとの間に負の相関があるということであり、この組み合わせは発生しにくいことを表しているため、みないということである。 For example, when the threshold th is 0, the right side of Equation (8) means that when the normalized self-mutual information amount in (x, p) is a negative value, the negative value is not seen. ing. That is, the fact that the normalized self-mutual information amount in (x, p) is a negative value means that there is a negative correlation between the instance x and the pattern p, and this combination is unlikely to occur. It means that it is not seen.
ラベル伝播手法の観点で換言すると、正規化自己相互情報量in(x,p)が負の値であるということは、インスタンスxとパターンpとはエッジが張られにくいことを意味している。即ち、図2の例でいうと、インスタンスxを示す左側のノードと、パターンpを示す右側のノードとを結ぶ線(エッジ)の強さが弱いということを意味している。ここで、正規化自己相互情報量in(x,p)を用いる意義は、ラベルを伝搬させる強さが適切に決定される点にある。従って、エッジの張り方は直接観測したデータから決定されるため、負の値の正規化自己相互情報量in(x,p)を削除しても、即ちエッジを削除しても、ラベルの伝搬の強さを適切にするという点で特に問題とならない。また、正規化自己相互情報量in(x,p)が0となる要素については、インスタンスxとパターンpとは互いに独立であると判断できるので、エッジを削除しても、ラベルの伝搬の強さを適切にするという点で特に問題とならない。 In other words, from the viewpoint of the label propagation method, the fact that the normalized self-mutual information amount in (x, p) is a negative value means that the instance x and the pattern p are not easily edged. That is, in the example of FIG. 2, it means that the strength of the line (edge) connecting the left node indicating the instance x and the right node indicating the pattern p is weak. Here, the significance of using the normalized self-mutual information amount in (x, p) is that the strength for propagating the label is appropriately determined. Therefore, since how to stretch the edge is determined from directly observed data, even if the negative normalized self-mutual information amount in (x, p) is deleted, that is, the edge is deleted, the propagation of the label is performed. There is no particular problem in terms of appropriate strength. In addition, for an element whose normalized self-mutual information amount in (x, p) is 0, it can be determined that the instance x and the pattern p are independent from each other. There is no particular problem in terms of making it appropriate.
本実施形態では、図4のインスタンスパターン行列生成部62のエッジカット部72が、このような式(8)を演算することによって、正規化自己相互情報量in(x,p)の値が閾値th以下の要素におけるエッジを削除する。即ち、インスタンスパターン行列Wの各要素のうち、正規化自己相互情報量in(x,p)の値が閾値thを超える要素については、正規化自己相互情報量in(x,p)の値がそのまま要素値として採用される。これに対して、正規化自己相互情報量in(x,p)の値が閾値th以下の要素については、正規化自己相互情報量in(x,p)の値は要素値として採用されず、例えば所定の固定値が採用される。
In the present embodiment, the edge cut unit 72 of the instance pattern
なお、上述したように、エッジを削除する基準となる閾値thは、半正定値性を満足させる必要があるため、負値は採用できないが、0を採用する必要は特になく、1以下の任意の正値を採用することができる。 As described above, the threshold th serving as a reference for deleting an edge needs to satisfy the semi-definite value, and thus a negative value cannot be adopted, but it is not particularly necessary to adopt 0, and an arbitrary value of 1 or less The positive value of can be adopted.
このように、本実施形態では、上述した正規化自己相互情報量演算部71及びエッジカット部72を含むインスタンスパターン行列生成部62が、式(7)及び式(8)に従ってインスタンスパターン行列Wを演算して、正規化ラプラシアン行列演算部63に供給する。当該インスタンスパターン行列Wの各要素は、原則として(閾値thを超えているものは)、正規化自己相互情報量が採用されているため、ラベル伝播手法におけるラベルの伝播の強度を適切に決定することができる。
As described above, in the present embodiment, the instance pattern
正規化ラプラシアン行列演算部63は、当該インスタンスパターン行列Wを用いて上述した式(1)を演算することによって、インスタンス類似度行列Aを演算する。そして、正規化ラプラシアン行列演算部63は、このインスタンス類似度行列Aを用いて式(4)を演算することで、正規化ラプラシアン行列Lを演算し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。
The normalized Laplacian
以上説明したように、本実施形態の正規化ラプラシアン行列作成部42により作成された正規化ラプラシアン行列Lをカーネルとして用いて、ラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して意味の類似度が本来よりも高いと評価されてしまう、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を高めることが可能になる。
As described above, by applying the label propagation method using the normalized Laplacian matrix L created by the normalized Laplacian
以上、図1のサジェスチョンクエリ抽出装置11のうち、正規化ラプラシアン行列Lをカーネルとして作成する準備部22について説明した。
次に、図1のサジェスチョンクエリ抽出装置11のうち、尤度算出言語モデルを作成する準備部23について説明する。
The
Next, the
準備部23は、言語資源DB51と、尤度算出言語モデル作成部52と、尤度算出言語モデル保持部53と、を備えている。なお、言語資源DB51、尤度算出言語モデル作成部52及び尤度算出言語モデル保持部53としては、具体的には、文字や単語の分布に基づいてどのような文字或いは単語がクエリとして生成され易いかが演算可能なものであれば足り、様々なものが採用可能である。例えば、文字ベースの言語資源DBに基づく文字Ngram言語モデル、単語ベースの言語資源DBに基づくwordNgram言語モデル等、様々なものを採用することができる。以下、これらの一例を取り上げて説明を続ける。
The
言語資源DB51は、これまでにクエリとして用いられた多数のクエリのログ、即ちいわゆるクエリログを記憶している。
The
尤度算出言語モデル作成部52は、言語資源DB51に記憶されたクエリログに基づいて、尤度算出言語モデルを作成する。即ち、尤度算出言語モデル作成部52は、クエリとしての文字或いは単語wを、w={x[1],x[2],・・・,x[n]}という文字或いは単語の並びと把握して、自然対数尤度を演算することによって、尤度算出言語モデルを作成する。
The likelihood calculation language
より具体的には、例えば、尤度算出言語モデル作成部52は、
lnP(w)
=ΣlnP(x[i]|{x[i−N+1],...,x[i−1]})
=Σ{ln(freq({x[i−N+1],...,x[i]}))−ln(freq({x[i−N+1],...,x[i−1]}))}
の式に従って、自然対数尤度を計算する。
なお、この実施形態では自然対数尤度を計算しているが、あくまで一例であって、クエリらしさを表現可能な様々なものが採用可能である。
More specifically, for example, the likelihood calculating language
lnP (w)
= ΣlnP (x [i] | {x [i−N + 1],..., X [i−1]})
= Σ {ln (freq ({x [i−N + 1],..., X [i]})) − ln (freq ({x [i−N + 1],..., X [i−1]}) ))}
The natural log likelihood is calculated according to the following formula.
In this embodiment, the natural log likelihood is calculated. However, this is merely an example, and various things that can express query quality can be used.
尤度算出言語モデル保持部53は、尤度算出言語モデル作成部52により作成された文字Ngram言語モデルを保持する。
The likelihood calculating language
以上、図1を参照して、本発明に係るサジェスチョンクエリ提供システムの一実施の形態の機能的構成について説明した。
次に、このようなサジェスチョンクエリ提供処理システムのうち、サジェスチョンクエリ抽出装置11が実行する一連の処理(以下、「サジェスチョンクエリ抽出処理」と称する)の流れについて説明する。
The functional configuration of the embodiment of the suggestion query providing system according to the present invention has been described above with reference to FIG.
Next, a flow of a series of processes (hereinafter referred to as “suggestion query extraction process”) executed by the suggestion query extraction device 11 in such a suggestion query provision processing system will be described.
図5は、サジェスチョンクエリ抽出処理を例示するすフローチャートである。 FIG. 5 is a flowchart illustrating a suggestion query extraction process.
ステップS11において、図1の正規化ラプラシアン行列作成部42は、正規化ラプラシアン行列保持部43を参照して、正規化ラプラシアン行列が作成済であるか否かを判定する。
In step S11, the normalized Laplacian
正規化ラプラシアン行列が作成済みの場合、ステップS11においてYESであると判定されて、処理はステップS13に進む。なお、ステップS13以降の処理については後述する。 When the normalized Laplacian matrix has been created, it is determined as YES in Step S11, and the process proceeds to Step S13. In addition, the process after step S13 is mentioned later.
これに対して、正規化ラプラシアン行列が未作成の場合、ステップS11においてNOであると判定されて、処理はステップS12に進む。
ステップS12において、正規化ラプラシアン行列作成部42は、正規化ラプラシアン行列を作成し、カーネルとして正規化ラプラシアン行列保持部43に保持させる。なお、このようなステップS12の処理を、以下、「正規化ラプラシアン行列作成処理」と呼ぶ。正規化ラプラシアン行列作成処理の詳細については、図6を参照して後述する。
ステップS12の正規化ラプラシアン行列作成処理が実行されると、処理はステップS13に進む。
On the other hand, if the normalized Laplacian matrix has not been created, it is determined as NO in step S11, and the process proceeds to step S12.
In step S12, the normalized Laplacian
When the normalized Laplacian matrix creation process in step S12 is executed, the process proceeds to step S13.
ステップS13において、尤度算出言語モデル作成部52は、尤度算出言語モデル保持部53を参照して、尤度算出言語モデルが作成済であるか否かを判定する。
In step S13, the likelihood calculation language
尤度算出言語モデルが作成済みの場合、ステップS13においてYESであると判定されて、処理はステップS15に進む。なお、ステップS15以降の処理については後述する。 When the likelihood calculation language model has been created, it is determined as YES in Step S13, and the process proceeds to Step S15. The processing after step S15 will be described later.
これに対して、尤度算出言語モデルが未作成の場合、ステップS13においてNOであると判定されて、処理はステップS14に進む。
ステップS14において、尤度算出言語モデル作成部52は、尤度算出言語モデルを作成し、尤度算出言語モデル保持部53に保持させる。これにより、処理はステップS15に進む。
On the other hand, when the likelihood calculation language model has not been created, it is determined as NO in Step S13, and the process proceeds to Step S14.
In step S <b> 14, the likelihood calculation language
ステップS15において、関連クエリ抽出部31は、ユーザ端末12から入力クエリが供給されたか否かを判定する。
ユーザ端末12から入力クエリが供給されてこない場合、ステップS15においてNOであると判定されて、処理はステップS15に再度戻される。即ち、ユーザ端末12から入力クエリが供給されてくるまでの間、ステップS15の判定処理が繰り返し実行されることで、サジェスチョンクエリ抽出処理が待機状態になる。
その後、ユーザ端末12から入力クエリが供給されてくると、ステップS15においてYESであると判定されて、処理はステップS16に進む。
In step S <b> 15, the related
When the input query is not supplied from the
Thereafter, when an input query is supplied from the
ステップS16において、関連クエリ抽出部31は、類似度スコア付きの関連クエリリストを作成する。即ち、関連クエリ抽出部31は、ステップS12の処理で作成された正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算する。そして、関連クエリ抽出部31は、類似度スコアが高いクエリを優先して、当該類似度スコア付きの関連クエリとして抽出し、これらを類似度スコアに基づくランキング順にソートすることによって、類似度スコア付き関連クエリリストを作成する。
In step S16, the related
ステップS17において、尤度スコア演算部32は、ステップS16の処理で作成された関連クエリリストに含まれる1以上の関連クエリの各々について、尤度スコアを演算し、関連クエリリストに付加する。即ち、尤度スコア演算部32は、ステップS14の処理で作成された文字Ngram言語モデルに基づいて、自然対数尤度を、クエリらしさを示す尤度スコアとして演算する。そして、尤度スコア演算部32は、尤度スコア及び類似度スコア付きの関連クエリリストを作成する。
In step S17, the likelihood
ステップS18において、クエリリストリランキング部33は、関連クエリリストに含まれる1以上の関連クエリの各々について、類似度スコアと尤度スコアの対数の和をそれぞれ演算し、各演算結果に基づいて、1以上の関連クエリのリランキング(再順位付け)を行う。その結果、尤度スコア及び類似度スコア付きの関連クエリリストにおいて、1以上の関連クエリの各々が、リランキング順に再ソートされる。
In step S18, the query
ステップS19において、サジェスチョンクエリ送信部34は、リランキング後の再ソートされた関連クエリリストから、リランキングの結果高順位となっている幾つかの関連クエリを優先して、サジェスチョンクエリとして抽出して、ユーザ端末12に送信する。これにより、サジェスチョンクエリ抽出処理は終了となる。
In step S <b> 19, the suggestion
なお、ステップS15乃至S19の処理は、正規化ラプラシアン行列及び尤度算出言語モデルが作成済みの状態であれば実行可能である。従って、ステップS15の処理の開始タイミングは、ステップS11乃至S14の処理の終了後であれば足りる。即ち、ステップS11乃至S14の処理の終了後、時間的に連続して即座に、ステップS15の処理が開始される必要は特になく、時間的に離間して、ステップS15の処理が開始されてもよい。 Note that the processing in steps S15 to S19 can be executed as long as the normalized Laplacian matrix and the likelihood calculation language model have been created. Therefore, the start timing of the process of step S15 is sufficient if it is after the end of the processes of steps S11 to S14. That is, it is not particularly necessary to immediately start the process of step S15 after the process of steps S11 to S14, and even if the process of step S15 is started after being separated in time. Good.
換言すると、図1のサジェスチョンクエリ抽出装置に11において、主処理部21、準備部22、及び、準備部23の各々は、相互に独立かつ並行して処理を実行することができる。従って、例えば準備部22は、サジェスチョンクエリ抽出処理とは独立して、正規化ラプラシアン行列保持部43に保持されている正規化ラプラシアン行列を適宜更新しても構わない。同様に、例えば準備部23は、サジェスチョンクエリ抽出処理とは独立して、尤度算出言語モデル保持部53に保持されている尤度算出言語モデルを適宜更新しても構わない。
In other words, in the suggestion query extraction apparatus 11 of FIG. 1, each of the
次に、図5のサジェスチョンクエリ抽出処理のうち、ステップS12の正規化ラプラシアン行列作成処理の流れについて説明する。 Next, the flow of the normalized Laplacian matrix creation process of step S12 in the suggestion query extraction process of FIG. 5 will be described.
図6は、正規化ラプラシアン行列作成処理を例示するすフローチャートである。 FIG. 6 is a flowchart illustrating the normalized Laplacian matrix creation process.
ステップS31において、図4の正規化ラプラシアン行列作成部42の共起頻度集計部61は、検索クリックスルーログに基づいて、共起頻度を集計する。即ち、共起頻度集計部61は、検索クリックスルーログをクリックスルーログDB41から参照して、各々のクエリについて、関連付けられたクリック先URL(検索クリックスロー)の数を、共起頻度として集計する。
In step S31, the co-occurrence frequency totaling unit 61 of the normalized Laplacian
ステップS32において、インスタンスパターン行列生成部62は、ステップS31の処理で集計された共起頻度に基づいて、インスタンスパターン行列Wを生成する。
In step S32, the instance pattern
具体的には、インスタンスパターン行列生成部62の正規化自己相互情報量演算部71は、インスタンスパターン行列Wの各要素毎に、上述した式(7)に従って、正規化自己相互情報量in(x,p)をそれぞれ演算する。次に、エッジカット部72は、上述した式(8)に従って、インスタンスパターン行列Wの各要素毎に演算された正規化自己相互情報量in(x,p)のうち、閾値th(例えばth=0)以下の要素を削除する。これにより、削除された要素におけるインスタンスxとパターンpとのエッジが削除される。このようにして、インスタンスパターン行列Wが演算されると、処理はステップS33に進む。
Specifically, the normalized self-mutual information
ステップS33において、正規化ラプラシアン行列演算部63は、ステップS32の処理で演算されたインスタンスパターン行列Wを式(1)に代入して、インスタンス類似度行列Aを演算し、そのインスタンス類似度行列Aを式(4)に代入して、正規化ラプラシアン行列Lを演算する。
In step S33, the normalized Laplacian
演算された正規化ラプラシアン行列Lは、正規化ラプラシアン行列保持部43に保持される。これにより、正規化ラプラシアン行列作成処理は終了する。即ち、図5のステップS12の処理が終了し、処理はステップS13に進む。
The calculated normalized Laplacian matrix L is held in the normalized Laplacian
このように、正規化ラプラシアン行列Lは、正規化ラプラシアン行列作成処理により、検索クリックスルーログに基づくインスタンスパターン行列Wを用いて作成される。このインスタンスパターン行列Wの各要素は、原則として、正規化自己相互情報量が採用されるため、ラベル伝播手法におけるラベルの伝播の強度が適切に決定される。 In this way, the normalized Laplacian matrix L is created using the instance pattern matrix W based on the search click-through log by the normalized Laplacian matrix creation process. For each element of the instance pattern matrix W, a normalized self-mutual information amount is adopted in principle, so that the intensity of label propagation in the label propagation method is appropriately determined.
従って、このような正規化ラプラシアン行列Lをカーネルとして用いるラベル伝播手法を適用することで、意味の類似度が本来低いクエリ同士がジェネリックパターンを介して類似度が本来よりも高いと評価される、といった現象の発生頻度を抑制することができる。その結果、意味ドリフトが抑制されて、関連クエリの抽出の精度、即ち、サジェスチョンクエリの抽出の精度を向上させることが可能になる。 Therefore, by applying a label propagation method using such a normalized Laplacian matrix L as a kernel, it is evaluated that the queries having originally low semantic similarity are higher than the original through the generic pattern. The occurrence frequency of such a phenomenon can be suppressed. As a result, semantic drift is suppressed, and the accuracy of extracting related queries, that is, the accuracy of extracting suggestion queries can be improved.
なお、上述したように、図1のサジェスチョンクエリ抽出装置に11において、主処理部21、準備部22、及び、準備部23の各々は、相互に独立かつ並行して処理を実行することができる。従って、図5の正規化ラプラシアン行列作成処理は、サジェスチョンクエリ抽出処理内のステップS12の処理としてのみならず、サジェスチョンクエリ抽出処理とは独立した処理として、実行可能である。例えば、正規化ラプラシアン行列保持部43に保持されている正規化ラプラシアン行列Lを更新する場合にも、正規化ラプラシアン行列作成処理を実行することが可能である。
As described above, in the suggestion query extraction device 11 of FIG. 1, each of the
以上、本発明の実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更又は改良を加えることができる。そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれる。 As mentioned above, although demonstrated using embodiment of this invention, the technical scope of this invention is not limited to the range as described in the said embodiment. Various modifications or improvements can be added to the above embodiment. Embodiments to which such changes or improvements are added are also included in the technical scope of the present invention.
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。 In the present specification, the step of describing the program recorded on the recording medium is not limited to the processing performed in time series along the order, but is not necessarily performed in time series, either in parallel or individually. The process to be executed is also included.
また、本明細書において、システムとは、複数の装置や処理部により構成される装置全体を表すものである。 Further, in the present specification, the system represents the entire apparatus including a plurality of apparatuses and processing units.
11 サジェスチョンクエリ抽出装置
12 ユーザ端末
21 主処理部
22 準備部
23 準備部
31 関連クエリ抽出部
32 尤度スコア演算部
33 クエリリストリランキング部
34 サジェスチョンクエリ送信部
41 クリックスルーログDB
42 正規化ラプラシアン行列作成部
43 正規化ラプラシアン行列保持部
51 言語資源DB
52 尤度算出言語モデル作成部
53 尤度算出言語モデル保持部
61 共起頻度集計部
62 インスタンスパターン行列生成部
63 正規化ラプラシアン行列演算部
71 正規化自己相互情報量演算部
72 エッジカット部
DESCRIPTION OF SYMBOLS 11 Suggestion
42 Normalized Laplacian
52 Likelihood calculation language
Claims (4)
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計手段と、
前記頻度集計手段により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成手段と、
前記インスタンスパターン行列生成手段により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算手段と、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算手段により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合におけるクエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信手段と、
を備え、
前記インスタンスパターン行列演算手段は、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算手段と、
前記正規化自己相互情報量演算手段により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除手段と、
を有するサジェスチョンクエリ抽出装置。 Meaning for an input query input as a new query from the user terminal based on a click destination URL indicating a click destination of a search result for the query and a click through log including a plurality of history information associated with the query. A suggestion query extraction device that extracts similar suggestion queries of
Referring to the click-through log, for each of the queries, frequency counting means for counting the number of the click destination URLs associated with each other as a co-occurrence frequency;
Based on the co-occurrence frequencies tabulated by the frequency tabulating unit, an instance pattern matrix generating unit that generates an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern;
Based on the instance pattern matrix generated by the instance pattern matrix generation means, a normalized Laplacian matrix calculation means for calculating a normalized Laplacian matrix indicating the association between the query as the instance and the co-occurrence query as a kernel;
A query when the input query is used as a seed according to a label propagation method using the normalized Laplacian matrix computed by the normalized Laplacian matrix computing unit as a kernel in response to receiving the input query from the user terminal A related query extraction unit that calculates a similarity score between meanings of each other and extracts a query having a high similarity score as a related query with priority.
Out of the related queries extracted by the related query extraction means, extracts the suggestion query for the input query according to the ranking based on the similarity score, and sends a suggestion query transmission means to the user terminal;
With
The instance pattern matrix calculation means includes:
For each element of the instance pattern matrix, normalized self-mutual information calculation means for calculating normalized self-mutual information;
Among the normalized self-mutual information amounts calculated for each element by the normalized self-mutual information amount calculation means, a threshold is set to 0, and elements having a negative normalized self-mutual information amount are fixed to a predetermined value. An edge deleting means for deleting an edge connecting an instance and a pattern in the element by replacing with a value ;
A suggestion query extraction device.
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記尤度算出言語モデル作成手段により作成された尤度算出言語モデルに基づいて、尤度を、クエリらしさを示す尤度スコアとして演算する尤度スコア演算手段と、
前記関連クエリ抽出手段により抽出された前記関連クエリについて、前記類似度に加えてさらに、前記尤度スコア演算手段により演算された前記尤度スコアに基づいて、リランキングするリランキング手段と、
をさらに備え、
前記サジェスチョンクエリ送信手段は、前記リランキング手段によるリランキングの結果に従って、前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する、
請求項1に記載のサジェスチョンクエリ抽出装置。 A likelihood calculating language model creating means for creating a likelihood calculating language model based on a language resource DB including a plurality of the queries;
Likelihood for calculating the likelihood of the related query extracted by the related query extracting means as a likelihood score indicating the likelihood of query based on the likelihood calculating language model created by the likelihood calculating language model creating means. Degree score calculation means,
Reranking means for reranking the related query extracted by the related query extracting means based on the likelihood score calculated by the likelihood score calculating means in addition to the similarity;
Further comprising
The suggestion query transmission means extracts the suggestion query according to the result of reranking by the reranking means, and transmits it to the user terminal.
The suggestion query extraction device according to claim 1.
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計ステップと、
前記頻度集計ステップの処理により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成ステップと、
前記インスタンスパターン行列生成ステップの処理により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算ステップと、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算ステップの処理により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出ステップと、
前記関連クエリ抽出ステップの処理により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信するサジェスチョンクエリ送信ステップと、
を含み、
前記インスタンスパターン行列演算ステップは、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算ステップと、
前記正規化自己相互情報量演算ステップの処理により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除ステップと、
を含むサジェスチョンクエリ抽出方法。 Meaning for an input query input as a new query from the user terminal based on a click destination URL indicating a click destination of a search result for the query and a click through log including a plurality of history information associated with the query. A suggestion query extraction method executed by a suggestion query extraction device that extracts similar suggestion queries of
Referring to the click-through log, for each of the queries, a frequency counting step of counting the number of the associated click destination URLs as a co-occurrence frequency;
An instance pattern matrix generation step for generating an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern, based on the co-occurrence frequencies tabulated by the processing of the frequency tabulation step;
Based on the instance pattern matrix generated by the process of the instance pattern matrix generation step, a normalized Laplacian matrix calculation step for calculating a normalized Laplacian matrix indicating the relationship between the query as the instance and the co-occurrence query as a kernel; ,
When the input query is seeded according to a label propagation method using the normalized Laplacian matrix calculated by the processing of the normalized Laplacian matrix as a kernel in response to receiving the input query from the user terminal A related query extraction step of calculating a similarity score of meanings between the queries and preferentially extracting a query having a high similarity score as a related query;
A suggestion query transmission step of extracting the suggestion query for the input query from the related queries extracted by the processing of the related query extraction step according to the ranking based on the similarity score, and transmitting the extraction query to the user terminal; ,
Including
The instance pattern matrix calculation step includes:
For each element of the instance pattern matrix, a normalized self-mutual information amount calculating step for calculating a normalized self-mutual information amount;
Among the normalized self-mutual information amounts calculated for each element by the processing of the normalized self-mutual information amount processing step, a threshold is set to 0, and elements having negative normalized self-mutual information amount are predetermined. An edge deletion step of deleting an edge connecting the instance and the pattern in the element by replacing with a fixed value of
Suggestion query extraction method including
前記クリックスルーログを参照して、各々の前記クエリについて、関連付けられた前記クリック先URLの数を、共起頻度として集計する頻度集計ステップと、
前記頻度集計ステップの処理により集計された前記共起頻度に基づいて、インスタンスとしての前記クエリと、パターンとしての前記クリック先URLとの関連を示すインスタンスパターン行列を生成するインスタンスパターン行列生成ステップと、
前記インスタンスパターン行列生成ステップの処理により生成されたインスタンスパターン行列に基づいて、前記インスタンスとしての前記クエリと共起クエリとの関連を示す正規化ラプラシアン行列をカーネルとして演算する正規化ラプラシアン行列演算ステップと、
前記ユーザ端末から前記入力クエリを受け付けたことに応じて、前記正規化ラプラシアン行列演算ステップの処理により演算された前記正規化ラプラシアン行列をカーネルとして用いるラベル伝播手法に従って、前記入力クエリをシードとした場合における、クエリ同士の意味の類似度スコアを演算し、前記類似度スコアが高いクエリを優先して関連クエリとして抽出する関連クエリ抽出ステップと、
前記関連クエリ抽出ステップの処理により抽出された前記関連クエリの中から、前記類似度スコアに基づくランキングに従って、前記入力クエリに対する前記サジェスチョンクエリを抽出して、前記ユーザ端末に送信する制御を実行するサジェスチョンクエリ送信制御ステップと、
を含み、
前記インスタンスパターン行列演算ステップは、
前記インスタンスパターン行列の各要素毎に、正規化自己相互情報量を演算する正規化自己相互情報量演算ステップと、
前記正規化自己相互情報量演算ステップの処理により各要素毎に演算された各々の前記正規化自己相互情報量のうち、閾値を0とし、負値の正規化自己相互情報量を持つ要素を所定の固定値に置換することによって、当該要素におけるインスタンスとパターンとを結ぶエッジを削除するエッジ削除ステップと、
を含む制御処理を実行させるプログラム。 Meaning for an input query input as a new query from the user terminal based on a click destination URL indicating a click destination of a search result for the query and a click through log including a plurality of history information associated with the query. A computer that controls a suggestion query extraction device that extracts similar suggestion queries of
Referring to the click-through log, for each of the queries, a frequency counting step of counting the number of the associated click destination URLs as a co-occurrence frequency;
An instance pattern matrix generation step for generating an instance pattern matrix indicating a relationship between the query as an instance and the click-to URL as a pattern, based on the co-occurrence frequencies tabulated by the processing of the frequency tabulation step;
Based on the instance pattern matrix generated by the process of the instance pattern matrix generation step, a normalized Laplacian matrix calculation step for calculating a normalized Laplacian matrix indicating the relationship between the query as the instance and the co-occurrence query as a kernel; ,
When the input query is seeded according to a label propagation method using the normalized Laplacian matrix calculated by the processing of the normalized Laplacian matrix as a kernel in response to receiving the input query from the user terminal A related query extraction step of calculating a similarity score of meanings between the queries and preferentially extracting a query having a high similarity score as a related query;
A suggestion for executing control to extract the suggestion query for the input query from the related queries extracted by the processing of the related query extraction step according to the ranking based on the similarity score, and to transmit the suggestion query to the user terminal A query transmission control step;
Including
The instance pattern matrix calculation step includes:
For each element of the instance pattern matrix, a normalized self-mutual information amount calculating step for calculating a normalized self-mutual information amount;
Among the normalized self-mutual information amounts calculated for each element by the processing of the normalized self-mutual information amount processing step, a threshold is set to 0, and elements having negative normalized self-mutual information amount are predetermined. An edge deletion step of deleting an edge connecting the instance and the pattern in the element by replacing with a fixed value of
A program that executes control processing including
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010222789A JP5250009B2 (en) | 2010-09-30 | 2010-09-30 | Suggestion query extraction apparatus and method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010222789A JP5250009B2 (en) | 2010-09-30 | 2010-09-30 | Suggestion query extraction apparatus and method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012079029A JP2012079029A (en) | 2012-04-19 |
JP5250009B2 true JP5250009B2 (en) | 2013-07-31 |
Family
ID=46239219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010222789A Active JP5250009B2 (en) | 2010-09-30 | 2010-09-30 | Suggestion query extraction apparatus and method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5250009B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5918714B2 (en) * | 2013-03-25 | 2016-05-18 | 東京瓦斯株式会社 | Literature retrieval device, literature retrieval method, program, and literature retrieval system |
JP5777663B2 (en) * | 2013-06-19 | 2015-09-09 | ヤフー株式会社 | Search support device and search support program |
US9400834B2 (en) * | 2013-12-06 | 2016-07-26 | Palo Alto Research Center Incorporated | Efficient detection of information of interest using mode-based graph clustering |
JP6196200B2 (en) * | 2014-09-19 | 2017-09-13 | ヤフー株式会社 | Label extraction apparatus, label extraction method and program |
US20170293696A1 (en) * | 2016-04-11 | 2017-10-12 | Google Inc. | Related entity discovery |
CN109885180B (en) | 2019-02-21 | 2022-12-06 | 北京百度网讯科技有限公司 | Error correction method and apparatus, computer readable medium |
-
2010
- 2010-09-30 JP JP2010222789A patent/JP5250009B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012079029A (en) | 2012-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815308B (en) | Method and device for determining intention recognition model and method and device for searching intention recognition | |
EP2798540B1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
CN103678576B (en) | The text retrieval system analyzed based on dynamic semantics | |
KR101721338B1 (en) | Search engine and implementation method thereof | |
US9009146B1 (en) | Ranking search results based on similar queries | |
US7783644B1 (en) | Query-independent entity importance in books | |
KR101443475B1 (en) | Search suggestion clustering and presentation | |
US8260664B2 (en) | Semantic advertising selection from lateral concepts and topics | |
US7937395B2 (en) | Systems and methods of displaying and re-using document chunks in a document development application | |
US8145632B2 (en) | Systems and methods of identifying chunks within multiple documents | |
US20100205198A1 (en) | Search query disambiguation | |
US20090287676A1 (en) | Search results with word or phrase index | |
US10108699B2 (en) | Adaptive query suggestion | |
US20130268526A1 (en) | Discovery engine | |
US20110119262A1 (en) | Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US20110282858A1 (en) | Hierarchical Content Classification Into Deep Taxonomies | |
US8825620B1 (en) | Behavioral word segmentation for use in processing search queries | |
US10528662B2 (en) | Automated discovery using textual analysis | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
JP5250009B2 (en) | Suggestion query extraction apparatus and method, and program | |
US20110184946A1 (en) | Applying synonyms to unify text search with faceted browsing classification | |
US20130297621A1 (en) | Decomposable ranking for efficient precomputing | |
Nikas et al. | Open domain question answering over knowledge graphs using keyword search, answer type prediction, SPARQL and pre-trained neural models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130220 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130412 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5250009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |