JP2009031931A - Search word clustering device, method, program and recording medium - Google Patents

Search word clustering device, method, program and recording medium Download PDF

Info

Publication number
JP2009031931A
JP2009031931A JP2007193700A JP2007193700A JP2009031931A JP 2009031931 A JP2009031931 A JP 2009031931A JP 2007193700 A JP2007193700 A JP 2007193700A JP 2007193700 A JP2007193700 A JP 2007193700A JP 2009031931 A JP2009031931 A JP 2009031931A
Authority
JP
Japan
Prior art keywords
search
occurrence
query
vector
occurrence query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007193700A
Other languages
Japanese (ja)
Inventor
Katsuhiko Shirai
克彦 白井
Hideaki Kikuchi
英明 菊池
Ippei Arita
一平 有田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Original Assignee
Waseda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University filed Critical Waseda University
Priority to JP2007193700A priority Critical patent/JP2009031931A/en
Publication of JP2009031931A publication Critical patent/JP2009031931A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technique capable of accurately classifying search words without depending on the accuracy of morphological analysis. <P>SOLUTION: A search log acquiring part 211 acquires a search log that records combinations of search words from a search server 30. Based on the search log, a co-occurrence query list creating part 221 creates a co-occurrence query list consisting of search words, co-occurrence queries and frequencies of co-occurrence. Based on the co-occurrence query list, a co-occurrence query matrix creating part 231 creates a co-occurrence query vector where the co-occurrence frequencies of the co-occurrence queries of the search words are vector components. A frequency analysis-vector standardization part 232 makes the vector lengths of the co-occurrence query vectors equal. An Euclidean distance calculating part 234 calculates the Euclidean distance between the co-occurrence query vectors. A hierarchical clustering part 235 performs clustering based on the Euclidean distance calculated. In this way, it is possible to accurately classify the search words without being affected by the accuracy of morphological analysis of a document. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体に関し、特に、検索語のクラスタリングを行うための検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体に関する。   The present invention relates to a search term clustering device, a search term clustering method, a search term clustering program, and a recording medium, and more particularly to a search term clustering device, a search term clustering method, a search term clustering program, and a recording medium for clustering search terms. .

近年、インターネットが爆発的に普及し、様々なウェブページ(Webページ)を含んだウェブサイト(Webサイト)が重宝されている。ユーザが所望のWebページをWeb上から検索するために、様々な検索エンジンが開発されている。現在主流の検索アルゴリズムは、ユーザの打ち込んだ検索語とWebページの文書内の語との一致による全文検索である。この方法では、語の多様性によって検索語とWebページの文書内の語との間に不一致が起こり、検索率が低下してしまう場合がある。   In recent years, the Internet has exploded in popularity, and websites (web sites) including various web pages (web pages) are useful. Various search engines have been developed for users to search for desired Web pages on the Web. The current mainstream search algorithm is a full-text search based on a match between a search term input by a user and a word in a document on a Web page. In this method, there is a case where a mismatch occurs between the search word and the word in the document of the Web page due to the diversity of words, and the search rate may be lowered.

その対策として、シソーラスなどの検索語分類(検索語クラスタリング)を利用し、フロントエンドで当該検索語に類似する検索語によっても検索を行う検索語拡張などが行われている。例えば、下記の非特許文献1及び非特許文献2では、異なる検索語が同じ文書内に含まれる頻度により、当該異なる検索語同士の類似度を推定し、検索語分類を行うクラスタリング手法が提案されている。また、文書における係り受け情報を利用した検索語分類も提案されている。
J. Wen, J. Nie, and H. Zhang ?“Query clustering using userlogs”, ACM Transactions on Information Systems (ACMTOIS), January 2002, Vol.20, No.1, pp.59.81. D. Beeferman and A. Berger, “Agglomerative clustering of search engine query log”, The 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2000), August 2000.
As countermeasures, search term expansion such as search term classification (search term clustering) such as a thesaurus is used to perform a search using a search term similar to the search term in the front end. For example, the following Non-Patent Document 1 and Non-Patent Document 2 propose a clustering method for estimating the similarity between different search terms based on the frequency with which different search terms are included in the same document, and classifying the search terms. ing. Search term classification using dependency information in documents has also been proposed.
J. Wen, J. Nie, and H. Zhang? “Query clustering using userlogs”, ACM Transactions on Information Systems (ACMTOIS), January 2002, Vol.20, No.1, pp.59.81. D. Beeferman and A. Berger, “Agglomerative clustering of search engine query log”, The 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2000), August 2000.

しかしながら、上記のような検索語分類では、文書内の単語間や文節間の区切りを判定する形態素解析の精度いかんによって検索率や検索語分類の精度が大きく異なり、検索率や検索語分類の精度が形態素解析の精度に依存しているという問題がある。そのため、文書に対する形態素解析を高精度に行う必要があるため、検索語の分類にあたり処理負担が大きいという問題がある。   However, in the search term classification as described above, the accuracy of the search rate and the search term classification varies greatly depending on the accuracy of the morphological analysis that determines the break between words or clauses in the document. Is dependent on the accuracy of morphological analysis. Therefore, since it is necessary to perform morphological analysis on a document with high accuracy, there is a problem that a processing load is large when classifying search terms.

本発明は、かかる事情に鑑みてなされたものであり、その目的は、形態素解析の精度に依存せずに検索語の分類を精度良く行うことができる検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体を提供することにある。   The present invention has been made in view of such circumstances, and an object of the present invention is to provide a search word clustering apparatus, a search word clustering method, and a search that can accurately classify search words without depending on the accuracy of morphological analysis. The object is to provide a word clustering program and a recording medium.

本発明は、不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて複数の検索語の組合せそれぞれにより検索を行った記録である検索ログを取得する検索ログ取得手段と、検索ログ取得手段が取得した検索ログに基づいて、検索語それぞれについて、検索語と組合わされて検索に用いられた他の検索語である共起クエリと、共起クエリが検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する共起クエリリスト作成手段と、共起クエリリスト作成手段が作成した共起クエリリストに基づいて、検索語のn個の共起クエリそれぞれの共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成する共起クエリベクトル作成手段と、共起クエリベクトル作成手段が作成した検索語それぞれについての共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するベクトル標準化手段と、ベクトル標準化手段が標準化した検索語それぞれについての共起クエリベクトルそれぞれ同士のユークリッド距離を算出するユークリッド距離算出手段と、ユークリッド距離算出手段が算出したユークリッド距離に基づいて、検索語それぞれについてクラスタリングを行うクラスタリング手段と、
を備えた検索語クラスタリング装置である。
The present invention relates to a search log for acquiring a search log that is a record of a search performed by each of a plurality of combinations of search terms in a search server that searches a web page by a combination of a plurality of search terms specified by an unspecified user. Based on the search log acquired by the acquisition unit and the search log acquisition unit, for each search term, a co-occurrence query that is another search term combined with the search term and used for the search, and the co-occurrence query is the search term Based on the co-occurrence query list created by the co-occurrence query list creation means for creating the co-occurrence query list associated with the co-occurrence frequency that is the frequency used in the search in combination with A co-occurrence query vector which is an n-dimensional vector having a numerical value based on the co-occurrence frequency of each of the n co-occurrence queries of the search word as a vector component is generated. Query vector creation means, vector standardization means for standardizing each co-occurrence query vector for each search term created by the co-occurrence query vector creation means, and search terms standardized by the vector standardization means Euclidean distance calculation means for calculating the Euclidean distance between each of the co-occurrence query vectors for, and clustering means for clustering each search word based on the Euclidean distance calculated by the Euclidean distance calculation means,
Is a search word clustering device.

この構成によれば、検索ログ取得手段は、不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて複数の検索語の組合せそれぞれにより検索を行った頻度を記録した検索ログを取得し、共起クエリリスト作成手段は、検索ログ取得手段が取得した検索ログに基づいて、検索語それぞれについて、検索語と組合わされて検索に用いられた他の検索語である共起クエリと、共起クエリが検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成するため、文書に対する形態素解析の精度に影響されずに、不特定のユーザにより検索語と組合わされて検索に用いられた共起クエリと当該共起クエリの共起頻度とを取得することができる。   According to this configuration, the search log acquisition means calculates the frequency of performing a search by each of a plurality of combinations of search terms in a search server that searches a web page by a combination of a plurality of search terms specified by an unspecified user. The recorded search log is acquired, and the co-occurrence query list creation means uses the other search terms combined with the search word and used for the search based on the search log acquired by the search log acquisition means. Because a co-occurrence query list is created in which a co-occurrence query is associated with the co-occurrence frequency, which is the frequency that the co-occurrence query is combined with the search term and used in the search, it is affected by the accuracy of morphological analysis on the document. Instead, it is possible to acquire the co-occurrence query combined with the search word by an unspecified user and used for the search, and the co-occurrence frequency of the co-occurrence query.

また、共起クエリベクトル作成手段は、共起クエリリスト作成手段が作成した共起クエリリストに基づいて、検索語のn個の共起クエリそれぞれの共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成するため、後段の解析に適するように共起クエリリストを定量化することができる。また、ベクトル標準化手段は、共起クエリベクトル作成手段が作成した検索語それぞれについての共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するため、共起クエリベクトルのベクトル長の大小によって、検索語クラスタリングに誤差が生じることを防止することができる。   Further, the co-occurrence query vector creation means uses a numerical value based on the co-occurrence frequency of each of the n co-occurrence queries of the search word as a vector component based on the co-occurrence query list created by the co-occurrence query list creation means. Since the co-occurrence query vector which is an n-dimensional vector is created, the co-occurrence query list can be quantified so as to be suitable for the subsequent analysis. In addition, the vector standardization unit standardizes the co-occurrence query vectors so that the vector lengths of the co-occurrence query vectors are the same for each search term created by the co-occurrence query vector creation unit. It is possible to prevent an error from occurring in search term clustering.

さらに、ユークリッド距離算出手段は、ベクトル標準化手段が標準化した検索語それぞれについての共起クエリベクトルそれぞれ同士のユークリッド距離を算出し、クラスタリング手段は、ユークリッド距離算出手段が算出したユークリッド距離に基づいて、検索語それぞれについてクラスタリングを行うため、ユークリッド距離が近い共起クエリベクトルに係る検索語同士は共起クエリとその共起頻度が一致する度合が大きく類似すると推測することができ、文書に対する形態素解析の精度に影響されずに、不特定のユーザにより検索語と組合わされて検索に用いられた共起クエリと当該共起クエリの共起頻度とに基づいて、検索語の分類を精度良く行うことができる。   Further, the Euclidean distance calculation means calculates the Euclidean distance between the co-occurrence query vectors for each search term standardized by the vector standardization means, and the clustering means searches based on the Euclidean distance calculated by the Euclidean distance calculation means. Since each word is clustered, it can be inferred that search terms related to co-occurrence query vectors with close Euclidean distances are very similar in terms of the degree of coincidence of the co-occurrence queries and their co-occurrence frequencies. The search terms can be classified with high accuracy based on the co-occurrence query combined with the search term by an unspecified user and used for the search, and the co-occurrence frequency of the co-occurrence query. .

この場合、共起クエリリスト作成手段は、検索ログ取得手段が取得した検索ログから検索語それぞれを抽出し、抽出した検索語それぞれについて検索サーバが集計した共起クエリと共起クエリの共起頻度とを取得することにより共起クエリリストを作成するものとできる。   In this case, the co-occurrence query list creation unit extracts each search term from the search log acquired by the search log acquisition unit, and the co-occurrence frequency of the co-occurrence query and the co-occurrence query collected by the search server for each of the extracted search terms. Can be used to create a co-occurrence query list.

この構成によれば、共起クエリリスト作成手段は、検索ログ取得手段が取得した検索ログから検索語それぞれを抽出し、抽出した検索語それぞれについて装置外部の検索サーバが集計した共起クエリと共起クエリの共起頻度とを取得することにより共起クエリリストを作成するため、共起クエリリスト作成手段自体が検索ログを集計する必要がなくなり、検索語クラスタリング装置の処理負担を軽減することができる。また、この構成によれば、検索語クラスタリング装置に接続されている構成として、検索サーバを有しなくても良くなる。   According to this configuration, the co-occurrence query list creation unit extracts each search term from the search log acquired by the search log acquisition unit, and shares the co-occurrence query collected by the search server outside the apparatus for each of the extracted search terms. Since the co-occurrence query list is created by acquiring the co-occurrence frequency of the occurrence query, it is not necessary for the co-occurrence query list creation means itself to aggregate the search log, and the processing load of the search term clustering apparatus can be reduced. it can. Moreover, according to this structure, it is not necessary to have a search server as a structure connected to the search word clustering apparatus.

あるいは、共起クエリリスト作成手段は、検索ログ取得手段が取得した検索ログから、検索語それぞれについての共起クエリと共起クエリの共起頻度とを集計することにより共起クエリリストを作成するものとできる。   Alternatively, the co-occurrence query list creation unit creates a co-occurrence query list by aggregating the co-occurrence query and the co-occurrence frequency of the co-occurrence query for each search term from the search log acquired by the search log acquisition unit. I can do it.

この構成によれば、共起クエリリスト作成手段は、検索ログ取得手段が取得した検索ログから、検索語それぞれについての共起クエリと共起クエリの共起頻度とを自ら集計することにより共起クエリリストを作成するため、検索語クラスタリング装置における後段の処理に適した共起クエリリストを作成することが可能となる。   According to this configuration, the co-occurrence query list creation unit performs co-occurrence by tabulating the co-occurrence query and the co-occurrence frequency of the co-occurrence query for each search term from the search log acquired by the search log acquisition unit. Since a query list is created, it is possible to create a co-occurrence query list suitable for subsequent processing in the search word clustering apparatus.

一方、共起クエリベクトル作成手段が作成した共起クエリベクトルから共起頻度に基づいた数値が閾値以下である共起クエリの共起頻度に基づいた数値をベクトル成分から削除するベクトル次元数削減手段をさらに備えることが好適である。   On the other hand, the vector dimension number reduction means for deleting the numerical value based on the co-occurrence frequency of the co-occurrence query whose numerical value based on the co-occurrence frequency is equal to or less than the threshold from the co-occurrence query vector generated by the co-occurrence query vector generating means. It is preferable to further include

この構成によれば、ベクトル次元数削減手段は、共起クエリベクトル作成手段が作成した共起クエリベクトルから共起頻度に基づいた数値が閾値以下である共起クエリの共起頻度をベクトル成分から削除するため、検索語のクラスタリングに適さない共起頻度が低過ぎる共起クエリをクラスタリングの処理から除くことができ、クラスタリングの精度を向上させ、装置の処理負担を軽減することができる。   According to this configuration, the vector dimension number reduction means calculates the co-occurrence frequency of the co-occurrence query whose numerical value based on the co-occurrence frequency from the co-occurrence query vector created by the co-occurrence query vector creation means is equal to or less than a threshold from the vector component. Since deletion is performed, a co-occurrence query whose co-occurrence frequency that is not suitable for clustering of search terms is too low can be excluded from the clustering process, so that the accuracy of clustering can be improved and the processing load of the apparatus can be reduced.

この場合、クラスタリング手段は、検索語それぞれについてウォード(Ward)法によりクラスタリングを行うものであることが好適である。   In this case, it is preferable that the clustering means performs clustering for each search word by the Ward method.

この構成によれば、クラスタリング手段は、検索語それぞれについてウォード(Ward)法によりクラスタリングを行うため、高精度でクラスタリングを行うことができる。   According to this configuration, since the clustering means performs clustering for each search word by the Ward method, clustering can be performed with high accuracy.

また、本発明は、コンピュータが、不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて複数の検索語の組合せそれぞれにより検索を行った記録である検索ログを取得する検索ログ取得ステップと、コンピュータが、検索ログ取得ステップで取得した検索ログに基づいて、検索語それぞれについて、検索語と組合わされて検索に用いられた他の検索語である共起クエリと、共起クエリが検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する共起クエリリスト作成ステップと、コンピュータが、共起クエリリスト作成ステップで作成した共起クエリリストに基づいて、検索語のn個の共起クエリそれぞれの共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成する共起クエリベクトル作成ステップと、コンピュータが、共起クエリベクトル作成ステップで作成した検索語それぞれについての共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するベクトル標準化ステップと、コンピュータが、ベクトル標準化ステップで標準化した検索語それぞれについての共起クエリベクトルそれぞれ同士のユークリッド距離を算出するユークリッド距離算出ステップと、コンピュータが、ユークリッド距離算出ステップで算出したユークリッド距離に基づいて、検索語それぞれについてクラスタリングを行うクラスタリングステップと、を含む検索語クラスタリング方法である。   The present invention also provides a search log in which a computer performs a search using a combination of a plurality of search terms in a search server that searches a web page using a combination of a plurality of search terms specified by an unspecified user. And a co-occurrence query that is another search word used in the search combined with the search word for each search word based on the search log acquired by the computer in the search log acquisition step A co-occurrence query list creating step for creating a co-occurrence query list in which a co-occurrence query is associated with a co-occurrence frequency that is a frequency used in a search by combining the co-occurrence query with a search word, and the computer Based on the co-occurrence query list created in the creation step, a numerical value based on the co-occurrence frequency of each of the n co-occurrence queries of the search term The co-occurrence query vector creation step for creating a co-occurrence query vector, which is an n-dimensional vector as a vector component, and the vector length of each of the co-occurrence query vectors for each search term created by the computer in the co-occurrence query vector creation step are A vector standardization step for standardizing to be the same, a Euclidean distance calculation step for calculating the Euclidean distance between the co-occurrence query vectors for each search term standardized by the computer in the vector standardization step, and a computer for calculating the Euclidean distance And a clustering step for performing clustering for each of the search terms based on the Euclidean distance calculated in the step.

この場合、共起クエリリスト作成ステップは、コンピュータが、検索ログ取得ステップで取得した検索ログから検索語それぞれを抽出し、抽出した検索語それぞれについて検索サーバが集計した共起クエリと共起クエリの共起頻度とを取得することにより共起クエリリストを作成するものとできる。   In this case, in the co-occurrence query list creation step, the computer extracts each search term from the search log acquired in the search log acquisition step, and the co-occurrence query and the co-occurrence query are totaled by the search server for each extracted search term. By obtaining the co-occurrence frequency, a co-occurrence query list can be created.

あるいは、共起クエリリスト作成ステップは、コンピュータが、検索ログ取得ステップで取得した検索ログから、検索語それぞれについての共起クエリと共起クエリの共起頻度とを集計することにより共起クエリリストを作成するものとできる。   Alternatively, in the co-occurrence query list creation step, the computer calculates the co-occurrence query list by aggregating the co-occurrence query for each search term and the co-occurrence frequency of the co-occurrence query from the search log acquired in the search log acquisition step. Can be created.

一方、コンピュータが、共起クエリベクトル作成ステップで作成した共起クエリベクトルから共起頻度に基づいた数値が閾値以下である共起クエリの共起頻度に基づいた数値をベクトル成分から削除するベクトル次元数削減ステップをさらに含むことが好ましい。   On the other hand, a vector dimension in which the computer deletes a numerical value based on the co-occurrence frequency of the co-occurrence query whose numerical value based on the co-occurrence frequency is equal to or less than a threshold from the co-occurrence query vector generated in the co-occurrence query vector generation step from the vector component It is preferable to further include a number reduction step.

また、クラスタリングステップは、コンピュータが、検索語それぞれについてウォード(Ward)法によりクラスタリングを行うことが好ましい。   In the clustering step, it is preferable that the computer performs clustering for each search word by a Ward method.

さらに、本発明は、不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて複数の検索語の組合せそれぞれにより検索を行った記録である検索ログを取得する検索ログ取得ステップと、検索ログ取得ステップで取得した検索ログに基づいて、検索語それぞれについて、検索語と組合わされて検索に用いられた他の検索語である共起クエリと、共起クエリが検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する共起クエリリスト作成ステップと、共起クエリリスト作成ステップで作成した共起クエリリストに基づいて、検索語のn個の共起クエリそれぞれの共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成する共起クエリベクトル作成ステップと、共起クエリベクトル作成ステップで作成した検索語それぞれについての共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するベクトル標準化ステップと、ベクトル標準化ステップで標準化した検索語それぞれについての共起クエリベクトルそれぞれ同士のユークリッド距離を算出するユークリッド距離算出ステップと、ユークリッド距離算出ステップで算出したユークリッド距離に基づいて、検索語それぞれについてクラスタリングを行うクラスタリングステップと、をコンピュータに実行させるための検索語クラスタリングプログラムである。   Furthermore, the present invention acquires a search log that is a record of a search performed by each combination of a plurality of search terms in a search server that searches a web page by a combination of a plurality of search terms specified by an unspecified user. Based on the search log acquisition step and the search log acquired in the search log acquisition step, for each search word, a co-occurrence query that is another search word combined with the search word and used for the search is A co-occurrence query list creation step for creating a co-occurrence query list associated with a co-occurrence frequency that is a frequency used in a search combined with a search term, and a co-occurrence query list created in the co-occurrence query list creation step The co-occurrence vector is an n-dimensional vector having a numerical value based on the co-occurrence frequency of each of the n co-occurrence queries of the search term as a vector component A co-occurrence query vector creation step for creating a revector, a vector standardization step for standardizing the vector length of each co-occurrence query vector for each search term created in the co-occurrence query vector creation step, and a vector standardization step A Euclidean distance calculating step for calculating the Euclidean distance between the co-occurrence query vectors for each of the search terms standardized in step E, a clustering step for performing clustering for each of the search terms based on the Euclidean distance calculated in the Euclidean distance calculating step, Is a search word clustering program for causing a computer to execute

この場合、共起クエリリスト作成ステップでは、コンピュータに、検索ログ取得ステップで取得した検索ログから検索語それぞれを抽出させ、抽出した検索語それぞれについて検索サーバが集計した共起クエリと共起クエリの共起頻度とを取得することにより共起クエリリストを作成させるものとできる。   In this case, in the co-occurrence query list creation step, the computer extracts each search term from the search log acquired in the search log acquisition step, and the co-occurrence query and the co-occurrence query aggregated by the search server for each of the extracted search terms. By acquiring the co-occurrence frequency, a co-occurrence query list can be created.

あるいは、共起クエリリスト作成ステップでは、コンピュータに、検索ログ取得ステップで取得した検索ログから、検索語それぞれについての共起クエリと共起クエリの共起頻度とを集計させることにより共起クエリリストを作成させるものとできる。   Alternatively, in the co-occurrence query list creation step, the co-occurrence query list is obtained by causing the computer to aggregate the co-occurrence query and the co-occurrence frequency of the co-occurrence query from the search log acquired in the search log acquisition step. Can be created.

一方、コンピュータに、共起クエリベクトル作成ステップで作成した共起クエリベクトルから共起頻度に基づいた数値が閾値以下である共起クエリの共起頻度に基づいた数値をベクトル成分から削除するベクトル次元数削減ステップをさらに実行させることが好適である。   On the other hand, the vector dimension which deletes the numerical value based on the co-occurrence frequency of the co-occurrence query whose numerical value based on the co-occurrence frequency is equal to or less than the threshold from the co-occurrence query vector generated in the co-occurrence query vector generation step from the vector component. It is preferable to further execute the number reduction step.

また、クラスタリングステップでは、コンピュータに、検索語それぞれについてウォード(Ward)法によりクラスタリングを実行させることが好適である。   In the clustering step, it is preferable to cause the computer to execute clustering for each search word by the Ward method.

加えて本発明は、本発明の検索語クラスタリングプログラムを記録したコンピュータ読み取り可能な記録媒体である。   In addition, the present invention is a computer-readable recording medium on which the search word clustering program of the present invention is recorded.

本発明の検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体によれば、文書に対する形態素解析の精度に影響されずに、不特定のユーザにより検索語と組合わされて検索に用いられた共起クエリと当該共起クエリの共起頻度とに基づいて、検索語の分類を精度良く行うことができる。   According to the search word clustering device, the search word clustering method, the search word clustering program, and the recording medium of the present invention, the search word clustering program is combined with the search word by an unspecified user and used for the search without being affected by the accuracy of the morphological analysis for the document. Based on the obtained co-occurrence query and the co-occurrence frequency of the co-occurrence query, the search terms can be classified with high accuracy.

以下、本発明の実施の形態に係る検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体について、図面を参照しつつ説明する。   Hereinafter, a search word clustering device, a search word clustering method, a search word clustering program, and a recording medium according to embodiments of the present invention will be described with reference to the drawings.

図1は、実施形態に係る検索システムの構成を示す図である。図1に示すように、本実施形態の検索語クラスタリング装置及び検索語クラスタリング方法は、パーソナルコンピュータ、ワークステーション等の不特定多数のユーザ端末10、検索サーバ30、及び情報ホストコンピュータ40が、ネットワーク20を介して相互に接続された検索システムにおいて適用される。図1の検索システムにおいては、ユーザ端末10はユーザによって指定された複数の検索語の組合せである検索クエリを検索サーバ30に送信する。検索サーバ30は、ユーザ端末10から送信された検索クエリに基づいて、情報ホストコンピュータ40からWebサイト上のWebページを検索し、検索結果をユーザ端末10に返信する。   FIG. 1 is a diagram illustrating a configuration of a search system according to the embodiment. As shown in FIG. 1, the search word clustering apparatus and the search word clustering method of this embodiment are configured such that a plurality of unspecified user terminals 10 such as personal computers and workstations, a search server 30 and an information host computer 40 are connected to a network 20. Applied in a search system interconnected via In the search system of FIG. 1, the user terminal 10 transmits a search query that is a combination of a plurality of search terms designated by the user to the search server 30. The search server 30 searches the Web page on the Web site from the information host computer 40 based on the search query transmitted from the user terminal 10 and returns the search result to the user terminal 10.

図2は、実施形態に係る検索サーバの機能ブロックを示すブロック図である。図2に示すように、検索サーバ30は、ユーザ端末10から送信された検索クエリを検索制御部301で受信し、情報収集制御部303を介して情報ホストコンピュータ40からWebサイト上のWebページを検索する。ユーザ端末10から送信された検索クエリに含まれる検索語の組合せは、検索ログDB302にユーザ端末10から送信された時刻とともに検索ログとして記録される。   FIG. 2 is a block diagram illustrating functional blocks of the search server according to the embodiment. As shown in FIG. 2, the search server 30 receives a search query transmitted from the user terminal 10 by the search control unit 301, and retrieves a Web page on the Web site from the information host computer 40 via the information collection control unit 303. Search for. A combination of search terms included in the search query transmitted from the user terminal 10 is recorded as a search log together with the time transmitted from the user terminal 10 in the search log DB 302.

検索制御部301は、ユーザ端末10からの要求に応じて、検索ログDB302を参照し、一つの検索語に対して検索クエリとして組合わされて検索に使用された検索語である共起クエリを、その検索語に対して組合わされて検索に使用された回数である共起頻度が上位である順番にユーザ端末10に提示するサービスを行う。情報収集制御部303は、検索制御部301からの指令に基づいて情報ホストコンピュータ40から検索した情報を収集情報DB304に逐次蓄積しつつ、検索結果として検索制御部301を介してユーザ端末10に返信する。   In response to a request from the user terminal 10, the search control unit 301 refers to the search log DB 302, and searches for a co-occurrence query that is a search term that is combined as a search query and used for a search term. A service to be presented to the user terminal 10 in the order in which the co-occurrence frequency, which is the number of times combined with the search word and used for the search, is higher. The information collection control unit 303 sequentially accumulates information retrieved from the information host computer 40 based on a command from the search control unit 301 in the collected information DB 304, and returns it as a search result to the user terminal 10 via the search control unit 301. To do.

図3は、実施形態に係るユーザ端末のハードウェアの構成を示すブロック図である。図3に示すように、本実施形態のユーザ端末10は、インターフェース101、キーボード102、マウス103、ハードディスク104、CD−ROMドライブ105、メモリカードスロット106、ROM107、RAM108、表示装置109及びCPU110を備えた一般的なパーソナルコンピュータとして構成されている。   FIG. 3 is a block diagram illustrating a hardware configuration of the user terminal according to the embodiment. As shown in FIG. 3, the user terminal 10 of this embodiment includes an interface 101, a keyboard 102, a mouse 103, a hard disk 104, a CD-ROM drive 105, a memory card slot 106, a ROM 107, a RAM 108, a display device 109, and a CPU 110. It is configured as a general personal computer.

ユーザ端末10は、CD−ROMドライブ105あるいはメモリカードスロット106に、本実施形態の検索語クラスタリングプログラムが記録された記録媒体を挿入される。CD−ROMドライブ105あるいはメモリカードスロット106に挿入された記録媒体から読み出された検索語クラスタリングプログラムは、ハードディスク104によって記録された後、RAM108に読み込まれて実行される。検索語クラスタリングプログラムが実行されることにより、ユーザ端末10は、検索語クラスタリング装置として機能する。   The user terminal 10 is inserted into the CD-ROM drive 105 or the memory card slot 106 with a recording medium on which the search word clustering program of this embodiment is recorded. The search word clustering program read from the recording medium inserted into the CD-ROM drive 105 or the memory card slot 106 is recorded by the hard disk 104 and then read into the RAM 108 and executed. By executing the search term clustering program, the user terminal 10 functions as a search term clustering device.

図4は、実施形態に係るユーザ端末の機能ブロックを示すブロック図であり、本実施形態の検索語クラスタリングプログラムが実行されている状態を示す。図4に示すように、本実施形態のユーザ端末10は、ログ解析ブロック210、共起クエリ取得ブロック220、クラスタ分析ブロック230及び出力ブロック240を備えている。   FIG. 4 is a block diagram showing functional blocks of the user terminal according to the embodiment, and shows a state in which the search word clustering program of the present embodiment is being executed. As shown in FIG. 4, the user terminal 10 of this embodiment includes a log analysis block 210, a co-occurrence query acquisition block 220, a cluster analysis block 230, and an output block 240.

ログ解析ブロック210は、検索ログ取得部211、検索ログ解析部212、共起情報格納部213及び検索語リスト格納部214を有している。検索ログ取得部211は、検索サーバ30からネットワーク20を介して、複数の検索語の組合せにより検索を行った記録を含む検索ログを取得するためのものである。検索ログ解析部212は、検索ログ取得部211が取得した検索ログに対して、ノイズフィルタリング、共起クエリ取得、集計処理等の検索ログ解析処理を行い、検索語それぞれに対する共起クエリ及びその共起頻度を解析するためのものである。   The log analysis block 210 includes a search log acquisition unit 211, a search log analysis unit 212, a co-occurrence information storage unit 213, and a search word list storage unit 214. The search log acquisition unit 211 is for acquiring a search log including a record in which a search is performed using a combination of a plurality of search terms from the search server 30 via the network 20. The search log analysis unit 212 performs search log analysis processing, such as noise filtering, co-occurrence query acquisition, and aggregation processing, on the search log acquired by the search log acquisition unit 211, and the co-occurrence query for each search word and its co-occurrence. This is for analyzing the occurrence frequency.

検索ログ解析部212が検索ログから解析した検索語それぞれに対する共起クエリ及びその共起頻度は、共起情報格納部213に記録される。また、検索ログ解析部212が検索ログから解析した不特定多数のユーザ端末10により指定された検索語は、検索に用いられた頻度順に順位を付けられて検索語リスト格納部214に記録される。検索ログ取得部211及び検索ログ解析部212は、特許請求の範囲に記載の検索ログ取得手段として機能する。   The co-occurrence query and the co-occurrence frequency for each search term analyzed from the search log by the search log analysis unit 212 are recorded in the co-occurrence information storage unit 213. In addition, the search terms designated by the unspecified number of user terminals 10 analyzed from the search log by the search log analysis unit 212 are recorded in the search term list storage unit 214 in the order of frequency used for the search. . The search log acquisition unit 211 and the search log analysis unit 212 function as a search log acquisition unit described in the claims.

共起クエリ取得ブロック220は、共起クエリリスト作成部221と共起クエリリスト格納部222とを有している。共起クエリリスト作成部221は、共起情報格納部213に記録された検索語それぞれに対する共起クエリ及びその共起頻度、あるいは検索語リスト格納部214に記録された検索語から、検索語それぞれに対する共起クエリ及びその共起頻度が関連付けられた共起クエリリストを作成するためのものである。共起クエリリスト作成部221が作成した共起クエリリストは、共起クエリリスト格納部222に記録される。共起クエリリスト作成部221は、特許請求の範囲に記載の共起クエリリスト作成手段として機能する。   The co-occurrence query acquisition block 220 includes a co-occurrence query list creation unit 221 and a co-occurrence query list storage unit 222. The co-occurrence query list creation unit 221 determines each search word from the co-occurrence query for each search word recorded in the co-occurrence information storage unit 213 and its co-occurrence frequency, or the search word recorded in the search word list storage unit 214. Is a co-occurrence query list in which the co-occurrence queries for and the co-occurrence frequencies are associated. The co-occurrence query list created by the co-occurrence query list creation unit 221 is recorded in the co-occurrence query list storage unit 222. The co-occurrence query list creation unit 221 functions as a co-occurrence query list creation unit described in the claims.

クラスタ分析ブロック230は、共起クエリ行列作成部231、頻度分析・ベクトル標準化部232、ベクトル次元数削減部233、ユークリッド距離算出部234及び階層型クラスタリング部235を有している。   The cluster analysis block 230 includes a co-occurrence query matrix creation unit 231, a frequency analysis / vector standardization unit 232, a vector dimension number reduction unit 233, an Euclidean distance calculation unit 234, and a hierarchical clustering unit 235.

共起クエリ行列作成部231は、共起クエリリスト格納部222に記録された共起クエリリストに基づいて、m個の検索語(w,w,…w)を行とし、n個の共起クエリ(c,c,…c)を列とし、検索語wと共起クエリcとが共起する共起頻度の対数を成分aijとするような共起クエリ行列を作成する。つまり、この共起クエリ行列は、検索語wに対して、n個の共起クエリ(c,c,…c)の共起頻度の対数をベクトル成分とするn次元の共起クエリベクトル(ai1,ai2,…ain)を行ベクトルとする。共起クエリ行列作成部231は、特許請求の範囲に記載の共起クエリベクトル作成手段として機能する。 Based on the co-occurrence query list recorded in the co-occurrence query list storage unit 222, the co-occurrence query matrix creation unit 231 takes m search terms (w 1 , w 2 ,... W m ) as rows and n Co-occurrence queries (c 1 , c 2 ,... C n ) as columns, and a co-occurrence query in which the logarithm of the co-occurrence frequency at which the search word w i and the co-occurrence query c j co-occur is the component a ij Create a matrix. That is, this co-occurrence query matrix is an n-dimensional co-occurrence with the logarithm of the co-occurrence frequency of n co-occurrence queries (c 1 , c 2 ,..., C n ) as vector components for the search word w i . A query vector (a i1 , a i2 ,... A in ) is a row vector. The co-occurrence query matrix creation unit 231 functions as a co-occurrence query vector creation unit described in the claims.

頻度分析・ベクトル標準化部232は、共起クエリ行列作成部231によって作成され、その成分である共起頻度によってベクトル長が異なる共起クエリベクトルそれぞれについて、ベクトル長が同一となるように標準化を行うためのものである。頻度分析・ベクトル標準化部232は、特許請求の範囲に記載のベクトル標準化手段として機能する。   The frequency analysis / vector standardization unit 232 standardizes the co-occurrence query vectors created by the co-occurrence query matrix creation unit 231 and having different vector lengths depending on the co-occurrence frequencies of the components so that the vector lengths are the same. Is for. The frequency analysis / vector standardization unit 232 functions as vector standardization means described in the claims.

ベクトル次元数削減部233は、頻度分析・ベクトル標準化部232によって標準化された共起クエリベクトルについて、その共起頻度が予め設定した閾値以下になるほど低い共起クエリの共起頻度についてはクラスタリングに適さないため、ベクトル成分から除去し、ベクトル次元数の削減を図るためのものである。ベクトル次元数削減部233は、特許請求の範囲に記載のベクトル次元数削減手段として機能する。なお、ベクトル次元数削減部233は、共起頻度が予め設定した閾値以上になるほど極端に高い共起クエリの共起頻度についてもクラスタリングに適さないため、ベクトル成分から除去するようにしても良い。   The vector dimensionality reduction unit 233 is suitable for clustering with respect to the co-occurrence query vectors that are standardized by the frequency analysis / vector standardization unit 232, and the co-occurrence frequency of the co-occurrence query is so low that the co-occurrence frequency is below a preset threshold. Therefore, it is removed from the vector component to reduce the number of vector dimensions. The vector dimension number reduction unit 233 functions as vector dimension number reduction means described in the claims. Note that the vector dimension number reduction unit 233 may remove the co-occurrence frequency of the co-occurrence query that is extremely high as the co-occurrence frequency is equal to or higher than a preset threshold value from the vector components because it is not suitable for clustering.

ユークリッド距離算出部234は、ベクトル次元数削減部233がベクトル次元数を削減した共起クエリベクトルそれぞれ同士のユークリッド距離を算出するためのものである。ユークリッド距離算出部234は、特許請求の範囲に記載のユークリッド距離算出手段として機能する。なお、共起クエリベクトルそれぞれ同士の距離は、ユークリッド距離による他、コサイン尺度等によっても表現することが可能である。   The Euclidean distance calculation unit 234 is for calculating the Euclidean distance between the co-occurrence query vectors whose vector dimension number has been reduced by the vector dimension number reduction unit 233. The Euclidean distance calculation unit 234 functions as Euclidean distance calculation means described in the claims. Note that the distance between the co-occurrence query vectors can be expressed not only by the Euclidean distance but also by a cosine scale or the like.

階層型クラスタリング部235は、ユークリッド距離算出部234によって算出された共起クエリベクトルそれぞれ同士のユークリッド距離に基づいて、検索語それぞれについてウォード(Ward)法による階層型クラスタリングを行うためのものである。階層型クラスタリング部235は、特許請求の範囲に記載のクラスタリング手段として機能する。なお、階層型クラスタリング部235は、ウォード法の他、最近隣法、最遠隣法、群平均法、重心法、メディアン法、Mcquitty法により階層型クラスタリングを行うものとしても良く、最遠隣法及びMcquitty法によってもウォード法に次いで高精度のクラスタリングが可能となる。なお、本実施形態においては、共起クエリベクトルそれぞれ同士のユークリッド距離について閾値を設定し、閾値以下のユークリッド距離である共起クエリベクトルに係る検索語を類似するものとして、通常の類語辞書の形式で出力することも可能である。   The hierarchical clustering unit 235 is for performing hierarchical clustering by the Ward method for each search word based on the Euclidean distance between the co-occurrence query vectors calculated by the Euclidean distance calculation unit 234. The hierarchical clustering unit 235 functions as clustering means described in the claims. The hierarchical clustering unit 235 may perform hierarchical clustering by the nearest neighbor method, the farthest neighbor method, the group average method, the centroid method, the median method, and the Mcquitty method in addition to the Ward method. In addition, the Mcquitty method enables high-precision clustering after the Ward method. In this embodiment, a threshold is set for the Euclidean distance between the co-occurrence query vectors, and a search term related to the co-occurrence query vector having a Euclidean distance equal to or less than the threshold is similar, and a normal synonym dictionary format is used. Can also be output.

出力ブロック240は、樹形図出力部241、クラスタ形成順序解析部242及び階層構造番号データ格納部243を有している。樹形図出力部241は、階層型クラスタリング部235によって出力されたデータの規模が小規模であるときに、クラスタリングの結果を樹形図として出力するためのものである。   The output block 240 includes a tree diagram output unit 241, a cluster formation order analysis unit 242, and a hierarchical structure number data storage unit 243. The tree diagram output unit 241 is for outputting the result of clustering as a tree diagram when the scale of the data output by the hierarchical clustering unit 235 is small.

クラスタ形成順序解析部242は、階層型クラスタリング部235によって出力されたデータの規模が小規模であるときに、クラスタの形成順序を解析してクラスタリングの結果を階層構造番号で出力するためのものである。クラスタ形成順序解析部242により出力された階層構造番号は、階層構造番号データ格納部243に格納される。   The cluster formation order analysis unit 242 is for analyzing the cluster formation order and outputting the clustering result as a hierarchical structure number when the scale of the data output by the hierarchical clustering unit 235 is small. is there. The hierarchical structure number output by the cluster formation order analysis unit 242 is stored in the hierarchical structure number data storage unit 243.

以下、本実施形態のユーザ端末10の検索語のクラスタリングを行う動作について説明する。   Hereafter, the operation | movement which clusters the search term of the user terminal 10 of this embodiment is demonstrated.

図5は、実施形態に係るユーザ端末の動作を示すフロー図である。図5に示す処理は、ログ解析フェーズ(S11〜S12)、共起クエリ取得フェーズ(S13〜S15)、クラスター分析フェーズ(S16〜S20)、出力フェーズ(S21〜S24)に大別される。   FIG. 5 is a flowchart showing the operation of the user terminal according to the embodiment. The processing shown in FIG. 5 is roughly divided into a log analysis phase (S11 to S12), a co-occurrence query acquisition phase (S13 to S15), a cluster analysis phase (S16 to S20), and an output phase (S21 to S24).

まず、ユーザ端末10の検索ログ取得部211は、検索サーバ30からネットワーク20を介して、検索ログを取得する(S11)。検索ログは、例えば、図6に示すような形態をとり、複数の検索語の組合せにより検索を行った記録を含む情報である。   First, the search log acquisition unit 211 of the user terminal 10 acquires a search log from the search server 30 via the network 20 (S11). The search log is information including, for example, a record shown in FIG. 6 and a search performed by a combination of a plurality of search terms.

検索ログ解析部212は、検索ログ解析を行う(S12)。検索ログ解析の処理において、検索ログ解析部212は、まず、検索ログに含まれている検索語の内で、予め定めた閾値未満しか検索を行っていない検索語を削除するノイズフィルタリングを行う。これにより、例えば、ユーザの入力ミスによる誤った文言等の検索語クラスタリングを行う必要がない語を除去することができる。   The search log analysis unit 212 performs search log analysis (S12). In the search log analysis process, the search log analysis unit 212 first performs noise filtering that deletes search terms that are searched for less than a predetermined threshold among the search terms included in the search log. Thereby, for example, it is possible to remove words that do not need to be subjected to search word clustering such as incorrect wording due to user input mistakes.

次に検索ログ解析の処理において、検索ログ解析部212は、検索ログより検索語を抽出する。これにより、検索ログ解析部212は、図7に示すような検索語と共起クエリとの組み合わせである共起情報を得ることができる。図7において、例えば、検索語「釣りエサ」に対して「通販」が共起クエリとして、組み合わされて検索に用いられたものである。取得した共起情報は共起情報格納部213に記録される。一方、検索ログ解析部212は、図8に示すような検索に用いられた回数の多い順に、検索語の使用された順位を決定する。この検索語とその使用順位は検索語リスト格納部214に記録される。これにより、検索に使用された回数の多い検索語から優先的にクラスタリングを行うことができる。   Next, in the search log analysis process, the search log analysis unit 212 extracts a search term from the search log. As a result, the search log analysis unit 212 can obtain co-occurrence information that is a combination of a search word and a co-occurrence query as shown in FIG. In FIG. 7, for example, “mail order” is combined as a co-occurrence query for the search term “fishing food” and used in the search. The acquired co-occurrence information is recorded in the co-occurrence information storage unit 213. On the other hand, the search log analysis unit 212 determines the order in which the search terms are used in descending order of the number of times used for the search as shown in FIG. The search terms and their order of use are recorded in the search term list storage unit 214. As a result, clustering can be performed preferentially from search terms that are frequently used for search.

共起クエリリスト取得部221は、検索ログに基づいて、検索語それぞれについて、検索語と組合わされて検索に用いられた他の検索語である共起クエリと、共起クエリが検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する(S13〜S15)。この共起クエリリストの作成には以下に示す2通りの方法がある。   Based on the search log, the co-occurrence query list acquisition unit 221 sets, for each search word, a co-occurrence query that is another search word combined with the search word and used for the search, and the co-occurrence query is combined with the search word. A co-occurrence query list associated with the co-occurrence frequency, which is the frequency used for the search after being combined, is created (S13 to S15). There are the following two methods for creating the co-occurrence query list.

上述した検索サーバ30のサービスを利用しない場合には(S13)、共起クエリリスト作成部221は、自ら共起情報格納部213に記録された共起情報を集計して、検索語リスト格納部214に記録された検索に使用された回数が多い検索語から優先的に共起クエリリストを作成する(S14)。図9は実施形態に係る共起クエリリストを示す図であり、m個の検索語(w,w,…w)に対して、n個の共起クエリ(c,c,…c)とその共起頻度の対数aijとが関連付けられている。具体的には、例えば、図10に示すように、検索語「JAL」に対して、共起クエリ「羽田空港」、「運行状況」、「運賃」等がその共起頻度とともに関連付けられたリストが作成される。作成された共起クエリリストは共起クエリリスト格納部222に格納される。 When the service of the search server 30 described above is not used (S13), the co-occurrence query list creation unit 221 aggregates the co-occurrence information recorded in the co-occurrence information storage unit 213 and searches the search word list storage unit. A co-occurrence query list is preferentially created from search terms frequently used in the search recorded in 214 (S14). FIG. 9 is a diagram illustrating a co-occurrence query list according to the embodiment. For m search terms (w 1 , w 2 ,... W m ), n co-occurrence queries (c 1 , c 2 , ... c n ) and the logarithm a ij of the co-occurrence frequency are associated with each other. Specifically, for example, as shown in FIG. 10, a list in which the co-occurrence queries “Haneda Airport”, “service status”, “fare”, and the like are associated with the search word “JAL” together with the co-occurrence frequency. Is created. The created co-occurrence query list is stored in the co-occurrence query list storage unit 222.

一方、上述した検索サーバ30のサービスを利用する場合には(S13)、共起クエリリスト作成部221は検索サーバ30に要求に対し、検索ログDB302を参照し、一つの検索語に対して検索クエリとして組合わされて検索に使用された検索語である共起クエリを、その検索語に対して組合わされて検索に使用された回数である共起頻度が上位である順番にユーザ端末10に提示する。共起クエリリスト作成部221は、この提示された情報に基づいて共起クエリリストを作成する(S15)。この場合、共起クエリリスト作成部221は、共起クエリが検索語と組み合わされて検索に使用された順位を得ることができるだけで、共起頻度の具体的な数値を得ることはできないが、検索ログの集計を検索サーバ30に処理させることにより、ユーザ端末10側での処理の負担が軽減される。また、この場合は、検索語クラスタリング装置に接続されている構成として、検索サーバ30を有しなくても良くなる。   On the other hand, when using the service of the search server 30 described above (S13), the co-occurrence query list creating unit 221 searches the search server 30 for a single search term in response to a request to the search server 30. Co-occurrence queries, which are search terms combined as a query and used for a search, are presented to the user terminal 10 in the order in which the co-occurrence frequency, which is the number of times combined with the search word and used for the search, is higher. To do. The co-occurrence query list creation unit 221 creates a co-occurrence query list based on the presented information (S15). In this case, the co-occurrence query list creation unit 221 can only obtain the rank used for the search by combining the co-occurrence query with the search term, and cannot obtain a specific numerical value of the co-occurrence frequency. By causing the search server 30 to process the search log aggregation, the processing load on the user terminal 10 side is reduced. In this case, the search server 30 may not be provided as a configuration connected to the search word clustering apparatus.

共起クエリ行列作成部231は、共起クエリリスト格納部222に記録された共起クエリリストに基づいて、m個の検索語(w,w,…w)を行とし、n個の共起クエリ(c,c,…c)を列とし、検索語wと共起クエリcとが共起する共起頻度の対数を成分aijとする共起クエリ行列を作成する(S16)。このように共起頻度の対数を成分aijとする共起クエリ行列を作成することにより、後段のクラスタリングの処理を高精度で行うことができる。なお、上述した検索サーバ30のサービスを利用して共起クエリリストを作成した場合には、共起クエリの共起頻度の具体的な数値を得ることはできないため、共起クエリ行列の成分は、図11に示すように、例えば、検索語「楽天」に対して共起クエリ「ドレス」が組み合わされて検索に使用されたことがある場合は、当該成分は「1」とされる。 Based on the co-occurrence query list recorded in the co-occurrence query list storage unit 222, the co-occurrence query matrix creation unit 231 takes m search terms (w 1 , w 2 ,... W m ) as rows and n Are co-occurrence queries (c 1 , c 2 ,..., C n ), and a co-occurrence query matrix having a component a ij as a logarithm of the co-occurrence frequency at which the search word w i and the co-occurrence query c j co-occur. Create (S16). Thus, by creating a co-occurrence query matrix having the logarithm of the co-occurrence frequency as a component a ij , the subsequent clustering process can be performed with high accuracy. Note that when the co-occurrence query list is created using the service of the search server 30 described above, a specific numerical value of the co-occurrence frequency of the co-occurrence query cannot be obtained. As shown in FIG. 11, for example, when the co-occurrence query “dress” is combined with the search word “Rakuten” and used for the search, the component is set to “1”.

頻度分析・ベクトル標準化部232は、共起クエリ行列の行ベクトルである共起クエリベクトル(ai1,ai2,…ain)の共起頻度からベクトル長を算出し、各々の共起クエリベクトルのベクトル長を標準化して同一のものとする(S17)。ベクトル次元数削減部233は、共起頻度が予め設定した閾値以下になるほど低い共起クエリの共起頻度をベクトル成分から除去し、ベクトル次元数を削減する(S18)。このベクトル次元数の削減を行う処理においては、他にも、Harwell-Boeing形式などの圧縮表現と、ランチョス法などの効率的な固有値計算手法、特異値計算手法を利用した主成分分析や潜在意味解析を行うことにより、少ないメモリ空間で高速に処理を行うことができ、基底変換により相関の高い共起クエリを同じ基底として扱うことにより、クラスタリング精度の向上が期待できる。あるいは、このベクトル次元数の削減を行う処理においては、非ゼロ要素以外の次元のみを計算する方法を行うこともできる。この手法によれば、より単純なロジックで高速にユークリッド距離を計算することができる。 The frequency analysis / vector standardization unit 232 calculates a vector length from the co-occurrence frequencies of the co-occurrence query vectors (a i1 , a i2 ,... A in ) that are row vectors of the co-occurrence query matrix, and each co-occurrence query vector Are standardized to be the same (S17). The vector dimension number reduction unit 233 removes the co-occurrence frequency of the co-occurrence query, which is so low that the co-occurrence frequency is equal to or lower than a preset threshold value, from the vector component, and reduces the vector dimension number (S18). In the process of reducing the number of vector dimensions, there are other principal expressions such as Harwell-Boeing format, efficient eigenvalue calculation methods such as Ranchos method, principal component analysis using singular value calculation methods and latent meanings. By performing analysis, it is possible to perform processing at high speed in a small memory space, and by treating co-occurrence queries with high correlation by the basis conversion as the same base, an improvement in clustering accuracy can be expected. Alternatively, in the process of reducing the number of vector dimensions, a method of calculating only dimensions other than non-zero elements can be performed. According to this method, the Euclidean distance can be calculated at high speed with simpler logic.

ユークリッド距離算出部234は、各々の共起クエリベクトル同士のユークリッド距離を算出する(S19)。図12は、実施形態に係るユークリッド距離による共起クエリベクトル間の距離を表現した表である。図12に示すように、例えば、検索語「ヤフー」と検索語「YAHOO」とのユークリッド距離は、共起クエリとその共起頻度が一致する度合が大きいため1.414214と小さいことが判る。一方、検索語「地図」と検索語「GOOGLE」とのユークリッド距離は、共起クエリとその共起頻度が一致する度合が少ないため2.449490と大きいことが判る。   The Euclidean distance calculation unit 234 calculates the Euclidean distance between the co-occurrence query vectors (S19). FIG. 12 is a table expressing the distance between co-occurrence query vectors based on the Euclidean distance according to the embodiment. As shown in FIG. 12, for example, the Euclidean distance between the search term “Yahoo” and the search term “YAHOO” is small as 1.414214 because the degree of coincidence between the co-occurrence query and the co-occurrence frequency is large. On the other hand, it can be seen that the Euclidean distance between the search term “map” and the search term “GOOGLE” is as large as 2.449490 because the degree of coincidence between the co-occurrence query and the co-occurrence frequency is small.

階層型クラスタリング部235は、算出された共起クエリベクトルそれぞれ同士のユークリッド距離に基づいて、検索語それぞれについてウォード(Ward)法による階層型クラスタリングを行う(S20)。   The hierarchical clustering unit 235 performs hierarchical clustering by the Ward method for each search word based on the calculated Euclidean distance between the co-occurrence query vectors (S20).

クラスタリングによって得られたデータが小規模である場合は(S21)、樹形図出力部241は、階層型クラスタリングの結果を図13及び図15に示すような樹形図として出力する(S22)。例えば、図13においては、検索語「ヤフー」と検索語「YAHOO」とは樹形図において隣接して示され、その上位には検索語「OCN」が隣接して示されており、これらの語が類似する語であることが示されている。   If the data obtained by clustering is small (S21), the tree diagram output unit 241 outputs the result of hierarchical clustering as a tree diagram as shown in FIGS. 13 and 15 (S22). For example, in FIG. 13, the search term “Yahoo” and the search term “YAHOO” are shown adjacently in the tree diagram, and the search term “OCN” is shown adjacently above them. The words are shown to be similar words.

一方、クラスタリングによって得られたデータが大規模である場合は(S21)、クラスタ形成順序解析部242は、階層型クラスタリングの結果からクラスタ形成順序を解析し(S23)、図14及び図16に示すような階層構造の番号として出力する(S24)。図16は図15の樹形図に対応している。階層構造の番号は、樹形図の分岐の方向を「0」と「1」とで表現したものである。例えば、図16の検索語「新宿」の階層構造番号「0000」と、検索語「池袋」の階層構造番号「0001」とは、途中の分岐は同じ「0」の方向を辿り、最後の分岐で「0」と「1」との異なる方向に分かれたことを示す。   On the other hand, when the data obtained by the clustering is large (S21), the cluster formation order analysis unit 242 analyzes the cluster formation order from the result of the hierarchical clustering (S23), and is shown in FIGS. Such a hierarchical structure number is output (S24). FIG. 16 corresponds to the tree diagram of FIG. The number of the hierarchical structure expresses the branching direction of the tree diagram as “0” and “1”. For example, the hierarchical structure number “0000” of the search word “Shinjuku” and the hierarchical structure number “0001” of the search word “Ikebukuro” in FIG. This indicates that “0” and “1” are separated in different directions.

本実施形態によれば、検索ログ取得部211は、不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバ30において複数の検索語の組合せそれぞれにより検索を行った頻度を記録した検索ログを取得し、共起クエリリスト作成部221は、検索ログ取得部211が取得した検索ログに基づいて、検索語それぞれについて、検索語と組合わされて検索に用いられた他の検索語である共起クエリと、共起クエリが検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成するため、文書に対する形態素解析の精度に影響されずに、不特定のユーザにより検索語と組合わされて検索に用いられた共起クエリと当該共起クエリの共起頻度とを取得することができる。   According to the present embodiment, the search log acquisition unit 211 performs a search by each of a plurality of combinations of search terms in the search server 30 that searches a web page by a combination of a plurality of search terms specified by an unspecified user. The co-occurrence query list creation unit 221 used the search log in combination with the search word for each search word based on the search log acquired by the search log acquisition unit 211. Morphological analysis on documents to create a co-occurrence query list that associates co-occurrence queries, which are other search terms, and co-occurrence frequencies, which are frequencies that are combined with the search terms and used in the search. Acquire the co-occurrence query used in the search by combining with the search term by an unspecified user and the co-occurrence frequency of the co-occurrence query without being affected by the accuracy of It can be.

また、共起クエリ行列作成部231は、共起クエリリスト作成部221が作成した共起クエリリストに基づいて、検索語のn個の共起クエリそれぞれの共起頻度をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成するため、後段の解析に適するように共起クエリリストを定量化することができる。また、頻度分析・ベクトル標準化部232は、共起クエリ行列作成部231が作成した検索語それぞれについての共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するため、共起クエリベクトルのベクトル長の大小によって、検索語クラスタリングに誤差が生じることを防止することができる。   In addition, the co-occurrence query matrix creation unit 231 has an n dimension based on the co-occurrence frequency of each of the n co-occurrence queries of the search word based on the co-occurrence query list created by the co-occurrence query list creation unit 221. Since the co-occurrence query vector, which is a vector, is created, the co-occurrence query list can be quantified so as to be suitable for later analysis. Further, the frequency analysis / vector standardization unit 232 performs standardization so that the vector lengths of the co-occurrence query vectors for the search terms created by the co-occurrence query matrix creation unit 231 are the same. Depending on the length, it is possible to prevent an error from occurring in search word clustering.

さらに、ユークリッド距離算出部234は、頻度分析・ベクトル標準化部232が標準化した検索語それぞれについての共起クエリベクトルそれぞれ同士のユークリッド距離を算出し、階層型クラスタリング部235は、ユークリッド距離算出部234が算出したユークリッド距離に基づいて、検索語それぞれについてクラスタリングを行うため、ユークリッド距離が近い共起クエリベクトルに係る検索語同士は、共起クエリとその共起頻度が一致する度合が大きく、類似すると推測することができ、文書に対する形態素解析の精度に影響されずに、不特定のユーザにより検索語と組合わされて検索に用いられた共起クエリと当該共起クエリの共起頻度とに基づいて、検索語の分類を精度良く行うことができる。これによって、Web検索の補助という用途に合った検索語の分類情報を取得することができる。   Further, the Euclidean distance calculation unit 234 calculates the Euclidean distance between the co-occurrence query vectors for each search term standardized by the frequency analysis / vector standardization unit 232, and the hierarchical clustering unit 235 includes the Euclidean distance calculation unit 234. Clustering is performed for each search term based on the calculated Euclidean distance, so it is assumed that the search terms related to the co-occurrence query vectors with close Euclidean distances have a high degree of coincidence between the co-occurrence queries and the co-occurrence frequencies. Based on the co-occurrence query used in the search combined with the search word by an unspecified user and the co-occurrence frequency of the co-occurrence query without being affected by the accuracy of the morphological analysis on the document, Search terms can be classified with high accuracy. As a result, it is possible to acquire search term classification information suitable for the purpose of assisting Web search.

すなわち、本実施形態によれば、文書の形態素解析の必要がないため、処理負担が軽減され、高精度で大規模なクラスタリング処理が可能となる。また、本実施形態によれば、文書の形態素解析の必要がなく、不特定多数のユーザの検索による検索ログに基づいてクラスタリングを行うため、未知語に対しても有効である。さらに、本実施形態によれば、従来より簡素なアルゴリズムでクラスタリングを行うことができ、共起クエリ行列の形で各々の検索語を表現しているため、他のクラスタリング手法や類似度判定等の様々な解析を簡単に行うことができる。   That is, according to the present embodiment, since there is no need for document morphological analysis, the processing load is reduced, and high-precision and large-scale clustering processing is possible. Further, according to the present embodiment, there is no need for morphological analysis of a document, and clustering is performed based on a search log obtained by searching for an unspecified number of users, so that it is also effective for unknown words. Furthermore, according to the present embodiment, clustering can be performed with a simpler algorithm than before, and each search term is expressed in the form of a co-occurrence query matrix. Therefore, other clustering methods, similarity determination, etc. Various analyzes can be easily performed.

また、本実施形態によれば、共起クエリリスト作成部221は、検索ログ取得部211が取得した検索ログから検索語それぞれを抽出し、抽出した検索語それぞれについて装置外部の検索サーバ30が集計した共起クエリと共起クエリの共起頻度とを取得することにより共起クエリリストを作成することができるため、共起クエリリスト作成部211自体が検索ログを集計する必要がなくなり、処理負担を軽減することができる。また、検索語クラスタリング装置に接続されている構成として、検索サーバ30を有しなくても良くなる。あるいは、本実施形態では、共起クエリリスト作成部221は、検索ログ取得部211が取得した検索ログから、検索語それぞれについての共起クエリと共起クエリの共起頻度とを自ら集計することにより共起クエリリストを作成することが可能ため、後段の処理に適した共起クエリリストを作成することが可能となる。   Further, according to the present embodiment, the co-occurrence query list creation unit 221 extracts each search term from the search log acquired by the search log acquisition unit 211, and the search server 30 outside the apparatus totals each extracted search term. The co-occurrence query list can be created by acquiring the co-occurrence query and the co-occurrence frequency of the co-occurrence query, so that the co-occurrence query list creation unit 211 itself does not need to add up the search log, and processing load Can be reduced. Further, as a configuration connected to the search word clustering device, the search server 30 need not be provided. Alternatively, in the present embodiment, the co-occurrence query list creation unit 221 adds up the co-occurrence query for each search term and the co-occurrence frequency of the co-occurrence query from the search log acquired by the search log acquisition unit 211. Thus, a co-occurrence query list can be created, so that a co-occurrence query list suitable for subsequent processing can be created.

さらに、本実施形態によれば、ベクトル次元数削減部233は、共起クエリ行列作成部231が作成した共起クエリベクトルから共起頻度が閾値以下である共起クエリの共起頻度をベクトル成分から削除するため、検索語のクラスタリングに適さない共起頻度が低過ぎる共起クエリをクラスタリングの処理から除くことができ、クラスタリングの精度を向上させ、装置の処理負担を軽減することができる。   Furthermore, according to the present embodiment, the vector dimension number reduction unit 233 calculates the co-occurrence frequency of the co-occurrence query whose co-occurrence frequency is equal to or less than the threshold from the co-occurrence query vector created by the co-occurrence query matrix creation unit 231 as a vector component. Therefore, a co-occurrence query whose co-occurrence frequency that is not suitable for search word clustering is too low can be excluded from the clustering process, the clustering accuracy can be improved, and the processing load of the apparatus can be reduced.

加えて、本実施形態では、階層型クラスタリング部235は、検索語それぞれについてウォード(Ward)法によりクラスタリングを行うため、高精度でクラスタリングを行うことができる。   In addition, in the present embodiment, the hierarchical clustering unit 235 performs clustering with respect to each search word by the Ward method, so that clustering can be performed with high accuracy.

本実施形態の検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体によれば、検索における検索語拡張や上位階層・下位階層へのナビゲーションなど、検索アプリケーションにおけるフロントエンドでの検索質問拡張に用いることができる。また、本実施形態によれば、検索に用いられる索引語へメタデータとして階層型の分類番号を付加することにより、語の意味を考慮した高速検索を行う事もできる。その他、本実施形態は、分類情報そのものをシソーラスとして、もしくはシソーラス作成の補助として用いることも可能である。   According to the search word clustering apparatus, search word clustering method, search word clustering program, and recording medium of the present embodiment, the search query at the front end in the search application such as search word expansion in search and navigation to upper and lower hierarchies Can be used for expansion. In addition, according to the present embodiment, by adding a hierarchical classification number as metadata to the index word used for the search, it is possible to perform a high-speed search in consideration of the meaning of the word. In addition, in the present embodiment, the classification information itself can be used as a thesaurus or as an aid for creating a thesaurus.

以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に限定されるものではなく種々の変形が可能である。例えば、上記実施形態では、検索サーバからネットワークを介して直接的に検索ログを取得する形態を中心に説明したが、本発明はこれに限定されるものではなく、例えば、検索語クラスタリングを行う際に、検索ログを記録したハードディスク等の記録媒体を検索サーバから検索語クラスタリング装置に移動し、当該記録媒体から検索ログを検索語クラスタリング装置に読み込ませるようにしても良い。   Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications can be made. For example, in the above-described embodiment, the description has been made centering on a mode in which a search log is directly acquired from a search server via a network. However, the present invention is not limited to this, for example, when performing search word clustering. Alternatively, a recording medium such as a hard disk in which the search log is recorded may be moved from the search server to the search word clustering apparatus, and the search log may be read from the recording medium by the search word clustering apparatus.

また、上記実施形態では、ユーザ端末が検索語クラスタリング装置としての機能を果たす形態を中心に説明したが、本発明はこれに限定されるものではなく、例えば、検索サーバあるいは検索サーバとは別個のサーバ内において、本発明の検索語クラスタリング方法により検索ログに基づいて検索語のクラスタリングを行なうものとしても良い。この場合、検索語クラスタリングにより得られた検索語同士の類似関係を用いてその後のユーザ端末からの要求による検索を行い、さらにその結果得られた検索ログに基づいて本発明の検索語クラスタリング方法により検索語のクラスタリングを随時行うことにより、検索語クラスタリング及びシソーラスのアップデートを行うことができる。   Further, in the above-described embodiment, the description has been focused on the mode in which the user terminal functions as a search word clustering device. However, the present invention is not limited to this, and for example, is separate from the search server or the search server. In the server, search word clustering may be performed based on the search log by the search word clustering method of the present invention. In this case, the search term clustering method of the present invention is performed based on the search log obtained as a result of performing a search based on a request from the user terminal using the similarity relationship between the search terms obtained by the search term clustering. Search word clustering and thesaurus updates can be performed by performing search word clustering as needed.

実施形態に係る検索システムの構成を示す図である。It is a figure showing composition of a search system concerning an embodiment. 実施形態に係る検索サーバの機能ブロックを示すブロック図である。It is a block diagram which shows the functional block of the search server which concerns on embodiment. 実施形態に係るユーザ端末のハードウェアの構成を示すブロック図である。It is a block diagram which shows the structure of the hardware of the user terminal which concerns on embodiment. 実施形態に係るユーザ端末の機能ブロックを示すブロック図である。It is a block diagram which shows the functional block of the user terminal which concerns on embodiment. 実施形態に係るユーザ端末の動作を示すフロー図である。It is a flowchart which shows operation | movement of the user terminal which concerns on embodiment. 実施形態に係る検索サーバの検索ログの例を示す図である。It is a figure which shows the example of the search log of the search server which concerns on embodiment. 実施形態に係る検索語の共起情報を示す図である。It is a figure which shows the co-occurrence information of the search word which concerns on embodiment. 実施形態に係る検索語のランキングを示す図である。It is a figure which shows the ranking of the search word which concerns on embodiment. 実施形態に係る共起クエリリストを示す図である。It is a figure which shows the co-occurrence query list which concerns on embodiment. 実施形態に係る共起クエリリストの例を示す図である。It is a figure which shows the example of the co-occurrence query list which concerns on embodiment. 実施形態に係る共起クエリ行列の例を示す図である。It is a figure which shows the example of the co-occurrence | production query matrix which concerns on embodiment. 実施形態に係るユークリッド距離による共起クエリベクトル間の距離を表現した表である。It is the table | surface expressing the distance between the co-occurrence query vectors by the Euclidean distance which concerns on embodiment. 実施形態に係る検索サーバのサービスを利用して作成した単語の階層構造を示す樹形図である。It is a tree diagram which shows the hierarchical structure of the word produced using the service of the search server which concerns on embodiment. 実施形態に係る検索サーバのサービスを利用して作成した単語の階層構造を番号で示した図である。It is the figure which showed the hierarchical structure of the word produced using the service of the search server which concerns on embodiment with the number. 実施形態に係る検索ログの共起情報を集計して作成した単語の階層構造を示す樹形図である。It is a dendrogram showing a hierarchical structure of words created by aggregating co-occurrence information of search logs according to the embodiment. 実施形態に係る検索ログの共起情報を集計して作成した単語の階層構造を番号で示した図である。It is the figure which showed the hierarchical structure of the word created by totaling the co-occurrence information of the search log which concerns on embodiment with the number.

符号の説明Explanation of symbols

10…ユーザ端末、20…ネットワーク、30…検索サーバ、40…情報ホストコンピュータ、101…インターフェース、102…キーボード、103…マウス、104…ハードディスク、105…CD−ROMドライブ、106…メモリカードスロット、107…ROM、108…RAM、109…表示装置、110…CPU、210…ログ解析ブロック、211…検索ログ取得部、212…検索ログ解析部、213…共起情報格納部、214…検索語リスト格納部、220…共起クエリ取得ブロック、221…共起クエリリスト作成部、222…共起クエリリスト格納部、230…クラスタ分析ブロック、231…共起クエリ行列作成部、232…頻度分析・ベクトル標準化部、233…ベクトル次元数削減部、234…ユークリッド距離算出部、235…階層型クラスタリング部、240…出力ブロック、241…樹形図出力部、242…クラスタ形成順序解析部、243…階層構造番号データ格納部、301…検索制御部、302…検索ログDB、303…情報収集制御部、304…収集情報DB。 DESCRIPTION OF SYMBOLS 10 ... User terminal, 20 ... Network, 30 ... Search server, 40 ... Information host computer, 101 ... Interface, 102 ... Keyboard, 103 ... Mouse, 104 ... Hard disk, 105 ... CD-ROM drive, 106 ... Memory card slot, 107 ... ROM, 108 ... RAM, 109 ... display device, 110 ... CPU, 210 ... log analysis block, 211 ... search log acquisition unit, 212 ... search log analysis unit, 213 ... co-occurrence information storage unit, 214 ... store search term list 220: Co-occurrence query acquisition block, 221 ... Co-occurrence query list creation unit, 222 ... Co-occurrence query list storage unit, 230 ... Cluster analysis block, 231 ... Co-occurrence query matrix creation unit, 232 ... Frequency analysis / vector standardization Part, 233... Vector dimension number reduction part, 234. Separate calculation unit, 235 ... Hierarchical clustering unit, 240 ... Output block, 241 ... Tree diagram output unit, 242 ... Cluster formation order analysis unit, 243 ... Hierarchical structure number data storage unit, 301 ... Search control unit, 302 ... Search Log DB, 303... Information collection control unit, 304... Collection information DB.

Claims (16)

不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて前記複数の検索語の組合せそれぞれにより検索を行った記録である検索ログを取得する検索ログ取得手段と、
前記検索ログ取得手段が取得した前記検索ログに基づいて、前記検索語それぞれについて、前記検索語と組合わされて検索に用いられた他の検索語である共起クエリと、前記共起クエリが前記検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する共起クエリリスト作成手段と、
前記共起クエリリスト作成手段が作成した前記共起クエリリストに基づいて、前記検索語のn個の前記共起クエリそれぞれの前記共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成する共起クエリベクトル作成手段と、
前記共起クエリベクトル作成手段が作成した前記検索語それぞれについての前記共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するベクトル標準化手段と、
前記ベクトル標準化手段が標準化した前記検索語それぞれについての前記共起クエリベクトルそれぞれ同士のユークリッド距離を算出するユークリッド距離算出手段と、
前記ユークリッド距離算出手段が算出した前記ユークリッド距離に基づいて、前記検索語それぞれについてクラスタリングを行うクラスタリング手段と、
を備えた検索語クラスタリング装置。
Search log acquisition means for acquiring a search log that is a record of a search performed by each combination of the plurality of search terms in a search server that searches a web page by a combination of a plurality of search terms specified by an unspecified user; ,
Based on the search log acquired by the search log acquisition means, for each of the search terms, a co-occurrence query that is another search term used in a search combined with the search term, and the co-occurrence query is the A co-occurrence query list creation means for creating a co-occurrence query list associated with a co-occurrence frequency that is a frequency used in a search combined with a search term;
Based on the co-occurrence query list created by the co-occurrence query list creation means, an n-dimensional vector having a numerical value based on the co-occurrence frequency of each of the n co-occurrence queries of the search word as a vector component A co-occurrence query vector creating means for creating a co-occurrence query vector;
Vector standardization means for standardizing the co-occurrence query vectors for each of the search terms created by the co-occurrence query vector creation means so that the vector lengths of the co-occurrence query vectors are the same;
Euclidean distance calculation means for calculating the Euclidean distance between the co-occurrence query vectors for each of the search terms standardized by the vector standardization means;
Clustering means for performing clustering for each of the search terms based on the Euclidean distance calculated by the Euclidean distance calculating means;
A search term clustering device comprising:
前記共起クエリリスト作成手段は、前記検索ログ取得手段が取得した前記検索ログから前記検索語それぞれを抽出し、抽出した前記検索語それぞれについて前記検索サーバが集計した前記共起クエリと前記共起クエリの共起頻度とを取得することにより前記共起クエリリストを作成する、請求項1に記載の検索語クラスタリング装置。   The co-occurrence query list creation unit extracts each of the search terms from the search log acquired by the search log acquisition unit, and the co-occurrence query and the co-occurrence tabulated by the search server for each of the extracted search terms. The search word clustering apparatus according to claim 1, wherein the co-occurrence query list is created by acquiring a co-occurrence frequency of a query. 前記共起クエリリスト作成手段は、前記検索ログ取得手段が取得した前記検索ログから、前記検索語それぞれについての前記共起クエリと前記共起クエリの共起頻度とを集計することにより前記共起クエリリストを作成する、請求項1に記載の検索語クラスタリング装置。   The co-occurrence query list creation unit aggregates the co-occurrence query and the co-occurrence frequency of the co-occurrence query for each of the search terms from the search log acquired by the search log acquisition unit. The search word clustering apparatus according to claim 1, wherein the search word clustering apparatus creates a query list. 前記共起クエリベクトル作成手段が作成した前記共起クエリベクトルから前記共起頻度に基づいた数値が閾値以下である前記共起クエリの前記共起頻度に基づいた数値をベクトル成分から削除するベクトル次元数削減手段をさらに備えた、請求項1〜3のいずれか1項に記載の検索語クラスタリング装置。   A vector dimension that deletes a numerical value based on the co-occurrence query of the co-occurrence query whose numerical value based on the co-occurrence frequency is equal to or less than a threshold from the co-occurrence query vector generated by the co-occurrence query vector generating unit from a vector component The search word clustering device according to any one of claims 1 to 3, further comprising number reduction means. 前記クラスタリング手段は、前記検索語それぞれについてウォード(Ward)法によりクラスタリングを行うものである、請求項1〜4のいずれか1項に記載の検索語クラスタリング装置。   The search word clustering apparatus according to claim 1, wherein the clustering means performs clustering for each of the search words by a Ward method. コンピュータが、不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて前記複数の検索語の組合せそれぞれにより検索を行った記録である検索ログを取得する検索ログ取得ステップと、
コンピュータが、前記検索ログ取得ステップで取得した前記検索ログに基づいて、前記検索語それぞれについて、前記検索語と組合わされて検索に用いられた他の検索語である共起クエリと、前記共起クエリが前記検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する共起クエリリスト作成ステップと、
コンピュータが、前記共起クエリリスト作成ステップで作成した前記共起クエリリストに基づいて、前記検索語のn個の前記共起クエリそれぞれの前記共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成する共起クエリベクトル作成ステップと、
コンピュータが、前記共起クエリベクトル作成ステップで作成した前記検索語それぞれについての前記共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するベクトル標準化ステップと、
コンピュータが、前記ベクトル標準化ステップで標準化した前記検索語それぞれについての前記共起クエリベクトルそれぞれ同士のユークリッド距離を算出するユークリッド距離算出ステップと、
コンピュータが、前記ユークリッド距離算出ステップで算出した前記ユークリッド距離に基づいて、前記検索語それぞれについてクラスタリングを行うクラスタリングステップと、
を含む検索語クラスタリング方法。
A search log for acquiring a search log that is a record of a search performed by each combination of a plurality of search terms in a search server that searches a web page by a combination of a plurality of search terms specified by an unspecified user An acquisition step;
Based on the search log acquired in the search log acquisition step by the computer, for each of the search terms, a co-occurrence query that is another search term combined with the search term and used for the search, and the co-occurrence A co-occurrence query list creation step for creating a co-occurrence query list associated with a co-occurrence frequency that is a frequency used in a search by combining a query with the search term;
Based on the co-occurrence query list created in the co-occurrence query list creation step by the computer, n-dimensions having numerical values based on the co-occurrence frequencies of the n co-occurrence queries of the search term as vector components A co-occurrence query vector creation step for creating a co-occurrence query vector that is a vector;
A vector standardization step in which a computer standardizes the vector length of each of the co-occurrence query vectors for each of the search terms created in the co-occurrence query vector creation step;
A Euclidean distance calculating step in which a computer calculates an Euclidean distance between the co-occurrence query vectors for each of the search terms standardized in the vector standardization step;
A clustering step in which the computer performs clustering for each of the search terms based on the Euclidean distance calculated in the Euclidean distance calculation step;
Search word clustering method including
前記共起クエリリスト作成ステップは、コンピュータが、前記検索ログ取得ステップで取得した前記検索ログから前記検索語それぞれを抽出し、抽出した前記検索語それぞれについて前記検索サーバが集計した前記共起クエリと前記共起クエリの共起頻度とを取得することにより前記共起クエリリストを作成する、請求項6に記載の検索語クラスタリング方法。   In the co-occurrence query list creation step, the computer extracts each of the search terms from the search log acquired in the search log acquisition step, and the co-occurrence queries totaled by the search server for each of the extracted search terms and The search word clustering method according to claim 6, wherein the co-occurrence query list is created by acquiring the co-occurrence frequency of the co-occurrence query. 前記共起クエリリスト作成ステップは、コンピュータが、前記検索ログ取得ステップで取得した前記検索ログから、前記検索語それぞれについての前記共起クエリと前記共起クエリの共起頻度とを集計することにより前記共起クエリリストを作成する、請求項6に記載の検索語クラスタリング方法。   In the co-occurrence query list creation step, the computer totals the co-occurrence query and the co-occurrence frequency of the co-occurrence query for each of the search terms from the search log acquired in the search log acquisition step. The search word clustering method according to claim 6, wherein the co-occurrence query list is created. コンピュータが、前記共起クエリベクトル作成ステップで作成した前記共起クエリベクトルから前記共起頻度に基づいた数値が閾値以下である前記共起クエリの前記共起頻度に基づいた数値をベクトル成分から削除するベクトル次元数削減ステップをさらに含む、請求項6〜8のいずれか1項に記載の検索語クラスタリング方法。   The computer deletes the numerical value based on the co-occurrence query of the co-occurrence query whose numerical value based on the co-occurrence frequency is equal to or less than a threshold from the co-occurrence query vector generated in the co-occurrence query vector generation step from the vector component The search word clustering method according to any one of claims 6 to 8, further comprising a vector dimension number reduction step. 前記クラスタリングステップは、コンピュータが、前記検索語それぞれについてウォード(Ward)法によりクラスタリングを行う、請求項6〜9のいずれか1項に記載の検索語クラスタリング方法。   10. The search word clustering method according to claim 6, wherein in the clustering step, the computer performs clustering for each of the search words by a Ward method. 11. 不特定のユーザにより指定された複数の検索語の組合せによってウェブページの検索を行う検索サーバにおいて前記複数の検索語の組合せそれぞれにより検索を行った記録である検索ログを取得する検索ログ取得ステップと、
前記検索ログ取得ステップで取得した前記検索ログに基づいて、前記検索語それぞれについて、前記検索語と組合わされて検索に用いられた他の検索語である共起クエリと、前記共起クエリが前記検索語と組合わされて検索に用いられた頻度である共起頻度とが関連付けられた共起クエリリストを作成する共起クエリリスト作成ステップと、
前記共起クエリリスト作成ステップで作成した前記共起クエリリストに基づいて、前記検索語のn個の前記共起クエリそれぞれの前記共起頻度に基づいた数値をベクトル成分とするn次元ベクトルである共起クエリベクトルを作成する共起クエリベクトル作成ステップと、
前記共起クエリベクトル作成ステップで作成した前記検索語それぞれについての前記共起クエリベクトルそれぞれのベクトル長が同一となるように標準化するベクトル標準化ステップと、
前記ベクトル標準化ステップで標準化した前記検索語それぞれについての前記共起クエリベクトルそれぞれ同士のユークリッド距離を算出するユークリッド距離算出ステップと、
前記ユークリッド距離算出ステップで算出した前記ユークリッド距離に基づいて、前記検索語それぞれについてクラスタリングを行うクラスタリングステップと、
をコンピュータに実行させるための検索語クラスタリングプログラム。
A search log acquisition step of acquiring a search log that is a record of a search performed by each combination of the plurality of search terms in a search server that searches a web page by a combination of a plurality of search terms specified by an unspecified user; ,
Based on the search log acquired in the search log acquisition step, for each of the search terms, a co-occurrence query that is another search term combined with the search term and used for the search, and the co-occurrence query is the A co-occurrence query list creation step for creating a co-occurrence query list associated with a co-occurrence frequency that is a frequency used in a search combined with a search term;
Based on the co-occurrence query list created in the co-occurrence query list creation step, an n-dimensional vector having a numerical value based on the co-occurrence frequency of each of the n co-occurrence queries of the search word as a vector component A co-occurrence query vector creation step for creating a co-occurrence query vector;
A vector standardization step for standardizing the co-occurrence query vectors so as to have the same vector length for each of the search terms created in the co-occurrence query vector creation step;
A Euclidean distance calculation step of calculating a Euclidean distance between the co-occurrence query vectors for each of the search terms standardized in the vector standardization step;
A clustering step of performing clustering for each of the search terms based on the Euclidean distance calculated in the Euclidean distance calculation step;
Search term clustering program to make computer execute.
前記共起クエリリスト作成ステップでは、コンピュータに、前記検索ログ取得ステップで取得した前記検索ログから前記検索語それぞれを抽出させ、抽出した前記検索語それぞれについて前記検索サーバが集計した前記共起クエリと前記共起クエリの共起頻度とを取得することにより前記共起クエリリストを作成させる、請求項11に記載の検索語クラスタリングプログラム。   In the co-occurrence query list creation step, the computer extracts each of the search terms from the search log acquired in the search log acquisition step, and the co-occurrence queries totaled by the search server for each of the extracted search terms and The search word clustering program according to claim 11, wherein the co-occurrence query list is created by acquiring the co-occurrence frequency of the co-occurrence query. 前記共起クエリリスト作成ステップでは、コンピュータに、前記検索ログ取得ステップで取得した前記検索ログから、前記検索語それぞれについての前記共起クエリと前記共起クエリの共起頻度とを集計させることにより前記共起クエリリストを作成させる、請求項11に記載の検索語クラスタリングプログラム。   In the co-occurrence query list creation step, by causing the computer to aggregate the co-occurrence query and the co-occurrence frequency of the co-occurrence query for each of the search terms from the search log acquired in the search log acquisition step. The search word clustering program according to claim 11, wherein the co-occurrence query list is created. コンピュータに、前記共起クエリベクトル作成ステップで作成した前記共起クエリベクトルから前記共起頻度に基づいた数値が閾値以下である前記共起クエリの前記共起頻度に基づいた数値をベクトル成分から削除するベクトル次元数削減ステップをさらに実行させる、請求項11〜13のいずれか1項に記載の検索語クラスタリングプログラム。   The computer deletes, from the vector component, a numerical value based on the co-occurrence frequency of the co-occurrence query whose numerical value based on the co-occurrence frequency is equal to or less than a threshold from the co-occurrence query vector generated in the co-occurrence query vector generation step. The search word clustering program according to claim 11, further causing a vector dimension number reduction step to be executed. 前記クラスタリングステップでは、コンピュータに、前記検索語それぞれについてウォード(Ward)法によりクラスタリングを実行させる、請求項11〜14のいずれか1項に記載の検索語クラスタリングプログラム。   The search word clustering program according to any one of claims 11 to 14, wherein in the clustering step, the computer is caused to perform clustering by a Ward method for each of the search words. 請求項11〜15のいずれか1項に記載の検索語クラスタリングプログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the search word clustering program of any one of Claims 11-15.
JP2007193700A 2007-07-25 2007-07-25 Search word clustering device, method, program and recording medium Pending JP2009031931A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007193700A JP2009031931A (en) 2007-07-25 2007-07-25 Search word clustering device, method, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007193700A JP2009031931A (en) 2007-07-25 2007-07-25 Search word clustering device, method, program and recording medium

Publications (1)

Publication Number Publication Date
JP2009031931A true JP2009031931A (en) 2009-02-12

Family

ID=40402388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007193700A Pending JP2009031931A (en) 2007-07-25 2007-07-25 Search word clustering device, method, program and recording medium

Country Status (1)

Country Link
JP (1) JP2009031931A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092999A1 (en) 2009-02-13 2010-08-19 国立大学法人信州大学 Fiber product which supports photocatalyst, and method for producing same
JP2010231344A (en) * 2009-03-26 2010-10-14 Ntt Docomo Inc Device for preparing reference data for retrieval, information retrieval device, method of preparing reference data for retrieval and information retrieval method
JP2011180901A (en) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for evaluating reusability of experience information
JP2012088854A (en) * 2010-10-18 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Information analysis device, method, and program
JP2013534673A (en) * 2010-06-28 2013-09-05 ヤフー! インコーポレイテッド Infinite browsing
WO2014017128A1 (en) * 2012-07-27 2014-01-30 楽天株式会社 Processing device, processing method, program, and recording medium
CN105955988A (en) * 2016-04-19 2016-09-21 百度在线网络技术(北京)有限公司 Information search method and apparatus
JP2021009574A (en) * 2019-07-01 2021-01-28 ヤフー株式会社 Information processing device, information processing method, and information processing program
WO2022176134A1 (en) * 2021-02-18 2022-08-25 日本電信電話株式会社 Classification device, classification method, and classification program
WO2023238412A1 (en) * 2022-06-10 2023-12-14 日本電信電話株式会社 Classification device, classification method, and classification program
WO2023238413A1 (en) * 2022-06-10 2023-12-14 日本電信電話株式会社 Classification device, classification method, and classification program
WO2023238414A1 (en) * 2022-06-10 2023-12-14 日本電信電話株式会社 Classification device, classification method, and classification program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328221A (en) * 1998-05-14 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> Data retrieval method, device therefor and recording medium
JP2005302042A (en) * 2004-04-15 2005-10-27 Microsoft Corp Term suggestion for multi-sense query
WO2006121702A1 (en) * 2005-05-04 2006-11-16 Google, Inc. Suggesting and refining user input based on original user input

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328221A (en) * 1998-05-14 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> Data retrieval method, device therefor and recording medium
JP2005302042A (en) * 2004-04-15 2005-10-27 Microsoft Corp Term suggestion for multi-sense query
WO2006121702A1 (en) * 2005-05-04 2006-11-16 Google, Inc. Suggesting and refining user input based on original user input

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200700304020; 山口雅史: 'サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化' 電子情報通信学会技術研究報告 Vol.106,No.148, 20060705, pp.121-126, 社団法人電子情報通信学会 *
CSNG200701131018; 有田一平: '検索語の共起情報を利用した単語クラスタリングとWeb検索への応用' 情報処理学会研究報告 Vol.2007,No.76, 20070724, pp.115-120, 社団法人情報処理学会 *
JPN6012035020; 山口雅史: 'サーチエンジンのクエリログを利用した同位語・話題語の発見と可視化' 電子情報通信学会技術研究報告 Vol.106,No.148, 20060705, pp.121-126, 社団法人電子情報通信学会 *
JPN6012035022; 有田一平: '検索語の共起情報を利用した単語クラスタリングとWeb検索への応用' 情報処理学会研究報告 Vol.2007,No.76, 20070724, pp.115-120, 社団法人情報処理学会 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092999A1 (en) 2009-02-13 2010-08-19 国立大学法人信州大学 Fiber product which supports photocatalyst, and method for producing same
JP2010231344A (en) * 2009-03-26 2010-10-14 Ntt Docomo Inc Device for preparing reference data for retrieval, information retrieval device, method of preparing reference data for retrieval and information retrieval method
JP2011180901A (en) * 2010-03-02 2011-09-15 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for evaluating reusability of experience information
JP2013534673A (en) * 2010-06-28 2013-09-05 ヤフー! インコーポレイテッド Infinite browsing
US9355185B2 (en) 2010-06-28 2016-05-31 Yahoo! Inc. Infinite browse
JP2012088854A (en) * 2010-10-18 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Information analysis device, method, and program
WO2014017128A1 (en) * 2012-07-27 2014-01-30 楽天株式会社 Processing device, processing method, program, and recording medium
JP2014026550A (en) * 2012-07-27 2014-02-06 Rakuten Inc Processing device, processing method, and program
CN105955988A (en) * 2016-04-19 2016-09-21 百度在线网络技术(北京)有限公司 Information search method and apparatus
JP2021009574A (en) * 2019-07-01 2021-01-28 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP7177013B2 (en) 2019-07-01 2022-11-22 ヤフー株式会社 Information processing device, information processing method and information processing program
WO2022176134A1 (en) * 2021-02-18 2022-08-25 日本電信電話株式会社 Classification device, classification method, and classification program
WO2022176333A1 (en) * 2021-02-18 2022-08-25 日本電信電話株式会社 Classification device, classification method, and classification program
WO2023238412A1 (en) * 2022-06-10 2023-12-14 日本電信電話株式会社 Classification device, classification method, and classification program
WO2023238413A1 (en) * 2022-06-10 2023-12-14 日本電信電話株式会社 Classification device, classification method, and classification program
WO2023238414A1 (en) * 2022-06-10 2023-12-14 日本電信電話株式会社 Classification device, classification method, and classification program

Similar Documents

Publication Publication Date Title
JP2009031931A (en) Search word clustering device, method, program and recording medium
Xiong et al. Explicit semantic ranking for academic search via knowledge graph embedding
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US11853334B2 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
KR101201037B1 (en) Verifying relevance between keywords and web site contents
US8010534B2 (en) Identifying related objects using quantum clustering
KR101109236B1 (en) Related term suggestion for multi-sense query
CN101449271B (en) Annotated by search
KR101099908B1 (en) System and method for calculating similarity between documents
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
US10860662B2 (en) System, method and computer program product for protecting derived metadata when updating records within a search engine
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
Piskorski et al. Exploring linguistically-lightweight keyword extraction techniques for indexing news articles in a multilingual set-up
Alami et al. Arabic text summarization based on graph theory
JP5869948B2 (en) Passage dividing method, apparatus, and program
JP2007334388A (en) Method and device for clustering, program, and computer-readable recording medium
Li et al. Text document topical recursive clustering and automatic labeling of a hierarchy of document clusters
Ruocco et al. Geo-temporal distribution of tag terms for event-related image retrieval
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Heinzerling et al. Trust, but verify! Better entity linking through automatic verification
Maylawati et al. Feature-based approach and sequential pattern mining to enhance quality of Indonesian automatic text summarization
Anusha et al. Multi-classification and automatic text summarization of Kannada news articles
JP3486406B2 (en) Patent information search device
Yi et al. Discovering missing click-through query language information for web search
Toke et al. Enhancing text mining using side information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130108